표본에 대한 평균, 분산, 왜도, 첨도는 관측된 표본에 대해 계산하는 것으로 실제 분포가 이산형이든, 연속형이든 상관없이 같은 계산을 할 수 있다.
표본 평균(sample mean)
•
관측된 표본의 평균 로 표기하며 다음처럼 구한다.
◦
모집단 분포의 평균을 라고 표현하는 것과 구분된다. 표본 평균은 모집단 평균을 추정하는데 사용된다.
표본 분산(sample variance)
•
관측된 표본의 분산은 으로 표기하며 다음처럼 구한다.
◦
마찬가지로 모집단 분포의 분산을 으로 표기하는 것과 구분된다.
•
위의 값은 편향오차를 가진 편향 표본분산이라고 부른다. 비편향(unbiased) 표본분산은 로 나누어 구한다.
•
이에 대한 증명은 참조 페이지의 분산과 표준편차 항목의 ‘표본 분산의 기댓값’ 참조.
◦
표본 분산의 기댓값이 이 나오기 때문에 분모를 이 아니라 를 써야 한다.
표준 오차(standard error)
•
표준 오차는 표본 평규들의 표준 편차를 의미하고 다음과 같이 계산한다.
◦
표본의 표준 편차를 원소 개수의 제곱근으로 나눈다.
◦
표본 표준편차는 비편향된 것을 사용하지만, 표준오차는 편향된 것을 사용한다.
표본 중앙값(sample median)
•
표본 중앙값은 표본의 가장 중앙에 위치한 값이며, 표본의 개수가 일 때, 다음처럼 구한다.
◦
홀수이면 가운데 오는 값, 짝수이면 가운데의 양 옆의 평균.
표본 최빈값(sample mode)
•
표본 최빈값은 표본에서 가장 빈번하게 나오는 값을 말한다.
◦
유한한 종류의 값만 있으면 최빈값을 쉽게 구할 수 있지만, 연속적인 값을 가지는 데이터에서는 최빈값을 구하기 어렵기 때문에, 일정한 구간으로 나누어 가장 많은 데이터를 가진 구간의 대푯값을 최빈값으로 가정하는 방법을 많이 사용한다.
◦
그러나 구간을 어떻게 나누느냐에 따라 값이 달라질 수 있다.
표본 왜도(sample skewness)
•
표본 왜도는 표본의 비대칭도로 다음과 같이 구한다.
◦
표본 비대칭도가 0이면 분포는 대칭이다.
◦
표본 비대칭도가 음수면 표본 평균을 기준으로 왼쪽에 있는 값을 가진 표본이 나올 가능성이 크다는 뜻이다.
표본 첨도(sample kurtosis)
•
표본 첨도는 데이터가 중앙에 몰린 정도를 의미하고, 직관적인 표현으로는 분포가 정규분포에 비해 얼마나 뾰족한지를 나타낸다.
참고
•
•