본문 바로가기
카테고리 없음

[통계학 공부] 5. 표본분산을 구할 때 n이 아닌 n-1로 나누는 이유

by 김감뀰 2023. 5. 15.
728x90
반응형

표본분산을 구할 때 n이 아닌 n-1로 나누는 이유를 3가지 방식을 통해서 알아볼 거에요. 

6. Why Dividing by N Underestimates the Variance

 

6. Why Dividing by N Underestimates the Variance

1) 표본분산을 구할 때 n이 아닌 n-1로 나누는 이유 (자유도)

$S^{2} = \frac{1}{n-1}\sum_{i = 1}^{n}(x_{i}-\overline{x})^{2}$

 

표본분산은 n개의 편차를 사용하는 것같지만 '편차의 합 = 0'이라는 제약조건 때문에 n-1개의 편차 정보를 사용한다. 
$\sum_{i = 1}^{n}(x_{i}-\overline{x}) = 0$ : 편차의 합이 0이 되어야 하기 때문에 n-1 개의 편차가 정해지면 n번째 편차는 자동으로 정해진다. 
n번째 편차는 단순히 합을 0으로 만들어주는 역할밖에 하지 않기 때문에 사용할 수 없는 정보다. 
n-1 : 자유도 (degreee of freedom)

 

2) 표본분산을 구할 때 n이 아닌 n-1로 나누는 이유 (증명)

$\overline{X}$ 대신에 v를 넣고 그래프를 그린다.

v로 해당 식을 미분한다.

표본분산

이 값은 v에 대한 곡선의 기울기를 알 수 있다.

v로 미분한 값 = 0인 점이 분산이 가장 작은 곳이다.

 

5개의 표본을 뽑는다고 하자 $X_1, X_2, X_3, X_4, X_5$

표준편차

이것을 만족하는 v를 구한다.

표준편차

 

n개의 표본을 뽑는다고 X_1, X_2, X_3, X_4, X_5,...,X_n 했을 때도 결과는 동일하다.

표준편차

v는 n개의 표본의 평균에서 variance가 최소가 된다.

표준편차

따라서 표본의 분산을 n으로 나누면 모분산 보다 항상 값이 작다.

표본평균이 모평균과 동일할 때가 아닌 이상 항상 작은데 그 두 값이 동일할 가능성은 전혀 없다.

따라서 표본의 분산을 n-1로 나누어서 모분산을 추정하는 것이다. 

 

3) 표본분산을 구할 때 n이 아닌 n-1로 나누는 이유 (예)

$\overline{X}$의 위치를 옮겨가면서 분산을 구하고 그래프로 그려보자

표본분산

$\overline{X}$의 값이 보라색 막대의 위치이다. x축은 보라색 막대의 위치이고 y축은 그 때의 분산값이다.

$\overline{X}$가 표본평균일 때 분산이 가장 작다.

표본분산

당연하게도 표본평균이 아닌 모평균의 값으로 분산을 구하면 이 값은 표본평균일때보다 크다.

따라서 우리가 만약 표본 평균을 사용한다면 모분산을 underestimate한 것이된다.

표본평균이 모평균보다 큰 경우에도 동일하다.

 

ref.

1. 통계학의 이해1, 여인권 교수님 

2. statquest Why Dividing by N Underestimates the Variance

 

김감귤

 

728x90
반응형

댓글