평균, 분산, 표준편차 추정하기
저번시간에 모수에 대해서 알아봤다면 이번 시간에는 모평균, 모분산, 모표준편차 추정하는 법에 대해서 알아볼거에요.
5. Estimating the Mean, Variance and Standard Deviation
5. Estimating the Mean, Variance and Standard Deviation
1) Estimating the Mean
1-1) 모평균 구하기
모든 측정값들의 평균을 직접 구하면 되지만 모집단을 모두 구하려면 시간과 돈이 많이 들기 때문에 모집단의 데이터를 구할 수 없다.
따라서 표본에서 모집단의 평균을 추정할 것이다.
1-2) 모평균 추정
표본에서 모평균을 추정하는 방법은 우리가 구한 측정값의 평균을 계산하는 것이다.
이때 추정 평균을 $\overline{X}$ 라고 한다.
모집단 평균을 나타낼 때는 $\mu$ 라고 나타낸다.
추정 평균인 $\overline{X}$ 와 모평균인 $\mu$는 다르다.
표본평균과 모평균
하지만 데이터가 많아질수록 $\overline{X}$는 $\mu$에 가까워진다.
2) Estimating the variance
2-1) 모분산 구하기
모집단을 알 때 분산과 표준편차를 계산해서 곡선을 얼마나 넓게 할지 결정한다.
추정하는 것이 아니라 계산하는 것이다.
데이터들이 모집단의 평균으로부터 얼마나 퍼져있는지를 계산하려고 한다.
모분산 계산 공식
여기서 x는 모집단의 측정값으로, 측정 값 x에서 모집단의 평균을 뺀다.
편차의 제곱의 평균을 구하기 위해 n으로 나눠준다.
각 데이터들과 모집단의 평균의 차이 제곱의 평균을 계산했다.
표본분산은 편차의 제곱합을 이용하기 때문에 분산의 단위는 관측값 단위의 제곱이다.
표본분산의 값을 보고 자료가 얼마나 퍼져있는지 직관적으로 파악하기 어렵다.
눈으로 이해하는 산포와 일치시키기 위해서는 자료를 측정할 때의 단위로 변환시켜 표시하는 것이 좋다.
x축의 단위가 제곱이 아니기 때문에 분산을 그래프 위에 표시할 수 없다.
이 문제를 해결하기 위해 루트를 씌었고 이것이 모집단의 표준편차이다.
모집단의 표준편차
따라서 모집단의 표준편차 (population standard deviation)는 모집단의 분산에 루트를 씌운 것이다.
2-2) 모분산 추정
모집단을 데이터를 구할 수 없기 때문에 상대적으로 작은 집단을 가지고 모분산을 추정할 것이다.
모분산과 모표준편차는 곡선이 얼마나 퍼져있는지를 결정하기 때문에 추정된 분산과 추정된 표준편차가 모집단의 평균에서 데이터가 얼마나 퍼져있는지를 반영해야한다.
추정 값이기 때문에 $\mu$대신에 $\overline{X}$를 사용한다.
모분산 추정
모집단의 분산을 추정하기 위해 사용하는 공식이다.
모분산의 공식과 다른 점
1. 모집단의 평균 $\mu$를 모르기 대문에 표본 평균 $\overline{X}$를 대신 사용한다.
2. n으로 나누는 대신 n-1로 나눈다.
n-1로 나누는 것은 모평균 대신 표본평균을 사용하면서 발생한 차이를 보상한다.
그렇지 않으면 모평균 주변의 분산을 과소평가 하게된다.
이것은 표본평균과 데이터의 차이가 모평균과 데이터의 차이보다 작은 경향이 있기 때문이다.
그러므로 모평균 주변의 차이가 일반적으로 더 크다. 그리고 우리가 추정하고자 하는 것이 바로 그 ‘큰 차이의 평균’이다.
추정된 모수는 보라색 곡선에 해당하며 실제 분포와 크게 다르지 않다.
데이터가 많을 수록 추정된 모수는 더 정확해지고 더 신뢰할 수 있다.
그럼 다음 시간에는 표본분산을 구할 때 n이 아닌 n-1로 나누는 이유에 대해서 알아보도록 할게요!
ref. statquest
Estimating the Mean, Variance and Standard Deviation
댓글