정규분포 쉽게 이해하기
저번시간에 히스토그램에 대해서 알아봤다면 이번에는 정규분포에 대해서 알아볼게요
3. The Normal Distribution
3. The Normal Distribution
“정규분포” 혹은 “가우시안 분포”는 종모양 곡선 (bell shaped curve)이라고도 부르며 대칭형 모양이다.
만약 사람들의 키에 대해서 측정한 것이라면 y축은 키가 매우 작거나 매우 크거나 혹은 평균일 누군가를 관찰할 상대적 확률을 나타낸다.
예를 들어, 키가 매우 작은 사람이나 큰 사람을 보는 것은 상대적으로 드물기 때문에 종모양 곡선의 높이가 상대적으로 낮다.
반면 평균키에 근접한 누군가를 보는 것은 꽤 흔한 일이기 때문에 종모양 그래프는 매우 높다.
아기의 키 분포와 성인 남성의 키 분포
왼쪽은 아기의 키 분포이고 오른쪽은 성인 남성의 키 분포이다.
정규분포에서 평균값은 항상 가운데 위치한다.
아이의 키는 19~21인치 사이일 확률이 높고 어른의 경우 키가 60~80인치 사이일 확률이 높다.
아기의 곡선이 성인의 곡선보다 높은 이유는 성인의 키가 아기보다 더 넓은 범위의 가능성을 가지기 때문이다.
키에 대한 선택사항이 많을수록, 측정값은 그중 하나가 될 가능성이 적어진다.
곡선의 넓이는 표준편차에 의해 정의된다.
곡선에서 아기 키와 성인을 비교했을 때 아기 키가 상대적으로 작은 표준편차를 가진다고 말할 수 있다.
→ 아기 키의 표준편차는 0.6이고 성인 키의 표준편차는 4이다.
측정값의 95%가 평균 ± (2x표준편차) 사이에 속하도록 정규곡선이 그려지기 때문에 표준편차를 아는 것은 도움이 된다.
아기 키 측정값의 95%는 20 ± 1.2 inches에 속하고 성인 키 측정 값의 95%는 70 ± 8 inches에 속한다
정규분포를 그리기 위해서는 2가지를 알아야 한다.
1. 측정값의 평균
평균은 curve의 중심이 어딘지 알려준다.
2. 측정값의 분산
분산은 곡선의 넓이를 알려주고 이 곡선의 넓이는 곡선이 얼마나 높을지를 결정한다.
곡선이 넓을수록 높이가 낮고, 곡선이 좁을수록 높이가 높아진다.
정규분포는 자연에서 많이 볼 수 있다. → 중심극한 정리
¿ 중심극한 정리 (Central limit thorem, CLT)
: 모집단 또는 X의 분포가 정규분포가 아닐 때에도 표본크기 n이 커지면 x̅의 분포는 정규분포에 가까워지는 성질
모수에 대한 내용도 함께 다루고 싶지만 생각보다 모수에 대한 내용이 길어서 그건 다음 편에서 다루도록 할게요!
ref. statquest
댓글