본문 바로가기
카테고리 없음

[통계학 공부] 3. 모수 쉽게 이해하기

by 김감뀰 2023. 5. 10.
728x90
반응형

모수 쉽게 이해하기

4. Population and Estimated Parameters, Clearly Explained

 

4. Population and Estimated Parameters, Clearly Explained

Population parameter : 모수

5개의 간세포에서 유전자 x의 mRNA의 개수를 세었다고 해보자

표본

가로축은 geneX에 대해 하나의 간세포가 가지고 있는 mRNA의 수를 의미한다.

즉, 첫번 째 녹색점은 geneX에 대해 3개의 mRNA를 갖는 하나의 간세포를 의미한다.

→ 3, 13, 19, 24, 29

한사람의 2400억 개의 간세포를 의미하는 2400억 개의 녹색 점이 있다고 하면 우리는 그 값에 대한 히스토그램을 그릴 수 있다.

히스토그램

히스토그램은 대부분의 세포가 20~30개 사이의 mRNA를 가진다고 말한다.

10개보다 적은 mRNA를 가진 세포나 30개보다 많은 mRNA를 가진 세포는 상대적으로 적다.

우리는 히스토그램을 확률과 통계값을 계산하는데 사용할 수 있다.

 

예. 30개 이상의 mRNA를 가진 간세포를 관찰할 확률

30개 이상의 mRNA를 가진 간세포를 관찰할 확률을 알고싶을 때 30개 이상의 mRNA를 가진 간세포의 개수를 세고 전체 간세포 개수로 나눈다.

히스토그램

30개 이상의 mRNA를 가지는 세포가 관찰될 확률은 0.16이다.

이 히스토그램은 평균은 20이고 표준편차는 10인 정규분포에 대응한다.

표준편차는 데이터가 평균에서 얼마나 퍼져있는지를 말해준다.

평균은 커브의 중앙에 존재한다.

히스토그램과 동일하게 분포를 사용해서 확률과 통계값을 계산할 수 있다.

예를들어, 30개 이상의 mRNA를 가진 간세포를 관찰할 확률을 알고싶을 때 30 이상의 모든 값에 대한 곡선 아래 면적을 계산하고 전체 곡선 아래 면적으로 나눈다.

히스토그램

30개 이상의 mRNA를 가지는 세포가 관찰될 확률은 0.16이다.

이 확률값이 히스토그램에서 계산한 값과 동일한데 이는 실제 데이터가 정규분포에 가깝다는 것을 의미한다.

히스토그램은 모든 간세포를 나타내기 때문에 이를 모집단 (population)이라고 부른다.

모집단을 나타내는 정규분포곡선과 평균, 표준편차는 모수 (population paramter)라고 부른다.

모집단의 평균을 모집단 평균 (population mean)이라고 한다.

모집단의 표준편차는 모집단 표준편차 (population standard deviation, population SD)라고 한다.

히스토그램

만약 히스토그램이 이렇게 생겼다면 이 data에 대해서는 정규분포가 아니라 지수분포를 적용해볼 수 있다.

지수분포의 모양은 rate에 의해 결정된다.

→ 위 그래프에서 rate = 0.1이다.

정규분포와 지수분포가 다르게 생겼더라도 지수분포는 여전히 간세포의 모집단을 보여준다.

모집단 분포의 rate이기 때문에 여기서 rate은 population rate이 된다.

그리고 우리는 지수분포를 사용해서 확률과 통계값을 계산할 수 있다.

히스토그램

만약 히스토그램이 이렇게 생겼다면 이 data에는 감마분포를 적용할 것이다.

감마분포의 모양은 shape과 rate 두 가지로 결정되기 때문에 shape과 rate이 모수이다.

 

상대적으로 작은 표본집단 (sample) 사용

히스토그램

우리는 모집단 내 모든 것들을 측정할 수 있는 충분한 시간과 돈이 없기 때문에 거의 항상 상대적으로 작은 표본집단 (sample)을 사용해서 모수를 추정한다.

이 경우 2400억개의 세포 중에서 5개의 측정값만 가지고 있고 이 5개의 측정값을 사용해서 모수를 추정할 것이다.

모수를 알기 원하는 이유는 실험에서 도출된 결과가 모집단을 모사할 수 있는지 알기 위해서이다.

실제 모집단의 평균은 20이고 분산은 10이다.

5개를 측정값을 가지고 모집단의 평균이 17.6이라고 추정해볼 수 있고 추정된 모집단의 표준편차는 10.1이다.

→ 추정하는 방법은 다음 강의 (5) 참조

한 번 더 5개의 세포를 뽑았을 때 추정된 모집단의 평균은 19.2이고 추정된 모표준편차는 12.7이다.

결론적으로 우리가 실험을 할 때마다 매번 다른 모수의 추정값을 얻게되고 두 가지 추정값 세트들은 실제 모수와는 또 다르다.

앞서 모수가 중요한 이유는 모집단을 모사할 수 있기 때문이라고 이야기했는데 그렇다면 어떻게 매번 달라지는 추정값들이 모집단을 모사할 수 잇는 결과를 줄까?

 

먼저 2가지 측정 값만 있다고 가정해보자

표본

이때의 추정된 모집단의 평균은 11이고 추정된 모표준편차는 11.3이다.

실제 값과 비교해보면 추정된 값은 실제 모집단 평균, 표준편차와 꽤 차이가 있다.

 

측정 값을 3개로 해보자 

표본

3개의 측정값을 갖는다면 추정된 모평균은 15.3이고 모표준편차는 11로 이전보다 실제 값에 더 가까워졌다.

 

측정 값을 5개로 해보자 

표본

전처럼 5개의 측정값이 있다고 하면 추정된 모평균은 17.6이고 모표준편차는 10.1이다.

실제 값과 더 가까워졌다.

만약 10개의 측정값이 있다고 한다면, 추정 값은 훨씬 더 좋아질 것이다.

즉, 데이터가 많으면 많을수록 추정 값에 대한 신뢰도가 높아진다.

통계학의 주요 목표 중 하나는 모수에 대한 신뢰를 정량화 (수치화)하는 것이다.

특히, 통계학자들은 종종 추정값에 대한 신뢰를 수치화하기 위해 p-value와 신뢰구간을 계산한다.

그리고 일반적으로 데이터가 많을수록 추정값을 더 많이 신뢰할 수 있다.

5개의 세포를 뽑는 것을 2번 반복한 실험에서 두 실험이 실제 모집단의 평균과 표준편차와는 다른 추정치를 가지고 있지만 통계학을 이용하면 얼마나 다른지에 대한 신뢰도를 수치화할 수 있다.

여기서는 p-value 혹은 신뢰구간이 실제값과 추정치의 차이는 있지만 크게는 다르지 않다는 것을 말해준다.

이것은 첫번째 실험에서 만들어진 결과가 두번째 실험으로 얻어진 결과와 크게 다르지 않다는 것과 결과를 모사할 수 있다는 것을 의미한다.

우리는 모집단을 가질 수 없으므로 항상 모수를 추정한다.

또한 이 추정값이 얼마나 신뢰를 줄 수 있는지 계산하는데 일반적으로 더 많은 데이터가 있으면 추정 값을 더 많이 신뢰 할 수 있다.

모수를 추정하고 신뢰도를 수치화 함으로써 우리는 미래의 실험에서 reproducible한 결과를 만들어 낼 수 있다.

 

ref.statquest 

Population and Estimated Parameters, Clearly Explained

 

김감귤

728x90
반응형

댓글