설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀로 통계하기 12 - 구간추정(1)
반응형



우린 모집단 통계량을 구할 수 없을 때 표본을 추출해서 조사합니다.




그런데 표본으로 구한 평균이 모집단 평균과 가깝다고 얼마나 확신할 수 있을까요?


*이번 글은 조금 깁니다.

 



과자 공장이 이번 달 생산하는 과자 한 봉지에 들어가는 과자 양을 알고 싶다고 합시다.



 

과자 공장의 공정은 아주 정확하고, 관리도 잘 됩니다.

공정은 20년 전부터 변화가 없었고, 매달 과자 양을 측정해 왔습니다.

 


이렇게

 1) 데이터가 아주 많거나,

2) 공정이 정확하고 잘 관리될 때는

그동안 구한 표준편차를 모집단 표준편차로 가정할 수 있습니다.



 

여기서 표본분포 개념을 잠깐 듣고 갑시다.





표본분포는 무엇일까요. 과자 1000봉지 중 50봉지를 표본으로 추출해서 실험한다고 합시다.


사람에 따라 표본으로 뽑히는 50봉지는 여러 가지입니다. 그럼 그 50봉지마다 알갱이 수의 평균은 조금씩 다르겠죠.

 




이렇게 표본들 자료의 분포를 표본분포라고 합니다.

이 분포의 기댓값은 모집단 평균입니다.

이 곡선의 표준편차는 모집단 표준편차에서 표본수의 제곱근을 나눈 값입니다.




 

모집단이 정규분포라면, 표본평균의 표본분포도 정규분포를 그립니다.




 

모집단이 정규분포가 아니어도, 중심극한정리에 따라 표본 크기가 클수록 표본평균의 표본분포는 정규확률분포에 가깝습니다.

(30 이상이라고 합니다)

 

결국, 표본평균의 분포는 (웬만하면) 정규분포곡선을 그립니다.





 


과자 공장으로 돌아갑시다.




봉지 당 알갱이 수는 정규분포를 그린다고 가정합니다.

모집단 표준편차는 5입니다.

25봉지를 추출해 검사했더니 한 봉지에 평균 30알갱이가 있습니다.

이 표본평균은 모집단 평균에서 얼마나 가까울까요?

 

 


정규분포곡선에서

평균 양옆 1.96표준편차 이내에는 자료의 95%가 들어갑니다.

 

표본평균의 표본분포 그래프에서도

모집단 평균 양옆 1.96표준편차 이내에 표본평균의 95%가 있습니다.

표본평균 표본분포의 표준편차는

5/5=1입니다.

 




방향을 반대로 보면, 표본평균의 95%는 모집단 평균과 1.96표준편차 이하만큼 가깝습니다.

 




즉 우리가 검사한 표본의 평균은 모집단 평균과 1.96표준편차 이내에 있다고 95% 확신합니다.

 




과자 공장에서 보자면

표본에서 나온 평균 30알은 모집단 평균과

1.96X1=1.96

알 이하만큼 차이가 난다고 95% 확신합니다.


즉, 95%만큼 확신할 수 있는 범위는

30-1.96=28.04 에서

30+1.96=31.96입니다.

 

이때 95%신뢰수준 Confidence level입니다.

0.95신뢰계수 Confidence coefficient입니다.

1-0.95=0.05유의수준 Level of significance입니다.

1.96에 표본평균 표준편차를 곱한 것이 오차범위입니다.

그렇게 구한 구간이 95% 신뢰구간 Confidence interval입니다.



이제 과자공장에선 이렇게 말할 수 있습니다.

'우리 공장 과자는 28.04알에서 31.96알 사이가 들었다고

95% 확신할 수 있어.'

 



인터넷에서는 유의수준에 따라 표본분포 표준편차에 곱하는 값(Z)이 나와있으니 참고바랍니다.

 



엑셀에서 오차범위 구하기

 




엑셀에서는 모표준편차를 알 때

오차범위를 구하는 CONFIDENCE.NORM 함수가 있습니다.

 

=CONFIDENCE.NORM(유의수준, 모표준편차, 표본크기)

 

 

그런데 모집단 표준편차를 모르면 어떻게 할까요?

다음 시간에 알아봅시다.



 


주의! 표본평균 표준편차


표본을 추출하는 모집단의 종류에 따라 표본평균 표준편차 공식이 다릅니다.


모집단에는 유한모집단무한모집단이 있습니다.


유한모집단은 말 그대로 자료가 유한합니다.

무한모집단은 자료가 무한하거나 계속 생겨납니다.

과자 공장에서, 과자는 계속 생산되므로 전체 자료가 몇 봉지인지 말할 수 없습니다. 따라서 무한모집단입니다.



 

무한모집단이거나 유한모집단이더라도 n/N0.05 이하일 때는 아까처럼 공식을 씁니다.



 

유한모집단일 때는 여기에 유한모집단 수정인수를 곱합니다.

반응형
  Comments,     Trackbacks