설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
독립성 검정 (1)
엑셀로 통계하기 20 - 모비율 비교와 독립성 검정
반응형



  통계 자료는 숫자만 있지 않습니다. 가끔은 단순히 예/아니오, 남자/여자처럼 수 대신 비율로 나타내는 자료도 있죠.

 

  이번 시간에는 모집단 비율을 비교합니다. 먼저 두 모집단 비율 차이를 구간추정/가설검정 합니다. 가설검정 이후 분산분석으로 여러 모집단 평균이 같은지 검정했듯 여러 모집단 비율의 동일성도 검정합니다. 모집단의 두 변수가 독립인지도 검정해 볼 텐데, 여러모로 모집단 비율 동일성과 비슷하니 생뚱맞지는 않을 겁니다.

 

 

모집단 비율 차이 구간추정




  두 회사 직원에게 박사학위가 있는지 물어보았습니다. 각 회사에서 100명을 뽑아 질문했습니다. 회사A100명 중 70, 회사B100명 중 60명이 박사학위 소지자로 드러났습니다. 두 회사 박사학위 소지 비율 차이에 대한 90% 신뢰구간은 어디일까요?

 

  모집단 평균 신뢰구간을 구하는 법. 생각나시나요? 표본평균에 오차범위를 빼고 더했죠. 오차범위는 신뢰수준에 맞는 z에 표본분포 표준편차를 곱했습니다.



 

  표본이 충분히 크다면 포본분포는 정규분포에 근사하죠. 그러니 모집단 비율 차이 신뢰구간도 이렇게 합시다. 표본평균 대신 두 표본비율 차이를 넣습니다. z는 표준정규분포에서 중앙 면적이 신뢰수준만큼을 차지하는 값입니다. 엑셀 NORM.S.INV 함수를 이용하면 z를 구할 수 있습니다.



z = NORM.S.INV(1-유의수준/2)

 

*신뢰수준별 z

90% - 1.645

95% - 1.960

99% - 2.576

 

  모집단 비율 차이의 표본분포 내 표준편차를 구하려면 모집단 비율을 알아야 합니다. 그런데 모르니까 구간추정을 하겠죠? 모집단 비율 대신 표본집단 비율을 넣습니다.



 

  박사학위 보유 차이에 대한 90% 신뢰구간을 구해 봅시다. 두 표본집단 비율과 표본 크기, 신뢰수준 90%에 맞는 z를 아니까 쉽게 구할 수 있습니다.


 

 

모집단 비율 차이 가설검정



 

  이번엔 두 회사 직원에게 파인애플 피자를 좋아하는지 물어보았습니다. 역시 회사마다 100명을 뽑아 질문합니다. 회사A100명 중 30, 회사B100명 중 40명이 파인애플 피자를 좋아했습니다. 두 회사가 파인애플 피자를 좋아하는 비율은 같을까요?(유의수준 0.05)

 

 

  두 모집단 평균 차이를 검정하는 법은 지난번에 다뤘습니다. 두 모집단 평균 차이가 같다, 즉 차이가 0이라는 귀무가설을 세우고 차이가 0이 아니라는 대립가설을 세웠습니다.




 

  모집단 비율 차이도 같은 식으로 시작합니다. 두 모집단 비율 차이가 0이라는 귀무가설과 0이 아니라는 대립가설을 세웁니다.

 

  이제 z를 구합니다. 문제는 표준편차인데요. 가설검정이 옳다면 두 표본비율과 모집단 비율은 같을 겁니다.



 

  그런데 모집단 비율을 알 수 없으니 표본비율로 대체해야 합니다. 어느 집단의 표본비율로 대체하라는 거죠? 두 표본집단 비율을 합친 값을 씁니다. 정확히 말하면 두 표본집단 비율의 가중평균입니다. 가중치는 표본 크기고요. 이걸 모집단 비율의 합동추정량(pooled estimation of p)라고 합니다.







 

  이제 나머지는 가설검정과 같습니다. z보다 중심에서 먼 양쪽 날개 면적이 p값입니다. p값이 유의수준보다 작으면 귀무가설을 기각합니다.

 

  엑셀에선 NORM.S.DIST 함수로 표준정규분포 꼬리 면적을 계산합니다.


p=NORM.S.DIST(Z, TRUE)

 

 

  과연 두 회사는 똑같은 비율로 파인애플 피자를 좋아할까요?






  귀무가설을 기각할 수는 없겠네요.

 

 





 

여러 모집단 비율의 동일성 검정 카이제곱 분포 이용



 

  이번엔 세 회사에서 100명을 추출해 이순신과 세종대왕 중 어느 위인을 존경하는지물어봤습니다. 과연 세 회사에서 이순신을 존경하는 비율은 전부 같을까요?(유의수준 0.05)

 

  모집단 평균 동일성을 검정할 때, 분산분석을 이용하기도 했습니다. 비교할 모집단이 셋 이상이면 분산분석은 매우 편리했죠. 이번에는 여러 모집단 비율의 동일성을 검정해보겠습니다. 이번 검정에는 카이제곱 분포가 필요합니다. 그냥 그런 분포가 있다고 알면 됩니다.

 

  분산분석처럼 이번에도 귀무가설/대립가설을 만듭니다. 귀무가설은 모든 모집단 비율이 같다는 것이고 대립가설은 하나 이상의 모집단 비율이 다르다는 겁니다.

 

  좋습니다. 이게 설문 결과입니다. 300명 중 이순신을 존경하는 회사원은 165명입니다. 비율로 계산하면 0.55네요. 귀무가설이 옳다면 세 회사에서 이순신을 좋아하는 비율은 전부 0.55일 겁니다. 그러니까 세 회사에서 100명씩 물어보면 이순신을 존경하는 사람이 55명 나왔을 거란 말이죠.

 

  이 값을 기대도수라고 부릅시다. 실제 설문에서 관찰한 값은 관측도수라고 하고요. 기대도수 공식은 다음과 같습니다. 가로합과 세로합을 생각하면 쉽습니다.






 

  이제 생각해 보세요. 귀무가설이 옳을수록 관측도수는 기대도수와 가깝습니다. 이걸 유념하며 카이제곱 검정통계량을 구합니다.

(모든 기대도수가 5 이상이어야 결과가 좋다고 합니다. 기대도수가 5 미만이라면 옆 범위와 합치라는군요.)



 

  검정통계량이라는 단어에 감이 오셨나요? 카이제곱 분포에서 이 카이제곱 검정통계량보다 큰 영역의 넓이가 바로 p값입니다. 카이제곱 분포는 자유도마다 모양이 다른데, 자유도는 k-1. 회사가 셋이니 자유도는 3-1=2입니다. 이제 p값이 유의수준보다 작으면 귀무가설을 기각하겠죠?



 

 대답이 셋 이상일 때

 

  위인을 다섯 명으로 정하고 설문조사 하면 어떻게 될까요?

 

  대답이 셋 이상이어도 기대도수와 카이제곱 검정통계량 구하는 방법은 같습니다다만 귀무가설은 모든 모집단에서 응답변수의 다항분포가 전부 같다.’가 됩니다대답이 둘이면 그냥 비율이 같다고 하면 되는데 가짓수가 늘어났으니 각 대답 비율이 모집단마다 같다.’고 해야 합니다.

 

  카이제곱분포 자유도는 (r-1)(k-1)입니다위인 다섯에 회사 셋이니 (5-1)(3-1)=8이 됩니다.




 

  엑셀에선 CHISQ.TEST 함수를 사용합니다. 첫 인수에는 관측도수 범위를 둘째 인수에는 기대도수 범위를 넣으면 자동으로 p값을 반환합니다.


=CHISQ.TEST(관측도수 범위, 기대도수 범위)



   세 회사가 똑같은 비율로 이순신을 존경하는지 CHISQ.TEST 함수를 써 보니 p값이 0.364가 나왔습니다. 귀무가설을 기각할 수 없겠네요.

 

 

모집단 비율 독립성 검정 카이제곱 분포 이용



 

  이제 회사원 100명에게 박사학위가 있는지탕수육, 피자, 돈가스 중 어느 음식을 제일 좋아하는지를 물었습니다. 과연 박사학위 유무는 좋아하는 음식과 관계가 있을까요?

 

  이렇게 독립성을 검정할 때도 카이제곱 분포를 이용합니다. 방법은 동일성 검정과 매우 비슷합니다. 똑같이 기대도수를 구하고, 카이제곱 검정통계량을 구합니다. 자유도가 (r-1)(c-1)인 카이제곱 분포에서 검정통계량보다 오른쪽에 있는 영역 넓이가 p값입니다. 귀무가설은 두 변수는 독립적이다.’고 대립가설은 두 변수는 독립적이지 않다.’입니다. p값이 유의수준보다 작으면 귀무가설을 기각합니다.

 

  이 회사원들의 박사학위와 음식 취향이 독립적인지 알아봅시다. 역시 엑셀 CHISQ.TEST 함수를 이용합시다. 기대도수를 구하고 카이제곱 검정통계량을 구했습니다. 카이제곱 분포에 넣어보니 p값이 0.8이네요. 이것도 기각할 수는 없겠네요.

 

반응형
  Comments,     Trackbacks