설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀로 통계하기 18 - 등분산을 검정하는 법
반응형



  분산분석은 모집단의 평균이 전부 같은지 알아내는 기술이지만, 조건이 있죠. 모집단이 전부 정규분포고 표본은 모두 독립, 무작위로 추출해야 합니다. 게다가 모집단의 분산이 전부 같아야 분산분석을 수행할 수 있습니다. 그럼 모집단의 분산이 같은지는 어떻게 알까요? 여기 두 가지 방법이 있습니다. Levene’s testBartlett’s test입니다.

 


Levene’s test


  Levene’s test부터 배워봅시다. 모집단 분산이 전부 같다는 귀무가설과, 모집단 분산이 하나라도 다르다는 대립가설을 세웁니다.



 

  가설을 세우셨나요? 좋습니다. 이제 W를 구하셔야 합니다. 식이 좀 복잡합니다.





 

  Z를 눈여겨보기 바랍니다. 이 공식에서 제일 어렵고 중요한 부분입니다. Z값은 이전에 배운 z-(z-score)이 아닙니다.

 

  Z값을 구하는 방법은 세 가지입니다.




첫째, 자료값에서 그 자료가 속한 그룹의 평균을 뺀 절댓값

둘째, 자료값에서 그 자료가 속한 그룹의 중앙값을 뺀 절댓값

셋째, 자료값에서 그 자료가 속한 그룹의 10% 절삭평균(상하위 5%씩을 제외한 값의 평균)을 뺀 절댓값

 

  Z는 모집단 분포에 따라 다른 방법을 고르는 것이 좋습니다. 분포가 대칭이고 적당히 흩뿌려져 있다면 첫째 방법이, 분포가 비대칭이면 둘째 방법이, 자료의 꼬리가 길다면 셋째 방법이 좋다고들 합니다.



 

  지난 시간에 배운 F분포 기억하시죠? 자유도 두 가지를 넣어야 했죠. 이번에도 두 가지 자유도를 넣습니다. 자유도는 k-1, N-k입니다. 유의수준을 0.05로 정한다 치고 오른쪽 넓이가 0.05F분포 위치를 역함수로 계산합니다. 만약 W가 그 값보다 크면 귀무가설을 기각합니다.


 엑셀에서는 F.INV.RT 함수가 유의수준과 자유도에 맞는 오른쪽 꼬리 넓이에 맞는 값을 역계산할 수 있습니다.


사용방법 : = F.INV.RT( 유의수준 , 첫 자유도, 둘째 자유도)

 





 

Bartlett’s test

 

  이 방법은 데이터가 정규분포일 때 적합한 방법입니다. 자료가 정규분포를 따르지 않으면 비효율적이지만, 정규분포를 따르면 Levene’s test보다 더 정확하다고 합니다.

 

  귀무가설과 대립가설을 정합니다. 이번에도 귀무가설은 모든 집단 분산이 전부 같다는 가설이고, 대립가설은 하나라도 다르다는 가설입니다.

 

  이번에는 W 대신 T를 구합니다.



 

  그리고 F분포 대신 카이제곱 분포를 이용합니다. 카이제곱 분포는 자유도 하나가 필요합니다. 자유도는 k-1입니다. 이 카이제곱 분포에서 오른쪽 면적이 유의수준인 값을 구합니다. T가 그 값보다 크면 귀무가설을 기각합니다.


  엑셀에서는 CHISQ.INV.RT 함수가 카이제곱 함수 오른쪽 꼬리 넓이를 역함수로 계산합니다.


사용방법 : = CHISQ.INV.RT(유의수준, 자유도)

 

 


실제로 Levene’s test를 해보았다



 

  국가수자원관리종합정보시스템(WAMIS, www.wamis.go.kr)은 국내 하천, 강수 관련 정보를 제공하는 사이트입니다. 강수량, 수위, 용수 이용량 등이 있으니 관련 학과나 업계에 계신 분이라면 추천합니다.



 

  아무튼, Levene's test로 정말 등분산을 검정할 수 있는지 알아봅시다. 2017년 한강대교 관측소가 측정한 한강 유량 일별 자료를 내려받았습니다. 이 자료에서 여러 표본을 무작위로 뽑은 다음 Levene’s test를 실시합니다. 같은 자료에서 뽑은 표본이니 모집단 분산은 전부 같습니다. 과연 등분산 검정이 가능할까요? 세 가지 선택이 가능한데 그중 그룹 평균과 중앙값으로 해 보겠습니다. 유의수준은 0.05로 정했습니다.

 

  먼저 WAMIS에서 엑셀 파일로 유량 데이터를 내려받습니다. 엑셀 [데이터 분석] - [표본 추출]에 들어가면 무작위 표본을 추출할 수 있습니다. 30개를 뽑아 3그룹으로 나눕니다. 그럼 표본 크기가 10인 표본이 셋 나오는군요.



 

  시험 결과 평균으로 계산 시 W3.75, 중앙값으로 계산 시 0.86입니다. F값은 3.35로, Z를 평균으로 계산하면 귀무가설이 기각되고 중앙값으로 계산하면 귀무가설을 기각할 수 없습니다. 분포가 비대칭적이어서 중앙값으로 계산하는 두 번째 방법이 확실히 효과가 있는 것 아닐까요?


  이 결과는 어쩌면 한 번 뽑은 자료를 다시 뽑지 않아서 틀렸을 수도 있고, 그냥 제 부족한 통계 지식 때문일 수도 있으니 함부로 믿으시면 곤란합니다.

반응형
  Comments,     Trackbacks