설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀로 통계하기 17 - 분산분석(1)
반응형




시작하기 전에



  이제 여러분은 표본평균을 바탕으로 두 모집단의 평균을 비교할 수 있습니다. 그런데 모집단이 여럿이면 어떡하죠?

 


시작!

 

  지난 시간엔 평균을 비교했습니다. 두 표본집단 자료로 두 모집단의 평균이 같은지 다른지를 귀무가설과 대립가설을 세워 대조했습니다.

 

  그런데 모집단이 여럿이라면 어떡할까요? 이전에 배운 평균비교는 두 모집단만 비교할 수 있습니다. ‘모집단 1의 평균=모집단 2의 평균, 모집단 2의 평균=모집단 3의 평균.’처럼 귀무가설을 여러 가지 세워서 동시에 만족하나 살피려면 너무 복잡하고 번거롭습니다.

 

  분산분석(ANOVA, ANalysis Of VAriance)은 여러 모집단의 모평균이 같은지를 한 번에 비교할 수 있는 기술입니다. 영국의 학자 로날드 피셔가 개발한 분산분석은 여러 제약조건이 있기는 하지만 여러 모집단 평균을 동시에 비교할 수 있는 강력한 기술입니다.

 


분산분석 조건


  분산분석을 시작하기에 앞서, 분산분석에 필요한 가정 세 가지를 알아봅시다.

 

첫째, 모집단은 전부 정규분포를 따른다.

둘째, 모집단의 분산은 전부 같다.

셋째, 표본은 무작위로 추출하고 모집단마다 표본은 독립적이다.

 

  첫째 조건이야 표본 크기가 크면 어떻게든 무마한다고 칩시다. 셋째 조건도 지키기 쉽습니다. 둘째 조건은 조금 까다로운데, 여러 모집단의 분산이 전부 같아야 하기 때문입니다. 여러분이 공정을 비교해 제일 빠른 공정을 찾고 싶은 공장장이라면, 공정을 제외한 요소들은 전부 같게 맞춰서 모집단마다 분산이 같도록 애써야 할 것입니다.

 


분산분석 용어




  여러분은 제일 빠른 공정을 찾고 싶은 공장장입니다. 여러분은 온도와 첨가제를 달리하면서 제일 빠른 공정을 찾아낼 겁니다. 온도는 100도와 200도로 조절하고 첨가제는 A, B, C 세 종류가 있습니다. 그럼 온도 두 가지와 첨가제 세 가지로 여섯 가지 조합이 나옵니다.

 

  여기서 온도와 첨가제는 인자Factor이며 인자는 분산분석에서 제어 가능한 독립변수입니다. 100, 200도 같은 선택지는 수준Level입니다. ‘100도와 첨가제 A’, ‘200도와 첨가제 B’같은 조합은 처리Treatment라고 부릅니다. 이렇게 여러 처리에 따른 공정 시간은 반응 변수Response Variable이라고 부릅니다.

 

공장장인 여러분에게

  인자는 온도와 첨가제가

  온도엔 두 가지 수준, 첨가제엔 세 가지 수준이

  이번 분산분석에는 여섯 가지 처리가 있으며

  공정에 걸리는 시간이 반응변수입니다.

 

 

분산분석을 시작하자





 

  지금은 첨가제 A, B, C만 생각합시다. 세 첨가제를 넣어 각각 다섯 번 측정했습니다. 15가지 자료가 있겠네요. 세 표본을 보고 세 모집단 평균이 같은지 다른지 알아보고 싶습니다. 먼저 세 모집단 평균이 전부 같다는 귀무가설을 세워 보죠.




 

  아무 값이나 골라 봅시다. 이 값은 모집단 평균과 다를 겁니다. 왜 다를까요? 두 가지 이유를 생각할 수 있습니다.

 

첫째, 이 값이 속한 처리(첨가제 B) 때문에.

둘째, 같은 처리 속에서도 값이 조금씩 다르므로.

 

  즉 이 값과 모집단 평균의 차는 첨가제가 달라서 오는 차이와 그냥 이 값 자체가 달라서 오는 차이로 나눌 수 있습니다. 첨가제가 달라서 오는 차이는 첨가제마다 있는 표본평균과 총평균의 차이로 표현합시다. 이 값 자체가 달라서 오는 차이는 자료값과 표본평균의 차이로 표현합시다. 모집단 평균은 일단 15가지 자료의 총평균으로 추측하고요. 이 내용을 수학적으로 근사하게 쓰면 다음과 같을 겁니다.



 

이제 이걸 제곱해서 모든 값에 합합니다.



 

(자료와 평균의 차이는 합하면 0이라서 마지막 항은 사라집니다.)

 




  자료와 총평균 차이의 제곱합은 총제곱합(Total Sum of Squares, TTS/SST), 표본평균과 총평균 차이의 제곱합은 처리제곱합(Sum of Squares for TReatments, SSTR), 자료값과 표본평균 차이의 제곱합은 오차제곱합(Error Sum of Squares, ESS/SSE)이라고 부릅니다.






  처리제곱합의 자유도는 표본집단 수 1, 오차제곱합의 자유도는 총 자료 수 –표본집단 수입니다. 갑자기 웬 자유도냐 싶겠지만 분산분석을 하려면 필요합니다. 이번 경우에는 처리제곱합의 자유도는 3(첨가제 가짓수)-1=2, 오차제곱합의 자유도는 15(총 자료 수)-3=12입니다.


 


  처리제곱합을 자유도로 나누고 오차제곱합도 자유도로 나눕니다. 이 값은 각각 처리제곱평균(TReatment Mean Square, MSTR), 오차제곱평균(Error Mean Square, MSE)라고 합니다. 자유도는 좀 있다 또 필요합니다.

 




 

거의 다 왔다. 힘내자!

 

  분산분석을 끝마치려면 F분포가 필요합니다. 그냥 그런 분포가 있다고 알면 됩니다. F분포는 자유도에 따라 모양이 다릅니다. 스튜던트 t 분포랑 비슷하죠. F분포는 그런데 자유도가 둘 필요합니다. 맞습니다. 아까 구한 두 자유도를 F분포에 넣어야 합니다.




  그리고 처리제곱평균을 오차제곱평균으로 나눕니다. 이 값은 귀무가설이 틀릴수록 커집니다. 슬슬 감이 오지 않습니까? F분포에서 이 나눈 값보다 큰 영역이 바로 분산분석의 p값입니다. 귀무가설이 틀릴수록 처리제곱평균/오차제곱평균은 커지고, F분포에서 이 값보다 큰 영역은 줄어듭니다. p값이 작아집니다. p값이 유의수준보다 작으면 귀무가설을 기각하는 건 상식이겠죠?

 


엑셀에서 분산분석 하기



 

  엑셀 데이터 분석 메뉴에는 분산분석: 일원 배치법이 있습니다.




  입력 범위, 데이터 방향, 유의수준을 입력하고 확인을 누릅니다.



 

 

그럼 인자가 둘일 땐?


  이번 시간에는 인자가 하나일 때를 놓고 분산분석을 했습니다. 첨가제 하나만 보았죠. 그런데 첨가제뿐 아니라 온도에 따라서도 모집단 평균이 같은지 알고 싶으면 어떻게 할까요? 지금까지는 인자가 하나인 일원 배치법 One way factorial design’을 배웠다면, 다음 시간에는 인자가 둘인 이원 배치법 Two way factorial design’ 분산분석을 알아봅시다.

반응형
  Comments,     Trackbacks