설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀 분산분석 (2)
엑셀로 통계하기 19 - 분산분석 이원배치법
반응형



  지난 시간에는 여러 모집단 평균을 비교하는 분산분석을 수행했습니다. 인자가 하나인 일원배치법이었죠. 첨가제에 따른 제조 시간이 같은지 다른지를 판단했죠. 그런데 첨가제와 온도를 동시에 고려할 수는 없을까요? 예를 들어 첨가제 A80도 온도로 공정을 실행할 때와 첨가제 B90도 온도로 공정을 실행할 때 제조 시간이 같을까요?

 

  이렇게 인자 두 가지를 고려하는 방법은 이원배치법(Two way factorial design)이라고 합니다. 이원배치법은 반복이 없는 이원배치법과 반복이 있는 이원배치법으로 나뉩니다. 반복이 없는 이원배치법은 말 그대로 처리마다 결과가 하나입니다. 반복이 있는 이원배치법은 처리마다 여러 번 시험해서 결과도 여럿입니다. 반복이 없는 이원배치법부터 살펴봅시다.

 


반복이 없는 이원배치법


 지난 분산분석에서 자료값과 총평균의 차이를 분석한 것 생각나나요?


 

자료값과 총평균의 차이

= 처리가 달라서 생기는 차이 + 자료마다 개별로 생기는 차이

 




  공장으로 돌아가 봅시다. 첨가제와 온도를 다르게 하면서 제조시간을 쟀습니다. 첨가제는 세 종류, 온도는 두 종류가 있다고 가정합니다. 첨가제 B, 90도 자료를 보겠습니다. 이 자료와 모평균(자료 총 평균으로 모평균을 추정합니다)의 차이는 세 가지로 나눌 수 있습니다.

 

   자료값과 총평균의 차이

= 첨가제에서 생기는 차이 + 온도에서 생기는 차이 + 자료마다 개별로 생기는 차이

 

  첨가제에서 생기는 차이는 첨가제별 평균 - 총평균입니다. 온도가 달라서 생기는 차이는 온도별 평균 - 총평균입니다. 개별로 생기는 차이는 자료값에 각 인자별 평균을 빼고 총평균을 더한 값입니다. 식으로 쓰면 다음과 같습니다.




  (표본평균-총평균)의 제곱합을 처리제곱합이라 불렀습니다. 그런데 인자가 둘이라 표본평균도 첨가제별 평균, 온도별 평균으로 둘입니다. 따라서 처리제곱합도 두 가지입니다. 처리제곱합의 자유도는 각 인자수-1입니다. 첨가제 처리제곱합의 자유도는 3-1=2, 온도 처리제곱합의 자유도는 2-1=1가 되죠. 오차제곱합은 다행히 하나군요.











 

  처리제곱합을 자유도로 나눈 처리제곱평균은 두 가지, 오차제곱합을 자유도로 나눈 오차제곱평균은 한 가지입니다. 오차제곱합은 자유도가 조금 특이합니다. 각 인자 가짓수에서 1을 뺀 값의 곱이죠. 첨가제는 세 가지 온도는 두 가지니까 오차제곱합의 자유도는 (3-1)(2-1)= 2네요.



 

  처리제곱평균이 둘이니 처리제곱평균을 오차제곱평균으로 나눈 F비도 두 가지입니다. 귀무가설/대립가설 쌍도 두 가지고요.


  여러분은 원하는 인자를 골라서, 각 자유도에 맞는 F분포를 그린 뒤 F비 오른쪽 넓이(p)를 구한 후 유의수준과 비교하면 됩니다. F분포에 들어가는 자유도는 SSTR 자유도와 SSE 자유도로 일원배치법과 같습니다. p값이 유의수준보다 작으면 귀무가설은 기각되고, 그 인자별 모집단 평균은 다르다고 말할 수 있습니다.

 

 

반복이 있는 이원배치법

 

첨가제와 온도가 만나서 시너지를 낼 수도 있잖아요!’


  맞습니다. 첨가제 그 자체, 온도 그 자체가 내는 효과도 있겠지만 특정 첨가제와 온도가 만나서 내는 효과도 있을 수 있습니다. 어느 한 처리가 특별한 값인 건 첨가제나 온도 탓일 수도 있지만, 딱 그 첨가제와 딱 그 온도가 만나서 나오는 효과 탓일 수도 있죠.

 

  반복이 있는 이원배치법은 이렇게 두 인자가 만나서 내는 교호작용(Interaction)’을 확인할 수 있습니다. 반복이 있는 이원배치법은 말 그대로 이원배치법을 처리마다 여러 번 시험하는 것입니다. 첨가제A80도를 세 번 시험하고 첨가제A90도를 세 번 시험하고.



 

  이번 경우에는 처리마다 세 번 시헙했습니다. 이제 자료값과 총평균의 차이는 인자마다 있는 차이뿐 아니라 인자들이 만나서 생기는 차이도 한몫합니다.

 

   자료값과 총평균의 차이

= 첨가제가 달라서 생기는 차이 + 온도가 달라서 생기는 차이

+ 첨가제와 온도가 만드는 차이 + 자료마다 개별로 생기는 차이

 

  총제곱합 = 처리제곱합 세 가지와 오차제곱합



  세 가지 처리제곱평균이 생깁니다. 자연스레 F비도 세 가지고 귀무가설/대립가설도 세 가지가 나오겠죠.




 

 

엑셀 반복이 없는 이원배치법



 

[데이터] - [데이터 분석] - [분산 분석: 반복 없는 이원 배치법]을 선택합니다.

 



데이터 범위과 유의수준을 정합니다.

(‘이름표에 체크하면 인자 이름이 있는 셀도 선택할 수 있습니다.

인자 이름이 결과표에 떠서 결과를 알아보기 쉬우니 체크하는 편이 좋습니다.)

 


 

확인을 누르면 F비와 p값을 볼 수 있습니다.

(변동의 요인에서 인자 A()은 세로(여기서는 온도), 인자 B()은 가로(여기서는 첨가제)입니다.)

 


엑셀 반복이 있는 이원배치법




[데이터] - [데이터 분석] - [분산 분석: 반복 있는 이원 배치법]을 선택합니다.



 

데이터 범위, 표본당 행수, 유의수준을 정합니다.

(엑셀에서 반복 있는 이원배치법을 하려면 처리 별 자료를 세로로 나열해야 합니다. 이 행 수를 표본당 행수로 입력합니다. 가로로 쓴 데이터도 쓸 수 있으면 좋을 텐데요.)



 

확인을 누르면 각 인자와 교호작용에 따른 F비와 p값을 볼 수 있습니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 17 - 분산분석(1)
반응형




시작하기 전에



  이제 여러분은 표본평균을 바탕으로 두 모집단의 평균을 비교할 수 있습니다. 그런데 모집단이 여럿이면 어떡하죠?

 


시작!

 

  지난 시간엔 평균을 비교했습니다. 두 표본집단 자료로 두 모집단의 평균이 같은지 다른지를 귀무가설과 대립가설을 세워 대조했습니다.

 

  그런데 모집단이 여럿이라면 어떡할까요? 이전에 배운 평균비교는 두 모집단만 비교할 수 있습니다. ‘모집단 1의 평균=모집단 2의 평균, 모집단 2의 평균=모집단 3의 평균.’처럼 귀무가설을 여러 가지 세워서 동시에 만족하나 살피려면 너무 복잡하고 번거롭습니다.

 

  분산분석(ANOVA, ANalysis Of VAriance)은 여러 모집단의 모평균이 같은지를 한 번에 비교할 수 있는 기술입니다. 영국의 학자 로날드 피셔가 개발한 분산분석은 여러 제약조건이 있기는 하지만 여러 모집단 평균을 동시에 비교할 수 있는 강력한 기술입니다.

 


분산분석 조건


  분산분석을 시작하기에 앞서, 분산분석에 필요한 가정 세 가지를 알아봅시다.

 

첫째, 모집단은 전부 정규분포를 따른다.

둘째, 모집단의 분산은 전부 같다.

셋째, 표본은 무작위로 추출하고 모집단마다 표본은 독립적이다.

 

  첫째 조건이야 표본 크기가 크면 어떻게든 무마한다고 칩시다. 셋째 조건도 지키기 쉽습니다. 둘째 조건은 조금 까다로운데, 여러 모집단의 분산이 전부 같아야 하기 때문입니다. 여러분이 공정을 비교해 제일 빠른 공정을 찾고 싶은 공장장이라면, 공정을 제외한 요소들은 전부 같게 맞춰서 모집단마다 분산이 같도록 애써야 할 것입니다.

 


분산분석 용어




  여러분은 제일 빠른 공정을 찾고 싶은 공장장입니다. 여러분은 온도와 첨가제를 달리하면서 제일 빠른 공정을 찾아낼 겁니다. 온도는 100도와 200도로 조절하고 첨가제는 A, B, C 세 종류가 있습니다. 그럼 온도 두 가지와 첨가제 세 가지로 여섯 가지 조합이 나옵니다.

 

  여기서 온도와 첨가제는 인자Factor이며 인자는 분산분석에서 제어 가능한 독립변수입니다. 100, 200도 같은 선택지는 수준Level입니다. ‘100도와 첨가제 A’, ‘200도와 첨가제 B’같은 조합은 처리Treatment라고 부릅니다. 이렇게 여러 처리에 따른 공정 시간은 반응 변수Response Variable이라고 부릅니다.

 

공장장인 여러분에게

  인자는 온도와 첨가제가

  온도엔 두 가지 수준, 첨가제엔 세 가지 수준이

  이번 분산분석에는 여섯 가지 처리가 있으며

  공정에 걸리는 시간이 반응변수입니다.

 

 

분산분석을 시작하자





 

  지금은 첨가제 A, B, C만 생각합시다. 세 첨가제를 넣어 각각 다섯 번 측정했습니다. 15가지 자료가 있겠네요. 세 표본을 보고 세 모집단 평균이 같은지 다른지 알아보고 싶습니다. 먼저 세 모집단 평균이 전부 같다는 귀무가설을 세워 보죠.




 

  아무 값이나 골라 봅시다. 이 값은 모집단 평균과 다를 겁니다. 왜 다를까요? 두 가지 이유를 생각할 수 있습니다.

 

첫째, 이 값이 속한 처리(첨가제 B) 때문에.

둘째, 같은 처리 속에서도 값이 조금씩 다르므로.

 

  즉 이 값과 모집단 평균의 차는 첨가제가 달라서 오는 차이와 그냥 이 값 자체가 달라서 오는 차이로 나눌 수 있습니다. 첨가제가 달라서 오는 차이는 첨가제마다 있는 표본평균과 총평균의 차이로 표현합시다. 이 값 자체가 달라서 오는 차이는 자료값과 표본평균의 차이로 표현합시다. 모집단 평균은 일단 15가지 자료의 총평균으로 추측하고요. 이 내용을 수학적으로 근사하게 쓰면 다음과 같을 겁니다.



 

이제 이걸 제곱해서 모든 값에 합합니다.



 

(자료와 평균의 차이는 합하면 0이라서 마지막 항은 사라집니다.)

 




  자료와 총평균 차이의 제곱합은 총제곱합(Total Sum of Squares, TTS/SST), 표본평균과 총평균 차이의 제곱합은 처리제곱합(Sum of Squares for TReatments, SSTR), 자료값과 표본평균 차이의 제곱합은 오차제곱합(Error Sum of Squares, ESS/SSE)이라고 부릅니다.






  처리제곱합의 자유도는 표본집단 수 1, 오차제곱합의 자유도는 총 자료 수 –표본집단 수입니다. 갑자기 웬 자유도냐 싶겠지만 분산분석을 하려면 필요합니다. 이번 경우에는 처리제곱합의 자유도는 3(첨가제 가짓수)-1=2, 오차제곱합의 자유도는 15(총 자료 수)-3=12입니다.


 


  처리제곱합을 자유도로 나누고 오차제곱합도 자유도로 나눕니다. 이 값은 각각 처리제곱평균(TReatment Mean Square, MSTR), 오차제곱평균(Error Mean Square, MSE)라고 합니다. 자유도는 좀 있다 또 필요합니다.

 




 

거의 다 왔다. 힘내자!

 

  분산분석을 끝마치려면 F분포가 필요합니다. 그냥 그런 분포가 있다고 알면 됩니다. F분포는 자유도에 따라 모양이 다릅니다. 스튜던트 t 분포랑 비슷하죠. F분포는 그런데 자유도가 둘 필요합니다. 맞습니다. 아까 구한 두 자유도를 F분포에 넣어야 합니다.




  그리고 처리제곱평균을 오차제곱평균으로 나눕니다. 이 값은 귀무가설이 틀릴수록 커집니다. 슬슬 감이 오지 않습니까? F분포에서 이 나눈 값보다 큰 영역이 바로 분산분석의 p값입니다. 귀무가설이 틀릴수록 처리제곱평균/오차제곱평균은 커지고, F분포에서 이 값보다 큰 영역은 줄어듭니다. p값이 작아집니다. p값이 유의수준보다 작으면 귀무가설을 기각하는 건 상식이겠죠?

 


엑셀에서 분산분석 하기



 

  엑셀 데이터 분석 메뉴에는 분산분석: 일원 배치법이 있습니다.




  입력 범위, 데이터 방향, 유의수준을 입력하고 확인을 누릅니다.



 

 

그럼 인자가 둘일 땐?


  이번 시간에는 인자가 하나일 때를 놓고 분산분석을 했습니다. 첨가제 하나만 보았죠. 그런데 첨가제뿐 아니라 온도에 따라서도 모집단 평균이 같은지 알고 싶으면 어떻게 할까요? 지금까지는 인자가 하나인 일원 배치법 One way factorial design’을 배웠다면, 다음 시간에는 인자가 둘인 이원 배치법 Two way factorial design’ 분산분석을 알아봅시다.

반응형
  Comments,     Trackbacks