설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀로 통계하기 19 - 분산분석 이원배치법
반응형



  지난 시간에는 여러 모집단 평균을 비교하는 분산분석을 수행했습니다. 인자가 하나인 일원배치법이었죠. 첨가제에 따른 제조 시간이 같은지 다른지를 판단했죠. 그런데 첨가제와 온도를 동시에 고려할 수는 없을까요? 예를 들어 첨가제 A80도 온도로 공정을 실행할 때와 첨가제 B90도 온도로 공정을 실행할 때 제조 시간이 같을까요?

 

  이렇게 인자 두 가지를 고려하는 방법은 이원배치법(Two way factorial design)이라고 합니다. 이원배치법은 반복이 없는 이원배치법과 반복이 있는 이원배치법으로 나뉩니다. 반복이 없는 이원배치법은 말 그대로 처리마다 결과가 하나입니다. 반복이 있는 이원배치법은 처리마다 여러 번 시험해서 결과도 여럿입니다. 반복이 없는 이원배치법부터 살펴봅시다.

 


반복이 없는 이원배치법


 지난 분산분석에서 자료값과 총평균의 차이를 분석한 것 생각나나요?


 

자료값과 총평균의 차이

= 처리가 달라서 생기는 차이 + 자료마다 개별로 생기는 차이

 




  공장으로 돌아가 봅시다. 첨가제와 온도를 다르게 하면서 제조시간을 쟀습니다. 첨가제는 세 종류, 온도는 두 종류가 있다고 가정합니다. 첨가제 B, 90도 자료를 보겠습니다. 이 자료와 모평균(자료 총 평균으로 모평균을 추정합니다)의 차이는 세 가지로 나눌 수 있습니다.

 

   자료값과 총평균의 차이

= 첨가제에서 생기는 차이 + 온도에서 생기는 차이 + 자료마다 개별로 생기는 차이

 

  첨가제에서 생기는 차이는 첨가제별 평균 - 총평균입니다. 온도가 달라서 생기는 차이는 온도별 평균 - 총평균입니다. 개별로 생기는 차이는 자료값에 각 인자별 평균을 빼고 총평균을 더한 값입니다. 식으로 쓰면 다음과 같습니다.




  (표본평균-총평균)의 제곱합을 처리제곱합이라 불렀습니다. 그런데 인자가 둘이라 표본평균도 첨가제별 평균, 온도별 평균으로 둘입니다. 따라서 처리제곱합도 두 가지입니다. 처리제곱합의 자유도는 각 인자수-1입니다. 첨가제 처리제곱합의 자유도는 3-1=2, 온도 처리제곱합의 자유도는 2-1=1가 되죠. 오차제곱합은 다행히 하나군요.











 

  처리제곱합을 자유도로 나눈 처리제곱평균은 두 가지, 오차제곱합을 자유도로 나눈 오차제곱평균은 한 가지입니다. 오차제곱합은 자유도가 조금 특이합니다. 각 인자 가짓수에서 1을 뺀 값의 곱이죠. 첨가제는 세 가지 온도는 두 가지니까 오차제곱합의 자유도는 (3-1)(2-1)= 2네요.



 

  처리제곱평균이 둘이니 처리제곱평균을 오차제곱평균으로 나눈 F비도 두 가지입니다. 귀무가설/대립가설 쌍도 두 가지고요.


  여러분은 원하는 인자를 골라서, 각 자유도에 맞는 F분포를 그린 뒤 F비 오른쪽 넓이(p)를 구한 후 유의수준과 비교하면 됩니다. F분포에 들어가는 자유도는 SSTR 자유도와 SSE 자유도로 일원배치법과 같습니다. p값이 유의수준보다 작으면 귀무가설은 기각되고, 그 인자별 모집단 평균은 다르다고 말할 수 있습니다.

 

 

반복이 있는 이원배치법

 

첨가제와 온도가 만나서 시너지를 낼 수도 있잖아요!’


  맞습니다. 첨가제 그 자체, 온도 그 자체가 내는 효과도 있겠지만 특정 첨가제와 온도가 만나서 내는 효과도 있을 수 있습니다. 어느 한 처리가 특별한 값인 건 첨가제나 온도 탓일 수도 있지만, 딱 그 첨가제와 딱 그 온도가 만나서 나오는 효과 탓일 수도 있죠.

 

  반복이 있는 이원배치법은 이렇게 두 인자가 만나서 내는 교호작용(Interaction)’을 확인할 수 있습니다. 반복이 있는 이원배치법은 말 그대로 이원배치법을 처리마다 여러 번 시험하는 것입니다. 첨가제A80도를 세 번 시험하고 첨가제A90도를 세 번 시험하고.



 

  이번 경우에는 처리마다 세 번 시헙했습니다. 이제 자료값과 총평균의 차이는 인자마다 있는 차이뿐 아니라 인자들이 만나서 생기는 차이도 한몫합니다.

 

   자료값과 총평균의 차이

= 첨가제가 달라서 생기는 차이 + 온도가 달라서 생기는 차이

+ 첨가제와 온도가 만드는 차이 + 자료마다 개별로 생기는 차이

 

  총제곱합 = 처리제곱합 세 가지와 오차제곱합



  세 가지 처리제곱평균이 생깁니다. 자연스레 F비도 세 가지고 귀무가설/대립가설도 세 가지가 나오겠죠.




 

 

엑셀 반복이 없는 이원배치법



 

[데이터] - [데이터 분석] - [분산 분석: 반복 없는 이원 배치법]을 선택합니다.

 



데이터 범위과 유의수준을 정합니다.

(‘이름표에 체크하면 인자 이름이 있는 셀도 선택할 수 있습니다.

인자 이름이 결과표에 떠서 결과를 알아보기 쉬우니 체크하는 편이 좋습니다.)

 


 

확인을 누르면 F비와 p값을 볼 수 있습니다.

(변동의 요인에서 인자 A()은 세로(여기서는 온도), 인자 B()은 가로(여기서는 첨가제)입니다.)

 


엑셀 반복이 있는 이원배치법




[데이터] - [데이터 분석] - [분산 분석: 반복 있는 이원 배치법]을 선택합니다.



 

데이터 범위, 표본당 행수, 유의수준을 정합니다.

(엑셀에서 반복 있는 이원배치법을 하려면 처리 별 자료를 세로로 나열해야 합니다. 이 행 수를 표본당 행수로 입력합니다. 가로로 쓴 데이터도 쓸 수 있으면 좋을 텐데요.)



 

확인을 누르면 각 인자와 교호작용에 따른 F비와 p값을 볼 수 있습니다.

반응형
  Comments,     Trackbacks