설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
z검정 (1)
엑셀로 통계하기 16 - 평균비교
반응형




시작하기 전에...




  두 공장이 있습니다. 공장 A와 공장 B는 같은 제품을 생산하지만 공정은 다릅니다. 두 공장 중 어느 공장이 더 빨리 생산하는지 알고 싶습니다. 어떻게 해야 할까요?



시작!

 

  지난 시간에는 귀무가설과 대립가설을 세운 뒤, 그 귀무가설을 기각할 수 있는지 알아냈습니다. 표본평균이 어느 값 이상인지/이하인지/같은지 가설을 세운 다음, 모집단 표준편차를 알 때와 모를 때로 나누고, 귀무가설에 맞는 p을 구해 유의수준과 비교해서, p값이 유의수준보다 작으면 귀무가설을 기각했습니다.

 

  이번 평균비교는 방법 자체는 p값 방법과 거의 같습니다. 모집단 표준편차를 알 때 모를 때를 나눈다거나, p값을 구한다거나 하는 과정은 같습니다. 다만 두 모집단의 평균이 같은지 다른지 알아내는 과정인 만큼 모집단의 표준편차가 둘인 점 등이 다릅니다.

 


평균 비교하기


  우리는 두 모집단의 평균이 같은지 알고 싶습니다. 각 모집단에서 표본을 추출해서 자료를 조사했습니다. 모집단 1의 표본평균, 모집단 2의 표본평균을 구합니다.




 

  지난 시간 귀무가설은 모집단 평균이 ~ 이하다/이상이다/~였습니다. 이번에도 이런 방식을 사용합시다. 두 모집단 평균이 같다면, 두 모집단 평균을 뺀 값은 0입니다. 따라서 귀무가설은 두 모집단 평균의 차이는 0이다이고 대립가설은 두 모집단 평균의 차이는 0이 아니다 입니다.

 

  지난 시간에는 표본평균의 표본분포를 만들었습니다. 표본분포는 기댓값이 귀무가설에 나온 그 값이고 표본분포의 분산은 모집단 분산에서 표본 크기를 나눈 값인 정규분포였습니다. 이번엔 두 표본평균 차이의 표본분포를 만듭니다. 역시 정규분포입니다. 기댓값은 0입니다. 그런데 분산(표준편차)는 어떻게 구할까요? 두 모집단의 분산이 다르고, 심지어 두 표본의 크기도 다를 텐데요.




 

  표본평균 차이의 표본분포 표준편차 공식은 이렇습니다. 이제 표본평균 차이의 표본분포를 알 수 있습니다.



 

  그럼 나머지는 귀무가설 검정과 같습니다. 표본평균 대신에 표본평균 차이로 z값을 구할 뿐이죠. z값이 3이라면, p값은 표본평균 차이 표본분포에서 3이하/3이상인 영역 넓이입니다. 이 넓이가 유의수준보다 작다면 귀무가설을 기각할 수 있고 따라서 두 모집단의 평균이 다르다는 결론을 내릴 수 있습니다.

 

요약) 두 모집단 평균비교(모집단 표준편차를 알 때)

1) 표본평균 차이로 귀무가설/대립가설을 세운다

2) 표본평균 차이의 분포(정규분포)를 만든다

3) 표본평균 차이에서 z값과 p값을 구한다.

4) p값과 유의수준을 비교한다.

 


모집단 표준편차를 모를 때

 

  그럼 두 모집단의 표준편차를 모를 때는 어떻게 할까요? 가설 검정에서는 표본의 표준편차를 모집단 표준편차로 추정하고, 정규분포 대신 스튜던트 t분포를 사용했습니다. t분포의 자유도는 표본 크기-1이었죠.

 

  평균비교도 두 모집단 표준편차 대신 표본 표준편차를 사용합니다. 자유도는 어떡하냐고요? 자유도 공식은 다음과 같습니다.




 

나머지 방법은 같습니다.

 

요약) 두 모집단 평균비교(모집단 표준편차를 모를 때)

1) 표본평균 차이로 귀무가설/대립가설을 세운다

2) 표본평균 차이와 표준편차로 분포(정규분포)를 만든다

3) z값을 구하고 스튜던트 t분포에 맞는 p값을 구한다

4) p값과 유의수준을 비교한다

 





엑셀에서 평균 비교하기(모집단 표준편차를 알 때)



1) 엑셀 [데이터] - [데이터 분석]에 들어갑니다.

(없다면 [파일] - [옵션] - [추가 기능]에서 추가합니다)




2) 'z-검정 : 평균에 대한 두집단'을 선택합니다.





3) 변수 범위, 가설 평균차(여기서는 0), 두 모집단의 분산('분산-기지값', 기지旣知는 이미 안다는 뜻), 유의수준을 입력하고 '확인'을 누릅니다.



엑셀에서 평균 비교하기(모집단 표준편차를 모를 때)

 


1) 엑셀 [데이터] - [데이터 분석]에 들어갑니다.

(없다면 [파일] - [옵션] - [추가 기능]에서 추가합니다)


 


2) ‘t-검정: 이분산 가정 두집단을 선택합니다.




3) 변수 범위, 가설 평균치(0), 유의수준을 선택하고 확인을 누릅니다.

 

반응형
  Comments,     Trackbacks