설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
P값 (2)
엑셀로 통계하기 16 - 평균비교
반응형




시작하기 전에...




  두 공장이 있습니다. 공장 A와 공장 B는 같은 제품을 생산하지만 공정은 다릅니다. 두 공장 중 어느 공장이 더 빨리 생산하는지 알고 싶습니다. 어떻게 해야 할까요?



시작!

 

  지난 시간에는 귀무가설과 대립가설을 세운 뒤, 그 귀무가설을 기각할 수 있는지 알아냈습니다. 표본평균이 어느 값 이상인지/이하인지/같은지 가설을 세운 다음, 모집단 표준편차를 알 때와 모를 때로 나누고, 귀무가설에 맞는 p을 구해 유의수준과 비교해서, p값이 유의수준보다 작으면 귀무가설을 기각했습니다.

 

  이번 평균비교는 방법 자체는 p값 방법과 거의 같습니다. 모집단 표준편차를 알 때 모를 때를 나눈다거나, p값을 구한다거나 하는 과정은 같습니다. 다만 두 모집단의 평균이 같은지 다른지 알아내는 과정인 만큼 모집단의 표준편차가 둘인 점 등이 다릅니다.

 


평균 비교하기


  우리는 두 모집단의 평균이 같은지 알고 싶습니다. 각 모집단에서 표본을 추출해서 자료를 조사했습니다. 모집단 1의 표본평균, 모집단 2의 표본평균을 구합니다.




 

  지난 시간 귀무가설은 모집단 평균이 ~ 이하다/이상이다/~였습니다. 이번에도 이런 방식을 사용합시다. 두 모집단 평균이 같다면, 두 모집단 평균을 뺀 값은 0입니다. 따라서 귀무가설은 두 모집단 평균의 차이는 0이다이고 대립가설은 두 모집단 평균의 차이는 0이 아니다 입니다.

 

  지난 시간에는 표본평균의 표본분포를 만들었습니다. 표본분포는 기댓값이 귀무가설에 나온 그 값이고 표본분포의 분산은 모집단 분산에서 표본 크기를 나눈 값인 정규분포였습니다. 이번엔 두 표본평균 차이의 표본분포를 만듭니다. 역시 정규분포입니다. 기댓값은 0입니다. 그런데 분산(표준편차)는 어떻게 구할까요? 두 모집단의 분산이 다르고, 심지어 두 표본의 크기도 다를 텐데요.




 

  표본평균 차이의 표본분포 표준편차 공식은 이렇습니다. 이제 표본평균 차이의 표본분포를 알 수 있습니다.



 

  그럼 나머지는 귀무가설 검정과 같습니다. 표본평균 대신에 표본평균 차이로 z값을 구할 뿐이죠. z값이 3이라면, p값은 표본평균 차이 표본분포에서 3이하/3이상인 영역 넓이입니다. 이 넓이가 유의수준보다 작다면 귀무가설을 기각할 수 있고 따라서 두 모집단의 평균이 다르다는 결론을 내릴 수 있습니다.

 

요약) 두 모집단 평균비교(모집단 표준편차를 알 때)

1) 표본평균 차이로 귀무가설/대립가설을 세운다

2) 표본평균 차이의 분포(정규분포)를 만든다

3) 표본평균 차이에서 z값과 p값을 구한다.

4) p값과 유의수준을 비교한다.

 


모집단 표준편차를 모를 때

 

  그럼 두 모집단의 표준편차를 모를 때는 어떻게 할까요? 가설 검정에서는 표본의 표준편차를 모집단 표준편차로 추정하고, 정규분포 대신 스튜던트 t분포를 사용했습니다. t분포의 자유도는 표본 크기-1이었죠.

 

  평균비교도 두 모집단 표준편차 대신 표본 표준편차를 사용합니다. 자유도는 어떡하냐고요? 자유도 공식은 다음과 같습니다.




 

나머지 방법은 같습니다.

 

요약) 두 모집단 평균비교(모집단 표준편차를 모를 때)

1) 표본평균 차이로 귀무가설/대립가설을 세운다

2) 표본평균 차이와 표준편차로 분포(정규분포)를 만든다

3) z값을 구하고 스튜던트 t분포에 맞는 p값을 구한다

4) p값과 유의수준을 비교한다

 





엑셀에서 평균 비교하기(모집단 표준편차를 알 때)



1) 엑셀 [데이터] - [데이터 분석]에 들어갑니다.

(없다면 [파일] - [옵션] - [추가 기능]에서 추가합니다)




2) 'z-검정 : 평균에 대한 두집단'을 선택합니다.





3) 변수 범위, 가설 평균차(여기서는 0), 두 모집단의 분산('분산-기지값', 기지旣知는 이미 안다는 뜻), 유의수준을 입력하고 '확인'을 누릅니다.



엑셀에서 평균 비교하기(모집단 표준편차를 모를 때)

 


1) 엑셀 [데이터] - [데이터 분석]에 들어갑니다.

(없다면 [파일] - [옵션] - [추가 기능]에서 추가합니다)


 


2) ‘t-검정: 이분산 가정 두집단을 선택합니다.




3) 변수 범위, 가설 평균치(0), 유의수준을 선택하고 확인을 누릅니다.

 

반응형
  Comments,     Trackbacks
엑셀로 통계하기 14 - 유의성 검정(1)
반응형





민희네 회사는 새 스포츠카를 개발했습니다.

제로백(정지상태에서 시속 100km까지 도달하는 시간)

10초라는군요.

 



물론 실제로 10초인지 검사해야겠죠.

민희네 회사 소속 연구자들이 표본 25대를 가져와서

제로백을 측정할 겁니다.



 

연구자들은 가설을 세웁니다.

이 차의 제로백은 10초 이하다.’


 


검사 결과는 둘 중 하나가 나올 겁니다.

첫째, 정말 제로백이 10초 이하거나

둘째, 제로백이 10초 초과여서 개발자들이 조인트를 맞거나.



 

유의성 검정 Significance test

수집한 자료가 가설에 적합한지 검사하는 것을 말합니다.


 


유의성 검정에는 반대되는 두 가지 가설을 만듭니다.

귀무가설 Null hypothesis

대립가설 Alternative hypothesis입니다.

 

두 가설이 이하/초과, 이상/미만일 때는 단측검정한다고 하고

같음/다름일 때는 양측검정한다고 합니다.

 


이번 민희네 스포츠카 제로백 검사에서

귀무가설은 제로백이 10초 이하

대립가설은 제로백이 10초 초과

이번 유의성 검정은 단측검정입니다.

 




1, 2종 오류

 



제로백을 검사하는 연구진은 유능하지만

틀릴 가능성을 무시할 수 없습니다.

 

제로백이 10초 미만이지만

측정을 잘못하거나 표본을 잘못 뽑아서

제로백이 10초를 초과한다고 판단할 수 있습니다.

 

그와 반대로

제로백이 10초를 초과하지만

실수로 제로백이 10초 이하라고 판단할 수 있습니다.

 

귀무가설이 참인데도 기각해버리는 오류를

1종 오류 Type error,

귀무가설이 거짓인데도 채택해버리는 오류를

2종 오류 Type error라고 합니다.


 


통계 초보인 저는 잘 모르지만,

통계학자들은 제1종 오류를 더 피하고 싶은가 봅니다.


 


1종 오류를 허용할 한계.

유의수준 Level of significance 개념이 아주 유명하거든요.

 

연구진은 조사하기 전에 유의수준을 정합니다.

1종 오류를 저지르기 싫을수록 유의수준을 낮게 잡습니다.

 

유의수준은 0.050.01로 잡는 편입니다.

민희네 연구진은 0.05로 잡았습니다.

(α로 씁니다)



 

 

모표준편차를 알 때

 



유의성 검정도 구간추정처럼

모표준편차를 알 때/모를 때 구분해서 생각해봅시다.

 

데이터가 많거나 공정이 정확하면

모표준편차를 안다고 가정한다고 지난번에 말씀드렸습니다.



 

연구진은 과거 자료로

모표준편차를 1.5로 가정했습니다.

 

표본 25대를 뽑아 제로백을 검사해보니

평균 10.5초가 나왔습니다.

 

표본 평균이 10초 이하라면

당연히 귀무가설이 맞겠죠.

(제2종 오류를 무시한다면요)




그런데 표본 평균이 10초를 초과합니다.

개발진은 이대로 조인트를 맞아야 할까요?

 

그러나 아직 제1종 오류를 무시할 수 없습니다.

 

연구진은 유의수준을 0.05로 잡았습니다.

만약 모평균이 10인데도

재수 없게 표본평균이 10.5를 넘길 확률이 크다면

귀무가설을 함부로 기각할 수 없겠죠.

 

얼마나 크면 기각할 수 없을까요?

아까 정한 유의수준 0.05보다 크면 기각할 수 없겠죠.

 

p(p-value, 유의 확률)이란

이렇게 귀무가설이 맞을 때 어떤 값보다 심한 값이 나올 확률입니다.

 

이게 낮을수록 우연히 그 값이 나올 가능성은 작아지고,

정말 귀무가설이 틀려서 그 값이 나올 가능성은 커집니다.

 

쉽게 말해,

p값이 낮을수록 귀무가설은 틀립니다.

 

이제 제로백을 판단할 시간입니다.

 


귀무가설이 참이고, 모집단이 정규분포라면

표본평균의 표본분포는 기댓값이 10이고

표준편차가 1.5/√25 = 0.3인

정규분포를 그립니다.


 

표준정규분포로 옮겨 봅시다.

10.5에 평균을 빼고 표준편차로 나누면

z = 1.67입니다.



표준정규분포에서 1.67보다 클 확률은

엑셀 NORM.S.DIST 함수로 구해 보니

0.048입니다.


p0.048이 유의수준 0.05보다 작으므로

귀무가설을 기각할 수 있습니다.

결국 개발진은 조인트를 피할 수 없겠군요.

 

모표준편차를 모르는 경우는

다음 시간에 설명해보겠습니다.

 

 

보충 1

기각이냐 아니냐?


우린 이 게시물에서 제2종 오류를 무시했습니다.

따라서 대립가설을 마음 놓고 채택할 수 없습니다.

이때는 두 가지로 말할 수 있습니다.

1) 귀무가설을 기각한다.

2) 귀무가설을 기각할 수 없다.


 

보충 2 

양측검정일 때

 

양측검정에서

귀무가설은 모평균이 특정 값이다

대립가설은 모평균이 특정 값이 아니다입니다.

 

단측검정은 한쪽 꼬리 면적으로 p값을 구했지만

양측검정에서는 양쪽 꼬리 면적으로 구해야 합니다.

 


 보충 3

p값 방식과 임계값 방식

 

아까 p값으로 유의성을 검정했지만

임계값 방식도 있습니다.

 

임계값 방식은 유의수준을 토대로

미리 경계를 만들어 두고,

결과로 만든 z값이 이를 넘으면 기각하는 방식입니다.

반응형
  Comments,     Trackbacks