설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀로 통계하기 (17)
엑셀로 통계하기 15 - 유의성 검정(2)
반응형




지난 시간에는 귀무가설과 대립가설,

귀무가설을 기각할지 말지를

p값을 이용해서 알아보았습니다.


지난 시간에는 모표준편차를 안다고 가정하고 계산했지만

이번에는 모표준편차를 모르는 때를 알아봅시다.



구간추정에선 모표준편차를 알 때/모를 때를 구분했는데,

모를 때는 모표준편차 대신 표본 표준편차를 사용했습니다.

표준정규분포 대신 자유도에 따른 t분포를 사용했고요.


 

이번에도 같습니다.

모표준편차는 표본 표준편차로 대신해서

표본분포 표준편차를 구합니다.


 

모표준편차를 알 때는 표본평균의 표본분포를 그렸는데,

이번에는 자유도가 n-1t분포를 그립니다.

 


z값을 구하듯

(표본평균 가정한 모평균)/표본분포의 표준편차

를 계산합니다.

 



예를 들어

귀무가설 : μ≤3

대립가설 : μ>3

n = 50

표본평균 = 3.1

표본 표준편차 = 1.1

유의수준 = 0.05

일 때, 귀무가설을 기각해야 할까요?

 



t값은 (3.1-3)/ 1.1/50 = 0.64입니다.


 

자유도가 50-1= 49t분포에서

0.64보다 클 확률은 얼마일까요?

 


엑셀 T.DIST 함수를 이용해서

t분포 값을 계산할 수 있습니다.

 

=T.DIST( x , 자유도 , T/F)

TRUE : 누적

FALSE : 확률밀도값


 

=T.DIST(0.64 , 49 , TRUE)

0.73입니다.

 

t값이 유의수준보다 크므로

귀무가설을 기각할 수 없습니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 14 - 유의성 검정(1)
반응형





민희네 회사는 새 스포츠카를 개발했습니다.

제로백(정지상태에서 시속 100km까지 도달하는 시간)

10초라는군요.

 



물론 실제로 10초인지 검사해야겠죠.

민희네 회사 소속 연구자들이 표본 25대를 가져와서

제로백을 측정할 겁니다.



 

연구자들은 가설을 세웁니다.

이 차의 제로백은 10초 이하다.’


 


검사 결과는 둘 중 하나가 나올 겁니다.

첫째, 정말 제로백이 10초 이하거나

둘째, 제로백이 10초 초과여서 개발자들이 조인트를 맞거나.



 

유의성 검정 Significance test

수집한 자료가 가설에 적합한지 검사하는 것을 말합니다.


 


유의성 검정에는 반대되는 두 가지 가설을 만듭니다.

귀무가설 Null hypothesis

대립가설 Alternative hypothesis입니다.

 

두 가설이 이하/초과, 이상/미만일 때는 단측검정한다고 하고

같음/다름일 때는 양측검정한다고 합니다.

 


이번 민희네 스포츠카 제로백 검사에서

귀무가설은 제로백이 10초 이하

대립가설은 제로백이 10초 초과

이번 유의성 검정은 단측검정입니다.

 




1, 2종 오류

 



제로백을 검사하는 연구진은 유능하지만

틀릴 가능성을 무시할 수 없습니다.

 

제로백이 10초 미만이지만

측정을 잘못하거나 표본을 잘못 뽑아서

제로백이 10초를 초과한다고 판단할 수 있습니다.

 

그와 반대로

제로백이 10초를 초과하지만

실수로 제로백이 10초 이하라고 판단할 수 있습니다.

 

귀무가설이 참인데도 기각해버리는 오류를

1종 오류 Type error,

귀무가설이 거짓인데도 채택해버리는 오류를

2종 오류 Type error라고 합니다.


 


통계 초보인 저는 잘 모르지만,

통계학자들은 제1종 오류를 더 피하고 싶은가 봅니다.


 


1종 오류를 허용할 한계.

유의수준 Level of significance 개념이 아주 유명하거든요.

 

연구진은 조사하기 전에 유의수준을 정합니다.

1종 오류를 저지르기 싫을수록 유의수준을 낮게 잡습니다.

 

유의수준은 0.050.01로 잡는 편입니다.

민희네 연구진은 0.05로 잡았습니다.

(α로 씁니다)



 

 

모표준편차를 알 때

 



유의성 검정도 구간추정처럼

모표준편차를 알 때/모를 때 구분해서 생각해봅시다.

 

데이터가 많거나 공정이 정확하면

모표준편차를 안다고 가정한다고 지난번에 말씀드렸습니다.



 

연구진은 과거 자료로

모표준편차를 1.5로 가정했습니다.

 

표본 25대를 뽑아 제로백을 검사해보니

평균 10.5초가 나왔습니다.

 

표본 평균이 10초 이하라면

당연히 귀무가설이 맞겠죠.

(제2종 오류를 무시한다면요)




그런데 표본 평균이 10초를 초과합니다.

개발진은 이대로 조인트를 맞아야 할까요?

 

그러나 아직 제1종 오류를 무시할 수 없습니다.

 

연구진은 유의수준을 0.05로 잡았습니다.

만약 모평균이 10인데도

재수 없게 표본평균이 10.5를 넘길 확률이 크다면

귀무가설을 함부로 기각할 수 없겠죠.

 

얼마나 크면 기각할 수 없을까요?

아까 정한 유의수준 0.05보다 크면 기각할 수 없겠죠.

 

p(p-value, 유의 확률)이란

이렇게 귀무가설이 맞을 때 어떤 값보다 심한 값이 나올 확률입니다.

 

이게 낮을수록 우연히 그 값이 나올 가능성은 작아지고,

정말 귀무가설이 틀려서 그 값이 나올 가능성은 커집니다.

 

쉽게 말해,

p값이 낮을수록 귀무가설은 틀립니다.

 

이제 제로백을 판단할 시간입니다.

 


귀무가설이 참이고, 모집단이 정규분포라면

표본평균의 표본분포는 기댓값이 10이고

표준편차가 1.5/√25 = 0.3인

정규분포를 그립니다.


 

표준정규분포로 옮겨 봅시다.

10.5에 평균을 빼고 표준편차로 나누면

z = 1.67입니다.



표준정규분포에서 1.67보다 클 확률은

엑셀 NORM.S.DIST 함수로 구해 보니

0.048입니다.


p0.048이 유의수준 0.05보다 작으므로

귀무가설을 기각할 수 있습니다.

결국 개발진은 조인트를 피할 수 없겠군요.

 

모표준편차를 모르는 경우는

다음 시간에 설명해보겠습니다.

 

 

보충 1

기각이냐 아니냐?


우린 이 게시물에서 제2종 오류를 무시했습니다.

따라서 대립가설을 마음 놓고 채택할 수 없습니다.

이때는 두 가지로 말할 수 있습니다.

1) 귀무가설을 기각한다.

2) 귀무가설을 기각할 수 없다.


 

보충 2 

양측검정일 때

 

양측검정에서

귀무가설은 모평균이 특정 값이다

대립가설은 모평균이 특정 값이 아니다입니다.

 

단측검정은 한쪽 꼬리 면적으로 p값을 구했지만

양측검정에서는 양쪽 꼬리 면적으로 구해야 합니다.

 


 보충 3

p값 방식과 임계값 방식

 

아까 p값으로 유의성을 검정했지만

임계값 방식도 있습니다.

 

임계값 방식은 유의수준을 토대로

미리 경계를 만들어 두고,

결과로 만든 z값이 이를 넘으면 기각하는 방식입니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 13 - 구간추정(2)
반응형





지난 시간에는 모표준편차를 알 때

구간추정으로 표본평균이 모평균에 얼마나 가까운지 추측했습니다.


 

표본평균에 더하고 빼는 오차범위는 이랬죠.

 


여기서 α는 유의수준으로,

95%의 신뢰수준이라면 1-0.95=0.05였습니다.




 

모표준편차를 모를 때




그러나 자료 대부분은 모집단 표준편차를 모릅니다.

그래서 표본을 추출해 조사하는 것 아니겠습니까.



 

모표준편차를 모를 때도 오차범위 식은 비슷합니다.

단 두 가지만 다르죠.



 

첫째, 모집단 표준편차 대신

표본 표준편차를 집어넣습니다.

 



둘째, 유의수준에 대한 Z값 대신

t분포에 대한 t을 넣습니다.



 

t분포(스튜던트 t분포)

맥주 양조장에서 일하던 윌리엄 고셋이

스튜던트라는 필명으로 발표한 분포입니다.

 



이 분포는 자유도마다 분포가 하나씩 있습니다.

자유도 1에 대한 t분포,

자유도 2에 대한 t분포... 

(자유도가 커질수록 t분포는 표준정규분포에 가까워집니다.)

 

그럼 구간추정 오차범위에는

어떤 t분포값을 넣어야 할까요?



 

n-1 자유도에서

(n은 표본크기)

양쪽 꼬리 면적이 α/2t값을 넣습니다.

 



엑셀에서는 T.INV.2T 함수를 이용해

확률에 따른 t값을 계산합니다.



 

=T.INV.2T( x , 자유도)

x : 양쪽 누적한 확률

 

유의수준이 0.05, 자유도가 29라면

=T.INV.2T(0.05 , 29)

오차범위에 넣을 t값입니다.

 




사실, 엑셀에는 신뢰수준에 따른 오차범위를 구하는 기능이 있습니다.

 



[데이터] 리본 오른쪽 끝 데이터 분석을 찾으셨나요?

 


없다면 [파일] - [옵션] - [추가기능] - [이동]에서

분석 도구를 체크하고 확인을 누르면 생깁니다.

 


데이터 분석에 들어가서 기술 통계법을 선택합니다.

 



자료 범위를 지정하고

요약 통계량에 체크하고

평균에 대한 신뢰 수준에 원하는 신뢰수준을 입력하고

확인을 누르면 오차범위를 볼 수 있습니다.



반응형
  Comments,     Trackbacks
엑셀로 통계하기 12 - 구간추정(1)
반응형



우린 모집단 통계량을 구할 수 없을 때 표본을 추출해서 조사합니다.




그런데 표본으로 구한 평균이 모집단 평균과 가깝다고 얼마나 확신할 수 있을까요?


*이번 글은 조금 깁니다.

 



과자 공장이 이번 달 생산하는 과자 한 봉지에 들어가는 과자 양을 알고 싶다고 합시다.



 

과자 공장의 공정은 아주 정확하고, 관리도 잘 됩니다.

공정은 20년 전부터 변화가 없었고, 매달 과자 양을 측정해 왔습니다.

 


이렇게

 1) 데이터가 아주 많거나,

2) 공정이 정확하고 잘 관리될 때는

그동안 구한 표준편차를 모집단 표준편차로 가정할 수 있습니다.



 

여기서 표본분포 개념을 잠깐 듣고 갑시다.





표본분포는 무엇일까요. 과자 1000봉지 중 50봉지를 표본으로 추출해서 실험한다고 합시다.


사람에 따라 표본으로 뽑히는 50봉지는 여러 가지입니다. 그럼 그 50봉지마다 알갱이 수의 평균은 조금씩 다르겠죠.

 




이렇게 표본들 자료의 분포를 표본분포라고 합니다.

이 분포의 기댓값은 모집단 평균입니다.

이 곡선의 표준편차는 모집단 표준편차에서 표본수의 제곱근을 나눈 값입니다.




 

모집단이 정규분포라면, 표본평균의 표본분포도 정규분포를 그립니다.




 

모집단이 정규분포가 아니어도, 중심극한정리에 따라 표본 크기가 클수록 표본평균의 표본분포는 정규확률분포에 가깝습니다.

(30 이상이라고 합니다)

 

결국, 표본평균의 분포는 (웬만하면) 정규분포곡선을 그립니다.





 


과자 공장으로 돌아갑시다.




봉지 당 알갱이 수는 정규분포를 그린다고 가정합니다.

모집단 표준편차는 5입니다.

25봉지를 추출해 검사했더니 한 봉지에 평균 30알갱이가 있습니다.

이 표본평균은 모집단 평균에서 얼마나 가까울까요?

 

 


정규분포곡선에서

평균 양옆 1.96표준편차 이내에는 자료의 95%가 들어갑니다.

 

표본평균의 표본분포 그래프에서도

모집단 평균 양옆 1.96표준편차 이내에 표본평균의 95%가 있습니다.

표본평균 표본분포의 표준편차는

5/5=1입니다.

 




방향을 반대로 보면, 표본평균의 95%는 모집단 평균과 1.96표준편차 이하만큼 가깝습니다.

 




즉 우리가 검사한 표본의 평균은 모집단 평균과 1.96표준편차 이내에 있다고 95% 확신합니다.

 




과자 공장에서 보자면

표본에서 나온 평균 30알은 모집단 평균과

1.96X1=1.96

알 이하만큼 차이가 난다고 95% 확신합니다.


즉, 95%만큼 확신할 수 있는 범위는

30-1.96=28.04 에서

30+1.96=31.96입니다.

 

이때 95%신뢰수준 Confidence level입니다.

0.95신뢰계수 Confidence coefficient입니다.

1-0.95=0.05유의수준 Level of significance입니다.

1.96에 표본평균 표준편차를 곱한 것이 오차범위입니다.

그렇게 구한 구간이 95% 신뢰구간 Confidence interval입니다.



이제 과자공장에선 이렇게 말할 수 있습니다.

'우리 공장 과자는 28.04알에서 31.96알 사이가 들었다고

95% 확신할 수 있어.'

 



인터넷에서는 유의수준에 따라 표본분포 표준편차에 곱하는 값(Z)이 나와있으니 참고바랍니다.

 



엑셀에서 오차범위 구하기

 




엑셀에서는 모표준편차를 알 때

오차범위를 구하는 CONFIDENCE.NORM 함수가 있습니다.

 

=CONFIDENCE.NORM(유의수준, 모표준편차, 표본크기)

 

 

그런데 모집단 표준편차를 모르면 어떻게 할까요?

다음 시간에 알아봅시다.



 


주의! 표본평균 표준편차


표본을 추출하는 모집단의 종류에 따라 표본평균 표준편차 공식이 다릅니다.


모집단에는 유한모집단무한모집단이 있습니다.


유한모집단은 말 그대로 자료가 유한합니다.

무한모집단은 자료가 무한하거나 계속 생겨납니다.

과자 공장에서, 과자는 계속 생산되므로 전체 자료가 몇 봉지인지 말할 수 없습니다. 따라서 무한모집단입니다.



 

무한모집단이거나 유한모집단이더라도 n/N0.05 이하일 때는 아까처럼 공식을 씁니다.



 

유한모집단일 때는 여기에 유한모집단 수정인수를 곱합니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 11 - 로그정규/지수/와이불
반응형





여러분의 자료가 어떤 분포와 아주 비슷하다면

다음 자료가 어느 정도일지 예측할 수 있습니다.



 

여러분 지역 강수량이 정규분포를 따른다면

내년 강수량이 500mm 이상일 확률도 구할 수 있겠죠.



 

그러나 정규분포만 분포가 아닙니다.

연속분포는 여러 종류가 있습니다.

그중 일부를 소개합니다.



 

로그정규분포 Log normal distribution


 

로그정규분포는 확률변수의 자연로그가 정규분포를 따르는 분포입니다.

x 대신 ln(x)가 정규분포를 따르는 것이죠.

다른 건 정규분포와 똑같습니다.



 

엑셀에는 로그정규분포확률을 구하는

LOGNORM.DIST 함수가 있습니다.

 

=LOGNORM.DIST( x , ln(x)의 평균 , ln(x)의 표준편차 , TRUE/FALSE)

TRUE : x까지 누적확률

FALSE : x 확률밀도함수



 

 

지수분포 Exponential distribution


 

푸아송분포가 구간 내 벌어지는 횟수를 다룬다면

지수분포는 구간 내 벌어지는 간격을 다룹니다.

 

구간에서 평균 μ번 사건이 벌어질 때

지수확률분포와

x가 일정 수 이하일 확률은 다음과 같습니다.




 

엑셀에서는

EXPON.DIST 함수

지수확률분포를 구합니다.

 

=EXPON.DIST(x, 1/평균 , TRUE/FALSE)

TRUE : x 이하일 확률(누적확률)

FALSE : x 확률밀도함수(f(x))

 

: 1시간 동안 고객센터로 평균 10번 전화가 온다.

지수분포를 따른다고 가정할 때

1시간 동안 5번 이내로 전화가 올 확률은

=EXPON.DIST(5, 1/10 , TRUE)

 

 

와이불/베이불 분포 Weibull distribution


 

와이불 분포는 탈락이나 변화하는 항목에 유용한 분포입니다.

제품 100개 중 5년 후 10개가 고장 날 확률처럼요.

 

와이불 분포 확률함수와 누적함수식은 다음과 같습니다.



 



엑셀에서는

WEIBULL.DIST 함수로 와이불 확률함수를 구합니다.

 

=WEIBULL.DIST( x , α , β , TRUE/FALSE)

TRUE : x 이하일 확률(누적함수)

FALSE : x 확률밀도함수

반응형
  Comments,     Trackbacks
엑셀로 통계하기 7 - 조건부 확률과 베이즈 정리
반응형





A라는 사건이 생길 확률을 P(A)라고 합시다.

 



AB가 같이 생길 확률은

P(AB)라고 합시다.

(결합확률)

 


B가 이미 일어났을 때

A가 생길 확률은 얼마일까요?

 

확률은 P(AB)/P(B)입니다.

학교에서 배우셨을지도 모르겠네요.



 

이걸 조건부확률(Conditional Probability)이라 하고

P(AB)라고 합니다.

 

 

베이즈 정리

 



우리 학교 야구부는

가끔 근처 두 학교와 대결합니다.


 

A학교와 붙을 확률은 70%,

B학교와 붙을 확률은 30%입니다.



 

A학교와 붙으면 승률은 20%,

B학교와 붙으면 승률은 60%입니다.

 



어느 날 우리 학교 야구부가 이겼다는 소식을 들었습니다.

어디 학교와 붙었는지는 모릅니다.

A학교와 붙었을 확률은 얼마일까요?

 



이겼는지 졌는지 모른다면,

A학교와 붙었을 확률은 당연히 70%입니다.

그러나 이젠 이겼다는 사실을 알게 되었습니다.

 



영국의 목사 토머스 베이즈가 만든 베이즈 정리Bayes’ Theorem

이처럼 이미 벌어진 사건이 있을 때

새로운 정보로 새로운 확률

(사후확률, Posterior Probability)

을 구하는 공식입니다.


 

, 차근차근 해 봅시다.

 



A학교와 붙는 사건을 A, B학교와 붙는 사건을 B라 부르고

이기는 사건은 W, 지는 사건은 L이라 부릅시다.

 

A와 붙게 되고 이기기까지 할 확률은

P(AW) = P(A) P(WA)입니다.

A와 붙어서 질 확률은

P(AL) = P(A) P(LA)입니다.


 

이런 식으로 네 가지 경우 확률이 나옵니다.

(A와 붙어서 이김/, B와 붙어서 이김/)



 

A, B를 만날 확률은 압니다.

A, B를 만났을 때 이기거나 질 확률도 압니다.

따라서 네 가지 경우 확률을 전부 구할 수 있습니다.



 

우리가 원하는 건 이겼을 때 A와 붙었을 확률,

P(AW)입니다.

 


공식에 따라 P(AW)/P(W)

= P(A) P(WA)/P(W) 으로 바꾸어 쓸 수 있습니다.

 


이길 확률은 A한테 이길 확률 + B한테 이길 확률입니다.

(AB 이외의 학교와는 안 붙는다고 가정한다면)


 

따라서 P(A) P(WA) / P(WA) + P(WB)이고

P(A) P(WA)/ P(A)P(WA) + P(B)P(WB)입니다.



 

이 식에 있는 네 값은 전부 압니다.

따라서 이겼을 때 A를 만났을 확률을 구할 수 있습니다.

 


베이즈 정리에 따라,

B라는 사건이 일어났을 때 A1이라는 사건이 벌어졌을 확률은

다음과 같습니다.



*베이즈 정리의 조건

1) A1, A2...는 서로 절대 겹치지 않습니다.(상호 배반)

2) A1, A2...들을 합친 것 이외의 경우는 없습니다.

(마치 두 학교 이외에는 붙지 않듯이)

 



베이즈 정리는 새로운 정보를 알고 난 후

이미 알아낸 확률을 수정하는 법을 제공합니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 6 - 공분산과 상관계수
반응형





1학년 1반의 국어, 수학 성적입니다.

국어성적이 높으면 수학성적도 높을까요?



 

공분산, Covariance는 두 변수의 직선관계를 측정합니다.

 


각 변수의 편차곱 합을 자료크기로 나눈 값이죠.

 



공분산의 절댓값이 클수록

두 변수는 직선관계가 강합니다.

 



문제는 두 변수의 단위가 다를 수 있다는 점이죠.

국어, 수학 성적은 둘 다 단위가 이지만

 



예를 들어 키와 몸무게라면 어떨까요?

cmkg를 곱한 혼종이 공분산의 단위겠죠.




게다가 다른 자료는 mlb(파운드)라면요?

두 자료는 단위가 다르니 비교할 수 없죠.

 



지난 시간

표준 편차를 평균으로 나눠 무단위인 상관계수를 구했습니다.

이번에도 비슷합니다.



 

상관계수Correlation Coefficient, 그중

피어슨의 상관계수는 공분산을 두 변수의 표준편차 곱으로 나눈 값입니다.

 



상관계수가 1이면 두 변수는 완벽한 양의 직선관계입니다.

상관계수가 1이면 완벽한 음의 직선관계입니다.


 


엑셀 공분산 함수는

COVARIANCE.P(모집단)/COVARIANCE.S(표본),

CORREL 함수로 상관계수를 구합니다.

 



그러나 여기서 주의!

상관관계는 인과관계가 아닙니다.

상관관계가 크다고 한쪽이 어느 한쪽을 유발한다는 법은 없습니다.

두 변수는 우연히 상관관계일 수도 있고

둘을 조절하는 공통원인이 상관관계를 만들 수도 있습니다.

반응형
  Comments,     Trackbacks