설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀/엑셀로 통계하기 (26)
엑셀로 통계하기 외전 - 어느 모바일 게임
반응형






  철수는 지난주에 나온 모바일 게임 차일드 오브 데스티니의 광팬입니다. 여타 모바일 게임처럼 차일드 오브 데스티니도 가챠 시스템으로 아이템을 얻습니다. 가챠가챠(일본어로 철컥철컥)에서 유래한 가챠는, 쉽게 말해 뽑기입니다. 아이템을 얻으려면 일정 금액을 내고 아이템을 추첨합니다. 귀한 아이템일수록 추첨하는 데 돈도 많이 들어가고, 확률도 적습니다.

 

  오늘 철수는 풀이 죽었습니다. 정말 가지고 싶은 아이템이 있었는데, 용돈을 전부 쏟아부어도 나오지 않았기 때문입니다. 게임 개발사는 아이템이 나올 확률이 1.44%라고 말했고 철수는 100번을 시도했지만 당첨하지 못했습니다. 확률 1.44%100번 시도하면, 기댓값이 1.44인데 말이죠.

 

운이 없던 거야.’

 

  철수도 기본교육을 받아서 기댓값을 무턱대고 믿진 않습니다. 기댓값이 1을 넘더라도 재수가 없으면 안 나오니까요. 철수는 다른 사람은 어떤지 보려고 인터넷에 들어갔습니다.

 

  그런데 웬걸. 생각보다 아이템을 얻은 사람이 너무 적었습니다. 여기저기서 의견을 종합해 보니, 총 시도는 5000. 그중 아이템은 42번 나왔습니다. 5000번 중 42번은 0.84%. 아무리 게이머들이 재수가 없다지만 1.44% 확률에서 0.84%가 나올 수 있을까요?

 

 

모비율 가설 검정

 

  데이터는 강수량, 월급처럼 숫자로 나오기도 하지만 /아니오처럼 둘 중 하나로 갈리기도 합니다. 예를 들어 대학생들에게 성별을 물을 수 있겠죠.


 

  대학생들이 너무 많아서 전부 묻지 못한다면, 일부만 뽑아서 물을 수밖에 없습니다. 대학생 100명을 뽑아서 표본을 만들어 성별을 묻습니다. 남학생이 56, 여학생이 44명으로 나왔습니다. 그러나 대학생 전부가 56 44일까요?

 

  지난 시간에 우리는 표본평균의 표본분포로 가설을 검정했습니다. 귀무가설과 대립가설을 세워 모평균이 어떤 값 이상이다/아니다’, ‘이하다/아니다라 가정하고 표본평균과 표준편차(모집단이든 표본이든)p값을 구했습니다. p값이 유의수준보다 작으면 그 귀무가설을 기각했고 크면 귀무가설을 기각할 수 없었습니다(2종 오류 때문).

 

  이제 모비율 p를 검정해서 철수의 호기심을 만족해 줍시다.





 

  일단 차일드 오브 데스티니에서 아이템을 뽑는, 이른바 가챠시행은 베르누이 시행이라고 가정합니다. 가챠의 결과는 성공과 실패 단 두 가지고, 성공률은 불변이며, 모든 가챠 시행은 독립이라고 합시다.

 

  게임 개발사가 공지한 아이템 확률은 1.44%(0.0144)입니다. 철수는 표본 5000가지를 모았고 그중 42번이 성공했습니다. 표본비율은 0.0084가 됩니다. 철수는 모비율에 대한 귀무가설과 대립가설을 세웠습니다.

 

귀무가설 : 모비율은 1.44% 이상이다.

대립가설 : 모비율은 1.44% 미만이다.

 

  철수는 유의수준을 0.01로 잡았습니다. 표본비율이 1.44% 미만이므로, p값만 유의수준보다 낮다면 귀무가설을 기각할 수 있게 됩니다.

 

  모평균을 검정할 때는 정규분포(모표준편차를 알 때)t분포(모표준편차를 모를 때)를 썼습니다. 모집단이 정규분포를 따르면 표본평균의 표본분포는 정규분포를 따릅니다. 모집단이 정규분포를 따르지 않더라도, 중심극한정리에 따라 표본평균의 표본분포는 표본 크기가 크다면 정규분포를 따릅니다.


  이항분포는 어떨까요? 이항분포에서 표본이 어느 정도 크다면 표본비율의 표본분포는 정규분포에 근사합니다. ‘어느 정도는 사람마다 다르지만, 이번 게시물에서는 이 기준을 사용합니다.

 

np5이고 n(1-p)5일 때.

(n : 표본 크기, p : 성공률)

 

  표본 크기는 5000, (개발사가 주장하는) 성공률은 0.0144이므로 두 식을 전부 만족합니다. 따라서 표본비율의 표본분포는 정규분포에 근사합니다. 이 분포의 중심은 0.0144, 표준편차는 공식에 따라 0.001685입니다.

 

  일단 우리는 모집단 표준편차를 모릅니다. 따라서 t분포를 사용할 겁니다. 여기에 들어갈 변환값은 (0.0084-0.0144)/0.001685 = 3.56입니다. 이제 자유도가 n-1=4999t분포에서 3.56보다 작을 확률, p값을 구하면 끝입니다.



 

  엑셀 계산 결과 p값은 약 0.000186. p값이 유의수준 0.01보다 작으므로 모비율이 0.0144 이상이라는 귀무가설을 기각하겠습니다.

 

 


뒷이야기


  이 검정은 어느 정도 실화 기반입니다. 이름을 말할 수 없는 모 게임이 확률을 조작했다는 논란에 휩싸였죠. 개발사가 공지한 확률은 1.44%였지만 5000번이 넘는 시행에서 고작 42번 아이템이 나온 것입니다.

 

  물론 이 게시물과 실제 사례는 다릅니다. 게임 속 가챠는 베르누이 시행이 아니었습니다. 시행이 완전히 독립적이지 않았거든요. 게다가 이항분포는 정규분포와 다릅니다. 표본이 아주 커서 분포를 정규분포에 근사해서 계산했지만, 실제 이항분포를 바탕으로 계산하면 계산 결과가 다를 겁니다.




 

 

반응형
  Comments,     Trackbacks
엑셀로 통계하기 15 - 유의성 검정(2)
반응형




지난 시간에는 귀무가설과 대립가설,

귀무가설을 기각할지 말지를

p값을 이용해서 알아보았습니다.


지난 시간에는 모표준편차를 안다고 가정하고 계산했지만

이번에는 모표준편차를 모르는 때를 알아봅시다.



구간추정에선 모표준편차를 알 때/모를 때를 구분했는데,

모를 때는 모표준편차 대신 표본 표준편차를 사용했습니다.

표준정규분포 대신 자유도에 따른 t분포를 사용했고요.


 

이번에도 같습니다.

모표준편차는 표본 표준편차로 대신해서

표본분포 표준편차를 구합니다.


 

모표준편차를 알 때는 표본평균의 표본분포를 그렸는데,

이번에는 자유도가 n-1t분포를 그립니다.

 


z값을 구하듯

(표본평균 가정한 모평균)/표본분포의 표준편차

를 계산합니다.

 



예를 들어

귀무가설 : μ≤3

대립가설 : μ>3

n = 50

표본평균 = 3.1

표본 표준편차 = 1.1

유의수준 = 0.05

일 때, 귀무가설을 기각해야 할까요?

 



t값은 (3.1-3)/ 1.1/50 = 0.64입니다.


 

자유도가 50-1= 49t분포에서

0.64보다 클 확률은 얼마일까요?

 


엑셀 T.DIST 함수를 이용해서

t분포 값을 계산할 수 있습니다.

 

=T.DIST( x , 자유도 , T/F)

TRUE : 누적

FALSE : 확률밀도값


 

=T.DIST(0.64 , 49 , TRUE)

0.73입니다.

 

t값이 유의수준보다 크므로

귀무가설을 기각할 수 없습니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 14 - 유의성 검정(1)
반응형





민희네 회사는 새 스포츠카를 개발했습니다.

제로백(정지상태에서 시속 100km까지 도달하는 시간)

10초라는군요.

 



물론 실제로 10초인지 검사해야겠죠.

민희네 회사 소속 연구자들이 표본 25대를 가져와서

제로백을 측정할 겁니다.



 

연구자들은 가설을 세웁니다.

이 차의 제로백은 10초 이하다.’


 


검사 결과는 둘 중 하나가 나올 겁니다.

첫째, 정말 제로백이 10초 이하거나

둘째, 제로백이 10초 초과여서 개발자들이 조인트를 맞거나.



 

유의성 검정 Significance test

수집한 자료가 가설에 적합한지 검사하는 것을 말합니다.


 


유의성 검정에는 반대되는 두 가지 가설을 만듭니다.

귀무가설 Null hypothesis

대립가설 Alternative hypothesis입니다.

 

두 가설이 이하/초과, 이상/미만일 때는 단측검정한다고 하고

같음/다름일 때는 양측검정한다고 합니다.

 


이번 민희네 스포츠카 제로백 검사에서

귀무가설은 제로백이 10초 이하

대립가설은 제로백이 10초 초과

이번 유의성 검정은 단측검정입니다.

 




1, 2종 오류

 



제로백을 검사하는 연구진은 유능하지만

틀릴 가능성을 무시할 수 없습니다.

 

제로백이 10초 미만이지만

측정을 잘못하거나 표본을 잘못 뽑아서

제로백이 10초를 초과한다고 판단할 수 있습니다.

 

그와 반대로

제로백이 10초를 초과하지만

실수로 제로백이 10초 이하라고 판단할 수 있습니다.

 

귀무가설이 참인데도 기각해버리는 오류를

1종 오류 Type error,

귀무가설이 거짓인데도 채택해버리는 오류를

2종 오류 Type error라고 합니다.


 


통계 초보인 저는 잘 모르지만,

통계학자들은 제1종 오류를 더 피하고 싶은가 봅니다.


 


1종 오류를 허용할 한계.

유의수준 Level of significance 개념이 아주 유명하거든요.

 

연구진은 조사하기 전에 유의수준을 정합니다.

1종 오류를 저지르기 싫을수록 유의수준을 낮게 잡습니다.

 

유의수준은 0.050.01로 잡는 편입니다.

민희네 연구진은 0.05로 잡았습니다.

(α로 씁니다)



 

 

모표준편차를 알 때

 



유의성 검정도 구간추정처럼

모표준편차를 알 때/모를 때 구분해서 생각해봅시다.

 

데이터가 많거나 공정이 정확하면

모표준편차를 안다고 가정한다고 지난번에 말씀드렸습니다.



 

연구진은 과거 자료로

모표준편차를 1.5로 가정했습니다.

 

표본 25대를 뽑아 제로백을 검사해보니

평균 10.5초가 나왔습니다.

 

표본 평균이 10초 이하라면

당연히 귀무가설이 맞겠죠.

(제2종 오류를 무시한다면요)




그런데 표본 평균이 10초를 초과합니다.

개발진은 이대로 조인트를 맞아야 할까요?

 

그러나 아직 제1종 오류를 무시할 수 없습니다.

 

연구진은 유의수준을 0.05로 잡았습니다.

만약 모평균이 10인데도

재수 없게 표본평균이 10.5를 넘길 확률이 크다면

귀무가설을 함부로 기각할 수 없겠죠.

 

얼마나 크면 기각할 수 없을까요?

아까 정한 유의수준 0.05보다 크면 기각할 수 없겠죠.

 

p(p-value, 유의 확률)이란

이렇게 귀무가설이 맞을 때 어떤 값보다 심한 값이 나올 확률입니다.

 

이게 낮을수록 우연히 그 값이 나올 가능성은 작아지고,

정말 귀무가설이 틀려서 그 값이 나올 가능성은 커집니다.

 

쉽게 말해,

p값이 낮을수록 귀무가설은 틀립니다.

 

이제 제로백을 판단할 시간입니다.

 


귀무가설이 참이고, 모집단이 정규분포라면

표본평균의 표본분포는 기댓값이 10이고

표준편차가 1.5/√25 = 0.3인

정규분포를 그립니다.


 

표준정규분포로 옮겨 봅시다.

10.5에 평균을 빼고 표준편차로 나누면

z = 1.67입니다.



표준정규분포에서 1.67보다 클 확률은

엑셀 NORM.S.DIST 함수로 구해 보니

0.048입니다.


p0.048이 유의수준 0.05보다 작으므로

귀무가설을 기각할 수 있습니다.

결국 개발진은 조인트를 피할 수 없겠군요.

 

모표준편차를 모르는 경우는

다음 시간에 설명해보겠습니다.

 

 

보충 1

기각이냐 아니냐?


우린 이 게시물에서 제2종 오류를 무시했습니다.

따라서 대립가설을 마음 놓고 채택할 수 없습니다.

이때는 두 가지로 말할 수 있습니다.

1) 귀무가설을 기각한다.

2) 귀무가설을 기각할 수 없다.


 

보충 2 

양측검정일 때

 

양측검정에서

귀무가설은 모평균이 특정 값이다

대립가설은 모평균이 특정 값이 아니다입니다.

 

단측검정은 한쪽 꼬리 면적으로 p값을 구했지만

양측검정에서는 양쪽 꼬리 면적으로 구해야 합니다.

 


 보충 3

p값 방식과 임계값 방식

 

아까 p값으로 유의성을 검정했지만

임계값 방식도 있습니다.

 

임계값 방식은 유의수준을 토대로

미리 경계를 만들어 두고,

결과로 만든 z값이 이를 넘으면 기각하는 방식입니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 13 - 구간추정(2)
반응형





지난 시간에는 모표준편차를 알 때

구간추정으로 표본평균이 모평균에 얼마나 가까운지 추측했습니다.


 

표본평균에 더하고 빼는 오차범위는 이랬죠.

 


여기서 α는 유의수준으로,

95%의 신뢰수준이라면 1-0.95=0.05였습니다.




 

모표준편차를 모를 때




그러나 자료 대부분은 모집단 표준편차를 모릅니다.

그래서 표본을 추출해 조사하는 것 아니겠습니까.



 

모표준편차를 모를 때도 오차범위 식은 비슷합니다.

단 두 가지만 다르죠.



 

첫째, 모집단 표준편차 대신

표본 표준편차를 집어넣습니다.

 



둘째, 유의수준에 대한 Z값 대신

t분포에 대한 t을 넣습니다.



 

t분포(스튜던트 t분포)

맥주 양조장에서 일하던 윌리엄 고셋이

스튜던트라는 필명으로 발표한 분포입니다.

 



이 분포는 자유도마다 분포가 하나씩 있습니다.

자유도 1에 대한 t분포,

자유도 2에 대한 t분포... 

(자유도가 커질수록 t분포는 표준정규분포에 가까워집니다.)

 

그럼 구간추정 오차범위에는

어떤 t분포값을 넣어야 할까요?



 

n-1 자유도에서

(n은 표본크기)

양쪽 꼬리 면적이 α/2t값을 넣습니다.

 



엑셀에서는 T.INV.2T 함수를 이용해

확률에 따른 t값을 계산합니다.



 

=T.INV.2T( x , 자유도)

x : 양쪽 누적한 확률

 

유의수준이 0.05, 자유도가 29라면

=T.INV.2T(0.05 , 29)

오차범위에 넣을 t값입니다.

 




사실, 엑셀에는 신뢰수준에 따른 오차범위를 구하는 기능이 있습니다.

 



[데이터] 리본 오른쪽 끝 데이터 분석을 찾으셨나요?

 


없다면 [파일] - [옵션] - [추가기능] - [이동]에서

분석 도구를 체크하고 확인을 누르면 생깁니다.

 


데이터 분석에 들어가서 기술 통계법을 선택합니다.

 



자료 범위를 지정하고

요약 통계량에 체크하고

평균에 대한 신뢰 수준에 원하는 신뢰수준을 입력하고

확인을 누르면 오차범위를 볼 수 있습니다.



반응형
  Comments,     Trackbacks
엑셀로 통계하기 12 - 구간추정(1)
반응형



우린 모집단 통계량을 구할 수 없을 때 표본을 추출해서 조사합니다.




그런데 표본으로 구한 평균이 모집단 평균과 가깝다고 얼마나 확신할 수 있을까요?


*이번 글은 조금 깁니다.

 



과자 공장이 이번 달 생산하는 과자 한 봉지에 들어가는 과자 양을 알고 싶다고 합시다.



 

과자 공장의 공정은 아주 정확하고, 관리도 잘 됩니다.

공정은 20년 전부터 변화가 없었고, 매달 과자 양을 측정해 왔습니다.

 


이렇게

 1) 데이터가 아주 많거나,

2) 공정이 정확하고 잘 관리될 때는

그동안 구한 표준편차를 모집단 표준편차로 가정할 수 있습니다.



 

여기서 표본분포 개념을 잠깐 듣고 갑시다.





표본분포는 무엇일까요. 과자 1000봉지 중 50봉지를 표본으로 추출해서 실험한다고 합시다.


사람에 따라 표본으로 뽑히는 50봉지는 여러 가지입니다. 그럼 그 50봉지마다 알갱이 수의 평균은 조금씩 다르겠죠.

 




이렇게 표본들 자료의 분포를 표본분포라고 합니다.

이 분포의 기댓값은 모집단 평균입니다.

이 곡선의 표준편차는 모집단 표준편차에서 표본수의 제곱근을 나눈 값입니다.




 

모집단이 정규분포라면, 표본평균의 표본분포도 정규분포를 그립니다.




 

모집단이 정규분포가 아니어도, 중심극한정리에 따라 표본 크기가 클수록 표본평균의 표본분포는 정규확률분포에 가깝습니다.

(30 이상이라고 합니다)

 

결국, 표본평균의 분포는 (웬만하면) 정규분포곡선을 그립니다.





 


과자 공장으로 돌아갑시다.




봉지 당 알갱이 수는 정규분포를 그린다고 가정합니다.

모집단 표준편차는 5입니다.

25봉지를 추출해 검사했더니 한 봉지에 평균 30알갱이가 있습니다.

이 표본평균은 모집단 평균에서 얼마나 가까울까요?

 

 


정규분포곡선에서

평균 양옆 1.96표준편차 이내에는 자료의 95%가 들어갑니다.

 

표본평균의 표본분포 그래프에서도

모집단 평균 양옆 1.96표준편차 이내에 표본평균의 95%가 있습니다.

표본평균 표본분포의 표준편차는

5/5=1입니다.

 




방향을 반대로 보면, 표본평균의 95%는 모집단 평균과 1.96표준편차 이하만큼 가깝습니다.

 




즉 우리가 검사한 표본의 평균은 모집단 평균과 1.96표준편차 이내에 있다고 95% 확신합니다.

 




과자 공장에서 보자면

표본에서 나온 평균 30알은 모집단 평균과

1.96X1=1.96

알 이하만큼 차이가 난다고 95% 확신합니다.


즉, 95%만큼 확신할 수 있는 범위는

30-1.96=28.04 에서

30+1.96=31.96입니다.

 

이때 95%신뢰수준 Confidence level입니다.

0.95신뢰계수 Confidence coefficient입니다.

1-0.95=0.05유의수준 Level of significance입니다.

1.96에 표본평균 표준편차를 곱한 것이 오차범위입니다.

그렇게 구한 구간이 95% 신뢰구간 Confidence interval입니다.



이제 과자공장에선 이렇게 말할 수 있습니다.

'우리 공장 과자는 28.04알에서 31.96알 사이가 들었다고

95% 확신할 수 있어.'

 



인터넷에서는 유의수준에 따라 표본분포 표준편차에 곱하는 값(Z)이 나와있으니 참고바랍니다.

 



엑셀에서 오차범위 구하기

 




엑셀에서는 모표준편차를 알 때

오차범위를 구하는 CONFIDENCE.NORM 함수가 있습니다.

 

=CONFIDENCE.NORM(유의수준, 모표준편차, 표본크기)

 

 

그런데 모집단 표준편차를 모르면 어떻게 할까요?

다음 시간에 알아봅시다.



 


주의! 표본평균 표준편차


표본을 추출하는 모집단의 종류에 따라 표본평균 표준편차 공식이 다릅니다.


모집단에는 유한모집단무한모집단이 있습니다.


유한모집단은 말 그대로 자료가 유한합니다.

무한모집단은 자료가 무한하거나 계속 생겨납니다.

과자 공장에서, 과자는 계속 생산되므로 전체 자료가 몇 봉지인지 말할 수 없습니다. 따라서 무한모집단입니다.



 

무한모집단이거나 유한모집단이더라도 n/N0.05 이하일 때는 아까처럼 공식을 씁니다.



 

유한모집단일 때는 여기에 유한모집단 수정인수를 곱합니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 11 - 로그정규/지수/와이불
반응형





여러분의 자료가 어떤 분포와 아주 비슷하다면

다음 자료가 어느 정도일지 예측할 수 있습니다.



 

여러분 지역 강수량이 정규분포를 따른다면

내년 강수량이 500mm 이상일 확률도 구할 수 있겠죠.



 

그러나 정규분포만 분포가 아닙니다.

연속분포는 여러 종류가 있습니다.

그중 일부를 소개합니다.



 

로그정규분포 Log normal distribution


 

로그정규분포는 확률변수의 자연로그가 정규분포를 따르는 분포입니다.

x 대신 ln(x)가 정규분포를 따르는 것이죠.

다른 건 정규분포와 똑같습니다.



 

엑셀에는 로그정규분포확률을 구하는

LOGNORM.DIST 함수가 있습니다.

 

=LOGNORM.DIST( x , ln(x)의 평균 , ln(x)의 표준편차 , TRUE/FALSE)

TRUE : x까지 누적확률

FALSE : x 확률밀도함수



 

 

지수분포 Exponential distribution


 

푸아송분포가 구간 내 벌어지는 횟수를 다룬다면

지수분포는 구간 내 벌어지는 간격을 다룹니다.

 

구간에서 평균 μ번 사건이 벌어질 때

지수확률분포와

x가 일정 수 이하일 확률은 다음과 같습니다.




 

엑셀에서는

EXPON.DIST 함수

지수확률분포를 구합니다.

 

=EXPON.DIST(x, 1/평균 , TRUE/FALSE)

TRUE : x 이하일 확률(누적확률)

FALSE : x 확률밀도함수(f(x))

 

: 1시간 동안 고객센터로 평균 10번 전화가 온다.

지수분포를 따른다고 가정할 때

1시간 동안 5번 이내로 전화가 올 확률은

=EXPON.DIST(5, 1/10 , TRUE)

 

 

와이불/베이불 분포 Weibull distribution


 

와이불 분포는 탈락이나 변화하는 항목에 유용한 분포입니다.

제품 100개 중 5년 후 10개가 고장 날 확률처럼요.

 

와이불 분포 확률함수와 누적함수식은 다음과 같습니다.



 



엑셀에서는

WEIBULL.DIST 함수로 와이불 확률함수를 구합니다.

 

=WEIBULL.DIST( x , α , β , TRUE/FALSE)

TRUE : x 이하일 확률(누적함수)

FALSE : x 확률밀도함수

반응형
  Comments,     Trackbacks
엑셀로 통계하기 10 - 정규확률분포
반응형




이산확률분포와 다르게

연속확률분포는 연속적입니다.

 

확률변수의 값이 1, 2, 3처럼 특정하지 않고

‘1~100 사이 어딘가를 가리키죠.

 



연속확률분포 중에서 제일 유명한 분포는

정규확률분포 Normal probability distribution입니다.



 

정규확률분포는 자연과 사회에서

주로 보이는 분포로, 그만큼 중요하고 널리 쓰입니다.

 



정규확률분포를 정하는 수는 두 가지,

평균과 표준편차(분산)입니다.

 




표준정규확률분포

 



정규확률분포 중에서 평균이 0, 표준편차가 1인 분포를

표준정규확률분포 Standard normal probability distribution이라 합니다.

 



모든 정규확률분포는

확률변수에서 평균을 빼고 표준편차로 나누면(z)

표준정규확률분포가 됩니다.

이를 이용해 쉽게 확률을 구할 수 있습니다.

 



예를 들어 평균이 10, 표준편차가 5, 정규분포를 따르는 자료가 있습니다.

확률변수가 20 이하일 확률은 얼마일까요?

 



20에서 평균을 빼고 표준편차로 나누면

표준정규확률분포 위 확률변수가 되는데,

(20-10)/5=2입니다.



 

그럼 원래 자료가 20 이하일 확률은

표준정규확률분포에서 2 이하일 확률과 같습니다.

그리고 수학자들은 표준정규확률분포 속 확률을

미리 다 계산해 놓았습니다.

 



찾아보니 표준정규확률분포에서 2 이하일 확률은

0.97725(97.73%)군요.

 

표준정규확률분포 표와 계산기는 인터넷에 널리고 널렸으니

필요하시면 검색하시기 바랍니다.

 

위키피디아 표

정규확률분포 계산 사이트




엑셀에서 정규확률분포 구하기

 



사실, 엑셀만 있으면 표준정규확률분포표를 보실 필요가 없습니다.

이미 정규확률분포를 구하는 함수가 있기 때문입니다.

 



NORM.DIST 함수는 정규확률분포 확률을 구합니다.

 

=NORM.DIST(x , 평균 , 표준편차 , TRUE/FALSE)

TRUE : x까지 누적확률

FALSE : x의 확률함수 값

 



NORM.S.DIST 함수는 표준정규확률분포 확률을 구합니다.

 

=NORM.S.DIST(z, TRUE/FALSE)

z = 확률변수에서 평균을 빼고 표준편차로 나눈 값.

TRUE : z까지 누적확률

FALSE : z의 확률함수 값

 



표준정규분포 누적확률로 z를 역계산하는 함수도 있습니다.

NORM.S.INV 함수입니다.

 

=NORM.S.INV( 누적확률 )

반응형
  Comments,     Trackbacks
엑셀로 통계하기 9 - 초기하확률분포
반응형





상자에 검은 공 다섯 개와 흰 공 네 개가 들어 있습니다.

공 세 개를 뽑을 때 모두 검은 공일 확률은 얼마일까요?


 

첫 공이 검은 공일 확률은 5/9

두 번째가 검은 공일 확률은 4/8

세 번째도 검은 공일 확률은 3/7

세 값을 전부 곱하면 약 0.119(11.9%)입니다.


 

수학 시간에 자주 풀어보셨죠?

이때 공을 다시 넣느냐 안 넣느냐를 헷갈리면 문제를 틀렸죠.

 



사실 실생활에서 물건, 사람을 뽑으면

대부분 한 번 뽑은 건 다시 뽑지 않습니다.

 


초기하확률분포 Hypergeometric probability distribution

이처럼 뽑은 걸 돌려놓지 않으면서 뽑을 때 나타나는

확률분포함수입니다.

 



이항분포와 비슷하지만

시행마다 확률이 같은 이항분포와 다르게

초기하확률함수는 시행마다 확률이 바뀝니다.

 



사실 초기하확률함수도 모집단 크기가 아주 크면

이항분포와 매우 비슷해지고, 근사하기도 합니다.

 




초기하확률함수의 확률



 

공이 N개가 있는 상자에

검은 공은 r개 있습니다.



 

여기서 n개를 무작위로 복원 없이 추출할 때

검은 공 x개를 뽑을 확률은 다음과 같습니다.

 

초기하확률함수의 기댓값과 분산도 알아두시면 좋습니다.





 


엑셀에서 초기하확률분포 계산하기.



 

엑셀에는 초기하확률분포를 구하는

HYPGEOM.DIST 함수가 있습니다.



 

=HYPGEOM.DIST( x , n , r , N , TRUE/FALSE)

총 N개 중 원하는 r개가 있을 때,

n번 뽑아(돌려놓지 않음) x번 원하는 것이 나올 확률.

TRUE : x번 이하로 성공할 확률(누적확률)

FALSE : x번 성공할 확률(개별확률)



 

그럼 맨 처음에 나온 문제를 풀어봅시다.

 


상자에 검은 공 다섯 개와 흰 공 네 개가 들어 있었죠.

공 세 개를 뽑을 때 모두 검은 공일 확률은 얼마일까요?


 


N = 9

r = 5

n = 3

x = 3,

개별확률이므로 FALSE로 입력합니다.



 

방금 구한 값과 똑같습니다.

 



그럼 공 세 개를 뽑을 때 검은 공이 두 번 이하일 확률은 얼마일까요?

 



x2로 바꾸고 FALSE 대신 TRUE를 넣으면 되겠죠.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 8 - 이산확률분포
반응형




여러분이 무언가 측정해서 숫자로 쓴다면

그건 확률변수 Random variable이 됩니다.



 

확률변수는 크게

이산확률변수와 연속확률변수가 있습니다.

 



이산확률변수 Discrete random variable

셀 수 있는 숫자입니다.

한 시간에 생산하는 제품 개수, 시험 합격자 수 등입니다.

 

 


연속확률변수 Continuous random variable

구간이나 구간 속 숫자입니다.

자동차가 한 시간에 달리는 거리, 물이 끓는 온도 등입니다.

 



이번 시간에는 이산확률분포의 세 종류,

이산균일확률분포, 이항확률분포, 푸아송 확률분포를 알아봅시다.

 



이산균일확률분포



 

이산균일확률분포 Discrete uniform probability distribution

말 그대로 균일한 확률분포입니다.

각 눈이 나올 확률이 1/6으로 같은 주사위가 그 예입니다.

 



이 분포의 기댓값은 얼마일까요?

기댓값이란 자료의 평균처럼 확률변수의 중심을 재는 수치입니다.

 



기댓값을 구하는 공식입니다.

모든 확률분포에는 기댓값이 있으니 꼭 알아두시길 바랍니다.

 



평균이 있으면 분산, 표준편차도 있겠죠.

확률변수에도 분산표준편차가 있습니다.

 



엑셀에서 이산확률분포의 기댓값, 분산을 구할 때는

SUMPRODUCT 함수를 추천합니다.

SUMPRODUCT 함수는 값들의 곱의 합을 구합니다.

 




이항확률분포

 



동전 던지기를 생각해 봅시다.



 

첫째, 결과는 오직 두 가지입니다.

둘째, 앞면과 뒷면이 나올 확률은 몇 번 던져도 같습니다.

셋째, 아까 던진 시험이 지금 시험에 영향을 주지 않습니다.(독립)

 



이런 시행을 베르누이 시행Bernoulli trial, 이항실험 Binomial experience라고 합니다.

 

(확률이 반반일 필요는 없습니다.

시행하면서 변하지만 않으면 됩니다.)

 



베르누이 시행이 만드는 확률분포를

이항확률분포 Binomial Probability Distribution라 합니다.

 

다행히 수학자들이 확률을 다 계산해 두었습니다.

확률이 p인 시행을 n번 시행했을 때,

x번 성공할 확률은 다음과 같습니다.

 



이항확률분포의 기댓값과 분산은 이렇습니다.

 





엑셀에서는 BINOM.DIST 함수로 이상확률을 구합니다.

(확률 p로 n번 시행함)

맨 뒤에 FALSE를 넣으면 딱 그 확률,

(딱 x번 성공할 확률)

TRUE를 넣으면 누적확률을 계산합니다.

(x번 이하 성공할 확률)

 



푸아송 확률분포

 



한 시간 동안 평균 30명이 들르는 가게가 있습니다.

한 시간 동안 최대 30명까지 들를 확률은 얼마일까요?



 

푸아송 확률분포 Poisson Probability Distribution

이처럼 시간, 공간 구간 내에서 사건이 벌어지는 횟수에 유용합니다.

 

그전에 잠깐.

푸아송 확률분포는 두 가지 조건이 있습니다.

첫째, 두 구간 길이가 같다면 발생확률이 같을 것.

둘째, 어떤 구간에서 발생하는/발생하지 않는 사건은 다른 구간에서 발생하는/발생하지 않는 사건과 독립일 것.

 

구간 내 평균 발생횟수가 μ번일 때

푸아송 확률함수에 따른

x번 발생확률은 다음과 같습니다.

 





엑셀에서는 POISSON.DIST 함수로 푸아송 확률분포를 구합니다.

마지막에 FALSE를 넣으면 개별확률,

TRUE를 넣으면 누적확률입니다.

 



한 시간 동안 평균 30명이 들르는 가게에

한 시간 30명 이하가 들를 확률은 약 54%네요.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 7 - 조건부 확률과 베이즈 정리
반응형





A라는 사건이 생길 확률을 P(A)라고 합시다.

 



AB가 같이 생길 확률은

P(AB)라고 합시다.

(결합확률)

 


B가 이미 일어났을 때

A가 생길 확률은 얼마일까요?

 

확률은 P(AB)/P(B)입니다.

학교에서 배우셨을지도 모르겠네요.



 

이걸 조건부확률(Conditional Probability)이라 하고

P(AB)라고 합니다.

 

 

베이즈 정리

 



우리 학교 야구부는

가끔 근처 두 학교와 대결합니다.


 

A학교와 붙을 확률은 70%,

B학교와 붙을 확률은 30%입니다.



 

A학교와 붙으면 승률은 20%,

B학교와 붙으면 승률은 60%입니다.

 



어느 날 우리 학교 야구부가 이겼다는 소식을 들었습니다.

어디 학교와 붙었는지는 모릅니다.

A학교와 붙었을 확률은 얼마일까요?

 



이겼는지 졌는지 모른다면,

A학교와 붙었을 확률은 당연히 70%입니다.

그러나 이젠 이겼다는 사실을 알게 되었습니다.

 



영국의 목사 토머스 베이즈가 만든 베이즈 정리Bayes’ Theorem

이처럼 이미 벌어진 사건이 있을 때

새로운 정보로 새로운 확률

(사후확률, Posterior Probability)

을 구하는 공식입니다.


 

, 차근차근 해 봅시다.

 



A학교와 붙는 사건을 A, B학교와 붙는 사건을 B라 부르고

이기는 사건은 W, 지는 사건은 L이라 부릅시다.

 

A와 붙게 되고 이기기까지 할 확률은

P(AW) = P(A) P(WA)입니다.

A와 붙어서 질 확률은

P(AL) = P(A) P(LA)입니다.


 

이런 식으로 네 가지 경우 확률이 나옵니다.

(A와 붙어서 이김/, B와 붙어서 이김/)



 

A, B를 만날 확률은 압니다.

A, B를 만났을 때 이기거나 질 확률도 압니다.

따라서 네 가지 경우 확률을 전부 구할 수 있습니다.



 

우리가 원하는 건 이겼을 때 A와 붙었을 확률,

P(AW)입니다.

 


공식에 따라 P(AW)/P(W)

= P(A) P(WA)/P(W) 으로 바꾸어 쓸 수 있습니다.

 


이길 확률은 A한테 이길 확률 + B한테 이길 확률입니다.

(AB 이외의 학교와는 안 붙는다고 가정한다면)


 

따라서 P(A) P(WA) / P(WA) + P(WB)이고

P(A) P(WA)/ P(A)P(WA) + P(B)P(WB)입니다.



 

이 식에 있는 네 값은 전부 압니다.

따라서 이겼을 때 A를 만났을 확률을 구할 수 있습니다.

 


베이즈 정리에 따라,

B라는 사건이 일어났을 때 A1이라는 사건이 벌어졌을 확률은

다음과 같습니다.



*베이즈 정리의 조건

1) A1, A2...는 서로 절대 겹치지 않습니다.(상호 배반)

2) A1, A2...들을 합친 것 이외의 경우는 없습니다.

(마치 두 학교 이외에는 붙지 않듯이)

 



베이즈 정리는 새로운 정보를 알고 난 후

이미 알아낸 확률을 수정하는 법을 제공합니다.

반응형
  Comments,     Trackbacks