설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
분류 전체보기 (499)
엑셀로 통계하기 14 - 유의성 검정(1)
반응형





민희네 회사는 새 스포츠카를 개발했습니다.

제로백(정지상태에서 시속 100km까지 도달하는 시간)

10초라는군요.

 



물론 실제로 10초인지 검사해야겠죠.

민희네 회사 소속 연구자들이 표본 25대를 가져와서

제로백을 측정할 겁니다.



 

연구자들은 가설을 세웁니다.

이 차의 제로백은 10초 이하다.’


 


검사 결과는 둘 중 하나가 나올 겁니다.

첫째, 정말 제로백이 10초 이하거나

둘째, 제로백이 10초 초과여서 개발자들이 조인트를 맞거나.



 

유의성 검정 Significance test

수집한 자료가 가설에 적합한지 검사하는 것을 말합니다.


 


유의성 검정에는 반대되는 두 가지 가설을 만듭니다.

귀무가설 Null hypothesis

대립가설 Alternative hypothesis입니다.

 

두 가설이 이하/초과, 이상/미만일 때는 단측검정한다고 하고

같음/다름일 때는 양측검정한다고 합니다.

 


이번 민희네 스포츠카 제로백 검사에서

귀무가설은 제로백이 10초 이하

대립가설은 제로백이 10초 초과

이번 유의성 검정은 단측검정입니다.

 




1, 2종 오류

 



제로백을 검사하는 연구진은 유능하지만

틀릴 가능성을 무시할 수 없습니다.

 

제로백이 10초 미만이지만

측정을 잘못하거나 표본을 잘못 뽑아서

제로백이 10초를 초과한다고 판단할 수 있습니다.

 

그와 반대로

제로백이 10초를 초과하지만

실수로 제로백이 10초 이하라고 판단할 수 있습니다.

 

귀무가설이 참인데도 기각해버리는 오류를

1종 오류 Type error,

귀무가설이 거짓인데도 채택해버리는 오류를

2종 오류 Type error라고 합니다.


 


통계 초보인 저는 잘 모르지만,

통계학자들은 제1종 오류를 더 피하고 싶은가 봅니다.


 


1종 오류를 허용할 한계.

유의수준 Level of significance 개념이 아주 유명하거든요.

 

연구진은 조사하기 전에 유의수준을 정합니다.

1종 오류를 저지르기 싫을수록 유의수준을 낮게 잡습니다.

 

유의수준은 0.050.01로 잡는 편입니다.

민희네 연구진은 0.05로 잡았습니다.

(α로 씁니다)



 

 

모표준편차를 알 때

 



유의성 검정도 구간추정처럼

모표준편차를 알 때/모를 때 구분해서 생각해봅시다.

 

데이터가 많거나 공정이 정확하면

모표준편차를 안다고 가정한다고 지난번에 말씀드렸습니다.



 

연구진은 과거 자료로

모표준편차를 1.5로 가정했습니다.

 

표본 25대를 뽑아 제로백을 검사해보니

평균 10.5초가 나왔습니다.

 

표본 평균이 10초 이하라면

당연히 귀무가설이 맞겠죠.

(제2종 오류를 무시한다면요)




그런데 표본 평균이 10초를 초과합니다.

개발진은 이대로 조인트를 맞아야 할까요?

 

그러나 아직 제1종 오류를 무시할 수 없습니다.

 

연구진은 유의수준을 0.05로 잡았습니다.

만약 모평균이 10인데도

재수 없게 표본평균이 10.5를 넘길 확률이 크다면

귀무가설을 함부로 기각할 수 없겠죠.

 

얼마나 크면 기각할 수 없을까요?

아까 정한 유의수준 0.05보다 크면 기각할 수 없겠죠.

 

p(p-value, 유의 확률)이란

이렇게 귀무가설이 맞을 때 어떤 값보다 심한 값이 나올 확률입니다.

 

이게 낮을수록 우연히 그 값이 나올 가능성은 작아지고,

정말 귀무가설이 틀려서 그 값이 나올 가능성은 커집니다.

 

쉽게 말해,

p값이 낮을수록 귀무가설은 틀립니다.

 

이제 제로백을 판단할 시간입니다.

 


귀무가설이 참이고, 모집단이 정규분포라면

표본평균의 표본분포는 기댓값이 10이고

표준편차가 1.5/√25 = 0.3인

정규분포를 그립니다.


 

표준정규분포로 옮겨 봅시다.

10.5에 평균을 빼고 표준편차로 나누면

z = 1.67입니다.



표준정규분포에서 1.67보다 클 확률은

엑셀 NORM.S.DIST 함수로 구해 보니

0.048입니다.


p0.048이 유의수준 0.05보다 작으므로

귀무가설을 기각할 수 있습니다.

결국 개발진은 조인트를 피할 수 없겠군요.

 

모표준편차를 모르는 경우는

다음 시간에 설명해보겠습니다.

 

 

보충 1

기각이냐 아니냐?


우린 이 게시물에서 제2종 오류를 무시했습니다.

따라서 대립가설을 마음 놓고 채택할 수 없습니다.

이때는 두 가지로 말할 수 있습니다.

1) 귀무가설을 기각한다.

2) 귀무가설을 기각할 수 없다.


 

보충 2 

양측검정일 때

 

양측검정에서

귀무가설은 모평균이 특정 값이다

대립가설은 모평균이 특정 값이 아니다입니다.

 

단측검정은 한쪽 꼬리 면적으로 p값을 구했지만

양측검정에서는 양쪽 꼬리 면적으로 구해야 합니다.

 


 보충 3

p값 방식과 임계값 방식

 

아까 p값으로 유의성을 검정했지만

임계값 방식도 있습니다.

 

임계값 방식은 유의수준을 토대로

미리 경계를 만들어 두고,

결과로 만든 z값이 이를 넘으면 기각하는 방식입니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 13 - 구간추정(2)
반응형





지난 시간에는 모표준편차를 알 때

구간추정으로 표본평균이 모평균에 얼마나 가까운지 추측했습니다.


 

표본평균에 더하고 빼는 오차범위는 이랬죠.

 


여기서 α는 유의수준으로,

95%의 신뢰수준이라면 1-0.95=0.05였습니다.




 

모표준편차를 모를 때




그러나 자료 대부분은 모집단 표준편차를 모릅니다.

그래서 표본을 추출해 조사하는 것 아니겠습니까.



 

모표준편차를 모를 때도 오차범위 식은 비슷합니다.

단 두 가지만 다르죠.



 

첫째, 모집단 표준편차 대신

표본 표준편차를 집어넣습니다.

 



둘째, 유의수준에 대한 Z값 대신

t분포에 대한 t을 넣습니다.



 

t분포(스튜던트 t분포)

맥주 양조장에서 일하던 윌리엄 고셋이

스튜던트라는 필명으로 발표한 분포입니다.

 



이 분포는 자유도마다 분포가 하나씩 있습니다.

자유도 1에 대한 t분포,

자유도 2에 대한 t분포... 

(자유도가 커질수록 t분포는 표준정규분포에 가까워집니다.)

 

그럼 구간추정 오차범위에는

어떤 t분포값을 넣어야 할까요?



 

n-1 자유도에서

(n은 표본크기)

양쪽 꼬리 면적이 α/2t값을 넣습니다.

 



엑셀에서는 T.INV.2T 함수를 이용해

확률에 따른 t값을 계산합니다.



 

=T.INV.2T( x , 자유도)

x : 양쪽 누적한 확률

 

유의수준이 0.05, 자유도가 29라면

=T.INV.2T(0.05 , 29)

오차범위에 넣을 t값입니다.

 




사실, 엑셀에는 신뢰수준에 따른 오차범위를 구하는 기능이 있습니다.

 



[데이터] 리본 오른쪽 끝 데이터 분석을 찾으셨나요?

 


없다면 [파일] - [옵션] - [추가기능] - [이동]에서

분석 도구를 체크하고 확인을 누르면 생깁니다.

 


데이터 분석에 들어가서 기술 통계법을 선택합니다.

 



자료 범위를 지정하고

요약 통계량에 체크하고

평균에 대한 신뢰 수준에 원하는 신뢰수준을 입력하고

확인을 누르면 오차범위를 볼 수 있습니다.



반응형
  Comments,     Trackbacks
5월 둘째 주 닥터후 소식
반응형

  오랜만입니다. 전달할 소식이 없었다고 말하기엔 제가 게을렀습니다. 블로그에 들르신 분은 아시다시피 엑셀 관련 게시물만 잔뜩 올렸네요. 그동안 시즌 11 소식과 루머가 조금씩 나왔는데, 이건 모아서 한 번에 전해 드리려 합니다.

 


뉴 닥터후 타겟 소설 출간.

 


  소설이 드라마나 영화로 재탄생하는 건 흔하지만, 그 반대는 생각보다 떠올리기 어렵습니다. 그러나 서양에선 여러 할리우드 영화를 소설로 옮기기도 합니다. 소설은 영상과 다른 맛이 있고, 영상에서 설명하지 못한 속사정이나 설정 등을 알려줘서 팬들도 좋아합니다.

 

  닥터후도 예외는 아니라서, 실제 방영분을 소설로 옮기기도 합니다. 그중 제일 유명한 것이 타겟 출판사에서 내놓는 소설입니다.

 

  89년 종영 이전 닥터후, 일명 올닥에피소드들은 대부분 타겟 소설로 재탄생했지만 2005년 부활 이후엔 나오지 않았는데, 최근 뉴닥을 다룬 타겟 소설 네 권이 새로 출판되었습니다.

 

  네 권은 각각, Rose(시즌1 1), Christmas Invasion(2005년 크리스마스 스페셜), The Day of the Doctor(50주년 스페셜), Twice Upon a Time(2017년 크리스마스 스페셜)입니다. 이중 RoseThe Day of the Doctor는 에피소드 작가인 러셀 T 데이비스와 스티븐 모팻이 직접 집필했습니다.

 

  벌써 책을 사서 읽은 독자들이 말하길, 드라마에서 말하지 못한 갖가지 이야기와 유머가 있다고 합니다. 영어와 해외배송의 압박을 견디실 수 있는 분이라면 추천해 드립니다.

 

 

박사 하나와 마스터 넷.



 

  여기서 박사는 닥터가 아니라 리버 송입니다. 빅 피니시는 리버 송 이야기를 주기적으로 내고 있고, 배우 알렉스 킹스턴도 출연합니다. 올해에 나올 다이어리 오브 리버 송에서는 4대 닥터도 나온다고 합니다.

 

  그런데 내년 리버 송은 무려 마스터를 네 명이나 만난다고 합니다. 첫째는 제프리 비버가 맡은 일그러진(?) 마스터, 둘째는 데렉 자코비 경이 맡은 전쟁 마스터입니다. 이 둘은 이전부터 빅 피니시에서 마스터를 연기했죠.

 

  셋째는 96년 미국 TV스페셜에 나온 마스터입니다. 배우 에릭 로버츠가 맡았죠. 다크 나이트에서 마피아 보스라고 하면 아실 겁니다. 넷째는 작년 시즌 10까지 출연한, 미셸 고메즈가 연기한 미시입니다.

 

  네 마스터 중 96년 마스터와 미시가 등장하는 것이 팬에게는 희소식일 겁니다. 에릭 로버츠는 22년 만에 마스터로 돌아와서 신기하고, 미셸 고메즈는 1년 만에 돌아와서 신기하네요. 사실 미셸 고메즈는 미시를 연기하기 전에 빅 피니시에 참가한 전력이 있죠.

 




 

보너스. 새 로고 강점기?




  올해 초 BBC는 새 닥터후 로고를 발표했습니다. 이글거리는 색이 인상적이죠.

 

  새 로고가 나오고 닥터후 공식 트위터나 유튜브도 로고를 바꿨는데, 빅 피니시 표지와 심지어 4대 닥터 블루레이 표지에도 같은 로고가 들어갔습니다. 물론 닥터후가 닥터후 로고를 넣는 것이 잘못은 아닙니다만, 살짝 거부반응도 있는 듯합니다. ‘예전 빅 피니시 닥터후 로고가 좋았는데.’ ‘4대 닥터 블루레이는 옛날 로고를 넣어야 하는 것 아닌가?’.

 

  혹자는 BBC가 관련 회사에 새 로고 사용을 강요하지는 않았나 추측하기도 합니다. 그 점이 홍보에는 더 유리하겠죠. 닥터후가 워낙 오래된 드라마고 로고도 여러 가지여서 이런 문제도 생기는군요.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 12 - 구간추정(1)
반응형



우린 모집단 통계량을 구할 수 없을 때 표본을 추출해서 조사합니다.




그런데 표본으로 구한 평균이 모집단 평균과 가깝다고 얼마나 확신할 수 있을까요?


*이번 글은 조금 깁니다.

 



과자 공장이 이번 달 생산하는 과자 한 봉지에 들어가는 과자 양을 알고 싶다고 합시다.



 

과자 공장의 공정은 아주 정확하고, 관리도 잘 됩니다.

공정은 20년 전부터 변화가 없었고, 매달 과자 양을 측정해 왔습니다.

 


이렇게

 1) 데이터가 아주 많거나,

2) 공정이 정확하고 잘 관리될 때는

그동안 구한 표준편차를 모집단 표준편차로 가정할 수 있습니다.



 

여기서 표본분포 개념을 잠깐 듣고 갑시다.





표본분포는 무엇일까요. 과자 1000봉지 중 50봉지를 표본으로 추출해서 실험한다고 합시다.


사람에 따라 표본으로 뽑히는 50봉지는 여러 가지입니다. 그럼 그 50봉지마다 알갱이 수의 평균은 조금씩 다르겠죠.

 




이렇게 표본들 자료의 분포를 표본분포라고 합니다.

이 분포의 기댓값은 모집단 평균입니다.

이 곡선의 표준편차는 모집단 표준편차에서 표본수의 제곱근을 나눈 값입니다.




 

모집단이 정규분포라면, 표본평균의 표본분포도 정규분포를 그립니다.




 

모집단이 정규분포가 아니어도, 중심극한정리에 따라 표본 크기가 클수록 표본평균의 표본분포는 정규확률분포에 가깝습니다.

(30 이상이라고 합니다)

 

결국, 표본평균의 분포는 (웬만하면) 정규분포곡선을 그립니다.





 


과자 공장으로 돌아갑시다.




봉지 당 알갱이 수는 정규분포를 그린다고 가정합니다.

모집단 표준편차는 5입니다.

25봉지를 추출해 검사했더니 한 봉지에 평균 30알갱이가 있습니다.

이 표본평균은 모집단 평균에서 얼마나 가까울까요?

 

 


정규분포곡선에서

평균 양옆 1.96표준편차 이내에는 자료의 95%가 들어갑니다.

 

표본평균의 표본분포 그래프에서도

모집단 평균 양옆 1.96표준편차 이내에 표본평균의 95%가 있습니다.

표본평균 표본분포의 표준편차는

5/5=1입니다.

 




방향을 반대로 보면, 표본평균의 95%는 모집단 평균과 1.96표준편차 이하만큼 가깝습니다.

 




즉 우리가 검사한 표본의 평균은 모집단 평균과 1.96표준편차 이내에 있다고 95% 확신합니다.

 




과자 공장에서 보자면

표본에서 나온 평균 30알은 모집단 평균과

1.96X1=1.96

알 이하만큼 차이가 난다고 95% 확신합니다.


즉, 95%만큼 확신할 수 있는 범위는

30-1.96=28.04 에서

30+1.96=31.96입니다.

 

이때 95%신뢰수준 Confidence level입니다.

0.95신뢰계수 Confidence coefficient입니다.

1-0.95=0.05유의수준 Level of significance입니다.

1.96에 표본평균 표준편차를 곱한 것이 오차범위입니다.

그렇게 구한 구간이 95% 신뢰구간 Confidence interval입니다.



이제 과자공장에선 이렇게 말할 수 있습니다.

'우리 공장 과자는 28.04알에서 31.96알 사이가 들었다고

95% 확신할 수 있어.'

 



인터넷에서는 유의수준에 따라 표본분포 표준편차에 곱하는 값(Z)이 나와있으니 참고바랍니다.

 



엑셀에서 오차범위 구하기

 




엑셀에서는 모표준편차를 알 때

오차범위를 구하는 CONFIDENCE.NORM 함수가 있습니다.

 

=CONFIDENCE.NORM(유의수준, 모표준편차, 표본크기)

 

 

그런데 모집단 표준편차를 모르면 어떻게 할까요?

다음 시간에 알아봅시다.



 


주의! 표본평균 표준편차


표본을 추출하는 모집단의 종류에 따라 표본평균 표준편차 공식이 다릅니다.


모집단에는 유한모집단무한모집단이 있습니다.


유한모집단은 말 그대로 자료가 유한합니다.

무한모집단은 자료가 무한하거나 계속 생겨납니다.

과자 공장에서, 과자는 계속 생산되므로 전체 자료가 몇 봉지인지 말할 수 없습니다. 따라서 무한모집단입니다.



 

무한모집단이거나 유한모집단이더라도 n/N0.05 이하일 때는 아까처럼 공식을 씁니다.



 

유한모집단일 때는 여기에 유한모집단 수정인수를 곱합니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 11 - 로그정규/지수/와이불
반응형





여러분의 자료가 어떤 분포와 아주 비슷하다면

다음 자료가 어느 정도일지 예측할 수 있습니다.



 

여러분 지역 강수량이 정규분포를 따른다면

내년 강수량이 500mm 이상일 확률도 구할 수 있겠죠.



 

그러나 정규분포만 분포가 아닙니다.

연속분포는 여러 종류가 있습니다.

그중 일부를 소개합니다.



 

로그정규분포 Log normal distribution


 

로그정규분포는 확률변수의 자연로그가 정규분포를 따르는 분포입니다.

x 대신 ln(x)가 정규분포를 따르는 것이죠.

다른 건 정규분포와 똑같습니다.



 

엑셀에는 로그정규분포확률을 구하는

LOGNORM.DIST 함수가 있습니다.

 

=LOGNORM.DIST( x , ln(x)의 평균 , ln(x)의 표준편차 , TRUE/FALSE)

TRUE : x까지 누적확률

FALSE : x 확률밀도함수



 

 

지수분포 Exponential distribution


 

푸아송분포가 구간 내 벌어지는 횟수를 다룬다면

지수분포는 구간 내 벌어지는 간격을 다룹니다.

 

구간에서 평균 μ번 사건이 벌어질 때

지수확률분포와

x가 일정 수 이하일 확률은 다음과 같습니다.




 

엑셀에서는

EXPON.DIST 함수

지수확률분포를 구합니다.

 

=EXPON.DIST(x, 1/평균 , TRUE/FALSE)

TRUE : x 이하일 확률(누적확률)

FALSE : x 확률밀도함수(f(x))

 

: 1시간 동안 고객센터로 평균 10번 전화가 온다.

지수분포를 따른다고 가정할 때

1시간 동안 5번 이내로 전화가 올 확률은

=EXPON.DIST(5, 1/10 , TRUE)

 

 

와이불/베이불 분포 Weibull distribution


 

와이불 분포는 탈락이나 변화하는 항목에 유용한 분포입니다.

제품 100개 중 5년 후 10개가 고장 날 확률처럼요.

 

와이불 분포 확률함수와 누적함수식은 다음과 같습니다.



 



엑셀에서는

WEIBULL.DIST 함수로 와이불 확률함수를 구합니다.

 

=WEIBULL.DIST( x , α , β , TRUE/FALSE)

TRUE : x 이하일 확률(누적함수)

FALSE : x 확률밀도함수

반응형
  Comments,     Trackbacks
엑셀로 통계하기 10 - 정규확률분포
반응형




이산확률분포와 다르게

연속확률분포는 연속적입니다.

 

확률변수의 값이 1, 2, 3처럼 특정하지 않고

‘1~100 사이 어딘가를 가리키죠.

 



연속확률분포 중에서 제일 유명한 분포는

정규확률분포 Normal probability distribution입니다.



 

정규확률분포는 자연과 사회에서

주로 보이는 분포로, 그만큼 중요하고 널리 쓰입니다.

 



정규확률분포를 정하는 수는 두 가지,

평균과 표준편차(분산)입니다.

 




표준정규확률분포

 



정규확률분포 중에서 평균이 0, 표준편차가 1인 분포를

표준정규확률분포 Standard normal probability distribution이라 합니다.

 



모든 정규확률분포는

확률변수에서 평균을 빼고 표준편차로 나누면(z)

표준정규확률분포가 됩니다.

이를 이용해 쉽게 확률을 구할 수 있습니다.

 



예를 들어 평균이 10, 표준편차가 5, 정규분포를 따르는 자료가 있습니다.

확률변수가 20 이하일 확률은 얼마일까요?

 



20에서 평균을 빼고 표준편차로 나누면

표준정규확률분포 위 확률변수가 되는데,

(20-10)/5=2입니다.



 

그럼 원래 자료가 20 이하일 확률은

표준정규확률분포에서 2 이하일 확률과 같습니다.

그리고 수학자들은 표준정규확률분포 속 확률을

미리 다 계산해 놓았습니다.

 



찾아보니 표준정규확률분포에서 2 이하일 확률은

0.97725(97.73%)군요.

 

표준정규확률분포 표와 계산기는 인터넷에 널리고 널렸으니

필요하시면 검색하시기 바랍니다.

 

위키피디아 표

정규확률분포 계산 사이트




엑셀에서 정규확률분포 구하기

 



사실, 엑셀만 있으면 표준정규확률분포표를 보실 필요가 없습니다.

이미 정규확률분포를 구하는 함수가 있기 때문입니다.

 



NORM.DIST 함수는 정규확률분포 확률을 구합니다.

 

=NORM.DIST(x , 평균 , 표준편차 , TRUE/FALSE)

TRUE : x까지 누적확률

FALSE : x의 확률함수 값

 



NORM.S.DIST 함수는 표준정규확률분포 확률을 구합니다.

 

=NORM.S.DIST(z, TRUE/FALSE)

z = 확률변수에서 평균을 빼고 표준편차로 나눈 값.

TRUE : z까지 누적확률

FALSE : z의 확률함수 값

 



표준정규분포 누적확률로 z를 역계산하는 함수도 있습니다.

NORM.S.INV 함수입니다.

 

=NORM.S.INV( 누적확률 )

반응형
  Comments,     Trackbacks
엑셀로 통계하기 9 - 초기하확률분포
반응형





상자에 검은 공 다섯 개와 흰 공 네 개가 들어 있습니다.

공 세 개를 뽑을 때 모두 검은 공일 확률은 얼마일까요?


 

첫 공이 검은 공일 확률은 5/9

두 번째가 검은 공일 확률은 4/8

세 번째도 검은 공일 확률은 3/7

세 값을 전부 곱하면 약 0.119(11.9%)입니다.


 

수학 시간에 자주 풀어보셨죠?

이때 공을 다시 넣느냐 안 넣느냐를 헷갈리면 문제를 틀렸죠.

 



사실 실생활에서 물건, 사람을 뽑으면

대부분 한 번 뽑은 건 다시 뽑지 않습니다.

 


초기하확률분포 Hypergeometric probability distribution

이처럼 뽑은 걸 돌려놓지 않으면서 뽑을 때 나타나는

확률분포함수입니다.

 



이항분포와 비슷하지만

시행마다 확률이 같은 이항분포와 다르게

초기하확률함수는 시행마다 확률이 바뀝니다.

 



사실 초기하확률함수도 모집단 크기가 아주 크면

이항분포와 매우 비슷해지고, 근사하기도 합니다.

 




초기하확률함수의 확률



 

공이 N개가 있는 상자에

검은 공은 r개 있습니다.



 

여기서 n개를 무작위로 복원 없이 추출할 때

검은 공 x개를 뽑을 확률은 다음과 같습니다.

 

초기하확률함수의 기댓값과 분산도 알아두시면 좋습니다.





 


엑셀에서 초기하확률분포 계산하기.



 

엑셀에는 초기하확률분포를 구하는

HYPGEOM.DIST 함수가 있습니다.



 

=HYPGEOM.DIST( x , n , r , N , TRUE/FALSE)

총 N개 중 원하는 r개가 있을 때,

n번 뽑아(돌려놓지 않음) x번 원하는 것이 나올 확률.

TRUE : x번 이하로 성공할 확률(누적확률)

FALSE : x번 성공할 확률(개별확률)



 

그럼 맨 처음에 나온 문제를 풀어봅시다.

 


상자에 검은 공 다섯 개와 흰 공 네 개가 들어 있었죠.

공 세 개를 뽑을 때 모두 검은 공일 확률은 얼마일까요?


 


N = 9

r = 5

n = 3

x = 3,

개별확률이므로 FALSE로 입력합니다.



 

방금 구한 값과 똑같습니다.

 



그럼 공 세 개를 뽑을 때 검은 공이 두 번 이하일 확률은 얼마일까요?

 



x2로 바꾸고 FALSE 대신 TRUE를 넣으면 되겠죠.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 8 - 이산확률분포
반응형




여러분이 무언가 측정해서 숫자로 쓴다면

그건 확률변수 Random variable이 됩니다.



 

확률변수는 크게

이산확률변수와 연속확률변수가 있습니다.

 



이산확률변수 Discrete random variable

셀 수 있는 숫자입니다.

한 시간에 생산하는 제품 개수, 시험 합격자 수 등입니다.

 

 


연속확률변수 Continuous random variable

구간이나 구간 속 숫자입니다.

자동차가 한 시간에 달리는 거리, 물이 끓는 온도 등입니다.

 



이번 시간에는 이산확률분포의 세 종류,

이산균일확률분포, 이항확률분포, 푸아송 확률분포를 알아봅시다.

 



이산균일확률분포



 

이산균일확률분포 Discrete uniform probability distribution

말 그대로 균일한 확률분포입니다.

각 눈이 나올 확률이 1/6으로 같은 주사위가 그 예입니다.

 



이 분포의 기댓값은 얼마일까요?

기댓값이란 자료의 평균처럼 확률변수의 중심을 재는 수치입니다.

 



기댓값을 구하는 공식입니다.

모든 확률분포에는 기댓값이 있으니 꼭 알아두시길 바랍니다.

 



평균이 있으면 분산, 표준편차도 있겠죠.

확률변수에도 분산표준편차가 있습니다.

 



엑셀에서 이산확률분포의 기댓값, 분산을 구할 때는

SUMPRODUCT 함수를 추천합니다.

SUMPRODUCT 함수는 값들의 곱의 합을 구합니다.

 




이항확률분포

 



동전 던지기를 생각해 봅시다.



 

첫째, 결과는 오직 두 가지입니다.

둘째, 앞면과 뒷면이 나올 확률은 몇 번 던져도 같습니다.

셋째, 아까 던진 시험이 지금 시험에 영향을 주지 않습니다.(독립)

 



이런 시행을 베르누이 시행Bernoulli trial, 이항실험 Binomial experience라고 합니다.

 

(확률이 반반일 필요는 없습니다.

시행하면서 변하지만 않으면 됩니다.)

 



베르누이 시행이 만드는 확률분포를

이항확률분포 Binomial Probability Distribution라 합니다.

 

다행히 수학자들이 확률을 다 계산해 두었습니다.

확률이 p인 시행을 n번 시행했을 때,

x번 성공할 확률은 다음과 같습니다.

 



이항확률분포의 기댓값과 분산은 이렇습니다.

 





엑셀에서는 BINOM.DIST 함수로 이상확률을 구합니다.

(확률 p로 n번 시행함)

맨 뒤에 FALSE를 넣으면 딱 그 확률,

(딱 x번 성공할 확률)

TRUE를 넣으면 누적확률을 계산합니다.

(x번 이하 성공할 확률)

 



푸아송 확률분포

 



한 시간 동안 평균 30명이 들르는 가게가 있습니다.

한 시간 동안 최대 30명까지 들를 확률은 얼마일까요?



 

푸아송 확률분포 Poisson Probability Distribution

이처럼 시간, 공간 구간 내에서 사건이 벌어지는 횟수에 유용합니다.

 

그전에 잠깐.

푸아송 확률분포는 두 가지 조건이 있습니다.

첫째, 두 구간 길이가 같다면 발생확률이 같을 것.

둘째, 어떤 구간에서 발생하는/발생하지 않는 사건은 다른 구간에서 발생하는/발생하지 않는 사건과 독립일 것.

 

구간 내 평균 발생횟수가 μ번일 때

푸아송 확률함수에 따른

x번 발생확률은 다음과 같습니다.

 





엑셀에서는 POISSON.DIST 함수로 푸아송 확률분포를 구합니다.

마지막에 FALSE를 넣으면 개별확률,

TRUE를 넣으면 누적확률입니다.

 



한 시간 동안 평균 30명이 들르는 가게에

한 시간 30명 이하가 들를 확률은 약 54%네요.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 7 - 조건부 확률과 베이즈 정리
반응형





A라는 사건이 생길 확률을 P(A)라고 합시다.

 



AB가 같이 생길 확률은

P(AB)라고 합시다.

(결합확률)

 


B가 이미 일어났을 때

A가 생길 확률은 얼마일까요?

 

확률은 P(AB)/P(B)입니다.

학교에서 배우셨을지도 모르겠네요.



 

이걸 조건부확률(Conditional Probability)이라 하고

P(AB)라고 합니다.

 

 

베이즈 정리

 



우리 학교 야구부는

가끔 근처 두 학교와 대결합니다.


 

A학교와 붙을 확률은 70%,

B학교와 붙을 확률은 30%입니다.



 

A학교와 붙으면 승률은 20%,

B학교와 붙으면 승률은 60%입니다.

 



어느 날 우리 학교 야구부가 이겼다는 소식을 들었습니다.

어디 학교와 붙었는지는 모릅니다.

A학교와 붙었을 확률은 얼마일까요?

 



이겼는지 졌는지 모른다면,

A학교와 붙었을 확률은 당연히 70%입니다.

그러나 이젠 이겼다는 사실을 알게 되었습니다.

 



영국의 목사 토머스 베이즈가 만든 베이즈 정리Bayes’ Theorem

이처럼 이미 벌어진 사건이 있을 때

새로운 정보로 새로운 확률

(사후확률, Posterior Probability)

을 구하는 공식입니다.


 

, 차근차근 해 봅시다.

 



A학교와 붙는 사건을 A, B학교와 붙는 사건을 B라 부르고

이기는 사건은 W, 지는 사건은 L이라 부릅시다.

 

A와 붙게 되고 이기기까지 할 확률은

P(AW) = P(A) P(WA)입니다.

A와 붙어서 질 확률은

P(AL) = P(A) P(LA)입니다.


 

이런 식으로 네 가지 경우 확률이 나옵니다.

(A와 붙어서 이김/, B와 붙어서 이김/)



 

A, B를 만날 확률은 압니다.

A, B를 만났을 때 이기거나 질 확률도 압니다.

따라서 네 가지 경우 확률을 전부 구할 수 있습니다.



 

우리가 원하는 건 이겼을 때 A와 붙었을 확률,

P(AW)입니다.

 


공식에 따라 P(AW)/P(W)

= P(A) P(WA)/P(W) 으로 바꾸어 쓸 수 있습니다.

 


이길 확률은 A한테 이길 확률 + B한테 이길 확률입니다.

(AB 이외의 학교와는 안 붙는다고 가정한다면)


 

따라서 P(A) P(WA) / P(WA) + P(WB)이고

P(A) P(WA)/ P(A)P(WA) + P(B)P(WB)입니다.



 

이 식에 있는 네 값은 전부 압니다.

따라서 이겼을 때 A를 만났을 확률을 구할 수 있습니다.

 


베이즈 정리에 따라,

B라는 사건이 일어났을 때 A1이라는 사건이 벌어졌을 확률은

다음과 같습니다.



*베이즈 정리의 조건

1) A1, A2...는 서로 절대 겹치지 않습니다.(상호 배반)

2) A1, A2...들을 합친 것 이외의 경우는 없습니다.

(마치 두 학교 이외에는 붙지 않듯이)

 



베이즈 정리는 새로운 정보를 알고 난 후

이미 알아낸 확률을 수정하는 법을 제공합니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 6 - 공분산과 상관계수
반응형





1학년 1반의 국어, 수학 성적입니다.

국어성적이 높으면 수학성적도 높을까요?



 

공분산, Covariance는 두 변수의 직선관계를 측정합니다.

 


각 변수의 편차곱 합을 자료크기로 나눈 값이죠.

 



공분산의 절댓값이 클수록

두 변수는 직선관계가 강합니다.

 



문제는 두 변수의 단위가 다를 수 있다는 점이죠.

국어, 수학 성적은 둘 다 단위가 이지만

 



예를 들어 키와 몸무게라면 어떨까요?

cmkg를 곱한 혼종이 공분산의 단위겠죠.




게다가 다른 자료는 mlb(파운드)라면요?

두 자료는 단위가 다르니 비교할 수 없죠.

 



지난 시간

표준 편차를 평균으로 나눠 무단위인 상관계수를 구했습니다.

이번에도 비슷합니다.



 

상관계수Correlation Coefficient, 그중

피어슨의 상관계수는 공분산을 두 변수의 표준편차 곱으로 나눈 값입니다.

 



상관계수가 1이면 두 변수는 완벽한 양의 직선관계입니다.

상관계수가 1이면 완벽한 음의 직선관계입니다.


 


엑셀 공분산 함수는

COVARIANCE.P(모집단)/COVARIANCE.S(표본),

CORREL 함수로 상관계수를 구합니다.

 



그러나 여기서 주의!

상관관계는 인과관계가 아닙니다.

상관관계가 크다고 한쪽이 어느 한쪽을 유발한다는 법은 없습니다.

두 변수는 우연히 상관관계일 수도 있고

둘을 조절하는 공통원인이 상관관계를 만들 수도 있습니다.

반응형
  Comments,     Trackbacks