설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀로 통계하기 8 - 이산확률분포
반응형




여러분이 무언가 측정해서 숫자로 쓴다면

그건 확률변수 Random variable이 됩니다.



 

확률변수는 크게

이산확률변수와 연속확률변수가 있습니다.

 



이산확률변수 Discrete random variable

셀 수 있는 숫자입니다.

한 시간에 생산하는 제품 개수, 시험 합격자 수 등입니다.

 

 


연속확률변수 Continuous random variable

구간이나 구간 속 숫자입니다.

자동차가 한 시간에 달리는 거리, 물이 끓는 온도 등입니다.

 



이번 시간에는 이산확률분포의 세 종류,

이산균일확률분포, 이항확률분포, 푸아송 확률분포를 알아봅시다.

 



이산균일확률분포



 

이산균일확률분포 Discrete uniform probability distribution

말 그대로 균일한 확률분포입니다.

각 눈이 나올 확률이 1/6으로 같은 주사위가 그 예입니다.

 



이 분포의 기댓값은 얼마일까요?

기댓값이란 자료의 평균처럼 확률변수의 중심을 재는 수치입니다.

 



기댓값을 구하는 공식입니다.

모든 확률분포에는 기댓값이 있으니 꼭 알아두시길 바랍니다.

 



평균이 있으면 분산, 표준편차도 있겠죠.

확률변수에도 분산표준편차가 있습니다.

 



엑셀에서 이산확률분포의 기댓값, 분산을 구할 때는

SUMPRODUCT 함수를 추천합니다.

SUMPRODUCT 함수는 값들의 곱의 합을 구합니다.

 




이항확률분포

 



동전 던지기를 생각해 봅시다.



 

첫째, 결과는 오직 두 가지입니다.

둘째, 앞면과 뒷면이 나올 확률은 몇 번 던져도 같습니다.

셋째, 아까 던진 시험이 지금 시험에 영향을 주지 않습니다.(독립)

 



이런 시행을 베르누이 시행Bernoulli trial, 이항실험 Binomial experience라고 합니다.

 

(확률이 반반일 필요는 없습니다.

시행하면서 변하지만 않으면 됩니다.)

 



베르누이 시행이 만드는 확률분포를

이항확률분포 Binomial Probability Distribution라 합니다.

 

다행히 수학자들이 확률을 다 계산해 두었습니다.

확률이 p인 시행을 n번 시행했을 때,

x번 성공할 확률은 다음과 같습니다.

 



이항확률분포의 기댓값과 분산은 이렇습니다.

 





엑셀에서는 BINOM.DIST 함수로 이상확률을 구합니다.

(확률 p로 n번 시행함)

맨 뒤에 FALSE를 넣으면 딱 그 확률,

(딱 x번 성공할 확률)

TRUE를 넣으면 누적확률을 계산합니다.

(x번 이하 성공할 확률)

 



푸아송 확률분포

 



한 시간 동안 평균 30명이 들르는 가게가 있습니다.

한 시간 동안 최대 30명까지 들를 확률은 얼마일까요?



 

푸아송 확률분포 Poisson Probability Distribution

이처럼 시간, 공간 구간 내에서 사건이 벌어지는 횟수에 유용합니다.

 

그전에 잠깐.

푸아송 확률분포는 두 가지 조건이 있습니다.

첫째, 두 구간 길이가 같다면 발생확률이 같을 것.

둘째, 어떤 구간에서 발생하는/발생하지 않는 사건은 다른 구간에서 발생하는/발생하지 않는 사건과 독립일 것.

 

구간 내 평균 발생횟수가 μ번일 때

푸아송 확률함수에 따른

x번 발생확률은 다음과 같습니다.

 





엑셀에서는 POISSON.DIST 함수로 푸아송 확률분포를 구합니다.

마지막에 FALSE를 넣으면 개별확률,

TRUE를 넣으면 누적확률입니다.

 



한 시간 동안 평균 30명이 들르는 가게에

한 시간 30명 이하가 들를 확률은 약 54%네요.

반응형
  Comments,     Trackbacks