설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀 통계 (23)
엑셀로 통계하기 13 - 구간추정(2)
반응형





지난 시간에는 모표준편차를 알 때

구간추정으로 표본평균이 모평균에 얼마나 가까운지 추측했습니다.


 

표본평균에 더하고 빼는 오차범위는 이랬죠.

 


여기서 α는 유의수준으로,

95%의 신뢰수준이라면 1-0.95=0.05였습니다.




 

모표준편차를 모를 때




그러나 자료 대부분은 모집단 표준편차를 모릅니다.

그래서 표본을 추출해 조사하는 것 아니겠습니까.



 

모표준편차를 모를 때도 오차범위 식은 비슷합니다.

단 두 가지만 다르죠.



 

첫째, 모집단 표준편차 대신

표본 표준편차를 집어넣습니다.

 



둘째, 유의수준에 대한 Z값 대신

t분포에 대한 t을 넣습니다.



 

t분포(스튜던트 t분포)

맥주 양조장에서 일하던 윌리엄 고셋이

스튜던트라는 필명으로 발표한 분포입니다.

 



이 분포는 자유도마다 분포가 하나씩 있습니다.

자유도 1에 대한 t분포,

자유도 2에 대한 t분포... 

(자유도가 커질수록 t분포는 표준정규분포에 가까워집니다.)

 

그럼 구간추정 오차범위에는

어떤 t분포값을 넣어야 할까요?



 

n-1 자유도에서

(n은 표본크기)

양쪽 꼬리 면적이 α/2t값을 넣습니다.

 



엑셀에서는 T.INV.2T 함수를 이용해

확률에 따른 t값을 계산합니다.



 

=T.INV.2T( x , 자유도)

x : 양쪽 누적한 확률

 

유의수준이 0.05, 자유도가 29라면

=T.INV.2T(0.05 , 29)

오차범위에 넣을 t값입니다.

 




사실, 엑셀에는 신뢰수준에 따른 오차범위를 구하는 기능이 있습니다.

 



[데이터] 리본 오른쪽 끝 데이터 분석을 찾으셨나요?

 


없다면 [파일] - [옵션] - [추가기능] - [이동]에서

분석 도구를 체크하고 확인을 누르면 생깁니다.

 


데이터 분석에 들어가서 기술 통계법을 선택합니다.

 



자료 범위를 지정하고

요약 통계량에 체크하고

평균에 대한 신뢰 수준에 원하는 신뢰수준을 입력하고

확인을 누르면 오차범위를 볼 수 있습니다.



반응형
  Comments,     Trackbacks
엑셀로 통계하기 12 - 구간추정(1)
반응형



우린 모집단 통계량을 구할 수 없을 때 표본을 추출해서 조사합니다.




그런데 표본으로 구한 평균이 모집단 평균과 가깝다고 얼마나 확신할 수 있을까요?


*이번 글은 조금 깁니다.

 



과자 공장이 이번 달 생산하는 과자 한 봉지에 들어가는 과자 양을 알고 싶다고 합시다.



 

과자 공장의 공정은 아주 정확하고, 관리도 잘 됩니다.

공정은 20년 전부터 변화가 없었고, 매달 과자 양을 측정해 왔습니다.

 


이렇게

 1) 데이터가 아주 많거나,

2) 공정이 정확하고 잘 관리될 때는

그동안 구한 표준편차를 모집단 표준편차로 가정할 수 있습니다.



 

여기서 표본분포 개념을 잠깐 듣고 갑시다.





표본분포는 무엇일까요. 과자 1000봉지 중 50봉지를 표본으로 추출해서 실험한다고 합시다.


사람에 따라 표본으로 뽑히는 50봉지는 여러 가지입니다. 그럼 그 50봉지마다 알갱이 수의 평균은 조금씩 다르겠죠.

 




이렇게 표본들 자료의 분포를 표본분포라고 합니다.

이 분포의 기댓값은 모집단 평균입니다.

이 곡선의 표준편차는 모집단 표준편차에서 표본수의 제곱근을 나눈 값입니다.




 

모집단이 정규분포라면, 표본평균의 표본분포도 정규분포를 그립니다.




 

모집단이 정규분포가 아니어도, 중심극한정리에 따라 표본 크기가 클수록 표본평균의 표본분포는 정규확률분포에 가깝습니다.

(30 이상이라고 합니다)

 

결국, 표본평균의 분포는 (웬만하면) 정규분포곡선을 그립니다.





 


과자 공장으로 돌아갑시다.




봉지 당 알갱이 수는 정규분포를 그린다고 가정합니다.

모집단 표준편차는 5입니다.

25봉지를 추출해 검사했더니 한 봉지에 평균 30알갱이가 있습니다.

이 표본평균은 모집단 평균에서 얼마나 가까울까요?

 

 


정규분포곡선에서

평균 양옆 1.96표준편차 이내에는 자료의 95%가 들어갑니다.

 

표본평균의 표본분포 그래프에서도

모집단 평균 양옆 1.96표준편차 이내에 표본평균의 95%가 있습니다.

표본평균 표본분포의 표준편차는

5/5=1입니다.

 




방향을 반대로 보면, 표본평균의 95%는 모집단 평균과 1.96표준편차 이하만큼 가깝습니다.

 




즉 우리가 검사한 표본의 평균은 모집단 평균과 1.96표준편차 이내에 있다고 95% 확신합니다.

 




과자 공장에서 보자면

표본에서 나온 평균 30알은 모집단 평균과

1.96X1=1.96

알 이하만큼 차이가 난다고 95% 확신합니다.


즉, 95%만큼 확신할 수 있는 범위는

30-1.96=28.04 에서

30+1.96=31.96입니다.

 

이때 95%신뢰수준 Confidence level입니다.

0.95신뢰계수 Confidence coefficient입니다.

1-0.95=0.05유의수준 Level of significance입니다.

1.96에 표본평균 표준편차를 곱한 것이 오차범위입니다.

그렇게 구한 구간이 95% 신뢰구간 Confidence interval입니다.



이제 과자공장에선 이렇게 말할 수 있습니다.

'우리 공장 과자는 28.04알에서 31.96알 사이가 들었다고

95% 확신할 수 있어.'

 



인터넷에서는 유의수준에 따라 표본분포 표준편차에 곱하는 값(Z)이 나와있으니 참고바랍니다.

 



엑셀에서 오차범위 구하기

 




엑셀에서는 모표준편차를 알 때

오차범위를 구하는 CONFIDENCE.NORM 함수가 있습니다.

 

=CONFIDENCE.NORM(유의수준, 모표준편차, 표본크기)

 

 

그런데 모집단 표준편차를 모르면 어떻게 할까요?

다음 시간에 알아봅시다.



 


주의! 표본평균 표준편차


표본을 추출하는 모집단의 종류에 따라 표본평균 표준편차 공식이 다릅니다.


모집단에는 유한모집단무한모집단이 있습니다.


유한모집단은 말 그대로 자료가 유한합니다.

무한모집단은 자료가 무한하거나 계속 생겨납니다.

과자 공장에서, 과자는 계속 생산되므로 전체 자료가 몇 봉지인지 말할 수 없습니다. 따라서 무한모집단입니다.



 

무한모집단이거나 유한모집단이더라도 n/N0.05 이하일 때는 아까처럼 공식을 씁니다.



 

유한모집단일 때는 여기에 유한모집단 수정인수를 곱합니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 11 - 로그정규/지수/와이불
반응형





여러분의 자료가 어떤 분포와 아주 비슷하다면

다음 자료가 어느 정도일지 예측할 수 있습니다.



 

여러분 지역 강수량이 정규분포를 따른다면

내년 강수량이 500mm 이상일 확률도 구할 수 있겠죠.



 

그러나 정규분포만 분포가 아닙니다.

연속분포는 여러 종류가 있습니다.

그중 일부를 소개합니다.



 

로그정규분포 Log normal distribution


 

로그정규분포는 확률변수의 자연로그가 정규분포를 따르는 분포입니다.

x 대신 ln(x)가 정규분포를 따르는 것이죠.

다른 건 정규분포와 똑같습니다.



 

엑셀에는 로그정규분포확률을 구하는

LOGNORM.DIST 함수가 있습니다.

 

=LOGNORM.DIST( x , ln(x)의 평균 , ln(x)의 표준편차 , TRUE/FALSE)

TRUE : x까지 누적확률

FALSE : x 확률밀도함수



 

 

지수분포 Exponential distribution


 

푸아송분포가 구간 내 벌어지는 횟수를 다룬다면

지수분포는 구간 내 벌어지는 간격을 다룹니다.

 

구간에서 평균 μ번 사건이 벌어질 때

지수확률분포와

x가 일정 수 이하일 확률은 다음과 같습니다.




 

엑셀에서는

EXPON.DIST 함수

지수확률분포를 구합니다.

 

=EXPON.DIST(x, 1/평균 , TRUE/FALSE)

TRUE : x 이하일 확률(누적확률)

FALSE : x 확률밀도함수(f(x))

 

: 1시간 동안 고객센터로 평균 10번 전화가 온다.

지수분포를 따른다고 가정할 때

1시간 동안 5번 이내로 전화가 올 확률은

=EXPON.DIST(5, 1/10 , TRUE)

 

 

와이불/베이불 분포 Weibull distribution


 

와이불 분포는 탈락이나 변화하는 항목에 유용한 분포입니다.

제품 100개 중 5년 후 10개가 고장 날 확률처럼요.

 

와이불 분포 확률함수와 누적함수식은 다음과 같습니다.



 



엑셀에서는

WEIBULL.DIST 함수로 와이불 확률함수를 구합니다.

 

=WEIBULL.DIST( x , α , β , TRUE/FALSE)

TRUE : x 이하일 확률(누적함수)

FALSE : x 확률밀도함수

반응형
  Comments,     Trackbacks
엑셀로 통계하기 10 - 정규확률분포
반응형




이산확률분포와 다르게

연속확률분포는 연속적입니다.

 

확률변수의 값이 1, 2, 3처럼 특정하지 않고

‘1~100 사이 어딘가를 가리키죠.

 



연속확률분포 중에서 제일 유명한 분포는

정규확률분포 Normal probability distribution입니다.



 

정규확률분포는 자연과 사회에서

주로 보이는 분포로, 그만큼 중요하고 널리 쓰입니다.

 



정규확률분포를 정하는 수는 두 가지,

평균과 표준편차(분산)입니다.

 




표준정규확률분포

 



정규확률분포 중에서 평균이 0, 표준편차가 1인 분포를

표준정규확률분포 Standard normal probability distribution이라 합니다.

 



모든 정규확률분포는

확률변수에서 평균을 빼고 표준편차로 나누면(z)

표준정규확률분포가 됩니다.

이를 이용해 쉽게 확률을 구할 수 있습니다.

 



예를 들어 평균이 10, 표준편차가 5, 정규분포를 따르는 자료가 있습니다.

확률변수가 20 이하일 확률은 얼마일까요?

 



20에서 평균을 빼고 표준편차로 나누면

표준정규확률분포 위 확률변수가 되는데,

(20-10)/5=2입니다.



 

그럼 원래 자료가 20 이하일 확률은

표준정규확률분포에서 2 이하일 확률과 같습니다.

그리고 수학자들은 표준정규확률분포 속 확률을

미리 다 계산해 놓았습니다.

 



찾아보니 표준정규확률분포에서 2 이하일 확률은

0.97725(97.73%)군요.

 

표준정규확률분포 표와 계산기는 인터넷에 널리고 널렸으니

필요하시면 검색하시기 바랍니다.

 

위키피디아 표

정규확률분포 계산 사이트




엑셀에서 정규확률분포 구하기

 



사실, 엑셀만 있으면 표준정규확률분포표를 보실 필요가 없습니다.

이미 정규확률분포를 구하는 함수가 있기 때문입니다.

 



NORM.DIST 함수는 정규확률분포 확률을 구합니다.

 

=NORM.DIST(x , 평균 , 표준편차 , TRUE/FALSE)

TRUE : x까지 누적확률

FALSE : x의 확률함수 값

 



NORM.S.DIST 함수는 표준정규확률분포 확률을 구합니다.

 

=NORM.S.DIST(z, TRUE/FALSE)

z = 확률변수에서 평균을 빼고 표준편차로 나눈 값.

TRUE : z까지 누적확률

FALSE : z의 확률함수 값

 



표준정규분포 누적확률로 z를 역계산하는 함수도 있습니다.

NORM.S.INV 함수입니다.

 

=NORM.S.INV( 누적확률 )

반응형
  Comments,     Trackbacks
엑셀로 통계하기 9 - 초기하확률분포
반응형





상자에 검은 공 다섯 개와 흰 공 네 개가 들어 있습니다.

공 세 개를 뽑을 때 모두 검은 공일 확률은 얼마일까요?


 

첫 공이 검은 공일 확률은 5/9

두 번째가 검은 공일 확률은 4/8

세 번째도 검은 공일 확률은 3/7

세 값을 전부 곱하면 약 0.119(11.9%)입니다.


 

수학 시간에 자주 풀어보셨죠?

이때 공을 다시 넣느냐 안 넣느냐를 헷갈리면 문제를 틀렸죠.

 



사실 실생활에서 물건, 사람을 뽑으면

대부분 한 번 뽑은 건 다시 뽑지 않습니다.

 


초기하확률분포 Hypergeometric probability distribution

이처럼 뽑은 걸 돌려놓지 않으면서 뽑을 때 나타나는

확률분포함수입니다.

 



이항분포와 비슷하지만

시행마다 확률이 같은 이항분포와 다르게

초기하확률함수는 시행마다 확률이 바뀝니다.

 



사실 초기하확률함수도 모집단 크기가 아주 크면

이항분포와 매우 비슷해지고, 근사하기도 합니다.

 




초기하확률함수의 확률



 

공이 N개가 있는 상자에

검은 공은 r개 있습니다.



 

여기서 n개를 무작위로 복원 없이 추출할 때

검은 공 x개를 뽑을 확률은 다음과 같습니다.

 

초기하확률함수의 기댓값과 분산도 알아두시면 좋습니다.





 


엑셀에서 초기하확률분포 계산하기.



 

엑셀에는 초기하확률분포를 구하는

HYPGEOM.DIST 함수가 있습니다.



 

=HYPGEOM.DIST( x , n , r , N , TRUE/FALSE)

총 N개 중 원하는 r개가 있을 때,

n번 뽑아(돌려놓지 않음) x번 원하는 것이 나올 확률.

TRUE : x번 이하로 성공할 확률(누적확률)

FALSE : x번 성공할 확률(개별확률)



 

그럼 맨 처음에 나온 문제를 풀어봅시다.

 


상자에 검은 공 다섯 개와 흰 공 네 개가 들어 있었죠.

공 세 개를 뽑을 때 모두 검은 공일 확률은 얼마일까요?


 


N = 9

r = 5

n = 3

x = 3,

개별확률이므로 FALSE로 입력합니다.



 

방금 구한 값과 똑같습니다.

 



그럼 공 세 개를 뽑을 때 검은 공이 두 번 이하일 확률은 얼마일까요?

 



x2로 바꾸고 FALSE 대신 TRUE를 넣으면 되겠죠.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 8 - 이산확률분포
반응형




여러분이 무언가 측정해서 숫자로 쓴다면

그건 확률변수 Random variable이 됩니다.



 

확률변수는 크게

이산확률변수와 연속확률변수가 있습니다.

 



이산확률변수 Discrete random variable

셀 수 있는 숫자입니다.

한 시간에 생산하는 제품 개수, 시험 합격자 수 등입니다.

 

 


연속확률변수 Continuous random variable

구간이나 구간 속 숫자입니다.

자동차가 한 시간에 달리는 거리, 물이 끓는 온도 등입니다.

 



이번 시간에는 이산확률분포의 세 종류,

이산균일확률분포, 이항확률분포, 푸아송 확률분포를 알아봅시다.

 



이산균일확률분포



 

이산균일확률분포 Discrete uniform probability distribution

말 그대로 균일한 확률분포입니다.

각 눈이 나올 확률이 1/6으로 같은 주사위가 그 예입니다.

 



이 분포의 기댓값은 얼마일까요?

기댓값이란 자료의 평균처럼 확률변수의 중심을 재는 수치입니다.

 



기댓값을 구하는 공식입니다.

모든 확률분포에는 기댓값이 있으니 꼭 알아두시길 바랍니다.

 



평균이 있으면 분산, 표준편차도 있겠죠.

확률변수에도 분산표준편차가 있습니다.

 



엑셀에서 이산확률분포의 기댓값, 분산을 구할 때는

SUMPRODUCT 함수를 추천합니다.

SUMPRODUCT 함수는 값들의 곱의 합을 구합니다.

 




이항확률분포

 



동전 던지기를 생각해 봅시다.



 

첫째, 결과는 오직 두 가지입니다.

둘째, 앞면과 뒷면이 나올 확률은 몇 번 던져도 같습니다.

셋째, 아까 던진 시험이 지금 시험에 영향을 주지 않습니다.(독립)

 



이런 시행을 베르누이 시행Bernoulli trial, 이항실험 Binomial experience라고 합니다.

 

(확률이 반반일 필요는 없습니다.

시행하면서 변하지만 않으면 됩니다.)

 



베르누이 시행이 만드는 확률분포를

이항확률분포 Binomial Probability Distribution라 합니다.

 

다행히 수학자들이 확률을 다 계산해 두었습니다.

확률이 p인 시행을 n번 시행했을 때,

x번 성공할 확률은 다음과 같습니다.

 



이항확률분포의 기댓값과 분산은 이렇습니다.

 





엑셀에서는 BINOM.DIST 함수로 이상확률을 구합니다.

(확률 p로 n번 시행함)

맨 뒤에 FALSE를 넣으면 딱 그 확률,

(딱 x번 성공할 확률)

TRUE를 넣으면 누적확률을 계산합니다.

(x번 이하 성공할 확률)

 



푸아송 확률분포

 



한 시간 동안 평균 30명이 들르는 가게가 있습니다.

한 시간 동안 최대 30명까지 들를 확률은 얼마일까요?



 

푸아송 확률분포 Poisson Probability Distribution

이처럼 시간, 공간 구간 내에서 사건이 벌어지는 횟수에 유용합니다.

 

그전에 잠깐.

푸아송 확률분포는 두 가지 조건이 있습니다.

첫째, 두 구간 길이가 같다면 발생확률이 같을 것.

둘째, 어떤 구간에서 발생하는/발생하지 않는 사건은 다른 구간에서 발생하는/발생하지 않는 사건과 독립일 것.

 

구간 내 평균 발생횟수가 μ번일 때

푸아송 확률함수에 따른

x번 발생확률은 다음과 같습니다.

 





엑셀에서는 POISSON.DIST 함수로 푸아송 확률분포를 구합니다.

마지막에 FALSE를 넣으면 개별확률,

TRUE를 넣으면 누적확률입니다.

 



한 시간 동안 평균 30명이 들르는 가게에

한 시간 30명 이하가 들를 확률은 약 54%네요.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 7 - 조건부 확률과 베이즈 정리
반응형





A라는 사건이 생길 확률을 P(A)라고 합시다.

 



AB가 같이 생길 확률은

P(AB)라고 합시다.

(결합확률)

 


B가 이미 일어났을 때

A가 생길 확률은 얼마일까요?

 

확률은 P(AB)/P(B)입니다.

학교에서 배우셨을지도 모르겠네요.



 

이걸 조건부확률(Conditional Probability)이라 하고

P(AB)라고 합니다.

 

 

베이즈 정리

 



우리 학교 야구부는

가끔 근처 두 학교와 대결합니다.


 

A학교와 붙을 확률은 70%,

B학교와 붙을 확률은 30%입니다.



 

A학교와 붙으면 승률은 20%,

B학교와 붙으면 승률은 60%입니다.

 



어느 날 우리 학교 야구부가 이겼다는 소식을 들었습니다.

어디 학교와 붙었는지는 모릅니다.

A학교와 붙었을 확률은 얼마일까요?

 



이겼는지 졌는지 모른다면,

A학교와 붙었을 확률은 당연히 70%입니다.

그러나 이젠 이겼다는 사실을 알게 되었습니다.

 



영국의 목사 토머스 베이즈가 만든 베이즈 정리Bayes’ Theorem

이처럼 이미 벌어진 사건이 있을 때

새로운 정보로 새로운 확률

(사후확률, Posterior Probability)

을 구하는 공식입니다.


 

, 차근차근 해 봅시다.

 



A학교와 붙는 사건을 A, B학교와 붙는 사건을 B라 부르고

이기는 사건은 W, 지는 사건은 L이라 부릅시다.

 

A와 붙게 되고 이기기까지 할 확률은

P(AW) = P(A) P(WA)입니다.

A와 붙어서 질 확률은

P(AL) = P(A) P(LA)입니다.


 

이런 식으로 네 가지 경우 확률이 나옵니다.

(A와 붙어서 이김/, B와 붙어서 이김/)



 

A, B를 만날 확률은 압니다.

A, B를 만났을 때 이기거나 질 확률도 압니다.

따라서 네 가지 경우 확률을 전부 구할 수 있습니다.



 

우리가 원하는 건 이겼을 때 A와 붙었을 확률,

P(AW)입니다.

 


공식에 따라 P(AW)/P(W)

= P(A) P(WA)/P(W) 으로 바꾸어 쓸 수 있습니다.

 


이길 확률은 A한테 이길 확률 + B한테 이길 확률입니다.

(AB 이외의 학교와는 안 붙는다고 가정한다면)


 

따라서 P(A) P(WA) / P(WA) + P(WB)이고

P(A) P(WA)/ P(A)P(WA) + P(B)P(WB)입니다.



 

이 식에 있는 네 값은 전부 압니다.

따라서 이겼을 때 A를 만났을 확률을 구할 수 있습니다.

 


베이즈 정리에 따라,

B라는 사건이 일어났을 때 A1이라는 사건이 벌어졌을 확률은

다음과 같습니다.



*베이즈 정리의 조건

1) A1, A2...는 서로 절대 겹치지 않습니다.(상호 배반)

2) A1, A2...들을 합친 것 이외의 경우는 없습니다.

(마치 두 학교 이외에는 붙지 않듯이)

 



베이즈 정리는 새로운 정보를 알고 난 후

이미 알아낸 확률을 수정하는 법을 제공합니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 6 - 공분산과 상관계수
반응형





1학년 1반의 국어, 수학 성적입니다.

국어성적이 높으면 수학성적도 높을까요?



 

공분산, Covariance는 두 변수의 직선관계를 측정합니다.

 


각 변수의 편차곱 합을 자료크기로 나눈 값이죠.

 



공분산의 절댓값이 클수록

두 변수는 직선관계가 강합니다.

 



문제는 두 변수의 단위가 다를 수 있다는 점이죠.

국어, 수학 성적은 둘 다 단위가 이지만

 



예를 들어 키와 몸무게라면 어떨까요?

cmkg를 곱한 혼종이 공분산의 단위겠죠.




게다가 다른 자료는 mlb(파운드)라면요?

두 자료는 단위가 다르니 비교할 수 없죠.

 



지난 시간

표준 편차를 평균으로 나눠 무단위인 상관계수를 구했습니다.

이번에도 비슷합니다.



 

상관계수Correlation Coefficient, 그중

피어슨의 상관계수는 공분산을 두 변수의 표준편차 곱으로 나눈 값입니다.

 



상관계수가 1이면 두 변수는 완벽한 양의 직선관계입니다.

상관계수가 1이면 완벽한 음의 직선관계입니다.


 


엑셀 공분산 함수는

COVARIANCE.P(모집단)/COVARIANCE.S(표본),

CORREL 함수로 상관계수를 구합니다.

 



그러나 여기서 주의!

상관관계는 인과관계가 아닙니다.

상관관계가 크다고 한쪽이 어느 한쪽을 유발한다는 법은 없습니다.

두 변수는 우연히 상관관계일 수도 있고

둘을 조절하는 공통원인이 상관관계를 만들 수도 있습니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 5 - Z값과 체비셰프 정리
반응형





학급 50미터 달리기 기록이

17초로 나왔습니다.

빠른 걸까요?

 



반 전체 평균을 보니 15초입니다.

평균보다 2초 느리군요.

나쁘진 않습니다.

 



그러나 분포도 중요하겠죠.

산포도가 크다면 조금 안심되지만

산포도가 작다면 평균에서 조금만 멀어져도

잘 못 달리게 되니까요.

 



Z(Z-score)

어떤 자료가 평균에서 상대적으로떨어진 거리로

자료에서 평균을 빼고 표준편차로 나눈 값입니다.

(표준점수, 표준값이라고도 합니다)

 

Z값이 2라면 그 자료는 평균보다 2s만큼 크고

-2라면 평균보다 2s만큼 작겠죠.




체비셰프의 정리

 


50미터 달리기로 돌아갑시다.

1학년 1반 평균은 15초였죠.

 

표준편차가 1초라고 하면,

13초와 17초 사이에는 몇 명이 있을까요?

 



러시아 수학자 파프누티 체비셰프는

Z값과 관련한 공식을 발견합니다.

바로 체비셰프의 정리Chebyshev’s Theorem입니다.

(체비셰프의 부등식이라고도 부릅니다)


 


예를 들어 평균과 ±2s 사이에는

최소 (1-1/4)=0.75, 75%의 자료가 존재합니다.

 



1학년 1반을 봅시다.

평균은 15. 표준편차는 1.

13초와 17초 사이는 2s이니까

학급의 최소 75%13초와 17초 사이에 있습니다.

(‘최소 75%’니까 그보다 많을 수도 있음을 명심하세요.)

반응형
  Comments,     Trackbacks
엑셀로 통계하기 4 - 왜도와 첨도
반응형





통계에는 왜도와 첨도가 있습니다.


 

왜도(비대칭도), Skewness는 자료가 쏠린 정도입니다. 

왜도를 구하는 공식도 대푯값, 산포도처럼 여러 가지입니다.

 

엑셀에는 왜도를 구하는 두 가지 함수가 있습니다.

SKEW.PSKEW입니다.



 

SKEW.P 함수와 SKEW 함수는

각각 이렇게 계산됩니다.



 

첨도Kurtosis는 자료 분포가 뾰족한 정도입니다.




 

첨도 역시 여러 공식이 있지만,

엑셀 KURT 함수의 계산식은 이렇습니다.

 

반응형
  Comments,     Trackbacks