설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
분산 (1)
엑셀 할머니 8화 - 분산과 표준편차
반응형





레포트도 이제 끝.

어릴 땐 계산기로 다 두드렸는데

지금은 엑셀이 있으니까 편하네...





똑똑. 할미다.






할머니! 올림픽 개막식 보셨어요?








그럼, 봤다마다.

저승에도 텔레비전은 있단다.





귀신이시면

직접 가실 수도 있지 않나요?





처음 저승에 가서 운동경기를

얼마나 많이 봤는지 아니?



젊은 것들이 좋아하는

챔스 결승전도 가 봤어요.

이제 할미는 그런 거 지겨워.





아무튼 할머니가 오셨으니

오늘 엑셀도 안심이네요.





음. 평균과 분산, 표준편차라.

평균이야 다 할 줄 알테고.

분산과 표준편차가 뭔지는 알지?




그럼요. 문과도 그건 배우거든요.






분산과 표준편차는 자료가 얼마나

흩어졌는지 알려주는 '산포도'의 일종이에요.


각 자료에서 평균을 빼서 제곱합을 구하고

데이터 개수만큼 나눈 것이 분산,

분산의 제곱근이 표준편차죠.


분산과 표준편차가 클수록

그 자료들은 많이 흩어진 거죠.




역시 똑똑한 내 증손주야.

그런데 데이터 개수(n)로 나눌 수도 있고

n-1로 나눌 수도 있다는 것 아니?





글쎄요?

고등학교에서는 n으로 나누라고 배웠는데.





조사에는 두 종류가 있단다.

데이터를 전부 조사한 조사(전수조사)와

일부만 조사한 조사(표본조사)가 있지.





전교생이 100명인 학교에서

100명한테 전부 물어보면 전수조사,

10명만 뽑아 물어보면 표본조사

이런 건가요.












맞아.

그리고 전수조사나 표본조사냐에 따라

n이냐 n-1이냐도 다르단다.




전수조사일 때는 n으로 나누고

표본조사일 때는 n-1로 나누는 것이 자연스럽단다.





왜죠?







음. 설명하려면

자유도와 불편추정량을 이야기해야 하는데..





지금은 일단

표본조사는 전수조사에 비해

분산과 표준편차가 낮게 나오는 경향이 있어서

n-1로 나누어 조금 값을 키운다고 생각하려무나.




엑셀에서

둘을 구분하나요?





물론이지.

두 경우 모두 엑셀 함수가 있단다.






먼저 분산은

VAR함수가 있단다

2010버전부터 VAR.S 함수가 새로 생겼지만

둘 기능은 같다.




VAR와 VAR.S는 어느 쪽이죠?






S가 Sample의 약자임을 기억하면

표본조사지.






그럼 전수조사는요?






엑셀 전수조사 분산 함수는

VAR.P란다.




P는 뭐의 약자죠?






Population이란다.

인구. 말 그대로 전부라는 뜻이지.




그러니까

지금 자료가 전체의 일부면

VAR이나 VAR.S 함수를.

지금 자료가 전체면

VAR.P 함수를 쓰면 되겠죠?


정답이다.

표준편차도 마찬가지로

전수조사와 표본조사에 맞는 함수가

따로 있고.



표본조사는

STDEV 함수가 있단다.

역시 2010버전부터 STDEV.S가 새로 생겼지만

기능은 같고.



이번에도

S는 Sample의 약자죠?

설마 전수조사 표준편차 함수는

STDEV.P인가요?








하나를 알면 둘을 깨치는구나.





*할머니의 요점정리*


  엑셀 분산 함수

    VAR / VAR.S = 데이터를 표본집단으로 간주

    VAR.P = 데이터를 모집단 전체로 간주


  엑셀 표준편차 함수

    STDEV / STDEV.S = 데이터를 표본집단으로 간주

    STDEV.P = 데이터를 모집단 전체로 간주





다음 화에 계속....

반응형
  Comments,     Trackbacks