설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀 통계학 (2)
엑셀로 통계하기 13 - 구간추정(2)
반응형





지난 시간에는 모표준편차를 알 때

구간추정으로 표본평균이 모평균에 얼마나 가까운지 추측했습니다.


 

표본평균에 더하고 빼는 오차범위는 이랬죠.

 


여기서 α는 유의수준으로,

95%의 신뢰수준이라면 1-0.95=0.05였습니다.




 

모표준편차를 모를 때




그러나 자료 대부분은 모집단 표준편차를 모릅니다.

그래서 표본을 추출해 조사하는 것 아니겠습니까.



 

모표준편차를 모를 때도 오차범위 식은 비슷합니다.

단 두 가지만 다르죠.



 

첫째, 모집단 표준편차 대신

표본 표준편차를 집어넣습니다.

 



둘째, 유의수준에 대한 Z값 대신

t분포에 대한 t을 넣습니다.



 

t분포(스튜던트 t분포)

맥주 양조장에서 일하던 윌리엄 고셋이

스튜던트라는 필명으로 발표한 분포입니다.

 



이 분포는 자유도마다 분포가 하나씩 있습니다.

자유도 1에 대한 t분포,

자유도 2에 대한 t분포... 

(자유도가 커질수록 t분포는 표준정규분포에 가까워집니다.)

 

그럼 구간추정 오차범위에는

어떤 t분포값을 넣어야 할까요?



 

n-1 자유도에서

(n은 표본크기)

양쪽 꼬리 면적이 α/2t값을 넣습니다.

 



엑셀에서는 T.INV.2T 함수를 이용해

확률에 따른 t값을 계산합니다.



 

=T.INV.2T( x , 자유도)

x : 양쪽 누적한 확률

 

유의수준이 0.05, 자유도가 29라면

=T.INV.2T(0.05 , 29)

오차범위에 넣을 t값입니다.

 




사실, 엑셀에는 신뢰수준에 따른 오차범위를 구하는 기능이 있습니다.

 



[데이터] 리본 오른쪽 끝 데이터 분석을 찾으셨나요?

 


없다면 [파일] - [옵션] - [추가기능] - [이동]에서

분석 도구를 체크하고 확인을 누르면 생깁니다.

 


데이터 분석에 들어가서 기술 통계법을 선택합니다.

 



자료 범위를 지정하고

요약 통계량에 체크하고

평균에 대한 신뢰 수준에 원하는 신뢰수준을 입력하고

확인을 누르면 오차범위를 볼 수 있습니다.



반응형
  Comments,     Trackbacks
엑셀로 통계하기 6 - 공분산과 상관계수
반응형





1학년 1반의 국어, 수학 성적입니다.

국어성적이 높으면 수학성적도 높을까요?



 

공분산, Covariance는 두 변수의 직선관계를 측정합니다.

 


각 변수의 편차곱 합을 자료크기로 나눈 값이죠.

 



공분산의 절댓값이 클수록

두 변수는 직선관계가 강합니다.

 



문제는 두 변수의 단위가 다를 수 있다는 점이죠.

국어, 수학 성적은 둘 다 단위가 이지만

 



예를 들어 키와 몸무게라면 어떨까요?

cmkg를 곱한 혼종이 공분산의 단위겠죠.




게다가 다른 자료는 mlb(파운드)라면요?

두 자료는 단위가 다르니 비교할 수 없죠.

 



지난 시간

표준 편차를 평균으로 나눠 무단위인 상관계수를 구했습니다.

이번에도 비슷합니다.



 

상관계수Correlation Coefficient, 그중

피어슨의 상관계수는 공분산을 두 변수의 표준편차 곱으로 나눈 값입니다.

 



상관계수가 1이면 두 변수는 완벽한 양의 직선관계입니다.

상관계수가 1이면 완벽한 음의 직선관계입니다.


 


엑셀 공분산 함수는

COVARIANCE.P(모집단)/COVARIANCE.S(표본),

CORREL 함수로 상관계수를 구합니다.

 



그러나 여기서 주의!

상관관계는 인과관계가 아닙니다.

상관관계가 크다고 한쪽이 어느 한쪽을 유발한다는 법은 없습니다.

두 변수는 우연히 상관관계일 수도 있고

둘을 조절하는 공통원인이 상관관계를 만들 수도 있습니다.

반응형
  Comments,     Trackbacks