설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀로 통계하기 6 - 공분산과 상관계수
반응형





1학년 1반의 국어, 수학 성적입니다.

국어성적이 높으면 수학성적도 높을까요?



 

공분산, Covariance는 두 변수의 직선관계를 측정합니다.

 


각 변수의 편차곱 합을 자료크기로 나눈 값이죠.

 



공분산의 절댓값이 클수록

두 변수는 직선관계가 강합니다.

 



문제는 두 변수의 단위가 다를 수 있다는 점이죠.

국어, 수학 성적은 둘 다 단위가 이지만

 



예를 들어 키와 몸무게라면 어떨까요?

cmkg를 곱한 혼종이 공분산의 단위겠죠.




게다가 다른 자료는 mlb(파운드)라면요?

두 자료는 단위가 다르니 비교할 수 없죠.

 



지난 시간

표준 편차를 평균으로 나눠 무단위인 상관계수를 구했습니다.

이번에도 비슷합니다.



 

상관계수Correlation Coefficient, 그중

피어슨의 상관계수는 공분산을 두 변수의 표준편차 곱으로 나눈 값입니다.

 



상관계수가 1이면 두 변수는 완벽한 양의 직선관계입니다.

상관계수가 1이면 완벽한 음의 직선관계입니다.


 


엑셀 공분산 함수는

COVARIANCE.P(모집단)/COVARIANCE.S(표본),

CORREL 함수로 상관계수를 구합니다.

 



그러나 여기서 주의!

상관관계는 인과관계가 아닙니다.

상관관계가 크다고 한쪽이 어느 한쪽을 유발한다는 법은 없습니다.

두 변수는 우연히 상관관계일 수도 있고

둘을 조절하는 공통원인이 상관관계를 만들 수도 있습니다.

반응형
  Comments,     Trackbacks