설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
이상치 (1)
엑셀로 통계하기 23 - 잔차분석
반응형




단순선형회귀 (1)

단순선형회귀 (2)


  회귀추정식을 아무리 잘 만들어도, 자료가 완벽한 직선분포가 아닌 이상 오차는 생기기 마련입니다. 관측값과 추정값의 차이를 잔차(Residual)라고 하죠. 잔차는 어찌 보면 회귀모형 속 오차항 역할을 한다고 볼 수 있습니다.

 

  자료 속 독립변수마다 잔차가 있습니다. 이걸 그래프로 그린 걸 잔차플롯(Residual plot)이라고 합니다. 지난 시간 학생의 공부 시간과 시험 점수를 회귀분석한 자료에서 잔차를 구했습니다. 잔차 플롯을 그리는 법은 다음과 같습니다.

 


엑셀에서 잔차플롯 그리기



 

1) 잔차 직접 계산해 차트로 만들기



먼저 회귀식을 구한 다음 x를 대입해 추정값을 구합니다.

 


관측값에 추정값을 빼서 잔차를 구합니다.




[삽입] - [차트] - [분산형]으로 분산형 차트를 만듭니다.




차트를 오른쪽 마우스로 클릭하고 [데이터 선택]을 누릅니다.





범례 항목에서 추가를 누르고 계열 x값을 독립변수, 계열 y값을 잔차 범위로 선택하고 확인을 누릅니다.




 

2) 엑셀 [데이터 분석]에서 회귀분석하면서 만들기

 


[데이터 분석] - [회귀분석]에서 잔차’, ‘잔차도에 체크하면

회귀분석을 하면서 자동으로 잔차를 계산하고 잔차플롯을 그립니다.




 

  회귀분석에 들어가면서 오차항은 기댓값이 0인 정규분포를 따르고 오차항의 분산을 x에 상관없이 같다고 가정했습니다. 따라서 잔차 절댓값이 지나치게 크거나, x값에 따라 잔차 분포가 변한다면 회귀모형의 가정을 위배하게 됩니다. 잔차 정규성 검정법은 훗날 다른 게시물에서 다룰지도 모르겠습니다.

 

 

표준화잔차


  정규분포를 따르는 자료는 더 쉽게 이해하기 위해 표준정규분포 z값으로 변환하기도 합니다. 평균을 빼서 표준편차로 나누는 것이죠. 마찬가지로 잔차도 표준편차로 나누어 표준화합니다. 이것을 표준화 잔차(Standardized residual, 표준잔차)이라고 합니다. 표준화 잔차는 잔차를 무단위로 바꾸기도 하고, 잔차 분포를 더 이해하기 쉽게 만들어줍니다.

 

  오차항이 정규분포라면 표준화 잔차는 표준정규분포를 나타냅니다. 표준정규분포에서는 z2에서 2 사이일 때 자료의 약 95%가 들어갑니다. 여러분의 자료에서 표준화 잔차의 절댓값이 2를 넘는다면 그 잔차에 해당하는 관찰값은 꽤 튀어나온 값일 겁니다.

 


엑셀에서 표준화잔차 구하기




  [데이터 분석] - [회귀분석]에서 표준 잔차에 체크하면 자동으로 x값에 따른 표준화 잔차가 결과에 나타납니다.

 

 



이상값


 

  확 튀는 값은 이상값(Outlier, 특이치, 이상치)이라고 합니다. ‘아웃라이어라는 영어 단어가 더 익숙할지도 모르겠습니다. 한때 아웃라이어라는 책이 인기였죠. 대학 신입생 시절 교수가 추천해서 읽었습니다. 대체로 표준화 잔차의 절댓값이 2를 초과하는 관측값은 이상값으로 취급합니다.

 

  이상값은 왜 생길까요? 값을 잘못 관측했는지도 모릅니다. 실험기기가 잠시 맛이 갔거나 실험자가 56을 헷갈렸을 수도 있죠. 설문조사라면 조사대상이 아무 숫자나 써넣었을 가능성도 있습니다. 아니면 회귀분석 모형이 잘못되었을지도 모르죠. 어쩌면 우연일지도 모릅니다. 표준화 잔차의 95%2에서 2 사이니까 반대로 말하면 5%는 범위 밖이니까요.

반응형
  Comments,     Trackbacks