설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀로 통계하기 2 - 상자 수염 그림
반응형






이런 그래프. 어디선가 보셨을 겁니다.

 




이건 상자 수염 그림Box-and-whisker Plot,

일명 상자그림Box Plot입니다.

보시다시피 상자에 수염처럼 선이 위아래로 나 있군요.

 



상자 수염 그림은 데이터 분포를 나타내는 그래프입니다.

값이 어디에 쏠려 있는지, 흩어졌는지 알려주죠.

 



평균만 알면 되는 거 아냐?’

이렇게 생각하신 분 많으시겠죠.



 

이 데이터는 10명의 수치를 나타냅니다.

그런데 평균이 좀 이상하군요.

 




바로 수치가 아주 큰 김길동 씨 덕분입니다.

김길동 씨 때문에 10명이 고루 저만큼 가진 것처럼 보이네요.



 

이처럼 평균은 극단적인 값이 있으면

갈대처럼 요동쳐서 데이터를 잘 대표하지 못합니다.

 



상자 수염 그림은 어떻게 그릴까요?

상자 수염 그림엔 평균이 들어가지 않습니다.

차근차근 알아봅시다.

 



일단 최솟값과 최댓값이 필요합니다.

이건 쉽군요.

 



그리고 1, 2, 3사분위가 필요합니다.

이게 뭐냐고요?

 


간단히 말해 1사분위는 100명 중 75등 수치,

2사분위는 100명 중 50등 수치, 3사분위는 100명 중 25등 수치입니다.

 



이제 다섯 가지 수치를 알았으니

상자 수염 그림을 그려봅시다.

 


상자 수염 그림 속 직사각형이 있습니다.

직사각형 아랫변은 1사분위, 윗변은 3사분위입니다.

 



직사각형 안에 2사분위를 그읍시다.



 

사분위수 범위, IQR을 구합니다.

IQR은 3사분위 1사분위입니다.

 



3사분위보다 1.5IQR만큼 큰 수치를 구합시다.

그 수치보다 낮은 값 중 제일 큰 값에 선을 긋습니다.

 



1사분위보다 1.5IQR만큼 작은 수치를 구합시다.

그 수치보다 큰 값 중 제일 낮은 값에 선을 긋습니다.

 

두 선은 직사각형과 연결합니다.

 



제일 높은 선과 제일 낮은 선에도 끼지 못한 데이터들은

따로 점을 찍습니다.

‘1.5IQR이나 여유를 주었는데 거기에도 끼지 못하다니!’

이상치로 생각하는 것이죠.

(원하면 평균을 표시해도 좋습니다.)

 (아니면 그냥 최솟값과 최댓값까지 수염

그릴 수도 있습니다.)



 

엑셀로 상자 수염 그림 그리기

 

엑셀로 상자 수염을 그릴 수 있습니다.

(2016부터)



 

[삽입] - [차트]에서 히스토그램이 있는 곳을 누르고

[상자 수염 그림]을 선택합니다.

 



*"사분위수 계산에서 중앙값 포함/제외는 뭐죠?"

중앙값 포함을 선택하면 데이터 수가 홀수일 때 중앙값을 계산에 넣습니다. 중앙값 제외를 선택하면 제외고요.

 

*"사분위수를 엑셀로 계산할 수 있나요?"

엑셀엔 사분위수를 계산하는 함수가 있습니다.

QUARTILE 함수가 있었는데 2016부터는

QUARTILE.EXC 함수와 QUARTILE.INC 함수가 생겼습니다.

두 함수 모두 뒤에 데이터 배열과 구할 사분위수가 들어갑니다.


) QUARTILE.EXC(A1:A100, 1)

A1:A1001사분위수를 구합니다.


QUARTILE.EXCQUARTILE.INC는 거의 같은 함수입니다. 다만 QUALTILE.INC04를 넣을 수 있습니다. 0을 넣으면 최솟값, 4를 넣으면 최댓값을 구합니다.

 

 

*"상자 수염 그림은 완벽한가요?"


당연히 아닙니다. 상자 수염 그림이라고 모든 데이터 분포를 요약해주진 않습니다.

예를 들어 하나는 평범한 분포고 다른 하나는 양쪽으로 흩어진 분포여도 상자 수염 그림은 같게 나옵니다.

반응형
  Comments,     Trackbacks