설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀로 통계하기 1 - 도수분포표, 히스토그램
반응형






한 명의 죽음은 비극이지만, 백만 명의 죽음은 통계다.’

스탈린이 남긴 말이라고 합니다.

 




숫자가 커질수록 우리는

현실을 수치로 정리합니다.

 



비겁하다고 생각할 수도 있지만,

이렇게라도 이해해야 하지 않겠습니까.

 



수많은 자료를 정리하는 방법 하나는

범위를 정하고 범위에 속하는 자료 수를 구하는 것입니다.

 



, 흔히 이걸 도수분포표Frequency Table라고 부르죠.

도수분포표의 범위는 계급Class라고 하고요.

 




엑셀에서 도수분포표, 히스토그램 만들기

 


도수분포표를 쓰려면 계급을 정하고,

그 계급에 속하는 데이터 수를 알아야 합니다.

 


FREQUENCY 함수를 이용할 수 있지만

저는 [데이터] - [데이터 분석]을 추천합니다.

 



[데이터 분석]이 없다고요?

[파일] - [옵션] - [추가 기능]에 들어갑니다.



 

아래 [이동]을 누르고 [분석 도구]를 선택한 다음

확인을 누릅니다.

 



[데이터 분석]을 누르고 여러 메뉴 중

[히스토그램]을 고릅니다.

기능 이름이 [히스토그램]이지

도수분포표도 만들 수 있습니다.

 



그럼 도수분포표부터 만들어 봅시다.

[입력 범위]에는 데이터 범위를 넣습니다.

 



[계급 구간]을 비우면 엑셀이 자동으로 계산합니다.

[계급 구간]에 자기가 만든 목록을 넣을 수 있습니다.

 

[계급 구간]미만이 아니라 이하로 계산합니다.

10, 20, 30이 있으면

‘10 이하’, ‘10 초과 20 이하’, ‘30 초과입니다.




 

맨 밑 [차트 출력]을 누르면

히스토그램을 만듭니다.

 



엑셀 히스토그램 차트도 있으니

더 멋지고 쉬운 것으로 고르시기 바랍니다.

 




(보너스)

히스토그램 계급 너비 고르기



여기 자료가 있습니다.

히스토그램을 그려 볼까요?



 


이런, 계급 너비가 너무 좁아서 들쑥날쑥하네요.

 



이건 계급 너비가 너무 넓어 값을 분류한 의미가 없습니다.

 



그럼 히스토그램 계급 너비는 어떻게 정할까요?

 



학자들은 자신만의 계급 개수 공식을 만들어왔습니다.

(계급 개수를 알면 계급 너비도 정해지므로 둘은 결국 같습니다.)

 


스털지스 공식Sturges' formula에 따르면

계급 개수는

 입니다. (n30 미만일 때는 부적합)

 

라이스 공식Rice rule에 따르면

계급 개수는

입니다.

 



물론 계급 개수, 너비에 정답은 없습니다.

데이터 분포를 잘 나타내는 값이라면 뭐든 좋겠지요.

반응형
  Comments,     Trackbacks