설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀 통계 (23)
1화 - 블로그를 시작하다
반응형

안녕하세요. 설찬범입니다.

  사실 설찬범은 본명이 아닙니다. 본명은 따로 있는데, 말하지는 않겠습니다.


  지금껏 블로그를 쓰면서 여러 컨텐츠를 시도했습니다. 소설도 썼고 엑셀 가이드라든가 추억의 게임을 써서 올렸습니다. 아마 제일 성공적인 건 '엑셀 할머니'가 아니었나 싶습니다. 아무튼 그 모든 글은 어떤 '화자'를 지니고 쓴 글입니다. 엑셀 할머니는 주인공과 증조할머니의 입을 빌려 엑셀을 설명했습니다. 주어가 '나'인 글도 예외는 아닙니다. 전 그런 글을 쓰면서 일종의 '선생'이나 '이야기꾼'이 된다고 생각하고 썼습니다. 평소에 말이 없다가도 단상에 서면 다른 목소리와 말투로 연설하는 사람처럼요. 에세이들도 내용은 제 본심이지만, 스타일은 제가 되고싶은 누군가였습니다.


  티스토리 블로그에는 검색 유입 서비스가 있어서, 사람들이 무슨 검색어로 들어왔는지 알 수 있습니다. 제 블로그는 엑셀 관련 검색어로 유입되는 사람이 많습니다.  엑셀 첨도나 엑셀 공분산 등. 꼴에 인지도가 생겨서 그런지 제 블로그 이름을 검색창에 쳐서 들어오는 사람도 있더군요. 블로그를 꾸리는 사람으로서 블로그 이름이 알려진 것 같아 기쁩니다. 하지만 동시에 이런 생각도 들었습니다. '지금까지 내 목소리로 얘기한 게 얼마나 될까?' 블로그야말로 자기 목소리를 전달하기 좋은 곳인데, 저는 주인공과 증조할머니가 무슨 대사를 칠지만 고민한 것 아니었을까 하고 말입니다.


  그래서 '설찬범의 생각'이라는 코너를 만들었습니다. 이 코너는, 그냥 일기장과 같다고 보면 됩니다. 평소 제 생각을 줄줄 쓸 계획입니다. 거짓말은 하지 않겠습니다. 제 프라이버시를 위해 일부러 말하지 않을 수는 있어도, 틀린 말은 남기지 않겠습니다. 이 코너에서 거짓인 건 제 필명인 설찬범 세 글자뿐일 겁니다.



블로그를 시작한 계기


  블로그는 돈 때문에 시작했습니다. 서점을 걷는데, 구글 애드센스로 돈 버는 법을 알려주는 책이 있었습니다. 그 자리에서 훑어봤습니다. 글만 써서 돈을 번다니. 꿈 같은 일이 아닙니까.


  그때 전 학교 도서관에서 아르바이트 중이었습니다. 많은 학생들이 모르는 사실이 하나 있는데, 도서관에 없는 책을 신청하면 도서관에서 비치해 줍니다. 물론 만화책이나 문제집 같은 책은 신청이 거절됩니다. 저는 호기심으로 애드센스 책을 신청했고, 한 달 후에 책을 받았습니다. 책을 읽어본 결과, 용돈벌이로 해볼 만하다는 결론을 내렸습니다.


  아니, 거짓말입니다. 전 용돈벌이 그 이상을 꿈꿨습니다. 블로그로 생계를 잇는 사람이 되면 좋겠다고 생각했습니다. 그럼 취직하느라 개고생을 하지 않고, 취직 후 개고생을 하지 않아도 되니까요. 저한테는 취직이란 너무 괴로운 것입니다. 회사에 들어가려고 그렇게나 많은 고생을 하면서, 회사에서 또 다른 고생을 한다는 것은 끔찍합니다. 네, 알아요. 월급을 주지요. 그러나 너무 비효율적이라는 느낌을 지울 수가 없습니다. 토익을 공부하고 봉사활동에 나가고 인적성시험과 면접에 대비하고, 나아가 회사에서 맞닥뜨릴 수많은 제약과 활동을 다른 곳에 쏟아부을 순 없을까?취업이 그 모든 쏟아부을 대상 중에서 제일 가성비가 높을까? 전 의심스러웠습니다.


  압니다. 블로그질이 돈이 되면 얼마나 되겠습니까? 하지만 사람이란 쉽게 현혹되고 또 쉽게 자기합리화를 합니다. 블로그로 돈을 많이 버는 사람은 존재합니다. 존재하는 이상 제가 되지 말란 법은 없잖습니까? 그래서 시도했습니다.


  책에서 말하길, 애드센스 허가를 받으려면 글이 많아야 한다 했습니다. 저는 글을 잔뜩 썼습니다. 하루에 세 글을 쓴 적도 있습니다. 정보보다는 제 경험담이나 번역물을 올린 것으로 기억합니다. 취사병 시절 일화를 올리기도 했는데, 너무 낯부끄러워서 지금은 삭제했습니다. 그렇게 몇 달을 쓰고서야 애드센스가 저를 받아줬습니다. 바로 광고를 올렸죠. 첫 두 달은 거의 클릭이 없다시피 했습니다. 하루에 0.01달러만 들어왔습니다. 그러다 운이 좋아서 하루에 5~6달러를 벌었습니다.


  애드센스 책은 블로그는 한 번 쓰면 글이 쌓이기 때문에 수익은 점차 증가한다고 했습니다(그때쯤 아예 그 책을 사서 집에 두었습니다). 그런데 이건 거짓말입니다. 먼저 블로그에 글을 쓰는 사람은 당신 말고도 많습니다. 처음 글을 쓰면 검색 결과 상단에 오를 겁니다. 시간이 갈수록 당신 글은 결과에서 밑으로 내려갑니다. 포털이 보기에 다른 글이 더 중요하고 좋다고 판단한 거겠죠. 심지어 당신 이후로 글을 쓰는 사람이 없어도, 글은 저절도 내려갑니다. 기준은 사람마다 말이 많으니 한번 검색해서 구경하는 것도 나쁘지 않습니다.


  그러니 수익이 다시 곤두박질할 때 기분을 이해하시겠죠. 수익은 점점 불어나기는커녕 오히려 쪼그라들었습니다.


  포기하진 않았습니다. 그즈음에 '폰더씨의 위대한 하루'라는 책을 읽었습니다. 많은 사람이 자기개발서를 거르라고 하는데, 이 책만은 거르지 말라고 하고 싶습니다. 아무튼 거기엔 일곱 가지 결단이 나오는데 그중 두 가지가 '행동'과 '물러서지 않기'였습니다. 전 책에 감명을 받았고 어느 정도는 실천했습니다. 글을 쓰기 싫을 때마다 저를 몰아세웠고 아무 글이나 쓰도록 자신을 채찍질했습니다. 블로그 글은 300을 넘었고, 최소한 수익이 0.01 나는 날은 없습니다.


  초반엔 검색량이 많은 주제를 골랐는데 위에서 말한 이유 때문에 관뒀습니다. 라이벌이 너무 많고 강력합니다. 생각해 보세요. 당신이 어떤 주제를 고르든, 그 주제에 빠삭한 사람들이 잔뜩 글을 써서 당신을 기다립니다. 여러분이 수학 게시물을 쓴다면 수학과 학부생이나 학위 소유자의 글과 싸워야 합니다. 이들을 이길 자신이 있습니까?


  이런 의심 속에서 저는 '엑셀 할머니'를 만들었습니다. 엑셀 블로그와 게시물은 수천 가지나 됩니다. 네이버는 사진이 많을수록 검색순위를 올려주는 것으로 알고 있습니다(제 착각일 수도 있습니다). 그래서 어떻게 하면 내용과 관련 있는 사진을 여러 장 올릴까 고민하다가, 캐릭터를 떠올렸습니다. 캐릭터 얼굴을 사진으로 올린다면 게시물에 사진이 많아질 것 아닙니까? 거기에 대화체로 등장인물이 설명하는 형식도 괜찮다고 생각했습니다.


  물론 전문가가 쓴 엑셀 포스팅을 이기진 못했지만, 엑셀 할머니 시리즈는 나름대로 선방했습니다. 그래도 초반 포스팅은 라이벌 게시물이 적은 주제로 잡아서 해야 했죠.


  그다음엔 조합을 이용했습니다. 엑셀을 그대로 쓰면 묻히니, 다른 분야와 조합하려 했습니다. 그래서 '엑셀로 통계하기'를 썼습니다. 엑셀+통계인 것입니다. 도서관에 들어가 통계를 공부하고, 엑셀에 그런 기능이 있는지 조사했습니다. 엑셀로 통계하기도 반응이 나쁘지 않았습니다. 다만 다음 조합을 무엇으로 할지 아직 찾지 못했습니다. 엑셀에 무얼 더해야 개성적이면서 쓸모 있는 게시물이 나올까요?


  어제는 3.86달러가 들어왔고, 오늘 이 시각까지 1.73달러가 모였습니다. 한 달에 약 3~40달러가 들어오고 세 달에 한 번 입금이 됩니다. 월급 4만원 인생인 거죠. 뭐, 블로그질에 뭘 바라겠습니까? 그래도 저는 언젠가는 돈이 되리라 생각중입니다. 그리고 글을 쓰는 즐거움도 없진 않습니다. 닥터후 게시물은 들어오는 사람이 전무하지만 닥터후를 좋아하다 보니 계속 씁니다. 예전에 우왁굳, 풍월량에 대해 썼는데 그쪽 팬카페에서 링크를 세워서 사람이 많이 들어왔죠. 무엇이든 쓰고 있으니, 언젠가 하나가 심지를 건드려 불이 붙었으면 합니다.


  쓰다 보니 지칩니다. 내일 계속 써야겠습니다.

반응형

'설찬범의 생각' 카테고리의 다른 글

5화 - 당신도 쓸 수 있다  (0) 2018.09.28
4화 - 현실과 가상  (0) 2018.09.22
3화 - 마인드셋과 러시아어  (0) 2018.09.20
2화  (0) 2018.09.19
  Comments,     Trackbacks
엑셀로 통계하기 24 - 다중회귀분석
반응형



  단순선형회귀분석은 독립변수 하나와 종속변수 하나의 관계를 알아내려는 회귀분석이었습니다. 세상은 알다시피 그보다는 복잡하죠. 여러 원인이 모여서 결과를 만듭니다. 독립변수가 여럿인 회귀분석은 이제 단순하지 않습니다. 독립변수가 둘 이상인 회귀분석은 다중회귀분석(Multiple regression analysis)입니다.



 

  단순선형회귀를 하던 모험을 떠올려 봅시다. 먼저 회귀모형을 만들었습니다. 오차항은 기댓값이 0인 정규분포였죠. 여기에 기댓값을 씌워 E(y)를 구하는 회귀식을 만듭니다. 이 회귀식은 모집단을 알아야 만들 수 있어서, 표본밖에 없는 우리는 하릴없이 추정회귀식으로 회귀식을 추정했습니다.


  다중회귀분석도 과정은 같습니다. 오차항이 있는 다중회귀모형(Multiple regression model). y의 기댓값을 구하는 다중회귀식(Multiple regression equation). 표본으로 추정한 추정 다중회귀식(Estimated multiple regression equation).

 

 

 

이번에도 최소제곱법


  

  그럼 추정 다중회귀식에서 b는 어떻게 구할까요? 여러 방법이 있지만 최소제곱법(최소자승법)이 일반적입니다. 단순선형회귀는 최소제곱법으로 구하는 y절편과 x기울기 공식이 있어서 구하기 쉽습니다. 다중회귀분석은 독립변수가 여럿이라 구하기가 어렵습니다. 독립변수가 셋만 되어도 사람 손으로는 불가능할 정도죠. 훗날 다중회귀 최소제곱법을 포스팅할지도 모르겠네요.

 

 

엑셀로 다중회귀식 구하기




[데이터 분석] - [회귀분석]에 들어갑니다.

 


  방법은 단순선형회귀분석과 같습니다. ‘X축 입력 범위에 여러 열 범위를 입력하면 됩니다.

 

 

다중결정계수


  

  단순선형회귀에서 모든 추정값을 y의 평균으로 추정한 영희가 있었습니다. 영희의 오차는 회귀식과 영희의 격차와 회귀식의 오차의 합입니다. 총제곱합은 회귀제곱합과 오차제곱합의 합이죠.(단순선형회귀 1 참고)

 


SST = SSR + SSE


 

  SST에서 SSR이 차지하는 비율을 결정계수라고 불렀습니다. 결정계수의 최댓값은 1이고 결정계수가 높을수록 추정회귀식이 적합하다고 간주합니다.

 

  다중회귀분석도 결정계수는 똑같습니다. 다만 다중결정계수(Multiple coefficient of determination)라고 불릴 뿐입니다.

 


 

조정 다중결정계수




  그런데 결정계수가 늘 적합성을 잘 반영하지는 않습니다. 예를 들어 기말고사 점수가 종속변수고 공부 시간이 독립변수인 자료가 있습니다. 여기에 두 번째 독립변수로 아무 숫자나 무작위로 넣습니다. 엑셀 난수 생성 함수 RAND를 이용합니다.


 

  분명 기말고사 점수와 아무 상관이 없는 무작위 숫자를 넣었는데도 다중결정계수가 상승합니다. 독립변수가 늘어나면 통계적으로 유의하지 않아도 결정계수가 올라갈 수 있습니다. 이걸 고려한 결정계수가 바로 조정 다중결정계수(Adjusted multiple coefficient of determination)입니다.


p : 독립변수의 수


 

 

엑셀에서 다중결정계수 구하기




 

[데이터 분석] - [회귀분석]을 실시하면 결정계수와 조정된 결정계수가 나옵니다.

 

 

 

유의성 검정




  다중회귀분석도 유의성을 검정합니다. 검정법에는 F검정과 t검정이 있다고 배웠습니다. 단순선형회귀는 F검정과 t검정 결과가 똑같습니다. 다중회귀분석은 두 검정 결과가 다릅니다. 애초에 목적과 대상이 다릅니다.

 

  F검정은 독립변수 집합과 종속변수가 유의한 관계인지 검정합니다(전반적 유의성 검정). t검정은 각 독립변수가 종속변수와 유의한지 검정합니다(개별적 유의성 검정). F검정은 자료 당 한 번이고 t검정은 독립변수 수만큼 결과가 나옵니다.

 

 

F검정



 

  1) 귀무가설과 대립가설을 세우고 유의수준을 정합니다.

 

  2) 평균제곱회귀(MSR)을 구합니다. SSR을 독립변수 수로 나눈 값입니다.

 

  3) 평균제곱오차(MSE)를 구합니다. SSEn-p-1로 나눈 값입니다.

 

  4) MSR/MSE=F비를 구합니다.

 

  5) 자유도가 p, n-p-1F분포에서 F비 오른쪽 날개의 면적을 구합니다. 날개 면적이 p값이고, p값이 유의수준보다 낮으면 귀무가설을 기각합니다.

 

 

t검정



 

  1) 한 독립변수에 대한 귀무가설과 대립가설을 세우고 유의수준을 정합니다.

 

  2) 그 독립변수의 표준오차를 구합니다. MSE의 제곱근입니다.

 

  3) 검정통계량 t값을 구합니다. 계수를 표준오차로 나눈 값입니다.

 

  4) 자유도가 n-p-1t분포에서 t값보다 절댓값이 큰 양날개의 면적이 p값입니다. p값이 유의수준보다 낮으면 귀무가설을 기각합니다.



단순선형회귀(2) 참고

 

 

엑셀에서 다중회귀분석 F검정,t검정 하기




 

  [데이터 분석] - [회귀분석]에서 유의수준을 입력하고 시행하면 결과에서 F검정 p값과 독립변수별 t검정 p값을 볼 수 있습니다.


 

다중공선성



  회귀분석은 독립변수와 회귀변수 사이 관계를 알아냅니다. 그런데 독립변수 사이에도 관계가 있을 수 있습니다. 예를 들어 종속변수가 택배 배송 비용, 독립변수가 배송 거리와 연료비인 회귀분석이 있다고 합시다. 배송 거리가 멀수록 연료비는 자연히 상승합니다. 배송 거리와 연료비는 강한 상관관계가 있습니다.

 

  상관관계가 강하다면 굳이 독립변수를 추가할 필요가 없습니다. 배송 거리를 알면 연료비도 알 텐데 연료비를 독립변수로 추가해 봐야 얼마나 더 정확해질까요.

 

  게다가 상관성이 강한 독립변수가 추가되면 한 독립변수가 종속변수에 미치는 영향을 따로 떼어 구분하기 어렵습니다. t검정을 해서 한 독립변수의 계수가 0이라는 귀무가설을 기각하지 못하게 되었다고 생각해 봅시다. 물론 이 독립변수가 종속변수와 무관해서 귀무가설이 기각되지 않았을 수 있습니다. 그러나 이 독립변수와 상관성이 강한 다른 독립변수 때문일 수도 있습니다.

 

  이렇게 독립변수 사이 상관관계에 따른 문제를 다중공선성(Multicollinearity)라고 부릅니다.



 

  그럼 다중공선성은 어떻게 알아낼까요. 두 변수 사이 상관성을 구하는 법으로 상관계수가 있습니다. 공분산을 각자의 표준편차로 나눈 값입니다. 이 상관계수 절댓값이 0.7을 넘으면 다중공선성이 잠재적 문제라고 판단하는 기준이 있습니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 23 - 잔차분석
반응형




단순선형회귀 (1)

단순선형회귀 (2)


  회귀추정식을 아무리 잘 만들어도, 자료가 완벽한 직선분포가 아닌 이상 오차는 생기기 마련입니다. 관측값과 추정값의 차이를 잔차(Residual)라고 하죠. 잔차는 어찌 보면 회귀모형 속 오차항 역할을 한다고 볼 수 있습니다.

 

  자료 속 독립변수마다 잔차가 있습니다. 이걸 그래프로 그린 걸 잔차플롯(Residual plot)이라고 합니다. 지난 시간 학생의 공부 시간과 시험 점수를 회귀분석한 자료에서 잔차를 구했습니다. 잔차 플롯을 그리는 법은 다음과 같습니다.

 


엑셀에서 잔차플롯 그리기



 

1) 잔차 직접 계산해 차트로 만들기



먼저 회귀식을 구한 다음 x를 대입해 추정값을 구합니다.

 


관측값에 추정값을 빼서 잔차를 구합니다.




[삽입] - [차트] - [분산형]으로 분산형 차트를 만듭니다.




차트를 오른쪽 마우스로 클릭하고 [데이터 선택]을 누릅니다.





범례 항목에서 추가를 누르고 계열 x값을 독립변수, 계열 y값을 잔차 범위로 선택하고 확인을 누릅니다.




 

2) 엑셀 [데이터 분석]에서 회귀분석하면서 만들기

 


[데이터 분석] - [회귀분석]에서 잔차’, ‘잔차도에 체크하면

회귀분석을 하면서 자동으로 잔차를 계산하고 잔차플롯을 그립니다.




 

  회귀분석에 들어가면서 오차항은 기댓값이 0인 정규분포를 따르고 오차항의 분산을 x에 상관없이 같다고 가정했습니다. 따라서 잔차 절댓값이 지나치게 크거나, x값에 따라 잔차 분포가 변한다면 회귀모형의 가정을 위배하게 됩니다. 잔차 정규성 검정법은 훗날 다른 게시물에서 다룰지도 모르겠습니다.

 

 

표준화잔차


  정규분포를 따르는 자료는 더 쉽게 이해하기 위해 표준정규분포 z값으로 변환하기도 합니다. 평균을 빼서 표준편차로 나누는 것이죠. 마찬가지로 잔차도 표준편차로 나누어 표준화합니다. 이것을 표준화 잔차(Standardized residual, 표준잔차)이라고 합니다. 표준화 잔차는 잔차를 무단위로 바꾸기도 하고, 잔차 분포를 더 이해하기 쉽게 만들어줍니다.

 

  오차항이 정규분포라면 표준화 잔차는 표준정규분포를 나타냅니다. 표준정규분포에서는 z2에서 2 사이일 때 자료의 약 95%가 들어갑니다. 여러분의 자료에서 표준화 잔차의 절댓값이 2를 넘는다면 그 잔차에 해당하는 관찰값은 꽤 튀어나온 값일 겁니다.

 


엑셀에서 표준화잔차 구하기




  [데이터 분석] - [회귀분석]에서 표준 잔차에 체크하면 자동으로 x값에 따른 표준화 잔차가 결과에 나타납니다.

 

 



이상값


 

  확 튀는 값은 이상값(Outlier, 특이치, 이상치)이라고 합니다. ‘아웃라이어라는 영어 단어가 더 익숙할지도 모르겠습니다. 한때 아웃라이어라는 책이 인기였죠. 대학 신입생 시절 교수가 추천해서 읽었습니다. 대체로 표준화 잔차의 절댓값이 2를 초과하는 관측값은 이상값으로 취급합니다.

 

  이상값은 왜 생길까요? 값을 잘못 관측했는지도 모릅니다. 실험기기가 잠시 맛이 갔거나 실험자가 56을 헷갈렸을 수도 있죠. 설문조사라면 조사대상이 아무 숫자나 써넣었을 가능성도 있습니다. 아니면 회귀분석 모형이 잘못되었을지도 모르죠. 어쩌면 우연일지도 모릅니다. 표준화 잔차의 95%2에서 2 사이니까 반대로 말하면 5%는 범위 밖이니까요.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 22 - 단순선형회귀(2)
반응형


단순선형회귀 (1)


  회귀분석은 변수 사이의 관계를 알아내는 통계 기법입니다. 독립변수를 통해 종속변수를 예측하는데, 독립변수와 종속변수가 각각 하나고 둘 사이 관계가 선형이라고 가정하는 회귀분석이 단순선형회귀입니다.

 

  지난 시간에는 (현실을 모델로 만든 회귀모형의 기댓값인 회귀식의 표본추정식인) 추정회귀식을 구해 봤습니다. 최고제곱법으로 식을 찾았습니다. 과연 이 식이 적합한지 영희를 예로 들어 설명했습니다. 이제 두 번째 질문, 과연 xy가 통계적으로 유의미한 관계인지 답해 보려고 합니다.

 

유의성 검정



단순선형회귀 모형




단순선형회귀 회귀식


  회귀식에 x값을 넣으면 y값이 나옵니다. 그런데 이 값은 y가 아닙니다. 정확히는 y의 기댓값이죠. 단순선형회귀 모형에는 오차항이 있는데, 오차항은 정규분포를 따릅니다. 따라서 y도 분포를 가지는 값입니다. 우리가 추세선으로 구하는 값은 y의 기댓값이었죠.


 

단순선형회귀모형에서 오차항에 대한 가정은 다음과 같습니다.


1) 오차항은 확률변수다.

2) 오차항은 모든 x마다 분산이 같다.

3) 오차항은 독립이다(어떤 x에 대한 오차항이 다른 x에 대한 오차항과 무관).

4) 오차항은 정규분포를 따른다.

 

  이 가정들, 특히 4번 가정 때문에 오차항을 포함하는 y도 확률변수처럼 행동합니다. 단순선형회귀분석에서 선을 긋고 x를 식에 넣어 구한 yy값이 아니라 y의 기댓값, 평균임을 다시 강조합니다. xy에 관계가 있는지 검사하는 과정에 이게 필요한가 싶지만, 곧 필요해집니다.

 

  이제 유의성 검정을 해 보죠. 유의성 검정은 두 변수가 과연 유의미한 관계인지 검사하는 과정입니다.



 

  회귀식에서 x의 기울기가 0이면, x가 있는 항은 통째로 0이 됩니다. x값이 y에 아무런 영향을 주지 못합니다. 그런데 관계가 있다고 말할 수 있을까요? 따라서 우리는 저 β1이 0인지 아닌지 판단해야 합니다. 유의성을 검정하는 방법은 크게 두 가지, t검정과 F검정이 있습니다.

 


잠깐. 두 가지 검정을 시작하기 전에 알아야 할 식


평균제곱오차(MSE) - SSE를 자유도로 나눈 값. 오차항 분산의 불편추정량



평균제곱오차의 제곱근은 추정값의 표준오차라고 부름.



 

t검정



1. 귀무가설과 대립가설을 세우고 유의수준을 정한다.




2. 회귀식 기울기(β1)의 표준편차를 구한다. β는 모집단 모수이므로 추정회귀식으로 추정해 구한다.




3. 검정통계량 t를 구한다.




4. 자유도 n-2인 스튜던트 t분포에서 절댓값이 검정통계량 이상인 양측 날개 면적을 p값으로 한다.




5. p값이 유의수준 이하면 귀무가설을 기각한다.


 

F검정



1. 귀무가설과 대립가설을 세우고 유의수준을 정한다.



2. 평균제곱회귀(MSR)를 구한다. SSR을 회귀자유도로 나눈 값으로, 회귀자유도는 일단 독립변수의 수라고 생각한다. 단순선형회귀에서 독립변수는 하나이므로 회귀자유도는 1이다.




3. F비를 구한다. MSR/MSE.




4. 자유도가 1, n-2F분포에서 F비 오른쪽의 날개 넓이를 p값으로 한다.




5. p값이 유의수준 이하면 귀무가설을 기각한다.

 

 

참고 : 독립변수가 하나라면 t검정과 F검정의 결과는 같습니다.

 

주의 : 통계적 유의성은 인과와 다릅니다.

 





신뢰구간과 예측구간



  추정회귀식도 세웠고, 식이 (영희보다) 적합한지도 검정했고, 두 변수가 통계적으로 유의미한 관계에 있는지도 파악했습니다. 이제 하루 공부 시간에 따른 기말고사 점수를 예측할 수 있을 겁니다.



 

  추정회귀식에 따르면 x=2.5일 때 y는 약 60.7입니다. 그럼 하루에 2.5시간 공부하는 학생은 기말고사 점수가 60.7이라고 말할 수 있을까요? 바로 결정하기 전에 짚고 넘어갑시다. ‘하루에 2.5시간 공부하는 학생은 누굽니까?

 


'하루에 2.5시간 공부하는 학생'의 뜻


1 : 하루에 2.5시간 공부하는 학생 전부. 따라서 하루에 2.5시간 공부하는 학생의 기말고사 점수는 이들 점수의 평균이다.


2 : 하루에 2.5시간 공부하는 특정 누군가. 예를 들어 2.5시간 공부하던 17살 김민수 학생의 기말고사 점수를 추정한다는 뜻이다.

 

1y값의 평균을 예측합니다. 2y 개별값을 예측합니다. 아시다시피 y는 값이 아니라 확률분포입니다. 따라서 뜻 1이든 2든 정해진 값이 아니라 범위, 구간을 구해야 합니다.

 

1은 표본회귀로 y값의 평균, 즉 모집단 회귀(E(y))를 추정합니다.

2는 표본회귀로 모집단 회귀를 넘어 실제 값을 추정합니다.





  상식적으로 뜻 2가 더 맞추기 어렵겠죠. 따라서 신뢰수준이 같다면 뜻 2로 구한 구간이 뜻 1로 구한 구간보다 넓을 수밖에 없습니다.

 

1로 구한 구간은 신뢰구간(Confidence interval),

2로 구한 구간은 예측구간(Prediction interval)이라고 합니다.

 

 

신뢰구간



  신뢰구간 공식은 다음과 같습니다.



 

신뢰구간 식에서 무얼 알 수 있을까요?


- xx평균과 같을 때 신뢰구간이 제일 좁습니다.

- 자료 크기 n이 클수록 신뢰구간이 좁습니다.

 

 

예측구간




  예측구간 공식은 다음과 같습니다.



 

예측구간 식에서 무얼 알 수 있을까요?


- 자료크기와 신뢰수준이 같다면 예측구간은 신뢰구간보다 넓습니다.(y 평균이 아니라 y 개별값을 구하기는 더 어려우니 같은 정확도가 필요할 때 범위는 더 넓겠죠.)

- 예측구간 역시 신뢰구간처럼 x가 평균일 때 제일 좁습니다.

 




 

엑셀에서 단순선형회귀 하기



  엑셀 회귀분석을 이용하면 추정회귀식, 결정계수, 추정값의 표준오차, t검정과 F검정 결과까지 전부 한 번에 볼 수 있습니다.



 

[데이터 분석] - [회귀분석]에 들어갑니다.



  x,y축 입력 범위, 신뢰수준을 입력합니다.

  '이름표'에 체크하면 맨 위 셀은 제목으로 취급합니다.

  '이름표'에 체크했으면 입력범위는 제목도 포함시켜야 합니다.




  '확인'을 누르면 회귀분석 결과가 나타납니다. 추정회귀식에 쓸 계수와 y절편, 결정계수, 표준 오차, t검정과 F검정 결과가 나타납니다. 보시다시피 t검정 p값과 F검정 p값이 똑같습니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 20 - 모비율 비교와 독립성 검정
반응형



  통계 자료는 숫자만 있지 않습니다. 가끔은 단순히 예/아니오, 남자/여자처럼 수 대신 비율로 나타내는 자료도 있죠.

 

  이번 시간에는 모집단 비율을 비교합니다. 먼저 두 모집단 비율 차이를 구간추정/가설검정 합니다. 가설검정 이후 분산분석으로 여러 모집단 평균이 같은지 검정했듯 여러 모집단 비율의 동일성도 검정합니다. 모집단의 두 변수가 독립인지도 검정해 볼 텐데, 여러모로 모집단 비율 동일성과 비슷하니 생뚱맞지는 않을 겁니다.

 

 

모집단 비율 차이 구간추정




  두 회사 직원에게 박사학위가 있는지 물어보았습니다. 각 회사에서 100명을 뽑아 질문했습니다. 회사A100명 중 70, 회사B100명 중 60명이 박사학위 소지자로 드러났습니다. 두 회사 박사학위 소지 비율 차이에 대한 90% 신뢰구간은 어디일까요?

 

  모집단 평균 신뢰구간을 구하는 법. 생각나시나요? 표본평균에 오차범위를 빼고 더했죠. 오차범위는 신뢰수준에 맞는 z에 표본분포 표준편차를 곱했습니다.



 

  표본이 충분히 크다면 포본분포는 정규분포에 근사하죠. 그러니 모집단 비율 차이 신뢰구간도 이렇게 합시다. 표본평균 대신 두 표본비율 차이를 넣습니다. z는 표준정규분포에서 중앙 면적이 신뢰수준만큼을 차지하는 값입니다. 엑셀 NORM.S.INV 함수를 이용하면 z를 구할 수 있습니다.



z = NORM.S.INV(1-유의수준/2)

 

*신뢰수준별 z

90% - 1.645

95% - 1.960

99% - 2.576

 

  모집단 비율 차이의 표본분포 내 표준편차를 구하려면 모집단 비율을 알아야 합니다. 그런데 모르니까 구간추정을 하겠죠? 모집단 비율 대신 표본집단 비율을 넣습니다.



 

  박사학위 보유 차이에 대한 90% 신뢰구간을 구해 봅시다. 두 표본집단 비율과 표본 크기, 신뢰수준 90%에 맞는 z를 아니까 쉽게 구할 수 있습니다.


 

 

모집단 비율 차이 가설검정



 

  이번엔 두 회사 직원에게 파인애플 피자를 좋아하는지 물어보았습니다. 역시 회사마다 100명을 뽑아 질문합니다. 회사A100명 중 30, 회사B100명 중 40명이 파인애플 피자를 좋아했습니다. 두 회사가 파인애플 피자를 좋아하는 비율은 같을까요?(유의수준 0.05)

 

 

  두 모집단 평균 차이를 검정하는 법은 지난번에 다뤘습니다. 두 모집단 평균 차이가 같다, 즉 차이가 0이라는 귀무가설을 세우고 차이가 0이 아니라는 대립가설을 세웠습니다.




 

  모집단 비율 차이도 같은 식으로 시작합니다. 두 모집단 비율 차이가 0이라는 귀무가설과 0이 아니라는 대립가설을 세웁니다.

 

  이제 z를 구합니다. 문제는 표준편차인데요. 가설검정이 옳다면 두 표본비율과 모집단 비율은 같을 겁니다.



 

  그런데 모집단 비율을 알 수 없으니 표본비율로 대체해야 합니다. 어느 집단의 표본비율로 대체하라는 거죠? 두 표본집단 비율을 합친 값을 씁니다. 정확히 말하면 두 표본집단 비율의 가중평균입니다. 가중치는 표본 크기고요. 이걸 모집단 비율의 합동추정량(pooled estimation of p)라고 합니다.







 

  이제 나머지는 가설검정과 같습니다. z보다 중심에서 먼 양쪽 날개 면적이 p값입니다. p값이 유의수준보다 작으면 귀무가설을 기각합니다.

 

  엑셀에선 NORM.S.DIST 함수로 표준정규분포 꼬리 면적을 계산합니다.


p=NORM.S.DIST(Z, TRUE)

 

 

  과연 두 회사는 똑같은 비율로 파인애플 피자를 좋아할까요?






  귀무가설을 기각할 수는 없겠네요.

 

 





 

여러 모집단 비율의 동일성 검정 카이제곱 분포 이용



 

  이번엔 세 회사에서 100명을 추출해 이순신과 세종대왕 중 어느 위인을 존경하는지물어봤습니다. 과연 세 회사에서 이순신을 존경하는 비율은 전부 같을까요?(유의수준 0.05)

 

  모집단 평균 동일성을 검정할 때, 분산분석을 이용하기도 했습니다. 비교할 모집단이 셋 이상이면 분산분석은 매우 편리했죠. 이번에는 여러 모집단 비율의 동일성을 검정해보겠습니다. 이번 검정에는 카이제곱 분포가 필요합니다. 그냥 그런 분포가 있다고 알면 됩니다.

 

  분산분석처럼 이번에도 귀무가설/대립가설을 만듭니다. 귀무가설은 모든 모집단 비율이 같다는 것이고 대립가설은 하나 이상의 모집단 비율이 다르다는 겁니다.

 

  좋습니다. 이게 설문 결과입니다. 300명 중 이순신을 존경하는 회사원은 165명입니다. 비율로 계산하면 0.55네요. 귀무가설이 옳다면 세 회사에서 이순신을 좋아하는 비율은 전부 0.55일 겁니다. 그러니까 세 회사에서 100명씩 물어보면 이순신을 존경하는 사람이 55명 나왔을 거란 말이죠.

 

  이 값을 기대도수라고 부릅시다. 실제 설문에서 관찰한 값은 관측도수라고 하고요. 기대도수 공식은 다음과 같습니다. 가로합과 세로합을 생각하면 쉽습니다.






 

  이제 생각해 보세요. 귀무가설이 옳을수록 관측도수는 기대도수와 가깝습니다. 이걸 유념하며 카이제곱 검정통계량을 구합니다.

(모든 기대도수가 5 이상이어야 결과가 좋다고 합니다. 기대도수가 5 미만이라면 옆 범위와 합치라는군요.)



 

  검정통계량이라는 단어에 감이 오셨나요? 카이제곱 분포에서 이 카이제곱 검정통계량보다 큰 영역의 넓이가 바로 p값입니다. 카이제곱 분포는 자유도마다 모양이 다른데, 자유도는 k-1. 회사가 셋이니 자유도는 3-1=2입니다. 이제 p값이 유의수준보다 작으면 귀무가설을 기각하겠죠?



 

 대답이 셋 이상일 때

 

  위인을 다섯 명으로 정하고 설문조사 하면 어떻게 될까요?

 

  대답이 셋 이상이어도 기대도수와 카이제곱 검정통계량 구하는 방법은 같습니다다만 귀무가설은 모든 모집단에서 응답변수의 다항분포가 전부 같다.’가 됩니다대답이 둘이면 그냥 비율이 같다고 하면 되는데 가짓수가 늘어났으니 각 대답 비율이 모집단마다 같다.’고 해야 합니다.

 

  카이제곱분포 자유도는 (r-1)(k-1)입니다위인 다섯에 회사 셋이니 (5-1)(3-1)=8이 됩니다.




 

  엑셀에선 CHISQ.TEST 함수를 사용합니다. 첫 인수에는 관측도수 범위를 둘째 인수에는 기대도수 범위를 넣으면 자동으로 p값을 반환합니다.


=CHISQ.TEST(관측도수 범위, 기대도수 범위)



   세 회사가 똑같은 비율로 이순신을 존경하는지 CHISQ.TEST 함수를 써 보니 p값이 0.364가 나왔습니다. 귀무가설을 기각할 수 없겠네요.

 

 

모집단 비율 독립성 검정 카이제곱 분포 이용



 

  이제 회사원 100명에게 박사학위가 있는지탕수육, 피자, 돈가스 중 어느 음식을 제일 좋아하는지를 물었습니다. 과연 박사학위 유무는 좋아하는 음식과 관계가 있을까요?

 

  이렇게 독립성을 검정할 때도 카이제곱 분포를 이용합니다. 방법은 동일성 검정과 매우 비슷합니다. 똑같이 기대도수를 구하고, 카이제곱 검정통계량을 구합니다. 자유도가 (r-1)(c-1)인 카이제곱 분포에서 검정통계량보다 오른쪽에 있는 영역 넓이가 p값입니다. 귀무가설은 두 변수는 독립적이다.’고 대립가설은 두 변수는 독립적이지 않다.’입니다. p값이 유의수준보다 작으면 귀무가설을 기각합니다.

 

  이 회사원들의 박사학위와 음식 취향이 독립적인지 알아봅시다. 역시 엑셀 CHISQ.TEST 함수를 이용합시다. 기대도수를 구하고 카이제곱 검정통계량을 구했습니다. 카이제곱 분포에 넣어보니 p값이 0.8이네요. 이것도 기각할 수는 없겠네요.

 

반응형
  Comments,     Trackbacks
엑셀로 통계하기 19 - 분산분석 이원배치법
반응형



  지난 시간에는 여러 모집단 평균을 비교하는 분산분석을 수행했습니다. 인자가 하나인 일원배치법이었죠. 첨가제에 따른 제조 시간이 같은지 다른지를 판단했죠. 그런데 첨가제와 온도를 동시에 고려할 수는 없을까요? 예를 들어 첨가제 A80도 온도로 공정을 실행할 때와 첨가제 B90도 온도로 공정을 실행할 때 제조 시간이 같을까요?

 

  이렇게 인자 두 가지를 고려하는 방법은 이원배치법(Two way factorial design)이라고 합니다. 이원배치법은 반복이 없는 이원배치법과 반복이 있는 이원배치법으로 나뉩니다. 반복이 없는 이원배치법은 말 그대로 처리마다 결과가 하나입니다. 반복이 있는 이원배치법은 처리마다 여러 번 시험해서 결과도 여럿입니다. 반복이 없는 이원배치법부터 살펴봅시다.

 


반복이 없는 이원배치법


 지난 분산분석에서 자료값과 총평균의 차이를 분석한 것 생각나나요?


 

자료값과 총평균의 차이

= 처리가 달라서 생기는 차이 + 자료마다 개별로 생기는 차이

 




  공장으로 돌아가 봅시다. 첨가제와 온도를 다르게 하면서 제조시간을 쟀습니다. 첨가제는 세 종류, 온도는 두 종류가 있다고 가정합니다. 첨가제 B, 90도 자료를 보겠습니다. 이 자료와 모평균(자료 총 평균으로 모평균을 추정합니다)의 차이는 세 가지로 나눌 수 있습니다.

 

   자료값과 총평균의 차이

= 첨가제에서 생기는 차이 + 온도에서 생기는 차이 + 자료마다 개별로 생기는 차이

 

  첨가제에서 생기는 차이는 첨가제별 평균 - 총평균입니다. 온도가 달라서 생기는 차이는 온도별 평균 - 총평균입니다. 개별로 생기는 차이는 자료값에 각 인자별 평균을 빼고 총평균을 더한 값입니다. 식으로 쓰면 다음과 같습니다.




  (표본평균-총평균)의 제곱합을 처리제곱합이라 불렀습니다. 그런데 인자가 둘이라 표본평균도 첨가제별 평균, 온도별 평균으로 둘입니다. 따라서 처리제곱합도 두 가지입니다. 처리제곱합의 자유도는 각 인자수-1입니다. 첨가제 처리제곱합의 자유도는 3-1=2, 온도 처리제곱합의 자유도는 2-1=1가 되죠. 오차제곱합은 다행히 하나군요.











 

  처리제곱합을 자유도로 나눈 처리제곱평균은 두 가지, 오차제곱합을 자유도로 나눈 오차제곱평균은 한 가지입니다. 오차제곱합은 자유도가 조금 특이합니다. 각 인자 가짓수에서 1을 뺀 값의 곱이죠. 첨가제는 세 가지 온도는 두 가지니까 오차제곱합의 자유도는 (3-1)(2-1)= 2네요.



 

  처리제곱평균이 둘이니 처리제곱평균을 오차제곱평균으로 나눈 F비도 두 가지입니다. 귀무가설/대립가설 쌍도 두 가지고요.


  여러분은 원하는 인자를 골라서, 각 자유도에 맞는 F분포를 그린 뒤 F비 오른쪽 넓이(p)를 구한 후 유의수준과 비교하면 됩니다. F분포에 들어가는 자유도는 SSTR 자유도와 SSE 자유도로 일원배치법과 같습니다. p값이 유의수준보다 작으면 귀무가설은 기각되고, 그 인자별 모집단 평균은 다르다고 말할 수 있습니다.

 

 

반복이 있는 이원배치법

 

첨가제와 온도가 만나서 시너지를 낼 수도 있잖아요!’


  맞습니다. 첨가제 그 자체, 온도 그 자체가 내는 효과도 있겠지만 특정 첨가제와 온도가 만나서 내는 효과도 있을 수 있습니다. 어느 한 처리가 특별한 값인 건 첨가제나 온도 탓일 수도 있지만, 딱 그 첨가제와 딱 그 온도가 만나서 나오는 효과 탓일 수도 있죠.

 

  반복이 있는 이원배치법은 이렇게 두 인자가 만나서 내는 교호작용(Interaction)’을 확인할 수 있습니다. 반복이 있는 이원배치법은 말 그대로 이원배치법을 처리마다 여러 번 시험하는 것입니다. 첨가제A80도를 세 번 시험하고 첨가제A90도를 세 번 시험하고.



 

  이번 경우에는 처리마다 세 번 시헙했습니다. 이제 자료값과 총평균의 차이는 인자마다 있는 차이뿐 아니라 인자들이 만나서 생기는 차이도 한몫합니다.

 

   자료값과 총평균의 차이

= 첨가제가 달라서 생기는 차이 + 온도가 달라서 생기는 차이

+ 첨가제와 온도가 만드는 차이 + 자료마다 개별로 생기는 차이

 

  총제곱합 = 처리제곱합 세 가지와 오차제곱합



  세 가지 처리제곱평균이 생깁니다. 자연스레 F비도 세 가지고 귀무가설/대립가설도 세 가지가 나오겠죠.




 

 

엑셀 반복이 없는 이원배치법



 

[데이터] - [데이터 분석] - [분산 분석: 반복 없는 이원 배치법]을 선택합니다.

 



데이터 범위과 유의수준을 정합니다.

(‘이름표에 체크하면 인자 이름이 있는 셀도 선택할 수 있습니다.

인자 이름이 결과표에 떠서 결과를 알아보기 쉬우니 체크하는 편이 좋습니다.)

 


 

확인을 누르면 F비와 p값을 볼 수 있습니다.

(변동의 요인에서 인자 A()은 세로(여기서는 온도), 인자 B()은 가로(여기서는 첨가제)입니다.)

 


엑셀 반복이 있는 이원배치법




[데이터] - [데이터 분석] - [분산 분석: 반복 있는 이원 배치법]을 선택합니다.



 

데이터 범위, 표본당 행수, 유의수준을 정합니다.

(엑셀에서 반복 있는 이원배치법을 하려면 처리 별 자료를 세로로 나열해야 합니다. 이 행 수를 표본당 행수로 입력합니다. 가로로 쓴 데이터도 쓸 수 있으면 좋을 텐데요.)



 

확인을 누르면 각 인자와 교호작용에 따른 F비와 p값을 볼 수 있습니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 18 - 등분산을 검정하는 법
반응형



  분산분석은 모집단의 평균이 전부 같은지 알아내는 기술이지만, 조건이 있죠. 모집단이 전부 정규분포고 표본은 모두 독립, 무작위로 추출해야 합니다. 게다가 모집단의 분산이 전부 같아야 분산분석을 수행할 수 있습니다. 그럼 모집단의 분산이 같은지는 어떻게 알까요? 여기 두 가지 방법이 있습니다. Levene’s testBartlett’s test입니다.

 


Levene’s test


  Levene’s test부터 배워봅시다. 모집단 분산이 전부 같다는 귀무가설과, 모집단 분산이 하나라도 다르다는 대립가설을 세웁니다.



 

  가설을 세우셨나요? 좋습니다. 이제 W를 구하셔야 합니다. 식이 좀 복잡합니다.





 

  Z를 눈여겨보기 바랍니다. 이 공식에서 제일 어렵고 중요한 부분입니다. Z값은 이전에 배운 z-(z-score)이 아닙니다.

 

  Z값을 구하는 방법은 세 가지입니다.




첫째, 자료값에서 그 자료가 속한 그룹의 평균을 뺀 절댓값

둘째, 자료값에서 그 자료가 속한 그룹의 중앙값을 뺀 절댓값

셋째, 자료값에서 그 자료가 속한 그룹의 10% 절삭평균(상하위 5%씩을 제외한 값의 평균)을 뺀 절댓값

 

  Z는 모집단 분포에 따라 다른 방법을 고르는 것이 좋습니다. 분포가 대칭이고 적당히 흩뿌려져 있다면 첫째 방법이, 분포가 비대칭이면 둘째 방법이, 자료의 꼬리가 길다면 셋째 방법이 좋다고들 합니다.



 

  지난 시간에 배운 F분포 기억하시죠? 자유도 두 가지를 넣어야 했죠. 이번에도 두 가지 자유도를 넣습니다. 자유도는 k-1, N-k입니다. 유의수준을 0.05로 정한다 치고 오른쪽 넓이가 0.05F분포 위치를 역함수로 계산합니다. 만약 W가 그 값보다 크면 귀무가설을 기각합니다.


 엑셀에서는 F.INV.RT 함수가 유의수준과 자유도에 맞는 오른쪽 꼬리 넓이에 맞는 값을 역계산할 수 있습니다.


사용방법 : = F.INV.RT( 유의수준 , 첫 자유도, 둘째 자유도)

 





 

Bartlett’s test

 

  이 방법은 데이터가 정규분포일 때 적합한 방법입니다. 자료가 정규분포를 따르지 않으면 비효율적이지만, 정규분포를 따르면 Levene’s test보다 더 정확하다고 합니다.

 

  귀무가설과 대립가설을 정합니다. 이번에도 귀무가설은 모든 집단 분산이 전부 같다는 가설이고, 대립가설은 하나라도 다르다는 가설입니다.

 

  이번에는 W 대신 T를 구합니다.



 

  그리고 F분포 대신 카이제곱 분포를 이용합니다. 카이제곱 분포는 자유도 하나가 필요합니다. 자유도는 k-1입니다. 이 카이제곱 분포에서 오른쪽 면적이 유의수준인 값을 구합니다. T가 그 값보다 크면 귀무가설을 기각합니다.


  엑셀에서는 CHISQ.INV.RT 함수가 카이제곱 함수 오른쪽 꼬리 넓이를 역함수로 계산합니다.


사용방법 : = CHISQ.INV.RT(유의수준, 자유도)

 

 


실제로 Levene’s test를 해보았다



 

  국가수자원관리종합정보시스템(WAMIS, www.wamis.go.kr)은 국내 하천, 강수 관련 정보를 제공하는 사이트입니다. 강수량, 수위, 용수 이용량 등이 있으니 관련 학과나 업계에 계신 분이라면 추천합니다.



 

  아무튼, Levene's test로 정말 등분산을 검정할 수 있는지 알아봅시다. 2017년 한강대교 관측소가 측정한 한강 유량 일별 자료를 내려받았습니다. 이 자료에서 여러 표본을 무작위로 뽑은 다음 Levene’s test를 실시합니다. 같은 자료에서 뽑은 표본이니 모집단 분산은 전부 같습니다. 과연 등분산 검정이 가능할까요? 세 가지 선택이 가능한데 그중 그룹 평균과 중앙값으로 해 보겠습니다. 유의수준은 0.05로 정했습니다.

 

  먼저 WAMIS에서 엑셀 파일로 유량 데이터를 내려받습니다. 엑셀 [데이터 분석] - [표본 추출]에 들어가면 무작위 표본을 추출할 수 있습니다. 30개를 뽑아 3그룹으로 나눕니다. 그럼 표본 크기가 10인 표본이 셋 나오는군요.



 

  시험 결과 평균으로 계산 시 W3.75, 중앙값으로 계산 시 0.86입니다. F값은 3.35로, Z를 평균으로 계산하면 귀무가설이 기각되고 중앙값으로 계산하면 귀무가설을 기각할 수 없습니다. 분포가 비대칭적이어서 중앙값으로 계산하는 두 번째 방법이 확실히 효과가 있는 것 아닐까요?


  이 결과는 어쩌면 한 번 뽑은 자료를 다시 뽑지 않아서 틀렸을 수도 있고, 그냥 제 부족한 통계 지식 때문일 수도 있으니 함부로 믿으시면 곤란합니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 16 - 평균비교
반응형




시작하기 전에...




  두 공장이 있습니다. 공장 A와 공장 B는 같은 제품을 생산하지만 공정은 다릅니다. 두 공장 중 어느 공장이 더 빨리 생산하는지 알고 싶습니다. 어떻게 해야 할까요?



시작!

 

  지난 시간에는 귀무가설과 대립가설을 세운 뒤, 그 귀무가설을 기각할 수 있는지 알아냈습니다. 표본평균이 어느 값 이상인지/이하인지/같은지 가설을 세운 다음, 모집단 표준편차를 알 때와 모를 때로 나누고, 귀무가설에 맞는 p을 구해 유의수준과 비교해서, p값이 유의수준보다 작으면 귀무가설을 기각했습니다.

 

  이번 평균비교는 방법 자체는 p값 방법과 거의 같습니다. 모집단 표준편차를 알 때 모를 때를 나눈다거나, p값을 구한다거나 하는 과정은 같습니다. 다만 두 모집단의 평균이 같은지 다른지 알아내는 과정인 만큼 모집단의 표준편차가 둘인 점 등이 다릅니다.

 


평균 비교하기


  우리는 두 모집단의 평균이 같은지 알고 싶습니다. 각 모집단에서 표본을 추출해서 자료를 조사했습니다. 모집단 1의 표본평균, 모집단 2의 표본평균을 구합니다.




 

  지난 시간 귀무가설은 모집단 평균이 ~ 이하다/이상이다/~였습니다. 이번에도 이런 방식을 사용합시다. 두 모집단 평균이 같다면, 두 모집단 평균을 뺀 값은 0입니다. 따라서 귀무가설은 두 모집단 평균의 차이는 0이다이고 대립가설은 두 모집단 평균의 차이는 0이 아니다 입니다.

 

  지난 시간에는 표본평균의 표본분포를 만들었습니다. 표본분포는 기댓값이 귀무가설에 나온 그 값이고 표본분포의 분산은 모집단 분산에서 표본 크기를 나눈 값인 정규분포였습니다. 이번엔 두 표본평균 차이의 표본분포를 만듭니다. 역시 정규분포입니다. 기댓값은 0입니다. 그런데 분산(표준편차)는 어떻게 구할까요? 두 모집단의 분산이 다르고, 심지어 두 표본의 크기도 다를 텐데요.




 

  표본평균 차이의 표본분포 표준편차 공식은 이렇습니다. 이제 표본평균 차이의 표본분포를 알 수 있습니다.



 

  그럼 나머지는 귀무가설 검정과 같습니다. 표본평균 대신에 표본평균 차이로 z값을 구할 뿐이죠. z값이 3이라면, p값은 표본평균 차이 표본분포에서 3이하/3이상인 영역 넓이입니다. 이 넓이가 유의수준보다 작다면 귀무가설을 기각할 수 있고 따라서 두 모집단의 평균이 다르다는 결론을 내릴 수 있습니다.

 

요약) 두 모집단 평균비교(모집단 표준편차를 알 때)

1) 표본평균 차이로 귀무가설/대립가설을 세운다

2) 표본평균 차이의 분포(정규분포)를 만든다

3) 표본평균 차이에서 z값과 p값을 구한다.

4) p값과 유의수준을 비교한다.

 


모집단 표준편차를 모를 때

 

  그럼 두 모집단의 표준편차를 모를 때는 어떻게 할까요? 가설 검정에서는 표본의 표준편차를 모집단 표준편차로 추정하고, 정규분포 대신 스튜던트 t분포를 사용했습니다. t분포의 자유도는 표본 크기-1이었죠.

 

  평균비교도 두 모집단 표준편차 대신 표본 표준편차를 사용합니다. 자유도는 어떡하냐고요? 자유도 공식은 다음과 같습니다.




 

나머지 방법은 같습니다.

 

요약) 두 모집단 평균비교(모집단 표준편차를 모를 때)

1) 표본평균 차이로 귀무가설/대립가설을 세운다

2) 표본평균 차이와 표준편차로 분포(정규분포)를 만든다

3) z값을 구하고 스튜던트 t분포에 맞는 p값을 구한다

4) p값과 유의수준을 비교한다

 





엑셀에서 평균 비교하기(모집단 표준편차를 알 때)



1) 엑셀 [데이터] - [데이터 분석]에 들어갑니다.

(없다면 [파일] - [옵션] - [추가 기능]에서 추가합니다)




2) 'z-검정 : 평균에 대한 두집단'을 선택합니다.





3) 변수 범위, 가설 평균차(여기서는 0), 두 모집단의 분산('분산-기지값', 기지旣知는 이미 안다는 뜻), 유의수준을 입력하고 '확인'을 누릅니다.



엑셀에서 평균 비교하기(모집단 표준편차를 모를 때)

 


1) 엑셀 [데이터] - [데이터 분석]에 들어갑니다.

(없다면 [파일] - [옵션] - [추가 기능]에서 추가합니다)


 


2) ‘t-검정: 이분산 가정 두집단을 선택합니다.




3) 변수 범위, 가설 평균치(0), 유의수준을 선택하고 확인을 누릅니다.

 

반응형
  Comments,     Trackbacks
엑셀로 통계하기 외전 - 어느 모바일 게임
반응형






  철수는 지난주에 나온 모바일 게임 차일드 오브 데스티니의 광팬입니다. 여타 모바일 게임처럼 차일드 오브 데스티니도 가챠 시스템으로 아이템을 얻습니다. 가챠가챠(일본어로 철컥철컥)에서 유래한 가챠는, 쉽게 말해 뽑기입니다. 아이템을 얻으려면 일정 금액을 내고 아이템을 추첨합니다. 귀한 아이템일수록 추첨하는 데 돈도 많이 들어가고, 확률도 적습니다.

 

  오늘 철수는 풀이 죽었습니다. 정말 가지고 싶은 아이템이 있었는데, 용돈을 전부 쏟아부어도 나오지 않았기 때문입니다. 게임 개발사는 아이템이 나올 확률이 1.44%라고 말했고 철수는 100번을 시도했지만 당첨하지 못했습니다. 확률 1.44%100번 시도하면, 기댓값이 1.44인데 말이죠.

 

운이 없던 거야.’

 

  철수도 기본교육을 받아서 기댓값을 무턱대고 믿진 않습니다. 기댓값이 1을 넘더라도 재수가 없으면 안 나오니까요. 철수는 다른 사람은 어떤지 보려고 인터넷에 들어갔습니다.

 

  그런데 웬걸. 생각보다 아이템을 얻은 사람이 너무 적었습니다. 여기저기서 의견을 종합해 보니, 총 시도는 5000. 그중 아이템은 42번 나왔습니다. 5000번 중 42번은 0.84%. 아무리 게이머들이 재수가 없다지만 1.44% 확률에서 0.84%가 나올 수 있을까요?

 

 

모비율 가설 검정

 

  데이터는 강수량, 월급처럼 숫자로 나오기도 하지만 /아니오처럼 둘 중 하나로 갈리기도 합니다. 예를 들어 대학생들에게 성별을 물을 수 있겠죠.


 

  대학생들이 너무 많아서 전부 묻지 못한다면, 일부만 뽑아서 물을 수밖에 없습니다. 대학생 100명을 뽑아서 표본을 만들어 성별을 묻습니다. 남학생이 56, 여학생이 44명으로 나왔습니다. 그러나 대학생 전부가 56 44일까요?

 

  지난 시간에 우리는 표본평균의 표본분포로 가설을 검정했습니다. 귀무가설과 대립가설을 세워 모평균이 어떤 값 이상이다/아니다’, ‘이하다/아니다라 가정하고 표본평균과 표준편차(모집단이든 표본이든)p값을 구했습니다. p값이 유의수준보다 작으면 그 귀무가설을 기각했고 크면 귀무가설을 기각할 수 없었습니다(2종 오류 때문).

 

  이제 모비율 p를 검정해서 철수의 호기심을 만족해 줍시다.





 

  일단 차일드 오브 데스티니에서 아이템을 뽑는, 이른바 가챠시행은 베르누이 시행이라고 가정합니다. 가챠의 결과는 성공과 실패 단 두 가지고, 성공률은 불변이며, 모든 가챠 시행은 독립이라고 합시다.

 

  게임 개발사가 공지한 아이템 확률은 1.44%(0.0144)입니다. 철수는 표본 5000가지를 모았고 그중 42번이 성공했습니다. 표본비율은 0.0084가 됩니다. 철수는 모비율에 대한 귀무가설과 대립가설을 세웠습니다.

 

귀무가설 : 모비율은 1.44% 이상이다.

대립가설 : 모비율은 1.44% 미만이다.

 

  철수는 유의수준을 0.01로 잡았습니다. 표본비율이 1.44% 미만이므로, p값만 유의수준보다 낮다면 귀무가설을 기각할 수 있게 됩니다.

 

  모평균을 검정할 때는 정규분포(모표준편차를 알 때)t분포(모표준편차를 모를 때)를 썼습니다. 모집단이 정규분포를 따르면 표본평균의 표본분포는 정규분포를 따릅니다. 모집단이 정규분포를 따르지 않더라도, 중심극한정리에 따라 표본평균의 표본분포는 표본 크기가 크다면 정규분포를 따릅니다.


  이항분포는 어떨까요? 이항분포에서 표본이 어느 정도 크다면 표본비율의 표본분포는 정규분포에 근사합니다. ‘어느 정도는 사람마다 다르지만, 이번 게시물에서는 이 기준을 사용합니다.

 

np5이고 n(1-p)5일 때.

(n : 표본 크기, p : 성공률)

 

  표본 크기는 5000, (개발사가 주장하는) 성공률은 0.0144이므로 두 식을 전부 만족합니다. 따라서 표본비율의 표본분포는 정규분포에 근사합니다. 이 분포의 중심은 0.0144, 표준편차는 공식에 따라 0.001685입니다.

 

  일단 우리는 모집단 표준편차를 모릅니다. 따라서 t분포를 사용할 겁니다. 여기에 들어갈 변환값은 (0.0084-0.0144)/0.001685 = 3.56입니다. 이제 자유도가 n-1=4999t분포에서 3.56보다 작을 확률, p값을 구하면 끝입니다.



 

  엑셀 계산 결과 p값은 약 0.000186. p값이 유의수준 0.01보다 작으므로 모비율이 0.0144 이상이라는 귀무가설을 기각하겠습니다.

 

 


뒷이야기


  이 검정은 어느 정도 실화 기반입니다. 이름을 말할 수 없는 모 게임이 확률을 조작했다는 논란에 휩싸였죠. 개발사가 공지한 확률은 1.44%였지만 5000번이 넘는 시행에서 고작 42번 아이템이 나온 것입니다.

 

  물론 이 게시물과 실제 사례는 다릅니다. 게임 속 가챠는 베르누이 시행이 아니었습니다. 시행이 완전히 독립적이지 않았거든요. 게다가 이항분포는 정규분포와 다릅니다. 표본이 아주 커서 분포를 정규분포에 근사해서 계산했지만, 실제 이항분포를 바탕으로 계산하면 계산 결과가 다를 겁니다.




 

 

반응형
  Comments,     Trackbacks
엑셀로 통계하기 14 - 유의성 검정(1)
반응형





민희네 회사는 새 스포츠카를 개발했습니다.

제로백(정지상태에서 시속 100km까지 도달하는 시간)

10초라는군요.

 



물론 실제로 10초인지 검사해야겠죠.

민희네 회사 소속 연구자들이 표본 25대를 가져와서

제로백을 측정할 겁니다.



 

연구자들은 가설을 세웁니다.

이 차의 제로백은 10초 이하다.’


 


검사 결과는 둘 중 하나가 나올 겁니다.

첫째, 정말 제로백이 10초 이하거나

둘째, 제로백이 10초 초과여서 개발자들이 조인트를 맞거나.



 

유의성 검정 Significance test

수집한 자료가 가설에 적합한지 검사하는 것을 말합니다.


 


유의성 검정에는 반대되는 두 가지 가설을 만듭니다.

귀무가설 Null hypothesis

대립가설 Alternative hypothesis입니다.

 

두 가설이 이하/초과, 이상/미만일 때는 단측검정한다고 하고

같음/다름일 때는 양측검정한다고 합니다.

 


이번 민희네 스포츠카 제로백 검사에서

귀무가설은 제로백이 10초 이하

대립가설은 제로백이 10초 초과

이번 유의성 검정은 단측검정입니다.

 




1, 2종 오류

 



제로백을 검사하는 연구진은 유능하지만

틀릴 가능성을 무시할 수 없습니다.

 

제로백이 10초 미만이지만

측정을 잘못하거나 표본을 잘못 뽑아서

제로백이 10초를 초과한다고 판단할 수 있습니다.

 

그와 반대로

제로백이 10초를 초과하지만

실수로 제로백이 10초 이하라고 판단할 수 있습니다.

 

귀무가설이 참인데도 기각해버리는 오류를

1종 오류 Type error,

귀무가설이 거짓인데도 채택해버리는 오류를

2종 오류 Type error라고 합니다.


 


통계 초보인 저는 잘 모르지만,

통계학자들은 제1종 오류를 더 피하고 싶은가 봅니다.


 


1종 오류를 허용할 한계.

유의수준 Level of significance 개념이 아주 유명하거든요.

 

연구진은 조사하기 전에 유의수준을 정합니다.

1종 오류를 저지르기 싫을수록 유의수준을 낮게 잡습니다.

 

유의수준은 0.050.01로 잡는 편입니다.

민희네 연구진은 0.05로 잡았습니다.

(α로 씁니다)



 

 

모표준편차를 알 때

 



유의성 검정도 구간추정처럼

모표준편차를 알 때/모를 때 구분해서 생각해봅시다.

 

데이터가 많거나 공정이 정확하면

모표준편차를 안다고 가정한다고 지난번에 말씀드렸습니다.



 

연구진은 과거 자료로

모표준편차를 1.5로 가정했습니다.

 

표본 25대를 뽑아 제로백을 검사해보니

평균 10.5초가 나왔습니다.

 

표본 평균이 10초 이하라면

당연히 귀무가설이 맞겠죠.

(제2종 오류를 무시한다면요)




그런데 표본 평균이 10초를 초과합니다.

개발진은 이대로 조인트를 맞아야 할까요?

 

그러나 아직 제1종 오류를 무시할 수 없습니다.

 

연구진은 유의수준을 0.05로 잡았습니다.

만약 모평균이 10인데도

재수 없게 표본평균이 10.5를 넘길 확률이 크다면

귀무가설을 함부로 기각할 수 없겠죠.

 

얼마나 크면 기각할 수 없을까요?

아까 정한 유의수준 0.05보다 크면 기각할 수 없겠죠.

 

p(p-value, 유의 확률)이란

이렇게 귀무가설이 맞을 때 어떤 값보다 심한 값이 나올 확률입니다.

 

이게 낮을수록 우연히 그 값이 나올 가능성은 작아지고,

정말 귀무가설이 틀려서 그 값이 나올 가능성은 커집니다.

 

쉽게 말해,

p값이 낮을수록 귀무가설은 틀립니다.

 

이제 제로백을 판단할 시간입니다.

 


귀무가설이 참이고, 모집단이 정규분포라면

표본평균의 표본분포는 기댓값이 10이고

표준편차가 1.5/√25 = 0.3인

정규분포를 그립니다.


 

표준정규분포로 옮겨 봅시다.

10.5에 평균을 빼고 표준편차로 나누면

z = 1.67입니다.



표준정규분포에서 1.67보다 클 확률은

엑셀 NORM.S.DIST 함수로 구해 보니

0.048입니다.


p0.048이 유의수준 0.05보다 작으므로

귀무가설을 기각할 수 있습니다.

결국 개발진은 조인트를 피할 수 없겠군요.

 

모표준편차를 모르는 경우는

다음 시간에 설명해보겠습니다.

 

 

보충 1

기각이냐 아니냐?


우린 이 게시물에서 제2종 오류를 무시했습니다.

따라서 대립가설을 마음 놓고 채택할 수 없습니다.

이때는 두 가지로 말할 수 있습니다.

1) 귀무가설을 기각한다.

2) 귀무가설을 기각할 수 없다.


 

보충 2 

양측검정일 때

 

양측검정에서

귀무가설은 모평균이 특정 값이다

대립가설은 모평균이 특정 값이 아니다입니다.

 

단측검정은 한쪽 꼬리 면적으로 p값을 구했지만

양측검정에서는 양쪽 꼬리 면적으로 구해야 합니다.

 


 보충 3

p값 방식과 임계값 방식

 

아까 p값으로 유의성을 검정했지만

임계값 방식도 있습니다.

 

임계값 방식은 유의수준을 토대로

미리 경계를 만들어 두고,

결과로 만든 z값이 이를 넘으면 기각하는 방식입니다.

반응형
  Comments,     Trackbacks