설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
분류 전체보기 (499)
6월 마지막 주 닥터후 소식
반응형

  날씨가 덥습니다. 늦잠을 좋아하는데 더워서 아침에 일어납니다. 닥터후 소식도 바싹 말랐습니다. 게다가 요즘 일이 많아서 닥터후 소식을 많이 모으지 못했습니다. 이제 여름이니 소식이라도 시원하게 쏟아졌으면 좋겠습니다.


시즌 11 배우들이 코믹콘에 온다




  매년 미국 샌디에이고에선 샌디에이고 코믹콘(SDCC)이 열립니다. 만화, 영화, 게임 등 대중문화 관련 행사 중에서 제일 유명합니다. 이날은 행사장에 팬들이 우글거리고 각종 행사가 열리고 관련 종사자, 작가나 배우 등 제작진을 초대합니다. 인기에 힘입어 코믹콘은 현재 세계 곳곳에서 열리고 한국도 최근 코믹콘을 열고 있습니다.

 

  닥터후도 코믹콘의 예외일 수 없습니다. 게다가 올해는 시즌11 멤버가 샌디에이고 코믹콘에 패널로 온다고 합니다. 조디 휘태커(13대 닥터), 토신 콜(컴패니언 라이언), 맨딥 길(컴패니언 야스민), 크리스 칩널(쇼러너), 제작책임자(executive producer)인 맷 스트레븐스가 참석할 예정입니다.

 

  시즌 11 정보가 거의 없는 가운데 닥터와 컴패니언 배우, 쇼러너와 제작자가 참석한 만큼 팬들도 기대하는 중입니다. 혹자는 시즌 11 예고편을 공개하지나 않을까 예상하는데요. 소문과 다르게 619일 월드컵 경기가 끝나고 예고편이 공개되지 않아서 예고편을 향한 팬들의 관심은 식을 줄 모릅니다. 예고편뿐 아니라 배우와 제작진의 얘기를 들을 기회기도 하죠. 행사 규모가 규모니만큼 어느 정도는 팬을 위한 정보가 나오겠죠. 물론 저는 미국 갈 돈이 없습니다만.

 

  샌디에이고 코믹콘은 719일에 개최합니다.

 

 


 

닥터후 애뉴얼에 충격적인 소식이?




 

  영국에서는 매년 닥터후 애뉴얼(Doctor Who annual)이라는 책이 나옵니다. 닥터후 애뉴얼은 단편 소설이나 만화, 퍼즐 등을 채운 책이라고 보시면 됩니다.

 

  그런데 이번 닥터후 애뉴얼 2019에 참여한 Paul Lang이라는 작가가 올해 애뉴얼에는 아주 대단한 것이 있다는 트윗을 남겼습니다. '52-53쪽을 볼 때까지 기다릴 것 - 흥분해서 쓰러질지도 모름'

 

  2019 애뉴얼은 111일에 나옵니다. 아마 시즌 11을 시작한 다음일 텐데요. 그럼 시즌 초반 내용은 아닐 테고. 그렇다고 애뉴얼에서 시즌 후반 내용을 무턱대고 공개하진 않을 것 같습니다. 후반 에피소드 제목이나 깜짝 특별출연 공개로 예상해 봅니다.

 

 

보너스 정보. 히스토리컬



  1963년 닥터후 맨 처음 스토리(시리얼)엔 외계인도 지구 멸망도 없었습니다. 닥터와 수잔, 수잔네 학교 선생인 이안과 바바라가 타디스를 타고 먼 옛날 지구에 도착합니다. 그곳엔 외계인이 아닌 원시인이 있었습니다.

 

  1대 닥터 시절엔 이처럼 과거만 여행하는 스토리도 있었습니다. 이런 스토리엔 어떤 SF 요소도 없었죠(타디스와 닥터와 컴패니언을 빼고). 그냥 과거 인물을 만나 음모에 얽히거나 위험에 빠졌습니다. 십자군을 만나고 로마 시대에 노예로 끌려가기도 했습니다. 당시 닥터후는 교육 드라마기도 했음을 잊지 마세요.

 

  이런 역사 에피소드를 서양 팬들은 히스토리컬(historical) 에피소드라고 부릅니다. 히스토리컬 에피소드는 2대 닥터 이후로 가물에 콩 나듯 나오고 2005년 이후론 한 편도 나오지 않습니다. 그런데 시즌 11에 히스토리컬 에피소드가 나온다는 소문이 있습니다. 일부 팬도 바라고요. 저는 반대입니다. 이미 닥터후는 공상과학 드라마가 되었고 교육용 드라마로 돌아가기엔 좀 늦은 것 같거든요.

반응형

'닥터후' 카테고리의 다른 글

7월 둘째 주 닥터후 소식  (0) 2018.07.09
7월 첫째 주 닥터후 소식  (0) 2018.07.02
6월 첫째 주 닥터후 소식  (0) 2018.06.04
5월 다섯째 주 닥터후 소식  (0) 2018.05.28
5월 넷째 주 닥터후 소식  (0) 2018.05.21
  Comments,     Trackbacks
엑셀로 통계하기 24 - 다중회귀분석
반응형



  단순선형회귀분석은 독립변수 하나와 종속변수 하나의 관계를 알아내려는 회귀분석이었습니다. 세상은 알다시피 그보다는 복잡하죠. 여러 원인이 모여서 결과를 만듭니다. 독립변수가 여럿인 회귀분석은 이제 단순하지 않습니다. 독립변수가 둘 이상인 회귀분석은 다중회귀분석(Multiple regression analysis)입니다.



 

  단순선형회귀를 하던 모험을 떠올려 봅시다. 먼저 회귀모형을 만들었습니다. 오차항은 기댓값이 0인 정규분포였죠. 여기에 기댓값을 씌워 E(y)를 구하는 회귀식을 만듭니다. 이 회귀식은 모집단을 알아야 만들 수 있어서, 표본밖에 없는 우리는 하릴없이 추정회귀식으로 회귀식을 추정했습니다.


  다중회귀분석도 과정은 같습니다. 오차항이 있는 다중회귀모형(Multiple regression model). y의 기댓값을 구하는 다중회귀식(Multiple regression equation). 표본으로 추정한 추정 다중회귀식(Estimated multiple regression equation).

 

 

 

이번에도 최소제곱법


  

  그럼 추정 다중회귀식에서 b는 어떻게 구할까요? 여러 방법이 있지만 최소제곱법(최소자승법)이 일반적입니다. 단순선형회귀는 최소제곱법으로 구하는 y절편과 x기울기 공식이 있어서 구하기 쉽습니다. 다중회귀분석은 독립변수가 여럿이라 구하기가 어렵습니다. 독립변수가 셋만 되어도 사람 손으로는 불가능할 정도죠. 훗날 다중회귀 최소제곱법을 포스팅할지도 모르겠네요.

 

 

엑셀로 다중회귀식 구하기




[데이터 분석] - [회귀분석]에 들어갑니다.

 


  방법은 단순선형회귀분석과 같습니다. ‘X축 입력 범위에 여러 열 범위를 입력하면 됩니다.

 

 

다중결정계수


  

  단순선형회귀에서 모든 추정값을 y의 평균으로 추정한 영희가 있었습니다. 영희의 오차는 회귀식과 영희의 격차와 회귀식의 오차의 합입니다. 총제곱합은 회귀제곱합과 오차제곱합의 합이죠.(단순선형회귀 1 참고)

 


SST = SSR + SSE


 

  SST에서 SSR이 차지하는 비율을 결정계수라고 불렀습니다. 결정계수의 최댓값은 1이고 결정계수가 높을수록 추정회귀식이 적합하다고 간주합니다.

 

  다중회귀분석도 결정계수는 똑같습니다. 다만 다중결정계수(Multiple coefficient of determination)라고 불릴 뿐입니다.

 


 

조정 다중결정계수




  그런데 결정계수가 늘 적합성을 잘 반영하지는 않습니다. 예를 들어 기말고사 점수가 종속변수고 공부 시간이 독립변수인 자료가 있습니다. 여기에 두 번째 독립변수로 아무 숫자나 무작위로 넣습니다. 엑셀 난수 생성 함수 RAND를 이용합니다.


 

  분명 기말고사 점수와 아무 상관이 없는 무작위 숫자를 넣었는데도 다중결정계수가 상승합니다. 독립변수가 늘어나면 통계적으로 유의하지 않아도 결정계수가 올라갈 수 있습니다. 이걸 고려한 결정계수가 바로 조정 다중결정계수(Adjusted multiple coefficient of determination)입니다.


p : 독립변수의 수


 

 

엑셀에서 다중결정계수 구하기




 

[데이터 분석] - [회귀분석]을 실시하면 결정계수와 조정된 결정계수가 나옵니다.

 

 

 

유의성 검정




  다중회귀분석도 유의성을 검정합니다. 검정법에는 F검정과 t검정이 있다고 배웠습니다. 단순선형회귀는 F검정과 t검정 결과가 똑같습니다. 다중회귀분석은 두 검정 결과가 다릅니다. 애초에 목적과 대상이 다릅니다.

 

  F검정은 독립변수 집합과 종속변수가 유의한 관계인지 검정합니다(전반적 유의성 검정). t검정은 각 독립변수가 종속변수와 유의한지 검정합니다(개별적 유의성 검정). F검정은 자료 당 한 번이고 t검정은 독립변수 수만큼 결과가 나옵니다.

 

 

F검정



 

  1) 귀무가설과 대립가설을 세우고 유의수준을 정합니다.

 

  2) 평균제곱회귀(MSR)을 구합니다. SSR을 독립변수 수로 나눈 값입니다.

 

  3) 평균제곱오차(MSE)를 구합니다. SSEn-p-1로 나눈 값입니다.

 

  4) MSR/MSE=F비를 구합니다.

 

  5) 자유도가 p, n-p-1F분포에서 F비 오른쪽 날개의 면적을 구합니다. 날개 면적이 p값이고, p값이 유의수준보다 낮으면 귀무가설을 기각합니다.

 

 

t검정



 

  1) 한 독립변수에 대한 귀무가설과 대립가설을 세우고 유의수준을 정합니다.

 

  2) 그 독립변수의 표준오차를 구합니다. MSE의 제곱근입니다.

 

  3) 검정통계량 t값을 구합니다. 계수를 표준오차로 나눈 값입니다.

 

  4) 자유도가 n-p-1t분포에서 t값보다 절댓값이 큰 양날개의 면적이 p값입니다. p값이 유의수준보다 낮으면 귀무가설을 기각합니다.



단순선형회귀(2) 참고

 

 

엑셀에서 다중회귀분석 F검정,t검정 하기




 

  [데이터 분석] - [회귀분석]에서 유의수준을 입력하고 시행하면 결과에서 F검정 p값과 독립변수별 t검정 p값을 볼 수 있습니다.


 

다중공선성



  회귀분석은 독립변수와 회귀변수 사이 관계를 알아냅니다. 그런데 독립변수 사이에도 관계가 있을 수 있습니다. 예를 들어 종속변수가 택배 배송 비용, 독립변수가 배송 거리와 연료비인 회귀분석이 있다고 합시다. 배송 거리가 멀수록 연료비는 자연히 상승합니다. 배송 거리와 연료비는 강한 상관관계가 있습니다.

 

  상관관계가 강하다면 굳이 독립변수를 추가할 필요가 없습니다. 배송 거리를 알면 연료비도 알 텐데 연료비를 독립변수로 추가해 봐야 얼마나 더 정확해질까요.

 

  게다가 상관성이 강한 독립변수가 추가되면 한 독립변수가 종속변수에 미치는 영향을 따로 떼어 구분하기 어렵습니다. t검정을 해서 한 독립변수의 계수가 0이라는 귀무가설을 기각하지 못하게 되었다고 생각해 봅시다. 물론 이 독립변수가 종속변수와 무관해서 귀무가설이 기각되지 않았을 수 있습니다. 그러나 이 독립변수와 상관성이 강한 다른 독립변수 때문일 수도 있습니다.

 

  이렇게 독립변수 사이 상관관계에 따른 문제를 다중공선성(Multicollinearity)라고 부릅니다.



 

  그럼 다중공선성은 어떻게 알아낼까요. 두 변수 사이 상관성을 구하는 법으로 상관계수가 있습니다. 공분산을 각자의 표준편차로 나눈 값입니다. 이 상관계수 절댓값이 0.7을 넘으면 다중공선성이 잠재적 문제라고 판단하는 기준이 있습니다.

반응형
  Comments,     Trackbacks
우리는 이상한 것을 믿는다
반응형



  어릴 때 동네를 걷다가 신기한 경험을 했습니다. 저녁이었고 하늘은 슬슬 주황빛인데 갑자기 빗방울이 쏟아졌습니다. 비는 몇 분 만에 그쳤지만, 어디에도 구름은 없었습니다. 비란 먹구름에서 떨어지는 것이고 먹구름이 끼면 사방이 어둑해지는데 맑은 하늘에서 비가 떨어진 거였죠. 저는 집에 가서 어머니께 물어봤습니다. 어머니는 호랑이가 장가가는 날이라서 그렇다고 말씀하셨습니다.


  이 현상은 여우비였습니다. 먹구름이 없는데 비가 내리는 이 신기한 현상은 사실 먹구름이 있는 현상입니다. 하늘에서 바람이 세차게 불면 비가 땅에 내리기 전에 먹구름이 다른 곳으로 가 버리거나 빗방울이 먹구름이 없는 곳까지 날아갑니다. 제가 여우비를 맞던 날 하늘은 맑았으니까 아마 다른 곳에서 내린 비가 바람을 타고 제 동네까지 날아왔을 겁니다. 그나저나 여우비인데 왜 장가는 호랑이가 갈까요.

 



 

  어머니도 실제 호랑이의 혼인과 여우비라는 자연현상이 무관하다고는 믿으십니다. 그냥 옛날 속설이고 살짝 로맨틱하기도 합니다. 그러나 세상엔 이만큼이나 이상한 생각을, 그것도 철석같이 믿는 사람이 많습니다. 신이 생명을 창조했다거나 영혼과 교감할 수 있다거나 악마가 세상을 멸망하리라는 내용 등이죠. 굳이 종교가 아니어도 세상에는 이상한 믿음이 널렸습니다. 제일 유명한 것이 선풍기 괴담이죠. 선풍기를 켜고 자면 죽는다는 이야기는 들어보셨을 겁니다. 제가 어릴 때만 해도 제 주위 친구들은 다 그 이야기를 믿었습니다. 발명품을 소개하는 프로그램을 텔레비전 방송에서도 사람이 잠들면 선풍기를 끄는 장치를 소개하며 이런 속설을 소개했죠. 이외에도 문지방을 밟으면 재수가 없다든가 밤에 휘파람을 불면 뱀이 나온다는 말이 있습니다.


  저는 이런 의견이 틀렸다는 걸 알지만, 선풍기를 켜놓으면 자기가 껄끄럽습니다. 저는 무신론자지만 힘들 땐 신이 있다고 가정하고 기도하기도 했습니다. ‘. 당신이 있다면, 이 개 같은 상황을 좀 처리해 줘요. 그 정도 능력이 없을 리 없으니까.’ 믿지 않으시겠지만 이런 가정법 기도도 어느 정도 마음을 안정시켜줍니다. 반의반만 신을 믿고 기도해도 이 정돈데 매주 교회를 나가며 찬송가를 부르고 성경 구절을 달달 외는 사람은 종교가 얼마나 소중한가 싶습니다.


  중학교 시절 학원 물리 선생은 이와는 다른 이유로 신을 믿었습니다. 선생은 어느 날 칠판에 동그라미 두 개를 그렸습니다. 하나는 과학이 설명하는 세상, 다른 하나는 과학이 설명할 수 없는 세상이었습니다. 선생 왈, 과학이 설명하지 못하는 어딘가에 신이 있을 수 있다. 아직 신이 없다고 말하긴 이르다. 선생의 논리라면 신이 있다고 말하기도 이르지 않을까 싶네요. 그때는 과학을 잘 아는 사람이라 과학과 비과학의 경계를 잘 안다고 생각했는데, 지금은 글쎄요.

 




  어디서 이런 구절을 읽었습니다. 크레도 콘솔라스. 내 마음을 달래주기 때문에 믿는다는 뜻입니다. 이상한 믿음은 확실히 믿는 사람의 마음을 편안하게 해 줍니다. 믿으면 내세에서 행복하게 산다는 종교가 얼마나 많습니까. 옳고 그름을 넘어 무언가 설명하기만 해도 우리는 편안합니다. 기상학이 없던 시절 여우비를 설명하지 못한다는 불편함은 의외로 컸을 겁니다. 세계 많은 신화가 그래서 세계 탄생과 원리를 설명하는지도 모릅니다. 하늘과 땅은 누가 만들었는지, 해와 달은 왜 뜨는지 비는 왜 오는지 나무는 어떻게 자라는지. 드라마 엑스파일에 나오는 명대사 우리는 믿고 싶다.’는 멀더 요원뿐 아니라 모든 사람에 통하는 말인 것 같습니다.


  내 마음을 달래주기 때문에 믿는다. 이 문장을 뜯어보면 색다른 사실을 알게 됩니다. 이 문장에는 나는 이게 사실이 아님을 알지만 믿는다는 뉘앙스가 들어가기 때문입니다. 이게 사실이 아님을 안다, 사실인지 확실치 않다. 그럼에도 나는 내 마음을 달래주기 때문에 믿는다. 믿기는 쉽지만 반박하기는 어렵습니다. 대충 개연성과 사실성만 있으면, 아주 살짝 마음에 힘을 써서 믿을 수 있습니다. 그와 반대로 믿음을 깨려면 수많은 증거와 자기 설득이 필요하죠. 사람은 믿고 싶은 동물일 뿐만 아니라 믿기 쉬운 동물이기도 합니다. 우리가 아는 정보는 대부분 다른 사람에게 들은 겁니다. 부모, 선생, 교과서, 친구, 인터넷, 신문, 뉴스 등에서 들은 정보는 곧 우리 머리에서 기정사실로 됩니다.

 




  불행히도 세상엔 틀린 것이 가득합니다. 잘못된 생각을 진지하게 믿는 사람도 있고 잘못임을 알면서도 거짓말하는 사기꾼도 있습니다. 그렇다고 모든 걸 의심하면 정상적인 삶이 불가능하죠. 사기꾼은 우리한테 이익을 준다고 거짓말하니 듣기 좋은 말은 일단 경계할 필요가 있습니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 23 - 잔차분석
반응형




단순선형회귀 (1)

단순선형회귀 (2)


  회귀추정식을 아무리 잘 만들어도, 자료가 완벽한 직선분포가 아닌 이상 오차는 생기기 마련입니다. 관측값과 추정값의 차이를 잔차(Residual)라고 하죠. 잔차는 어찌 보면 회귀모형 속 오차항 역할을 한다고 볼 수 있습니다.

 

  자료 속 독립변수마다 잔차가 있습니다. 이걸 그래프로 그린 걸 잔차플롯(Residual plot)이라고 합니다. 지난 시간 학생의 공부 시간과 시험 점수를 회귀분석한 자료에서 잔차를 구했습니다. 잔차 플롯을 그리는 법은 다음과 같습니다.

 


엑셀에서 잔차플롯 그리기



 

1) 잔차 직접 계산해 차트로 만들기



먼저 회귀식을 구한 다음 x를 대입해 추정값을 구합니다.

 


관측값에 추정값을 빼서 잔차를 구합니다.




[삽입] - [차트] - [분산형]으로 분산형 차트를 만듭니다.




차트를 오른쪽 마우스로 클릭하고 [데이터 선택]을 누릅니다.





범례 항목에서 추가를 누르고 계열 x값을 독립변수, 계열 y값을 잔차 범위로 선택하고 확인을 누릅니다.




 

2) 엑셀 [데이터 분석]에서 회귀분석하면서 만들기

 


[데이터 분석] - [회귀분석]에서 잔차’, ‘잔차도에 체크하면

회귀분석을 하면서 자동으로 잔차를 계산하고 잔차플롯을 그립니다.




 

  회귀분석에 들어가면서 오차항은 기댓값이 0인 정규분포를 따르고 오차항의 분산을 x에 상관없이 같다고 가정했습니다. 따라서 잔차 절댓값이 지나치게 크거나, x값에 따라 잔차 분포가 변한다면 회귀모형의 가정을 위배하게 됩니다. 잔차 정규성 검정법은 훗날 다른 게시물에서 다룰지도 모르겠습니다.

 

 

표준화잔차


  정규분포를 따르는 자료는 더 쉽게 이해하기 위해 표준정규분포 z값으로 변환하기도 합니다. 평균을 빼서 표준편차로 나누는 것이죠. 마찬가지로 잔차도 표준편차로 나누어 표준화합니다. 이것을 표준화 잔차(Standardized residual, 표준잔차)이라고 합니다. 표준화 잔차는 잔차를 무단위로 바꾸기도 하고, 잔차 분포를 더 이해하기 쉽게 만들어줍니다.

 

  오차항이 정규분포라면 표준화 잔차는 표준정규분포를 나타냅니다. 표준정규분포에서는 z2에서 2 사이일 때 자료의 약 95%가 들어갑니다. 여러분의 자료에서 표준화 잔차의 절댓값이 2를 넘는다면 그 잔차에 해당하는 관찰값은 꽤 튀어나온 값일 겁니다.

 


엑셀에서 표준화잔차 구하기




  [데이터 분석] - [회귀분석]에서 표준 잔차에 체크하면 자동으로 x값에 따른 표준화 잔차가 결과에 나타납니다.

 

 



이상값


 

  확 튀는 값은 이상값(Outlier, 특이치, 이상치)이라고 합니다. ‘아웃라이어라는 영어 단어가 더 익숙할지도 모르겠습니다. 한때 아웃라이어라는 책이 인기였죠. 대학 신입생 시절 교수가 추천해서 읽었습니다. 대체로 표준화 잔차의 절댓값이 2를 초과하는 관측값은 이상값으로 취급합니다.

 

  이상값은 왜 생길까요? 값을 잘못 관측했는지도 모릅니다. 실험기기가 잠시 맛이 갔거나 실험자가 56을 헷갈렸을 수도 있죠. 설문조사라면 조사대상이 아무 숫자나 써넣었을 가능성도 있습니다. 아니면 회귀분석 모형이 잘못되었을지도 모르죠. 어쩌면 우연일지도 모릅니다. 표준화 잔차의 95%2에서 2 사이니까 반대로 말하면 5%는 범위 밖이니까요.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 22 - 단순선형회귀(2)
반응형


단순선형회귀 (1)


  회귀분석은 변수 사이의 관계를 알아내는 통계 기법입니다. 독립변수를 통해 종속변수를 예측하는데, 독립변수와 종속변수가 각각 하나고 둘 사이 관계가 선형이라고 가정하는 회귀분석이 단순선형회귀입니다.

 

  지난 시간에는 (현실을 모델로 만든 회귀모형의 기댓값인 회귀식의 표본추정식인) 추정회귀식을 구해 봤습니다. 최고제곱법으로 식을 찾았습니다. 과연 이 식이 적합한지 영희를 예로 들어 설명했습니다. 이제 두 번째 질문, 과연 xy가 통계적으로 유의미한 관계인지 답해 보려고 합니다.

 

유의성 검정



단순선형회귀 모형




단순선형회귀 회귀식


  회귀식에 x값을 넣으면 y값이 나옵니다. 그런데 이 값은 y가 아닙니다. 정확히는 y의 기댓값이죠. 단순선형회귀 모형에는 오차항이 있는데, 오차항은 정규분포를 따릅니다. 따라서 y도 분포를 가지는 값입니다. 우리가 추세선으로 구하는 값은 y의 기댓값이었죠.


 

단순선형회귀모형에서 오차항에 대한 가정은 다음과 같습니다.


1) 오차항은 확률변수다.

2) 오차항은 모든 x마다 분산이 같다.

3) 오차항은 독립이다(어떤 x에 대한 오차항이 다른 x에 대한 오차항과 무관).

4) 오차항은 정규분포를 따른다.

 

  이 가정들, 특히 4번 가정 때문에 오차항을 포함하는 y도 확률변수처럼 행동합니다. 단순선형회귀분석에서 선을 긋고 x를 식에 넣어 구한 yy값이 아니라 y의 기댓값, 평균임을 다시 강조합니다. xy에 관계가 있는지 검사하는 과정에 이게 필요한가 싶지만, 곧 필요해집니다.

 

  이제 유의성 검정을 해 보죠. 유의성 검정은 두 변수가 과연 유의미한 관계인지 검사하는 과정입니다.



 

  회귀식에서 x의 기울기가 0이면, x가 있는 항은 통째로 0이 됩니다. x값이 y에 아무런 영향을 주지 못합니다. 그런데 관계가 있다고 말할 수 있을까요? 따라서 우리는 저 β1이 0인지 아닌지 판단해야 합니다. 유의성을 검정하는 방법은 크게 두 가지, t검정과 F검정이 있습니다.

 


잠깐. 두 가지 검정을 시작하기 전에 알아야 할 식


평균제곱오차(MSE) - SSE를 자유도로 나눈 값. 오차항 분산의 불편추정량



평균제곱오차의 제곱근은 추정값의 표준오차라고 부름.



 

t검정



1. 귀무가설과 대립가설을 세우고 유의수준을 정한다.




2. 회귀식 기울기(β1)의 표준편차를 구한다. β는 모집단 모수이므로 추정회귀식으로 추정해 구한다.




3. 검정통계량 t를 구한다.




4. 자유도 n-2인 스튜던트 t분포에서 절댓값이 검정통계량 이상인 양측 날개 면적을 p값으로 한다.




5. p값이 유의수준 이하면 귀무가설을 기각한다.


 

F검정



1. 귀무가설과 대립가설을 세우고 유의수준을 정한다.



2. 평균제곱회귀(MSR)를 구한다. SSR을 회귀자유도로 나눈 값으로, 회귀자유도는 일단 독립변수의 수라고 생각한다. 단순선형회귀에서 독립변수는 하나이므로 회귀자유도는 1이다.




3. F비를 구한다. MSR/MSE.




4. 자유도가 1, n-2F분포에서 F비 오른쪽의 날개 넓이를 p값으로 한다.




5. p값이 유의수준 이하면 귀무가설을 기각한다.

 

 

참고 : 독립변수가 하나라면 t검정과 F검정의 결과는 같습니다.

 

주의 : 통계적 유의성은 인과와 다릅니다.

 





신뢰구간과 예측구간



  추정회귀식도 세웠고, 식이 (영희보다) 적합한지도 검정했고, 두 변수가 통계적으로 유의미한 관계에 있는지도 파악했습니다. 이제 하루 공부 시간에 따른 기말고사 점수를 예측할 수 있을 겁니다.



 

  추정회귀식에 따르면 x=2.5일 때 y는 약 60.7입니다. 그럼 하루에 2.5시간 공부하는 학생은 기말고사 점수가 60.7이라고 말할 수 있을까요? 바로 결정하기 전에 짚고 넘어갑시다. ‘하루에 2.5시간 공부하는 학생은 누굽니까?

 


'하루에 2.5시간 공부하는 학생'의 뜻


1 : 하루에 2.5시간 공부하는 학생 전부. 따라서 하루에 2.5시간 공부하는 학생의 기말고사 점수는 이들 점수의 평균이다.


2 : 하루에 2.5시간 공부하는 특정 누군가. 예를 들어 2.5시간 공부하던 17살 김민수 학생의 기말고사 점수를 추정한다는 뜻이다.

 

1y값의 평균을 예측합니다. 2y 개별값을 예측합니다. 아시다시피 y는 값이 아니라 확률분포입니다. 따라서 뜻 1이든 2든 정해진 값이 아니라 범위, 구간을 구해야 합니다.

 

1은 표본회귀로 y값의 평균, 즉 모집단 회귀(E(y))를 추정합니다.

2는 표본회귀로 모집단 회귀를 넘어 실제 값을 추정합니다.





  상식적으로 뜻 2가 더 맞추기 어렵겠죠. 따라서 신뢰수준이 같다면 뜻 2로 구한 구간이 뜻 1로 구한 구간보다 넓을 수밖에 없습니다.

 

1로 구한 구간은 신뢰구간(Confidence interval),

2로 구한 구간은 예측구간(Prediction interval)이라고 합니다.

 

 

신뢰구간



  신뢰구간 공식은 다음과 같습니다.



 

신뢰구간 식에서 무얼 알 수 있을까요?


- xx평균과 같을 때 신뢰구간이 제일 좁습니다.

- 자료 크기 n이 클수록 신뢰구간이 좁습니다.

 

 

예측구간




  예측구간 공식은 다음과 같습니다.



 

예측구간 식에서 무얼 알 수 있을까요?


- 자료크기와 신뢰수준이 같다면 예측구간은 신뢰구간보다 넓습니다.(y 평균이 아니라 y 개별값을 구하기는 더 어려우니 같은 정확도가 필요할 때 범위는 더 넓겠죠.)

- 예측구간 역시 신뢰구간처럼 x가 평균일 때 제일 좁습니다.

 




 

엑셀에서 단순선형회귀 하기



  엑셀 회귀분석을 이용하면 추정회귀식, 결정계수, 추정값의 표준오차, t검정과 F검정 결과까지 전부 한 번에 볼 수 있습니다.



 

[데이터 분석] - [회귀분석]에 들어갑니다.



  x,y축 입력 범위, 신뢰수준을 입력합니다.

  '이름표'에 체크하면 맨 위 셀은 제목으로 취급합니다.

  '이름표'에 체크했으면 입력범위는 제목도 포함시켜야 합니다.




  '확인'을 누르면 회귀분석 결과가 나타납니다. 추정회귀식에 쓸 계수와 y절편, 결정계수, 표준 오차, t검정과 F검정 결과가 나타납니다. 보시다시피 t검정 p값과 F검정 p값이 똑같습니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 21 - 단순선형회귀(1)
반응형








  오래 공부할수록 시험 성적이 높을까요? 키가 클수록 100m 달리기 기록도 빠를까요? 마트에 들르는 사람이 많을수록 매출도 높을까요?

 

  이 질문에 대답하려면 학생들의 공부 시간과 시험 점수를 조사하고, 사람들의 키와 달리기 기록을 재보고, 매일 마트에 들르는 사람을 세고 그날 매출을 알아봐야 합니다. 그런 다음 공부 시간과 시험 점수, 키와 달리기 기록, 들르는 사람 수와 매출 사이에 어떤 관계가 있는지 확인하면 됩니다. 그럼 공부하는 시간을 알면 시험점수를, 키를 알면 달리기 기록을, 들르는 손님 수를 알면 그날 매출을 추측할 수 있겠죠.

 

  이렇게 두 변수 사이 연관성을 알아내는 통계방법을 회귀분석(Regression Analysis)이라고 합니다. 단어 Regression에는 후퇴, 퇴보라는 뜻이 있습니다. 유전학자 프랜시스 골턴은 키가 큰 부모가 자식을 낳더라도 자식의 키가 더 커지는 쪽이 아니라 평균으로 되돌아간다는이론을 만들었습니다. 훗날 다른 학자들이 골턴의 이론을 수학이론으로 재정비했지만 회귀라는 단어는 살아남았습니다.

 

  학생의 공부시간과 시험점수 사이 관계를 안다면, 공부하는 시간으로 다음 시험 점수를 예측할 수 있습니다. 예측하려는 변수는 시험 점수고 예측에 사용하는 변수는 공부시간입니다. 시험 점수처럼 예측하려는 변수를 종속변수(dependent variable, 설명변수), 공부 시간처럼 예측에 사용하는 변수는 독립변수(independent variable)라고 부릅니다.

 

  제일 간단한 회귀분석은 종속변수 하나와 독립변수 하나만 있고, 둘 사이 관계는 1차함수처럼 직선 관계인 회귀겠죠. 이렇게 분석하는 것을 단순선형회귀(Simple linear regression)라고 합니다. 독립변수가 여럿인 분석, 관계가 선형이 아니라고 가정한 분석, 심지어 종속변수가 스칼라가 아니라 벡터라고 가정한 분석 등 회귀분석은 가정이 여러 가지입니다. 여러 가정을 시험해 보면서 두 변수 사이 관계를 알아내는 것이 중요하겠죠. 세상 모든 관계가 선형은 아니니까 말입니다. 이번 시간에는 제일 쉬운 단순선형회귀분석으로 두 변수 사이 관계를 밝혀 봅시다.

 


단순선형회귀



 

 

  학생 열 명에게 하루 평균 공부하는 시간과 이번 기말고사 점수를 물어봤습니다. x축을 공부 시간, y축을 기말고사 점수로 하는 그래프를 그리면 다음과 같습니다.



 

  사람에 따라 다르겠지만 두 변수 사이 관계는 꽤 직선처럼 보입니다. 정말 직선이라고 봐도 좋은지 단순선형회귀를 통해 분석해 보죠. 세상은 그대로 인식하기에는 너무 복잡합니다. 그래서 모델링이 필요합니다. ‘현실은 아마 이러이러할 것이다라는 가정이죠. 회귀분석에서 만드는 모델을 회귀모형(Regression model)이라고 합니다. 단순선형회귀 모형은 종속변수는 독립변수의 1차함수 + 오차입니다.


단순선형회귀 모형


 

  우리가 구해야 할 베타값은 모수(parameter), 뒤에는 오차항이 있습니다. 뒤에 설명하겠지만 오차항은 기댓값이 0인 정규분포를 따른다고 가정합니다. , 압니다. 실제 오차는 정규분포가 아니겠죠. 하지만 이건 모델이지 실제가 아닙니다.

 

  정규분포의 기댓값은 0이므로 y의 기댓값을 구할 때 오차항의 기댓값도 0이 되어 사라집니다. β는 상수니까 기댓값도 똑같습니다. 결국 xy의 기댓값 사이를 나타내는 식이 나오죠. 이걸 회귀식(Regression equation)이라고 합니다.


회귀식



  이 회귀식은 모집단을 설명합니다. 우리는 표본을 조사해서 회귀분석을 하니까, 회귀식을 알 수 없습니다. 마치 표본평균만 알 수 있고 모집단 평균은 추정만 할 수 있는 것과 비슷합니다. 우리는 y의 기댓값, 베타들을 알 수는 없고 추정만 할 수 있습니다. 이렇게 표본으로 추정한 회귀식을 뭐라고 할까요? 추정한 회귀식이니 추정회귀식(Estimated regression equation)이라고 하겠죠?


추정회귀식


 

  표본평균이 모집단 평균의 점추정량인 것처럼 추정회귀식에서 구한 y값은 ‘y의 기댓값(=E(y))의 점추정량입니다. 실제 세계를 알 수 없으니 모델을 만들고, 모델을 그대로 구하는 대신 모델의 기댓값을 구하고, 그 기댓값마저 표본으로 추정해야 합니다. 헷갈리지 마셨기를 빕니다.



 

  주의 : 척 보기에 직선이어도 사실 직선이 아닐 수 있습니다. 우리가 보는 부분은 아주 완만한 곡선 일부분이거나 딱 그 부분만 기울기가 작은 곡선 일부분일 수 있습니다. 그래서 자료의 x 범위를 벗어나는 x가 만드는 y값을 추정할 때는 조심해야 합니다.




 

최소제곱법


 


 

  우리가 구할 것은 모델도 아니고 기댓값을 적용한 모집단 회귀식도 아니고 그 모집단 회귀식의 추정회귀식입니다. 직선 하나 긋기 참 힘듭니다. 그럼 직선을 어떻게 그어야 할까요?실제 관찰한 값과 제일 비슷하게 그어야 합니다.” 맞습니다. 그런데 비슷하다의 기준이 무엇일까요? 철수가 그은 선과 민수가 그은 선이 있으면, 둘 중 어느 선이 자료를 더 잘 반영할까요?



 

  추정회귀식을 구하는 방법은 여러 가지가 있습니다. 그중 하나를 생각해 보죠. y값에는 실제 관측한 y값과 직선에 해당하는 y값이 있습니다. 이 둘의 차이가 작을수록 좋겠죠. 그럼 관측값과 추정값의 차이가 제일 작게 되는 직선이 최고의 직선이라고 생각해도 나쁘지 않겠죠.

 

  관측값이 더 크면 차이는 양수고 추정값이 더 크면 차이는 음수입니다. 양수와 음수가 상쇄할 수도 있으니까 차이를 제곱해서 합합니다. 마치 분산을 구하면서 자료와 평균의 차를 제곱하는 것과 비슷하죠. 이렇게 구한 편차제곱합이 최소가 되는 직선이 생기도록 추정회귀식을 구하는 방법을 최소제곱법(Method of Least Squares, 최소자승법)이라고 합니다. 최소제곱법에 따른 직선의 두 숫자, y절편과 기울기는 이미 공식이 있습니다.





 






 

엑셀에서 추세선 긋기




  엑셀에서 두 변수로 분산형 그래프를 제작한 다음, 그래프를 클릭해 맨 위 [차트 도구] - [디자인]으로 들어갑니다.




  왼쪽 [차트 요소 추가]에서 [추세선] - [선형]을 선택합니다.




엑셀 추세선 식 표시하기





  [차트 요소 추가] - [추세선] - [기타 추세선 옵션]에 들어가거나 그래프에 있는 추세선을 선택해 오른쪽 마우스 - [추세선 서식]에 들어갑니다. '수식을 차트에 표시'를 누르면 추정회귀선 식이 표시됩니다.



 

 

적합성 검정, 결정계수




 

  직선을 긋는다고 끝은 아닙니다. 최소제곱법으로 그었으니 오차제곱합은 최소겠지만 그게 자료를 잘 반영하느냐는 다른 문제입니다. 이걸 알려면 두 가지를 물어야 합니다.

 

질문 1) 이 추정회귀식이 xy의 관계를 잘 설명하나?

질문 2) 아니, xy가 애초에 관계가 있긴 하나?


먼저 첫 번째 질문부터 답해 봅시다. 영희라는 학생의 예를 들어 보죠.

 




  영희는 어제까지 친구랑 노느라 추정회귀식을 구하지 못했습니다. 다른 학생들이 추정회귀식을 구하고, 추정회귀식을 바탕으로 학생의 공부 시간으로 시험 점수를 추정하는 사이 영희는 낑낑대기만 합니다.





  영희는 그러던 중 시험점수 평균이 50임을 알게 됩니다. 빙고! 영희는 공부 시간에 상관없이 모든 시험점수를 50으로 추정합니다. y를 죄다 평균으로 추정하면 아주 많이 틀리지는 않을 테니까요.

 

  추정회귀식을 구한 학생들은 영희보다 정확할 겁니다. 아니, 영희보다 정확해야 합니다. 그렇지 않으면 회귀분석을 하는 의미가 없지 않겠습니까. 추정회귀식을 구한 학생들이 보람을 느끼게 하기 위해서라도 그들이 영희보다 정확하다는 걸 보여야 하겠죠.

 

  영희가 낸 오류(관측값과 영희가 만든 추정값의 차이)는 영희와 학생들의 차이와 학생들의 오류(추정회귀식의 오류)로 구성됩니다.

 


영희의 오류

=

영희와 학생들의 차이 + 추정회귀식이 낸 오류



수학적으로 말해...

관측값과 평균의 차이

=

추정값과 평균의 차이 + 관측값과 추정값의 차이

 



  이 식의 양변을 제곱해 총합을 구합니다. 관측값과 평균의 차이 제곱합은 총제곱합(SST), 관측값과 추정값의 차이 오차제곱합(SSE), 추정값과 평균의 차이 제곱합은 회귀제곱합(SSR)이라고 부릅니다.


 

  관측자료가 변하지 않는 이상 자료의 평균은 일정하고, 자료의 평균만으로 추정하는 영희의 오류도 일정합니다.




  이때 학생들이 구한 추정회귀식이 정확할수록 추정회귀식이 낸 오류는 줄어들고 영희와 학생들의 차이는 늘어납니다. 영희 오류에서 영희와 학생들의 차이가 차지하는 비율을 생각해 봅시다. 이 비율은 추정회귀식이 정확할수록 1에 가까워집니다.




  이 비율, SSR/SST는 추정회귀식의 적합성을 판단하는 수치 중 하나로 결정계수(Coefficient of determination)라고 부르며 R^2으로 씁니다.

 

R^2가 있다면 R도 있겠죠? 결정계수의 제곱근은 표본상관계수, 두 변수 사이의 선형관계를 나타냅니다.

 

 

엑셀 그래프에 결정계수 표시하기




  [차트 요소 추가] - [추세선] - [기타 추세선 옵션]에 들어가거나 그래프에 있는 추세선을 선택해 오른쪽 마우스 - [추세선 서식]에 들어갑니다. 'R-제곱 값을 차트에 표시'를 누르면 결정계수가 표시됩니다.




  글이 길어졌습니다. 다음 시간에는 두 번째 질문, 두 변수가 통계적으로 유의미한 관계인지 유의성 검정을 해 보겠습니다. 그리고 공부 시간이 2.5시간인 학생의 시험 점수는 얼마일지도 추정하겠습니다.



반응형
  Comments,     Trackbacks
엑셀로 통계하기 20 - 모비율 비교와 독립성 검정
반응형



  통계 자료는 숫자만 있지 않습니다. 가끔은 단순히 예/아니오, 남자/여자처럼 수 대신 비율로 나타내는 자료도 있죠.

 

  이번 시간에는 모집단 비율을 비교합니다. 먼저 두 모집단 비율 차이를 구간추정/가설검정 합니다. 가설검정 이후 분산분석으로 여러 모집단 평균이 같은지 검정했듯 여러 모집단 비율의 동일성도 검정합니다. 모집단의 두 변수가 독립인지도 검정해 볼 텐데, 여러모로 모집단 비율 동일성과 비슷하니 생뚱맞지는 않을 겁니다.

 

 

모집단 비율 차이 구간추정




  두 회사 직원에게 박사학위가 있는지 물어보았습니다. 각 회사에서 100명을 뽑아 질문했습니다. 회사A100명 중 70, 회사B100명 중 60명이 박사학위 소지자로 드러났습니다. 두 회사 박사학위 소지 비율 차이에 대한 90% 신뢰구간은 어디일까요?

 

  모집단 평균 신뢰구간을 구하는 법. 생각나시나요? 표본평균에 오차범위를 빼고 더했죠. 오차범위는 신뢰수준에 맞는 z에 표본분포 표준편차를 곱했습니다.



 

  표본이 충분히 크다면 포본분포는 정규분포에 근사하죠. 그러니 모집단 비율 차이 신뢰구간도 이렇게 합시다. 표본평균 대신 두 표본비율 차이를 넣습니다. z는 표준정규분포에서 중앙 면적이 신뢰수준만큼을 차지하는 값입니다. 엑셀 NORM.S.INV 함수를 이용하면 z를 구할 수 있습니다.



z = NORM.S.INV(1-유의수준/2)

 

*신뢰수준별 z

90% - 1.645

95% - 1.960

99% - 2.576

 

  모집단 비율 차이의 표본분포 내 표준편차를 구하려면 모집단 비율을 알아야 합니다. 그런데 모르니까 구간추정을 하겠죠? 모집단 비율 대신 표본집단 비율을 넣습니다.



 

  박사학위 보유 차이에 대한 90% 신뢰구간을 구해 봅시다. 두 표본집단 비율과 표본 크기, 신뢰수준 90%에 맞는 z를 아니까 쉽게 구할 수 있습니다.


 

 

모집단 비율 차이 가설검정



 

  이번엔 두 회사 직원에게 파인애플 피자를 좋아하는지 물어보았습니다. 역시 회사마다 100명을 뽑아 질문합니다. 회사A100명 중 30, 회사B100명 중 40명이 파인애플 피자를 좋아했습니다. 두 회사가 파인애플 피자를 좋아하는 비율은 같을까요?(유의수준 0.05)

 

 

  두 모집단 평균 차이를 검정하는 법은 지난번에 다뤘습니다. 두 모집단 평균 차이가 같다, 즉 차이가 0이라는 귀무가설을 세우고 차이가 0이 아니라는 대립가설을 세웠습니다.




 

  모집단 비율 차이도 같은 식으로 시작합니다. 두 모집단 비율 차이가 0이라는 귀무가설과 0이 아니라는 대립가설을 세웁니다.

 

  이제 z를 구합니다. 문제는 표준편차인데요. 가설검정이 옳다면 두 표본비율과 모집단 비율은 같을 겁니다.



 

  그런데 모집단 비율을 알 수 없으니 표본비율로 대체해야 합니다. 어느 집단의 표본비율로 대체하라는 거죠? 두 표본집단 비율을 합친 값을 씁니다. 정확히 말하면 두 표본집단 비율의 가중평균입니다. 가중치는 표본 크기고요. 이걸 모집단 비율의 합동추정량(pooled estimation of p)라고 합니다.







 

  이제 나머지는 가설검정과 같습니다. z보다 중심에서 먼 양쪽 날개 면적이 p값입니다. p값이 유의수준보다 작으면 귀무가설을 기각합니다.

 

  엑셀에선 NORM.S.DIST 함수로 표준정규분포 꼬리 면적을 계산합니다.


p=NORM.S.DIST(Z, TRUE)

 

 

  과연 두 회사는 똑같은 비율로 파인애플 피자를 좋아할까요?






  귀무가설을 기각할 수는 없겠네요.

 

 





 

여러 모집단 비율의 동일성 검정 카이제곱 분포 이용



 

  이번엔 세 회사에서 100명을 추출해 이순신과 세종대왕 중 어느 위인을 존경하는지물어봤습니다. 과연 세 회사에서 이순신을 존경하는 비율은 전부 같을까요?(유의수준 0.05)

 

  모집단 평균 동일성을 검정할 때, 분산분석을 이용하기도 했습니다. 비교할 모집단이 셋 이상이면 분산분석은 매우 편리했죠. 이번에는 여러 모집단 비율의 동일성을 검정해보겠습니다. 이번 검정에는 카이제곱 분포가 필요합니다. 그냥 그런 분포가 있다고 알면 됩니다.

 

  분산분석처럼 이번에도 귀무가설/대립가설을 만듭니다. 귀무가설은 모든 모집단 비율이 같다는 것이고 대립가설은 하나 이상의 모집단 비율이 다르다는 겁니다.

 

  좋습니다. 이게 설문 결과입니다. 300명 중 이순신을 존경하는 회사원은 165명입니다. 비율로 계산하면 0.55네요. 귀무가설이 옳다면 세 회사에서 이순신을 좋아하는 비율은 전부 0.55일 겁니다. 그러니까 세 회사에서 100명씩 물어보면 이순신을 존경하는 사람이 55명 나왔을 거란 말이죠.

 

  이 값을 기대도수라고 부릅시다. 실제 설문에서 관찰한 값은 관측도수라고 하고요. 기대도수 공식은 다음과 같습니다. 가로합과 세로합을 생각하면 쉽습니다.






 

  이제 생각해 보세요. 귀무가설이 옳을수록 관측도수는 기대도수와 가깝습니다. 이걸 유념하며 카이제곱 검정통계량을 구합니다.

(모든 기대도수가 5 이상이어야 결과가 좋다고 합니다. 기대도수가 5 미만이라면 옆 범위와 합치라는군요.)



 

  검정통계량이라는 단어에 감이 오셨나요? 카이제곱 분포에서 이 카이제곱 검정통계량보다 큰 영역의 넓이가 바로 p값입니다. 카이제곱 분포는 자유도마다 모양이 다른데, 자유도는 k-1. 회사가 셋이니 자유도는 3-1=2입니다. 이제 p값이 유의수준보다 작으면 귀무가설을 기각하겠죠?



 

 대답이 셋 이상일 때

 

  위인을 다섯 명으로 정하고 설문조사 하면 어떻게 될까요?

 

  대답이 셋 이상이어도 기대도수와 카이제곱 검정통계량 구하는 방법은 같습니다다만 귀무가설은 모든 모집단에서 응답변수의 다항분포가 전부 같다.’가 됩니다대답이 둘이면 그냥 비율이 같다고 하면 되는데 가짓수가 늘어났으니 각 대답 비율이 모집단마다 같다.’고 해야 합니다.

 

  카이제곱분포 자유도는 (r-1)(k-1)입니다위인 다섯에 회사 셋이니 (5-1)(3-1)=8이 됩니다.




 

  엑셀에선 CHISQ.TEST 함수를 사용합니다. 첫 인수에는 관측도수 범위를 둘째 인수에는 기대도수 범위를 넣으면 자동으로 p값을 반환합니다.


=CHISQ.TEST(관측도수 범위, 기대도수 범위)



   세 회사가 똑같은 비율로 이순신을 존경하는지 CHISQ.TEST 함수를 써 보니 p값이 0.364가 나왔습니다. 귀무가설을 기각할 수 없겠네요.

 

 

모집단 비율 독립성 검정 카이제곱 분포 이용



 

  이제 회사원 100명에게 박사학위가 있는지탕수육, 피자, 돈가스 중 어느 음식을 제일 좋아하는지를 물었습니다. 과연 박사학위 유무는 좋아하는 음식과 관계가 있을까요?

 

  이렇게 독립성을 검정할 때도 카이제곱 분포를 이용합니다. 방법은 동일성 검정과 매우 비슷합니다. 똑같이 기대도수를 구하고, 카이제곱 검정통계량을 구합니다. 자유도가 (r-1)(c-1)인 카이제곱 분포에서 검정통계량보다 오른쪽에 있는 영역 넓이가 p값입니다. 귀무가설은 두 변수는 독립적이다.’고 대립가설은 두 변수는 독립적이지 않다.’입니다. p값이 유의수준보다 작으면 귀무가설을 기각합니다.

 

  이 회사원들의 박사학위와 음식 취향이 독립적인지 알아봅시다. 역시 엑셀 CHISQ.TEST 함수를 이용합시다. 기대도수를 구하고 카이제곱 검정통계량을 구했습니다. 카이제곱 분포에 넣어보니 p값이 0.8이네요. 이것도 기각할 수는 없겠네요.

 

반응형
  Comments,     Trackbacks
엑셀로 통계하기 19 - 분산분석 이원배치법
반응형



  지난 시간에는 여러 모집단 평균을 비교하는 분산분석을 수행했습니다. 인자가 하나인 일원배치법이었죠. 첨가제에 따른 제조 시간이 같은지 다른지를 판단했죠. 그런데 첨가제와 온도를 동시에 고려할 수는 없을까요? 예를 들어 첨가제 A80도 온도로 공정을 실행할 때와 첨가제 B90도 온도로 공정을 실행할 때 제조 시간이 같을까요?

 

  이렇게 인자 두 가지를 고려하는 방법은 이원배치법(Two way factorial design)이라고 합니다. 이원배치법은 반복이 없는 이원배치법과 반복이 있는 이원배치법으로 나뉩니다. 반복이 없는 이원배치법은 말 그대로 처리마다 결과가 하나입니다. 반복이 있는 이원배치법은 처리마다 여러 번 시험해서 결과도 여럿입니다. 반복이 없는 이원배치법부터 살펴봅시다.

 


반복이 없는 이원배치법


 지난 분산분석에서 자료값과 총평균의 차이를 분석한 것 생각나나요?


 

자료값과 총평균의 차이

= 처리가 달라서 생기는 차이 + 자료마다 개별로 생기는 차이

 




  공장으로 돌아가 봅시다. 첨가제와 온도를 다르게 하면서 제조시간을 쟀습니다. 첨가제는 세 종류, 온도는 두 종류가 있다고 가정합니다. 첨가제 B, 90도 자료를 보겠습니다. 이 자료와 모평균(자료 총 평균으로 모평균을 추정합니다)의 차이는 세 가지로 나눌 수 있습니다.

 

   자료값과 총평균의 차이

= 첨가제에서 생기는 차이 + 온도에서 생기는 차이 + 자료마다 개별로 생기는 차이

 

  첨가제에서 생기는 차이는 첨가제별 평균 - 총평균입니다. 온도가 달라서 생기는 차이는 온도별 평균 - 총평균입니다. 개별로 생기는 차이는 자료값에 각 인자별 평균을 빼고 총평균을 더한 값입니다. 식으로 쓰면 다음과 같습니다.




  (표본평균-총평균)의 제곱합을 처리제곱합이라 불렀습니다. 그런데 인자가 둘이라 표본평균도 첨가제별 평균, 온도별 평균으로 둘입니다. 따라서 처리제곱합도 두 가지입니다. 처리제곱합의 자유도는 각 인자수-1입니다. 첨가제 처리제곱합의 자유도는 3-1=2, 온도 처리제곱합의 자유도는 2-1=1가 되죠. 오차제곱합은 다행히 하나군요.











 

  처리제곱합을 자유도로 나눈 처리제곱평균은 두 가지, 오차제곱합을 자유도로 나눈 오차제곱평균은 한 가지입니다. 오차제곱합은 자유도가 조금 특이합니다. 각 인자 가짓수에서 1을 뺀 값의 곱이죠. 첨가제는 세 가지 온도는 두 가지니까 오차제곱합의 자유도는 (3-1)(2-1)= 2네요.



 

  처리제곱평균이 둘이니 처리제곱평균을 오차제곱평균으로 나눈 F비도 두 가지입니다. 귀무가설/대립가설 쌍도 두 가지고요.


  여러분은 원하는 인자를 골라서, 각 자유도에 맞는 F분포를 그린 뒤 F비 오른쪽 넓이(p)를 구한 후 유의수준과 비교하면 됩니다. F분포에 들어가는 자유도는 SSTR 자유도와 SSE 자유도로 일원배치법과 같습니다. p값이 유의수준보다 작으면 귀무가설은 기각되고, 그 인자별 모집단 평균은 다르다고 말할 수 있습니다.

 

 

반복이 있는 이원배치법

 

첨가제와 온도가 만나서 시너지를 낼 수도 있잖아요!’


  맞습니다. 첨가제 그 자체, 온도 그 자체가 내는 효과도 있겠지만 특정 첨가제와 온도가 만나서 내는 효과도 있을 수 있습니다. 어느 한 처리가 특별한 값인 건 첨가제나 온도 탓일 수도 있지만, 딱 그 첨가제와 딱 그 온도가 만나서 나오는 효과 탓일 수도 있죠.

 

  반복이 있는 이원배치법은 이렇게 두 인자가 만나서 내는 교호작용(Interaction)’을 확인할 수 있습니다. 반복이 있는 이원배치법은 말 그대로 이원배치법을 처리마다 여러 번 시험하는 것입니다. 첨가제A80도를 세 번 시험하고 첨가제A90도를 세 번 시험하고.



 

  이번 경우에는 처리마다 세 번 시헙했습니다. 이제 자료값과 총평균의 차이는 인자마다 있는 차이뿐 아니라 인자들이 만나서 생기는 차이도 한몫합니다.

 

   자료값과 총평균의 차이

= 첨가제가 달라서 생기는 차이 + 온도가 달라서 생기는 차이

+ 첨가제와 온도가 만드는 차이 + 자료마다 개별로 생기는 차이

 

  총제곱합 = 처리제곱합 세 가지와 오차제곱합



  세 가지 처리제곱평균이 생깁니다. 자연스레 F비도 세 가지고 귀무가설/대립가설도 세 가지가 나오겠죠.




 

 

엑셀 반복이 없는 이원배치법



 

[데이터] - [데이터 분석] - [분산 분석: 반복 없는 이원 배치법]을 선택합니다.

 



데이터 범위과 유의수준을 정합니다.

(‘이름표에 체크하면 인자 이름이 있는 셀도 선택할 수 있습니다.

인자 이름이 결과표에 떠서 결과를 알아보기 쉬우니 체크하는 편이 좋습니다.)

 


 

확인을 누르면 F비와 p값을 볼 수 있습니다.

(변동의 요인에서 인자 A()은 세로(여기서는 온도), 인자 B()은 가로(여기서는 첨가제)입니다.)

 


엑셀 반복이 있는 이원배치법




[데이터] - [데이터 분석] - [분산 분석: 반복 있는 이원 배치법]을 선택합니다.



 

데이터 범위, 표본당 행수, 유의수준을 정합니다.

(엑셀에서 반복 있는 이원배치법을 하려면 처리 별 자료를 세로로 나열해야 합니다. 이 행 수를 표본당 행수로 입력합니다. 가로로 쓴 데이터도 쓸 수 있으면 좋을 텐데요.)



 

확인을 누르면 각 인자와 교호작용에 따른 F비와 p값을 볼 수 있습니다.

반응형
  Comments,     Trackbacks
엑셀로 통계하기 18 - 등분산을 검정하는 법
반응형



  분산분석은 모집단의 평균이 전부 같은지 알아내는 기술이지만, 조건이 있죠. 모집단이 전부 정규분포고 표본은 모두 독립, 무작위로 추출해야 합니다. 게다가 모집단의 분산이 전부 같아야 분산분석을 수행할 수 있습니다. 그럼 모집단의 분산이 같은지는 어떻게 알까요? 여기 두 가지 방법이 있습니다. Levene’s testBartlett’s test입니다.

 


Levene’s test


  Levene’s test부터 배워봅시다. 모집단 분산이 전부 같다는 귀무가설과, 모집단 분산이 하나라도 다르다는 대립가설을 세웁니다.



 

  가설을 세우셨나요? 좋습니다. 이제 W를 구하셔야 합니다. 식이 좀 복잡합니다.





 

  Z를 눈여겨보기 바랍니다. 이 공식에서 제일 어렵고 중요한 부분입니다. Z값은 이전에 배운 z-(z-score)이 아닙니다.

 

  Z값을 구하는 방법은 세 가지입니다.




첫째, 자료값에서 그 자료가 속한 그룹의 평균을 뺀 절댓값

둘째, 자료값에서 그 자료가 속한 그룹의 중앙값을 뺀 절댓값

셋째, 자료값에서 그 자료가 속한 그룹의 10% 절삭평균(상하위 5%씩을 제외한 값의 평균)을 뺀 절댓값

 

  Z는 모집단 분포에 따라 다른 방법을 고르는 것이 좋습니다. 분포가 대칭이고 적당히 흩뿌려져 있다면 첫째 방법이, 분포가 비대칭이면 둘째 방법이, 자료의 꼬리가 길다면 셋째 방법이 좋다고들 합니다.



 

  지난 시간에 배운 F분포 기억하시죠? 자유도 두 가지를 넣어야 했죠. 이번에도 두 가지 자유도를 넣습니다. 자유도는 k-1, N-k입니다. 유의수준을 0.05로 정한다 치고 오른쪽 넓이가 0.05F분포 위치를 역함수로 계산합니다. 만약 W가 그 값보다 크면 귀무가설을 기각합니다.


 엑셀에서는 F.INV.RT 함수가 유의수준과 자유도에 맞는 오른쪽 꼬리 넓이에 맞는 값을 역계산할 수 있습니다.


사용방법 : = F.INV.RT( 유의수준 , 첫 자유도, 둘째 자유도)

 





 

Bartlett’s test

 

  이 방법은 데이터가 정규분포일 때 적합한 방법입니다. 자료가 정규분포를 따르지 않으면 비효율적이지만, 정규분포를 따르면 Levene’s test보다 더 정확하다고 합니다.

 

  귀무가설과 대립가설을 정합니다. 이번에도 귀무가설은 모든 집단 분산이 전부 같다는 가설이고, 대립가설은 하나라도 다르다는 가설입니다.

 

  이번에는 W 대신 T를 구합니다.



 

  그리고 F분포 대신 카이제곱 분포를 이용합니다. 카이제곱 분포는 자유도 하나가 필요합니다. 자유도는 k-1입니다. 이 카이제곱 분포에서 오른쪽 면적이 유의수준인 값을 구합니다. T가 그 값보다 크면 귀무가설을 기각합니다.


  엑셀에서는 CHISQ.INV.RT 함수가 카이제곱 함수 오른쪽 꼬리 넓이를 역함수로 계산합니다.


사용방법 : = CHISQ.INV.RT(유의수준, 자유도)

 

 


실제로 Levene’s test를 해보았다



 

  국가수자원관리종합정보시스템(WAMIS, www.wamis.go.kr)은 국내 하천, 강수 관련 정보를 제공하는 사이트입니다. 강수량, 수위, 용수 이용량 등이 있으니 관련 학과나 업계에 계신 분이라면 추천합니다.



 

  아무튼, Levene's test로 정말 등분산을 검정할 수 있는지 알아봅시다. 2017년 한강대교 관측소가 측정한 한강 유량 일별 자료를 내려받았습니다. 이 자료에서 여러 표본을 무작위로 뽑은 다음 Levene’s test를 실시합니다. 같은 자료에서 뽑은 표본이니 모집단 분산은 전부 같습니다. 과연 등분산 검정이 가능할까요? 세 가지 선택이 가능한데 그중 그룹 평균과 중앙값으로 해 보겠습니다. 유의수준은 0.05로 정했습니다.

 

  먼저 WAMIS에서 엑셀 파일로 유량 데이터를 내려받습니다. 엑셀 [데이터 분석] - [표본 추출]에 들어가면 무작위 표본을 추출할 수 있습니다. 30개를 뽑아 3그룹으로 나눕니다. 그럼 표본 크기가 10인 표본이 셋 나오는군요.



 

  시험 결과 평균으로 계산 시 W3.75, 중앙값으로 계산 시 0.86입니다. F값은 3.35로, Z를 평균으로 계산하면 귀무가설이 기각되고 중앙값으로 계산하면 귀무가설을 기각할 수 없습니다. 분포가 비대칭적이어서 중앙값으로 계산하는 두 번째 방법이 확실히 효과가 있는 것 아닐까요?


  이 결과는 어쩌면 한 번 뽑은 자료를 다시 뽑지 않아서 틀렸을 수도 있고, 그냥 제 부족한 통계 지식 때문일 수도 있으니 함부로 믿으시면 곤란합니다.

반응형
  Comments,     Trackbacks
6월 첫째 주 닥터후 소식
반응형

  이제 덥습니다. 밤에 이불을 깔지 않아도 잠이 잘 오더군요. 추위는 껴입으면 된다지만, 더위는 다 벗어도 덥습니다. 참 불공평하지 않나요? 이번 주에는 소식이 꽤 생겼습니다.

 

첫째, 빅 피니시에 합류한 클래스

 



  닥터후의 스핀오프 시리즈 클래스(Class)가 빅 피니시에서 오디오 드라마로 재탄생한다고 합니다. 이미 소문은 들렸고, 클래스 종영을 아쉬워한 사람이 없지는 않아서 예상 가능한 소식이었습니다.

 

  토치우드, 사라 제인 어드벤처 등 스핀오프에 거리낌이 없던 러셀 T 데이비스와 달리 스티븐 모팻은 스핀오프에 인색했습니다. 모팻이 다루던 줄거리도 우는 천사와 사일런스 등 과거 괴물보다는 새로운 괴물과 설정에 주목했고, 미시 등 과거 악당도 새로운 모습을 덧칠해 등장시켰습니다. 어느 정도 추억을 팔던 러셀과 다르게 모팻은 철저하게 전진 기어를 넣어서 팬덤도 스핀오프가 없는 것을 이해하던 참이었죠.

 

  그래서 시즌 9가 끝나고 새 스핀오프 시리즈, 클래스가 발표되자 팬들이 더 기대했는지도 모릅니다. 클래스는 클라라가 일하던 콜 힐 스쿨 학생을 주인공으로 한 드라마입니다. 콜 힐 스쿨은 1963년 최초 동반자인 이안과 바바라가 교사로 일하던 학교기도 하죠. 모든 이야기가 시작한 바로 그 장소입니다. 콜 힐 스쿨에서 벌어지는 미스터리한 사건을 학생들이 해결하는 스핀오프 클래스는 예상보다 미지근한 반응을 낳았습니다.

 

  저도 아직 클래스는 보지 못했지만, 팬들은 그다지 재밌다고 생각하지는 않는 모양입니다. 이제 클래스가 빅 피니시에서 오디오 드라마로 재탄생한다니 이번에는 잘 되었으면 합니다.

 

 

둘째, 시즌11 트레일러가 곧 공개?

 



  올해 10월경에 방송하는 시즌 11. 제 착각일 수도 있지만, 이번 시즌은 다른 시즌보다 정보가 늦게 풀리는 것 같습니다.

 

  그러는 와중 예고편이 2주 후에 공개된다는 소문이 생겼습니다. 2주 후, 정확히는 월드컵 잉글랜드 경기가 끝난 후라고 하네요. 잉글랜드 경기가 끝난 다음이라는 말이 맞는다면 그 경기는 잉글랜드와 튀니지의 32강 경기일 겁니다. 잉글랜드 튀니지 경기는 우리나라 시각으로 619일 새벽에 열립니다.

 

  이번 소문에 따르면 예고편은 25초짜리고 타디스 내부는 나오지 않는다고 합니다. 소문이 맞아도 겨우 25초 예고편이라니. BBC, 이거 너무 짠 거 아닙니까?




 

 

셋째, 트위치 닥터후는 순항 중



 

  지난주부터 트위치는 클래식 닥터후를 방송합니다. 매일 두세 시리얼을 방송 중인데 사라진 에피소드가 있는 시리얼은 아예 방송하지 않습니다. 1대 닥터는 거의 절반이 끝났고 사라진 에피소드가 많은 2대 닥터 분량도 금방 끝나겠죠.

 

  ‘뉴닥과 다르게 올닥이라 인기가 별로일 줄 알았는데, 생각보다 시청자가 많습니다. 첫 방송일에는 만 명이 넘는 시청자들이 모여서 첫 에피소드를 봤죠. 화면은 흑백이고 연기는 오그라들고 특수효과는 유치하지만, 오히려 그게 매력인가 봅니다. 여러 사람이 모여서 채팅을 치며 시청하는 재미는 덤입니다.

 

  트위치 닥터후 방송은 뜻하지 않은 밈을 낳았습니다. 에피소드 사이마다 짧은 영상을 삽입했는데, 영상에서 이안이 바바라에게 ‘London 1965!’를 외치는 영상이 은근히 중독성 있었습니다. 중독된 시청자들은 매번 London 1965!를 외치게 되었죠. 아쉽게도 지난주 방영분으로 이안과 바바라는 닥터를 떠났습니다. 앞으로도 트위치 클래식 닥터후가 인기를 끌길 바랍니다.


방송링크

 

 

빅 피니시를 듣다

 

  이번에는 10대 닥터 오디오 드라마 <Death and the Queen>를 들었습니다.



 

  근대 유럽에서 시간여행을 즐기던 닥터와 도나 노블. 도나는 어느 왕국의 왕자 루돌프를 만나 사랑에 빠집니다. 500년 동안 평화로웠다는 왕국. 온갖 시공간을 다녀봤지만 처음 듣는 나라에 닥터는 경계하지만, 도나는 그저 사랑에 눈이 멉니다.

 

  생각보다 열악한 환경과 까칠한 예비 시어머니에도 결혼을 약속한 도나. 결혼식이 눈앞으로 다가온 이때, 성 밖으로 거대한 사신이 다가와 왕국을 위협합니다. 닥터는 이 미스터리를 해결할 수 있을까요? 도나는 결혼식을 마칠 수 있을까요?

 

  매번 클래식 닥터후 드라마만 내놓던 빅 피니시는 마침내 2016년 데이비드 테넌트와 함께 10대 닥터 오디오를 발표합니다. 첫 컴패니언은 도나 노블로 캐서린 테이트가 녹음했습니다. 첫 볼륨은 60분짜리 세 편인데 그중 한 편이 바로 <Death and the Queen>입니다.

 

  <Death and the Queen>은 클래식 오디오 드라마보다는 훨씬 재치 있고 재밌습니다. 아무래도 원본(?)이 최신이라 그런 듯합니다. 보통 닥터후 오디오 드라마는 120분인데 이번 10대 닥터는 몸값이 비싸서 그런지 60분입니다. 체감 길이는 드라마 한 편이 조금 못 되지만, 재미가 있어서 용서하겠습니다.

 

  구매 전 여러 외국 블로그 리뷰를 보니 러셀 T 데이비스의 감성을 되살렸다는 평가가 있더군요. 정말 러셀 T 데이비스 시절의 유머와 감동을 다시 느낄 수 있었습니다. 데이비드 테넌트와 캐서린 테이트가 반가운 <Death and the Queen>. 10대 닥터 오디오는 구매 시 대본도 제공하니 참고하길 바랍니다.

반응형

'닥터후' 카테고리의 다른 글

7월 첫째 주 닥터후 소식  (0) 2018.07.02
6월 마지막 주 닥터후 소식  (0) 2018.06.25
5월 다섯째 주 닥터후 소식  (0) 2018.05.28
5월 넷째 주 닥터후 소식  (0) 2018.05.21
5월 셋째 주 닥터후 소식  (0) 2018.05.14
  Comments,     Trackbacks