설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
엑셀 유의성검정 (1)
엑셀로 통계하기 외전 - 어느 모바일 게임
반응형






  철수는 지난주에 나온 모바일 게임 차일드 오브 데스티니의 광팬입니다. 여타 모바일 게임처럼 차일드 오브 데스티니도 가챠 시스템으로 아이템을 얻습니다. 가챠가챠(일본어로 철컥철컥)에서 유래한 가챠는, 쉽게 말해 뽑기입니다. 아이템을 얻으려면 일정 금액을 내고 아이템을 추첨합니다. 귀한 아이템일수록 추첨하는 데 돈도 많이 들어가고, 확률도 적습니다.

 

  오늘 철수는 풀이 죽었습니다. 정말 가지고 싶은 아이템이 있었는데, 용돈을 전부 쏟아부어도 나오지 않았기 때문입니다. 게임 개발사는 아이템이 나올 확률이 1.44%라고 말했고 철수는 100번을 시도했지만 당첨하지 못했습니다. 확률 1.44%100번 시도하면, 기댓값이 1.44인데 말이죠.

 

운이 없던 거야.’

 

  철수도 기본교육을 받아서 기댓값을 무턱대고 믿진 않습니다. 기댓값이 1을 넘더라도 재수가 없으면 안 나오니까요. 철수는 다른 사람은 어떤지 보려고 인터넷에 들어갔습니다.

 

  그런데 웬걸. 생각보다 아이템을 얻은 사람이 너무 적었습니다. 여기저기서 의견을 종합해 보니, 총 시도는 5000. 그중 아이템은 42번 나왔습니다. 5000번 중 42번은 0.84%. 아무리 게이머들이 재수가 없다지만 1.44% 확률에서 0.84%가 나올 수 있을까요?

 

 

모비율 가설 검정

 

  데이터는 강수량, 월급처럼 숫자로 나오기도 하지만 /아니오처럼 둘 중 하나로 갈리기도 합니다. 예를 들어 대학생들에게 성별을 물을 수 있겠죠.


 

  대학생들이 너무 많아서 전부 묻지 못한다면, 일부만 뽑아서 물을 수밖에 없습니다. 대학생 100명을 뽑아서 표본을 만들어 성별을 묻습니다. 남학생이 56, 여학생이 44명으로 나왔습니다. 그러나 대학생 전부가 56 44일까요?

 

  지난 시간에 우리는 표본평균의 표본분포로 가설을 검정했습니다. 귀무가설과 대립가설을 세워 모평균이 어떤 값 이상이다/아니다’, ‘이하다/아니다라 가정하고 표본평균과 표준편차(모집단이든 표본이든)p값을 구했습니다. p값이 유의수준보다 작으면 그 귀무가설을 기각했고 크면 귀무가설을 기각할 수 없었습니다(2종 오류 때문).

 

  이제 모비율 p를 검정해서 철수의 호기심을 만족해 줍시다.





 

  일단 차일드 오브 데스티니에서 아이템을 뽑는, 이른바 가챠시행은 베르누이 시행이라고 가정합니다. 가챠의 결과는 성공과 실패 단 두 가지고, 성공률은 불변이며, 모든 가챠 시행은 독립이라고 합시다.

 

  게임 개발사가 공지한 아이템 확률은 1.44%(0.0144)입니다. 철수는 표본 5000가지를 모았고 그중 42번이 성공했습니다. 표본비율은 0.0084가 됩니다. 철수는 모비율에 대한 귀무가설과 대립가설을 세웠습니다.

 

귀무가설 : 모비율은 1.44% 이상이다.

대립가설 : 모비율은 1.44% 미만이다.

 

  철수는 유의수준을 0.01로 잡았습니다. 표본비율이 1.44% 미만이므로, p값만 유의수준보다 낮다면 귀무가설을 기각할 수 있게 됩니다.

 

  모평균을 검정할 때는 정규분포(모표준편차를 알 때)t분포(모표준편차를 모를 때)를 썼습니다. 모집단이 정규분포를 따르면 표본평균의 표본분포는 정규분포를 따릅니다. 모집단이 정규분포를 따르지 않더라도, 중심극한정리에 따라 표본평균의 표본분포는 표본 크기가 크다면 정규분포를 따릅니다.


  이항분포는 어떨까요? 이항분포에서 표본이 어느 정도 크다면 표본비율의 표본분포는 정규분포에 근사합니다. ‘어느 정도는 사람마다 다르지만, 이번 게시물에서는 이 기준을 사용합니다.

 

np5이고 n(1-p)5일 때.

(n : 표본 크기, p : 성공률)

 

  표본 크기는 5000, (개발사가 주장하는) 성공률은 0.0144이므로 두 식을 전부 만족합니다. 따라서 표본비율의 표본분포는 정규분포에 근사합니다. 이 분포의 중심은 0.0144, 표준편차는 공식에 따라 0.001685입니다.

 

  일단 우리는 모집단 표준편차를 모릅니다. 따라서 t분포를 사용할 겁니다. 여기에 들어갈 변환값은 (0.0084-0.0144)/0.001685 = 3.56입니다. 이제 자유도가 n-1=4999t분포에서 3.56보다 작을 확률, p값을 구하면 끝입니다.



 

  엑셀 계산 결과 p값은 약 0.000186. p값이 유의수준 0.01보다 작으므로 모비율이 0.0144 이상이라는 귀무가설을 기각하겠습니다.

 

 


뒷이야기


  이 검정은 어느 정도 실화 기반입니다. 이름을 말할 수 없는 모 게임이 확률을 조작했다는 논란에 휩싸였죠. 개발사가 공지한 확률은 1.44%였지만 5000번이 넘는 시행에서 고작 42번 아이템이 나온 것입니다.

 

  물론 이 게시물과 실제 사례는 다릅니다. 게임 속 가챠는 베르누이 시행이 아니었습니다. 시행이 완전히 독립적이지 않았거든요. 게다가 이항분포는 정규분포와 다릅니다. 표본이 아주 커서 분포를 정규분포에 근사해서 계산했지만, 실제 이항분포를 바탕으로 계산하면 계산 결과가 다를 겁니다.




 

 

반응형
  Comments,     Trackbacks