설찬범의 파라다이스
글쓰기와 닥터후, 엑셀, 통계학, 무료프로그램 배우기를 좋아하는 청년백수의 블로그
지리통계학 (1)
Moran의 I 통계량(Moran's I statistics)
반응형

P. A. P. Moran(1917~1988)



  모란의 I값은 공간적 자기상관성(Spatial Autocorrelation)을 재는 수치 중 제일 일반적입니다. 만약 공간에 어떠한 과정도 존재하지 않는다면, 구역별로 완전히 무작위로 사건이 발생해서 어느 곳도 딱히 밀도가 높거나 낮지 않을 것입니다. 이런 무작위 상태를 CSR(Complete Spatial Randomness) 이라고 하는데, Moran's I는 값 분포가 이 CSR과 얼마나 다른지 파악하는 수치로 사용됩니다.


  한 지역에 여러 구역이 있고, 구역마다 통계수치(발생 건수, 평균 농도 등)가 있다고 해 봅시다. Moran's I값은 평균을 기준으로 생각합니다. 모든 구역의 값을 평균냅니다. 이때 인접한 두 구역의 값에서 평균을 뺍니다. 두 구역 값이 평균보다 크다면 둘 다 양수일 것이고 평균보다 작다면 둘 다 음수일 것입니다. 둘 모두 양수거나 음수라면 곱했을 때 양수가 됩니다. 두 관측값이 전체평균에서 같이 멀수록, 두 값에서 평균을 뺀 값을 곱한 수는 커집니다. 이와 반대로 한 관측값은 평균보다 큰데, 다른 관측값은 평균보다 작다면 두 관측값에서 평균을 빼어 곱하면 음수가 됩니다.



인접한 두 지역의 값이 모두 총평균보다 크거나 작다면, 두 값에서 평균을 빼어 곱했을 때 양수가 될 것이다. 반대로 하나는 총평균보다 큰데 다른 하나는 작다면 평균을 빼어 곱해 음수가 될 것이다. 그렇다면 평균을 빼어 곱한 수가 클수록 두 값은 총평균에서 '다같이' 멀리 떨어진, 끼리끼리 노는 값이 아닐까?



  즉 인접하다고 생각되는 두 구역 관측값의 평균편차를 곱하고 다 더하면, 비슷한 값이 몰릴수록 그 곱합도 클 것입니다. 한 지역 옆에 너무나 다른 값이 있을수록 평균편차 곱은 음수가 되어, 총합은 작을 것입니다. 


  Moran's I는 두 가지 값으로 나뉩니다. 하나는 전역적 I값으로 지역 전체의 분포경향을 재고, 다른 하나는 국지적 I값으로 우리가 알고 싶은 한 구역의 분포경향을 잽니다.




전역적 I 통계량




전역적 I 통계량 식은 다음과 같습니다.



n = 단위지역 수

x = i번째 지역의 관찰값

= 총평균

= 공간가중치




  공간가중치는 i구역과 j 구역이 인접하지 않는다고 판단되면 0입니다. 그러니 인접하다고 판단되는 두 구역에서만 숫자를 계산합니다. (i과 j가 같을 때도 물론 공간가중치는 0입니다. 같은 구역에서 계산하지는 않으니까요.) 공간가중치는 어떻게 정할까요? 경계가 닿으면 1, 아니면 0으로 정할 수도 있고 구역 중심 간 거리제곱의 역수 등 창의력을 발휘할 수 있습니다.


  전역적 I 통계량은 -1에서 1 사이 값을 가집니다. 1에 가까울수록 (양의 공간적 자기상관성)비슷한 값이 군집합니다. 즉 공간적 자기상관성이 강합니다. 0에 가까울수록 값은 무작위(CSR)로 분포합니다. I값이 -1에 가깝다면(음의 공간적 자기상관성) 어떻게 분포할까요? 한 구역에는 아주 높은 값이, 그 주위에는 아주 낮은 값이 있을 겁니다. 아주 낮은 값 주위에는 아주 높은 값이 있겠죠. 체스판 같은 모양일 것입니다.



국지적 I 통계량




  국지적 I값은 한 구역만을 봅니다. 한 구역이 인접하는 구역과 비교했을 때 공간적 자기상관성이 있는가, 즉 얘는 끼리끼리 노는 놈인가 알아보는 수치입니다.





Moran's I를 통계적으로 분석하기




  그렇다면 I값이 얼마나 커야 공간적 자기상관성이 존재한다고 말할 수 있을까요? 주사위를 예로 들어 봅시다. 두 주사위를 던졌는데 합이 10 나왔다면 높은 걸까요? 대다수가 그렇다고 할 겁니다. 두 주사위의 눈을 더한 값은 12가 최대기 때문입니다. 정확히 말하자면 합이 10보다 클 확률(약 8.33%)이 그렇게 높지 않기 때문입니다.


  우리가 어떤 확률변수가 높은지 판단할 때는, 흔히 확률분포에서 얼마나 높은 위치를 차지하는지 봅니다. 정확히는 분포에서 그보다 높을 확률이 얼마나 낮은지를 봅니다. 특히 그 분포가 정규분포라면 표준정규분포로 옮겨 z-score를 구하면 분포에서 관측값보다 클 확률을 구하기가 쉽습니다. 예를 들어 표준정규분포에서 z의 절대값이 1.96 이내에 있을 확률이 95%죠. 따라서 z가 1.96보다 크다면 상위 2.5%에 있는 것입니다.


  I값도 일종의 확률변수입니다. 관측값을 무작위로 뿌린 다음 그때마다 I를 구합니다. 과연 실제 I값은 이 I값들 사이에서 얼마나 높은 위치에 있을까요? 다행히도 I값의 평균과 분산은 이미 계산이 되어 있습니다.




따라서 I값의 z-score는





가 되며, 만약 그 z값이 1.96이 넘는다면 이때 공간적 자기상관성은 유의수준 5%에서 통계적으로 유의미하다고 말할 수 있습니다.


(국지적 I값의 평균과 분산은 생략합니다)



Moran's I의 한계




  Moran's I는 큰 값과 작은 값의 군집경향을 측정하는데, 결과에서는 큰 값 군집과 작은 값 군집이 구분되지 않습니다. 실생활에서는 큰 값 군집만 알고 싶을 때가 있는데, Getis-ord G값이 큰 값 군집을 측정하는 통계량입니다.

반응형
  Comments,     Trackbacks