이전 포스팅을 요약해서 설명하자면 범주형자료에서 독립성 검정(두 변수가 독립인지아닌지)에 대한 지표로 오즈비(odds ratio)를 이용할 수 있다. 만약 오즈비가 1에 가깝다면 이는 두 변수가 독립임을 뜻한다.
여기서 더 나아가서 두 변수가 유의하게 독립인지 알기 위한 테스트로는 카이제곱 검정법과 피셔 정확 검정 법 둘 다 사용가능하다.
그렇다면 카이제곱검정법과 피셔 정확검정법의 차이는 무엇일까? 카이제곱 검정법은 대표본 이론에 근거한 방법이다. 표본의 크기가 크면 카이제곱 통계량들은 근사적으로 카이제곱에 가까운 분포를 가지게 된다. 그러나 표본의 크기가 작을 때에는 카이제곱 검정법과같은 대표본 근사법보다는 피셔 정확검정법을 쓰는게 좋다. 아래와 같이 30개이하의 샘플을 이용하는 경우 피셔정확검정을 이용해야 할 것이다.
통계 테스트를 진행하기 전에 우리는 항상 귀무가설과 대립가설이 무엇인지 생각해보아야 한다. 그렇다면 피셔 정확 검정법에서의 귀무가설과 대립가설은 무엇일까?
귀무가설은 '두 변수가 독립이다. '이고 대립가설은 '두변수는 독립이 아니다. '가 될것이다.
그러면 독립인지 아닌지 어떻게 수치화 할 수 있을까?
귀무가설은 odds ratio = 1, 대립가설은 odds ratio >1 이 되는 것이다!
조금더 쉽게 접근하기위하여 예제를 통해 생각해보자. 특정시간에 학교앞을 지나가는 사람을 대상으로 BTS 팬인지 아닌지 설문조사를 하고 고등학생인지 아닌지 기록한다고 가정해보자.
위의 테이블에서 귀무가설은 "학생, 성인"(변수1) 이 "BTS 팬유무"(변수2) 와 독립이다. 일 것이다.
위처럼 2*2 table이 있을때 첫째칸 도수가 취할 확률은 아래와 같다.
그 이유는 .. 이 테이블에서 각각 칸의 숫자가 독립적인 이항표본에서 추출되었다고 보면, 사실 행의 합과 열의 합은 고정이 되어있다고 볼 수 있다. 이때 이 칸들의 숫자(칸도수)는 초기하분포를 따른다.
초기하분포가 무엇인지에 대해서는 이전포스팅(클릭해주세요)에서 쉬운 예제로 설명했으니 참고 바란다:)
위에 포스팅을 봤으면 행과 열의 합이 고정되어있는 상황에서 왜 칸도수의 분포가 초기하 분포를 따르는지 이해가 될 것이다.
이를 좀 더 풀어서 설명하자면, 학생인데 BTS 팬인 사람의 수가 위의 표에서는 10명인데 이는 아래와 같은 수식에 넣어서 설명될 수 있다.
이를 해석하면 이와 같다. 3)을 먼저 보자. 참고로 ()는 조합 (combination)을 의미한다. 먼저 3)에서는 18개의 원소중에서 13개를 순서에 상관없이 뽑는 경우의 수이다.
위의 자료의 의미에 대입을 하면 총 설문조사를 실시한 18명의 사람들중 13명의 BTS 팬들을 뽑을 경우의 수이다.
이러한 경우의 수가 분모에 들어간다는 것은 이를 가정할 때~~ 를 의미한다.
즉 18명의 총 인원수 중 13명의 BTS 팬들 을 뽑았다고 할때(조건), 1)*2) 가 일어날 확률이다.
그러면 1)과 2)를 해석해보도록 하자. 1)은 12명의 학생들중 BTS팬인 학생을 뽑을 경우의 수이다. 2)는 7명의 성인들 중 BTS 팬인 성인을 뽑을 경우의 수이다.
이를 곱하면 나이대에 따라서(성인인지 학생인지 에 따라서) BTS 팬을 뽑을 경우의 수가 될것이다.
다시말해서, 나이대를 고려하지않고 BTS팬을 뽑는 것에 비해 (3)에대한 해석), 나이대를 고려했을때 BTS 팬을 뽑을(1)*2)에대한해석) 확률이다.
자 그렇다면 다시 독립성 검정으로 돌아가보자.
여기서 우리가 궁금한 것은 학생/성인인지에 따라서 BTS 팬인지/아닌지를 알고싶다. 이는 피셔의 정확성검정법과같은 독립성검정으로 유의하게 알아볼 수있다. 위에서 구한 확률을 그러면 어떻게 활용할 수 있을까?
자 위에서 학생이면서 BTS 인 사람의 수는 10명이 었고, P(10) 을 통해 10명이 될 확률을 구할 수 있었다. 전체 학생의 수가 12명이고 BTS 팬수가 13명이라는걸 고려했을때, n11 에 들어갈 수 있는 값은 무엇이 있을까?
1,2,3,4,5,6,7,8,9,10,11,12 가 들어갈 수 있을 것이다!
그러면 P(1), P(2), P(3), P(4)... P(12)를 구할 수 있을까?그렇다 !! 2*2 테이블을 다시 그려보면 구 할 수 있다.
자, 이확률을 다 구해보면... 이것은 바로 초기하 분포이다!!
대립가설이 무엇이었는지 위를 보면서 다시 상기시켜보자.
대립가설: odd ratio > 1
이때의 P값은 n11이 관측값 10보다 더 크거나 같을 확률로 초기하 분포의 오른쪽 꼬리와 같다.
그러므로 P(10)+P(11)+P(12)+P(13) 이 피셔 정확 검정을 위한 p-value라고 할 수 있다.