1. 범주형자료란?

오즈비는 범주형 자료에서 쓰이기 때문에 범주형 자료에 대한 이해가 필요합니다.
범주란 분류하려는 카테고리입니다
해당 자료가 어떤 범주에 분류되어 있는 자료형이라면 이는 범주형 자료라고 할 수 있습니다. 
예를 들어 여자, 남자는 수치형 자료가 아니라 범주형 자료라고 할 수 있습니다.   

게임 동아리에 가입한 사람들을 대상으로 성별에 따라 "동물의 숲"게임을 플레이 해본적 있냐고 설문 조사를 한다고 가정했을때,  
해당 자료형은 여자/ 남자와 같은 성별(범주) 와 동물의 숲 플레이 유무(범주)인 2개의 범주를 가지고 있는 범주형 자료라고 할 수 있습니다. 
아래 테이블처럼 자료를 모을 수 있습니다.



2. 분할표와 독립성

이를 아래와 같은 분할표(Contingency table)형식으로 다시 정리할 수 있습니다. 
분할표는 범주형 자료를 여러개의 범주의 열과 행으로 나타낸 표로 정리한 것입니다.



우리가 궁금한 것은 성별(범주, 변수1)에 따라 
동물의 숲을 플레이(범주, 변수2) 하는 정도가 다른가? 입니다.
이는 통계적 용어로 "독립성" 이라고 합니다. 
두 변수가 독립이면 어떤 특정한 열에서의 확률은 모든 행에서 동일합니다. 예를들어 위의 표에서 동물의 숲을 플레이할 확률이 남성과 여성 그룹에서 동일하다면 두 변수(성별과 동물의 숲을 플레이하는유무)는 독립입니다.

3. 조건부 확률 구하기

자 그렇다면 위의 표에서 성별에 따라 
동물의 숲을 플레이할 확률이 다른지 한번 알아보도록 하겠습니다.
공교롭게도 여자의 총 인원수와 남자의 총인원수가 달라서 알아보기가 힘듭니다.
그렇다면 50, 70과 같이 표기하지 않고 
비율로 표기해 보는것은 어떨까요? 

그래서 아래와 같이 다시 표를 작성해볼수 있습니다. 


위의 확률을 구하는 방식은 성별별 총 인원수를 각각 셀에 나눈 형식으로 "조건부 확률"을 구합니다.
 즉 첫째 행에서는 여성인 경우(조건) , 동물의 숲을 플레이할/혹을 하지않을 확률을 구했고. 
둘째 행에서는 남성인 경우(조건) , 동물의 숲을 플레이할/혹을 하지않을 확률을 구했고.

조건부 확률로 봤을 떄 여자가 동물의 숲을 플레이할 확률이 높아보입니다.
 
하지만 어느정도로 높은것일까요?
성별과 동물의 숲 플레이 유무는 정말 독립인 것일까요? 
이를 해결하기 위해 우리는 Odds ratio를 구해 볼 수 있습니다.


4. 오즈비를 통한 독립성 검정

여기서 odds 오즈란 실패할 확률 대비 성공할 확률입니다. 


"오즈비 = 성공할 확률"

예를들어서 성공할 확률이 0.75이고 실패할 확률이 0.25(1-0.75) 인경우에 
성공의 오즈는 ( 0.75 / 0.25 = ) 3 입니다.
이는 성공확률이 실패확률의 3배라는 것을 의미합니다. 

위의 테이블에서는 우리가 성공할 확률을 여자가 동물의 숲을 플레이할 확률로 생각해 볼 수도 있습니다. 

그렇다면 여자가 동물의 숲을 플레이할 오즈는 어떻게 될까요? 0.416/0.583= 0.71이 됩니다.

즉, 여자가 동물의 숲을 플레이할 확률은 여자가 동물의 숲을 플레이 하지않을 확률의 0.71배입니다.
반면 남자가 동물의 숲을 플레이할 오즈는 어떻게 될까요?
 0.375/0.625= 0.6 
 
즉, 남자가 동물의 숲을 플레이할 확률은 남자가 동물의 숲을 플레이 하지않을 확률의 0.6배입니다

여기서 두 행에서 성별에 따라 구한 오즈를 나눠서 오즈비를 구해보겠습니다.
일단, 오즈비의 정의는


두 오즈를 나누면 오즈비를 구할 수 있습니다.  오즈비의 성질은 다음과 같다. 

만약에 두변수가 서로 독립이면 오즈비는 1이 됩니다. 

오즈비 1을 기준으로 오즈비가 1보다 크면 
첫째 행에서의 성공의 오즈가 두번째 행보다 높다는 것을 의미하게 됩니다. 


동물의 숲 게임 예제로 돌아갑니다. 
위에서 오즈비를 구하면 0.71/0.6 = 1.18 입니다.

 즉 여자일 수록 동물의 숲을 플레이할 확률이 남자일 때보다 1.18배 많은 것입니다.

또한 오즈비가 1에 가까우므로 어느정도는 독립이라고 할 수 있습니다.

자 그렇다면 독립성을 통계적으로 유의하게 검정할 수 있는 방법은 없을까요? 

이에 대해서는 뒤의 포스팅인 카이제곱 검정법과 피셔 정확검정에서 좀 더 자세히 다루도록 할 것입니다.