초기하분포는 무엇인가?
전체 N개 중에서 "성공" 과 "실패" 가 각각 K 개와 N-K개가 있다고 하자. 여기에 크기 n인 랜덤 표본을 뽑아서 "성공"횟수가 k개 나왔다고 해보자. 그렇다면, "성공"의 표본비율은 k/n이 될것이다. 이러한 표본비율로 모비율(K/D)을 예측한다고 생각하는 경우에 나타내는 통계량 X의 확률분포를 초기하분포라고 한다.
표본의 크기 n이 K와 N-K보다 작아야한다.
표본비율은 0부터 n까지의 정수값을 가질 수 있으며 이에 대한 확률을 수식으로 나타내면..
여기에서 소문자 x는 0,1,2,3,4,... 가 될 수 있다.
쉬운 예제로 생각해보자. 만약에 아주큰 상자안에 30개의 트와이스 사진이 있는 공(성공 횟수 K) 과 70개의 검은공(실패횟수 N-K) 총 100개(N)가 들어있다고 해보자. 근데 이 아주큰 상자에 있는 공을 다 세보기가 힘들어서 우리는 이 상자안의 공 중 20개(n인 랜덤 표본)만 샘플링할것이다.
그랬을때 트와이스 공(성공)이 1개(x) 나올 확률은 무엇일까?
위의 식에 대입해보면 된다!
위의 수식에서 () 는 확률에서 Combination을 의미한다 즉 1)의 (30 1)은 30C1 이다 ^^. Combination의 뜻은 30개의 공 중에서 순서를 고려하지않고 1개의 공을 뽑는 경우의 수다. 이런식으로 나머지 1),2),3) 도 해석이 가능하다.
위에수식에서 1) 은 30개의 트와이스 공들 중 1개를 뽑을 경우의 수이다. 2)는 70개의 검은색 꽝 공에서 19개를 뽑을 경우의 수이다. 분모의 3)은 100개의 총 모든 공들중에 20개의 공을 뽑을 경우의 수이다. 즉 100개의 총 모든 공들 중에 20개의 공을 뽑았을때를 분모로 성공1개가 나올 경우의수를 고려하여 확률을 구한것이 위의 식인 것이다!
이와같은 통계량 X의 확률 분포를 초기하 분포라고 한다.