이전 포스팅에서는 positive selection과 negative selection의 개념에 대해서 알아보았다. 이번 포스팅에서는 positive selection과 negative selection을 어떻게 수치화 하는지 에대해서 알아볼 것이다. 

Synonymous mutation과 Non-Synonymous mutation에 대한 이해

먼저, Positive selection은 생존에 유리한 형질로 바뀌도록 특정 지놈 리젼이 mutation이 일어나는 것이 라고 하였다. 그렇다면 유리한 형질로 바뀌는 것을 어떻게 수치화 해볼 수 있을까? 
형질이 바뀌어야 하므로 우리는 여기서 유전자에만 초점을 맞춰보도록 할것이다. 

그렇다면 mutation으로 인해 표현형이 어떻게 바뀔 수 있을까?
기본적으로, 우리는 세개의 DNA염기가 하나의 아미노산을 전사한다는 것을 알고 있을 것이다.
아래의 코돈 테이블을 보면 세개의 염기가 어떻게 다른 amino acid 를 코딩하고 있는지 알 수 있다. 



예를들어서, CAA는 Glutamine을 코딩한다. 이때 CAA에서 두번째 염기인 A 가 C로 바뀌면 CCA(Proline)을 코딩한다. 
반면, 세번째 염기인 A가 G로 바뀌면, CAG는 여전히 Glutamine을 코딩하게 된다.  

코돈 테이블을 보면 알다시피 3개의 base 중 3번째 염기는 아미노산에 큰 영향을 미치지 않는다. 

만약에 아미노산이 바뀌게 되면 표현형이 바뀌게 될 가능성이 높다. 때문에 우리는 mutation으로 인해 아미노산이 바뀌는지 아닌지의 여부로 생존에 유리한 형질로 바뀌었는지 알 수 있게 된다. 



이렇듯, Mutation에는 두가지 종류가 있는데, synonymous mutation과 non synonymous mutation 이다. Synonymous mutation은 CAA(Glutamine) 에서 두번째 염기인 A가 C로 바뀌어 CCA(Proline)으로 바뀌는 것처럼 아미노산이 바뀌어서 functional change 가 일어나는 것을 말한다. 
반면, non-sysnonymous mutation은 CAA(Glutamine) 에서 세번째 염기인 A가 G로 바뀌어 CAG(Glutamine)로 바뀌어도 아미노산의 변화가 없어서 functional change가 일어나지 않는 것이다. 

우리는 Synonymous mutation 이 일어나는 속도를 dN 이라고 불를것이며, Non-sysnonymous mutation이 일어나는 속도를 dS 라고 할 것이다. 


dN/dS 계산

그렇다면 dN과 dS를 어떻게 계산할까? 

dN을 계산 할 때는 분모에는 전체 Non-sysnonymous site의 갯수(즉, 아미노산의 첫번째와 세번째 영역의 갯수)를 넣어주고 분자에는 실제 Non-sysnonymous가 일어난 갯수를 넣어주면 된다. 
예를들어서, 300bp길이의 coding region을 조사한다고 보면, 전체 Non-sysnonymous site의 갯수는 300*2/3= 200 일 것이다. 이때 실제 Non-sysnonymous의 갯수는 2개라고 가정하면 dN 값은 2/200 으로 0.01이 된다.

 dS을 계산 할 때는 분모에는 전체 Sysnonymous site의 갯수(즉, 아미노산의 두번째 영역의 갯수)를 넣어주고 분자에는 실제 sysnonymous가 일어난 갯수를 넣어주면 된다. 
 예를들어서, 300bp길이의 coding region을 조사한다고 보면, 전체 Sysnonymous site의 갯수는 300*1/3= 100 일 것이다. 이때 실제 Sysnonymous의 갯수는 10개라고 가정하면 dS 값은 10/100 으로 0.1이 된다.

그렇다면, dN과 dS를 비교해서 positive selection인지 negative selection인지 알수 있다는 힌트를 얻을 수 있다. 

만약 dS 즉 synonymous mutation이 일어나는 속도가 dN ( nonsynonymous mutation이 일어나는 속도) 보다 빠르면, positive selection이라고 할 수 있다! 

반면,  dS 즉 synonymous mutation이 일어나는 속도가 dN ( nonsynonymous mutation이 일어나는 속도) 보다 느리면, negative selection이다. 

이때, 우리가 실제 DNA 서열로 이러한 분석을 수행한다고 가정해보면, 우리는 여러 종들의 같은 유전자 영역을 비교해서 이러한 dN, dS 값을 얻어 낼 수 있을 것이다.