[RNA-seq] DEG 분석뜻 Normalization, FDR이 왜 필요할까?

DEG의 정의

DEG는 Differentially expressed gene의 약자로 "다르게 발현하는 유전자"를 뜻합니다.

다르다는 것을 이야기하기 위해서는 두개 이상의 그룹, 예를들어 Control Group(대조군 그룹)과 Treatment Group(실험군 그룹)의 비교에서 발현 양이 다른 유전자를 DEG라고 합니다.

예를들어서 Control(대조군)에서 유전자 A의 발현양은 5, 유전자 B의 발현양은 2인데, Cancer그룹 (실험군그룹)에서 유전자 A의 발현양은 5, 유전자 B의 발현양은 7이라고 하면 유전자 B가 DEG라고 말할 수 있을까요?

두 그룹의 값을 비교한다고 하면 가장 먼저 떠오르는 통계테스트는 T-test(T-검정) 입니다.

하지만 T-test는 정규분포 (Normal distribution)일때 사용하는 통계테스트입니다,

유전자의 발현량이 어떤 분포를 띄고 있는지에 따라 통계테스트를 다르게 사용해야합니다.

마이크로어레이를 통해 유전자발현량을 분석하던 과거에는 분포를 정규분포로 가정하고 T-검정을 진행하기도 했고, 이를 보완하기 위해서 Permutation test 를 하기도 하였습니다.

요즘 많이 사용되는 RNA-seq에서는 유전자의 발현양이 Negative binomial distribution을 띄고 있다고 가정하고 통계테스트를 하고 있습니다.

통계적으로 DEG를 말하고자 할때는 대조군과 실험군 그룹에서 각각 유전자별로 통계 테스트를 하게 되고, 테스트 결과를 아래 표와같이 나타낼 수 있습니다.

Reference genome에 정렬된 read들은 이미 알려져 있는 유전자의 위치정보 (annotation)을 통해 유전자별로 read의 개수를 셀 수 있습니다.

이 과정에서 샘플간의 라이브러리 사이즈를 보정하기 위해, 각 유전자별로 정렬된 read의 수를 normalization 합니다.

그 후, 통계적 방법을 활용하여 형질과 관련되어 있을 것으로 예상되는 차등 발현 유전자를 발굴합니다.

P-value는 형질에 따라 유전자의 발현량이 얼마나 유의하게 차이가 있는지를 나타냅니다.

여러 유전자들에 대한 통계테스트가 여러번 수행되기 때문에, Multiple test correction을 위해서 FDR 값(Benjamini-Hochberg) - Adjusted P value이 사용됩니다.

FDR 0.05 값을 기준으로 총 몇개의 DEG가 발굴 되었는지 알 수 있습니다.

logFC는 그룹간에 발현량이 얼마나 차이가 나는지를 나타냅니다.

logFC의 절대값이 클수록 그룹간의 발현량의 차이가 큰 것입니다.

양의 logFC는 컨트롤 샘플을 기준으로 유전자가 up regulation된 것을 뜻하며, 음의 logFC는 down regulation된 것을 뜻합니다.