RNA-seq에서 가장 기본이라고 할 수있는 CPM NORMALIZATION 에 대해서 알아보려고 한다.
먼저 예시테이블을 보면,
이 경우 유전자A의 발현량이 Sample3에서 가장 높다고 말할 수 있을까?
RNA-seq에서 Read가 생성되는 양이 샘플별로 다르기 때문에 절대적인 숫자로 비교하는 것은 힘들 것이다. 그래서 간단하게 이용할수 있는것이 CPM 이다.
Million은 1000,000 에 해당하는 숫자다.
즉, CPM은 (유전자발현랑 / library depth) * 1000,000 이다.
이공식을 적용해보면, Sample1의 GeneA의 CPM은 50000/57815 * 1000,000 = 864827이다.
이렇게 해서 CPM normalization을 할 수 있다.
이에 더해 normalization기법 중하나인 quantile normalization에 대해서 다음 포스팅에서는 소개하고자 한다.