싱글셀이아닌 Bulk RNA-seq에서는 유전자 발현양을 분석할때 샘플 (또는 Replicate) 의 유전자 발현양을 간단하게 box plot으로 나타낼 수 있습니다.
위 그림은 arftf10이라는 유전자의 발현양을 Bif3와 WT에서 비교한 box plot입니다.
싱글셀 데이터는 위와같이 유전자 발현양을 표현하기에는 한계가 있습니다. 그 이유는 특정유전자의 발현양이 0 인 세포(셀 또는 Cell)가 많기 때문입니다. 예를들어서, 비교하고 싶은 셀타입A에 Wild type과 Mutant 가 있다고 했을때, 세포의 갯수는 적게는 100 개에서 많게는 500개까지 있을 수 있습니다. 이 중 80%이상의 세포가 해당 유전자 발현량이 0일 수 있습니다. 싱글셀 분석에서는 제일 먼저 Quality Control를 통해 Droplet - 실제로 시퀀싱된 세포가 아닌 노이즈 - 은 필터링 하기 때문에 발현량이 0이라고해서 Droplet은 아니겠지만, 시퀀싱 Depth가 낮을 경우 0이 더 많을 수 있습니다. 하지만 실제로 대다수의 세포가 같은 세포그룹내에있을 지라도 다 발현되지 않음을 감안해서 0-발현량이 아예없는 세포가 많은 유전자가 존재 할 수 있습니다.
이를 보완하기 위해서 싱글셀 분석에서는 Dotplot이 많이 이용됩니다. Doptlot으로는 두개의 값을 시각화 할수있습니다.
1. 유전자 발현량의 평균값
2.
싱글셀 유전체 분석에서 사용되는 "마커유전자(marker gene) Dot plot " 분석 방법, R코드, 그리고 왜 dot plot을 그리는지에 대해서 다뤄보았습니다.