이번 포스팅에서는 저번에 언급한 파이프 라인을 따라 메타지놈 분석을 수행했을 때 나오는 정보들과, 이를 어떻게 해석할 것인지에 대해 다뤄보겠다.

먼저 16s rRNA를 시퀀싱한 데이터를 받았다면, 해당 정보를 fastqc 프로그램을 돌려서 아래 표와 같은 정보를 얻을 수 있다. 


표는 시퀀싱 된 Raw read의 정보를 요약한 것으로 Read length는 시퀀싱 된 read의 길이(bp), Read count는 시퀀싱된 read의 개수 (paired end 쌍*2)을 의미한다. 샘플 당 미생물 균총 분석을 위한 충분한 숫자의 read 가 확보되었음을 알 수 있다 (약 10,0000개 이상).

Q30은 퀄리티 스코어(quality score)로서, 생성된 read의 염기의 정확도에 대한 스코어다. 즉, Q30은 1/1000의 확률로 에러가 생길 것이라고 추정된다는 것을 의미하며 99.9%의 정확도를 의미한다. 아래 표의 Q30 는 해당 퀄리티 스코어 이상인 염기들의 비율을 나타낸다. 좋은 퀄리티로 잘 시퀀싱이 됬음을 알수 있다!

두번째로는, paired end 시퀀싱을 merge 하는 단계를 거친다.
이 과정에서는 Illumina sequencer의 짧은 Read length 를 보완하고 좀 더 정확한 16s rRNA gene annotation을 위해, Paired read(각 300bp)로 시퀀싱 되어있는 v3, v4 region을 하나의 read로 merge하는 것이다. 
그러면 프로그램을 돌려서 나오는 수치를 아래와 같이 단정하게 정리할 수 있다. 참고로 아래 테이블 숫자는 임의로 작성한 것이니... 산수를 해봤을 때 맞지 않는 부분은 참고해서 읽어주길 바란다.


Total read는 paired read 쌍의 개수를 의미한다. Overlap algorithm에 부합하여 paired end read가 merge된 개수는 Combined pairs 이며, merge 되지 못한 개수는 Uncombined pairs 임. 전체적으로 약 90%정도의 paired end read가 merge 되었으며, 샘플 당 미생물 균총 분석을 위한 충분한 숫자의 read 가 확보되었음을 알 수 있다.

자세히 정리하다 보니 포스팅이 길어지고 있다. 다음 포스팅에서 qiime2 를 돌렸을 때 나오는 결과들에 대해서 소개할 것이다. 


** 아래 링크를 클릭하면 해당 포스트로 이동합니다.