장내 미생물이 큰 관심으로 떠오르면서, 어떻게 메타지놈 데이터를 분석하는 지에 대해 관심이 높아지고 있다. 여기에서는 메타지놈 분석을 위해 생물정보학에서의 파이프라인, 개요를 다뤄 볼 것이다. 
여타 시퀀싱 데이터 처럼 quality control으로 시작하여 메타지놈 분석은 아래와 같이 행해진다.
꼭 행하지 않아도 되는 분석인 Differential abundant test의 경우 녹색으로 표시하였다. 





Quality Control : 생성된 read 서열에서 adaptor 추정 서열을 제거하고 낮은 quality score를 가진 read 들의 filtering 과정을 수행함.


Merging reads: Paired read(300bp)로 시퀀싱 되어있는 16s rRNA gene v3, v4 region을 하나의 read로 통합.


Feature table construction: 퀄리티 힐터링, 시퀀스간의 중복제거룰 통해 Sequence의 다양성의 지표인 feature를 제시함.


Diversity analysis: 샘플 내의 다양성의 정도를 나타내주는 alpha diverisy와 샘플 간의 다양성을 나타내주는 beta diversity를 분석함.


Taxonomy analysis: 각 taxonomy level 별 미생물 균총의 분포를 분석함.


Differential abundance test:  그룹 간 상대량의 차이가 있는 미생물을 분석함.

이때 사용되는 프로그램들은 아래와 같다. (대표적인 소프트 웨어만 언급을 하였고, 아주 여러 소프트웨어가 사용될 수 있으며 개발 중이니 참고바람.)


Merging reads: Pear

Quality ControlFastQC, DADA2(§DADA2 denoise option

--p-trunc-q 2)

Feature tableDADA2

Diversity Analysis: qiime diversity alpha-group-significance, qiime diversity beta-group-significance, qiime emperor plot

Taxonomy analysis Vsearch / Blast (사용된 database

 Silva 99% )

Analysis of differentially Abundant OTUsdifferentially Abundant analysis EdgeR, Normalization – TMM


다음 포스팅에서는 메타지놈 분석 결과 해석에 대해서 포스팅해보도록 하겠다.

** 아래 링크를 클릭하면 해당 포스트로 이동합니다.


* 아래는 메타지놈 16S rRNA-seq 에대한 한국어 영상입니다.