아래 work flow 는 Trinity 를 통해서 reference 및 유전자 어노테이션이 없는 종의 경우 어떻게 분석을 할 수 있는지 보여줍니다.

이 분석에 실제로 사용된 Tool 들의 옵션은 아래와 같습니다.



Trinity 를 돌리고 난 후에 결과 파일에 대한 해석


* Transcript 와 Gene 의 갯수


* Stats based on all transcript contigs


- 위 표에서 ContigN50는 어셈블된 염기들의 50%가 최소 1,356길이인 transcript contigs에 포함된다는 뜻임. Contig N50은 aseembly가 얼마나 긴 길이로 되었는지, 연속된 길이를 나타내 주는 지표임.  

* 결과 파일 예



Fasta 형식의 심볼의 규칙에서 TRINITY_DNxxx|cxx‘ 는 Trinity read cluster 를 의미하고,  'g‘ 는 gene 을 ‘i ‘는 isoform 을 의미함. 


Annotation 정보 해석


Trinity 를 통해 얻어진 transcript 서열의 coding region 을 찾고, exon 과 coding sequence(cds) 가 어디에 위치해 있는지 정보를 제시함.

생성된 파일 : longest_orfs.cds, longest_orfs.pep, longest_orfs.gff3
longest_orfs.cds 와 longest_orfs.pep 는 가장 긴 open reading frame 으로 부터 나온 염기서열 와 단백질 서열 정보를 저장함. longest_orfs.gff3는 Assembly 된 sequence로 부터 exon 과 cds 의 위치 정보를 보여줌.

예) Longest_orf.pep 의 일부
>TRINITY_DN100517_c0_g1::TRINITY_DN100517_c0_g1_i1::g.3::m.3 type:internal len:108 gc:universal TRINITY_DN100517_c0_g1_i1:321-1(-)
PSRSTVPSLAPIQFSFSCRKQKKGTVGFCFLLLSSYPHVPSPFHAFSLSFERFSTQVISPSRNSLSPLTHFRSSRRCKPRKRMSRSSPSSHSDPFCTARALEPASTA