아래 work flow 는 Trinity 를 통해서 reference 및 유전자 어노테이션이 없는 종의 경우 어떻게 분석을 할 수 있는지 보여줍니다.
이 분석에 실제로 사용된 Tool 들의 옵션은 아래와 같습니다.
Trinity 를 돌리고 난 후에 결과 파일에 대한 해석
* Transcript 와 Gene 의 갯수
* Stats based on all transcript contigs
* 결과 파일 예
Fasta 형식의 심볼의 규칙에서 TRINITY_DNxxx|cxx‘ 는 Trinity read cluster 를 의미하고, 'g‘ 는 gene 을 ‘i ‘는 isoform 을 의미함.
Annotation 정보 해석
Trinity 를 통해 얻어진 transcript 서열의 coding region 을 찾고, exon 과 coding sequence(cds) 가 어디에 위치해 있는지 정보를 제시함.
생성된 파일 : longest_orfs.cds, longest_orfs.pep, longest_orfs.gff3
longest_orfs.cds 와 longest_orfs.pep 는 가장 긴 open reading frame 으로 부터 나온 염기서열 와 단백질 서열 정보를 저장함. longest_orfs.gff3는 Assembly 된 sequence로 부터 exon 과 cds 의 위치 정보를 보여줌.
예) Longest_orf.pep 의 일부
>TRINITY_DN100517_c0_g1::TRINITY_DN100517_c0_g1_i1::g.3::m.3 type:internal len:108 gc:universal TRINITY_DN100517_c0_g1_i1:321-1(-)
PSRSTVPSLAPIQFSFSCRKQKKGTVGFCFLLLSSYPHVPSPFHAFSLSFERFSTQVISPSRNSLSPLTHFRSSRRCKPRKRMSRSSPSSHSDPFCTARALEPASTA