GTF/GFF 파일이란?
GTF(General Transfer Format)/GFF(General Feature Format) 파일은 유전체 상에 유전자, exon, transcript, non-coding RNAs등과 같은 Feature들의 위치정보를 기록해 놓은 파일 형식으로, 유전자 정보를 annotation할 때 주로 이용되는 파일 형식이다.
1번째열 : Chromosome 이름
2번째열: Source 이름. 즉 해당 어노테이션이 어디서 되었는지
3 번째 열: feature의 분류. 유전자, exon, transcript, non-coding RNAs인지.
4번째 열: start position *주의: 1부터 넘버링이 시작함(bed file은 0부터)
5번째 열: End position *주의: 1부터 넘버링이 시작함(bed file은 0부터)
6번째 열: Score 보통은 "."으로 공란.
7번째 열: Strand 정보. forward strand 인경우 +, backward인경우 -
8번째 열: frame
9번째 열: Attribute, ";" 세미콜론으로 해당 어노테이션 정보들이 나열되어있다.
GTF 와 GFF의 차이점| 변환방법
gff3 와의 차이점은 마지막 열인 Attribute이다. Attribute에서 gtf는 "gene id", "transcript id"로 구성되어 있는 반면 gff3는 "ID =","Parents=" 등으로 구성되어있다.
여러 툴을 사용해 봤지만 gff3를 gtf로 바꾸기에 가장 좋았던 툴을 소개해 보고자 한다.
1. 툴설치
conda install -c bioconda bioinfokit
git clone https://github.com/reneshbedre/bioinfokit.git
cd bioinfokit
python setup.py install
2. 파이썬 실행 후
from bioinfokit.analys import gff
gff.gff_to_gtf(file="./3.scATAC_flo/0.Reference_populus/PtremulaxPopulusalbaHAP1v5.1.gene_exons.gff3")
Gff --> bed
module load BEDOPS/2.4.39-foss-2019b
gff2bed < Zm-B73-REFERENCE-NAM-5.0_Zm00001eb.1.gff3 > Zm-B73-REFERENCE-NAM-5.0_Zm00001eb.1.bed