FASTA file 이란?
FASTA 파일은 Nucleotide - DNA서열 이나 단백질 서열을 텍스트 형식으로 저장해 놓은 파일을 뜻합니다.
그 중, Reference genome (참조유전체)는 특정 종(Species)의 전체 염기 서열을 Assembly 한 FASTA파일입니다.
FASTA file의 구성
">" 로 시퀀스를 나눠서 표현 할 수 있습니다.
만약 참조유전체라면 ">chr1", ">chr2" 와 같이 Chromosome 단위 별로 시퀀스를 나눠주고, ">chr1" 아랫 줄에 시퀀스를 기입해 줍니다.
만약 단백질 서열이나 유전자 서열에 관련된 FASTA 파일이라면,
">유전자이름" , ">단백질이름" 아랫 줄에 염기서열이나 단백질 서열을 기입해 줍니다.
FASTA file ">"단위로 나누기
참조유전체와 같은 큰 파일을 다루다보면, Chromosome별로 파일을 나눠서 작업해야 하기도 합니다.
이때 pyfaidx를 이용하면 아래 예시와 같이 Chromosome 별로 FASTA파일을 나눠 줄 수 있습니다.
- pip install pyfaidx
- faidx -x Zea_mays.AGPv4.dna.toplevel_OnlyChr.fa
- >> 0.fa 1.fa 2.fa 3.fa 4.fa 5.fa 6.fa 7.fa 8.fa 9.fa Mt.fa