FASTA file 이란?


FASTA 파일은 Nucleotide - DNA서열 이나 단백질 서열을 텍스트 형식으로 저장해 놓은 파일을 뜻합니다. 
그 중, Reference genome (참조유전체)는 특정 종(Species)의 전체 염기 서열을 Assembly 한 FASTA파일입니다.

FASTA file의 구성


">" 로 시퀀스를 나눠서 표현 할 수 있습니다.
만약 참조유전체라면 ">chr1", ">chr2" 와 같이 Chromosome 단위 별로 시퀀스를 나눠주고, ">chr1" 아랫 줄에 시퀀스를 기입해 줍니다.
만약 단백질 서열이나 유전자 서열에 관련된 FASTA 파일이라면,
">유전자이름" , ">단백질이름" 아랫 줄에 염기서열이나 단백질 서열을 기입해 줍니다.

FASTA file ">"단위로 나누기


참조유전체와 같은 큰 파일을 다루다보면, Chromosome별로 파일을 나눠서 작업해야 하기도 합니다. 
이때 pyfaidx를 이용하면 아래 예시와 같이 Chromosome 별로 FASTA파일을 나눠 줄 수 있습니다.
 

  1. pip install pyfaidx
  2. faidx -x Zea_mays.AGPv4.dna.toplevel_OnlyChr.fa
  3. >> 0.fa  1.fa  2.fa  3.fa  4.fa  5.fa  6.fa  7.fa  8.fa  9.fa  Mt.fa