DEG분석: Gene symbol 유전자 정보를 Count matrix 에 매칭 시키넣기

아래 표와 같이 DEG를 얻기 위한 통계 처리를 EdgeR으로 한 후에 테이블을 보면,

유전자 이름이 앙상블 유전자 ID 로 되어있기 때문에 한눈에 유전자 정보를 보기 쉽지않습니다.

이를 위해 유전자이름을 옆에 붙여주는 과정이 필요한데요.

R에 있는 패키지를 통해서 수행 해도 되지만, 이 경우엔 대표종이 아닐 경우 어려움이 있을수 있습니다.

그래서 아래와 같은 방법으로 수행하면 좀 더 편하게 할 수 있습니다.

1. 앙상블(Ensembl)에서 유전자 정보 다운받기

1) https://useast.ensembl.org/index.html에 접속을 합니다.

2) Biomart 클릭

3) Ddtaset에서 종(Species) 선택해주기.

4) Attribute에서 선택되어있는 모든 항목 해제하기

5) 아래 그림에서 나와있는것 처럼, Gene stable ID, Transcript stable ID, gene names, gene description 순서로 선택해주기

6) Result 클릭후 tsv형식으로 파일 다운받기. --> 다운 받은 파일은 Esembl_Geneinfo.txt 로 저장

2.아래 주소 에서 파이썬 코드를 복사 한 후 실행하기

https://enjoybioinfo.blogspot.com/2021/07/deg.html

에서 파이썬 코드를 복사한 후에 Combine_DEG_Geneinfo.py 파일을 만들어준다.

준비물:

1) DEG 파일 (DEG.txt)

2) 위에서 앙상블에서 다운받은 파일 (Esembl_Geneinfo.txt)

명령어: python Combine_DEG_Geneinfo.py DEG 파일 (DEG.txt) 앙상블에서 다운받은 파일 (Esembl_Geneinfo.txt) Outfile이름(DEG_Geneinfo.txt)

결과 파일: