Methylpy를 통한 Methylaed C calling
맵핑시 주의사항: Reference FA 파일에 컨트롤인 람다의 시퀀스를 넣어줘서 빌트를 해줘야한다.
Methylpy는 어떤 서열의 C가 Methylation되어있는지 methylC파일을 통해서 알려준다.
All C file:
Chr pos strand context mC_count total_C_count result_test
*Result test는 0,1로 1일경우에 methylation 되어있다는 뜻이다.
예를들어서, 아래의 경우 pos131과 151에서 totalC 의 갯수와 methylC의 갯수를 세어보자.
Pos131:
Total C의 갯수: 5
Methyl C의 갯수: 4
Pos151:
Total C의 갯수: 4
Methyl C의 갯수: 0
이경우에 Pos151의 경우엔 테스트결과가 0으로 나올것이고 Pos131의 경우는 1일 것이다.
여기서 주의할 점은 Bisulfite sequencing 에서 Read가 커버하지 않는 지역은 아예 카운팅이 되지 않는다는 것이다.
이러한 메틸레이션 패턴을 그림으로 그리면 보통은 관심있는 유전자지역에서는 메틸레이션이 낮고 그 외의 지역에는 메틸레이션이 높을 것을 예상할 것이다.
이때 플랏을 같은 비율로 그리다보니, 관심있는 지역 주변을 어떻게 표현할것인가는 자유이긴하지만..보통은 주변의 1kb 지역을 20등분으로 나눠서 해당 window의 메틸레이션레벨을 평균을 내서 플랏을 그린다.
위플랏의 Input file:
CG CHG CHH
Up_1 0.133 0.03 0.016
...