1) 이 연구에 대해서 간단히 요약해서 말해 보시오.
질병을 가진 환자들과 건강한 사람들간의 장내미생물이 차이가 난다는 것이 밝혀지면서, 질병과 장내미생물의 연관성이 활발히 연구되고 있습니다. 이는 장내미생물은 소화 효소로 분해되지 않는 음식물의 소화를 도울 뿐만아니라, 장 점막의 외부층에 주로 분포하는 장내미생물이 외부 미생물에 대한 일차적인 방어기능을 담당하면서 면역반응을 돕기 때문입니다. 예를들어서 박테로이달(목 order)이 많은 사람은 대장암에 걸릴 위험이 더 높습니다.
저는 여러 질병을 가진 환자들과 건강한 사람을 비교하여 장내미생물이 어떻게 다른지 연구한 기존의 논문을 보면서, 여러 질병을 가진 환자들 사이에 장내미생물이 얼마나 다른지에 대해서 호기심을 갖게 되었습니다. 특히, 장내미생물의 구성의 다름으로 질병들을 구분지을 수 있다면, 머신러닝을 통해 질병을 예측하는 모델을 구축할 수 있을 것이라고 가정하였습니다. 따라서 저는 6가지질병(다발성 경화증, 소아 관절염, 만성피로증후군, 대장암, 뇌졸중,에이즈)에 대한 장내 미생물데이터를 분석하고, 이를 기반으로 여러 머신러닝 알고리즘을 적용하여 6개의 다른 질병들을 예측하는 모델을 구축하고자 하였습니다. 그 결과, LogitBoost 알고리즘과 feature selection 방법 즉, 질병에 크게 영향을 미치는 미생물들을 골라내는 방식을 이용하여 90%이상의 높은 정확도를 갖는 모델을 구축 하였습니다. 이는 여러 질병에게서 다르게 나타나는 미생물에 대한 단서를 제공해 줍니다. 또한 제가 개발한 새로운 컴퓨터모델은 대변으로 좀 더 간편하게 질병을 진단할 수 있는 기반을 제공하였습니다.
2) 왜 6가지 이렇게 다른 질병을 연구하게 되었습니까? 왜 하필 이 6가지 질병인거죠?
저는 다양한 질병이 머신러닝에 의해서 예측될 수 있을지에 초점을 맞추었습니다. 머신러닝에서 “학습” 과정을 위해서는 최대한 많은 샘플의 데이터가 필요합니다. 당시 연구를 수행할 때 EBI라는 데이터베이스에서 가장 많이 쓰이고 있는 시퀀싱 기술을 이용하여 16 s rRNA 시퀀싱을 수행한 모든 질병 데이터를 모았을 때 6가지 질병에 대한 데이터를 수집 할 수 있었습니다. 따라서 다른 질병들에 대해서도 좀 더 연구가 필요하겠지만, 해당 연구에서는 증상이 아주 다른 6가지의 질병들의 장내미생물이 유의하게 다르고 이것이 머신러닝으로 구분될 수 있다는 단서를 제시해주었습니다.
3) 그렇다면 어떤 미생물이 bio marker 로 활용될 수 있습니까?
PSBM3 이라는 미생물이 질병을 예측 하는데 큰 역할을 한것을 밝혀내었습니다. 질병에 크게 영향을 미치는 미생물들을 골라내는 방식을 이용하였을 때 알고리즘에 상관없이 PSBM3는 질병을 예측하는데 중요한 역할을 하였습니다. PSBM3 는 에리시펠로스리키아Erysipelotrichaceae 라는 과(family), Firmicutes (Phylum) 에 속하는 미생물 입니다. 해당 미생물은 기존의 스터디에서도 여러 면역질환과 연관이 있다는 연구가 있었습니다.
4) 구체적으로 어떤 방법을 통해 모델을 구축했습니까?
저의 연구는 메타스터디로써 6개의 다른 연구에서 생성된 데이터를 통합적으로 재 해석하여 모델을 구축하였습니다. 6개의 다른 연구에서 생성된 질병 데이터를 다루다 보니 “표준화”과정이 중요하게 다뤄지게 되었습니다. 저는 처음 데이터 전처리 과정에서 스터디간에 차이로 나타나는 미생물들을 최대한 배제하였고, 표준화 과정에서도 각 스터디에서의 대조군 데이터를 이용하여 표준화를 수행하였습니다. 미생물 양의 정량화는 16s rRNA를 수행하는 경우 genus 레벨까지 밝혀 낼 수 있습니다. 저는 어떤 분류단계에서 미생물을 이용했을 때 예측 성능에 얼마나 영향을 미치는지를 밝혀내고자 하였습니다. 때문에 속, 과, 목, 강, 계 라는 다섯가지 분류단계에서 미생물의 양을 이용하여 질병 예측 모델을 구축 하였고, 속으로 분류된 미생물 분류체계를 이용하였을 때 가장 좋은 성능을 내는것을 확인하였습니다. 그래서 속으로 구분된 미생물의 정량을 이용하여 두개의feature selection 방법, 즉 중요한 미생물들을 골라내는 방법과 LMT, LogitGoost, SVM, KNN 과 같은 4개의 다중 분류기의 성능을 비교하여 최적의 모델을 구축하고자 하였습니다.