WO2020149719A2

WO2020149719A2 - 과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법

Info

Publication number: WO2020149719A2
Application number: PCT/KR2020/000953
Authority: WO
Inventors: 김남일; 민의기; 오현석
Original assignee: 주식회사 천랩
Priority date: 2019-01-18
Filing date: 2020-01-20
Publication date: 2020-07-23
Also published as: WO2020149719A3

Abstract

본 발명은 과민성 대장증후군(IBS)의 진단 또는 위험도 예측을 위한 바이오마커 및 상기 바이오마커를 이용한 IBS의 진단 또는 위험도 예측 방법을 제공한다. 또한 본 발명은 상기 바이오마커를 탐지하기 위한 조성물 및 상기 조성물을 포함하는 과민성 대장증후군의 진단 또는 위험도 예측용 키트를 제공한다. 본 발명이 제공하는 바이오마커는 장내 미생물을 속 또는 종 수준에서 동정함으로써 보다 정확도 높은 과민성 대장증후군의 진단 및 위험도 예측이 가능하다.

Description

과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법

본 발명은 과민성 대장증후군(IBS)의 진단 또는 위험도 예측을 위한 바이오마커, 상기 바이오마커를 이용한 IBS의 진단 또는 위험도 예측 방법, 및 과민성 대장증후군의 진단 또는 위험도 예측용 키트에 관한 것이다. 본 발명에 따른 바이오마커는 장내 미생물을 속 또는 종 수준에서 동정함으로써 보다 정확도 높은 과민성 대장증후군의 진단 및 위험도 예측이 가능하다.

염증성 장 증후군 또는 과민성 대장 증후군 (irritable bowel syndrome, IBS)은 복통 혹은 복부불쾌감, 배변 후 증상의 완화, 배변 빈도 혹은 대변 형태의 변화 등의 특징적인 증상들이 만성적으로 반복되는 대표적인 기능성 위장관 질환이다.

한국인 전체 인구의 약 10%가 IBS 의심 증상을 가지고 있으며, 우울증, 불안장애와 같은 심리적 증상과 동반하는 경우가 많다고 알려져 있다. 그 동안 원인 불명의 뇌기능과 관련된 증상으로 생각되어 왔지만, 최근 연구들에서 IBS 증상이 장내미생물의 변화와 관련이 있음이 밝혀졌다. 뷰티르산 (butyrate) 생산 세균이 감소하면 장벽이 약화되고, 메탄 (methane) 생산 세균이 감소하면 대장 통과 속도가 빨라져 설사형 IBS를 일으킨다. 반면 가스 생산 세균이 너무 많아지면 복부 팽만감과 함께 대장 통과 속도가 느려져 변비를 일으키게 된다. 프로바이오틱스의 섭취가 IBS 증상의 완화와 우울증 완화에 도움이 된다는 연구와, 장뇌축의 불균형이 IBS를 일으킨다는 최신 연구 결과는 IBS의 원인 규명과 치료에서 장내미생물의 중요성을 강조하였다.

이와 같이 장내 미생물의 불균형이 과민성 대장 증후군의 병태 생리에 관여한다는 사실을 규명하기 위해서 과민성 대장 증후군 환자에서 장내 미생물 분포의 변화를 확인하기 위한 다양한 연구들이 시행되었다. 정상인과 과민성 대장 증후군 환자에서 장내 미생물 분포의 차이를 비교한 연구를 살펴보면, 과민성 대장 증후군 환자에서 상대적으로 Bacteriodetes phylum 의 비율이 낮고, Firmicutes phylum의 비율이 높다는 것을 확인할 수 있다. 이는 특히 우울증, 불안증 환자에서 관찰되는 소견과 동일하다는 점이 특징적이다. 또한 Lactobacillus, Bifidobacterium와 같이 유익균으로 분류되어 유산균으로 많이 소비되고 있는 미생물들이 과민성 대장 증후군 환자군에서 상대적으로 낮게 검출된 것 역시 특징적이었다. 이러한 연구 결과는 단순히 대조군 비교 연구로 원인 결과를 알 수 없다는 한계점이 있으나, 장내 미생물 군집과 과민성 대장 증후군 징후 간에 연관성이 있음을 시사한다.

한편, 기존 IBS 연구들은 qPCR을 이용하여 기존에 지식이 있는 특정 미생물을 표적(target)하여 조사하거나, 문 수준(phylum level)에서 거시적인 패턴을 관찰하는 방식으로 이루어졌다. IBS 관련 지표종을 발굴한 최근 연구의 경우, Greengenes database를 이용하여 IBS군과 건강군의 미생물 군집을 동정한 후, Methanobacteriaceae, Erysipelotrichaceae, unknown Clostridiales, Ruminococcaceae의 4개 Family를 IBS-specific 미생물 분류군으로 발표한 바 있다.

기존 IBS 연구에서 제안하고 있는 방법과 해당 방법으로 발견한 지표종은 기존 지식과 장내 미생물의 배양 가능 여부에 의존적이며, 기존 지표종이 보완하는 통계학적 범위가 필요 이상으로 넓어 정확도가 떨어지는 문제점이 있다.

본 발명의 목적은 배양 비의존적 방법(CIMs)으로 속(Genus) 또는 종(Species) 수준의 정확도를 가지는, 과민성 대장 증후군(IBS) 진단용 또는 위험도 예측용 미생물 바이오마커를 제공하는 것이다.

본 발명의 또 다른 목적은 IBS의 진단 또는 위험도 예측에 필요한 정보를 제공하는 방법을 제공하는 것이다.

본 발명의 또 다른 목적은 상기 바이오마커를 검출하는 제제를 포함하는, IBS의 진단용 또는 위험도 예측용 조성물을 제공하는 것이다.

본 발명의 또 다른 목적은 바이오마커를 검출하는 제제를 포함하는 IBS의 진단용 또는 위험도 예측용 키트를 제공하는 것이다.

본 발명은 종 수준(species level)으로 동정 가능한 미생물 유전체 데이터베이스 EzBioCloud를 이용하였으며, 방대한 장내 미생물 분석 결과를 효과적으로 반영하기 위하여 빅데이터 분석 방법인 기계 학습(machine learning)을 적용하여 IBS 지표종을 탐색하였다.

본 발명이 제공하는 IBS 예측 모델로 탐색한 IBS 바이오마커(IBS Biomarker)는 분류 체계 상 Family level에 비하여 더 자세히 분류된 Class인 속(Genus) 및 종 수준(Species level)으로 발굴한 biomarker이다.

본 발명은 기계학습(machine learning) 방법을 이용하여 정상군 또는 과민성 대장증후군(IBS) 특이적인 장내 미생물을 선별하고 이를 이용하여 비침습적인 방법으로 과민성대장증후군의 위험도를 예측하는 방법에 관한 것이다.

이하 본 발명을 보다 상세하게 설명한다.

본 발명의 일 예는, 과민성 대장증후군 진단용 또는 위험도 예측용 바이오마커에 관한 것이다.

본 발명에서 제공되는 바이오마커는 정상군 또는 과민성 대장증후군(IBS) 특이적인 장내 미생물이거나 상기 IBS 특이적 장내 미생물의 16S rRNA 서열 또는 이의 일부 뉴클레오티드 서열일 수 있다.

상기 바이오마커는, 서열번호 64 내지 126의 뉴클레오티드 서열과 95% 이상, 97% 이상, 98% 이상, 99% 이상, 99.5% 이상, 99.9% 이상, 또는 99.99% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아일 수 있다. 상기 서열번호 64 내지 126의 뉴클레오티드 서열로 이루어진 군에서 선택되는 뉴클레오티드 서열을 포함하는 폴리뉴클레오타이드 서열은 16S rRNA의 가변 영역의 일부에 해당하는 서열일 수 있으며, 보다 구체적으로 가변 영역의 V3 내지 V4 영역의 전부 또는 일부에 해당하는 서열일 수 있다.

또는, 상기 바이오마커는, 서열번호 1 내지 63의 뉴클레오티드 서열과 95% 이상 97% 이상, 98% 이상, 99% 이상, 99.5% 이상, 99.9% 이상, 또는 99.99% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 미생물(예를 들어, 박테리아)로 이루어지는 군에서 선택된 1종 이상의 미생물 (예를 들어, 박테리아)일 수 있다.

본 발명에 따른 바이오마커는, 과민성대장증후군 탐지 마커와 정상군 탐지 마커로 각각 구분할 수 있다. 본 발명의 일 실시예에서, IBS 위험도 예측 모델을 이용하여 IBS 환자 및 건강군에 특이적인 미생물을 선정한 결과, 최종적으로 건강군 특이적 미생물은 종 수준에서 26개 분류군, 속 수준에서 22개 분류군으로 나타났으며, IBS 환자군 특이적 미생물은 종 수준에서 8개 분류군, 속 수준에서 7개 분류군으로 나타났다.

본 발명에 따른 구체적인 미생물 바이오 마커의 일 예는, 하기 표 1 내지 표 4에 기재된 미생물일 수 있다.

구체적으로, 건강군 특이적 바이오마커는 하기 표 1에 나타낸 Species level에서 26개 분류군, 하기 표 2에 나타낸 Genus level 22개 분류군으로 이루어져 있다. 또한, IBS 환자군 특이적 미생물 마커는 하기 표 3에 나타낸 Species level에서 8개 분류군, 하기 표 4에 나타낸 Genus level에서 7개 분류군으로 이루어져 있다.

상기 총 63종의 미생물에 대하여 미생물의 분류학적 계통수를 작성하여 분류학적 근접도를 기준으로 서브 그룹으로 세분할 수 있다. 본 발명이 제공하는 바이오마커, 즉 상기 총 63종의 미생물을 분류학적 근접도를 기준으로 나누어진 상기 서브그룹(상기 제1그룹 내지 제19그룹)으로 구분하거나, 또는 건강군 또는 IBS 환자군과 연관관계에 근거한 중요도(feature importance)에 따라 복수 개의 그룹으로 분류될 수 있다.

예를 들면, 구체적인 방법으로는, 16S rRNA 시퀀스를 기반으로 neighbor joining 알고리즘을 이용하여 phylosgnetic tree를 생성하여 상기 tree 상에서 클러스터링 형성 여부를 기준으로 하위 그룹(subgroup)을 구분할 수 있다. 전체 서브그룹은 총 19개로 구성되며, 종 수준의 건강군 특이적 바이오마커는 제1그룹 내지 제6그룹, 속 수준의 건강군 특이적 바이오마커는 제7그룹 내지 제11그룹, 종 수준의 IBS 환자군 특이적 바이오마커는 제12그룹 내지 제14그룹, 속 수준의 IBS 환자군 특이적 바이오마커는 제15그룹 내지 제19그룹의 하위그룹을 포함한다.

일 구체예에서 건강군 또는 IBS 환자군과 연관관계에 근거한 중요도(feature importance)에 따라 중요도가 높은 그룹과 낮은 그룹으로 분류될 수 있다. 일 구체예에서, 상기 서브그룹 내 미생물들의 상기 수학식 3의 회귀계수(β, coefficient) 값의 평균값을 기준으로, 평균값의 절대값이 0.080 이상인 경우, 중요도가 높은 그룹으로, 평균값의 절대값이 0.080 미만인 경우, 중요도가 낮은 그룹으로 분류될 수 있다.

구체적으로, 종 수준의 건강군 특이적 바이오마커로서 제1그룹은 PAC000748_s (Family Ruminococcaceae), PAC001312_s (Family Ruminococcaceae), PAC001649_s (Family Ruminococcaceae), GU324404_s (Genus Sporobacter), PAC001254_s (Genus Pseudoflavonifractor), PAC001242_s (Family Ruminococcaceae), 및 PAC001597_s (Genus Caproiciproducens)의 7개 종, 제 2그룹은 PAC001441_s (Family Christensenellaceae), 및 PAC001435_s (Family Christensenellaceae)의 2개 종, 제3그룹은 Coprococcus catus, PAC001045_s (Family Lachnospiraceae), PAC000194_s (Family Lachnospiraceae), PAC001047_s (Family Lachnospiraceae), NFLI_s (Genus Frisingicoccus), PAC001467_s (Family Lachnospiraceae), 및 PAC001223_s (Genus Anaerotignum)의 7개 종, 제4그룹은 PAC001673_s (Genus Desulfovibrio), Desulfovibrio piger, Adlercreutzia equolifaciens, 및 PAC002124_s (Genus Phascolarctobacterium)의 4개 종, 제5그룹은 Bacteroides caecigallinarum, PAC001204_s (Genus Bacteroides), Bacteroides eggerthii, Bacteroides uniformis, 및 Alistipes shahii의 5개 종, 제6그룹은 Fusobacterium varium의 1개 종으로 구성된다.

속 수준의 건강군 특이적 바이오마커그룹으로서 제7그룹은 Harryflintia, PAC001144_g (Family Ruminococcaceae), PAC000683_g (Family Ruminococcaceae), EU794292_g (Family Ruminococcaceae), Massilioclostridium의 5개 속, 제8그룹은 PAC001435_g (Family Christensenellaceae), 및 Peptoniphilus의 2개 속, 제9그룹은 Lactobacillus, PAC001687_g (Family Erysipelotrichaceae), 및 CCMM_g (Family Erysipelotrichaceae)의 3개 속, 제10그룹은 PAC002196_g (Family Lachnospiraceae), AB559589_g (Family Lachnospiraceae), LLKB_g (Family Lachnospiraceae), PAC000196_g (Family Lachnospiraceae), PAC000194_g (Family Lachnospiraceae), Eubacterium_g20 (Family Lachnospiraceae), PAC002518_g (Family Lachnospiraceae), Bacteroides_g1 (Family Lachnospiraceae), 및 PAC001270_g (Family Lachnospiraceae)의 9개 속, 제11그룹은 Desulfovibrio, Lawsonella, 및 Microbacterium의 3개 속으로 구성된다.

종 수준의 IBS 환자군 특이적 바이오마커 그룹으로서 제12그룹은 PAC001205_s (Genus Alloprevotella)의 1개 종, 제13그룹은 Eubacterium ramulus, PAC001451_s (Family Lachnospiraceae) 및 Blautia faecis의 3개 종, 제14그룹은 Bacteroides acidifaciens, Bacteroides coprocola, JH815484_s (Genus Bacteroides) 및 EU728720_s (Genus Bacteroides)의 4개 종으로 구성된다.

속 수준의 IBS 환자군 특이적 바이오마커 그룹으로서 제15그룹은 AM277970_g (Family Coriobacteriaceae)의 1개 속, 제16그룹은 Eubacterium_g21 (Family Lachnospiraceae), PAC002138_g (Family Lachnospiraceae), PAC001451_g (Family Lachnospiraceae)의 3개 속, 제17그룹은 Neglecta의 1개 속, 제18그룹은 Alloprevotella의 1개 속, 제19그룹은 Butyricicoccus의 1개 속으로 구성된다.

본 발명에 따른 미생물 바이오마커는 하기 표 1 내지 표 4에 기재된 미생물 중에서 선택된 1종 이상을 포함할 수 있다. 바람직하게는 상기 제1그룹 내지 제19그룹 중 하나 이상의 그룹을 포함하는 것일 수 있다.

본 발명이 제공하는 미생물 바이오마커는 하기 표 1에 기재된 종 수준의 건강군 특이적 바이오마커로 이루어진 군에서 선택된 하나 이상의 바이오마커, 하기 표 2에 기재된 속 수준의 건강군 특이적 바이오마커로 이루어진 군에서 선택된 하나 이상의 바이오마커, 하기 표 3에 기재된 종 수준의 IBS 환자군 특이적 바이오마커로 이루어진 군에서 선택된 하나 이상의 바이오마커, 및 하기 표 4에 기재된 속 수준의 IBS 환자군 특이적 바이오마커에 해당하는 바이오마커로 이루어진 군에서 선택된 하나 이상의 바이오마커로 구성된 바이오마커 조합의 형태로 제공될 수 있다.

일 구체예에서, 종 수준의 건강군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은, 제1그룹 및 제2그룹일 수 있다. 일 구체예에서, 속 수준의 건강군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제8그룹 및 제11그룹일 수 있다. 일 구체예에서, 종 수준의 IBS 환자군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제14그룹일 수 있다.일 구체예에서, 속 수준의 IBS 환자군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제17그룹 내지 제19그룹일 수 있다.

본 발명에 따른 건강군 특이적 바이오마커는 종 수준 및 속 수준 바이오마커로 구분될 수 있다.

상기 종 수준의 건강군 특이적 바이오마커는 상기 제1그룹, 또는 상기 제1그룹 및 제2그룹 내지 제6그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹으로 구성될 수 있다. 또는, 상기 종 수준의 건강군 특이적 바이오마커는 상기 제1그룹 및 상기 제2그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹으로 이루어질 수 있으며, 상기 제3그룹 내지 제6그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹을 추가로 포함할 수 있다.

상기 속 수준의 건강군 특이적 바이오마커는 상기 제8그룹, 또는 상기 제8그룹 및 상기 제7그룹, 제9그룹, 제10그룹 및 제11그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹으로 구성될 수 있다. 또는, 상기 속 수준의 건강군 특이적 바이오마커는 상기 제8그룹 및 제11그룹으로 이루어지고, 상기 제7그룹, 제9그룹, 및 제10그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹을 추가로 포함할 수 있다.

본 발명에 따른 IBS 환자군 특이적 바이오마커는 종 수준 및 속 수준 바이오마커로 구분될 수 있다.

상기 종 수준의 IBS 환자군 특이적 바이오마커는 상기 제12그룹 또는 상기 제12그룹 및 제13그룹 및 제14그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹으로 구성될 수 있다. 또는, 상기 종 수준의 IBS 환자군 특이적 바이오마커는 상기 제14그룹으로 이루어지고, 상기 제12그룹 및 제13그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹을 추가로 포함할 수 있다.

상기 속 수준의 IBS 환자군 특이적 바이오마커는 상기 제15그룹 또는 상기 제15그룹 및 상기 제16그룹 내지 제19그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹으로 구성될 수 있다. 또는, 상기 속 수준의 IBS 환자군 특이적 바이오마커는 상기 제17그룹 내지 제19그룹으로 이루어지고, 상기 제15그룹 및 제16그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹을 추가로 포함할 수 있다.

본 발명이 제공하는 과민성 대장증후군(IBS) 진단용 또는 위험도 예측용 바이오마커는 IBS 환자군과 건강군의 장내 균총의 미생물 군집 규모를 분석하여 선택된 것일 수 있다.

구체적으로, 먼저 건강군과 IBS 환자군의 채변 샘플로부터 차세대 뉴클레오티드 서열 분석을 통해 종 또는 속 수준의 미생물 균총 데이터베이스를 구축한 후, 각 미생물의 군집 규모를 분석하였다. 상기 미생물의 군집 규모는 기계 학습 모델을 이용하여 군집 규모의 변화 패턴을 통계적으로 분석하여, LASSO의 특징 선택 알고리즘을 이용하여 회귀계수(regression coefficient)의 합계에 벌점(penalty)을 부과하여 예측 변수인 IBS와 가장 강한 연관관계를 보이는 미생물만을 선택하였다. 각 미생물의 Coefficient 값을 하기 수학식 3과 같이 구하여, 건강군 관련 바이오마커 및 IBS 관련 바이오마커를 각각 종과 속 수준으로 결정하였다.

[수학식 3]

상기 수학식 3에서,

상기

는 모델의 독립변수이며, 상기 미생물 군집 비율에 해당한다.

상기

는 모델의 회귀계수(Coefficient)이고 미생물과 IBS의 관련도를 나타낸다.

상기

는 모델의 예측 점수이고 0에서 1사이의 확률값을 가진다.

상기

는 학습에 사용한 n개의 시료의 미생물 군집 비율에 해당하며, 상기

는 사용한 시료의 실제 IBS 여부(건강군은 0, IBS 환자군은 1)에 해당한다.

상기 m은 학습에 사용된 미생물 분류군 수를 의미한다. 상기 m 값은 10만 이하 1만 이하 또는 1000 이하의 자연수일 수 있다.

본 발명에 따른 바이오마커는, 과민성대장증후군 탐지 마커와 정상군 탐지 마커로 각각 구분할 수 있다. 일 예에서, 특정 미생물에 대해 상기 수학식 3의

(coeffieicnet)가 음수인 경우 건강군에 특이적인 바이오마커로 분류하고, 상기 수학식 3의

가 양수인 경우에는 IBS 군에 특이적인 바이오마커로 분류될 수 있다.

일 예에서, 본 발명이 제공하는 바이오마커를 분류학적 근접도를 기준으로 나누어진 상기 서브그룹(상기 제1그룹 내지 제19그룹)은 다시 중요도에 따라 복수 개의 그룹으로 분류될 수 있으며, 일 구체예에서 건강군 또는 IBS 환자군과 연관관계에 근거한 중요도(feature importance)에 따라 중요도가 높은 그룹과 낮은 그룹으로 분류될 수 있다. 일 구체예에서, 상기 서브그룹 내 미생물들의 상기 수학식 3의 회귀계수(β, coefficient) 값의 평균값을 기준으로, 평균값의 절대값이 0.080 이상인 경우, 중요도가 높은 그룹으로, 평균값의 절대값이 0.080 미만인 경우, 중요도가 낮은 그룹으로 분류될 수 있다. 이 때, 평균값은 소수점 넷째자리에서 반올림하였다.

일 구체예에서, 종 수준의 건강군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은, 제1그룹 및 제2그룹일 수 있다. 일 구체예에서, 속 수준의 건강군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제8그룹 및 제11그룹일 수 있다.

일 구체예에서, 종 수준의 IBS 환자군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제14그룹일 수 있다.일 구체예에서, 속 수준의 IBS 환자군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제17그룹 내지 제19그룹일 수 있다.

일 예에서, 정상군을 탐지하는 바이오마커는 Family level의 Ruminococcaceae, Christensenellaceae, Lachnospiraceae, Christensenellaceae, Erysipelotrichaceae 및 Genus level의 디설포비브리오(Desulfovibrio), 박테로이데스(Bacteroides), 스포로박터(Sporobacter), 프리신기코커스(Frisingicoccus), 수도플라보니프락터(Pseudoflavonifractor), 파스코락토박테리움(Phascolarctobacterium), 카프로이치프로듀센스(Caproiciproducens), 아나에로티그눔(Anaerotignum), 해리플린티아(Harryflintia), 락토바실러스(Lactobacillus), 로소넬라(Lawsonella), 마이크로박테리움(Microbacterium), 펩토니필러스(Peptoniphilus), 매실리오클로스토리디움(Massilioclostridium)에 해당하는 미생물이며, Species level로는 코프로코커스 카투스(Coprococcus catus), 박테로이데스 카에시갈리나룸(Bacteroides caecigallinarum), 디설포비브리오 피거(Desulfovibrio piger), 아들러크레우치아 에퀴오리파시엔스(Adlercreutzia equolifaciens), 박테리오데스 에게르티(Bacteroides eggerthii), 박테로이데스 유니포르미스(Bacteroides uniformis), 푸조박테리움 바리움(Fusobacterium varium), 알리스티페스 샤히이(Alistipes shahii)이다. 과민성대장증후군을 탐지하는 바이오마커는 Family level의 Lachnospiraceae, Coriobacteriaceae 및 Genus level의 알로프리보텔라(Alloprevotella), 박테로이데스(Bacteroides), 네그렉타(Neglecta), 부티리키코커스(Butyricicoccus)에 해당하는 미생물이며, Species level로는 유박테리움 래물루스(Eubacterium ramulus), 박테로이데스 아시디파시엔스(Bacteroides acidifaciens), 블라우티아 파에시스(Blautia faecis), 박테로이데스 코프로콜라(Bacteroides coprocola)이다.

각각의 바이오마커는 흔히 사람의 장에서 상주하는 것으로 알려진 미생물들이며, 주로 짧은사슬 지방산(SCFAs)을 생성하는 미생물로 구성되어 있는 점이 두드러진다. 짧은사슬 지방산은 장내 세포 결속을 강화하고 소화를 돕는 등 건강에 이로운 기능이 알려진 물질로, 장누수증후군(leaky gut syndrome)을 완화하므로 과민성대장증후군과의 연관성도 익히 알려진 바 있다.

상기 바이오마커는 과민성 대장증후군 환자와 정상군을 구별할 수 있으며, 과민성 대장증후군 환자에서 건강군에 비해 높은 군집 규모(population)가 나타나는 미생물을 검출하는 마커 또는, 건강군에서 과민성 대장증후군 환자군에 비해 높은 군집 규모(population)가 나타나는 미생물을 검출하는 것일 수 있다.

본 발명자들은 과민성 대장증후군 환자에서 미생물의 군집 규모(population)가 건강군에서 나타나는 군집 규모에 비해 큰 폭으로 증가 및/또는 감소하는 미생물 중 과민성 대장 증후군의 진단 또는 예후 예측에 유의미하게 사용될 수 있는 바이오마커 미생물을 속 또는 종 수준에서 총 63종 선별하였다.

본 발명의 일 실시예에서, 건강한 정상군 한국인의 장 샘플, 또는 건강군 데이터베이스는 자기 보고(self-report)를 기반으로 준비된다. 한국인 장내 미생물 데이터는 총 2,000여 샘플로부터 얻었으며, 메타데이터로 전자의료기록이 첨부된 1,000여 샘플 중에서 대사 질환과 관련된 기록을 이용하여 456명의 건강한 한국인 샘플을 선별하였다.

상기 대사 질환과 관련된 의료 기록으로는 과민성 대장증후군(IBS) 해당 여부, 당화혈색소(Hemoglobin A1c, HbA1c) 수치, BMI(Body mass index), 대사증후군(metabolic syndrome) 진단 여부를 사용하였다. 구체적으로, 비 IBS환자, 혈중 HbA1c 수치 6.5% (w/v) 미만, BMI 수치 18 이상 내지 25 미만 및 비 대사증후군 환자의 조건을 만족하는 경우 건강군으로 선별하였다.

본 발명의 일 실시예에서, 상기 미생물 바이오마커의 군집 규모를 측정하기 위해, 수집된 채변 샘플로부터 유전체 DNA를 추출한 후, 추출된 유전체 DNA를 서열번호 127 및 128의 뉴클레오티드 서열로 이루어진 universal primer를 사용하여 16S rRNA target sequencing 을 위한 PCR을 통해 광범위한 분류군(taxonomic group)을 대상으로 한 다양한 유형의 앰플리콘을 생성하였다. 상기 얻어진 앰플리콘들은 MiSeq (Illumina)을 이용하여 차세대뉴클레오티드 서열분석(NGS)을 수행하여, 16S 리보솜 RNA 유전자의 서열 분석을 시행하였다. 하나의 샘플에서 생성된 수 천개의 16S rRNA 유전자 서열들은 표준 균주 및 비배양 미생물의 16S rRNA 유전자 서열의 데이터베이스 (EzTaxon)를 이용하여, 문 (phylum) 수준에서 종(species) 수준까지 미생물 군집의 종류 및 그 규모 분석을 시행하였다. 상기 균집의 규모는 동정된 전체 미생물의 총 시퀀싱 리드(sequencing reads) 수 대비 해당 미생물이 차지하는 시퀀싱 리드 수 비율로 계산되었다.

본 발명에서, 과민성 장 증후군 또는 과민성 대장 증후군 (irritable bowel syndrome, IBS)은 복통 혹은 복부불쾌감, 배변 후 증상의 완화, 배변 빈도 혹은 대변 형태의 변화 등의 특징적인 증상들이 만성적으로 반복되는 대표적인 기능성 위장관 질환이다. 본 발명에서 과민성 대장 증후군은 로마 진단 기준 로마 진단 기준 (Rome diagnostic criteria)에 따라 진단될 수 있으며, 구체적인 진단 기준은 2016년 이후 Rome IV 기준에 따르며, 지난 3개월간 적어도 주1회 이상 배변과 관련된 또는 배변 양상의 변화가 동반된 반복적인 복통이 있을 경우를 과민성 대장증후군으로 진단하며, 아형은 변비형, 설사형, 혼합형 및 분류 불능형으로 분류한다.

본 발명에서, "위험도 예측"이란 대상에게서 과민성 대장증후군이 발병할 가능성을 판별하는 것을 의미하며, 과민성대장증후군의 발병 위험성이 높은 대상을 선별하고 적절한 관리를 통하여 발병 시기를 늦추거나 발병하지 않도록 하거나, 가장 적절한 치료 방식을 선택함으로써 치료 결정을 하기 위해 임상적으로 사용될 수 있다. 또한 "진단"이란, 병리 상태의 존재 또는 특징을 확인하는 것을 의미하며, 본 발명의 목적상, 진단은 과민성대장증후군의 발병 여부를 확인하는 것을 의미할 수 있다.

본 발명의 일 예는 과민성대장증후군의 진단용 바이오마커 또는 상기 바이오마커를 포함하는 미생물을 탐지 가능한 제제를 포함하는, 과민성대장증후군 진단용 조성물에 관한 것이다. 본 발명의 일 예는 과민성 대장증후군 진단용 바이오마커를 탐지 가능한 제제를 포함하는, 과민성 대장증후군 탐지용 키트에 관한 것이다.

예를 들면, 본 발명이 제공하는 과민성대장증후군 진단용 조성물은 상기 기재된 바이오마커를 검출하는 제제를 포함하는 것일 수 있다. 상기 16S rRNA를 검출하는 제제는 상기 16S rRNA를 포함하는 미생물의 군집 규모를 측정하는 제제일 수 있다. 과민성대장증후군의 진단용 바이오마커는 상술한 바와 같다. 상기 바이오마커 또는 바이오마커를 포함하는 미생물을 탐지 가능한 제제는 예를 들어, 미생물 바이오마커를 탐지 가능한 제제이면 제한 없이 사용될 수 있다.

상기 키트는 시험 대상의 채변 기구를 추가로 포함하는 것일 수 있으며, 상기 채변기구는 미생물, 예를 들어 박테리아의 변이를 막는 완충액을 포함하는 것일 수 있다. 상기 완충액은 4%(w/v) SDS(Sodium Dodecyl Sulfate), 50mM Tris-HCl, 50mM EDTA 및 500mM NaCl로 구성될 수 있다.

본 발명의 일 예는 과민성 대장증후군의 진단, 위험도 예측 또는 과민성 대장증후군의 예후 모니터링에 관한 정보를 제공하는 방법을 제공한다.

구체적인 일 예에서, 본 발명은 시험 대상의 과민성대장증후군(IBS)의 위험도를 분석하는 방법을 제공하며,

시험 대상으로부터 얻은 장내 미생물의 16S rRNA 유전 정보를 분석하여, 미생물 바이오마커의 동정 및 장내 미생물 군집 내 점유율을 얻는, 미생물 군집 분석을 수행하는 단계,

상기 미생물 군집 분석 결과를 이용하여, 시험 대상의 과민성 대장증후군(IBS)의 위험도를 지수화하여 시험 대상의 IBS 위험도 지수를 얻는 단계, 및

상기 IBS 위험도 지수를 이용하여 시험 대상의 과민성 대장증후군 위험도를 결정하는 단계를 포함할 수 있다.

또한, 본 발명은 상기 방법에 따라 시험 대상의 과민성대장증후군(IBS)의 위험도를 분석하고, 시간의 경과에 따른 상기 시험 대상의 IBS 위험도 지수 변화를 모니터링하는 단계를 포함하는, 과민성 대장증후군의 예후 모니터링에 필요한 정보를 제공하는 방법을 제공할 수 있다.

더욱 자세하게는, 본 발명에 따른 시험 대상의 과민성대장증후군(IBS)의 위험도를 분석하는 방법은 하기 단계 (1) 내지 (5)를 포함할 수 있다:

(1) 시험 대상의 대변 시료로부터 장내 미생물 DNA를 얻는 단계,

(2) 상기 장내 미생물 DNA로부터 장내 미생물의 16S rRNA 유전 정보를 얻는 단계

(3) 상기 장내 미생물의 16S rRNA 정보를 분석하여 미생물을 동정하고, 바이오마커 미생물 군집을 분석하는 단계,

(4) 상기 미생물 군집 분석 결과를 이용하여 과민성 대장증후군(IBS)의 위험도를 지수화하는 단계; 및

(5) 상기 지수를 이용하여 시험 대상이 과민성 대장증후군 환자인지 여부를 결정하는 단계를 포함할 수 있다.

본 발명이 제공하는 과민성 대장증후군의 진단, 위험도 예측 또는 과민성 대장증후군의 예후 모니터링에 관한 정보를 제공하는 방법은 시험 대상으로부터 얻은 장내 미생물의 16S rRNA 유전 정보를 분석하여 상술한 종 수준 및/또는 속 수준의 IBS 특이적 및/또는 건강군 특이적 미생물 바이오마커를 동정 및 상기 바이오마커의 군집 내 점유율을 얻는, 미생물 군집 분석을 수행하는 단계, 상기 미생물 군집 분석 결과를 이용하여 과민성 대장증후군(IBS)의 위험도를 지수화하여 시험 대상의 IBS 위험도 지수를 얻는 단계, 및 상기 IBS 위험도 지수를 이용하여 시험 대상의 과민성 대장증후군 위험도를 측정하는 단계를 포함할 수 있다.

본 발명이 제공하는 과민성 대장증후군의 진단, 위험도 예측 또는 과민성 대장증후군의 예후 모니터링에 관한 정보를 제공하는 방법은 상기 IBS 위험도 지수를 계산하는 단계 이전에 IBS 환자인지 여부를 결정하는 단계를 추가로 포함할 수 있다.

본 발명에 따른 구체적인 과민성 대장증후군의 진단 또는 위험도 예측에 관한 정보를 제공하는 방법은, 상기 단계 (1) 내지 (5)에 더하여, 진단 결과 또는 위험도 예측 결과를 시각화하는 단계를 추가로 수행할 수 있다.

이하 각 단계를 구체적으로 살핀다.

(1) 시험 대상의 대변 시료로부터 DNA를 얻는 단계

본 발명의 과민성 대장증후군의 진단 또는 위험도 예측에 관한 정보를 제공하는 방법은, (1) 시험 대상의 대변 샘플로부터 DNA를 추출하는 단계를 포함한다.

본 발명의 일 실시예에서, 상기 시험 대상의 대변 샘플은 미생물의 변이를 막는 완충액에 담겨 수집되었다. 상기 완충액은 4%(w/v) SDS(Sodium Dodecyl Sulfate), 50mM Tris-HCl, 50mM EDTA 및 500mM NaCl로 구성되었다.

상기 미생물 배양물의 유전체 DNA 추출을 위해, 배양물의 세포를 용해하는 단계를 포함할 수 있다. 예를 들어, 상업용 키트를 이용하여 유전체 DNA를 정제하거나, 비드 비팅 및/또는 열충격(heat shock)을 통해 세포 용해 과정을 수행할 수 있다. 세포 용해 과정을 비드 비팅 및/또는 열충격을 이용하여 수행하는 경우, 상업용 키트를 사용하는 경우에 비해 비용이 감소하고 분석 시간이 단축되는 장점이 있다.

본 발명의 과민성 대장증후군의 진단 또는 위험도 예측에 관한 정보를 제공하는 방법은, (2) 상기 장내 미생물 DNA로부터 장내 미생물의 16S rRNA 유전 정보를 얻는 단계를 포함한다. 상기 16S rRNA 유전 정보를 얻는 단계는, 차세대 유전체 뉴클레오티드 서열분석(NGS) 플랫폼을 이용하여, 상기 추출된 DNA의 16S rRNA 유전자 서열을 분석하는 단계일 수 있다. 또는, 상기 장내 미생물의 16S rRNA 유전 정보는, 16S rRNA에 대한 PCR 프라이머쌍을 이용하여, 장내 미생물의 게놈 DNA에 대한 표적 서열분석(target sequencing)을 수행하여 얻어지는 것일 수 있다.

상기 추출된 DNA의 16S rRNA 유전자 서열을 분석하는 단계는, 16S rRNA의 가변 영역(variable region)을 특이적으로 증폭할 수 있는 프라이머 세트를 이용하여 PCR을 수행하는 단계, 바람직하게는 16S rRNA의 V3 내지 V4 영역을 특이적으로 증폭할 수 있는 프라이머 세트를 이용하여 PCR을 수행하는 단계, 더욱 바람직하게는 하기 서열을 갖는 universal primer를 이용하여 PCR을 수행하여 앰플리콘을 생성하는 단계를 포함할 수 있으며, universal primer의 예시적인 서열은 하기와 같다:

정방향 universal primer (서열번호 127): 5'-CCTACGGGNGGCWGCAG -3'

역방향 universal primer (서열번호 128): 5'-GACTACHVGGGTATCTAATCC -3'

(3) 16S rRNA 서열을 이용하여 마커 미생물 군집을 분석하는 단계

본 발명의 과민성 대장증후군의 진단 또는 위험도 예측에 관한 정보를 제공하는 방법은, (3) 표준 균주 및 비배양 미생물의 16S rRNA 유전자 서열의 데이터베이스를 이용하여, 상기 분석된 16S rRNA 유전자 서열을 분석하여, 서열번호 1 내지 126의 뉴클레오티드 서열을 가지는 미생물 바이오마커 군집내 점유율(population) 또는 상대적 풍부도를 분석하는 단계를 포함할 수 있다.

상기 미생물 군집을 분석하는 단계는, 본 발명에서 제공하는 서열번호 1 내지 126의 16S rRNA를 포함하는 미생물의 존부를 확인하고 존재가 확인된 미생물에 대해서만 군집 규모를 분석함으로써, 전체 미생물 군집을 동정하는 것보다 IBS의 진단 및 예후 예측에 필요한 시간과 노동력을 절감할 수 있다.

상기 미생물 군집을 분석하는 단계는, 16S rRNA 데이터베이스를 이용하여 미생물을 속 또는 종 수준으로 동정 및 분류하는 단계 및/또는 각 미생물 군집 규모(population)를 분석하는 단계를 포함하는 것일 수 있다.

상기 미생물의 동정 및 분류에 사용되는 데이터베이스는 필요에 따라 당업자가 적절히 선택하여 사용할 수 있으며, 예를 들어, EzBioCloud, SILVA, RDP 및 Greengene으로 이루어지는 군에서 선택되는 하나 이상의 데이터베이스일 수 있으나, 이에 제한되는 것은 아니다.

상기 미생물 군집 정보는 상기 미생물 군집 시료 내에 존재하는 미생물 균종의 종류, 상기 미생물 균종의 수, 목적 미생물 종의 군집 규모(population) 및/또는 상대적 풍부도(Relative abundance degree, %)일 수 있다.

상기 미생물 군집 규모 (상대적 풍부도 또는 군집내 점유율)는 전체 장내 미생물 균총에서 특정 미생물 군집이 차지하는 비율(%)로 나타내어질 수 있다. 예를 들면, 상기 미생물 군집이 차지하는 비율(%)은 전체 시퀀싱 리드 수 중 특정 미생물의 16S rRNA 리드 수 빈도(frequency)의 백분율로 나타내어 질 수 있다. 미생물 군집 전체 100% 중 미생물 종이 분류되지 않은 (unclassified) 결과는 제외되었다. 상기 시퀀싱 리드는 증폭된 16S rRNA 서열의 차세대 서열 분석법(NGS) 결과를 의미한다. 상기 특정 미생물은 본 발명이 제공하는 과민성 대장증후군의 진단 또는 위험도 예측용 미생물 바이오마커일 수 있다.

(4) 상기 미생물 군집 분석 결과를 이용하여 IBS 위험도를 지수화하는 단계

본 발명의 과민성 대장증후군의 진단 또는 위험도 예측에 관한 정보를 제공하는 방법은, (4) 상기 미생물 군집 분석 결과를 이용하여 과민성 대장증후군(IBS)의 위험도를 지수화하는 단계를 포함한다.

상기 지수화 단계는 상기 16S rRNA 분석 결과를 과민성 대장증후군 예측 모델에 적용하는 단계, 및 IBS 위험도 지수를 계산하는 단계를 포함한다.

상기 과민성 대장증후군 예측 모델은 과민성 대장증후군 위험도 예측용 미생물 바이오마커의 장내 미생물 군집 규모를 데이터베이스와 대조하여 시험 대상의 IBS 위험도 지수를 계산하기 위한 파라미터를 제공하는 것일 수 있다.

상기 과민성 대장증후군 예측 모델은 시험 대상에서 검출된 과민성 대장증후군(IBS) 바이오마커 목록 및 coefficient값을 기계 학습 함수 및 지수화 수학식(하기 수학식 1 내지 4)에 대입하여 미지 시료에 대한 IBS 위험도 지수를 계산하고 IBS의 진단 및/또는 위험도 예측에 활용하는 것일 수 있다.

상기 데이터베이스는 미생물 바이오마커 특정을 위해 수집된 정상군 및 IBS 환자군의 장내 균총 데이터베이스를 활용하는 것일 수 있으며, 구체적으로, IBS군 및 정상군을 대상으로 모집한 인체 장내 마이크로바이옴 데이터베이스일 수 있다.

상기 과민성 대장증후군 예측 모델은 기계 학습(machine learning)을 이용하여 과민성 대장 증후군 특이적 및/또는 정상군 특이적 미생물 바이오마커를 선별 및 과민성 대장증후군 판별을 위한 예측 점수 (IBS prediction score)를 계산하여 과민성 대장 증후군 여부를 판별할 수 있는 것을 특징으로 한다.

미생물 군집 분석 결과를 지수화하는 단계는 미생물 마커와 해당 마커의 Coefficient 값을 이용하여 IBS 판별을 위한 예측점수(prediction score)를 계산하는 과정을 포함할 수 있다.

상기 예측점수(prediction score)는 Test set의 장내 미생물 군집 데이터에서 실시예 2를 통해 선택한 미생물 마커의 존부를 확인한 후, 존재가 확인된 미생물 마커에 대해 이를 해당 바이오마커의 Coefficient와 내적곱을 하여 0 내지 1의 값으로 계산한다. 구체적으로, 하기 수학식 3으로부터 산출될 수 있다.

[수학식 3]

[수학식 4]

상기 수학식 3 및 4에서,

상기 X 는 모델의 독립변수이며 이는 위에서 구한 미생물 군집 비율에 해당한다.

상기 β는 모델의 회귀계수(Coefficient)이고 미생물과 IBS의 관련도를 나타낸다.

상기

는 모델의 예측 점수이고 0에서 1사이의 확률값을 가진다.

상기

상기 m은 학습에 사용된 미생물 분류군 수로서, 자연수 값을 가진다.

상기 n은 본 발명에서 제공하는 예측 모델의 학습에 사용한 전체 샘플의 수이다.

상기 λ 값 은 IBS 예측 모델의 하이퍼파라미터(hyper parameter)이다.

본 발명의 일 실시예에서, 정규화 파라미터를 0.0001 에서 10000 사이에서 지수 스케일로 균등하게 10개로 잘라 10개의 모델을 생성하여 가장 좋은 예측 결과(가장 높은 AUC 수치)를 주는 모델 파라미터를 선별하는 과정을 거쳤다. 이러한 그리드서치(grid search)를 통해 최적화(optimization)된 하이퍼파라미터(hyperparameter)를 얻을 수 있다. 모델의 하이퍼파라미터에 해당하는 정규화 파라미터 즉, 본 발명에 따른 최적화된 IBS 위험도 예측 모델은 상기 수학식 3의

값 중 가장 좋은 예측 결과를 보이는 값(0.2)으로 확정하였다.

상기 예측 점수를 이용하여 정확한 임상적 해석을 부여하기 위해, 0과 1 사이의 확률값을 학습에 사용한 IBS 환자군과 건강군의 비율로 나누어, 하기 수학식 1과 같이 리스케일하였다. 이는 IBS 위험도 지수를 나타내는 단계로 구성될 수 있다. 상기 지수를 IBS 위험도 지수라 규정하였으며, 미지의 시료에 대해서 IBS 환자와 건강한 사람을 구별할 수 있다.

[수학식 1]

상기 수학식 1에서,

는 IBS 판별을 위한 시험 대상의 예측 점수

P ₀ 는 예측 모델 구축에 사용된 training set에 존재하는 IBS 샘플의 비율

N_case 는 training set 내 IBS 샘플의 수

N_train 는 training set의 전체 샘플 수

상기 IBS 판별을 위한 예측 점수

는 선별한 미생물들의 coefficient를

, 선별한 미생물들의 군집 비율을

라고 할 때, 하기 수학식 2와 같이 계산한다.

[수학식 2]

상기 수학식 2에서,

는 선별한 미생물들의 coefficient이고,

X' 는 선별한 미생물들의 군집 규모 비율이다. 상기 군집 규모 비율은 전체 장내 균총에서 상기 선별한 미생물 군집이 차지하는 비율을 의미하며, 16s rRNA 시퀀싱 전체 리드 수 대비 선별한 미생물 군집의 16s rRNA 시퀀싱 리드 수의 비율로 나타내어질 수 있다.

상기IBS 예측점수는 하기 수학식 5 내지 7과와 같이 민감도(Sensitivity), 특이도(Specificity), 및 정확도 (Accuracy) 값으로 표현될 수 있다. Test set에서 실제로 IBS 환자의 시료이고 IBS 위험도 지수가 cut-off보다 큰 경우의 수를

, 실제로 IBS 환자의 시료이지만 IBS 위험도 지수가 cut-off보다 작은 경우

, 실제로 건강한 사람의 시료이지만 IBS 위험도 지수가 cut-off보다 큰 경우의 수를

, 실제로 건강한 사람의 시료이고 IBS 위험도 지수가 cut-off보다 작은 경우의 수를

라고 명명하였다. 민감도는 전체 IBS 시료 중 실제로 IBS로 판정된 비율, 특이도는 전체 건강군 시료 중 실제 건강군으로 판정된 비율을 의미하며, 정확도는 전체 시료 중 IBS 환자 또는 건강 여부가 정확하게 판정된 비율을 나타낸다.

[수학식 5]

[수학식 6]

[수학식 7]

상기 수학식 5 내지 7에서,

TP는 환자 시료에서 IBS 위험도 지수(

)가 cut-off보다 큰 경우의 수이고,

TN은 환자 시료에서 IBS 위험도 지수(

)가 cut-off보다 작은 경우의 수이고,

FP는 정상군 시료에서 IBS 위험도 지수(

)가 cut-off보다 큰 경우의 수이고,

FN은 정상군 시료에서 IBS 위험도 지수(

)가 cut-off보다 작은 경우의 수이다.

(5) 상기 IBS 위험도 지수를 이용하여 시험 대상이 과민성 대장증후군 환자인지 여부를 결정하는 단계 및/또는 (6)시간에 따른 시험 대상의 IBS 위험도 지수 변화를 모니터링하는 단계

본 발명의 과민성 대장증후군의 진단에 관한 정보를 제공하는 방법은, (5) IBS 위험도 지수를 이용하여 시험 대상이 과민성 대장증후군 환자인지 여부를 결정하는 단계를 포함한다. 본 발명의 과민성 대장증후군의 위험도 예측에 관한 정보를 제공하는 방법은, (6) 시간에 따른 시험 대상의 IBS 위험도 지수 변화를 모니터링하는 단계를 포함한다.

상기 시험 대상이 과민성 대장증후군 환자인지 여부를 결정하는 단계는 상기 지수가 기준 데이터베이스의 과민성 대장증후군의 위험도 지수 분포상의 위치를 결정하는 단계를 포함할 수 있다. 기준 데이터베이스의 과민성대장증후군의 위험도 지수 분포에서, 하위 0%에 가까워 질수록, 건강 또는 과민성 대장증후군의 예후가 좋아지는 것으로 판단할 수 있다. 상기 기준 데이터베이스는 예를 들어, 상기 예측 모델의 구축에 사용된 트레이닝 세트, 테스트 세트 및 시험 대상 시료를 포함하는 전체 샘플의 IBS 위험도 지수 데이터베이스일 수 있으나, 이에 제한되는 것은 아니다.

상기 기준 데이터베이스의 과민성 대장 증후군의 위험 지수 분포상의 위치를 결정하는 단계는, IBS 환자 및 정상인의 대변 시료로부터 얻은 장내 마이크로바이옴 데이터 또는 상기 데이터로부터 얻은 IBS 위험도 지수를 포함하는 기준 데이터베이스를 구축하는 단계; 상기 기준 데이터베이스의 위험도 지수를 백분위로 변환하는 단계; 및/또는 상기 기준 데이터베이스 내에서 상기 시험 대상의 IBS 위험도 지수의 백분위 위치를 결정하는 단계를 포함할 수 있다.

일 예에서, 상기 기준 데이터베이스는 건강(정상)군의 장내 마이크로바이옴 데이터베이스 및/또는 상기 데이터베이스를 이용하여 얻는 IBS 위험도 지수; 및 IBS 환자군의 장내 마이크로바이옴 데이터베이스 및/또는 상기 데이터베이스를 이용하여 얻는 각 시료의 IBS 위험도 지수;를 포함할 수 있다. 상기 건강군 및/또는 환자군의 마이크로바이옴 데이터베이스는 각각 20명 이상, 50명 이상, 90명 이상, 20 내지 10000명, 20 내지 2000명, 20 내지 1000명, 20 내지 500명, 50 내지 10000명, 50 내지 2000명, 50 내지 1000명, 50 내지 500명, 90 내지 10000명, 90 내지 2000명, 90 내지 1000명, 또는 90 내지 500명의 정상군 및/또는 환자로부터 분리된 장내 미생물 시료(예를 들어, 대변 샘플)에서 얻은 장내 마이크로바이옴 데이터 및/또는 상기 장내 마이크로바이옴 데이터를 이용하여 얻는 IBS 위험도 지수로 구성될 수 있다.

일 예에서, 상기 기준 데이터베이스는 건강군과 IBS 환자군의 시료 수의 합이 40개 이상, 100개 이상, 500개 이상, 40 내지 10만 개, 40 내지 1만 개, 40 내지 5000 개, 100 내지 10만 개, 100 내지 1만 개, 100 내지 5000 개, 500 내지 10만 개, 500 내지 1만 개, 또는 100 내지 5000 개일 수 있다. 상기 기준 데이터베이스 내 건강군 데이터의 수는 환자군 시료 수의 1 내지 10배, 1 내지 7배, 2 내지 10배, 2 내지 7배, 3 내지 10배, 3 내지 7배, 또는 4 내지 7배일 수 있으나, 이에 제한되지 않는다. 또 다른 일 예에서, 상기 기준 데이터베이스 내 정상군과 IBS 환자군의 수 비율은 국적, 연령, 성별, 또는 기타 IBS 유병률과 관련된 인자를 고려하여 IBS 유병률과 유사하도록 조절될 수 있다.

일 구현예에서, 상기 건강군 데이터베이스는 IBS 해당 여부, 당화혈색소 수치, BMI, 대사증후군 진단 여부를 기준으로, 비 IBS 환자, 혈중 HbA1c 수치 6.5%(w/v)미만, BMI 수치 18 이상 25 미만 및 비 대사증후군 환자로 확인된 한국인 456명의 샘플로부터 얻은 장내 마이크로바이옴 데이터로 구성되며, 상기 IBS 환자군 데이터베이스는 샘플 수집일 기준으로 3년 이내에 로마 진단 기준에 따라 과민성 대장 증후군을 진단받은 91명 환자로부터 얻은 장내 마이크로바이옴 데이터로 구성될 수 있다.

상기 마이크로바이옴 데이터는, 상기 수학식 1의 방법으로 IBS 위험도 지수를 산출하기 위한 목적 범위에서 필요한 정보를 모두 포함하며, 예를 들어, 장내 미생물 균총을 구성하는 미생물의 속 수준 또는 종 수준 분류 및 각 미생물의 군집 규모 (population) 정보를 포함할 수 있다. 일 구체예에서, 본 발명이 제공하는 IBS 환자군 특이적 속 수준 바이오마커, IBS 환자군 특이적 종 수준 바이오마커, 건강군 특이적 속 수준 바이오마커, 및 건강군 특이적 종 수준 바이오마커로 이루어지는 군에서 선택되는 1종 이상의 바이오마커에 해당하는 미생물 군집 존부 및/또는 상기 미생물 군집의 규모 정보를 포함할 수 있다.

일 예에서, 상기 IBS 위험도 지수 분포는 기준 데이터베이스에서 얻어진 각 IBS 지수(상기 수학식 1의 방법으로 계산된 IBS 지수)에서, 상기 기준 데이터베이스 내 IBS 위험도 지수의 최저값을 0%로, 최고값을 100%로 두고 백분위로 나타내어 지는 것일 수 있다.

상기 IBS 위험도 지수는 IBS 위험도를 적어도 2 이상의 구간으로 구분하여 표시하는 것일 수 있으며, 바람직하게는 3개의 구간으로 구분하여 표시할 수 있다.

상기 구간의 구분은 상기 IBS 위험도 지수의 특이도가 가장 높은 값을 기준으로 하여 구분되는 것일 수 있다.

본 발명의 일 예에서, IBS 위험도 지수에 따라 IBS 위험도를 위험, 주의, 양호의 단계로 구분하였으며, 보다 구체적으로 하위 0 내지 75%는 양호, 75 내지 95%는 주의, 95 내지 100%는 위험 단계로 분류하였다.

상기 시간에 따른 환자의 IBS 위험도 지수 변화를 모니터링하는 단계는, 시간의 경과에 따라 상기 지수가 기준 데이터베이스의 과민성 대장 증후군의 위험도 지수 분포상의 위치가 하위 0%에 가까워 질수록 예후가 좋은 것으로 결정하는 것일 수 있다.

본 발명에서 제공하는 IBS 예측 모델을 적용한 일 예를 도 1에 나타내었다. 도 1은 본 발명의 일 예에 따른 IBS 예측 모델을 이용하여 시험 대상의IBS 여부를 결정하는 과정을 나타내는 모식도이다. IBS 예측 모델은 장내 미생물 군집 분석을 전제로 한다. 배양 의존적 방법으로는 발견되지 않는 미생물 분류군이 높은 비율로 인체 장내 미생물 군집에 포함되어 있으며, IBS 예측 모델이 상당 부분의 미발표종을 Biomarker로 인지하고 있기 때문이다.

본 발명의 IBS 특이적 바이오마커 및 이를 이용한 IBS 예측 모델을 이용한 IBS 위험도 지수 제공 절차는 하기의 단계를 거쳐 수행될 수 있다.

(1) 시험 대상의 채변 샘플 수집 단계,

(2) 상기 샘플로부터 시험대상의 DNA를 추출하고, 추출된 DNA를 주형으로 16rRNA의 universal primer로 PCR을 수행하여 앰플리콘(amplicon)을 생성하는 단계,

(3) 차세대 유전체 서열분석 (NGS) 플랫폼을 이용하여, 상기 앰플리콘의 16S rRNA 유전자 서열을 분석하는 단계,

(4) 표준 균주 및 비배양 미생물의 16S rRNA 유전자 서열의 데이터베이스를 이용하여 상기 분석된 16S rRNA 유전자 서열을 분석하여, 시험 대상의 미생물 군집 분석을 수행하는 단계,

(5) 상기 군집 분석 결과를 IBS 예측 모델에 적용하여 IBS 위험도를 지수화하는 단계

상기 IBS 위험도 예측 결과를 지수화하여 분석 리포트로 제공할 수 있다. 상기 분석 리포트는 하기의 정보를 포함할 수 있다.

(1) 검사 대상의 IBS 위험도 지수 및 단계

검사 대상에 대하여 IBS 예측 모델을 적용하여 IBS 위험도 지수를 계산한 결과를 포함한다. 분석 결과에 따라 제공되는 결과값은 지수에 따라 위험, 주의, 양호와 같은 단계로 나타내어질 수 있다. 예를 들어, 기준 데이터베이스의 모든 샘플을 지수화하여 하위 0 내지 75%는 양호, 75 내지 95%는 주의, 95 내지 100%는 위험 단계로 분류할 수 있다. 또는, 상기 3가지 단계의 분류 기준 수치로서, IBS 지수가 0.8 이하 주의, IBS 지수가 0.95 이하 보통, IBS 지수가 0.95 초과 양호로 표시할 수 있다.

(2) 검출된 IBS 바이오마커 미생물의 정보

또한, 상기 분석 리포트에는 IBS biomarker에 해당하는 미생물 중에서 대표적인 미생물에 대한 설명과 군집내 점유 비율을 나타낼 수 있다. 상기 결과 보고서의 예시를 도 5에 나타내었다.

상기 도 5의 구체적 일예를 들어 설명하면, 우측 상단의 막대 그래프는 주의(적색), 보통(황색) 및 양호(녹색)의 세 가지 분류와 그 기준 수치 (IBS 지수가 0.8 이하 주의, IBS 지수가 0.95 이하 보통, IBS 지수가 0.95 초과 양호)를 나타낸 것이며, 검정색 화살표와 숫자는 검출 대상의 IBS 지수의 구체적인 수치 및 그래프 위에서의 상대적인 위치를 나타낸다. 상기 막대 그래프 좌측으로는 ‘미생물 IBS 지수는 주의입니다. 특정 장내미생물이 지배적으로 장내환경을 뒤덮어 장내 불균형 Dysbiosis을 일으키거나 장내 세포의 결속을 느슨하게 할 경우, 우리는 지속적이고 빈번한 고통을 느끼게 됩니다. 이런 증상을 보이는 과민성 대장 증후군 IBS, IBS 환자들의 장내미생물 환경과 장내 미생물 패턴의 유사성을 인공지능 분석으로 계산한 결과입니다.’와 같은 간단한 설명문을 기재할 수 있다. 하단에는 ‘과민성대장증후군 IBS 과 관련있는 대표적인 미생물’이라는 소제목이 표시되어 있으며, IBS군 평균은 적색 점으로, 건강군 평균은 녹색 점으로 표시한, 각 균주에 대한 평균 군집 규모 그래프가 표시되어 있다. 상기 그래프에는 검출 대상에서 확인된 각 미생물의 군집 규모를 IBS 평균 및 건강군 평균과 구별되는 표시로 표시할 수 있다. 도 5에서는 상기 막대 그래프에서와 동일한 흑색 화살표로 표시되어 있으며, 범례에는 각 미생물의 군집 규모 수치가 표시되어 있다. 각 그래프의 하단에는 각 미생물의 명칭과 학명이 기재되어 있으며 도 5에는 좌측은 ‘크리스텐세넬라세(Christensenellaceae)’, 우측은 ‘루미노코카세(Ruminococcaceae)’로 표시되어 있다. 각 균주의 명칭 하단에는 해당 균주에 대한 설명이 표시될 수 있으며, 도 5에서는 ‘크리스텐세넬라세’하단에는 ‘이 미생물은 신체질량지수가 낮은 사람의 장에서 흔히 발견되는 것으로 알려져 있습니다. 최근 연구에 따르면, 과민성대장증후군(IBS) 환자의 장에서 그 비율이 감소하는 것으로 관찰되었습니다.’가, 루미노코카세 하단에는 ‘이 미생물은 사람의 장에서 흔하게 발견되며, 식이섬유 섭취 시 그 비율이 급격하게 늘어나는 것이 관찰되었습니다. 과민성 대장 증후군(IBS) 환자의 장에서 건강한 사람에 비해 낮은 비율로 존재합니다.’라는 설명이 각각 기재되어 있다.

본 발명이 제공하는 IBS 바이오마커(IBS biomarker)를 통해 장내 미생물 분석 결과에 대하여 IBS의 진단 및 위험도 예측이 가능하다. 구체적으로, 본 발명은 IBS 바이오마커 및 이를 이용한 IBS의 진단 또는 위험도 예측 방법, 또는 IBS의 진단 또는 위험도 예측용 키트을 제공하며, 이를 통해 IBS의 진단 또는 IBS 발병 위험성에 대한 정량적인 예측이 가능하다.

도 1은 본 발명의 일 예에 따른 IBS 예측 모델을 이용하여 시험 대상의 IBS 여부를 결정하는 과정을 나타내는 모식도이다.

도 2는 실시예 3에 따라 바이오마커를 이용한 IBS 예측 모델을 평가한 ROC 그래프이다.

도 3은 실시예 4에 따라 IBS 위험도 지수를 통해 민감도(Sensitivity), 특이도(Specificity), 및 정확도(Accuracy) 값을 확인한 결과를 나타낸 그래프이다. 민감도(Sensitivity)는 Cut-off 값이 증가할수록 감소하고, 정확도(Accuracy)는 Cut-off 값이 0.8 내지 1.0일때까지 서서히 증가하다가 이후 소폭 감소하는 경향을 보이며, 특이도 (Specificity)는 Cut-off 값이 증가할수록 함께 증가하는 경향을 보인다.

도 4는 지수별로 관측된 샘플의 IBS 위험도 지수의 분포를 나타낸 사분위수 그래프이다. 가로축은 IBS 지수, 세로축은 해당 점수에 해당하는 샘플에 대한 빈도값(Density)을 의미한다.

도 5는 본 발명의 IBS 예측 모델을 적용하여 제공되는 분석 리포트의 예시이다.

도 6a 내지 6d는 본 발명이 제공하는 바이오마커의 계통수(phylogenic tree)이다. 구체적으로 도 6a는 건강군 특이적 종 수준 바이오마커, 도 6b는 건강군 특이적 속 수준 바이오마커, 도 6c는 IBS 환자군 특이적 종 수준 바이오마커, 도 6d는 IBS 환자군 특이적 속 수준 바이오마커의 계통수를 나타낸다. 도 하단의 bar는 각 하위그룹의 서열간 차이에 대한 기준(scale)을 의미한다.

이하 본 발명을 실시예에 의해 상세히 설명한다. 그러나 하기 실시예는 본 발명을 예시하기 위한 것이며, 권리범위를 제한하기 위한 것이 아니다.

시료 준비

(1) 인체 마이크로바이옴 데이터베이스

마이크로바이옴 데이터베이스로 (주)천랩이 보유한 총 10만여 개의 인체 마이크로바이옴 데이터베이스를 이용하였다. 상기 데이터베이스는 (주)천랩이 자체 보유한 미생물 유전자 데이터베이스인 EzBioCloud를 이용하여 동정 및 정제한 장내 미생물 데이터로, 종래의 미생물 유전자 데이터베이스보다 세밀하고 정확한, 종 수준(Species level)의 미생물 동정이 가능한 장점이 있다. 또한 상기 데이터베이스는 2017년에 발표된 해당 분야 논문 57,177편 중 가장 많이 인용된 데이터베이스이다.

본 발명자들은 IBS 바이오마커를 선별하기 위해 상기 EzBioCloud와 인체 마이크로바이옴 데이터베이스에서 건강한 정상인 한국인의 장내 미생물 데이터와 IBS로 진단받은 환자군 한국인의 장내 미생물 데이터를 이용하여 장내 미생물 군집 구조를 비교 분석하였다.

(2) 건강(정상)군 데이터베이스

건강한 정상군 한국인의 장 샘플, 또는 건강군 데이터베이스는 자기 보고(self-report)를 기반으로 준비되었다. 한국인 장내 미생물 데이터는 총 2,000여 샘플로부터 얻었으며, 메타 데이터로 전자의료기록이 첨부된 1,000여 샘플 중에서 대사 질환과 관련된 기록을 이용하여 456명의 건강한 한국인 샘플을 선별하였다.

상기 대사 질환과 관련된 의료 기록으로는 과민성 대장증후군(IBS) 해당 여부, 당화혈색소(Hemoglobin A1c, HbA1c) 수치, BMI(Body mass index), 대사증후군(metabolic syndrome) 진단 여부를 사용하였다. 구체적으로, 비 IBS환자, 혈중 HbA1c 수치 6.5% (w/v) 미만, BMI 수치 18 이상 25 미만 및 비 대사증후군 환자의 조건을 만족하는 경우 건강군으로 선별하였다.

(3) IBS 환자군 데이터베이스

IBS 환자군은 국내 유수 병원들과 공동연구를 수행하여 수집한 샘플이며, 3년 이내에 로마 진단 기준 (Rome diagnostic criteria)에 따라 과민성 대장 증후군을 진단받은 91명 환자의 장내 미생물 데이터이다.

(4) 테스트 세트(Test set) 구성

건강군과 IBS 환자군의 모든 장내 미생물 군집 데이터를 트레이닝 세트(Training set)와 테스트 세트(Test set)로 나누어 각각 IBS biomarker를 선별하기 위한 set와 IBS 예측 모델을 평가하기 위한 set로 구별하였다. 건강군과 IBS 환자군의 10%에 해당하는 샘플을 무작위로 선정하여 이를 Test set으로 규정하였고, 나머지 샘플을 Training set으로 규정하여 Training set과 Test set이 약 9:1의 비율을 유지하도록 하였다.

상기 Test set과 Training set은 기계 학습을 위한 부트스트랩(bootstrap) 반복 수행마다 재설정되었다.

실시예 1. DNA 추출 및 군집 분석

1-1: 미생물 게놈 DNA 분리 및 증폭

상기 시료에서 건강군 또는 IBS 환자군의 대변 샘플을 수집하였다. 채변 샘플은 미생물의 변이를 막는 완충액에 담겨 수집되었다. 상기 완충액은 4%(w/v) SDS(Sodium Dodecyl Sulfate), 50mM Tris-HCl, 50mM EDTA 및 500mM NaCl로 구성되었으며, 구체적인 조성은 하기 표 5에 나타내었다.

모든 샘플은 DNA 완충액에 담겨 수집된 상태이므로, 수집 직후 FastPrep (MP Biomedicals)에서 speed 6.0으로 40 초간 homogenization하여 물리적인 방법으로 유전체 DNA(genomic DNA)를 추출하였다. 추출된 유전체 DNA를 서열번호 127 및 128 universal primer를 사용하여 중합효소 연쇄 반응(PCR reaction)을 통해 광범위한 분류군(taxonomic group)을 대상으로 한 다양한 유형의 앰플리콘(amplicon)을 생성하였다.

상기 universal primer의 서열은 하기와 같으며, 앰플리콘 형성을 위한 PCR pre-mix의 조성 및 PCR 수행 조건을 표 6 및 표 7에 각각 나타내었다.

정방향 universal primer (서열번호 127): 5'-CCTACGGGNGGCWGCAG -3'

역방향 universal primer (서열번호 128): 5'-GACTACHVGGGTATCTAATCC -3'

1-2: 미생물 게놈 DNA 증폭산물을 이용한 미생물 군집 분석

상기 얻어진 앰플리콘들은 MiSeq (Illumina)을 이용하여 차세대뉴클레오티드 서열분석(NGS)을 수행하여, 16S 리보솜 RNA 유전자의 서열 분석을 시행하였다. 하나의 샘플에서 생성된 수 천개의 16S rRNA 유전자 서열들은 표준 균주 및 비-배양 미생물의 16S rRNA 유전자 서열의 데이터베이스 (EzTaxon)를 이용하여, 문 (phylum) 수준에서 종(species) 수준까지 미생물 군집 분석을 시행하였다.

실시예 2. 미생물 바이오마커 선별(제1단계)

2-1. LASSO의 파라미터 설정 및 최적화

미생물 마커 선별의 제1단계로서, 상기 실시예 1-2에서 분석한 결과에 따라 정상군과 환자군 사이에서 군집 패턴을 통계적으로 유의미하게 인식하는 단계인 IBS 위험도 예측 모델을 적용하였다. 이러한 예측 모델은 라소(Least absolute shrinkage and selection operator, LASSO)를 이용하였다. LASSO의 특징 선택 알고리즘은 모델의 회귀계수(regression coefficient)의 합계에 벌점(penalty)을 부과하여 예측 변수인 IBS와 가장 강한 연관관계를 보이는 미생물만을 선택할 수 있도록 하는 특징이 있다(Friedman, Hastie & Tibshirani, J Stat Softw, 2010., S. J. Kim, K. Koh, M. Lustig, S. Boyd and D. Gorinevsky, in IEEE Journal of Selected Topics in Signal Processing, 2007.)

LASSO 모델의 예측 함수는 하기 수학식 3과 같다.

[수학식 3]

[수학식 4]

각 변수는 하기와 같다.

상기

는 모델의 예측 점수이고 0에서 1사이의 확률값을 가진다.

상기

이때 사용하는 가중치인 정규화 파라미터(regularization parameter)를 미생물 군집데이터에 맞게 설정하는 단계가 가장 먼저 필요하다. 이를 위해 정규화 파라미터를 0.0001 에서 10000 사이에서 지수 스케일로 균등하게 10개로 잘라 10개의 모델을 생성하여 가장 좋은 예측 결과(가장 높은 AUC 수치)를 주는 모델 파라미터를 선별하는 과정을 거쳤다. 이러한 그리드서치(grid search)를 통해 최적화(optimization)된 하이퍼파라미터(hyperparameter)를 얻을 수 있다. 모델의 하이퍼파라미터에 해당하는 정규화 파라미터 즉, 본 발명에 따른 최적화된 IBS 위험도 예측 모델은 상기 수학식 3의

2-2. IBS 위험도 예측 모델을 이용한 미생물의 특징적 선택(1차)

실시예 2-1에서 찾은 최적의 모델 파라미터를 이용해 특징 선택 (feature selection) 과정을 진행하였다. 클래스 불균형 문제 (class imbalance problem)를 완화하기 위해 건강군의 training set로 선별된 410개 샘플에서 IBS 환자군의 training set과 동일한 수로 82개 샘플을 랜덤으로 선택하였다. 또한, 회귀계수의 기대값을 도출하기 위해 100번의 부트스트랩 반복 (bootstrap replication)으로 이와 같은 선택 과정을 반복하였다.

상기 100번의 반복 수행에서 건강군 또는 IBS 환자군의 마커로 판별된 빈도는 Robustness, 건강군 또는 IBS 환자군과의 관련도(

)를 평균 계산한 값은 Coefficient라고 정의된다. Coefficient 값은 바이오마커의 영향력을 나타낸 값으로써, 각 바이오마커가 건강군 혹은 IBS 환자군 중에서 어느 그룹에 특정하는지에 대한 정보 역시 포함하고 있다. 건강군과 IBS 환자군의 2개의 그룹에서 더 많은 군집 규모(population)를 보이는 경우에 따라, Coefficient 값은 음수값과 양수값으로 분포하며, 이를 수학식 3과 같은 logistic function에 적용하여 정상군 및 IBS군에 대한 특이점을 판별한다. 정상군에 더 많이 분포할 경우 음수값, IBS군에 더 많이 분포할 경우 양수값으로 표현되도록 설정하였다.

1차 특징 선택으로 나타난 건강군과 관련된 바이오마커는 종 수준(Species level)에서 29개, 속 수준(Genus level)에서 23개 분류군으로 나타났다. 반면, IBS 환자군과 관련된 바이오마커는 종 수준(Species level)에서 15개, 속 수준(Genus level)에서 9개 분류군이다. 표 8 및 표 9에는 건강군과 관련된 종 수준 바이오마커 및 건강군과 관련된 속 수준 바이오마커, 표 10 및 표 11에는 IBS 환자군과 관련된 종 수준 바이오마커, IBS 환자군과 관련된 속 수준 바이오마커의 종류를 각각 표시하였다.

하기 표 8 내지 표 11에서, coefficient 는 수학식 3의 β를 계산하여 얻고, 음수값일 경우 건강군에 특이적인 미생물임을 의미하며, 양수값일 경우 IBS군에 특이적인 미생물임을 의미한다. robustness 는 100번 반복수행한 부트스트랩 결과를 통해 해당 미생물이 해당 결과로 나타난 경우를 계산하여 얻고, 1에 가까울수록 반복적으로 해당 그룹에 특이적인 결과임을 의미한다. 또한, 건강군 비율과 IBS 비율은 각각 동정된 전체 미생물의 총 reads 수에 대비하여 해당 미생물이 차지하는 reads 수를 통해 비율을 계산하여 얻고, 군집 규모(population)를 의미한다. 하기 표 8 내지 11에서 종수준 또는 속 수준으로 분류한 것은, 해당 미생물의 탐지 수준을 나타내며, 각 미생물의 동정에 따른 분류가 종, 속 수준을 의미하는 것은 아니다.

2-3. IBS 위험도 예측 모델을 이용한 미생물의 특징적 선택(2차)

실시예 2-2의 LASSO 적용 결과를 건강군 혹은 IBS 환자군 선별 기준에 따라 보정하여, 최종 미생물 바이오마커를 선정하였다. IBS 특이적 바이오마커로 판별된 미생물은 IBS군에 특이적인 마커로서 판별한 미생물이기 때문에, 건강군에 비해 IBS군에서 미생물 분류군의 군집 규모(population)가 더 낮은 비율을 보여야 한다. 따라서, 건강군에서 미생물 분류군의 군집 규모(population)가 더 높은 비율로 나타난 미생물 분류군을 제외하고 IBS 특이적 바이오마커로 선별하였다. 건강군 특이적 바이오마커 역시 같은 이유로 IBS군에서 더 높은 비율로 나타난 미생물 분류군을 제외하였다. 이러한 과정을 통해 LASSO를 적용하여 얻어낸 바이오마커를 건강군과 질병군이라는 미리 규정된 기준에 따라 보정할 수 있다.

상기 방법을 통해 건강군에서 미생물 분류군의 군집 규모가 더 높은 비율로 나타난 Ruminococcus gnavus, Veillonella parvula group 등의 총 3개 분류군을 건강군 특이적 바이오마커에서 제외하였다. IBS 특이적 바이오마커로는 IBS군에서 더 높은 비율로 나타난 Hungatella hathewayi group, Lactobacillus rogosae group 등의 총 7개 분류군을 제외하였다.

상기 제외된 미생물 분류군를 고려하여, 건강군 특이적 바이오마커는 상기 표 1에 나타낸 Species level에서 26개 분류군, 상기 표 2에 나타낸 Genus level 22개 분류군으로 이루어져 있다.

한편, LASSO 결과를 바탕으로 선별하여 보정을 마친 IBS-specific biomarker는 상기 표 3에 나타낸 Species level에서 8개 분류군, 상기 표 4에 나타낸 Genus level에서 7개 분류군으로 이루어져 있다.

상기 바이오마커들을 분류학적인 관점에서 건강군과 IBS군에 특이적인 미생물 마커의 16S rRNA sequence를 기반으로 neighbor joining 알고리즘을 이용하여 phylogenetic tree를 생성하였으며, tree 상에서 clustering 형성 여부를 근거로 subgroup을 구분하였다. 건강군과 IBS군에서 나타나는 바이오마커는 아래와 같이 19개 subgroup으로 나눌 수 있다. 도 6a 내지 도 6d에 건강군 및 IBS군의 종 및 속 수준 바이오마커의 phylogenic tree를 표시하였다. 구체적으로, 종 수준의 건강군 특이적 바이오마커는 제1그룹 내지 제6그룹, 속 수준의 건강군 특이적 바이오마커는 제7그룹 내지 제11그룹, 종 수준의 IBS 환자군 특이적 바이오마커는 제12그룹 내지 제14그룹, 속 수준의 IBS 환자군 특이적 바이오마커는 제15그룹 내지 제19그룹의 하위그룹을 포함한다.

실시예 3. Test set을 이용한 IBS 예측 모델 검증(제 2단계)

3-1. IBS 여부 판별 결과

상기 시료 준비에서 얻어진, 건강군과 IBS 환자군으로 이루어진 모든 장내 미생물 군집 데이터를 갖는 Test set을 이용하여, 상기 구축된 IBS 예측 모델을 이용하여, IBS 여부가 구별되는지 살펴보았다.

이를 위해 구체적으로 실시예 2에서 선택한 미생물 마커와 해당 마커의 Coefficient 값을 이용하여 IBS 판별을 위한 예측점수(prediction score)를 계산하였다.

실시예 2-3에서 선별한 미생물들의 계수(coefficient)를

, 선별한 미생물들의 군집 규모가 장내 균총에서 차지하는 비율을 X' 라고 할 때, 예측 점수

는 하기 수학식 2와 같이 계산한다. 수학식 2에서 각 파라미터 정의는 상기한 바와 같다.

[수학식 2]

상기 예측점수(prediction score)는 Test set의 장내 미생물 군집 데이터에서 실시예 2를 통해 선택한 미생물 마커를 찾고 이를 해당 바이오마커의 Coefficient와 내적곱을 하여 0 내지 1의 값으로 계산한다.

3-2. IBS 예측 모델의 검증

상기 실시예 2의 IBS 예측 모델을 Test set에 적용하여 예측 모델을 검증하였다. 예측 모델을 이용하여 Test set에 대한 IBS 여부를 판정한 결과의 ROC 곡선 (receiver operating characteristic curve) 및 AUC (area under curve) 그래프를 도 2에 나타내었다. ROC 곡선이 활 모양으로 크게 굽어져 있고, AUC는 0.76으로 1에 가까운 값을 보이므로 상기 실시예 3-1에서 적용한 IBS 판별 결과가 유의미함을 알 수 있다.

실시예 4. IBS 위험도 지수의 산출

4-1. IBS 예측 모델을 통한 IBS 위험도 지수화

실시예 3-1의 IBS 확률은 Train set의 IBS 환자군과 건강군에 비율에 근거하여 계산된 확률이며 이는 실제 인구에서 질병일 확률이 아니다. 이에 정확한 임상적 해석을 부여하기 위해, 0과 1사이의 확률값을 학습에 사용한 IBS 환자군과 건강군의 비율로 나눠 리스케일하였다. 수학식 1에서 각 파라미터 정의는 상기한 바와 같다.

[수학식 1]

상기 지수를 IBS 위험도 지수라 규정하였으며, 미지의 시료에 대해서 IBS 환자와 건강한 사람을 구별할 수 있다.

4-2. IBS 위험도 지수의 판별 기준 및 정확도

미지 시료에 대하여 IBS 상태를 구분하는 지표로 상기 IBS 위험도 지수를 사용할 수 있는지 검증하기 위해 상기 실시예 4-1에서 구한 IBS 위험도 지수를 통해 민감도(Sensitivity), 특이도(Specificity), 정확도(Accuracy) 값을 확인해보았다. 민감도는 전체 IBS 시료 중 실제로 IBS로 판정된 비율, 특이도는 전체 건강군 시료 중 실제 건강군으로 판정된 비율을 의미하며, 정확도는 전체 시료 중 IBS 환자 또는 건강 여부가 정확하게 판정된 비율을 나타낸다.

구체적으로, IBS 위험도 지수의 기준(cut-off)을 0.14 ~ 1.69 사이 20등분 하여 정하였고 각각 cutoff에 대해 아래 계산 및 검증을 진행하였다. 민감도(Sensitivity), 특이도(Specificity), 정확도(Accuracy)는 하기 수학식 5 내지 7과 같이 계산한다. 수학식 5 내지 7에서 각 파라미터 정의는 상기한 바와 같다.

[수학식 5]

[수학식 6]

[수학식 7]

정확도가 70%로 계산된 가장 높은 IBS 위험도 지수 0.957을 기준으로, 장 건강 상태를 구분할 경우, 건강한 사람을 정확하게 맞추는 특이도는 67%, IBS 증상을 보유한 사람을 정확하게 판단하는 민감도는 72 %이다. 해당 정확도 그래프를 도 3에 나타내었다.

전체 샘플들의 IBS 위험도 지수 분포를 사분위수 그래프로 도 4에 나타내었다. IBS 위험도 지수가 약 1.6 및 약 1.3의 값으로 사분위수가 분포하고 있으며, 이는 전체 기준 샘플의 IBS 위험도 지수를 백분율로 계산하였을 때, 하위 95% 및 75%에 해당하는 지점에 각각 분포하고 있다. 각각의 사분위수에는 100% 또는 90%의 특이도가 나타나며, 하위 75% 및 95%를 기준으로 IBS 여부를 판별할 때, 건강 여부를 정확하게 구별할 수 있으므로 임상학적으로 더 높은 판별능을 보이는 것을 알 수 있다.

따라서, 검사한 시험 대상의 샘플을 분석하여 얻어진 IBS 위험도 지수가, 기준 데이타베이스의 IBS 위험도 지수 분포 내에서 하위 95% 내지 100%인 경우를 위험, 하위 95% 내지 75%인 경우 주의, 하위 75% 내지 0%인 경우 건강으로 판정할 수 있다.

Claims

시험 대상으로부터 얻은 장내 미생물의 16S rRNA 유전 정보를 분석하여, 미생물 바이오마커의 동정 및 장내 미생물 군집 내 점유율을 얻는, 미생물 군집 분석을 수행하는 단계,

상기 미생물 군집 분석 결과를 이용하여, 시험 대상의 과민성 대장증후군(IBS)의 위험도를 지수화하여 시험 대상의 IBS 위험도 지수를 얻는 단계, 및

상기 IBS 위험도 지수를 이용하여 시험 대상의 과민성 대장증후군 위험도를 결정하는 단계를 포함하는, 시험 대상의 과민성대장증후군(IBS)의 위험도를 분석하는 방법.
제1항에 있어서, 상기 장내 미생물의 16S rRNA 유전 정보는, 16S rRNA에 대한 PCR 프라이머쌍을 이용하여, 장내 미생물의 게놈 DNA에 대한 표적 서열분석(target sequencing)을 수행하여 얻어지는 것인 방법.
제1항에 있어서, 상기 미생물 군집 분석을 수행하는 단계는,

상기 시험대상의 16S rRNA 유전 정보와 16S rRNA 데이터베이스를 이용하여, 미생물을 속 수준 또는 종 수준으로 동정 및 분류하는 단계, 및 상기 동정 및 분류된 미생물의 장내 미생물 군집 내 점유율(population)를 분석하는 단계를 포함하는 것인, 방법.
제1항에 있어서, 상기 시험 대상의 IBS 위험도 지수를 얻는 단계는, 상기 16S rRNA 분석 결과를 과민성 대장증후군 예측 모델에 적용하여, 시험 대상의 IBS 위험도 지수를 얻는 것을 포함하는 것인, 방법.
제4항에 있어서, 상기 IBS 위험도 지수를 이용하여 시험 대상의 IBS 위험도를 결정하는 단계는, 상기 시험 대상의 IBS 위험도 지수가 기준 데이터베이스의 IBS 위험도 지수 분포상의 위치를 결정하는 것을 포함하는 것인, 방법.
제5항에 있어서, 상기 기준 데이터베이스의 IBS 위험도 지수 분포상의 위치를 결정하는 단계는,

IBS 환자 및 정상인으로부터 얻은 장내 미생물의 16S rRNA 유전 정보를 이용하여 장내 미생물의 군집 분석을 수행하고, 상기 군집 분석 결과를 이용하여 기준 데이터베이스의 위험도 지수의 분포를 IBS 위험도 지수의 백분위로 나타내는 단계; 및

상기 기준 데이터베이스 내에서 상기 시험 대상의 IBS 위험도 지수의 백분위 위치를 결정하는 단계를 포함하는 것인, 방법.
제1항에 있어서, 상기 IBS 위험도 지수는 하기 수학식 1에 의해 얻어지며, 과민성대장증후군(IBS) 환자와 건강한 사람을 구별하는 것인, 방법:

[수학식 1]

상기 수학식 1에서,

는 시험 대상의 과민성 대장증후군(IBS) 판별을 위한 예측 점수이고 하기 수학식 2에 의해 계산되는 값이며,

[수학식 2]

P ₀ 는 상기 예측 모델 구축에 사용된 트레이닝 세트(training set)에 존재하는 IBS 샘플의 비율이며,

Ncase 는 상기 트레이닝 세트(training set) 내 IBS 샘플의 수이며,

N_train은 상기 트레이닝 세트의 전체 샘플 수이며,

상기 수학식 2에서,

는 선별한 미생물들의 회귀계수(coefficient)이고,

X'는 선별한 미생물들의 군집이 장내 균총에서 차지하는 비율이다.
제7항에 있어서, 상기
는 하기 수학식 3에 의해 얻어지는 선별된 미생물들의 회귀계수(coefficient)인 방법:

[수학식 3]

상기 수학식 3에서,

상기
는 모델의 예측 점수이고 0에서 1사이의 확률값을 가지며,

상기 X 는 미생물 군집의 비율이며,

상기 m은 학습에 사용된 미생물 분류군의 수이며,

상기 β는 하기 수학식 4에 의해 계산된 회귀계수(Coefficient)이며

[수학식 4]

상기
는 학습에 사용한 n개의 시료의 미생물 군집 비율에 해당하며,

상기
는 사용한 시료의 실제 IBS 여부에 해당하며, 건강군은 0, 과민성 대장증후군(IBS) 환자군은 1의 수치를 가지고,

상기 n은 상기 예측 모델의 학습에 사용한 전체 샘플의 수이며,

상기 λ 값은 IBS 예측 모델의 하이퍼파라미터(hyper parameter)이다.
제1항 내지 제8항중 어느 한 항에 따른 시험 대상의 과민성대장증후군(IBS)의 위험도를 분석하고,

시간의 경과에 따른 상기 시험 대상의 IBS 위험도 지수 변화를 모니터링하는 단계를 포함하는, 과민성 대장증후군의 예후 모니터링에 필요한 정보를 제공하는 방법.
제9항에 있어서, 상기 시간에 따른 상기 환자의 지수 변화를 모니터링하는 단계는, 상기 지수가 기준 데이터베이스의 과민성 대장 증후군의 위험도 지수 분포상의 위치가 하위 0%에 가까워 질수록 예후가 좋은 것으로 결정하는 것이며,

상기 기준 데이터베이스의 과민성 대장 증후군의 위험 지수 분포상의 위치는,

IBS 환자 및 정상인의 대변 시료로부터 얻은 장내 마이크로바이옴 데이터 또는 상기 데이터로부터 얻은 IBS 위험도 지수를 포함하는 기준 데이터베이스의 위험도 지수의 분포를, IBS 위험도 지수의 백분위로 나타내는 단계; 및

상기 기준 데이터베이스 내에서 상기 시험 대상의 IBS 위험도 지수의 백분위 위치를 결정하는 단계로 이루어지는 방법으로 결정되는 것인, 방법.
제1항 또는 제9항에 있어서, 상기 바이오마커는 알로프리보텔라(Alloprevotella)속 균주, 박테로이데스(Bacteroides)속 균주, 네그렉타(Neglecta) 속 균주, 부티리키코커스(Butyricicoccus) 속 균주, 디설포비브리오(Desulfovibrio) 속 균주, 스포로박터(Sporobacter) 속 균주, 프리신기코커스(Frisingicoccus) 속 균주, 수도플라보니프락터(Pseudoflavonifractor) 속 균주, 파스코락토박테리움(Phascolarctobacterium) 속 균주, 카프로이치프로듀센스(Caproiciproducens) 속 균주, 아나에로티그눔(Anaerotignum) 속 균주, 해리플린티아(Harryflintia) 속 균주, 락토바실러스(Lactobacillus) 속 균주, 로소넬라(Lawsonella) 속 균주, 마이크로박테리움(Microbacterium) 속 균주, 펩토니필러스(Peptoniphilus) 속 균주, 매실리오클로스트리디움(Massilioclostridium) 속 균주, 코프로코커스 카투스(Coprococcus catus), 박테로이데스 카에시갈리나룸(Bacteroides caecigallinarum), 디설포비브리오 피거(Desulfovibrio piger), 아들러크레우치아 에퀴오리파시엔스(Adlercreutzia equolifacien), 박테로이데스 에게르티(Bacteroides eggerthii), 박테로이데스 유니포르미스(Bacteroides uniformis), 푸조박테리움 바리움(Fusobacterium varium), 알리스티페스 샤히이(Alistipes shahii), 유박테리움 래물루스(Eubacterium ramulus), 박테로이데스 아시디파시엔스(Bacteroides acidifaciens), 블라우티아 파에시스(Blautia faecis), 및 박테로이데스 코프로콜라(Bacteroides coprocola)로 이루어지는 군에서 선택된 1종 이상의 미생물을 포함하는 것인 방법.
제1항 또는 제9항에 있어서, 상기 바이오마커는, 서열번호 64 내지 126의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA를 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 과민성 대장증후군 진단용 바이오마커.
제12항에 있어서, 상기 바이오마커는 서열번호 1 내지 63의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인 것인, 방법.
서열번호 64 내지 126의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA를 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 과민성 대장증후군 진단용 바이오마커.
제14항에 있어서, 상기 바이오마커는 서열번호 1 내지 63의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인 것인, 바이오마커.
제14항에 있어서, 상기 바이오마커는 과민성 대장증후군 환자군에서 군집내 점유율(population)이 건강군에 비해 높으며, 서열번호 112 내지 126의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 바이오마커.
제15항에 있어서, 상기 바이오마커는 과민성 대장증후군 환자군에서 군집내 점유율(population)이 건강군에 비해 높으며, 서열번호 49 내지 63의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 바이오마커.
제14항에 있어서, 상기 바이오마커는, 과민성 대장증후군 환자군에서 군집내 점유율(population)이 건강군에 비해 낮으며, 서열번호 64 내지 111의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 바이오마커.
제15항에 있어서, 상기 바이오마커는, 과민성 대장증후군 환자군에서 군집 비율(population)이 건강군에 비해 낮으며, 서열번호 1 내지 48의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 바이오마커.
제14항에 있어서, 상기 박테리아는 알로프리보텔라(Alloprevotella)속 균주, 박테로이데스(Bacteroides)속 균주, 네그렉타(Neglecta) 속 균주, 부티리키코커스(Butyricicoccus) 속 균주, 디설포비브리오(Desulfovibrio) 속 균주, 스포로박터(Sporobacter) 속 균주, 프리신기코커스(Frisingicoccus) 속 균주, 수도플라보니프락터(Pseudoflavonifractor) 속 균주, 파스코락토박테리움(Phascolarctobacterium) 속 균주, 카프로이치프로듀센스(Caproiciproducens) 속 균주, 아나에로티그눔(Anaerotignum) 속 균주, 해리플린티아(Harryflintia) 속 균주, 락토바실러스(Lactobacillus) 속 균주, 로소넬라(Lawsonella) 속 균주, 마이코박테리움(Microbacterium) 속 균주, 펩토니필러스(Peptoniphilus) 속 균주, 매실리오클로스트리디움(Massilioclostridium) 속 균주, 코프로코커스 카투스(Coprococcus catus), 박테로이데스 카에시갈리나룸(Bacteroides caecigallinarum), 디설포비브리오 피거(Desulfovibrio piger), 아들러크레우치아 에퀴오리파시엔스 (Adlercreutzia equolifaciens), 박테로이데스 에게르티(Bacteroides eggerthii), 박테로이데스 유니포르미스(Bacteroides uniformis), 푸조박테리움 바리움 (Fusobacterium varium), 알리스티페스 샤히이(Alistipes shahii), 유박테리움 래물루스(Eubacterium ramulus), 박테로이데스 아시디파시엔스(Bacteroides acidifaciens), 블라우티아 파에시스(Blautia faecis), 및 박테로이데스 코프로콜라(Bacteroides coprocola)로 이루어지는 군에서 선택된 1종 이상의 종(species) 박테리아인 것인, 과민성 대장증후군 진단용 바이오마커.
제20항에 있어서, 상기 박테리아는 서열번호 1 내지 서열번호 126의 뉴클레오티드 서열로 이루어지는 군에서 선택되는 하나 이상의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 것인, 바이오마커.
제14항 내지 제21항 중 어느 한 항에 따른 바이오마커를 검출하는 제제를 포함하는, 과민성 대장증후군 진단용 조성물.
제14항 내지 제21항 중 어느 한 항에 따른 바이오마커를 검출하는 제제를 포함하는, 과민성 대장증후군 진단용 키트.
제23항에 있어서, 상기 진단용 키트는 시험 대상의 채변 기구를 추가로 포함하는 것인, 과민성 대장증후군 진단용 키트.
제24항에 있어서, 상기 채변 기구는 박테리아의 변이를 막는 완충액을 포함하는 것인, 과민성 대장증후군 진단용 키트.
제23항에 있어서, 상기 진단용 키트는 시료에서 추출된 DNA을 증폭하기 위한 중합효소연쇄반응(PCR) 프라이머를 포함하는 것인, 과민성 대장증후군 진단용 키트.