WO2020149719A2 - 과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법 - Google Patents

과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법 Download PDF

Info

Publication number
WO2020149719A2
WO2020149719A2 PCT/KR2020/000953 KR2020000953W WO2020149719A2 WO 2020149719 A2 WO2020149719 A2 WO 2020149719A2 KR 2020000953 W KR2020000953 W KR 2020000953W WO 2020149719 A2 WO2020149719 A2 WO 2020149719A2
Authority
WO
WIPO (PCT)
Prior art keywords
ibs
group
genus
irritable bowel
bowel syndrome
Prior art date
Application number
PCT/KR2020/000953
Other languages
English (en)
French (fr)
Other versions
WO2020149719A3 (ko
Inventor
김남일
민의기
오현석
Original Assignee
주식회사 천랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200006873A external-priority patent/KR102330639B1/ko
Application filed by 주식회사 천랩 filed Critical 주식회사 천랩
Publication of WO2020149719A2 publication Critical patent/WO2020149719A2/ko
Publication of WO2020149719A3 publication Critical patent/WO2020149719A3/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Definitions

  • the present invention relates to a biomarker for the diagnosis or risk prediction of irritable bowel syndrome (IBS), a diagnostic or risk prediction method for IBS using the biomarker, and a kit for diagnosing or predicting the risk of irritable bowel syndrome.
  • the biomarker according to the present invention enables the diagnosis and risk prediction of more sensitive irritable bowel syndrome by identifying microorganisms in the intestine at the genus or species level.
  • IBS Inflammatory bowel syndrome or irritable bowel syndrome
  • the method proposed in the existing IBS study and the indicator species discovered by the method depend on the existing knowledge and the availability of cultivation of microorganisms in the intestine, and there is a problem in that accuracy is reduced because the statistical range complemented by the existing indicator species is wider than necessary.
  • IBS irritable bowel syndrome
  • CCMs culture-independent methods
  • Another object of the present invention is to provide a method for providing information necessary for diagnosis or risk prediction of IBS.
  • Another object of the present invention is to provide a composition for diagnosing or predicting risk of IBS, comprising an agent for detecting the biomarker.
  • Another object of the present invention is to provide a kit for diagnosing or predicting risk of IBS comprising an agent for detecting biomarkers.
  • the present invention used EzBioCloud, a microbial genome database that can be identified at a species level, and searched for IBS indicator species by applying machine learning, a big data analysis method, to effectively reflect the results of massive intestinal microbial analysis. .
  • the IBS biomarker searched by the IBS prediction model provided by the present invention is a biomarker discovered by genus and species level, which are classified in more detail than the family level in the classification system.
  • the present invention relates to a method for predicting the risk of irritable bowel syndrome using a non-invasive method by selecting a specific intestinal microorganism specific to a normal group or irritable bowel syndrome (IBS) using a machine learning method.
  • IBS irritable bowel syndrome
  • An example of the present invention relates to a biomarker for diagnosing or predicting risk for irritable bowel syndrome.
  • the biomarker provided in the present invention may be a normal or irritable bowel syndrome (IBS) specific intestinal microorganism or a 16S rRNA sequence of the IBS specific intestinal microorganism or some nucleotide sequence thereof.
  • IBS normal or irritable bowel syndrome
  • It may be one or more bacteria selected from the group consisting of bacteria.
  • the polynucleotide sequence including a nucleotide sequence selected from the group consisting of the nucleotide sequences of SEQ ID NOs: 64 to 126 may be a sequence corresponding to a part of the variable region of the 16S rRNA, and more specifically, the V3 to V4 regions of the variable region. It may be a sequence corresponding to all or part.
  • It may be one or more microorganisms (eg, bacteria) selected from the group consisting of microorganisms (eg, bacteria) containing.
  • the biomarker according to the present invention can be divided into a marker for irritable bowel syndrome and a marker for normal group, respectively.
  • the healthy group-specific microorganisms are classified into 26 taxa at the species level and 22 taxa at the genus level.
  • the IBS patient group specific microorganisms were classified into 8 taxa at the species level and 7 taxa at the genus level.
  • An example of a specific microbial biomarker according to the present invention may be a microorganism described in Tables 1 to 4 below.
  • the health group-specific biomarker is composed of 26 taxa at the Species level shown in Table 1 and 22 taxa at the Genus level shown in Table 2 below.
  • the specific microbial markers for the IBS patient group consist of 8 taxa at the Species level shown in Table 3 and 7 taxa at the Genus level shown in Table 4 below.
  • the taxonomic phylogenetic tree of the microorganisms can be prepared for the total of 63 microorganisms and subdivided into sub-groups based on taxonomy.
  • the biomarkers provided by the present invention that is, the total of 63 microorganisms are divided into the subgroups (the first group to the 19th group) divided based on taxonomy, or associated with a health group or an IBS patient group It can be classified into a plurality of groups according to the importance of the relationship (feature importance).
  • a phylosgnetic tree may be generated using a neighbor joining algorithm based on a 16S rRNA sequence to classify subgroups based on whether clustering is formed on the tree.
  • the total subgroup is composed of a total of 19, species-level health group specific biomarkers in groups 1 to 6, genus-level health group specific biomarkers in groups 7 to 11, and species level IBS
  • the patient group specific biomarkers include groups 12 to 14, and the IBS patient group specific biomarkers of subgroups of groups 15 to 19.
  • the importance based on the association with the health group or the IBS patient group it can be classified into a high importance group and a low group.
  • the absolute value of the average value is 0.080 or more based on the average value of the regression coefficient ( ⁇ , coefficient) of Equation 3 of the microorganisms in the subgroup, the group having high importance, the absolute value of the average value If it is less than 0.080, it may be classified as a group of low importance.
  • the first group includes PAC000748_s (Family Ruminococcaceae), PAC001312_s (Family Ruminococcaceae), PAC001649_s (Family Ruminococcaceae), GU324404_s (Genus Sporobacter), PAC001254_s (Genus Pseudoflavone) Ruminococcaceae), and seven species of PAC001597_s (Genus Caproiciproducens), the second group is PAC001441_s (Family Christensenellaceae), and two species of PAC001435_s (Family Christensenellaceae), the third group is Coprococcus catus, PAC001045_s (Family Lachnospira) Family Lachnospiraceae), 7 species of PAC001047_s (Family Lachnospiraceae), NFLI_s (Genus Frising
  • the seventh group is Harryflintia, PAC001144_g (Family Ruminococcaceae), PAC000683_g (Family Ruminococcaceae), EU794292_g (Family Ruminococcaceae), the fifth genus of Massilioclostridium
  • the eighth group is PAC001435_nell (Family)
  • And 2 genera of Peptoniphilus 9th group is Lactobacillus, PAC001687_g (Family Erysipelotrichaceae), and CCMM_g (Family Erysipelotrichaceae)
  • 3rd group is PAC002196_g (Family Lachnospiraceae), AB559589_g (Family Lachnospiraceae), AB559589_g (Family Lachnospiraceae) Lachnospiraceae), PAC000196_g (
  • Group 12 is one species of PAC001205_s (Genus Alloprevotella)
  • Group 13 is Eubacterium ramulus
  • PAC001451_s Fluorescence Lachnospiraceae
  • Blautia faecis Group 14 is Bacteroides. acidifaciens, Bacteroides coprocola, JH815484_s (Genus Bacteroides) and EU728720_s (Genus Bacteroides).
  • Group IBS patient group specific biomarker group group 15 is 1 genera of AM277970_g (Family Coriobacteriaceae), group 16 is Eubacterium_g21 (Family Lachnospiraceae), PAC002138_g (Family Lachnospiraceae), PAC001451_g (Family Lachnospiraceae) , Group 17 consists of one genera of Neglecta, Group 18 consists of one genera of Alloprevotella, and Group 19 consists of one genera of Butyricicoccus.
  • the microbial biomarker according to the present invention may include one or more selected from the microorganisms listed in Tables 1 to 4 below. Preferably, one or more of the first to 19th groups may be included.
  • the microbial biomarker provided by the present invention includes one or more biomarkers selected from the group consisting of species-level health group-specific biomarkers listed in Table 1, and a group consisting of genus-level health group-specific biomarkers shown in Table 2 below.
  • a group having an average value of 0.080 or more of the regression coefficient value of Equation 3 may be a first group and a second group.
  • the group having the average value of the regression coefficient value of Equation (3) among the biomarkers specific to the genus-level health group may be the eighth group and the eleventh group.
  • a group having an average value of 0.080 or more of the regression coefficient value of Equation 3 may be the 14th group.
  • the group-level IBS patient group-specific biomarker A group of markers having an average value of 0.080 or more of the regression coefficient value of Equation 3 may be the 17th to 19th groups.
  • Health group specific biomarkers according to the present invention can be divided into species level and genus level biomarkers.
  • the species-level health group-specific biomarker may be composed of one or more groups selected from the group consisting of the first group or the first group and the second group to the sixth group.
  • the species level health group specific biomarker may be composed of one or more groups selected from the group consisting of the first group and the second group, and selected from the group consisting of the third group to the sixth group. It may further include one or more groups.
  • the genus-level health group specific biomarker may be composed of one or more groups selected from the group consisting of the eighth group, or the eighth group and the seventh group, the ninth group, the tenth group, and the eleventh group. Can.
  • the biomarker specific to the genus-level health group may include at least one group selected from the group consisting of the eighth group and the eleventh group, and the seventh group, the ninth group, and the tenth group. It can contain.
  • the IBS patient group specific biomarkers according to the present invention may be divided into species level and genus level biomarkers.
  • the species-level IBS patient group-specific biomarker may be composed of one or more groups selected from the group consisting of the twelfth group or the twelfth group, the thirteenth group, and the thirteenth group.
  • the biomarker specific to the IBS patient group of the species level may further include one or more groups selected from the group consisting of the 14th group and the 12th group and the 13th group.
  • the genotype IBS patient group-specific biomarker may be composed of one or more groups selected from the group consisting of the 15th group or the 15th group and the 16th to 19th groups.
  • the IBS patient group-specific biomarker of the genus level may include one or more groups selected from the group consisting of the 17th to 19th groups and the 15th and 16th groups.
  • the biomarker for diagnosis or risk prediction of irritable bowel syndrome (IBS) provided by the present invention may be selected by analyzing the microbial community size of the intestinal flora in the IBS patient group and the health group.
  • a microbial microflora database of a species or genus level was constructed through a next-generation nucleotide sequence analysis from fecal samples of a healthy group and an IBS patient group, and then the colony size of each microorganism was analyzed.
  • the microbial community size is a predictive variable by statistically analyzing the pattern of change in the community size using a machine learning model and imposing a penalty on the sum of the regression coefficients using LASSO's feature selection algorithm. Only the microorganisms with the strongest association with IBS were selected. Coefficient values of each microorganism were obtained as shown in Equation 3 below, and the biomarkers related to the health group and the biomarkers related to the IBS were respectively determined at the species and genus levels.
  • the m refers to the number of microbial taxa used for learning.
  • the m value may be a natural number of 100,000 or less or 10,000 or less or 1000 or less.
  • the biomarker according to the present invention can be divided into a marker for irritable bowel syndrome and a marker for normal group, respectively.
  • the equation (3) for a particular microorganism When (coeffieicnet) is negative, it is classified as a biomarker specific to the health group, and the equation 3 When is a positive number, it can be classified as a biomarker specific to the IBS group.
  • the sub-groups (the first group to the 19th group) divided by the taxonomy of the biomarkers provided by the present invention may be further classified into a plurality of groups according to importance, one specific In the example, it can be classified into a group of high importance and a group of low importance according to the feature importance based on the association with the health group or the IBS patient group.
  • the absolute value of the average value is 0.080 or more based on the average value of the regression coefficient ( ⁇ , coefficient) of Equation 3 of the microorganisms in the subgroup, the group having high importance, the absolute value of the average value If it is less than 0.080, it may be classified as a group of low importance. At this time, the average value was rounded off to the fourth decimal place.
  • a group having an average value of 0.080 or more of the regression coefficient value of Equation 3 may be a first group and a second group.
  • the group having the average value of the regression coefficient value of Equation (3) among the biomarkers specific to the genus-level health group may be the eighth group and the eleventh group.
  • a group having an average value of 0.080 or more of the regression coefficient value of Equation 3 may be the 14th group.
  • the group-level IBS patient group-specific biomarker A group of markers having an average value of 0.080 or more of the regression coefficient value of Equation 3 may be the 17th to 19th groups.
  • the biomarkers detecting the normal group include Family level Ruminococcaceae, Christensenellaceae, Lachnospiraceae, Christensenellaceae, Erysipelotrichaceae and Genus level Desulfovibrio, Bacteroides, Sporobacter, Free Frisingicoccus, Pseudoflavonifractor, Phascolarctobacterium, Caproiciproducens, Anaerotignum, Harry Flintia, Lactobacillus, Lactobacillus ), Lawsonella (Lawsonella), Microbacterium (Microbacterium), Peptoniphilus (Peptoniphilus), Massiolo Clostridium (Massilioclostridium) is a microorganism that corresponds to, and the Species level is Coprococcus catus, Bacteroides caecigallinarum, Desulfovibrio piger, Adlercreutzia equolifaciens, Bacteroides egg
  • Biomarkers that detect irritable bowel syndrome include microorganisms that correspond to Family level Lachnospiraceae, Coriobacteriaceae, and Genus level Alloprevotella, Bacteroides, Neglecta, and Butyricicoccus. And, the Species level is Eubacterium ramulus, Bacteroides acidifaciens, Blautia faecis, Bacteroides coprocola.
  • Each biomarker is a group of microorganisms that are commonly known to reside in the human intestine, and is distinguished by the fact that it is composed mainly of microorganisms that produce short-chain fatty acids (SCFAs).
  • SCFAs short-chain fatty acids
  • Short-chain fatty acids are substances that are known to be beneficial for health, such as strengthening intestinal cell cohesion and helping digestion, and have been well known for their association with irritable bowel syndrome, as they alleviate leaky gut syndrome.
  • the biomarker can distinguish between a patient with irritable bowel syndrome and a normal group, and a marker for detecting microorganisms that show a high population scale in a patient with irritable bowel syndrome compared to a health group or a patient group with irritable bowel syndrome in the health group It may be to detect microorganisms that show a high population scale.
  • the present inventors can be used significantly in the diagnosis or prognosis prediction of irritable bowel syndrome among microorganisms in which the population size of microorganisms in the patient with irritable bowel syndrome significantly increases and/or decreases compared to the size of the population in the healthy group.
  • a total of 63 marker microorganisms were selected at the genus or species level.
  • a healthy normal Korean intestinal sample, or a healthy group database is prepared based on self-report.
  • Korean gut microbial data were obtained from a total of 2,000 samples, and 456 healthy Korean samples were selected using the records related to metabolic disease among 1,000 samples attached with electronic medical records as metadata.
  • IBS irritable bowel syndrome
  • Hemoglobin A1c glycated hemoglobin
  • BMI body mass index
  • metabolic syndrome diagnosis Specifically, non-IBS patients, blood HbA1c level less than 6.5% (w/v), BMI level 18 or more and less than 25, and non-metabolism syndrome patients were selected as healthy groups.
  • the extracted genomic DNA is used a universal primer consisting of the nucleotide sequence of SEQ ID NO: 127 and 128
  • NGS next-generation nucleotide sequencing
  • MiSeq Illumina
  • 16S rRNA gene sequences generated from one sample are a type of microbial community from the phylum level to the species level, using a database of 16S rRNA gene sequences of standard strains and non-cultivated microorganisms (EzTaxon). And its scale analysis. The size of the bacterial cluster was calculated as a ratio of the number of sequencing reads that the microorganism occupies to the total number of sequencing reads of all the identified microorganisms.
  • irritable bowel syndrome or irritable bowel syndrome is a typical functional gastrointestinal tract in which characteristic symptoms such as abdominal pain or abdominal discomfort, relief of symptoms after bowel movement, bowel frequency or change in stool form are chronically repeated.
  • irritable bowel syndrome may be diagnosed according to Rome diagnostic criteria, specific diagnostic criteria follow Rome IV criteria since 2016, and have been associated with bowel movements at least once a week for the past 3 months, or A case of recurrent abdominal pain accompanied by a change in bowel movement is diagnosed as irritable bowel syndrome, and subtypes are classified into constipation type, diarrhea type, mixed type, and unclassified type.
  • risk prediction means to determine the likelihood of developing the irritable bowel syndrome in the subject, screening the high risk of the irritable bowel syndrome and selecting appropriate targets to prevent or delay the onset of onset or However, it can be used clinically to make treatment decisions by selecting the most appropriate treatment modality.
  • diagnosis means to confirm the presence or characteristics of a pathological condition, and for the purpose of the present invention, diagnosis may mean to confirm whether or not the onset of irritable bowel syndrome is occurring.
  • An example of the present invention relates to a composition for diagnosing irritable bowel syndrome, comprising a biomarker for diagnosing irritable bowel syndrome or an agent capable of detecting microorganisms containing the biomarker.
  • An example of the present invention relates to a kit for detecting irritable bowel syndrome, comprising an agent capable of detecting a biomarker for diagnosing irritable bowel syndrome.
  • the composition for diagnosing irritable bowel syndrome provided by the present invention may include an agent for detecting the biomarker described above.
  • the agent for detecting the 16S rRNA may be an agent for measuring the population size of microorganisms containing the 16S rRNA.
  • the biomarker for diagnosis of irritable bowel syndrome is as described above.
  • the biomarker or an agent capable of detecting a microorganism containing the biomarker may be used without limitation, as long as it is an agent capable of detecting the microorganism biomarker.
  • the kit may further include a faecal apparatus for testing, and the faecal apparatus may include a buffer solution that prevents mutation of microorganisms, for example, bacteria.
  • the buffer may be composed of 4% (w/v) SDS (Sodium Dodecyl Sulfate), 50 mM Tris-HCl, 50 mM EDTA and 500 mM NaCl.
  • An example of the present invention provides a method for providing information on the diagnosis of irritable bowel syndrome, risk prediction, or prognosis monitoring of irritable bowel syndrome.
  • the present invention provides a method for analyzing the risk of irritable bowel syndrome (IBS) in a test subject,
  • IBS irritable bowel syndrome
  • the present invention comprises the steps of analyzing the risk of irritable bowel syndrome (IBS) in a test subject according to the method and monitoring the change in the IBS risk index of the test subject over time, prognosis of irritable bowel syndrome It can provide a way to provide the information needed for monitoring.
  • IBS irritable bowel syndrome
  • a method for analyzing the risk of irritable bowel syndrome (IBS) in a test subject may include the following steps (1) to (5):
  • Using the index may include determining whether the test subject is a patient with irritable bowel syndrome.
  • the method for providing information on the diagnosis, risk prediction, or prognosis monitoring of irritable bowel syndrome is analyzed by analyzing the 16S rRNA genetic information of intestinal microorganisms obtained from a test subject, and the above-described species level and/or genus Identifying the level of IBS-specific and/or health-group specific microbial biomarkers and obtaining a share in the biomarker colony, performing a microbial colony assay, irritable bowel syndrome (IBS) using the microbial colony assay results It may include the step of indexing the risk of obtaining the IBS risk index of the test subject, and measuring the risk of irritable bowel syndrome of the test subject using the IBS risk index.
  • IBS irritable bowel syndrome
  • the present invention provides a method for providing information on the diagnosis of irritable bowel syndrome, risk prediction, or prognosis monitoring of irritable bowel syndrome, further comprising determining whether the patient is an IBS before calculating the IBS risk index. can do.
  • the method for providing information regarding the diagnosis or risk prediction of specific irritable bowel syndrome may further perform the step of visualizing the diagnosis result or the risk prediction result in addition to the steps (1) to (5). have.
  • a method of providing information regarding the diagnosis or risk prediction of irritable bowel syndrome of the present invention includes (1) extracting DNA from a stool sample to be tested.
  • the stool sample of the test subject was collected in a buffer solution to prevent microbial mutation.
  • the buffer was composed of 4% (w/v) SDS (Sodium Dodecyl Sulfate), 50mM Tris-HCl, 50mM EDTA and 500mM NaCl.
  • the genomic DNA of the microbial culture may include the step of lysing the cells of the culture.
  • the genomic DNA may be purified using a commercial kit, or the cell lysis process may be performed through bead beating and/or heat shock.
  • the cell lysis process is performed using bead beating and/or thermal shock, there is an advantage in that the cost is reduced and the analysis time is shorter than when using a commercial kit.
  • the method of providing information on the diagnosis or risk prediction of irritable bowel syndrome of the present invention includes (2) obtaining 16S rRNA genetic information of the gut microorganism from the gut microbial DNA.
  • the step of obtaining the 16S rRNA genetic information may be a step of analyzing the 16S rRNA gene sequence of the extracted DNA using a next generation genomic nucleotide sequencing (NGS) platform.
  • NGS next generation genomic nucleotide sequencing
  • the 16S rRNA genetic information of the gut microorganism may be obtained by performing target sequencing of genomic DNA of the gut microorganism using a PCR primer pair for 16S rRNA.
  • PCR is performed using a primer set capable of specifically amplifying a variable region of 16S rRNA, preferably V3 of 16S rRNA.
  • PCR may be performed using a primer set capable of specifically amplifying the V4 region, more preferably, PCR may be performed using a universal primer having the following sequence to generate an amplicon, , Exemplary sequences of universal primers are as follows:
  • Reverse universal primer (SEQ ID NO: 128): 5'-GACTACHVGGGTATCTAATCC -3'
  • Method for providing information on the diagnosis or risk prediction of irritable bowel syndrome of the present invention (3) using the database of 16S rRNA gene sequence of standard strains and non-cultivated microorganisms, by analyzing the analyzed 16S rRNA gene sequence , Analyze the population or relative abundance in the microbial biomarker population having the nucleotide sequence of SEQ ID NOs: 1 to 126.
  • the step of analyzing the microbial community by identifying the presence of microorganisms containing the 16S rRNA of SEQ ID NOs: 1 to 126 provided by the present invention and analyzing the colony size only for the microorganisms that have been identified, to identify the entire microbial community. Rather, it can save time and labor required for IBS diagnosis and prognosis.
  • the step of analyzing the microbial community may include identifying and classifying microorganisms at the genus or species level using the 16S rRNA database, and/or analyzing each microbial community population.
  • the database used for identification and classification of the microorganism may be appropriately selected and used by a person skilled in the art as necessary, and may be, for example, one or more databases selected from the group consisting of EzBioCloud, SILVA, RDP and Greengene, but is not limited thereto. It is not.
  • the microbial community information may be the type of microbial species present in the microbial community sample, the number of microbial species, the population of the target microbial species, and/or relative abundance degree (%).
  • the microbial community size (relative abundance or occupancy in the colony) may be expressed as a percentage (%) of a specific microbial community in the total microbial flora.
  • the percentage (%) occupied by the microbial community may be expressed as a percentage of the frequency of the number of 16S rRNA reads of a specific microorganism among the total number of sequencing reads. Out of 100% of the microbial community, unclassified results were excluded.
  • the sequencing read refers to the next generation sequencing (NGS) results of the amplified 16S rRNA sequence.
  • the specific microorganism may be a microbial biomarker for diagnosis or risk prediction of irritable bowel syndrome provided by the present invention.
  • the method for providing information on diagnosis or risk prediction of irritable bowel syndrome of the present invention includes (4) indexing the risk of irritable bowel syndrome (IBS) using the results of the microbial community analysis.
  • the indexing step includes applying the 16S rRNA analysis result to a model for predicting irritable bowel syndrome, and calculating an IBS risk index.
  • the irritable bowel syndrome prediction model may be to provide a parameter for calculating the IBS risk index of a test subject by comparing the intestinal microbial community size of the microbial biomarker for predicting irritable bowel syndrome risk with a database.
  • the model for predicting irritable bowel syndrome is an IBS risk index for an unknown sample by substituting a list of irritable bowel syndrome (IBS) biomarkers and coefficient values detected in the test subject into machine learning functions and indexing equations (Equations 1 to 4 below). And may be used to diagnose and/or predict risk of IBS.
  • IBS irritable bowel syndrome
  • the database may be to utilize the intestinal microflora database of normal and IBS patient groups collected for microbial biomarker identification, and specifically, may be a human intestinal microbiome database recruited for IBS and normal groups.
  • the irritable bowel syndrome prediction model uses machine learning to select a biomarker specific for irritable bowel syndrome and/or a normal group and calculates an IBS prediction score for discriminating irritable bowel syndrome. It is characterized by being able to determine whether or not irritable bowel syndrome.
  • the step of indexing the microbial community analysis results may include calculating a prediction score for IBS discrimination using the microbial marker and the Coefficient value of the corresponding marker.
  • the prediction score (prediction score) is confirmed by the presence or absence of the microbial marker selected through Example 2 in the intestinal microbial community data of the test set, and then, for the microbial marker that has been confirmed, it is 0 to the product of the Coefficient of the biomarker Calculate to the value of 1. Specifically, it can be calculated from the following equation (3).
  • the X is an independent variable of the model, which corresponds to the microbial community ratio obtained above.
  • the ⁇ is a regression coefficient of the model and represents the relationship between microorganisms and IBS.
  • the m is the number of microbial classification groups used for learning, and has a natural number value.
  • n is the total number of samples used for training the prediction model provided by the present invention.
  • the ⁇ value is a hyperparameter of the IBS prediction model.
  • the normalization parameter is evenly cut to 10 on an exponential scale between 0.0001 and 10000, and 10 models are generated to select model parameters that give the best prediction result (highest AUC value). .
  • an optimized hyperparameter can be obtained.
  • the normalization parameter corresponding to the hyperparameter of the model, that is, the optimized IBS risk prediction model according to the present invention is The value that showed the best prediction result among the values (0.2) was determined.
  • the probability value between 0 and 1 was divided by the ratio of the IBS patient group and the health group used for learning, and rescaled as in Equation 1 below. It may consist of steps representing the IBS risk index.
  • the index was defined as an IBS risk index, and it is possible to distinguish an IBS patient from a healthy person for an unknown sample.
  • P 0 is the percentage of IBS samples present in the training set used to build the predictive model
  • N case is the number of IBS samples in the training set
  • N train is the total number of samples in the training set
  • Prediction score for the IBS discrimination Is the coefficient of selected microorganisms. , To select the percentage of colonies of selected microorganisms Then, it is calculated as in Equation 2 below.
  • X' is the percentage of the size of the cluster of selected microorganisms.
  • the colony scale ratio refers to a ratio occupied by the selected microbial community in the total intestinal microflora, and may be expressed as a ratio of the total number of 16s rRNA sequencing reads to the 16s rRNA sequencing reads of the selected microbial community.
  • the IBS prediction scores can be expressed as Sensitivity, Specificity, and Accuracy values as shown in Equations 5 to 7 below.
  • the number of cases in the test set that are actually samples of IBS patients and the IBS risk index is greater than the cut-off Is actually a sample of an IBS patient, but the IBS risk index is less than the cut-off
  • the number of cases in which the IBS risk index is greater than the cut-off is actually a sample of a healthy person.
  • Sensitivity refers to the ratio actually determined by IBS among the total IBS samples
  • specificity refers to the ratio determined by the actual health groups among all the health group samples
  • the accuracy represents the ratio of the IBS patients or health accurately determined among all samples.
  • TP is the IBS risk index ( ) Is greater than cut-off
  • TN is the IBS risk index ( ) Is less than cut-off
  • FP is an IBS risk index ( ) Is greater than cut-off
  • FN is the IBS risk index ( ) Is less than cut-off.
  • a method of providing information on the diagnosis of irritable bowel syndrome of the present invention includes (5) determining whether a test subject is a patient with irritable bowel syndrome using an IBS risk index.
  • a method of providing information on risk prediction of irritable bowel syndrome of the present invention includes (6) monitoring a change in the IBS risk index of a test subject over time.
  • Determining whether the test subject is a patient with irritable bowel syndrome may include determining a position on the risk index distribution of the irritable bowel syndrome in the reference database.
  • the risk index distribution of irritable bowel syndrome in the reference database it can be determined that the closer to the lower 0%, the better the prognosis of health or irritable bowel syndrome.
  • the reference database may be, for example, an IBS risk index database of all samples including a training set, a test set, and a test target sample used in the construction of the prediction model, but is not limited thereto.
  • Determining the location of the risk index distribution of irritable bowel syndrome in the reference database comprises: establishing a reference database comprising intestinal microbiome data obtained from fecal samples of IBS patients and normal persons or an IBS risk index obtained from the data. ; Converting the risk index of the reference database to a percentile; And/or determining a percentile position of the IBS risk index of the test subject within the reference database.
  • the reference database may include a health (normal) intestinal microbiome database and/or an IBS risk index obtained using the database; And an IBS risk index of each sample obtained using the intestinal microbiome database and/or the database of the IBS patient group.
  • Microbiome databases of the health group and/or patient group are 20 or more, 50 or more, 90 or more, 20 to 10000, 20 to 2000, 20 to 1000, 20 to 500, 50 to 10000, respectively. , 50 to 2000, 50 to 1000, 50 to 500, 90 to 10000, 90 to 2000, 90 to 1000, or 90 to 500 intestinal microbial samples isolated from normal groups and/or patients (eg For example, intestinal microbiome data obtained from fecal samples) and/or IBS risk index obtained using the intestinal microbiome data.
  • the reference database has a sum of the number of samples of the health group and the IBS patient group of 40 or more, 100 or more, 500 or more, 40 to 100,000, 40 to 10,000, 40 to 5000, 100 to It may be 100,000, 100 to 10,000, 100 to 5000, 500 to 100,000, 500 to 10,000, or 100 to 5000.
  • the number of health group data in the reference database may be 1 to 10 times, 1 to 7 times, 2 to 10 times, 2 to 7 times, 3 to 10 times, 3 to 7 times, or 4 to 7 times the number of patient group samples However, it is not limited thereto.
  • the ratio of the number of normal and IBS patients in the reference database may be adjusted to be similar to the IBS prevalence by considering factors related to nationality, age, sex, or other IBS prevalence.
  • the health group database is based on whether IBS is applicable, glycated hemoglobin level, BMI, metabolic syndrome diagnosis, non-IBS patients, blood HbA1c level is less than 6.5% (w/v), BMI level is 18 or more and less than 25 And intestinal microbiome data obtained from samples of 456 Koreans identified as non-metabolic syndrome patients, and the IBS patient group database is 91 patients diagnosed with irritable bowel syndrome according to Roman diagnostic criteria within 3 years from the date of sample collection. It can be composed of intestinal microbiome data obtained from.
  • the microbiome data includes all the necessary information in the target range for calculating the IBS risk index by the method of Equation 1, for example, genus level or species level classification of microorganisms constituting the gut microbial flora and Population information of each microorganism may be included.
  • IBS patient group specific genus level biomarker IBS patient group specific species level biomarker, health group specific genus level biomarker, and health group specific species level biomarker provided by the present invention It may include the presence or absence of a microbial community corresponding to one or more selected biomarkers and/or scale information of the microbial community.
  • the IBS risk index distribution of each IBS index (IBS index calculated by the method of Equation 1) obtained from a reference database, the lowest value of the IBS risk index in the reference database is 0%, the highest value is 100 It may be expressed as a percentile in percent.
  • the IBS risk index may be displayed by dividing the IBS risk into at least two or more sections, and preferably divided into three sections.
  • the section may be classified based on the highest specificity of the IBS risk index.
  • IBS risk is classified into risk, caution, and good according to the IBS risk index, and more specifically, lower 0 to 75% is good, 75 to 95% is caution, and 95 to 100% is risk Sorted by stage.
  • the step of monitoring the change in the IBS risk index of the patient over time determines that the prognosis is better as the index approaches the lower 0% of the risk index distribution of the irritable bowel syndrome in the reference database over time. May be
  • 1 shows an example of applying the IBS prediction model provided by the present invention.
  • 1 is a schematic diagram illustrating a process of determining whether an IBS of a test object is determined using an IBS prediction model according to an example of the present invention.
  • the IBS prediction model is based on the analysis of intestinal microbial communities. This is because a high proportion of microbial taxa that are not found by culture-dependent methods are included in the microbial community in the human intestine, and the IBS prediction model recognizes a significant portion of unpublished species as biomarkers.
  • the IBS risk index providing procedure using the IBS specific biomarker of the present invention and the IBS prediction model using the same can be performed through the following steps.
  • NGS next generation genome sequencing
  • the IBS risk prediction result can be indexed and provided as an analysis report.
  • the analysis report may include the following information.
  • the result value provided according to the analysis result can be expressed in steps such as risk, caution, and good according to the index.
  • steps such as risk, caution, and good according to the index.
  • all samples in the reference database can be indexed to classify the bottom 0 to 75% as good, 75 to 95% as caution, and 95 to 100% at risk level.
  • the IBS index is 0.8 or less
  • the IBS index is 0.95 or less
  • the IBS index is 0.95 or better.
  • the analysis report may indicate the description of representative microorganisms among the microorganisms corresponding to the IBS biomarker and the occupancy rate in the cluster.
  • An example of the result report is shown in FIG. 5.
  • the bar graph at the top right shows three classifications of caution (red), normal (yellow), and good (green) and its reference value (note that the IBS index is 0.8 or less, the IBS index is Normally 0.95 or less, the IBS index is better than 0.95), and the black arrows and numbers indicate specific values of the IBS index to be detected and their relative positions on the graph.
  • the microbial IBS index is attention. When certain intestinal microbes dominate the intestinal environment, causing intestinal imbalance Dysbiosis or loosening the binding of intestinal cells, we experience persistent and frequent pain.
  • FIG. 5 shows'Christensenellaceae' on the left and'Ruminococcaceae' on the right.
  • the description of the strain may be displayed at the bottom of the name of each strain, and in FIG. 5, at the bottom of'Christensenellase', this microorganism is known to be commonly found in the intestine of a person with a low body mass index.
  • IBS irritable bowel syndrome
  • the present invention provides an IBS biomarker and a method for predicting the diagnosis or risk of IBS using the same, or a kit for diagnosing or risk predicting IBS, thereby making it possible to diagnose IBS or quantitatively predict the risk of developing IBS.
  • FIG. 1 is a schematic diagram showing a process of determining whether an IBS is a test object using an IBS prediction model according to an example of the present invention.
  • Example 2 is a ROC graph evaluating an IBS prediction model using a biomarker according to Example 3.
  • Figure 3 is a graph showing the results of the sensitivity (Sensitivity), specificity (Specificity), and accuracy (Accuracy) values through the IBS risk index according to Example 4. Sensitivity decreases as the cut-off value increases, and the accuracy gradually increases until the cut-off value is 0.8 to 1.0 and then decreases slightly, and the specificity cut-off As values increase, they tend to increase together.
  • FIG. 4 is a quartile graph showing the distribution of the IBS risk index of a sample observed by index.
  • the horizontal axis represents the IBS index, and the vertical axis represents the frequency value (Density) for the sample corresponding to the score.
  • FIGS. 6A to 6D are phylogenic trees of biomarkers provided by the present invention.
  • Figure 6a is a health group specific species level biomarker
  • Figure 6b is a health group specific genus level biomarker
  • Figure 6c is an IBS patient group specific species level biomarker
  • Figure 6d is an IBS patient group specific genus level biomarker Represents a phylogenetic tree. The bar at the bottom of the figure indicates a scale for differences between sequences in each subgroup.
  • microbiome database As a microbiome database, a total of 100,000 human microbiome database owned by CheonLab was used.
  • the database is the intestinal microbial data identified and purified using EzBioCloud, a microbial gene database owned by CheonLab, which has the advantage of allowing detailed and accurate microbial identification of species level than the conventional microbial gene database. have.
  • the database is the most cited database among 57,177 papers in the field published in 2017.
  • the present inventors analyzed the gut microbial community structure using the gut microbial data of healthy normal Koreans and the gut microbial data of Koreans diagnosed with IBS in the EzBioCloud and human microbiome database to select IBS biomarkers.
  • Korean gut microbial data were obtained from a total of 2,000 samples, and 456 healthy Korean samples were selected using meta-data records related to metabolic disease among 1,000 samples attached with electronic medical records as metadata.
  • IBS irritable bowel syndrome
  • Hemoglobin A1c glycated hemoglobin
  • BMI body mass index
  • metabolic syndrome diagnosis Specifically, non-IBS patients, blood HbA1c level less than 6.5% (w/v), BMI level 18 or more and less than 25, and non-metabolic syndrome patients were selected as healthy groups.
  • the IBS patient group is a sample collected by conducting joint research with leading hospitals in Korea, and it is intestinal microbial data of 91 patients diagnosed with irritable bowel syndrome according to Rome diagnostic criteria within 3 years.
  • All intestinal microbial community data of the healthy group and the IBS patient group were divided into a training set and a test set, and were divided into a set for selecting an IBS biomarker and a set for evaluating the IBS prediction model, respectively.
  • Samples corresponding to 10% of the healthy group and the IBS patient group were randomly selected and defined as a test set, and the remaining samples were defined as a training set so that the training set and test set maintain a ratio of about 9:1.
  • test set and training set were reset for each bootstrap iteration for machine learning.
  • Fecal samples from healthy or IBS patient groups were collected from the samples.
  • the fecal samples were collected in a buffer solution to prevent microbial mutations.
  • the buffer was composed of 4% (w/v) SDS (Sodium Dodecyl Sulfate), 50 mM Tris-HCl, 50 mM EDTA and 500 mM NaCl, and specific compositions are shown in Table 5 below.
  • genomic DNA was extracted by physical method by homogenization for 40 seconds at a speed of 6.0 in FastPrep (MP Biomedicals) immediately after collection.
  • Various types of amplicons targeting a broad taxonomic group were generated through polymerase chain reaction (PCR reaction) using the extracted genomic DNA using SEQ ID NOs: 127 and 128 universal primers.
  • the sequence of the universal primer is as follows, and the composition of the PCR pre-mix for the amplicon formation and the conditions for performing the PCR are shown in Table 6 and Table 7, respectively.
  • Reverse universal primer (SEQ ID NO: 128): 5'-GACTACHVGGGTATCTAATCC -3'
  • the obtained amplicons were subjected to next-generation nucleotide sequencing (NGS) using MiSeq (Illumina) to perform sequence analysis of the 16S ribosomal RNA gene.
  • NGS next-generation nucleotide sequencing
  • MiSeq Illumina
  • sequence analysis of the 16S ribosomal RNA gene Thousands of 16S rRNA gene sequences generated in one sample are analyzed for microbial community from phylum level to species level, using a database of 16S rRNA gene sequences (EzTaxon) of standard strains and non-cultivated microorganisms. was implemented.
  • an IBS risk prediction model was applied, which is a step of statistically significantly recognizing a cluster pattern between a normal group and a patient group according to the results analyzed in Examples 1-2.
  • Lasso Least absolute shrinkage and selection operator, LASSO
  • LASSO's feature selection algorithm has a feature that allows penalties to be added to the sum of the model's regression coefficients to select only the microorganisms that have the strongest association with the predictor IBS (Friedman, Hastie & Tibshirani). , J Stat Softw, 2010., SJ Kim, K. Koh, M. Lustig, S. Boyd and D. Gorinevsky, in IEEE Journal of Selected Topics in Signal Processing, 2007.)
  • Equation 3 The prediction function of the LASSO model is shown in Equation 3 below.
  • the X is an independent variable of the model, which corresponds to the microbial community ratio obtained above.
  • the ⁇ is a regression coefficient of the model and represents the relationship between microorganisms and IBS.
  • the m is the number of microbial classification groups used for learning, and has a natural number value.
  • the ⁇ value is a hyperparameter of the IBS prediction model.
  • the first step is to set the regularization parameter, which is the weight used, according to the microbial community data.
  • the normalization parameters were cut evenly into 10 on an exponential scale between 0.0001 and 10000, and 10 models were generated to select model parameters that gave the best prediction results (highest AUC value). Through such a grid search, an optimized hyperparameter can be obtained.
  • the normalization parameter corresponding to the hyperparameter of the model, that is, the optimized IBS risk prediction model according to the present invention is The value that showed the best prediction result among the values (0.2) was determined.
  • a feature selection process was performed using the optimal model parameters found in Example 2-1. In order to alleviate the class imbalance problem, 82 samples were randomly selected from the 410 samples selected as the training set of the health group with the same number as the training set of the IBS patient group. In addition, this selection process was repeated with 100 bootstrap replications to derive the expected value of the regression coefficient.
  • the frequency determined by the marker of the healthy group or the IBS patient group in the above 100 repetitions is related to the robustness, the healthy group, or the IBS patient group (
  • the average calculated value is defined as Coefficient.
  • the Coefficient value represents the influence of the biomarker, and also includes information on which group each biomarker is specified in the health group or the IBS patient group.
  • the Coefficient value is distributed as a negative value and a positive value, and is applied to the logistic function as in Equation 3 to apply to the normal group and IBS. Singularity to the group is determined. It was set to be expressed as a negative value for more distribution in the normal group and a positive value for more distribution in the IBS group.
  • the biomarkers related to the health group which was selected as the primary feature selection, were 29 at the Species level and 23 at the Genus level.
  • the biomarkers associated with the IBS patient group are 15 at the species level and 9 at the genus level.
  • Table 8 and Table 9 show the species-level biomarkers associated with the health group and genus-level biomarkers associated with the health group
  • Tables 10 and 11 show the species-level biomarkers associated with the IBS patient group and the types of genus-level biomarkers associated with the IBS patient group. Each was marked.
  • coefficient is obtained by calculating ⁇ in Equation 3, and a negative value means a microorganism specific to the health group, and a positive value means a microorganism specific to the IBS group.
  • Robustness is obtained by calculating the case in which the microorganism appears as the result through the bootstrap result repeated 100 times, and means that as it approaches 1, it is a result specific to the group repeatedly.
  • the ratio of the health group and the IBS ratio are obtained by calculating the ratio through the number of reads occupied by the microorganism in comparison to the total number of reads of all the identified microorganisms, and refers to the population size.
  • classification by species level or genus level indicates the detection level of the microorganism, and classification according to the identification of each microorganism does not mean species or genus level.
  • the result of applying LASSO of Example 2-2 was corrected according to the selection criteria of the health group or the IBS patient group, and the final microbial biomarker was selected. Since the microorganisms identified as IBS-specific biomarkers are microorganisms identified as markers specific to the IBS group, the population size of the microbial taxonomic group in the IBS group should be lower than that in the healthy group. Therefore, in the healthy group, the microbial taxonomy group was selected as a specific biomarker except for the microbial taxonomy group in which the population population of the microbial taxonomy group was higher. Health-group specific biomarkers also excluded the microbial taxonomy group, which was higher in the IBS group for the same reason. Through this process, biomarkers obtained by applying LASSO can be calibrated according to predetermined criteria such as a health group and a disease group.
  • a total of three taxonomic groups such as Ruminococcus gnavus and Veillonella parvula group, which showed a higher proportion of microbial taxonomy in the health group, were excluded from the health group specific biomarkers.
  • IBS specific biomarkers a total of 7 taxonomic groups, such as the Hungatella hathewayi group and Lactobacillus rogosae group, which were higher in the IBS group, were excluded.
  • the health group specific biomarkers consist of 26 taxa at Species level shown in Table 1 and 22 taxa at Genus level shown in Table 2.
  • the IBS-specific biomarker selected and corrected based on the LASSO results consists of 8 taxa at the Species level shown in Table 3 and 7 taxa at the Genus level shown in Table 4 above.
  • Biomarkers in the healthy and IBS groups can be divided into 19 subgroups as follows. 6A to 6D show phylogenic trees of species and genus level biomarkers of the healthy and IBS groups. Specifically, species-level health group-specific biomarkers are group 1 to group 6, genus-level health group-specific biomarkers group 7 to 11, and species-level IBS patient group-specific biomarkers are Group 12 to 14, genotype IBS patient group specific biomarkers include subgroups of groups 15 to 19.
  • test set having all intestinal microbial community data obtained from the sample preparation, consisting of the healthy group and the IBS patient group, using the constructed IBS prediction model, it was examined whether the IBS is distinguished.
  • the prediction score for IBS discrimination was calculated using the microbial marker selected in Example 2 and the Coefficient value of the corresponding marker.
  • the prediction score (prediction score) is found in the microbial community data selected in Example 2 from the intestinal microbial community data of the test set, and calculated by a product of Coefficient and dot product of the corresponding biomarker to a value of 0 to 1.
  • the IBS prediction model of Example 2 was applied to the test set to verify the prediction model.
  • the results of the determination of the IBS for the test set using the predictive model are shown in FIG. 2, the ROC curve (receiver operating characteristic curve) and the area under curve (AUC) graph.
  • the ROC curve is largely curved in the shape of a bow, and the AUC shows a value close to 1 at 0.76, indicating that the IBS discrimination result applied in Example 3-1 is significant.
  • the IBS probability of Example 3-1 is a probability calculated based on the ratio of the IBS patient group and the health group of the train set, which is not a probability of disease in the actual population. To give an accurate clinical interpretation, the probability values between 0 and 1 were rescaled by dividing by the ratio of the IBS patient group and the health group used for learning. In Equation 1, each parameter definition is as described above.
  • the index was defined as an IBS risk index, and it is possible to distinguish an IBS patient from a healthy person for an unknown sample.
  • Sensitivity refers to the ratio actually determined by IBS among the total IBS samples
  • specificity refers to the ratio determined by the actual health group among all the healthy samples
  • the accuracy represents the ratio of the IBS patient or health accurately determined among the total samples.
  • the standard (cut-off) of the IBS risk index was determined by dividing it into 20 equal parts between 0.14 and 1.69, and the following calculation and verification were performed for each cutoff. Sensitivity, specificity, and accuracy are calculated as in Equations 5 to 7 below. In Equations 5 to 7, each parameter definition is as described above.
  • the distribution of the IBS risk index of all samples is shown in FIG. 4 as a quartile graph.
  • the quartiles of the IBS risk index are distributed at values of about 1.6 and about 1.3, which are distributed at the points corresponding to the lower 95% and 75%, respectively, when the IBS risk index of the entire reference sample is calculated as a percentage. Specificity of 100% or 90% is shown in each quartile, and when determining whether IBS is based on the lower 75% and 95%, it is possible to accurately distinguish whether it is healthy. Able to know.
  • the IBS risk index obtained by analyzing the sample of the tested test subject is in the lower 95% to 100% of the risk within the distribution of the IBS risk index in the reference database, caution is in the case of the lower 95% to 75%, lower 75 In the case of% to 0%, health can be determined.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 과민성 대장증후군(IBS)의 진단 또는 위험도 예측을 위한 바이오마커 및 상기 바이오마커를 이용한 IBS의 진단 또는 위험도 예측 방법을 제공한다. 또한 본 발명은 상기 바이오마커를 탐지하기 위한 조성물 및 상기 조성물을 포함하는 과민성 대장증후군의 진단 또는 위험도 예측용 키트를 제공한다. 본 발명이 제공하는 바이오마커는 장내 미생물을 속 또는 종 수준에서 동정함으로써 보다 정확도 높은 과민성 대장증후군의 진단 및 위험도 예측이 가능하다.

Description

과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법
본 발명은 과민성 대장증후군(IBS)의 진단 또는 위험도 예측을 위한 바이오마커, 상기 바이오마커를 이용한 IBS의 진단 또는 위험도 예측 방법, 및 과민성 대장증후군의 진단 또는 위험도 예측용 키트에 관한 것이다. 본 발명에 따른 바이오마커는 장내 미생물을 속 또는 종 수준에서 동정함으로써 보다 정확도 높은 과민성 대장증후군의 진단 및 위험도 예측이 가능하다.
염증성 장 증후군 또는 과민성 대장 증후군 (irritable bowel syndrome, IBS)은 복통 혹은 복부불쾌감, 배변 후 증상의 완화, 배변 빈도 혹은 대변 형태의 변화 등의 특징적인 증상들이 만성적으로 반복되는 대표적인 기능성 위장관 질환이다.
한국인 전체 인구의 약 10%가 IBS 의심 증상을 가지고 있으며, 우울증, 불안장애와 같은 심리적 증상과 동반하는 경우가 많다고 알려져 있다. 그 동안 원인 불명의 뇌기능과 관련된 증상으로 생각되어 왔지만, 최근 연구들에서 IBS 증상이 장내미생물의 변화와 관련이 있음이 밝혀졌다. 뷰티르산 (butyrate) 생산 세균이 감소하면 장벽이 약화되고, 메탄 (methane) 생산 세균이 감소하면 대장 통과 속도가 빨라져 설사형 IBS를 일으킨다. 반면 가스 생산 세균이 너무 많아지면 복부 팽만감과 함께 대장 통과 속도가 느려져 변비를 일으키게 된다. 프로바이오틱스의 섭취가 IBS 증상의 완화와 우울증 완화에 도움이 된다는 연구와, 장뇌축의 불균형이 IBS를 일으킨다는 최신 연구 결과는 IBS의 원인 규명과 치료에서 장내미생물의 중요성을 강조하였다.
이와 같이 장내 미생물의 불균형이 과민성 대장 증후군의 병태 생리에 관여한다는 사실을 규명하기 위해서 과민성 대장 증후군 환자에서 장내 미생물 분포의 변화를 확인하기 위한 다양한 연구들이 시행되었다. 정상인과 과민성 대장 증후군 환자에서 장내 미생물 분포의 차이를 비교한 연구를 살펴보면, 과민성 대장 증후군 환자에서 상대적으로 Bacteriodetes phylum 의 비율이 낮고, Firmicutes phylum의 비율이 높다는 것을 확인할 수 있다. 이는 특히 우울증, 불안증 환자에서 관찰되는 소견과 동일하다는 점이 특징적이다. 또한 Lactobacillus, Bifidobacterium와 같이 유익균으로 분류되어 유산균으로 많이 소비되고 있는 미생물들이 과민성 대장 증후군 환자군에서 상대적으로 낮게 검출된 것 역시 특징적이었다. 이러한 연구 결과는 단순히 대조군 비교 연구로 원인 결과를 알 수 없다는 한계점이 있으나, 장내 미생물 군집과 과민성 대장 증후군 징후 간에 연관성이 있음을 시사한다.
한편, 기존 IBS 연구들은 qPCR을 이용하여 기존에 지식이 있는 특정 미생물을 표적(target)하여 조사하거나, 문 수준(phylum level)에서 거시적인 패턴을 관찰하는 방식으로 이루어졌다. IBS 관련 지표종을 발굴한 최근 연구의 경우, Greengenes database를 이용하여 IBS군과 건강군의 미생물 군집을 동정한 후, Methanobacteriaceae, Erysipelotrichaceae, unknown Clostridiales, Ruminococcaceae의 4개 Family를 IBS-specific 미생물 분류군으로 발표한 바 있다.
기존 IBS 연구에서 제안하고 있는 방법과 해당 방법으로 발견한 지표종은 기존 지식과 장내 미생물의 배양 가능 여부에 의존적이며, 기존 지표종이 보완하는 통계학적 범위가 필요 이상으로 넓어 정확도가 떨어지는 문제점이 있다.
본 발명의 목적은 배양 비의존적 방법(CIMs)으로 속(Genus) 또는 종(Species) 수준의 정확도를 가지는, 과민성 대장 증후군(IBS) 진단용 또는 위험도 예측용 미생물 바이오마커를 제공하는 것이다.
본 발명의 또 다른 목적은 IBS의 진단 또는 위험도 예측에 필요한 정보를 제공하는 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 상기 바이오마커를 검출하는 제제를 포함하는, IBS의 진단용 또는 위험도 예측용 조성물을 제공하는 것이다.
본 발명의 또 다른 목적은 바이오마커를 검출하는 제제를 포함하는 IBS의 진단용 또는 위험도 예측용 키트를 제공하는 것이다.
본 발명은 종 수준(species level)으로 동정 가능한 미생물 유전체 데이터베이스 EzBioCloud를 이용하였으며, 방대한 장내 미생물 분석 결과를 효과적으로 반영하기 위하여 빅데이터 분석 방법인 기계 학습(machine learning)을 적용하여 IBS 지표종을 탐색하였다.
본 발명이 제공하는 IBS 예측 모델로 탐색한 IBS 바이오마커(IBS Biomarker)는 분류 체계 상 Family level에 비하여 더 자세히 분류된 Class인 속(Genus) 및 종 수준(Species level)으로 발굴한 biomarker이다.
본 발명은 기계학습(machine learning) 방법을 이용하여 정상군 또는 과민성 대장증후군(IBS) 특이적인 장내 미생물을 선별하고 이를 이용하여 비침습적인 방법으로 과민성대장증후군의 위험도를 예측하는 방법에 관한 것이다.
이하 본 발명을 보다 상세하게 설명한다.
본 발명의 일 예는, 과민성 대장증후군 진단용 또는 위험도 예측용 바이오마커에 관한 것이다.
본 발명에서 제공되는 바이오마커는 정상군 또는 과민성 대장증후군(IBS) 특이적인 장내 미생물이거나 상기 IBS 특이적 장내 미생물의 16S rRNA 서열 또는 이의 일부 뉴클레오티드 서열일 수 있다.
상기 바이오마커는, 서열번호 64 내지 126의 뉴클레오티드 서열과 95% 이상, 97% 이상, 98% 이상, 99% 이상, 99.5% 이상, 99.9% 이상, 또는 99.99% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아일 수 있다. 상기 서열번호 64 내지 126의 뉴클레오티드 서열로 이루어진 군에서 선택되는 뉴클레오티드 서열을 포함하는 폴리뉴클레오타이드 서열은 16S rRNA의 가변 영역의 일부에 해당하는 서열일 수 있으며, 보다 구체적으로 가변 영역의 V3 내지 V4 영역의 전부 또는 일부에 해당하는 서열일 수 있다.
또는, 상기 바이오마커는, 서열번호 1 내지 63의 뉴클레오티드 서열과 95% 이상 97% 이상, 98% 이상, 99% 이상, 99.5% 이상, 99.9% 이상, 또는 99.99% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 미생물(예를 들어, 박테리아)로 이루어지는 군에서 선택된 1종 이상의 미생물 (예를 들어, 박테리아)일 수 있다.
본 발명에 따른 바이오마커는, 과민성대장증후군 탐지 마커와 정상군 탐지 마커로 각각 구분할 수 있다. 본 발명의 일 실시예에서, IBS 위험도 예측 모델을 이용하여 IBS 환자 및 건강군에 특이적인 미생물을 선정한 결과, 최종적으로 건강군 특이적 미생물은 종 수준에서 26개 분류군, 속 수준에서 22개 분류군으로 나타났으며, IBS 환자군 특이적 미생물은 종 수준에서 8개 분류군, 속 수준에서 7개 분류군으로 나타났다.
본 발명에 따른 구체적인 미생물 바이오 마커의 일 예는, 하기 표 1 내지 표 4에 기재된 미생물일 수 있다.
구체적으로, 건강군 특이적 바이오마커는 하기 표 1에 나타낸 Species level에서 26개 분류군, 하기 표 2에 나타낸 Genus level 22개 분류군으로 이루어져 있다. 또한, IBS 환자군 특이적 미생물 마커는 하기 표 3에 나타낸 Species level에서 8개 분류군, 하기 표 4에 나타낸 Genus level에서 7개 분류군으로 이루어져 있다.
상기 총 63종의 미생물에 대하여 미생물의 분류학적 계통수를 작성하여 분류학적 근접도를 기준으로 서브 그룹으로 세분할 수 있다. 본 발명이 제공하는 바이오마커, 즉 상기 총 63종의 미생물을 분류학적 근접도를 기준으로 나누어진 상기 서브그룹(상기 제1그룹 내지 제19그룹)으로 구분하거나, 또는 건강군 또는 IBS 환자군과 연관관계에 근거한 중요도(feature importance)에 따라 복수 개의 그룹으로 분류될 수 있다.
예를 들면, 구체적인 방법으로는, 16S rRNA 시퀀스를 기반으로 neighbor joining 알고리즘을 이용하여 phylosgnetic tree를 생성하여 상기 tree 상에서 클러스터링 형성 여부를 기준으로 하위 그룹(subgroup)을 구분할 수 있다. 전체 서브그룹은 총 19개로 구성되며, 종 수준의 건강군 특이적 바이오마커는 제1그룹 내지 제6그룹, 속 수준의 건강군 특이적 바이오마커는 제7그룹 내지 제11그룹, 종 수준의 IBS 환자군 특이적 바이오마커는 제12그룹 내지 제14그룹, 속 수준의 IBS 환자군 특이적 바이오마커는 제15그룹 내지 제19그룹의 하위그룹을 포함한다.
일 구체예에서 건강군 또는 IBS 환자군과 연관관계에 근거한 중요도(feature importance)에 따라 중요도가 높은 그룹과 낮은 그룹으로 분류될 수 있다. 일 구체예에서, 상기 서브그룹 내 미생물들의 상기 수학식 3의 회귀계수(β, coefficient) 값의 평균값을 기준으로, 평균값의 절대값이 0.080 이상인 경우, 중요도가 높은 그룹으로, 평균값의 절대값이 0.080 미만인 경우, 중요도가 낮은 그룹으로 분류될 수 있다.
구체적으로, 종 수준의 건강군 특이적 바이오마커로서 제1그룹은 PAC000748_s (Family Ruminococcaceae), PAC001312_s (Family Ruminococcaceae), PAC001649_s (Family Ruminococcaceae), GU324404_s (Genus Sporobacter), PAC001254_s (Genus Pseudoflavonifractor), PAC001242_s (Family Ruminococcaceae), 및 PAC001597_s (Genus Caproiciproducens)의 7개 종, 제 2그룹은 PAC001441_s (Family Christensenellaceae), 및 PAC001435_s (Family Christensenellaceae)의 2개 종, 제3그룹은 Coprococcus catus, PAC001045_s (Family Lachnospiraceae), PAC000194_s (Family Lachnospiraceae), PAC001047_s (Family Lachnospiraceae), NFLI_s (Genus Frisingicoccus), PAC001467_s (Family Lachnospiraceae), 및 PAC001223_s (Genus Anaerotignum)의 7개 종, 제4그룹은 PAC001673_s (Genus Desulfovibrio), Desulfovibrio piger, Adlercreutzia equolifaciens, 및 PAC002124_s (Genus Phascolarctobacterium)의 4개 종, 제5그룹은 Bacteroides caecigallinarum, PAC001204_s (Genus Bacteroides), Bacteroides eggerthii, Bacteroides uniformis, 및 Alistipes shahii의 5개 종, 제6그룹은 Fusobacterium varium의 1개 종으로 구성된다.
속 수준의 건강군 특이적 바이오마커그룹으로서 제7그룹은 Harryflintia, PAC001144_g (Family Ruminococcaceae), PAC000683_g (Family Ruminococcaceae), EU794292_g (Family Ruminococcaceae), Massilioclostridium의 5개 속, 제8그룹은 PAC001435_g (Family Christensenellaceae), 및 Peptoniphilus의 2개 속, 제9그룹은 Lactobacillus, PAC001687_g (Family Erysipelotrichaceae), 및 CCMM_g (Family Erysipelotrichaceae)의 3개 속, 제10그룹은 PAC002196_g (Family Lachnospiraceae), AB559589_g (Family Lachnospiraceae), LLKB_g (Family Lachnospiraceae), PAC000196_g (Family Lachnospiraceae), PAC000194_g (Family Lachnospiraceae), Eubacterium_g20 (Family Lachnospiraceae), PAC002518_g (Family Lachnospiraceae), Bacteroides_g1 (Family Lachnospiraceae), 및 PAC001270_g (Family Lachnospiraceae)의 9개 속, 제11그룹은 Desulfovibrio, Lawsonella, 및 Microbacterium의 3개 속으로 구성된다.
종 수준의 IBS 환자군 특이적 바이오마커 그룹으로서 제12그룹은 PAC001205_s (Genus Alloprevotella)의 1개 종, 제13그룹은 Eubacterium ramulus, PAC001451_s (Family Lachnospiraceae) 및 Blautia faecis의 3개 종, 제14그룹은 Bacteroides acidifaciens, Bacteroides coprocola, JH815484_s (Genus Bacteroides) 및 EU728720_s (Genus Bacteroides)의 4개 종으로 구성된다.
속 수준의 IBS 환자군 특이적 바이오마커 그룹으로서 제15그룹은 AM277970_g (Family Coriobacteriaceae)의 1개 속, 제16그룹은 Eubacterium_g21 (Family Lachnospiraceae), PAC002138_g (Family Lachnospiraceae), PAC001451_g (Family Lachnospiraceae)의 3개 속, 제17그룹은 Neglecta의 1개 속, 제18그룹은 Alloprevotella의 1개 속, 제19그룹은 Butyricicoccus의 1개 속으로 구성된다.
본 발명에 따른 미생물 바이오마커는 하기 표 1 내지 표 4에 기재된 미생물 중에서 선택된 1종 이상을 포함할 수 있다. 바람직하게는 상기 제1그룹 내지 제19그룹 중 하나 이상의 그룹을 포함하는 것일 수 있다.
본 발명이 제공하는 미생물 바이오마커는 하기 표 1에 기재된 종 수준의 건강군 특이적 바이오마커로 이루어진 군에서 선택된 하나 이상의 바이오마커, 하기 표 2에 기재된 속 수준의 건강군 특이적 바이오마커로 이루어진 군에서 선택된 하나 이상의 바이오마커, 하기 표 3에 기재된 종 수준의 IBS 환자군 특이적 바이오마커로 이루어진 군에서 선택된 하나 이상의 바이오마커, 및 하기 표 4에 기재된 속 수준의 IBS 환자군 특이적 바이오마커에 해당하는 바이오마커로 이루어진 군에서 선택된 하나 이상의 바이오마커로 구성된 바이오마커 조합의 형태로 제공될 수 있다.
일 구체예에서, 종 수준의 건강군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은, 제1그룹 및 제2그룹일 수 있다. 일 구체예에서, 속 수준의 건강군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제8그룹 및 제11그룹일 수 있다. 일 구체예에서, 종 수준의 IBS 환자군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제14그룹일 수 있다.일 구체예에서, 속 수준의 IBS 환자군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제17그룹 내지 제19그룹일 수 있다.
본 발명에 따른 건강군 특이적 바이오마커는 종 수준 및 속 수준 바이오마커로 구분될 수 있다.
상기 종 수준의 건강군 특이적 바이오마커는 상기 제1그룹, 또는 상기 제1그룹 및 제2그룹 내지 제6그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹으로 구성될 수 있다. 또는, 상기 종 수준의 건강군 특이적 바이오마커는 상기 제1그룹 및 상기 제2그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹으로 이루어질 수 있으며, 상기 제3그룹 내지 제6그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹을 추가로 포함할 수 있다.
상기 속 수준의 건강군 특이적 바이오마커는 상기 제8그룹, 또는 상기 제8그룹 및 상기 제7그룹, 제9그룹, 제10그룹 및 제11그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹으로 구성될 수 있다. 또는, 상기 속 수준의 건강군 특이적 바이오마커는 상기 제8그룹 및 제11그룹으로 이루어지고, 상기 제7그룹, 제9그룹, 및 제10그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹을 추가로 포함할 수 있다.
본 발명에 따른 IBS 환자군 특이적 바이오마커는 종 수준 및 속 수준 바이오마커로 구분될 수 있다.
상기 종 수준의 IBS 환자군 특이적 바이오마커는 상기 제12그룹 또는 상기 제12그룹 및 제13그룹 및 제14그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹으로 구성될 수 있다. 또는, 상기 종 수준의 IBS 환자군 특이적 바이오마커는 상기 제14그룹으로 이루어지고, 상기 제12그룹 및 제13그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹을 추가로 포함할 수 있다.
상기 속 수준의 IBS 환자군 특이적 바이오마커는 상기 제15그룹 또는 상기 제15그룹 및 상기 제16그룹 내지 제19그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹으로 구성될 수 있다. 또는, 상기 속 수준의 IBS 환자군 특이적 바이오마커는 상기 제17그룹 내지 제19그룹으로 이루어지고, 상기 제15그룹 및 제16그룹으로 이루어지는 군에서 선택되는 하나 이상의 그룹을 추가로 포함할 수 있다.
Figure PCTKR2020000953-appb-T000001
Figure PCTKR2020000953-appb-I000001
Figure PCTKR2020000953-appb-T000002
Figure PCTKR2020000953-appb-I000002
Figure PCTKR2020000953-appb-T000003
Figure PCTKR2020000953-appb-T000004
본 발명이 제공하는 과민성 대장증후군(IBS) 진단용 또는 위험도 예측용 바이오마커는 IBS 환자군과 건강군의 장내 균총의 미생물 군집 규모를 분석하여 선택된 것일 수 있다.
구체적으로, 먼저 건강군과 IBS 환자군의 채변 샘플로부터 차세대 뉴클레오티드 서열 분석을 통해 종 또는 속 수준의 미생물 균총 데이터베이스를 구축한 후, 각 미생물의 군집 규모를 분석하였다. 상기 미생물의 군집 규모는 기계 학습 모델을 이용하여 군집 규모의 변화 패턴을 통계적으로 분석하여, LASSO의 특징 선택 알고리즘을 이용하여 회귀계수(regression coefficient)의 합계에 벌점(penalty)을 부과하여 예측 변수인 IBS와 가장 강한 연관관계를 보이는 미생물만을 선택하였다. 각 미생물의 Coefficient 값을 하기 수학식 3과 같이 구하여, 건강군 관련 바이오마커 및 IBS 관련 바이오마커를 각각 종과 속 수준으로 결정하였다.
[수학식 3]
Figure PCTKR2020000953-appb-I000003
상기 수학식 3에서,
상기
Figure PCTKR2020000953-appb-I000004
는 모델의 독립변수이며, 상기 미생물 군집 비율에 해당한다.
상기
Figure PCTKR2020000953-appb-I000005
는 모델의 회귀계수(Coefficient)이고 미생물과 IBS의 관련도를 나타낸다.
상기
Figure PCTKR2020000953-appb-I000006
는 모델의 예측 점수이고 0에서 1사이의 확률값을 가진다.
상기
Figure PCTKR2020000953-appb-I000007
는 학습에 사용한 n개의 시료의 미생물 군집 비율에 해당하며, 상기
Figure PCTKR2020000953-appb-I000008
는 사용한 시료의 실제 IBS 여부(건강군은 0, IBS 환자군은 1)에 해당한다.
상기 m은 학습에 사용된 미생물 분류군 수를 의미한다. 상기 m 값은 10만 이하 1만 이하 또는 1000 이하의 자연수일 수 있다.
본 발명에 따른 바이오마커는, 과민성대장증후군 탐지 마커와 정상군 탐지 마커로 각각 구분할 수 있다. 일 예에서, 특정 미생물에 대해 상기 수학식 3의
Figure PCTKR2020000953-appb-I000009
(coeffieicnet)가 음수인 경우 건강군에 특이적인 바이오마커로 분류하고, 상기 수학식 3의
Figure PCTKR2020000953-appb-I000010
가 양수인 경우에는 IBS 군에 특이적인 바이오마커로 분류될 수 있다.
일 예에서, 본 발명이 제공하는 바이오마커를 분류학적 근접도를 기준으로 나누어진 상기 서브그룹(상기 제1그룹 내지 제19그룹)은 다시 중요도에 따라 복수 개의 그룹으로 분류될 수 있으며, 일 구체예에서 건강군 또는 IBS 환자군과 연관관계에 근거한 중요도(feature importance)에 따라 중요도가 높은 그룹과 낮은 그룹으로 분류될 수 있다. 일 구체예에서, 상기 서브그룹 내 미생물들의 상기 수학식 3의 회귀계수(β, coefficient) 값의 평균값을 기준으로, 평균값의 절대값이 0.080 이상인 경우, 중요도가 높은 그룹으로, 평균값의 절대값이 0.080 미만인 경우, 중요도가 낮은 그룹으로 분류될 수 있다. 이 때, 평균값은 소수점 넷째자리에서 반올림하였다.
일 구체예에서, 종 수준의 건강군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은, 제1그룹 및 제2그룹일 수 있다. 일 구체예에서, 속 수준의 건강군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제8그룹 및 제11그룹일 수 있다.
일 구체예에서, 종 수준의 IBS 환자군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제14그룹일 수 있다.일 구체예에서, 속 수준의 IBS 환자군 특이적 바이오마커 중 상기 수학식 3의 회귀계수 값의 평균값이 0.080 이상인 그룹은 제17그룹 내지 제19그룹일 수 있다.
일 예에서, 정상군을 탐지하는 바이오마커는 Family level의 Ruminococcaceae, Christensenellaceae, Lachnospiraceae, Christensenellaceae, Erysipelotrichaceae 및 Genus level의 디설포비브리오(Desulfovibrio), 박테로이데스(Bacteroides), 스포로박터(Sporobacter), 프리신기코커스(Frisingicoccus), 수도플라보니프락터(Pseudoflavonifractor), 파스코락토박테리움(Phascolarctobacterium), 카프로이치프로듀센스(Caproiciproducens), 아나에로티그눔(Anaerotignum), 해리플린티아(Harryflintia), 락토바실러스(Lactobacillus), 로소넬라(Lawsonella), 마이크로박테리움(Microbacterium), 펩토니필러스(Peptoniphilus), 매실리오클로스토리디움(Massilioclostridium)에 해당하는 미생물이며, Species level로는 코프로코커스 카투스(Coprococcus catus), 박테로이데스 카에시갈리나룸(Bacteroides caecigallinarum), 디설포비브리오 피거(Desulfovibrio piger), 아들러크레우치아 에퀴오리파시엔스(Adlercreutzia equolifaciens), 박테리오데스 에게르티(Bacteroides eggerthii), 박테로이데스 유니포르미스(Bacteroides uniformis), 푸조박테리움 바리움(Fusobacterium varium), 알리스티페스 샤히이(Alistipes shahii)이다. 과민성대장증후군을 탐지하는 바이오마커는 Family level의 Lachnospiraceae, Coriobacteriaceae 및 Genus level의 알로프리보텔라(Alloprevotella), 박테로이데스(Bacteroides), 네그렉타(Neglecta), 부티리키코커스(Butyricicoccus)에 해당하는 미생물이며, Species level로는 유박테리움 래물루스(Eubacterium ramulus), 박테로이데스 아시디파시엔스(Bacteroides acidifaciens), 블라우티아 파에시스(Blautia faecis), 박테로이데스 코프로콜라(Bacteroides coprocola)이다.
각각의 바이오마커는 흔히 사람의 장에서 상주하는 것으로 알려진 미생물들이며, 주로 짧은사슬 지방산(SCFAs)을 생성하는 미생물로 구성되어 있는 점이 두드러진다. 짧은사슬 지방산은 장내 세포 결속을 강화하고 소화를 돕는 등 건강에 이로운 기능이 알려진 물질로, 장누수증후군(leaky gut syndrome)을 완화하므로 과민성대장증후군과의 연관성도 익히 알려진 바 있다.
상기 바이오마커는 과민성 대장증후군 환자와 정상군을 구별할 수 있으며, 과민성 대장증후군 환자에서 건강군에 비해 높은 군집 규모(population)가 나타나는 미생물을 검출하는 마커 또는, 건강군에서 과민성 대장증후군 환자군에 비해 높은 군집 규모(population)가 나타나는 미생물을 검출하는 것일 수 있다.
본 발명자들은 과민성 대장증후군 환자에서 미생물의 군집 규모(population)가 건강군에서 나타나는 군집 규모에 비해 큰 폭으로 증가 및/또는 감소하는 미생물 중 과민성 대장 증후군의 진단 또는 예후 예측에 유의미하게 사용될 수 있는 바이오마커 미생물을 속 또는 종 수준에서 총 63종 선별하였다.
본 발명의 일 실시예에서, 건강한 정상군 한국인의 장 샘플, 또는 건강군 데이터베이스는 자기 보고(self-report)를 기반으로 준비된다. 한국인 장내 미생물 데이터는 총 2,000여 샘플로부터 얻었으며, 메타데이터로 전자의료기록이 첨부된 1,000여 샘플 중에서 대사 질환과 관련된 기록을 이용하여 456명의 건강한 한국인 샘플을 선별하였다.
상기 대사 질환과 관련된 의료 기록으로는 과민성 대장증후군(IBS) 해당 여부, 당화혈색소(Hemoglobin A1c, HbA1c) 수치, BMI(Body mass index), 대사증후군(metabolic syndrome) 진단 여부를 사용하였다. 구체적으로, 비 IBS환자, 혈중 HbA1c 수치 6.5% (w/v) 미만, BMI 수치 18 이상 내지 25 미만 및 비 대사증후군 환자의 조건을 만족하는 경우 건강군으로 선별하였다.
본 발명의 일 실시예에서, 상기 미생물 바이오마커의 군집 규모를 측정하기 위해, 수집된 채변 샘플로부터 유전체 DNA를 추출한 후, 추출된 유전체 DNA를 서열번호 127 및 128의 뉴클레오티드 서열로 이루어진 universal primer를 사용하여 16S rRNA target sequencing 을 위한 PCR을 통해 광범위한 분류군(taxonomic group)을 대상으로 한 다양한 유형의 앰플리콘을 생성하였다. 상기 얻어진 앰플리콘들은 MiSeq (Illumina)을 이용하여 차세대뉴클레오티드 서열분석(NGS)을 수행하여, 16S 리보솜 RNA 유전자의 서열 분석을 시행하였다. 하나의 샘플에서 생성된 수 천개의 16S rRNA 유전자 서열들은 표준 균주 및 비배양 미생물의 16S rRNA 유전자 서열의 데이터베이스 (EzTaxon)를 이용하여, 문 (phylum) 수준에서 종(species) 수준까지 미생물 군집의 종류 및 그 규모 분석을 시행하였다. 상기 균집의 규모는 동정된 전체 미생물의 총 시퀀싱 리드(sequencing reads) 수 대비 해당 미생물이 차지하는 시퀀싱 리드 수 비율로 계산되었다.
본 발명에서, 과민성 장 증후군 또는 과민성 대장 증후군 (irritable bowel syndrome, IBS)은 복통 혹은 복부불쾌감, 배변 후 증상의 완화, 배변 빈도 혹은 대변 형태의 변화 등의 특징적인 증상들이 만성적으로 반복되는 대표적인 기능성 위장관 질환이다. 본 발명에서 과민성 대장 증후군은 로마 진단 기준 로마 진단 기준 (Rome diagnostic criteria)에 따라 진단될 수 있으며, 구체적인 진단 기준은 2016년 이후 Rome IV 기준에 따르며, 지난 3개월간 적어도 주1회 이상 배변과 관련된 또는 배변 양상의 변화가 동반된 반복적인 복통이 있을 경우를 과민성 대장증후군으로 진단하며, 아형은 변비형, 설사형, 혼합형 및 분류 불능형으로 분류한다.
본 발명에서, "위험도 예측"이란 대상에게서 과민성 대장증후군이 발병할 가능성을 판별하는 것을 의미하며, 과민성대장증후군의 발병 위험성이 높은 대상을 선별하고 적절한 관리를 통하여 발병 시기를 늦추거나 발병하지 않도록 하거나, 가장 적절한 치료 방식을 선택함으로써 치료 결정을 하기 위해 임상적으로 사용될 수 있다. 또한 "진단"이란, 병리 상태의 존재 또는 특징을 확인하는 것을 의미하며, 본 발명의 목적상, 진단은 과민성대장증후군의 발병 여부를 확인하는 것을 의미할 수 있다.
본 발명의 일 예는 과민성대장증후군의 진단용 바이오마커 또는 상기 바이오마커를 포함하는 미생물을 탐지 가능한 제제를 포함하는, 과민성대장증후군 진단용 조성물에 관한 것이다. 본 발명의 일 예는 과민성 대장증후군 진단용 바이오마커를 탐지 가능한 제제를 포함하는, 과민성 대장증후군 탐지용 키트에 관한 것이다.
예를 들면, 본 발명이 제공하는 과민성대장증후군 진단용 조성물은 상기 기재된 바이오마커를 검출하는 제제를 포함하는 것일 수 있다. 상기 16S rRNA를 검출하는 제제는 상기 16S rRNA를 포함하는 미생물의 군집 규모를 측정하는 제제일 수 있다. 과민성대장증후군의 진단용 바이오마커는 상술한 바와 같다. 상기 바이오마커 또는 바이오마커를 포함하는 미생물을 탐지 가능한 제제는 예를 들어, 미생물 바이오마커를 탐지 가능한 제제이면 제한 없이 사용될 수 있다.
상기 키트는 시험 대상의 채변 기구를 추가로 포함하는 것일 수 있으며, 상기 채변기구는 미생물, 예를 들어 박테리아의 변이를 막는 완충액을 포함하는 것일 수 있다. 상기 완충액은 4%(w/v) SDS(Sodium Dodecyl Sulfate), 50mM Tris-HCl, 50mM EDTA 및 500mM NaCl로 구성될 수 있다.
본 발명의 일 예는 과민성 대장증후군의 진단, 위험도 예측 또는 과민성 대장증후군의 예후 모니터링에 관한 정보를 제공하는 방법을 제공한다.
구체적인 일 예에서, 본 발명은 시험 대상의 과민성대장증후군(IBS)의 위험도를 분석하는 방법을 제공하며,
시험 대상으로부터 얻은 장내 미생물의 16S rRNA 유전 정보를 분석하여, 미생물 바이오마커의 동정 및 장내 미생물 군집 내 점유율을 얻는, 미생물 군집 분석을 수행하는 단계,
상기 미생물 군집 분석 결과를 이용하여, 시험 대상의 과민성 대장증후군(IBS)의 위험도를 지수화하여 시험 대상의 IBS 위험도 지수를 얻는 단계, 및
상기 IBS 위험도 지수를 이용하여 시험 대상의 과민성 대장증후군 위험도를 결정하는 단계를 포함할 수 있다.
또한, 본 발명은 상기 방법에 따라 시험 대상의 과민성대장증후군(IBS)의 위험도를 분석하고, 시간의 경과에 따른 상기 시험 대상의 IBS 위험도 지수 변화를 모니터링하는 단계를 포함하는, 과민성 대장증후군의 예후 모니터링에 필요한 정보를 제공하는 방법을 제공할 수 있다.
더욱 자세하게는, 본 발명에 따른 시험 대상의 과민성대장증후군(IBS)의 위험도를 분석하는 방법은 하기 단계 (1) 내지 (5)를 포함할 수 있다:
(1) 시험 대상의 대변 시료로부터 장내 미생물 DNA를 얻는 단계,
(2) 상기 장내 미생물 DNA로부터 장내 미생물의 16S rRNA 유전 정보를 얻는 단계
(3) 상기 장내 미생물의 16S rRNA 정보를 분석하여 미생물을 동정하고, 바이오마커 미생물 군집을 분석하는 단계,
(4) 상기 미생물 군집 분석 결과를 이용하여 과민성 대장증후군(IBS)의 위험도를 지수화하는 단계; 및
(5) 상기 지수를 이용하여 시험 대상이 과민성 대장증후군 환자인지 여부를 결정하는 단계를 포함할 수 있다.
본 발명이 제공하는 과민성 대장증후군의 진단, 위험도 예측 또는 과민성 대장증후군의 예후 모니터링에 관한 정보를 제공하는 방법은 시험 대상으로부터 얻은 장내 미생물의 16S rRNA 유전 정보를 분석하여 상술한 종 수준 및/또는 속 수준의 IBS 특이적 및/또는 건강군 특이적 미생물 바이오마커를 동정 및 상기 바이오마커의 군집 내 점유율을 얻는, 미생물 군집 분석을 수행하는 단계, 상기 미생물 군집 분석 결과를 이용하여 과민성 대장증후군(IBS)의 위험도를 지수화하여 시험 대상의 IBS 위험도 지수를 얻는 단계, 및 상기 IBS 위험도 지수를 이용하여 시험 대상의 과민성 대장증후군 위험도를 측정하는 단계를 포함할 수 있다.
본 발명이 제공하는 과민성 대장증후군의 진단, 위험도 예측 또는 과민성 대장증후군의 예후 모니터링에 관한 정보를 제공하는 방법은 상기 IBS 위험도 지수를 계산하는 단계 이전에 IBS 환자인지 여부를 결정하는 단계를 추가로 포함할 수 있다.
본 발명에 따른 구체적인 과민성 대장증후군의 진단 또는 위험도 예측에 관한 정보를 제공하는 방법은, 상기 단계 (1) 내지 (5)에 더하여, 진단 결과 또는 위험도 예측 결과를 시각화하는 단계를 추가로 수행할 수 있다.
이하 각 단계를 구체적으로 살핀다.
(1) 시험 대상의 대변 시료로부터 DNA를 얻는 단계
본 발명의 과민성 대장증후군의 진단 또는 위험도 예측에 관한 정보를 제공하는 방법은, (1) 시험 대상의 대변 샘플로부터 DNA를 추출하는 단계를 포함한다.
본 발명의 일 실시예에서, 상기 시험 대상의 대변 샘플은 미생물의 변이를 막는 완충액에 담겨 수집되었다. 상기 완충액은 4%(w/v) SDS(Sodium Dodecyl Sulfate), 50mM Tris-HCl, 50mM EDTA 및 500mM NaCl로 구성되었다.
상기 미생물 배양물의 유전체 DNA 추출을 위해, 배양물의 세포를 용해하는 단계를 포함할 수 있다. 예를 들어, 상업용 키트를 이용하여 유전체 DNA를 정제하거나, 비드 비팅 및/또는 열충격(heat shock)을 통해 세포 용해 과정을 수행할 수 있다. 세포 용해 과정을 비드 비팅 및/또는 열충격을 이용하여 수행하는 경우, 상업용 키트를 사용하는 경우에 비해 비용이 감소하고 분석 시간이 단축되는 장점이 있다.
(2) 상기 장내 미생물 DNA로부터 장내 미생물의 16S rRNA 유전 정보를 얻는 단계
본 발명의 과민성 대장증후군의 진단 또는 위험도 예측에 관한 정보를 제공하는 방법은, (2) 상기 장내 미생물 DNA로부터 장내 미생물의 16S rRNA 유전 정보를 얻는 단계를 포함한다. 상기 16S rRNA 유전 정보를 얻는 단계는, 차세대 유전체 뉴클레오티드 서열분석(NGS) 플랫폼을 이용하여, 상기 추출된 DNA의 16S rRNA 유전자 서열을 분석하는 단계일 수 있다. 또는, 상기 장내 미생물의 16S rRNA 유전 정보는, 16S rRNA에 대한 PCR 프라이머쌍을 이용하여, 장내 미생물의 게놈 DNA에 대한 표적 서열분석(target sequencing)을 수행하여 얻어지는 것일 수 있다.
상기 추출된 DNA의 16S rRNA 유전자 서열을 분석하는 단계는, 16S rRNA의 가변 영역(variable region)을 특이적으로 증폭할 수 있는 프라이머 세트를 이용하여 PCR을 수행하는 단계, 바람직하게는 16S rRNA의 V3 내지 V4 영역을 특이적으로 증폭할 수 있는 프라이머 세트를 이용하여 PCR을 수행하는 단계, 더욱 바람직하게는 하기 서열을 갖는 universal primer를 이용하여 PCR을 수행하여 앰플리콘을 생성하는 단계를 포함할 수 있으며, universal primer의 예시적인 서열은 하기와 같다:
정방향 universal primer (서열번호 127): 5'-CCTACGGGNGGCWGCAG -3'
역방향 universal primer (서열번호 128): 5'-GACTACHVGGGTATCTAATCC -3'
(3) 16S rRNA 서열을 이용하여 마커 미생물 군집을 분석하는 단계
본 발명의 과민성 대장증후군의 진단 또는 위험도 예측에 관한 정보를 제공하는 방법은, (3) 표준 균주 및 비배양 미생물의 16S rRNA 유전자 서열의 데이터베이스를 이용하여, 상기 분석된 16S rRNA 유전자 서열을 분석하여, 서열번호 1 내지 126의 뉴클레오티드 서열을 가지는 미생물 바이오마커 군집내 점유율(population) 또는 상대적 풍부도를 분석하는 단계를 포함할 수 있다.
상기 미생물 군집을 분석하는 단계는, 본 발명에서 제공하는 서열번호 1 내지 126의 16S rRNA를 포함하는 미생물의 존부를 확인하고 존재가 확인된 미생물에 대해서만 군집 규모를 분석함으로써, 전체 미생물 군집을 동정하는 것보다 IBS의 진단 및 예후 예측에 필요한 시간과 노동력을 절감할 수 있다.
상기 미생물 군집을 분석하는 단계는, 16S rRNA 데이터베이스를 이용하여 미생물을 속 또는 종 수준으로 동정 및 분류하는 단계 및/또는 각 미생물 군집 규모(population)를 분석하는 단계를 포함하는 것일 수 있다.
상기 미생물의 동정 및 분류에 사용되는 데이터베이스는 필요에 따라 당업자가 적절히 선택하여 사용할 수 있으며, 예를 들어, EzBioCloud, SILVA, RDP 및 Greengene으로 이루어지는 군에서 선택되는 하나 이상의 데이터베이스일 수 있으나, 이에 제한되는 것은 아니다.
상기 미생물 군집 정보는 상기 미생물 군집 시료 내에 존재하는 미생물 균종의 종류, 상기 미생물 균종의 수, 목적 미생물 종의 군집 규모(population) 및/또는 상대적 풍부도(Relative abundance degree, %)일 수 있다.
상기 미생물 군집 규모 (상대적 풍부도 또는 군집내 점유율)는 전체 장내 미생물 균총에서 특정 미생물 군집이 차지하는 비율(%)로 나타내어질 수 있다. 예를 들면, 상기 미생물 군집이 차지하는 비율(%)은 전체 시퀀싱 리드 수 중 특정 미생물의 16S rRNA 리드 수 빈도(frequency)의 백분율로 나타내어 질 수 있다. 미생물 군집 전체 100% 중 미생물 종이 분류되지 않은 (unclassified) 결과는 제외되었다. 상기 시퀀싱 리드는 증폭된 16S rRNA 서열의 차세대 서열 분석법(NGS) 결과를 의미한다. 상기 특정 미생물은 본 발명이 제공하는 과민성 대장증후군의 진단 또는 위험도 예측용 미생물 바이오마커일 수 있다.
(4) 상기 미생물 군집 분석 결과를 이용하여 IBS 위험도를 지수화하는 단계
본 발명의 과민성 대장증후군의 진단 또는 위험도 예측에 관한 정보를 제공하는 방법은, (4) 상기 미생물 군집 분석 결과를 이용하여 과민성 대장증후군(IBS)의 위험도를 지수화하는 단계를 포함한다.
상기 지수화 단계는 상기 16S rRNA 분석 결과를 과민성 대장증후군 예측 모델에 적용하는 단계, 및 IBS 위험도 지수를 계산하는 단계를 포함한다.
상기 과민성 대장증후군 예측 모델은 과민성 대장증후군 위험도 예측용 미생물 바이오마커의 장내 미생물 군집 규모를 데이터베이스와 대조하여 시험 대상의 IBS 위험도 지수를 계산하기 위한 파라미터를 제공하는 것일 수 있다.
상기 과민성 대장증후군 예측 모델은 시험 대상에서 검출된 과민성 대장증후군(IBS) 바이오마커 목록 및 coefficient값을 기계 학습 함수 및 지수화 수학식(하기 수학식 1 내지 4)에 대입하여 미지 시료에 대한 IBS 위험도 지수를 계산하고 IBS의 진단 및/또는 위험도 예측에 활용하는 것일 수 있다.
상기 데이터베이스는 미생물 바이오마커 특정을 위해 수집된 정상군 및 IBS 환자군의 장내 균총 데이터베이스를 활용하는 것일 수 있으며, 구체적으로, IBS군 및 정상군을 대상으로 모집한 인체 장내 마이크로바이옴 데이터베이스일 수 있다.
상기 과민성 대장증후군 예측 모델은 기계 학습(machine learning)을 이용하여 과민성 대장 증후군 특이적 및/또는 정상군 특이적 미생물 바이오마커를 선별 및 과민성 대장증후군 판별을 위한 예측 점수 (IBS prediction score)를 계산하여 과민성 대장 증후군 여부를 판별할 수 있는 것을 특징으로 한다.
미생물 군집 분석 결과를 지수화하는 단계는 미생물 마커와 해당 마커의 Coefficient 값을 이용하여 IBS 판별을 위한 예측점수(prediction score)를 계산하는 과정을 포함할 수 있다.
상기 예측점수(prediction score)는 Test set의 장내 미생물 군집 데이터에서 실시예 2를 통해 선택한 미생물 마커의 존부를 확인한 후, 존재가 확인된 미생물 마커에 대해 이를 해당 바이오마커의 Coefficient와 내적곱을 하여 0 내지 1의 값으로 계산한다. 구체적으로, 하기 수학식 3으로부터 산출될 수 있다.
[수학식 3]
Figure PCTKR2020000953-appb-I000011
[수학식 4]
Figure PCTKR2020000953-appb-I000012
상기 수학식 3 및 4에서,
상기 X 는 모델의 독립변수이며 이는 위에서 구한 미생물 군집 비율에 해당한다.
상기 β는 모델의 회귀계수(Coefficient)이고 미생물과 IBS의 관련도를 나타낸다.
상기
Figure PCTKR2020000953-appb-I000013
는 모델의 예측 점수이고 0에서 1사이의 확률값을 가진다.
상기
Figure PCTKR2020000953-appb-I000014
는 학습에 사용한 n개의 시료의 미생물 군집 비율에 해당하며, 상기
Figure PCTKR2020000953-appb-I000015
는 사용한 시료의 실제 IBS 여부(건강군은 0, IBS 환자군은 1)에 해당한다.
상기 m은 학습에 사용된 미생물 분류군 수로서, 자연수 값을 가진다.
상기 n은 본 발명에서 제공하는 예측 모델의 학습에 사용한 전체 샘플의 수이다.
상기 λ 값 은 IBS 예측 모델의 하이퍼파라미터(hyper parameter)이다.
본 발명의 일 실시예에서, 정규화 파라미터를 0.0001 에서 10000 사이에서 지수 스케일로 균등하게 10개로 잘라 10개의 모델을 생성하여 가장 좋은 예측 결과(가장 높은 AUC 수치)를 주는 모델 파라미터를 선별하는 과정을 거쳤다. 이러한 그리드서치(grid search)를 통해 최적화(optimization)된 하이퍼파라미터(hyperparameter)를 얻을 수 있다. 모델의 하이퍼파라미터에 해당하는 정규화 파라미터 즉, 본 발명에 따른 최적화된 IBS 위험도 예측 모델은 상기 수학식 3의
Figure PCTKR2020000953-appb-I000016
값 중 가장 좋은 예측 결과를 보이는 값(0.2)으로 확정하였다.
상기 예측 점수를 이용하여 정확한 임상적 해석을 부여하기 위해, 0과 1 사이의 확률값을 학습에 사용한 IBS 환자군과 건강군의 비율로 나누어, 하기 수학식 1과 같이 리스케일하였다. 이는 IBS 위험도 지수를 나타내는 단계로 구성될 수 있다. 상기 지수를 IBS 위험도 지수라 규정하였으며, 미지의 시료에 대해서 IBS 환자와 건강한 사람을 구별할 수 있다.
[수학식 1]
Figure PCTKR2020000953-appb-I000017
상기 수학식 1에서,
Figure PCTKR2020000953-appb-I000018
는 IBS 판별을 위한 시험 대상의 예측 점수
P 0 는 예측 모델 구축에 사용된 training set에 존재하는 IBS 샘플의 비율
Ncase 는 training set 내 IBS 샘플의 수
Ntrain 는 training set의 전체 샘플 수
상기 IBS 판별을 위한 예측 점수
Figure PCTKR2020000953-appb-I000019
는 선별한 미생물들의 coefficient를
Figure PCTKR2020000953-appb-I000020
, 선별한 미생물들의 군집 비율을
Figure PCTKR2020000953-appb-I000021
라고 할 때, 하기 수학식 2와 같이 계산한다.
[수학식 2]
Figure PCTKR2020000953-appb-I000022
상기 수학식 2에서,
Figure PCTKR2020000953-appb-I000023
는 선별한 미생물들의 coefficient이고,
X' 는 선별한 미생물들의 군집 규모 비율이다. 상기 군집 규모 비율은 전체 장내 균총에서 상기 선별한 미생물 군집이 차지하는 비율을 의미하며, 16s rRNA 시퀀싱 전체 리드 수 대비 선별한 미생물 군집의 16s rRNA 시퀀싱 리드 수의 비율로 나타내어질 수 있다.
상기IBS 예측점수는 하기 수학식 5 내지 7과와 같이 민감도(Sensitivity), 특이도(Specificity), 및 정확도 (Accuracy) 값으로 표현될 수 있다. Test set에서 실제로 IBS 환자의 시료이고 IBS 위험도 지수가 cut-off보다 큰 경우의 수를
Figure PCTKR2020000953-appb-I000024
, 실제로 IBS 환자의 시료이지만 IBS 위험도 지수가 cut-off보다 작은 경우
Figure PCTKR2020000953-appb-I000025
, 실제로 건강한 사람의 시료이지만 IBS 위험도 지수가 cut-off보다 큰 경우의 수를
Figure PCTKR2020000953-appb-I000026
, 실제로 건강한 사람의 시료이고 IBS 위험도 지수가 cut-off보다 작은 경우의 수를
Figure PCTKR2020000953-appb-I000027
라고 명명하였다. 민감도는 전체 IBS 시료 중 실제로 IBS로 판정된 비율, 특이도는 전체 건강군 시료 중 실제 건강군으로 판정된 비율을 의미하며, 정확도는 전체 시료 중 IBS 환자 또는 건강 여부가 정확하게 판정된 비율을 나타낸다.
[수학식 5]
Figure PCTKR2020000953-appb-I000028
[수학식 6]
Figure PCTKR2020000953-appb-I000029
[수학식 7]
Figure PCTKR2020000953-appb-I000030
상기 수학식 5 내지 7에서,
TP는 환자 시료에서 IBS 위험도 지수(
Figure PCTKR2020000953-appb-I000031
)가 cut-off보다 큰 경우의 수이고,
TN은 환자 시료에서 IBS 위험도 지수(
Figure PCTKR2020000953-appb-I000032
)가 cut-off보다 작은 경우의 수이고,
FP는 정상군 시료에서 IBS 위험도 지수(
Figure PCTKR2020000953-appb-I000033
)가 cut-off보다 큰 경우의 수이고,
FN은 정상군 시료에서 IBS 위험도 지수(
Figure PCTKR2020000953-appb-I000034
)가 cut-off보다 작은 경우의 수이다.
(5) 상기 IBS 위험도 지수를 이용하여 시험 대상이 과민성 대장증후군 환자인지 여부를 결정하는 단계 및/또는 (6)시간에 따른 시험 대상의 IBS 위험도 지수 변화를 모니터링하는 단계
본 발명의 과민성 대장증후군의 진단에 관한 정보를 제공하는 방법은, (5) IBS 위험도 지수를 이용하여 시험 대상이 과민성 대장증후군 환자인지 여부를 결정하는 단계를 포함한다. 본 발명의 과민성 대장증후군의 위험도 예측에 관한 정보를 제공하는 방법은, (6) 시간에 따른 시험 대상의 IBS 위험도 지수 변화를 모니터링하는 단계를 포함한다.
상기 시험 대상이 과민성 대장증후군 환자인지 여부를 결정하는 단계는 상기 지수가 기준 데이터베이스의 과민성 대장증후군의 위험도 지수 분포상의 위치를 결정하는 단계를 포함할 수 있다. 기준 데이터베이스의 과민성대장증후군의 위험도 지수 분포에서, 하위 0%에 가까워 질수록, 건강 또는 과민성 대장증후군의 예후가 좋아지는 것으로 판단할 수 있다. 상기 기준 데이터베이스는 예를 들어, 상기 예측 모델의 구축에 사용된 트레이닝 세트, 테스트 세트 및 시험 대상 시료를 포함하는 전체 샘플의 IBS 위험도 지수 데이터베이스일 수 있으나, 이에 제한되는 것은 아니다.
상기 기준 데이터베이스의 과민성 대장 증후군의 위험 지수 분포상의 위치를 결정하는 단계는, IBS 환자 및 정상인의 대변 시료로부터 얻은 장내 마이크로바이옴 데이터 또는 상기 데이터로부터 얻은 IBS 위험도 지수를 포함하는 기준 데이터베이스를 구축하는 단계; 상기 기준 데이터베이스의 위험도 지수를 백분위로 변환하는 단계; 및/또는 상기 기준 데이터베이스 내에서 상기 시험 대상의 IBS 위험도 지수의 백분위 위치를 결정하는 단계를 포함할 수 있다.
일 예에서, 상기 기준 데이터베이스는 건강(정상)군의 장내 마이크로바이옴 데이터베이스 및/또는 상기 데이터베이스를 이용하여 얻는 IBS 위험도 지수; 및 IBS 환자군의 장내 마이크로바이옴 데이터베이스 및/또는 상기 데이터베이스를 이용하여 얻는 각 시료의 IBS 위험도 지수;를 포함할 수 있다. 상기 건강군 및/또는 환자군의 마이크로바이옴 데이터베이스는 각각 20명 이상, 50명 이상, 90명 이상, 20 내지 10000명, 20 내지 2000명, 20 내지 1000명, 20 내지 500명, 50 내지 10000명, 50 내지 2000명, 50 내지 1000명, 50 내지 500명, 90 내지 10000명, 90 내지 2000명, 90 내지 1000명, 또는 90 내지 500명의 정상군 및/또는 환자로부터 분리된 장내 미생물 시료(예를 들어, 대변 샘플)에서 얻은 장내 마이크로바이옴 데이터 및/또는 상기 장내 마이크로바이옴 데이터를 이용하여 얻는 IBS 위험도 지수로 구성될 수 있다.
일 예에서, 상기 기준 데이터베이스는 건강군과 IBS 환자군의 시료 수의 합이 40개 이상, 100개 이상, 500개 이상, 40 내지 10만 개, 40 내지 1만 개, 40 내지 5000 개, 100 내지 10만 개, 100 내지 1만 개, 100 내지 5000 개, 500 내지 10만 개, 500 내지 1만 개, 또는 100 내지 5000 개일 수 있다. 상기 기준 데이터베이스 내 건강군 데이터의 수는 환자군 시료 수의 1 내지 10배, 1 내지 7배, 2 내지 10배, 2 내지 7배, 3 내지 10배, 3 내지 7배, 또는 4 내지 7배일 수 있으나, 이에 제한되지 않는다. 또 다른 일 예에서, 상기 기준 데이터베이스 내 정상군과 IBS 환자군의 수 비율은 국적, 연령, 성별, 또는 기타 IBS 유병률과 관련된 인자를 고려하여 IBS 유병률과 유사하도록 조절될 수 있다.
일 구현예에서, 상기 건강군 데이터베이스는 IBS 해당 여부, 당화혈색소 수치, BMI, 대사증후군 진단 여부를 기준으로, 비 IBS 환자, 혈중 HbA1c 수치 6.5%(w/v)미만, BMI 수치 18 이상 25 미만 및 비 대사증후군 환자로 확인된 한국인 456명의 샘플로부터 얻은 장내 마이크로바이옴 데이터로 구성되며, 상기 IBS 환자군 데이터베이스는 샘플 수집일 기준으로 3년 이내에 로마 진단 기준에 따라 과민성 대장 증후군을 진단받은 91명 환자로부터 얻은 장내 마이크로바이옴 데이터로 구성될 수 있다.
상기 마이크로바이옴 데이터는, 상기 수학식 1의 방법으로 IBS 위험도 지수를 산출하기 위한 목적 범위에서 필요한 정보를 모두 포함하며, 예를 들어, 장내 미생물 균총을 구성하는 미생물의 속 수준 또는 종 수준 분류 및 각 미생물의 군집 규모 (population) 정보를 포함할 수 있다. 일 구체예에서, 본 발명이 제공하는 IBS 환자군 특이적 속 수준 바이오마커, IBS 환자군 특이적 종 수준 바이오마커, 건강군 특이적 속 수준 바이오마커, 및 건강군 특이적 종 수준 바이오마커로 이루어지는 군에서 선택되는 1종 이상의 바이오마커에 해당하는 미생물 군집 존부 및/또는 상기 미생물 군집의 규모 정보를 포함할 수 있다.
일 예에서, 상기 IBS 위험도 지수 분포는 기준 데이터베이스에서 얻어진 각 IBS 지수(상기 수학식 1의 방법으로 계산된 IBS 지수)에서, 상기 기준 데이터베이스 내 IBS 위험도 지수의 최저값을 0%로, 최고값을 100%로 두고 백분위로 나타내어 지는 것일 수 있다.
상기 IBS 위험도 지수는 IBS 위험도를 적어도 2 이상의 구간으로 구분하여 표시하는 것일 수 있으며, 바람직하게는 3개의 구간으로 구분하여 표시할 수 있다.
상기 구간의 구분은 상기 IBS 위험도 지수의 특이도가 가장 높은 값을 기준으로 하여 구분되는 것일 수 있다.
본 발명의 일 예에서, IBS 위험도 지수에 따라 IBS 위험도를 위험, 주의, 양호의 단계로 구분하였으며, 보다 구체적으로 하위 0 내지 75%는 양호, 75 내지 95%는 주의, 95 내지 100%는 위험 단계로 분류하였다.
상기 시간에 따른 환자의 IBS 위험도 지수 변화를 모니터링하는 단계는, 시간의 경과에 따라 상기 지수가 기준 데이터베이스의 과민성 대장 증후군의 위험도 지수 분포상의 위치가 하위 0%에 가까워 질수록 예후가 좋은 것으로 결정하는 것일 수 있다.
본 발명에서 제공하는 IBS 예측 모델을 적용한 일 예를 도 1에 나타내었다. 도 1은 본 발명의 일 예에 따른 IBS 예측 모델을 이용하여 시험 대상의IBS 여부를 결정하는 과정을 나타내는 모식도이다. IBS 예측 모델은 장내 미생물 군집 분석을 전제로 한다. 배양 의존적 방법으로는 발견되지 않는 미생물 분류군이 높은 비율로 인체 장내 미생물 군집에 포함되어 있으며, IBS 예측 모델이 상당 부분의 미발표종을 Biomarker로 인지하고 있기 때문이다.
본 발명의 IBS 특이적 바이오마커 및 이를 이용한 IBS 예측 모델을 이용한 IBS 위험도 지수 제공 절차는 하기의 단계를 거쳐 수행될 수 있다.
(1) 시험 대상의 채변 샘플 수집 단계,
(2) 상기 샘플로부터 시험대상의 DNA를 추출하고, 추출된 DNA를 주형으로 16rRNA의 universal primer로 PCR을 수행하여 앰플리콘(amplicon)을 생성하는 단계,
(3) 차세대 유전체 서열분석 (NGS) 플랫폼을 이용하여, 상기 앰플리콘의 16S rRNA 유전자 서열을 분석하는 단계,
(4) 표준 균주 및 비배양 미생물의 16S rRNA 유전자 서열의 데이터베이스를 이용하여 상기 분석된 16S rRNA 유전자 서열을 분석하여, 시험 대상의 미생물 군집 분석을 수행하는 단계,
(5) 상기 군집 분석 결과를 IBS 예측 모델에 적용하여 IBS 위험도를 지수화하는 단계
상기 IBS 위험도 예측 결과를 지수화하여 분석 리포트로 제공할 수 있다. 상기 분석 리포트는 하기의 정보를 포함할 수 있다.
(1) 검사 대상의 IBS 위험도 지수 및 단계
검사 대상에 대하여 IBS 예측 모델을 적용하여 IBS 위험도 지수를 계산한 결과를 포함한다. 분석 결과에 따라 제공되는 결과값은 지수에 따라 위험, 주의, 양호와 같은 단계로 나타내어질 수 있다. 예를 들어, 기준 데이터베이스의 모든 샘플을 지수화하여 하위 0 내지 75%는 양호, 75 내지 95%는 주의, 95 내지 100%는 위험 단계로 분류할 수 있다. 또는, 상기 3가지 단계의 분류 기준 수치로서, IBS 지수가 0.8 이하 주의, IBS 지수가 0.95 이하 보통, IBS 지수가 0.95 초과 양호로 표시할 수 있다.
(2) 검출된 IBS 바이오마커 미생물의 정보
또한, 상기 분석 리포트에는 IBS biomarker에 해당하는 미생물 중에서 대표적인 미생물에 대한 설명과 군집내 점유 비율을 나타낼 수 있다. 상기 결과 보고서의 예시를 도 5에 나타내었다.
상기 도 5의 구체적 일예를 들어 설명하면, 우측 상단의 막대 그래프는 주의(적색), 보통(황색) 및 양호(녹색)의 세 가지 분류와 그 기준 수치 (IBS 지수가 0.8 이하 주의, IBS 지수가 0.95 이하 보통, IBS 지수가 0.95 초과 양호)를 나타낸 것이며, 검정색 화살표와 숫자는 검출 대상의 IBS 지수의 구체적인 수치 및 그래프 위에서의 상대적인 위치를 나타낸다. 상기 막대 그래프 좌측으로는 ‘미생물 IBS 지수는 주의입니다. 특정 장내미생물이 지배적으로 장내환경을 뒤덮어 장내 불균형 Dysbiosis을 일으키거나 장내 세포의 결속을 느슨하게 할 경우, 우리는 지속적이고 빈번한 고통을 느끼게 됩니다. 이런 증상을 보이는 과민성 대장 증후군 IBS, IBS 환자들의 장내미생물 환경과 장내 미생물 패턴의 유사성을 인공지능 분석으로 계산한 결과입니다.’와 같은 간단한 설명문을 기재할 수 있다. 하단에는 ‘과민성대장증후군 IBS 과 관련있는 대표적인 미생물’이라는 소제목이 표시되어 있으며, IBS군 평균은 적색 점으로, 건강군 평균은 녹색 점으로 표시한, 각 균주에 대한 평균 군집 규모 그래프가 표시되어 있다. 상기 그래프에는 검출 대상에서 확인된 각 미생물의 군집 규모를 IBS 평균 및 건강군 평균과 구별되는 표시로 표시할 수 있다. 도 5에서는 상기 막대 그래프에서와 동일한 흑색 화살표로 표시되어 있으며, 범례에는 각 미생물의 군집 규모 수치가 표시되어 있다. 각 그래프의 하단에는 각 미생물의 명칭과 학명이 기재되어 있으며 도 5에는 좌측은 ‘크리스텐세넬라세(Christensenellaceae)’, 우측은 ‘루미노코카세(Ruminococcaceae)’로 표시되어 있다. 각 균주의 명칭 하단에는 해당 균주에 대한 설명이 표시될 수 있으며, 도 5에서는 ‘크리스텐세넬라세’하단에는 ‘이 미생물은 신체질량지수가 낮은 사람의 장에서 흔히 발견되는 것으로 알려져 있습니다. 최근 연구에 따르면, 과민성대장증후군(IBS) 환자의 장에서 그 비율이 감소하는 것으로 관찰되었습니다.’가, 루미노코카세 하단에는 ‘이 미생물은 사람의 장에서 흔하게 발견되며, 식이섬유 섭취 시 그 비율이 급격하게 늘어나는 것이 관찰되었습니다. 과민성 대장 증후군(IBS) 환자의 장에서 건강한 사람에 비해 낮은 비율로 존재합니다.’라는 설명이 각각 기재되어 있다.
본 발명이 제공하는 IBS 바이오마커(IBS biomarker)를 통해 장내 미생물 분석 결과에 대하여 IBS의 진단 및 위험도 예측이 가능하다. 구체적으로, 본 발명은 IBS 바이오마커 및 이를 이용한 IBS의 진단 또는 위험도 예측 방법, 또는 IBS의 진단 또는 위험도 예측용 키트을 제공하며, 이를 통해 IBS의 진단 또는 IBS 발병 위험성에 대한 정량적인 예측이 가능하다.
도 1은 본 발명의 일 예에 따른 IBS 예측 모델을 이용하여 시험 대상의 IBS 여부를 결정하는 과정을 나타내는 모식도이다.
도 2는 실시예 3에 따라 바이오마커를 이용한 IBS 예측 모델을 평가한 ROC 그래프이다.
도 3은 실시예 4에 따라 IBS 위험도 지수를 통해 민감도(Sensitivity), 특이도(Specificity), 및 정확도(Accuracy) 값을 확인한 결과를 나타낸 그래프이다. 민감도(Sensitivity)는 Cut-off 값이 증가할수록 감소하고, 정확도(Accuracy)는 Cut-off 값이 0.8 내지 1.0일때까지 서서히 증가하다가 이후 소폭 감소하는 경향을 보이며, 특이도 (Specificity)는 Cut-off 값이 증가할수록 함께 증가하는 경향을 보인다.
도 4는 지수별로 관측된 샘플의 IBS 위험도 지수의 분포를 나타낸 사분위수 그래프이다. 가로축은 IBS 지수, 세로축은 해당 점수에 해당하는 샘플에 대한 빈도값(Density)을 의미한다.
도 5는 본 발명의 IBS 예측 모델을 적용하여 제공되는 분석 리포트의 예시이다.
도 6a 내지 6d는 본 발명이 제공하는 바이오마커의 계통수(phylogenic tree)이다. 구체적으로 도 6a는 건강군 특이적 종 수준 바이오마커, 도 6b는 건강군 특이적 속 수준 바이오마커, 도 6c는 IBS 환자군 특이적 종 수준 바이오마커, 도 6d는 IBS 환자군 특이적 속 수준 바이오마커의 계통수를 나타낸다. 도 하단의 bar는 각 하위그룹의 서열간 차이에 대한 기준(scale)을 의미한다.
이하 본 발명을 실시예에 의해 상세히 설명한다. 그러나 하기 실시예는 본 발명을 예시하기 위한 것이며, 권리범위를 제한하기 위한 것이 아니다.
시료 준비
(1) 인체 마이크로바이옴 데이터베이스
마이크로바이옴 데이터베이스로 (주)천랩이 보유한 총 10만여 개의 인체 마이크로바이옴 데이터베이스를 이용하였다. 상기 데이터베이스는 (주)천랩이 자체 보유한 미생물 유전자 데이터베이스인 EzBioCloud를 이용하여 동정 및 정제한 장내 미생물 데이터로, 종래의 미생물 유전자 데이터베이스보다 세밀하고 정확한, 종 수준(Species level)의 미생물 동정이 가능한 장점이 있다. 또한 상기 데이터베이스는 2017년에 발표된 해당 분야 논문 57,177편 중 가장 많이 인용된 데이터베이스이다.
본 발명자들은 IBS 바이오마커를 선별하기 위해 상기 EzBioCloud와 인체 마이크로바이옴 데이터베이스에서 건강한 정상인 한국인의 장내 미생물 데이터와 IBS로 진단받은 환자군 한국인의 장내 미생물 데이터를 이용하여 장내 미생물 군집 구조를 비교 분석하였다.
(2) 건강(정상)군 데이터베이스
건강한 정상군 한국인의 장 샘플, 또는 건강군 데이터베이스는 자기 보고(self-report)를 기반으로 준비되었다. 한국인 장내 미생물 데이터는 총 2,000여 샘플로부터 얻었으며, 메타 데이터로 전자의료기록이 첨부된 1,000여 샘플 중에서 대사 질환과 관련된 기록을 이용하여 456명의 건강한 한국인 샘플을 선별하였다.
상기 대사 질환과 관련된 의료 기록으로는 과민성 대장증후군(IBS) 해당 여부, 당화혈색소(Hemoglobin A1c, HbA1c) 수치, BMI(Body mass index), 대사증후군(metabolic syndrome) 진단 여부를 사용하였다. 구체적으로, 비 IBS환자, 혈중 HbA1c 수치 6.5% (w/v) 미만, BMI 수치 18 이상 25 미만 및 비 대사증후군 환자의 조건을 만족하는 경우 건강군으로 선별하였다.
(3) IBS 환자군 데이터베이스
IBS 환자군은 국내 유수 병원들과 공동연구를 수행하여 수집한 샘플이며, 3년 이내에 로마 진단 기준 (Rome diagnostic criteria)에 따라 과민성 대장 증후군을 진단받은 91명 환자의 장내 미생물 데이터이다.
(4) 테스트 세트(Test set) 구성
건강군과 IBS 환자군의 모든 장내 미생물 군집 데이터를 트레이닝 세트(Training set)와 테스트 세트(Test set)로 나누어 각각 IBS biomarker를 선별하기 위한 set와 IBS 예측 모델을 평가하기 위한 set로 구별하였다. 건강군과 IBS 환자군의 10%에 해당하는 샘플을 무작위로 선정하여 이를 Test set으로 규정하였고, 나머지 샘플을 Training set으로 규정하여 Training set과 Test set이 약 9:1의 비율을 유지하도록 하였다.
상기 Test set과 Training set은 기계 학습을 위한 부트스트랩(bootstrap) 반복 수행마다 재설정되었다.
실시예 1. DNA 추출 및 군집 분석
1-1: 미생물 게놈 DNA 분리 및 증폭
상기 시료에서 건강군 또는 IBS 환자군의 대변 샘플을 수집하였다. 채변 샘플은 미생물의 변이를 막는 완충액에 담겨 수집되었다. 상기 완충액은 4%(w/v) SDS(Sodium Dodecyl Sulfate), 50mM Tris-HCl, 50mM EDTA 및 500mM NaCl로 구성되었으며, 구체적인 조성은 하기 표 5에 나타내었다.
Figure PCTKR2020000953-appb-T000005
모든 샘플은 DNA 완충액에 담겨 수집된 상태이므로, 수집 직후 FastPrep (MP Biomedicals)에서 speed 6.0으로 40 초간 homogenization하여 물리적인 방법으로 유전체 DNA(genomic DNA)를 추출하였다. 추출된 유전체 DNA를 서열번호 127 및 128 universal primer를 사용하여 중합효소 연쇄 반응(PCR reaction)을 통해 광범위한 분류군(taxonomic group)을 대상으로 한 다양한 유형의 앰플리콘(amplicon)을 생성하였다.
상기 universal primer의 서열은 하기와 같으며, 앰플리콘 형성을 위한 PCR pre-mix의 조성 및 PCR 수행 조건을 표 6 및 표 7에 각각 나타내었다.
정방향 universal primer (서열번호 127): 5'-CCTACGGGNGGCWGCAG -3'
역방향 universal primer (서열번호 128): 5'-GACTACHVGGGTATCTAATCC -3'
Figure PCTKR2020000953-appb-T000006
Figure PCTKR2020000953-appb-T000007
1-2: 미생물 게놈 DNA 증폭산물을 이용한 미생물 군집 분석
상기 얻어진 앰플리콘들은 MiSeq (Illumina)을 이용하여 차세대뉴클레오티드 서열분석(NGS)을 수행하여, 16S 리보솜 RNA 유전자의 서열 분석을 시행하였다. 하나의 샘플에서 생성된 수 천개의 16S rRNA 유전자 서열들은 표준 균주 및 비-배양 미생물의 16S rRNA 유전자 서열의 데이터베이스 (EzTaxon)를 이용하여, 문 (phylum) 수준에서 종(species) 수준까지 미생물 군집 분석을 시행하였다.
실시예 2. 미생물 바이오마커 선별(제1단계)
2-1. LASSO의 파라미터 설정 및 최적화
미생물 마커 선별의 제1단계로서, 상기 실시예 1-2에서 분석한 결과에 따라 정상군과 환자군 사이에서 군집 패턴을 통계적으로 유의미하게 인식하는 단계인 IBS 위험도 예측 모델을 적용하였다. 이러한 예측 모델은 라소(Least absolute shrinkage and selection operator, LASSO)를 이용하였다. LASSO의 특징 선택 알고리즘은 모델의 회귀계수(regression coefficient)의 합계에 벌점(penalty)을 부과하여 예측 변수인 IBS와 가장 강한 연관관계를 보이는 미생물만을 선택할 수 있도록 하는 특징이 있다(Friedman, Hastie & Tibshirani, J Stat Softw, 2010., S. J. Kim, K. Koh, M. Lustig, S. Boyd and D. Gorinevsky, in IEEE Journal of Selected Topics in Signal Processing, 2007.)
LASSO 모델의 예측 함수는 하기 수학식 3과 같다.
[수학식 3]
Figure PCTKR2020000953-appb-I000035
[수학식 4]
Figure PCTKR2020000953-appb-I000036
각 변수는 하기와 같다.
상기 X 는 모델의 독립변수이며 이는 위에서 구한 미생물 군집 비율에 해당한다.
상기 β는 모델의 회귀계수(Coefficient)이고 미생물과 IBS의 관련도를 나타낸다.
상기
Figure PCTKR2020000953-appb-I000037
는 모델의 예측 점수이고 0에서 1사이의 확률값을 가진다.
상기
Figure PCTKR2020000953-appb-I000038
는 학습에 사용한 n개의 시료의 미생물 군집 비율에 해당하며, 상기
Figure PCTKR2020000953-appb-I000039
는 사용한 시료의 실제 IBS 여부(건강군은 0, IBS 환자군은 1)에 해당한다.
상기 m은 학습에 사용된 미생물 분류군 수로서, 자연수 값을 가진다.
상기 λ 값 은 IBS 예측 모델의 하이퍼파라미터(hyper parameter)이다.
이때 사용하는 가중치인 정규화 파라미터(regularization parameter)를 미생물 군집데이터에 맞게 설정하는 단계가 가장 먼저 필요하다. 이를 위해 정규화 파라미터를 0.0001 에서 10000 사이에서 지수 스케일로 균등하게 10개로 잘라 10개의 모델을 생성하여 가장 좋은 예측 결과(가장 높은 AUC 수치)를 주는 모델 파라미터를 선별하는 과정을 거쳤다. 이러한 그리드서치(grid search)를 통해 최적화(optimization)된 하이퍼파라미터(hyperparameter)를 얻을 수 있다. 모델의 하이퍼파라미터에 해당하는 정규화 파라미터 즉, 본 발명에 따른 최적화된 IBS 위험도 예측 모델은 상기 수학식 3의
Figure PCTKR2020000953-appb-I000040
값 중 가장 좋은 예측 결과를 보이는 값(0.2)으로 확정하였다.
2-2. IBS 위험도 예측 모델을 이용한 미생물의 특징적 선택(1차)
실시예 2-1에서 찾은 최적의 모델 파라미터를 이용해 특징 선택 (feature selection) 과정을 진행하였다. 클래스 불균형 문제 (class imbalance problem)를 완화하기 위해 건강군의 training set로 선별된 410개 샘플에서 IBS 환자군의 training set과 동일한 수로 82개 샘플을 랜덤으로 선택하였다. 또한, 회귀계수의 기대값을 도출하기 위해 100번의 부트스트랩 반복 (bootstrap replication)으로 이와 같은 선택 과정을 반복하였다.
상기 100번의 반복 수행에서 건강군 또는 IBS 환자군의 마커로 판별된 빈도는 Robustness, 건강군 또는 IBS 환자군과의 관련도(
Figure PCTKR2020000953-appb-I000041
)를 평균 계산한 값은 Coefficient라고 정의된다. Coefficient 값은 바이오마커의 영향력을 나타낸 값으로써, 각 바이오마커가 건강군 혹은 IBS 환자군 중에서 어느 그룹에 특정하는지에 대한 정보 역시 포함하고 있다. 건강군과 IBS 환자군의 2개의 그룹에서 더 많은 군집 규모(population)를 보이는 경우에 따라, Coefficient 값은 음수값과 양수값으로 분포하며, 이를 수학식 3과 같은 logistic function에 적용하여 정상군 및 IBS군에 대한 특이점을 판별한다. 정상군에 더 많이 분포할 경우 음수값, IBS군에 더 많이 분포할 경우 양수값으로 표현되도록 설정하였다.
1차 특징 선택으로 나타난 건강군과 관련된 바이오마커는 종 수준(Species level)에서 29개, 속 수준(Genus level)에서 23개 분류군으로 나타났다. 반면, IBS 환자군과 관련된 바이오마커는 종 수준(Species level)에서 15개, 속 수준(Genus level)에서 9개 분류군이다. 표 8 및 표 9에는 건강군과 관련된 종 수준 바이오마커 및 건강군과 관련된 속 수준 바이오마커, 표 10 및 표 11에는 IBS 환자군과 관련된 종 수준 바이오마커, IBS 환자군과 관련된 속 수준 바이오마커의 종류를 각각 표시하였다.
하기 표 8 내지 표 11에서, coefficient 는 수학식 3의 β를 계산하여 얻고, 음수값일 경우 건강군에 특이적인 미생물임을 의미하며, 양수값일 경우 IBS군에 특이적인 미생물임을 의미한다. robustness 는 100번 반복수행한 부트스트랩 결과를 통해 해당 미생물이 해당 결과로 나타난 경우를 계산하여 얻고, 1에 가까울수록 반복적으로 해당 그룹에 특이적인 결과임을 의미한다. 또한, 건강군 비율과 IBS 비율은 각각 동정된 전체 미생물의 총 reads 수에 대비하여 해당 미생물이 차지하는 reads 수를 통해 비율을 계산하여 얻고, 군집 규모(population)를 의미한다. 하기 표 8 내지 11에서 종수준 또는 속 수준으로 분류한 것은, 해당 미생물의 탐지 수준을 나타내며, 각 미생물의 동정에 따른 분류가 종, 속 수준을 의미하는 것은 아니다.
Figure PCTKR2020000953-appb-T000008
Figure PCTKR2020000953-appb-I000042
Figure PCTKR2020000953-appb-T000009
Figure PCTKR2020000953-appb-I000043
Figure PCTKR2020000953-appb-T000010
Figure PCTKR2020000953-appb-T000011
2-3. IBS 위험도 예측 모델을 이용한 미생물의 특징적 선택(2차)
실시예 2-2의 LASSO 적용 결과를 건강군 혹은 IBS 환자군 선별 기준에 따라 보정하여, 최종 미생물 바이오마커를 선정하였다. IBS 특이적 바이오마커로 판별된 미생물은 IBS군에 특이적인 마커로서 판별한 미생물이기 때문에, 건강군에 비해 IBS군에서 미생물 분류군의 군집 규모(population)가 더 낮은 비율을 보여야 한다. 따라서, 건강군에서 미생물 분류군의 군집 규모(population)가 더 높은 비율로 나타난 미생물 분류군을 제외하고 IBS 특이적 바이오마커로 선별하였다. 건강군 특이적 바이오마커 역시 같은 이유로 IBS군에서 더 높은 비율로 나타난 미생물 분류군을 제외하였다. 이러한 과정을 통해 LASSO를 적용하여 얻어낸 바이오마커를 건강군과 질병군이라는 미리 규정된 기준에 따라 보정할 수 있다.
상기 방법을 통해 건강군에서 미생물 분류군의 군집 규모가 더 높은 비율로 나타난 Ruminococcus gnavus, Veillonella parvula group 등의 총 3개 분류군을 건강군 특이적 바이오마커에서 제외하였다. IBS 특이적 바이오마커로는 IBS군에서 더 높은 비율로 나타난 Hungatella hathewayi group, Lactobacillus rogosae group 등의 총 7개 분류군을 제외하였다.
상기 제외된 미생물 분류군를 고려하여, 건강군 특이적 바이오마커는 상기 표 1에 나타낸 Species level에서 26개 분류군, 상기 표 2에 나타낸 Genus level 22개 분류군으로 이루어져 있다.
한편, LASSO 결과를 바탕으로 선별하여 보정을 마친 IBS-specific biomarker는 상기 표 3에 나타낸 Species level에서 8개 분류군, 상기 표 4에 나타낸 Genus level에서 7개 분류군으로 이루어져 있다.
상기 바이오마커들을 분류학적인 관점에서 건강군과 IBS군에 특이적인 미생물 마커의 16S rRNA sequence를 기반으로 neighbor joining 알고리즘을 이용하여 phylogenetic tree를 생성하였으며, tree 상에서 clustering 형성 여부를 근거로 subgroup을 구분하였다. 건강군과 IBS군에서 나타나는 바이오마커는 아래와 같이 19개 subgroup으로 나눌 수 있다. 도 6a 내지 도 6d에 건강군 및 IBS군의 종 및 속 수준 바이오마커의 phylogenic tree를 표시하였다. 구체적으로, 종 수준의 건강군 특이적 바이오마커는 제1그룹 내지 제6그룹, 속 수준의 건강군 특이적 바이오마커는 제7그룹 내지 제11그룹, 종 수준의 IBS 환자군 특이적 바이오마커는 제12그룹 내지 제14그룹, 속 수준의 IBS 환자군 특이적 바이오마커는 제15그룹 내지 제19그룹의 하위그룹을 포함한다.
실시예 3. Test set을 이용한 IBS 예측 모델 검증(제 2단계)
3-1. IBS 여부 판별 결과
상기 시료 준비에서 얻어진, 건강군과 IBS 환자군으로 이루어진 모든 장내 미생물 군집 데이터를 갖는 Test set을 이용하여, 상기 구축된 IBS 예측 모델을 이용하여, IBS 여부가 구별되는지 살펴보았다.
이를 위해 구체적으로 실시예 2에서 선택한 미생물 마커와 해당 마커의 Coefficient 값을 이용하여 IBS 판별을 위한 예측점수(prediction score)를 계산하였다.
실시예 2-3에서 선별한 미생물들의 계수(coefficient)를
Figure PCTKR2020000953-appb-I000044
, 선별한 미생물들의 군집 규모가 장내 균총에서 차지하는 비율을 X' 라고 할 때, 예측 점수
Figure PCTKR2020000953-appb-I000045
는 하기 수학식 2와 같이 계산한다. 수학식 2에서 각 파라미터 정의는 상기한 바와 같다.
[수학식 2]
Figure PCTKR2020000953-appb-I000046
상기 예측점수(prediction score)는 Test set의 장내 미생물 군집 데이터에서 실시예 2를 통해 선택한 미생물 마커를 찾고 이를 해당 바이오마커의 Coefficient와 내적곱을 하여 0 내지 1의 값으로 계산한다.
3-2. IBS 예측 모델의 검증
상기 실시예 2의 IBS 예측 모델을 Test set에 적용하여 예측 모델을 검증하였다. 예측 모델을 이용하여 Test set에 대한 IBS 여부를 판정한 결과의 ROC 곡선 (receiver operating characteristic curve) 및 AUC (area under curve) 그래프를 도 2에 나타내었다. ROC 곡선이 활 모양으로 크게 굽어져 있고, AUC는 0.76으로 1에 가까운 값을 보이므로 상기 실시예 3-1에서 적용한 IBS 판별 결과가 유의미함을 알 수 있다.
실시예 4. IBS 위험도 지수의 산출
4-1. IBS 예측 모델을 통한 IBS 위험도 지수화
실시예 3-1의 IBS 확률은 Train set의 IBS 환자군과 건강군에 비율에 근거하여 계산된 확률이며 이는 실제 인구에서 질병일 확률이 아니다. 이에 정확한 임상적 해석을 부여하기 위해, 0과 1사이의 확률값을 학습에 사용한 IBS 환자군과 건강군의 비율로 나눠 리스케일하였다. 수학식 1에서 각 파라미터 정의는 상기한 바와 같다.
[수학식 1]
Figure PCTKR2020000953-appb-I000047
상기 지수를 IBS 위험도 지수라 규정하였으며, 미지의 시료에 대해서 IBS 환자와 건강한 사람을 구별할 수 있다.
4-2. IBS 위험도 지수의 판별 기준 및 정확도
미지 시료에 대하여 IBS 상태를 구분하는 지표로 상기 IBS 위험도 지수를 사용할 수 있는지 검증하기 위해 상기 실시예 4-1에서 구한 IBS 위험도 지수를 통해 민감도(Sensitivity), 특이도(Specificity), 정확도(Accuracy) 값을 확인해보았다. 민감도는 전체 IBS 시료 중 실제로 IBS로 판정된 비율, 특이도는 전체 건강군 시료 중 실제 건강군으로 판정된 비율을 의미하며, 정확도는 전체 시료 중 IBS 환자 또는 건강 여부가 정확하게 판정된 비율을 나타낸다.
구체적으로, IBS 위험도 지수의 기준(cut-off)을 0.14 ~ 1.69 사이 20등분 하여 정하였고 각각 cutoff에 대해 아래 계산 및 검증을 진행하였다. 민감도(Sensitivity), 특이도(Specificity), 정확도(Accuracy)는 하기 수학식 5 내지 7과 같이 계산한다. 수학식 5 내지 7에서 각 파라미터 정의는 상기한 바와 같다.
[수학식 5]
Figure PCTKR2020000953-appb-I000048
[수학식 6]
Figure PCTKR2020000953-appb-I000049
[수학식 7]
Figure PCTKR2020000953-appb-I000050
정확도가 70%로 계산된 가장 높은 IBS 위험도 지수 0.957을 기준으로, 장 건강 상태를 구분할 경우, 건강한 사람을 정확하게 맞추는 특이도는 67%, IBS 증상을 보유한 사람을 정확하게 판단하는 민감도는 72 %이다. 해당 정확도 그래프를 도 3에 나타내었다.
전체 샘플들의 IBS 위험도 지수 분포를 사분위수 그래프로 도 4에 나타내었다. IBS 위험도 지수가 약 1.6 및 약 1.3의 값으로 사분위수가 분포하고 있으며, 이는 전체 기준 샘플의 IBS 위험도 지수를 백분율로 계산하였을 때, 하위 95% 및 75%에 해당하는 지점에 각각 분포하고 있다. 각각의 사분위수에는 100% 또는 90%의 특이도가 나타나며, 하위 75% 및 95%를 기준으로 IBS 여부를 판별할 때, 건강 여부를 정확하게 구별할 수 있으므로 임상학적으로 더 높은 판별능을 보이는 것을 알 수 있다.
따라서, 검사한 시험 대상의 샘플을 분석하여 얻어진 IBS 위험도 지수가, 기준 데이타베이스의 IBS 위험도 지수 분포 내에서 하위 95% 내지 100%인 경우를 위험, 하위 95% 내지 75%인 경우 주의, 하위 75% 내지 0%인 경우 건강으로 판정할 수 있다.

Claims (26)

  1. 시험 대상으로부터 얻은 장내 미생물의 16S rRNA 유전 정보를 분석하여, 미생물 바이오마커의 동정 및 장내 미생물 군집 내 점유율을 얻는, 미생물 군집 분석을 수행하는 단계,
    상기 미생물 군집 분석 결과를 이용하여, 시험 대상의 과민성 대장증후군(IBS)의 위험도를 지수화하여 시험 대상의 IBS 위험도 지수를 얻는 단계, 및
    상기 IBS 위험도 지수를 이용하여 시험 대상의 과민성 대장증후군 위험도를 결정하는 단계를 포함하는, 시험 대상의 과민성대장증후군(IBS)의 위험도를 분석하는 방법.
  2. 제1항에 있어서, 상기 장내 미생물의 16S rRNA 유전 정보는, 16S rRNA에 대한 PCR 프라이머쌍을 이용하여, 장내 미생물의 게놈 DNA에 대한 표적 서열분석(target sequencing)을 수행하여 얻어지는 것인 방법.
  3. 제1항에 있어서, 상기 미생물 군집 분석을 수행하는 단계는,
    상기 시험대상의 16S rRNA 유전 정보와 16S rRNA 데이터베이스를 이용하여, 미생물을 속 수준 또는 종 수준으로 동정 및 분류하는 단계, 및 상기 동정 및 분류된 미생물의 장내 미생물 군집 내 점유율(population)를 분석하는 단계를 포함하는 것인, 방법.
  4. 제1항에 있어서, 상기 시험 대상의 IBS 위험도 지수를 얻는 단계는, 상기 16S rRNA 분석 결과를 과민성 대장증후군 예측 모델에 적용하여, 시험 대상의 IBS 위험도 지수를 얻는 것을 포함하는 것인, 방법.
  5. 제4항에 있어서, 상기 IBS 위험도 지수를 이용하여 시험 대상의 IBS 위험도를 결정하는 단계는, 상기 시험 대상의 IBS 위험도 지수가 기준 데이터베이스의 IBS 위험도 지수 분포상의 위치를 결정하는 것을 포함하는 것인, 방법.
  6. 제5항에 있어서, 상기 기준 데이터베이스의 IBS 위험도 지수 분포상의 위치를 결정하는 단계는,
    IBS 환자 및 정상인으로부터 얻은 장내 미생물의 16S rRNA 유전 정보를 이용하여 장내 미생물의 군집 분석을 수행하고, 상기 군집 분석 결과를 이용하여 기준 데이터베이스의 위험도 지수의 분포를 IBS 위험도 지수의 백분위로 나타내는 단계; 및
    상기 기준 데이터베이스 내에서 상기 시험 대상의 IBS 위험도 지수의 백분위 위치를 결정하는 단계를 포함하는 것인, 방법.
  7. 제1항에 있어서, 상기 IBS 위험도 지수는 하기 수학식 1에 의해 얻어지며, 과민성대장증후군(IBS) 환자와 건강한 사람을 구별하는 것인, 방법:
    [수학식 1]
    Figure PCTKR2020000953-appb-I000051
    상기 수학식 1에서,
    Figure PCTKR2020000953-appb-I000052
    는 시험 대상의 과민성 대장증후군(IBS) 판별을 위한 예측 점수이고 하기 수학식 2에 의해 계산되는 값이며,
    [수학식 2]
    Figure PCTKR2020000953-appb-I000053
    P 0 는 상기 예측 모델 구축에 사용된 트레이닝 세트(training set)에 존재하는 IBS 샘플의 비율이며,
    Ncase 는 상기 트레이닝 세트(training set) 내 IBS 샘플의 수이며,
    Ntrain은 상기 트레이닝 세트의 전체 샘플 수이며,
    상기 수학식 2에서,
    Figure PCTKR2020000953-appb-I000054
    는 선별한 미생물들의 회귀계수(coefficient)이고,
    X'는 선별한 미생물들의 군집이 장내 균총에서 차지하는 비율이다.
  8. 제7항에 있어서, 상기
    Figure PCTKR2020000953-appb-I000055
    는 하기 수학식 3에 의해 얻어지는 선별된 미생물들의 회귀계수(coefficient)인 방법:
    [수학식 3]
    Figure PCTKR2020000953-appb-I000056
    상기 수학식 3에서,
    상기
    Figure PCTKR2020000953-appb-I000057
    는 모델의 예측 점수이고 0에서 1사이의 확률값을 가지며,
    상기 X 는 미생물 군집의 비율이며,
    상기 m은 학습에 사용된 미생물 분류군의 수이며,
    상기 β는 하기 수학식 4에 의해 계산된 회귀계수(Coefficient)이며
    [수학식 4]
    Figure PCTKR2020000953-appb-I000058
    상기
    Figure PCTKR2020000953-appb-I000059
    는 학습에 사용한 n개의 시료의 미생물 군집 비율에 해당하며,
    상기
    Figure PCTKR2020000953-appb-I000060
    는 사용한 시료의 실제 IBS 여부에 해당하며, 건강군은 0, 과민성 대장증후군(IBS) 환자군은 1의 수치를 가지고,
    상기 n은 상기 예측 모델의 학습에 사용한 전체 샘플의 수이며,
    상기 λ 값은 IBS 예측 모델의 하이퍼파라미터(hyper parameter)이다.
  9. 제1항 내지 제8항중 어느 한 항에 따른 시험 대상의 과민성대장증후군(IBS)의 위험도를 분석하고,
    시간의 경과에 따른 상기 시험 대상의 IBS 위험도 지수 변화를 모니터링하는 단계를 포함하는, 과민성 대장증후군의 예후 모니터링에 필요한 정보를 제공하는 방법.
  10. 제9항에 있어서, 상기 시간에 따른 상기 환자의 지수 변화를 모니터링하는 단계는, 상기 지수가 기준 데이터베이스의 과민성 대장 증후군의 위험도 지수 분포상의 위치가 하위 0%에 가까워 질수록 예후가 좋은 것으로 결정하는 것이며,
    상기 기준 데이터베이스의 과민성 대장 증후군의 위험 지수 분포상의 위치는,
    IBS 환자 및 정상인의 대변 시료로부터 얻은 장내 마이크로바이옴 데이터 또는 상기 데이터로부터 얻은 IBS 위험도 지수를 포함하는 기준 데이터베이스의 위험도 지수의 분포를, IBS 위험도 지수의 백분위로 나타내는 단계; 및
    상기 기준 데이터베이스 내에서 상기 시험 대상의 IBS 위험도 지수의 백분위 위치를 결정하는 단계로 이루어지는 방법으로 결정되는 것인, 방법.
  11. 제1항 또는 제9항에 있어서, 상기 바이오마커는 알로프리보텔라(Alloprevotella)속 균주, 박테로이데스(Bacteroides)속 균주, 네그렉타(Neglecta) 속 균주, 부티리키코커스(Butyricicoccus) 속 균주, 디설포비브리오(Desulfovibrio) 속 균주, 스포로박터(Sporobacter) 속 균주, 프리신기코커스(Frisingicoccus) 속 균주, 수도플라보니프락터(Pseudoflavonifractor) 속 균주, 파스코락토박테리움(Phascolarctobacterium) 속 균주, 카프로이치프로듀센스(Caproiciproducens) 속 균주, 아나에로티그눔(Anaerotignum) 속 균주, 해리플린티아(Harryflintia) 속 균주, 락토바실러스(Lactobacillus) 속 균주, 로소넬라(Lawsonella) 속 균주, 마이크로박테리움(Microbacterium) 속 균주, 펩토니필러스(Peptoniphilus) 속 균주, 매실리오클로스트리디움(Massilioclostridium) 속 균주, 코프로코커스 카투스(Coprococcus catus), 박테로이데스 카에시갈리나룸(Bacteroides caecigallinarum), 디설포비브리오 피거(Desulfovibrio piger), 아들러크레우치아 에퀴오리파시엔스(Adlercreutzia equolifacien), 박테로이데스 에게르티(Bacteroides eggerthii), 박테로이데스 유니포르미스(Bacteroides uniformis), 푸조박테리움 바리움(Fusobacterium varium), 알리스티페스 샤히이(Alistipes shahii), 유박테리움 래물루스(Eubacterium ramulus), 박테로이데스 아시디파시엔스(Bacteroides acidifaciens), 블라우티아 파에시스(Blautia faecis), 및 박테로이데스 코프로콜라(Bacteroides coprocola)로 이루어지는 군에서 선택된 1종 이상의 미생물을 포함하는 것인 방법.
  12. 제1항 또는 제9항에 있어서, 상기 바이오마커는, 서열번호 64 내지 126의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA를 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 과민성 대장증후군 진단용 바이오마커.
  13. 제12항에 있어서, 상기 바이오마커는 서열번호 1 내지 63의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인 것인, 방법.
  14. 서열번호 64 내지 126의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA를 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 과민성 대장증후군 진단용 바이오마커.
  15. 제14항에 있어서, 상기 바이오마커는 서열번호 1 내지 63의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인 것인, 바이오마커.
  16. 제14항에 있어서, 상기 바이오마커는 과민성 대장증후군 환자군에서 군집내 점유율(population)이 건강군에 비해 높으며, 서열번호 112 내지 126의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 바이오마커.
  17. 제15항에 있어서, 상기 바이오마커는 과민성 대장증후군 환자군에서 군집내 점유율(population)이 건강군에 비해 높으며, 서열번호 49 내지 63의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 바이오마커.
  18. 제14항에 있어서, 상기 바이오마커는, 과민성 대장증후군 환자군에서 군집내 점유율(population)이 건강군에 비해 낮으며, 서열번호 64 내지 111의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 바이오마커.
  19. 제15항에 있어서, 상기 바이오마커는, 과민성 대장증후군 환자군에서 군집 비율(population)이 건강군에 비해 낮으며, 서열번호 1 내지 48의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 박테리아로 이루어지는 군에서 선택된 1종 이상의 박테리아인, 바이오마커.
  20. 제14항에 있어서, 상기 박테리아는 알로프리보텔라(Alloprevotella)속 균주, 박테로이데스(Bacteroides)속 균주, 네그렉타(Neglecta) 속 균주, 부티리키코커스(Butyricicoccus) 속 균주, 디설포비브리오(Desulfovibrio) 속 균주, 스포로박터(Sporobacter) 속 균주, 프리신기코커스(Frisingicoccus) 속 균주, 수도플라보니프락터(Pseudoflavonifractor) 속 균주, 파스코락토박테리움(Phascolarctobacterium) 속 균주, 카프로이치프로듀센스(Caproiciproducens) 속 균주, 아나에로티그눔(Anaerotignum) 속 균주, 해리플린티아(Harryflintia) 속 균주, 락토바실러스(Lactobacillus) 속 균주, 로소넬라(Lawsonella) 속 균주, 마이코박테리움(Microbacterium) 속 균주, 펩토니필러스(Peptoniphilus) 속 균주, 매실리오클로스트리디움(Massilioclostridium) 속 균주, 코프로코커스 카투스(Coprococcus catus), 박테로이데스 카에시갈리나룸(Bacteroides caecigallinarum), 디설포비브리오 피거(Desulfovibrio piger), 아들러크레우치아 에퀴오리파시엔스 (Adlercreutzia equolifaciens), 박테로이데스 에게르티(Bacteroides eggerthii), 박테로이데스 유니포르미스(Bacteroides uniformis), 푸조박테리움 바리움 (Fusobacterium varium), 알리스티페스 샤히이(Alistipes shahii), 유박테리움 래물루스(Eubacterium ramulus), 박테로이데스 아시디파시엔스(Bacteroides acidifaciens), 블라우티아 파에시스(Blautia faecis), 및 박테로이데스 코프로콜라(Bacteroides coprocola)로 이루어지는 군에서 선택된 1종 이상의 종(species) 박테리아인 것인, 과민성 대장증후군 진단용 바이오마커.
  21. 제20항에 있어서, 상기 박테리아는 서열번호 1 내지 서열번호 126의 뉴클레오티드 서열로 이루어지는 군에서 선택되는 하나 이상의 뉴클레오티드 서열과 95% 이상의 서열 상동성을 갖는 16S rRNA을 포함하는 것인, 바이오마커.
  22. 제14항 내지 제21항 중 어느 한 항에 따른 바이오마커를 검출하는 제제를 포함하는, 과민성 대장증후군 진단용 조성물.
  23. 제14항 내지 제21항 중 어느 한 항에 따른 바이오마커를 검출하는 제제를 포함하는, 과민성 대장증후군 진단용 키트.
  24. 제23항에 있어서, 상기 진단용 키트는 시험 대상의 채변 기구를 추가로 포함하는 것인, 과민성 대장증후군 진단용 키트.
  25. 제24항에 있어서, 상기 채변 기구는 박테리아의 변이를 막는 완충액을 포함하는 것인, 과민성 대장증후군 진단용 키트.
  26. 제23항에 있어서, 상기 진단용 키트는 시료에서 추출된 DNA을 증폭하기 위한 중합효소연쇄반응(PCR) 프라이머를 포함하는 것인, 과민성 대장증후군 진단용 키트.
PCT/KR2020/000953 2019-01-18 2020-01-20 과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법 WO2020149719A2 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2019-0007082 2019-01-18
KR20190007082 2019-01-18
KR10-2020-0006873 2020-01-17
KR1020200006873A KR102330639B1 (ko) 2019-01-18 2020-01-17 과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법

Publications (2)

Publication Number Publication Date
WO2020149719A2 true WO2020149719A2 (ko) 2020-07-23
WO2020149719A3 WO2020149719A3 (ko) 2020-09-10

Family

ID=71613130

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/000953 WO2020149719A2 (ko) 2019-01-18 2020-01-20 과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법

Country Status (1)

Country Link
WO (1) WO2020149719A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114045326A (zh) * 2021-11-29 2022-02-15 广东药科大学 一种腹泻型肠易激综合征肠道微生物标志物及其应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011043654A1 (en) * 2009-10-05 2011-04-14 Aak Patent B.V. Methods for diagnosing irritable bowel syndrome
WO2013012332A1 (en) * 2011-07-19 2013-01-24 Aak Patent B.V. Identification of subjects at risk of developing irritable bowel syndrome
JP6833514B2 (ja) * 2013-11-25 2021-02-24 セレス セラピューティクス インコーポレイテッド 相乗作用のある細菌組成物ならびにその製造及び使用方法
WO2015171493A1 (en) * 2014-05-04 2015-11-12 Salix Pharmaceuticals, Inc. Ibs microbiota and uses thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114045326A (zh) * 2021-11-29 2022-02-15 广东药科大学 一种腹泻型肠易激综合征肠道微生物标志物及其应用

Also Published As

Publication number Publication date
WO2020149719A3 (ko) 2020-09-10

Similar Documents

Publication Publication Date Title
Whatmore et al. Identification and characterization of variable-number tandem-repeat markers for typing of Brucella spp
WO2012081898A2 (ko) 위암의 예후 예측용 마커 및 이를 이용하는 위암의 예후 예측 방법
Broglia et al. Distribution of Cryptosporidium parvum subtypes in calves in Germany
WO2023033329A1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
KR20200090135A (ko) 과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법
WO2019199105A1 (ko) 알츠하이머성 치매가 발병될 가능성 평가방법
WO2020149719A2 (ko) 과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법
Biadglegne et al. Magnitude of gene mutations conferring drug resistance in Mycobacterium tuberculosis isolates from lymph node aspirates in Ethiopia
WO2018169145A1 (ko) 진행성 위암 환자의 수술 후 예후 또는 항암제 적합성 예측 시스템
WO2020251249A1 (ko) 영유아의 장내 미생물 불균형도를 탐지하는 방법
WO2017086675A1 (ko) 대사 이상 질환 진단 장치 및 그 방법
WO2019074216A1 (ko) 세균 메타게놈 분석을 통한 알츠하이머치매 진단방법
WO2022097844A1 (ko) 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법
WO2023234659A1 (ko) 퇴행성 턱관절염의 진단 또는 예후 예측용 유전자 마커 및 이의 용도
WO2023080586A1 (ko) 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
Das et al. Genotyping of Cryptosporidium parvum isolates in bovine population in Kolkata and characterization of new bovine genotypes
WO2021020920A2 (ko) 비알코올성 지방간 질환의 예측 또는 진단용 키트, 및 진단방법
WO2022203437A1 (ko) 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법
Azimpour-Ardakan et al. Designing and developing of high-resolution melting technique for separating different types of Toxoplasma gondii by analysis of B1 and ROP8 gene regions
WO2017099414A1 (ko) 암 진단용 마이크로rna 바이오마커 발굴 방법 및 그 이용
WO2022225308A1 (ko) 음수 미포함 행렬 분해를 이용한 마이크로바이옴 데이터로부터의 미생물 상호작용 네트워크 분석 방법
Cano et al. HLA population genetics: a Lebanese population
WO2021256618A1 (ko) 장내 미생물을 이용한 질환 위험도 예측 또는 진단용 조성물, 그를 이용한 진단키트, 정보제공방법 및 당뇨병 예방 또는 치료제 스크리닝 방법
Esteghamati et al. Prevalence of Chlamydia trachomatis infection and evaluation of its genotypes among pregnant women in Tehran, Iran
WO2021049834A1 (ko) 세포밖 소포의 메타게놈 및 대사체 기반 대장암 진단방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20741219

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 13/12/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 20741219

Country of ref document: EP

Kind code of ref document: A2