KR20190137012A - Method for predicting disease risk based on analysis of complex genetic information - Google Patents

Method for predicting disease risk based on analysis of complex genetic information Download PDF

Info

Publication number
KR20190137012A
KR20190137012A KR1020190064200A KR20190064200A KR20190137012A KR 20190137012 A KR20190137012 A KR 20190137012A KR 1020190064200 A KR1020190064200 A KR 1020190064200A KR 20190064200 A KR20190064200 A KR 20190064200A KR 20190137012 A KR20190137012 A KR 20190137012A
Authority
KR
South Korea
Prior art keywords
genetic information
disease
disease risk
hsa
mir
Prior art date
Application number
KR1020190064200A
Other languages
Korean (ko)
Other versions
KR102265529B1 (en
Inventor
조동호
서혜인
송용준
한규범
지동진
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to US16/428,715 priority Critical patent/US20190385696A1/en
Publication of KR20190137012A publication Critical patent/KR20190137012A/en
Application granted granted Critical
Publication of KR102265529B1 publication Critical patent/KR102265529B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Abstract

The present invention relates to a method for predicting a disease risk based on analysis of complex genetic information networks. The method for predicting a disease risk based on analysis of complex genetic information networks developed in accordance with the present invention can derive stable correlations with diseases from a small number of genetic information combinations through the introduction of optimization or learning method, and provides genetic information correlations based on a network model. By using the correlations between the genetic information and the disease derived from the present invention, it is expected to secure a diagnostic technology that satisfies the level of accuracy and economic feasibility that is commercially available in the real medical industry. In addition, a biomarker derived from the present invention is expected to be efficiently used for the prognosis of diseases through the manufacture of medical devices including a diagnostic chip and a terminal and commercialization as a disease diagnosis service. The method includes a step of extracting complex genetic information; a step of building a complex genetic information library; a step of deriving a disease state specific biomarker; and a step of predicting a risk.

Description

복합 유전 정보 네트워크 분석에 기반한 질병 위험도 진단 방법{Method for predicting disease risk based on analysis of complex genetic information}Method for predicting disease risk based on analysis of complex genetic information}

본 발명은 복합 유전 정보 네트워크 분석에 기반한 질병 위험도 진단 방법에 관한 것이다.The present invention relates to a method for diagnosing disease risk based on analysis of complex genetic information networks.

현재까지의 질병 진단을 위한 기술 동향을 살펴보면, 특정 유전자의 인간공유 다형성(단일염기 다형성, 유전자 복제 수 변이, 염기 삽입/삭제 등)을 이용하거나 유전자 집단 전반의 발현 정보를 이용하여 마이크로어레이(microarray) 또는 단백질 칩(protein chip) 등을 이용한 유전자 및 단백질들의 발현 변화를 측정하여, 특정 질병에 연관된 유전자들을 탐색하고, 유전자들의 기능을 연구하는 방향으로 연구가 진행되고 있다.To date, technology trends for diagnosing diseases are characterized by microarrays using human covalent polymorphisms (monobase polymorphisms, gene copy number variation, base insertion / deletion, etc.) of specific genes or expression information across gene populations. Researches are being conducted in order to search for genes related to specific diseases by measuring expression changes of genes and proteins using protein chips or the like, and to study the functions of the genes.

그러나, 기존 연구는 한 가지 종류의 검체와 질병을 대상으로 하여 이들 간의 연관성을 살펴보는 것을 중심으로 진행되어 다양한 유전 정보와 질병 간의 관계 및 상호 연관성에 대한 이해가 부족한 실정이다. 또한, 복잡한 유전 정보와 질병 사이의 관계를 분석하는 기술의 부족으로, 종래 밝혀지지 않은 새로운 질병에 특이적인 변이를 찾아내기 어려우며, 진단 기법의 정확도 또한 현저히 낮은 문제점이 있었다. However, the existing researches focused on examining the associations between one kind of specimens and diseases, and there is a lack of understanding on the relationship and correlation between various genetic information and diseases. In addition, due to the lack of technology for analyzing the relationship between the complex genetic information and the disease, it is difficult to find a variant specific to a new disease that is not known in the past, and the accuracy of the diagnostic technique was also significantly low.

유전 정보로부터 바이오마커를 추출하는 기술은 질병과 관련된 유전 정보를 통계적으로 분석하여 마커를 추출하는 방법이다. 그러나, 종래의 바이오마커 추출 기술은 상향식(bottom-up)으로 얻어진 기존의 정보 범위 내에서만 수행되는 것으로, 유전자를 비롯한 일부의 유전 정보 중심으로 마커를 추출하는 수준에 머물고 있으며, 하나의 유전 정보와 질병 사이에 1:1 관계에 제한되는 한계가 있다.The technique of extracting biomarkers from genetic information is a method of extracting markers by statistically analyzing genetic information related to disease. However, the conventional biomarker extraction technique is performed only within the existing information range obtained from the bottom-up, and remains at the level of extracting markers based on some genetic information including genes. There is a limit to the 1: 1 relationship between diseases.

또한, 바이오마커를 기반으로 하는 질병 진단 서비스는 특정 유전정보가 질병, 형질에 기여하는 정도를 산출하여 진단 서비스를 수행하는 방법을 이용하는 것이다. 그러나, 종래의 진단 서비스 기술은 하나의 질병과 한 종류의 유전 정보에 대하여 단순한 관계를 도출하는 데 의존하며, 질병과 유전 정보 사이의 복합적 분석을 수행하지 못하는 문제가 있으며, 추가적인 변수로 시간의 경과, 치료, 재발과 같은 고차원 변수에 따른 특성 변화에 대한 반영이 이루어지지 못하는 한계가 있다. 이로 인해, 진단의 정확도가 낮으며, 서비스 플랫폼 종류에 따라 다른 결과를 도출하는 한계가 있다.In addition, a disease diagnosis service based on a biomarker uses a method of performing a diagnosis service by calculating the degree to which specific genetic information contributes to a disease or a trait. However, conventional diagnostic service technology relies on deriving a simple relationship between a disease and a kind of genetic information, and fails to perform a complex analysis between the disease and genetic information. There is a limit in that it is not possible to reflect changes in characteristics due to high-dimensional variables such as treatment, treatment, and relapse. For this reason, the accuracy of diagnosis is low, and there are limitations in obtaining different results depending on the type of service platform.

국제공개특허공보 제2014-052909호.International Publication No. 2014-052909.

상기와 같은 문제의 해결을 위해 본 발명에서는 복합적인 유전 정보 사이의 관계로부터 질병 상태 특이적 정보를 도출하고, 네트워크 모델에 기반한 최적화와 인공지능 기반의 머신 러닝(machine learning) 기법을 활용하여, 높은 정확도를 갖는 질병 진단용 바이오 마커 및 질병 위험도 예측을 위한 방법을 개발하고자 하였다.In order to solve the above problems, the present invention derives disease state specific information from the relationship between the complex genetic information, and utilizes a network model-based optimization and artificial intelligence-based machine learning techniques. An attempt was made to develop a biomarker for accurate disease diagnosis and a method for predicting disease risk.

이와 같은 목표의 달성을 위해 복합적이고 다양한 유전 정보와 질병 간의 관계 이해를 위한 유전 정보 사이의 관계를 분석하고, 최적의 유전 정보 조합을 추출하여 네트워크 모델에 기반한 분석 기법을 도입함으로써, 진단의 정확도가 높고 경제성 또한 우수한 바이오마커를 도출하고자 하였다.To achieve this goal, the accuracy of diagnosis is improved by analyzing the relationship between complex and diverse genetic information and genetic information to understand the relationship between diseases, and extracting the optimal combination of genetic information and introducing analysis techniques based on network models. High and economical biomarkers were also sought.

본 발명은, The present invention,

질병 환자 및 정상인의 검체로부터 복합 유전 정보를 추출하는 단계;Extracting complex genetic information from a sample of a diseased patient and a normal person;

상기 복합 유전 정보 사이의 정보를 비교 분석하여 복합 유전 정보 라이브러리를 구축하는 단계;Comparing and analyzing the information between the complex genetic information to construct a complex genetic information library;

상기 복합 유전 정보 라이브러리에 최적화 기법(optimization method) 또는 학습 기법(learning method)을 적용하여 질병 상태 특이적 바이오마커를 도출하는 단계; 및Deriving a disease state specific biomarker by applying an optimization method or a learning method to the complex genetic information library; And

상기 질병 상태 특이적 바이오마커로부터 질병 위험도 예측을 위한 네트워크 모델을 구축하고 위험도를 예측하는 단계;Constructing a network model for predicting disease risk from the disease state specific biomarker and predicting risk;

를 포함하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법을 제공한다.Provides a disease risk prediction method, including a complex genetic information relationship analysis, including.

또한 본 발명은 상기 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법을 통해 도출된 질병 상태 특이적 바이오마커를 제공한다.The present invention also provides a disease state specific biomarker derived through the disease risk prediction method through the complex genetic information relationship analysis.

본 발명에 따라 개발된 혈액 내 복합 유전 정보 네트워크 분석에 기반한 질병 위험도 진단 방법은 학습 기법(learning method)의 도입을 통해 적은 수의 유전 정보 조합으로부터 질병과의 안정적인 상관 관계 도출이 가능하고, 네트워크 모델에 기반한 유전 정보 상관 관계를 제공한다. 본 발명에서 도출한 유전 정보와 질병 간의 상관 관계를 이용하여, 실제 의료 산업에서 상용 가능한 수준의 정확도 및 경제성을 만족하는 진단 기술을 확보할 수 있을 것으로 기대된다.The disease risk diagnosis method based on the analysis of the complex genetic information network in the blood developed in accordance with the present invention can derive a stable correlation with the disease from a small number of genetic information combinations through the introduction of a learning method, and a network model. Provide genetic information correlation based on By using the correlation between the genetic information and the disease derived from the present invention, it is expected that it is possible to secure a diagnostic technique that satisfies the level of accuracy and economic feasibility that can be commercially available in the medical industry.

또한, 본 발명에서 도출한 바이오 마커는 진단 칩 및 단말기를 포함하는 의료 기기의 제작 및 질병 진단 서비스로의 사업화를 통해 질병 예후 판정 등에 효율적으로 활용될 수 있을 것으로 기대된다.In addition, the biomarkers derived from the present invention are expected to be efficiently used for the prognosis of diseases through the manufacture of medical devices including a diagnostic chip and a terminal and commercialization as a disease diagnosis service.

도 1은 본 발명의 복합 유전 정보 네트워크 분석에 기반한 질병 위험도 진단 방법에 관한 개념의 일예를 도시한 것이다.
도 2는 유전자 발현 과정에 기반한 단계별 유전정보의 개념을 도시한 것이다.
도 3은 학습 기법(learning method)을 이용한 질병 상태 특이적 바이오마커의 도출 및 검증 방법에 관한 개념의 일예를 도시한 것이다.
도 4는 질병 상태 특이적 바이오마커의 특성 모델링의 일예를 도시한 것이다.
도 5는 단백질 발현 데이터에 대한 CNN 분석에 관한 방법의 일예를 도시한 것이다.
도 6은 mi-RNA 정보로부터 소화기 암의 위험도 예측 알고리즘에 관한 일예를 도시한 것이다.
도 7은 기본적인 CNN 분석만을 이용한 검증 결과이다.
도 8은 중요 mi-RNA 후보 조합을 추출하여 학습한 결과의 변화에 관한 결과이다.
도 9는 단백질에서 확인한 동시 검진 및 정밀 진단 가능성에 관한 결과이다.
1 illustrates an example of a concept of a disease risk diagnosis method based on the analysis of the complex genetic information network of the present invention.
Figure 2 illustrates the concept of step-by-step genetic information based on the gene expression process.
3 illustrates an example of a concept of a method for deriving and verifying a disease state specific biomarker using a learning method.
4 shows an example of the characteristic modeling of disease state specific biomarkers.
5 shows an example of a method for CNN analysis of protein expression data.
6 shows an example of an algorithm for predicting risk of digestive cancer from mi-RNA information.
7 is a verification result using only basic CNN analysis.
8 is a result of the change in the result of learning by extracting the important mi-RNA candidate combination.
9 is a result of the simultaneous check and precise diagnosis possible confirmed in the protein.

이하 첨부한 표 또는 도면들을 참조하여 본 발명의 복합 유전 정보 네트워크 분석에 기반한 질병 위험도 진단 방법에 대해 상세히 설명한다.Hereinafter, a disease risk diagnosis method based on the analysis of the complex genetic information network of the present invention will be described in detail with reference to the accompanying table or drawings.

도면이 기재되어 있을 경우, 이는 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서 본 발명은 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있으며, 상기 도면들은 본 발명의 사상을 명확히 하기 위해 과장되어 도시될 수 있다.When the drawings are described, they are provided as examples in order to ensure that features of the present invention to those skilled in the art will fully convey. Therefore, the present invention is not limited to the drawings presented and may be embodied in other forms, and the drawings may be exaggerated to clarify the spirit of the present invention.

이때, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다.At this time, if there is no other definition in the technical terms and scientific terms used, it has the meaning that is commonly understood by those of ordinary skill in the art to which the present invention belongs, the gist of the present invention in the following description and the accompanying drawings Descriptions of well-known functions and configurations that may be unnecessarily blurred are omitted.

본 발명에 있어 "검체 시료" 또는 "샘플"은 분석을 위해 확보한 유전 정보를 나타내는 것으로, 명세서에 걸쳐 동일한 의미로 사용되었다.In the present invention, "sample sample" or "sample" refers to genetic information obtained for analysis and is used in the same sense throughout the specification.

본 발명은 혈액 내 복합 유전 정보 네트워크 분석에 기반한 질병 위험도 진단 방법에 관한 것이다.The present invention relates to a method for diagnosing disease risk based on analysis of complex genetic information networks in blood.

본 발명은 추출된 복합 유전 정보를 기반으로, 일반 생명 현상 및 질병 관련 정보를 비교 분석하고, 판별하여, 유전 정보 기능의 이해를 돕고, 더 나아가 높은 정확도를 갖는 질병 상태 특이적 바이오마커의 도출 및 질병 위험도 예측 모델을 구축할 수 있다.The present invention compares and analyzes general life phenomena and disease-related information based on the extracted complex genetic information to help understand genetic information functions, and further, to derive disease state specific biomarkers with high accuracy and A disease risk prediction model can be built.

본 발명에서 질병 상태 특이적 바이오마커의 도출 및 질병 위험도 예측 모델을 구축하기 위해 방대한 양의 유전 정보에 빅데이터 처리 기술, 인공 지능 기반의 딥러닝 기술(deep learning method), 일예로 머신 러닝 기술(machine learning method) 등이 복합되어 사용될 수 있다.In the present invention, in order to derive a disease state specific biomarker and build a disease risk prediction model, a large amount of genetic information is used in a big data processing technology, an artificial intelligence-based deep learning method, and an example of a machine learning technology ( machine learning method) may be used in combination.

이하, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법에 대해 상세히 설명한다.Hereinafter, a method for predicting disease risk through the analysis of complex genetic information relationships will be described in detail.

본 발명은 The present invention

질병 환자 및 정상인의 검체로부터 복합 유전 정보를 추출하는 단계;Extracting complex genetic information from a sample of a diseased patient and a normal person;

상기 복합 유전 정보 사이의 정보를 비교 분석하여 복합 유전 정보 라이브러리를 구축하는 단계;Comparing and analyzing the information between the complex genetic information to construct a complex genetic information library;

상기 복합 유전 정보 라이브러리에 최적화 기법(optimization method) 또는 학습 기법(learning method)을 적용하여 질병 상태 특이적 바이오마커를 도출하는 단계; 및Deriving a disease state specific biomarker by applying an optimization method or a learning method to the complex genetic information library; And

상기 질병 상태 특이적 바이오마커로부터 질병 위험도 예측을 위한 네트워크 모델을 구축하고 위험도를 예측하는 단계;Constructing a network model for predicting disease risk from the disease state specific biomarker and predicting risk;

를 포함하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법을 제공한다.Provides a disease risk prediction method, including a complex genetic information relationship analysis, including.

이하에서 각 단계에 대해 상세히 설명한다.Hereinafter, each step will be described in detail.

먼저, 질병 환자 및 정상인의 검체로부터 복합 유전 정보를 추출하는 단계에 대해 상세히 설명한다.First, the step of extracting complex genetic information from specimens of disease patients and normal people will be described in detail.

질병 환자 및 정상인의 검체로부터 복합 유전 정보를 추출하는 단계에서는 상기 검체의 유전체 전체에 대한 DNA, RNA, 단백질 등과 관련된 정보를 확보할 수 있다. 상기 정보를 획득하는 방법은 본 발명의 목적을 저해하지 않는 한 제한되지는 않으나, 일예로 유전 정보 데이터베이스 등으로부터 확보할 수 있으며, 보다 구체적인 예로 미국 국립 보건원(National Institutes of Health, NIH)에서 제공하는 데이터베이스를 이용할 수 있으며, 더욱 구체적인 예로 암과 관련된 정보에 대해서는 TCGA(The Cancer Genome Atlas)로부터 종류별 질병에 대해 제공하는 전체 유전체 정보를 통해 확보할 있다. 다른 예로는, 병원 또는 직접 채취한 환자의 검체 시료를 유전체 시퀀싱 의뢰하여, 정보를 얻을 수 있다. 또 다른 예로는 유전자 내에서 단백질 합성에 직접적인 역할을 수행하는 엑솜 서열 집합(whole exome sequence set)을 확보하여 이용할 수 있으나, 이에 한정하는 것은 아니다.In the step of extracting the complex genetic information from the specimens of the disease patients and normal people, information related to DNA, RNA, protein, etc. for the entire genome of the sample can be obtained. The method of acquiring the information is not limited as long as the object of the present invention is not impaired. For example, the method of acquiring the information may be obtained from a genetic information database, and more specifically, provided by the National Institutes of Health (NIH). Databases are available, and more specific examples of cancer-related information can be obtained from the full genome information provided by TCGA (The Cancer Genome Atlas) on disease by type. As another example, genome sequencing may be requested from a hospital or a patient directly collected to obtain information. As another example, it is possible to secure and use a whole exome sequence set that directly plays a role in protein synthesis in a gene, but is not limited thereto.

본 발명에서 상기 검체의 유전체 서열 정보는 유전 정보 데이터베이스의 종류, 시퀀싱에 사용된 기기, 시퀀싱 방법 등에 따라 일부 변화를 가질 수 있다. 또한 상기 유전체 서열 정보는 본 발명의 목적을 저해하지 않는 한 제한되지 않으나, 일예로 인간 게놈 프로젝트로부터 밝혀진 인간 유전체 지도에서 제공하는 정보를 기준으로 할 수 있다.In the present invention, the genomic sequence information of the sample may have some changes depending on the type of genetic information database, the equipment used for sequencing, the sequencing method, and the like. In addition, the genomic sequence information is not limited so long as it does not impair the object of the present invention, for example, may be based on information provided in the human genome map found from the human genome project.

본 발명에서 질병 환자 및 정상인의 검체의 전체 유전체 서열 정보는 본 발명에 다른 바이오마커 검출에 있어 기초가 되는 정보가 될 수 있으며, 이러한 유전체 서열 정보로부터 얻을 수 있는 cf-DNA, ct-DNA 등의 DNA 정보, mRNA, mi-RNA 등의 RNA 발현 정보, 단백질 합성 정보 등을 포함하여, 상기 검체의 유전체 서열 정보가 가진 차이를 기반으로 분석을 수행한다. 상기 전체 유전체 서열 정보 중 제한되지는 않으나, 염색체 정보, 염색체 내 염기 서열의 위치와 관련된 정보, 염기 서열의 추가, 삭제 또는 치환과 관련된 염기 서열의 변이 정보, RNA 정보, 단백질 발현 정보, 단백질의 3차원 구조 및 신뢰도 등을 포함하는 정보가 질병 진단 바이오마커의 검출에 주요하게 사용될 수 있다.In the present invention, the entire genome sequence information of the specimens of disease patients and normal people may be the basis for detecting other biomarkers in the present invention, such as cf-DNA, ct-DNA, etc., which can be obtained from such genome sequence information. The analysis is performed based on the difference of the genomic sequence information of the sample, including DNA information, mRNA expression information such as mRNA, mi-RNA, protein synthesis information, and the like. Although not limited to the above genome sequence information, chromosomal information, information related to the position of the base sequence in the chromosome, mutation information of the base sequence associated with addition, deletion or substitution of the base sequence, RNA information, protein expression information, protein 3 Information including dimensional structure and reliability can be used primarily for the detection of disease diagnostic biomarkers.

본 발명에서, 상기 유전체 서열 정보에 포함된 정보의 분석은 사용된 프로그램의 종류, 버전, 사용 환경에 따라 정보의 가감이 이루어질 수 있다.In the present invention, the analysis of the information contained in the genomic sequence information may be made by adding or subtracting information according to the type, version, environment of use of the program used.

다음으로, 상기 복합 유전 정보 사이의 정보를 비교 분석하여 복합 유전 정보 라이브러리를 구축하는 단계에 대해 상세히 설명한다.Next, a step of constructing a complex genetic information library by comparing and analyzing the information between the complex genetic information will be described in detail.

복합 유전 정보 사이의 정보를 비교 분석하여 복합 유전 정보 라이브러리를 구축하는 단계에서는 상기 질병 환자 및 정상인의 검체로부터 복합 유전 정보를 추출하는 단계에서 얻은 유전 정보 사이에 존재하는 복잡한 관계를 분석하여 질병과 관련된 중요 유전 정보를 추출하여 라이브러리화 할 수 있다.In the step of constructing a complex genetic information library by comparing and analyzing the information between the complex genetic information, the complex relationship existing between the genetic information obtained in the step of extracting the complex genetic information from the disease patients and normal samples is analyzed. Important genetic information can be extracted and libraryed.

본 발명에서 상기 유전 정보는 본 발명의 목적을 저해하지 않는 한 제한되지 않으나, 일예로 유전자 발현 과정과 관련된 cf-DNA, ct-DNA 등의 DNA 정보, mRNA, mi-RNA 등의 RNA 발현 정보, 단백질 합성 정보를 들 수 있다(도 2).In the present invention, the genetic information is not limited so long as the object of the present invention is not impaired. For example, DNA information such as cf-DNA, ct-DNA, RNA expression information such as mRNA and mi-RNA, Protein synthesis information may be mentioned (FIG. 2).

분석을 대상으로 하는 중요 유전 정보 인자의 추출을 위해서는 본 발명의 목적을 저해하지 않는 한 제한되지 않으나, 다음과 같은 과정을 포함할 수 있다.Extraction of important genetic information factors for analysis is not limited as long as the object of the present invention is not impaired, but may include the following processes.

먼저, 단일 유전 정보 인자를 이용하여 정상군과 질병군을 구분할 수 있는 경우에 대한 분류 정확도를 추출할 수 있다. 상기 단일 유전 정보 인자는 그 정보만으로 정상군과 질병군의 구분이 가능한 경우 그 종류 및 수량에 제한되지 않으나, 일예로, 염기 서열의 추가, 삭제 또는 치환과 관련된 염기 서열의 변이를 포함하는 단일 염기 다형성 변이, 유전자 복제 수 변이, 단백질 아미노산 서열 다형성 변이 등을 들 수 있으나, 이에 한정하는 것은 아니다. 일예로, 질병군의 검체 시료에서는 공통적으로 염기 서열의 변이가 나타나고, 정상군의 검체 시료에서는 동일하게 변이가 나타나지 않는 경우, 해당 유전 정보를 파악하고, 이에 대한 염기 서열의 위치 정보와 변이 정보를 추출하여 저장하는 것이 좋다.First, the classification accuracy for the case where the normal group and the disease group can be distinguished using a single genetic information factor can be extracted. The single genetic information factor is not limited to the type and number when the information can be distinguished from the normal group and the disease group, but for example, a single base polymorphism including a variation of the base sequence associated with addition, deletion or substitution of the base sequence Variations, gene copy number variation, protein amino acid sequence polymorphism variation, and the like, but are not limited thereto. For example, if the variation of the nucleotide sequence is common in the sample of the disease group, and the variation is not the same in the sample of the normal group, the corresponding genetic information is identified, and the positional information and the variation information of the nucleotide sequence are extracted. It is good to save it.

다음으로, 각 유전 정보 인자에 대하여 실제 발현량과 기준량의 차이를 측정하여 해당 유전 정보 인자가 질병군의 선별에 영향을 미치는지의 여부를 판단할 수 있는 on/off 태그를 설정할 수 있다. 상기와 같은 설정을 위한 방법의 일예로, 중요 유전 유전자 발현 과정과 관련된 각 단계에 대한 발현량의 기준치를 각각 Th1, Th2, Th3이라 하고, 질병에 의해 유전 정보 발현량이 증가 또는 감소하는 경우 각각 증가 기준치(Th1 up, Th2 up, Th3 up) 및 감소 기준치(Th1 down, Th2 down, Th3 down)와 같이 정의하여 사용할 수 있다. 상기와 같이 정의된 변수를 이용하여, 확보한 검체 시료에 대해 각 발현량 기준을 만족하면서, 질병에 의해 발현량이 변화하는 유전 정보를 추출할 수 있다. 이 때, 필요에 따라 해당 유전 정보의 염기서열 정보를 확보하여 이용할 수 있으며, 상기 언급한 염기 서열의 추가, 삭제 또는 치환과 관련된 염기 서열의 변이를 포함하는 단일 염기 다형성 변이, 유전자 복제 수 변이 등의 변이체를 추출하여 질병에 의한 염기 서열의 변이 정보를 활용할 수 있으나, 이에 한정하는 것은 아니다.Next, by measuring the difference between the actual expression amount and the reference amount for each genetic information factor can be set on / off tag to determine whether the genetic information factor affects the selection of the disease group. As an example of the method for setting as described above, the reference value of the expression amount for each step associated with the important gene gene expression process is called Th 1 , Th 2 , Th 3 , respectively, and the amount of expression of the genetic information increased or decreased by disease. In this case, an increase reference value (Th 1 up , Th 2 up , Th 3 up ) and a decrease reference value (Th 1 down , Th 2 down , Th 3 down ) may be defined and used, respectively. By using the variables defined as described above, the genetic information for which the expression level changes due to disease can be extracted while satisfying each expression level criteria for the obtained specimen sample. At this time, if necessary, the base sequence information of the relevant genetic information can be secured and used, and a single base polymorphic variation, gene copy number variation, etc., including a variation of the base sequence associated with addition, deletion or substitution of the above-described base sequence Extracting the variant may utilize variation information of the nucleotide sequence caused by the disease, but is not limited thereto.

추출한 유전 정보 인자를 이용하여 도 2에 예시한 단계에 있어서, 서로 다른 단계에 해당하는 유전 정보 간의 발현량 변화, 염기 서열의 변이 등을 분석하여 라이브러리를 구축함으로써, 복합 유전 정보 간의 상관 관계를 파악할 수 있으며, 이후 바이오마커의 도출에 활용될 수 있다.In the steps illustrated in FIG. 2 using the extracted genetic information factors, a correlation between the complex genetic information can be determined by constructing a library by analyzing the expression amount change, the nucleotide sequence variation, etc. between the genetic information corresponding to the different stages. It can then be used in the derivation of biomarkers.

[표 1] 유전 정보 관계 분석 라이브러리 구축의 예[Table 1] Example of Genetic Information Relationship Library

Figure pat00001
Figure pat00001

유전 정보 관계 분석을 통한 라이브러리 구축의 일예로, 상기 표 1에서와 같이 위암 1기 남성 환자 및 간암 2기 남성 환자에서 mi-RNA1이 기준치 Th2 down 이하로 발현됨이 관찰되고, 동시에 protein5가 기준치 Th3 up 이상으로 발현될 경우; 위암 1기 남성 및 위암 1기 여성에게서 mi-RNA5의 SNP1이 발견되었으나 다른 특정 유전 정보와의 관계를 찾지 못한 경우; 등에 대해 유전 정보를 기록하여 라이브러리화 할 수 있다.As an example of library construction through genetic information relationship analysis, mi-RNA1 is expressed below the threshold Th 2 down in gastric stage 1 male patients and liver cancer stage 2 male patients as shown in Table 1 above, and at the same time protein5 When expressed above Th 3 up ; SNP1 of mi-RNA5 was found in stage 1 men and stage 1 women but did not find a relationship with other specific genetic information; Genetic information can be recorded and libraryed.

상기 방법을 통해 분석한 정보는 일예로 상기 표 1과 같이 일정한 플랫폼 즉, 동일한 틀의 형태로 변환하여 저장 또는 관리할 수 있다.For example, the information analyzed through the method may be stored or managed by converting it into a certain platform, that is, the same form as shown in Table 1 above.

다음으로, 상기 복합 유전 정보 라이브러리에 최적화 기법(optimization method) 또는 학습 기법(learning method)을 적용하여 질병 상태 특이적 바이오마커를 도출하는 단계에 대해 상세히 설명한다.Next, a step of deriving a disease state specific biomarker by applying an optimization method or a learning method to the complex genetic information library will be described in detail.

복합 유전 정보 라이브러리에 최적화 기법(optimization method) 또는 학습 기법(learning method)을 적용하여 질병 상태 특이적 바이오마커를 도출하는 단계에서는 상기 방법을 통해 구축한 복합 유전 정보 라이브러리를 최적화 기법(optimization method) 또는 러닝 기법(learning method)를 통해 분석하여 질병 상태에 특이적인 바이오마커를 도출할 수 있다.In the step of deriving a disease state specific biomarker by applying an optimization method or a learning method to the complex genetic information library, the complex genetic information library constructed through the method may be optimized or Analysis can be performed through learning methods to derive biomarkers specific to disease states.

질병 상태 특이적 바이오 마커 후보의 추출 방법은 본 발명의 목적을 저해하지 않는 한 제한되지 않으나, 상기 도출한 복합 유전 정보 라이브러리로부터, 확인하고자 하는 질병 상태에서 검체 시료와 라이브러리에서 동일한 유전 정보의 관계가 성립하는지 확인하고, 확인된 유전 정보로부터, 유전 정보의 증감 관계, 염기 서열의 변이 정보, 유전 정보의 개수를 추출하여 질병 상태 특이적 바이오마커 도출을 위한 후보군으로 선정할 수 있다. 상기 후보군의 선정에 있어서, 바람직하게는 질병 상태 특이적 바이오 마커가 해당 질병 상태를 나타내는 정확도를 최대로 높이면서, 고려해야 하는 유전 정보의 수를 최소화하는 것을 동시에 만족하도록 하는 것이 좋으며, 이를 위해 다변수 함수의 최적화(multi-variable optimization) 형태로 정의한 후, 수학적 알고리즘의 적용을 통해 질병 상태 특이적 마커를 도출할 수 있으나, 이에 한정하는 것은 아니다.The method of extracting disease state specific biomarker candidates is not limited as long as the object of the present invention is not impaired, but from the derived genetic information library, there is a relationship between the same genetic information in the sample sample and the library in the disease state to be identified. After confirming that the information is established, extracting the increase / decrease relationship of the genetic information, the variation information of the nucleotide sequence, and the number of genetic information can be extracted and selected as a candidate group for deriving a disease state specific biomarker. In selecting the candidate group, it is preferable that the disease state specific biomarker satisfies at the same time minimizing the number of genetic information to be considered while maximizing the accuracy of representing the disease state. After defining a multi-variable optimization form, a disease state specific marker may be derived through the application of a mathematical algorithm, but is not limited thereto.

상기 다변수 함수의 최적화를 위한 수학적 알고리즘은 상기 다변수 함수에 대한 문제를 해결할 수 있는 방법이라면 제한없이 도입하여 사용할 수 있으며, 일예로, 시뮬레이티드 어닐링 기법, 유전자 알고리즘, 탭 서치 기법, 시뮬레이티드 에볼루션, 확률적 진화 기법 등을 들 수 있으며, 좋게는 유전자 알고리즘(genetic algorithm)을 사용할 수 있다. 상기 방법을 통해 질병 상태 특이적 바이오 마커를 추출하는 경우, 반드시 전체 과정을 끝낼 필요는 없으며, 최적해를 구하는 도중에 중단하여, 그 때까지 구한 해 중에서 가장 좋은 해를 이용해도 좋다.The mathematical algorithm for optimizing the multivariate function can be introduced without limitation as long as it can solve the problem of the multivariate function. For example, a simulated annealing technique, a genetic algorithm, a tap search technique, a simulation Tied evolution, probabilistic evolution techniques, and the like, and preferably genetic algorithms. When the disease state-specific biomarker is extracted by the above method, it is not necessary to end the whole process, but may be interrupted in the middle of finding the optimal solution, and the best solution among the solutions obtained until then may be used.

상기 유전자 알고리즘은 자연계의 생물 유전학에 기본 이론을 두며, 병렬적이고 전역적인 탐색 알고리즘으로 문제에 대한 가능한 해들을 정해진 형태의 자료구조로 표현한 다음, 이들을 점차적으로 변형함으로써 점점 더 좋은 해들을 만들어 가는 방법이다. 여기에서 해들을 나타내는 자료구조는 유전자, 이들을 변형함으로써 점점 더 좋은 해를 만들어 내는 과정은 진화로 표현할 수 있다. 달리 표현하면, 유전자 알고리즘은 어떤 미지의 함수 Y = f(x)를 최적화하는 해 x를 찾기 위해, 진화를 모방한(Simulated evolution) 탐색 알고리즘이라 할 수 있다. 유전자 알고리즘은 특정한 문제를 풀기 위한 알고리즘이라기보다는 문제를 풀기 위한 접근방법에 가까우며, 유전자 알고리즘에서 사용할 수 있는 형식으로 바꾸어 표현할 수 있는 모든 문제에 대해서 적용할 수 있다. 일반적으로 문제가 계산 불가능할 정도로 지나치게 복잡할 경우 유전자 알고리즘을 통하여, 실제 최적해를 구하지는 못하더라도 최적해에 가까운 답을 얻기 위한 방안으로써 접근할 수 있어 바람직하다.The genetic algorithm is based on the biogenetics of the natural world, and it is a method of creating a better solution by expressing possible solutions to a problem in a form of data structure using a parallel and global search algorithm, and then gradually modifying them. . Here, the data structures representing the solutions are genes, and the process of producing better and better solutions by modifying them can be represented by evolution. In other words, the genetic algorithm is a simulated evolution search algorithm to find a solution x that optimizes some unknown function Y = f (x). The genetic algorithm is more of an approach to solving a problem than an algorithm for solving a specific problem, and can be applied to any problem that can be expressed in a format that can be used in the genetic algorithm. In general, if a problem is too complex to be calculated, it is preferable to use genetic algorithms as a way to obtain an answer close to the optimal solution even though the actual optimal solution is not obtained.

질병 상태 특이적 바이오마커의 도출을 위한 방법의 일예로 도 3에 제시된 것과 같이 분석 대상인 학습 샘플과 상기 학습 샘플의 정확도를 검증하기 위한 검증 샘플을 구비할 수 있으며, 일예로 상기 검증 샘플은 기존의 분석을 통해 해당 질병 상태 특이적인 유전 정보만을 포함할 수도 있으나, 이에 한정하는 것은 아니며, 본 발명의 일 실시예에서 수행한 바와 같이, 분석 대상 라이브러리를 학습 샘플과 검증 샘플로 임의로 분리하여 학습을 수행할 수 있고, 상기 학습 과정을 수회 반복하여 정확도를 향상시킬 수 있다.As an example of a method for deriving a disease state specific biomarker, as shown in FIG. 3, a learning sample to be analyzed and a verification sample for verifying the accuracy of the learning sample may be provided. Analysis may include only genetic information specific to the disease state, but is not limited thereto. As described in the embodiment of the present invention, learning is performed by randomly separating an analysis target library into a learning sample and a verification sample. It is possible to improve the accuracy by repeating the learning process several times.

라이브러리의 크기가 큰 경우, 모든 부분집합에 대하여 분류 정확도를 계산하기 어렵고 복잡도가 높아지기 때문에 복잡도를 줄이기 위한 과정을 수행하는 것이 바람직하다. 라이브러리의 크기가 N인 경우, 모든 부분집합의 수는 2^N 개의 경우의 수가 생긴다. 이에 따라, 라이브러리의 크기가 커지게 되면 모든 부분집합에 대하여 분류 정확도를 계산하기 어렵고 복잡도가 높아지기 때문에 이를 해결하기 위하여 일예로 휴리스틱(heuristic) 알고리즘 등을 이용하여 복잡도를 줄이는 것이 필요하다. 일 예를 들자면, 부분집합의 크기가 N인 경우에 대하여, 마커의 가능성을 확인하고 가능성이 가장 큰 경우에 대해서만 우선적으로 고려하여 단계적으로 집합의 크기를 줄여나가게 되면 조사해야 하는 마커에 대한 전체 경우의 수가 N(N+1)/2로 줄어들게 된다.If the size of the library is large, it is desirable to perform a process to reduce the complexity because it is difficult to calculate the classification accuracy for all subsets and the complexity increases. If the size of the library is N, all subsets have 2 ^ N cases. Accordingly, as the size of the library increases, it is difficult to calculate the classification accuracy for all subsets and the complexity increases, so to solve this problem, it is necessary to reduce the complexity by using a heuristic algorithm. For example, for the case where the subset size is N, check the likelihood of the marker and consider only the case where it is most likely, and then reduce the size of the set in stages. The number of will be reduced to N (N + 1) / 2.

상기 다변수 함수 최적화를 위한 변수인 유전 정보 선택은 본 발명의 목적을 저해하지 않는 한 제한되지는 않으나, 일예로 상기 휴리스틱 알고리즘에 따라 유전 정보를 임의로 선택할 수 있으며, 바람직하게는 최대 정확도를 갖는 유전 정보의 조합을 선택할 수 있다. 일예로, 유전 정보 mi-RNA1과 ct-DNA5가 동시에 증가하는 특성이 존재할 경우, mi-RNA1과 ct-DNA5의 각각의 발현량 증감과 관련된 정보를 학습에 활용하여 각각 두 개의 특징(feature)으로 사용할 수 있으며, 상기 mi-RNA1 및 ct-DNA5가 동시에 증가하는 특성이 샘플 내에 존재하는지의 여부를 학습에서 하나의 특징(feature)로 사용할 수 있다.Genetic information selection, which is a variable for optimizing the multivariate function, is not limited so long as the object of the present invention is not impaired. For example, genetic information may be arbitrarily selected according to the heuristic algorithm, and preferably genetic having maximum accuracy. You can select a combination of information. For example, when there is a characteristic that increases the genetic information mi-RNA1 and ct-DNA5 at the same time, the information related to the increase or decrease of each expression level of mi-RNA1 and ct-DNA5 are used as two features each for learning. It can be used, and whether the mi-RNA1 and ct-DNA5 are simultaneously increased in the sample, whether there is a feature can be used as a feature in learning.

본 발명에서, 바이오마커 도출을 위한 상기 학습에 사용되는 인공지능 기반 학습 기법(learning method)은 본 발명의 목적을 저해하지 않는 한 그 종류가 제한되는 것은 아니나, 일예로, 신경망 네트워크(neural network), 딥러닝(deep learning) 등을 사용할 수 있으며, 상기 신경망 네트워크에 해당하는 일예로는 CNN(convolutional neural network), RNN(recurrent neural network) 등을 들 수 있고, 일예로 본 발명의 일 실시예에서와 같이 CNN을 사용할 수 있으나, 이에 한정되는 것은 아니며, 확보한 데이터 및 바이오마커의 특징에 따라 적절한 학습 기법을 선택하여 사용할 수 있다.In the present invention, the artificial intelligence-based learning method used for the learning for biomarker derivation is not limited in kind as long as the object of the present invention is not impaired. For example, a neural network Deep learning, deep learning, and the like may be used. Examples of the neural network may include a convolutional neural network (CNN) and a recurrent neural network (RNN). In one embodiment of the present invention, The CNN may be used as is, but is not limited thereto, and an appropriate learning technique may be selected and used according to the acquired data and characteristics of the biomarker.

본 발명에서, 바람직하게는 상기 방법을 통해 도출한 질병 상태 특이적 바이오 마커의 성능을 검증하기 위한 과정을 더 수행할 수 있다. 이를 위해 바이오마커 검출에 사용되지 않은 샘플 또는 정상 샘플을 대상으로 하여, 상기 도출한 질병 상태 특이적 바이오마커를 적용한 후, 분류 정확도를 계산함으로써 도출한 바이오마커의 정확도를 검증할 수 있어 더욱 좋다.In the present invention, preferably, a process for verifying the performance of the disease state specific biomarker derived through the above method may be further performed. To this end, the accuracy of the derived biomarker can be verified by applying the disease state specific biomarker to the sample or normal sample not used for biomarker detection, and then calculating the classification accuracy.

다음으로, 상기 질병 상태 특이적 바이오마커로부터 질병 위험도 예측을 위한 네트워크 모델을 구축하고 위험도를 예측하는 단계에 대해 상세히 설명한다.Next, the steps for constructing a network model for predicting disease risk from the disease state specific biomarker and predicting the risk will be described in detail.

질병 상태 특이적 바이오마커로부터 질병 위험도 예측을 위한 네트워크 모델을 구축하는 단계에서는 상기 복합 유전 정보 사이의 관계 분석을 통해 얻은 복합 유전 정보 라이브러리 및 최적화 기법 또는 학습 기법(learning method)을 이용하여 도출한 질병 상태 특이적 바이오마커로부터 질병의 발명, 진행 및 재발 등의 상태 변화를 네트워크 형태로 구축할 수 있다.In constructing a network model for predicting disease risk from disease state specific biomarkers, a disease derived by using a complex genetic information library and an optimization technique or learning method obtained by analyzing the relationship between the complex genetic information From state specific biomarkers, state changes such as the invention of disease, progression and recurrence can be constructed in the form of a network.

상기 네트워크의 구축 방법은 본 발명의 목적을 저해하지 않는 한 제한되지 않으나, 상기 방법을 통해 구축한 유전 정보 라이브러리를 이용하여, 특정 질병 상태 변화에 따라 도출된 질병 상태 특이적 바이오마커 내 정보의 변화를 분석하는 방법을 포함할 수 있다. 상기 분석의 일예로, 도 4에서와 같이 유전 정보인 ct-DNA1 또는 mi-RNA5의 비연속적인 발현 변화를 추적하여, 수학적인 함수의 형태로 모델링 할 수 있다. 상기 수학적 함수의 형태는 특별히 제한되는 것은 아니나, 일예로 비연속적인 발현 변화의 데이터를 근사적으로 만족시킬 수 있는 회귀 함수를 선택하는 것이 좋다.The method of constructing the network is not limited as long as the object of the present invention is not impaired, but a change in information in a disease state specific biomarker derived according to a change in a specific disease state using a genetic information library constructed through the method. It may include a method of analyzing. As an example of the analysis, as shown in Figure 4 can be modeled in the form of a mathematical function by tracking the discontinuous expression change of the genetic information ct-DNA1 or mi-RNA5. Although the form of the mathematical function is not particularly limited, it is preferable to select a regression function that can satisfactorily satisfy the data of discontinuous expression changes.

회귀 함수의 구성에 사용되는 회귀 분석 방법은 크게 단순 회귀 분석과 다중 회귀 분석으로 나뉘며, 단순 회귀 분석은 하나의 종속 변수와 하나의 독립 변수 사이의 관계를 분석하기 위해, 다중 회귀 분석은 하나의 종속 변수와 여러 독립 변수 사이의 관계를 규명하기 위해 사용될 수 있다. 상기 도 4에 예시된 발현 변화는 각각 하나의 종속 변수와 하나의 독립 변수로 구성하여 단순 회귀 분석을 통해 회귀 함수를 구할 수 있으며, 일예로 도 4의 ct-DNA1의 발현은 지수 함수(exponential function), mi-RNA5의 발현은 계단 함수(step function) 형태의 회귀 함수로 모델링될 수 있다.The regression method used in constructing the regression function is divided into simple regression analysis and multiple regression analysis. Simple regression analysis is used to analyze the relationship between one dependent variable and one independent variable. Can be used to identify the relationship between a variable and several independent variables. The expression change illustrated in FIG. 4 may be composed of one dependent variable and one independent variable to obtain a regression function through simple regression analysis. For example, the expression of ct-DNA1 of FIG. 4 may be an exponential function. Expression of mi-RNA5 can be modeled as a regression function in the form of a step function.

상기 방법을 통해 질병 상태 특이적 바이오마커의 특징을 수학적으로 모델링한 후, 질병의 주요 상태 변화에 따른 유전 정보의 변화 과정을 추적할 수 있도록 유전 정보로 이루어진 질병 위험도 예측을 위한 네트워크 모델인 유전 정보 관계 네트워크 모델(genetic-information relation network model)을 수립할 수 있다.Genetic information, which is a network model for predicting disease risk composed of genetic information, to mathematically model the characteristics of disease state specific biomarkers through the above method, and to track the process of change of genetic information according to the major state of disease. Genetic-information relation network model can be established.

상기 유전 정보 관계 네트워크 모델의 형태는 본 발명의 목적을 저해하지 않는 한 제한되지는 않으나, 복합 유전 정보간의 상관관계만을 적용한 정적 질병 네트워크(static disease network) 또는 시간 경과, 습관 등의 개인 특이적 유전 정보를 변수로 추가한 동적 질병 네트워크(dynamic disease network) 형태일 수 있으며, 좋게는 동적 질병 네트워크(dynamic disease network) 형태일 수도 있다. 상기 형태의 네트워크 모델을 사용함으로써 지속적으로 변화하는 유전 정보 특성을 추적하고 질병을 진단, 예측할 수 있어 바람직하다.The form of the genetic information relationship network model is not limited as long as the object of the present invention is not impaired, but the specific disease such as a static disease network or a time course, a habit, etc. which applies only correlations between complex genetic information It may be in the form of a dynamic disease network in which information is added as a variable, and preferably in the form of a dynamic disease network. The use of this type of network model is desirable because it can track constantly changing genetic information characteristics and diagnose and predict diseases.

본 발명에서, 상기 바이오 마커 및 질병 위험도 예측을 위한 네트워크 모델인 유전 정보 관계 네트워크 모델의 정확도는 제한되지는 않으나 아래 지표를 이용하여 평가할 수 있다.In the present invention, the accuracy of the genetic information relationship network model, which is a network model for predicting biomarkers and disease risk, is not limited but may be evaluated using the following indicators.

- 민감도(sensitivity): 실제 질병에 걸린 환자를 잘 분류하는지 평가하는 측정 지표로, 오진 기반 진단 실패 방지를 위해 TP/(TP+FN)으로 정의할 수 있으며, 여기서 TP는 질병에 걸린 환자를 질병으로 분류하는 경우의 수, FN은 질병에 걸린 환자를 정상으로 분류하는 경우의 수이다. 바이오마커 및 질병 위험도 예측을 위한 네트워크 모델에 대해서, 좋게는 95% 이상, 더욱 좋게는 99% 이상, 가장 좋게는 99.9% 이상인 것이 검사 비용 및 상용화 가능성을 높일 수 있으며, 다수 질병과 관련된 주요 유전 정보를 활용하여 한 번의 검사로 확인이 가능한 경우가 증가하게 되어 좋다.Sensitivity: A measure of how well patients are classified as having a real disease, and can be defined as TP / (TP + FN) to prevent false-based diagnosis failures, where TP is a disease The number of cases classified as FN is the number of cases classified as normal. For network models for predicting biomarkers and disease risk, preferably at least 95%, more preferably at least 99%, and most preferably at least 99.9% can increase test costs and commercialization, and important genetic information related to multiple diseases. It is good to increase the number of cases that can be confirmed by one test using.

- 특이도(specificity): 실제 정상인을 잘 분류하는지 평가하는 측정 지표로, 허위 질병 진단에 따른 불필요한 후속 검사 방지를 위해 TN/(TN+FP)로 정의되며, 여기서 TN은 정상인을 정상으로 분류하는 경우의 수, FP는 정상인을 질병에 걸린 환자로 분류하는 경우의 수이다. 바이오마커 및 질병 위험도 예측을 위한 네트워크 모델에 대해서, 좋게는 90% 이상, 더욱 좋게는 95% 이상, 가장 좋게는 99% 이상인 것이 검사 비용 및 상용화 가능성을 높일 수 있으며, 다수 질병과 관련된 주요 유전 정보를 활용하여 한 번의 검사로 확인이 가능한 경우가 증가하게 되어 좋다.Specificity: A measure of assessing whether a person is classified as normal, and defined as TN / (TN + FP) to prevent unnecessary follow-up due to false disease diagnosis, where TN is used to classify normal as normal. The number of cases, FP, is the number of cases in which a normal person is classified as a diseased patient. For network models for biomarker and disease risk prediction, preferably 90% or more, more preferably 95% or more, 99% or more can increase test costs and commercialization, and key genetic information related to multiple diseases It is good to increase the number of cases that can be confirmed by one test using.

질병 위험도 예측에 있어서는 민감도 또는 특이도를 이용하거나 이 둘을 조합하여 이용할 수 있으며, 이 중 민감도는 질병 위험도 예측에 있어 특이도 대비 중요도가 보다 높아 함께 사용되는 것이 더욱 좋다.In the prediction of disease risk, sensitivity or specificity may be used, or a combination of the two may be used. Of these, sensitivity is more important than specificity in predicting disease risk.

본 발명에서 상기 질병은 바이오마커의 도출이 가능한 경우라면 어떠한 질병이라도 적용될 수 있으며, 일예로 암과 같이 빠른 진단이 필요한 질병일 수 있으며, 보다 구체적인 예로, 상기 암은 방광암(Bladder urothelial carcinoma), 유방암(Breast invasive carcinoma), 자궁경부암(Cervical and endocervical cancers), 대장암, 결장암(Colon adenocarcinoma), 식도암(Esophageal carcinoma), 교모세포종(Glioblastoma multiforme), 두경부암(Head and Neck squamous cell carcinoma), 혐색소 신세포암(Kidney Chromophobe), 투명세포형 신세포암(Kidney renal clear cell carcinoma), 유두상 신세포암(Kidney renal papillary cell carcinoma), 급성 골수성 백혈병(Acute Myeloid Leukemia), 양성뇌종양(Brain Lower Grade Glioma), 간암(Liver hepatocellular carcinoma), 폐선암(Lung adenocarcinoma), 폐편평상피세포암(Lung squamous cell carcinoma), 장액성 난소상피암(Ovarian serous cystadenocarcinoma), 췌장암(Pancreatic adenocarcinoma), 부신암(Pheochromocytoma and Paraganglioma), 전립선암(Prostate adenocarcinoma), 직장암(Rectum adenocarcinoma), 육종(Sarcoma), 악성흑색종(Skin Cutaneous Melanoma), 위암(Stomach adenocarcinoma), 고환암(Testicular Germ Cell Tumors), 갑상선암(Thyroid carcinoma), 흉선종(Thymoma) 및 자궁내막암(Uterine Corpus Endometrial Carcinoma)으로 이루어진 군으로부터 선택된 1종 이상일 수 있으며, 바람직하게는 방광암, 유방암, 대장암, 결장암, 자궁경부암, 간암, 폐선암, 혐색소 신세포암, 투명세포형 신세포암, 유두상 신세포암, 장액성 난소상피암, 전립선암, 폐편평상피세포암 및 위암으로 이루어진 군으로부터 선택된 1종 이상일 수 있고, 보다 바람직하게는 유방암, 대장암 및 위암으로 이루어진 군으로부터 선택된 1종 이상일 수 있으나 이에 한정하는 것은 아니다.In the present invention, any disease can be applied as long as the biomarker can be derived. For example, the disease may be a disease requiring rapid diagnosis, and more specifically, the cancer may include bladder urothelial carcinoma or breast cancer. (Breast invasive carcinoma), cervical and endocervical cancers, colon cancer, colon cancer (Colon adenocarcinoma), esophageal cancer (Esophageal carcinoma), glioblastoma multiforme, head and neck squamous cell carcinoma, Kidney Chromophobe, Kidney renal clear cell carcinoma, Kidney renal papillary cell carcinoma, Acute Myeloid Leukemia, Brain Lower Grade Glioma, Liver hepatocellular carcinoma, Lung adenocarcinoma, Lung squamous cell carcinoma, Ovarian serous cystad enocarcinoma, Pancreatic adenocarcinoma, Adrenal cancer (Pheochromocytoma and Paraganglioma), Prostate adenocarcinoma, Rectum adenocarcinoma, Sarcoma, Malignant melanoma (Skin Cutaneous Melanoma), adenocinotomoma Testicular Germ Cell Tumors, Thyroid carcinoma, Thymoma and Uterine Corpus Endometrial Carcinoma may be at least one selected from the group consisting of, bladder cancer, breast cancer, colon cancer, colon cancer 1 type selected from the group consisting of cervical cancer, liver cancer, lung adenocarcinoma, anaerobic renal cell carcinoma, clear cell type renal cell carcinoma, papillary renal cell carcinoma, serous ovarian epithelial cancer, prostate cancer, lung squamous cell carcinoma and gastric cancer It may be more than one, more preferably may be one or more selected from the group consisting of breast cancer, colon cancer and stomach cancer, but is not limited thereto.

또한 본 발명은 상기 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법을 통해 도출된 질병 상태 특이적 바이오마커를 제공한다.The present invention also provides a disease state specific biomarker derived through the disease risk prediction method through the complex genetic information relationship analysis.

본 발명에서 도출한 바이오마커는 진단 칩 및 단말기를 포함하는 의료 기기의 제작 및 질병 진단 서비스로의 사업화를 통해 질병 예후 판정 등에 효율적으로 활용될 수 있을 것으로 기대된다.The biomarker derived from the present invention is expected to be effectively used for the prognosis of diseases through the manufacture of medical devices including diagnostic chips and terminals and commercialization as disease diagnosis services.

이하, 본 발명의 내용을 실시예를 통하여 보다 구체적으로 설명한다. 실시예는 본 발명을 보다 구체적으로 설명하기 위한 것일 뿐, 본 발명의 권리범위가 이들에 의해 한정되는 것은 아니다.Hereinafter, the content of the present invention will be described in more detail with reference to Examples. The examples are only for more specifically describing the present invention, and the scope of the present invention is not limited thereto.

[실험재료] [Experimental Material]

1. 하기 mi-RNA 관련 데이터를 확보하여 사용하였다.1. The following mi-RNA related data were obtained and used.

1) GSE543971) GSE54397

서울대학교 김나영 교수 연구 데이터베이스에서 제공받아 사용하였다.It was used in the research database of Kim Na-young, Seoul National University.

상기 데이터베이스에는 위암 환자 16 명에 대한 정상 조직 및 암 조직 샘플의 마이크로어레이(microarray) 데이터 중 3523 종류의 mi-RNA 데이터를 제공받아 사용하였다.The database received 3523 mi-RNA data from microarray data of normal and cancer tissue samples of 16 gastric cancer patients.

2) GSE617412) GSE61741

Saarland 대학의 데이터베이스에서 제공받아 사용하였다.It was provided by the database of Saarland University.

상기 데이터베이스에는 암 환자 및 정상인을 포함하여 총 1049명의 혈액 샘플의 마이크로어레이(microarray) 데이터 중 위암 환자, 대장암 환자 및 정상인 각각 13, 29 및 94개씩 총 136개의 샘플로 총 848 종류의 mi-RNA 데이터를 제공받아 사용하였다.The database contains a total of 848 mi-RNAs, including 136 samples of 13, 29, and 94 gastric cancer patients, colorectal cancer patients, and normal persons, respectively, from microarray data of a total of 1049 blood samples including cancer patients and normal persons. Data was used and used.

3) TCGA NGS 데이터3) TCGA NGS Data

TCGA 데이터베이스에서 제공받아 사용하였다.It was provided from the TCGA database.

상기 데이터베이스에서 위암 환자의 491 개의 정상 조직과 암 조직 샘플을 각각 45, 446개 다운로드하였고, miRNA 및 NGS read 정보를 확보하였다.45,446 samples of 491 normal and cancer tissue samples of gastric cancer patients were downloaded from the database, and miRNA and NGS read information was obtained.

총 211 개의 mi-RNA 데이터를 사용하였다.A total of 211 mi-RNA data were used.

2. 하기 mi-RNA 외의 데이터를 확보하여 사용하였다.2. The data other than the following mi-RNA was obtained and used.

1) TCGA 단백질 발현 어레이 데이터(protein expression array data)1) TCGA protein expression array data

유방암, 갑상선암, 간암, 신장암, 폐암 환자와 정상 환자에 대한 단백질 발현량 데이터 베이스이다.Protein expression database for breast cancer, thyroid cancer, liver cancer, kidney cancer, lung cancer patients and normal patients.

상기 데이터베이스로부터 유방암질병, 유방암정상, 갑상선암, 간암, 신장암1(Kidney Renal Clear Cell Carcinoma), 신장암2(Kidney Renal Papillary Cell Carcinoma), 신장암3(Kidney Chromophobe), 폐암1(Lung Adenocarcinoma), 폐암2(Lung Squamous Cell Carcinoma) 데이터를 확보하였고,Breast cancer disease, breast cancer normal, thyroid cancer, liver cancer, kidney cancer 1 (Kidney Renal Clear Cell Carcinoma), kidney cancer 2 (Kidney Renal Papillary Cell Carcinoma), kidney cancer 3 (Kidney Chromophobe), lung cancer 1 (Lung Adenocarcinoma), Lung Squamous Cell Carcinoma data were obtained,

각각 샘플 수는 1078, 45, 426, 183, 478, 215, 63, 365, 327개이다.The number of samples is 1078, 45, 426, 183, 478, 215, 63, 365 and 327 respectively.

각 샘플당 약 200개씩의 단백질에 대한 발현량 데이터가 존재하고, 모든 샘플에서 공통적으로 존재하는 146개의 단백질 데이터만을 추출하여 사용하였다.There is expression data for about 200 proteins in each sample, and only 146 protein data which are common in all samples were extracted and used.

[표 2] mi-RNA 및 단백질 발현 데이터 예Table 2 Example mi-RNA and Protein Expression Data

Figure pat00002
Figure pat00002

[실시예 1] 단백질 데이터에 대한 학습 기법 적용Example 1 Application of Learning Techniques to Protein Data

단백질 데이터에 대하여 도 5의 CNN 방법을 사용하여 입력 데이터 사이의 관계를 도출하고, 이를 Fully connected layer를 통과시킨 후, 최종적으로 softmax를 이용하여 분류하였다.For the protein data, the relationship between the input data was derived using the CNN method of FIG. 5, passed through the fully connected layer, and finally classified using softmax.

[실시예 2] 정확도 예측Example 2 Accuracy Prediction

상기 실시예 1에서와 동일한 CNN 네트워크 방법을 적용하여 학습을 수행하였다.Learning was performed by applying the same CNN network method as in Example 1 above.

1. GSE543971.GSE54397

32개의 샘플 중 22개로 학습을 진행하고, 나머지 10개로 검증을 진행하였다.Of the 32 samples, 22 were trained and the remaining 10 were validated.

2. GSE617412. GSE61741

136개의 샘플 중 106개로 학습을 진행하고, 나머지 30개로 검증을 진행하였다.106 of 136 samples were trained and 30 were validated.

3. TCGA NGS 데이터3.TCGA NGS data

491개의 샘플 중 391개로 학습을 진행하고, 나머지 100개로 검증을 진행하였다.391 of 491 samples were trained and the remaining 100 were verified.

상기 검증 결과를 도 7 및 도 8에 도시하였다.The verification results are shown in FIGS. 7 and 8.

도 7의 결과에 따르면 학습이 진행됨에 따라 GSE54397 모델(조직, 마이크로어레이 데이터)은 100%의 분류 정확도를 나타내고, GSE61741(혈액, 마이크로어레이 데이터)은 약 96.67%, TCGA NGS data는 약 99%의 분류 정확도에 수렴하여 모두 95% 이상의 매우 높은 정확도를 나타냄을 확인하였다.According to the results of FIG. 7, as the learning progresses, the GSE54397 model (tissue and microarray data) shows 100% classification accuracy, GSE61741 (blood and microarray data) is about 96.67% and TCGA NGS data is about 99% Converging to the classification accuracy, it was confirmed that all showed very high accuracy of 95% or more.

도 8에 따르면 중요 mi-RNA의 추출 과정 진행에 따라 민감도(sensitivity)는 학습이 진행됨에 따라 848개의 mi-RNA 및 30 개의 optimal mi-RNA 추출 (BEST) 경우에 대해 모두 1에 수렴하는 것을 확인하였으며, 특이도(specificity)의 경우 848개의 mi-RNA에 대해서는 학습이 진행되면서도 1 근처에서 fluctuation이 진행되고, 30 개의 optimal mi-RNA 추출 (BEST) 경우에 대해서는 0.95 이상으로 수렴하는 형태를 나타내었다.According to Figure 8, the sensitivity (sensitivity) as the progress of the extraction process of important mi-RNA converges to 1 for all 848 mi-RNA and 30 optimal mi-RNA extraction (BEST) cases as learning progresses In the case of specificity, fluctuation occurred near 1 while learning about 848 mi-RNAs, and converged to more than 0.95 for 30 optimal mi-RNA extractions (BEST). .

[실시예 3] 임상 데이터를 이용한 바이오마커 도출Example 3 Derivation of Biomarkers Using Clinical Data

유방암, 위암, 대장암 세 질병의 데이터는 모두 미국의 NIH에서 2006년부터 진행하고 있는 TCGA (The Cancer Genome Atlas) project의 데이터베이스로부터 확보하였다. 각각의 질병 데이터 확보에 사용된 세부 데이터베이스 명은 다음과 같다. Data on three diseases of breast, stomach and colorectal cancers were all obtained from a database of the TCGA (The Cancer Genome Atlas) project, which has been in progress since 2006 in NIH, USA. The detailed database names used to obtain each disease data are as follows.

유방암 : TCGA-BRCA, 위암 : TCGA-STAD, 대장암 : TCGA-COAD. Breast cancer: TCGA-BRCA, Gastric cancer: TCGA-STAD, Colorectal cancer: TCGA-COAD.

이 중 mi-RNA 유전 정보 데이터에 대해, 상기 실시예에서와 같은 방법으로 CNN 네트워크 방법을 통한 학습을 통해 암 종류별로 30 종류의 바이오마커를 도출하였다. Among the mi-RNA genetic information data, 30 types of biomarkers were derived for each cancer type through learning through the CNN network method in the same manner as in the above example.

그 결과는 하기 표 3과 같다.The results are shown in Table 3 below.

암 종류별 optimal mi-RNA 바이오마커 (BEST)Optimal mi-RNA Biomarkers (BEST) by Cancer Type 암종류Cancer type mi-RNA 바이오마커mi-RNA biomarkers 유방암Breast cancer 'hsa-mir-30d', 'hsa-mir-145', 'hsa-mir-425', 'hsa-mir-203a','hsa-mir-452', 'hsa-mir-378a', 'hsa-mir-455', 'hsa-mir-100','hsa-mir-199b', 'hsa-mir-205', 'hsa-mir-542', 'hsa-mir-532','hsa-mir-625', 'hsa-mir-200c', 'hsa-mir-183', 'hsa-mir-22','hsa-mir-451a', 'hsa-mir-30a', 'hsa-mir-30e', 'hsa-mir-148a','hsa-mir-143', 'hsa-mir-375', 'hsa-mir-584', 'hsa-mir-379', 'hsa-mir-10a', 'hsa-mir-182', 'hsa-mir-21', 'hsa-mir-486-1', 'hsa-mir-486-2', 'hsa-mir-10b''hsa-mir-30d', 'hsa-mir-145', 'hsa-mir-425', 'hsa-mir-203a', 'hsa-mir-452', 'hsa-mir-378a', 'hsa -mir-455 ',' hsa-mir-100 ',' hsa-mir-199b ',' hsa-mir-205 ',' hsa-mir-542 ',' hsa-mir-532 ',' hsa-mir -625 ',' hsa-mir-200c ',' hsa-mir-183 ',' hsa-mir-22 ',' hsa-mir-451a ',' hsa-mir-30a ',' hsa-mir-30e ',' hsa-mir-148a ',' hsa-mir-143 ',' hsa-mir-375 ',' hsa-mir-584 ',' hsa-mir-379 ',' hsa-mir-10a ', 'hsa-mir-182', 'hsa-mir-21', 'hsa-mir-486-1', 'hsa-mir-486-2', 'hsa-mir-10b' 대장암Colorectal cancer 'hsa-mir-6086', 'hsa-mir-3118-1', 'hsa-mir-1321', 'hsa-mir-548f-5', hsa-let-7c', 'hsa-mir-4752', 'hsa-mir-183', 'hsa-mir-29a', 'hsa-mir-30e', 'hsa-mir-486-1', 'hsa-mir-194-1', 'hsa-mir-194-2', 'hsa-mir-30a', 'hsa-mir-28', 'hsa-mir-25', 'hsa-mir-486-2', 'hsa-mir-182', 'hsa-mir-30d', 'hsa-mir-203a', 'hsa-mir-10b', 'hsa-mir-148a', 'hsa-mir-145', 'hsa-mir-378a', 'hsa-mir-143', 'hsa-mir-22', 'hsa-mir-10a', 'hsa-mir-200c', 'hsa-mir-21', 'hsa-mir-192', 'hsa-mir-375''hsa-mir-6086', 'hsa-mir-3118-1', 'hsa-mir-1321', 'hsa-mir-548f-5', hsa-let-7c ',' hsa-mir-4752 ' , 'hsa-mir-183', 'hsa-mir-29a', 'hsa-mir-30e', 'hsa-mir-486-1', 'hsa-mir-194-1', 'hsa-mir- 194-2 ',' hsa-mir-30a ',' hsa-mir-28 ',' hsa-mir-25 ',' hsa-mir-486-2 ',' hsa-mir-182 ',' hsa- mir-30d ',' hsa-mir-203a ',' hsa-mir-10b ',' hsa-mir-148a ',' hsa-mir-145 ',' hsa-mir-378a ',' hsa-mir- 143 ',' hsa-mir-22 ',' hsa-mir-10a ',' hsa-mir-200c ',' hsa-mir-21 ',' hsa-mir-192 ',' hsa-mir-375 ' 위암Stomach cancer 'hsa-mir-500b', 'hsa-mir-496', 'hsa-mir-2392', 'hsa-mir-5739', 'hsa-mir-4540', 'hsa-mir-6749', 'hsa-mir-1915', 'hsa-mir-202', 'hsa-mir-2467', 'hsa-mir-27b', 'hsa-mir-583', 'hsa-mir-374c', 'hsa-mir-219b', 'hsa-mir-299', 'hsa-mir-142', 'hsa-mir-30d', 'hsa-mir-3074', 'hsa-mir-147b', 'hsa-mir-5009', 'hsa-mir-624', 'hsa-mir-181d', 'hsa-mir-489', 'hsa-mir-581', 'hsa-mir-29b-2', 'hsa-mir-541', 'hsa-mir-485', 'hsa-mir-4519', 'hsa-mir-20b', 'hsa-mir-486-1', 'hsa-mir-527''hsa-mir-500b', 'hsa-mir-496', 'hsa-mir-2392', 'hsa-mir-5739', 'hsa-mir-4540', 'hsa-mir-6749', 'hsa -mir-1915 "," hsa-mir-202 "," hsa-mir-2467 "," hsa-mir-27b "," hsa-mir-583 "," hsa-mir-374c "," hsa-mir -219b "," hsa-mir-299 "," hsa-mir-142 "," hsa-mir-30d "," hsa-mir-3074 "," hsa-mir-147b "," hsa-mir-5009 ',' hsa-mir-624 ',' hsa-mir-181d ',' hsa-mir-489 ',' hsa-mir-581 ',' hsa-mir-29b-2 ',' hsa-mir-541 ',' hsa-mir-485 ',' hsa-mir-4519 ',' hsa-mir-20b ',' hsa-mir-486-1 ',' hsa-mir-527 '

상기로부터, 유방암, 대장암 및 위암에 공통되는 mi-RNA 바이오마커는 11 종류이며, 이는 3가지 암에서 공통적인 특성을 갖는 바이오마커로 해석할 수 있다.From the above, there are eleven types of mi-RNA biomarkers common to breast cancer, colorectal cancer and gastric cancer, which can be interpreted as biomarkers having characteristics common to three cancers.

3가지 암에 공통되는 바이오마커Biomarkers Common to Three Cancers 암종류Cancer type 공통 mi-RNA 바이오마커Common mi-RNA Biomarkers 유방암, 대장암 및 위암Breast, colon and stomach cancer 'hsa-mir-143', 'hsa-mir-148a', 'hsa-mir-182', 'hsa-mir-203a', 'hsa-mir-21', 'hsa-mir-22', 'hsa-mir-30a', 'hsa-mir-30e', 'hsa-mir-375', 'hsa-mir-486-1', 'hsa-mir-486-2''hsa-mir-143', 'hsa-mir-148a', 'hsa-mir-182', 'hsa-mir-203a', 'hsa-mir-21', 'hsa-mir-22', 'hsa -mir-30a "," hsa-mir-30e "," hsa-mir-375 "," hsa-mir-486-1 "," hsa-mir-486-2 "

실시예 3의 데이터로부터 본 발명의 분석 방법을 통해 도출한 바이오마커 중, 3가지 암에 공통되는 바이오마커로부터, hsa-mir-486 계열은 이외의 암과의 연관 관계가 있음이 알려져 있으며, hsa-mir-375 계열은 체내 순환(circulating)과 관련되어 있음이 알려져 있으며, hsa-mir-30 계열은 암의 억제와 관련된 것으로 알려져 있다.Among biomarkers derived from the analytical method of the present invention from the data of Example 3, from the biomarkers common to three cancers, it is known that the hsa-mir-486 series is associated with other cancers, and hsa The -mir-375 family is known to be involved in circulating the body, and the hsa-mir-30 family is known to be involved in cancer suppression.

즉, 본 발명의 방법으로부터, 종래에 암과 연관된 인자로 밝혀진 바이오마커를 주요 인자로 정확하게 추출해 내는 것을 확인하였으며, 또한 기존의 알려진 결과에 대해 올바른 결론임을 확인할 수 있었다.That is, from the method of the present invention, it was confirmed that the biomarker, which was previously known to be a factor associated with cancer, was accurately extracted as a major factor, and also confirmed to be a correct conclusion about the known results.

또한, 상기 기술한 바이오마커 이외에 개별적인 암 특이적 바이오 마커는, 개별적인 암의 진단을 위한 신규한 바이오마커임을 알 수 있다.In addition, it can be seen that in addition to the biomarkers described above, individual cancer specific biomarkers are novel biomarkers for the diagnosis of individual cancers.

[실시예 4] 임상 데이터를 이용하여 도출된 바이오마커의 정확도 예측Example 4 Prediction of the Accuracy of Biomarkers Derived Using Clinical Data

상기 실시예 1~2에서와 같은 방법으로 도출된 바이오마커를 이용한 질병 위험도 예측 연산을 수행한 결과는 다음과 같다.The result of performing the disease risk prediction operation using the biomarker derived in the same manner as in Examples 1 to 2 is as follows.

각 민감도 및 특이도의 측정 결과는 100-fold cross validation 기법을 통해 특정 학습 세트에 특이적인 결과가 아닌 알고리즘 자체에 대한 범용적인 결과가 되도록 수행하였다.The measurement results of each sensitivity and specificity were performed to be a general result for the algorithm itself rather than a specific learning set through the 100-fold cross validation technique.

위험도 예측 알고리즘은 Convolutional Neural Network로 이루어져 있으며, convolutional layer 7계층과 fully connected layer 4개 계층으로 이루어져 있다. The risk prediction algorithm consists of a convolutional neural network, consisting of seven layers of convolutional layer and four layers of fully connected layer.

Convolutional layer는 모두 1-dimensional filter로 구성되어 있으며, 첫 layer는 20 by 1, 두 번째 layer는 10 by 1, 세 번째 이후의 layer들은 3 by 1의 filter를 사용하였다. The convolutional layers are all composed of 1-dimensional filters. The first layer is 20 by 1, the second layer is 10 by 1, and the third and subsequent layers are 3 by 1.

Padding은 'Valid' 기법을 사용하였다. Padding used the 'Valid' technique.

Fully connected layer는 1024, 512, 256, 128개의 node로 구성되어 있으며, 마지막은 readout layer와 softmax activation을 이용하여 질병 확률을 분류하도록 구성하였다. The fully connected layer is composed of 1024, 512, 256, and 128 nodes. Finally, the readout layer and softmax activation are used to classify disease probabilities.

그 결과를 표 5에 도시하였다.The results are shown in Table 5.

암 종류별 질병 위험도 예측 결과Disease risk prediction result by cancer type 암종류Cancer type 민감도(sensitivity)Sensitivity 특이도(specificity)Specificity 유방암Breast cancer 98.0%98.0% 95.5%95.5% 대장암Colorectal cancer 99.3%99.3% 96.0%96.0% 위암Stomach cancer 99.0%99.0% 96.2%96.2%

상기 결과로부터, 본 발명을 통한 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법은 통해 95% 이상의 높은 정확도를 갖는 바이오마커를 제공할 뿐만 아니라, 95% 이상의 민감도 및 특이도를 나타내었다. 이로부터 본 발명을 통해 검사 비용 저렴화 및 상용화 가능성을 높일 수 있으며, 다수 질병과 관련된 주요 유전 정보를 활용하여 한 번의 검사로 확인이 가능한 경우가 증가하는 것을 확인하여 상용 가능한 수준의 정확도 및 경제성을 만족하는 진단 기술로의 활용이 가능한 것을 보임으로써 본 발명을 완성하였다.From the above results, the disease risk prediction method through the composite genetic information relationship analysis according to the present invention not only provides a biomarker with a high accuracy of 95% or more, but also exhibited a sensitivity and specificity of 95% or more. From this, the present invention can increase the possibility of lowering the cost and commercialization of the test, and confirms that the number of cases that can be confirmed by a single test is increased by utilizing key genetic information related to multiple diseases, thereby satisfying the commercially available level of accuracy and economic efficiency. The present invention has been completed by showing that it can be used as a diagnostic technique.

Claims (14)

질병 환자 및 정상인의 검체로부터 복합 유전 정보를 추출하는 단계;
상기 복합 유전 정보 사이의 정보를 비교 분석하여 복합 유전 정보 라이브러리를 구축하는 단계;
상기 복합 유전 정보 라이브러리에 최적화 기법(optimization method) 또는 학습 기법(learning method)을 적용하여 질병 상태 특이적 바이오마커를 도출하는 단계; 및
상기 질병 상태 특이적 바이오마커로부터 질병 위험도 예측을 위한 네트워크 모델을 구축하고 위험도를 예측하는 단계;
를 포함하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
Extracting complex genetic information from a sample of a diseased patient and a normal person;
Comparing and analyzing the information between the complex genetic information to construct a complex genetic information library;
Deriving a disease state specific biomarker by applying an optimization method or a learning method to the complex genetic information library; And
Constructing a network model for predicting disease risk from the disease state specific biomarker and predicting risk;
Comprising a disease risk prediction method through a composite genetic information relationship analysis.
제 1항에 있어서,
상기 복합 유전 정보는 DNA, RNA 및 단백질로 이루어진 군에서 선택되는 어느 하나 또는 둘 이상의 발현 또는 합성 정보인 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 1,
The complex genetic information is any one or two or more expression or synthetic information selected from the group consisting of DNA, RNA and protein, characterized in that the disease risk prediction method through a composite genetic information relationship analysis.
제 1항에 있어서,
상기 복합 유전 정보 라이브러리는 통계 분석 또는 최적화 기법(optimization method)을 통해 도출하여 구축하는 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 1,
The complex genetic information library is derived by building a statistical analysis or optimization method (optimization method), characterized in that the disease risk prediction method through a composite genetic information relationship analysis.
제 3항에 있어서,
상기 복합 유전 정보 라이브러리 구축시, 각 유전 정보 인자에 대하여 실제 발현량과 기준량의 차이를 측정하여 해당 유전 정보 인자가 질병군의 선별에 영향을 미치는지의 여부를 판단할 수 있는 on/off 태그를 설정하는 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 3, wherein
In constructing the complex genetic information library, setting an on / off tag for determining whether the genetic information factor affects the selection of a disease group by measuring the difference between the actual expression amount and the reference amount for each genetic information factor. Characterized in that the disease risk prediction method through a composite genetic information relationship analysis.
제 4항에 있어서,
상기 on/off 태그 설정은
a) 중요 유전 유전자 발현 과정과 관련된 각 단계에 대한 발현량의 기준치를 각각 Th1, Th2, Th3이라 하고, 질병에 의해 유전 정보 발현량이 증가 또는 감소할 때 각각 증가 기준치(Th1 up, Th2 up, Th3 up) 및 감소 기준치(Th1 down, Th2 down, Th3 down)로 변수를 정의하는 단계; 및
b) 상기 변수를 이용하여, 검체 시료에 대해 각 발현량 기준을 만족하면서, 질병에 의해 발현량이 변화하는 유전 정보를 추출하는 단계;
를 포함하는 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 4, wherein
The on / off tag setting is
a) important as genetic gene expression process, the standard value of the expression level of each step, each Th 1, Th 2, Th 3 related to, and increase, respectively to increase or decrease the amount of genetic expression by the disease threshold value (Th 1 up, Defining variables with Th 2 up , Th 3 up ) and reduction criteria (Th 1 down , Th 2 down , Th 3 down ); And
b) using the variable, extracting genetic information for which the expression level is changed by the disease while satisfying each expression level criteria for the sample sample;
A disease risk prediction method through a complex genetic information relationship analysis, comprising a.
제 5항에 있어서,
상기 유전 정보의 추출 시, 해당 유전 정보의 염기서열 정보를 확보하여 염기 서열의 추가, 삭제 또는 치환을 포함하는 단일 염기 다형성 변이 또는 유전자 복제 수 변이를 포함하는 변이체를 추출하는 단계;
를 더 포함하는 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 5,
Extracting a variant including a single nucleotide polymorphic variation or a gene copy number variation including addition, deletion or substitution of a nucleotide sequence by obtaining nucleotide sequence information of the genetic information when extracting the genetic information;
The disease risk prediction method further comprising a complex genetic information relationship analysis, characterized in that it further comprises.
제 1항에 있어서,
상기 복합 유전 정보 라이브러리에 존재하는 복합 유전 정보와 질병과의 관계 분석을 최적화 기법 또는 학습 기법을 통하여 분석하여, 질병 분석에 사용 가능한 바이오마커를 도출해내는 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 1,
Analyzing the relationship between the complex genetic information existing in the complex genetic information library and the disease through an optimization technique or a learning technique to derive a biomarker that can be used for disease analysis, through the complex genetic information relationship analysis How to predict disease risk.
제 1항에 있어서,
상기 질병 상태 특이적 바이오마커를 기반으로 정적 질병 네트워크(statistic disease network) 모델을 구축하는 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 1,
Method of predicting disease risk through the analysis of the relationship between complex genetic information, characterized in that to build a static disease network (statistic disease network) model based on the disease state specific biomarker.
제 1항에 있어서,
질병 위험도 예측을 위한 네트워크 모델을 구축하고 위험도를 예측하는 단계에서 동적 질병 네트워크(dynamic disease network) 모델을 구축하는 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 1,
A method for predicting disease risk through a complex genetic information relationship analysis, characterized in that a dynamic disease network model is constructed in a network model for predicting disease risk and predicting a risk.
제 7항에 있어서,
상기 최적화 기법은 시뮬레이티드 어닐링 기법, 유전자 알고리즘, 탭 서치 기법, 시뮬레이티드 에볼루션, 확률적 진화 기법으로 이루어진 군에서 선택되는 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 7, wherein
The optimization technique is selected from the group consisting of simulated annealing technique, genetic algorithm, tap search technique, simulated evolution, probabilistic evolution technique, disease risk prediction method through a composite genetic information relationship analysis.
제 7항에 있어서,
상기 학습 기법은 신경망 네트워크(neural network) 및 딥러닝(deep learning)으로 이루어진 군에서 선택되는 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 7, wherein
The learning technique is selected from the group consisting of a neural network (neural network) and deep learning (deep learning), disease risk prediction method through a composite genetic information relationship analysis.
제 11항에 있어서,
상기 신경망 네트워크는 CNN(convolutional neural network) 및 RNN(recurrent neural network)으로 이루어진 군에서 선택되는 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 11,
The neural network is selected from the group consisting of a convolutional neural network (CNN) and a recurrent neural network (RNN), disease risk prediction method through a composite genetic information relationship analysis.
제 1항에 있어서,
상기 질병 위험도 예측을 위한 네트워크 모델의 정확도는 민감도(sensitivity)가 95% 이상이고, 특이도(specificity)가 90% 이상인 것을 특징으로 하는, 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법.
The method of claim 1,
The accuracy of the network model for predicting disease risk is characterized in that the sensitivity (sensitivity) of more than 95%, the specificity (specificity) of more than 90%, disease risk prediction method through a composite genetic information relationship analysis.
제 1항 내지 제13항 중 어느 한 항의 복합 유전 정보 관계 분석을 통한 질병 위험도 예측 방법을 통해 도출된 질병 상태 특이적 바이오마커.A disease state specific biomarker derived through a method for predicting disease risk by analyzing the relationship between complex genetic information of any one of claims 1 to 13.
KR1020190064200A 2018-05-31 2019-05-31 Method for predicting disease risk based on analysis of complex genetic information KR102265529B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/428,715 US20190385696A1 (en) 2018-05-31 2019-05-31 Method for predicting disease risk based on analysis of complex genetic information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180062331 2018-05-31
KR1020180062331 2018-05-31

Publications (2)

Publication Number Publication Date
KR20190137012A true KR20190137012A (en) 2019-12-10
KR102265529B1 KR102265529B1 (en) 2021-06-17

Family

ID=69003226

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190064200A KR102265529B1 (en) 2018-05-31 2019-05-31 Method for predicting disease risk based on analysis of complex genetic information

Country Status (1)

Country Link
KR (1) KR102265529B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220111847A (en) 2021-02-03 2022-08-10 한국과학기술원 Method for diagnosing disease risk based on complex biomarker network
WO2023191538A1 (en) * 2022-04-01 2023-10-05 한양대학교 산학협력단 System for diagnosing alzheimer's disease by using biomarkers in cerebrospinal fluid and blood

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120077568A (en) * 2010-12-30 2012-07-10 주식회사 바이오인프라 Cancer diagnosis method, cancer diagnosis model building method, cancer diagnosis system using combined biomarkers and method on measuring effect of each biomarker
KR20140052909A (en) 2013-12-27 2014-05-07 충청남도 당진시 Method and system for estimating development charge, and a medium having computer readable program for executing the method
KR20180051333A (en) * 2016-11-08 2018-05-16 한국과학기술원 Method for detecting diagnosing marker of cancer-specific in whole genome sequence

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120077568A (en) * 2010-12-30 2012-07-10 주식회사 바이오인프라 Cancer diagnosis method, cancer diagnosis model building method, cancer diagnosis system using combined biomarkers and method on measuring effect of each biomarker
KR20140052909A (en) 2013-12-27 2014-05-07 충청남도 당진시 Method and system for estimating development charge, and a medium having computer readable program for executing the method
KR20180051333A (en) * 2016-11-08 2018-05-16 한국과학기술원 Method for detecting diagnosing marker of cancer-specific in whole genome sequence

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220111847A (en) 2021-02-03 2022-08-10 한국과학기술원 Method for diagnosing disease risk based on complex biomarker network
WO2023191538A1 (en) * 2022-04-01 2023-10-05 한양대학교 산학협력단 System for diagnosing alzheimer's disease by using biomarkers in cerebrospinal fluid and blood

Also Published As

Publication number Publication date
KR102265529B1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
Vidaki et al. DNA methylation-based forensic age prediction using artificial neural networks and next generation sequencing
KR102233740B1 (en) Method for predicting cancer type based on DNA copy number variation
CN111128299B (en) Construction method of ceRNA regulation and control network with significant correlation to colorectal cancer prognosis
CN105102637B (en) Extract method, the computing device for this method, diagnosis of pancreatic cancer biomarker and the diagnosis of pancreatic cancer device comprising the biomarker of diagnosis of pancreatic cancer biomarker
CN109055562B (en) Biomarker and method for predicting recurrence and death risk of renal cell carcinoma
Naxerova et al. Hypermutable DNA chronicles the evolution of human colon cancer
US20210310075A1 (en) Cancer Classification with Synthetic Training Samples
CN113517073B (en) Method for constructing survival rate prediction model after lung cancer surgery and prediction model system
CN109872776A (en) A kind of screening technique and its application based on weighted gene coexpression network analysis to gastric cancer potential source biomolecule marker
CN113270188A (en) Method and device for constructing prognosis prediction model of patient after esophageal squamous carcinoma radical treatment
CN109616198A (en) It is only used for the choosing method of the special DNA methylation assay Sites Combination of the single cancer kind screening of liver cancer
CN106460045A (en) Use of recurrent copy number variations in constitutional human genome for prediction of predisposition to cancer
KR102265529B1 (en) Method for predicting disease risk based on analysis of complex genetic information
CN110010195A (en) A kind of method and device detecting single nucleotide mutation
Ma et al. Gene network-based cancer prognosis analysis with sparse boosting
CN109735619B (en) Molecular marker related to non-small cell lung cancer prognosis and application thereof
US20190385696A1 (en) Method for predicting disease risk based on analysis of complex genetic information
CN110408706A (en) It is a kind of assess recurrent nasopharyngeal carcinoma biomarker and its application
US20170183738A1 (en) Process, Apparatus or System and Kit for Classification of Tumor Samples of Unknown and/or Uncertain Origin and Use of Genes of the Group of Biomarkers
Roškar et al. Models including preoperative plasma levels of angiogenic factors, leptin and IL-8 as potential biomarkers of endometrial cancer
JP2020523991A (en) Prognostic indicators of poor outcomes in the PRAEGNANT metastatic breast cancer cohort
US20220301654A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
CN114898874A (en) Prognosis prediction method and system for renal clear cell carcinoma patient
Garcia-Mora et al. Modeling the recurrence–progression process in bladder carcinoma
KR102534968B1 (en) Method for diagnosing or predicting cancer occurrence

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right