KR20210110241A - Prediction system and method of cancer immunotherapy drug Sensitivity using multiclass classification A.I based on HLA Haplotype - Google Patents

Prediction system and method of cancer immunotherapy drug Sensitivity using multiclass classification A.I based on HLA Haplotype Download PDF

Info

Publication number
KR20210110241A
KR20210110241A KR1020210027731A KR20210027731A KR20210110241A KR 20210110241 A KR20210110241 A KR 20210110241A KR 1020210027731 A KR1020210027731 A KR 1020210027731A KR 20210027731 A KR20210027731 A KR 20210027731A KR 20210110241 A KR20210110241 A KR 20210110241A
Authority
KR
South Korea
Prior art keywords
information
drug
learning
haplotype
response
Prior art date
Application number
KR1020210027731A
Other languages
Korean (ko)
Inventor
정종선
이재학
윤여준
Original Assignee
(주)신테카바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)신테카바이오 filed Critical (주)신테카바이오
Publication of KR20210110241A publication Critical patent/KR20210110241A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a system and method for predicting cancer immunotherapy drug indication and sensitivity with high precision by converting the reactivity of a cancer immunotherapy drug into a dielectric property of a target dielectric substance and a human leucocyte antigen haplotype (hereinafter called the HLA haplotype). According to the present invention, the method comprises the following steps of: receiving analysis target information including the target dielectric substance and drug data; calculating the target HLA haplotype information of the dielectric substance included in the analysis information, and calculating the target configuration information of the drug included in the analysis information; and calculating a reactivity prediction result of the drug with respect to the dielectric substance included in the analysis target information in the reaction correlation between the analysis target dielectric substance information and the analysis target configuration information by the reactivity prediction algorithm and outputting the calculated results. The target configuration information and the HLA haplotype information respectively correspond to the configuration information and the HLA haplotype information applied to each machine learning process. As such, according to the present invention, the present invention is able to use the HLA haplotype information, use a large number of variations in the base sequence collected from the target dielectric substance for the drug reactivity prediction using the HLA haplotype information, predict the HLA haplotypes, calculate the results of the LASSO regression model between the HLA haplotype and the drug reactivity information, calculate the correlation with the gene expression volume by using the GBM regression, and predict drug reactivity for the in silico clinical trial which filters cancer drugs with high sensitivity among drugs in an effective manner.

Description

인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 { Prediction system and method of cancer immunotherapy drug Sensitivity using multiclass classification A.I based on HLA Haplotype }Human leukocyte antigen haplotype-based multiclass classification A.I based on HLA Haplotype

본 발명은 면역항암제의 반응성을 반응 대상 유전체의 유전특성 및 인간백혈구항원 하플로타입(이하 HLA 하플로타입)으로 변환하여 높은 정밀도의 면역항암제 적응증 및 민감성 예측 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for predicting high-precision immunotherapy indications and sensitivity by converting the reactivity of an immuno-oncology agent into a genetic characteristic of a target genome and a human leukocyte antigen haplotype (hereinafter, HLA haplotype).

최근에 차세대시퀀싱 (NGS, next generation sequencing) 기술의 혁신으로 복잡하고 다양한 암을 이해하는데 많은 발전이 이루었다. 또한, 국제적인 컨소시엄의 노력으로 이러한 암 종의 체세포 돌연변이에 대한 카탈로그 뿐만 아니라 총체적인 암 유발 돌연변이(driver mutation) 데이터베이스도 개발 및 발표되었다. 이러한 국제적인 컨소시엄 연구 성과로 인해서 개별 종양의 특정 유전체 지문(genomic fingerprint)에 대한 암 맞춤치료에 대한 기대가 급속도로 커지게 되었다. 그러나 현재 암 환자 및 제약업계를 포함한 의료계의 모든 이해 관계자들에게 임상에서 승인되고 사용되는 새로운 맞춤 암 치료제는 여전히 충분하지 않은 실정이다. 따라서, 유전체정보와 항암제의 반응 사이의 개인 맞춤을 위한 연관성을 예측하기 위한 효율적이고 체계적인 접근이 필요하게 되었다. Recently, innovations in next generation sequencing (NGS) technology have made great strides in understanding complex and diverse cancers. In addition, an international consortium effort has developed and published catalogs of somatic mutations in these carcinomas as well as a comprehensive database of driver mutations. Due to these international consortium research achievements, expectations for cancer-customized treatment for specific genomic fingerprints of individual tumors have rapidly increased. However, there are still not enough new, personalized cancer therapies that are currently approved and used clinically by cancer patients and all stakeholders in the medical community, including the pharmaceutical industry. Therefore, there is a need for an efficient and systematic approach to predict the personalized association between genomic information and anticancer drug response.

암 세포주 및 약물 독성 데이터의 분자 프로파일 링 데이터를 통합하기 위해 여러 가지 협력 컨소시엄이 이루어졌다(www.lincsproject.org). 이러한 컨소시엄은 항암제 독성 및 개인에 특화된 맞춤 약물을 예측할 수 있는 유전체 바이오 마커 (biomarker)를 밝히는 것이 가장 중요한 목표이다. Several collaborative consortia have been established to integrate molecular profiling data of cancer cell lines and drug toxicity data (www.lincsproject.org). The most important goal of this consortium is to discover genomic biomarkers that can predict anticancer drug toxicity and personalized drugs.

암에서의 약물 독성을 위한 세포주 유전체 DB중에서 GDSC (GDSC, Genomics of Drug Sensitivity in Cancer)는 공개적으로 이용 가능한 데이터베이스이다. GDSC는 265개의 항암 화합물에 대하여 1,070 개의 인간 암세포의 약물 독성 정보를 실험적으로 측정한 공용 데이터베이스로, 여기서 사용된 GDSC의 세포주 프로젝트는 다음의 사이트에서 공개되었다 (CCLP: COSMIC Cell Lines Project, http://cancer.sanger.ac.uk/cell_lines). 이러한 공용 자원은 유전체 기반 정밀 암 치료제 실현에 활용될 수 있다.Among the cell line genome databases for drug toxicity in cancer, GDSC (Genomics of Drug Sensitivity in Cancer) is a publicly available database. GDSC is a public database that experimentally measured drug toxicity information of 1,070 human cancer cells for 265 anticancer compounds. The cell line project of GDSC used here was published at the following site (CCLP: COSMIC Cell Lines Project, http:/ /cancer.sanger.ac.uk/cell_lines). These shared resources can be utilized to realize genome-based precision cancer therapeutics.

그러나 이러한 데이터베이스의 잠재적인 가치에도 불구하고 높은 차원의 데이터와 복잡성으로 인해 통합 분석에는 많은 기술적인 문제가 존재한다. 이에 따라, 항암 약물 독성에서 분자 바이오마커를 체계적으로 규명하기 위한 많은 계산 방법이 개발되었지만, 이러한 노력에도 불구하고 약물 독성은 일부 특정 세포주 및 주어진 유전자 변이 세트에 국한되고 있는 실정이다. 왜냐하면, 모든 사람의 유전정보는 모두 다르고, 공통적인 변이는 전체에서 극히 일부이기 때문에 이에 대한 연관성 규명이 불가능하기 때문이다.However, despite the potential value of these databases, the high level of data and complexity present many technical challenges for integrated analysis. Accordingly, many computational methods have been developed to systematically identify molecular biomarkers in anticancer drug toxicity, but despite these efforts, drug toxicity is limited to some specific cell lines and a given set of genetic mutations. This is because the genetic information of all people is different, and since the common mutations are only a small part of the whole, it is impossible to determine the correlation.

정보 기술의 최근 발전으로 앞에서 언급한 복잡한 문제를 해결하기 위해 점점 더 많이 사용되는 방법이 딥러닝 모델(deep learning model), 또는 심층학습 모델이라 부른다. 딥러닝 학습 방법은 대량의 고차원의 원시 데이터로부터 심층 기계 학습을 하는 기술의 한 분야이다. 최근까지는 학습을 하기에 계산양의 한계로 직접적으로 많은 제한이 있었다. 그러나 방법론적 개선과 병렬 컴퓨팅에 의한 강력한 기계를 사용하면서 수천 개의 숨겨진 유닛을 포함하는 다양한 레이어로 딥러닝 학습 모델을 교육할 수 있게 되었다. 이에 따라, 약리적, 유전체, 전사체 및 후성유전체 데이터와 그들의 약물반응성 데이터와 같은 여러 유형의 구조 정보를 학습할 수 있기 때문에 다양성 정보로부터 약물-표적 상호 작용 예측에 적합하게 되었다.With recent developments in information technology, methods increasingly used to solve the aforementioned complex problems are called deep learning models, or deep learning models. Deep learning learning method is a field of technology that performs deep machine learning from a large amount of high-dimensional raw data. Until recently, there were many limitations directly due to the limitation of the amount of computation for learning. However, methodological improvements and the use of powerful machines by parallel computing have made it possible to train deep learning learning models in different layers containing thousands of hidden units. Accordingly, various types of structural information such as pharmacological, genomic, transcriptomic and epigenomic data and their drug reactivity data can be learned, making it suitable for predicting drug-target interactions from diversity information.

제약 업계는 신약 개발을 위해 이러한 유형의 데이터를 활용하는 딥러닝 학습에 많은 기대감을 보여주기 시작했다. 최근에는 약물 개발에서 인공 지능을 사용하여 몇 가지 유망한 결과가 입증되었다. 약물-표적 프로파일 및 다른 전통적인 기계 학습 모델에 비해 우수한 예측 정확도를 갖는 약물 재사용(drug repositioning)도 가능해졌다. 그러나 대다수의 접근방법은 개념 증명에 그쳤고, 딥러닝 학습을 통한 약물 발견의 생산 가능 솔루션은 현재 부족하게 되었다.The pharmaceutical industry is starting to show great anticipation for learning deep learning that leverages this type of data to develop new drugs. Recently, several promising results have been demonstrated using artificial intelligence in drug development. Drug repositioning with superior predictive accuracy compared to drug-target profiles and other traditional machine learning models is also possible. However, most of the approaches have been limited to proof-of-concept, and production-ready solutions for drug discovery through deep learning learning are currently lacking.

현재 PubChem (pubchem.ncbi.nlm.nih.gov)은 미국 NCBI(국립기술정보센터)에서 운영하고 있고, 약 1억개 화합물(compounds), 2억 개의 물질(substances) 및 바이오에세이(bioassay) 정보를 보유하고 있다(en.wikipedia.org/wiki/PubChem). Currently, PubChem (pubchem.ncbi.nlm.nih.gov) is operated by the National Center for Technology Information (NCBI) in the United States, and provides information on about 100 million compounds, 200 million substances, and bioassays. (en.wikipedia.org/wiki/PubChem).

또한, 이러한 화합물(compound)은 약리적 작용기(pharmacophore descriptor)로 표현하는 많은 방법들이 존재한다. 그 중에서, 파델(PaDELL)방법은 약물에서 1,875 (1D 및 2D 1,444개, 그리고 3D 431개) 특징(feature), 및 12개의 지문 (전체 약 16,092 비트)로 표현할 수 있다. 또한, 유전체에서 변이는 다양한 특징들을 추출할 수 있다.In addition, there are many ways to express this compound as a pharmacophore descriptor. Among them, the PaDELL method can be expressed in drugs with 1,875 (1,444 1D and 2D, and 431 3D features), and 12 fingerprints (total about 16,092 bits). In addition, mutations in the genome can extract various features.

이와 같은 종래기술은 개별적으로 QSAR(Quantitative structureactivity relationship), 약물 세포독성 데이터를 사용한 약물개발, 딥러닝 (Deep Learning)기반 전장유전체(whole genome sequencing)의 발현조절, 구조적 변이 등이 독립적으로 적용이 되어 활용될 뿐이어서, 정확성있는 연관성을 예측할 수 없는 문제점이 있었다.In this prior art, QSAR (Quantitative structureactivity relationship), drug development using drug cytotoxicity data, expression control of whole genome sequencing based on Deep Learning, structural variation, etc. are independently applied. Since it is only used, there was a problem that an accurate correlation could not be predicted.

한편, 최근에 유전자발현 및 시스템적 통계적인 방식으로 주어진 약물 및 표적유전자약 그리고 표적 후보유전자들의 발현정보 및 바이오마커 정보를 활용한 약물반응성 연구가 발표되었다. 본 논문에서는 바이오마커 자체에 대한 연구는 없었지만, 알려진 유전자 바이오마커 및 발현정보를 활용하여 주요표적에 대한 주요 약물 몇 개에 대하여 저해 능력(inhibition)을 CCLE(Cancer Cell Line Encyclopedia), CTRP(Cancer Therapeutics Response Portal, Broad) 및 일부 GDSC를 활용하여 예측(CARE)하고 검증하는 결과를 보여주었다.On the other hand, recently, drug reactivity studies using expression information and biomarker information of drug and target gene drug given in a systematic statistical manner and target gene expression and target gene expression were recently published. Although there was no study on biomarkers in this paper, the inhibition of several major drugs against major targets using known gene biomarkers and expression information was evaluated by CCLE (Cancer Cell Line Encyclopedia), CTRP (Cancer Therapeutics). Response Portal, Broad) and some GDSCs were used to predict (CARE) and verify the results.

또한, eQTL (expression and Quantitative Trait Loci), 즉 발현과 유전체 변이간의 질병 혹은 표현형 연관관계에 대한 주요 연구가 많이 발표되었다. 그리고 pQTL (protein and Quantitative Trait Loci), 즉 단백질 생성과 유전체 변이간의 질병 혹은 표현형 연관관계에 대한 주요연구가 많이 발표되었다. In addition, many major studies have been published on the disease or phenotypic association between expression and quantitative trait loci (eQTL), that is, expression and genomic variation. In addition, many major studies have been published on the disease or phenotypic association between protein and Quantitative Trait Loci (pQTL), that is, protein production and genomic mutations.

그러나 이와 같은 선행 연구에서는 cQTL (Copy Number Variation and Quantitative Trait Loci) 즉, 약물반응성 및 유전자 복제수 증가 혹은 감소 변이인 CNV(copy number variation)와 유전체 변이 간의 약물반응 혹은 약물 표현형 연관관계에 대한 연구는 아직까지 발표된 적이 없다. However, in such previous studies, studies on the drug response or drug phenotype association between cQTL (Copy Number Variation and Quantitative Trait Loci), that is, CNV (copy number variation), a mutation that increases or decreases drug reactivity and gene copy number, and genomic mutations were not It has not been announced yet.

따라서, 본 발명에 의한 GBLscan(genetic biomarker label scan)방법에서는 (a) eQTL(expression and Quantitative Trait Loci), 즉 발현과 유전체 변이간의 질병 혹은 표현형 연관관계, (b) cQTL(Copy Number Variation and Quantitative Trait Loci), 즉 유전자 복제 수 변이(copy amplification) 및 감소(copy deletion)와의 (b) 연관관계는 아직 참고문헌이 존재하지 않기 때문에 양적형질위치(QTL) 용어는 본 특허에서 (a)과 유사한 방식의 작업으로 진행됨을 특징으로 한다.Therefore, in the GBLscan (genetic biomarker label scan) method according to the present invention, (a) eQTL (expression and Quantitative Trait Loci), that is, disease or phenotype association between expression and genomic variation, (b) cQTL (Copy Number Variation and Quantitative Trait) Loci), i.e., gene copy number mutation (copy amplification) and copy deletion (copy deletion) (b) as there is no reference yet, so the term quantitative locus (QTL) is used in a similar manner to (a) in this patent. It is characterized by the progress of the work of

Forbes, S. A., et al. COSMIC: somatic cancer genetics at high-resolution. Nucleic Acids Research. 45, 777-783 (2017). Forbes, S. A., et al. COSMIC: somatic cancer genetics at high-resolution. Nucleic Acids Research. 45, 777-783 (2017).

본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로, 본 발명은 공지된 세포주 유전체의 유전자 발현정보 그리고 생체 내 약물 반응과 관련을 약물(drugs)-세포(cell lines)-독성(IC50) 정보기반 선형 회귀 모델링 및 다양한 기계학습을 통해 신뢰성 있게 예측할 수 있는 시스템을 제공하기 위한 것이다.The present invention has been devised to solve the problems described above, and the present invention relates to known cell line genome gene expression information and in vivo drug response to drugs-cell lines-toxicity (IC50). ) to provide a system that can reliably predict through information-based linear regression modeling and various machine learning methods.

그리고 본 발명은 위와 같은 종래기술의 문제점을 해결하기 위한 것으로, A)암 환자에게서 임상적으로 추출하기 어려운 유전자 RNA 발현정보를 양적형질 위치(QTL)로서 선행 계산하고, B) 세포주 DB (GDSC)와 같은 공용 데이터를 이용하여 유전자 RNA 발현정보와 약물반응성 상관관계 실험 정보를 확보 한 후, A) 및 B)통합을 통하여 양적형질 위치(QTL)와 암약물반응 상관성을 계산하여 예측모델을 생성하기 위한 것이다.And the present invention is to solve the problems of the prior art as described above, A) pre-calculating gene RNA expression information that is difficult to extract clinically from cancer patients as quantitative trait location (QTL), B) cell line DB (GDSC) After obtaining gene RNA expression information and drug reactivity correlation experiment information using public data such as it is for

또한, 본 발명은 암 환자에게서 쉽게 구할 수 있는 유전체 정보를 기반으로 기능정보를 포함한 HLA 하플로타입을 계산하여 암환자의 약물반응성정보를 예측하기 위한 것이다.In addition, the present invention is to predict drug reactivity information of cancer patients by calculating the HLA haplotype including functional information based on genomic information that can be easily obtained from cancer patients.

상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 본 발명은, 분석대상이 되는 유전체 및 약물 데이터가 포함된 분석 대상정보를 수신하는 단계와; 상기 분석정보에 포함된 유전체의 분석대상 HLA 하플로타입 정보를 산출하고, 상기 분석정보에 포함된 약물의 분석대상 구성정보를 산출하는 단계와; 반응성 예측 알고리즘에 의해 상기 분석대상 유전체정보와 상기 분석대상 구성정보의 반응 상관관계에 상기 분석 대상정보에 포함된 유전체에 대한 약물의 반응성 예측 결과를 산출하고, 산출된 결과를 출력하는 단계를 포함하여 수행되고: 상기 분석대상 구성정보와 HLA 하플로타입 정보는 각각의 기계학습에 적용된 구성정보 및 HLA 하플로타입 정보에 대응하는 정보임이다.According to a feature of the present invention for achieving the above object, the present invention comprises the steps of: receiving analysis target information including genome and drug data to be analyzed; calculating the analysis target HLA haplotype information of the genome included in the analysis information, and calculating the analysis target composition information of the drug included in the analysis information; Calculating the reactivity prediction result of the drug with respect to the genome included in the analysis target information in the reaction correlation between the analysis target genome information and the analysis target configuration information by a reactivity prediction algorithm, and outputting the calculated result Performed: The analysis target configuration information and HLA haplotype information are information corresponding to configuration information and HLA haplotype information applied to each machine learning.

한편, 본 발명에서는 약물(drugs)-세포(cell lines)-독성(IC50) 데이터에 이종 특성정보(유전체정보, QSAR정보 및 발현정보)를 통합한 AI 딥러닝 방법인 CDRscan(Cancer drug response scanning)은 예측 정확도가 이전 컴퓨터 모델링 접근법과 비교하여 더욱 향상되었다. 특히, 본 발명은 버추얼 약물(drugs) vs 버추얼 세포(cell lines) 혹은 표적단백질의 상호작용 모델을 제공할 수 있다. 여기서, 2개의 다른 이종 특성 버추얼 정보는 첫 번째가 약물의 경우 파델(PaDELL)방법으로 설명이 된다. Meanwhile, in the present invention, CDRscan (Cancer drug response scanning), an AI deep learning method that integrates heterogeneous characteristic information (genomic information, QSAR information and expression information) into drug-cell lines-toxicity (IC50) data The prediction accuracy is further improved compared to previous computer modeling approaches. In particular, the present invention can provide an interaction model of virtual drugs vs. virtual cells (cell lines) or target proteins. Here, two different heterogeneous characteristic virtual information is explained by the PaDELL method in the case of the first drug.

그리고 본 발명에서는 전장 유전체(또는 표적 단백질)의 지문(Genomic fingerprint, or a set of mutation features)에 대한 문헌방법으로 설명이 될 수 있고, 정확한 약물반응 예측모델 및 약물 재사용/재배치 (drug repositioning), 화학 물질의 스크리닝 및 새로운 항암제 후보 발굴 및 환자 맞춤형 항암제 선택을 위한 임상의사결정지원시스템(Clinical decision supporting system)에 사용할 수 있다. And in the present invention, it can be described as a literature method for the genomic fingerprint, or a set of mutation features of the whole genome (or target protein), and an accurate drug response prediction model and drug reuse / repositioning (drug repositioning), It can be used as a clinical decision supporting system for screening chemical substances, discovering new anticancer drug candidates, and selecting patient-specific anticancer drugs.

한편, 본 발명은, 분석정보를 수신하여 상기 분석정보에 포함된 유전체에 대한 약물의 반응성 예측결과를 산출하는 면역항암제 적응증 및 반응 예측 방법에 있어서, 분석대상이 되는 유전체 및 약물 데이터가 포함된 분석 대상정보를 수신하는 단계와; 상기 분석정보에 포함된 유전체의 분석대상 HLA 하플로타입 정보를 산출하고, 상기 분석정보에 포함된 약물의 분석대상 구성정보를 산출하는 단계와; 반응성 예측 알고리즘에 의해 상기 분석대상 유전체정보와 상기 분석대상 구성정보의 반응 상관관계에 상기 분석 대상정보에 포함된 유전체에 대한 약물의 반응성 예측 결과를 산출하고, 산출된 결과를 출력하는 단계를 포함하여 수행되고: 상기 분석대상 구성정보와 HLA 하플로타입 정보는 각각의 기계학습에 적용된 구성정보 및 HLA 하플로타입 정보에 대응하는 정보일 수 있다.On the other hand, the present invention, in the immuno-oncology indication and response prediction method for receiving the analysis information and calculating the reactivity prediction result of the drug with respect to the genome included in the analysis information, the analysis including the genome and drug data to be analyzed receiving target information; calculating the analysis target HLA haplotype information of the genome included in the analysis information, and calculating the analysis target composition information of the drug included in the analysis information; Calculating the reactivity prediction result of the drug with respect to the genome included in the analysis target information in the reaction correlation between the analysis target genome information and the analysis target configuration information by a reactivity prediction algorithm, and outputting the calculated result Performed: The analysis target configuration information and HLA haplotype information may be information corresponding to configuration information and HLA haplotype information applied to each machine learning.

이때, 상기 분석대상 구성정보와 HLA 하플로타입 정보는, 약물을 구성하는 관능기 정보 및 상기 유전체에 포함된 HLA 하플로타입 정보일 수도 있다.In this case, the analysis target composition information and HLA haplotype information may be functional group information constituting the drug and HLA haplotype information included in the genome.

그리고 상기 분석대상 구성정보와 HLA 하플로타입 정보는, 약물을 구성하는 관능기 정보 및 상기 유전체에 포함된 변이들에 대한 특성 정보일 수도 있다.In addition, the analysis target composition information and HLA haplotype information may be functional group information constituting a drug and characteristic information on mutations included in the genome.

여기서, 상기 반응성 예측 알고리즘은, 수집된 학습정보로부터 유전체에 포함된 HLA 하플로타입 정보에 대한 약물을 구성하는 구성정보의 반응성 상관관계를 다중 분류 기계학습에 의해 학습된 알고리즘일 수도 있다.Here, the reactivity prediction algorithm may be an algorithm learned by multi-classification machine learning of the reactivity correlation of constituent information constituting the drug with respect to the HLA haplotype information included in the genome from the collected learning information.

그리고 상기 기계학습은, 학습대상 데이터를 다수의 세포주와 다수의 약물에 따라 구분하여 정렬하고, 이에 대하여 모든 유전체 유변들을 반응성(IC50)을 기준으로 합성곱 기반으로 학습하는 LASSO 회귀분석(regression) 과정과; 학습대상 데이터를 다수의 셀라인과 다수의 약물에 따라 구분하여 정열하고, 이에 대하여 모든 유전자의 발현량 정보를 기준으로 합성곱 기반으로 학습하는 GBM 회귀분석(regression) 과정; 그리고 상기 LASSO 회귀분석(regression) 과정 및 GBM 회귀분석(regression) 과정으로부터 산출된 HLA 하플로타입 정보와 각 약물 반응성과 유전자 발현량에 대한 파라미터들을 병합한 상태로 합성곱기반으로 학습하는 LASSO 분류(classification) 과정을 포함하여 수행될 수도 있다.And the machine learning is a LASSO regression process that classifies and aligns the learning target data according to a plurality of cell lines and a plurality of drugs, and learns all genomic variables based on the reactivity (IC50) based on the convolutional product. class; GBM regression process for classifying and arranging learning target data according to multiple cell lines and multiple drugs, and learning based on convolution based on expression level information of all genes; And LASSO classification that learns based on convolution with the HLA haplotype information calculated from the LASSO regression process and the GBM regression process and the parameters for each drug reactivity and gene expression level merged ( classification) process.

또한, 상기 기계학습은, 최종 분석 대상인 HLA 하플로타입 정보와 약물 반응성 정보(IC50)를 학습요소로 하여 기계학습을 수행하는 LASSO 기계학습에 의해 수행될 수도 있다.In addition, the machine learning may be performed by LASSO machine learning that performs machine learning using HLA haplotype information and drug responsiveness information (IC50), which are final analysis targets, as learning elements.

그리고 상기 LASSO 기계학습은, (A) 학습데이터 생성부가 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와; (B) 상기 학습정보에 포함된 HLA 하플로타입들에 대한 유전정보들을 생성하는 단계와; (C) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와; (D) 상기 학습정보에 포함된 HLA 하플로타입 정보 군에 대한 약물을 구성하는 구성정보 군에 대한 반응도를 나타낸 전처리된 학습데이터들을 생성하는 단계와; (E) 상기 전처리된 학습데이터들에 대한 기계학습을 통해, 개별 HLA 하플로타입 정보에 대한 개별 구성정보의 반응 상관관계를 도출하는 단계; 그리고 (F) 학습된 상기 HLA 하플로타입 정보에 대한 상기 구성정보의 반응 상관관계를 통해, HLA 하플로타입 정보들을 포함하는 유전체에 대한 구성정보들로 구성되는 약물의 반응성 예측 알고리즘을 생성하는 단계;를 포함하여 수행될 수도 있다.And the LASSO machine learning comprises the steps of: (A) collecting, by a learning data generator, learning information indicating a degree of response to each drug for each cell line genome; (B) generating genetic information for HLA haplotypes included in the learning information; (C) generating configuration information constituting the drug included in the learning information; (D) generating pre-processed learning data indicating a degree of response to a group of constituent information constituting a drug to the HLA haplotype information group included in the learning information; (E) deriving a response correlation of individual configuration information to individual HLA haplotype information through machine learning on the pre-processed learning data; and (F) generating a drug reactivity prediction algorithm composed of constituent information about the genome including HLA haplotype information through the response correlation of the constituent information to the learned HLA haplotype information. It may be performed by including ;.

한편, 상기 기계학습은, HLA 하플로타입 정보와 특정 유전자의 발현량을 학습요소로하여 기계학습을 수행하는 GBM 기계학습에 의해 수행될 수도 있다.Meanwhile, the machine learning may be performed by GBM machine learning that performs machine learning using HLA haplotype information and the expression level of a specific gene as learning factors.

그리고 상기 GBM 기계학습은, (a) 학습데이터 생성부가 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와; (b) 상기 학습정보에 포함된 HLA 하플로타입들에 대한 유전정보들을 생성하는 단계와; (c) 각 유전체에 포함된 상기 HLA 하플로타입 정보 군에 대한 약물의 반응도를 나타내는 HLA 하플로타입 정보 전처리 데이터들을 생성하는 단계와; (d) 상기 유전정보 학습정보들에 대한 다중 분류 기계학습을 통해 각 유전정보에 대한 약물의 반응 상관관계를 도출하는 단계와; (e) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와; (f) 각 유전체에 대한 약물을 구성하는 구성정보 군의 반응도를 나타내는 구성정보 전처리 학습데이터들을 생성하고, 상기 구성정보 학습데이터들에 대한 GBM 알고리즘을 통해 각 유전체에 대한 각 구성정보의 반응 상관관계를 도출하는 단계와; (g) 각 유전자 발현량 정보에 대한 약물의 반응 상관관계와, 각 유전체에 대한 각 HLA 하플로타입 정보의 상관관계를 통해 개별 하플로타입 정보에 대한 개별 유전자 발현량 정보의 반응 상관관계를 도출하는 단계;를 포함하여 수행될 수도 있다.And the GBM machine learning comprises the steps of: (a) collecting, by the learning data generator, learning information indicating the degree of response to each drug for each cell line genome; (b) generating genetic information for HLA haplotypes included in the learning information; (c) generating HLA haplotype information pre-processing data indicating a drug's reactivity to the HLA haplotype information group included in each genome; (d) deriving a drug response correlation to each genetic information through multi-classification machine learning for the genetic information learning information; (e) generating configuration information constituting the drug included in the learning information; (f) generates compositional information preprocessing learning data indicating the reactivity of the compositional information group constituting the drug for each genome, and the response correlation of each compositional information for each genome through the GBM algorithm for the compositional information learning data deriving; (g) Deriving the response correlation of individual gene expression level information to individual haplotype information through the correlation between the drug response to each gene expression level information and each HLA haplotype information for each genome It may be carried out including;

여기서, 상기 학습정보는, 다양한 세포주들에 대한 다양한 약물의 반응성에 대한 시험 결과데이터일 수도 있다.Here, the learning information may be test result data on the reactivity of various drugs to various cell lines.

그리고 상기 HLA 하플로타입 정보는, 변이정보 또는 변이들에 대한 특성정보일 수도 있다.In addition, the HLA haplotype information may be mutation information or characteristic information on mutations.

또한, 상기 구성정보는, 약물을 구성하는 관능기 정보일 수도 있다.In addition, the composition information may be functional group information constituting the drug.

그리고 상기 제(E)단계의 약물 반응성의 기준은, 수용억제지수 IC50을 기준으로 판단될 수도 있다.And the criterion of drug reactivity in the step (E) may be determined based on the acceptance inhibition index IC50.

한편, 본 발명은, 분석정보를 수신하여 상기 분석정보에 포함된 유전체에 대한 약물의 반응성 예측결과를 산출하는 면역항암제 적응증 및 반응 예측 시스템에 있어서, 분석 대상이 되는 유전체 및 약물 데이터가 포함된 분석대상 정보를 입력받는 입력부와; 상기 분석대상 정보에 포함된 유전자 발현량 데이터 및 약물 데이터를 각각 기계학습에 사용된 HLA 하플로타입 정보 및 구성정보에 대응하는 형태로 구성되는 비교데이터를 생성하는 비교데이터 생성부; 그리고 반응성 예측 알고리즘 구성부에 의해 도출된 반응성 예측 알고리즘에 의해, 분석대상 정보에 포함된 유전체에 대한 약물의 반응 예측결과를 산출하는 예측결과 생성부를 포함하여 구성되는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템을 포함한다.On the other hand, the present invention is an immuno-oncology indication and response prediction system that receives analysis information and calculates a result of predicting drug reactivity with respect to the genome included in the analysis information, analysis including the target genome and drug data an input unit for receiving target information; a comparison data generation unit for generating comparison data comprising gene expression data and drug data included in the analysis target information in a form corresponding to HLA haplotype information and configuration information used for machine learning, respectively; And, by the reactivity prediction algorithm derived by the reactivity prediction algorithm component part, the human leukocyte antigen haplotype-based multi-classification comprising a prediction result generating unit that calculates the response prediction result of the drug to the genome included in the analysis target information It includes an immuno-oncology indication and response prediction system using an artificial intelligence model.

이때, 상기 HLA 하플로 타입 정보는, 우도-기반 추정(likelihood-based inference)을 이용하여 다수의 다형성 마커 및 SNP를 허용하는 프로그램에 의해 산출될 수도 있다.In this case, the HLA haplotype information may be calculated by a program that allows a plurality of polymorphic markers and SNPs using likelihood-based inference.

위에서 살핀 바와 같은 본 발명에 의한 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법에서는 다음과 같은 효과를 기대할 수 있다.The following effects can be expected from the system and method for predicting immunotherapy indications and responses using the human leukocyte antigen haplotype-based multi-classification artificial intelligence model according to the present invention as discussed above.

즉, 본 발명에서는 HLA 하플로타입 정보를 활용하여 약물반응성 예측 모델을 계산하기 위해, 검사 대상 유전체로부터 수집된 염기서열에서 다수의 변이들을 활용하여 HLA 하플로타입들을 예측하는 단계와 HLA 하플로타입과 약물반응성 정보간의 LASSO regression 모델의 해를 계산하는 단계와 이러한 해를 이용하여 유전자 발현량과의 상관관계를 GBM regression을 이용해 효과적으로 약물 중에 민감성이 높은 암 약물을 필터링하는 가상임상(In Silico Clinical Trial)을 위한 약물 반응성을 예측할 수 있는 효과가 있다.That is, in the present invention, in order to calculate a drug reactivity prediction model by using HLA haplotype information, a step of predicting HLA haplotypes using a plurality of mutations in a nucleotide sequence collected from a genome to be tested and HLA haplotype The step of calculating the solution of the LASSO regression model between the drug and drug reactivity information and the correlation with the gene expression level using this solution, using GBM regression to effectively filter out highly sensitive cancer drugs among drugs (In Silico Clinical Trial) It has the effect of predicting drug reactivity for

도 1은 본 발명에 의한 HLA 하플로타입을 기준으로 약물반응성과 유전자 발현량의 다중 분류 방법을 구현하기 위한 시스템을을 도시한 예시도.
도 2는 본 발명에 의한 세포주 약물반응 값(IC50)과 HLA 하플로타입의 상관관계를 LASSO regression으로 계산한 결과를 도시한 예시도.
도 3은 본 발명에 의한 약물의 반응성 정보(IC50)와 유전자 발현량의 상관관계를 도시한 예시도.
도 4는 본 발명의 의한 다중 분류 기계학습 모델을 통해 예측되고 검사된 HLA 하플로타입의 상관관계를 도시한 예시도.
도 5 내지 도 9는 본 발명의 의한 다중 분류 기계학습 모델을 통해 예측된 HLA 하플로타입과 5가지 암 약물과의 민감도를 시험한 결과를 나타낸 도면.
1 is an exemplary view illustrating a system for implementing a method for multiple classification of drug reactivity and gene expression level based on HLA haplotype according to the present invention.
Figure 2 is an exemplary view showing the result of calculating the correlation between the cell line drug response value (IC50) and HLA haplotype according to the present invention by LASSO regression.
Figure 3 is an exemplary view showing the correlation between the reactivity information (IC50) and gene expression level of the drug according to the present invention.
4 is an exemplary diagram illustrating the correlation of HLA haplotypes predicted and tested through the multi-classification machine learning model according to the present invention.
5 to 9 are diagrams showing the results of testing the sensitivity between the HLA haplotype predicted through the multi-class machine learning model according to the present invention and five cancer drugs.

이하에서는 첨부된 도면을 참조하여 본 발명의 구체적인 실시예에 의한 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법을 살펴보기로 한다.Hereinafter, with reference to the accompanying drawings, a system and method for predicting immunotherapy indications and responses using a human leukocyte antigen haplotype-based multi-classification artificial intelligence model according to a specific embodiment of the present invention will be described.

이하에서는, 본 발명에 의한 면역항암제 적응증 및 반응 예측 시스템의 주요 분석 내용에 대하여 살피기로 한다.Hereinafter, the main analysis contents of the immuno-oncology indication and response prediction system according to the present invention will be reviewed.

1. 마커 및 하플로타입의 평가 1. Evaluation of markers and haplotypes

유전적 다양성을 보이는 개체의 집단은 같은 유전체를 갖지 않는다. 오히려, 유전체는 유전체 내의 다수의 위치에서 개체 간에 서열 변이성(sequence variability)을 보인다. 즉, 개체군 내에 다수의 다형성 부위들이 있다. 일부 경우에, 기준 대립형질(reference allele) 없이, 하나의 다형성 부위의 상이한 대립형질들이 나타날 수 있다. 대안적으로, 특정한 다형성 부위에 대해 기준 서열이 언급될 수 있다.Populations of individuals with genetic diversity do not have the same genome. Rather, the genome exhibits sequence variability between individuals at multiple locations within the genome. That is, there are multiple polymorphic sites within the population. In some cases, in the absence of a reference allele, different alleles of one polymorphic site may appear. Alternatively, a reference sequence may be referenced for a particular polymorphic site.

"마커(marker)"는 특정한 변이체 대립형질의 특징적인 게놈 서열을 의미한다. 마커는 SNP, 마이크로새틀라이트(microsatellite), 삽입, 결실, 중복 및 전좌(translocation)를 포함한 게놈에서 발견되는 임의의 변이체 유형의 대립형질을 포함할 수 있다.By “marker” is meant a characteristic genomic sequence of a particular variant allele. Markers may include alleles of any variant type found in the genome, including SNPs, microsatellites, insertions, deletions, duplications and translocations.

"하플로타입(haplotype)"은 세그먼트를 따라 배열된 유전적 마커(대립형질)의 특정한 조합을 특징으로 하는 유전체 DNA 가닥의 세그먼트를 의미한다. 예로, 하플로타입은 하나 이상의 대립형질, 두 개 이상의 대립형질, 세 개 이상의 대립형질, 네 개 이상의 대립형질 또는 다섯 개 이상의 대립형질을 포함할 수 있다. 본 발명에 기재된 용어, "반응성"은 증가된 감수성 및 감소된 감수성을 모두 포괄한다. 따라서, 본 발명의 특정한 마커 및 하플로타입은 증가된 감수성을 특징으로 할 수 있다. 증가된 감수성을 부여하는 마커 및 하플로타입은 또한 그들이 약물 반응성을 부여하는 것으로 간주된다. "Haplotype" means a segment of a genomic DNA strand characterized by a particular combination of genetic markers (alleles) arranged along the segment. For example, a haplotype may comprise one or more alleles, two or more alleles, three or more alleles, four or more alleles, or five or more alleles. As used herein, the term “reactivity” encompasses both increased sensitivity and decreased sensitivity. Thus, certain markers and haplotypes of the invention may be characterized by increased sensitivity. Markers and haplotypes that confer increased sensitivity are also considered to confer drug responsiveness.

2. 하플로타입 분석 및 예측2. Haplotype analysis and prediction

하플로타입 분석에 대한 접근방식은 Nested Model에 적용된 우도-기반 추정(likelihood-based inference)을 이용하는 단계를 포함한다. 본 방법은 다수의 다형성 마커 및 SNP를 허용하는 프로그램인 HLAscan에서 구현된다. 그 방법은 구체적으로 그 목적이 상이한 특징을 부여하는 하플로타입 군을 확인하는 것인 케이스-컨트롤(case-control) 연구를 위해 설계된다. 이는 또한 LD 구조를 연구하기 위한 도구이다. An approach to haplotype analysis involves using likelihood-based inference applied to a nested model. The method is implemented in HLAscan, a program that accepts multiple polymorphic markers and SNPs. The method is specifically designed for case-control studies whose purpose is to identify a group of haplotypes that confer different characteristics. It is also a tool for studying LD structures.

이때, 최대 우도 추정값, 우도 비율 및 모수 p-값은 직접 계산되고, 데이터는 이를 결실된-데이터 문제로 처리한다.In this case, the maximum likelihood estimate, the likelihood ratio, and the parameter p-value are calculated directly, and the data treats it as a deleted-data problem.

그리고 유효한 p-값을 산출하기 위해서는, 결실된 유전형의 불확실성 때문에, 정보 손실이 발생된 관찰 데이터에 대해 직접 계산된 우도에 기반한 우도 비율 검정에 의존할 수 있다 즉, 정보가 불완전하기 때문에 얼마나 많은 정보가 손실되었는지를 아는 것은 주요한 사항이다.And to produce a valid p-value, because of the uncertainty of the deleted genotype, one can rely on a likelihood ratio test based on the likelihood calculated directly on the observed data in which the information loss occurred, i.e. how much information is incomplete because the information is incomplete. It is important to know if is lost.

3. 연관 분석을 위한 기계 학습 방법3. Machine Learning Methods for Association Analysis

기계학습 분야에서는 크게 정답이 있는 지도 학습과 비지도 학습으로 나누어진다. 지도학습이란 정답을 알려주면서 진행되는 학습이다. 따라서 학습 시 데이터와 함께 정답이 항상 제공되어야 한다. 지도학습에서 정답, 실제값, 레이블, 타깃, 클래스, y 값이라는 단어가 많이 혼용되지만 다 같은 의미이다. 주어진 데이터와 레이블을 이용해 새로운 데이터의 레이블을 예측해야 할 때 사용된다. 데이터와 함께 레이블이 있어 손쉽게 모델의 성능을 평가할 수 있다는 장점이 있다. 지도학습의 예로는 분류와 회귀가 대표적인 문제이다. 분류와 회귀의 가장 큰 차이점은 데이터가 입력됐을 때 분류는 분리된 값으로 예측하고, 회귀는 연속된 값으로 예측한다는 데 있다. 본 발명의 데이터는 반응성과 비반응성으로 나뉘어진다. In the field of machine learning, it is largely divided into supervised learning with correct answers and unsupervised learning. Supervised learning is learning that proceeds by giving the correct answer. Therefore, the correct answer should always be provided along with the data when learning. In supervised learning, the words correct answer, actual value, label, target, class, and y value are often used interchangeably, but they all mean the same thing. It is used when you need to predict the label of new data using the given data and labels. It has the advantage of being able to easily evaluate the performance of the model because it is labeled with the data. Classification and regression are typical examples of supervised learning. The biggest difference between classification and regression is that when data is input, classification predicts discrete values and regression predicts continuous values. The data of the present invention are divided into reactive and non-reactive.

본 발명에서는 분류에 특화된 기계학습 방법인 LASSO와 Gradient Boosting Model(GBM)을 사용하여 분석이 진행된다.In the present invention, analysis is performed using LASSO and Gradient Boosting Model (GBM), which are machine learning methods specialized for classification.

LASSO(least absolute shrinkage and selection operator) 기계학습은 추정의 정확도를 높이기 위해서 변수 선택과 제약(regularization)을 이용한 분석방법이다. LASSO (least absolute shrinkage and selection operator) machine learning is an analysis method using variable selection and regularization to increase the accuracy of estimation.

이는, 기본 OLS 추정식에서 제약을 추가해 추정계수가 너무 많아져 과적합 되는 문제를 일부 개선하고 추정의 정확도를 높이는 효과가 존재한다. LASSO는 제약조건 영역이 정사각형이므로 상대적으로 추정값이 모서리에 닿아 계수값이 0이 될 가능성이 많다. 즉, 설명력이 없는 입력변수들의 계수를 0으로 추정함으로써 자동적인 변수선택이 이루어진다. 또한, LASSO는 특정 입력변수의 축소를 통해 연속적으로 변수를 선택한다는 장점을 가진다.This has the effect of partially improving the problem of overfitting due to too many estimation coefficients by adding a constraint to the basic OLS estimation equation and increasing the accuracy of the estimation. In LASSO, since the constraint region is square, the estimate value reaches the edge and the coefficient value is likely to be 0. That is, automatic variable selection is made by estimating the coefficients of input variables without explanatory power to 0. In addition, LASSO has the advantage of continuously selecting variables through reduction of specific input variables.

GBM은 경사하강법(Gradient Desent)와 부스팅(Boosting)의 합성어로 부스팅에 경사하강법을 접목시킨 강력한 알고리즘이다. 경사하강법이란 오차 함수를 미분한 값과 반대되는 방향으로 움직여 오차가 줄어들게 최적화 방법이고, 부스팅(boosting)이란 단순하고 약한 학습기를 결합해서 더욱 정확하고 강력한 학습기를 만드는 방식을 의미한다. 정확도가 낮더라도 일단 모델을 만들고, 계산된 오차를 그다음 모델이 보완하는 방법이다. 랜덤 포레스트와는 달리 GBM은 이전 트리의 오차를 보완하는 방식으로 순차적으로 트리를 만든다. 보통 하나에서 다섯 정도의 깊지 않은 트리를 사용하므로 메모리를 적게 사용하고 예측도 빠르다. 이런 얕은 트리 구조의 간단한 모델을 다수 연결하는 알고리즘이다.GBM is a compound word of gradient descent and boosting, and is a powerful algorithm that combines boosting with gradient descent. Gradient descent is an optimization method that reduces errors by moving the error function in the opposite direction to the differential value, and boosting refers to a method of creating more accurate and powerful learners by combining simple and weak learners. Even if the accuracy is low, it is a method to create a model first, and then the model compensates for the calculated error. Unlike random forest, GBM builds trees sequentially in a way that compensates for errors in the previous tree. Usually one to five shallow trees are used, so it uses less memory and predicts faster. It is an algorithm that connects multiple simple models of such a shallow tree structure.

4. 분석 대상 및 알고리즘의 구성4. Composition of Analysis Objects and Algorithms

본 발명에 의한 면역항암제 적응증 및 반응 예측 시스템은, 도 1에 도시된 바와 같이, 인간백혈구항원 하플로타입을 기반으로 해당 HLA 하플로타입과 질병의 약물(항암제) 반응성(IC50)과 특정 유전자의 발현량과의 연관 관계 분석을 통해 약물의 반응을 예측하는 기계학습 시스템이다.As shown in FIG. 1, the immuno-oncology indication and response prediction system according to the present invention is based on the human leukocyte antigen haplotype and the corresponding HLA haplotype and the drug (anticancer agent) reactivity (IC50) and specific genes of the disease. It is a machine learning system that predicts the response of a drug by analyzing the relationship with the expression level.

상기 방법은 독립적으로 설계된 서로 다른 기계학습 함수들(3개)에 의해 예측된 해당 항암제와 특정 HLA 하플로타입을 발굴하여 최종 해당 약물의 반응성 여부를 산출한다.The method discovers a corresponding anticancer drug and a specific HLA haplotype predicted by different independently designed machine learning functions (3), and finally calculates whether the drug is reactive or not.

이때, 상기 서로 다른 기계학습 함수는 이를 크게 구분하면, 1) 최종 분석 대상인 HLA 하플로타입 정보와 약물 반응성 정보(IC50)를 학습요소로 하여 기계학습을 수행하는 기계학습 함수와, 2) HLA 하플로타입 정보와 특정 유전자의 발현량을 학습요소로 하여 기계학습을 수행하는 기계학습 함수 그리고 3) 유전체와 하플로타입 정보를 학습요소로 기계학습을 수행하여 각각 1차 학습된 연관관계를 산출한 후, 이들 정보에 대하여 2차 학습을 수행하도록 하는 기계학습 함수로 구분된다.At this time, the different machine learning functions are broadly classified: 1) a machine learning function that performs machine learning using HLA haplotype information and drug responsiveness information (IC50), which are the final analysis target, as learning elements, and 2) HLA under A machine learning function that performs machine learning using flow type information and expression levels of specific genes as learning factors, and 3) machine learning using genome and haplotype information as learning factors to calculate the first-learned relationship. Then, it is divided into a machine learning function that performs secondary learning on these information.

이하에서는 이를 구현 및 수행하기 위한 본 발명의 구성 및 방법을 도면을 참조하여 설명하기로 한다.Hereinafter, the configuration and method of the present invention for implementing and performing this will be described with reference to the drawings.

본 발명에 의한 면역항암제 적응증 및 반응 예측 시스템은, 예측모듈을 포함하여 구성되는데, 상기 예측 모듈은 분석정보를 수신하여 상기 분석정보에 포함된 유전체에 대한 약물의 반응성 예측결과를 산출하는 부분으로, 이를 위해 상기 예측모듈은 입력부, 비교데이터 생성부 및 예측결과 생성부를 포함하여 구성된다.The immuno-oncology indication and response prediction system according to the present invention comprises a prediction module, wherein the prediction module receives analysis information and calculates a result of predicting drug reactivity with respect to the genome included in the analysis information, To this end, the prediction module is configured to include an input unit, a comparison data generation unit, and a prediction result generation unit.

이때, 상기 입력부는 분석대상 정보를 입력받는 부분으로, 상기 입력대상 정보는 분석 대상이 되는 유전체 및 약물 데이터가 포함된 정보를 말한다.In this case, the input unit receives analysis target information, and the input target information refers to information including genome and drug data to be analyzed.

그리고 상기 비교데이터 생성부는 상기 분석대상 정보에 포함된 유전자 발현량 데이터 및 약물 데이터를 각각 기계학습에 사용된 HLA 하플로타입 정보 및 구성정보에 대응하는 형태로 구성된 비교데이터를 생성하는 부분이다. 즉, 상기 비교데이터 생성부는, 상기 기계학습이 HLA 하플로타입 정보와 관능기정보로 수행된 경우, 상기 분석대상 정보에 포함된 유전체의 HLA 하플로타입 데이터를 산출하고, 분석대상 정보에 포함된 관능기 정보를 산출한다.And the comparison data generation unit is a part that generates comparison data composed of gene expression data and drug data included in the analysis target information in a form corresponding to HLA haplotype information and configuration information used for machine learning, respectively. That is, when the machine learning is performed with HLA haplotype information and functional group information, the comparison data generator calculates HLA haplotype data of the genome included in the analysis target information, and the functional group included in the analysis target information yield information.

물론, 상기 기계학습이 유전자 발현량 정보와 관능기정보로 수행된 경우, 상기 비교데이터 생성부는, 상기 분석대상 정보에 포함된 유전체의 유전자 발현량에 대한 특성정보를 산출하고, 분석대상 정보에 포함된 관능기 정보를 산출한다.Of course, when the machine learning is performed with gene expression level information and functional group information, the comparison data generation unit calculates characteristic information about the gene expression level of the genome included in the analysis target information, and includes Functional group information is calculated.

그리고 상기 예측결과 생성부는 상기 반응성 예측 알고리즘 구성부에 의해 도출된 반응성 예측 알고리즘에 의해, 분석대상 정보에 포함된 유전체에 대한 약물의 반응 예측결과를 산출하는 부분이다.And the prediction result generation unit is a part that calculates the prediction result of the drug response to the genome included in the analysis target information by the reactivity prediction algorithm derived by the reactivity prediction algorithm component.

한편, 본 발명에 의한 면역항암제 적응증 및 반응 예측 방법은, 상기 입력부가 분석대상이 되는 유전체 및 약물 데이터가 포함된 분석 대상정보를 수신하는 것으로부터 시작된다.On the other hand, the method for predicting the indication and response of an immuno-oncology drug according to the present invention starts with the input unit receiving the analysis target information including the genome and drug data to be analyzed.

이후, 상기 비교데이터 생성부는 상기 분석정보에 포함된 유전체의 분석대상 HLA 하플로타입 정보를 산출하고, 상기 분석정보에 포함된 약물의 분석대상 구성정보를 산출한다.Then, the comparison data generation unit calculates the analysis target HLA haplotype information of the genome included in the analysis information, and calculates the analysis target composition information of the drug included in the analysis information.

이때, 전술한 바와 같이, 상기 분석대상 구성정보와 HLA 하플로타입 정보는 각각의 기계학습에 적용된 구성정보 및 HLA 하플로타입 정보에 대응하는 것으로, 각각 약물을 구성하는 관능기 정보 및 상기 유전체에 포함된 HLA 하플로타입 정보 또는 상기 유전체에 포함된 변이들에 대한 특성 정보일 수 있다.At this time, as described above, the analysis target configuration information and HLA haplotype information correspond to the configuration information and HLA haplotype information applied to each machine learning, and are included in the functional group information constituting the drug and the genome, respectively. It may be HLA haplotype information or characteristic information on mutations included in the genome.

그리고 상기 반응성 예측 알고리즘에 의해 상기 분석대상 유전체정보와 상기 분석대상 구성정보의 반응 상관관계에 상기 분석 대상정보에 포함된 유전체에 대한 약물의 반응성 예측 결과를 산출하고, 산출된 결과를 출력한다.And the reactivity prediction algorithm calculates the reactivity prediction result of the drug with respect to the genome included in the analysis target information in the reaction correlation between the analysis target genome information and the analysis target composition information, and outputs the calculated result.

이하에서는 이와 같은 본 발명에 의한 면역항암제 적응증 및 반응 예측 시스템 및 방법의 구현을 위한 기계학습의 기본적인 구성을 살펴보기로 한다.Hereinafter, the basic configuration of machine learning for the implementation of the system and method for predicting immuno-oncology indications and responses according to the present invention will be described.

(1) 유전형 분석 및 하플로타입 분석(1) Genotyping and haplotype analysis

먼저, 도 1에 도시된 바와 같이, 본 발명에 의한 약물 적응증 및 반응 예측은 HLA 하플로티입 예측 단계, 기계학습 단계, 통계적 분석 단계를 포함하여 수행된다.First, as shown in FIG. 1 , the drug indication and response prediction according to the present invention is performed including the HLA haplotype prediction step, the machine learning step, and the statistical analysis step.

이때, 상기 HLA 하플로 타입 예측 단계는, 우도-기반 추정(likelihood-based inference)을 이용하여 다수의 다형성 마커 및 SNP를 허용하는 프로그램인 HLAscan을 통해 예측한다.In this case, the HLA haplotype prediction step predicts through HLAscan, a program that allows multiple polymorphic markers and SNPs using likelihood-based inference.

이와 같은 HLA 하플로타입 예측의 기술적 구성은, 본 출원인의 선출원 등록 발명인 특허등록 제10-1815529호(휴먼하플로타이핑 시스템 및 방법)에도 일부 개시된 바 있다.The technical configuration of such HLA haplotype prediction has also been partially disclosed in Patent Registration No. 10-1815529 (Human Haplotyping System and Method), which is an earlier application of the present applicant.

(2) 연관성 분석(association analysis)을 위한 기계학습 방법(2) Machine learning method for association analysis

기계학습 단계는 수집된 학습정보로부터 유전체에 포함된 HLA 하플로타입 정보에 대한 약물을 구성하는 구성정보의 반응성 상관관계를 다중 분류 기계학습에 의해 학습하는 부분이다. The machine learning step is a part that learns the reactivity correlation of the constituent information constituting the drug to the HLA haplotype information contained in the genome from the collected learning information by multi-classification machine learning.

세포주에 대한 약물의 반응성 정보와 세포주에 대한 약물 처리 전후 유전자들의 발현량 정보, 암 세포에 대한 약물 감도는 유전체학 데이터베이스(GDSC)로부터 수집된다.Information on drug responsiveness to cell lines, expression levels of genes before and after drug treatment for cell lines, and drug sensitivity to cancer cells are collected from the genomics database (GDSC).

이와 같은 기능을 수행하기 위해 상기 기계학습 모델은 LASSO regression, GBM regression, LASSO classification을 포함하여 구성된다.In order to perform such a function, the machine learning model is configured to include LASSO regression, GBM regression, and LASSO classification.

여기서, 상기 LASSO regression은 수집된 학습정보로부터 다중 분류 기계학습을 위한 학습데이터를 생성하는 부분이고, 상기 GBM regression은 상기 학습데이터 생성부로부터 생성된 다수의 학습데이터를 통해 다중 분류 기계학습을 수행하는 부분이며, 상기 LASSO classification는 상기 딥러닝 기계학습부로부터 학습된 결과로부터, HLA 하플로타입 정보에 대한 약물의 반응성을 예측하는 반응성 예측 알고리즘을 생성하는 부분이다.Here, the LASSO regression is a part that generates learning data for multi-classification machine learning from the collected learning information, and the GBM regression performs multi-classification machine learning through a plurality of learning data generated from the learning data generator. The LASSO classification is a part that generates a reactivity prediction algorithm for predicting the reactivity of a drug to HLA haplotype information from the results learned from the deep learning machine learning unit.

이때, 상기 LASSO method 및 GBM method는 해당 단계에서 입력으로 받는 데이터 정보에 따라 다양하게 설정될 수 있다. 즉, 상기 LASSO method 및 GBM method의 parameter는 각각 유전체 및 약물을 구성하는 하위 단위 정보 또는 이에 포함된 다양한 정보로 설정될 수 있다.In this case, the LASSO method and the GBM method may be set in various ways according to data information received as input in the corresponding step. That is, the parameters of the LASSO method and the GBM method may be set to sub-unit information constituting the genome and drug, respectively, or various information included therein.

즉, 본 발명에 있어, 반응성 예측 결과는 기계학습이 수행된 대상과 분석을 위해 입력된 정보의 대상 사이에 공통요소가 많을수록 정확도가 향상되는바, 상기 HLA 하플로타입 및 특성정보의 단위를 세부단위로 설정하는 경우, 미지의 약물에 대한 반응성을 예측 결과의 정확성이 향상될 수 있다.That is, in the present invention, the accuracy of the reactivity prediction result is improved as there are more common elements between the target for which machine learning is performed and the target of information input for analysis. If the unit is set, the accuracy of the prediction result of the reactivity to the unknown drug may be improved.

본 발명의 구체적인 실시 예에 있어, 상기 HLA하플로타입 정보로 변이정보와 특성정보가 설정되는 경우를 대비하여 살피면, 상기 HLA 하플로타입 정보로 변이정보가 설정되어, 해당 기계학습이 수행된 경우, 학습의 대상인 학습정보에 포함된 세포주의 변이와 분석대상으로 입력된 유전체의 변이들 사이에 공통된 요소가 많을수록 분석의 정확도가 향상된다.In a specific embodiment of the present invention, when mutation information and characteristic information are set as the HLA haplotype information, when mutation information is set as the HLA haplotype information and the corresponding machine learning is performed , the more common elements between the mutations in the cell line included in the learning information, which is the subject of learning, and the mutations in the genome input as the analysis target, the higher the accuracy of the analysis.

반면에, 상기 유전정보로 특성정보가 설정되어, 다중 분류 기계학습이 수행된 경우, 학습의 대상인 학습정보에 포함된 세포주의 변이와 분석대상으로 입력된 유전체의 변이들 사이에 공통 변이가 적어도, 각 변이의 유사특성에 따라 반응성이 정확성있게 예측될 수 있다.On the other hand, when the characteristic information is set as the genetic information and multi-classification machine learning is performed, there is at least a common mutation between the mutation of the cell line included in the learning information that is the learning target and the mutation of the genome input as the analysis target, Reactivity can be accurately predicted according to the similarity of each mutation.

따라서, 상기 HLA 하플로타입 정보는 상기 유전체에 포함된 변이정보 또는 상기 유전체에 포함된 변이들에 대한 특성정보일 수 있다.Accordingly, the HLA haplotype information may be mutation information included in the genome or characteristic information on mutations included in the genome.

이때, 상기 유전정보가 변이정보인 경우, 상기 학습데이터는 상기 세포주에 포함된 변이정보들의 군에 대한 약물을 구성하는 관능기정보들의 군에 대한 반응도를 나타낸 다수의 정보이다.In this case, when the genetic information is mutation information, the learning data is a plurality of pieces of information indicating a degree of response to a group of functional group information constituting a drug with respect to a group of mutation information included in the cell line.

(3) LASSO regression 정규화 및 association matrix를 통한 기계학습 방법(3) LASSO regression regularization and machine learning method through association matrix

한편, 상기 기계학습 모델은, 상기 학습데이터들에 대해 특화된 기계학습을 통해 세포주에 포함된 각 HLA 하플로타입 정보에 대한 약물을 구성하는 각 구성정보의 반응 상관관계를 학습한다. On the other hand, the machine learning model learns the response correlation of each constituent information constituting the drug with respect to each HLA haplotype information included in the cell line through specialized machine learning for the learning data.

여기서, 상기 기계학습 모델은, LASSO 기계학습과 GBM 기계 학습에 의해 수행될 수 있다.Here, the machine learning model may be performed by LASSO machine learning and GBM machine learning.

먼저, LASSO 기계학습은, 최종 분석 대상인 HLA 하플로타입 정보와 약물 반응성 정보(IC50)를 학습요소로 하여 기계학습을 수행하는 방법이다.First, LASSO machine learning is a method of performing machine learning using HLA haplotype information and drug responsiveness information (IC50), which are final analysis targets, as learning elements.

상기 LASSO 기계학습은 학습데이터 생성부가 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 것으로부터 시작된다.The LASSO machine learning starts with the learning data generating unit collecting learning information indicating the response to each drug for each cell line genome.

이때, 학습정보는 다양한 세포주들에 대한 다양한 약물의 반응성에 대한 시험 결과데이터를 말한다. 이후, 상기 학습데이터 생성부는 상기 학습정보에 포함된 HLA 하플로타입들에 대한 유전정보들을 생성한다. 여기서 상기 HLA 하플로타입 정보는 변이정보 또는 변이들에 대한 특성정보일 수 있다. In this case, the learning information refers to test result data on the reactivity of various drugs to various cell lines. Thereafter, the learning data generator generates genetic information for HLA haplotypes included in the learning information. Here, the HLA haplotype information may be mutation information or characteristic information on mutations.

그리고 상기 학습데이터 생성부는 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성한다. 이때, 상기 구성정보는 약물을 구성하는 관능기 정보일 수 있다.And the learning data generation unit generates the configuration information constituting the drug included in the learning information. In this case, the composition information may be functional group information constituting the drug.

다음으로, 상기 학습데이터 생성부는 상기 학습정보에 포함된 HLA 하플로타입 정보 군에 대한 약물을 구성하는 구성정보 군에 대한 반응도를 나타낸 전처리된 학습데이터들을 생성한다. 여기서, 상기 학습정보는 LASSO 모델에 적용하기 위한 형태로 조합된 데이터는 이론상 학습정보에 포함된 세포주의 수×약물의 수만큼 생성된다.Next, the learning data generation unit generates pre-processed learning data showing the response to the configuration information group constituting the drug with respect to the HLA haplotype information group included in the learning information. Here, the data combined in a form for applying the learning information to the LASSO model is theoretically generated as much as the number of cell lines x the number of drugs included in the learning information.

이후, 상기 기계학습부는 상기 전처리된 학습데이터들에 대한 LASSO 기계학습을 통해, 개별 HLA 하플로타입 정보에 대한 개별 구성정보의 반응 상관관계를 도출한다. 여기서, 상기 약물의 반응성 결과 및 예측의 기준은 수용억제지수 IC50을 기준으로 판단될 수 있다. 상기 IC50은 세포주의 세포를 50% 사멸하는데 소요되는 약물의 농도를 의미하는 것으로, 상기 IC50 값이 낮을 수록 약물의 반응성이 높은 것을 의미한다.Thereafter, the machine learning unit derives a response correlation of individual configuration information to individual HLA haplotype information through LASSO machine learning for the preprocessed learning data. Here, the criterion for predicting and reactivity of the drug may be determined based on the receptivity inhibitory index IC50. The IC50 refers to the concentration of a drug required to kill 50% of cells in a cell line, and the lower the IC50 value, the higher the reactivity of the drug.

다음으로, 상기 반응성 예측 알고리즘 구성부는, 상기 LASSO 기계학습부에 의해 학습된 상기 HLA 하플로타입 정보에 대한 상기 구성정보의 반응 상관관계를 통해, HLA 하플로타입 정보들을 포함하는 유전체에 대한 구성정보들로 구성되는 약물의 반응성 예측 알고리즘을 생성한다. 이때, 상기 LASSO 기계학습부는 상기 딥러닝 기계학습을 복수의 방법으로 수행한 이후에, 각각의 예측값의 평균으로부터 최종 예측값을 산출하도록 구성될 수 있다.Next, the reactivity prediction algorithm configuration unit, through the response correlation of the configuration information to the HLA haplotype information learned by the LASSO machine learning unit, configuration information on the genome including HLA haplotype information We create an algorithm for predicting drug reactivity consisting of In this case, the LASSO machine learning unit may be configured to calculate a final predicted value from the average of each predicted value after performing the deep learning machine learning in a plurality of methods.

다음으로, 본 발명에 의한 다중 분류 기계학습의 두 번째 방법인 GBM 기계학습부는 역시 학습데이터 생성부가 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 것으로부터 시작된다. Next, the GBM machine learning unit, which is the second method of multi-classification machine learning according to the present invention, also starts with the learning data generating unit collecting learning information indicating the response to each drug for each cell line genome.

그리고 상기 학습데이터 생성부는 상기 학습정보에 포함된 유전체들에 대한 유전정보들을 생성한다. 이 경우도 역시, 상기 HLA 하플로타입 정보는 변이정보 또는 변이들에 대한 특성정보일 수 있다. And the learning data generation unit generates genetic information for the genomes included in the learning information. Also in this case, the HLA haplotype information may be mutation information or characteristic information on mutations.

이후, 상기 학습데이터 생성부는 각 유전체에 포함된 상기 HLA 하플로타입 정보 군에 대한 약물의 반응도를 나타내는 HLA 하플로타입 정보 전처리 데이터들을 생성한다. Thereafter, the learning data generator generates HLA haplotype information pre-processing data representing the drug's reactivity to the HLA haplotype information group included in each genome.

그리고 상기 다중 분류 기계학습부는 상기 유전정보 학습정보들에 대한 다중 분류 기계학습을 통해 각 유전정보에 대한 약물의 반응 상관관계를 도출한다.In addition, the multi-classification machine learning unit derives a drug response correlation to each genetic information through multi-classification machine learning for the genetic information learning information.

다음으로, 상기 학습데이터 생성부는 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성한다.Next, the learning data generation unit generates the configuration information constituting the drug included in the learning information.

이후, 각 유전체에 대한 약물을 구성하는 구성정보 군의 반응도를 나타내는 구성정보 전처리 학습데이터들을 생성하고, 상기 구성정보 학습데이터들에 대한 GBM 기계학습을 통해 각 유전체에 대한 각 구성정보의 반응 상관관계를 도출한다.Thereafter, the composition information pre-processing learning data indicating the reactivity of the composition information group constituting the drug for each genome is generated, and the response correlation of each composition information for each genome through GBM machine learning for the composition information learning data to derive

그리고 상기 GBM 기계학습부는 각 유전자 발현량 정보에 대한 약물의 반응 상관관계와, 각 유전체에 대한 각 HLA 하플로타입 정보의 상관관계를 통해 개별 하플로타입 정보에 대한 개별 유전자 발현량 정보의 반응 상관관계를 도출한다.And the GBM machine learning unit response correlation of the individual gene expression level information to the individual haplotype information through the correlation of the drug response to each gene expression level information and the correlation of each HLA haplotype information for each genome draw a relationship

이와 같은 GBM 기계학습의 두 번째 방법은 유전체에 포함된 HLA 하플로타입 정보의 수 및 약물의 구성정보의 수가 많은 경우, 기계학습 과정을 분산처리하여, 처리 과정을 이원화할 수 있을 뿐만 아니라, 상관관계의 정확성을 향상 시킬 수 있다.The second method of such GBM machine learning is to distribute the machine learning process when the number of HLA haplotype information and drug composition information included in the genome is large, so that the processing process can be dualized as well as correlation It can improve the accuracy of the relationship.

전술한 바와 같은 다중 분류 기계학습 방법을 요약하여 정리하면, To summarize the multi-classification machine learning method as described above,

본 발명에 의한 다중 분류 기계학습은, LASSO regression 과정과, GBM regression 과정 및 LASSO classification 과정을 포함하여 수행된다.Multi-classification machine learning according to the present invention is performed including a LASSO regression process, a GBM regression process, and a LASSO classification process.

이때, 상기 LASSO regression 과정은, 학습대상 데이터를 다수의 세포주와 다수의 약물에 따라 구분하여 정렬하고, 이에 대하여 모든 유전체 유변들을 반응성(IC50)을 기준으로 합성곱 기반으로 학습하는 과정을 말한다.At this time, the LASSO regression process refers to a process of classifying and aligning the learning target data according to a plurality of cell lines and a plurality of drugs, and learning all genomic mutations based on the reactivity (IC50) based on convolution.

그리고 GBM regression 과정은, 학습대상 데이터를 다수의 셀라인과 다수의 약물에 따라 구분하여 정열하고, 이에 대하여 모든 유전자의 발현량 정보를 기준으로 합성곱 기반으로 학습하는 과정을 말한다.And the GBM regression process refers to a process of classifying and arranging learning target data according to multiple cell lines and multiple drugs, and learning based on convolution based on expression level information of all genes.

마지막으로 상기 LASSO classification 과정은, 상기 LASSO regression과 GBM regression 과정으로부터 산출된 HLA 하플로타입 정보와 각각의 약물 반응성과 유전자 발현량에 대한 파라미터들을 병합한 상태로 합성곱기반으로 학습하는 과정을 말한다.Finally, the LASSO classification process refers to a process of convolution-based learning while merging HLA haplotype information calculated from the LASSO regression and GBM regression processes and parameters for drug reactivity and gene expression levels.

구체적으로, 제1단계는 1) 변이(전체 4백만)와 유전자들(20,000)의 발현 상관관계 계산하는 단계와, 2) 약물(265개)과 셀라인 유전체(1,000개)의 유전자발현과(각 20,000 여개)의 상관관계 계산하는 단계와, 3) 1) 및 2)에서 다중 혹은 단일변이와 연관을 가진 유전자발현 패턴이 같은 것을 수집하는 단계 및 4) 유전체의 HLA 하플로타입을 약물반응성과 함께 추출하는 단계를 포함하여 수행된다.Specifically, the first step is 1) calculating the expression correlation between mutations (4 million in total) and genes (20,000), and 2) gene expression of drugs (265) and cell line genomes (1,000) ( Each of the 20,000) correlation calculation step, 3) 1) and 2) collecting the same gene expression pattern associated with multiple or single mutations, and 4) determining the HLA haplotype of the genome with drug reactivity It is carried out including the step of extracting together.

이와 같은, 학습과정을 통해, 1단계에서 학습하고, 2단계에서 새로운 유전체 유전정보와 약물의 약물특성 정보가 입력되면, 상기 유전체 변이정보로부터 입력된 약물특성 데이터의 반응성 정도(IC50)를 3단계처럼 예측할 수 있게 된다.Through such a learning process, when learning in step 1 and new genome genetic information and drug property information of a drug are input in step 2, the degree of reactivity (IC50) of drug property data input from the genome mutation information is calculated in step 3 can be predicted as

이하에서는 본 발명에 의한 약물 적응증 및 반응 예측 시스템 및 방법의 구현 예들을 상세히 설명하기로 한다.Hereinafter, embodiments of the drug indication and response prediction system and method according to the present invention will be described in detail.

(1) 약물에 대한 선별된 하플로 타입 관련성의 재현 구현예(1) Reproducible embodiment of selected haplotype relevance to drug

약물에 대한 선별된 하플로 타입 관련성의 재현은 전술한 바와 같이, 본 발명의 다중 분류 기계학습에 있어, 두 개의 연속 단계로 구성되는 실시예는, 첫 번째 단계에서는 종양의 유전체 서열 데이터와 항암제의 화학적 특성으로부터 각각 30개의 HLA 하플로타입 정보 및 1,072 개의 약물 반응성 정보 특징을 추출한다.As described above, the reproduction of the selected haplotype relevance to the drug is an embodiment consisting of two consecutive steps in the multi-classification machine learning of the present invention, in the first step, the genome sequence data of the tumor and the anticancer drug From the chemical properties, 30 HLA haplotype information and 1,072 drug reactivity information features are extracted, respectively.

다음으로, 하플로타입 정보와 약물 반응성 정보 세트의 각 조합은 LASSO regression 모델을 사용하여 독립적으로 각각 특정 약물 반응성에 대한 특정 하플로타입 세트를 생성한다.Next, each combination of haplotype information and drug reactivity information sets independently generates a specific haplotype set for each specific drug reactivity using the LASSO regression model.

한편, 다중 분류 기계학습 모델에는 두 가지 다른 입력 소스가 사용되는데, 각각 개별 암 세포주의 유전체 HLA 하플로타입 정보와 항암제의 화학적 특성을 나타낸다.On the other hand, two different input sources are used in the multi-classification machine learning model, each representing genomic HLA haplotype information of individual cancer cell lines and chemical properties of anticancer drugs.

(2) 기계학습 데이터 구성의 구현예(2) Implementation example of machine learning data configuration

본 발명에 의한 다중 분류 기계학습 모델은 이종정보가 병합되어 기계학습이 수행되는데, 상기 이종정보는 각각 세포주와 약물에 의해 구분되는 유전체 변이 및 HLA 하플로타입 정보와 약물의 관능기 정보 또는 표현형 정보일 수 있다.In the multi-classification machine learning model according to the present invention, machine learning is performed by merging heterogeneous information, wherein the heterogeneous information is genomic mutation and HLA haplotype information and functional group information or phenotype information of the drug, respectively, which are distinguished by cell line and drug. can

즉, 이들 서로 다른 정보가 각각 세포주와 약물에 의한 구준 기준에 따라 배열되어, 이들 병합된 데이터가 다중 분류 기계학습에 의해 학습된다.That is, these different pieces of information are arranged according to the criteria used by cell lines and drugs, respectively, and these merged data are learned by multi-class machine learning.

한편, 본 발명에서는 다중 분류 기계학습 및 예측과정에서 약물의 관능기를 사용하는데, 상기 약물 관능기의 이용은 약물에 대한 고분자 화합물을 그대로 적용하는 것이 비하여, 학습 및 분석의 효율을 향상시킨다.On the other hand, in the present invention, a functional group of a drug is used in the multi-classification machine learning and prediction process, and the use of the drug functional group improves the efficiency of learning and analysis, compared to applying a polymer compound for the drug as it is.

한편, 전술한 바와 같이, 본 발명의 다중 분류 학습을 위한 학습데이터는 GDSC 데이터베이스로부터 추출된다. 이는 인간 암 세포주 및 약물 감수성 분석기의 유전체 프로파일에 대한 포괄적인 공개 정보를 제공하고 있다. 상기 GDSC는 1,000종 이상의 암 세포주와 265종의 항암제의 약물 민감도 분석 결과를 포함한다. 이들 데이터베이스의 전체 데이터 세트는 1,001개의 세포주에서 686,312개의 돌연변이 위치와 265개의 약물을 포함한다.Meanwhile, as described above, the training data for multi-classification learning of the present invention is extracted from the GDSC database. It provides comprehensive public information on the genomic profile of human cancer cell lines and drug susceptibility assays. The GDSC includes drug sensitivity analysis results of more than 1,000 cancer cell lines and 265 anticancer drugs. The full data set of these databases includes 686,312 mutation sites and 265 drugs in 1001 cell lines.

한편, 본 발병에서는 이들 데이터를 다음 기준에 따라 필터링하여 사용한다.Meanwhile, in the present disease, these data are filtered and used according to the following criteria.

첫째, Cancer Gene Census에 포함된 유전자에 속하는 돌연변이를 사용하고, 상기 돌연변이는 암과 관련성 있는 567개의 유전자 목록으로부터 판단된다.First, a mutation belonging to a gene included in Cancer Gene Census is used, and the mutation is determined from a list of 567 genes associated with cancer.

둘째, 본 발명에서는 적어도 10개의 다른 세포주가 나타내는 암 유형만 포함하여 사용된다.Second, for use in the present invention, only cancer types represented by at least 10 different cell lines are included.

1,001 개의 세포주로 구성된 31개의 암 유형 중 총 787개의 세포주를 가진 25가지 암 유형이 데이터 세트에 포함된다.Of the 31 cancer types comprising 1001 cell lines, 25 cancer types with a total of 787 cell lines are included in the data set.

한편, 특정 암 유형은 제외될 수 있는 데, 예를 들어, 특정 암 유형이 비교적 작은 수의 세포주로 표현된 경우, 이들 암 유형은 판단에서 제외될 수 있다.On the other hand, specific cancer types may be excluded, for example, when a specific cancer type is expressed in a relatively small number of cell lines, these cancer types may be excluded from judgment.

여기서, 본 발명의 일 실시예는 COSMIC 암 유전자 센서스에서 567개의 유전자들로 부터 28,328개의 위치에서 서열 변이 정보를 선택했다. Here, an embodiment of the present invention selected sequence variation information at 28,328 positions from 567 genes in the COSMIC cancer gene census.

상기 GDSC는 200,000가지가 넘는 약물 - 암 세포주 쌍에 대한 약물 감도 검정으로부터 IC50 값을 제공한다.The GDSC provides IC50 values from drug sensitivity assays for over 200,000 drug-cancer cell line pairs.

이때, 상기 IC50은 약물의 반응성에 대한 activity를 판별하는 기준으로, 통상 50%를 기준으로 사용되나, 다른 기준으로 설정된 데이터를 적용할 수도 있다. In this case, the IC50 is a criterion for determining the activity for drug reactivity, and is usually used as a criterion of 50%, but data set according to another criterion may be applied.

또한, GDSC는 유전 학적으로 특징지어지는 1,001 개의 세포주가 동일한 세트로 사용되었으며, FDA 승인에서 조사중인 것을 포함하여 265가지 항암 요법이 검사에 포함되었다.In addition, GDSC used the same set of 1001 genetically characterized cell lines, and 265 anticancer therapies were included in the test, including those under investigation in FDA approval.

이와 같은 개별 개체 쌍은 9쌍이었지만 모든 쌍에서 IC50 값이 다르기 때문에, 상기 9쌍을 18가지의 약물로 간주하여 학습을 수행할 수 있다.Although these individual pairs of individuals were 9 pairs, since the IC50 values were different in all pairs, the 9 pairs could be regarded as 18 drugs to perform learning.

즉, 본 발명의 실시예에서는 최종 데이터 세트로 235개의 작은 화학 물질을 나타내는 244개의 약물이 있고, 딥러닝 기계학습에 사용된 세포주와 약물의 최종 매트릭스는 총 152,594개의 인스턴스로 구성된다.That is, in the example of the present invention, there are 244 drugs representing 235 small chemical substances as the final data set, and the final matrix of cell lines and drugs used in deep learning machine learning consists of a total of 152,594 instances.

(3) 기계학습의 구현예(3) Implementation example of machine learning

본 발명에 의한 다중 분류 기계학습의 실시예 중 25종의 특정 암 및 1000여종의 암세포주와 250여개의 의약품의 활성을 예측한 예의 과정은 다음과 같은 과정을 통해 수행될 수 있다.Among the examples of multi-classification machine learning according to the present invention, the example of predicting the activity of 25 specific cancers, 1000 cancer cell lines, and 250 pharmaceuticals can be performed through the following process.

1) COSMIC 데이터에서 유래된 GDSC 데이터베이스의 모든 가용데이터를 분석/추출하여, 총 20만건의 암세포 vs. 250여개 의약품의 세포활성 (암치료제로서의 가능성) 데이터를 확보한다.1) By analyzing/extracting all available data from the GDSC database derived from COSMIC data, a total of 200,000 cancer cells vs. We secure cell activity (potential as cancer treatment) data of about 250 pharmaceuticals.

2) 다음으로, 총 20여만 건의 임상/실험적 관측 데이터에 대해, LASSO 기계학습과 GBM 기계학습을 이용하여, 전술한 바와 같은 다중 분류 기계학습 모델을 이용하여 기계학습을 수행한다.2) Next, on a total of 200,000 clinical/experimental observation data, machine learning is performed using the multi-classification machine learning model as described above using LASSO machine learning and GBM machine learning.

3) 그리고 성능을 검증하기 위해, 제1단계의 모든 데이터에 대해 5-Fold-Cross-Validation 평가법으로 성능을 평가한다.3) And to verify the performance, the performance is evaluated by the 5-fold-cross-validation evaluation method for all the data in the first step.

이때, 본 발명의 실시예에서는, 총 25개의 모든 암세포 종류에서 피어슨 상관관계지수 0.9 이상의 정확성이 확인되었다.At this time, in the embodiment of the present invention, accuracy of 0.9 or more of the Pearson correlation index was confirmed in all 25 cancer cell types.

이를 통해, 본 발명에서는 기계학습에 대한 신뢰성을 객관적으로 확인할 수 있다.Through this, in the present invention, the reliability of machine learning can be objectively confirmed.

이하에서는 첨부된 도면을 상세히 설명하기로 한다.Hereinafter, the accompanying drawings will be described in detail.

도 1은 HLA 하플로타입을 기준으로 약물반응성과 유전자 발현량의 다중 분류 방법을 구현하기 위한 시스템을 나타낸다. 즉, QTL방법에 의한 단일 혹은 다중변이와 유전자 발현 및 약물 반응데이터의 관계 및 Genotype으로 구성된 Cell Lines(c1~c-N) 통합 DB에서 다중변이를 추출하여 HLA 하플로타입을 추출하는 과정이 도시되어 있다. 그리고 HLA 하플로타입과 유전자 발현량의 관점에서도 시스템의 과정을 구체적으로 설명을 한다. 1 shows a system for implementing a multiple classification method of drug reactivity and gene expression level based on HLA haplotype. That is, the process of extracting HLA haplotypes by extracting multiple mutations from the integrated DB of Cell Lines (c1 to cN) composed of genotypes and the relationship between single or multiple mutations and gene expression and drug response data by the QTL method is shown. . In addition, the process of the system is explained in detail in terms of HLA haplotype and gene expression level.

도 2는 세포주 약물반응 값(IC50)과 HLA 하플로타입의 상관관계 매트릭스로, 최종적으로 세포주들과 약물반응성 정보 및 HLA 하플로타입의 상관관계를 LASSO regression으로 계산한 결과가 도시되어 있다. 265개 약물 중 HLA 하플로타입과 상관관계가 높은 72개의 약물로 분류하여 선별하고, HLA 하플로타입은 30개에 대하여 각 세포주 유전체에서 양적형질 위치(QTL) 정보기반으로 이미 약물반응과 관련을 가지고 있음을 보여준다. 2 is a correlation matrix between the cell line drug response value (IC50) and the HLA haplotype. Finally, the correlation between cell lines, drug reactivity information, and HLA haplotype is calculated by LASSO regression. Among 265 drugs, 72 drugs highly correlated with HLA haplotype were classified and selected, and 30 HLA haplotypes were already related to drug response based on quantitative trait location (QTL) information in each cell line genome. show that you have

도 3은 약물의 반응성 정보(IC50)와 유전자 발현량이 서로 상관관계를 가지고 있다는 것을 보여주고, 또한, 많은 경우에 유전자 발현량이 다수의 유전자에서 경향성이 있는 상관관계가 있음을 보여준다. 이는 HLA 하플로타입을 활용한 약물반응성 계산 스키마에 있어, 대부분의 알려진 활성 약물이 약물에 민감한 군과 약물에 저항성을 주는 군으로 나누어지고, 이때, 민감성 및 저항성은 HLA 하플로타입과 밀접하게 연결되어있다. 3 shows that the drug reactivity information (IC50) and the gene expression level have a correlation with each other, and also shows that in many cases, the gene expression level has a tendency to correlate with a large number of genes. This is a drug reactivity calculation schema using the HLA haplotype, where most known active drugs are divided into a drug-sensitive group and a drug-resistant group, where sensitivity and resistance are closely related to the HLA haplotype. has been

한편, 표 1은 상관 관계가 높은 HLA 하플로타입의 한 예시로 유전자 발현량과 HLA 하플로타입의 상관관계가 p-value < 10^3 그리고 p-adj < 10^2이하로 정하여 수집된다.Meanwhile, Table 1 is an example of a highly correlated HLA haplotype, and the correlation between gene expression level and HLA haplotype is collected by setting p-value < 10^3 and p-adj < 10^2 or less.

AlleleAllele A_caseA_case B_caseB_case A_ctrlA_ctrl B_ctrlB_ctrl F_caseF_case F_ctrlF_ctrl FreqFreq P_LogitP_Logit OROR L95L95 U95U95 P_adjP_adj A*01A*01 4242 342342 147147 10131013 0.10940.1094 0.12670.1267 0.12240.1224 0.43840.4384 0.88260.8826 0.64360.6436 1.21041.2104 0.65760.6576 A*02A*02 9999 285285 292292 868868 0.25780.2578 0.25170.2517 0.25320.2532 0.83160.8316 1.0261.026 0.810.81 1.29951.2995 0.87560.8756 A*03A*03 5959 325325 121121 10391039 0.15360.1536 0.10430.1043 0.11660.1166 0.02170.0217 1.41581.4158 1.05221.0522 1.90491.9049 0.0650.065 A*11A*11 3232 352352 7272 10881088 0.08330.0833 0.06210.0621 0.06740.0674 0.19730.1973 1.29091.2909 0.87560.8756 1.9031.903 0.39470.3947 A*24A*24 4646 338338 210210 950950 0.11980.1198 0.1810.181 0.16580.1658 0.0150.015 0.68410.6841 0.50380.5038 0.9290.929 0.0650.065 A*26A*26 2020 364364 6363 10971097 0.05210.0521 0.05430.0543 0.05380.0538 0.87560.8756 0.96210.9621 0.59350.5935 1.55971.5597 0.87560.8756 B*07B*07 4444 340340 137137 10231023 0.11460.1146 0.11810.1181 0.11720.1172 0.86890.8689 0.97330.9733 0.70610.7061 1.34171.3417 0.99370.9937 B*08B*08 2121 363363 9797 10631063 0.05470.0547 0.08360.0836 0.07640.0764 0.10590.1059 0.69710.6971 0.45020.4502 1.07951.0795 0.74120.7412 B*15B*15 2727 357357 6666 10941094 0.07030.0703 0.05690.0569 0.06020.0602 0.3230.323 1.27441.2744 0.78790.7879 2.06132.0613 0.75380.7538 B*35B*35 2828 356356 108108 10521052 0.07290.0729 0.09310.0931 0.08810.0881 0.27610.2761 0.80330.8033 0.54160.5416 1.19141.1914 0.75380.7538 B*40B*40 2828 356356 8080 10801080 0.07290.0729 0.0690.069 0.06990.0699 0.8120.812 1.05021.0502 0.70160.7016 1.57191.5719 0.99370.9937 B*44B*44 4040 344344 121121 10391039 0.10420.1042 0.10430.1043 0.10430.1043 0.99370.9937 0.99850.9985 0.6890.689 1.44711.4471 0.99370.9937 B*51B*51 2727 357357 7373 10871087 0.07030.0703 0.06290.0629 0.06480.0648 0.6310.631 1.11141.1114 0.72240.7224 1.70981.7098 0.99370.9937 C*01C*01 3232 352352 102102 10581058 0.08330.0833 0.08790.0879 0.08680.0868 0.80270.8027 0.95340.9534 0.65560.6556 1.38651.3865 0.97710.9771 C*03C*03 6060 324324 146146 10141014 0.15620.1562 0.12590.1259 0.13340.1334 0.17760.1776 1.221.22 0.91370.9137 1.62891.6289 0.58260.5826 C*04C*04 3737 347347 116116 10441044 0.09640.0964 0.10.1 0.09910.0991 0.85050.8505 0.96650.9665 0.6780.678 1.37771.3777 0.97710.9771 C*05C*05 2727 357357 8181 10791079 0.07030.0703 0.06980.0698 0.06990.0699 0.97710.9771 1.00591.0059 0.67310.6731 1.50331.5033 0.97710.9771 C*06C*06 2929 355355 9595 10651065 0.07550.0755 0.08190.0819 0.08030.0803 0.71130.7113 0.92670.9267 0.61930.6193 1.38671.3867 0.97710.9771 C*07C*07 9292 292292 279279 881881 0.23960.2396 0.24050.2405 0.24030.2403 0.9720.972 0.99540.9954 0.77080.7708 1.28561.2856 0.97710.9771 C*12C*12 2525 359359 103103 10571057 0.06510.0651 0.08880.0888 0.08290.0829 0.19110.1911 0.75930.7593 0.50240.5024 1.14741.1474 0.58260.5826 C*14C*14 2525 359359 5656 11041104 0.06510.0651 0.04830.0483 0.05250.0525 0.21850.2185 1.3421.342 0.840.84 2.1442.144 0.58260.5826 DPB1*01DPB1*01 1919 365365 6666 10941094 0.04950.0495 0.05690.0569 0.05510.0551 0.64840.6484 0.90380.9038 0.58510.5851 1.39611.3961 0.84420.8442 DPB1*02DPB1*02 5757 327327 178178 982982 0.14840.1484 0.15340.1534 0.15220.1522 0.84420.8442 0.97340.9734 0.74410.7441 1.27341.2734 0.84420.8442 DPB1*04DPB1*04 176176 208208 496496 664664 0.45830.4583 0.42760.4276 0.43520.4352 0.40120.4012 1.08241.0824 0.89970.8997 1.30231.3023 0.84420.8442 DPB1*05DPB1*05 3939 345345 138138 10221022 0.10160.1016 0.1190.119 0.11460.1146 0.45440.4544 0.89020.8902 0.65630.6563 1.20741.2074 0.84420.8442 DQB1*02DQB1*02 4949 335335 167167 993993 0.12760.1276 0.1440.144 0.13990.1399 0.4790.479 0.89620.8962 0.66180.6618 1.21381.2138 0.80390.8039 DQB1*03DQB1*03 133133 251251 388388 772772 0.34640.3464 0.33450.3345 0.33740.3374 0.70220.7022 1.04341.0434 0.83920.8392 1.29731.2973 0.87780.8778 DQB1*04DQB1*04 2222 362362 8080 10801080 0.05730.0573 0.0690.069 0.06610.0661 0.48230.4823 0.85650.8565 0.55610.5561 1.31931.3193 0.80390.8039 DQB1*05DQB1*05 6969 315315 187187 973973 0.17970.1797 0.16120.1612 0.16580.1658 0.44210.4421 1.11451.1145 0.84530.8453 1.46951.4695 0.80390.8039 DQB1*06DQB1*06 111111 273273 338338 822822 0.28910.2891 0.29140.2914 0.29080.2908 0.93820.9382 0.9910.991 0.78930.7893 1.24441.2444 0.93820.9382 DRB1*01DRB1*01 3636 348348 113113 10471047 0.09380.0938 0.09740.0974 0.09650.0965 0.84780.8478 0.96540.9654 0.67390.6739 1.3831.383 0.90330.9033 DRB1*03DRB1*03 2626 358358 105105 10551055 0.06770.0677 0.09050.0905 0.08480.0848 0.22320.2232 0.78140.7814 0.52550.5255 1.16211.1621 0.45330.4533 DRB1*04DRB1*04 6969 315315 205205 955955 0.17970.1797 0.17670.1767 0.17750.1775 0.90330.9033 1.01741.0174 0.77070.7707 1.3431.343 0.90330.9033 DRB1*07DRB1*07 3737 347347 9494 10661066 0.09640.0964 0.0810.081 0.08480.0848 0.41490.4149 1.15571.1557 0.81610.8161 1.63651.6365 0.66350.6635 DRB1*08DRB1*08 1717 367367 8484 10761076 0.04430.0443 0.07240.0724 0.06540.0654 0.10350.1035 0.67890.6789 0.42590.4259 1.08211.0821 0.45330.4533 DRB1*11DRB1*11 2929 355355 102102 10581058 0.07550.0755 0.08790.0879 0.08480.0848 0.49760.4976 0.87450.8745 0.59350.5935 1.28851.2885 0.66350.6635 DRB1*13DRB1*13 4949 335335 113113 10471047 0.12760.1276 0.09740.0974 0.10490.1049 0.12390.1239 1.29481.2948 0.93170.9317 1.79931.7993 0.45330.4533 DRB1*15DRB1*15 4444 340340 159159 10011001 0.11460.1146 0.13710.1371 0.13150.1315 0.22660.2266 0.79170.7917 0.54220.5422 1.15611.1561 0.45330.4533 DRB1*15DRB1*15 1616 8080 8080 606606 0.16670.1667 0.11660.1166 0.12280.1228 0.13950.1395 1.61721.6172 0.85480.8548 3.05953.0595 0.5580.558

그리고 표 2는 상관관계가 높게 나온 다른 유전자의 발현량과 HLA 하플로타입의 예시로 도 4의 결과와 유사한 경향성을 보여준다. And Table 2 shows a tendency similar to the result of FIG. 4 as an example of the HLA haplotype and the expression level of other genes with high correlation.

AlleleAllele A_caseA_case B_caseB_case A_A_ ctrlctrl B_B_ ctrlctrl F_caseF_case F_F_ ctrlctrl FreqFreq P_P_ LogitLogit OROR L95L95 U95U95 P_P_ adjadj A*01A*01 147147 10131013 5151 447447 0.12670.1267 0.10240.1024 0.11940.1194 0.22890.2289 1.19691.1969 0.89310.8931 1.6041.604 0.45780.4578 A*02A*02 292292 868868 132132 366366 0.25170.2517 0.26510.2651 0.25570.2557 0.60930.6093 0.94570.9457 0.76340.7634 1.17151.1715 0.65330.6533 A*03A*03 121121 10391039 7373 425425 0.10430.1043 0.14660.1466 0.1170.117 0.03090.0309 0.73810.7381 0.56020.5602 0.97250.9725 0.09270.0927 A*11A*11 7272 10881088 3737 461461 0.06210.0621 0.07430.0743 0.06570.0657 0.40980.4098 0.85670.8567 0.59310.5931 1.23751.2375 0.61470.6147 A*24A*24 210210 950950 5656 442442 0.1810.181 0.11240.1124 0.16040.1604 0.00240.0024 1.54971.5497 1.16731.1673 2.05732.0573 0.01470.0147 A*26A*26 6363 10971097 3030 468468 0.05430.0543 0.06020.0602 0.05610.0561 0.65330.6533 0.90860.9086 0.59820.5982 1.38021.3802 0.65330.6533 B*07B*07 137137 10231023 5151 447447 0.11810.1181 0.10240.1024 0.11340.1134 0.41030.4103 1.13661.1366 0.8380.838 1.54151.5415 0.7180.718 B*08B*08 9797 10631063 2929 469469 0.08360.0836 0.05820.0582 0.0760.076 0.11630.1163 1.36081.3608 0.92640.9264 1.99881.9988 0.40710.4071 B*15B*15 6666 10941094 4141 457457 0.05690.0569 0.08230.0823 0.06450.0645 0.05130.0513 0.66350.6635 0.43920.4392 1.00241.0024 0.35930.3593 B*35B*35 108108 10521052 3939 459459 0.09310.0931 0.07830.0783 0.08870.0887 0.37930.3793 1.16911.1691 0.82530.8253 1.65631.6563 0.7180.718 B*40B*40 8080 10801080 3838 460460 0.0690.069 0.07630.0763 0.07120.0712 0.62640.6264 0.91310.9131 0.63310.6331 1.31691.3169 0.73090.7309 B*44B*44 121121 10391039 5757 441441 0.10430.1043 0.11450.1145 0.10740.1074 0.54450.5445 0.90270.9027 0.64830.6483 1.25691.2569 0.73090.7309 B*51B*51 7373 10871087 3333 465465 0.06290.0629 0.06630.0663 0.06390.0639 0.81120.8112 0.95250.9525 0.6390.639 1.41981.4198 0.81120.8112 C*01C*01 102102 10581058 3636 462462 0.08790.0879 0.07230.0723 0.08320.0832 0.34070.3407 1.19081.1908 0.83140.8314 1.70561.7056 0.68140.6814 C*03C*03 146146 10141014 8282 416416 0.12590.1259 0.16470.1647 0.13750.1375 0.06290.0629 0.78110.7811 0.6020.602 1.01341.0134 0.50350.5035 C*04C*04 116116 10441044 5353 445445 0.10.1 0.10640.1064 0.10190.1019 0.71630.7163 0.94340.9434 0.68880.6888 1.2921.292 0.72110.7211 C*05C*05 8181 10791079 3838 460460 0.06980.0698 0.07630.0763 0.07180.0718 0.67740.6774 0.92740.9274 0.650.65 1.3231.323 0.72110.7211 C*06C*06 9595 10651065 3838 460460 0.08190.0819 0.07630.0763 0.08020.0802 0.72110.7211 1.06871.0687 0.74210.7421 1.53881.5388 0.72110.7211 C*07C*07 279279 881881 115115 383383 0.24050.2405 0.23090.2309 0.23760.2376 0.68940.6894 1.04931.0493 0.82880.8288 1.32841.3284 0.72110.7211 C*12C*12 103103 10571057 3333 465465 0.08880.0888 0.06630.0663 0.0820.082 0.1720.172 1.29251.2925 0.89440.8944 1.86761.8676 0.68140.6814 C*14C*14 5656 11041104 3030 468468 0.04830.0483 0.06020.0602 0.05190.0519 0.3310.331 0.80340.8034 0.51660.5166 1.24921.2492 0.68140.6814 DPB1*01DPB1*01 6666 10941094 2727 471471 0.05690.0569 0.05420.0542 0.05610.0561 0.85750.8575 1.03551.0355 0.70740.7074 1.51581.5158 0.85750.8575 DPB1*02DPB1*02 178178 982982 6868 430430 0.15340.1534 0.13650.1365 0.14840.1484 0.46230.4623 1.09851.0985 0.8550.855 1.41141.4114 0.61640.6164 DPB1*04DPB1*04 496496 664664 228228 270270 0.42760.4276 0.45780.4578 0.43670.4367 0.36430.3643 0.9250.925 0.78170.7817 1.09471.0947 0.61640.6164 DPB1*05DPB1*05 138138 10221022 5151 447447 0.1190.119 0.10240.1024 0.1140.114 0.43380.4338 1.1161.116 0.84780.8478 1.4691.469 0.61640.6164 DQB1*02DQB1*02 167167 993993 7474 424424 0.1440.144 0.14860.1486 0.14540.1454 0.82690.8269 0.9710.971 0.74550.7455 1.26451.2645 0.91870.9187 DQB1*03DQB1*03 388388 772772 168168 330330 0.33450.3345 0.33730.3373 0.33530.3353 0.91870.9187 0.98960.9896 0.810.81 1.2091.209 0.91870.9187 DQB1*04DQB1*04 8080 10801080 3030 468468 0.0690.069 0.06020.0602 0.06630.0663 0.56030.5603 1.12211.1221 0.76150.7615 1.65331.6533 0.91870.9187 DQB1*05DQB1*05 187187 973973 8989 409409 0.16120.1612 0.17870.1787 0.16650.1665 0.42350.4235 0.90180.9018 0.70020.7002 1.16151.1615 0.91870.9187 DQB1*06DQB1*06 338338 822822 137137 361361 0.29140.2914 0.27510.2751 0.28650.2865 0.54650.5465 1.06681.0668 0.86460.8646 1.31631.3163 0.91870.9187 DRB1*01DRB1*01 113113 10471047 4343 455455 0.09740.0974 0.08630.0863 0.09410.0941 0.51990.5199 1.11661.1166 0.7980.798 1.56251.5625 0.61030.6103 DRB1*03DRB1*03 105105 10551055 3939 459459 0.09050.0905 0.07830.0783 0.08690.0869 0.47070.4707 1.13491.1349 0.80470.8047 1.60061.6006 0.61030.6103 DRB1*04DRB1*04 205205 955955 8989 409409 0.17670.1767 0.17870.1787 0.17730.1773 0.92790.9279 0.98830.9883 0.76570.7657 1.27551.2755 0.92790.9279 DRB1*07DRB1*07 9494 10661066 5050 448448 0.0810.081 0.10040.1004 0.08690.0869 0.25870.2587 0.8330.833 0.60660.6066 1.14391.1439 0.61030.6103 DRB1*08DRB1*08 8484 10761076 2222 476476 0.07240.0724 0.04420.0442 0.06390.0639 0.06770.0677 1.48281.4828 0.97180.9718 2.26252.2625 0.54130.5413 DRB1*11DRB1*11 102102 10581058 3636 462462 0.08790.0879 0.07230.0723 0.08320.0832 0.34680.3468 1.18571.1857 0.83150.8315 1.69061.6906 0.61030.6103 DRB1*13DRB1*13 113113 10471047 5757 441441 0.09740.0974 0.11450.1145 0.10250.1025 0.33380.3338 0.85790.8579 0.62870.6287 1.17061.1706 0.61030.6103 DRB1*15DRB1*15 159159 10011001 6363 435435 0.13710.1371 0.12650.1265 0.13390.1339 0.5340.534 1.11221.1122 0.79550.7955 1.5551.555 0.61030.6103 DRB1*15DRB1*15 1616 8080 8080 606606 0.16670.1667 0.11660.1166 0.12280.1228 0.13950.1395 1.61721.6172 0.85480.8548 3.05953.0595 0.5580.558

이와 같은 본 발명에 의한 다중 분류 기계학습 모델을 통해 모두에 대해 예측되고 검사 된 HLA 하플로타입은 도 6에 도시된 바와 같이, 강한 상관관계를 보인다. 이는 5가지 약물 모두에서, 예측된 HLA 하플로타입과 약물반응성의 예측이 정확하다는 것을 확인할 수 있다.As shown in FIG. 6 , the HLA haplotypes predicted and tested for all through the multi-classification machine learning model according to the present invention show a strong correlation. This confirms that the predicted HLA haplotype and the prediction of drug reactivity are accurate for all five drugs.

한편, 도 5 내지 도 9에는 암약물인 paclitaxel(도 5), BI-2536(도 6), AT-7519(도 7), QL-XII-47(도 8) 및 GW843682X(도 9)의 약물반응성을 예측할 수 있는 HLA 하플로타입과 유전자 바이오마커를 도출한 시험결과가 각각 나타나있다. 즉, 발현량 정보와 하플로타입 정보 개별적으로 약물반응 마커로 이용한 것보다 두 정보의 조합으로 했을 때 더 유의한 결과를 얻을 수 있으며, 이 바이오마커들을 통하여 약물반응군을 구별하는 것이 가능함을 보여준다.On the other hand, in FIGS. 5 to 9, the cancer drugs paclitaxel (FIG. 5), BI-2536 (FIG. 6), AT-7519 (FIG. 7), QL-XII-47 (FIG. 8) and GW843682X (FIG. 9) drugs Test results for deriving HLA haplotypes and genetic biomarkers that can predict reactivity are shown, respectively. That is, a more significant result can be obtained when the expression level information and the haplotype information are used as a combination of the two information rather than individually as drug response markers, and it shows that it is possible to distinguish drug response groups through these biomarkers. .

최종적으로, 본 발명을 요약하면, 본 발명은 HLA 하플로타입 정보를 활용하여 약물반응성 예측 모델을 계산하기 위해, 검사 대상 유전체로부터 수집된 염기서열에서 다수의 변이들을 활용하여 HLA 하플로타입들을 예측하는 단계와 HLA 하플로타입과 약물반응성 정보간의 LASSO regression 모델의 해를 계산하는 단계와 이러한 해를 이용하여 유전자 발현량과의 상관관계를 GBM regression을 이용해 효과적으로 약물 중에 민감성이 높은 암 약물을 필터링하는 가상임상(In Silico Clinical Trial)을 위한 약물 반응성 예측 방법에 관한 것이다.Finally, to summarize the present invention, the present invention predicts HLA haplotypes by utilizing a number of mutations in the nucleotide sequence collected from the genome to be tested in order to calculate a drug reactivity prediction model using HLA haplotype information. The step of calculating the solution of the LASSO regression model between the HLA haplotype and drug reactivity information, and the step of calculating the correlation with the gene expression level using this solution virtual It relates to a method for predicting drug reactivity for in silico clinical trials.

본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.The rights of the present invention are not limited to the embodiments described above, but are defined by the claims, and those skilled in the art can make various modifications and adaptations within the scope of the claims. it is self-evident

본 발명은 면역항암제의 반응성을 반응 대상 유전체의 유전특성 및 인간백혈구항원 하플로타입(이하 HLA 하플로타입)으로 변환하여 높은 정밀도의 면역항암제 적응증 및 민감성 예측 시스템 및 방법에 관한 것으로, 이와 같은 본 발명에 의하면, HLA 하플로타입 정보를 활용하여 약물반응성 예측을 검사 대상 유전체로부터 수집된 염기서열에서 다수의 변이들을 활용하여 HLA 하플로타입들을 예측하고, HLA 하플로타입과 약물반응성 정보간의 LASSO regression 모델의 결과를 계산하여, 유전자 발현량과의 상관관계를 GBM regression을 이용해 효과적으로 약물 중에 민감성이 높은 암 약물을 필터링하는 가상임상(In Silico Clinical Trial)을 위한 약물 반응성을 예측할 수 있는 효과가 있다.The present invention relates to a system and method for predicting high-precision immunotherapy indications and sensitivity by converting the reactivity of the immuno-oncology drug into the genetic characteristics of the target genome and the human leukocyte antigen haplotype (hereinafter referred to as the HLA haplotype). According to the invention, drug reactivity prediction using HLA haplotype information is predicted using multiple mutations in the nucleotide sequence collected from the genome to be tested, and LASSO regression between HLA haplotype and drug reactivity information By calculating the results of the model, there is an effect of predicting drug reactivity for an in silico clinical trial that effectively filters out highly sensitive cancer drugs among drugs using GBM regression to correlate with gene expression level.

Claims (23)

분석정보를 수신하여 상기 분석정보에 포함된 유전체에 대한 약물의 반응성 예측결과를 산출하는 면역항암제 적응증 및 반응 예측 방법에 있어서,
분석대상이 되는 유전체 및 약물 데이터가 포함된 분석 대상정보를 수신하는 단계와;
상기 분석정보에 포함된 유전체의 분석대상 HLA 하플로타입 정보를 산출하고, 상기 분석정보에 포함된 약물의 분석대상 구성정보를 산출하는 단계와;
반응성 예측 알고리즘에 의해 상기 분석대상 유전체정보와 상기 분석대상 구성정보의 반응 상관관계에 상기 분석 대상정보에 포함된 유전체에 대한 약물의 반응성 예측 결과를 산출하고, 산출된 결과를 출력하는 단계를 포함하여 수행되고:
상기 분석대상 구성정보와 HLA 하플로타입 정보는 각각의 기계학습에 적용된 구성정보 및 HLA 하플로타입 정보에 대응하는 정보임을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
In the immuno-oncology indication and response prediction method for receiving analysis information and calculating a result of predicting the reactivity of a drug with respect to the genome included in the analysis information,
Receiving the analysis target information including the genome and drug data to be analyzed;
calculating the analysis target HLA haplotype information of the genome included in the analysis information, and calculating the analysis target composition information of the drug included in the analysis information;
Calculating the reactivity prediction result of the drug with respect to the genome included in the analysis target information in the reaction correlation between the analysis target genome information and the analysis target configuration information by a reactivity prediction algorithm, and outputting the calculated result Performed:
The human leukocyte antigen haplotype-based multi-classification artificial intelligence model, characterized in that the analysis target configuration information and HLA haplotype information are information corresponding to the configuration information and HLA haplotype information applied to each machine learning. Indications and methods of predicting response.
제 1 항에 있어서,
상기 분석대상 구성정보와 HLA 하플로타입 정보는,
약물을 구성하는 관능기 정보 및 상기 유전체에 포함된 HLA 하플로타입 정보임을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
The method of claim 1,
The analysis target configuration information and HLA haplotype information are,
A method for predicting the indication and response of an immuno-oncology drug using a multi-classification artificial intelligence model based on a human leukocyte antigen haplotype, characterized in that it is information on the functional groups constituting the drug and the HLA haplotype information included in the genome.
제 1 항에 있어서,
상기 분석대상 구성정보와 HLA 하플로타입 정보는,
약물을 구성하는 관능기 정보 및 상기 유전체에 포함된 변이들에 대한 특성 정보임을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
The method of claim 1,
The analysis target configuration information and HLA haplotype information are,
A method for predicting the indication and response of an immuno-oncology drug using a multi-classification artificial intelligence model based on a human leukocyte antigen haplotype, characterized in that the functional group information constituting the drug and the characteristic information on the mutations included in the genome.
제 1 항에 있어서,
상기 반응성 예측 알고리즘은,
수집된 학습정보로부터 유전체에 포함된 HLA 하플로타입 정보에 대한 약물을 구성하는 구성정보의 반응성 상관관계를 다중 분류 기계학습에 의해 학습된 알고리즘임을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
The method of claim 1,
The reactivity prediction algorithm is
Human leukocyte antigen haplotype-based multi-classification artificial, characterized in that it is an algorithm learned by multi-classification machine learning for the reactivity correlation of constituent information constituting drugs to HLA haplotype information contained in the genome from the collected learning information. A method for predicting the indications and responses of immuno-oncology drugs using an intelligent model.
제 4 항에 있어서,
상기 기계학습은,
학습대상 데이터를 다수의 세포주와 다수의 약물에 따라 구분하여 정렬하고, 이에 대하여 모든 유전체 유변들을 반응성(IC50)을 기준으로 합성곱 기반으로 학습하는 LASSO 회귀분석(regression) 과정과;
학습대상 데이터를 다수의 셀라인과 다수의 약물에 따라 구분하여 정열하고, 이에 대하여 모든 유전자의 발현량 정보를 기준으로 합성곱 기반으로 학습하는 GBM 회귀분석(regression) 과정; 그리고
상기 LASSO 회귀분석(regression) 과정 및 GBM 회귀분석(regression) 과정으로부터 산출된 HLA 하플로타입 정보와 각 약물 반응성과 유전자 발현량에 대한 파라미터들을 병합한 상태로 합성곱기반으로 학습하는 LASSO 분류(classification) 과정을 포함하여 수행됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
5. The method of claim 4,
The machine learning is
LASSO regression process for classifying and aligning learning target data according to multiple cell lines and multiple drugs, and learning all genomic rheology based on convolution based on reactivity (IC50);
GBM regression process for classifying and arranging learning target data according to multiple cell lines and multiple drugs, and learning based on convolution based on expression level information of all genes; and
LASSO classification that learns based on convolution with the HLA haplotype information calculated from the LASSO regression process and the GBM regression process and parameters for each drug reactivity and gene expression level merged ), a method for predicting immunotherapy indications and response using a multi-classification artificial intelligence model based on human leukocyte antigen haplotype, characterized in that it is carried out including the process.
제 4 항에 있어서,
상기 기계학습은,
최종 분석 대상인 HLA 하플로타입 정보와 약물 반응성 정보(IC50)를 학습요소로 하여 기계학습을 수행하는 LASSO 기계학습에 의해 수행됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
5. The method of claim 4,
The machine learning is
Immunity using human leukocyte antigen haplotype-based multi-classification artificial intelligence model, characterized in that it is performed by LASSO machine learning, which performs machine learning using HLA haplotype information and drug reactivity information (IC50), which are the final analysis target, as learning factors. Anticancer drug indication and response prediction method.
제 6 항에 있어서,
상기 LASSO 기계학습은,
(A) 학습데이터 생성부가 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와;
(B) 상기 학습정보에 포함된 HLA 하플로타입들에 대한 유전정보들을 생성하는 단계와;
(C) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와;
(D) 상기 학습정보에 포함된 HLA 하플로타입 정보 군에 대한 약물을 구성하는 구성정보 군에 대한 반응도를 나타낸 전처리된 학습데이터들을 생성하는 단계와;
(E) 상기 전처리된 학습데이터들에 대한 기계학습을 통해, 개별 HLA 하플로타입 정보에 대한 개별 구성정보의 반응 상관관계를 도출하는 단계; 그리고
(F) 학습된 상기 HLA 하플로타입 정보에 대한 상기 구성정보의 반응 상관관계를 통해, HLA 하플로타입 정보들을 포함하는 유전체에 대한 구성정보들로 구성되는 약물의 반응성 예측 알고리즘을 생성하는 단계;를 포함하여 수행됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
7. The method of claim 6,
The LASSO machine learning is
(A) the learning data generating unit collecting learning information indicating the degree of response to each drug for each cell line genome;
(B) generating genetic information for HLA haplotypes included in the learning information;
(C) generating configuration information constituting the drug included in the learning information;
(D) generating pre-processed learning data indicating a degree of response to a group of constituent information constituting a drug to the HLA haplotype information group included in the learning information;
(E) deriving a response correlation of individual configuration information to individual HLA haplotype information through machine learning on the pre-processed learning data; and
(F) generating a drug reactivity prediction algorithm composed of constituent information on a genome including HLA haplotype information through the response correlation of the constituent information to the learned HLA haplotype information; A method for predicting immunotherapy indications and response using a multi-classification artificial intelligence model based on human leukocyte antigen haplotype, characterized in that it is performed, including:
제 4 항에 있어서,
상기 기계학습은,
HLA 하플로타입 정보와 특정 유전자의 발현량을 학습요소로하여 기계학습을 수행하는 GBM 기계학습에 의해 수행됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
5. The method of claim 4,
The machine learning is
Indications and responses to immuno-oncology drugs using human leukocyte antigen haplotype-based multi-classification artificial intelligence model, characterized in that it is performed by GBM machine learning that performs machine learning using HLA haplotype information and expression levels of specific genes as learning factors Prediction method.
제 8 항에 있어서,
상기 GBM 기계학습은,
(a) 학습데이터 생성부가 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와;
(b) 상기 학습정보에 포함된 HLA 하플로타입들에 대한 유전정보들을 생성하는 단계와;
(c) 각 유전체에 포함된 상기 HLA 하플로타입 정보 군에 대한 약물의 반응도를 나타내는 HLA 하플로타입 정보 전처리 데이터들을 생성하는 단계와;
(d) 상기 유전정보 학습정보들에 대한 다중 분류 기계학습을 통해 각 유전정보에 대한 약물의 반응 상관관계를 도출하는 단계와;
(e) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와;
(f) 각 유전체에 대한 약물을 구성하는 구성정보 군의 반응도를 나타내는 구성정보 전처리 학습데이터들을 생성하고, 상기 구성정보 학습데이터들에 대한 GBM 알고리즘을 통해 각 유전체에 대한 각 구성정보의 반응 상관관계를 도출하는 단계와;
(g) 각 유전자 발현량 정보에 대한 약물의 반응 상관관계와, 각 유전체에 대한 각 HLA 하플로타입 정보의 상관관계를 통해 개별 하플로타입 정보에 대한 개별 유전자 발현량 정보의 반응 상관관계를 도출하는 단계;를 포함하여 수행됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
9. The method of claim 8,
The GBM machine learning is,
(a) collecting learning information indicating the degree of response to each drug for each cell line genome by the learning data generator;
(b) generating genetic information for HLA haplotypes included in the learning information;
(c) generating HLA haplotype information pre-processing data indicating a drug's reactivity to the HLA haplotype information group included in each genome;
(d) deriving a drug response correlation to each genetic information through multi-classification machine learning for the genetic information learning information;
(e) generating configuration information constituting the drug included in the learning information;
(f) generates composition information pre-processing learning data indicating the reactivity of the composition information group constituting the drug for each genome, and the response correlation of each composition information for each genome through the GBM algorithm for the composition information learning data deriving;
(g) Deriving the response correlation of individual gene expression level information to individual haplotype information through the correlation between the drug response to each gene expression level information and each HLA haplotype information for each genome A method for predicting immunotherapy indications and response using a multi-classification artificial intelligence model based on human leukocyte antigen haplotype, characterized in that it is performed, including the steps of:
제 7 항 또는 제 9 항에 있어서,
상기 학습정보는,
다양한 세포주들에 대한 다양한 약물의 반응성에 대한 시험 결과데이터임을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
10. The method according to claim 7 or 9,
The learning information is
Indications and response prediction method for immuno-oncology drugs using a multi-classification artificial intelligence model based on human leukocyte antigen haplotype, characterized in that it is test result data for the reactivity of various drugs to various cell lines.
제 7 항 또는 제 9 항에 있어서,
상기 HLA 하플로타입 정보는,
변이정보 또는 변이들에 대한 특성정보임을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
10. The method according to claim 7 or 9,
The HLA haplotype information is,
A method for predicting immunotherapy indications and response using a human leukocyte antigen haplotype-based multi-classification artificial intelligence model, characterized in that it is mutation information or characteristic information on mutations.
제 7 항 또는 제 9 항에 있어서,
상기 구성정보는,
약물을 구성하는 관능기 정보임을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
10. The method according to claim 7 or 9,
The configuration information is
A method for predicting immunotherapy indications and response using a human leukocyte antigen haplotype-based multi-classification artificial intelligence model, characterized in that it is information on the functional groups constituting the drug.
제 7 항에 있어서,
상기 제(E)단계의 약물 반응성의 기준은,
수용억제지수 IC50을 기준으로 판단됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 방법.
8. The method of claim 7,
The standard of drug reactivity in step (E) is,
A method for predicting immunotherapy indications and response using a multi-classification artificial intelligence model based on a human leukocyte antigen haplotype, characterized in that it is judged based on the receptive inhibition index IC50.
분석정보를 수신하여 상기 분석정보에 포함된 유전체에 대한 약물의 반응성 예측결과를 산출하는 면역항암제 적응증 및 반응 예측 시스템에 있어서,
분석 대상이 되는 유전체 및 약물 데이터가 포함된 분석대상 정보를 입력받는 입력부와;
상기 분석대상 정보에 포함된 유전자 발현량 데이터 및 약물 데이터를 각각 기계학습에 사용된 HLA 하플로타입 정보 및 구성정보에 대응하는 형태로 구성되는 비교데이터를 생성하는 비교데이터 생성부; 그리고
반응성 예측 알고리즘 구성부에 의해 도출된 반응성 예측 알고리즘에 의해, 분석대상 정보에 포함된 유전체에 대한 약물의 반응 예측결과를 산출하는 예측결과 생성부를 포함하여 구성됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템.
In the immuno-oncology indication and response prediction system for receiving analysis information and calculating a result of predicting the reactivity of a drug with respect to the genome included in the analysis information,
an input unit for receiving analysis target information including genomic and drug data to be analyzed;
a comparison data generation unit for generating comparison data comprising gene expression data and drug data included in the analysis target information in a form corresponding to HLA haplotype information and configuration information used for machine learning, respectively; and
Human leukocyte antigen haplotype-based, characterized in that it comprises a prediction result generating unit that calculates the response prediction result of the drug to the genome included in the analysis target information by the reactivity prediction algorithm derived by the reactivity prediction algorithm component Immuno-oncology indication and response prediction system using multi-classification artificial intelligence model.
제 14 항에 있어서,
상기 HLA 하플로 타입 정보는,
우도-기반 추정(likelihood-based inference)을 이용하여 다수의 다형성 마커 및 SNP를 허용하는 프로그램에 의해 산출됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템.
15. The method of claim 14,
The HLA haplotype information is,
Immunotherapy indications and response prediction using a multi-classification artificial intelligence model based on human leukocyte antigen haplotype, characterized in that it is calculated by a program that allows multiple polymorphic markers and SNPs using likelihood-based inference system.
제 14 항에 있어서,
상기 비교데이터 생성부는,
상기 기계학습이 HLA 하플로타입 정보와 관능기정보로 수행된 경우, 상기 분석대상 정보에 포함된 유전체의 HLA 하플로타입 데이터를 산출하고, 분석대상 정보에 포함된 관능기 정보를 산출함을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템.
15. The method of claim 14,
The comparison data generation unit,
When the machine learning is performed with HLA haplotype information and functional group information, HLA haplotype data of the genome included in the analysis target information is calculated, and functional group information included in the analysis target information is calculated. Immuno-oncology indication and response prediction system using multi-classification artificial intelligence model based on human leukocyte antigen haplotype.
제 14 항에 있어서,
상기 비교데이터 생성부는,
상기 기계학습이 유전자 발현량 정보와 관능기정보로 수행된 경우, 상기 분석대상 정보에 포함된 유전체의 유전자 발현량에 대한 특성정보를 산출하고, 분석대상 정보에 포함된 관능기 정보를 산출함을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템.
15. The method of claim 14,
The comparison data generation unit,
When the machine learning is performed with gene expression level information and functional group information, characteristic information about the gene expression level of the genome included in the analysis target information is calculated, and functional group information included in the analysis target information is calculated. Immuno-oncology indication and response prediction system using multi-classification artificial intelligence model based on human leukocyte antigen haplotype.
제 14 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 반응성 예측 알고리즘은,
수집된 학습정보로부터 유전체에 포함된 HLA 하플로타입 정보에 대한 약물을 구성하는 구성정보의 반응성 상관관계를 다중 분류 기계학습에 의해 학습된 알고리즘임을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템.
18. The method according to any one of claims 14 to 17,
The reactivity prediction algorithm is
Human leukocyte antigen haplotype-based multi-classification artificial, characterized in that it is an algorithm learned by multi-classification machine learning for the reactivity correlation of constituent information constituting drugs to HLA haplotype information contained in the genome from the collected learning information. Immuno-oncology indication and response prediction system using intelligent model.
제 18 항에 있어서,
상기 기계학습은,
학습대상 데이터를 다수의 세포주와 다수의 약물에 따라 구분하여 정렬하고, 이에 대하여 모든 유전체 유변들을 반응성(IC50)을 기준으로 합성곱 기반으로 학습하는 LASSO 회귀분석(regression) 과정과;
학습대상 데이터를 다수의 셀라인과 다수의 약물에 따라 구분하여 정열하고, 이에 대하여 모든 유전자의 발현량 정보를 기준으로 합성곱 기반으로 학습하는 GBM 회귀분석(regression) 과정; 그리고
상기 LASSO 회귀분석(regression) 과정 및 GBM 회귀분석(regression) 과정으로부터 산출된 HLA 하플로타입 정보와 각 약물 반응성과 유전자 발현량에 대한 파라미터들을 병합한 상태로 합성곱기반으로 학습하는 LASSO 분류(classification) 과정을 포함하여 수행됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템.
19. The method of claim 18,
The machine learning is
LASSO regression process for classifying and aligning learning target data according to multiple cell lines and multiple drugs, and learning all genomic rheology based on convolution based on reactivity (IC50);
GBM regression process for classifying and arranging learning target data according to multiple cell lines and multiple drugs, and learning based on convolution based on expression level information of all genes; and
LASSO classification that learns based on convolution with the HLA haplotype information calculated from the LASSO regression process and the GBM regression process and parameters for each drug reactivity and gene expression level merged ), an immuno-oncology indication and response prediction system using a multi-classification artificial intelligence model based on human leukocyte antigen haplotype, characterized in that it is carried out including the process.
제 19 항에 있어서,
상기 기계학습은,
최종 분석 대상인 HLA 하플로타입 정보와 약물 반응성 정보(IC50)를 학습요소로 하여 기계학습을 수행하는 LASSO 기계학습에 의해 수행됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템.
20. The method of claim 19,
The machine learning is
Immunity using human leukocyte antigen haplotype-based multi-classification artificial intelligence model, characterized in that it is performed by LASSO machine learning, which performs machine learning using HLA haplotype information and drug reactivity information (IC50), the final analysis target, as learning factors Anticancer drug indication and response prediction system.
제 20 항에 있어서,
상기 LASSO 기계학습은,
(A) 학습데이터 생성부가 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와;
(B) 상기 학습정보에 포함된 HLA 하플로타입들에 대한 유전정보들을 생성하는 단계와;
(C) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와;
(D) 상기 학습정보에 포함된 HLA 하플로타입 정보 군에 대한 약물을 구성하는 구성정보 군에 대한 반응도를 나타낸 전처리된 학습데이터들을 생성하는 단계와;
(E) 상기 전처리된 학습데이터들에 대한 기계학습을 통해, 개별 HLA 하플로타입 정보에 대한 개별 구성정보의 반응 상관관계를 도출하는 단계; 그리고
(F) 학습된 상기 HLA 하플로타입 정보에 대한 상기 구성정보의 반응 상관관계를 통해, HLA 하플로타입 정보들을 포함하는 유전체에 대한 구성정보들로 구성되는 약물의 반응성 예측 알고리즘을 생성하는 단계;를 포함하여 수행됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템.
21. The method of claim 20,
The LASSO machine learning is
(A) the learning data generating unit collecting learning information indicating the degree of response to each drug for each cell line genome;
(B) generating genetic information for HLA haplotypes included in the learning information;
(C) generating configuration information constituting the drug included in the learning information;
(D) generating pre-processed learning data indicating a degree of response to a group of constituent information constituting a drug to the HLA haplotype information group included in the learning information;
(E) deriving a response correlation of individual configuration information to individual HLA haplotype information through machine learning on the preprocessed learning data; and
(F) generating a drug reactivity prediction algorithm composed of constituent information on a genome including HLA haplotype information through the response correlation of the constituent information to the learned HLA haplotype information; Immuno-oncology indication and response prediction system using a multi-classification artificial intelligence model based on human leukocyte antigen haplotype, characterized in that it is performed including
제 19 항에 있어서,
상기 기계학습은,
HLA 하플로타입 정보와 특정 유전자의 발현량을 학습요소로하여 기계학습을 수행하는 GBM 기계학습에 의해 수행됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템.
20. The method of claim 19,
The machine learning is
Indications and responses to immuno-oncology drugs using human leukocyte antigen haplotype-based multi-classification artificial intelligence model, characterized in that it is performed by GBM machine learning that performs machine learning using HLA haplotype information and expression levels of specific genes as learning factors prediction system.
제 22 항에 있어서,
상기 GBM 기계학습은,
(a) 학습데이터 생성부가 세포주 유전체 별로 각각의 약물에 대한 반응도를 나타내는 학습정보를 수집하는 단계와;
(b) 상기 학습정보에 포함된 HLA 하플로타입들에 대한 유전정보들을 생성하는 단계와;
(c) 각 유전체에 포함된 상기 HLA 하플로타입 정보 군에 대한 약물의 반응도를 나타내는 HLA 하플로타입 정보 전처리 데이터들을 생성하는 단계와;
(d) 상기 유전정보 학습정보들에 대한 다중 분류 기계학습을 통해 각 유전정보에 대한 약물의 반응 상관관계를 도출하는 단계와;
(e) 상기 학습정보에 포함된 약물을 구성하는 구성정보들을 생성하는 단계와;
(f) 각 유전체에 대한 약물을 구성하는 구성정보 군의 반응도를 나타내는 구성정보 전처리 학습데이터들을 생성하고, 상기 구성정보 학습데이터들에 대한 GBM 알고리즘을 통해 각 유전체에 대한 각 구성정보의 반응 상관관계를 도출하는 단계와;
(g) 각 유전자 발현량 정보에 대한 약물의 반응 상관관계와, 각 유전체에 대한 각 HLA 하플로타입 정보의 상관관계를 통해 개별 하플로타입 정보에 대한 개별 유전자 발현량 정보의 반응 상관관계를 도출하는 단계;를 포함하여 수행됨을 특징으로 하는 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템.
23. The method of claim 22,
The GBM machine learning is,
(a) collecting learning information indicating the degree of response to each drug for each cell line genome by the learning data generator;
(b) generating genetic information for HLA haplotypes included in the learning information;
(c) generating HLA haplotype information pre-processing data indicating a drug's reactivity to the HLA haplotype information group included in each genome;
(d) deriving a drug response correlation to each genetic information through multi-classification machine learning for the genetic information learning information;
(e) generating configuration information constituting the drug included in the learning information;
(f) generates compositional information preprocessing learning data indicating the reactivity of the compositional information group constituting the drug for each genome, and the response correlation of each compositional information for each genome through the GBM algorithm for the compositional information learning data deriving;
(g) Deriving the response correlation of individual gene expression level information to individual haplotype information through the correlation between the drug response to each gene expression level information and each HLA haplotype information for each genome Immuno-oncology indication and response prediction system using a human leukocyte antigen haplotype-based multi-classification artificial intelligence model, characterized in that it is carried out including;
KR1020210027731A 2020-02-28 2021-03-02 Prediction system and method of cancer immunotherapy drug Sensitivity using multiclass classification A.I based on HLA Haplotype KR20210110241A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200025015 2020-02-28
KR20200025015 2020-02-28

Publications (1)

Publication Number Publication Date
KR20210110241A true KR20210110241A (en) 2021-09-07

Family

ID=77797211

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210027731A KR20210110241A (en) 2020-02-28 2021-03-02 Prediction system and method of cancer immunotherapy drug Sensitivity using multiclass classification A.I based on HLA Haplotype

Country Status (1)

Country Link
KR (1) KR20210110241A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023063605A1 (en) * 2021-10-12 2023-04-20 포항공과대학교 산학협력단 Biomarker search device and method capable of predicting ici treatment effect and overall survival rate for cancer patients by using network-based machine learning technique
KR102547350B1 (en) * 2022-01-11 2023-06-23 주식회사 네오젠티씨 Apparatus and method for determining human leukocyte antigen type

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Forbes, S. A., et al. COSMIC: somatic cancer genetics at high-resolution. Nucleic Acids Research. 45, 777-783 (2017).

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023063605A1 (en) * 2021-10-12 2023-04-20 포항공과대학교 산학협력단 Biomarker search device and method capable of predicting ici treatment effect and overall survival rate for cancer patients by using network-based machine learning technique
KR102547350B1 (en) * 2022-01-11 2023-06-23 주식회사 네오젠티씨 Apparatus and method for determining human leukocyte antigen type
WO2023136486A1 (en) * 2022-01-11 2023-07-20 주식회사 네오젠티씨 Method and device for typing human leukocyte antigen

Similar Documents

Publication Publication Date Title
JP7247253B2 (en) Empirical Variant Score (EVS) Based Deep Learning Variant Caller
AU2022268283A1 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
JP2022184947A (en) Variant Classifier Based on Deep Neural Networks
US20140222349A1 (en) System and Methods for Pharmacogenomic Classification
Yang et al. CMDR based differential evolution identifies the epistatic interaction in genome-wide association studies
EP3945525A1 (en) Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next-generation sequencing data
CA2486431A1 (en) Computer systems and methods for subdividing a complex disease into component diseases
KR102628141B1 (en) Deep Learning-Based Framework For Identifying Sequence Patterns That Cause Sequence-Specific Errors (SSES)
US20230222311A1 (en) Generating machine learning models using genetic data
Yang et al. Epistasis analysis using an improved fuzzy C-means-based entropy approach
KR20210110241A (en) Prediction system and method of cancer immunotherapy drug Sensitivity using multiclass classification A.I based on HLA Haplotype
Holzinger et al. ATHENA: a tool for meta-dimensional analysis applied to genotypes and gene expression data to predict HDL cholesterol levels
Saei et al. A glance at DNA microarray technology and applications
Lock et al. Bayesian genome-and epigenome-wide association studies with gene level dependence
CN114974432A (en) Screening method of biomarker and related application thereof
Ahmad et al. A review of genetic variant databases and machine learning tools for predicting the pathogenicity of breast cancer
NL2021473B1 (en) DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs)
Vrahatis et al. Network biomarkers for Alzheimer’s disease via a graph-based approach
Aloqaily et al. Feature prioritisation on big genomic data for analysing gene-gene interactions
Patruno Computational strategies for single-cell multi-omics data analysis and integration
WO2023129621A1 (en) Rare variant polygenic risk scores
WO2023129622A1 (en) Covariate correction for temporal data from phenotype measurements for different drug usage patterns
WO2023129619A1 (en) Optimized burden test based on nested t-tests that maximize separation between carriers and non-carriers
Naiman [16] Random Data Set Generation to Support Microarray Analysis
Nahlawi Increasing the Discovery Power and Confidence Levels of Disease Association Studies: A Survey

Legal Events

Date Code Title Description
E902 Notification of reason for refusal