KR102601304B1 - Method for diagnosis and therapeutic decision using artificial neural network trained with functional gene module and apparatus therefore - Google Patents

Method for diagnosis and therapeutic decision using artificial neural network trained with functional gene module and apparatus therefore Download PDF

Info

Publication number
KR102601304B1
KR102601304B1 KR1020200120165A KR20200120165A KR102601304B1 KR 102601304 B1 KR102601304 B1 KR 102601304B1 KR 1020200120165 A KR1020200120165 A KR 1020200120165A KR 20200120165 A KR20200120165 A KR 20200120165A KR 102601304 B1 KR102601304 B1 KR 102601304B1
Authority
KR
South Korea
Prior art keywords
pathways
neural network
cancer
pathway
gene
Prior art date
Application number
KR1020200120165A
Other languages
Korean (ko)
Other versions
KR20220037561A (en
Inventor
안태진
박상익
박태성
Original Assignee
한동대학교 산학협력단
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한동대학교 산학협력단, 서울대학교산학협력단 filed Critical 한동대학교 산학협력단
Priority to KR1020200120165A priority Critical patent/KR102601304B1/en
Publication of KR20220037561A publication Critical patent/KR20220037561A/en
Application granted granted Critical
Publication of KR102601304B1 publication Critical patent/KR102601304B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

유전자 기능 모듈을 학습한 뉴럴 네트워크를 활용한 암의 진단과 치료 결정 방법 및 그 장치가 개시된다. 본 발명의 일 실시예에 따른 뉴럴 네트워크를 이용한 암과 정상 여부 추정 방법은 대상자의 유전자 심볼들을 유전자 그룹인 패스웨이들로 구분하는 단계; 상기 구분된 패스웨이들 각각을 입력으로 하는 패스웨이 기반으로 학습된 뉴럴 네트워크에 기초하여 상기 패스웨이들 각각에 대한 시그니쳐(signature)를 획득하는 단계; 및 상기 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 암과 정상 여부를 추정하는 단계를 포함한다.A method and device for diagnosing and determining cancer treatment using a neural network that has learned gene function modules are disclosed. A method for estimating cancer and normal status using a neural network according to an embodiment of the present invention includes the steps of dividing the subject's genetic symbols into pathways, which are gene groups; Obtaining a signature for each of the divided pathways based on a neural network learned based on the pathway using each of the divided pathways as input; and estimating whether the pathway is cancerous or normal using the acquired signature.

Figure R1020200120165
Figure R1020200120165

Description

유전자 기능 모듈을 학습한 뉴럴 네트워크를 활용한 암의 진단과 치료 결정 방법 및 그 장치 {Method for diagnosis and therapeutic decision using artificial neural network trained with functional gene module and apparatus therefore}Method for diagnosis and therapeutic decision using artificial neural network trained with functional gene module and apparatus therefore}

본 발명은 유전자 기능 모듈을 학습한 뉴럴 네트워크를 활용한 암의 진단과 치료 결정 기술에 관한 것으로서, 보다 상세하게는 생명과학적인 해석과 이해가 가능하도록 구조화된 딥 뉴럴 네트워크를 딥 러닝을 통하여 암과 정상 세포를 구별할 수 있도록 유전자들의 발현 패턴을 학습함으로써, 학습된 딥 뉴럴 네트워크를 이용하여 암/정상의 판별, 암의 예후 예측, 암의 맞춤형 치료를 결정할 수 있는 방법 및 그 장치에 관한 것이다.The present invention relates to cancer diagnosis and treatment decision technology using a neural network that has learned gene function modules. More specifically, a deep neural network structured to enable life science interpretation and understanding is used to diagnose and treat cancer through deep learning. It relates to a method and device that can determine cancer/normal discrimination, cancer prognosis prediction, and customized cancer treatment using a learned deep neural network by learning the expression patterns of genes to distinguish normal cells.

유전자의 발현은 세포의 기능을 결정하며, 암과 정상 세포에서도 그 기능의 차이에 기여하는 유전자 발현 상의 차이가 존재한다. 암을 치료하는 과정에서도, 특정 유전자의 발현을 조절하여 암을 억제하거나 사멸시키는 전략이 유효하여 특정 유전자들의 발현 패턴을 이해하고 거기에 맞는 약물을 치료하는 동반 진단이 임상적으로 널리 쓰이고 있다.The expression of genes determines the function of cells, and there are differences in gene expression in cancer and normal cells that contribute to differences in function. Even in the process of treating cancer, strategies to suppress or kill cancer by controlling the expression of specific genes are effective, and companion diagnostics that understand the expression patterns of specific genes and treat them with appropriate drugs are widely used clinically.

기존의 동반 진단은 단순히 하나 혹은 두 세개의 유전자 발현의 조합을 통하여 약물을 처방하고 있다. 일 예로 유방암 치료제로 널리쓰이는 Tratuzumab은 HER2 유전자가 과발현된 유방암 환자에게 투여되며, 다른 일 예로 폐암 면역관문 억제제인 Kitruda는 PD1 유전자의 과발현을 기준으로 사용된다. 단일 유전자의 발현은 임상적인 기준은 충족하고 있으나, 궁극적인 암 치료로 이어지지는 않으며, 다양한 유전자들의 발현 패턴을 이해하고 진단 및 치료에 적용하려는 노력은 계속되고 있다.Existing companion diagnostics simply prescribe drugs through a combination of the expression of one or two or three genes. For example, Tratuzumab, which is widely used as a breast cancer treatment, is administered to breast cancer patients with overexpression of the HER2 gene, and as another example, Keytruda, a lung cancer immune checkpoint inhibitor, is used based on overexpression of the PD1 gene. Although the expression of a single gene meets clinical standards, it does not lead to ultimate cancer treatment, and efforts are continuing to understand the expression patterns of various genes and apply them to diagnosis and treatment.

하지만, 유전자의 수자는 20,000여개나 되고, 이들의 발현 패턴은 무수히 많이 존재하기 때문에, 특정한 발현 패턴이 암의 진단, 예후 예측, 치료 효과와 관련이 있는지를 밝혀내는 것이 도전 과제이다.However, because the number of genes is as many as 20,000 and their expression patterns are numerous, it is a challenge to discover whether specific expression patterns are related to cancer diagnosis, prognosis prediction, and treatment effectiveness.

본 발명의 실시예들은, 생명과학적인 해석과 이해가 가능하도록 구조화된 딥 뉴럴 네트워크를 딥 러닝을 통하여 암과 정상 세포를 구별할 수 있도록 유전자들의 발현 패턴을 학습함으로써, 학습된 딥 뉴럴 네트워크를 이용하여 암 정상의 판별, 암의 예후 예측, 암의 맞춤형 치료를 결정할 수 있는 방법 및 그 장치를 제공한다.Embodiments of the present invention use a learned deep neural network by learning the expression patterns of genes to distinguish cancer and normal cells through deep learning, a deep neural network structured to enable life science interpretation and understanding. Provides a method and device for determining normal cancer, predicting cancer prognosis, and determining customized treatment for cancer.

본 발명의 일 실시예에 따른 뉴럴 네트워크를 이용한 암과 정상 여부 추정 방법은 대상자의 유전자 심볼들을 유전자 그룹인 패스웨이들로 구분하는 단계; 상기 구분된 패스웨이들 각각을 입력으로 하는 패스웨이 기반으로 학습된 뉴럴 네트워크에 기초하여 상기 패스웨이들 각각에 대한 시그니쳐(signature)를 획득하는 단계; 및 상기 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 암과 정상 여부를 추정하는 단계를 포함한다.A method for estimating cancer and normal status using a neural network according to an embodiment of the present invention includes the steps of dividing the subject's genetic symbols into pathways, which are gene groups; Obtaining a signature for each of the divided pathways based on a neural network learned based on the pathway using each of the divided pathways as input; and estimating whether the pathway is cancerous or normal using the acquired signature.

상기 패스웨이들로 구분하는 단계는 상기 패스웨이들 각각에 대하여, 패스웨이 기여 인덱스(pathway contribution index) 값을 계산하고, 상기 계산된 패스웨이 기여 인덱스 값들 중 미리 설정된 개수의 상위 패스웨이 기여 인덱스 값을 가지는 유전자 심볼들을 선별한 후 상기 선별된 유전자 심볼들을 상기 패스웨이들로 구분할 수 있다.The step of classifying the pathways is to calculate a pathway contribution index value for each of the pathways, and to select a preset number of upper pathway contribution index values among the calculated pathway contribution index values. After selecting genetic symbols having , the selected genetic symbols can be divided into the pathways.

상기 시그니쳐를 획득하는 단계는 상기 뉴럴 네트워크에서 상기 패스웨이들 각각에 포함된 유전자 심볼들 각각에 대해 미리 설정된 웨이트의 합에 기초하여 상기 패스웨이들 각각에 대한 시그니쳐를 획득할 수 있다.In the step of acquiring the signature, a signature for each of the pathways may be acquired based on the sum of preset weights for each of the genetic symbols included in each of the pathways in the neural network.

상기 뉴럴 네트워크는 상기 구분된 패스웨이들 각각과 일대일로 연결되는 패스웨이 노드들을 포함할 수 있다.The neural network may include pathway nodes connected one-to-one with each of the divided pathways.

나아가, 본 발명의 일 실시예에 따른 뉴럴 네트워크를 이용한 암과 정상 여부 추정 방법은 상기 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 상기 암과 정상 여부를 추정하는데 기여한, 패스웨이와 유전자 심볼을 해석하는 단계더 포함할 수 있다.Furthermore, the method for estimating cancer and normality using a neural network according to an embodiment of the present invention uses the signatures obtained for each of the pathways to determine the pathway and genetic symbols that contribute to estimating cancer and normality. An additional step of interpretation may be included.

본 발명의 다른 일 실시예에 따른 뉴럴 네트워크를 이용한 암과 정상 여부 추정 방법은 대상자의 유전자 심볼들 중 미리 설정된 유전자 심볼들을 선별하는 단계; 상기 선별된 유전자 심볼들을 유전자 그룹인 패스웨이들로 구분하는 단계; 상기 구분된 패스웨이들 각각을 입력으로 하는 패스웨이 기반으로 학습된 뉴럴 네트워크에 기초하여 상기 패스웨이들 각각에 대한 시그니쳐(signature)를 획득하는 단계; 및 상기 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 암과 정상 여부를 추정하는 단계를 포함한다.A method for estimating cancer and normal status using a neural network according to another embodiment of the present invention includes the steps of selecting preset genetic symbols among the subject's genetic symbols; Classifying the selected genetic symbols into pathways, which are gene groups; Obtaining a signature for each of the divided pathways based on a neural network learned based on the pathway using each of the divided pathways as input; and estimating whether the pathway is cancerous or normal using the signature obtained for each of the pathways.

본 발명의 일 실시예에 따른 뉴럴 네트워크를 이용한 암과 정상 여부 추정 장치는 대상자의 유전자 심볼들을 유전자 그룹인 패스웨이들로 구분하는 구분부; 상기 구분된 패스웨이들 각각을 입력으로 하는 패스웨이 기반으로 학습된 뉴럴 네트워크에 기초하여 상기 패스웨이들 각각에 대한 시그니쳐(signature)를 획득하는 획득부; 및 상기 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 암과 정상 여부를 추정하는 추정부를 포함한다.An apparatus for estimating cancer and normal status using a neural network according to an embodiment of the present invention includes a division unit that divides the subject's genetic symbols into pathways, which are gene groups; an acquisition unit that acquires a signature for each of the divided pathways based on a neural network learned based on the pathway that inputs each of the divided pathways; and an estimation unit that estimates whether cancer is normal or cancerous using the signature obtained for each of the pathways.

상기 구분부는 상기 패스웨이들 각각에 대하여, 패스웨이 기여 인덱스(pathway contribution index) 값을 계산하고, 상기 계산된 패스웨이 기여 인덱스 값들 중 미리 설정된 개수의 상위 패스웨이 기여 인덱스 값을 가지는 유전자 심볼들을 선별한 후 상기 선별된 유전자 심볼들을 상기 패스웨이들로 구분할 수 있다.The classification unit calculates a pathway contribution index value for each of the pathways, and selects gene symbols having a preset number of high pathway contribution index values among the calculated pathway contribution index values. After that, the selected genetic symbols can be divided into the pathways.

상기 획득부는 상기 뉴럴 네트워크에서 상기 패스웨이들 각각에 포함된 유전자 심볼들 각각에 대해 미리 설정된 웨이트의 합에 기초하여 상기 패스웨이들 각각에 대한 시그니쳐를 획득할 수 있다.The acquisition unit may acquire a signature for each of the pathways based on the sum of preset weights for each of the genetic symbols included in each of the pathways in the neural network.

상기 뉴럴 네트워크는 상기 구분된 패스웨이들 각각과 일대일로 연결되는 패스웨이 노드들을 포함할 수 있다.The neural network may include pathway nodes connected one-to-one with each of the divided pathways.

상기 추정부는 상기 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 상기 암과 정상 여부를 추정하는데 기여한, 패스웨이와 유전자 심볼을 해석할 수 있다.The estimation unit may use the signatures obtained for each of the pathways to interpret the pathways and genetic symbols that contribute to estimating whether the cancer is normal or not.

본 발명의 실시예들에 따르면, 생명과학적인 해석과 이해가 가능하도록 구조화된 딥 뉴럴 네트워크(DNN)를 딥 러닝을 통하여 암과 정상 세포를 구별할 수 있도록 유전자들의 발현 패턴을 학습함으로써, 학습된 딥 뉴럴 네트워크를 이용하여 암의 진단, 예후 예측, 치료제 처방에 예측 정확도를 높일 수 있으며, 진단, 예후, 약물 효과와 관련된 유전자들의 기능을 수치적으로 해석할 수 있다.According to embodiments of the present invention, by learning the expression patterns of genes to distinguish cancer and normal cells through deep learning, a deep neural network (DNN) structured to enable life science interpretation and understanding, the learned Using deep neural networks, prediction accuracy can be increased in cancer diagnosis, prognosis prediction, and treatment prescription, and the functions of genes related to diagnosis, prognosis, and drug effects can be numerically interpreted.

유전자 정보를 바탕으로한 진단, 예후에측, 치료제 처방은 미래 사업의 핵심 방향 중 하나로 암 에서의, 국민 건강 보험의 가능 사례를 필두로 하여 그 적용이 넓어지고 있다. 본 발명은 약 2만건의 공개된 유전자 발현 정보를 학습하여 암의 특성을 600여개의 유전자 기능 모듈 예를 들어, 유전자 그룹인 패스웨이로 특징화 할 수 있는 딥 뉴럴 네트워크 모델을 제공함으로써, 패스웨이 기반 뉴럴 네트워크를 이용하여 암과 정상 여부를 판별 또는 추정할 수 있다. 본 발명에서 제공되는 패스웨이 기반 학습 모델은 암의 특성을 구분지을 수 있는 유전자들의 특성을 생명과학자가 그 기능을 해석할 수 있는 600여개의 수치 값으로 제공함으로써, 이들 수치의 차이점을 바탕으로 암과 정상 여부를 판별하고, 해당 암과 관련된 맞춤 처방을 추천 또는 제공할 수도 있다.Diagnosis, prognosis, and treatment prescription based on genetic information are one of the core directions of future business, and their application is expanding, starting with the case of national health insurance in cancer. The present invention provides a deep neural network model that can learn about 20,000 pieces of publicly available gene expression information and characterize the characteristics of cancer into about 600 gene function modules, such as a gene group called Pathway. Using the underlying neural network, it is possible to determine or estimate whether something is cancerous or normal. The pathway-based learning model provided in the present invention provides the characteristics of genes that can distinguish the characteristics of cancer as about 600 numerical values that can be used by life scientists to interpret their functions, and determines cancer based on the differences between these values. It is possible to determine whether the cancer is normal and recommend or provide customized prescriptions related to the cancer.

도 1은 본 발명의 일 실시예에 따른 뉴럴 네트워크를 이용한 암과 정상 여부 추정 방법에 대한 동작 흐름도를 나타낸 것이다.
도 2는 본 발명의 패스웨이 DNN 구조를 설명하기 위한 일 예시도를 나타낸 것이다.
도 3은 본 발명의 방법과 기존 방법들의 암/정상 판별 성능을 비교한 일 예시도를 나타낸 것이다.
도 4는 본 발명의 방법에서 유전자 개수에 따른 암/정상 판별 정확도의 일 예시도를 나타낸 것이다.
도 5는 본 발명에 의해 선별된 57개의 유전자 심볼을 이용한 암/정상 판별 정확도에 대한 일 예시도를 나타낸 것이다.
도 6은 본 발명의 방법에서 유전자 개수에 따른 AUC 성능의 일 예시도를 나타낸 것이다.
도 7은 본 발명의 일 실시예에 따른 뉴럴 네트워크를 이용한 암과 정상 여부 추정 장치에 대한 구성을 나타낸 것이다.
Figure 1 shows an operation flowchart of a method for estimating cancer and normality using a neural network according to an embodiment of the present invention.
Figure 2 shows an example diagram for explaining the pathway DNN structure of the present invention.
Figure 3 shows an example comparing the cancer/normal discrimination performance of the method of the present invention and existing methods.
Figure 4 shows an example of cancer/normal discrimination accuracy according to the number of genes in the method of the present invention.
Figure 5 shows an example of cancer/normal discrimination accuracy using 57 genetic symbols selected by the present invention.
Figure 6 shows an example of AUC performance according to the number of genes in the method of the present invention.
Figure 7 shows the configuration of a cancer and normality estimation device using a neural network according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.The advantages and features of the present invention and methods for achieving them will become clear by referring to the embodiments described in detail below along with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and will be implemented in various different forms, but the present embodiments only serve to ensure that the disclosure of the present invention is complete and are within the scope of common knowledge in the technical field to which the present invention pertains. It is provided to fully inform those who have the scope of the invention, and the present invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.The terminology used herein is for describing embodiments and is not intended to limit the invention. As used herein, singular forms also include plural forms, unless specifically stated otherwise in the context. As used herein, “comprises” and/or “comprising” refers to the presence of one or more other components, steps, operations and/or elements. or does not rule out addition.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used with meanings that can be commonly understood by those skilled in the art to which the present invention pertains. Additionally, terms defined in commonly used dictionaries are not interpreted ideally or excessively unless clearly specifically defined.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the attached drawings. The same reference numerals are used for the same components in the drawings, and duplicate descriptions for the same components are omitted.

본 발명의 실시예들은, 생명과학적인 해석과 이해가 가능하도록 구조화된 딥 뉴럴 네트워크(DNN)를 딥 러닝을 통하여 암과 정상 세포를 구별할 수 있도록 유전자들의 발현 패턴을 학습함으로써, 학습된 딥 뉴럴 네트워크를 이용하여 암과 정상 여부를 추정 또는 판별하고, 나아가, 암에 대한 치료제 처방에 대한 예측 정확도를 높이는 것을 그 요지로 한다.Embodiments of the present invention use a deep neural network (DNN) structured to enable life science interpretation and understanding by learning the expression patterns of genes to distinguish between cancer and normal cells through deep learning. The goal is to use the network to estimate or determine whether cancer is normal or not, and furthermore, to increase the accuracy of prediction for prescription of treatment for cancer.

이 때, 본 발명은 대상자의 유전자 심볼들 중 암과 정상 여부를 판별하는데 기여도 예를 들어, 패스웨이 기여 인덱스 값이 높은 미리 설정된 개수의 유전자 심볼들을 선별한 후 선별된 유전자 심볼들을 유전자 그룹인 패스웨이들로 구분하고, 구분된 패스웨이들 각각의 패스웨이 기반으로 학습된 뉴럴 네트워크의 패스웨이 노드 각각에 입력함으로써, 패스웨이 기반의 뉴럴 네트워크를 이용하여 대상자의 암과 정상 여부를 추정 또는 판별할 수 있다.At this time, the present invention selects a preset number of genetic symbols with a high contribution index value, for example, a pathway contribution index, to determine whether the subject's genetic symbols are cancerous or normal, and then selects the selected genetic symbols as a gene group, Pathway. By dividing it into ways and inputting each of the divided pathways into each pathway node of the neural network learned based on the pathway, it is possible to estimate or determine whether the subject has cancer or is normal using the pathway-based neural network. You can.

나아가, 본 발명은 패스웨이 기반의 뉴럴 네트워크를 이용하여 패스웨이들 각각에 대한 시그니쳐(signature)를 획득하고, 획득된 시그니쳐를 이용하여 암과 정상 여부를 추정할 수 있다.Furthermore, the present invention can obtain a signature for each of the pathways using a pathway-based neural network, and use the obtained signature to estimate whether it is cancerous or normal.

도 1은 본 발명의 일 실시예에 따른 뉴럴 네트워크를 이용한 암과 정상 여부 추정 방법에 대한 동작 흐름도를 나타낸 것이다.Figure 1 shows an operation flowchart of a method for estimating cancer and normality using a neural network according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시예에 따른 암과 정상 여부 추정 방법은 대상자의 유전자 심볼들을 유전자 그룹인 패스웨이들로 구분한다(S110).Referring to FIG. 1, the method for estimating cancer or normality according to an embodiment of the present invention divides the subject's genetic symbols into pathways, which are gene groups (S110).

여기서, 패스웨이(pathway)는 유전자 그룹을 의미하는 것으로, 유전자 심볼들 예를 들어, 유전자 이름들을 조합하여 만들어질 수 있다.Here, a pathway refers to a gene group and can be created by combining gene symbols, for example, gene names.

이 때, 단계 S110은 패스웨이들 각각에 대하여, 패스웨이 기여 인덱스(pathway contribution index) 값을 계산하고, 계산된 패스웨이 기여 인덱스 값들 중 미리 설정된 개수 예를 들어, 57개 또는 40개의 상위 패스웨이 기여 인덱스 값을 가지는 유전자 심볼들을 선별한 후 선별된 유전자 심볼들을 패스웨이들 예를 들어, 도 2에 도시된 바와 같이 n개의 패스웨이들로 구분할 수 있다.At this time, step S110 calculates a pathway contribution index value for each of the pathways, and selects a preset number of the calculated pathway contribution index values, for example, 57 or 40 top pathways. After selecting genetic symbols with contribution index values, the selected genetic symbols can be divided into pathways, for example, n pathways as shown in FIG. 2.

패스웨이 기여 인덱스 값(Pi)은 아래 <수학식 1>에 의해 계산될 수 있다.The pathway contribution index value (P i ) can be calculated by <Equation 1> below.

[수학식 1][Equation 1]

여기서, g(x)는 유전자 표현(gene expression)을 의미하고, W(x)는 패스웨이 노드 웨이트(pathway node weight)로, 뉴럴 네트워크에 포함된 패스웨이 노드들 각각에 대한 웨이트를 의미할 수 있다.Here, g(x) means gene expression, and W(x) is the pathway node weight, which can mean the weight for each of the pathway nodes included in the neural network. there is.

예를 들어, 본 발명을 구성하는데 가장 중요한 유전자는 57개 일 수 있으며, 57개의 유전자에 대한 패스웨이 기여 유전자 인덱스(Pathway contribution gene index) 값 즉, 유전자가 패스웨이 레이어 구조 상에서 암과 정상의 구분에 기여한 정도를 수치로 나타낸 값은 아래 [표 1]과 같을 수 있다.For example, the most important genes in constituting the present invention may be 57, and the Pathway contribution gene index value for the 57 genes, that is, the genes distinguish between cancer and normal in the pathway layer structure. The numerical value expressing the degree of contribution may be as shown in [Table 1] below.

GeneGene Pathway contribution gene indexPathway contribution gene index PLA2G10PLA2G10 1.1491.149 SHC1SHC1 0.9040.904 CDK1CDK1 0.8460.846 CD4CD4 0.7790.779 APOA1APOA1 0.7210.721 HIST1H3AHIST1H3A 0.6630.663 CDC16CDC16 0.6470.647 LHBLHB 0.6220.622 PLA2G2EPLA2G2E 0.6160.616 ORC6ORC6 0.610.61 HIST1H4KHIST1H4K 0.5570.557 GNG11GNG11 0.5420.542 TPM1TPM1 0.5370.537 CHRNB4CHRNB4 0.5250.525 CALM1CALM1 0.520.52 ACANACAN 0.5190.519 HLAHLAs 0.5080.508 HIST1H4DHIST1H4D 0.4950.495 PLA2G4DPLA2G4D 0.4890.489 MYH6MYH6 0.4870.487 MCM6MCM6 0.4790.479 TPM3TPM3 0.4790.479 FGF3FGF3 0.4770.477 CDC45CDC45 0.4770.477 ABCG1ABCG1 0.4680.468 PPP2R1BPPP2R1B 0.4560.456 CTNNB1CTNNB1 0.4530.453 HYAL1HYAL1 0.4520.452 PLA2G12APLA2G12A 0.450.45 NRP2NRP2 0.450.45 HIST1H4IHIST1H4I 0.4470.447 LCATLCAT 0.4430.443 RAC1RAC1 0.4350.435 CD3ECD3E 0.4330.433 MBL2MBL2 0.430.43 SISI 0.4280.428 GNGT2GNGT2 0.4270.427 RAP1ARAP1A 0.4120.412 CYP21A2CYP21A2 0.410.41 PRKCIPRKCI 0.410.41 CDC25CCDC25C 0.4060.406 GNASGNAS 0.40.4 STAT1STAT1 0.3970.397 HIST2H2AA4HIST2H2AA4 0.3970.397 CHRNA3CHRNA3 0.3960.396 CDH3CDH3 0.3940.394 HAAOHAAO 0.3910.391 OGNOGN 0.390.39 PLA2G2APLA2G2A 0.3880.388 PSMD13PSMD13 0.3830.383 PSMF1PSMF1 0.3820.382 PAK1PAK1 0.3810.381 DHFRDHFR 0.3790.379 PPP2R5DPPP2R5D 0.3760.376 CCNE1CCNE1 0.3730.373 CRPCRP 0.3710.371 HTR7HTR7 0.3680.368

본 발명의 성능을 떨어뜨리지 않는 최소 유전자는 40개일 수 있으며, 40개의 유전자는 아래 [표 2]와 같을 수 있다.The minimum number of genes that do not deteriorate the performance of the present invention may be 40, and the 40 genes may be as shown in [Table 2] below.

GeneGene GNB1GNB1 MYH11MYH11 SAA1SAA1 CCR9CCR9 INSINS GRPRGRPR TPM2TPM2 DMDDMD PSENENPSENEN ORAI1ORAI1 SLC44A1SLC44A1 RELARELA RAC1RAC1 CXCR4CXCR4 TAC1TAC1 NPY5RNPY5R FGF1FGF1 EDN3EDN3 CGB8CGB8 GNGT1GNGT1 TPM1TPM1 DEFB1DEFB1 GLP2RGLP2R PTGER3PTGER3 GNAI3GNAI3 SOS1SOS1 APRTAPRT MRVI1MRVI1 GMPR2GMPR2 DAB2DAB2 PDE3BPDE3B GNG12GNG12 PRKACAPRKACA CALM1CALM1 PRSS1PRSS1 GSTO2GSTO2 XCL1XCL1 ORC4ORC4 PDE1APDE1A SLC16A7SLC16A7

단계 S110에 의해 대상자의 유전자 심볼들 예를 들어, 유전자 발현 값을 전처리하여 선별된 유전자 심볼들이 패스웨이들로 구분되면, 구분된 패스웨이들 각각을 입력으로 하는 패스웨이 기반으로 학습된 뉴럴 네트워크(예를 들어, 도 2에 도시된 pathway layer)에 기초하여 구분된 패스웨이들 각각에 대한 시그니쳐(signature)를 획득한다(S120).In step S110, when the subject's genetic symbols, for example, gene symbols selected by preprocessing the gene expression values, are divided into pathways, a neural network learned based on the pathway using each of the divided pathways as input ( For example, a signature is acquired for each of the divided pathways based on the pathway layer shown in FIG. 2 (S120).

여기서, 단계 S120은 뉴럴 네트워크에서 패스웨이들 각각에 포함된 유전자 심볼들 각각에 대해 미리 설정된 웨이트의 합에 기초하여 패스웨이들 각각에 대한 시그니쳐를 획득할 수 있다.Here, step S120 may obtain a signature for each of the pathways based on the sum of preset weights for each of the genetic symbols included in each of the pathways in the neural network.

본 발명에서의 뉴럴 네트워크는 도 2에 도시된 패스웨이 기반으로 학습된 뉴럴 네트워크(pathway layer)일 수도 있고, 패스웨이 기반으로 학습된 뉴럴 네트워크(pathway layer) 및 뉴럴 네트워크(pathway layer)의 출력과 연결되는 완전 연결된 레이어(fully-connected layer)를 포함하는 뉴럴 네트워크일 수도 있다.The neural network in the present invention may be a neural network (pathway layer) learned based on the pathway shown in FIG. 2, and the output of the neural network (pathway layer) and the neural network (pathway layer) learned based on the pathway It may also be a neural network that includes fully-connected layers.

그리고, 도 2에 도시된 바와 같이, 패스웨이 기반으로 학습된 뉴럴 네트워크(pathway layer)는 입력되는 패스웨이들 각각과 일대일로 연결되는 패스웨이 노드들을 포함할 수 있으며, 각각의 패스웨이 노드들은 학습에 의해 유전자 심볼들 각각에 대하여 미리 설정된 웨이트를 가질 수 있다.And, as shown in Figure 2, the neural network (pathway layer) learned based on the pathway may include pathway nodes connected one-to-one with each of the input pathways, and each pathway node is learned. You can have a preset weight for each of the genetic symbols.

단계 S120에 의해 패스웨이들 각각에 대한 시그니쳐가 획득되면 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 암과 정상 여부를 추정한다(S130).When a signature for each of the pathways is obtained in step S120, cancer or normality is estimated using the signature obtained for each of the pathways (S130).

즉, 본 발명의 일 실시예에 따른 방법은 패스웨이 기반으로 학습된 뉴럴 네트워크로 미리 선별된 개수의 유전자 심볼들에 대하여 구분된 패스웨이들 각각을 입력으로 하고, 이러한 뉴럴 네트워크에서 패스웨이들 각각에 대한 시그니쳐를 제공함으로써, 이러한 시그니쳐를 이용하여 암과 정상 여부를 추정 또는 판별할 수 있다.That is, the method according to an embodiment of the present invention uses a neural network learned based on a pathway as input, each of the pathways classified for a pre-selected number of genetic symbols, and each of the pathways in this neural network. By providing signatures for , it is possible to estimate or determine whether cancer is normal or cancerous using these signatures.

본 발명에서 사용되는 패스웨이 기반 뉴럴 네트워크는 패스웨이 기여 인덱스 값을 기반으로 뉴럴 네트워크를 학습할 수도 있고, 유전자 축소 모듈을 이용하여 최소 유전자를 선별한 후 선별된 최소 유전자를 이용한 패스웨이 기반으로 뉴럴 네트워크를 학습할 수도 있다. 물론, 본 발명에서 뉴럴 네트워크를 패스웨이 기반으로 학습할 때 사용되는 유전자 심볼들의 개수는 한정되거나 제한되지 않으며, 본 발명의 방법을 수행하여 이루고자 하는 성능을 기반으로 트레이닝 데이터 세트에 포함되는 유전자 심볼들의 개수가 결정될 수도 있다.The pathway-based neural network used in the present invention may learn a neural network based on the pathway contribution index value, select the minimum gene using a gene reduction module, and then create a neural network based on the pathway using the selected minimum gene. You can also learn networks. Of course, in the present invention, the number of genetic symbols used when learning a neural network based on a pathway is not limited or restricted, and the number of genetic symbols included in the training data set is based on the performance desired by performing the method of the present invention. The number may be determined.

그리고, 비록 도 2에서 유전자 심볼들과 각각의 패스웨이가 직접 연결되는 것으로 도시하였지만, 이에 제한되거나 한정되지 않으며, 유전자 심볼들의 별도의 뉴럴 네트워크로 입력하고, 해당 뉴럴 네트워크에서 유전자 심볼들 각각에 대한 패스웨이를 구분한 후 구분된 패스웨이를 패스웨이 기반의 뉴럴 네트워크로 입력할 수도 있다. 즉, 본 발명은 패스웨이 기반으로 학습된 뉴럴 네트워크로 직접 구분된 유전자 심볼들을 포함하는 패스웨이를 입력할 수도 있고, 패스웨이를 구분하기 위한 뉴럴 네트워크를 통해 입력된 유전자 심볼들에 대한 패스웨이를 구분한 후 이렇게 구분된 패스웨이를 패스웨이 기반으로 학습된 뉴럴 네트워크로 입력할 수도 있다.And, although it is shown in Figure 2 that the genetic symbols and each pathway are directly connected, it is not limited or limited thereto, and the genetic symbols are input into a separate neural network, and the genetic symbols for each of the genetic symbols in the neural network are After dividing the pathways, the classified pathways can also be input into a pathway-based neural network. That is, the present invention can input a pathway containing genetic symbols directly classified into a neural network learned based on the pathway, or can input a pathway for genetic symbols input through a neural network for distinguishing the pathway. After classification, these classified pathways can also be input into a neural network learned based on the pathway.

이와 같이, 본 발명의 실시예에 따른 방법은 생명과학적인 해석과 이해가 가능하도록 구조화된 딥 뉴럴 네트워크(DNN)를 딥 러닝을 통하여 암과 정상 세포를 구별할 수 있도록 유전자들의 발현 패턴을 학습함으로써, 학습된 딥 뉴럴 네트워크를 이용하여 암의 진단, 예후 예측, 치료제 처방에 예측 정확도를 높일 수 있으며, 진단, 예후, 약물 효과와 관련된 유전자들의 기능을 수치적으로 해석할 수 있다.As such, the method according to an embodiment of the present invention uses a deep neural network (DNN) structured to enable life science interpretation and understanding by learning the expression patterns of genes to distinguish cancer and normal cells through deep learning. , using the learned deep neural network, prediction accuracy can be increased in cancer diagnosis, prognosis prediction, and treatment prescription, and the functions of genes related to diagnosis, prognosis, and drug effects can be numerically interpreted.

이러한 본 발명은 생명과학적으로 특정 기능을 한다고 알려진 유전자들의 집합(즉, 패스웨이)을 딥 뉴럴 네트워크의 다음 층에서 하나의 노드로 연결하여, 해당 유전자들의 값의 의미가 하나의 값으로 요약될 수 있도록 학습함으로써, 패스웨이 기반으로 학습된 뉴럴 네트워크를 이용하여 암과 정상 여부를 판별할 수 있다.The present invention connects a set of genes (i.e., pathways) known to have a specific function in life science to one node in the next layer of a deep neural network, so that the meaning of the values of the genes can be summarized into one value. By learning to do so, it is possible to determine whether cancer is normal or cancerous using a neural network learned based on the pathway.

나아가, 본 발명의 실시예에 따른 방법은 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 암과 정상 여부를 추정하는데 기여한, 패스웨이와 유전자 심볼을 해석 또는 분석할 수도 있다.Furthermore, the method according to an embodiment of the present invention may interpret or analyze the pathways and genetic symbols that contribute to estimating cancer or normality using the signatures obtained for each of the pathways.

즉, 본 발명은 패스웨이 인덱스를 통하여 생명과학적 기능 분석이 가능하고, 어떤 패스웨이가 암과 정상의 구분에서 설명력을 갖는지를 알 수 있으며, 유전자 기여도로 암과 정상의 구분을 설명할 수 있다. In other words, the present invention enables life science function analysis through the pathway index, allows knowing which pathway has explanatory power in distinguishing between cancer and normal, and can explain the distinction between cancer and normal through gene contribution.

상술한 바와 같이, 본 발명에서는 5,700여개의 유전자로 구성된 발현 패턴을 일정 개수 예를 들어, 600여개의 생명과학에서 중요하게 생각하는 유전자 기능의 단위로 함축하여 해석할 수 있는 딥 뉴럴 네트워크의 구조 및 해당 구조를 구성하는 웨이트들의 값들을 제공할 수 있고, 딥 뉴럴 네트워크를 활용하여 높은 성능을 확보함으로써, 유전자들을 활용한 다변량 판별식에 기반한 암/정상 진단, 예후 예측, 약효 예측 방법 등을 제공할 수 있다.As described above, in the present invention, the structure of a deep neural network that can implicitly interpret expression patterns consisting of about 5,700 genes as a unit of a certain number of gene functions considered important in life science, such as about 600, and By providing the values of the weights that make up the structure and securing high performance using a deep neural network, we can provide cancer/normal diagnosis, prognosis prediction, and drug efficacy prediction methods based on multivariate discriminants using genes. You can.

또한, 본 발명의 구조적 패턴에 의한 5,700 여개의 유전자의 발현 패턴을 600여개의 생명과학적으로 알려진 기능적 모듈을 수치로 설명하여 낼 수 있다는 점에서, 통상의 딥 뉴럴 네트워크가 제공하지 못하는 생명과학적 설명을 제시할 수 있다.In addition, in that the expression patterns of about 5,700 genes by the structural pattern of the present invention can be numerically explained with about 600 functional modules known in life science, it provides life science explanations that ordinary deep neural networks cannot provide. can be presented.

도 3은 본 발명의 방법과 기존 방법들의 암/정상 판별 성능을 비교한 일 예시도를 나타낸 것으로, 유전자 발현 패턴 정보를 활용한 암/정상의 딥 뉴럴 네트워크 판별 성능을 나타낸 것이다.Figure 3 shows an example diagram comparing the cancer/normal discrimination performance of the method of the present invention and existing methods, showing the deep neural network discrimination performance of cancer/normal using gene expression pattern information.

도 3을 통해 알 수 있듯이, 본 발명의 방법을 활용하였을 때, 본 발명과 동일한 유전자의 발현값을 사용한 fully connected 딥 뉴럴 네트워크, 본 발명과 동일한 유전자의 발현값과 랜덤 층을 활용한 딥 뉴럴 네트워크 대비 우수한 성능을 확보할 수 있는 것을 알 수 있다.As can be seen from Figure 3, when the method of the present invention is used, a fully connected deep neural network using the expression value of the same gene as that of the present invention, and a deep neural network using the expression value of the same gene as that of the present invention and a random layer. It can be seen that excellent performance can be secured.

도 4는 본 발명의 방법에서 유전자 개수에 따른 암/정상 판별 정확도의 일 예시도를 나타낸 것으로, 도 4에 도시된 바와 같이 20,000 개의 유전자를 다 사용(100%)하였을 때 암/정상 판별의 정확도가 99.31%이고, 2350개의 유전자를 사용(10%)하였을 때 암/정상 판별의 정확도가 99.25%이며, 57개의 유전자를 사용(2%)하였을 때 암/정상 판별의 정확도가 97.21%로, 57개의 유전자 만으로도 암과 정상 여부를 정확하게 편별할 수 있다. 또한, 본 발명의 방법에서 패스웨이 기여 인덱스 값이 높은 상위 1% 유전자의 암과 정상을 구분하는 성능은 크게 떨어지지 않는 것을 알 수 있다.Figure 4 shows an example of the accuracy of cancer/normal discrimination according to the number of genes in the method of the present invention. As shown in Figure 4, the accuracy of cancer/normal discrimination when all 20,000 genes are used (100%). is 99.31%, and when 2350 genes are used (10%), the accuracy of cancer/normal discrimination is 99.25%, and when 57 genes are used (2%), the accuracy of cancer/normal discrimination is 97.21%, 57 It is possible to accurately distinguish between cancer and normal dogs using just their genes. In addition, it can be seen that the method of the present invention does not significantly reduce the performance of distinguishing between cancer and normal genes in the top 1% of genes with high pathway contribution index values.

도 5는 본 발명에 의해 선별된 57개의 유전자 심볼을 이용한 암/정상 판별 정확도에 대한 일 예시도를 나타낸 것이다.Figure 5 shows an example of cancer/normal discrimination accuracy using 57 genetic symbols selected by the present invention.

도 5를 통해 알 수 있듯이, 표 1에 기재된 주요 유전자 57개를 활용한 본 발명의 방법으로 암/정상 판별하는 것이 동일한 개수의 무작위 추출한 유전자를 이용한 방법에 비하여 월등히 좋은 성능을 제공하는 것을 알 수 있다. 즉, 패스웨이 기여 인덱스 값이 높은 57 개 유전자의 암과 정상의 구별력은 랜덤으로 뽑은 57개 유전자의 암과 정상의 구별력 보다 좋은 것을 알 수 있다.As can be seen from Figure 5, it can be seen that cancer/normal discrimination using the method of the present invention using the 57 major genes listed in Table 1 provides significantly better performance compared to the method using the same number of randomly selected genes. there is. In other words, it can be seen that the ability to distinguish between cancer and normal of 57 genes with high pathway contribution index values is better than that of 57 genes selected at random.

도 6은 본 발명의 방법에서 유전자 개수에 따른 AUC 성능의 일 예시도를 나타낸 것으로, AUC 성능을 기반으로 하여 성능에 영향을 주지 않는 유전자를 제외하고, 남은 유전자로 학습된 뉴럴 네트워크를 만드는 시행을 성능이 유지될 때까지 반복한 것이다.Figure 6 shows an example of AUC performance according to the number of genes in the method of the present invention. Based on the AUC performance, genes that do not affect performance are excluded and a neural network learned with the remaining genes is created. This was repeated until performance was maintained.

도 6을 통해 알 수 있듯이, 모든 유전자에서의 성능은 AUC기준 0.9994이고, 남은 유전자가 40개일 때 성능은 AUC기준 0.9964로, AUC 성능이 유지되는 것을 알 수 있다.As can be seen in Figure 6, the performance for all genes is 0.9994 based on AUC, and when there are 40 genes remaining, the performance is 0.9964 based on AUC, showing that the AUC performance is maintained.

도 7은 본 발명의 일 실시예에 따른 뉴럴 네트워크를 이용한 암과 정상 여부 추정 장치에 대한 구성을 나타낸 것으로, 도 1 내지 도 6의 방법을 수행하는 장치에 대한 개념적인 구성을 나타낸 것이다.Figure 7 shows the configuration of a device for estimating cancer and normality using a neural network according to an embodiment of the present invention, and shows the conceptual configuration of a device that performs the method of Figures 1 to 6.

도 7을 참조하면, 본 발명의 실시예에 따른 암과 정상 여부 추정 장치(700)는 구분부(710), 획득부(720) 및 추정부(730)를 포함한다.Referring to FIG. 7, the cancer/normality estimation device 700 according to an embodiment of the present invention includes a classification unit 710, an acquisition unit 720, and an estimation unit 730.

구분부(710)는 대상자의 유전자 심볼들을 유전자 그룹인 패스웨이들로 구분한다.The classification unit 710 divides the subject's genetic symbols into pathways, which are gene groups.

이 때, 구분부(710)는 패스웨이들 각각에 대하여, 패스웨이 기여 인덱스(pathway contribution index) 값을 계산하고, 계산된 패스웨이 기여 인덱스 값들 중 미리 설정된 개수 예를 들어, 57개 또는 40개의 상위 패스웨이 기여 인덱스 값을 가지는 유전자 심볼들을 선별한 후 선별된 유전자 심볼들을 패스웨이들로 구분할 수 있다.At this time, the classification unit 710 calculates a pathway contribution index value for each of the pathways, and selects a preset number of the calculated pathway contribution index values, for example, 57 or 40. After selecting gene symbols with high pathway contribution index values, the selected gene symbols can be divided into pathways.

획득부(720)는 구분부(710)에 의해 구분된 패스웨이들 각각을 입력으로 하는 패스웨이 기반으로 학습된 뉴럴 네트워크에 기초하여 구분된 패스웨이들 각각에 대한 시그니쳐(signature)를 획득한다.The acquisition unit 720 acquires a signature for each of the divided pathways based on a neural network learned based on a pathway that uses each of the pathways classified by the dividing unit 710 as input.

여기서, 획득부(720)는 뉴럴 네트워크에서 패스웨이들 각각에 포함된 유전자 심볼들 각각에 대해 미리 설정된 웨이트의 합에 기초하여 패스웨이들 각각에 대한 시그니쳐를 획득할 수 있다.Here, the acquisition unit 720 may acquire a signature for each of the pathways based on the sum of preset weights for each of the genetic symbols included in each of the pathways in the neural network.

추정부(730)는 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 암과 정상 여부를 추정한다.The estimation unit 730 uses the signature obtained for each of the pathways to estimate whether the pathway is cancerous or normal.

나아가, 추정부(730)는 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 암과 정상 여부를 추정하는데 기여한, 패스웨이와 유전자 심볼을 해석할 수 있다.Furthermore, the estimation unit 730 can interpret the pathways and genetic symbols that contribute to estimating cancer or normality using the signatures obtained for each of the pathways.

비록, 도 7의 장치에서 그 설명이 생략되었더라도, 본 발명에 따른 장치는 상기 도 1 내지 도 6에서 설명한 모든 내용을 포함할 수 있다는 것은 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.Although the description is omitted in the device of FIG. 7, it is obvious to those skilled in the art that the device according to the present invention can include all the contents described in FIGS. 1 to 6 above.

이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The system or device described above may be implemented with hardware components, software components, and/or a combination of hardware components and software components. For example, the systems, devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), etc. ), a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. A processing device may execute an operating system (OS) and one or more software applications that run on the operating system. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software. For ease of understanding, a single processing device may be described as being used; however, those skilled in the art will understand that a processing device includes multiple processing elements and/or multiple types of processing elements. It can be seen that it may include. For example, a processing device may include multiple processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are possible.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device. Software and/or data may be used on any type of machine, component, physical device, virtual equipment, computer storage medium or device to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Methods according to embodiments may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc., singly or in combination. Program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and available to those skilled in the art of computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -Includes optical media (magneto-optical media) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, etc. Examples of program instructions include machine language code, such as that produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter, etc. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited examples and drawings, various modifications and variations can be made by those skilled in the art from the above description. For example, the described techniques are performed in a different order than the described method, and/or components of the described system, structure, device, circuit, etc. are combined or combined in a different form than the described method, or other components are used. Alternatively, appropriate results may be achieved even if substituted or substituted by an equivalent.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims also fall within the scope of the claims described below.

Claims (11)

대상자의 유전자 심볼들을 유전자 그룹인 패스웨이들로 구분하는 단계;
상기 구분된 패스웨이들 각각을 입력으로 하는 패스웨이 기반으로 학습된 뉴럴 네트워크에 기초하여 상기 패스웨이들 각각에 대한 시그니쳐(signature)를 획득하는 단계; 및
상기 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 암과 정상 여부를 추정하는 단계
를 포함하고,
상기 패스웨이들로 구분하는 단계는
PLA2G10, SHC1, CDK1, CD4, APOA1, HIST1H3A, CDC16, LHB, PLA2G2E, ORC6, HIST1H4K, GNG11, TPM1, CHRNB4, CALM1, ACAN, HLA, HIST1H4D, PLA2G4D, MYH6, MCM6, TPM3, FGF3, CDC45, ABCG1, PPP2R1B, CTNNB1, HYAL1, PLA2G12A, NRP2, HIST1H4I, LCAT, RAC1, CD3E, MBL2, SI, GNGT2, RAP1A, CYP21A2, PRKCI, CDC25C, GNAS, STAT1, HIST2H2AA4, CHRNA3, CDH3, HAAO, OGN, PLA2G2A, PSMD13, PSMF1, PAK1, DHFR, PPP2R5D, CCNE1, CRP 및 HTR7을 포함하는 57개의 유전자 심볼들 중 적어도 40개의 유전자 심볼들 각각에 대하여 암과 정상의 구분에 기여한 정도를 나타내는 패스웨이 기여 유전자 인덱스를 활용하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 암과 정상 여부 추정 방법.
Classifying the subject's genetic symbols into pathways, which are gene groups;
Obtaining a signature for each of the divided pathways based on a neural network learned based on the pathway using each of the divided pathways as input; and
Step of estimating whether cancer is normal or not using the signature obtained for each of the pathways
Including,
The steps for dividing into the above pathways are
PLA2G10, SHC1, CDK1, CD4, APOA1, HIST1H3A, CDC16, LHB, PLA2G2E, ORC6, HIST1H4K, GNG11, TPM1, CHRNB4, CALM1, ACAN, HLA, HIST1H4D, PLA2G4D, MYH6, MCM6, TPM3, FGF3, CDC45, ABCG1, PPP2R1B, CTNNB1, HYAL1, PLA2G12A, NRP2, HIST1H4I, LCAT, RAC1, CD3E, MBL2, SI, GNGT2, RAP1A, CYP21A2, PRKCI, CDC25C, GNAS, STAT1, HIST2H2AA4, CHRNA3, CDH3, HAAO, OGN, PLA2G2A, PSMD13, Among the 57 gene symbols including PSMF1, PAK1, DHFR, PPP2R5D, CCNE1, CRP, and HTR7, a pathway contributing gene index indicating the degree of contribution to the distinction between cancer and normal was utilized for each of at least 40 gene symbols. Method for estimating cancer and normal status using a characteristic neural network.
제1항에 있어서,
상기 패스웨이들로 구분하는 단계는
상기 패스웨이들 각각에 대하여, 패스웨이 기여 유전자 인덱스(pathway contribution gene index) 값을 계산하고, 상기 계산된 패스웨이 기여 유전자 인덱스 값들 중 미리 설정된 개수의 상위 패스웨이 기여 유전자 인덱스 값을 가지는 유전자 심볼들을 선별한 후 상기 선별된 유전자 심볼들을 상기 패스웨이들로 구분하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 암과 정상 여부 추정 방법.
According to paragraph 1,
The steps for dividing into the above pathways are
For each of the pathways, a pathway contribution gene index value is calculated, and gene symbols having a preset number of high pathway contribution gene index values among the calculated pathway contribution gene index values are selected. A method for estimating cancer and normality using a neural network, characterized in that after selection, the selected genetic symbols are divided into the pathways.
제1항에 있어서,
상기 시그니쳐를 획득하는 단계는
상기 뉴럴 네트워크에서 상기 패스웨이들 각각에 포함된 유전자 심볼들 각각에 대해 미리 설정된 웨이트의 합에 기초하여 상기 패스웨이들 각각에 대한 시그니쳐를 획득하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 암과 정상 여부 추정 방법.
According to paragraph 1,
The step of acquiring the signature is
Estimation of cancer and normality using a neural network, characterized in that a signature for each of the pathways is obtained based on the sum of preset weights for each of the genetic symbols included in each of the pathways in the neural network. method.
제1항에 있어서,
상기 뉴럴 네트워크는
상기 구분된 패스웨이들 각각과 일대일로 연결되는 패스웨이 노드들을 포함하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 암과 정상 여부 추정 방법.
According to paragraph 1,
The neural network is
A method for estimating cancer and normalcy using a neural network, comprising pathway nodes connected one-to-one with each of the divided pathways.
제1항에 있어서,
상기 패스웨이들 각각에 대하여 획득된 시그니쳐를 이용하여 상기 암과 정상 여부를 추정하는데 기여한, 패스웨이와 유전자 심볼을 해석하는 단계
더 포함하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 암과 정상 여부 추정 방법.
According to paragraph 1,
A step of interpreting the pathways and genetic symbols that contribute to estimating whether the cancer is normal or not using the signatures obtained for each of the pathways.
A method for estimating cancer and normal status using a neural network further comprising:
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete
KR1020200120165A 2020-09-18 2020-09-18 Method for diagnosis and therapeutic decision using artificial neural network trained with functional gene module and apparatus therefore KR102601304B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200120165A KR102601304B1 (en) 2020-09-18 2020-09-18 Method for diagnosis and therapeutic decision using artificial neural network trained with functional gene module and apparatus therefore

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200120165A KR102601304B1 (en) 2020-09-18 2020-09-18 Method for diagnosis and therapeutic decision using artificial neural network trained with functional gene module and apparatus therefore

Publications (2)

Publication Number Publication Date
KR20220037561A KR20220037561A (en) 2022-03-25
KR102601304B1 true KR102601304B1 (en) 2023-11-13

Family

ID=80935301

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200120165A KR102601304B1 (en) 2020-09-18 2020-09-18 Method for diagnosis and therapeutic decision using artificial neural network trained with functional gene module and apparatus therefore

Country Status (1)

Country Link
KR (1) KR102601304B1 (en)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. Hao 외, "Interpretable deep neural network for cancer survival analysis by integrating genomic and clinical data", BMC Medical Genomics 12(Supple 10), 2019.*
J. Hao 외, "PASNet:pathway-associated sparse deep neural network for prognosis prediction from high-throughput data", BMC Bioinformatics 19:510, 2018.*

Also Published As

Publication number Publication date
KR20220037561A (en) 2022-03-25

Similar Documents

Publication Publication Date Title
JP6609355B2 (en) System and method for patient specific prediction of drug response from cell line genomics
JP6374073B2 (en) PARADIGM drug reaction network
KR102116485B1 (en) Systems and methods for predicting response of highly differentiated bladder cancer to chemotherapy
Assefa et al. Differential gene expression analysis tools exhibit substandard performance for long non-coding RNA-sequencing data
Ghosh et al. A comparative study of breast cancer detection based on SVM and MLP BPN classifier
CN112201346B (en) Cancer lifetime prediction method, device, computing equipment and computer readable storage medium
Meher et al. Prediction of donor splice sites using random forest with a new sequence encoding approach
US20170277826A1 (en) System, method and software for robust transcriptomic data analysis
Obulesu et al. [Retracted] Adaptive Diagnosis of Lung Cancer by Deep Learning Classification Using Wilcoxon Gain and Generator
US20180039732A1 (en) Dasatinib response prediction models and methods therefor
CN113012770A (en) Medicine-medicine interaction event prediction method, system, terminal and readable storage medium based on multi-modal deep neural network
Sharabiani et al. Machine learning based prediction of warfarin optimal dosing for African American patients
Shaddox et al. A Bayesian approach for learning gene networks underlying disease severity in COPD
Allehaibi et al. iTAGPred: A Two‐Level Prediction Model for Identification of Angiogenesis and Tumor Angiogenesis Biomarkers
Su et al. Detection of pulmonary embolism severity using clinical characteristics, hematological indices, and machine learning techniques
KR102601304B1 (en) Method for diagnosis and therapeutic decision using artificial neural network trained with functional gene module and apparatus therefore
Ungurean et al. Speech analysis for medical predictions based on Cell Broadband Engine
Irene et al. Improved deep convolutional neural network-based COOT optimization for multimodal disease risk prediction
KR102321732B1 (en) Device, Method, and Computer-Readable Medium for Predicting Change in Efficacy of a Drug Considering SNP
Jia et al. DCCAFN: deep convolution cascade attention fusion network based on imaging genomics for prediction survival analysis of lung cancer
Moutachaouik et al. Mining prostate cancer behavior using parsimonious factors and shrinkage methods
Uthayan A novel microarray gene selection and classification using intelligent dynamic grey wolf optimization
Thakur et al. A multimetric evaluation of stratified random sampling for classification: a case study
Polewko-Klim et al. Data integration strategy for robust classification of biomedical data
Karlsson et al. Microarray‐based prediction of Parkinson's disease using clinical data as additional response variables

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant