KR101927910B1 - System and method for predicting disease inforamtion using deep neural network - Google Patents

System and method for predicting disease inforamtion using deep neural network Download PDF

Info

Publication number
KR101927910B1
KR101927910B1 KR1020180055385A KR20180055385A KR101927910B1 KR 101927910 B1 KR101927910 B1 KR 101927910B1 KR 1020180055385 A KR1020180055385 A KR 1020180055385A KR 20180055385 A KR20180055385 A KR 20180055385A KR 101927910 B1 KR101927910 B1 KR 101927910B1
Authority
KR
South Korea
Prior art keywords
gene
disease
neural network
learning
layer
Prior art date
Application number
KR1020180055385A
Other languages
Korean (ko)
Other versions
KR20180055787A (en
Inventor
이관수
민범기
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20180055787A publication Critical patent/KR20180055787A/en
Application granted granted Critical
Publication of KR101927910B1 publication Critical patent/KR101927910B1/en

Links

Images

Classifications

    • G06F19/24
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G06F19/12
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Abstract

질병 정보 예측 시스템으로서, 유전자별 발현 분포를 기초로 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 생성하는 발현변화 유전자 추출부, 유전자, 세포 기능, 그리고 질병의 연관 관계를 기초로 초기 심층 신경망을 생성하고, 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 기초로 상기 초기 심층 신경망을 학습시켜 최종 심층 신경망을 생성하는 학습부, 그리고 상기 최종 심층 신경망을 역전파(backward propagation)하여 상기 질병에 관련된 질병 정보를 탐색하는 탐색부를 포함한다.The system for predicting disease information includes an expression-altering gene extractor for generating expression-altering gene information for each of a plurality of gene data sets based on gene-based expression distribution, an initial depth-based neural network based on a gene, cell function, A learning unit for generating the final neural network by learning the initial neural network based on the expression change gene information for each of the plurality of gene data sets; and a backward propagation unit for backward propagating the final neural network, And a search unit for searching for disease information related to the disease.

Description

심층 신경망 기반 질병 정보 예측 시스템 및 방법{SYSTEM AND METHOD FOR PREDICTING DISEASE INFORAMTION USING DEEP NEURAL NETWORK}TECHNICAL FIELD [0001] The present invention relates to a system and method for predicting disease information based on a neural network,

본 발명은 질병 정보 예측 시스템 및 방법에 관한 것이다.The present invention relates to a disease information prediction system and method.

전통적인 질병 연구에서는 먼저 질병 유전자 후보군을 선정하고, 상기 후보군의 발현 억제/활성 또는 서열상의 변이 등의 변화가 미치는 영향이 알려진 질병 패턴과 얼마나 유사한지를 비교하여 질병 유전자를 발굴하였다. 그러나 이러한 전통적인 질병 연구는 영향을 확인하고자 하는 후보군의 예측이 어렵고, 질병 패턴을 미리 알고 있어야 분석이 가능하며, 또한 질병 기전의 해석이 어렵다는 단점이 있다. In conventional disease studies, disease gene candidates were first selected, and disease genes were identified by comparing how the effects of changes in inhibition / activity or sequence variation of the candidate gene are similar to known disease patterns. However, these traditional disease studies have difficulties in predicting the candidate to be influenced, have to know the disease pattern in advance, and are difficult to interpret the disease mechanism.

최근에는 생물정보학을 활용하여 환자군에서 발현이 유의하게 변화되는 유전자를 탐색하거나, 혹은 유전자간 조절 관계, 세포 기능의 유사성 및 발현 유사성을 기반으로 기존에 밝혀진 질병 유전자와 연관성이 있는 유전자를 질병 유전자로 예측하는 대규모 질병 유전자 발굴 기법이 연구되고 있다. 그러나 이러한 방법 또한 질병 유발 기전에 대한 정보는 제공하지 못하고 있어 해석이 용이하지 않으며 또한 명확한 판단 기준이 존재하지 않아 후보 발굴에 어려움이 있다.In recent years, bioinformatics has been used to search for genes whose expression is significantly changed in patients, or genes that relate to previously discovered disease genes based on similarity and expression similarity of cellular functions, Large - scale disease gene discovery techniques are being studied. However, this method also does not provide information on the mechanism of disease induction, so it is not easy to interpret, and there are no clear criteria to detect candidates.

본 발명이 해결하고자 하는 과제는 질병 발현변화 유전자를 이용하여 심층 신경망을 학습하고, 심층 신경망을 기초로 질병 유전자 및 질병 연관 기능 등의 질병 정보를 예측하는 시스템 및 방법을 제공하는 것이다.A problem to be solved by the present invention is to provide a system and method for learning in-depth neural networks using disease expression-altering genes and predicting disease information such as disease genes and disease-related functions based on in-depth neural networks.

본 발명의 한 실시예에 따른 질병 정보 예측 시스템으로서, 유전자별 발현 분포를 기초로 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 생성하는 발현변화 유전자 추출부, 유전자, 세포 기능, 그리고 질병의 연관 관계를 기초로 초기 심층 신경망을 생성하고, 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 기초로 상기 초기 심층 신경망을 학습시켜 최종 심층 신경망을 생성하는 학습부, 그리고 상기 최종 심층 신경망을 역전파(backward propagation)하여 상기 질병에 관련된 질병 정보를 탐색하는 탐색부를 포함한다.The system for predicting disease information according to one embodiment of the present invention includes an expression change gene extractor for generating expression change gene information for each of a plurality of gene data sets based on an expression distribution by gene, A learning unit for generating an initial depth neural network based on an association relationship and learning the initial depth neural network based on expression change gene information for each of the plurality of gene data sets to generate a final depth neural network, And a search unit for searching for disease information related to the disease by backward propagation.

상기 발현변화 유전자 정보는 유전자별로 발현변화 유전자인지를 지시하는 값을 포함하고, 상기 발현변화 유전자는 해당 유전자의 발현 분포에 비해 기준 이상의 발현값 차이가 나타나는 유전자일 수 있다.The expression-altering gene information may include a value indicative of whether the gene is an expression-altering gene for each gene, and the expression-altering gene may be a gene that exhibits a difference in expression value above a reference level relative to the expression distribution of the gene.

상기 추출부는 각 유전자 데이터세트의 유전자별 발현값과 상기 유전자별 발현 분포를 비교하여 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 생성할 수 있다.The extracting unit may generate expression change gene information for each of the plurality of gene data sets by comparing an expression value of each gene set of each gene data set with an expression distribution by the gene.

상기 복수의 유전자 데이터세트는 정상인 집단으로부터 추출한 정상 유전자 데이터세트들 그리고 환자 집단으로부터 추출한 질병 유전자 데이터세트들을 포함하고, 상기 추출부는 상기 정상 유전자 데이터세트들을 기초로 상기 유전자별 발현 분포를 계산할 수 있다.The plurality of gene data sets may include normal gene data sets extracted from a normal population and diseased gene data sets extracted from a patient population, and the extracting unit may calculate the gene expression distribution based on the normal gene data sets.

상기 학습부는 복수의 유전자 노드를 포함하는 입력층, 복수의 세포 기능 노드를 포함하는 적어도 하나의 은닉층, 그리고 질병 노드를 포함하는 출력층으로 구성된 상기 초기 심층 신경망을 생성하고, 유전자와 세포 기능 사이의 관계 데이터를 기초로 상기 입력층의 노드와 상기 은닉층의 노드 사이의 초기 연결강도를 결정하며, 세포 기능과 질병 사이의 관계 데이터를 기초로 상기 은닉층의 노드와 상기 출력층의 노드 사이의 초기 연결강도를 결정할 수 있다.Wherein the learning unit generates the initial in-depth neural network composed of an input layer including a plurality of gene nodes, at least one hidden layer including a plurality of cell function nodes, and an output layer including a disease node, Determines an initial connection strength between a node of the input layer and a node of the hidden layer based on the data and determines an initial connection strength between the node of the hidden layer and the node of the output layer based on the relationship data between the cell function and the disease .

상기 학습부는 학습 데이터를 상기 초기 심층 신경망의 입력층에 입력하여 상기 초기 심층 신경망을 비지도 학습(unsupervised learning)시키고, 비지도 학습을 완료하여 상기 초기 연결강도가 업데이트된 중간 심층 신경망을 생성하며, 상기 학습 데이터는 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보일 수 있다.Wherein the learning unit inputs learning data to an input layer of the initial neural network to perform unsupervised learning on the initial neural network and generates an intermediate neural network in which the initial connection strength is updated by completing non- And the learning data may be expression change gene information for each of the plurality of gene data sets.

상기 학습부는 현재 계층에서 전파 및 역전파를 진행하여 상기 현재 계층을 학습시키고, 상기 현재 계층의 학습이 완료되면 상기 현재 계층의 다음 계층을 학습시키는 심층 신뢰 신경망(Deep Belief Network) 방법을 이용하여 상기 초기 연결강도를 업데이트할 수 있다.Wherein the learning unit learns the current layer by propagating and propagating in the current layer and then learning the next layer of the current layer when the learning of the current layer is completed using the Deep Belief Network method, You can update the initial connection strength.

상기 학습부는 상기 학습 데이터를 상기 중간 심층 신경망의 입력층에 설정하고, 입력층에 입력된 학습 데이터의 종류에 지정된 출력값을 상기 중간 심층 신경망의 출력층에 설정하며, 상기 중간 심층 신경망의 입력층과 출력층에 설정한 값을 기초로 상기 중간 심층 신경망을 지도 학습(supervised learning)시켜 상기 최종 심층 신경망을 생성할 수 있다.Wherein the learning unit sets the learning data in the input layer of the intermediate neural network and sets an output value assigned to the type of learning data input to the input layer in the output layer of the intermediate neural network, And the final depth neural network can be generated by supervised learning of the intermediate neural network.

상기 학습 데이터의 종류는 정상인 집단으로부터 추출한 정상 유전자 데이터세트를 나타내는 제1종류와 환자 집단으로부터 추출한 질병 유전자 데이터세트를 나타내는 제2종류 중 어느 하나를 포함하고, 상기 학습부는 상기 제1종류에 해당하는 학습 데이터를 상기 중간 심층 신경망의 입력층에 입력하는 경우, 상기 중간 심층 신경망의 출력층에 제1출력값을 설정하여 상기 중간 심층 신경망을 학습시키고, 상기 제2종류에 해당하는 학습 데이터를 상기 중간 심층 신경망의 입력층에 입력하는 경우, 상기 중간 심층 신경망의 출력층에 제2출력값을 설정하여 상기 중간 심층 신경망을 학습시킬 수 있다.Wherein the type of the learning data includes any one of a first type indicating a normal gene data set extracted from a normal population and a second type indicating a disease gene data set extracted from the patient population, Learning data is input to the input layer of the intermediate neural network, a first output value is set to the output layer of the intermediate neural network to learn the intermediate neural network, and learning data corresponding to the second class is transmitted to the intermediate neural network The intermediate depth neural network can be learned by setting a second output value in the output layer of the intermediate neural network.

상기 학습부는 상기 중간 심층 신경망의 입력층에서 순방향으로 전파(Propagation) 계산하여 얻은 예측값과 상기 중간 심층 신경망의 출력층에 설정된 출력값을 비교하여 오차를 구한 후 오차를 최소화하는 방향으로 역전파하여 상기 중간 심층 신경망의 각 연결강도를 업데이트할 수 있다.The learning unit compares the predicted value obtained by propagation calculation in the forward direction in the input layer of the intermediate neural network with the output value set in the output layer of the intermediate neural network to obtain an error and then back propagates in a direction of minimizing the error, Each connection strength of the neural network can be updated.

상기 탐색부는 상기 최종 심층 신경망의 출력층을 상기 질병에 해당하는 출력값으로 설정하고 역전파하여 상기 질병에 연관된 적어도 하나의 세포 기능 또는 상기 질병에 연관된 적어도 하나의 유전자를 탐색할 수 있다.The searching unit may set at least one cell function associated with the disease or at least one gene associated with the disease by setting the output layer of the final neural network as an output value corresponding to the disease and back propagating.

상기 탐색부는 상기 최종 심층 신경망의 출력층을 비질병에 해당하는 출력값으로 설정하고 역전파하여 비질병에 연관된 적어도 하나의 세포 기능 또는 비질병에 연관된 적어도 하나의 유전자를 탐색하고, 상기 질병에 연관된 적어도 하나의 세포 기능과 비질병에 연관된 적어도 하나의 세포 기능을 비교하여 상기 질병에만 연관된 적어도 하나의 세포 기능을 질병 특이적 세포 기능으로 추출하고, 상기 질병에 연관된 적어도 하나의 유전자와 상기 비질병에 연관된 적어도 하나의 유전자를 비교하여 상기 질병에만 연관된 적어도 하나의 유전자를 질병 특이적 유전자로 추출할 수 있다.Wherein the searcher sets the output layer of the final neural network to an output value corresponding to a non-disease and back propagates to search for at least one gene associated with non-disease associated with at least one cell function or non-disease, At least one cellular function associated with the disease and at least one cell function associated with the non-disease by extracting at least one cell function associated with the disease with a disease-specific cellular function, One gene may be compared to extract at least one gene associated only with the disease as a disease-specific gene.

본 발명의 다른 실시예에 따른 시스템의 질병 정보 예측 방법으로서, 질병 샘플을 포함하는 복수의 샘플 각각의 유전자별 발현값과 유전자별 정상 발현 분포를 비교하고, 비교 결과를 기초로 각 샘플의 유전자들 중에서 유의한 변화가 있는 유전자를 해당 샘플의 질병 발현변화 유전자로 추출하는 단계, 상기 복수의 샘플 각각의 질병 발현변화 유전자 정보를 기초로 유전자, 세포 기능, 그리고 질병의 관계에 의해 생성된 심층 신경망(Deep Neural Network)을 학습시키는 단계, 그리고 학습이 완료된 심층 신경망을 기초로 질병에 관련된 세포 기능 또는 유전자를 탐색하는 단계를 포함하며, 상기 샘플은 유전자별 발현값을 포함하는 유전자 데이터세트이고, 상기 샘플의 종류는 상기 질병 샘플과 정상 샘플로 구분되며, 상기 질병 샘플은 타깃 질병의 환자로부터 추출한 유전자 데이터세트이고, 상기 정상 샘플은 정상인으로부터 추출한 유전자 데이터세트이다.A method for predicting disease information in a system according to another embodiment of the present invention is a method for predicting disease information in a system, comprising: comparing a gene expression value of each of a plurality of samples including disease samples with a normal expression distribution by gene; , A gene for a disease expression change in a corresponding sample, a step for extracting a gene having a significant change in a disease expression expression gene of the sample, Deep Neural Network), and searching for a cell function or gene related to the disease based on the learned neural network, wherein the sample is a gene data set including a gene expression value, and the sample The disease sample is classified into the disease sample and the normal sample, and the disease sample is classified into the patient of the target disease A gene derived data set, the normal sample is a set of data extracted from the normal gene.

상기 질병 정보 예측 방법은 복수의 정상 샘플의 유전자별 발현값을 기초로 상기 유전자별 정상 발현 분포를 분석하는 단계를 더 포함할 수 있다.The disease information prediction method may further include analyzing a normal expression distribution of each gene based on expression values of a plurality of normal samples.

상기 유전자별 정상 발현 분포를 분석하는 단계는 마이크로어레이 데이터베이스에서 상기 복수의 정상 샘플을 추출하는 단계, 상기 복수의 정상 샘플의 유전자별 발현값을 정규화하는 단계, 그리고 정규화한 유전자별 발현값을 기초로 상기 유전자별 정상 발현 분포를 계산하는 단계를 포함할 수 있다.The step of analyzing the normal expression distribution by gene may include extracting the plurality of normal samples from the microarray database, normalizing the expression values of the genes of the plurality of normal samples, And calculating a normal expression distribution by the gene.

상기 심층 신경망을 학습시키는 단계는 상기 복수의 샘플 각각의 질병 발현변화 유전자 정보를 기초로 상기 심층 신경망을 비지도 학습시키고, 상기 복수의 샘플 각각의 질병 발현변화 유전자 정보와 상기 복수의 샘플 각각의 종류를 기초로 비지도 학습이 완료된 심층 신경망을 지도 학습시킬 수 있다.Wherein the step of learning the depth neural network comprises the steps of: learning nonvisuality of the neural network on the basis of disease expression change gene information of each of the plurality of samples; and analyzing disease expression change gene information of each of the plurality of samples, Based neural network can be learned and learned.

본 발명의 또 다른 실시예에 따른 시스템의 질병 정보 예측 방법으로서, 유전자, 세포 기능, 그리고 질병의 연관 관계를 기초로 초기 연결강도가 설정된 제1 심층 신경망을 생성하는 단계, 질병에 대한 발현변화 유전자 정보를 포함하는 학습 데이터를 입력받는 단계, 상기 학습 데이터를 기초로 상기 제1 심층 신경망을 비지도 학습(unsupervised learning)시켜 제2 심층 신경망을 생성하는 단계, 상기 학습 데이터를 기초로 상기 제2 심층 신경망을 지도 학습(supervised learning) 시켜 제3 심층 신경망을 생성하는 단계. 그리고 상기 제3 심층 신경망을 역전파(backward propagation)하여 상기 질병에 관련된 질병 정보를 탐색하는 단계를 포함하고, 상기 제1 심층 신경망은 복수의 유전자 노드를 포함하는 입력층, 복수의 세포 기능 노드를 포함하는 적어도 하나의 은닉층, 그리고 질병 노드를 포함하는 출력층으로 구성되는 다층 네트워크이다.A method for predicting disease information of a system according to another embodiment of the present invention is a method for predicting disease information of a system, comprising the steps of generating a first neural network in which an initial connection strength is set based on a relationship between genes, cell functions, and diseases, Generating second deep-network neural networks by unsupervised learning of the first neural network based on the learning data, generating second deep-layer neural networks based on the learning data, Supervised learning of the neural network to generate the third in-depth neural network. And searching for disease information related to the disease by backward propagating the third neural network, wherein the first neural network comprises an input layer including a plurality of gene nodes, a plurality of cell function nodes And at least one hidden layer including the node, and an output layer including the disease node.

상기 제1 심층 신경망을 생성하는 단계는 유전자와 세포 기능 사이의 관계 데이터를 기초로 상기 입력층의 노드와 상기 은닉층의 노드 사이의 초기 연결강도를 결정하고, 세포 기능과 질병 사이의 관계 데이터를 기초로 상기 은닉층의 노드와 상기 출력층의 노드 사이의 초기 연결강도를 결정할 수 있다.Wherein the step of generating the first neural network comprises determining an initial connection strength between a node of the input layer and a node of the hidden layer based on the relationship data between the gene and the cell function, The initial connection strength between the node of the hidden layer and the node of the output layer can be determined.

상기 질병에 대한 발현변화 유전자 정보는 유전자별로 발현변화 유전자인지를 나타내는 값을 포함하고, 상기 발현변화 유전자는 해당 유전자의 발현 분포에 비해 기준 이상의 발현값 차이가 나타나는 유전자일 수 있다.The expression change gene information for the disease includes a value indicating whether the gene is an expression change gene for each gene, and the expression change gene may be a gene showing a difference in expression value above the reference gene expression distribution.

상기 질병에 관련된 질병 정보를 탐색하는 단계는 상기 제3 심층 신경망의 출력값을 상기 질병에 해당하는 값으로 설정하는 단계, 상기 제3 심층 신경망의 출력층부터 역전파하여 은닉층 또는 입력층에서 활성화되는 적어도 하나의 노드를 추출하는 단계, 그리고 추출한 노드에 해당하는 유전자 또는 세포 기능을 상기 질병 정보로 출력하는 단계를 포함할 수 있다.Wherein the step of searching for disease information related to the disease comprises the steps of setting an output value of the third neural network to a value corresponding to the disease, Extracting a node of the node, and outputting the gene or cell function corresponding to the extracted node as the disease information.

본 발명의 실시예에 따르면 마이크로어레이 데이터 분석을 통하여 추출한 질병 발현변화 유전자를 기초로 질병 유전자를 탐색하므로 실제 데이터에서 나타나는 다양한 질병 상태를 표현할 수 있는 질병 분류기를 만들 수 있다. 본 발명의 실시예에 따르면 질병 유전자 탐색에 사용되지 않았던 방법인 심층 신경망을 질병 분류기 생성에 활용하고 다양한 신경망 학습 기술을 적용하여 예측력이 높은 질병 분류기를 만들 수 있다. According to the embodiment of the present invention, the disease gene can be searched based on the disease expression-altering gene extracted through the microarray data analysis, so that the disease sorter capable of expressing various disease states in actual data can be constructed. According to the embodiment of the present invention, it is possible to make a disease classifier having a high predictive power by applying a depth neural network, which is a method not used in disease gene search, to generation of a disease classifier and applying various neural network learning techniques.

본 발명의 실시예에 따르면 종래의 질병 유전자 연구에서 해결하지 못하였던 질병 기전과의 연관 관계를 직접적으로 추적할 수 있고, 따라서 질병 유전자는 물론 질병 연관 세포 기능까지 제공하여 질병 해석에 필요한 유용한 정보를 제공할 수 있다. 본 발명의 실시예에 따르면 환자의 질병 여부를 판별할 수 있고, 질병 유전자 및 질병 연관 세포 기능을 발굴하여 약물 타깃 선별을 할 수 있다.According to the embodiment of the present invention, it is possible to directly track the linkage with the disease mechanism which has not been solved in the conventional disease gene research, and thus provides the disease gene as well as the disease-related cell function, . According to the embodiment of the present invention, it is possible to discriminate a disease of a patient and to identify a disease gene and a disease-related cell function to select a drug target.

본 발명의 실시예에 따르면 신규 질병 유전자 및 신규 질병 연관 기능의 발굴을 할 수 있다. 본 발명의 실시예에 따르면 질병 기전을 효과적으로 조절할 수 있는 신규 약물 타깃 발굴이 가능하고, 이를 통해 치료 약물 개발을 효과적으로 할 수 있다. 본 발명의 실시예에 따르면 역전파를 통하여 발굴한 질병 유전자 조합을 이용하여 발병 기전을 분류하고 이를 이용하여 신규 동반진단 방법을 개발할 수 있다.According to embodiments of the present invention, novel disease genes and novel disease-related functions can be discovered. According to the embodiment of the present invention, it is possible to discover a new drug target that can effectively control the disease mechanism, and thereby, the therapeutic drug development can be effectively performed. According to an embodiment of the present invention, a pathogenesis mechanism can be classified using a disease gene combination uncovered through back propagation, and a new accompanying diagnosis method can be developed.

도 1은 본 발명의 한 실시예에 따른 질병 정보 예측 시스템의 구성도이다.
도 2는 본 발명의 한 실시예에 따른 심층 신경망을 설명하는 도면이다.
도 3은 본 발명의 한 실시예에 따른 질병 발현변화 유전자 추출 방법의 흐름도이다.
도 4는 본 발명의 한 실시예에 따른 질병 발현변화 유전자 추출 방법을 설명하는 도면이다.
도 5는 본 발명의 한 실시예에 따른 심층 신경망 학습 방법을 설명하는 흐름도이다.
도 6은 본 발명의 한 실시예에 따른 심층 신경망 학습 방법을 설명하는 도면이다.
도 7과 도 8 각각은 본 발명의 한 실시예에 따른 질병 정보 탐색 방법을 설명하는 흐름도이다.
1 is a block diagram of a disease information prediction system according to an embodiment of the present invention.
2 is a diagram illustrating a depth-of-field network according to an embodiment of the present invention.
FIG. 3 is a flowchart of a disease expression change gene extraction method according to an embodiment of the present invention.
FIG. 4 is a diagram for explaining a disease expression-altering gene extraction method according to an embodiment of the present invention.
5 is a flowchart illustrating a method of learning a neural network according to an embodiment of the present invention.
6 is a view for explaining a depth learning method according to an embodiment of the present invention.
7 and 8 are flowcharts illustrating a disease information search method according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Throughout the specification, when an element is referred to as " comprising ", it means that it can include other elements as well, without excluding other elements unless specifically stated otherwise. Also, the terms " part, " " module, " and " module ", etc. in the specification mean a unit for processing at least one function or operation and may be implemented by hardware or software or a combination of hardware and software have.

도 1은 본 발명의 한 실시예에 따른 질병 정보 예측 시스템의 구성도이고, 도 2는 본 발명의 한 실시예에 따른 심층 신경망을 설명하는 도면이다.FIG. 1 is a block diagram of a disease information prediction system according to an embodiment of the present invention, and FIG. 2 is a diagram illustrating a depth neural network according to an embodiment of the present invention.

도 1을 참고하면, 질병 정보 예측 시스템(앞으로, "예측 시스템"이라고 한다)(100)은 유전자, 세포 기능, 질병의 관계를 심층 신경망(Deep Neural Network)으로 생성한다. 그리고 예측 시스템(100)은 심층 신경망을 역전파(backward propagation)하여 질병에 관련된 질병 유전자(Disease genes) 또는 질병 연관 기능(Disease-related function)을 탐색한다. 그리고, 예측 시스템(100)은 심층 신경망을 이용하여 특정 유전자 조합에 관련된 질병을 예측할 수 있다. 여기서, 심층 신경망은 질병 분류기로 부를 수 있다.Referring to FIG. 1, a disease information prediction system (hereinafter, referred to as a "prediction system") 100 generates a gene, a cell function, and a disease relationship as a Deep Neural Network. The prediction system 100 then backwards propagates the neural network to search for disease-related Disease genes or Disease-related functions. The prediction system 100 can then use the in-depth neural network to predict disease associated with a particular gene combination. Here, the in-depth neural network can be called a disease classifier.

예측 시스템(100)은 질병 발현변화 유전자 추출부(110), 심층 신경망 학습부(130), 그리고 질병 정보 탐색부(150)를 포함한다. 예측 시스템(100)은 질병 발현변화 유전자 추출부(110)와 심층 신경망 학습부(130)에서 사용하는 각종 정보를 저장한 데이터베이스부(170)를 더 포함할 수 있다. 한편, 질병 발현변화 유전자 추출부(110)와 심층 신경망 학습부(130)에서 사용하는 각종 정보가 데이터베이스부(170)에 저장되는 것으로 설명하나, 데이터베이스부(170)는 예측 시스템(100)에 포함되지 않고 별도 장치로 구현되거나, 원격의 서버에 저장될 수 있다. 이 경우, 예측 시스템(100)은 필요 정보가 저장된 데이터베이스/서버에 접속하여 필요 정보를 가져올 수 있다. 또는 예측 시스템(100)은 질병 발현변화 유전자 추출부(110)와 심층 신경망 학습부(130)에서 사용하는 각종 정보를 입력받고 입력 정보를 기초로 분석할 수 있다.The prediction system 100 includes a disease expression change gene extracting unit 110, a neural network learning unit 130, and a disease information searching unit 150. The prediction system 100 may further include a database unit 170 storing various information used by the disease expression change gene extracting unit 110 and the depth learning unit 130. [ The database unit 170 stores various information used in the disease expression change gene extracting unit 110 and the deep neural network learning unit 130 in the database unit 170. The database unit 170 is included in the prediction system 100 But may be implemented as a separate device or stored in a remote server. In this case, the prediction system 100 may connect to the database / server where necessary information is stored to obtain necessary information. Or the prediction system 100 may receive various kinds of information used in the disease expression change gene extracting unit 110 and the depth learning neural network learning unit 130 and may analyze based on the input information.

질병 발현변화 유전자 추출부(110)는 질병에 대한 발현변화 유전자("질병 발현변화 유전자"라고 한다)를 추출한다. 질병 발현변화 유전자는 심층 신경망 학습부(130)로 입력되고, 심층 신경망 학습부(130)는 질병 발현변화 유전자를 이용하여 해당 질병에 대한 심층 신경망을 학습시킨다. 질병 발현변화 유전자 추출부(110)는 다양한 종류의 질병 각각에 대한 발현변화 유전자를 추출할 수 있다.The disease expression change gene extracting unit 110 extracts an expression change gene (referred to as a " disease expression change gene ") for a disease. The disease expression change gene is input to the neural network learning unit 130, and the neural network learning unit 130 learns the neural network for the disease using the disease expression change gene. The disease expression change gene extracting unit 110 can extract expression change genes for various diseases.

질병 발현변화 유전자 추출부(110)는 마이크로어레이(Microarray) 데이터베이스(171)에 저장된 마이크로어레이 데이터의 유전자별 발현 분포를 기초로 질병에 관계된 발현변화 유전자를 추출한다. 질병 발현변화 유전자 선정부(112)는 마이크로어레이 데이터 중에서 정상 샘플들로부터 획득한 유전자별 정상 발현 분포와 질병 샘플의 유전자별 값을 비교하고, 질병 샘플에서 정상 발현 분포에 비해 발현이 유의하게 증가하거나 감소하는 유전자를 해당 질병 샘플의 발현변화 유전자로 추출한다. 이때, 질병 발현변화 유전자 선정부(112)는 질병 샘플뿐만 아니라, 정상 샘플도 유전자별 정상 발현 분포와 비교하여 해당 정상 샘플의 발현변화 유전자를 추출할 수 있다. 여기서, 마이크로어레이는 유전자 조각들을 칩에 배열하여 집적한 것으로서 유전자 발현을 광범위하게 분석할 수 있는 도구이다. 마이크로어레이 데이터베이스는 예를 들면, Gene Expression Omnibus의 데이터베이스일 수 있다. 여기서 샘플은 유전자 발현 정보를 포함하는 유전자 데이터세트이고, 정상 샘플은 정상인으로부터 추출된 유전자 데이터세트이고, 질병 샘플은 해당 질병의 환자로부터 추출된 유전자 데이터세트를 의미한다.The disease expression change gene extracting unit 110 extracts a disease-related expression change gene based on the gene expression distribution of the microarray data stored in the microarray database 171. The disease expression change gene selection unit 112 compares the normal expression distribution obtained from the normal samples in the microarray data with the gene value of the disease sample and indicates that the expression is significantly increased in the disease sample as compared with the normal expression distribution And extracts the decreasing gene as an expression-altering gene of the disease sample. At this time, the disease expression change gene selection unit 112 can extract not only the disease sample but also the normal expression gene of the normal sample by comparing the normal expression distribution by gene. Here, the microarray is a device for arranging gene fragments on a chip and analyzing gene expression extensively. The microarray database may be, for example, a database of the Gene Expression Omnibus. Wherein the sample is a gene data set comprising gene expression information, the normal sample is a gene data set extracted from a normal person, and the disease sample refers to a gene data set extracted from a patient of the disease.

심층 신경망 학습부(130)는 세포 기능 정보와 질병 유전자 정보를 기초로 초기 가중치가 입력된 초기 심층 신경망을 생성한다. 그리고 심층 신경망 학습부(130)는 질병 발현변화 유전자 선정부(112)로부터 입력된 발현변화 유전자 정보 기초로 초기 심층 신경망을 학습시켜 최종 심층 신경망을 생성한다. 이때, 심층 신경망 학습부(130)는 발현변화 유전자 정보를 기초로 초기 심층 신경망을 비지도 학습(unsupervised learning) 및 지도 학습(supervised learning)시켜 최종 심층 신경망을 생성한다.The neural network learning unit 130 generates an initial neural network in which initial weights are input based on cell function information and disease gene information. Then, the depth neural network learning unit 130 learns the initial depth neural network based on the expression change gene information input from the disease expression change gene selection unit 112 to generate the final depth neural network. At this time, the neural network learning unit 130 generates the final neural network by performing unsupervised learning and supervised learning on the initial neural network based on the expression change gene information.

도 2를 참고하면, 심층 신경망은 하나의 입력층(input layer), 하나 이상의 은닉층(hidden layer), 그리고 하나의 출력층(output layer)의 순으로 구성되어 있는 다층 네트워크이다. 입력층, 은닉층, 출력층 각각은 다수의 노드들로 구성된다. 심층 신경망에서 인접한 두 층의 노드들은 연결강도(weight, 가중치)가 정의된 선으로 연결된다. 은닉층 및 출력층의 각 노드의 값은 해당 노드에 연결된 이전 층의 노드의 값과 해당 노드로 연결되는 선의 연결강도(가중치)를 곱한 것의 총합을 비선형 함수에 대입시킨 값으로 결정될 수 있다. 심층 신경망은 입력 정보에 대하여 순방향의 전파(Propagation) 계산을 통하여 얻은 예측값과 학습시키고자 하는 결과값을 비교하여 오차를 구한 후 오차를 최소화하는 방향으로 역전파하여 각 연결강도를 업데이트한다. Referring to FIG. 2, the depth-based neural network is a multi-layer network composed of an input layer, a hidden layer, and an output layer. Each of the input layer, the hidden layer, and the output layer is composed of a plurality of nodes. In the neural network, adjacent nodes of two layers are connected by a defined line of weight (weight). The value of each node of the hidden layer and the output layer can be determined by a value obtained by multiplying the value of the node of the previous layer connected to the node by the connection strength (weight value) of the line connected to the node to the nonlinear function. The neural network computes the error by comparing the predicted value obtained from the forward propagation calculation with the result to be learned, and updates the connection strength by back propagation in the direction of minimizing the error.

심층 신경망 학습부(130)는 입력층의 노드에 유전자(gene)를 대응시키고, 은닉층의 노드에 세포 기능(cell function)을 대응시키며, 출력층의 노드에 질병을 대응시켜 심층 신경망을 생성한다. The neural network learning unit 130 generates a neural network by mapping a gene to a node of the input layer, mapping a cell function to a node of the hidden layer, and mapping the disease to a node of the output layer.

심층 신경망에서 인접한 두 층의 노드들은 노드간 관계를 기초로 연결된다. 입력층의 유전자 노드와 은닉층의 세포 기능 노드는 유전자와 세포 기능의 관계를 기초로 연결된다. 심층 신경망 학습부(130)는 유전자와 세포 기능 사이의 관계 데이터를 저장한 세포 기능 데이터베이스(173)를 기초로 입력층의 유전자 노드와 은닉층의 세포 기능 노드 사이의 연관성을 추출하고, 초기 연결강도를 결정한다. 세포 기능 데이터베이스는 예를 들면 Gene Ontology의 데이터베이스일 수 있다. In a neural network, adjacent nodes of two layers are connected based on the relationship between nodes. The gene nodes of the input layer and the cell function nodes of the hidden layer are linked based on the relationship between gene and cell function. The neural network learning unit 130 extracts the association between the gene node of the input layer and the cell function node of the hidden layer based on the cell function database 173 storing the relation data between the gene and the cell function, . The cell function database may be, for example, a database of Gene Ontology.

출력층의 질병 노드와 은닉층의 세포 기능 노드는 질병과 세포 기능의 관계를 기초로 연결된다. 세포 기능이 복수의 계층으로 분류될 수 있는 경우, 복수의 은닉층이 계층적으로 생성되고, 세포 기능 사이의 관계를 기초로 은닉층의 노드들이 연결된다. 심층 신경망 학습부(130)는 세포 기능 데이터베이스(173)와 질병 유전자 데이터베이스(175)를 기초로 은닉층의 세포 기능과 출력층의 질병 사이의 연관성을 추출하고, 초기 연결강도를 결정한다. 질병 유전자 데이터베이스는 예를 들면 Online Mendelian Inheritance in Man의 데이터베이스일 수 있다.Cell function nodes in the disease nodes and hidden layers of the output layer are linked based on the relationship between disease and cell function. When cell functions can be classified into a plurality of hierarchies, a plurality of hidden layers are generated hierarchically, and nodes of the hidden layer are connected based on the relationship between cell functions. The neural network learning unit 130 extracts the association between the cell function of the hidden layer and the disease of the output layer based on the cell function database 173 and the disease gene database 175 to determine the initial connection strength. The disease gene database can be, for example, a database of Online Mendelian Inheritance in Man.

심층 신경망 학습부(130)는 입력층, 은닉층, 출력층의 노드들을 초기 연결강도로 연결하여 초기 심층 신경망을 생성한다. The neural network learning unit 130 generates an initial neural network by connecting nodes of an input layer, a hidden layer, and an output layer with initial connection strengths.

심층 신경망 학습부(130)는 질병 샘플들과 정상 샘플들의 발현변화 유전자를 기초로 초기 심층 신경망을 선행 학습(pre-training)시킨다. 심층 신경망 학습부(130)는 심층 신뢰 신경망(Deep Belief Network) 방법을 이용하여 선행 학습할 수 있다. 심층 신경망 학습부(130)는 발현변화 유전자 정보를 입력층의 입력값으로 사용하고, 비지도 학습을 통해 초기 심층 신경망의 초기 연결강도를 업데이트할 수 있다. 학습 데이터가 충분하지 않은 경우, 임의로 설정된 초기 가중치(예를 들면, 0 또는 1)가 최종 학습 결과에 미치는 영향을 줄이기 위해, 비지도 학습 방법으로 선행 학습하여 초기 연결강도를 조정하는 것이다.The depth-of-neural network learning unit 130 pre-trains the initial depth-based neural network based on the disease samples and the expression change genes of the normal samples. The neural network learning unit 130 can perform the preliminary learning using the Deep Belief Network method. The depth neural network learning unit 130 may use the information on the expression change gene as the input value of the input layer and update the initial connection strength of the initial depth neural network through non-learning of the non-background. If the learning data is insufficient, the initial connection strength is adjusted by pre-learning by the non-bipartite learning method to reduce the influence of the initial weight (for example, 0 or 1) arbitrarily set on the final learning result.

심층 신경망 학습부(130)는 질병 샘플들과 정상 샘플들의 발현변화 유전자를 기초로, 선행 학습된 심층 신경망을 지도 학습하여 최종 심층 신경망을 생성한다. 심층 신경망 학습부(130)는 선행 학습된 심층 신경망에서 드롭아웃과 오차 역전파를 통해 선행 학습된 심층 신경망의 연결강도를 조정할 수 있다.The depth-of-neural network learning unit 130 generates a final depth-of-field neural network by learning the pre-learned depth-based neural network based on the disease samples and the expression change genes of the normal samples. The neural network learning unit 130 can adjust the connection strength of the neural network that has been previously learned through dropout and error back propagation in the pre-learned neural network.

질병 정보 탐색부(150)는 학습된 최종 심층 신경망을 역전파하여 질병 연관 세포 기능 또는 질병 유전자를 탐색한다. 질병 정보 탐색부(150)는 최종 심층 신경망의 질병/정상 출력에서 역전파를 통하여 활성화되는 세포 기능/유전자를 찾고 통계분석을 통하여 질병 연관 기능 조합 모델/질병 유전자 조합 모델을 생성한다.The disease information search unit 150 searches back the disease-related cell function or disease gene by back propagating the learned final in-depth neural network. The disease information search unit 150 finds a cell function / gene that is activated through reverse propagation in the disease / normal output of the final depth neural network, and generates a disease-related function combination model / disease gene combination model through statistical analysis.

구체적으로 살펴보면, 질병 정보 탐색부(150)는 최종 심층 신경망의 출력층 노드(값=1)에서 역전파를 수행하여 질병에 연관된 세포 기능들을 추출하고, 질병에 연관된 세포 기능들을 조합하여 질병 연관 기능 조합 모델을 생성할 수 있다. 또한 질병 정보 탐색부(150)는 최종 심층 신경망의 출력층 노드(값=0)에서 역전파를 수행하여 비질병(정상)에 연관된 세포 기능들을 추출하고, 이들을 조합하여 정상 기능 조합 모델을 생성할 수 있다. 질병 정보 탐색부(150)는 질병 연관 기능 조합 모델과 정상 기능 조합 모델을 통계 분석하여 질병 특이적 기능 조합 모델을 생성할 수 있다. 여기서, 질병 특이적 기능이란 질병 연관 기능 조합 모델에서만 나타나는 세포 기능을 의미하고, 질병 특이적 기능만을 포함하는 질병 연관 기능 조합 모델을 질병 특이적 기능 조합 모델로 제공할 수 있다.Specifically, the disease information search unit 150 extracts cell functions related to the disease by performing back propagation in the output layer node (value = 1) of the final depth neural network, and combines disease-related cell functions to form a disease- You can create a model. In addition, the disease information search unit 150 extracts cell functions related to non-disease (normal) by performing back propagation at the output layer node (value = 0) of the final depth neural network, and combines them to generate a normal function combination model have. The disease information search unit 150 can generate a disease-specific functional combination model by statistically analyzing a disease-associated function combination model and a normal function combination model. Here, the disease-specific function means a cell function that appears only in a disease-associated function combination model, and a disease-specific function combination model including only a disease-specific function can be provided as a disease-specific functional combination model.

질병 정보 탐색부(150)는 최종 심층 신경망의 출력층 노드(값=1)에서 역전파를 수행하여 질병에 연관된 유전자들을 추출하고, 질병에 연관된 유전자들을 조합하여 질병 연관 유전자 조합 모델을 생성한다. 또한 질병 정보 탐색부(150)는 학습된 최종 심층 신경망의 출력층 노드(값=0)에서 역전파를 수행하여 비질병(정상)에 연관된 유전자들을 추출하고, 이들을 조합하여 정상 유전자 조합 모델을 생성할 수 있다. 질병 정보 탐색부(150)는 질병 연관 유전자 조합 모델과 정상 유전자 조합 모델을 통계 분석하여 질병 특이적 유전자 조합 모델을 생성할 수 있다.The disease information search unit 150 performs back propagation at the output layer node (value = 1) of the final depth neural network to extract genes associated with the disease, and combines the genes associated with the disease to generate a disease-associated gene combination model. In addition, the disease information search unit 150 extracts genes associated with non-disease (normal) by performing back propagation at the output layer node (value = 0) of the learned final NN and combines them to generate a normal gene combination model . The disease information search unit 150 may generate a disease-specific gene combination model by statistically analyzing a disease-associated gene combination model and a normal gene combination model.

도 3은 본 발명의 한 실시예에 따른 질병 발현변화 유전자 추출 방법의 흐름도이고, 도 4는 본 발명의 한 실시예에 따른 질병 발현변화 유전자 추출 방법을 설명하는 도면이다.FIG. 3 is a flowchart illustrating a method for extracting a disease expression-altering gene according to an embodiment of the present invention, and FIG. 4 is a diagram for explaining a disease expression-altering gene extraction method according to an embodiment of the present invention.

도 3을 참고하면, 질병 발현변화 유전자 선정부(112)는 마이크로어레이 데이터베이스(171)에서 정상 샘플과 질병 샘플을 포함하는 마이크로어레이 데이터를 가져온다(S110). Referring to FIG. 3, the disease expression change gene selection unit 112 fetches microarray data including a normal sample and a disease sample in the microarray database 171 (S110).

질병 발현변화 유전자 선정부(112)는 정상 샘플들을 이용하여 유전자별 정상 발현 분포를 분석한다(S120). 질병 발현변화 유전자 선정부(112)는 Quantile Normalization을 이용하여 마이크로어레이 데이터를 정규화할 수 있다. 질병 발현변화 유전자 선정부(112)는 표 1과 같이 복수의 정상 샘플(Normal-1~Normal-N)과 특정 질병(Cancer)에 관련된 질병 샘플(Cancer-1, Cancer-2 등)의 유전자별 발현값을 정규화한다. 유전자별 정상 발현 분포에 따른 발현변화 유전자 판정에의 예는 도 4와 같다.The disease expression change gene selection unit 112 analyzes the normal expression distribution by gene using normal samples (S120). The disease expression change gene selection unit 112 can normalize microarray data using Quantile Normalization. As shown in Table 1, the disease expression alteration gene selection unit 112 determines a gene expression level of a disease sample (Cancer-1, Cancer-2, etc.) related to a specific normal (Normal-1 to Normal- Normalizes the expression value. Expression changes according to normal expression distribution by gene An example of gene judgment is shown in Fig.

샘플유전자Sample gene Normal-1Normal-1 ... Normal-NNormal-N Cancer-1Cancer-1 Cancer-2Cancer-2 ... Gene 1Gene 1 0.50.5 ... 22 1One ... ... Gene 2Gene 2 1One ... 44 33 ... ... Gene 3Gene 3 33 ... 88 55 ... ... Gene 4Gene 4 22 ... 33 44 ... ... Gene 5Gene 5 1One ... 99 1010 ... ... ... ... ... ... ... ... ...

질병 발현변화 유전자 선정부(112)는 유전자별 정상 발현 분포와 각 샘플의 유전자별 발현값을 비교하고, 유전자별 정상 발현 분포를 기초로 정상 샘플에 비해 발현이 증가하거나 감소하는 유전자를 각 샘플의 발현변화 유전자로 추출한다(S130). 발현변화 유전자는 샘플별로 추출되고, 샘플 종류는 정상 샘플과 질병 샘플로 구분될 수 있다. 질병 발현변화 유전자 선정부(112)는 표 2와 같이 각 샘플의 유전자별로 발현변화 유전자인지를 나타내는 값(앞으로, "발현변화 지시자"라고 한다)을 표시한다. 표 2를 참고하면, 발현변화 지시자가 "1"이면, 특정 질병에 연관된 발현변화 유전자를 의미한다. The disease expression altering gene selection section 112 compares the normal expression distribution of each gene with the gene expression level of each sample and determines a gene whose expression is increased or decreased compared with the normal sample based on the normal expression distribution by gene, And extracted as an expression-altering gene (S130). Expression-altering genes are extracted on a sample-by-sample basis, and the sample types can be divided into normal and diseased samples. As shown in Table 2, the disease expression alteration gene selection unit 112 displays a value (hereinafter referred to as " expression change indicator ") indicating whether the expression gene is a gene for each sample. Referring to Table 2, when the expression change indicator is " 1 ", it means an expression change gene associated with a specific disease.

샘플유전자Sample gene Normal-1Normal-1 ... Normal-NNormal-N Cancer-1Cancer-1 Cancer-2Cancer-2 ... Gene 1Gene 1 00 ... 00 00 ... ... Gene 2Gene 2 00 ... 1One 1One ... ... Gene 3Gene 3 00 ... 00 00 ... ... Gene 4Gene 4 00 ... 00 1One ... ... Gene 5Gene 5 00 ... 00 00 ... ... ... ... ... ... ... ... ...

도 4를 참고하면, 질병 발현변화 유전자 선정부(112)는 유전자별 발현 분포와 질병 샘플(Cancer-1)의 유전자별 발현값을 비교하고, 유의한 변화가 있다고 판단되는 유전자(예를 들면, Gene 2, Gene 4)를 발현변화 유전자로 추출한다. 예를 들면, 질병 발현변화 유전자 선정부(112)는 각 유전자에 대하여 정상 샘플에서의 평균과 표준편차를 구하고 정규분포를 가정하여 분포를 탐색할 수 있다. 예를 들면, 평균 10, 표준편차 10의 분포에서 발현값이 -6.45보다 작거나 26.45보다 큰 유전자를 발현변화 유전자로 결정할 수 있다.도 5는 본 발명의 한 실시예에 따른 심층 신경망 학습 방법을 설명하는 흐름도이고, 도 6은 본 발명의 한 실시예에 따른 심층 신경망 학습 방법을 설명하는 도면이다.4, the disease expression-altering gene selection unit 112 compares an expression distribution of each gene with a gene expression value of a disease sample (Cancer-1), and determines a gene having a significant change (for example, Gene 2, and Gene 4) as expression-altering genes. For example, the disease expression altering gene selection unit 112 can obtain the mean and standard deviation of each gene in a normal sample, and search for a distribution assuming a normal distribution. For example, a gene having an expression value of less than -6.45 or greater than 26.45 in an average of 10 and a standard deviation of 10 can be determined as an expression-altering gene. FIG. 5 shows a method of learning a neural network according to an embodiment of the present invention. 6 is a diagram for explaining a depth learning method according to an embodiment of the present invention.

도 5를 참고하면, 심층 신경망 학습부(130)는 유전자, 세포 기능, 질병 각각을 해당 계층의 노드에 배치하고 계층 사이의 노드를 초기 연결강도로 연결한 초기 심층 신경망을 생성한다(S210). 초기 심층 신경망은 복수의 유전자 노드를 포함하는 입력층, 복수의 세포 기능 노드를 포함하는 적어도 하나의 은닉층, 그리고 질병 노드에 해당하는 출력층으로 구성된다. 입력층은 유전자 개수만큼의 노드를 가지고, 은닉층은 세포 기능 개수만큼의 노드를 가지며, 출력층은 단일 노드(질병)로 구성될 수 있다. 초기 심층 신경망에서 인접 층 사이의 노드가 모두 연결되어 있으며, 노드 내의 활성함수(activation function)로 비선형 함수(예를 들면, Rectified Linear Unit)를 사용할 수 있다. 심층 신경망 학습부(130)는 특정 유전자, 특정 세포 기능, 질병의 연관성을 기초로 노드 사이의 연결관계에 대한 초기 연결강도를 입력한다. 초기 연결강도는 임의 값이 설정될 수 있고, 예를 들면 0 또는 1일 수 있다. 예를 들어, 심층 신경망 학습부(130)는 세포 기능 데이터베이스(173)에 특정 노드의 유전자와 특정 노드의 세포 기능의 관계가 저장되어 있으면, 이 두 노드 사이의 연결강도를 "1"로 입력하고, 세포 기능 데이터베이스(173)에 특정 노드의 유전자와 특정 노드의 세포 기능의 관계가 저장되어 있지 않으면, 이 두 노드 사이의 연결강도를 "0"으로 입력할 수 있다. 또한, 심층 신경망 학습부(130)는 세포 기능 데이터베이스(173)와 질병 유전자 데이터베이스(175)를 기초로 세포 기능과 질병 사이의 연관성을 추출한다. 특정 노드의 세포 기능과 출력층 노드의 질병 사이의 연관성이 있으면(예를 들면, 유의값이 0.05 이하)이면, 심층 신경망 학습부(130)는 세포 기능 노드와 질병 노드의 연결강도를 "1"로 입력하고, 연관성이 없으면, 세포 기능 노드와 질병 노드의 연결강도를 "0"으로 입력할 수 있다. 이때, 심층 신경망 학습부(130)는 세포 기능1에 연관된 유전자와 질병1에 연관된 유전자를 추출하고 전체 유전자 개수 대비 공통 유전자 개수를 피셔의 정확도 검정을 통하여 유의값을 계산할 수 있다.Referring to FIG. 5, the SNN learning unit 130 generates an initial SNN in which genes, cell functions, and diseases are arranged at nodes of a corresponding layer, and nodes between layers are connected at an initial connection strength (S210). The initial depth neural network consists of an input layer containing a plurality of genetic nodes, at least one hidden layer containing a plurality of cell functional nodes, and an output layer corresponding to a disease node. The input layer has as many nodes as the number of genes, the hidden layer has as many nodes as the number of cell functions, and the output layer can be composed of a single node (disease). In the initial depth neural network, all the nodes between adjacent layers are connected, and a nonlinear function (for example, a rectified linear unit) can be used as an activation function in the node. The neural network learning unit 130 inputs an initial connection strength for a connection between nodes based on the association of a specific gene, a specific cell function, and a disease. The initial connection strength can be set to any value, for example, 0 or 1. For example, if the relationship between the gene of a specific node and the cell function of a specific node is stored in the cell function database 173, the depth neural network learning unit 130 inputs the connection strength between the two nodes as " 1 " , And if the relationship between the gene of a specific node and the cell function of a specific node is not stored in the cell function database 173, the connection strength between these two nodes can be input as " 0 ". The neural network learning unit 130 extracts the association between the cell function and the disease based on the cell function database 173 and the disease gene database 175. If the cell function of the specific node is related to the disease of the output layer node (for example, the significance value is 0.05 or less ) , the depth neural network learning unit 130 sets the connection strength of the cell function node and the disease node to " 1 " If there is no association, the connection strength between the cell function node and the disease node can be input as " 0 ". In this case, the neural network learning unit 130 extracts a gene associated with the cell function 1 and a gene associated with the disease 1, and can calculate the significance value through Fischer's accuracy test on the number of common genes relative to the total number of genes.

심층 신경망 학습부(130)는 발현변화 유전자를 기초로 초기 심층 신경망을 선행 학습시킨다(S220). 심층 신경망 학습부(130)는 질병 발현변화 유전자 선정부(112)에서 추출한 샘플별 발현변화 유전자를 입력하고, 전파/역전파를 통한 비지도 학습 방법으로 초기 심층 신경망을 선행 학습시킨다. 여기서 선행 학습은 초기 심층 신경망의 초기 연결강도가 "0" 또는 "1"로 입력되어 있으므로, 발현변화 유전자를 학습 데이터로 사용하여 초기 연결강도를 조정한다. 심층 신경망 학습부(130)는 심층 신뢰 신경망 방법을 이용하여 선행 학습시킨다. 도 6을 참고하면, 심층 신경망 학습부(130)는 표 2의 질병 샘플을 학습 데이터로 사용하는 경우, 발현변화 유전자(Gene 2, Gene 4 등)에 대응하는 노드값을 1로 입력하고, 나머지 유전자(Gene 1, Gene 3, Gene 5 등)에 대응하는 노드값을 0으로 입력한다. 그리고, 심층 신경망 학습부(130)는 심층 신뢰 신경망 방법을 이용하여 계층마다 전파/역전파를 진행하면서 초기 연결강도를 업데이트한다. 여기서, 심층 신뢰 신경망 방법은 비지도 학습 방법으로 계층마다 학습하는 방법으로서, 어느 계층의 학습이 끝나면 해당 계층의 연결강도를 업데이트하고, 학습이 끝난 계층의 다음 계층의 학습을 단계적으로 진행한다. 심층 신뢰 신경망 방법은 공지된 방법을 이용하여 수행될 수 있다. 예를 들면 심층 신뢰 신경망 방법은 발현변화 유전자에 대응하는 노드값을 "1", 나머지 유전자에 대응하는 노드값을 "0"으로 하는 입력에 대하여 계층마다 드롭아웃 및 오차 역전파 방법을 이용하여 선행 학습한다.The depth neural network learning unit 130 pre-learns the initial depth neural network based on the expression change gene (S220). The depth neural network learning unit 130 inputs the expression change genes for each sample extracted from the disease expression change gene selection unit 112 and pre-learns the initial depth neural network by the non-background learning method through radio wave / back propagation. Here, since the initial connection strength of initial neural network is input as "0" or "1", the initial connection strength is adjusted by using the expression change gene as learning data. The neural network learning unit 130 performs the pre-learning using the deep trust neural network method. 6, when the neural network learning unit 130 uses the disease sample of Table 2 as the learning data, the neural network learning unit 130 inputs the node value corresponding to the expression change gene (Gene 2, Gene 4, etc.) as 1, The node value corresponding to the gene (Gene 1, Gene 3, Gene 5, etc.) is input as zero. The neural network learning unit 130 updates the initial connection strength while propagating / back propagating in each layer using the deep trust neural network method. Here, the deep trust neural network method is a learning method for each layer by a non-background learning method. When a layer of learning ends, the connection strength of the layer is updated and the learning of the next layer of the layer after the learning is progressed step by step. The in-depth trust neural network method can be performed using known methods. For example, in the deep trust neural network method, an input having a node value corresponding to the expression change gene as "1" and a node value corresponding to the remaining gene as "0" is generated for each layer using a dropout and error back propagation method Learn.

심층 신경망 학습부(130)는 발현변화 유전자를 기초로, 선행 학습된 심층 신경망을 지도 학습하여 최종 심층 신경망을 생성한다(S230). 여기서 심층 신경망 학습부(130)는 각 샘플의 발현변화 유전자에 대응하는 노드값을 "1"로 입력하고, 나머지 유전자에 대응하는 노드값을 "0"으로 입력한다. 심층 신경망 학습부(130)는 샘플 종류를 기초로 출력층의 노드값을 "1" 또는 "0"으로 설정하고, 입력층과 출력층의 노드값을 이용하여 드롭아웃 및 오차 역전파를 수행하여 선행 학습된 심층 신경망을 학습시킨다. 예를 들어, 질병 샘플로 학습시키는 경우, 심층 신경망 학습부(130)는 출력층의 노드값을 "1"로 설정하고, 입력층과 출력층의 노드값을 이용하여 드롭아웃 및 오차 역전파를 통해 심층 신경망을 학습시킨다. 정상 샘플로 학습시키는 경우, 심층 신경망 학습부(130)는 출력층의 노드값을 "0으로 설정하고, 입력층과 출력층의 노드값을 이용하여 드롭아웃 및 오차 역전파를 통해 심층 신경망을 학습시킨다.The neural network learning unit 130 generates a final neural network by learning the neural network that has been previously learned based on the expression change gene (S230). Here, the depth neural network learning unit 130 inputs a node value corresponding to an expression change gene of each sample as "1" and a node value corresponding to the remaining genes as "0". The neural network learning unit 130 sets the node value of the output layer to "1" or "0" based on the sample type, and performs dropout and error back propagation using the node values of the input layer and the output layer, Learning the deepened neural network. For example, in case of learning with a disease sample, the neural network learning unit 130 sets the node value of the output layer to "1", and uses the node values of the input layer and the output layer to perform the dropout and error back propagation, It learns the neural network. In the case of learning with a normal sample, the neural network learning unit 130 sets the node value of the output layer to " 0 ", and learns the in-depth neural network through dropout and error back propagation using the node values of the input layer and the output layer.

이와 같이, 심층 신경망 학습부(130)는 입력층, 은닉층, 출력층의 노드간 연결강도를 반복적인 전파 및 역전파를 통하여 조정(학습)하여 최종 심층 신경망을 생성한다. 심층 신경망 학습부(130)는 정상 샘플과 질병 샘플을 훈련 샘플로 입력받고, 훈련 샘플의 전파를 통하여 출력되는 결과값과 실제 훈련 샘플의 판별값의 오차를 구한 후, 역전파를 통하여 오차를 감소시키는 방향으로 각 노드간의 연결강도를 조정함으로 분류기를 학습한다. In this way, the deep-network neural network learning unit 130 adjusts (learns) the connection strength between nodes of the input layer, the hidden layer, and the output layer through repetitive propagation and back propagation to generate a final depth-based neural network. The neural network learning unit 130 receives a normal sample and a disease sample as training samples, calculates an error between the resultant value output through the propagation of the training sample and the discrimination value of the actual training sample, and then reduces the error The classifier is learned by adjusting the connection strength between nodes.

학습 과정에서 은닉층의 각 노드들은 간단한 특징부터 복잡한 특징에 이르기까지 입력받은 정보들의 특징을 나타내는 것으로 알려져 있다. 예측 시스템(100)은 정상군 및 환자군의 마이크로어레이 데이터를 기초로 생성한 발현변화 유전자를 기초로 은닉층의 세포 기능을 생성하고 추적할 수 있다. 특히, 예측 시스템(100)은 은닉층의 노드를 추적하여 질병에 연관된 세포 기능 등 복잡한 질병 특성을 발굴할 수 있다. 구체적으로, 예측 시스템(100)은 유전자로부터 질병을 분류할 수 있도록 심층 신경망을 학습시키므로, 임의의 유전자 조합에 해당하는 질병을 판별할 수 있다. 또한, 심층 신경망 은닉층의 각 노드는 세포 기능이 대응되는데, 은닉층의 노드와 입력층의 유전자 노드와의 연결 관계를 기초로 세포 기능은 특이적 발현변화 유전자의 조합으로 정의될 수 있다. 따라서, 예측 시스템(100)은 임의의 유전자 조합에 해당하는 활성화된 세포 기능을 추적할 수 있고, 또한 질병에 관련된 세포 기능을 추적할 수 있다.In the learning process, each node of the hidden layer is known to represent the characteristics of input information, ranging from simple features to complex features. The prediction system 100 can generate and track the cell functions of the hidden layer based on the expression change genes generated based on the microarray data of the normal group and the patient group. In particular, the prediction system 100 can track the nodes of the hidden layer to identify complex disease characteristics such as cell functions associated with the disease. Specifically, since the prediction system 100 learns the in-depth neural network so as to classify diseases from genes, diseases corresponding to arbitrary combinations of genes can be identified. In addition, each node of the hidden neural network hidden layer corresponds to the cell function. Cell function can be defined as a combination of specific expression change genes based on the linkage between the node of the hidden layer and the gene node of the input layer. Thus, the prediction system 100 can track activated cell functions corresponding to any combination of genes, and can also track cell functions associated with the disease.

도 7과 도 8 각각은 본 발명의 한 실시예에 따른 질병 정보 탐색 방법을 설명하는 흐름도이다.7 and 8 are flowcharts illustrating a disease information search method according to an embodiment of the present invention.

도 7을 참고하면, 질병 정보 탐색부(150)는 질병에 연관된 세포 기능의 탐색을 요청받는다(S310).Referring to FIG. 7, the disease information search unit 150 is requested to search for cell functions related to diseases (S310).

질병 정보 탐색부(150)는 출력이 질병으로 설정된 심층 신경망을 역전파하여 활성화되는 세포 기능을 질병 연관 세포 기능으로 추출한다(S320). 심층 신경망은 질병 발현변화 유전자를 기초로 유전자, 세포 기능, 그리고 질병의 연결관계를 학습하여 생성된 다층 네트워크이다. 질병 정보 탐색부(150)는 심층 신경망의 출력층 노드를 "1"로 설정하고, 출력층 노드부터 역전파하여 세포 기능에 대응된 계층(은닉층)의 활성화되는 노드를 탐색한다. 탐색 방법은 다양할 수 있으며, 예를 들면, 질병 정보 탐색부(150)는 은닉층 각 노드의 노드값을 추적하고, 노드값이 기준값 이상인 노드를 구성하는 유전자를 역추적한 후, 해당 유전자들에 연관된 세포 기능을 질병에 연관된 세포 기능으로 예측할 수 있다. The disease information search unit 150 extracts a cell function that is activated by reverse propagation of the neural network whose output is set as a disease, as a disease-related cell function (S320). The in - depth neural network is a multi - layer network generated by learning the linkage of genes, cell functions, and diseases based on disease expression change genes. The disease information search unit 150 sets the output layer node of the neural network to " 1 ", and searches for the activated node of the layer (hidden layer) corresponding to the cell function by back propagating from the output layer node. For example, the disease information search unit 150 may track the node values of each node in the hidden layer, and may reverse-track the genes constituting the node whose node value is equal to or greater than the reference value. Associated cell function can be predicted by cell function associated with the disease.

질병 정보 탐색부(150)는 추출한 질병 연관 세포 기능들을 조합하여 질병 연관 기능 조합 모델을 생성한다(S330).The disease information search unit 150 combines the extracted disease-related cell functions to generate a disease-related function combination model (S330).

질병 정보 탐색부(150)는 출력이 정상(비질병)으로 설정된 심층 신경망을 역전파하여 활성화되는 세포 기능을 정상 세포 기능으로 추출한다(S340). 질병 정보 탐색부(150)는 심층 신경망의 출력층 노드를 "0"으로 설정하고, 출력층 노드부터 역전파하여 세포 기능에 대응된 계층(은닉층)의 활성화되는 노드를 탐색한다.The disease information search unit 150 extracts a cell function that is activated by back propagation of a neural network with normal output (non-disease) as a normal cell function (S340). The disease information searching unit 150 sets the output layer node of the neural network to " 0 ", and searches for the activated node of the layer (hidden layer) corresponding to the cell function by back propagating from the output layer node.

질병 정보 탐색부(150)는 추출한 정상 세포 기능들을 조합하여 정상 기능 조합 모델을 생성한다(S350).The disease information search unit 150 combines the extracted normal cell functions to generate a normal function combination model (S350).

질병 정보 탐색부(150)는 질병 연관 기능 조합 모델과 정상 기능 조합 모델을 기초로 질병 연관 기능 조합 모델에만 포함된 세포 기능들을 추출하여 질병 특이적 기능 조합 모델을 생성한다(S360).The disease information search unit 150 extracts cell functions included only in the disease-associated function combination model based on the disease-associated function combination model and the normal function combination model to generate a disease-specific functional combination model (S360).

여기서 각 단계가 순차적으로 진행하는 것으로 설명하고 있으나, 병렬적으로 처리할 수 있고, 단계의 순서가 바뀔 수 있다.Although it is described that each step progresses sequentially, it can be processed in parallel, and the order of the steps can be changed.

도 8을 참고하면, 질병 정보 탐색부(150)는 질병에 연관된 유전자의 탐색을 요청받는다(S410).Referring to FIG. 8, the disease information search unit 150 is requested to search for a gene associated with the disease (S410).

질병 정보 탐색부(150)는 출력이 질병으로 설정된 심층 신경망을 역전파하여 활성화되는 유전자를 질병 유전자로 추출한다(S420). 질병 정보 탐색부(150)는 심층 신경망의 출력층 노드를 "1"로 설정하고, 출력층 노드부터 역전파하여 유전자에 대응되는 계층(입력층)의 활성화되는 노드를 탐색한다. 탐색 방법은 다양할 수 있으며, 예를 들면, 질병 정보 탐색부(150)는 입력층 각 노드의 노드값을 추적하고, 노드값이 기준값 이상인 노드에 해당하는 유전자를 질병 유전자로 예측할 수 있다.The disease information search unit 150 extracts a gene that is activated by back propagation of the neural network whose output is set as disease (S420). The disease information searching unit 150 sets the output layer node of the depth neural network to " 1 ", and searches for an activated node of the layer (input layer) corresponding to the gene by back propagating from the output layer node. For example, the disease information search unit 150 may track the node value of each node of the input layer, and may predict a gene corresponding to a node whose node value is equal to or greater than a reference value as a disease gene.

질병 정보 탐색부(150)는 추출한 질병 유전자들을 조합하여 질병 유전자 조합 모델을 생성한다(S430).The disease information search unit 150 combines the extracted disease genes to generate a disease gene combination model (S430).

질병 정보 탐색부(150)는 출력이 정상(비질병)으로 설정된 심층 신경망을 역전파하여 활성화되는 유전자를 정상 유전자로 추출한다(S440). 질병 정보 탐색부(150)는 심층 신경망의 출력층 노드를 "0"으로 설정하고, 출력층 노드부터 역전파하여 유전자에 대응된 계층(입력층)의 활성화되는 노드를 탐색한다.The disease information search unit 150 extracts a gene that is activated by back propagation of a neuron network whose output is set to normal (non-diseased) as a normal gene (S440). The disease information search unit 150 sets the output layer node of the neural network to " 0 ", and searches for the activated node of the layer (input layer) corresponding to the gene by back propagating from the output layer node.

질병 정보 탐색부(150)는 추출한 정상 유전자들을 조합하여 정상 유전자 조합 모델을 생성한다(S450).The disease information search unit 150 combines the extracted normal genes to generate a normal gene combination model (S450).

질병 정보 탐색부(150)는 질병 유전자 조합 모델과 정상 유전자 조합 모델을 기초로 질병 유전자 조합 모델에만 포함된 유전자들을 추출하여 질병 특이적 유전자 조합 모델을 생성한다(S460).The disease information search unit 150 extracts genes included only in the disease gene combination model based on the disease gene combination model and the normal gene combination model to generate a disease-specific gene combination model (S460).

여기서 각 단계가 순차적으로 진행하는 것으로 설명하고 있으나, 병렬적으로 처리할 수 있고, 단계의 순서가 바뀔 수 있다.Although it is described that each step progresses sequentially, it can be processed in parallel, and the order of the steps can be changed.

이와 같이, 질병 정보 탐색부(150)는 학습된 심층 신경망에 대하여 타깃 질병을 출력으로 전파할 수 있는 질병 연관 세포 기능을 탐색하거나, 타깃 질병을 출력으로 전파할 수 있는 질병 유전자를 탐색할 수 있다. 따라서, 질병 정보 탐색부(150)는 질병 연관 세포 기능과 질병 유전자를 기초로 질병 기전을 유추하고 해석할 수 있다.In this manner, the disease information search unit 150 can search disease-related cell functions that can propagate the target disease to the output, or search disease genes that can propagate the target disease to the output, to the learned neural network . Therefore, the disease information search unit 150 can infer and interpret disease pathway based on disease-related cell functions and disease genes.

본 발명의 실시예에 따르면 마이크로어레이 데이터 분석을 통하여 추출한 질병 발현변화 유전자를 기초로 질병 유전자를 탐색하므로 실제 데이터에서 나타나는 다양한 질병 상태를 표현할 수 있는 질병 분류기를 만들 수 있다. 본 발명의 실시예에 따르면 질병 유전자 탐색에 사용되지 않았던 심층 신경망을 질병 분류기 생성에 활용하고 다양한 신경망 학습 기술을 적용하여 예측력이 높은 질병 분류기를 만들 수 있다. According to the embodiment of the present invention, the disease gene can be searched based on the disease expression-altering gene extracted through the microarray data analysis, so that the disease sorter capable of expressing various disease states in actual data can be constructed. According to the embodiment of the present invention, it is possible to make a disease classifier having a high prediction ability by applying a neural network, which has not been used for disease gene search, to the generation of a disease classifier and applying various neural network learning techniques.

본 발명의 실시예에 따르면 종래의 질병 유전자 연구에서 해결하지 못하였던 질병 기전과의 연관 관계를 직접적으로 추적할 수 있고, 따라서 질병 유전자는 물론 질병 연관 세포 기능까지 제공하여 질병 해석에 필요한 유용한 정보를 제공할 수 있다. 본 발명의 실시예에 따르면 환자의 질병을 판별할 수 있고, 질병 유전자 및 질병 연관 세포 기능을 발굴하여 약물 타깃 선별을 할 수 있다.According to the embodiment of the present invention, it is possible to directly track the linkage with the disease mechanism which has not been solved in the conventional disease gene research, and thus provides the disease gene as well as the disease-related cell function, . According to the embodiment of the present invention, it is possible to discriminate a patient's disease, and to identify a disease gene and a disease-related cell function to select a drug target.

본 발명의 실시예에 따르면 신규 질병 유전자 및 신규 질병 연관 기능의 발굴을 할 수 있다. 본 발명의 실시예에 따르면 질병 기전을 효과적으로 조절할 수 있는 신규 약물 타깃 발굴이 가능하고, 이를 통해 치료 약물 개발을 효과적으로 할 수 있다. 본 발명의 실시예에 따르면 역전파를 통하여 발굴한 질병 유전자 조합을 이용하여 발병 기전을 분류하고 이를 이용하여 신규 동반진단 방법을 개발할 수 있다.According to embodiments of the present invention, novel disease genes and novel disease-related functions can be discovered. According to the embodiment of the present invention, it is possible to discover a new drug target that can effectively control the disease mechanism, and thereby, the therapeutic drug development can be effectively performed. According to an embodiment of the present invention, a pathogenesis mechanism can be classified using a disease gene combination uncovered through back propagation, and a new accompanying diagnosis method can be developed.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.The embodiments of the present invention described above are not implemented only by the apparatus and method, but may be implemented through a program for realizing the function corresponding to the configuration of the embodiment of the present invention or a recording medium on which the program is recorded.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It belongs to the scope of right.

Claims (10)

질병 정보 예측 시스템으로서,
유전자별 발현 분포를 기준으로 복수의 유전자 데이터세트 각각에 포함된 유전자별 발현값을 비교하고, 해당 유전자의 발현 분포에 비해 기준 이상의 발현값 차이가 나타나는 유전자를 발현변화 유전자로 결정하며, 각 유전자 데이터세트에 포함된 유전자별로 발현변화 유전자인지를 지시하는 발현변화 유전자 정보를 생성하는 발현변화 유전자 추출부,
유전자, 세포 기능, 그리고 질병의 연관 관계를 기초로 복수의 유전자 노드를 포함하는 입력층, 복수의 세포 기능 노드를 포함하는 적어도 하나의 은닉층, 그리고 질병 노드를 포함하는 출력층으로 구성된 초기 심층 신경망을 생성하고, 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 기초로 상기 초기 심층 신경망을 비지도 학습 및 지도 학습시켜 최종 심층 신경망을 생성하는 학습부, 그리고
상기 최종 심층 신경망의 출력층을 특정 질병 또는 정상 상태에 해당하는 출력값으로 설정하여 역전파하고, 상기 최종 심층 신경망에서 활성화되는 적어도 하나의 세포 기능 또는 적어도 하나의 유전자를 기초로 상기 특정 질병에 특이적인 세포 기능 또는 유전자를 추출하는 탐색부를 포함하며,
상기 학습부는
유전자와 세포 기능 사이의 관계 데이터를 기초로 상기 입력층의 노드와 상기 은닉층의 노드 사이의 초기 연결강도를 결정하며, 세포 기능과 질병 사이의 관계 데이터를 기초로 상기 은닉층의 노드와 상기 출력층의 노드 사이의 초기 연결강도를 결정하고,
상기 입력층부터 순차적으로 인접한 계층간의 전파 및 역전파를 진행하여 현재 계층을 학습시키고 상기 현재 계층의 학습이 완료되면 상기 현재 계층의 다음 계층을 순차적으로 학습시켜 상기 초기 연결강도를 업데이트하는, 질병 정보 예측 시스템.
As a disease information prediction system,
The expression level of each gene contained in each of the plurality of gene data sets is compared based on the expression distribution of each gene and a gene showing a difference in expression value above the reference gene expression level is determined as an expression change gene, An expression-altering gene extracting unit for generating expression-altering gene information indicating the expression-altering gene for each gene contained in the set,
Based on the association of genes, cell functions, and diseases, an initial neural network consisting of an input layer containing a plurality of genetic nodes, at least one hidden layer containing a plurality of cell functional nodes, and an output layer comprising disease nodes is generated A learning unit for generating a final depth neural network by performing non-geographic learning and guidance learning on the initial depth-of-field neural network based on the expression change gene information for each of the plurality of gene data sets; and
Wherein the output layer of the final depth neural network is set to an output value corresponding to a specific disease or steady state and is reverse-biased, and cell functions or at least one cell function activated in the final neural network, Or a search unit for extracting a gene,
The learning unit
Determining an initial connection strength between a node of the input layer and a node of the hidden layer on the basis of relational data between the gene and the cell function and determining an initial connection strength between the node of the hidden layer and the node of the output layer Lt; RTI ID = 0.0 > a < / RTI >
Wherein the mobile station is configured to learn the current layer by propagating and propagating back and forth between adjacent layers sequentially from the input layer and updating the initial connection strength by sequentially learning the next layer of the current layer when learning of the current layer is completed, Prediction system.
제1항에서,
상기 탐색부는
상기 특정 질병인 상태에서 탐색된 세포 기능들을 조합하여 질병 연관 세포 기능 조합 모델을 생성하고, 상기 정상 상태에서 탐색된 세포 기능들을 조합하여 비질병 연관 세포 기능 조합 모델을 생성하며,
상기 질병 연관 세포 기능 조합 모델과 상기 비질병 연관 세포 기능 조합 모델에 포함된 세포 기능들을 비교하여 상기 특정 질병에만 연관된 적어도 하나의 세포 기능을 질병 특이적 세포 기능으로 추출하는, 질병 정보 예측 시스템.
The method of claim 1,
The search unit
Related cell function combination model by combining the cell functions searched in the specific disease state and combining the searched cell functions in the normal state to generate a non-disease related cell function combination model,
Wherein said disease-related cell function combination model and said non-disease-associated cell function combination model are compared with cell functions to extract at least one cell function associated with said specific disease as disease-specific cell function.
제1항에서,
상기 탐색부는
상기 특정 질병인 상태에서 탐색된 유전자들을 조합하여 질병 연관 유전자 조합 모델을 생성하고, 상기 정상 상태에서 탐색된 유전자들을 조합하여 비질병 연관 유전자 조합 모델을 생성하며,
상기 질병 연관 유전자 조합 모델과 상기 비질병 연관 유전자 조합 모델에 포함된 유전자들을 비교하여 상기 특정 질병에만 연관된 적어도 하나의 유전자를 질병 특이적 유전자로 추출하는, 질병 정보 예측 시스템.
The method of claim 1,
The search unit
A disease-associated gene combination model is generated by combining the genes searched in the specific disease state, a non-disease-associated gene combination model is generated by combining the genes found in the normal state,
Wherein the disease-associated gene combination model is compared with genes included in the non-disease-associated gene combination model to extract at least one gene associated with the specific disease as a disease-specific gene.
제1항에서,
상기 복수의 유전자 데이터세트는 정상인 집단으로부터 추출한 정상 유전자 데이터세트들 그리고 환자 집단으로부터 추출한 질병 유전자 데이터세트들을 포함하고,
상기 발현변화 유전자 추출부는
상기 정상 유전자 데이터세트들을 기초로 상기 유전자별 발현 분포를 계산하는 질병 정보 예측 시스템.
The method of claim 1,
Wherein the plurality of gene data sets comprises normal gene data sets extracted from a normal population and diseased gene data sets extracted from a patient population,
The expression change gene extracting unit
And calculating an expression distribution of each gene based on the normal gene data sets.
삭제delete 제1항에서,
상기 학습부는
학습 데이터를 상기 초기 심층 신경망의 입력층에 입력하여 상기 초기 심층 신경망을 비지도 학습(unsupervised learning)시키고, 비지도 학습을 완료하여 상기 초기 연결강도가 업데이트된 중간 심층 신경망을 생성하며,
상기 학습 데이터는 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보인 질병 정보 예측 시스템.
The method of claim 1,
The learning unit
Learning data is input to the input layer of the initial depth-of-field network to perform unsupervised learning of the initial depth-of-neural network, and an intermediate depth-of-neural network in which the initial connection strength is updated is completed by completing non-
Wherein the learning data is expression gene information for each of the plurality of gene data sets.
제6항에서,
상기 학습부는
현재 계층에서 전파 및 역전파를 진행하여 상기 현재 계층을 학습시키고, 상기 현재 계층의 학습이 완료되면 상기 현재 계층의 다음 계층을 학습시키는 심층 신뢰 신경망(Deep Belief Network) 방법을 이용하여 상기 초기 연결강도를 업데이트하는 질병 정보 예측 시스템.
The method of claim 6,
The learning unit
The method comprising the steps of: propagating and propagating in the current layer to learn the current layer and learning the next layer of the current layer when learning of the current layer is completed; and using the Deep Belief Network method, The disease information prediction system.
제6항에서,
상기 학습부는
상기 학습 데이터를 상기 중간 심층 신경망의 입력층에 설정하고, 입력층에 입력된 학습 데이터의 종류에 지정된 출력값을 상기 중간 심층 신경망의 출력층에 설정하며, 상기 중간 심층 신경망의 입력층과 출력층에 설정한 값을 기초로 상기 중간 심층 신경망을 지도 학습(supervised learning)시켜 상기 최종 심층 신경망을 생성하는 질병 정보 예측 시스템.
The method of claim 6,
The learning unit
Setting the learning data to an input layer of the intermediate neural network and setting an output value assigned to the type of learning data input to the input layer to an output layer of the intermediate neural network, And generating the final in-depth neural network by supervised learning of the middle-depth neural network based on the value of the threshold value.
제8항에서,
상기 학습 데이터의 종류는 정상인 집단으로부터 추출한 정상 유전자 데이터세트를 나타내는 제1종류와 환자 집단으로부터 추출한 질병 유전자 데이터세트를 나타내는 제2종류 중 어느 하나를 포함하고,
상기 학습부는
상기 제1종류에 해당하는 학습 데이터를 상기 중간 심층 신경망의 입력층에 입력하는 경우, 상기 중간 심층 신경망의 출력층에 제1출력값을 설정하여 상기 중간 심층 신경망을 학습시키고, 상기 제2종류에 해당하는 학습 데이터를 상기 중간 심층 신경망의 입력층에 입력하는 경우, 상기 중간 심층 신경망의 출력층에 제2출력값을 설정하여 상기 중간 심층 신경망을 학습시키는 질병 정보 예측 시스템.
9. The method of claim 8,
Wherein the type of the learning data includes any one of a first type indicating a normal gene data set extracted from a normal population and a second type indicating a disease gene data set extracted from the patient population,
The learning unit
Wherein when learning data corresponding to the first kind is input to the input layer of the intermediate neural network, a first output value is set in the output layer of the intermediate neural network to learn the intermediate neural network, Wherein learning data is input to the input layer of the intermediate neural network, and a second output value is set to the output layer of the intermediate neural network to learn the intermediate neural network.
제8항에서,
상기 학습부는
상기 중간 심층 신경망의 입력층에서 순방향으로 전파(Propagation) 계산하여 얻은 예측값과 상기 중간 심층 신경망의 출력층에 설정된 출력값을 비교하여 오차를 구한 후 오차를 최소화하는 방향으로 역전파하여 상기 중간 심층 신경망의 각 연결강도를 업데이트하는 질병 정보 예측 시스템.
9. The method of claim 8,
The learning unit
The predicted value obtained by calculating propagation in the forward direction in the input layer of the intermediate neural network is compared with the output value set in the output layer of the intermediate neural network to obtain the error and then the back propagation is performed in the direction of minimizing the error, A disease information prediction system that updates link strength.
KR1020180055385A 2015-06-08 2018-05-15 System and method for predicting disease inforamtion using deep neural network KR101927910B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150080338 2015-06-08
KR20150080338 2015-06-08

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020150189231A Division KR101860061B1 (en) 2015-06-08 2015-12-30 System and method for predicting disease inforamtion using deep neural network

Publications (2)

Publication Number Publication Date
KR20180055787A KR20180055787A (en) 2018-05-25
KR101927910B1 true KR101927910B1 (en) 2018-12-11

Family

ID=57735959

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020150189231A KR101860061B1 (en) 2015-06-08 2015-12-30 System and method for predicting disease inforamtion using deep neural network
KR1020180055385A KR101927910B1 (en) 2015-06-08 2018-05-15 System and method for predicting disease inforamtion using deep neural network

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020150189231A KR101860061B1 (en) 2015-06-08 2015-12-30 System and method for predicting disease inforamtion using deep neural network

Country Status (1)

Country Link
KR (2) KR101860061B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023191564A1 (en) * 2022-03-30 2023-10-05 중앙대학교 산학협력단 Device and method for predicting disease of interest on basis of deep neural network, and computer-readable program therefor

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025386B (en) * 2017-03-22 2020-07-17 杭州电子科技大学 Method for performing gene association analysis based on deep learning algorithm
KR102071491B1 (en) * 2017-11-10 2020-01-30 주식회사 디시젠 Breast cancer prognosis prediction method and system based on machine learning using next generation sequencing
CN108959841A (en) * 2018-04-16 2018-12-07 华南农业大学 A kind of drug targeting albumen effect prediction technique based on DBN algorithm
KR102044094B1 (en) * 2018-05-03 2019-11-12 한동대학교 산학협력단 Method for classifying cancer or normal by deep neural network using gene expression data
KR102274564B1 (en) * 2018-07-03 2021-07-07 (주) 프로큐라티오 Device for diagnosing cancer using bia data analysis
CN109190699B (en) * 2018-08-29 2022-12-30 西安电子科技大学 Multi-disease joint determination method based on multi-task learning
KR102376212B1 (en) * 2018-11-16 2022-03-21 단국대학교 천안캠퍼스 산학협력단 Gene expression marker screening method using neural network based on gene selection algorithm
KR102261411B1 (en) * 2019-05-17 2021-06-07 주식회사 엔씨소프트 Mehtod and apparatus for learning chatting model
KR102145698B1 (en) * 2019-09-27 2020-08-18 주식회사 인피니그루 Methods and systems for interpreting predicted solution through deep learning model
WO2021085676A1 (en) * 2019-10-31 2021-05-06 주식회사 이노제닉스 Artificial intelligence-based atopic dermatitis prediction method and preventative product-recommendation method
KR102512932B1 (en) * 2020-01-31 2023-03-22 한국과학기술원 A method for extracting the intrinsic properties of cancer cells from the gene expression profiles of cancer patients and a device for the same
CN111933288A (en) * 2020-08-21 2020-11-13 上海交通大学医学院附属第九人民医院 Congenital deafness disease prediction method, system and terminal based on CNN
KR20220141726A (en) 2021-04-13 2022-10-20 한국전자통신연구원 System and method for predicting disease based on biosignal data and medical knowledge base convergence

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023191564A1 (en) * 2022-03-30 2023-10-05 중앙대학교 산학협력단 Device and method for predicting disease of interest on basis of deep neural network, and computer-readable program therefor

Also Published As

Publication number Publication date
KR20160144297A (en) 2016-12-16
KR101860061B1 (en) 2018-05-23
KR20180055787A (en) 2018-05-25

Similar Documents

Publication Publication Date Title
KR101927910B1 (en) System and method for predicting disease inforamtion using deep neural network
Lucca et al. CC-integrals: Choquet-like copula-based aggregation functions and its application in fuzzy rule-based classification systems
Paul et al. Genetic algorithm based fuzzy decision support system for the diagnosis of heart disease
CN111091871B (en) Protein signal peptide and method for realizing prediction of cleavage site thereof
Zaman et al. Codon based back propagation neural network approach to classify hypertension gene sequences
CN115798730A (en) Method, apparatus and medium for circular RNA-disease association prediction based on weighted graph attention and heterogeneous graph neural networks
CN116386899A (en) Graph learning-based medicine disease association relation prediction method and related equipment
Jaume et al. Modeling dense multimodal interactions between biological pathways and histology for survival prediction
CN113764034A (en) Method, device, equipment and medium for predicting potential BGC in genome sequence
CN115985503B (en) Cancer prediction system based on ensemble learning
KR102228552B1 (en) Method of predicting multiple targets of drug utilizing random forest QSAR models
CN109409522B (en) Biological network reasoning algorithm based on ensemble learning
CN112466401A (en) Method and device for analyzing multiple types of data by utilizing artificial intelligence AI model group
KR20190069008A (en) Apparatus and method for constructing gene network
Shujaaddeen et al. A New Machine Learning Model for Detecting levels of Tax Evasion Based on Hybrid Neural Network
Uthayan A novel microarray gene selection and classification using intelligent dynamic grey wolf optimization
Gan et al. DMFDDI: deep multimodal fusion for drug–drug interaction prediction
Ye et al. High-Dimensional Feature Selection Based on Improved Binary Ant Colony Optimization Combined with Hybrid Rice Optimization Algorithm
Budiarto et al. Explainable supervised method for genetics ancestry estimation
Ma et al. A New Approach Based on Feature Selection of Light Gradient Boosting Machine and Transformer to Predict circRNA-disease Associations
Fu et al. HGECDA: A Heterogeneous Graph Embedding Model for CircRNA-disease Association Prediction
CN117577214B (en) Compound blood brain barrier permeability prediction method based on stack learning algorithm
Chereddy et al. Predicting the Driver Variants and Mutations in Lung Cancer Genome using Transcriptional Regulation Network
KR102462746B1 (en) Method And System For Constructing Cancer Patient Specific Gene Networks And Finding Prognostic Gene Pairs
Bao et al. ILSES: Identification lysine succinylation-sites with ensemble classification

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
R401 Registration of restoration