KR101860061B1 - 심층 신경망 기반 질병 정보 예측 시스템 및 방법 - Google Patents

심층 신경망 기반 질병 정보 예측 시스템 및 방법 Download PDF

Info

Publication number
KR101860061B1
KR101860061B1 KR1020150189231A KR20150189231A KR101860061B1 KR 101860061 B1 KR101860061 B1 KR 101860061B1 KR 1020150189231 A KR1020150189231 A KR 1020150189231A KR 20150189231 A KR20150189231 A KR 20150189231A KR 101860061 B1 KR101860061 B1 KR 101860061B1
Authority
KR
South Korea
Prior art keywords
gene
disease
neural network
expression
learning
Prior art date
Application number
KR1020150189231A
Other languages
English (en)
Other versions
KR20160144297A (ko
Inventor
이관수
민범기
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20160144297A publication Critical patent/KR20160144297A/ko
Application granted granted Critical
Publication of KR101860061B1 publication Critical patent/KR101860061B1/ko

Links

Images

Classifications

    • G06F19/24
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G06F19/12
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Abstract

질병 정보 예측 시스템으로서, 유전자별 발현 분포를 기초로 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 생성하는 발현변화 유전자 추출부, 유전자, 세포 기능, 그리고 질병의 연관 관계를 기초로 초기 심층 신경망을 생성하고, 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 기초로 상기 초기 심층 신경망을 학습시켜 최종 심층 신경망을 생성하는 학습부, 그리고 상기 최종 심층 신경망을 역전파(backward propagation)하여 상기 질병에 관련된 질병 정보를 탐색하는 탐색부를 포함한다.

Description

심층 신경망 기반 질병 정보 예측 시스템 및 방법{SYSTEM AND METHOD FOR PREDICTING DISEASE INFORAMTION USING DEEP NEURAL NETWORK}
본 발명은 질병 정보 예측 시스템 및 방법에 관한 것이다.
전통적인 질병 연구에서는 먼저 질병 유전자 후보군을 선정하고, 상기 후보군의 발현 억제/활성 또는 서열상의 변이 등의 변화가 미치는 영향이 알려진 질병 패턴과 얼마나 유사한지를 비교하여 질병 유전자를 발굴하였다. 그러나 이러한 전통적인 질병 연구는 영향을 확인하고자 하는 후보군의 예측이 어렵고, 질병 패턴을 미리 알고 있어야 분석이 가능하며, 또한 질병 기전의 해석이 어렵다는 단점이 있다.
최근에는 생물정보학을 활용하여 환자군에서 발현이 유의하게 변화되는 유전자를 탐색하거나, 혹은 유전자간 조절 관계, 세포 기능의 유사성 및 발현 유사성을 기반으로 기존에 밝혀진 질병 유전자와 연관성이 있는 유전자를 질병 유전자로 예측하는 대규모 질병 유전자 발굴 기법이 연구되고 있다. 그러나 이러한 방법 또한 질병 유발 기전에 대한 정보는 제공하지 못하고 있어 해석이 용이하지 않으며 또한 명확한 판단 기준이 존재하지 않아 후보 발굴에 어려움이 있다.
본 발명이 해결하고자 하는 과제는 질병 발현변화 유전자를 이용하여 심층 신경망을 학습하고, 심층 신경망을 기초로 질병 유전자 및 질병 연관 기능 등의 질병 정보를 예측하는 시스템 및 방법을 제공하는 것이다.
본 발명의 한 실시예에 따른 질병 정보 예측 시스템으로서, 유전자별 발현 분포를 기초로 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 생성하는 발현변화 유전자 추출부, 유전자, 세포 기능, 그리고 질병의 연관 관계를 기초로 초기 심층 신경망을 생성하고, 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 기초로 상기 초기 심층 신경망을 학습시켜 최종 심층 신경망을 생성하는 학습부, 그리고 상기 최종 심층 신경망을 역전파(backward propagation)하여 상기 질병에 관련된 질병 정보를 탐색하는 탐색부를 포함한다.
상기 발현변화 유전자 정보는 유전자별로 발현변화 유전자인지를 지시하는 값을 포함하고, 상기 발현변화 유전자는 해당 유전자의 발현 분포에 비해 기준 이상의 발현값 차이가 나타나는 유전자일 수 있다.
상기 추출부는 각 유전자 데이터세트의 유전자별 발현값과 상기 유전자별 발현 분포를 비교하여 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 생성할 수 있다.
상기 복수의 유전자 데이터세트는 정상인 집단으로부터 추출한 정상 유전자 데이터세트들 그리고 환자 집단으로부터 추출한 질병 유전자 데이터세트들을 포함하고, 상기 추출부는 상기 정상 유전자 데이터세트들을 기초로 상기 유전자별 발현 분포를 계산할 수 있다.
상기 학습부는 복수의 유전자 노드를 포함하는 입력층, 복수의 세포 기능 노드를 포함하는 적어도 하나의 은닉층, 그리고 질병 노드를 포함하는 출력층으로 구성된 상기 초기 심층 신경망을 생성하고, 유전자와 세포 기능 사이의 관계 데이터를 기초로 상기 입력층의 노드와 상기 은닉층의 노드 사이의 초기 연결강도를 결정하며, 세포 기능과 질병 사이의 관계 데이터를 기초로 상기 은닉층의 노드와 상기 출력층의 노드 사이의 초기 연결강도를 결정할 수 있다.
상기 학습부는 학습 데이터를 상기 초기 심층 신경망의 입력층에 입력하여 상기 초기 심층 신경망을 비지도 학습(unsupervised learning)시키고, 비지도 학습을 완료하여 상기 초기 연결강도가 업데이트된 중간 심층 신경망을 생성하며, 상기 학습 데이터는 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보일 수 있다.
상기 학습부는 현재 계층에서 전파 및 역전파를 진행하여 상기 현재 계층을 학습시키고, 상기 현재 계층의 학습이 완료되면 상기 현재 계층의 다음 계층을 학습시키는 심층 신뢰 신경망(Deep Belief Network) 방법을 이용하여 상기 초기 연결강도를 업데이트할 수 있다.
상기 학습부는 상기 학습 데이터를 상기 중간 심층 신경망의 입력층에 설정하고, 입력층에 입력된 학습 데이터의 종류에 지정된 출력값을 상기 중간 심층 신경망의 출력층에 설정하며, 상기 중간 심층 신경망의 입력층과 출력층에 설정한 값을 기초로 상기 중간 심층 신경망을 지도 학습(supervised learning)시켜 상기 최종 심층 신경망을 생성할 수 있다.
상기 학습 데이터의 종류는 정상인 집단으로부터 추출한 정상 유전자 데이터세트를 나타내는 제1종류와 환자 집단으로부터 추출한 질병 유전자 데이터세트를 나타내는 제2종류 중 어느 하나를 포함하고, 상기 학습부는 상기 제1종류에 해당하는 학습 데이터를 상기 중간 심층 신경망의 입력층에 입력하는 경우, 상기 중간 심층 신경망의 출력층에 제1출력값을 설정하여 상기 중간 심층 신경망을 학습시키고, 상기 제2종류에 해당하는 학습 데이터를 상기 중간 심층 신경망의 입력층에 입력하는 경우, 상기 중간 심층 신경망의 출력층에 제2출력값을 설정하여 상기 중간 심층 신경망을 학습시킬 수 있다.
상기 학습부는 상기 중간 심층 신경망의 입력층에서 순방향으로 전파(Propagation) 계산하여 얻은 예측값과 상기 중간 심층 신경망의 출력층에 설정된 출력값을 비교하여 오차를 구한 후 오차를 최소화하는 방향으로 역전파하여 상기 중간 심층 신경망의 각 연결강도를 업데이트할 수 있다.
상기 탐색부는 상기 최종 심층 신경망의 출력층을 상기 질병에 해당하는 출력값으로 설정하고 역전파하여 상기 질병에 연관된 적어도 하나의 세포 기능 또는 상기 질병에 연관된 적어도 하나의 유전자를 탐색할 수 있다.
상기 탐색부는 상기 최종 심층 신경망의 출력층을 비질병에 해당하는 출력값으로 설정하고 역전파하여 비질병에 연관된 적어도 하나의 세포 기능 또는 비질병에 연관된 적어도 하나의 유전자를 탐색하고, 상기 질병에 연관된 적어도 하나의 세포 기능과 비질병에 연관된 적어도 하나의 세포 기능을 비교하여 상기 질병에만 연관된 적어도 하나의 세포 기능을 질병 특이적 세포 기능으로 추출하고, 상기 질병에 연관된 적어도 하나의 유전자와 상기 비질병에 연관된 적어도 하나의 유전자를 비교하여 상기 질병에만 연관된 적어도 하나의 유전자를 질병 특이적 유전자로 추출할 수 있다.
본 발명의 다른 실시예에 따른 시스템의 질병 정보 예측 방법으로서, 질병 샘플을 포함하는 복수의 샘플 각각의 유전자별 발현값과 유전자별 정상 발현 분포를 비교하고, 비교 결과를 기초로 각 샘플의 유전자들 중에서 유의한 변화가 있는 유전자를 해당 샘플의 질병 발현변화 유전자로 추출하는 단계, 상기 복수의 샘플 각각의 질병 발현변화 유전자 정보를 기초로 유전자, 세포 기능, 그리고 질병의 관계에 의해 생성된 심층 신경망(Deep Neural Network)을 학습시키는 단계, 그리고 학습이 완료된 심층 신경망을 기초로 질병에 관련된 세포 기능 또는 유전자를 탐색하는 단계를 포함하며, 상기 샘플은 유전자별 발현값을 포함하는 유전자 데이터세트이고, 상기 샘플의 종류는 상기 질병 샘플과 정상 샘플로 구분되며, 상기 질병 샘플은 타깃 질병의 환자로부터 추출한 유전자 데이터세트이고, 상기 정상 샘플은 정상인으로부터 추출한 유전자 데이터세트이다.
상기 질병 정보 예측 방법은 복수의 정상 샘플의 유전자별 발현값을 기초로 상기 유전자별 정상 발현 분포를 분석하는 단계를 더 포함할 수 있다.
상기 유전자별 정상 발현 분포를 분석하는 단계는 마이크로어레이 데이터베이스에서 상기 복수의 정상 샘플을 추출하는 단계, 상기 복수의 정상 샘플의 유전자별 발현값을 정규화하는 단계, 그리고 정규화한 유전자별 발현값을 기초로 상기 유전자별 정상 발현 분포를 계산하는 단계를 포함할 수 있다.
상기 심층 신경망을 학습시키는 단계는 상기 복수의 샘플 각각의 질병 발현변화 유전자 정보를 기초로 상기 심층 신경망을 비지도 학습시키고, 상기 복수의 샘플 각각의 질병 발현변화 유전자 정보와 상기 복수의 샘플 각각의 종류를 기초로 비지도 학습이 완료된 심층 신경망을 지도 학습시킬 수 있다.
본 발명의 또 다른 실시예에 따른 시스템의 질병 정보 예측 방법으로서, 유전자, 세포 기능, 그리고 질병의 연관 관계를 기초로 초기 연결강도가 설정된 제1 심층 신경망을 생성하는 단계, 질병에 대한 발현변화 유전자 정보를 포함하는 학습 데이터를 입력받는 단계, 상기 학습 데이터를 기초로 상기 제1 심층 신경망을 비지도 학습(unsupervised learning)시켜 제2 심층 신경망을 생성하는 단계, 상기 학습 데이터를 기초로 상기 제2 심층 신경망을 지도 학습(supervised learning) 시켜 제3 심층 신경망을 생성하는 단계. 그리고 상기 제3 심층 신경망을 역전파(backward propagation)하여 상기 질병에 관련된 질병 정보를 탐색하는 단계를 포함하고, 상기 제1 심층 신경망은 복수의 유전자 노드를 포함하는 입력층, 복수의 세포 기능 노드를 포함하는 적어도 하나의 은닉층, 그리고 질병 노드를 포함하는 출력층으로 구성되는 다층 네트워크이다.
상기 제1 심층 신경망을 생성하는 단계는 유전자와 세포 기능 사이의 관계 데이터를 기초로 상기 입력층의 노드와 상기 은닉층의 노드 사이의 초기 연결강도를 결정하고, 세포 기능과 질병 사이의 관계 데이터를 기초로 상기 은닉층의 노드와 상기 출력층의 노드 사이의 초기 연결강도를 결정할 수 있다.
상기 질병에 대한 발현변화 유전자 정보는 유전자별로 발현변화 유전자인지를 나타내는 값을 포함하고, 상기 발현변화 유전자는 해당 유전자의 발현 분포에 비해 기준 이상의 발현값 차이가 나타나는 유전자일 수 있다.
상기 질병에 관련된 질병 정보를 탐색하는 단계는 상기 제3 심층 신경망의 출력값을 상기 질병에 해당하는 값으로 설정하는 단계, 상기 제3 심층 신경망의 출력층부터 역전파하여 은닉층 또는 입력층에서 활성화되는 적어도 하나의 노드를 추출하는 단계, 그리고 추출한 노드에 해당하는 유전자 또는 세포 기능을 상기 질병 정보로 출력하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면 마이크로어레이 데이터 분석을 통하여 추출한 질병 발현변화 유전자를 기초로 질병 유전자를 탐색하므로 실제 데이터에서 나타나는 다양한 질병 상태를 표현할 수 있는 질병 분류기를 만들 수 있다. 본 발명의 실시예에 따르면 질병 유전자 탐색에 사용되지 않았던 방법인 심층 신경망을 질병 분류기 생성에 활용하고 다양한 신경망 학습 기술을 적용하여 예측력이 높은 질병 분류기를 만들 수 있다.
본 발명의 실시예에 따르면 종래의 질병 유전자 연구에서 해결하지 못하였던 질병 기전과의 연관 관계를 직접적으로 추적할 수 있고, 따라서 질병 유전자는 물론 질병 연관 세포 기능까지 제공하여 질병 해석에 필요한 유용한 정보를 제공할 수 있다. 본 발명의 실시예에 따르면 환자의 질병 여부를 판별할 수 있고, 질병 유전자 및 질병 연관 세포 기능을 발굴하여 약물 타깃 선별을 할 수 있다.
본 발명의 실시예에 따르면 신규 질병 유전자 및 신규 질병 연관 기능의 발굴을 할 수 있다. 본 발명의 실시예에 따르면 질병 기전을 효과적으로 조절할 수 있는 신규 약물 타깃 발굴이 가능하고, 이를 통해 치료 약물 개발을 효과적으로 할 수 있다. 본 발명의 실시예에 따르면 역전파를 통하여 발굴한 질병 유전자 조합을 이용하여 발병 기전을 분류하고 이를 이용하여 신규 동반진단 방법을 개발할 수 있다.
도 1은 본 발명의 한 실시예에 따른 질병 정보 예측 시스템의 구성도이다.
도 2는 본 발명의 한 실시예에 따른 심층 신경망을 설명하는 도면이다.
도 3은 본 발명의 한 실시예에 따른 질병 발현변화 유전자 추출 방법의 흐름도이다.
도 4는 본 발명의 한 실시예에 따른 질병 발현변화 유전자 추출 방법을 설명하는 도면이다.
도 5는 본 발명의 한 실시예에 따른 심층 신경망 학습 방법을 설명하는 흐름도이다.
도 6은 본 발명의 한 실시예에 따른 심층 신경망 학습 방법을 설명하는 도면이다.
도 7과 도 8 각각은 본 발명의 한 실시예에 따른 질병 정보 탐색 방법을 설명하는 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 한 실시예에 따른 질병 정보 예측 시스템의 구성도이고, 도 2는 본 발명의 한 실시예에 따른 심층 신경망을 설명하는 도면이다.
도 1을 참고하면, 질병 정보 예측 시스템(앞으로, "예측 시스템"이라고 한다)(100)은 유전자, 세포 기능, 질병의 관계를 심층 신경망(Deep Neural Network)으로 생성한다. 그리고 예측 시스템(100)은 심층 신경망을 역전파(backward propagation)하여 질병에 관련된 질병 유전자(Disease genes) 또는 질병 연관 기능(Disease-related function)을 탐색한다. 그리고, 예측 시스템(100)은 심층 신경망을 이용하여 특정 유전자 조합에 관련된 질병을 예측할 수 있다. 여기서, 심층 신경망은 질병 분류기로 부를 수 있다.
예측 시스템(100)은 질병 발현변화 유전자 추출부(110), 심층 신경망 학습부(130), 그리고 질병 정보 탐색부(150)를 포함한다. 예측 시스템(100)은 질병 발현변화 유전자 추출부(110)와 심층 신경망 학습부(130)에서 사용하는 각종 정보를 저장한 데이터베이스부(170)를 더 포함할 수 있다. 한편, 질병 발현변화 유전자 추출부(110)와 심층 신경망 학습부(130)에서 사용하는 각종 정보가 데이터베이스부(170)에 저장되는 것으로 설명하나, 데이터베이스부(170)는 예측 시스템(100)에 포함되지 않고 별도 장치로 구현되거나, 원격의 서버에 저장될 수 있다. 이 경우, 예측 시스템(100)은 필요 정보가 저장된 데이터베이스/서버에 접속하여 필요 정보를 가져올 수 있다. 또는 예측 시스템(100)은 질병 발현변화 유전자 추출부(110)와 심층 신경망 학습부(130)에서 사용하는 각종 정보를 입력받고 입력 정보를 기초로 분석할 수 있다.
질병 발현변화 유전자 추출부(110)는 질병에 대한 발현변화 유전자("질병 발현변화 유전자"라고 한다)를 추출한다. 질병 발현변화 유전자는 심층 신경망 학습부(130)로 입력되고, 심층 신경망 학습부(130)는 질병 발현변화 유전자를 이용하여 해당 질병에 대한 심층 신경망을 학습시킨다. 질병 발현변화 유전자 추출부(110)는 다양한 종류의 질병 각각에 대한 발현변화 유전자를 추출할 수 있다.
질병 발현변화 유전자 추출부(110)는 마이크로어레이(Microarray) 데이터베이스(171)에 저장된 마이크로어레이 데이터의 유전자별 발현 분포를 기초로 질병에 관계된 발현변화 유전자를 추출한다. 질병 발현변화 유전자 선정부(112)는 마이크로어레이 데이터 중에서 정상 샘플들로부터 획득한 유전자별 정상 발현 분포와 질병 샘플의 유전자별 값을 비교하고, 질병 샘플에서 정상 발현 분포에 비해 발현이 유의하게 증가하거나 감소하는 유전자를 해당 질병 샘플의 발현변화 유전자로 추출한다. 이때, 질병 발현변화 유전자 선정부(112)는 질병 샘플뿐만 아니라, 정상 샘플도 유전자별 정상 발현 분포와 비교하여 해당 정상 샘플의 발현변화 유전자를 추출할 수 있다. 여기서, 마이크로어레이는 유전자 조각들을 칩에 배열하여 집적한 것으로서 유전자 발현을 광범위하게 분석할 수 있는 도구이다. 마이크로어레이 데이터베이스는 예를 들면, Gene Expression Omnibus의 데이터베이스일 수 있다. 여기서 샘플은 유전자 발현 정보를 포함하는 유전자 데이터세트이고, 정상 샘플은 정상인으로부터 추출된 유전자 데이터세트이고, 질병 샘플은 해당 질병의 환자로부터 추출된 유전자 데이터세트를 의미한다.
심층 신경망 학습부(130)는 세포 기능 정보와 질병 유전자 정보를 기초로 초기 가중치가 입력된 초기 심층 신경망을 생성한다. 그리고 심층 신경망 학습부(130)는 질병 발현변화 유전자 선정부(112)로부터 입력된 발현변화 유전자 정보 기초로 초기 심층 신경망을 학습시켜 최종 심층 신경망을 생성한다. 이때, 심층 신경망 학습부(130)는 발현변화 유전자 정보를 기초로 초기 심층 신경망을 비지도 학습(unsupervised learning) 및 지도 학습(supervised learning)시켜 최종 심층 신경망을 생성한다.
도 2를 참고하면, 심층 신경망은 하나의 입력층(input layer), 하나 이상의 은닉층(hidden layer), 그리고 하나의 출력층(output layer)의 순으로 구성되어 있는 다층 네트워크이다. 입력층, 은닉층, 출력층 각각은 다수의 노드들로 구성된다. 심층 신경망에서 인접한 두 층의 노드들은 연결강도(weight, 가중치)가 정의된 선으로 연결된다. 은닉층 및 출력층의 각 노드의 값은 해당 노드에 연결된 이전 층의 노드의 값과 해당 노드로 연결되는 선의 연결강도(가중치)를 곱한 것의 총합을 비선형 함수에 대입시킨 값으로 결정될 수 있다. 심층 신경망은 입력 정보에 대하여 순방향의 전파(Propagation) 계산을 통하여 얻은 예측값과 학습시키고자 하는 결과값을 비교하여 오차를 구한 후 오차를 최소화하는 방향으로 역전파하여 각 연결강도를 업데이트한다.
심층 신경망 학습부(130)는 입력층의 노드에 유전자(gene)를 대응시키고, 은닉층의 노드에 세포 기능(cell function)을 대응시키며, 출력층의 노드에 질병을 대응시켜 심층 신경망을 생성한다.
심층 신경망에서 인접한 두 층의 노드들은 노드간 관계를 기초로 연결된다. 입력층의 유전자 노드와 은닉층의 세포 기능 노드는 유전자와 세포 기능의 관계를 기초로 연결된다. 심층 신경망 학습부(130)는 유전자와 세포 기능 사이의 관계 데이터를 저장한 세포 기능 데이터베이스(173)를 기초로 입력층의 유전자 노드와 은닉층의 세포 기능 노드 사이의 연관성을 추출하고, 초기 연결강도를 결정한다. 세포 기능 데이터베이스는 예를 들면 Gene Ontology의 데이터베이스일 수 있다.
출력층의 질병 노드와 은닉층의 세포 기능 노드는 질병과 세포 기능의 관계를 기초로 연결된다. 세포 기능이 복수의 계층으로 분류될 수 있는 경우, 복수의 은닉층이 계층적으로 생성되고, 세포 기능 사이의 관계를 기초로 은닉층의 노드들이 연결된다. 심층 신경망 학습부(130)는 세포 기능 데이터베이스(173)와 질병 유전자 데이터베이스(175)를 기초로 은닉층의 세포 기능과 출력층의 질병 사이의 연관성을 추출하고, 초기 연결강도를 결정한다. 질병 유전자 데이터베이스는 예를 들면 Online Mendelian Inheritance in Man의 데이터베이스일 수 있다.
심층 신경망 학습부(130)는 입력층, 은닉층, 출력층의 노드들을 초기 연결강도로 연결하여 초기 심층 신경망을 생성한다.
심층 신경망 학습부(130)는 질병 샘플들과 정상 샘플들의 발현변화 유전자를 기초로 초기 심층 신경망을 선행 학습(pre-training)시킨다. 심층 신경망 학습부(130)는 심층 신뢰 신경망(Deep Belief Network) 방법을 이용하여 선행 학습할 수 있다. 심층 신경망 학습부(130)는 발현변화 유전자 정보를 입력층의 입력값으로 사용하고, 비지도 학습을 통해 초기 심층 신경망의 초기 연결강도를 업데이트할 수 있다. 학습 데이터가 충분하지 않은 경우, 임의로 설정된 초기 가중치(예를 들면, 0 또는 1)가 최종 학습 결과에 미치는 영향을 줄이기 위해, 비지도 학습 방법으로 선행 학습하여 초기 연결강도를 조정하는 것이다.
심층 신경망 학습부(130)는 질병 샘플들과 정상 샘플들의 발현변화 유전자를 기초로, 선행 학습된 심층 신경망을 지도 학습하여 최종 심층 신경망을 생성한다. 심층 신경망 학습부(130)는 선행 학습된 심층 신경망에서 드롭아웃과 오차 역전파를 통해 선행 학습된 심층 신경망의 연결강도를 조정할 수 있다.
질병 정보 탐색부(150)는 학습된 최종 심층 신경망을 역전파하여 질병 연관 세포 기능 또는 질병 유전자를 탐색한다. 질병 정보 탐색부(150)는 최종 심층 신경망의 질병/정상 출력에서 역전파를 통하여 활성화되는 세포 기능/유전자를 찾고 통계분석을 통하여 질병 연관 기능 조합 모델/질병 유전자 조합 모델을 생성한다.
구체적으로 살펴보면, 질병 정보 탐색부(150)는 최종 심층 신경망의 출력층 노드(값=1)에서 역전파를 수행하여 질병에 연관된 세포 기능들을 추출하고, 질병에 연관된 세포 기능들을 조합하여 질병 연관 기능 조합 모델을 생성할 수 있다. 또한 질병 정보 탐색부(150)는 최종 심층 신경망의 출력층 노드(값=0)에서 역전파를 수행하여 비질병(정상)에 연관된 세포 기능들을 추출하고, 이들을 조합하여 정상 기능 조합 모델을 생성할 수 있다. 질병 정보 탐색부(150)는 질병 연관 기능 조합 모델과 정상 기능 조합 모델을 통계 분석하여 질병 특이적 기능 조합 모델을 생성할 수 있다. 여기서, 질병 특이적 기능이란 질병 연관 기능 조합 모델에서만 나타나는 세포 기능을 의미하고, 질병 특이적 기능만을 포함하는 질병 연관 기능 조합 모델을 질병 특이적 기능 조합 모델로 제공할 수 있다.
질병 정보 탐색부(150)는 최종 심층 신경망의 출력층 노드(값=1)에서 역전파를 수행하여 질병에 연관된 유전자들을 추출하고, 질병에 연관된 유전자들을 조합하여 질병 연관 유전자 조합 모델을 생성한다. 또한 질병 정보 탐색부(150)는 학습된 최종 심층 신경망의 출력층 노드(값=0)에서 역전파를 수행하여 비질병(정상)에 연관된 유전자들을 추출하고, 이들을 조합하여 정상 유전자 조합 모델을 생성할 수 있다. 질병 정보 탐색부(150)는 질병 연관 유전자 조합 모델과 정상 유전자 조합 모델을 통계 분석하여 질병 특이적 유전자 조합 모델을 생성할 수 있다.
도 3은 본 발명의 한 실시예에 따른 질병 발현변화 유전자 추출 방법의 흐름도이고, 도 4는 본 발명의 한 실시예에 따른 질병 발현변화 유전자 추출 방법을 설명하는 도면이다.
도 3을 참고하면, 질병 발현변화 유전자 선정부(112)는 마이크로어레이 데이터베이스(171)에서 정상 샘플과 질병 샘플을 포함하는 마이크로어레이 데이터를 가져온다(S110).
질병 발현변화 유전자 선정부(112)는 정상 샘플들을 이용하여 유전자별 정상 발현 분포를 분석한다(S120). 질병 발현변화 유전자 선정부(112)는 Quantile Normalization을 이용하여 마이크로어레이 데이터를 정규화할 수 있다. 질병 발현변화 유전자 선정부(112)는 표 1과 같이 복수의 정상 샘플(Normal-1~Normal-N)과 특정 질병(Cancer)에 관련된 질병 샘플(Cancer-1, Cancer-2 등)의 유전자별 발현값을 정규화한다. 유전자별 정상 발현 분포에 따른 발현변화 유전자 판정에의 예는 도 4와 같다.
샘플

유전자
Normal-1 Normal-N Cancer-1 Cancer-2
Gene 1 0.5 2 1
Gene 2 1 4 3
Gene 3 3 8 5
Gene 4 2 3 4
Gene 5 1 9 10
질병 발현변화 유전자 선정부(112)는 유전자별 정상 발현 분포와 각 샘플의 유전자별 발현값을 비교하고, 유전자별 정상 발현 분포를 기초로 정상 샘플에 비해 발현이 증가하거나 감소하는 유전자를 각 샘플의 발현변화 유전자로 추출한다(S130). 발현변화 유전자는 샘플별로 추출되고, 샘플 종류는 정상 샘플과 질병 샘플로 구분될 수 있다. 질병 발현변화 유전자 선정부(112)는 표 2와 같이 각 샘플의 유전자별로 발현변화 유전자인지를 나타내는 값(앞으로, "발현변화 지시자"라고 한다)을 표시한다. 표 2를 참고하면, 발현변화 지시자가 "1"이면, 특정 질병에 연관된 발현변화 유전자를 의미한다.
샘플
유전자
Normal-1 Normal-N Cancer-1 Cancer-2
Gene 1 0 0 0
Gene 2 0 1 1
Gene 3 0 0 0
Gene 4 0 0 1
Gene 5 0 0 0
도 4를 참고하면, 질병 발현변화 유전자 선정부(112)는 유전자별 발현 분포와 질병 샘플(Cancer-1)의 유전자별 발현값을 비교하고, 유의한 변화가 있다고 판단되는 유전자(예를 들면, Gene 2, Gene 4)를 발현변화 유전자로 추출한다. 예를 들면, 질병 발현변화 유전자 선정부(112)는 각 유전자에 대하여 정상 샘플에서의 평균과 표준편차를 구하고 정규분포를 가정하여 분포를 탐색할 수 있다. 예를 들면, 평균 10, 표준편차 10의 분포에서 발현값이 -6.45보다 작거나 26.45보다 큰 유전자를 발현변화 유전자로 결정할 수 있다.
도 5는 본 발명의 한 실시예에 따른 심층 신경망 학습 방법을 설명하는 흐름도이고, 도 6은 본 발명의 한 실시예에 따른 심층 신경망 학습 방법을 설명하는 도면이다.
도 5를 참고하면, 심층 신경망 학습부(130)는 유전자, 세포 기능, 질병 각각을 해당 계층의 노드에 배치하고 계층 사이의 노드를 초기 연결강도로 연결한 초기 심층 신경망을 생성한다(S210). 초기 심층 신경망은 복수의 유전자 노드를 포함하는 입력층, 복수의 세포 기능 노드를 포함하는 적어도 하나의 은닉층, 그리고 질병 노드에 해당하는 출력층으로 구성된다. 입력층은 유전자 개수만큼의 노드를 가지고, 은닉층은 세포 기능 개수만큼의 노드를 가지며, 출력층은 단일 노드(질병)로 구성될 수 있다. 초기 심층 신경망에서 인접 층 사이의 노드가 모두 연결되어 있으며, 노드 내의 활성함수(activation function)로 비선형 함수(예를 들면, Rectified Linear Unit)를 사용할 수 있다. 심층 신경망 학습부(130)는 특정 유전자, 특정 세포 기능, 질병의 연관성을 기초로 노드 사이의 연결관계에 대한 초기 연결강도를 입력한다. 초기 연결강도는 임의 값이 설정될 수 있고, 예를 들면 0 또는 1일 수 있다. 예를 들어, 심층 신경망 학습부(130)는 세포 기능 데이터베이스(173)에 특정 노드의 유전자와 특정 노드의 세포 기능의 관계가 저장되어 있으면, 이 두 노드 사이의 연결강도를 "1"로 입력하고, 세포 기능 데이터베이스(173)에 특정 노드의 유전자와 특정 노드의 세포 기능의 관계가 저장되어 있지 않으면, 이 두 노드 사이의 연결강도를 "0"으로 입력할 수 있다. 또한, 심층 신경망 학습부(130)는 세포 기능 데이터베이스(173)와 질병 유전자 데이터베이스(175)를 기초로 세포 기능과 질병 사이의 연관성을 추출한다. 특정 노드의 세포 기능과 출력층 노드의 질병 사이의 연관성이 있으면(예를 들면, 유의값이 0.05 이하)이면, 심층 신경망 학습부(130)는 세포 기능 노드와 질병 노드의 연결강도를 "1"로 입력하고, 연관성이 없으면, 세포 기능 노드와 질병 노드의 연결강도를 "0"으로 입력할 수 있다. 이때, 심층 신경망 학습부(130)는 세포 기능1에 연관된 유전자와 질병1에 연관된 유전자를 추출하고 전체 유전자 개수 대비 공통 유전자 개수를 피셔의 정확도 검정을 통하여 유의값을 계산할 수 있다.
심층 신경망 학습부(130)는 발현변화 유전자를 기초로 초기 심층 신경망을 선행 학습시킨다(S220). 심층 신경망 학습부(130)는 질병 발현변화 유전자 선정부(112)에서 추출한 샘플별 발현변화 유전자를 입력하고, 전파/역전파를 통한 비지도 학습 방법으로 초기 심층 신경망을 선행 학습시킨다. 여기서 선행 학습은 초기 심층 신경망의 초기 연결강도가 "0" 또는 "1"로 입력되어 있으므로, 발현변화 유전자를 학습 데이터로 사용하여 초기 연결강도를 조정한다. 심층 신경망 학습부(130)는 심층 신뢰 신경망 방법을 이용하여 선행 학습시킨다. 도 6을 참고하면, 심층 신경망 학습부(130)는 표 2의 질병 샘플을 학습 데이터로 사용하는 경우, 발현변화 유전자(Gene 2, Gene 4 등)에 대응하는 노드값을 1로 입력하고, 나머지 유전자(Gene 1, Gene 3, Gene 5 등)에 대응하는 노드값을 0으로 입력한다. 그리고, 심층 신경망 학습부(130)는 심층 신뢰 신경망 방법을 이용하여 계층마다 전파/역전파를 진행하면서 초기 연결강도를 업데이트한다. 여기서, 심층 신뢰 신경망 방법은 비지도 학습 방법으로 계층마다 학습하는 방법으로서, 어느 계층의 학습이 끝나면 해당 계층의 연결강도를 업데이트하고, 학습이 끝난 계층의 다음 계층의 학습을 단계적으로 진행한다. 심층 신뢰 신경망 방법은 공지된 방법을 이용하여 수행될 수 있다. 예를 들면 심층 신뢰 신경망 방법은 발현변화 유전자에 대응하는 노드값을 "1", 나머지 유전자에 대응하는 노드값을 "0"으로 하는 입력에 대하여 계층마다 드롭아웃 및 오차 역전파 방법을 이용하여 선행 학습한다.
심층 신경망 학습부(130)는 발현변화 유전자를 기초로, 선행 학습된 심층 신경망을 지도 학습하여 최종 심층 신경망을 생성한다(S230). 여기서 심층 신경망 학습부(130)는 각 샘플의 발현변화 유전자에 대응하는 노드값을 "1"로 입력하고, 나머지 유전자에 대응하는 노드값을 "0"으로 입력한다. 심층 신경망 학습부(130)는 샘플 종류를 기초로 출력층의 노드값을 "1" 또는 "0"으로 설정하고, 입력층과 출력층의 노드값을 이용하여 드롭아웃 및 오차 역전파를 수행하여 선행 학습된 심층 신경망을 학습시킨다. 예를 들어, 질병 샘플로 학습시키는 경우, 심층 신경망 학습부(130)는 출력층의 노드값을 "1"로 설정하고, 입력층과 출력층의 노드값을 이용하여 드롭아웃 및 오차 역전파를 통해 심층 신경망을 학습시킨다. 정상 샘플로 학습시키는 경우, 심층 신경망 학습부(130)는 출력층의 노드값을 "0으로 설정하고, 입력층과 출력층의 노드값을 이용하여 드롭아웃 및 오차 역전파를 통해 심층 신경망을 학습시킨다.
이와 같이, 심층 신경망 학습부(130)는 입력층, 은닉층, 출력층의 노드간 연결강도를 반복적인 전파 및 역전파를 통하여 조정(학습)하여 최종 심층 신경망을 생성한다. 심층 신경망 학습부(130)는 정상 샘플과 질병 샘플을 훈련 샘플로 입력받고, 훈련 샘플의 전파를 통하여 출력되는 결과값과 실제 훈련 샘플의 판별값의 오차를 구한 후, 역전파를 통하여 오차를 감소시키는 방향으로 각 노드간의 연결강도를 조정함으로 분류기를 학습한다.
학습 과정에서 은닉층의 각 노드들은 간단한 특징부터 복잡한 특징에 이르기까지 입력받은 정보들의 특징을 나타내는 것으로 알려져 있다. 예측 시스템(100)은 정상군 및 환자군의 마이크로어레이 데이터를 기초로 생성한 발현변화 유전자를 기초로 은닉층의 세포 기능을 생성하고 추적할 수 있다. 특히, 예측 시스템(100)은 은닉층의 노드를 추적하여 질병에 연관된 세포 기능 등 복잡한 질병 특성을 발굴할 수 있다. 구체적으로, 예측 시스템(100)은 유전자로부터 질병을 분류할 수 있도록 심층 신경망을 학습시키므로, 임의의 유전자 조합에 해당하는 질병을 판별할 수 있다. 또한, 심층 신경망 은닉층의 각 노드는 세포 기능이 대응되는데, 은닉층의 노드와 입력층의 유전자 노드와의 연결 관계를 기초로 세포 기능은 특이적 발현변화 유전자의 조합으로 정의될 수 있다. 따라서, 예측 시스템(100)은 임의의 유전자 조합에 해당하는 활성화된 세포 기능을 추적할 수 있고, 또한 질병에 관련된 세포 기능을 추적할 수 있다.
도 7과 도 8 각각은 본 발명의 한 실시예에 따른 질병 정보 탐색 방법을 설명하는 흐름도이다.
도 7을 참고하면, 질병 정보 탐색부(150)는 질병에 연관된 세포 기능의 탐색을 요청받는다(S310).
질병 정보 탐색부(150)는 출력이 질병으로 설정된 심층 신경망을 역전파하여 활성화되는 세포 기능을 질병 연관 세포 기능으로 추출한다(S320). 심층 신경망은 질병 발현변화 유전자를 기초로 유전자, 세포 기능, 그리고 질병의 연결관계를 학습하여 생성된 다층 네트워크이다. 질병 정보 탐색부(150)는 심층 신경망의 출력층 노드를 "1"로 설정하고, 출력층 노드부터 역전파하여 세포 기능에 대응된 계층(은닉층)의 활성화되는 노드를 탐색한다. 탐색 방법은 다양할 수 있으며, 예를 들면, 질병 정보 탐색부(150)는 은닉층 각 노드의 노드값을 추적하고, 노드값이 기준값 이상인 노드를 구성하는 유전자를 역추적한 후, 해당 유전자들에 연관된 세포 기능을 질병에 연관된 세포 기능으로 예측할 수 있다.
질병 정보 탐색부(150)는 추출한 질병 연관 세포 기능들을 조합하여 질병 연관 기능 조합 모델을 생성한다(S330).
질병 정보 탐색부(150)는 출력이 정상(비질병)으로 설정된 심층 신경망을 역전파하여 활성화되는 세포 기능을 정상 세포 기능으로 추출한다(S340). 질병 정보 탐색부(150)는 심층 신경망의 출력층 노드를 "0"으로 설정하고, 출력층 노드부터 역전파하여 세포 기능에 대응된 계층(은닉층)의 활성화되는 노드를 탐색한다.
질병 정보 탐색부(150)는 추출한 정상 세포 기능들을 조합하여 정상 기능 조합 모델을 생성한다(S350).
질병 정보 탐색부(150)는 질병 연관 기능 조합 모델과 정상 기능 조합 모델을 기초로 질병 연관 기능 조합 모델에만 포함된 세포 기능들을 추출하여 질병 특이적 기능 조합 모델을 생성한다(S360).
여기서 각 단계가 순차적으로 진행하는 것으로 설명하고 있으나, 병렬적으로 처리할 수 있고, 단계의 순서가 바뀔 수 있다.
도 8을 참고하면, 질병 정보 탐색부(150)는 질병에 연관된 유전자의 탐색을 요청받는다(S410).
질병 정보 탐색부(150)는 출력이 질병으로 설정된 심층 신경망을 역전파하여 활성화되는 유전자를 질병 유전자로 추출한다(S420). 질병 정보 탐색부(150)는 심층 신경망의 출력층 노드를 "1"로 설정하고, 출력층 노드부터 역전파하여 유전자에 대응되는 계층(입력층)의 활성화되는 노드를 탐색한다. 탐색 방법은 다양할 수 있으며, 예를 들면, 질병 정보 탐색부(150)는 입력층 각 노드의 노드값을 추적하고, 노드값이 기준값 이상인 노드에 해당하는 유전자를 질병 유전자로 예측할 수 있다.
질병 정보 탐색부(150)는 추출한 질병 유전자들을 조합하여 질병 유전자 조합 모델을 생성한다(S430).
질병 정보 탐색부(150)는 출력이 정상(비질병)으로 설정된 심층 신경망을 역전파하여 활성화되는 유전자를 정상 유전자로 추출한다(S440). 질병 정보 탐색부(150)는 심층 신경망의 출력층 노드를 "0"으로 설정하고, 출력층 노드부터 역전파하여 유전자에 대응된 계층(입력층)의 활성화되는 노드를 탐색한다.
질병 정보 탐색부(150)는 추출한 정상 유전자들을 조합하여 정상 유전자 조합 모델을 생성한다(S450).
질병 정보 탐색부(150)는 질병 유전자 조합 모델과 정상 유전자 조합 모델을 기초로 질병 유전자 조합 모델에만 포함된 유전자들을 추출하여 질병 특이적 유전자 조합 모델을 생성한다(S460).
여기서 각 단계가 순차적으로 진행하는 것으로 설명하고 있으나, 병렬적으로 처리할 수 있고, 단계의 순서가 바뀔 수 있다.
이와 같이, 질병 정보 탐색부(150)는 학습된 심층 신경망에 대하여 타깃 질병을 출력으로 전파할 수 있는 질병 연관 세포 기능을 탐색하거나, 타깃 질병을 출력으로 전파할 수 있는 질병 유전자를 탐색할 수 있다. 따라서, 질병 정보 탐색부(150)는 질병 연관 세포 기능과 질병 유전자를 기초로 질병 기전을 유추하고 해석할 수 있다.
본 발명의 실시예에 따르면 마이크로어레이 데이터 분석을 통하여 추출한 질병 발현변화 유전자를 기초로 질병 유전자를 탐색하므로 실제 데이터에서 나타나는 다양한 질병 상태를 표현할 수 있는 질병 분류기를 만들 수 있다. 본 발명의 실시예에 따르면 질병 유전자 탐색에 사용되지 않았던 심층 신경망을 질병 분류기 생성에 활용하고 다양한 신경망 학습 기술을 적용하여 예측력이 높은 질병 분류기를 만들 수 있다.
본 발명의 실시예에 따르면 종래의 질병 유전자 연구에서 해결하지 못하였던 질병 기전과의 연관 관계를 직접적으로 추적할 수 있고, 따라서 질병 유전자는 물론 질병 연관 세포 기능까지 제공하여 질병 해석에 필요한 유용한 정보를 제공할 수 있다. 본 발명의 실시예에 따르면 환자의 질병을 판별할 수 있고, 질병 유전자 및 질병 연관 세포 기능을 발굴하여 약물 타깃 선별을 할 수 있다.
본 발명의 실시예에 따르면 신규 질병 유전자 및 신규 질병 연관 기능의 발굴을 할 수 있다. 본 발명의 실시예에 따르면 질병 기전을 효과적으로 조절할 수 있는 신규 약물 타깃 발굴이 가능하고, 이를 통해 치료 약물 개발을 효과적으로 할 수 있다. 본 발명의 실시예에 따르면 역전파를 통하여 발굴한 질병 유전자 조합을 이용하여 발병 기전을 분류하고 이를 이용하여 신규 동반진단 방법을 개발할 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (20)

  1. 질병 정보 예측 시스템으로서,
    유전자별 발현 분포를 기초로 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 생성하는 발현변화 유전자 추출부,
    유전자, 세포 기능, 그리고 질병의 연관 관계를 기초로 복수의 유전자 노드를 포함하는 입력층, 복수의 세포 기능 노드를 포함하는 적어도 하나의 은닉층, 그리고 질병 노드를 포함하는 출력층으로 구성된 초기 심층 신경망을 생성하고, 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 기초로 상기 초기 심층 신경망을 학습시켜 최종 심층 신경망을 생성하는 학습부, 그리고
    상기 최종 심층 신경망을 역전파(backward propagation) 탐색하여 상기 질병에 관련된 질병 정보를 탐색하는 탐색부
    를 포함하는 질병 정보 예측 시스템.
  2. 제1항에서,
    상기 발현변화 유전자 정보는 유전자별로 발현변화 유전자인지를 지시하는 값을 포함하고,
    상기 발현변화 유전자는 해당 유전자의 발현 분포에 비해 기준 이상의 발현값 차이가 나타나는 유전자인 질병 정보 예측 시스템.
  3. 제2항에서,
    상기 추출부는
    각 유전자 데이터세트의 유전자별 발현값과 상기 유전자별 발현 분포를 비교하여 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보를 생성하는 질병 정보 예측 시스템.
  4. 제1항에서,
    상기 복수의 유전자 데이터세트는 정상인 집단으로부터 추출한 정상 유전자 데이터세트들 그리고 환자 집단으로부터 추출한 질병 유전자 데이터세트들을 포함하고,
    상기 추출부는
    상기 정상 유전자 데이터세트들을 기초로 상기 유전자별 발현 분포를 계산하는 질병 정보 예측 시스템.
  5. 제1항에서,
    상기 학습부는
    유전자와 세포 기능 사이의 관계 데이터를 기초로 상기 입력층의 노드와 상기 은닉층의 노드 사이의 초기 연결강도를 결정하며, 세포 기능과 질병 사이의 관계 데이터를 기초로 상기 은닉층의 노드와 상기 출력층의 노드 사이의 초기 연결강도를 결정하는 질병 정보 예측 시스템.
  6. 제5항에서,
    상기 학습부는
    학습 데이터를 상기 초기 심층 신경망의 입력층에 입력하여 상기 초기 심층 신경망을 비지도 학습(unsupervised learning)시키고, 비지도 학습을 완료하여 상기 초기 연결강도가 업데이트된 중간 심층 신경망을 생성하며,
    상기 학습 데이터는 상기 복수의 유전자 데이터세트 각각에 대한 발현변화 유전자 정보인 질병 정보 예측 시스템.
  7. 제6항에서,
    상기 학습부는
    현재 계층에서 전파 및 역전파를 진행하여 상기 현재 계층을 학습시키고, 상기 현재 계층의 학습이 완료되면 상기 현재 계층의 다음 계층을 학습시키는 심층 신뢰 신경망(Deep Belief Network) 방법을 이용하여 상기 초기 연결강도를 업데이트하는 질병 정보 예측 시스템.
  8. 제6항에서,
    상기 학습부는
    상기 학습 데이터를 상기 중간 심층 신경망의 입력층에 설정하고, 입력층에 입력된 학습 데이터의 종류에 지정된 출력값을 상기 중간 심층 신경망의 출력층에 설정하며, 상기 중간 심층 신경망의 입력층과 출력층에 설정한 값을 기초로 상기 중간 심층 신경망을 지도 학습(supervised learning)시켜 상기 최종 심층 신경망을 생성하는 질병 정보 예측 시스템.
  9. 제8항에서,
    상기 학습 데이터의 종류는 정상인 집단으로부터 추출한 정상 유전자 데이터세트를 나타내는 제1종류와 환자 집단으로부터 추출한 질병 유전자 데이터세트를 나타내는 제2종류 중 어느 하나를 포함하고,
    상기 학습부는
    상기 제1종류에 해당하는 학습 데이터를 상기 중간 심층 신경망의 입력층에 입력하는 경우, 상기 중간 심층 신경망의 출력층에 제1출력값을 설정하여 상기 중간 심층 신경망을 학습시키고, 상기 제2종류에 해당하는 학습 데이터를 상기 중간 심층 신경망의 입력층에 입력하는 경우, 상기 중간 심층 신경망의 출력층에 제2출력값을 설정하여 상기 중간 심층 신경망을 학습시키는 질병 정보 예측 시스템.
  10. 제8항에서,
    상기 학습부는
    상기 중간 심층 신경망의 입력층에서 순방향으로 전파(Propagation) 계산하여 얻은 예측값과 상기 중간 심층 신경망의 출력층에 설정된 출력값을 비교하여 오차를 구한 후 오차를 최소화하는 방향으로 역전파하여 상기 중간 심층 신경망의 각 연결강도를 업데이트하는 질병 정보 예측 시스템.
  11. 제1항에서,
    상기 탐색부는
    상기 최종 심층 신경망의 출력층을 상기 질병에 해당하는 출력값으로 설정하고 역전파하여 상기 질병에 연관된 적어도 하나의 세포 기능 또는 상기 질병에 연관된 적어도 하나의 유전자를 탐색하는 질병 정보 예측 시스템.
  12. 제11항에서,
    상기 탐색부는
    상기 최종 심층 신경망의 출력층을 비질병에 해당하는 출력값으로 설정하고 역전파하여 비질병에 연관된 적어도 하나의 세포 기능 또는 비질병에 연관된 적어도 하나의 유전자를 탐색하고,
    상기 질병에 연관된 적어도 하나의 세포 기능과 비질병에 연관된 적어도 하나의 세포 기능을 비교하여 상기 질병에만 연관된 적어도 하나의 세포 기능을 질병 특이적 세포 기능으로 추출하고,
    상기 질병에 연관된 적어도 하나의 유전자와 상기 비질병에 연관된 적어도 하나의 유전자를 비교하여 상기 질병에만 연관된 적어도 하나의 유전자를 질병 특이적 유전자로 추출하는 질병 정보 예측 시스템.
  13. 시스템의 질병 정보 예측 방법으로서,
    질병 샘플을 포함하는 복수의 샘플 각각의 유전자별 발현값과 유전자별 정상 발현 분포를 비교하고, 비교 결과를 기초로 각 샘플의 유전자들 중에서 유의한 변화가 있는 유전자를 해당 샘플의 질병 발현변화 유전자로 추출하는 단계,
    상기 복수의 샘플 각각의 질병 발현변화 유전자 정보를 기초로 유전자, 세포 기능, 그리고 질병의 관계에 의해 생성된 심층 신경망(Deep Neural Network)을 학습시키는 단계, 그리고
    학습이 완료된 심층 신경망을 기초로 질병에 관련된 세포 기능 또는 유전자를 탐색하는 단계를 포함하며,
    상기 샘플은 유전자별 발현값을 포함하는 유전자 데이터세트이고,
    상기 샘플의 종류는 상기 질병 샘플과 정상 샘플로 구분되며,
    상기 질병 샘플은 타깃 질병의 환자로부터 추출한 유전자 데이터세트이고, 상기 정상 샘플은 정상인으로부터 추출한 유전자 데이터세트이며,
    상기 심층 신경망은
    복수의 유전자 노드를 포함하는 입력층, 복수의 세포 기능 노드를 포함하는 적어도 하나의 은닉층, 그리고 질병 노드를 포함하는 출력층으로 구성되는 질병 정보 예측 방법.
  14. 제13항에서,
    복수의 정상 샘플의 유전자별 발현값을 기초로 상기 유전자별 정상 발현 분포를 분석하는 단계
    를 더 포함하는 질병 정보 예측 방법.
  15. 제14항에서,
    상기 유전자별 정상 발현 분포를 분석하는 단계는
    마이크로어레이 데이터베이스에서 상기 복수의 정상 샘플을 추출하는 단계,
    상기 복수의 정상 샘플의 유전자별 발현값을 정규화하는 단계, 그리고
    정규화한 유전자별 발현값을 기초로 상기 유전자별 정상 발현 분포를 계산하는 단계
    를 포함하는 질병 정보 예측 방법.
  16. 제13항에서,
    상기 심층 신경망을 학습시키는 단계는
    상기 복수의 샘플 각각의 질병 발현변화 유전자 정보를 기초로 상기 심층 신경망을 비지도 학습시키고, 상기 복수의 샘플 각각의 질병 발현변화 유전자 정보와 상기 복수의 샘플 각각의 종류를 기초로 비지도 학습이 완료된 심층 신경망을 지도 학습시키는 질병 정보 예측 방법.
  17. 시스템의 질병 정보 예측 방법으로서,
    유전자, 세포 기능, 그리고 질병의 연관 관계를 기초로 초기 연결강도가 설정된 제1 심층 신경망을 생성하는 단계,
    질병에 대한 발현변화 유전자 정보를 포함하는 학습 데이터를 입력받는 단계,
    상기 학습 데이터를 기초로 상기 제1 심층 신경망을 비지도 학습(unsupervised learning)시켜 제2 심층 신경망을 생성하는 단계,
    상기 학습 데이터를 기초로 상기 제2 심층 신경망을 지도 학습(supervised learning) 시켜 제3 심층 신경망을 생성하는 단계. 그리고
    상기 제3 심층 신경망을 역전파(backward propagation) 탐색하여 상기 질병에 관련된 질병 정보를 탐색하는 단계를 포함하고,
    상기 제1 심층 신경망은 복수의 유전자 노드를 포함하는 입력층, 복수의 세포 기능 노드를 포함하는 적어도 하나의 은닉층, 그리고 질병 노드를 포함하는 출력층으로 구성되는 다층 네트워크이며,
    상기 질병에 관련된 질병 정보를 탐색하는 단계는
    상기 제3 심층 신경망의 출력값을 상기 질병에 해당하는 값으로 설정하는 단계,
    상기 제3 심층 신경망의 출력층부터 역전파하여 은닉층 또는 입력층에서 활성화되는 적어도 하나의 노드를 추출하는 단계, 그리고
    추출한 노드에 해당하는 유전자 또는 세포 기능을 상기 질병 정보로 출력하는 단계
    를 포함하는 질병 정보 예측 방법.
  18. 제17항에서,
    상기 제1 심층 신경망을 생성하는 단계는
    유전자와 세포 기능 사이의 관계 데이터를 기초로 상기 입력층의 노드와 상기 은닉층의 노드 사이의 초기 연결강도를 결정하고, 세포 기능과 질병 사이의 관계 데이터를 기초로 상기 은닉층의 노드와 상기 출력층의 노드 사이의 초기 연결강도를 결정하는 질병 정보 예측 방법.
  19. 제17항에서,
    상기 질병에 대한 발현변화 유전자 정보는 유전자별로 발현변화 유전자인지를 나타내는 값을 포함하고,
    상기 발현변화 유전자는 해당 유전자의 발현 분포에 비해 기준 이상의 발현값 차이가 나타나는 유전자인 질병 정보 예측 방법.
  20. 삭제
KR1020150189231A 2015-06-08 2015-12-30 심층 신경망 기반 질병 정보 예측 시스템 및 방법 KR101860061B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150080338 2015-06-08
KR20150080338 2015-06-08

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020180055385A Division KR101927910B1 (ko) 2015-06-08 2018-05-15 심층 신경망 기반 질병 정보 예측 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20160144297A KR20160144297A (ko) 2016-12-16
KR101860061B1 true KR101860061B1 (ko) 2018-05-23

Family

ID=57735959

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020150189231A KR101860061B1 (ko) 2015-06-08 2015-12-30 심층 신경망 기반 질병 정보 예측 시스템 및 방법
KR1020180055385A KR101927910B1 (ko) 2015-06-08 2018-05-15 심층 신경망 기반 질병 정보 예측 시스템 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020180055385A KR101927910B1 (ko) 2015-06-08 2018-05-15 심층 신경망 기반 질병 정보 예측 시스템 및 방법

Country Status (1)

Country Link
KR (2) KR101860061B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102145698B1 (ko) * 2019-09-27 2020-08-18 주식회사 인피니그루 딥러닝 모델을 통해 예측된 해답을 해석하는 방법 및 시스템

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025386B (zh) * 2017-03-22 2020-07-17 杭州电子科技大学 一种基于深度学习算法进行基因关联分析的方法
KR102071491B1 (ko) * 2017-11-10 2020-01-30 주식회사 디시젠 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템
CN108959841A (zh) * 2018-04-16 2018-12-07 华南农业大学 一种基于dbn算法的药物靶向蛋白作用预测方法
KR102044094B1 (ko) * 2018-05-03 2019-11-12 한동대학교 산학협력단 딥 러닝 기반 유전체 발현량 해석을 통한 암 또는 정상 판별 방법 및 그 장치
KR102274564B1 (ko) * 2018-07-03 2021-07-07 (주) 프로큐라티오 빅데이터분석기반 암진단장치
CN109190699B (zh) * 2018-08-29 2022-12-30 西安电子科技大学 一种基于多任务学习的多疾病联合测定方法
KR102376212B1 (ko) * 2018-11-16 2022-03-21 단국대학교 천안캠퍼스 산학협력단 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
KR102261411B1 (ko) * 2019-05-17 2021-06-07 주식회사 엔씨소프트 채팅 모델 학습 방법 및 장치
WO2021085676A1 (ko) * 2019-10-31 2021-05-06 주식회사 이노제닉스 인공지능 기반 아토피 피부염 예측 및 예방 상품 추천 방법
KR102512932B1 (ko) * 2020-01-31 2023-03-22 한국과학기술원 암 환자의 발현량 데이터로부터 암세포 내재적 특성을 추출하는 방법 및 이를 위한 장치
CN111933288A (zh) * 2020-08-21 2020-11-13 上海交通大学医学院附属第九人民医院 基于cnn的先天性耳聋疾病预测方法、系统以及终端
KR20220141726A (ko) 2021-04-13 2022-10-20 한국전자통신연구원 생체신호 데이터 및 의학지식베이스 융합 기반의 질병 사전 예측 시스템 및 방법
KR102646783B1 (ko) * 2022-03-30 2024-03-13 중앙대학교 산학협력단 심층신경망 기반의 관심질병 예측 장치, 방법 및 이를 위한 컴퓨터 판독가능 프로그램

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102145698B1 (ko) * 2019-09-27 2020-08-18 주식회사 인피니그루 딥러닝 모델을 통해 예측된 해답을 해석하는 방법 및 시스템

Also Published As

Publication number Publication date
KR20160144297A (ko) 2016-12-16
KR101927910B1 (ko) 2018-12-11
KR20180055787A (ko) 2018-05-25

Similar Documents

Publication Publication Date Title
KR101927910B1 (ko) 심층 신경망 기반 질병 정보 예측 시스템 및 방법
Lucca et al. CC-integrals: Choquet-like copula-based aggregation functions and its application in fuzzy rule-based classification systems
Sagir et al. A Novel Adaptive Neuro Fuzzy Inference System Based Classification Model for Heart Disease Prediction.
CN111128380A (zh) 模拟医生诊断和精准干预策略的慢性病健康管理模型的构建方法及系统
CN110993113B (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN111091871B (zh) 蛋白质信号肽及其切割位点预测实现方法
Meena et al. Correlation of Artificial Neural Network Classification and NFRS attribute Filtering algorithm for PCOS data
CN115798730A (zh) 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
Jaume et al. Modeling dense multimodal interactions between biological pathways and histology for survival prediction
Dutta et al. Breast cancer prediction using stacked GRU-LSTM-BRNN
CN111091916A (zh) 人工智能中基于改进粒子群算法的数据分析处理方法及系统
CN115985503B (zh) 基于集成学习的癌症预测系统
Prasanna et al. Building an efficient heart disease prediction system by using clustering techniques
CN112466401A (zh) 利用人工智能ai模型组分析多类数据的方法及装置
Uthayan A novel microarray gene selection and classification using intelligent dynamic grey wolf optimization
Shujaaddeen et al. A New Machine Learning Model for Detecting levels of Tax Evasion Based on Hybrid Neural Network
Xu et al. Deconstruction of Risk Prediction of Ischemic Cardiovascular and Cerebrovascular Diseases Based on Deep Learning
Tripathy et al. A Healthcare Data Analysis Approach for Breast Cancer Gene expression
Gan et al. DMFDDI: deep multimodal fusion for drug–drug interaction prediction
CN113223655A (zh) 基于变分自编码器的药物-疾病关联预测方法
Ma et al. A New Approach Based on Feature Selection of Light Gradient Boosting Machine and Transformer to Predict circRNA-disease Associations
Pan et al. Muti-Stage Hierarchical Food Classification
Fu et al. HGECDA: A Heterogeneous Graph Embedding Model for CircRNA-disease Association Prediction
CN117577214B (zh) 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法
WO2023150898A1 (en) Method for identifying chromatin structural characteristic from hi-c matrix, non-transitory computer readable medium storing program for identifying chromatin structural characteristic from hi-c matrix

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
GRNT Written decision to grant