KR101864986B1 - 유전체 정보 기반 질병 예측 방법 및 장치 - Google Patents

유전체 정보 기반 질병 예측 방법 및 장치 Download PDF

Info

Publication number
KR101864986B1
KR101864986B1 KR1020170025459A KR20170025459A KR101864986B1 KR 101864986 B1 KR101864986 B1 KR 101864986B1 KR 1020170025459 A KR1020170025459 A KR 1020170025459A KR 20170025459 A KR20170025459 A KR 20170025459A KR 101864986 B1 KR101864986 B1 KR 101864986B1
Authority
KR
South Korea
Prior art keywords
disease
snp
information
genotypes
nucleotide polymorphism
Prior art date
Application number
KR1020170025459A
Other languages
English (en)
Inventor
김준모
성시현
김성호
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020170025459A priority Critical patent/KR101864986B1/ko
Application granted granted Critical
Publication of KR101864986B1 publication Critical patent/KR101864986B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • G06F19/20
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

유전체 정보 기반 질병 예측 방법 및 장치가 개시된다. 본 발명의 일 실시예에 따른 질병 예측 방법은 유전체(genome) 정보를 수신하고, 상기 수신된 유전체 정보를 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 포함하는 원-핫 벡터 형태로 변환하는 단계; 상기 원-핫 벡터와 미리 결정된 질병들 정보를 포함하는 벡터 간의 상호 정보(mutual information)를 이용하여 상기 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들 중 일정 개수의 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 단계; 및 상기 결정된 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들에 기초하여 질병을 예측하는 단계를 포함한다.

Description

유전체 정보 기반 질병 예측 방법 및 장치 {Disease susceptibility and causal element prediction method based on genome information and apparatus therefor}
본 발명은 유전체 정보 기반으로 질병을 예측하는 기술에 관한 것으로, 보다 상세하게는 상호 정보(mutual information)를 이용하여 유전체 정보 기반으로 질병을 예측할 수 있는 방법 및 장치에 관한 것이다.
최근에 인간 유전체 전장을 해독하는 인간 게놈 프로젝트(HGP: Human Genome Project)가 성공적으로 완수되면서, 약 2만 개의 다양한 유전자의 기능을 규명하고 유전자의 정보를 통해 실제 질병의 치료와 예방에 응용하는 포스트 게놈 프로젝트(PGP: Post Genome Project)에 대한 연구가 활성화되고 있는 추세이다.
유전자의 기능을 규명하고 유전자의 정보를 분석하기 위해 사용하는 기법으로는 대표적으로 마이크로어레이와 차세대염기서열분석(NGS; Next Generation Sequencing) 기법이라 할 수 있다. 마이크로어레이 기법은 유전자에 관련된 의학 산업 부문에 핵심이 되고 있다.
이러한 분석을 위해서는 개개인의 유전 변이를 이해할 필요가 있다. 유전체(genome)의 30억개 단일 위치 중, 대략 3%인 8 천만개의 위치만이 변이를 통해 개인 간의 차이를 가지는 것으로 알려져 있고 나머지 위치는 모두 동일한 것으로 알려져 있다. 이러한 변이를 통해 개인별 차이를 가지는 것들을 단일염기다형성(SNP: Single Nucleotide Polymorphism)이라고 하며, 단일염기다형성(SNP)들은 이병성(disease susceptibility)과 같은 사람의 형질(phenotype)에 대한 정보를 가지고 있다. 실험적으로 이 8천만개의 위치 중 6십만~1백만개 정도의 위치들을 이병성과 질병 원인 인자의 분석에 중요한 것으로 여기고 있어, 상기 언급된 마이크로어레이 기법이나 차세대염기서열분석(NGS)에서는 이 위치들만을 사용한다.
상기 전술된 기법들을 이용해 형질(phenotype) 관련 분석을 수행하기 위해서는 약 1백만개 정도 위치들의 SNP들을 다룰 수 있는 최신의 기계학습(machine learning) 기술들을 적용해야 하지만, 아직 그 정보를 가진 피험자의 수가 매우 적은 편이기 때문에 다양한 분석을 적용하기에는 오버피팅(overfitting) 문제가 심각하다.
따라서, 유전 정보의 핵심을 압축적으로 표현하거나, 유전 정보로부터 이병성(disease susceptibility)과 질병 원인 인자 예측을 효과적으로 수행할 수 있는 방법의 필요성이 대두된다.
본 발명의 실시예들은, 상호 정보(mutual information)를 이용하여 유전체(genome) 정보 기반으로 질병을 예측할 수 있는 방법 및 장치를 제공한다.
구체적으로, 본 발명의 실시예들은 유전자(gene)들과 연관된 유전체형(genotype)을 반영한 원-핫 벡터(one-hot vector)와 질병들의 정보를 포함하는 벡터 간의 상호 정보를 이용하여 질병의 예측 정확성을 향상시킬 수 있는 방법 및 장치를 제공한다.
본 발명의 일 실시예에 따른 질병 예측 방법은 유전체(genome) 정보를 포함하는 벡터를 수신하는 단계; 상기 수신된 벡터와 미리 결정된 질병들 정보를 포함하는 벡터 간의 상호 정보(mutual information)를 이용하여 상기 유전체 정보에 포함된 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들 중 일정 개수의 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 단계; 및 상기 결정된 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들에 기초하여 질병을 예측하는 단계를 포함한다.
상기 벡터를 수신하는 단계는 상기 유전체 정보를 원-핫 벡터(one-hot vector) 형태로 변환할 수 있다.
상기 벡터를 수신하는 단계는 상기 유전체 정보를 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)을 포함하는 원-핫 벡터(one-hot vector) 형태로 변환할 수 있다.
상기 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 단계는 상기 질병들 각각에 대한 샘플들 수에 기초하여 상기 질병들 각각에 대한 웨이트 값을 결정하고, 상기 결정된 웨이트 값을 반영한 상기 상호 정보를 이용하여 상기 일정 개수의 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정할 수 있다.
상기 질병을 예측하는 단계는 상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 딥 신경망(DNN) 학습을 통해 질병을 예측할 수 있다.
상기 질병을 예측하는 단계는 상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 논리 합과 논리 곱을 포함하는 다중 모음 네트워크(Multiple Assortment Network)를 이용하여 질병을 예측할 수 있다.
상기 질병을 예측하는 단계는 상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 분류기를 이용하여 질병을 예측할 수 있다.
본 발명의 다른 일 실시예에 따른 질병 예측 방법은 유전체 정보를 수신하고, 상기 수신된 유전체 정보를 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 포함하는 원-핫 벡터 형태로 변환하는 단계; 상기 원-핫 벡터와 미리 결정된 질병들 정보를 포함하는 벡터 간의 상호 정보(mutual information)를 이용하여 상기 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들 중 일정 개수의 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 단계; 및 상기 결정된 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들에 기초하여 질병을 예측하는 단계를 포함한다.
상기 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 단계는 상기 질병들 각각에 대한 샘플들 수에 기초하여 상기 질병들 각각에 대한 웨이트 값을 결정하고, 상기 결정된 웨이트 값을 반영한 상기 상호 정보를 이용하여 상기 일정 개수의 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정할 수 있다.
상기 질병을 예측하는 단계는 상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 딥 신경망(DNN) 학습을 통해 질병을 예측할 수 있다.
상기 질병을 예측하는 단계는 상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 논리 합과 논리 곱을 포함하는 다중 모음 네트워크(Multiple Assortment Network)를 이용하여 질병을 예측할 수 있다.
본 발명의 일 실시예에 따른 질병 예측 장치는 유전체 정보를 포함하는 벡터를 수신하는 수신부; 상기 수신된 벡터와 미리 결정된 질병들 정보를 포함하는 벡터 간의 상호 정보(mutual information)를 이용하여 상기 유전체 정보에 포함된 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들 중 일정 개수의 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 결정부; 및 상기 결정된 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들에 기초하여 질병을 예측하는 예측부를 포함한다.
상기 수신부는 상기 유전체 정보를 원-핫 벡터(one-hot vector) 형태로 변환할 수 있다.
상기 수신부는 상기 유전체 정보를 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 포함하는 원-핫 벡터(one-hot vector) 형태로 변환할 수 있다.
상기 결정부는 상기 질병들 각각에 대한 샘플들 수에 기초하여 상기 질병들 각각에 대한 웨이트 값을 결정하고, 상기 결정된 웨이트 값을 반영한 상기 상호 정보를 이용하여 상기 일정 개수의 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정할 수 있다.
상기 예측부는 상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 딥 신경망(DNN) 학습을 통해 질병을 예측할 수 있다.
상기 예측부는 상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 논리 합과 논리 곱을 포함하는 다중 모음 네트워크(Multiple Assortment Network)를 이용하여 질병을 예측할 수 있다.
상기 예측부는 상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 분류기를 이용하여 질병을 예측할 수 있다.
본 발명의 다른 일 실시예에 따른 질병 예측 방법은 유전체(genome) 정보를 획득 및 표현하는 단계; 상기 유전체 정보를 이용하여 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 단계; 및 상기 결정된 단일 염기 다형성 위치 및 유전체형들에 기초한 정보 이론 또는 통계적 기법에 따라 질병을 예측하는 단계를 포함한다.
상기 결정하는 단계는 상호 정보(mutual information), 레어 유전체형 선택 방식(rare genotype selection), 최적 p-값(optimal p-value) 방식, 컷 오프(cut-off) 방식, 상기 상호 정보와 관련된 Kullback-Leibler divergence, Jensen-Shannon entropy, conditional entropy, 및 상기 상호 정보와 관련된 변량들을 근사화하는 기법 중 어느 하나의 방식을 이용하여 상기 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정할 수 있다.
상기 표현하는 단계는 SNP-Syntax를 포함하는 데이터 표현 방법을 이용하여 상기 유전체 정보를 표현할 수 있다.
상기 결정하는 단계는 상기 단일 염기 다형성(SNP) 위치만 선택하고 상기 선택된 단일 염기 다형성(SNP) 위치에서 미리 정의된 모든 유전체형(genotype)들을 선택할 수 있다.
본 발명의 실시예들에 따르면, 유전체(genome)의 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 반영한 원-핫 벡터(one-hot vector)와 질병들의 정보를 포함하는 벡터 간의 상호 정보를 이용하여 질병의 예측 정확성을 향상시킬 수 있다.
본 발명의 실시예들에 따르면, 상호 정보를 이용하여 유전체(genome) 중에서 질병들에 대한 정보를 제공하는 중요도가 높은 순서대로 일정 개수의 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정함으로써, 적은 수의 필요한 유전 정보들만으로 질병을 용이하게 예측할 수 있다.
본 발명의 실시예들에 따르면, 질병들 각각에 대한 샘플들 수의 불균형이 발생하더라도, 샘플들 수에 따른 웨이트 값을 반영함으로써, 바이어스(bias) 없이 정보의 양을 추정할 수 있다.
본 발명의 실시예들에 따르면, 유전 정보를 분석하여 걸리기 쉬운 질병을 미리 알려줌으로써, 해당 질병과 관련된 생활 습관을 교정하고 해당 질병과 관련된 건강 검진 횟수를 자주 하도록 권장할 수도 있다.
도 1은 본 발명에 따른 장치를 설명하기 위한 개념도를 나타낸 것이다.
도 2는 본 발명의 일 실시예에 따른 질병 예측 장치에 대한 구성을 나타낸 것이다.
도 3은 도 2에 도시된 결정부에 대한 일 실시예 구성을 나타낸 것이다.
도 4는 유전체형(genotype)들 수에 따른 질병 예측 정확성에 대한 예시도를 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따른 질병 예측 방법에 대한 동작 흐름도를 나타낸 것이다.
이하, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
DNA 서열은 반수체(haploid) 기준으로 약30억개의 염기 쌍(base pair)으로 이루어져 있다. 여기에서, 개인별로 편차를 가지는 것으로 알려진 위치들을 SNP라고 부르며, 약80~100만개의 실험적으로 의미 있다고 여겨지는 위치들에 대해서 다룬다.
각 염기 쌍은 A, T, G, C의 4가지로 이루어져 있고, DNA는 두 개의 염색체로 이루어져 있으므로, 각 위치별로 16가지의 유전체형(genotype)을 가질 수 있다.
하지만, 이배체(diploid)로 이루어져 있는 두 개의 염색체를 구별할 수 없으므로, 실제 관찰할 수 있는 유전체형(genotype)은 10가지로 줄어들 수 있으며, 따라서 유전 정보는 80만개 가량의 유전체형(genotype)으로 표현할 수 있으며 각각의 유전체형(genotype)은 10가지 중 하나를 가리키는 방식으로 표현할 수 있다. 예를 들어 각 유전체형(genotype)은 0, 1, 2, ..., 9 중 하나의 숫자로 표현할 수 있다. 이 경우 유전 정보는 80만개의 decimal digit으로 표현될 수 있다. 또한 각 유전체형(genotype)을 이후 설명될 one-hot vector의 형태로도 표현할 수 있는데 이 경우 각 유전체 형은 10 비트로 표현되며, 따라서 유전 정보는 8백만 비트로 표현될 수 있다.
하지만, 현재 유전 정보를 가진 피험자수(샘플들 수)는 유전자의 표현 가능 수에 비해 매우 적기 때문에 다양한 분석을 적용하기에는 오버피팅 문제가 심각하다.
본 발명은 질병을 예측하기 위한 유전 정보 수 즉, 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들 수를 줄임으로써, 오버피팅 문제를 해결하고, 질병 예측 정확성을 향상시키는 것을 그 요지로 한다.
여기서, 본 발명은 각 단일 염기 다형성(SNP) 위치에 대한 10가지의 유전체형을 나타내는 원-핫 벡터(one-hot vector)와 질병들 각각의 정보를 포함하는 벡터 간의 상호 정보(mutual information)을 계산하고, 계산된 상호 정보를 이용하여 일정 개수 예를 들어, 400개의 주요 유전 정보들을 결정 또는 선택함으로써, 결정 또는 선택된 주요 유전 정보들을 이용하여 피험자 또는 샘플 또는 사용자의 질병을 예측할 수 있다.
본 발명에서의 원-핫 벡터는 하나의 SNP에 해당하는 10 비트 중 하나의 비트 만이 핫으로 기재된 벡터로 정의될 수 있고, 유전 인자는 "SNP 위치 × 유전체형"으로 정의될 수 있으며, 이하 본 발명의 상세한 설명에서 이렇게 정의된 원-핫 벡터와 유전 인자를 이용하여 설명한다.
이러한 본 발명에 대해 도 1 내지 도 6을 참조하여 설명하면 다음과 같다.
도 1은 본 발명에 따른 장치를 설명하기 위한 개념도를 나타낸 것이다.
도 1에 도시된 바와 같이, 본 발명에 따른 장치(100)는 피험자에 대응하는 샘플들의 유전체(genome) 정보를 입력으로 하여 질병을 예측하기 위한 장치로, 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들에서 일정 개수의 주요 SNP 위치 및 유전체형들을 결정한 후 분류기에서 결정된 주요 SNP및 유전체형들을 입력으로 하여 질병을 예측 또는 분류할 수 있다.
여기서, 질병 예측 장치(100)는 SNP 유전 인자들에 10가지의 유전체형을 반영하여 SNP 유전 인자들을 포함하는 유전체 정보를 원-핫 벡터(one-hot vector) 또는 원-핫 벡터 형태로 변환하고, 변환된 원-핫 벡터와 질병들 각각의 정보를 포함하는 벡터 간의 상호 정보를 계산한 후 계산된 상호 정보에 기초하여 질병을 예측 또는 분류할 수 있다.
본 발명에서 변환되는 원-핫 벡터는 유전체 정보에 10가지의 유전체형을 반영함으로써, 각 SNP 위치에 따른 10가지 유전체형을 포함하는 원-핫 벡터일 수 있다.
이러한 질병 예측 장치(100)는 도 2에 도시된 바와 같이, 수신부(210), 결정부(2210) 및 예측부(230)를 포함한다.
수신부(210)는 샘플들에 대한 유전체 정보를 수신하고, 수신된 유전체 정보를 원-핫 벡터 형태로 변환한다.
이 때, 수신부(210)는 유전체 정보에 포함되는 SNP 위치 및 유전체형들을 반영하여 유전체 정보를 SNP 위치 및 유전체형들을 포함하는 원-핫 벡터 또는 원-핫 벡터 형태로 변환할 수 있다.
여기서, 원-핫 벡터(one-hot vector)를 xi로 표현하면 아래 <수학식 1>과 같이 표현할 수 있다.
[수학식 1]
Figure 112017019813431-pat00001
여기서, n은 SNP 위치 개수를 의미하고, p는 유전체형 개수를 의미할 수 있다.
상기 수학식 1을 통해 알 수 있듯이, 원-핫 벡터는 각각의 위치에서 0 또는 1의 값을 가지는 벡터인 것을 알 수 있다.
또는,
Figure 112017019813431-pat00002
와 같이 각 위치에서 가질 수 있는 값을 a와 b 사이의 임의의 실수로 확장하여 각 유전 정보가 발생할 수 있는 점수 또는 확률로 나타내는 방법도 있다.
결정부(220)는 유전체 정보가 변환된 원-핫 벡터 예를 들어, 800만 × 1 벡터와 질병들 각각에 대한 정보를 포함하는 벡터 간의 상호 정보(mutual information)을 계산하고, 계산된 상호 정보를 이용하여 유전체 정보에 포함된 SNP 위치와 유전체형들 중에서 일정 개수의 주요 SNP 위치와 유전체형들을 결정한다.
이 때, 결정부(220)는 도 3에 도시된 바와 같이, 상호 정보를 계산하는 상호 정보(MI) 계산부(310) 및 계산된 상호 정보에 기초하여 주요 SNP 위치와 유전체형들을 결정하는 인자 결정부(320)를 포함할 수 있다.
즉, 결정부(220)는 SNP 각 위치와 유전체형에 대한 바이너리 입력에 대해 질병들 정보와 상호 정보를 계산함으로써, 일정 개수 예를 들어, 400개의 주요 SNP 위치와 유전체형들을 결정할 수 있다.
상호 정보는 두 변수 X와 Y가 서로에 대해 많은 정보를 가지고 있을수록 큰 값을 가지며, 한 변수가 주어졌을 때 다른 변수에 대한 불확실성 예를 들어, uncertainty(entropy)가 적을수록 큰 값을 가질 수 있다.
이 때, 두 변수 간의 상호 정보는 아래 <수학식 2>와 같이 계산될 수 있다.
[수학식 2]
Figure 112017019813431-pat00003
여기서 Y는 질병 클래스 라벨(class label)을 의미하고, X는 유전 정보 중 하나의 변수(특정 SNP 위치에서 특정 유전체형의 존재 여부)를 의미할 수 있는데, Y는 질병 클래스 라벨에 대한 정수 값을 가질 수 있고, X는 1 또는 0의 값을 가질 수 있다. 또는 이를 확장하여, X가 0또는 1이외에도 미리 정의된 몇 가지의 임의의 실수 값을 가지거나, 연속적인 임의의 실수를 가지도록 확장할 수도 있다.
즉, 상호 정보는 해당 유전 정보와 특정 라벨이 서로 얼마나 상호 정보를 가지느냐를 측정하는 것이다. 여기서, 상호 정보는 유전 정보 각각과 클래스 라벨들 각각 간의 확률을 계산하고, 계산된 확률에 기초하여 계산되는 것으로, 두 벡터를 이용하여 상호 정보를 계산하는 과정은 이 기술 분야에 종사하는 당업자에게 있어서 자명하기에 상세한 설명은 생략한다.
또한 상호 정보를 측정하는 것과 동일하거나 유사한 효과를 거둘 수 있는 방법으로 Kullback-Leibler divergence를 사용하거나 Jensen-Shannon entropy를 사용하거나 conditional entropy를 사용할 수 있다. 또한 상호 정보나 상기 언급한 변량들의 근사치를 구하는 방법을 사용하거나 Kullback-Leibler divergence의 근사치와 관련된 Chi square statistics 나 유전 정보와 클래스 라벨들 간의 확률들 사이의 L1 혹은 L2 distance를 사용하여 상호 정보나 Kullback-Leibler divergence를 사용하는 것과 유사한 효과를 거둘 수도 있다.
본 발명에서는 샘플들 수에 따라 웨이팅 텀(weighting term)을 적용하여, 질병 클래스당 수집된 샘플들의 수가 불균형한 경우를 밸런싱할 수 있다.
예컨대, 결정부(220)는 상호 정보를 계산하는 데 있어서 질병들 각각의 샘플들 수에 기초하여 웨이트 값을 적용함으로써, 웨이트 값이 적용된 상호 작용을 계산할 수 있으며, 웨이팅 텀을 적용한 상호 작용은 아래 <수학식 3>과 같이 나타낼 수 있다.
[수학식 3]
Figure 112017019813431-pat00004
Figure 112017019813431-pat00005
여기서, Iweighted(X;Y)는 상술한 수학식 2를 변형한 것으로, 웨이팅 텀을 적용한 상호 작용을 의미하고, L은 총 질병 클래스의 개수를 의미하며, nlist는 각 질병 클래스별 샘플들의 개수를 가지는 리스트를 의미하고, max(nlist)는 질병들 각각의 샘플들 개수 중 가장 큰 값을 가지는 개수를 의미하며, nj는 j번째 질병의 샘플 개수를 의미할 수 있다. 예를 들어, max(nlist)는 유방암 환자 샘플들의 개수가 1200개이고, 다른 암들 샘플들의 개수가 100개 수준일 경우 1200개를 반환한다.
물론, 결정부(220)는 질병들 각각의 샘플들 수를 고려하여 웨이팅 텀을 적용한 후 상호 작용을 계산하는 것에 한정하지 않으며, 질병들 각각의 샘플들 수를 동일하게 샘플들을 복제할 수도 있다. 즉, 결정부(220)는 샘플들 수가 모두 같아지도록 질병들 각각의 샘플들을 일정 방식으로 복제함으로써, 샘플들 수가 질병들 모두에 대해 동일하게 되도록 한 후 상호 정보를 계산할 수도 있다.
나아가, 결정부(220)는 단일 염기 다형성(SNP) 위치만 선택하고 선택된 단일 염기 다형성(SNP) 위치에서 미리 정의된 모든 유전체형(genotype)들을 선택할 수도 있다.
예측부(230)는 결정부(220)에 의해 결정된 일정 개수의 주요 SNP 위치와 유전체형들에 대한 정보에 기초하여 질병을 예측 또는 분류한다.
이 때, 예측부(230)는 주요 SNP 위치와 유전체형들에 대해 원-핫 벡터로 변환한 후 변환된 주요 SNP 위치와 유전체형들에 대한 원-핫 벡터를 입력으로 하는 딥 신경망(DNN) 학습을 통해 질병을 예측 또는 분류할 수 있다.
나아가, 예측부(230)는 주요 SNP 위치와 유전체형들에 대해 원-핫 벡터로 변환한 후 변환된 주요 SNP 위치와 유전체형들에 대한 원-핫 벡터를 입력으로 하는 논리 합과 논리 곱을 포함하여 원인인자를 정확하게 파악할 수 있는 다중 모음 네트워크(Multiple Assortment Network)를 이용하여 질병을 예측 또는 분류할 수도 있다.
이 때, 다중 모음 네트워크(Multiple Assortment Network)를 구성하는 논리 곱은 어떤 입력의 조합을 하나의 질병 원인 인자로 볼 것인지 판단할 수 있으며, 논리 합은 해당 질병 원인 인자가 존재하면 질병으로 판정 또는 예측 또는 분류할 수 있다.
물론, 예측부(230)는 질병을 분류하거나 예측할 수 있는 모든 종류의 분류기를 이용하여 주요 SNP 위치와 유전체형들에 대한 원-핫 벡터를 통해 질병을 예측 또는 분류할 수 있다.
상술한 구성을 가지는 본 발명에 따른 장치는 도 4에 도시된 SNP 위치와 유전체형들 수(또는 유전 정보 노드 개수)에 따른 질병 예측 정확성에 대한 예시도를 통해 알 수 있듯이, 1000개 정도의 유전 정보 만으로도 매우 높은 정확도를 가지고 질병을 예측 또는 분류할 수 있는 것을 알 수 있다.
비록, 본 발명에 따른 장치에서 유전 인자를 바이너리 벡터로 표현한 것으로 설명하였지만, 이에 한정하지 않으며 다른 형태의 데이터 구조로 표현하고 이렇게 표현된 데이터 구조와 질병들 각각에 대한 상호 정보를 이용하여 주요 SNP 위치와 유전체형들을 결정할 수도 있다. 즉, 본 발명은 바이너리 벡터 뿐만 아니라 표현 가능한 모든 데이터 구조로 SNP 위치와 유전체형들에 정보를 표현할 수 있다.
또한, 본 발명에 따른 장치에 대한 설명에서, 유전체 정보를 원-핫 벡터로 표현하는 것으로 설명하였지만, 이에 한정하지 않으며 본 발명에서의 유전체 정보는 데이터 표현(data description) 방법들 예를 들어, SNP-Syntax 등의 데이터 표현 방법을 이용하여 표현될 수 있다.
또한, 본 발명에 따른 장치는 상호 정보(mutual information)를 이용하여 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 것으로 설명하였지만, 이에 한정되지 않으며 본 발명에 따른 장치는 레어 유전체형 선택 방식(rare genotype selection), 최적 p-값(optimal p-value) 방식 및 컷 오프(cut-off) 방식 등의 데이터 선택 방법을 이용하여 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정할 수도 있다.
즉, 본 발명의 다른 실시예에 따른 장치는 유전체(genome) 정보를 획득 및 표현하고, 유전체 정보를 이용하여 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하며, 결정된 단일 염기 다형성 위치 및 유전체형들에 기초한 정보 이론 또는 통계적 기법에 따라 질병을 예측할 수 있다.
여기서, 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 과정이 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 과정일 수 있으며, 결정하는 과정에서 레어 유전체형 선택 방식(rare genotype selection), 최적 p-값(optimal p-value) 방식 및 컷 오프(cut-off) 방식 등의 데이터 선택 방법을 이용할 수 있다.
물론, 유전체 정보를 표현하는 과정에서, SNP-Syntax를 포함하는 데이터 표현 방법을 이용할 수도 있다.
도 5는 본 발명의 일 실시예에 따른 질병 예측 방법에 대한 동작 흐름도를 나타낸 것으로, 도 1 내지 도 4에서 설명한 장치에서의 동작 흐름도를 나타낸 것이다.
도 5를 참조하면, 본 발명에 따른 질병 예측 방법은 질병들 각각의 샘플들에 대한 유전체 정보를 수신하고, 수신된 유전체 정보를 SNP 위치와 유전체형들을 포함하는 원-핫 벡터로 변환한다(S510, S520). 즉, 단계 S620은 SNP 위치에 유전체형들을 반영함으로써, 유전체 정보를 SNP 위치와 유전체형들을 포함하는 원-핫 벡터 형태로 변환할 수 있다.
본 발명에 따른 방법은 상황에 따라 원-핫 벡터로 변환하는 과정을 생략할 수도 있으며, 유전체형을 반영하는 경우에는 10가지의 유전체형이 반영된 원-핫 벡터로 유전체 정보를 변환할 수 있다.
여기서, 단계 S510은 80만개의 SNP 위치를 포함하는 유전체 정보를 수신할 수 있으며, 단계 S520은 10가지의 유전체형을 반영하기 때문에 유전체 정보를 800만개로 구성되는 원-핫 벡터로 변환할 수 있다.
단계 S520에 의해 원-핫 벡터가 생성되면 유전체형을 반영한 원-핫 벡터와 질병들 정보를 포함하는 벡터 간의 상호 정보를 계산한다(S530).
즉, 단계 S530은 SNP의 각 위치와 유전체형에 대한 바이너리 입력에 대해 질병들 정보와 상호 정보를 계산하는 것으로, 상호 정보는 유전 정보 각각과 클래스 라벨들 각각 간의 확률을 계산하고, 계산된 확률에 기초하여 계산될 수 있다.
이 때, 상호 정보는 두 변수가 서로에 대해 많은 정보를 가지고 있을수록 큰 값을 가지며, 한 변수가 주어졌을 때 다른 변수에 대한 불확실성이 적을수록 큰 값을 가질 수 있다.
나아가, 단계 S530은 질병들 각각의 샘플들 수를 고려하여 웨이트 값을 적용함으로써, 상호 정보를 계산할 수 있다.
더 나아가, 단계 S530은 질병들 각각의 샘플들 수를 복제 등의 방법을 통해 동일하게 만든 후에 상호 정보를 계산함으로써, 질병 클래스당 수집된 샘플들의 수가 불균형한 경우를 밸런싱할 수 있다.
단계 S530에 의해 상호 정보가 계산되면 계산된 상호 정보를 이용하여 SNP 위치와 유전체형들 중에서 일정 개수의 주요 SNP 위치와 유전체형들을 결정하고, 결정된 주요 SNP 위치와 유전체형들에 기초하여 질병을 예측 또는 분류한다(S540, S550).
여기서, 단계 S540은 계산된 상호 정보에서 중요도가 높은 순서대로 일정 개수만큼을 주요 SNP 위치와 유전체형들로 결정(또는 선택)할 수 있다.
이 때, 단계 S550은 주요 SNP 위치와 유전체형들에 대해 원-핫 벡터로 변환한 후 변환된 주요 SNP 위치와 유전체형들에 대한 원-핫 벡터를 입력으로 하는 딥 신경망(DNN) 학습 또는 논리 곱과 논리 합을 포함하는 다중 모음 네트워크(Multiple Assortment Network)를 이용하여 질병을 예측 또는 분류할 수 있다.
단계 S550은 딥 신경망을 이용하여 질병을 예측 또는 분류하는 경우 딥 신경망은 역함수가 존재하는 분류 계층을 사용할 수도 있고, 역함수가 존재하는 비선형 함수를 사용할 수도 있으며, 단일 해가 존재하도록 선형 시스템을 구성할 수도 있고, 선형 시스템에서 입력의 변화가 출력의 변화를 크게 하지 않도록 만들 수도 있으며, 분리된 네트워크를 적용하여 완전 연결 레이어(FLC; fully connected layer)를 변형한 모델을 이용할 수도 있다.
또한, 단계 S550은 질병을 분류하거나 예측할 수 있는 모든 종류의 분류기를 이용하여 주요 SNP 위치와 유전체형들에 대한 원-핫 벡터를 통해 질병을 예측 또는 분류할 수 있다.
또한, 본 발명에 따른 방법에서의 유전체 정보는 데이터 표현(data description) 방법들 예를 들어, SNP-Syntax 등의 데이터 표현 방법을 이용하여 표현될 수 있다.
또한, 본 발명의 방법은 레어 유전체형 선택 방식(rare genotype selection), 최적 p-값(optimal p-value) 방식 및 컷 오프(cut-off) 방식 등의 데이터 선택 방법을 이용하여 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정할 수도 있다.
즉, 본 발명의 다른 실시예에 따른 방법은 유전체(genome) 정보를 획득 및 표현하고, 유전체 정보를 이용하여 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하며, 결정된 단일 염기 다형성 위치 및 유전체형들에 기초한 정보 이론 또는 통계적 기법에 따라 질병을 예측할 수 있다.
여기서, 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 과정이 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 과정일 수 있으며, 결정하는 과정에서 레어 유전체형 선택 방식(rare genotype selection), 최적 p-값(optimal p-value) 방식 및 컷 오프(cut-off) 방식 등의 데이터 선택 방법을 이용할 수 있다.
물론, 유전체 정보를 표현하는 과정에서, SNP-Syntax를 포함하는 데이터 표현 방법을 이용할 수도 있다.
비록, 도 5에서 설명하지 않았더라도, 도 5의 방법은 상술한 도 1 내지 도 4의 장치에서 설명한 모든 구성 내용을 모두 포함할 수 있다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (23)

  1. 수신부에서 유전체(genome) 정보를 포함하는 벡터를 수신하는 단계;
    결정부에서 상기 수신된 벡터와 미리 결정된 질병들 정보를 포함하는 벡터 간의 상호 정보(mutual information)를 이용하여 상기 유전체 정보에 포함된 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들 중 일정 개수의 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 단계; 및
    예측부에서 상기 결정된 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들에 기초하여 질병을 예측하는 단계
    를 포함하고,
    상기 상호 정보는
    상기 수신된 벡터와 미리 결정된 질병들 정보를 포함하는 벡터 사이의 관계를 나타내는 정보량이며,
    상기 벡터를 수신하는 단계는
    상기 유전체 정보를 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 포함하는 원-핫 벡터(one-hot vector) 형태로 변환하는 단계
    를 포함하며,
    상기 질병을 예측하는 단계는
    기계 학습을 통하여 상기 질병을 예측하는 유전체 정보 기반 질병 예측 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 단계는
    상기 질병들 각각에 대한 샘플들 수에 기초하여 상기 질병들 각각에 대한 웨이트 값을 결정하고, 상기 결정된 웨이트 값을 반영한 상기 상호 정보를 이용하여 상기 일정 개수의 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 것을 특징으로 하는 유전체 정보 기반 질병 예측 방법.
  5. 제1항에 있어서,
    상기 질병을 예측하는 단계는
    상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 딥 신경망(DNN) 학습을 통해 질병을 예측하는 것을 특징으로 하는 유전체 정보 기반 질병 예측 방법.
  6. 제1항에 있어서,
    상기 질병을 예측하는 단계는
    상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 논리 합과 논리 곱을 포함하는 다중 모음 네트워크(Multiple Assortment Network)를 이용하여 질병을 예측하는 것을 특징으로 하는 유전체 정보 기반 질병 예측 방법.
  7. 제1항에 있어서,
    상기 질병을 예측하는 단계는
    상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 분류기를 이용하여 질병을 예측하는 것을 특징으로 하는 유전체 정보 기반 질병 예측 방법.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 유전체(genome) 정보를 포함하는 벡터를 수신하는 수신부;
    상기 수신된 벡터와 미리 결정된 질병들 정보를 포함하는 벡터 간의 상호 정보(mutual information)를 이용하여 상기 유전체 정보에 포함된 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들 중 일정 개수의 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 결정부; 및
    상기 결정된 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들에 기초하여 질병을 예측하는 예측부
    를 포함하고,
    상기 상호 정보는
    상기 수신된 벡터와 미리 결정된 질병들 정보를 포함하는 벡터 사이의 관계를 나타내는 정보량이며,
    상기 수신부는
    상기 유전체 정보를 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 포함하는 원-핫 벡터(one-hot vector) 형태로 변환하고,
    상기 예측부는
    기계 학습을 통하여 상기 질병을 예측하는 유전체 정보 기반 질병 예측 장치.
  13. 삭제
  14. 삭제
  15. 제12항에 있어서,
    상기 결정부는
    상기 질병들 각각에 대한 샘플들 수에 기초하여 상기 질병들 각각에 대한 웨이트 값을 결정하고, 상기 결정된 웨이트 값을 반영한 상기 상호 정보를 이용하여 상기 일정 개수의 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 결정하는 것을 특징으로 하는 유전체 정보 기반 질병 예측 장치.
  16. 제12항에 있어서,
    상기 예측부는
    상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 딥 신경망(DNN) 학습을 통해 질병을 예측하는 것을 특징으로 하는 유전체 정보 기반 질병 예측 장치.
  17. 제12항에 있어서,
    상기 예측부는
    상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 논리 합과 논리 곱을 포함하는 다중 모음 네트워크(Multiple Assortment Network)를 이용하여 질병을 예측하는 것을 특징으로 하는 유전체 정보 기반 질병 예측 장치.
  18. 제12항에 있어서,
    상기 예측부는
    상기 주요 단일 염기 다형성(SNP) 위치 및 유전체형(genotype)들을 입력으로 하는 분류기를 이용하여 질병을 예측하는 것을 특징으로 하는 유전체 정보 기반 질병 예측 장치.
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 제1항, 제4항 내지 제7항 중 어느 한 항의 방법으로 미리 선택된 단일 염기 다형성(SNP) 위치 또는 유전체형(genotype)의 조합이 저장매체에 저장된 후 미리 선택된 조합으로 입력 데이터를 선택하여 분류기를 실행하는 방법.
KR1020170025459A 2017-02-27 2017-02-27 유전체 정보 기반 질병 예측 방법 및 장치 KR101864986B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170025459A KR101864986B1 (ko) 2017-02-27 2017-02-27 유전체 정보 기반 질병 예측 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170025459A KR101864986B1 (ko) 2017-02-27 2017-02-27 유전체 정보 기반 질병 예측 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101864986B1 true KR101864986B1 (ko) 2018-06-05

Family

ID=62635544

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170025459A KR101864986B1 (ko) 2017-02-27 2017-02-27 유전체 정보 기반 질병 예측 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101864986B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200005779A (ko) * 2018-07-09 2020-01-17 (주) 메디젠휴먼케어 단일염기다형성을 이용한 탈모 표현형 예측 방법
CN114841280A (zh) * 2022-05-20 2022-08-02 北京安智因生物技术有限公司 一种复杂疾病的预测分类方法、系统、介质、设备及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140090544A (ko) * 2012-12-18 2014-07-17 연세대학교 산학협력단 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법
KR20140098561A (ko) * 2013-01-31 2014-08-08 한국과학기술원 질병 관련 단일염기다형성 조합 추출 방법, 질병 발생 위험도 예측 방법, 그리고 이를 이용한 질병 발생 위험도 예측 장치
KR101565005B1 (ko) * 2014-12-18 2015-11-03 한국과학기술원 비음수 행렬 3-요소분해를 이용한 질병 및 질병 연관 유전자를 예측하는 예측장치 및 방법
US20160364522A1 (en) * 2015-06-15 2016-12-15 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140090544A (ko) * 2012-12-18 2014-07-17 연세대학교 산학협력단 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법
KR20140098561A (ko) * 2013-01-31 2014-08-08 한국과학기술원 질병 관련 단일염기다형성 조합 추출 방법, 질병 발생 위험도 예측 방법, 그리고 이를 이용한 질병 발생 위험도 예측 장치
KR101565005B1 (ko) * 2014-12-18 2015-11-03 한국과학기술원 비음수 행렬 3-요소분해를 이용한 질병 및 질병 연관 유전자를 예측하는 예측장치 및 방법
US20160364522A1 (en) * 2015-06-15 2016-12-15 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200005779A (ko) * 2018-07-09 2020-01-17 (주) 메디젠휴먼케어 단일염기다형성을 이용한 탈모 표현형 예측 방법
KR102102200B1 (ko) 2018-07-09 2020-04-21 (주)메디젠휴먼케어 단일염기다형성을 이용한 탈모 표현형 예측 방법
CN114841280A (zh) * 2022-05-20 2022-08-02 北京安智因生物技术有限公司 一种复杂疾病的预测分类方法、系统、介质、设备及终端
CN114841280B (zh) * 2022-05-20 2023-02-14 北京安智因生物技术有限公司 一种复杂疾病的预测分类方法、系统、介质、设备及终端

Similar Documents

Publication Publication Date Title
Wang et al. Deep learning for plant genomics and crop improvement
Hassan et al. Evaluation of computational techniques for predicting non-synonymous single nucleotide variants pathogenicity
EP2487617A1 (en) Apparatus and method for extracting biomarkers
Hejase et al. A deep-learning approach for inference of selective sweeps from the ancestral recombination graph
US20230197204A1 (en) Local-ancestry inference with machine learning model
Li et al. Nature-inspired multiobjective epistasis elucidation from genome-wide association studies
Kösesoy et al. A new sequence based encoding for prediction of host–pathogen protein interactions
Nasir et al. Advance genome disorder prediction model empowered with deep learning
KR101864986B1 (ko) 유전체 정보 기반 질병 예측 방법 및 장치
D’Agaro Artificial intelligence used in genome analysis studies
Wang et al. A novel matrix of sequence descriptors for predicting protein-protein interactions from amino acid sequences
KR20190125840A (ko) 질병 관련 유전자 순위정보 제공 방법
Raju et al. VirusTaxo: Taxonomic classification of viruses from the genome sequence using k-mer enrichment
Huang et al. Harnessing deep learning for population genetic inference
Patra et al. Evolutionary hybrid feature selection for cancer diagnosis
KR102601275B1 (ko) 후성유전체 데이터 분석을 위한 인간 시각 검사를 모방하는 cnn 기반 머신러닝 시스템 및 그 동작 방법
Yang et al. Catfish Taguchi-based binary differential evolution algorithm for analyzing single nucleotide polymorphism interactions in chronic dialysis
KR102529401B1 (ko) 변이 출현 빈도를 이용한 인종 예측 시스템 및 방법
EP3239875B1 (en) Method for determining genotype of particular gene locus group or individual gene locus, determination computer system and determination program
Lee et al. Survival prediction and variable selection with simultaneous shrinkage and grouping priors
Liu et al. HEAP: a task adaptive-based explainable deep learning framework for enhancer activity prediction
Le et al. Expanding Polygenic Risk Scores to Include Automatic Genotype Encodings and Gene-gene Interactions.
KR101565005B1 (ko) 비음수 행렬 3-요소분해를 이용한 질병 및 질병 연관 유전자를 예측하는 예측장치 및 방법
US20230326542A1 (en) Genomic sequence dataset generation
Chang et al. Odds ratio-based genetic algorithms for generating SNP barcodes of genotypes to predict disease susceptibility

Legal Events

Date Code Title Description
GRNT Written decision to grant