KR102034271B1 - 유전자 네트워크 구축 장치 및 방법 - Google Patents

유전자 네트워크 구축 장치 및 방법 Download PDF

Info

Publication number
KR102034271B1
KR102034271B1 KR1020170169332A KR20170169332A KR102034271B1 KR 102034271 B1 KR102034271 B1 KR 102034271B1 KR 1020170169332 A KR1020170169332 A KR 1020170169332A KR 20170169332 A KR20170169332 A KR 20170169332A KR 102034271 B1 KR102034271 B1 KR 102034271B1
Authority
KR
South Korea
Prior art keywords
gene
disease
network
pairs
genes
Prior art date
Application number
KR1020170169332A
Other languages
English (en)
Other versions
KR20190069008A (ko
Inventor
박상현
박치현
안재균
최종환
오일환
Original Assignee
연세대학교 산학협력단
인천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단, 인천대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020170169332A priority Critical patent/KR102034271B1/ko
Priority to PCT/KR2018/002915 priority patent/WO2019117400A1/ko
Publication of KR20190069008A publication Critical patent/KR20190069008A/ko
Application granted granted Critical
Publication of KR102034271B1 publication Critical patent/KR102034271B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 유전자들의 상호 정보량을 기초로 유전자 샘플들 중에서 유전자 쌍들을 선택하고 이 유전자 쌍들로부터 알츠하이머 병과 관련된 서브 네트워크를 추출하여 알츠하이머 병에 특이적인 유전자 네트워크를 구축하는 유전자 네트워크 구축 장치 및 방법을 제안한다. 본 발명에 따른 장치는 AD(Alzheimer's Disease) 질환이 없는 자들과 관련된 유전자들의 제1 상호 정보량 및 AD 질환이 있는 자들과 관련된 유전자들의 제2 상호 정보량을 기초로 미리 정해진 유전자 샘플들 중에서 AD 질환과 관련된 제1 유전자 쌍들을 선택하는 유전자 쌍 선택부; 각 유전자 쌍의 경로에 대한 정보를 기초로 노드 프로퍼티를 이용하여 제1 유전자 쌍들을 통합시키는 유전자 쌍 통합부; 제1 유전자 쌍들이 통합되면 시드 기반 탐색 방법을 기초로 AD 질환과 관련된 서브 네트워크들을 추출하는 서브 네트워크 추출부; 및 AD 질환과 관련된 서브 네트워크들을 기초로 AD 질환에 특이적인 유전자 네트워크를 구축하는 유전자 네트워크 구축부를 포함한다.

Description

유전자 네트워크 구축 장치 및 방법 {Apparatus and method for constructing gene network}
본 발명은 유전자 네트워크를 구축하는 장치 및 방법에 관한 것이다. 보다 상세하게는, 알츠하이머 병(AD; Alzheimer's Disease)과 관련된 유전자 네트워크를 구축하는 장치 및 방법에 관한 것이다.
알츠하이머 병(AD; Alzheimer's Disease)은 유전적으로 복잡한 신경 퇴행성 질환으로서, 그 병리학적 기전이 완전히 밝혀지지 않았다. 알츠하이머 병(AD)의 메커니즘은 유전자와 같은 분자 수준의 개체가 패스웨이(pathway) 수준에서 어떻게 상호 작용하는지, 패스웨이(pathway) 상의 일부 경로가 질병의 발생에 어떻게 영향을 미치는지 등을 밝혀냄으로써 추론할 수 있다. 하지만 생명 현상을 설명하는 패스웨이(pathway)와 관련 메커니즘은 매우 복잡하기 때문에, 전문가의 분석을 지원할 수 있는 시스템과 방법이 필요하다.
그런데 유전자 발현 데이터와 단백질 상호작용 데이터와의 통합을 기반으로 질병 특이적인 네트워크를 만드는 기존의 대부분의 연구에서는 질병의 콘텍스트(context)를 반영하지 않고, 전체 PPI를 이용하여 네트워크를 만들었기 때문에 거짓 상호작용(false interaction)이 많이 포함되는 문제점이 있다.
한국등록특허 제1,302,173호 (공고일 : 2013.08.30.)
본 발명은 상기한 문제점을 해결하기 위해 안출된 것으로서, 유전자들의 상호 정보량(MI; Mutual Information)을 기초로 유전자 샘플들 중에서 유전자 쌍들을 선택하고 이 유전자 쌍들로부터 알츠하이머 병(AD; Alzheimer's Disease)과 관련된 서브 네트워크를 추출하여 알츠하이머 병에 특이적인 유전자 네트워크를 구축하는 유전자 네트워크 구축 장치 및 방법을 제안하는 것을 목적으로 한다.
그러나 본 발명의 목적은 상기에 언급된 사항으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명은 상기한 목적을 달성하기 위해 안출된 것으로서, AD(Alzheimer's Disease) 질환이 없는 자들과 관련된 유전자들의 제1 상호 정보량(mutual information) 및 상기 AD 질환이 있는 자들과 관련된 유전자들의 제2 상호 정보량을 기초로 미리 정해진 유전자 샘플들 중에서 상기 AD 질환과 관련된 제1 유전자 쌍(gene pair)들을 선택하는 유전자 쌍 선택부; 각 유전자 쌍의 경로에 대한 정보를 기초로 노드 프로퍼티(node property)를 이용하여 상기 제1 유전자 쌍들을 통합시키는 유전자 쌍 통합부; 상기 제1 유전자 쌍들이 통합되면 시드 기반 탐색 방법(seed based search)을 기초로 상기 AD 질환과 관련된 서브 네트워크들을 추출하는 서브 네트워크 추출부; 및 상기 AD 질환과 관련된 서브 네트워크들을 기초로 상기 AD 질환에 특이적인 유전자 네트워크를 구축하는 유전자 네트워크 구축부를 포함하는 것을 특징으로 하는 유전자 네트워크 구축 장치를 제안한다.
또한 본 발명은 AD(Alzheimer's Disease) 질환이 없는 자들과 관련된 유전자들의 제1 상호 정보량(mutual information) 및 상기 AD 질환이 있는 자들과 관련된 유전자들의 제2 상호 정보량을 기초로 미리 정해진 유전자 샘플들 중에서 상기 AD 질환과 관련된 제1 유전자 쌍(gene pair)들을 선택하는 단계; 각 유전자 쌍의 경로에 대한 정보를 기초로 노드 프로퍼티(node property)를 이용하여 상기 제1 유전자 쌍들을 통합시키는 단계; 상기 제1 유전자 쌍들이 통합되면 시드 기반 탐색 방법(seed based search)을 기초로 상기 AD 질환과 관련된 서브 네트워크들을 추출하는 단계; 및 상기 AD 질환과 관련된 서브 네트워크들을 기초로 상기 AD 질환에 특이적인 유전자 네트워크를 구축하는 단계를 포함하는 것을 특징으로 하는 유전자 네트워크 구축 방법을 제안한다.
본 발명은 상기한 목적 달성을 위한 구성들을 통하여 다음과 같은 효과를 얻을 수 있다.
첫째, 알츠하이머 병(AD)에 특이적인 유전자 네트워크를 구축하는 것이 가능해진다.
둘째, 허위로 양성 반응을 보인 상호작용들(false positive interactions)을 종래의 방법보다 효과적으로 검출하여 제거함으로써 유전자 네트워크의 성능을 향상시킬 수 있다.
도 1은 알츠하이머 병에 특이적인 유전자 네트워크를 구축하는 방법을 개략적으로 도시한 흐름도이다.
도 2 내지 도 10은 알츠하이머 병에 특이적인 유전자 네트워크를 구축할 때 각 단계를 설명하기 위한 참고도들이다.
도 11은 본 발명의 바람직한 실시예에 따른 유전자 네트워크 구축 장치의 내부 구성을 개략적으로 도시한 개념도이다.
도 12는 본 발명의 바람직한 실시예에 따른 유전자 네트워크 구축 방법을 개략적으로 도시한 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
알츠하이머 병(AD; Alzheimer's Disease)의 메커니즘은 서로 다른 종류의(heterogeneous) 데이터들을 통합하여 분자 수준의 네트워크를 모델링하고 인과 관계를 분석하는 지능형 시스템을 구축함으로써 분석을 수행할 수 있다.
본 발명에서는 높은 신뢰도를 갖는 단백질(유전자) 상호작용 데이터와 유전자 발현 데이터를 통합함으로써 알츠하이머 병(AD)에 최적화된 유전자 네트워크를 구축할 수 있는 새로운 방법을 제시한다. 또한 본 발명에서는 후성유전학적 인자를 고려하기 위해 알츠하이머 병(AD)에서 차별적으로 메틸화된 유전자를 동정하여 그 결과를 네트워크에 포함하기로 한다.
이렇게 구축된 유전자 네트워크에 대해서 다양한 위상적인 분석과 기능 강화 실험(FET; Functional Enrichment Test)를 통해 유전자 네트워크에 포함된 서브 네트워크가 알츠하이머 병(AD)과 유의한 관련이 있음을 실험적으로 입증했다. 이러한 분석을 통해 알츠하이머 병(AD)에 중요한 역할을 할 수 있을 것이라고 유추할 수 있는 몇가지 유전자 후보를 찾았으며, 이러한 결과로부터 리보솜 프로세스 관련 유전자와 DNA 메틸화가 알츠하이머 병(AD)에서 중요한 역할을 한다는 것을 발견했다.
제안하는 방법은 알츠하이머 병(AD) 뿐만 아니라 유전자 네트워크를 기반으로 하는 다양한 질병 연구에 적용 가능하다.
이하 도면들을 참조하여 알츠하이머 병에 특이적인 유전자 네트워크 구축 방법 및 장치에 대하여 설명한다.
본 발명에서 제시하는 방법에서는 기존 PPI보다 조금 더 정확하다고 알려진 HumanNet과 생물물리학적으로 상호작용을 하는(biophysically interacting) PPI 데이터를 함께 쓰되, AD를 가장 잘 설명할 수 있는 가장 최적의 상호작용(interaction)들을 실험을 통해서 확인하였고, 실제 이러한 상호작용을 갖고 유전자 네트워크를 구축하였다. 즉 조금 더 질병 특이적이고 정확한 유전자 네트워크를 구축할 수 있었다.
또한 후성유전학적인 요소 중 하나의 DNA 메틸화(DNA methylation) 정보를 유전자에 부여하여 알츠하이머 병(Alzheimer's disease)에 영향을 줄 수 있는 팩터(factor)를 추가적으로 고려하였다는 점이 특징이다. 그 결과 구축된 알츠하이머 병에 특이적인 네트워크(Alzheimer's disease specific network) 상에서 서브 네트워크(sub-network) 모듈을 찾을 때 이러한 정보를 토대로 시드 기반 탐색(seed based search)을 수행하였고, 이를 토대로 알츠하이머 병(AD)의 메커니즘을 설명하는데 도움이 되는 모듈을 찾을 수 있었다. 유전자 네트워크 수준에서 알츠하이머 병(AD)에서의 DNA 메틸화의 역할을 시스템적으로 분석한 연구는 거의 없기 때문에 본 발명은 이러한 측면에서 종래 기술과 차별화될 수 있다.
(1) 데이터 설명(Data description)
Gene Expression profiles, Interactome database, Pathway database, DNA Methylation profiles 등 네가지 타입의 이종의 데이터 세트(dataset)들은 네트워크를 구축하는 데에 이용되고 있다. 이들 중에서 Gene Expression과 Interactome은 유용한 정보를 제공하는 상호작용(informative interaction)들을 식별하는 데에 이용되며, Pathway와 Methylation은 질병에 대한 분석을 지원하는 데에 이용된다.
본 발명에서는 도 2의 예시에 도시된 바와 같이 유전자 발현 프로파일들(gene expression profiles)을 기초로 두 개의 독립적인 어레이 기반 발현 프로파일들(array based expression profiles)을 통합시켜 네트워크를 구축하는 데에 활용한다. 또한 본 발명에서는 전전두엽 피질(prefrontal cortex)로부터 획득된 데이터만을 사용하기로 한다. 그 이유는 PFC(Postmortem Prefrontal Cortex samples, 사후 전두엽 피질) 부분이 DEG가 가장 두드러지기 때문이다. 두 어레이 기반 익스프레션 프로파일들의 GEO(Gene Expression Omnibus) 접근 번호(accession number)는 GSE33000과 GSE44770이다.
GSE33000과 GSE44770은 각각 일반 유전자(normal) 157개와 AD 유전자 310개 등 467개의 샘플들과 일반 유전자 100개와 AD 유전자 129개 등 229개의 샘플들로 구성된다. 도 2에 도시된 바와 같이 normal, AD 등 각각의 상태에 따른 두 발현 프로파일들은 서로 유사하다. 이 두 발현 프로파일들을 제외하고 활용 가능한 큰 사이즈의 유전자 발현 데이터(gene expression data)는 거의 없다.
Interactome 데이터베이스는 두 유전자들 사이의 연결성(connectivity)을 식별하는 데에 이용된다. 본 발명에서는 도 3의 예시에 도시된 바와 같이 humanNet 등 유전자 상호작용 데이터 세트(genetic interaction dataset)과 사람의 단백질 상호작용 데이터 세트(human protein interaction dataset)를 이용하기로 한다.
본 발명에서 이용하는 단백질 상호작용 데이터 세트는 높은 신뢰도를 갖는 23,233개의 상호작용들로 구성된다. 본 발명에서는 효모 단백질 잡종법(yeast two hybrid method)에 근거한 시스템들을 이용하여 높은 처리율(high throughput)을 가진 체계적 스크리닝(systematic screening)으로 단백질 상호작용 데이터 세트를 편집(compile)하며, 생물 검정법들(biological assays)을 이용하여 단백질 상호작용 데이터 세트를 검증한다. 본 발명에서는 이 단백질 상호작용 데이터 세트를 bPPI(biophysical Protein-Protein Interaction)로 정의한다.
HumanNet은 연결 오류(association fallacy) 중 하나의 타입으로 거론되는 Guilt-By-Association 접근법을 통해 질병과 관련된 유전자들(disease-associated genes)을 검출하는 데에 적합하다. 데이터 세트는 스코어들(scores)을 포함하여 사십만 이상의 유전자 상호작용들(genetic interactions)로 구성된다. 본 발명에서는 더욱 정확하고 유의한 상호작용들을 획득하기 위해 도 3에 도시된 바와 같이 humanNet에서 스코어가 높은 상호작용들(top scoring interactions)과 bPPI를 결합한다.
Reactome으로부터의 경로들(pathways)과 KEGG(Kyoto Encyclopedia of Genes and Genomes) 데이터베이스들은 생물학적으로 유용한 정보를 제공하는 상호작용들을 강조하는 데에 이용된다.
마지막으로, 전전두엽 피질 영역(prefrontal cortex region)에 상응하는 DNA 메틸화(DNA Methylation) 프로파일들은 차별적으로 메틸화된 유전자들(DMGs; Differentially Methylated Genes)이 AD(Alzheimer's Disease)에 영향을 미치는 방법을 조사하는 데에 이용된다. DNA 메틸화(DNA Methylation) 프로파일들의 GEO 접근 번호(GEO accession number)는 GSE80970이며, 이 GSE80970은 일반 유전자 68개와 AD 유전자 74개 등 142개의 샘플들로 구성된다.
(2) 시스템 개요(System overview)
도 1은 본 발명에서 제안하는 방법, 즉 알츠하이머 병에 특이적인 유전자 네트워크를 구축하는 방법을 개략적으로 도시한 흐름도이다.
본 발명에서 제안하는 방법은 크게 두 단계들로 나눌 수 있다. 제1 단계는 차별 발현 유전자 쌍(differentially expressed gene pairs)을 추출하는 단계이다. 제1 단계에서는, 도 4에 도시된 바와 같이 Interactome 데이터베이스를 통해 유전자들 사이의 연결성 정보가 생성되면(S120), 이 연결성 정보를 기초로 각 유전자 쌍의 차별 발현값(degree of differentially expression)을 측정한다(S130). 이후 T 검정(T-test), 피셔의 정확 검정법(Fisher's exact test) 등의 통계 검증 방법들(statistical tests)을 이용하여 AD 특이성(AD specificity)을 반영하는 최적의 파라미터들을 결정한다(S140).
제2 단계에서는, 도 5에 도시된 바와 같이 구축된 네트워크에서 경로 정보(pathway information)들을 통합시킨다(S150). 이때 노드 프로퍼티들(node properties)에 따라 AD와 관련된 정보들도 통합된다. 마지막으로, 토폴로지 분석(topological analysis)과 기능 강화 분석(functional enrichment analysis)을 이용하여 AD 상관성(AD relativeness)을 명확히 한다(S160).
(3) 유용한 정보를 제공하는 유전자 쌍의 식별(Identification of informative gene pairs)
암(cancer)과 관련하여 유용한 정보를 제공하는 상호작용들을 식별하기 위해 스코어링 스케임(scoring scheme)이 많이 이용되고 있다. 본 발명에서는 각 유전자 쌍을 일반 유전자 조직(normal tissue)과 AD 유전자 조직(AD tissue)으로 구분하기 위한 차별 발현 패턴들(differentially expressed patterns)을 측정하기 위해 이 스코어링 스케임을 활용한다(S130).
본 발명에서는 각 유전자 쌍을 일반 유전자 조직과 AD 유전자 조직을 구분하는 데에 적합하도록 피어슨 상관 계수(PCC; Pearson's Correlation Coefficient) 대신 상호 정보량(MI; Mutual Information)을 스코어링 스케임에 반영한다.
피어슨 상관 계수(PCC), 도트 프로덕트(dot product) 등과 같은 선형 유사도들(linear similarity measures)은 유전자 발현 데이터(gene expression data)로부터 연관된 패턴을 발생시키는 데에 적합하다. 특히 피어슨 상관 계수(PCC)는 스코어 값들이 특정된 범위에서 경계를 이루기 때문에 가장 적합하다.
그러나 도 2의 예시에 도시된 바와 같이 정규화(normalization; S110)를 수행했음에도 불구하고 데이터 세트의 발현 강도(expression intensity)는 샘플들에 따라서 상당히 많은 이종(considerable heterogeneity)을 보여주기 때문에, 선형 유사도는 본 발명에서 활용하기에 적합하지 않다.
본 발명에서는 두 변수들 사이의 비선형 관계들을 고려할 수 있는 척도(measurement)가 요구된다. 본 발명에서는 이 점을 고려하여 스코어링 스케임에 피어슨 상관 계수(PCC) 대신 상호 정보량(MI)을 적용한다. 상호 정보량(MI)은 발현 강도들(expression intensities)의 이종(heterogeneity)을 보상(countervail)하는 데에 이용될 수 있으므로, 본 발명에서 활용하기에 적합하다.
본 발명에 적용되는 스코어링 스케임(scoring scheme)은 다음 수학식 1과 같이 정의된다.
Figure 112017123100076-pat00001
상기에서 giNorm은 일반 샘플들(normal samples) 중에서 i번째 유전자(gene i)의 발현값들(expression values)과 관련된 벡터들을 의미하며, giAD는 AD 샘플들(AD samples) 중에서 i번째 유전자의 발현값들과 관련된 벡터들을 의미한다. 또한 gjNorm은 일반 샘플들 중에서 j번째 유전자(gene j)의 발현값들과 관련된 벡터들을 의미하며, gjAD는 AD 샘플들 중에서 j번째 유전자의 발현값들과 관련된 벡터들을 의미한다.
상기에서 정의된 스코어링 스케임에 따르면, 본 발명에서는 스코어 값이 임계 가중치(threshold weight value; thresholdweight)와 같거나 임계 가중치보다 더 큰 유전자 쌍들(gene pairs)이 차별 발현된 상호작용들(differentially expressed interactions)로 선택된다.
두 유전자들의 가중치가 크다 하더라도, 이것이 해당 유전자 쌍이 생물학적으로 밀접한 연관성을 가진다는 것을 보증하는 것은 아니다. 따라서 이 단계에서는 interactome 데이터베이스에서 정의된 유전자 쌍들을 이용하기로 한다.
bPPI와 관련된 상호작용들은 높은 신뢰도를 가지는데 비해 그 규모가 크지 않다. 따라서 본 발명에서는 bPPI와 관련된 상호작용들을 모두 이용하기로 한다. humanNet의 경우, 유전자 쌍의 상관 관계에 따라 각 상호작용을 평가하는 스코어가 존재한다. 따라서 humanNet에서는 기준값 이상의 스코어를 가지는 상호작용들만 이용하기로 한다(도 3 참조).
(4) 상호 정보량 분석(Mutual Information analysis)
상호 정보량(MI)은 두 랜덤 변수들 사이에서 통계적 의존성(statistical dependence)을 결정하는 척도(measure)이다. 상호 정보량(MI)은 불확실성의 양을 랜덤 변수와 관련시켜 수량화하는 섀넌 엔트로피(shannon entropy)를 기초로 한다.
랜덤 변수 X가 허용 가능한 값들(possible states) {x1, x2, …, xMx}로 이루어진 유한 집합 MX를 요소로 할 때, 섀넌 엔트로피는 다음 수학식 2와 같이 정의할 수 있다.
Figure 112017123100076-pat00002
상기에서 p(xi)는 값(state) xi의 확률을 의미한다.
어느 하나의 값(one state)이 1.0의 확률을 가지고 나머지 값들(others)이 0의 확률을 가지면 이때의 X의 엔트로피는 0이다. 반면 모든 값들(all states)이 동일한 확률을 가질 경우 이때의 X의 엔트로피는 최대값을 가진다.
두 랜덤 변수 X와 Y의 조인트 엔트로피(joint entropy) H(X, Y)는 다음 수학식 3과 같이 정의할 수 있다.
Figure 112017123100076-pat00003
두 랜덤 변수 X와 Y의 상호 정보량(mutual information) MI(X, Y)는 다음 수학식 4와 같이 정의할 수 있다.
Figure 112017123100076-pat00004
X와 Y가 통계적으로 독립적일 때 X와 Y의 상호 정보량(MI)은 0이 된다. 상호 정보량(MI)이 이산 변수들(discrete variables)과 관련되어 정의될 때, 비닝(binning)은 유전자 발현 데이터(gene expression data)와 같은 연속 데이터에 적용될 수 있다.
본 발명에서는 비닝 방법(binning method)으로 B-스플라인 함수(B-spline function)를 이용하여 상호 정보량(MI)을 예측하는 방법을 이용할 수 있다. 이 비닝 방법에 따르면, 각각의 데이터 포인트(data point)는 하나의 bin으로 표현된다. 또한 이 비닝 방법을 이용하면, B-스플라인을 통해 데이터 포인트들을 동시에 복수개의 bin들로 할당할 수 있다. B-스플라인 비닝(B-spline binning)을 이용할 경우, 통계적 독립성(statistical independence)의 가설로부터 획득되는 상관관계들의 식별력(discrimination)을 크게 향상시킬 수 있다.
본 발명의 비닝 방법에서 데이터 포인트는 n개의 bin들에 할당되며, 이때 데이터 포인트는 n(여기서 n > 1) 확률을 가진다. 본 발명에서는 유전자 쌍들의 상관관계를 측정하는 상기한 비닝 방법을 기초로 상호 정보량(MI)을 계산하기로 한다.
(5) 네트워크 규모를 결정하기 위한 통계적 검정들(Statistical tests to determine network scale)
네트워크의 규모는 임계 가중치(threshold weight value), humanNet의 이용 비율(usage ratio) N 등의 파라미터들에 의해 결정될 수 있다. 그리고 파라미터들의 값들은 네트워크가 AD에 대해 허위로 양성 반응을 보인 상호작용들(false positive interactions)을 배제시킨 AD 관련 유전자 쌍들(AD related gene pairs)을 얼마나 많이 포함시킬 수 있는지를 고려하여 결정될 수 있다.
본 발명에서는 이러한 것들을 고려하여 다음과 같은 통계적 검정들(statistical tests)을 수행하기로 한다.
ⓐ T 검정(t-test)
첫째, 서로 다른 두 그룹들 간 비교를 토대로 T 검정(t-test)을 수행하여 humanNet의 이용 비율 N을 결정한다.
본 발명에서 귀무 가설(null hypothesis)은 다음과 같이 설정된다.
H0 : 제1 그룹에 속하는 상호작용들의 스코어 평균값(average score) = 제2 그룹에 속하는 상호작용들의 스코어 평균값
H1 : 제1 그룹에 속하는 상호작용들의 스코어 평균값 ≠ 제2 그룹에 속하는 상호작용들의 스코어 평균값
본 발명에 적용되는 귀무 가설은, 제1 그룹에 속하는 상호작용들 중에는 Interactome 데이터베이스에서 무작위로 선택된 상호작용이 존재하지 않지만(즉, 제1 그룹을 Interactome에 나와 있지 않은 유전자-유전자 상호작용(gene-gene interaction)으로 구성하고), 제2 그룹에 속하는 상호작용들 중에는 Interactome 데이터베이스에서 무작위로 선택된 상호작용이 존재할 때(즉, 제2 그룹을 Interactome으로 연결될 수 있는 유전자-유전자 상호작용(gene-gene interaction)으로 구성할 때), 제1 그룹의 스코어 평균값과 제2 그룹의 스코어 평균값 사이에 차이값이 0이라는 것이다. 두 그룹들 사이의 차이점은 단지 선택된 상호작용들이 Interactome 데이터 세트(dataset) 안에 존재하는지 여부이다.
각각의 그룹에 속하는 상호작용들이 무작위로 선택되기 때문에, 제1 그룹에 속하는 상호작용들의 스코어 평균값과 제2 그룹에 속하는 상호작용들의 스코어 평균값은 동일하지 않을 것으로 예측된다. 또한 두 유전자들이 생물학적으로 상호작용을 하는(biologically interact) 유전자 쌍들은 유전자 발현 등과 같이 유전자와 환경의 영향에 의해 형성되는 생물의 형질인 표현형 콘텍스트(phenotypic context)를 잘 반영하는 것으로 기대된다. 본 발명에서는 이러한 예상을 증명하기 위해 제1 그룹과 제2 그룹을 이용하여 T 검정(t-test)을 수행한다.
제1 그룹과 제2 그룹은 크기가 크고 고정된 집단이 아니기 때문에, 제1 그룹과 제2 그룹에서 일부를 샘플링해서 제1 그룹과 제2 그룹의 차이에 대하여 테스트한다. 이때 T 검정(t-test)은 p 값을 0.05로 하여 가설 검정에서 귀무 가설을 기각할 수 있는 유의 수준(significance level)을 결정할 수 있으며(ex. p-value < 0.05), 선택된 상호작용들의 크기(size) 부양(boost)을 위해 T 검정(t-test)을 적어도 100회 반복 수행할 수 있다.
본 발명에서는 이와 같은 T 검정(t-test)을 통해 humanNet의 최적 이용 비율(usage ratio)을 선택할 수 있으며, Interactome 데이터베이스를 통해 연결되어 있는 유전자 쌍들이 차별 발현 패턴(differentially expressed pattern)과 관련되어 있다는 것에 대한 개연성을 확인할 수 있다.
ⓑ 피셔의 정확 검정법(Fisher's exact test)
유전자-유전자 상호작용(Gene-gene interaction)에 대한 가중치(weight)에 따라 실제 AD를 반영하는 true edge들(진짜 상호작용들)만 남을 수 있다. 즉 AD를 반영하지 못하는 false edge(거짓 상호작용)를 없앨 수 있는 최적의 가중치(weight)를 찾아야 한다.
본 발명에서는 임계 가중치(threshold weight value)를 결정하기 위해 또다른 통계적 검증(statistical test)을 이용할 수 있다. 이 통계적 검증은 미리 정해진 기준치 결과들(baseline results)을 기초로 얼마나 많은 상호작용들이 오버랩(overlap)되는지를 측정하기 위한 것이다. 본 발명에서는 기준치 결과로 AD 네트워크에 대해 지금까지 알려진 정답 중 하나인 IntAct 즉, Interactome 데이터베이스에서 검출할 수 있는 AD 관련 네트워크(AD-associated network)를 이용할 수 있으며, GWAS 방법(GWAS(Genome Wide Association Studies) approach)을 통해 식별된 AD 관련 유전자들(AD related genes)을 정답 셋(answer set)으로 이용하는 것도 가능하다(도 6 참조).
한편 본 발명에서는 ReliefF 등과 같은 특징 선택 알고리즘(feature selection algorithm)을 통해 얻은 결과들을 기준치 결과로 이용하는 것도 가능하다. ReliefF에 의해 획득된 유전자들은 일반 유전자와 AD 유전자를 구별할 수 있는 능력을 가지고 있다. 따라서 구축된 네트워크(constructed network)가 AD 특이성(AD specificity)을 반영한다면, 이 네트워크를 통해 일반 유전자와 AD 유전자를 구별하는 것이 가능해진다.
본 발명에서는 구축된 네트워크에 포함된 유전자들의 개수를 기초로 ReliefF로부터 본 발명에 적용할 유전자들을 추출한다. 일례로, 본 발명에서는 구축된 네트워크에 포함된 유전자들의 개수와 같거나 더 많은 개수의 유전자들을 ReliefF의 결과로부터 추출한다.
본 발명에서는 오버랩(overlap)과 관련된 유의(significance)를 측정하기 위해 도 7에 도시된 바와 같이 분할표(contingency table)를 이용하는 피셔의 정확 검정법(Fisher's exact test)을 적용할 수 있다. 도 7에서 A는 IntAct에 나온 AD 관련 상호작용을 의미하며, B는 임계 가중치(weight threshold)를 반영하여 찾은 상호작용을 의미한다. 이 경우 기준치 결과들 사이의 각각의 비교를 위한 유의 수준(ex. p-value < 0.01)을 만족하는 최소값을 최적의 파라미터(threshold weight value)로 결정할 수 있다.
(6) AD에서의 DNA 메틸화(DNA Methylation)의 효과에 대한 연구(investigating)
앞서 설명한 바와 같이 도 5의 통합 과정을 통해 구축된 유전자 네트워크에 대하여 위상 분석, 기능 강화 실험(functional enrichment test) 등을 적용하면 도 6에 도시된 바와 같이 AD와 유의한 관련성이 있는 서브 네트워크들(sub-networks)을 추출하는 것이 가능해진다(S160). 도 8 내지 도 10은 시드 기반 바이클러스터링(seed based biclustering)을 통해 얻은 서브 네트워크들의 예시이다. 또한 이러한 분석 결과로부터 DNA 메틸화(DNA Methylation)가 AD와 관련성이 있음을 확인할 수 있다.
본 발명에서는 일반 유전자의 상태(normal status)와 AD 유전자의 상태(AD status)를 비교하여 얻은 DMG(Differentially Methylated Gene) 정보를 이용하여 노드 프로퍼티(node property)를 수행한다. AD와 관련된 주파수(frequency of AD)가 발생한 이후, AD와 관련된 DNA 메틸화(DNA methylation)는 시간이 경과함에 따라 증가되며, 이전보다 자주 발생하는 경향을 보인다. 본 발명에서는 알츠하이머 병 환자들(AD patients)의 DNA 메틸화 프로파일들(DNA methylation profiles)과 미리 정해진 데이터 세트(ex. GSE80970)로부터 얻은 일반인들의 샘플들을 비교하여 DMG 정보들을 식별할 수 있다. 일례로, 본 발명에서는 Limma R package를 이용하여 DMG 정보들을 식별할 수 있으며, p 값 컷오프(p-value cutoff)와 폴드 변화 컷오프(fold change cutoff)를 각각 0.01과 1.5로 설정하여 DMG 정보들을 식별할 수 있다.
본 발명에서는 상기한 조건에 따라 알츠하이머 병 환자들의 DNA 메틸화 프로파일들로부터 차별 메틸화 프로브들(differentially methylated probes)이 획득되면 이 프로브들 중에서 TFBS(Transcription Factor Binding Sites)에 위치하는 프로브들을 검출할 수 있다. 상기에서 검출된 프로브들이 유전자들에 DMG 정보들로 기록될 수 있다.
한편 본 발명에서는 알츠하이머 병 환자들의 전전두엽 피질(prefrontal cortex)로부터 획득된 54개의 차별 메틸화 유전자들(differentially methylated genes)을 DMG 정보(DMG set)에 추가하여 적용하는 것도 가능하다.
TFBS(Transcription Factor Binding Sites)의 AD 특이적인 메틸화(AD specific methylation)가 AD 샘플들의 유전자 발현 프로파일들에 영향을 미치는지 여부에 대해 규명하기 위해, 본 발명에서는 몇몇 간단한 통계적 검증(simple statistical testing)을 수행할 수 있다.
이상 설명한 바와 같이 본 발명에서는 임계 가중치(threshold weight)와 humanNet의 이용 비율(usage ratio) N의 최적값을 결정하기 위해 몇몇 통계적 검증들(statistical tests)을 수행할 수 있다. 임계 가중치와 humanNet의 이용 비율이 결정되면, 이후 AD 특이적인 차별 유전자 네트워크(AD specific differential gene network)를 구축하며, 이 네트워크를 통해 AD와 관련하여 유용한 정보를 제공하는 프로퍼티들(informative properties)을 통합시킨다. 마지막으로, 본 발명에서 제안한 방법에 따라 구축된 네트워크가 알츠하이머 병 환자를 식별하는 데에 유용한지 여부를 입증하기 위해 다양한 방법들을 이용하여 네트워크를 분석한다.
이상 설명한 본 발명의 주요 내용을 다시 한번 정리해 보면 다음과 같다.
첫째, AD 네트워크(AD network)를 만들기 위해 유전자 쌍(gene pair)를 뽑는 새로운 척도(measure) 방법을 제시한다. 종래에 AD 네트워크를 구축한 연구 사례 자체가 거의 없었다.
둘째, 가정할 수 있는 정답 셋을 기반으로 네트워크 규모 최적화(network scale optimization)를 구현한다. 이때 Interactome을 사용하되 false edge를 제거한다. 그 이유는 Interactome 사용시 실험 context를 반영하여 false edge를 가능한한 제외하여 network를 구축할 필요가 있기 때문이다.
셋째, DNA methylation 데이터와 같은 AD에 영향을 줄 수 있는 새로운 omics layer 데이터를 network 구축에 활용한다. Methylation 등 다른 omics layer의 데이터를 통합(integration)하여 network 상에서 functional module을 찾을 필요가 있다.
본 발명에서 제안된 방법은 질병 환자에 대한 유전자 발현 데이터, DNA methylation 데이터 등과 같은 molecular layer의 데이터로부터 질병 특이적인 네트워크를 모델링하고, 이를 통해 질병 관련 주요 target 유전자를 찾아줄 수 있기 때문에 IBM Watson과 같이 지능형 의료 정보 분석 시스템의 코어 알고리즘으로 활용이 가능하다.
최근 데이터마이닝(data mining)이나 기계 학습(machine learning)에 기반한 분석 방법을 통해 생물학(biology) 또는 의학(medicine) 분야의 문제를 해결하려는 연구가 활발하게 이루어지고 있는데, 제안하는 본 방법도 네트워크로 모델링하고 sub network을 찾는 등 그래프마이닝의 기본 기술이 들어가고, Relief-F를 통해 선택된 유전자 feature와 제안하는 network 구축 방법을 통해서 얻은 유전자 feature들이 상당히 유의하게 겹칠 수 있다는 테스트 결과를 통해 본 방법을 기반으로 정상과 질병을 구분할 수 있는 분류 모델에 확장시킬 수 있는 가능성을 확인하였다. 이러한 기술적인 차별성과 기대 효과를 고려하였을 때 AI 기반의 최신 의학 분야에서 충분히 중요한 기술로 사용될 수 있다고 생각한다.
이상 도 1 내지 도 10을 참조하여 본 발명의 일실시 형태에 대하여 설명하였다. 이하에서는 이러한 일실시 형태로부터 추론 가능한 본 발명의 바람직한 형태에 대하여 설명한다.
도 11은 본 발명의 바람직한 실시예에 따른 유전자 네트워크 구축 장치의 내부 구성을 개략적으로 도시한 개념도이다.
도 11에 따르면, 유전자 네트워크 구축 장치(200)는 알츠하이머 병(AD; Alzheimer's Disease)에 특이적인 유전자 네트워크를 구축하기 위한 것으로서, 유전자 쌍 선택부(210), 유전자 쌍 통합부(220), 서브 네트워크 추출부(230), 유전자 네트워크 구축부(240), 전원부(250) 및 주제어부(260)를 포함한다.
전원부(250)는 유전자 네트워크 구축 장치(200)를 구성하는 각 구성에 전원을 공급하는 기능을 수행한다.
주제어부(260)는 유전자 네트워크 구축 장치(200)를 구성하는 각 구성의 전체 작동을 제어하는 기능을 수행한다.
유전자 쌍 선택부(210)는 제1 상호 정보량(MI; Mutual Information) 및 제2 상호 정보량을 기초로 미리 정해진 유전자 샘플들 중에서 AD(Alzheimer's Disease) 질환과 관련된 제1 유전자 쌍(gene pair)들을 선택하는 기능을 수행한다. 상기에서 제1 상호 정보량은 AD 질환이 없는 자들과 관련된 유전자들의 상호 정보량을 의미하며, 제2 상호 정보량은 AD 질환이 있는 자들과 관련된 유전자들의 상호 정보량을 의미한다.
유전자 쌍 선택부(210)는 제1 상호 정보량과 제2 상호 정보량의 차이값을 임계값과 비교하여 얻은 결과를 기초로 제1 유전자 쌍들을 선택할 수 있다.
유전자 쌍 선택부(210)는 각 유전자의 발현값(expression value)을 기초로 제1 상호 정보량과 제2 상호 정보량을 산출할 수 있다. 유전자 쌍 선택부(210)는 B-스플라인 함수(B-spline function)를 이용하여 유전자 쌍의 상관관계를 측정하는 비닝 방법(binning method)을 이용하여 제1 상호 정보량과 제2 상호 정보량을 산출할 수 있다.
유전자 쌍 통합부(220)는 각 유전자 쌍의 경로에 대한 정보를 기초로 노드 프로퍼티(node property)를 이용하여 제1 유전자 쌍들을 통합시키는 기능을 수행한다.
서브 네트워크 추출부(230)는 제1 유전자 쌍들이 통합되면 시드 기반 탐색 방법(seed based search)을 기초로 AD 질환과 관련된 서브 네트워크들을 추출하는 기능을 수행한다.
서브 네트워크 추출부(230)는 FEA(Functional Enrichment Analysis)를 추가 적용하여 AD 질환과 관련된 서브 네트워크를 추출할 수 있다.
서브 네트워크 추출부(230)는 노드 프로퍼티를 이용할 때 제1 유전자 쌍들에 포함된 각 유전자와 관련된 DNA 메틸화(methylation) 정보를 기초로 AD 질환과 관련된 서브 네트워크를 추출할 수 있다.
서브 네트워크 추출부(230)는 제1 유전자 쌍들과 관련된 폴드 변화 컷오프(fold change cutoff), 제1 유전자 쌍들과 관련된 p 값 컷오프(p-value cutoff) 및 제1 유전자 쌍들과 관련된 TFBS(Transcription Factor Binding Sites) 중 적어도 하나를 더 적용하여 AD 질환과 관련된 서브 네트워크를 추출할 수 있다.
유전자 네트워크 구축부(240)는 AD 질환과 관련된 서브 네트워크들을 기초로 AD 질환에 특이적인 유전자 네트워크를 구축하는 기능을 수행한다.
유전자 네트워크 구축 장치(200)는 유전자 샘플 생성부(270)를 더 포함할 수 있다.
유전자 샘플 생성부(270)는 데이터베이스에 저장된 유전자 상호작용 데이터 세트(genetic interaction dataset)들과 단백질 상호작용 데이터 세트(protein interaction dataset)들을 기초로 유전자들을 결합시켜 유전자 샘플들을 생성하는 기능을 수행한다.
유전자 샘플 생성부(270)는 효모 단백질 잡종법(yeast two hybrid method)과 생물 검정법(biological assay)을 기초로 컴파일(compile) 및 검증된 데이터 세트들을 단백질 상호작용 데이터 세트들로 이용할 수 있다.
유전자 샘플 생성부(270)는 전전두엽 피질(prefrontal cortex)과 관련된 유전자들을 기초로 유전자 샘플들을 생성할 수 있다.
유전자 네트워크 구축 장치(200)는 제1 유전자 쌍 검출부(280a)와 제2 유전자 쌍 검출부(280b) 중 적어도 하나를 더 포함할 수 있다.
제1 유전자 쌍 검출부(280a)는 제1 그룹과 제2 그룹을 이용하는 T 검정(T-test)을 기초로 유전자 네트워크의 규모를 결정하며, 이렇게 결정된 유전자 네트워크의 규모를 기초로 제1 유전자 쌍들 중에서 제2 유전자 쌍들을 검출하는 기능을 수행한다. 상기에서 제1 그룹은 데이터베이스에 저장된 유전자 상호작용 데이터 세트들을 포함하는 그룹을 의미하며, 제2 그룹은 데이터베이스에 저장된 유전자 상호작용 데이터 세트들을 포함하지 않는 그룹을 의미한다.
제2 유전자 쌍 검출부(280b)는 AD 질환과 관련된 유전자 상호작용 데이터 세트들, GWAS(Genome Wide Association Studies) 방법을 통해 얻은 유전자 상호작용 데이터 세트들, 및 특징 선택 알고리즘(feature selection algorithm)을 통해 얻은 유전자 상호작용 데이터 세트들 중에서 적어도 하나의 유전자 상호작용 데이터 세트들을 이용하는 피셔의 정확 검정법(Fisher's exact test)을 기초로 유전자 네트워크의 규모를 결정하며, 이렇게 결정된 유전자 네트워크의 규모를 기초로 제1 유전자 쌍들 중에서 제2 유전자 쌍들을 검출하는 기능을 수행한다.
다음으로 유전자 네트워크 구축 장치(200)의 작동 방법에 대하여 설명한다.
도 12는 본 발명의 바람직한 실시예에 따른 유전자 네트워크 구축 방법을 개략적으로 도시한 흐름도이다.
먼저 유전자 쌍 선택부(210)는 AD 질환이 없는 자들과 관련된 유전자들의 제1 상호 정보량 및 AD 질환이 있는 자들과 관련된 유전자들의 제2 상호 정보량을 기초로 미리 정해진 유전자 샘플들 중에서 AD 질환과 관련된 제1 유전자 쌍들을 선택한다(S310).
이후 유전자 쌍 통합부(220)는 각 유전자 쌍의 경로에 대한 정보를 기초로 노드 프로퍼티를 이용하여 제1 유전자 쌍들을 통합시킨다(S320).
이후 서브 네트워크 추출부(230)는 제1 유전자 쌍들이 통합되면 시드 기반 탐색 방법을 기초로 AD 질환과 관련된 서브 네트워크들을 추출한다(S330).
이후 유전자 네트워크 구축부(240)는 AD 질환과 관련된 서브 네트워크들을 기초로 AD 질환에 특이적인 유전자 네트워크를 구축한다(S340).
한편 S310 단계 이전에, 유전자 샘플 생성부(270)는 데이터베이스에 저장된 유전자 상호작용 데이터 세트들과 단백질 상호작용 데이터 세트들을 기초로 유전자들을 결합시켜 유전자 샘플들을 생성할 수 있다.
한편 S310 단계와 S320 단계 사이에, 제1 유전자 쌍 검출부(280a)는 데이터베이스에 저장된 유전자 상호작용 데이터 세트들을 포함하는 제1 그룹과 데이터베이스에 저장된 유전자 상호작용 데이터 세트들을 포함하지 않는 제2 그룹을 이용하는 T 검정을 기초로 유전자 네트워크의 규모를 결정하며, 이 유전자 네트워크의 규모를 기초로 제1 유전자 쌍들 중에서 제2 유전자 쌍들을 검출할 수 있다.
한편 S310 단계와 S320 단계 사이에, 제2 유전자 쌍 검출부(280b)는 AD 질환과 관련된 유전자 상호작용 데이터 세트들, GWAS 방법을 통해 얻은 유전자 상호작용 데이터 세트들, 및 특징 선택 알고리즘을 통해 얻은 유전자 상호작용 데이터 세트들 중에서 적어도 하나의 유전자 상호작용 데이터 세트들을 이용하는 피셔의 정확 검정법을 기초로 유전자 네트워크의 규모를 결정하며, 이 유전자 네트워크의 규모를 기초로 제1 유전자 쌍들 중에서 제2 유전자 쌍들을 검출할 수 있다.
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체 등이 포함될 수 있다.
또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (20)

  1. AD(Alzheimer's Disease) 질환이 없는 자들과 관련된 유전자들의 제1 상호 정보량(mutual information) 및 상기 AD 질환이 있는 자들과 관련된 유전자들의 제2 상호 정보량을 기초로 미리 정해진 유전자 샘플들 중에서 상기 AD 질환과 관련된 제1 유전자 쌍(gene pair)들을 선택하는 유전자 쌍 선택부;
    특정 유전자 간의 상호작용을 나타내는 신호 전달 경로(Pathways)를 기초로 상기 AD 질환과 관련하여 해당 노드가 갖는 속성인 노드 프로퍼티(node property)를 이용하여 상기 제1 유전자 쌍들을 통합시키는 유전자 쌍 통합부;
    상기 제1 유전자 쌍들이 통합되면 시드 기반 탐색 방법(seed based search)을 기초로 상기 제1 유전자 쌍들이 통합되어 구성된 네트워크에서 상기 AD 질환과 관련된 서브 네트워크들을 추출하는 서브 네트워크 추출부; 및
    상기 AD 질환과 관련된 서브 네트워크들을 기초로 상기 AD 질환에 특이적인 유전자 네트워크를 구축하는 유전자 네트워크 구축부
    를 포함하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  2. 제 1 항에 있어서,
    상기 유전자 쌍 선택부는 상기 제1 상호 정보량과 상기 제2 상호 정보량의 차이값을 임계값과 비교하여 얻은 결과를 기초로 상기 제1 유전자 쌍들을 선택하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  3. 제 1 항에 있어서,
    상기 유전자 쌍 선택부는 각 유전자의 발현값(expression value)을 기초로 상기 제1 상호 정보량과 상기 제2 상호 정보량을 산출하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  4. 제 3 항에 있어서,
    상기 유전자 쌍 선택부는 B-스플라인 함수(B-spline function)를 이용하여 유전자 쌍의 상관관계를 측정하는 비닝 방법(binning method)을 이용하여 상기 제1 상호 정보량과 상기 제2 상호 정보량을 산출하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  5. 제 1 항에 있어서,
    상기 서브 네트워크 추출부는 FEA(Functional Enrichment Analysis)를 추가 적용하여 상기 AD 질환과 관련된 서브 네트워크를 추출하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  6. 제 1 항에 있어서,
    상기 서브 네트워크 추출부는 상기 노드 프로퍼티를 이용할 때 상기 제1 유전자 쌍들에 포함된 각 유전자와 관련된 DNA 메틸화(methylation) 정보를 기초로 상기 AD 질환과 관련된 서브 네트워크를 추출하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  7. 제 6 항에 있어서,
    상기 서브 네트워크 추출부는 상기 제1 유전자 쌍들과 관련된 폴드 변화 컷오프(fold change cutoff), 상기 제1 유전자 쌍들과 관련된 p 값 컷오프(p-value cutoff) 및 상기 제1 유전자 쌍들과 관련된 TFBS(Transcription Factor Binding Sites) 중 적어도 하나를 더 적용하여 상기 AD 질환과 관련된 서브 네트워크를 추출하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  8. 제 1 항에 있어서,
    데이터베이스에 저장된 유전자 상호작용 데이터 세트(genetic interaction dataset)들과 단백질 상호작용 데이터 세트(protein interaction dataset)들을 기초로 유전자들을 결합시켜 상기 유전자 샘플들을 생성하는 유전자 샘플 생성부
    를 더 포함하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  9. 제 8 항에 있어서,
    상기 유전자 샘플 생성부는 효모 단백질 잡종법(yeast two hybrid method)과 생물 검정법(biological assay)을 기초로 컴파일(compile) 및 검증된 데이터 세트들을 상기 단백질 상호작용 데이터 세트들로 이용하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  10. 제 8 항에 있어서,
    상기 유전자 샘플 생성부는 전전두엽 피질(prefrontal cortex)과 관련된 유전자들을 기초로 상기 유전자 샘플들을 생성하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  11. 제 1 항에 있어서,
    데이터베이스에 저장된 유전자 상호작용 데이터 세트들을 포함하는 제1 그룹과 상기 데이터베이스에 저장된 유전자 상호작용 데이터 세트들을 포함하지 않는 제2 그룹을 이용하는 T 검정(T-test)을 기초로 상기 유전자 네트워크의 규모를 결정하며, 상기 유전자 네트워크의 규모를 기초로 상기 제1 유전자 쌍들 중에서 제2 유전자 쌍들을 검출하는 제1 유전자 쌍 검출부
    를 더 포함하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  12. 제 1 항에 있어서,
    상기 AD 질환과 관련된 유전자 상호작용 데이터 세트들, GWAS(Genome Wide Association Studies) 방법을 통해 얻은 유전자 상호작용 데이터 세트들, 및 특징 선택 알고리즘(feature selection algorithm)을 통해 얻은 유전자 상호작용 데이터 세트들 중에서 적어도 하나의 유전자 상호작용 데이터 세트들을 이용하는 피셔의 정확 검정법(Fisher's exact test)을 기초로 상기 유전자 네트워크의 규모를 결정하며, 상기 유전자 네트워크의 규모를 기초로 상기 제1 유전자 쌍들 중에서 제2 유전자 쌍들을 검출하는 제2 유전자 쌍 검출부
    를 더 포함하는 것을 특징으로 하는 유전자 네트워크 구축 장치.
  13. AD(Alzheimer's Disease) 질환이 없는 자들과 관련된 유전자들의 제1 상호 정보량(mutual information) 및 상기 AD 질환이 있는 자들과 관련된 유전자들의 제2 상호 정보량을 기초로 미리 정해진 유전자 샘플들 중에서 상기 AD 질환과 관련된 제1 유전자 쌍(gene pair)들을 선택하는 단계;
    특정 유전자 간의 상호작용을 나타내는 신호 전달 경로(Pathways)를 기초로 상기 AD 질환과 관련하여 해당 노드가 갖는 속성인 노드 프로퍼티(node property)를 이용하여 상기 제1 유전자 쌍들을 통합시키는 단계;
    상기 제1 유전자 쌍들이 통합되면 시드 기반 탐색 방법(seed based search)을 기초로 상기 제1 유전자 쌍들이 통합되어 구성된 네트워크에서 상기 AD 질환과 관련된 서브 네트워크들을 추출하는 단계; 및
    상기 AD 질환과 관련된 서브 네트워크들을 기초로 상기 AD 질환에 특이적인 유전자 네트워크를 구축하는 단계
    를 포함하는 것을 특징으로 하는 유전자 네트워크 구축 방법.
  14. 제 13 항에 있어서,
    상기 선택하는 단계는 상기 제1 상호 정보량과 상기 제2 상호 정보량의 차이값을 임계값과 비교하여 얻은 결과를 기초로 상기 제1 유전자 쌍들을 선택하는 것을 특징으로 하는 유전자 네트워크 구축 방법.
  15. 제 13 항에 있어서,
    상기 선택하는 단계는 각 유전자의 발현값(expression value)을 기초로 상기 제1 상호 정보량과 상기 제2 상호 정보량을 산출하는 것을 특징으로 하는 유전자 네트워크 구축 방법.
  16. 제 13 항에 있어서,
    상기 추출하는 단계는 FEA(Functional Enrichment Analysis)를 추가 적용하여 상기 AD 질환과 관련된 서브 네트워크를 추출하는 것을 특징으로 하는 유전자 네트워크 구축 방법.
  17. 제 13 항에 있어서,
    상기 추출하는 단계는 상기 노드 프로퍼티를 이용할 때 상기 제1 유전자 쌍들에 포함된 각 유전자와 관련된 DNA 메틸화(methylation) 정보를 기초로 상기 AD 질환과 관련된 서브 네트워크를 추출하는 것을 특징으로 하는 유전자 네트워크 구축 방법.
  18. 제 13 항에 있어서,
    데이터베이스에 저장된 유전자 상호작용 데이터 세트(genetic interaction dataset)들과 단백질 상호작용 데이터 세트(protein interaction dataset)들을 기초로 유전자들을 결합시켜 상기 유전자 샘플들을 생성하는 단계
    를 더 포함하는 것을 특징으로 하는 유전자 네트워크 구축 방법.
  19. 제 13 항에 있어서,
    데이터베이스에 저장된 유전자 상호작용 데이터 세트들을 포함하는 제1 그룹과 상기 데이터베이스에 저장된 유전자 상호작용 데이터 세트들을 포함하지 않는 제2 그룹을 이용하는 T 검정(T-test)을 기초로 상기 유전자 네트워크의 규모를 결정하며, 상기 유전자 네트워크의 규모를 기초로 상기 제1 유전자 쌍들 중에서 제2 유전자 쌍들을 검출하는 단계
    를 더 포함하는 것을 특징으로 하는 유전자 네트워크 구축 방법.
  20. 제 13 항에 있어서,
    상기 AD 질환과 관련된 유전자 상호작용 데이터 세트들, GWAS(Genome Wide Association Studies) 방법을 통해 얻은 유전자 상호작용 데이터 세트들, 및 특징 선택 알고리즘(feature selection algorithm)을 통해 얻은 유전자 상호작용 데이터 세트들 중에서 적어도 하나의 유전자 상호작용 데이터 세트들을 이용하는 피셔의 정확 검정법(Fisher's exact test)을 기초로 상기 유전자 네트워크의 규모를 결정하며, 상기 유전자 네트워크의 규모를 기초로 상기 제1 유전자 쌍들 중에서 제2 유전자 쌍들을 검출하는 단계
    를 더 포함하는 것을 특징으로 하는 유전자 네트워크 구축 방법.
KR1020170169332A 2017-12-11 2017-12-11 유전자 네트워크 구축 장치 및 방법 KR102034271B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170169332A KR102034271B1 (ko) 2017-12-11 2017-12-11 유전자 네트워크 구축 장치 및 방법
PCT/KR2018/002915 WO2019117400A1 (ko) 2017-12-11 2018-03-13 유전자 네트워크 구축 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170169332A KR102034271B1 (ko) 2017-12-11 2017-12-11 유전자 네트워크 구축 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190069008A KR20190069008A (ko) 2019-06-19
KR102034271B1 true KR102034271B1 (ko) 2019-10-18

Family

ID=66819649

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170169332A KR102034271B1 (ko) 2017-12-11 2017-12-11 유전자 네트워크 구축 장치 및 방법

Country Status (2)

Country Link
KR (1) KR102034271B1 (ko)
WO (1) WO2019117400A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024123143A1 (ko) * 2022-12-08 2024-06-13 (주)큐리진 유전자 관계 분석 방법 및 그 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802546B (zh) * 2020-12-29 2024-05-03 中国人民解放军军事科学院军事医学研究院 一种生物状态表征方法、装置、设备及存储介质
CN115019884B (zh) * 2022-05-13 2023-11-03 华东交通大学 一种融合多组学数据的网络标志物识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001053538A2 (en) * 2000-01-24 2001-07-26 Neurosciences Research Foundation, Inc. Method for functional mapping of an alzheimer's disease gene network and for identifying therapeutic agents for the treatment of alzheimer's disease
WO2007038414A2 (en) * 2005-09-27 2007-04-05 Indiana University Research & Technology Corporation Mining protein interaction networks
KR101302173B1 (ko) 2012-12-07 2013-08-30 이화여자대학교 산학협력단 Hmox1 유전자의 메틸화 변화를 이용한 알츠하이머 질환의 진단용 조성물 및 이를 이용한 알츠하이머 질환의 진단방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
B. Liu 외, "Exploring candidate genes for human brain diseases from a brain-specific gene network", Biochemical and Biophysical Research Communications 349, pp.1308-1314, 2006.
Y. Liu 외, "Integrative Analysis of Common Neurodegenerative Diseases Using Gene Association (후략)", AMIA Jt Summits Transl Sci Proc 2012, pp.62-71.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024123143A1 (ko) * 2022-12-08 2024-06-13 (주)큐리진 유전자 관계 분석 방법 및 그 시스템

Also Published As

Publication number Publication date
WO2019117400A1 (ko) 2019-06-20
KR20190069008A (ko) 2019-06-19

Similar Documents

Publication Publication Date Title
US20210383890A1 (en) Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
Zhou et al. Informatics challenges of high-throughput microscopy
Vlasblom et al. Markov clustering versus affinity propagation for the partitioning of protein interaction graphs
Dubitzky et al. Fundamentals of data mining in genomics and proteomics
Ma et al. CGI: a new approach for prioritizing genes by combining gene expression and protein–protein interaction data
Hesami et al. Machine learning: its challenges and opportunities in plant system biology
Gatto et al. A foundation for reliable spatial proteomics data analysis
Reimand et al. Domain-mediated protein interaction prediction: From genome to network
KR102034271B1 (ko) 유전자 네트워크 구축 장치 및 방법
Wang et al. Predicting Protein Interactions Using a Deep Learning Method‐Stacked Sparse Autoencoder Combined with a Probabilistic Classification Vector Machine
Mehdi et al. A probabilistic model of nuclear import of proteins
Moreira-Filho et al. Methods for gene co-expression network visualization and analysis
Chen et al. Forest Fire Clustering for single-cell sequencing combines iterative label propagation with parallelized Monte Carlo simulations
Rao et al. Partial correlation based variable selection approach for multivariate data classification methods
Papetti et al. Barcode demultiplexing of nanopore sequencing raw signals by unsupervised machine learning
Bedoya et al. Reducing dimensionality in remote homology detection using predicted contact maps
Scholtens et al. Estimating node degree in bait-prey graphs
Betzler Steiner tree problems in the analysis of biological networks
Zhou et al. Genome‐wide prediction of chromatin accessibility based on gene expression
Malkusch et al. Receptor tyrosine kinase MET ligand-interaction classified via machine learning from single-particle tracking data
KR100753827B1 (ko) 단백질 상동성 관계를 이용한 단백질 상호작용 검증 방법및 시스템
Jayanthi et al. Early Detection of Pediatric Cardiomyopathy Disease Using Window Based Correlation Method from Gene Micro Array Data
Lee et al. A protein interaction verification system based on a neural network algorithm
Herrero et al. An approach to inferring transcriptional regulation among genes from large‐scale expression data
KR102236194B1 (ko) 유전자들의 기능 그룹 지표 선정 방법, 질병 판별 시스템 및 이의 동작 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant