KR20170000707A - 유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치 - Google Patents

유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치 Download PDF

Info

Publication number
KR20170000707A
KR20170000707A KR1020150090016A KR20150090016A KR20170000707A KR 20170000707 A KR20170000707 A KR 20170000707A KR 1020150090016 A KR1020150090016 A KR 1020150090016A KR 20150090016 A KR20150090016 A KR 20150090016A KR 20170000707 A KR20170000707 A KR 20170000707A
Authority
KR
South Korea
Prior art keywords
gene
gene expression
data
network
cluster
Prior art date
Application number
KR1020150090016A
Other languages
English (en)
Inventor
박치현
윤소정
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150090016A priority Critical patent/KR20170000707A/ko
Priority to US14/937,345 priority patent/US20160378914A1/en
Publication of KR20170000707A publication Critical patent/KR20170000707A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G06F19/24
    • G06F19/12
    • G06F19/22
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치는, 유전자 발현 데이터와 생물학적 상호작용 데이터를 이용하여 유전자 네트워크들을 생성하고, 유전자 네트워크들 사이에서 공통적으로 존재하는 서브 네트워크를 탐색하고, 탐색된 서브 네트워크로부터 하나 이상의 클러스터들을 추출하고, 추출된 클러스터들마다 유의성을 검증함으로써 생물학적 샘플의 표현형의 변화와 연관된 클러스터를 결정한다.

Description

유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치 {Method and apparatus for identifying phenotype-specific gene network using gene expression data}
유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치에 관한다.
유전체(genome)란 한 생물이 가지는 모든 유전 정보를 말한다. 어느 한 개인의 유전체를 서열화(sequencing)하는 기술은 DNA 칩 및 차세대 서열화(Next Generation Sequencing) 기술, 차차세대 서열화(Next Next Generation Sequencing) 기술 등 여러 기술들이 개발되고 있다. 핵산 서열, 단백질 등과 같은 유전 정보들은 분석은 당뇨병, 암과 같은 질병을 발현시키는 유전자를 찾거나, 유전적 다양성과 개체의 발현 특성 간의 상관관계 등을 파악하기 위하여 폭넓게 활용된다. 특히, 개인으로부터 수집된 유전 데이터는 서로 다른 증상이나 질병의 진행과 관련된 개인의 유전적인 특징을 규명하는데 있어서 중요하다. 따라서, 개인의 핵산 서열, 단백질 등과 같은 유전 데이터는 현재와 미래의 질병 관련 정보를 파악하여 질병을 예방하거나 질병의 초기 단계에서 최적의 치료 방법을 선택할 수 있도록 하는 핵심적인 데이터이다. 생물의 유전 정보들로서 SNP(Single Nucleotide Polymorphism), CNV(Copy Number Variation) 등을 검출하는 DNA 칩(chip), 마이크로어레이 등과 같은 유전체 검출 장비를 활용하여 개인의 유전 데이터를 정확히 분석하고, 개인의 질병을 진단하는 기술들이 연구 중에 있다.
유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치를 제공하는데 있다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.
일 측면에 따르면, 유전자 발현 데이터와 생물학적 상호작용(interaction) 데이터를 이용하여 상기 유전자 발현 데이터에 포함된 시점들에 대응되는 유전자 네트워크들을 생성하는 단계; 상기 생성된 유전자 네트워크들 사이에서 공통적으로 존재하는 서브 네트워크를 탐색하는 단계; 상기 탐색된 서브 네트워크로부터 하나 이상의 클러스터들을 추출하는 단계; 및 상기 추출된 클러스터들마다 상기 시점들의 변화에 따른 유전자 노드들의 유전자 발현 레벨들의 추이의 유의성을 검증함으로써, 생물학적 샘플의 표현형의 변화와 연관된 클러스터를 결정하는 단계를 포함하는, 방법을 제공한다.
다른 일 측면에 따르면, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또 다른 일 측면에 따르면, 유전자 발현 데이터와 생물학적 상호작용 데이터를 이용하여 상기 유전자 발현 데이터에 포함된 시점들에 대응되는 유전자 네트워크들을 생성하는 유전자 네트워크 생성부; 상기 생성된 유전자 네트워크들 사이에서 공통적으로 존재하는 서브 네트워크를 탐색하는 서브 네트워크 탐색부; 상기 탐색된 서브 네트워크로부터 하나 이상의 클러스터들을 추출하는 클러스터 추출부; 및 상기 추출된 클러스터들마다 상기 시점들의 변화에 따른 유전자 노드들의 유전자 발현 레벨들의 추이의 유의성을 검증함으로써, 생물학적 샘플의 표현형의 변화와 연관된 클러스터를 결정하는 결정부를 포함하는, 장치를 제공한다.
상기된 바에 따르면, 시계열 유전자 발현 데이터로부터 표현형 특이적인 유전자 네트워크를 보다 정확하게 식별할 수 있다.
도 1은 일 실시예에 따른 유전자 발현 데이터를 분석하는 컴퓨팅 장치의 기능을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 시계열 유전자 발현 데이터를 도시한 도면이다.
도 3은 일 실시예에 따른 표현형 특이적인 유전자 네트워크를 설명하기 위한 도면이다.
도 4a는 일 실시예에 따른 유전자 발현 데이터를 분석하는 컴퓨팅 장치의 하드웨어 구성을 도시한 블록도이다.
도 4b는 도 4a의 프로세서의 상세 하드웨어 구성을 도시한 블록도이다.
도 5는 일 실시예에 따라 컴퓨팅 장치에서 시계열 유전자 발현 데이터를 분석하여 표현형 특이적 유전자 네트워크를 식별하는 과정을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 시계열 유전자 발현 데이터로부터 각 시점들에 대응되는 유전자를 선별하는 과정을 설명하기 위한 도면이다.
도 7은 일 실시예에 따라 시점마다 선별된 유전자들을 이용하여 시점들 각각에 대응되는 유전자 네트워크를 생성하는 것을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 서브 네트워크를 탐색하는 것을 설명하기 위한 도면이다.
도 9는 일 실시예에 따라, 탐색된 서브 네트워크로부터 하나 이상의 클러스터를 추출하는 것을 설명하기 위한 도면이다.
도 10은 일 실시예에 따라, 클러스터들이 표현형 변화에 연관되어 있는지 여부를 검증하는 것을 설명하기 위한 도면이다.
도 11a 및 도 11b는 일 실시예에 따른 랜덤 테스트를 통하여, 클러스터들이 표현형 변화에 연관되어 있는지 여부를 검증하는 것을 설명하기 위한 도면들이다.
도 12는 일 실시예에 따른 표현형 특이적 유전자 네트워크에 해당되는 것으로 결정된 클러스터에 대한 유전자 온톨로지 분석을 설명하기 위한 도면이다.
도 13a 내지 도 13d는 일 실시예에 따라, 공개된 시계열 마이크로어레이 데이터(GSE41714)로부터 표현형 특이적인 유전자 네트워크를 식별하기 위한 시뮬레이션 과정들을 설명하기 위한 도면들이다.
도 14a 내지 도 14e는 다른 실시예에 따라, 공개된 시계열 마이크로어레이 데이터(GSE41714)에 포함된 유전자들 중 cell cycle과 관련된 일부 유전자들을 선별하여 수행된 시뮬레이션 과정들을 설명하기 위한 도면들이다.
도 15a 내지 도 15d는 또 다른 실시예에 따라, 공개된 시계열 마이크로어레이 데이터(GSE15299)로부터 표현형 특이적인 유전자 네트워크를 식별하기 위한 시뮬레이션 과정들을 설명하기 위한 도면들이다.
본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.
실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 실시예들에 기재된 “...부”, “...모듈”의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 실시예들에서 사용되는 “구성된다” 또는 “포함한다” 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 실시예들에서 사용되는 “제 1” 또는 “제 2” 등과 같이 서수를 포함하는 용어는 다양한 대상들을 설명하는데 사용할 수 있지만, 상기 대상들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 대상을 다른 대상과 구별하는 목적으로만 사용된다.
하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 당업자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 유전자 발현 데이터를 분석하는 컴퓨팅 장치의 기능을 설명하기 위한 도면이다. 도 1을 참고하면, 컴퓨팅 장치(10)는 시계열(time-series) 유전자 발현(gene expression) 데이터(40)를 분석하여 표현형 특이적인(phenotype-specific) 유전자 네트워크(50)를 식별하기 위한 장치이다.
시계열 유전자 발현 데이터(40)는 실험적으로 획득될 수 있다. 보다 상세하게 설명하면, 어느 피검자의 생물학적 샘플(biological sample)(21)을 채취한 후 특정(임의의) 시점(time point)마다 생물학적 샘플(21)을 마이크로어레이(microarray)(23)에 반응시킴으로써, 시계열 유전자 발현 데이터(40)가 획득될 수 있다. 마이크로어레이(23)는 분석하고자 하는 생물학적 샘플(21)이 접촉하면, 이 생물학적 샘플(21)의 핵산이 마이크로어레이(23)의 기판 상의 수백 또는 수십만 개의 프로브들과 혼성화된 결과를 제공하는 디바이스이다. 이 때, 생물학적 샘플(21)과 프로브들이 반응할 때, 생물학적 샘플(21)과 프로브 물질의 상보적인 정도에 따라 각기 다른 혼성화(hybridization)의 정도가 발현된다. 여기서, 혼성화 정도는 일반적으로 형광 신호의 강도(intensity)에 대응될 수 있다. 형광 신호는 마이크로어레이(23)에 형광 물질로 표지된 생물학적 샘플(21)을 반응시킨 후, 형광 물질에 대해 여기광을 조사하고 그로부터 발광되는 방사광을 이용하여 검출될 수 있다. 즉, 마이크로어레이(23)의 형광 신호를 검출하는 기술은 당해 기술분야에서 이미 알려진 다양한 High Content Cell Imaging 기술들이 활용될 수 있다. 다양한 High Content Cell Imaging 디바이스들에 의해, 특정(임의의) 시점(time point)마다 마이크로어레이(23)로부터 검출된 형광 신호들의 강도들이 수치 데이터로 변환됨으로써, 실험자는 생물학적 샘플(21)에 대한 시계열 유전자 발현 데이터(40)를 획득할 수 있다.
나아가서, 시계열 유전자 발현 데이터(40)는 공개 데이터베이스(DB)(30)에 저장되어 있을 수 있다. 예를 들어, 시계열 유전자 발현 데이터(40)는 NCBI(National Center for Biotechnology Information), Gene Expression Omnibus (GEO) 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)(30)에 저장되어 있을 수 있다. 하지만, 유전자 분석 기술의 발달로 인하여 새로운 유전자 발현 데이터가 계속하여 발견되고 업데이트되고 있으므로, 본 실시예에서 설명하고자 하는 유전자 발현 데이터는 공개 데이터베이스(DB)(30)로부터 얻을 수 있는 것에만 제한되지 않는다.
컴퓨팅 장치(10)는 실험적으로 획득되거나 또는 공개 데이터베이스(DB)(30)로부터 획득된 시계열 유전자 발현 데이터(40)를 수신한다. 그리고 나서, 컴퓨팅 장치(10)는 수신된 시계열 유전자 발현 데이터(40)를 분석함으로써 수신된 시계열 유전자 발현 데이터(40)로부터 표현형 특이적인 유전자 네트워크(50)를 식별한다.
“표현형”은, 수신된 시계열 유전자 발현 데이터(40)가 실험 데이터인 경우 생물학적 샘플(21)의 표현형을 의미할 수 있고, 또는 수신된 시계열 유전자 발현 데이터(40)가 공개 데이터인 경우 데이터베이스(DB)(30)에서 획득된 시계열 유전자 발현 데이터(40)의 대상 샘플의 표현형을 의미할 수 있다. 본 실시예들에서 “표현형”의 용어는, 노화(senescence), 암(cancer) 등과 같은 거시적인 의미로 사용되거나, 또는 노화, 암 등을 분자적 수준에서 설명하기 위한 cell cycle, metabolic process 등과 같은 미시적인 의미로도 사용될 수 있다.
최근에는, 유전체 연구의 발달로 인하여 유전체에 포함된 유전자들간의 기능적 상관 관계들이 서서히 밝혀짐으로써, 유전자들간의 유전자 네트워크의 분석이 주목받고 있다. 이는, 어느 생물체 내에서 일어나는 거의 모든 생리 현상은 하나의 유전자가 아닌 여러 개의 유전자들의 상호작용에 의해 이뤄지기 때문이라고 할 수 있다. “유전자 네트워크(gene network)”의 용어는 유전자들간에 서로 복잡하게 연결된 네트워크를 나타내기 위한 용어로서, 유전자들이 노드들(nodes)로 표현되고 유전자들 간의 연결들은 에지들(edges)로 표현되어 있다. “유전자 네트워크”는 현재 많은 논문들, 특허들을 통해 접할 수 있는 개념으로서, 당해 기술분야의 통상의 기술자라면 이해할 수 있다.
즉, 컴퓨팅 장치(10)는 시계열 유전자 발현 데이터(40)로부터, 예를 들어 표현형 “metabolic process”에 연관된 유전자 네트워크, 표현형 “cell cycle”에 연관된 유전자 네트워크 등을 식별할 수 있다.
도 2는 일 실시예에 따른 시계열 유전자 발현 데이터를 도시한 도면이다. 도 2를 참고하면, 시계열 유전자 발현 데이터(200)에 포함된 항목들은 설명의 편의를 위하여 임의로 기재된 것들이다.
예를 들어, 시계열 유전자 발현 데이터(200)는 시점 1(time point1)에서의 유전자들 Gene 1, Gene 2, Gene 3, Gene 4, Gene 5, ...의 유전자 발현 레벨들, 시점 2(time point2)에서의 유전자들 Gene 1, Gene 2, Gene 3, Gene 4, Gene 5, ...의 유전자 발현 레벨들, 시점 3(time point3)에서의 유전자들 Gene 1, Gene 2, Gene 3, Gene 4, Gene 5, ...의 유전자 발현 레벨들, 시점 4(time point1)에서의 유전자들 Gene 1, Gene 2, Gene 3, Gene 4, Gene 5, ...의 유전자 발현 레벨들 등을 포함하는 유전자 발현 프로파일일 수 있다. 즉, 본 실시예에 따른 시계열 유전자 발현 데이터(200)는 특정 시점마다 각 유전자의 유전자 발현 레벨에 관한 데이터를 포함한다. 도 2에 도시된 유전자 발현 레벨의 값은 임의의 상대적인 값으로서, 시계열 유전자 발현 데이터(200)에는 다양한 유전자들 및 다양한 시점들에 대응되는 다양한 유전자 발현 레벨들이 포함될 수 있다.
도 3은 일 실시예에 따른 표현형 특이적인 유전자 네트워크를 설명하기 위한 도면이다. 앞서 도 1에서 컴퓨팅 장치(10)는 표현형 특이적인 유전자 네트워크(50)를 식별할 수 있는 것으로 설명되었다.
도 3을 참고하면, 표현형 특이적인 유전자 네트워크들(310, 320 및 330)은 표현형 A로부터 표현형 A’까지의 변화에 생물학적(biologically), 생물물리학적(biophysically) 등으로 관여하는 네트워크들일 수 있다. 예를 들어, 표현형 특이적인 유전자 네트워크들(310, 320 및 330)은, 미성숙 페이즈(young phase)의 표현형 A를 성숙 페이즈(old phase)의 표현형 A’로 변화시키는 생물학적 기능들을 담당하는 네트워크들일 수 있다. 표현형 A부터 표현형 A’까지의 변화가 노화와 관련된 것으로 가정할 경우, 유전자 네트워크(310)는 노화 과정에서의 cell cycle 기능에 관여하는 네트워크이고, 유전자 네트워크들(320 및 330)은 노화 과정에서의 metabolic process 기능에 관여하는 네트워크에 해당될 수 있다. 즉, 도 1의 컴퓨팅 장치(10)는 주어진 시계열 유전자 발현 데이터(도 1의 40)를 이용하여, 시간이 지남에 따라 변화하는 표현형에 연관된 특이적 유전자 네트워크들(310, 320 및 330)을 식별하는 동작을 수행할 수 있다.
도 4a는 일 실시예에 따른 유전자 발현 데이터를 분석하는 컴퓨팅 장치의 하드웨어 구성을 도시한 블록도이다.
도 4a를 참고하면, 유전자 발현 데이터를 분석하는 컴퓨팅 장치(10)는 데이터 인터페이스(110), 프로세서(120) 및 메모리(130)를 포함한다. 한편, 도 4a에 도시된 컴퓨팅 장치(10)는 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예에 관련된 구성요소들만이 도시되어 있을 뿐이므로, 도 4a에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있다.
데이터 인터페이스(110)는 앞서 도 1에서 설명된 바와 같이, 생물학적 샘플(도 1의 21)로부터 실험적으로 측정되거나 또는 데이터베이스(DB)(도 1의 30)에 저장된, 시계열 유전자 발현 데이터(40)를 획득한다. 즉, 데이터 인터페이스(110)는 컴퓨팅 장치(10)가 외부의 다른 디바이스들과 통신하기 위한 유/무선 네트워크 인터페이스의 하드웨어로 구현될 수 있다.
나아가서, 데이터 인터페이스(110)는 생물학적 상호작용(biological interaction) 데이터(45)를 획득한다. 생물학적 상호작용 데이터(45)는 예를 들어, PPI(protein-protein interaction) 데이터, GGI(gene-gene interaction) 데이터, transcriptional-regulatory networks 데이터 등과 같이, 다양한 생물학적 물질들 간의 역학 관계, 기능적 상관 관계, 생물물리학적 관계 등을 규명해 놓은 상호작용체(interactome) 데이터를 포함할 수 있다. 데이터 인터페이스(110)는 생물학적 상호작용 데이터(45)를 공개 데이터베이스(DB)(도 1의 30) 또는 비공개 데이터베이스(DB)(미도시)로부터 획득할 수 있다.
즉, 데이터 인터페이스(110)는 시계열 유전자 발현 데이터(40) 및 생물학적 상호작용 데이터(45) 각각의 출처에 구애받지 않고, 시계열 유전자 발현 데이터(40) 및 생물학적 상호작용 데이터(45)를 획득할 수 있다.
메모리(130)는 컴퓨팅 장치(10) 내에서 처리될 데이터들 및 처리가 완료된 결과들을 저장하기 위한 하드웨어로서, RAM(random access memory), ROM(read only memory) 등의 메모리 칩들 또는 HDD(hard disk drive), SSD(solid state drive) 등의 스토리지를 포함한다. 즉, 메모리(130)는 데이터 인터페이스(110)에 의해 획득된 시계열 유전자 발현 데이터(40) 및 생물학적 상호작용 데이터(45)를 저장할 수 있고, 프로세서(120)에 의해 분석된 표현형 특이적 유전자 네트워크(도 1의 50)에 대한 데이터도 저장할 수 있다.
프로세서(120)는 시계열 유전자 발현 데이터(40) 및 생물학적 상호작용 데이터(45)를 이용하여 표현형 특이적 유전자 네트워크(도 1의 50)를 분석하기 위한, 유전자 분석용 하드웨어에 해당된다. 프로세서(120)는 하나 이상의 프로세싱 유닛들로 구현된 모듈로서, 다수의 논리 게이트들의 어레이를 갖는 마이크로프로세서와 이 마이크로프로세서에서 실행될 수 있는 프로그램이 저장된 메모리 모듈의 조합으로 구현될 수도 있다. 프로세서(120)는 응용 프로그램의 모듈 형태로 구현될 수도 있다.
프로세서(120)에 의해 분석된 표현형 특이적 유전자 네트워크(도 1의 50)의 식별 정보는 데이터 인터페이스(110)를 통해 외부의 다른 디바이스, 예를 들어 디스플레이 디바이스, 다른 컴퓨팅 장치 등으로 전송되거나, 또는 외부 네트워크, 예를 들어 인터넷, 공개 데이터베이스(DB)(도 1의 30) 상으로 전송될 수 있다.
도 4b는 도 4a의 프로세서의 상세 하드웨어 구성을 도시한 블록도이다.
도 4b를 참고하면, 프로세서(120)는 유전자 네트워크 생성부(121), 서브 네트워크 탐색부(122), 클러스터 추출부(123) 및 결정부(124)를 포함할 수 있고, GO(Gene Ontology) 식별부(125)는 프로세서(120)에 옵션적으로 포함될 수 있다. 한편, 도 4b에 도시된 프로세서(120)는 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예에 관련된 구성요소들만이 도시되어 있을 뿐이므로, 도 4b에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있다. 유전자 네트워크 생성부(121), 서브 네트워크 탐색부(122), 클러스터 추출부(123), 결정부(124) 및 GO 식별부(125)는 각각의 기능들에 따라 별도의 독립적인 명칭들로 구분된 것일 뿐, 유전자 네트워크 생성부(121), 서브 네트워크 탐색부(122), 클러스터 추출부(123), 결정부(124) 및 GO 식별부(125)는 하나의 프로세서(120)로 구현될 수 있다. 또는, 유전자 네트워크 생성부(121), 서브 네트워크 탐색부(122), 클러스터 추출부(123), 결정부(124) 및 GO 식별부(125) 각각은 프로세서(120) 내의 하나 이상의 프로세싱 모듈들에 대응될 수도 있다. 또는, 유전자 네트워크 생성부(121), 서브 네트워크 탐색부(122), 클러스터 추출부(123), 결정부(124) 및 GO 식별부(125)는 각각의 기능들에 따라 구분된 별도의 소프트웨어 알고리즘 단위에 해당될 수도 있다. 즉, 프로세서(120) 내에서 유전자 네트워크 생성부(121), 서브 네트워크 탐색부(122), 클러스터 추출부(123), 결정부(124) 및 GO 식별부(125)의 구현 형태는 어느 하나에 의해 제한되지 않는다.
유전자 네트워크 생성부(121)는 유전자 발현 데이터, 즉 시계열 유전자 발현 데이터(40)와 생물학적 상호작용 데이터(45)를 이용하여 시계열 유전자 발현 데이터(40)에 포함된 시점들에 대응되는 유전자 네트워크들을 생성한다. 여기서, 생물학적 상호작용 데이터(45)는 예를 들어, PPI 데이터일 수 있다.
유전자 네트워크 생성부(121)는 시점들 각각에 대하여, 생물학적 상호작용 데이터(45)로부터 시계열 유전자 발현 데이터(40)에 포함된 유전자들 간의 상호작용들(interactions)을 탐색한다. 그리고 나서, 유전자 네트워크 생성부(121)는 시점들 각각에 대하여, 유전자들에 대응되는 유전자 노드들이, 탐색된 상호작용들에 기초한 에지들로 연결된 구조를 갖는 유전자 네트워크를 생성한다.
유전자 네트워크 생성부(121)는 상호작용들을 탐색하기 위하여, 시계열 유전자 발현 데이터(40)에 포함된 전체 유전자들 중, 시점들 각각에서 통계적으로 유의한 유전자 발현 레벨을 갖는 유전자들을 선별한다. 여기서, 유전자 네트워크 생성부(121)는, 시계열 유전자 발현 데이터(40)에 포함된 유전자 발현 레벨들에 대한 퍼터베이션 스코어(perturbation score)에 기초하여, 시점들 각각에 대응되는 유전자들을 선별할 수 있다. 그리고 나서, 유전자 네트워크 생성부(121)는 시점들 각각에 대하여, 생물학적 상호작용 데이터(45)로부터, 선별된 유전자들 간의 상호작용들을 탐색한다.
도 2에 도시된 시계열 유전자 발현 데이터(200)를 참고하여 설명하면, 유전자 네트워크 생성부(121)는 시점 1(time point1)에 대응되는 유전자 네트워크, 시점 2(time point2)에 대응되는 유전자 네트워크, 시점 3(time point3)에 대응되는 유전자 네트워크 및 시점 4(time point4)에 대응되는 유전자 네트워크를 각각 생성할 수 있다. 시점들에 대응되는 유전자 네트워크들의 생성에 대해서는 도 6 및 도 7을 참고하여 보다 상세하게 설명하도록 한다. 한편, 유전자 네트워크 생성부(121)는 시계열 유전자 발현 데이터(40)에 대해 베이지안 네트워크 등과 같은 확률적인 알고리즘들에 기반하여 유전자 네트워크를 생성하지 않으므로, 보다 정확하고 신속하게 유전자 네트워크를 생성할 수 있다.
서브 네트워크 탐색부(122)는, 생성된 유전자 네트워크들 사이에서 공통적으로 존재하는 서브 네트워크를 탐색한다. 탐색된 서브 네트워크는, 공통된 유전자 노드들 및 에지들의 구조를 갖는, 유전자 네트워크들 각각에 공통된 일부 영역이다. 하지만 이에 제한되지 않고, 만약 생성된 유전자 네트워크들이 모두 동일한 경우, 서브 네트워크는 생성된 유전자 네트워크들 그 자체일 수 있다. 서브 네트워크의 탐색에 대해서는 도 8을 참고하여 보다 상세하게 설명하도록 한다.
클러스터 추출부(123)는, 탐색된 서브 네트워크로부터 하나 이상의 클러스터들을 추출한다. 추출된 클러스터들은, N개(N은 자연수) 이상의 유전자 노드들이 M개(M은 자연수) 이상의 에지들로 연결된, 서브 네트워크의 일부이다. 여기서, N개와 M개의 수치는 동일하거나 또는 다를 수 있다. 추출된 클러스터들은, 서브 네트워크 내에서 유전자 노드들 및 에지들이 비교적 밀집되어 있는 영역의 소규모 네트워크 구조를 의미한다. 클러스터 추출부(123)는, 탐색된 서브 네트워크에 대한 토폴로지 분석(topological analysis)을 위한 클러스터링 알고리즘(예를 들어, Cluster ONE 알고리즘, MCODE 알고리즘, MCL(Markov Cluster) 알고리즘 등)에 기초하여 하나 이상의 클러스터들을 추출할 수 있다. 예를 들어, 클러스터 추출부(123)는, 서브 네트워크 내에, 4개 이상의 유전자 노드들이 5개 이상의 에지들로 연결된 네트워크 구조가 존재하는 경우, 이를 클러스터로 추출할 수 있다. 클러스터의 추출에 대해서는 도 9를 참고하여 보다 상세하게 설명하도록 한다.
결정부(124)는, 추출된 클러스터들마다 시점들의 변화에 따른 유전자 노드들의 유전자 발현 레벨들의 추이의 유의성을 검증함으로써, 생물학적 샘플의 표현형의 변화와 연관된 클러스터를 결정한다. 결정부(124)는, 시점들의 변화에 따른 추이가 점진적인 경향을 갖는 경우, 유의한 클러스터인 것으로 결정할 수 있다. 유의성의 검증에 대해서는 도 10을 참고하여 보다 상세하게 설명하도록 한다.
보다 상세하게는, 결정부(124)는 시계열 유전자 발현 데이터(40)의 순열(permutation) 데이터로부터 추출된 랜덤 클러스터를 이용한 랜덤 테스트를 통하여 유의한 클러스터를 결정할 수 있고, 이에 대해서는 도 11a 및 도 11b를 참고하여 보다 상세하게 설명하도록 한다.
GO 식별부(125)는, 결정된 클러스터에 대한 유전자 온톨로지 분석을 통해 표현형과의 연관성을 식별한다. GO 식별부(125)는, 결정된 클러스터에 대한 정보를 데이터 인터페이스(110)를 통해 외부의 유전자 온톨로지 데이터베이스(DB)(미도시)로 전송하고, 데이터 인터페이스(110)를 통해 유전자 온톨로지 데이터베이스(DB)의 분석 결과를 수신하여, 결정된 클러스터에 대해 표현형 정보를 식별한다. 도 12, 도 13d, 도 14d 및 도 15d에는 클러스터에 대한 표현형을 나타내는 유전자 온톨로지 정보(GO term)들이 도시되어 있다.
도 5는 일 실시예에 따라 컴퓨팅 장치에서 시계열 유전자 발현 데이터를 분석하여 표현형 특이적 유전자 네트워크를 식별하는 과정을 설명하기 위한 도면이다.
510 단계에서, 먼저 유전자 네트워크 생성부(121)는 시계열 유전자 발현 데이터(40)와 생물학적 상호작용 데이터(45)를 통합(merge 또는 combine)한다. 보다 상세하게 설명하면, 유전자 네트워크 생성부(121)는 시계열 유전자 발현 데이터(40)에 포함된 시점마다 선별된 유전자들의 상호작용들을 생물학적 상호작용 데이터(45)(예를 들어, PPI 데이터)로부터 파악한다.
520 단계에서, 유전자 네트워크 생성부(121)는 시점마다 파악된 유전자들의 상호작용들에 기초한 유전자 노드들 및 에지들의 구조를 구축함으로써, 시점들 각각에 대응되는 유전자 네트워크들을 생성한다. 예를 들어, 유전자 네트워크 생성부(121)는 표현형 A로 발현된 미성숙 페이즈(young phase)의 시점 T1부터 표현형 A’로 발현된 성숙 페이즈(old phase)의 시점 Tn 사이의 시점들 각각에 대응되는 유전자 네트워크T1, 유전자 네트워크T2, 유전자 네트워크T3, ..., 유전자 네트워크Tn를 생성한다.
530 단계에서, 서브 네트워크 탐색부(122)는 유전자 네트워크T1, 유전자 네트워크T2, 유전자 네트워크T3, ..., 유전자 네트워크Tn 사이에 공통으로 존재하는 서브 네트워크를 탐색한다.
540 단계에서, 클러스터 추출부(123)는 서브 네트워크로부터, 하나 이상의 클러스터들을 추출한다. 본 실시예에서는, 추출된 클러스터는 서브 네트워크의 일부 유전자 노드들 및 에지들로 구성된 네트워크 구조를 갖는 것으로 주로 설명하겠으나, 서브 네트워크는 그 자체로 클러스터가 될 수도 있다. 즉, 다른 실시예에 따르면, 540 단계는 스킵될 수도 있다.
550 단계에서, 결정부(124)는 추출된 클러스터들 각각을 검증하여, 표현형 변화(예를 들어, 표현형 A (young)에서 표현형 A’(old)로의 변화)에 특이적인 유전자 네트워크에 해당되는 클러스터를 결정한다. 예를 들어, 미성숙 페이즈에서의 어느 클러스터 내의 유전자들의 유전자 발현 레벨(551)과, 성숙 페이즈에서의 그 클러스터의 유전자들의 유전자 발현 레벨(552) 사이의 변화가 점진적인 증가 또는 점진적인 감소의 경향을 나타내는 경우, 그 클러스터는 유의한 클러스터로서 표현형 변화(예를 들어, 표현형 A (young)에서 표현형 A’(old)로의 변화)에 특이적인 유전자 네트워크인 것으로 결정될 수 있다. 한편, 시간이 지남에 따른 어느 클러스터의 유전자 발현 레벨의 변화가 유의한지 여부는, 점진적인 경향을 파악하는 것 이외에도 도 11a 및 도 11b의 랜덤 테스트를 통해 판단될 수 있다. 즉, 검증 방식은 이 밖에도 다양하게 존재할 수 있다.
560 단계는 옵션적인 단계이다. 즉, 컴퓨팅 장치(10)는 표현형 변화에 특이적인 검증된 클러스터만을 결정하는 것으로 작업을 완료할 수 있다. 다만, 결정된 클러스터가 어떠한 표현형에 연관되는지의 식별 정보가 요구되는 경우, 컴퓨팅 장치(10)는 560 단계를 추가적으로 수행할 수 있다.
560 단계에서, GO 식별부(125)는 550 단계에서 결정된 클러스터에 대한 유전자 온톨로지 분석과 같은 기능적 인리치먼트(functional enrichment)를 수행하여, 결정된 클러스터에 대한 표현형과의 연관성을 식별한다.
도 6은 일 실시예에 따른 시계열 유전자 발현 데이터로부터 각 시점들에 대응되는 유전자를 선별하는 과정을 설명하기 위한 도면이다. 도 6에 대한 설명은, 도 5의 510 단계에서 수행될 수 있다.
원본 시계열 유전자 발현 데이터는 앞서 도 2에서 설명된 데이터(200)인 것으로 가정한다.
테이블(610)은 시계열 유전자 발현 데이터(도 1의 40)에 추가적으로, 각 유전자들에 대한 유전자 발현 레벨들의 평균들(averages)이 나열된 컬럼을 포함한다. 예를 들어, 시점 1(time point1)부터 시점 4(time point4)까지에서의, 유전자 1의 평균은 0.275이고, 유전자 2의 평균은 -0.3이고, 유전자 3의 평균은 0.45이고, 유전자 4의 평균은 0.275이고, 유전자 5의 평균은 0.5이다.
테이블(620)에는, 테이블(610)에서의 평균들을 이용하여 계산된, 시점마다 각각의 유전자들에 대한 퍼터베이션 스코어들(perturbation scores, PSs)이 나열되어 있다. 퍼터베이션 스코어(PS)는 아래 수학식 1(615)을 이용하여 계산될 수 있다.
Figure pat00001
수학식 1을 참고하면, i는 테이블(610)의 로우(row)(즉, 유전자), j는 테이블(610)의 컬럼(즉, 시점)을 의미한다. 즉, i=1은 유전자 1을 나타내고, j=1은 시점 1(time point1)을 나타낸다. e는 시점 j에서 i번째 유전자의 유전자 발현 레벨을 나타내며, M은 사용된 시계열 유전자 발현 데이터에서의 전체 시점들의 개수를 나타낸다.
Figure pat00002
는 시점 j에서 i번째 유전자의 퍼터베이션 스코어(PS)를 나타낸다.
예를 들어, 시점 1(time point1)에서의 유전자 1의 유전자 발현 레벨은 0.4이므로, 시점 1(time point1)에서의 유전자 1에 대한 퍼터베이션 스코어(PS)는 위 수학식 1을 이용하여 0.125로 계산될 수 있다. 이와 같은 방식으로, 시점마다 각각의 유전자들에 대한 퍼터베이션 스코어들(PSs)이 계산될 수 있고, 그 퍼터베이션 스코어들(PSs)은 테이블(620)에 도시되어 있다.
테이블(630)에는, 테이블(620)에서의 퍼터베이션 스코어들(PSs)을 이용하여 계산된, 최종 퍼터베이션 스코어들(final perturbation score, final PSs)이 나열되어 있다. 테이블(623)에는, 앞서 테이블(620)에 포함된 퍼터베이션 스코어들(PSs)의 통계량인 평균(mean)과 표준편차(SD)가 도시되어 있고, 또한 이 평균과 표준편차(SD)를 이용한 임계값이 도시되어 있다. 도 6에서 임계값은 평균과 표준편차를 합한 값으로 가정하였으나, 이에 제한되지 않는다.
최종 퍼터베이션 스코어들(final PSs)은 수학식 2(625)에 의해 구해질 수 있다.
Figure pat00003
수학식 2를 참고하면,
Figure pat00004
는 시점 j에서 i번째 유전자의 퍼터베이션 스코어를 나타낸다.
즉, 테이블(620)에서의 퍼터베이션 스코어들(PSs) 중, 임계값 미만의 퍼터베이션 스코어(PS)는 최종 퍼터베이션 스코어(final PS)가 0인 것으로 계산된다. 그러나, 퍼터베이션 스코어들(PSs) 중, 임계값 이상의 퍼터베이션 스코어(PS)는 그 값이 최종 퍼터베이션 스코어(final PS)인 것으로 계산된다. 예를 들어, 시점 4(time point4)에서의 유전자 1의 퍼터베이션 스코어(PS)는 임계값 0.376보다 작은 0.125이므로, 시점 4(time point4)에서의 유전자 1에 대한 최종 퍼터베이션 스코어(final PS)는 위 수학식 2를 이용하여 0으로 계산된다. 시점 4(time point4)에서의 유전자 2의 퍼터베이션 스코어(PS)는 임계값 0.376보다 큰 0.5이므로, 시점 4(time point4)에서의 유전자 2에 대한 최종 퍼터베이션 스코어(final PS)는 위 수학식 2를 이용하여 0.5로 계산된다.
즉, 테이블(630)에는, 위와 같이 수학식 2를 이용하여 계산된 최종 퍼터베이션 스코어들(final PSs)이 포함되어 있다. 다만, 경우에 따라서는, 테이블(630)에 도시된 바와 같이, 시점 1(time point1)의 최종 퍼터베이션 스코어들(final PSs) 및 시점 2(time point2)의 최종 퍼터베이션 스코어들(final PSs)이 병합될 수 있다. 하지만, 이와 달리 시점 1(time point1)의 최종 퍼터베이션 스코어들(final PSs) 및 시점 2(time point2)의 최종 퍼터베이션 스코어들(final PSs)은 별개의 컬럼들로 구분될 수도 있다. 즉, 어느 하나의 경우에 의해 제한되지 않는다.
유전자 네트워크 생성부(121)는 앞서 설명된 테이블들(610, 620, 623, 630) 및 수학식들(615 및 625)을 이용하여, 시점마다 각 유전자들에 대한 최종 퍼터베이션 스코어들(final PSs)을 계산한다. 유전자 네트워크 생성부(121)에서 최종 퍼터베이션 스코어들(final PSs)과 같은 통계량을 계산하는 이유는, 각 시점마다 유의미한(meaningful) 유전자들을 선별하기 위함이다. 예를 들어, 시점 1 및 2(time points1 and 2)에서는, 최종 퍼터베이션 스코어들(final PSs)이 0인 유전자 1, 유전자 3 및 유전자 5를 제외하고, 0이 아닌 최종 퍼터베이션 스코어들(final PSs)을 갖는 유전자 2 및 유전자 4만이 시점 1 및 2(time points1 and 2)에서의 표현형 발현(phenotype expression)에 유의미하게 연관된 유전자들일 수 있다. 즉, 유전자 네트워크 생성부(121)는 시점 1 및 2(time points1 and 2)에 대해서는 유전자 2 및 유전자 4를 선별하고, 시점 3(time point3)에 대해서는 유전자 1 및 유전자 2를 선별하고, 시점 4(time point4)에 대해서는 유전자 2, 유전자 3 및 유전자 4를 선별한다. 유전자 5는 어느 시점에서도 선별되지 않는 것으로서, 시점 1(time point1)부터 시점 4(time point4) 사이의 표현형 변화에 관련이 없는 유전자일 수 있다.
다만, 도 6에서 설명된 것과 다른 통계적인 방식으로도 퍼터베이션 스코어가 계산될 수 있고, 또는 퍼터베이션 스코어 외에도 다른 통계량이 이용될 수도 있다. 즉, 시점마다 유의미한 유전자를 선별하는 과정은 어느 하나에 의해 제한되지 않는다.
도 7은 일 실시예에 따라 시점마다 선별된 유전자들을 이용하여 시점들 각각에 대응되는 유전자 네트워크를 생성하는 것을 설명하기 위한 도면이다. 도 7에 대해서는 도 6을 연계하여 설명하도록 한다. 도 7에 대한 설명은, 도 5의 510 및 520 단계에서 수행될 수 있다. 다만, 도 6에서는 총 5개의 유전자들만을 가정하여 설명하였으나, 이는 설명의 편의를 위한 것일 뿐이다. 시계열 유전자 발현 데이터(도 2의 200)에는 5개 이상의 많은 유전자들이 포함될 수 있고, 도 7에서는 이와 같이 가정하여 설명하도록 한다.
앞서 도 6에서 설명된 바와 같이, 시점 1 및 2(time points1 and 2)에서는 유전자 2, 유전자 4 등이 선별되었으므로, 유전자 2, 유전자 4 등은 시점 1 및 2(time points1 and 2)에서의 유전자 노드들(710)에 해당된다. 시계열 유전자 발현 데이터(도 1의 40 또는 도 2의 200)만으로는 유전자 노드들(710)(유전자 2, 유전자 4 등) 간의 상호작용들을 파악하기 어렵다. 따라서, 유전자 네트워크 생성부(121)는 앞서 도 5의 510 단계에서 설명된 바와 같이, PPI 데이터(700)(즉, 생물학적 상호작용 데이터(도 1의 45))를 이용한다. PPI 데이터(700)에는 단백질들 간의 상호작용들에 대해서 정의되어 있다. 단백질은 결국 유전자들의 발현 산물에 해당되는바, 유전자 노드들(710)(유전자 2, 유전자 4 등) 각각이 어느 단백질에 대응되는지 분석된다면, PPI 데이터(700) 내에 포함된 해당 단백질들의 상호작용들을 통해, 유전자 노드들(710)(유전자 2, 유전자 4 등) 간의 상호작용들이 유추될 수 있다. 한편, PPI 데이터(700)는 Marc Vidal et al., A proteome-scale map of the human Interactome Network, Cell, 2014의 논문에서 사용된 PPI일 수 있으나, 이에 제한되지 않는다.
PPI 데이터(700)를 통해 분석된 유전자 노드들(710)(유전자 2, 유전자 4 등) 간의 상호작용들은 결국, 유전자 노드들(710)(유전자 2, 유전자 4 등) 간의 에지들에 해당된다. 따라서, 유전자 네트워크 생성부(121)는 유전자 노드들(710)(유전자 2, 유전자 4 등) 및 PPI 데이터(700)에 의해 분석된 에지들에 기초하여, 시점 1 및 2(time points1 and 2)에 대응되는 유전자 네트워크T1 , 2(715)를 생성한다. 유전자 네트워크 생성부(121)는 마찬가지의 방식으로, 유전자 노드들(720 및 730)과 PPI 데이터(700)를 이용하여(결합하여), 시점 3(time point3)에 대응되는 유전자 네트워크T3(725) 및 시점 4(time point4)에 대응되는 유전자 네트워크T4(735)를 생성한다.
도 8은 일 실시예에 따른 서브 네트워크를 탐색하는 것을 설명하기 위한 도면이다. 도 8에 대한 설명은, 도 5의 530 단계에서 수행될 수 있다.
앞서 설명된 바와 같이, 유전자 네트워크 생성부(121)는 시점들(T1, T2, T3, ..., Tn) 각각에 대응되는 유전자 네트워크들(810)을 생성한다.
서브 네트워크 탐색부(122)는 유전자 네트워크들(810) 간에 공통적으로 존재하는 공통의(common) 서브 네트워크(820)를 탐색한다. 서브 네트워크 탐색부(122)는 유전자 네트워크들(810)을 서로 비교하여 공통의 유전자 노드들 및 공통의 에지들을 찾아냄으로써, 서브 네트워크(820)를 탐색할 수 있다. 다만, 유전자 네트워크들(810)로부터 서브 네트워크(820)가 탐색될 수 있는 한, 서브 네트워크 탐색부(122)에서 서브 네트워크(820)를 탐색하는 방식은 어느 하나에 의해 제한되지 않는다.
도 9는 일 실시예에 따라, 탐색된 서브 네트워크로부터 하나 이상의 클러스터를 추출하는 것을 설명하기 위한 도면이다. 도 9에 대한 설명은, 도 5의 540 단계에서 수행될 수 있다.
클러스터 추출부(123)는, 탐색된 서브 네트워크(820)로부터 하나 이상의 클러스터들을 추출한다. 추출된 클러스터들은, 서브 네트워크(820) 내에서 유전자 노드들 및 에지들이 비교적 밀집되어 있는 영역에 존재할 수 있다.
서브 네트워크(820) 내에서 다수의 에지들로 연결된 다수의 유전자 노드들은, 비교적 소수(예를 들어, 1개)의 에지들이 연결된 비교적 소수의(예를 들어, 2개) 유전자 노드들보다, 표현형 변화에 연관될 확률이 높다. 다수의 에지들로 연결된 다수의 유전자 노드들 중에서 어느 한 유전자 노드의 기능은 나머지 다른 유전자 노드들의 기능들과 상호작용되므로, 어느 한 유전자 노드의 유전자 발현 레벨의 변화는 다른 유전자 노드들의 유전자 발현 레벨들의 변화들에 전반적으로 영향을 끼칠 수 있다. 따라서, 다수의 에지들로 연결된 다수의 유전자 노드들로 구성된 클러스터는 표현형 변화와 밀접한 관련이 있는(표현형 변화의 원인이 되는) 후보 유전자 네트워크로 고려될 수 있다.
그러므로, 클러스터 추출부(123)는, 서브 네트워크(820)로부터, N개(N은 자연수) 이상의 유전자 노드들이 M개(M은 자연수) 이상의 에지들로 연결된 클러스터를 추출한다. (N과 M은 동일하거나 또는 다른 수 이다.) 클러스터 추출부(123)는, 탐색된 서브 네트워크에 대한 토폴로지 분석을 위한 클러스터링 알고리즘(예를 들어, Cluster ONE 등)에 기초하여 하나 이상의 클러스터들을 추출할 수 있다.
도 9를 참고하면, 클러스터 추출부(123)는, 서브 네트워크(820)로부터 예를 들어, 클러스터 1(911), 클러스터 2(912) 및 클러스터 3(913)을 추출할 수 있다.
다만, 다른 실시예에 따르면, 앞서 설명된 바와 같이, 서브 네트워크(820) 자체가 클러스터에 해당될 수도 있다. 예를 들어, 만약 서브 네트워크 탐색부(122)에 의해 탐색된 서브 네트워크(820)가 클러스터 1(911)의 구조와 동일한 경우에는, 서브 네트워크(820)로부터 클러스터를 별도로 추출하지 않고 서브 네트워크(820) 자체가 클러스터에 해당되는 것으로 간주될 수 있다.
도 10은 일 실시예에 따라, 클러스터들이 표현형 변화에 연관되어 있는지 여부를 검증하는 것을 설명하기 위한 도면이다. 도 9에 대한 설명은, 도 5의 550 단계에서 수행될 수 있다. 클러스터들(911, 912 및 913)에 포함된 유전자 노드들의 색깔은 유전자 발현 레벨의 높낮이를 상대적으로 표현한 것이다.
결정부(124)는 클러스터 1(911), 클러스터 2(912) 및 클러스터 3(913) 각각이 시점 1(time point1)부터 시점 4(time point4)까지의 시간이 지남에 따른 표현형 변화에 연관되어 있는지 여부를 검증한다.
클러스터 1(911)에 대해 설명하면, 클러스터 1(911)은 시점 1(time point1)부터 시점 4(time point4)까지의 시간이 지남에 따라(즉, 표현형이 변화함에 따라) 점진적으로 증가하는 유전자 발현 레벨들을 갖는 유전자 노드들(4개의 유전자 노드들)과, 점진적으로 감소하는 유전자 발현 레벨들을 갖는 유전자 노드(1개의 유전자 노드)를 포함한다. 따라서, 클러스터 1(911)은 시간이 지나는 것(즉, 표현형이 변화하는 것)에 대응되도록 유전자 발현 레벨들의 추이가 점진적인 증가 또는 감소 경향을 나타내므로, 클러스터 1(911)은 유의한 클러스터로 결정될 수 있다.
마찬가지로, 클러스터 2(912)는 시점 1(time point1)부터 시점 4(time point4)까지의 시간이 지남에 따라(즉, 표현형이 변화함에 따라) 점진적으로 증가하는 유전자 발현 레벨들을 갖는 유전자 노드들(2개의 유전자 노드들)과, 점진적으로 감소하는 유전자 발현 레벨들을 갖는 유전자 노드(2개의 유전자 노드)를 포함한다. 따라서, 클러스터 2(912)도 시간이 지나는 것(즉, 표현형이 변화하는 것)에 대응되도록 유전자 발현 레벨들의 추이가 점진적인 증가 또는 감소 경향을 나타내므로, 클러스터 2(912)도 유의한 클러스터로 결정될 수 있다.
하지만, 클러스터 3(913)은 시간이 지남에 따라 유전자 노드들의 유전자 발현 레벨들의 추이가 랜덤하므로, 클러스터 3(913)은 유의하지 않은 클러스터로 결정될 수 있다.
한편, 도 10에서 설명된 바와 같이, 본 실시예들에 따른 표현형 특이적 유전자 네트워크의 분석은, 시간이 지남에 따라 클러스터의 네트워크 구조는 변경되지 않으면서 클러스터 내의 유전자들의 유전자 발현 레벨들만이 변화하는 것을 전제하여 수행될 수 있으나, 이에 제한되지 않는다.
보다 정량적으로 클러스터들의 유의성을 검증하는 방법은 도 11a 및 도 11b에서 설명하도록 한다. 하지만, 이에 제한되지 않고, 도 11a 및 도 11b 외의 다른 방식으로도 클러스터들의 유의성이 검증될 수 있다.
도 11a 및 도 11b는 일 실시예에 따른 랜덤 테스트를 통하여, 클러스터들이 표현형 변화에 연관되어 있는지 여부를 검증하는 것을 설명하기 위한 도면들이다. 도 11a 및 도 11b에 대한 설명은, 도 5의 550 단계에서 수행될 수 있다.
도 11a를 참고하면, 1110 단계에서, 유전자 네트워크 생성부(121)는 시계열 유전자 발현 데이터(40)에 포함된 시점들을 기준으로 순열(permutation)을 수행함으로써, 순열 데이터(1115)를 생성한다. 도 2에 도시된 시계열 유전자 발현 데이터(200)를 참고하여 보다 상세하게 설명하면, 시계열 유전자 발현 데이터(200)에서 시점들 각각은 컬럼에 해당된다. 시계열 유전자 발현 데이터(200)에 대한 순열 데이터(1115)는, 어느 유전자에 대한 각 시점들에서의 유전자 발현 레벨들(컬럼 데이터)을 서로 치환함으로써(permute), 생성될 수 있다.
예를 들어, 시계열 유전자 발현 데이터(200)에서 유전자 1에 대한 시점 1(time point1)의 유전자 발현 레벨은 0.4, 시점 2(time point2)의 유전자 발현 레벨은 0.5, 시점 3(time point3)의 유전자 발현 레벨은 -0.2, 시점 4(time point4)의 유전자 발현 레벨은 0.4이다. 하지만, 시계열 유전자 발현 데이터(200)로부터 생성된 순열 데이터에서 유전자 1에 대한 시점 1(time point1)의 유전자 발현 레벨은 0.5, 시점 2(time point2)의 유전자 발현 레벨은 -0.2, 시점 3(time point3)의 유전자 발현 레벨은 0.4, 시점 4(time point4)의 유전자 발현 레벨은 0.4일 수 있다. 즉, 순열 데이터(1115)는 어느 유전자에 대하여, 시점들 각각에서의 유전자 발현 레벨들을 서로 랜덤하게 치환시킴으로써 생성될 수 있다. 다만, 순열을 위한 알고리즘은 다양하게 존재할 수 있다. 따라서, 앞서 설명된 순열 방식은 설명의 편의를 위한 것일 뿐, 본 실시예에 따른 순열 데이터(1115)는 시계열 유전자 발현 데이터(200)로부터 다양한 방식들로 생성될 수 있다.
1120 단계에서, 유전자 네트워크 생성부(121)는 순열 데이터(1115)로부터, 시점들 각각에 대응되는 랜덤 유전자 네트워크들을 생성한다. 예를 들어, 유전자 네트워크 생성부(121)는, 시점 1(time point1)에 대응되는 랜덤 유전자 네트워크T1, 시점 2(time point2)에 대응되는 랜덤 유전자 네트워크T2, 시점 3(time point3)에 대응되는 랜덤 유전자 네트워크T3, ..., 시점 n(time pointn)에 대응되는 랜덤 유전자 네트워크Tn를 생성할 수 있다. 이때, 유전자 네트워크 생성부(121)는, 검증 대상의 유전자 네트워크들(도 5의 520 단계에서의 유전자 네트워크들, 또는 도 8의 810)과 동일한 크기(size)로 랜덤 유전자 네트워크들을 생성할 수 있다.
1130 단계에서, 서브 네트워크 탐색부(122)는, 랜덤 유전자 네트워크들 사이에서 공통적으로 존재하는 랜덤 서브 네트워크를 탐색한다.
1140 단계에서, 클러스터 추출부(123)는 랜덤 서브 네트워크로부터 하나 이상의 랜덤 클러스터들을 추출한다.
도 11a 및 도 11b에서 설명된, 랜덤 유전자 네트워크들, 랜덤 서브 네트워크, 랜덤 클러스트들의 용어들에서 “랜덤”의 용어는 랜덤 테스트를 이용한 검증을 위한 목적으로, 순열에 의해 랜덤하게 생성된 것들임을 의미한다.
랜덤 테스트를 이용한 검증을 위하여, 1110 단계 내지 1140 단계는 수회 반복될 수 있고, 반복 수행을 통해 다수의 서로 다른 랜덤 클러스터들이 추출될 수 있다.
도 11b를 참고하면, 그래프(1160)는 다수의 랜덤 클러스터들 각각에 대한, 초기 시점(시점 1(time point1))에서의 유전자 발현 레벨 및 마지막 시점(시점 n(time pointn))에서의 유전자 발현 레벨의 평균의 분포를 나타낸다. 그리고, 막대(1150)는 그래프(1160)에서 1.00%의 확률을 나타내기 위함이다. 어느 유전자 발현 레벨의 평균이 그래프(1160)에서 막대(1150)의 우측에 존재한다면, 그 어느 유전자 발현 레벨의 평균이 발견될 확률은 1.00% 미만이라는 것을 의미한다. 만약, 검증 대상 클러스터(1170)의 초기 시점(시점 1(time point1))에서의 유전자 발현 레벨 및 마지막 시점(시점 n(time pointn))에서의 유전자 발현 레벨의 평균이 1.00% 미만 구간에 속하는 경우, 결정부(124)는 그 클러스터를 유의한 것으로 검증하고 표현형 변화에 연관된 클러스터로 결정될 수 있다. 다만, 유의한 것으로 검증하기 위한 기준 1.00%의 수치는 0.50%, 0.75% 등과 같이 다양하게 변경될 수 있다.
랜덤 테스트는, 시계열 유전자 발현 데이터(40)로부터 추출된 다수의 랜덤 클러스터들의 유전자 발현 레벨들의 추이를 나타내는 분포에서, 검증 대상 클러스터(1170)의 유전자 발현 레벨들의 추이가 낮은 확률로 발견되는지 여부를 검증하기 위한 테스트이다. 랜덤하게 생성된 모집단에서 낮은 확률로 발견된다는 것은, 반대로 말하면 유의미(meaningful)한 것으로 고려될 수 있다. 따라서, 앞서 설명된 랜덤 테스트를 통해 결정부(124)는 클러스터들(도 9의 911, 912 및 913)의 유의성을 검증할 수 있다.
결국, 결정부(124)는 유의하다고 검증된 클러스터는 표현형 특이적 유전자 네트워크(도 1의 50)에 해당되는 것으로 결정할 수 있다.
도 12는 일 실시예에 따른 표현형 특이적 유전자 네트워크에 해당되는 것으로 결정된 클러스터에 대한 유전자 온톨로지 분석을 설명하기 위한 도면이다. 도 12에 대한 설명은, 도 5의 560 단계에서 수행될 수 있다.
GO 식별부(125)는 결정부(124)에 의해 결정된 클러스터들에 대한 정보를 유전자 온톨로지 데이터베이스(DB)(미도시)를 이용하여 분석함으로써, 클러스터들에 대한 표현형과의 연관성을 식별한다.
테이블(1200)을 참고하면, 클러스터 1(911)의 유전자 온톨로지 분석에 따라, GO 식별부(125)는 클러스터 1(911)이 interphase of mitotic cell cycle의 표현형, regulation of cell cycle의 표현형, G1/S transition checkpoint의 표현형 및 cell cycle phase의 표현형에 연관된 것을 식별할 수 있다. 또한, GO 식별부(125)는 각 표현형들에 연관된 정도를 확률로서 식별할 수도 있다.
이상에서 설명된 방법들을 통해, 컴퓨팅 장치(10)는 시계열 유전자 발현 데이터(40)로부터 어느 표현형에 특이적인 유전자 네트워크(50)를 결정하고, 그 결정된 특이적 유전자 네트워크(50)가 어떠한 표현형에 연관되어 있는지를 식별할 수 있다.
도 13a 내지 도 13d는 일 실시예에 따라, 공개된 시계열 마이크로어레이 데이터(GSE41714)로부터 표현형 특이적인 유전자 네트워크를 식별하기 위한 시뮬레이션 과정들을 설명하기 위한 도면들이다.
노화(replicative senescence)에 대한 공개 시계열 마이크로어레이 데이터인 Gene Expression Omnibus (GEO) Series (GSE)41714는, GEO 데이터베이스(http://www.ncbi.nlm.nih.gov/geo)로부터 획득될 수 있다. GSE41714에는 총 31,334개의 유전자들에 대한 시계열 유전자 발현 데이터가 포함되어 있다.
도 13a를 참고하면, 유전자 네트워크 생성부(121)는 앞서 도 6 내지 도 7에서 설명된 방법을 통해, 4개의 시점들(early stage, middle stage, advanced stage 및 very advanced stage) 각각에 대한 유전자 네트워크들을 생성할 수 있다. 이때, 유전자 네트워크 생성부(121)는 최종 퍼터베이션 스코어들(final PS)을 구하기 위한 임계값은 0.2로 계산된다.
테이블(1300)을 참고하면, early stage의 유전자 네트워크는 1,748개의 유전자 노드들 및 2,602개의 에지들을 갖고, middle stage의 유전자 네트워크는 650개의 유전자 노드들 및 701개의 에지들을 갖고, advanced stage의 유전자 네트워크는 301개의 유전자 노드들 및 265개의 에지들을 갖고, very advanced stage의 유전자 네트워크는 1,085개의 유전자 노드들 및 95개의 에지들을 갖는 것으로 생성될 수 있다.
도 13b를 참고하면, 서브 네트워크 탐색부(122)는 early stage, middle stage, advanced stage 및 very advanced stage의 유전자 네트워크들 사이에서 공통으로 존재하는 서브 네트워크(1310)를 탐색한다.
그리고, 클러스터 추출부(123)는 서브 네트워크(1310)로부터 클러스터 1(1311), 클러스터 2(1312) 및 클러스터 3(1313)을 추출한다. 클러스터들(1311, 1312 및 1313) 내의 각 유전자 노드들은 GSE41714에 포함된 유전자들이다. 즉, 본 실시예에 따르면, GSE41714에 포함된 총 31,334개의 유전자들로부터, 노화에 특이적인 클러스터들(1311, 1312 및 1313)을 추출해 낼 수 있다.
도 13c를 참고하면, 추출된 클러스터들(1311, 1312 및 1313)에 대한 검증 결과를 나타내는 테이블(1320)이 도시되어 있다. 테이블(1320)은 클러스터들(1311, 1312 및 1313)에 대한 도 11a 및 도 11b에서 설명된 랜덤 테스트를 통해 획득된 검증 결과일 수 있다. 클러스터들(1311, 1312 및 1313)에 대한 랜덤 테스트 결과, 클러스터들(1311, 1312 및 1313)은 모두 1.00% 미만에 속하므로, 결정부(124)는 클러스터 1(1311), 클러스터 2(1312) 및 클러스터 3(1313) 모두 유의한 것으로 검증한다. 따라서, 결정부(124)는 클러스터 1(1311), 클러스터 2(1312) 및 클러스터 3(1313)은 표현형의 변화에 연관된 클러스터들인 것으로 결정한다.
도 13d를 참고하면, 클러스터 1(1311), 클러스터 2(1312) 및 클러스터 3(1313)에 대한 유전자 온톨로지 분석 결과를 나타내는 테이블(1330)이 도시되어 있다. 즉, GO 식별부(125)는 테이블(1330)에 도시된 바와 같이, 클러스터 1(1311), 클러스터 2(1312) 및 클러스터 3(1313) 각각에 대한 노화와 관련된 구체적인 표현형들(즉, GO term) 및 이 표현형들에 어느 클러스터가 연관된 정도들(확률들)을 식별할 수 있다.
도 13a 내지 도 13d에서 설명된 시뮬레이션 결과에 따르면, 노화에 관한 공개 시계열 유전자 발현 데이터(GSE41714)에 대해 본 실시예들을 적용함으로써, 노화와 관련된 다양한 표현형들(예를 들어, regulation of cyclin-dependent protein kinase activity, interphase of mitotic cell cycle, regulation of cell cycle, G1/S transition checkpoint, cell cycle phase, G1/S DNA damage checkpoint, regulation of transcription, DNA-dependent, regulation of RNA metabolic process 등)에 밀접하게 연관된 유전자 네트워크를 식별할 수 있다.
도 14a 내지 도 14e는 다른 실시예에 따라, 공개된 시계열 마이크로어레이 데이터(GSE41714)에 포함된 유전자들 중 cell cycle과 관련된 일부 유전자들을 선별하여 수행된 시뮬레이션 과정들을 설명하기 위한 도면들이다.
도 14a를 참고하면, GSE41714에 포함된 31,334개의 전체 유전자들에 대한 시계열 유전자 발현 데이터가 아닌, GSE41714에 포함된 전체 유전자들 중 cell cycle에 특이적인 1,275개 일부 유전자들에 대한 시계열 유전자 발현 데이터(1400)가 시뮬레이션에 이용된다.
유전자 네트워크 생성부(121)는 앞서 도 6 내지 도 7에서 설명된 방법을 통해, 4개의 시점들(early stage, middle stage, advanced stage 및 very advanced stage) 각각에 대한 유전자 네트워크들(1401, 1402, 1403 및 1404)을 생성할 수 있다.
도 14b의 테이블(1410)을 참고하면, 시계열 유전자 발현 데이터(1400)에 포함된 cell cycle에 특이적인 1,275개의 유전자 노드들 및 1,275개의 유전자 노드들에 대하여 PPI 데이터(도 7의 700)로부터 분석된 1,477개의 에지들이 유전자 네트워크들의 생성에 기초가 된다.
유전자 네트워크 생성부(121)는 앞서 설명된 방법들을 통해, 171개의 유전자 노드들 및 164개의 에지들을 갖는 early stage의 유전자 네트워크(1401), 42개의 유전자 노드들 및 34개의 에지들을 갖는 middle stage의 유전자 네트워크(1402), 16개의 유전자 노드들 및 13개의 에지들을 갖는 advanced stage의 유전자 네트워크(1403), 92개의 유전자 노드들 및 89개의 에지들을 갖는 very advanced stage의 유전자 네트워크(1404)를 생성한다.
도 14c를 참고하면, 서브 네트워크 탐색부(122)는 early stage, middle stage, advanced stage 및 very advanced stage의 유전자 네트워크들(1401, 1402, 1403 및 1404) 사이에서 공통으로 존재하는 서브 네트워크(1420)를 탐색한다. 한편, 도 14a 내지 도 14e에서 설명되는 시뮬레이션에 따르면, 클러스터 추출부(123)는 서브 네트워크(1420) 내의 일부 네트워크를 추출하지 않고, 서브 네트워크(1420) 자체가 클러스터에 해당되는 것으로 추출한다. 즉, 서브 네트워크(1420)의 크기가 비교적 작은 경우, 클러스터 추출부(123)는 서브 네트워크(1420) 내의 일부 네트워크에 해당되는 별도의 클러스터를 추출하는 대신에, 서브 네트워크(1420) 자체가 클러스터인 것으로 추출할 수 있다.
도 14d 및 도 14e를 참고하면, 결정부(124)는 early stage(1431), middle stage(1432), advanced stage(1433) 및 very advanced stage(1434)로 시간이 지나는 동안 변화되는 서브 네트워크(1420)(즉, 클러스터)의 유전자 발현 레벨들의 추이가 유의한지를 검증한다.
테이블(1440)은 클러스터들(1311, 1312 및 1313)에 대한 도 11a 및 도 11b에서 설명된 랜덤 테스트를 통해 획득된 검증 결과일 수 있다. 테이블(1440)을 참고하면, early stage(1431) 및 middle stage(1432)에서의 서브 네트워크(1420)(클러스터)의 유전자 발현 레벨들의 평균, early stage(1431) 및 advanced stage(1433)에서의 서브 네트워크(1420)(클러스터)의 유전자 발현 레벨들의 평균 및 early stage(1431) 및 very advanced stage(1434)에서의 서브 네트워크(1420)(클러스터)의 유전자 발현 레벨들의 평균은 모두 1.00% 미만에 속하므로, 결정부(124)는 서브 네트워크(1420)(클러스터)는 유의한 것으로 검증한다. 따라서, 결정부(124)는 노화의 cell cycle에 특이적인 1,275개 일부 유전자들로부터 추출된 서브 네트워크(1420)(클러스터)는, 예상된 바와 같이, 노화와 관련된 표현형 cell cycle의 변화에 연관된 클러스터인 것으로 검증할 수 있다.
한편, CRABP2(cellular retinoic acid-binding protein 2) 및 KIF20A(kinesin family member 20A)는 세포 노화 과정에서 다운-레귤레이팅(down-regulated)되는 것으로 알려져 있고, CCND1(cyclin-D1)은 섬유아세포(fibroblast cell)의 노화 과정에서 업-레귤레이팅(up-regulated)되는 것으로 알려져 있다. 본 실시예들이 적용된 도 14a 내지 도 14e에서 설명된 시뮬레이션을 통해, 노화와 관련된 다양한 표현형들의 변화에 연관된 것으로 알려진 CRABP2, KIF20A 및 CCND1의 유전자 노드들을 포함하는 서브 네트워크(1420)(클러스터)가 유의한 클러스터인 것으로 검증되었으므로, 본 실시예들의 적용을 통해 비교적 정확하게 표현형 특이적 유전자 네트워크가 식별될 수 있음을 확인할 수 있다.
도 15a 내지 도 15d는 또 다른 실시예에 따라, 공개된 시계열 마이크로어레이 데이터(GSE15299)로부터 표현형 특이적인 유전자 네트워크를 식별하기 위한 시뮬레이션 과정들을 설명하기 위한 도면들이다.
암 진행(cancer progression)에 대한 공개 시계열 마이크로어레이 데이터인 GSE15299가 이용될 수 있다.
도 15a를 참고하면, 유전자 네트워크 생성부(121)는 앞서 도 6 내지 도 7에서 설명된 방법을 통해, 4개의 시점들(0 day, 5 day, 20 day 및 35 day) 각각에 대한 유전자 네트워크들을 생성할 수 있다. 이때, 유전자 네트워크 생성부(121)는 최종 퍼터베이션 스코어들(final PS)을 구하기 위한 임계값은 2.32로 계산된다.
테이블(1500)을 참고하면, 0 day의 유전자 네트워크는 1,461개의 유전자 노드들 및 1,461개의 에지들을 갖고, 5 day의 유전자 네트워크는 390개의 유전자 노드들 및 383개의 에지들을 갖고, 20 day의 유전자 네트워크는 393개의 유전자 노드들 및 425개의 에지들을 갖고, 35 day의 유전자 네트워크는 532개의 유전자 노드들 및 625개의 에지들을 갖는 것으로 생성될 수 있다.
도 15b를 참고하면, 서브 네트워크 탐색부(122)는 0 day, 5 day, 20 day 및 35 day의 유전자 네트워크들 사이에서 공통으로 존재하는 서브 네트워크(1510)를 탐색한다. 테이블(1500)에 도시된 바와 같이, 서브 네트워크(1510)는 42개의 유전자 노드들 및 28개의 에지들을 갖는다.
그리고, 클러스터 추출부(123)는 서브 네트워크(1510)로부터 클러스터 1(1520)을 추출한다. 클러스터 1(1520) 내의 각 유전자 노드들은 GSE15299에 포함된 유전자들이다. 즉, 본 실시예에 따르면, GSE15299에 포함된 유전자들로부터, 암 진행에 특이적인 클러스터 1(1520)을 추출해 낼 수 있다.
도 15c를 참고하면, 추출된 클러스터 1(150)에 대한 검증 결과를 나타내는 테이블(1530)이 도시되어 있다. 테이블(1530)은 클러스터 1(1520)에 대한 도 11a 및 도 11b에서 설명된 랜덤 테스트를 통해 획득된 검증 결과일 수 있다. 클러스터 1(1520)에 대한 랜덤 테스트 결과, 클러스터 1(1520)은 1.00% 미만에 속하므로, 결정부(124)는 클러스터 1(1520)은 유의한 것으로 검증한다. 따라서, 결정부(124)는 클러스터 1(1520)은 암 진행에 관련된 표현형의 변화에 연관된 클러스터인 것으로 결정한다.
도 15d를 참고하면, 클러스터 1(1520)에 대한 유전자 온톨로지 분석 결과를 나타내는 테이블(1540)이 도시되어 있다. 즉, GO 식별부(125)는 테이블(1540)에 도시된 바와 같이, 클러스터 1(1520)에 대한 암 진행에 관련된 구체적인 표현형들(즉, GO term) 및 이 표현형들에 어느 클러스터가 연관된 정도들(확률들)을 식별할 수 있다.
도 15a 내지 도 15d에서 설명된 시뮬레이션 결과에 따르면, 암 진행에 관한 공개 시계열 유전자 발현 데이터(GSE15299)에 대해 본 실시예들을 적용함으로써, 암 진행과 관련된 다양한 표현형들(예를 들어, regulation of cell shape, response to mechanical stimulus, sensory perception of mechanical stimulus, bone trabecula formation, regulation of cell morphogenesis, regulation of developmental process, activated T cell proliferation 등)에 밀접하게 연관된 유전자 네트워크를 식별할 수 있다.
본 실시예들이 적용된 도 15a 내지 도 15d에서 설명된 시뮬레이션을 통해, tumor suppressor로 알려진 IGFBP3(insulin-like growth factor-binding protein 3)의 유전자 발현 레벨이 초기에 높았다가 암 진행에 따라 점차 낮아짐을 확인할 수 있다. 또한, tumor progression parameter로 알려진 FN1(fibronectin 1), FYN(proto-oncogene tyrosine-protein kinase) 및 COL1A1(collagen, type I, alpha 1)은 암 진행에 따라 점차 유전자 발현 레벨이 증가함을 확인할 수 있다.
도 16은 일 실시예에 따른 유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법의 흐름도이다. 도 16을 참고하면, 표현형 특이적인 유전자 네트워크의 식별 방법은 앞선 도면들에서 설명된 컴퓨팅 장치(10)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라 하더라도 앞선 도면들에서 설명되었던 내용들은 도 16의 표현형 특이적인 유전자 네트워크의 식별 방법에도 적용될 수 있다.
1610 단계에서, 유전자 네트워크 생성부(121)는 시계열 유전자 발현 데이터(40)와 생물학적 상호작용 데이터(45)를 이용하여 시계열 유전자 발현 데이터(40)에 포함된 시점들에 대응되는 유전자 네트워크들을 생성한다.
1620 단계에서, 서브 네트워크 탐색부(122)는 생성된 유전자 네트워크들 사이에서 공통적으로 존재하는 서브 네트워크를 탐색한다.
1630 단계에서, 클러스터 추출부(123)는 탐색된 서브 네트워크로부터 하나 이상의 클러스터들을 추출한다.
1640 단계에서, 결정부(124)는 추출된 클러스터들마다 시점들의 변화에 따른 유전자 노드들의 유전자 발현 레벨들의 추이의 유의성을 검증함으로써, 생물학적 샘플의 표현형의 변화와 연관된 클러스터를 결정한다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (20)

  1. 유전자 발현 데이터와 생물학적 상호작용(interaction) 데이터를 이용하여 상기 유전자 발현 데이터에 포함된 시점들에 대응되는 유전자 네트워크들을 생성하는 단계;
    상기 생성된 유전자 네트워크들 사이에서 공통적으로 존재하는 서브 네트워크를 탐색하는 단계;
    상기 탐색된 서브 네트워크로부터 하나 이상의 클러스터들을 추출하는 단계; 및
    상기 추출된 클러스터들마다 상기 시점들의 변화에 따른 유전자 노드들의 유전자 발현 레벨들의 추이의 유의성을 검증함으로써, 생물학적 샘플의 표현형의 변화와 연관된 클러스터를 결정하는 단계를 포함하는, 방법.
  2. 제 1 항에 있어서,
    상기 추출된 클러스터들은
    N개(N은 자연수) 이상의 유전자 노드들이 M개(M은 자연수) 이상의 에지들로 연결된, 상기 서브 네트워크의 일부인, 방법.
  3. 제 2 항에 있어서,
    상기 추출하는 단계는
    상기 탐색된 서브 네트워크에 대한 토폴로지 분석(topological analysis)에 기초하여 상기 하나 이상의 클러스터들을 추출하는, 방법.
  4. 제 1 항에 있어서,
    상기 유전자 발현 데이터는
    상기 시점들 별로 상기 생물학적 샘플에 포함된 유전자들의 유전자 발현 레벨들이 나열된 시계열(time-series) 유전자 발현 데이터를 포함하는, 방법.
  5. 제 1 항에 있어서,
    상기 생물학적 상호작용 데이터는
    PPI(protein protein interaction) 데이터를 포함하는, 방법.
  6. 제 1 항에 있어서,
    상기 생성하는 단계는
    상기 시점들 각각에 대하여, 상기 생물학적 상호작용 데이터로부터 상기 유전자 발현 데이터에 포함된 유전자들 간의 상호작용들(interactions)을 탐색하는 단계; 및
    상기 시점들 각각에 대하여, 상기 유전자들에 대응되는 유전자 노드들이 상기 탐색된 상호작용들에 기초한 에지들로 연결된 구조를 갖는 유전자 네트워크를 생성하는 단계를 포함하는, 방법.
  7. 제 6 항에 있어서,
    상기 상호작용들을 탐색하는 단계는
    상기 유전자 발현 데이터에 포함된 상기 유전자들 중, 상기 시점들 각각에서 통계적으로 유의한 유전자 발현 레벨을 갖는 유전자들을 선별하는 단계; 및
    상기 시점들 각각에 대하여, 상기 생물학적 상호작용 데이터로부터 상기 선별된 유전자들 간의 상기 상호작용들을 탐색하는 단계를 포함하는, 방법.
  8. 제 7 항에 있어서,
    상기 선별하는 단계는
    상기 유전자 발현 데이터에 포함된 유전자 발현 레벨들에 대한 퍼터베이션 스코어(perturbation score)에 기초하여, 상기 시점들 각각에 대응되는 상기 유전자들을 선별하는, 방법.
  9. 제 1 항에 있어서,
    상기 결정하는 단계는
    상기 시점들의 변화에 따른 상기 추이가 점진적인 경향을 갖는 경우, 유의한 클러스터인 것으로 결정하는, 방법.
  10. 제 1 항에 있어서,
    상기 결정하는 단계는
    상기 유전자 발현 데이터로부터 순열(permutation) 데이터를 생성하는 단계;
    상기 순열 데이터로부터 생성된 랜덤 서브 네트워크로부터 하나 이상의 랜덤 클러스터들을 추출하는 단계; 및
    상기 추출된 클러스터들 각각에 대응되는 상기 추이를 상기 랜덤 클러스터들에 포함된 유전자 노드들의 유전자 발현 레벨들의 추이와 통계적으로 비교함으로써, 상기 유의성을 검증하는 단계를 포함하는, 방법.
  11. 제 1 항에 있어서,
    상기 결정된 클러스터에 대한 유전자 온톨로지(Gene Ontology, GO) 분석을 통해 상기 표현형과의 연관성을 식별하는 단계를 더 포함하는, 방법.
  12. 제 1 항 내지 제 11 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  13. 유전자 발현 데이터와 생물학적 상호작용 데이터를 이용하여 상기 유전자 발현 데이터에 포함된 시점들에 대응되는 유전자 네트워크들을 생성하는 유전자 네트워크 생성부;
    상기 생성된 유전자 네트워크들 사이에서 공통적으로 존재하는 서브 네트워크를 탐색하는 서브 네트워크 탐색부;
    상기 탐색된 서브 네트워크로부터 하나 이상의 클러스터들을 추출하는 클러스터 추출부; 및
    상기 추출된 클러스터들마다 상기 시점들의 변화에 따른 유전자 노드들의 유전자 발현 레벨들의 추이의 유의성을 검증함으로써, 생물학적 샘플의 표현형의 변화와 연관된 클러스터를 결정하는 결정부를 포함하는, 장치.
  14. 제 13 항에 있어서,
    상기 추출된 클러스터들은
    N개(N은 자연수) 이상의 유전자 노드들이 M개(M은 자연수) 이상의 에지들로 연결된, 상기 서브 네트워크의 일부인, 장치.
  15. 제 13 항에 있어서,
    상기 유전자 발현 데이터는
    상기 시점들 별로 상기 생물학적 샘플에 포함된 유전자들의 유전자 발현 레벨들이 나열된 시계열(time-series) 유전자 발현 데이터를 포함하는, 장치.
  16. 제 13 항에 있어서,
    상기 생물학적 상호작용 데이터는
    PPI(protein protein interaction) 데이터를 포함하는, 장치.
  17. 제 13 항에 있어서,
    상기 유전자 네트워크 생성부는
    상기 시점들 각각에 대하여, 상기 생물학적 상호작용 데이터로부터 상기 유전자 발현 데이터에 포함된 유전자들 간의 상호작용들(interactions)을 탐색하고,
    상기 시점들 각각에 대하여, 상기 유전자들에 대응되는 유전자 노드들이 상기 탐색된 상호작용들에 기초한 에지들로 연결된 구조를 갖는 유전자 네트워크를 생성하는, 장치.
  18. 제 17 항에 있어서,
    상기 유전자 네트워크 생성부는
    상기 유전자 발현 데이터에 포함된 상기 유전자들 중, 상기 시점들 각각에서 통계적으로 유의한 유전자 발현 레벨을 갖는 유전자들을 선별하고,
    상기 시점들 각각에 대하여, 상기 생물학적 상호작용 데이터로부터 상기 선별된 유전자들 간의 상기 상호작용들을 탐색하는, 장치.
  19. 제 13 항에 있어서,
    상기 결정부는
    상기 유전자 발현 데이터로부터 순열(permutation) 데이터를 생성하고, 상기 순열 데이터로부터 생성된 랜덤 서브 네트워크로부터 하나 이상의 랜덤 클러스터들을 추출하고, 상기 추출된 클러스터들 각각에 대응되는 상기 추이를 상기 랜덤 클러스터들에 포함된 유전자 노드들의 유전자 발현 레벨들의 추이와 통계적으로 비교함으로써 상기 유의성을 검증하는, 장치.
  20. 제 13 항에 있어서,
    상기 결정된 클러스터에 대한 유전자 온톨로지(Gene Ontology, GO) 분석을 통해 상기 표현형과의 연관성을 식별하는 GO 식별부를 더 포함하는, 장치.
KR1020150090016A 2015-06-24 2015-06-24 유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치 KR20170000707A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150090016A KR20170000707A (ko) 2015-06-24 2015-06-24 유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치
US14/937,345 US20160378914A1 (en) 2015-06-24 2015-11-10 Method of and apparatus for identifying phenotype-specific gene network using gene expression data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150090016A KR20170000707A (ko) 2015-06-24 2015-06-24 유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20170000707A true KR20170000707A (ko) 2017-01-03

Family

ID=57602427

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150090016A KR20170000707A (ko) 2015-06-24 2015-06-24 유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치

Country Status (2)

Country Link
US (1) US20160378914A1 (ko)
KR (1) KR20170000707A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023080571A1 (ko) * 2021-11-08 2023-05-11 주식회사 씨젠 타겟 분석물을 검출하기 위한 서열 식별자를 선정하는 방법
KR20230094009A (ko) 2021-12-20 2023-06-27 한양대학교 산학협력단 유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023080571A1 (ko) * 2021-11-08 2023-05-11 주식회사 씨젠 타겟 분석물을 검출하기 위한 서열 식별자를 선정하는 방법
KR20230094009A (ko) 2021-12-20 2023-06-27 한양대학교 산학협력단 유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치

Also Published As

Publication number Publication date
US20160378914A1 (en) 2016-12-29

Similar Documents

Publication Publication Date Title
Liu et al. DNA methylation atlas of the mouse brain at single-cell resolution
Aevermann et al. A machine learning method for the discovery of minimum marker gene combinations for cell type identification from single-cell RNA sequencing
KR101950395B1 (ko) 개체군 유전체 염기서열 및 변이의 변환데이터에 대한 인공지능 딥러닝 모델을 이용한 바이오마커 검출 방법
Latkowski et al. Computerized system for recognition of autism on the basis of gene expression microarray data
Baranasic et al. Multiomic atlas with functional stratification and developmental dynamics of zebrafish cis-regulatory elements
CN112951327A (zh) 药物敏感预测方法、电子设备及计算机可读存储介质
KR101990429B1 (ko) 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법
Zhang et al. Computational methods for analysing multiscale 3D genome organization
Flassig et al. An effective framework for reconstructing gene regulatory networks from genetical genomics data
Cleary et al. Compressed sensing for imaging transcriptomics
KR20170000707A (ko) 유전자 발현 데이터를 이용하여 표현형 특이적인 유전자 네트워크를 식별하는 방법 및 장치
TWI709904B (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
KR102543757B1 (ko) 이종 플랫폼의 dna 메틸레이션 데이터를 이용한 암의 예후 예측용 바이오마커 발굴 방법 및 장치
Nayak et al. Deep learning approaches for high dimension cancer microarray data feature prediction: A review
JP6356015B2 (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
Vilo et al. Regulatory sequence analysis: application to the interpretation of gene expression
Zheng et al. Deep neural networks identify context-specific determinants of transcription factor binding affinity
Zararsiz et al. Introduction to statistical methods for microRNA analysis
Zheng et al. Improving pattern discovery and visualization of SAGE data through poisson-based self-adaptive neural networks
Wang et al. DeCOOC Deconvoluted Hi‐C Map Characterizes the Chromatin Architecture of Cells in Physiologically Distinctive Tissues
KR102405732B1 (ko) 세포 클러스터링 방법 및 장치
Cantini et al. Stabilized Independent Component Analysis outperforms other methods in finding reproducible signals in tumoral transcriptomes
Tripathi et al. Minimal frustration underlies the usefulness of incomplete and inexact regulatory network models in biology
Ding et al. Additive noise analysis on microarray data via SVM classification
Elyasigomari Analysis of microarray and next generation sequencing data for classification and biomarker discovery in relation to complex diseases