KR102176721B1 - 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법 - Google Patents

기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법 Download PDF

Info

Publication number
KR102176721B1
KR102176721B1 KR1020190031988A KR20190031988A KR102176721B1 KR 102176721 B1 KR102176721 B1 KR 102176721B1 KR 1020190031988 A KR1020190031988 A KR 1020190031988A KR 20190031988 A KR20190031988 A KR 20190031988A KR 102176721 B1 KR102176721 B1 KR 102176721B1
Authority
KR
South Korea
Prior art keywords
gene
disease
functional
genes
ontology
Prior art date
Application number
KR1020190031988A
Other languages
English (en)
Other versions
KR20200112078A (ko
Inventor
이관수
민범기
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020190031988A priority Critical patent/KR102176721B1/ko
Publication of KR20200112078A publication Critical patent/KR20200112078A/ko
Application granted granted Critical
Publication of KR102176721B1 publication Critical patent/KR102176721B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

질병 판별 시스템의 동작 방법으로서, 기능이 유사한 유전자들이 묶인 기능 그룹들을 수집하는 단계, 상기 기능 그룹들에서 출현하는 빈도가 기준 이상인 다기능 유전자들을 추출하는 단계, 다기능 유전자 간 기능 유사도를 기초로 상기 다기능 유전자들의 조합으로 구성된 적어도 하나의 공통기능 그룹 지표를 탐색하고, 각 공통기능 그룹 지표를 노드로 가지는 기저 온톨로지를 생성하는 단계, 수집한 전체 유전자들로 그룹 지표 탐색 범위를 확장하고, 유전자 간 기능 유사도를 기초로 유전자들의 조합으로 구성된 적어도 하나의 세부기능 그룹 지표를 탐색하며, 상기 기저 온톨로지 기반에서 각 세부기능 그룹 지표를 노드로 추가하여 기능 온톨로지를 생성하는 단계, 그리고 상기 기능 온톨로지를 구성하는 노드들을 기능 그룹 지표들로 선정하는 단계를 포함한다.

Description

기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법{SYSTEM AND METHOD FOR DISEASE PREDICTION BASED ON GROUP MARKER CONSISTING OF GENES HAVING SIMILAR FUNCTION}
본 발명은 생물정보학(Bioinformatics) 기술에 관한 것이다.
환자의 질병 여부, 질병 내 상태, 질병 유발 기전 등을 알아내기 위하여 mRNA나 단백질 등의 다양한 분자 지표가 활용되고 있다. 최근에는 질병 상태를 보다 정확하고 일관되게 판별할 수 있는 지표를 찾기 위해, 질병 상태 별 다양한 오믹스 데이터를 활용하여 특이적 패턴을 보이는 분자 지표를 발굴하고 있다. 오믹스 데이터는 한 세포의 모든 유전자 변이 또는 발현양을 측정하는 것으로서, 세포 내에서 나타날 수 있는 모든 유전자들을 상대 비교함으로써 특정 유전자에 편향되지 않는 공정한 선정과 함께 질병 기전과의 연관성을 통섭적으로 해석 가능한 장점을 제공한다.
대표적 오믹스 데이터로는 유전체, 전사체, 단백체, 대사체를 들 수 있다. 유전체 변이 데이터는 인체 DNA 전반에 걸친 수백 만개의 변이 정보로부터 나오는 것으로 적은 수의 환자 데이터에서 정확한 연관성을 찾는데 매우 큰 한계가 있다. 단백체나 대사체 오믹스 데이터는 세포 기능과의 직접적 연계성이 큰 장점이 있는 반면, 측정 가능한 유전자 수는 아직 수 백에서 1천개로서, 수 만개의 유전자 전체에 이르는 전사체에 비해 한정된 것이 큰 단점이다. 전사체는 유전자 전체를 대상으로 측정 가능하며, 동시에 유전자가 mRNA 상태로 발현된 것을 측정하는 것으로서 질병 기전과의 연관성이 단백질 발현 측정 수준에 근접하여 가장 활발히 활용되고 있다. 질병 상태가 결정되는 기전은 세포 내의 단위 기능들과 이들이 조합된 상위 기능들로 복잡하게 구성된다. 세포 내 기능들은 DNA에 정보화된 유전자가 mRNA를 거쳐 단백질로 발현되는 과정, 그리고 단백질들의 단위 기능들에 의해 다양한 대사물질 및 다음 단계의 세포 기능들이 결정되는 과정이 포함된다. 단위 기능 및 조합된 상위 기능들을 결정하는 유전자들의 조직화되고 네트워크화된 조절 관계가 유전자들의 1차 발현 산물들(mRNA, 단백질)과 2차 산물들에 의해 구성되는 것으로 파악되고 있다. 그러나, 현재는 주로 개별적인 생체 분자들과 이들 기능들의 인과관계 또는 생체 분자들과 질병의 인과관계가 매우 한정적으로 밝혀져 있다. 따라서, 가용 가능한 개별 유전자 또는 종합적인 오믹스 실험 데이터들을 바탕으로 최대한 효율적이고 정확한 예측을 하기 위해 다양한 정보학적 방법과 모델링 방법들이 적용되고 있다. DNA 마이크로어레이 또는 RNASeq 등의 전사체 분석 데이터는 식별 가능한 생체 분자들의 범위가 전체 유전자로 최대이며, 측정의 편리성으로 다양한 종류의 대다수 환자 데이터를 제공한다. 따라서, 전사체 분석 데이터가 질병 기전과 생체 분자간의 인과관계를 생체 기전의 복잡성을 반영하여 예측할 수 있는 가장 효율적인 자원이라고 할 수 있다.
임상적인 목적의 질병 진단, 예후 예측, 약물 동반 진단 등을 달성하기 위한 생체 분자 지표의 선정에도, 조직화되고 네트워크화된 생체 기전을 반영한 기법을 적용하여 판별의 정확성과 안정성/재현성을 확보할 수 있다. 현재, 대부분의 질병 전사체를 통한 지표화 기술은 질병 상태에 따라 mRNA(유전자의 전사 물질) 발현량이 유의미하게 변화하는 유전자들을 선별하고, 이로부터 개별 유전자의 발현 지표 또는 유전자들의 조합을 활용하여 지표화 한다. 질병 상태는 다양한 유전자 기능들이 종합된 결과이므로, 개별 유전자의 발현 차이를 이용한 지표화는 근본적인 한계가 있고, 같은 질병 상태의 환자들도 큰 편차를 보여 선정된 지표의 신뢰도와 안정성/재현성이 크게 떨어진다. 개별 환자의 질병 상태와 연관 있는 변이와 연관 없는 변이의 차이를 구분하기 어렵다.
질병 기전을 구성하는 기능군 내 유전자들의 변이를 통합하여 표현하면, 질병 상태와 연관 없는 변이는 상쇄하고 연관 있는 변이는 강화할 수 있어서, 같은 질병 상태의 다양한 환자들을 포괄하는 안정적인 지표를 도출할 수 있다. 최근 시도되고 있는 기법으로, 발현 패턴이 유사한 여러 개의 개별 분자 지표들을 하나의 그룹으로 묶어서 지표화하거나, 기존에 알려진 기능군 내 유전자들을 그룹화하고 이들의 발현 패턴 유사성에 따라 최종 그룹을 구성하는 기법들이 있다.
하지만, 발현 패턴 유사성 기반 그룹 지표화는 여전히 패턴 발굴에 참여한 환자 그룹(샘플)에 영향을 받기 때문에, 개별 유전자 지표보다는 개선되었으나 정확성과 안정성이 크게 개선되지 않는다. 이들 패턴 그룹들과 유사한 기능군을 결정하기도 어려워 환자 샘플의 수가 매우 늘어나기 전에는 이러한 패턴 그룹들이 의미가 있는지 결정하기 어려운 상황이다.
기존에 알려진 기능군 중심의 그룹 지표화는 다양한 기능 정보들이 있음에도 불구하고 Gene Ontology 등으로 대표되는 한정된 기능 정보만을 활용하여 기능군을 결정하는 근본적인 한계가 있다. 현재, 각종 실험 데이터와 정보 분석 데이터를 통해 수백만 가지의 기능군 조합을 도출할 수 있으나, 수백만 가지의 기능군을 종합하여 포괄적이고 필수적인 형태의 기능군으로 재구성할 수 있는 기술이 존재하지 않는다. 따라서, 단일 리소스만을 활용하거나 리소스 내 모든 기능 정보를 단순 병합하여 분석하고 있는 상황이다.
또한, 발현 패턴 유사성 기반으로 선정된 그룹 지표와 알려진 기능군 중심으로 선정된 그룹 지표는, 다양한 질병 상태 또는 질병 기전에서 그룹 지표 후보들의 판별 성능을 보여주지 못한다. 현재까지 시도된 그룹 지표는 질병 기전을 바탕으로 질병 상태를 판별하는 안정적인 지표라고 볼 수 없다.
따라서, 질병에 의미 있는 변이 탐색이 어려워 신뢰도와 안정성이 떨어졌던 기존의 개별 유전자 발현 지표의 한계점을 극복하고, 또한 다양한 기능 정보를 활용하지 못한 기존 기능군 분석 방법의 한계를 극복할 수 있는 새로운 그룹 지표가 요구된다.
(특허문헌 1) KR10-1927910 B
(특허문헌 2) KR10-1990429 B
(특허문헌 3) KR10-1860061 B
해결하고자 하는 과제는 기능이 유사한 유전자들을 하나의 기능 그룹 지표로 (재)구성하고, 그룹 지표들을 이용하여 질병을 판별하는 시스템 및 방법을 제공하는 것이다.
해결하고자 하는 과제는 다양한 기능 정보를 통합 분석하여, 질병과 연관된 포괄적이고 필수적인 기능의 유전자들을 재구성하여 질병 그룹 지표 후보를 발굴하고, 질병 판별력 검증을 통해 질병 그룹 지표를 선정하는 시스템 및 방법을 제공하는 것이다.
해결하고자 하는 과제는 다양한 기능 그룹들을 재구성하여 새로운 기능 그룹 지표들을 발굴하고, 각 기능 그룹 지표의 질병 연관성을 점수화하여 질병 그룹 지표를 발굴하고, 질병 그룹 지표를 기반으로 질병 상태 판별이 가능한 판별 모델을 구성하는 시스템 및 방법을 제공하는 것이다.
한 실시예에 따른 질병 판별 시스템의 동작 방법으로서, 기능이 유사한 유전자들이 묶인 기능 그룹들을 수집하는 단계, 상기 기능 그룹들에서 출현하는 빈도가 기준 이상인 다기능 유전자들을 추출하는 단계, 다기능 유전자 간 기능 유사도를 기초로 상기 다기능 유전자들의 조합으로 구성된 적어도 하나의 공통기능 그룹 지표를 탐색하고, 각 공통기능 그룹 지표를 노드로 가지는 기저 온톨로지를 생성하는 단계, 수집한 전체 유전자들로 그룹 지표 탐색 범위를 확장하고, 유전자 간 기능 유사도를 기초로 유전자들의 조합으로 구성된 적어도 하나의 세부기능 그룹 지표를 탐색하며, 상기 기저 온톨로지 기반에서 각 세부기능 그룹 지표를 노드로 추가하여 기능 온톨로지를 생성하는 단계, 그리고 상기 기능 온톨로지를 구성하는 노드들을 기능 그룹 지표들로 선정하는 단계를 포함한다.
상기 기저 온톨로지를 생성하는 단계는 다기능 유전자 간 기능 유사도가 높은 다기능 유전자쌍 순서대로, 해당 다기능 유전자쌍을 연결하여 제1 유전자 네트워크를 확장하고, 상기 제1 유전자 네트워크에서 극대 클릭(maximum clique)을 탐색하며, 탐색한 극대 클릭에 해당하는 유전자셋이 수집한 기능 그룹들에 존재하면, 탐색한 극대 클릭을 온톨로지의 노드로 생성하는 절차를 반복할 수 있다. 상기 극대 클릭에 해당하는 유전자셋은 상기 공통기능 그룹 지표일 수 있다.
상기 기저 온톨로지를 생성하는 단계는 각 다기능 유전자쌍을 상기 제1 유전자 네트워크에 추가한 후, 추가된 다기능 유전자쌍이 이전에 추가된 다기능 유전자쌍들로 탐색된 극대 클릭들을 확장시키거나 새로운 극대 클릭을 구성하는지 탐색할 수 있다.
상기 기저 온톨로지를 생성하는 단계는 탐색한 극대 클릭에 해당하는 유전자셋을 노드 후보로 결정하고, 상기 온톨로지에 상기 노드 후보의 부분 집합 노드가 있으면, 상기 부분 집합 노드의 부모 노드로 상기 노드 후보를 추가하고, 상기 온톨로지에 상기 노드 후보의 부분 집합 노드가 없으면, 상기 노드 후보를 말단 노드로 추가할 수 있다.
상기 기능 온톨로지를 생성하는 단계는 수집한 유전자들에 대해 유전자 간 기능 유사도를 계산하고, 기능 유사도가 높은 유전자쌍 순서대로, 해당 유전자쌍을 연결하여 제2 유전자 네트워크를 확장하고, 상기 제2 유전자 네트워크에서 극대 클릭(maximum clique)을 탐색하며, 탐색한 극대 클릭에 해당하는 유전자셋이 수집한 기능 그룹들에 존재하면, 탐색한 극대 클릭을 상기 온톨로지의 노드로 생성하는 절차를 반복할 수 있다. 상기 극대 클릭에 해당하는 유전자셋은 상기 세부기능 그룹 지표일 수 있다.
상기 기능 온톨로지를 생성하는 단계는 각 유전자쌍을 상기 제2 유전자 네트워크에 추가한 후, 추가된 유전자쌍이 이전에 추가된 유전자쌍들로 탐색된 극대 클릭들을 확장시키거나 새로운 극대 클릭을 구성하는지 탐색할 수 있다.
상기 기능 온톨로지를 생성하는 단계는 탐색한 극대 클릭에 해당하는 유전자셋을 노드 후보로 결정하고, 상기 온톨로지에 상기 노드 후보의 부분 집합 노드가 있으면, 상기 부분 집합 노드의 부모 노드로 상기 노드 후보를 추가하고, 상기 온톨로지에 상기 노드 후보의 부분 집합 노드가 없으면, 상기 노드 후보를 말단 노드로 추가할 수 있다.
상기 동작 방법은 상기 기능 그룹 지표들 중에서, 질병 지표를 유의미하게 포함하고, 질병-비질병 마이크로어레이에서 활성화 점수가 유의미하게 차이 나는 기능 그룹 지표를 질병 그룹 지표로 선정하는 단계를 더 포함할 수 있다.
상기 동작 방법은 판별하고자 하는 질병 상태의 마이크로어레이 샘플별로 질병 그룹 지표들의 활성화 점수를 계산하여 학습 데이터를 생성하는 단계, 상기 질병 그룹 지표들의 활성화 점수를 기반으로 특정 질병 상태를 판별하는 판별 모델을 학습시키는 단계, 특정 샘플의 질병 상태 판별을 요청받으면, 상기 특정 샘플에 대한 상기 질병 그룹 지표들의 활성화 점수를 학습된 상기 판별 모델로 입력하는 단계, 그리고 상기 판별 모델로부터 출력된 판별값을 통하여 상기 특정 샘플의 질병 상태를 출력하는 단계를 더 포함할 수 있다.
다른 실시예에 다른 질병 판별 시스템의 동작 방법으로서, 기능이 유사한 유전자들이 묶인 기능 그룹들을 수집하는 단계, 수집한 유전자들이 포함된 기능 그룹의 유사도를 기초로 유전자쌍을 연결하여 유전자 네트워크를 확장하고, 상기 유전자 네트워크에서 연결된 유전자들의 조합으로 구성된 기능 그룹 지표를 탐색하며, 각 기능 그룹 지표를 노드로 가지는 온톨로지를 생성하는 단계, 상기 온톨로지를 구성하는 노드들을 기능 그룹 지표들로 선정하는 단계, 그리고 상기 기능 그룹 지표들 중에서, 질병 지표를 유의미하게 포함하고, 질병-비질병 마이크로어레이에서 활성화 점수가 유의미하게 차이 나는 기능 그룹 지표를 질병 그룹 지표로 선정하는 단계를 포함한다.
상기 동작 방법은 판별하고자 하는 질병 상태의 마이크로어레이 샘플별로 질병 그룹 지표들의 활성화 점수를 계산하여 학습 데이터를 생성하는 단계, 상기 질병 그룹 지표들의 활성화 점수를 기반으로 특정 질병 상태를 판별하는 판별 모델을 학습시키는 단계, 특정 샘플의 질병 상태 판별을 요청받으면, 상기 특정 샘플에 대한 상기 질병 그룹 지표들의 활성화 점수를 학습된 상기 판별 모델로 입력하는 단계, 그리고 상기 판별 모델로부터 출력된 판별값을 통하여 상기 특정 샘플의 질병 상태를 출력하는 단계를 더 포함할 수 있다.
상기 온톨로지를 생성하는 단계는 상기 기능 그룹들에서 출현하는 빈도가 기준 이상인 유전자들을 다기능 유전자들로 추출하는 단계, 다기능 유전자 간 기능 유사도를 기초로 상기 다기능 유전자들의 조합으로 구성된 적어도 하나의 공통기능 그룹 지표를 탐색하고, 각 공통기능 그룹 지표를 노드로 가지는 기저 온톨로지를 생성하는 단계, 그리고 수집한 전체 유전자들로 그룹 지표 탐색 범위를 확장하고, 유전자 간 기능 유사도를 기초로 유전자들의 조합으로 구성된 적어도 하나의 세부기능 그룹 지표를 탐색하며, 상기 기저 온톨로지 기반에서 각 세부기능 그룹 지표를 노드로 추가하여 상기 온톨로지를 생성하는 단계를 포함할 수 있다.
상기 온톨로지를 생성하는 단계는 유전자 간 기능 유사도가 높은 유전자쌍 순서대로, 해당 유전자쌍을 연결하여 상기 유전자 네트워크를 확장하고, 상기 유전자 네트워크에서 극대 클릭(maximum clique)을 탐색하며, 탐색한 극대 클릭에 해당하는 유전자셋을 온톨로지의 노드로 생성하는 절차를 반복할 수 있다.
상기 기능 그룹들을 수집하는 단계는 기능 유전자셋(gene set) 정보를 제공하는 데이터베이스, 그리고 질병 경로 내에 포함된 생물학적 경로, 각종 조절자-표적 정보, 유전자 상호작용 정보를 제공하는 데이터베이스를 이용하여 기능이 유사한 유전자들이 묶인 기능 그룹들을 수집할 수 있다.
한 실시예에 따른 질병 판별 시스템으로서, 기능이 유사한 유전자들이 묶인 기능 그룹들을 수집하고, 수집한 유전자들이 포함된 기능 그룹의 유사도를 기초로 유전자쌍을 순차적으로 연결하여 유전자 네트워크를 확장하며, 상기 유전자 네트워크에서 탐색한 극대 클릭(maximum clique)의 유전자셋을 기능 그룹 지표로 선정하는 기능 그룹 지표 발굴 장치, 그리고 복수의 기능 그룹 지표들 중에서, 질병 지표를 유의미하게 포함하고, 질병-비질병 마이크로어레이에서 활성화 점수가 유의미하게 차이 나는 기능 그룹 지표를 질병 그룹 지표로 선정하고, 마이크로어레이 샘플별로 질병 그룹 지표들의 활성화 점수를 계산하며, 상기 질병 그룹 지표들의 활성화 점수를 기반으로 특정 질병 상태를 판별하는 판별 모델을 학습시키는 질병 판별 모델 생성 장치를 포함한다.
상기 기능 그룹 지표 발굴 장치는 상기 기능 그룹들에서 출현하는 빈도가 기준 이상인 다기능 유전자들을 추출하고, 다기능 유전자 간 기능 유사도를 기초로 정렬한 다기능 유전자쌍을 연결하여 제1 유전자 네트워크를 확장하며, 상기 제1 유전자 네트워크에서 탐색한 극대 클릭의 유전자셋을 노드로 가지는 기저 온톨로지를 생성할 수 있다. 상기 기능 그룹 지표 발굴 장치는 수집한 전체 유전자들의 유전자 간 기능 유사도를 기초로 유전자쌍을 정렬하고, 유전자쌍을 순서대로 연결하여 제2 유전자 네트워크를 확장하며, 상기 제2 유전자 네트워크에서 탐색한 극대 클릭의 유전자셋을 상기 기저 온톨로지에 추가하여 최종 온톨로지를 생성할 수 있다. 상기 기능 그룹 지표 발굴 장치는 상기 최종 온톨로지를 구성하는 노드들을 기능 그룹 지표들로 선정할 수 있다.
상기 질병 판별 모델 생성 장치는 특정 샘플의 질병 상태 판별을 요청받으면, 상기 특정 샘플에 대한 상기 질병 그룹 지표들의 활성화 점수를 학습된 상기 판별 모델로 입력하고, 상기 판별 모델로부터 출력된 판별값을 통하여 상기 특정 샘플의 질병 상태를 출력할 수 있다.
실시예에 따르면 기능이 유사한 유전자들을 포괄적이고 필수적인 형태의 기능 그룹으로 재구성할 수 있고, 이를 통해 세포 내의 단위 기능들과 이들이 조합된 상위 기능들로 복잡하게 구성된 질병 기전을 반영할 수 있어, 질병 판별의 정확성과 안정성/재현성을 높일 수 있다.
실시예에 따르면 기존에 기능 그룹으로 알려진 유전자셋을 통합 및 재구성하여, 기능에 의한 인과관계가 알려진 유전자셋을 하나의 "기능 그룹 지표"로 발굴할 수 있고, 특히 다양한 기능에 연관된 "공통기능 그룹 지표"및 특수한 세부 기능에 연관된 "세부기능 그룹 지표"의 조합으로, 질병 및 세포 기능을 설명할 수 있는 기능 그룹 지표를 선정할 수 있다.
실시예에 따르면 질병 지표 및 질병 전사체 데이터 분석을 통해 기능적 인과관계가 있으면서 질병에서 특이적 발현 패턴을 보이는 "질병 그룹 지표"를 선정할 수 있고, 질병 그룹 지표들을 기반으로 판별 모델을 구성하므로, 질병 상태 판별의 재현성을 높일 수 있다.
실시예에 따라 선정된 질병 그룹 지표는 질병 진단, 예후 예측, 약물 동반 진단 등에 광범위하게 이용될 수 있고, 마이크로어레이 내지는 멀티플렉스 분석 키트로 제작되어 활용될 수 있다.
실시예에 따르면 질병에 의미 있는 변이의 탐색이 어려워 신뢰도와 안정성이 떨어졌던 기존의 개별 유전자 발현 지표의 한계점을 극복하고, 다양한 기능 정보를 종합하여 활용하지 못하였던 기존 기능 그룹 분석 방법의 문제점을 해결할 수 있다.
도 1은 한 실시예에 따른 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템의 구성도이다.
도 2는 한 실시예에 따른 기저 온톨로지 구성 방법의 흐름도이다.
도 3은 한 실시예에 따른 기능 온톨로지 구성 방법의 흐름도이다.
도 4는 한 실시예에 따른 질병 그룹 지표 선정 방법의 흐름도이다.
도 5는 한 실시예에 따른 질병 판별 모델 생성 방법의 흐름도이다.
도 6은 한 실시예에 따른 기저 온톨로지 구성 방법을 예시적으로 설명하는 도면이다.
도 7은 한 실시예에 따른 기능 온톨로지 구성방법을 예시적으로 설명하는 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
명세서 전체에서, 기능이 동일/유사한 유전자 그룹(유전자셋)으로 구성된 그룹 지표(group marker)를 간단히, "기능 그룹 지표"라고 부른다. 기능 그룹 지표에 연관된 기능 범위에 따라 공통기능 그룹 지표나 세부기능 그룹 지표로 구분하여 부를 수 있다. 유사도 판단 기준에 의해 기능이 유사하다고 판단되거나, 기능이 유사하다고 알려진 정보를 사용할 수 있다.
도 1은 한 실시예에 따른 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템의 구성도이다.
도 1을 참고하면, 질병 판별 시스템(10)은 적어도 하나의 프로세서로 동작하고, 기능이 유사한 유전자들을 기능 그룹 지표로 선정하는 기능 그룹 지표 발굴 장치(100), 그리고 기능 그룹 지표들의 질병 연관성을 평가하여 질병 그룹 지표를 선정하고 질병 그룹 지표를 기초로 판별 모델을 생성하는 질병 판별 모델 생성 장치(200)를 포함한다. 질병 판별 시스템(10)은 기능 그룹 지표 발굴 장치(100) 및 질병 판별 모델 생성 장치(200)의 동작에 필요한 정보를 저장하는 데이터베이스(300)를 더 포함할 수 있다. 그룹 지표 발굴 장치(100), 질병 판별 모델 생성 장치(200) 그리고 데이터베이스(300)는 통신 인터페이스를 통해 서로 연동하고, 본 발명의 동작에 필요한 정보를 주고받을 수 있다. 데이터베이스(300)의 적어도 일부는 질병 판별 시스템(10)에 구축되거나, 외부 서버에 구현될 수 있다.
먼저, 데이터베이스(300)는 데이터 종류에 따라, 기능 유전자셋(functional gene set) 데이터베이스(310), 경로 및 상호작용 데이터베이스(320), 질병 지표 데이터베이스(330) 그리고 마이크로어레이 데이터베이스(340)로 구분할 수 있다. 당연히, 데이터베이스(300)는 설계에 따라 다양하게 구현될 수 있고, 반드시 물리적으로 구분될 필요 없으며, 반드시 물리적으로 동일한 위치에 존재할 필요도 없다.
기능 유전자셋 데이터베이스(310)는 기능과 유전자의 관계 정보를 제공한다. 기능 유전자셋 데이터베이스(310)는 예를 들면, Gene Ontology, MSigDB, Enrichr 등의 기능 유전자셋 정보를 제공할 수 있다.
경로 및 상호작용 데이터베이스(320)는 질병 경로 내에 포함된 생물학적 경로, 각종 조절자-표적 정보, 유전자 상호작용 정보를 제공한다. 경로 및 상호작용 데이터베이스(320)는 예를 들면, BioCarta, HumanCyc, KEGG Pathway, NCI-PID, Panther Pathway, PharmGKB, Reactome, SMPDB 데이터베이스 내의 질병 경로 내에 포함된 생물학적 경로, TRANSFAC 데이터베이스 내의 TF 조절자-표적 정보, E3Net 데이터베이스의 E3 조절자-표적 정보, PhosphoSitePlus 데이터베이스 내의 인산화효소 조절자-표적 정보, DEPOD 데이터베이스의 탈인산화효소 조절자-표적 정보, HIPPIE 데이터베이스 내의 유전자 상호작용 정보를 제공할 수 있다.
질병 지표 데이터베이스(330)는 알려진 질병 지표들을 제공한다. 질병 지표 데이터베이스(330)는 예를 들면, DisGeNet 데이터베이스 내의 알려진 질병 유전자 정보, DrugCentral 데이터베이스 내의 질병에 대한 약물 표적 정보를 제공할 수 있다.
마이크로어레이 데이터베이스(340)는 마이크로어레이 정보를 제공한다. 마이크로어레이 데이터베이스(340)는 예를 들면, Gene Expression Omnibus, ArrayExpress 데이터베이스 내의 유전자 발현 마이크로어레이 정보를 제공할 수 있다.
기능 그룹 지표 발굴 장치(100)는 기능 유전자셋 데이터베이스(310) 및 경로 및 상호작용 데이터베이스(320)의 정보를 이용하여 기능이 유사한 유전자들을 기능 그룹 지표로 선정한다. 이를 위해, 기능 그룹 지표 발굴 장치(100)는 유전자 기능 통합 추출부(110), 기저 온톨로지 구성부(130) 그리고 기능 그룹 지표 선정부(150)를 포함할 수 있다.
유전자 기능 통합 추출부(110)는 알려진 기능 유전자셋에 포함된 유전자의 기능 정보, 그리고 경로 및 상호작용 정보에 포함된 유전자의 기능 정보를 통합한 유전자 기능 통합 정보를 획득한다. 한편, 유전자 기능 통합 추출부(110)는 사용자가 정의한 임의의 유전자셋 리스트로부터 획득한 기능 정보를 유전자 기능 통합 정보에 추가할 수 있다. 유전자 기능 통합 추출부(110)는 유전자 기능 통합 정보에서 다기능 유전자 및 유전자 간 기능 유사도 정보를 획득한다.
유전자 기능 통합 추출부(110)는 생물학적 기능, 분자 기능, 세포 내 위치 등의 기능-유전자 정보로부터, 같은/유사한 기능을 가지는 유전자들을 묶어 기능 그룹(모듈)으로 수집할 수 있다. 이때, 유전자 기능 통합 추출부(110)는 Gene Ontology, MSigDB, Enrichr 등의 기능 유전자셋 데이터베이스(310)에서 기능 모듈을 추출할 수 있다.
또한, 유전자 기능 통합 추출부(110)는 경로 및 상호작용 데이터베이스(320)의 경로 정보로부터 같은 경로를 가지는 유전자들을 묶어 기능 그룹으로 수집할 수 있다. 유전자 기능 통합 추출부(110)는 경로 및 상호작용 데이터베이스(320)에서 경로는 없으나 TF, E3, miRNA, kinase, phosphatase 등의 조절자에 대한 상호작용 정보가 있을 경우, 같은 조절자에 의하여 조절되는 유전자들을 묶어 기능 그룹으로 수집할 수 있다. 유전자 기능 통합 추출부(110)는 경로 및 상호작용 데이터베이스(320)에서 단순히 상호작용 정보만 있을 경우, 각 유전자의 1-hop 네트워크를 하나의 유전자셋으로 묶어 기능 그룹으로 수집할 수 있다.
이외에도, 유전자 기능 통합 추출부(110)는 마이크로어레이 등의 오믹스 데이터로부터 도출된 연관 유전자셋, 조건별 특이적 발현 유전자셋 등 사용자가 정의한 임의의 유전자셋 리스트를 기능 그룹으로 수집할 수 있다.
유전자 기능 통합 추출부(110)는 수집한 다양한 기능 그룹들을 통합한 유전자 기능 통합 정보에서, 유전자별로 기능 그룹들에서 출현하는 빈도를 계산하고, 일정 기준으로 빈도수가 높은 유전자를 다기능 유전자로 추출한다. 일정 기준은 예를 들면, 상위 5%, p-value 0.05 이하 등으로 설정될 수 있다.
또한 유전자 기능 통합 추출부(110)는 유전자 기능 통합 정보에 포함된 모든 유전자쌍에 대하여 해당 유전자가 포함된 기능 그룹이 유사한지를 점수화한 유사성 분석을 한다. 유사성 분석을 통해 계산된 유전자 간 기능 유사도 정보는 유전자 간 기능 유사도 행렬로 표현될 수 있다. 유전자 기능 통합 추출부(110)는 예를 들면, 자카드 지수의 분석 방법을 활용하여, 유전자 간 기능 유사성을 분석할 수 있다.
기저 온톨로지 구성부(130)와 기능 그룹 지표 선정부(150)는 유전자 기능 통합 추출부(110)에서 추출한 다기능 유전자 정보 및 유전자 간 기능 유사도 정보를 이용하여, 기능에 의한 인과관계가 알려진 유전자셋을 하나의 "기능 그룹 지표"로 발굴한다. 기능 그룹 지표는 기능에 연관된 유전자셋으로 구성된다.
구체적으로, 기저 온톨로지 구성부(130)와 기능 그룹 지표 선정부(150) 각각은 유전자쌍의 관계를 유전자 노드(꼭짓점)와 연결선(변)으로 연결하는 그래프 이론 기반 유전자 네트워크, 그리고 유전자 네트워크에서 추출한 극대 클릭(maximum clique)을 온톨로지 노드로 생성하는 계층적 온톨로지를 기초로 기능 그룹 지표를 선정한다. 온톨로지는 유향 비순환 그래프의 집합으로 표현되고, 소수의 다기능 유전자 집합으로 구성된 기저 노드를 기반으로, 세분화된 기능에 관계된 세부기능 유전자 집합으로 구성된 상위(부모) 노드를 연결하거나, 새로운 말단 노드를 추가하면서 생성된다. 온톨로지에서, 상위(부모) 노드는 하위 노드의 유전자 집합을 포함하고, 하위 노드는 상위 노드에 포함된 유전자 집합의 부분 집합이다.
기저 온톨로지 구성부(130)와 기능 그룹 지표 선정부(150)가 반드시 독립적으로 구현될 필요는 없으나, 기저 온톨로지를 구성하고, 기저 온톨로지를 기반으로 최종 온톨로지를 구성하는 방법을 단계적으로 설명하기 위해, 분리된 구성으로 설명한다. 또한, 기능 그룹 지표를 다기능과 연관된 "공통기능 그룹 지표"그리고 세분화된 기능과 연관된 "세부기능 그룹 지표"로 구분해서 설명할 수 있으나, 구분 없이 기능 그룹 지표라고 불러도 무방하다.
기저 온톨로지 구성부(130)는 유전자 기능 통합 추출부(110)에서 추출한 다기능 유전자들의 기능 유사도 정보를 기초로 기저 온톨로지를 구성한다. 기저 온톨로지 구성부(130)는 유전자 간 기능 유사도 정보 중에서 다기능 유전자 간 기능 유사도 정보를 추출한다. 기저 온톨로지 구성부(130)는 기능 유사도가 높은 유전자쌍 순서로, 두 유전자를 노드와 연결선으로 연결하면서 연결 관계를 추가하는 방식으로 유전자 네트워크를 단계적으로 확장한다. 이때, 기저 온톨로지 구성부(130)는 유전자쌍을 추가하여 네트워크를 단계적으로 확장하는데, 유전자 네트워크에서 더 이상 유전자 노드를 추가할 수 없는 극대 클릭(maximum clique)을 탐색하고, 극대 클릭에 포함된 다기능 유전자들을 공통기능 그룹 지표로 온톨로지화 한다. 즉, 기저 온톨로지 구성부(130)는 극대 클릭에 포함된 다기능 유전자들을 기저 온톨로지 노드로 생성한다. 기저 온톨로지 노드를 구성하는 다기능 유전자들은 공통기능 그룹 지표로 선정된다. 이때, 기저 온톨로지 구성부(130)는 유전자쌍을 유전자 네트워크에서 추가하는 단계마다 극대 클릭인지 판단하고, 극대 클릭에 포함된 다기능 유전자들이 유전자 기능 통합 추출부(110)에서 수집한 다양한 기능 그룹들 중 하나 이상의 부분 집합인 경우, 극대 클릭에 포함된 다기능 유전자들을 공통기능 그룹 지표인 온톨로지 노드로 생성할 수 있다.
기능 그룹 지표 선정부(150)는 기저 온톨로지 구성부(130)에서 다기능 유전자쌍을 이용하여 구성한 기저 온톨로지를 전체 유전자쌍을 이용하여 확장한다. 기능 그룹 지표 선정부(150)는 기저 온톨로지 구성부(130)의 기저 온톨로지 구성 방법과 동일하게, 전체 유전자쌍으로 유전자 네트워크를 확장하고, 극대 클릭에 해당하는 유전자들을 기저 온톨로지 노드의 상위 노드로 추가한다. 상위 온톨로지 노드를 구성하는 유전자들은 하위 온톨로지 노드 또는 기저 온톨로지 노드보다 세부적인 기능에 관계된 세부기능 그룹 지표로 선정된다. 한편, 기능 그룹 지표 선정부(150)는 전체 유전자쌍으로 유전자 네트워크를 확장하기 때문에, 다기능 유전자가 아닌 유전자들의 기능 그룹이 생성될 수 있다. 이 경우, 기능 그룹 지표 선정부(150)는 다기능 유전자가 아닌 유전자들의 기능 그룹을 세부기능 그룹 지표로 온톨로지에 추가한다.
이와 같이, 기능 그룹 지표 선정부(150)는 다양한 유전자들의 기능 정보를 통합하여 유전자가 포함된 기능 그룹이 유사한지를 점수화한 유전자 간 기능 유사도 정보를 계산하고, 이를 사용하여 기능 그룹 지표를 온톨로지화한다. 따라서, 기능 그룹 지표 선정부(150)는 다양한 기능 유전자셋을 재구성하여 공통기능 그룹 지표들부터 세부기능 그룹 지표들까지 다양한 기능 그룹 지표들을 추출할 수 있다.
질병 판별 모델 생성 장치(200)는 기능 그룹 지표들의 질병 연관성을 평가하여 질병 그룹 지표를 선정하는 질병 그룹 지표 선정부(210), 그리고 질병 그룹 지표를 기초로 판별 모델을 생성하는 질병 상태 판별기(230)를 포함한다.
질병 그룹 지표 선정부(210)는 기능 그룹 지표들 중에서 질병 지표를 유의하게 포함하고, 마이크로어레이 데이터에서의 발현 차이가 유의하게 나타나는 평가하고, 평가 결과를 기초로 질병 그룹 지표를 선정한다. 구체적으로 질병 그룹 지표 선정부(210)는 전체 기능 그룹 지표들 중에서 질병 지표 데이터베이스(330)에서 추출한 질병 지표(질병 마커)를 유의미하게 포함하는 기능 그룹 지표를 질병 그룹 지표 후보로 필터링할 수 있다. 그리고, 질병 그룹 지표 선정부(210)는 마이크로어레이 데이터베이스(340)에서 추출한 마이크로어레이 유전자 발현 데이터를 기반으로 샘플별 질병 그룹 지표 후보들의 활성화 점수를 계산하고, 확인하고자 하는 질병 상태 간 유의미한 차이를 보이는 질병 그룹 지표 후보를 최종 질병 그룹 지표로 선정할 수 있다. 질병 그룹 지표는 질병 연관 유전자셋으로 구성된다.
질병 상태 판별기(230)는 판별하고자 하는 질병 상태의 마이크로어레이 샘플별로 질병 그룹 지표들의 활성화 점수를 계산하여 학습 데이터를 생성하고, 질병 그룹 지표들의 활성화 점수를 기반으로 특정 질병 상태를 판별할 수 있는 판별 모델을 학습시킨다. 판별 모델은 마이크로어레이 데이터 내 질병 상태를 판별할 수 있는 서포트 벡터 머신(support vector machine, SVM) 기계학습 판별기일 수 있으나, 다양한 학습 모델이 사용될 수 있다.
질병 상태 판별기(230)는 새로운 샘플의 질병 상태 판별을 요청받으면, 새로운 샘플에 대한 질병 그룹 지표들의 활성화 점수를 계산하고, 이를 학습된 판별 모델로 입력한다. 그러면, 질병 상태 판별기(230)는 판별 모델로부터 출력된 판별값을 통하여 새로운 샘플의 질병 상태를 판별한다. 질병 상태 판별기(230)는 샘플 내의 유전자 발현값을 판별 모델의 학습에 사용된 질병 그룹 지표들의 활성화 점수로 치환하고, 이를 판별 모델의 입력값으로 사용한다.
이와 같이, 질병 판별 시스템(10)은 다양한 기능 유전자셋과 경로 및 상호작용 정보 등 기능 정보로부터 유전자 기능 통합 정보를 추출하고, 유전자 간 기능 유사도를 기반으로 기능 그룹 지표를 추출한다. 이때, 기능 그룹 지표는 공통기능 그룹 지표와 세부기능 그룹 지표를 포함하는데, 질병 판별 시스템(10)은 다기능 유전자들을 이용해 공통기능 그룹 지표로 구성된 기저 온톨로지를 먼저 구성하고, 전체 유전자들을 이용해 세부기능 그룹 지표를 탐색함으로써, 기저 온톨로지를 확장한다. 질병 판별 시스템(10)은 다양한 기능 정보를 통합 분석하여 획득한 기능 그룹 지표들 중에서, 알려진 질병 지표 및 마이크로어레이 데이터를 기반으로 질병에 연관된 질병 그룹 지표를 선정한 후, 선정한 질병 그룹 지표를 활용하여 질병 상태 판별이 가능한 판별 모델을 학습시킨다.
이처럼 본 발명의 질병 상태 판별기는 질병 그룹 지표라고 정의한 질병 연관 유전자셋을 선정하고, 이의 조합으로 판별 모델을 구성한다. 따라서, 본 발명은 종래의 단일 마커 내지는 마커셋에서 가지는 재현성의 한계를 해결하여 보다 강건한 판별 모델을 구성할 수 있다. 또한 본 발명은 종래의 유전자셋 선정 방법에서 활용하지 못하였던 그룹 정보를 활용함으로, 알려진 기능 정보와 직접적인 연계가 가능하여 기전 해석이 동시에 가능하다.
도 2는 한 실시예에 따른 기저 온톨로지 구성 방법의 흐름도이다.
도 2를 참고하면, 기능 그룹 지표 발굴 장치(100)는 다양한 기능 유전자셋과 경로 및 상호작용 정보를 기초로, 기능, 경로, 또는 상호작용이 동일/유사한 유전자들(유전자셋)을 기능 그룹으로 묶어 유전자 기능 통합 정보를 추출한다(S110).
기능 그룹 지표 발굴 장치(100)는 다양한 기능 그룹들이 통합된 유전자 기능 통합 정보에서 다기능 유전자들을 추출한다(S120). 다기능 유전자는 기능 그룹들에서 출현하는 빈도 정보로 결정될 수 있다.
기능 그룹 지표 발굴 장치(100)는 다기능 유전자 간 기능 유사도를 계산하고, 기능 유사도가 높은 순으로 다기능 유전자쌍을 정렬한다(S130). 유전자 간 기능 유사도는 유전자쌍에 대하여 해당 유전자가 포함된 기능 그룹이 유사한지를 점수화한 유사성 분석으로 계산되고, 유전자 간 기능 유사도 행렬로 표현될 수 있다.
기능 그룹 지표 발굴 장치(100)는 다기능 유전자쌍 중 기능 유사도가 높은 순서대로 유전자쌍을 유전자 네트워크에 추가하고, 유전자 네트워크에서 극대 클릭을 탐색한다(S140). 이를 위해, 기능 그룹 지표 발굴 장치(100)는 전체 다기능 유전자쌍을 추가 연결관계 후보로 리스트한 후, 연결관계를 추가하며 확장해 나갈 빈 네트워크를 생성하고, 기능 유사도가 높은 유전자쌍부터 단계적으로 노드를 추가하면서 유전자 네트워크를 확장한다. 한편, 유전자쌍이 네트워크에 추가될 때마다 극대 클릭을 탐색하는 것은 계산 시간이 많이 소요된다. 따라서, 기능 그룹 지표 발굴 장치(100)는 이전 단계에 찾은 극대 클릭들을 기반으로 유전자 네트워크에 새로 추가된 유전자가 기존의 극대 클릭들을 확장시킬 수 있는지, 혹은 새로운 극대 클릭을 구성할 수 있는지 만을 계산한다. 기능 그룹 지표 발굴 장치(100)는 계산 시간을 단축시키기 위하여 극대 클릭을 병렬 연산하여 탐색할 수 있다.
기능 그룹 지표 발굴 장치(100)는 유전자 네트워크에서 새로운 극대 클릭이 발견되면, 극대 클릭에 해당하는 유전자셋을 공통기능 그룹 지표로 결정하고, 공통기능 그룹 지표를 온톨로지 노드 후보로 선정한다(S150). 기능 그룹 지표 발굴 장치(100)는 극대 클릭에 해당하는 유전자셋을 모두 포함하는 기능 그룹이 수집한 유전자 기능 통합 정보에 존재하거나, 온톨로지 내 노드(유전자셋)들의 조합으로 극대 클릭을 구성할 수 있는 경우, 극대 클릭의 유전자셋을 온톨로지 노드 후보로 선정할 수 있다.
기능 그룹 지표 발굴 장치(100)는 온톨로지에, 온톨로지 노드 후보의 부분 집합인 노드가 있는지 탐색한다(S160). 즉, 기능 그룹 지표 발굴 장치(100)는 온톨로지 노드 후보를 구성하는 유전자셋의 부분 집합으로 구성된 노드가 있는지 탐색한다.
기능 그룹 지표 발굴 장치(100)는 온톨로지에 온톨로지 노드 후보의 부분 집합인 노드가 있으면, 온톨로지 노드 후보를 부분집합 노드의 부모 노드로 추가하고, 온톨로지 노드 후보의 부분 집합인 노드가 없으면, 온톨로지 노드 후보를 새로운 말단 노드로 추가한다(S170).
기능 그룹 지표 발굴 장치(100)는 전체 다기능 유전자쌍 중에서 유전자 네트워크에 추가할 유전자쌍이 남아있는지 판단한다(S180). 기능 그룹 지표 발굴 장치(100)는 전체 다기능 유전자쌍을 추가 연결관계 후보로 리스트한 후, 유전자 네트워크에 추가하여 탐색한 유전자쌍을 제거하면서 유전자 네트워크에 추가할 유전자쌍이 남아있는지 판단할 수 있다. 기능 그룹 지표 발굴 장치(100)는 유전자 네트워크에 추가할 유전자쌍이 남아있으면, 유전자 네트워크 확장 및 극대 클릭을 탐색하는 단계(S140)를 반복한다.
기능 그룹 지표 발굴 장치(100)는 다기능 유전자들의 전체 유전자쌍에 대한 연결이 완료되면, 각 공통기능 그룹 지표가 노드로 구성된 기저 온톨로지를 출력한다(S190). 기능 그룹 지표 발굴 장치(100)는 다기능 유전자간에 기능적으로 연결된 유전자셋을 탐색하여 기저 온톨로지의 노드들을 구성한다.
도 3은 한 실시예에 따른 기능 온톨로지 구성 방법의 흐름도이다.
도 3을 참고하면, 기능 그룹 지표 발굴 장치(100)는 다기능 유전자들로 생성한 기저 온톨로지를 유전자 전체로 확장하여 기능 온톨로지를 구성한다. 기능 그룹 지표 발굴 장치(100)는 기저 온톨로지의 공통기능 그룹 지표로부터 세부적인 기능에 연관된 유전자셋으로 구성된 세부기능 그룹 지표를 탐색한다. 기능 온톨로지를 구성하는 방법은 기저 온톨로지를 구성하는 방법과 유사한다.
기능 그룹 지표 발굴 장치(100)는 다기능 유전자들에 의해 생성된 기저 온톨로지를 입력받는다(S210).
기능 그룹 지표 발굴 장치(100)는 다양한 기능 그룹들이 통합된 유전자 기능 통합 정보에서, 전체 유전자 간 기능 유사도를 계산한다(S220). 유전자 간 기능 유사도는 유전자쌍에 대하여 해당 유전자가 포함된 기능 그룹이 유사한지를 점수화한 유사성 분석으로 계산되고, 유전자 간 기능 유사도 행렬로 표현될 수 있다. 전체 유전자 간 기능 유사도는 미리 계산될 수 있다.
기능 그룹 지표 발굴 장치(100)는 기능 유사도가 높은 순으로 전체 유전자쌍을 정렬한다(S230).
기능 그룹 지표 발굴 장치(100)는 전체 유전자쌍 중 기능 유사도가 높은 순서대로 유전자쌍을 유전자 네트워크에 추가하고, 유전자 네트워크에서 극대 클릭을 탐색한다(S240). 이를 위해, 기능 그룹 지표 발굴 장치(100)는 전체 유전자쌍을 추가 연결관계 후보로 리스트한 후, 연결관계를 추가하며 확장해 나갈 빈 네트워크를 생성하고, 기능 유사도가 높은 유전자쌍부터 단계적으로 노드를 추가하면서 유전자 네트워크를 확장한다. 이때, 기능 그룹 지표 발굴 장치(100)는 이전 단계에 찾은 극대 클릭들을 기반으로 유전자 네트워크에 새로 추가된 유전자가 기존의 극대 클릭들을 확장시킬 수 있는지, 혹은 새로운 극대 클릭을 구성할 수 있는지 만을 계산하여 탐색 시간을 단축시킬 수 있다. 또한 기능 그룹 지표 발굴 장치(100)는 계산 시간을 단축시키기 위하여 극대 클릭을 병렬 연산하여 탐색할 수 있다.
기능 그룹 지표 발굴 장치(100)는 유전자 네트워크에서 새로운 극대 클릭이 발견되면, 극대 클릭에 해당하는 유전자셋을 세부기능 그룹 지표로 결정하고, 세부기능 그룹 지표를 온톨로지 노드 후보로 선정한다(S250). 기능 그룹 지표 발굴 장치(100)는 극대 클릭에 해당하는 유전자셋을 모두 포함하는 기능 그룹이 수집한 유전자 기능 통합 정보에 존재하거나, 온톨로지 내 노드(유전자셋)들의 조합으로 극대 클릭을 구성할 수 있는 경우, 극대 클릭의 유전자셋을 온톨로지 노드 후보로 선정할 수 있다.
기능 그룹 지표 발굴 장치(100)는 온톨로지에, 온톨로지 노드 후보의 부분 집합인 노드가 있는지 탐색한다(S260).
기능 그룹 지표 발굴 장치(100)는 온톨로지에 온톨로지 노드 후보의 부분 집합인 노드가 있으면, 온톨로지 노드 후보를 부분집합 노드의 부모 노드로 추가하거나, 온톨로지 노드 후보를 새로운 말단 노드로 추가한다(S270). 이를 통해, 다기능 유전자들로 구성된 기저 온톨로지를 기반으로 상위 기능 그룹의 개념을 쌓되, 다기능 유전자가 아닌 유전자가 포함된 유전자셋이 기능 그룹으로 추가되면서 세부기능의 그룹 지표가 탐색될 수 있다.
기능 그룹 지표 발굴 장치(100)는 전체 유전자쌍 중에서 유전자 네트워크에 추가할 유전자쌍이 남아있는지 판단한다(S280). 기능 그룹 지표 발굴 장치(100)는 전체 유전자쌍을 추가 연결관계 후보로 리스트한 후, 유전자 네트워크에 추가하여 탐색한 유전자쌍을 제거하면서 유전자 네트워크에 추가할 유전자쌍이 남아있는지 판단할 수 있다. 기능 그룹 지표 발굴 장치(100)는 유전자 네트워크에 추가할 유전자쌍이 남아있으면, 유전자 네트워크 확장 및 극대 클릭을 탐색하는 단계(S240)를 반복한다.
기능 그룹 지표 발굴 장치(100)는 전체 유전자쌍을 유전자 네트워크에 추가한 경우, 기능 온톨로지의 노드들을 기능 그룹 지표들로 출력한다(S290). 기능 온톨로지의 각 노드를 구성하는 유전자셋이 기능 그룹 지표를 구성하고, 공통기능 그룹 지표 및 세부기능 그룹 지표를 포함한다.
도 4는 한 실시예에 따른 질병 그룹 지표 선정 방법의 흐름도이다.
도 4를 참고하면, 질병 판별 모델 생성 장치(200)는 기능 그룹 지표들 중에서, 알려진 질병 지표(마커)를 유의미하게 포함하고, 질병-비질병 마이크로어레이 데이터에서 점수가 유의미하게 차이 나는 기능 그룹 지표를 질병 그룹 지표로 선정한다.
질병 판별 모델 생성 장치(200)는 질병 지표의 유의성 분석을 통해, 기능 그룹 지표들 중에서 알려진 질병 지표(마커)를 유의하게 포함하는 기능 그룹 지표를 질병 그룹 지표 후보로 선정한다(S310). 질병 판별 모델 생성 장치(200)는 질병 지표 데이터베이스(330)로부터, 알려진 질병 지표를 추출할 수 있다. 질병 지표의 유의성 분석은 예를 들면, 피셔의 정확 검정 기법(Fisher's exact test)을 활용하여 각 기능 그룹 지표에 대해 질병 지표 포함 정도를 나타내는 유의성을 계산하고, p-value 0.05 이하인 기능 그룹 지표가 질병 그룹 지표 후보로 선정될 수 있다.
질병 판별 모델 생성 장치(200)는 마이크로어레이 데이터를 기반으로 샘플별 질병 그룹 지표 후보들의 활성화 점수를 계산한다(S320). 질병 판별 모델 생성 장치(200)는 질병-비질병 마이크로어레이 데이터에서 활성화 점수가 유의미하게 차이 나는 기능 그룹 지표를 질병 그룹 지표로 선정한다. 질병 판별 모델 생성 장치(200)는 질병 그룹 지표 후보의 유전자 발현값을 통합하고, 이를 기초로 해당 질병 그룹 지표 후보의 활성화 점수를 계산할 수 있다. 질병 판별 모델 생성 장치(200)는 유전자 집합 농축도 분석(Gene Set Enrichment Analysis)을 통해, 질병 상태 샘플에서 발현되는 유전자 발현 정보를 해당 샘플의 질병 그룹 지표 후보의 활성화 점수로 변환한다. 즉, 유전자 집합 농축도 분석을 통해, 샘플-유전자 발현 행렬을 샘플-질병 그룹 지표 후보의 활성화 점수 행렬로 변환한다. 유전자 집합 농축도 분석은 예를 들면 single sample GSEA, gene set variation analysis 등의 방법을 활용할 수 있다. 마이크로어레이 데이터는 예를 들면, Gene Expression Omnibus, ArrayExpress 데이터베이스 내의 유전자 발현 마이크로어레이 정보를 활용할 수 있고, 마이크로어레이 데이터베이스(340)에서 추출될 수 있다.
질병 판별 모델 생성 장치(200)는 질병 그룹 지표 후보 별로 질병 상태 간 활성화 점수 차이를 비교하고, 유의미한 차이를 보이는 특정 질병 그룹 지표 후보를 해당 질병 상태의 질병 그룹 지표로 선정한다(S330). 질병 판별 모델 생성 장치(200)는 샘플-질병 그룹 지표 후보의 활성화 점수 행렬을 통해, 질병 상태간 활성화 점수 차이를 분석하고, 유의한 차이를 보이는 특정 그룹 지표 후보를 질병 그룹 지표로 선정한다. 질병 그룹 지표 후보의 유의성 분석은 예를 들면, t-test를 활용하여 활성화 점수 차이의 유의성을 계산하고, p-value 0.05 이하인 그룹 지표를 질병 그룹 지표로 선정할 수 있다.
도 5는 한 실시예에 따른 질병 판별 모델 생성 방법의 흐름도이다.
도 5를 참고하면, 질병 판별 모델 생성 장치(200)는 판별하고자 하는 질병 상태의 마이크로어레이 샘플별로 질병 그룹 지표의 활성화 점수를 계산한다(S410). 질병 판별 모델 생성 장치(200)는 샘플-유전자 발현 행렬을 샘플-질병 그룹 지표의 활성화 점수 행렬로 변환하여 활성화 점수를 계산할 수 있다.
질병 판별 모델 생성 장치(200)는 질병 그룹 지표들의 활성화 점수를 기반으로 특정 질병 상태를 판별할 수 있는 판별 모델을 학습시킨다(S420). 판별 모델은 마이크로어레이 데이터 내 질병 상태를 판별할 수 있는 서포트 벡터 머신(SVM) 기계학습 판별기일 수 있으나, 다양한 학습 모델이 사용될 수 있다.
질병 판별 모델 생성 장치(200)는 질병 상태를 판별하고자 하는 신규 샘플을 입력받는다(S430).
질병 판별 모델 생성 장치(200)는 입력 샘플의 유전자 발현값(유전자 발현 행렬)을 판별 모델의 학습에 사용된 질병 그룹 지표들의 활성화 점수 정보(활성화 점수 행렬)로 변환한다(S440).
질병 판별 모델 생성 장치(200)는 입력 샘플의 활성화 점수 정보를 학습된 판별 모델로 입력한다(S450).
질병 판별 모델 생성 장치(200)는 신규 샘플에 대한 판별 모델의 판별값을 출력한다(S460). 판별값을 통하여 입력 샘플의 질병 상태가 판별된다.
도 6은 한 실시예에 따른 기저 온톨로지 구성 방법을 예시적으로 설명하는 도면이다.
도 2와 도 6을 참고하여, 기능 그룹 지표 발굴 장치(100)가 유전자 기능 통합 추출부(110)에서 추출한 다기능 유전자 간 기능 유사도 정보 중에서 유사도가 높은 유전자쌍부터 하나씩 유전자 네트워크에 추가하면서 극대 클릭을 찾고, 온톨로지에 추가하는 방법을 예시적으로 설명한다.
예를 들어, 기능 그룹 지표 발굴 장치(100)는 다기능 유전자로 MDM2, p53, BAX, CASP8, BCL2, CDK2의 6개의 유전자들을 찾으면, 표 1과 같이 다기능 유전자 간 기능 유사도를 계산한다. 표 1의 기능 유사도에 따르면, 기능 유사도가 높은 다기능 유전자쌍은 표 2와 같이 정렬될 수 있다.
MDM2 p53 BAX CASP8 BCL2 CDK2
MDM2 - 0.236 0.190 0.125 0.105 0.163
P53 0.236 - 0.195 0.137 0.124 0.165
BAX 0.190 0.195 - 0.200 0.186 0.168
CASP8 0.125 0.137 0.200 - 0.187 0.100
BCL2 0.105 0.165 0.186 0.187 - 0.092
CDK2 0.163 0.124 0.168 0.100 0.092 -
순서 다기능 유전자쌍 기능 유사도
1 MDM2-p53 0.236
2 BAX-CASP8 0.200
3 p53- BAX 0.195
4 MDM2- BAX 0.190
5 CASP8- BCL2 0.187
6 BAX- BCL2 0.186
7 BAX- CDK2 0.168
"알려진 기능1: p53 pathway" 및 "알려진 기능2: apoptosis"를 이용하여 기저 온톨로지를 구성하는 것을 설명한다. p53 pathway는 {MDM2, p53, BAX}로 구성되고, apoptosis는 {BAX, CASP8, BCL2}로 구성되며, 유전자 기능 통합 정보에 존재한다고 가정한다.
과정 1에서, 기능 그룹 지표 발굴 장치(100)는 관계가 구성되지 않은 빈 유전자 네트워크와 온톨로지 노트가 없는 빈 온톨로지를 생성한다.
과정 2에서, 기능 그룹 지표 발굴 장치(100)는 표 2에서, 기능 유사도가 가장 높은 MDM2-p53의 관계를 유전자 네트워크에 추가하고, 극대 클릭을 탐색한다. 이 때 유전자 2개로 구성된 {MDM2, p53}이 새로 탐색된 극대 클릭이다. 기능 그룹 지표 발굴 장치(100)는 수집한 유전자 통합 기능 정보에서 탐색된 극대 클릭이 존재하는지 확인하고, 유전자 통합 기능 정보에 존재하면, 새로운 노드로 온톨로지에 추가한다. {MDM2, p53}은 "알려진 기능1: P53 pathway"를 공유하므로, 신규 온톨로지 노드(T1)로 온톨로지에 추가된다.
과정 3에서, 기능 그룹 지표 발굴 장치(100)는 표 2에서, 기능 유사도가 두 번째로 높은 BAX-CASP8을 네트워크에 추가한다. {BAX, CASP8}이 새로운 극대 클릭이며, "알려진 기능2: Apoptosis"를 공유하므로 신규 온톨로지 노드(T2)로 온톨로지에 추가된다.
과정 4에서, 기능 유사도가 세 번째로 높은 {p53, BAX}이 신규 극대 클릭이고, 온톨로지 노드(T3)로 추가된다.
과정 5에서, 기능 유사도가 네 번째로 높은 MDM2-BAX가 유전자 네트워크에 추가되는데, {MDM2, p53, BAX}이 신규 극대 클릭이다. 세 유전자는 모두 "알려진 기능1: P53 pathway"를 공유하면서, 온톨로지 노드 T1(MDM2, p53)과 온톨로지 노드 T3(p53, BAX)이 {MDM2, p53, BAX}의 부분집합이므로, {MDM2, p53, BAX}이 T1과 T3의 부모 노드인 신규 온톨로지 노드(T4)로 추가된다.
과정 6에서, 기능 유사도가 다섯 번째로 높은 {CASP8, BCL2}가 신규 온톨로지 노드(T5)로 추가된다.
과정 7에서, 기능 유사도가 여섯 번째로 높은 {BAX, BCL2}에 의해 탐색된 극대 클릭 {BAX, BCL2, CASP8}가 온톨로지 노드 T2 및 온톨로지 노드 T5의 부모 노드인 신규 온톨로지 노드(T6)로 추가된다.
과정 8에서, 기능 유사도가 일곱 번째로 높은 BAX-CDK2가 유전자 네트워크에 추가되고, {BAX, CDK2}가 새로운 극대 클릭으로 탐색된다. 하지만, {BAX, CDK2}를 "알려진 기능1: p53 pathway" 및 "알려진 기능2: apoptosis"에 포함되지 않으므로, 공유(공통)되는 기능을 가지지 않는다고 판단한다. 따라서, {BAX, CDK2}는 온톨로지에 추가되지 않는다.
이와 같이 유전자 관계를 하나씩 추가해가면서 모든 관계가 유전자 네트워크에 표시될 때까지 온톨로지 확장을 수행하고, 최종 얻어진 온톨로지를 기저 온톨로지로서 획득할 수 있다. 기저 온톨로지는 아래 표 3과 같이, 다기능 유전자쌍으로 구성된 노드들로 생성된다. 본 과정에서는 설명을 위하여 유전자 간 관계를 하나씩 추가하였으나, 특정 개수씩, 혹은 특정 유사도 점수 간격으로 관계 집합을 추가하여 온톨로지를 구성할 수 있다.
순서 다기능 유전자쌍 기능 유사도 온톨로지 노드
1 MDM2-p53 0.236 T1
2 BAX-CASP8 0.200 T2
3 p53- BAX 0.195 T3
4 MDM2- BAX 0.190 T4={ T1, T3}
5 CASP8- BCL2 0.187 T5
6 BAX- BCL2 0.186 T6={T2, T5}
7 BAX- CDK2 0.168 -
15 BCL2- CDK2 0.092 -
도 7은 한 실시예에 따른 기능 온톨로지 구성방법을 예시적으로 설명하는 도면이다.
도 3과 도 7을 참고하여, 기능 그룹 지표 발굴 장치(100)가 다기능 유전자들로 생성한 도 6의 기저 온톨로지로부터 기능 온톨로지를 생성하는 방법을 예시적으로 설명한다.
예를 들어, 전체 유전자들이 {MDM2, p53, BAX, CASP8, BAD, PLK3}라고 가정하면, 표 4와 같이 유전자 간 기능 유사도가 계산된다. 표 4의 기능 유사도에 따르면, 기능 유사도가 높은 유전자쌍은 표 5와 같이 정렬될 수 있다.
MDM2 p53 BAX CASP8 BAD PLK3
MDM2 - 0.236 0.190 0.125 0.105 0.163
P53 0.236 - 0.195 0.137 0.124 0.165
BAX 0.190 0.195 - 0.200 0.217 0.168
CASP8 0.125 0.137 0.200 - 0.230 0.103
BAD 0.105 0.165 0.217 0.230 - 0.198
PLK3 0.163 0.124 0.168 0.103 0.198 -
순서 유전자쌍 기능 유사도 온톨로지 노드
1 MDM2-p53 0.236 기저 온톨로지 노드 T1
2 BAD-CASP8 0.230
3 BAX- BAD 0.217
4 BAX-CASP8 0.200 기저 온톨로지 노드 T2
5 BAD- PLK3 0.198
"알려진 기능1: p53 pathway" 및 "알려진 기능2: apoptosis"를 이용하여 온톨로지를 구성하는 것을 설명한다. 도 6에서 설명한 바와 동일하게, 기능 유사도가 높은 유전자쌍부터 하나씩 유전자 네트워크에 추가하면서 극대 클릭을 찾고, 기저 온톨로지에 추가한다.
과정 1에서, 기능 그룹 지표 발굴 장치(100)는 관계가 구성되지 않은 빈 유전자 네트워크를 생성하고, 기저 온톨로지를 획득한다.
과정 2에서, 기능 그룹 지표 발굴 장치(100)는 표 2에서, 기능 유사도가 가장 높은 유전자쌍(MDM2-p53)의 관계를 유전자 네트워크에 추가하고, 극대 클릭을 탐색한다. 이 때 극대 클릭 {MDM2, p53}는 다기능 유전자쌍이므로 이미 온톨로지 노드 T1으로 존재한다. 따라서, {MDM2, p53}이 온톨로지에 추가될 필요 없으므로, 다음 유전자쌍으로 넘어간다. 즉, 기능 온톨로지 구성 과정에서는 다기능 유전자가 아닌 유전자가 하나 이상 포함된 극대 클릭만 온톨로지에 추가된다.
과정 3에서, BAD-CASP8이 유전자 네트워크에 추가되고, 신규 극대 클릭 {BAD, CASP8}이 탐색된다. {BAD, CASP8}에 다기능 유전자가 아닌 BAD라는 유전자가 포함되었다. 또한 {BAD, CASP8}는 "알려진 기능1: Apoptosis"를 공유하므로, 신규 말단 노드(T7)로서 온톨로지에 추가된다.
과정 4에서도, BAX-BAD이 유전자 네트워크에 추가되고, 신규 극대 클릭 {BAX, BAD}이 탐색된다. {BAX, BAD}는 알려진 기능1: Apoptosis"를 공유하므로, 신규 말단 노드(T8)로서 온톨로지에 추가된다.
과정 5에서, CASP8-BAX가 유전자 네트워크에 추가되고, 신규 극대 클릭 {BAD, BAX, CASP8}이 탐색된다. {BAD, BAX, CASP8}은 모두 "알려진 기능1: Apoptosis"를 공유하며, 온톨로지 노드 T2(CASP8, BAX), 온톨로지 노드 T7(BAD, CASP8), 온톨로지 노드 T8(BAD, BAX)이 {BAD, BAX, CASP8}의 부분 집합이므로, {BAD, BAX, CASP8}이 T2, T7, T8의 부모 노드(T9)로 온톨로지에 추가된다.
과정 6에서, PLK3-BAD가 유전자 네트워크에 추가되는데, 신규 극대 클릭 {PLK3, BAD}는 "알려진 기능1: p53 pathway" 및 "알려진 기능2: apoptosis"에 포함되지 않으므로, 공유(공통)되는 기능을 가지지 않는다고 판단한다. 따라서, {PLK3, BAD}은 온톨로지에 추가되지 않는다.
이와 같이 유전자 관계를 하나씩 추가해가면서 모든 관계가 유전자 네트워크에 표시될 때까지 획득한 기저 온톨로지에 추가하여 온톨로지 확장을 수행하고, 최종 얻어진 온톨로지를 기능 온톨로지로서 획득할 수 있다. 기능 온톨로지는 아래와 표 6과 같이, 기저 온톨로지 노드에서 확장된 노드들로 생성된다. 기능 온톨로지 내의 모든 온톨로지 노드들은 기능 그룹 지표로서 출력될 수 있다. 본 과정에서는 설명을 위하여 유전자 간 관계를 하나씩 추가하였으나, 특정 개수씩, 혹은 특정 유사도 점수 간격으로 관계 집합을 추가하여 온톨로지를 구성할 수 있다.
순서 유전자쌍 기능 유사도 온톨로지 노드
1 MDM2-p53 0.236 기저 온톨로지 노드 T1
2 BAD-CASP8 0.230 T7
3 BAX- BAD 0.217 T8
4 BAX-CASP8 0.200 T9={T2, T7, T8}
5 BAD- PLK3 0.198 -
이와 같이, 실시예에 따르면 기능이 유사한 유전자들을 포괄적이고 필수적인 형태의 기능군으로 재구성할 수 있고, 이를 통해 세포 내의 단위 기능들과 이들이 조합된 상위 기능들로 복잡하게 구성된 질병 기전을 반영할 수 있어, 질병 판별의 정확성과 안정성/재현성을 높일 수 있다.
실시예에 따르면 기존에 알려진 기능 유전자셋을 통합 및 재구성하여, 기능에 의한 인과관계가 알려진 유전자셋을 하나의 "기능 그룹 지표"로 발굴할 수 있고, 구체적으로 다양한 기능에 연관된 "공통기능 그룹 지표"및 특수한 세부 기능에 연관된 "세부기능 그룹 지표"의 조합으로 질병 및 세포 기능을 설명할 수 있는 그룹 지표를 선정할 수 있다.
실시예에 따르면 질병 지표 및 질병 전사체 데이터 분석을 통해 기능적 인과관계가 있으면서 질병에서 특이적 발현 패턴을 보이는 "질병 그룹 지표"를 선정할 수 있고, 질병 그룹 지표들을 기반으로 판별 모델을 구성하므로, 질병 상태 판별의 재현성을 높일 수 있다.
실시예에 따라 선정된 질병 그룹 지표는 질병 진단, 예후 예측, 약물 동반 진단 등에 광범위하게 이용될 수 있고, 마이크로어레이 내지는 멀티플렉스 분석 키트로 제작되어 활용될 수 있다.
실시예에 따르면 질병에 의미 있는 변이의 탐색이 어려워 신뢰도와 안정성이 떨어졌던 기존의 개별 유전자 발현 지표의 한계점을 극복하고, 다양한 기능 정보를 종합하여 활용하지 못하였던 기존 기능군 분석 방법의 문제점을 해결할 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (17)

  1. 질병 판별 시스템의 동작 방법으로서,
    기능이 유사한 유전자들이 묶인 기능 그룹들을 수집하는 단계,
    상기 기능 그룹들에서 출현하는 빈도가 기준 이상인 다기능 유전자들을 추출하는 단계,
    다기능 유전자 간 기능 유사도를 기초로 상기 다기능 유전자들의 조합으로 구성된 적어도 하나의 공통기능 그룹 지표를 탐색하고, 각 공통기능 그룹 지표를 노드로 가지는 기저 온톨로지를 생성하는 단계,
    수집한 전체 유전자들로 그룹 지표 탐색 범위를 확장하고, 유전자 간 기능 유사도를 기초로 유전자들의 조합으로 구성된 적어도 하나의 세부기능 그룹 지표를 탐색하며, 상기 기저 온톨로지 기반에서 각 세부기능 그룹 지표를 노드로 추가하여 기능 온톨로지를 생성하는 단계, 그리고
    상기 기능 온톨로지를 구성하는 노드들을 기능 그룹 지표들로 선정하는 단계
    를 포함하는, 동작 방법.
  2. 제1항에서,
    상기 기저 온톨로지를 생성하는 단계는
    다기능 유전자 간 기능 유사도가 높은 다기능 유전자쌍 순서대로, 해당 다기능 유전자쌍을 연결하여 제1 유전자 네트워크를 확장하고, 상기 제1 유전자 네트워크에서 극대 클릭(maximum clique)을 탐색하며, 탐색한 극대 클릭에 해당하는 유전자셋이 수집한 기능 그룹들에 존재하면, 탐색한 극대 클릭을 온톨로지의 노드로 생성하는 절차를 반복하고,
    상기 극대 클릭에 해당하는 유전자셋은 상기 공통기능 그룹 지표인, 동작 방법.
  3. 제2항에서,
    상기 기저 온톨로지를 생성하는 단계는
    각 다기능 유전자쌍을 상기 제1 유전자 네트워크에 추가한 후, 추가된 다기능 유전자쌍이 이전에 추가된 다기능 유전자쌍들로 탐색된 극대 클릭들을 확장시키거나 새로운 극대 클릭을 구성하는지 탐색하는, 동작 방법.
  4. 제2항에서,
    상기 기저 온톨로지를 생성하는 단계는
    탐색한 극대 클릭에 해당하는 유전자셋을 노드 후보로 결정하고, 상기 온톨로지에 상기 노드 후보의 부분 집합 노드가 있으면, 상기 부분 집합 노드의 부모 노드로 상기 노드 후보를 추가하고,
    상기 온톨로지에 상기 노드 후보의 부분 집합 노드가 없으면, 상기 노드 후보를 말단 노드로 추가하는, 동작 방법.
  5. 제1항에서,
    상기 기능 온톨로지를 생성하는 단계는
    수집한 유전자들에 대해 유전자 간 기능 유사도를 계산하고, 기능 유사도가 높은 유전자쌍 순서대로, 해당 유전자쌍을 연결하여 제2 유전자 네트워크를 확장하고, 상기 제2 유전자 네트워크에서 극대 클릭(maximum clique)을 탐색하며, 탐색한 극대 클릭에 해당하는 유전자셋이 수집한 기능 그룹들에 존재하면, 탐색한 극대 클릭을 상기 온톨로지의 노드로 생성하는 절차를 반복하고,
    상기 극대 클릭에 해당하는 유전자셋은 상기 세부기능 그룹 지표인, 동작 방법.
  6. 제5항에서,
    상기 기능 온톨로지를 생성하는 단계는
    각 유전자쌍을 상기 제2 유전자 네트워크에 추가한 후, 추가된 유전자쌍이 이전에 추가된 유전자쌍들로 탐색된 극대 클릭들을 확장시키거나 새로운 극대 클릭을 구성하는지 탐색하는, 동작 방법.
  7. 제5항에서,
    상기 기능 온톨로지를 생성하는 단계는
    탐색한 극대 클릭에 해당하는 유전자셋을 노드 후보로 결정하고, 상기 온톨로지에 상기 노드 후보의 부분 집합 노드가 있으면, 상기 부분 집합 노드의 부모 노드로 상기 노드 후보를 추가하고,
    상기 온톨로지에 상기 노드 후보의 부분 집합 노드가 없으면, 상기 노드 후보를 말단 노드로 추가하는, 동작 방법.
  8. 제1항에서,
    상기 기능 그룹 지표들 중에서, 질병 지표를 유의미하게 포함하고, 질병-비질병 마이크로어레이에서 활성화 점수가 유의미하게 차이 나는 기능 그룹 지표를 질병 그룹 지표로 선정하는 단계
    를 더 포함하는, 동작 방법.
  9. 제8항에서,
    판별하고자 하는 질병 상태의 마이크로어레이 샘플별로 질병 그룹 지표들의 활성화 점수를 계산하여 학습 데이터를 생성하는 단계,
    상기 질병 그룹 지표들의 활성화 점수를 기반으로 특정 질병 상태를 판별하는 판별 모델을 학습시키는 단계,
    특정 샘플의 질병 상태 판별을 요청받으면, 상기 특정 샘플에 대한 상기 질병 그룹 지표들의 활성화 점수를 학습된 상기 판별 모델로 입력하는 단계, 그리고
    상기 판별 모델로부터 출력된 판별값을 통하여 상기 특정 샘플의 질병 상태를 출력하는 단계
    를 더 포함하는, 동작 방법.
  10. 질병 판별 시스템의 동작 방법으로서,
    기능이 유사한 유전자들이 묶인 기능 그룹들을 수집하는 단계,
    수집한 유전자들이 포함된 기능 그룹의 유사도를 기초로 유전자쌍을 연결하여 유전자 네트워크를 확장하고, 상기 유전자 네트워크에서 연결된 유전자들의 조합으로 구성된 기능 그룹 지표를 탐색하며, 각 기능 그룹 지표를 노드로 가지는 온톨로지를 생성하는 단계,
    상기 온톨로지를 구성하는 노드들을 기능 그룹 지표들로 선정하는 단계, 그리고
    상기 기능 그룹 지표들 중에서, 질병 지표를 유의미하게 포함하고, 질병-비질병 마이크로어레이에서 활성화 점수가 유의미하게 차이 나는 기능 그룹 지표를 질병 그룹 지표로 선정하는 단계
    를 포함하는, 동작 방법.
  11. 제10항에서,
    판별하고자 하는 질병 상태의 마이크로어레이 샘플별로 질병 그룹 지표들의 활성화 점수를 계산하여 학습 데이터를 생성하는 단계,
    상기 질병 그룹 지표들의 활성화 점수를 기반으로 특정 질병 상태를 판별하는 판별 모델을 학습시키는 단계,
    특정 샘플의 질병 상태 판별을 요청받으면, 상기 특정 샘플에 대한 상기 질병 그룹 지표들의 활성화 점수를 학습된 상기 판별 모델로 입력하는 단계, 그리고
    상기 판별 모델로부터 출력된 판별값을 통하여 상기 특정 샘플의 질병 상태를 출력하는 단계
    를 더 포함하는, 동작 방법.
  12. 제10항에서,
    상기 온톨로지를 생성하는 단계는
    상기 기능 그룹들에서 출현하는 빈도가 기준 이상인 유전자들을 다기능 유전자들로 추출하는 단계,
    다기능 유전자 간 기능 유사도를 기초로 상기 다기능 유전자들의 조합으로 구성된 적어도 하나의 공통기능 그룹 지표를 탐색하고, 각 공통기능 그룹 지표를 노드로 가지는 기저 온톨로지를 생성하는 단계, 그리고
    수집한 전체 유전자들로 그룹 지표 탐색 범위를 확장하고, 유전자 간 기능 유사도를 기초로 유전자들의 조합으로 구성된 적어도 하나의 세부기능 그룹 지표를 탐색하며, 상기 기저 온톨로지 기반에서 각 세부기능 그룹 지표를 노드로 추가하여 상기 온톨로지를 생성하는 단계
    를 포함하는, 동작 방법.
  13. 제10항에서,
    상기 온톨로지를 생성하는 단계는
    유전자 간 기능 유사도가 높은 유전자쌍 순서대로, 해당 유전자쌍을 연결하여 상기 유전자 네트워크를 확장하고, 상기 유전자 네트워크에서 극대 클릭(maximum clique)을 탐색하며, 탐색한 극대 클릭에 해당하는 유전자셋을 온톨로지의 노드로 생성하는 절차를 반복하는, 동작 방법.
  14. 제10항에서,
    상기 기능 그룹들을 수집하는 단계는
    기능 유전자셋(gene set) 정보를 제공하는 데이터베이스, 그리고 질병 경로 내에 포함된 생물학적 경로, 각종 조절자-표적 정보, 유전자 상호작용 정보를 제공하는 데이터베이스를 이용하여 기능이 유사한 유전자들이 묶인 기능 그룹들을 수집하는, 동작 방법.
  15. 기능이 유사한 유전자들이 묶인 기능 그룹들을 수집하고, 수집한 유전자들이 포함된 기능 그룹의 유사도를 기초로 유전자쌍을 순차적으로 연결하여 유전자 네트워크를 확장하며, 상기 유전자 네트워크에서 탐색한 극대 클릭(maximum clique)의 유전자셋을 기능 그룹 지표로 선정하는 기능 그룹 지표 발굴 장치, 그리고
    복수의 기능 그룹 지표들 중에서, 질병 지표를 유의미하게 포함하고, 질병-비질병 마이크로어레이에서 활성화 점수가 유의미하게 차이 나는 기능 그룹 지표를 질병 그룹 지표로 선정하고, 마이크로어레이 샘플별로 질병 그룹 지표들의 활성화 점수를 계산하며, 상기 질병 그룹 지표들의 활성화 점수를 기반으로 특정 질병 상태를 판별하는 판별 모델을 학습시키는 질병 판별 모델 생성 장치
    를 포함하는 질병 판별 시스템.
  16. 제15항에서,
    상기 기능 그룹 지표 발굴 장치는
    상기 기능 그룹들에서 출현하는 빈도가 기준 이상인 다기능 유전자들을 추출하고, 다기능 유전자 간 기능 유사도를 기초로 정렬한 다기능 유전자쌍을 연결하여 제1 유전자 네트워크를 확장하며, 상기 제1 유전자 네트워크에서 탐색한 극대 클릭의 유전자셋을 노드로 가지는 기저 온톨로지를 생성하며,
    수집한 전체 유전자들의 유전자 간 기능 유사도를 기초로 유전자쌍을 정렬하고, 유전자쌍을 순서대로 연결하여 제2 유전자 네트워크를 확장하며, 상기 제2 유전자 네트워크에서 탐색한 극대 클릭의 유전자셋을 상기 기저 온톨로지에 추가하여 최종 온톨로지를 생성하고,
    상기 최종 온톨로지를 구성하는 노드들을 기능 그룹 지표들로 선정하는,
    질병 판별 시스템.
  17. 제15항에서,
    상기 질병 판별 모델 생성 장치는
    특정 샘플의 질병 상태 판별을 요청받으면, 상기 특정 샘플에 대한 상기 질병 그룹 지표들의 활성화 점수를 학습된 상기 판별 모델로 입력하고, 상기 판별 모델로부터 출력된 판별값을 통하여 상기 특정 샘플의 질병 상태를 출력하는, 질병 판별 시스템.
KR1020190031988A 2019-03-20 2019-03-20 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법 KR102176721B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190031988A KR102176721B1 (ko) 2019-03-20 2019-03-20 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190031988A KR102176721B1 (ko) 2019-03-20 2019-03-20 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020200145453A Division KR102236194B1 (ko) 2020-11-03 2020-11-03 유전자들의 기능 그룹 지표 선정 방법, 질병 판별 시스템 및 이의 동작 방법

Publications (2)

Publication Number Publication Date
KR20200112078A KR20200112078A (ko) 2020-10-05
KR102176721B1 true KR102176721B1 (ko) 2020-11-09

Family

ID=72809331

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190031988A KR102176721B1 (ko) 2019-03-20 2019-03-20 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102176721B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053669A (ja) 2004-08-10 2006-02-23 Stem Cell Sciences Kk 遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体
KR100964181B1 (ko) 2007-03-21 2010-06-17 한국전자통신연구원 유전자 어휘 분류체계를 이용한 유전자 발현 프로파일군집화 방법 및 그 장치
JP2011092137A (ja) 2009-10-30 2011-05-12 Sysmex Corp 疾患の罹患の判定方法
WO2015006643A2 (en) 2013-07-12 2015-01-15 Immuneering Corporation Systems, methods, and environment for automated review of genomic data to identify downregulated and/or upregulated gene expression indicative of a disease or condition

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100499752B1 (ko) * 2003-12-18 2005-07-07 한국전자통신연구원 유전자 온톨로지를 이용한 단백질 상호작용 네트워크의개념화 방법
KR101990430B1 (ko) * 2017-06-22 2019-06-18 한국과학기술원 암의 재발 예후 예측을 위한 바이오마커 발굴 시스템 및 방법
KR20190019707A (ko) * 2017-08-18 2019-02-27 한림대학교 산학협력단 프로테오믹스 기법을 이용한 혈소판 풍부 혈장 내의 조직치유 관련 단백질 분류방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053669A (ja) 2004-08-10 2006-02-23 Stem Cell Sciences Kk 遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体
KR100964181B1 (ko) 2007-03-21 2010-06-17 한국전자통신연구원 유전자 어휘 분류체계를 이용한 유전자 발현 프로파일군집화 방법 및 그 장치
JP2011092137A (ja) 2009-10-30 2011-05-12 Sysmex Corp 疾患の罹患の判定方法
US20140287965A1 (en) 2009-10-30 2014-09-25 Sysmex Corporation Method for determining the presence of disease
WO2015006643A2 (en) 2013-07-12 2015-01-15 Immuneering Corporation Systems, methods, and environment for automated review of genomic data to identify downregulated and/or upregulated gene expression indicative of a disease or condition

Also Published As

Publication number Publication date
KR20200112078A (ko) 2020-10-05

Similar Documents

Publication Publication Date Title
CN109712678B (zh) 关系预测方法、装置及电子设备
Elmsallati et al. Global alignment of protein-protein interaction networks: A survey
Dib et al. CLAG: an unsupervised non hierarchical clustering algorithm handling biological data
Alakwaa et al. Construction of gene regulatory networks using biclustering and bayesian networks
Zhang et al. Efficiently predicting hot spots in PPIs by combining random forest and synthetic minority over-sampling technique
Ur Rehman et al. A three-way approach for protein function classification
Rogers et al. New insights from cluster analysis methods for RNA secondary structure prediction
KR102176721B1 (ko) 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법
KR102236194B1 (ko) 유전자들의 기능 그룹 지표 선정 방법, 질병 판별 시스템 및 이의 동작 방법
CN115599356A (zh) 一种数据处理方法、装置及相关设备
Kern et al. Predicting interacting residues using long-distance information and novel decoding in hidden markov models
Newaz et al. Inference of a dynamic aging-related biological subnetwork via network propagation
KR20200051300A (ko) Cf 트리를 활용한 범위 질의 기반의 데이터 클러스터링 장치 및 방법
CN115691702A (zh) 一种化合物可视化分类方法及系统
Wells et al. Chainsaw: protein domain segmentation with fully convolutional neural networks
KR102187594B1 (ko) 신약 후보 물질 발굴을 위한 멀티오믹스 데이터 처리 장치 및 방법
Zengyou Data mining for bioinformatics applications
Betzler Steiner tree problems in the analysis of biological networks
Elahi et al. Identification of protein complexes based on core-attachment structure and combination of centrality measures and biological properties in PPI weighted networks
N Moschopoulos et al. Analyzing protein-protein interaction networks with web tools
Javeed et al. LINGO Profiles Fingerprint and Association Rule Mining for drug-target interaction prediction
Halder et al. FuzzyPPI: Large-Scale Interaction of Human Proteome at Fuzzy Semantic Space
Sykacek et al. PCprophet: a framework for next generation interactomics
Fossati et al. Systematic protein complex profiling and differential analysis from co-fractionation mass spectrometry data
Cowman Compression and Version Control of Biological Networks

Legal Events

Date Code Title Description
A107 Divisional application of patent
GRNT Written decision to grant