KR102462746B1 - 암 환자의 유전자 네트워크 생성 및 예후 예측을 위한 유전자 쌍 발굴 방법과 시스템 - Google Patents

암 환자의 유전자 네트워크 생성 및 예후 예측을 위한 유전자 쌍 발굴 방법과 시스템 Download PDF

Info

Publication number
KR102462746B1
KR102462746B1 KR1020190172666A KR20190172666A KR102462746B1 KR 102462746 B1 KR102462746 B1 KR 102462746B1 KR 1020190172666 A KR1020190172666 A KR 1020190172666A KR 20190172666 A KR20190172666 A KR 20190172666A KR 102462746 B1 KR102462746 B1 KR 102462746B1
Authority
KR
South Korea
Prior art keywords
gene
pair
correlation coefficient
gene pair
group
Prior art date
Application number
KR1020190172666A
Other languages
English (en)
Other versions
KR20210080766A (ko
Inventor
한경숙
박병규
이욱
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020190172666A priority Critical patent/KR102462746B1/ko
Publication of KR20210080766A publication Critical patent/KR20210080766A/ko
Application granted granted Critical
Publication of KR102462746B1 publication Critical patent/KR102462746B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Physiology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 암 환자의 개인별 유전자 네트워크를 생성하고, 이로부터 예후 예측을 위한 유전자 쌍을 발굴하는 방법과, 이와 같은 방법을 실행하는 시스템에 관한 것이다.
이를 위하여 본 발명은, 정상 샘플군의 유전자 발현 데이터를 획득하는 단계와, 상기 정상 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수를 산출하는 단계와, 상기 정상 샘플군에 암 환자의 샘플을 추가하여 구성한 교란 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수를 산출하는 단계와, 상기 유전자 쌍 별로, 유전자 쌍의 상관 계수의 변화량을 산출하는 단계와, 유전자를 노드(node)로 나타내고, 상기 유전자 쌍의 상관 계수의 변화량을 에지(edge)로 나타내어 네트워크를 생성하는 단계를 포함하는, 암 환자의 유전자 네트워크 생성 방법을 제공한다.

Description

암 환자의 유전자 네트워크 생성 및 예후 예측을 위한 유전자 쌍 발굴 방법과 시스템 { Method And System For Constructing Cancer Patient Specific Gene Networks And Finding Prognostic Gene Pairs }
본 발명은 암 환자의 개인별 유전자 네트워크를 생성하고, 이로부터 예후 예측을 위한 유전자 쌍을 발굴하는 방법과, 이와 같은 방법을 실행하는 시스템에 관한 것이다.
암(cancer) 또는 악성 종양(malignant tumor)은 세포가 발생 할 때부터 사멸 할 때까지의 주기가 조절되지 않아, 세포 분열이 계속하여 이루어져 증식하는 질병이다.
암의 발생 원인은 매우 복잡하고, 유전적 요인 및 환경적 요인에 따라 달라질 수 있다. 그리고 암의 치료 방법은 암의 발생원인과 암종에 따라 달라질 수 있다. 따라서 동일한 암종에 대해 동일한 치료 방법을 실행할 경우, 치료 효과 및 그 부작용이 달라질 수 있다.
암 세포를 발생시키고 성장시키는 특정 유전자의 변화를 운전자 돌연변이(driver mutation)이라고 한다. 암의 치료 방법 중 하나인 표적 치료(target therapy)는 운전자 돌연변이를 표적으로 삼아, 암 세포의 발생과 성장을 차단하는 방법이다.
그러나 표적 치료는 운전자 돌연변이가 나타나는 암 환자에게만 효과적으로 적용할 수 있기 때문에, 암 환자 개인별로 특이적인 운전자 돌연변이를 분석해야 치료 효과를 향상하고 부작용을 최소화 할 수 있다.
한편, 최근까지 마이크로 어레이(micro array)와 RNA-seq 등과 같은 유전자 분석 방법을 이용하여, 많은 양의 유전자 발현 데이터(gene expression data)를 생성하여 왔다.
유전자 발현 데이터를 이용하여 유전자 발현 특성을 연구하고, 몇몇 종류의 유전자 네트워크를 생성하여 왔지만, 단일 샘플을 이용하여 암 환자 개인별로 특이적인 유전자 상관 네트워크(gene correlation network)를 구축하는 것은 쉽지 않은 형편이다.
또한, 지금까지의 암의 예후에 대한 연구는, 유전자 발현 데이터로부터 예후를 예측하는 유전자 시그니쳐(gene signatures) 등의 개별적인 유전자를 분석하는데 중점을 두어 왔다.
그러나 유전자 발현 단계가 유전자 측정 방법에 민감하기 때문에, 유전자 발현 데이터로부터 유전자 시그니쳐를 정확히 분석하기 어려운 점이 있고, 무작위로 선택된 유전자로부터 암의 예후를 예측하는 것과 크게 차이가 없는 단점이 있다.
따라서 암 환자 개인별로 특이적인 유전자 네트워크를 구축하고, 이로부터 예후 예측을 위한 유전자를 발굴하여, 효과적인 표적 치료 방법을 선택하게 해주는 방법이 필요한 실정이다.
본 발명의 목적은, 암 환자 개인별로 유전자 네트워크를 생성하고, 암의 예후 예측을 위한 유전자 쌍을 발굴하는 방법과, 이와 같은 방법을 실행하여 효과적인 표적 치료 방법을 선택하게 도와주는 시스템을 제공하는데 있다.
상기와 같은 목적을 달성하기 위하여 본 발명은, 정상 샘플군의 유전자 발현 데이터를 획득하는 단계와, 상기 정상 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수 및 제 1 유의 확률을 산출하는 단계와, 상기 정상 샘플군에 암 환자의 샘플을 추가하여 구성한 교란 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수 및 제 2 유의 확률을 산출하는 단계와, 상기 유전자 쌍 별로, 유전자 쌍의 상관 계수의 변화량을 산출하는 단계와, 유전자를 노드(node)로 나타내고, 상기 유전자 쌍의 상관 계수의 변화량을 에지(edge)로 나타내어 네트워크를 생성하는 단계를 포함하는, 암 환자의 유전자 네트워크 생성 방법을 제공한다.
그리고, 상기 정상 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수를 산출하는 단계와, 상기 교란 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수를 산출하는 단계는, 피어슨 상관 계수(Pearson Correlation Coefficient)를 이용하여 산출하는 암 환자의 유전자 네트워크 생성 방법을 제공한다.
그리고, 상기 정상 샘플군에 암 환자의 샘플 1개를 추가하여, 상기 교란 샘플을 생성하는 암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 방법을 제공한다.
그리고, 상기 유전자 쌍의 상관 계수의 변화량은, 상기 정상 샘플군의 유전자 쌍의 상관 계수와, 상기 교란 샘플군의 유전자 쌍의 상관 계수의 차이의 절대값인 암 환자의 유전자 네트워크 생성 방법을 제공한다.
그리고, 다수의 정상 샘플로 구성된 정상 샘플군의 유전자 발현 데이터를 획득하는 단계와, 상기 정상 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수를 산출하고, 상기 정상 샘플군의 유전자 쌍의 상관 계수에 대한 제 1 유의 확률을 산출하는 단계와, 상기 정상 샘플군에 암 환자의 샘플을 추가하여 구성한 교란 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수를 산출하고, 상기 교란 샘플군의 유전자 쌍의 상관 계수에 대한 제 2 유의 확률을 산출하는 단계와, 상기 유전자 쌍 별로, 유전자 쌍의 상관 계수의 변화량을 산출하는 단계와, 유전자를 노드(node)로 나타내고, 상기 유전자 쌍의 상관 계수의 변화량을 에지(edge)로 나타내어 네트워크를 생성하는 단계와, 다수의 암 환자 유전자 네트워크에서, 상기 제 1 유의 확률이 0.05 미만이고 제 2 유의 확률이 0.05 미만인 조건을 모두 만족하는 유전자 쌍을 선택하는 단계와, 상기 유전자 쌍의 상관 계수의 변화량에 따라 다수의 암 환자를 제 1 그룹과 제 2 그룹으로 분류하는 단계와, 생존 중인 암 환자들의 인원과, 사망 인원을 기간 별로 구분하고, 기간 별로 구분된 생존 중인 암 환자들의 인원과 사망 인원에 대해, 로그 순위법을 적용하여 제 3 유의 확률을 산출하는 단계와, 상기 제 3 유의 확률이 0.05 미만인 유전자 쌍을 예후 유전자 쌍으로 선정하는 단계를 포함하는, 암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 방법을 제공한다.
그리고, 상기 유전자 쌍의 상관 계수의 변화량에 따라 다수의 암 환자를 제 1 그룹과 제 2 그룹으로 분류하는 단계는, 상기 유전자 쌍의 상관 계수의 변화량이 큰 순서대로 상위 50 % 인 암 환자를 제 1 그룹으로 분류하고, 그렇지 않은 암 환자를 제 2 그룹으로 분류하는 암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 방법을 제공한다.
그리고, 상기 제 3 유의 확률을 FDR 또는 콕스 비례 위험 모형으로 보정하는 단계를 더 포함하는 암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 방법을 제공한다.
본 발명의 다른 실시예는, 외부로부터 유전자 발현 데이터를 획득하는 유전자 발현 데이터 입력부와, 획득한 상기 유전자 발현 데이터를 저장하는 유전자 발현 데이터 저장부와, 정상 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수 및 제 1 유의 확률을 산출하며, 상기 정상 샘플군에 암 환자의 샘플을 추가하여 구성한 교란 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수 및 제 2 유의 확률을 산출하며, 유전자 쌍 별로 유전자 쌍의 상관 계수의 변화량을 산출하는 상관 계수 연산부와, 유전자를 노드(node)로 나타내고, 상기 유전자 쌍의 상관 계수의 변화량과 상기 제 1, 2 유의 확률을 에지(edge)로 나타내어, 암 환자의 개인별 유전자 네트워크를 저장하는 유전자 네트워크 저장부와, 상기 암 환자의 개인별 유전자 네트워크를 그래프 형태로 표현하여 외부로 출력하는 유전자 네트워크 출력부와, 상기 암 환자의 개인별 유전자 네트워크에서 유전자 쌍의 존재 여부를 검색하는 유전자 쌍 검색부를 포함하는, 암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 시스템을 제공한다.
그리고, 상기 유전자 네트워크 저장부에 저장된 다수의 암 환자 유전자 네트워크에서, 상기 제 1 유의 확률이 0.05 미만이고 제 2 유의 확률이 0.05 미만인 조건을 모두 만족하는 유전자 쌍을 선택하고, 상기 유전자 쌍의 상관 계수의 변화량에 따라, 다수의 암 환자를 제 1 그룹과 제 2 그룹으로 분류하는 암 환자 분류부와, 생존 중인 암 환자들의 인원과 사망 인원을 기간 별로 구분하고 로그 순위법을 적용하여 제 3 유의 확률을 산출하는 유의 확률 연산부와, 상기 제 3 유의 확률을 FDR 또는 콕스 비례 위험 모형으로 보정하는 유의 확률 보정부와, 상기 제 3 유의 확률이 0.05 미만인 유전자 쌍을 예후 유전자로 선정하는 예후 유전자 쌍 선정부와, 상기 예후 유전자 쌍을 외부로 출력하는 예후 유전자 쌍 출력부를 더 포함하는, 암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 시스템을 제공한다.
이상 설명한 바와 같이 본 발명은, 유전자 발현량의 상관 관계를 이용하여 암 환자의 개인별 유전자 네트워크를 생성할 수 있다.
그리고 유전자 쌍의 상관 계수의 변화량에 대한 유의 확률을 구하여, 암의 예후 유전자 쌍을 발굴할 수 있다.
또한 암 환자의 개인별 유전자 네트워크에서, 발굴된 예후 유전자 쌍을 포함하는지를 검색하여, 암 환자의 예후를 예측하고 적절한 치료 방법을 선택하고 임상에 적용하는데 이용할 수 있다.
도 1a은 본 발명의 일 실시예에 따른, 암 환자의 개인별 유전자 네트워크를 생성하는 방법을 개략적으로 나타낸 순서도이다.
도 1b는 본 발명의 일 실시예에 의해 생성된, 암 환자의 개인별 유전자 네트워크를 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른, 암의 예후 유전자 쌍을 발굴하는 방법을 개략적으로 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른, 암 환자의 유전자 네트워크 생성 및 암의 예후 예측을 위한 유전자 쌍 발굴 시스템을 개략적으로 나타낸 도면이다.
도 4a와 도 4b는 제 1 그룹과 제 2 그룹의 생존률과 생존 기간을 카플란 마이어 곡선으로 나타낸 도면이다.
도 5a와 도 5b는 본 발명의 일 실시예에 따라 생성한 암 환자의 개인별 유전자 네트워크를 나타낸 도면이다.
이하, 도면을 참조하여 본 발명을 상세하게 설명한다.
다음의 실시예는 본 발명을 구체적으로 설명하기 위한 예시로서, 본 발명의 권리 범위를 제한하거나 한정하는 것은 아니다.
따라서, 본 발명의 상세한 설명 및 실시예로부터, 본 발명이 속하는 기술 분야의 전문가가 용이하게 유추할 수 있는 것은, 본 발명의 권리 범위에 속하는 것으로 해석된다.
도 1a은 본 발명의 일 실시예에 따른, 암 환자의 개인별 유전자 네트워크를 생성하는 방법을 개략적으로 나타낸 순서도이다.
도 1a에 도시된 것과 같이, 암 환자의 개인별 유전자 네트워크를 생성하는 방법의 제 1 단계(S100)는, 암종 별로 정상 샘플들(normal samples)의 유전자 발현 데이터와, 종양 샘플(tumor sample)의 유전자 발현 데이터를 획득하는 단계이다.
정상 샘플의 유전자 발현 데이터는, 기 구축된 데이터 셋(data set)으로부터 획득할 수 있다. 예를 들어, GTEx(Genotype Tissue Expression)에서 획득할 수 있으나, 이에 한정하지 않고 다른 데이터 셋으로부터 획득할 수도 있다.
정상 샘플은 각각의 암종과 관련된 세포주가 아닌, 정상적인 조직에 대한 유전자 발현 데이터일 수 있다.
종양 샘플의 유전자 발현 데이터는, 기 구축된 데이터 셋으로부터 획득할 수 있다. 예를 들어, TCGA(The Cancer Genome Atlas)에서 암종 별로 획득할 수 있으나, 이에 한정하지 않고 다른 데이터 셋으로부터 획득할 수도 있다.
본 발명에서는, TCGA에서 유방암(BRCA), 대장암(COAD), 폐암(LUAD)에 대한 종양 샘플을 각각 획득한 실시예를 나타내었다. 그러나 다른 암종에 대한 암 환자의 개인별 유전자 네트워크를 생성하기 위하여, 다른 암종에 대한 종양 샘플을 기 구축된 데이터 셋으로부터 획득할 수 있다.
암 환자의 개인별 유전자 네트워크를 생성하는 방법의 제 2 단계(S200)는, 정상 샘플들의 유전자 발현 데이터로부터 산출한 유전자 쌍의 상관 관계를 구하는 단계이다.
유전자 쌍의 상관 관계는, 피어슨 상관 계수(Pearson Correlation Coefficient, PCC)을 이용하여 구할 수 있다. 그러나 이에 한정하지 않고, 다른 상관 계수를 이용하여 유전자 쌍의 상관 관계를 구할 수도 있다. 예를 들어, 스피어만 상관 계수(Spearman Correlation Coefficient), 켄달 순위 상관 계수(Kendall Rank Correlation Coefficient), 크론바흐 알파 계수(Cronbach's Alpha Coefficient) 등을 이용하여 유전자 쌍의 상관 관계를 구할 수 있다.
본 발명의 일 실시예에서 유전자 쌍의 상관 관계를 구하기 위해 피어슨 상관 계수를 이용할 때, 다음 수학식 1을 이용할 수 있다.
Figure 112019132611064-pat00001
수학식 1에서 N은 정상 샘플군에 포함된 샘플의 개수를 나타낸다.
Figure 112022055882242-pat00002
는 k 번째 정상 샘플에서의 i 번째 유전자의 발현량을 나타내며,
Figure 112022055882242-pat00003
는 k 번째 정상 샘플에 포함된 j 번째 유전자의 발현량을 나타낸다.
Figure 112022055882242-pat00004
는 정상 샘플 N개의 정상 샘플로 구성된 정상 샘플군에서의 i 번째 유전자의 평균 발현량을 나타낸다. 그리고
Figure 112022055882242-pat00005
는 정상 샘플군에서의 j 번째 유전자의 평균 발현량을 나타낸다.
상기 수학식 1에, 정상 샘플 N 개에 각각 포함된 i 번째 유전자 및 j 번째 유전자의 발현량과 평균 발현량을 입력함으로써, i 번째 유전자와 j 번째 유전자가 이루는 유전자 쌍의 상관 계수(PCCreference(xi, xj))를 구할 수 있다.
정상 샘플군에 포함된 유전자의 개수가 M 개라면, 유전자 쌍의 개수는 2 가지 유전자의 조합의 개수인 MC2 (= M(M-1)/2) 개이므로, 총 MC2 개의 유전자 쌍에 대하여 각각 수학식 1에 입력함으로써 상관 계수를 구할 수 있다.
따라서 제 2 단계(S200) 이후 정상 샘플에 포함된 M 개의 유전자에 대한, MC2 개의 유전자 쌍의 상관 계수(PCCreference(xi, xj))를 각각 구할 수 있게 된다.
또한 정상 샘플에 있어서 각각의 유전자 쌍의 상관 계수(PCCreference(xi, xj))에 대한 유의 확률(p-value)을 산출하며, 이를 제 1 유의 확률(P1)로 정의한다.
암 환자의 개인별 유전자 네트워크를 생성하는 방법의 제 3 단계(S300)는, 정상 샘플에 암 환자 1 인의 샘플을 1 개 추가하여 유전자 쌍의 상관 관계를 구하는 단계이다.
암 환자의 샘플은, 암 환자의 조직(tissue)을 채취하여 유전자 분석을 통해 획득한 유전자 발현 데이터일 수 있다.
우선 N개의 정상 샘플로 구성된 정상 샘플군에 암 환자의 샘플 1 개를 추가하여 교란 샘플군(group of perturbed samples)으로 생성한다. 그리고 교란 샘플군에 포함된 i 번째 및 j 번째 유전자의 발현량과 평균 발현량을 다음 수학식 2에 입력한다.
Figure 112019132611064-pat00006
수학식 2에서 교란 샘플군에 포함된 샘플의 개수는 (N+1) 이다(N 개의 정상 샘플 + 1 개의 암 샘플).
Figure 112022055882242-pat00007
는 k 번째 샘플에서의 i 번째 유전자의 발현량을 나타내며,
Figure 112022055882242-pat00008
는 k 번째 샘플에서의 j 번째 유전자의 발현량을 나타낸다.
Figure 112022055882242-pat00009
는 교란 샘플군에 포함된 i 번째 유전자의 평균 발현량을 나타낸다. 그리고,
Figure 112022055882242-pat00010
는 교란 샘플군에 포함된 j 번째 유전자의 평균 발현량을 나타낸다.
상기 수학식 2에, 교란 샘플군에서의 i 번째 유전자와 j 번째 유전자의 발현량과 평균 발현량을 입력함으로써, i 번째 유전자 및 j 번째 유전자가 이루는 유전자 쌍의 상관 계수(PCCperturbed(xi, xj))를 구할 수 있다.
교란 샘플군의 유전자 발현 데이터에 포함된 유전자의 개수가 M 개라면, 유전자 쌍의 개수는 2 가지 유전자의 조합의 개수는 MC2 (= M(M-1)/2) 개이므로, 총 MC2 개의 유전자 쌍에 대하여 각각 수학식 2에 입력함으로써 상관 계수를 구할 수 있다.
따라서 제 3 단계(S300) 이후 교란 샘플군의 유전자 발현 데이터에 포함된 M 개의 유전자에 대한, MC2 개의 유전자 쌍의 상관 계수(PCCperturbed(xi, xj))를 각각 구할 수 있게 된다.
또한 교란 샘플군에서의 유전자 쌍의 상관 계수(PCCperturbed(xi, xj))에 대한 유의 확률(p-value)을 산출하며, 이를 제 2 유의 확률(P2)로 정의한다.
암 환자의 개인별 유전자 네트워크를 생성하는 방법의 제 4 단계(S400)는, 유전자 쌍의 상관 계수의 변화량을 구하는 단계이다.
제 2 단계(S200)에서 구한 정상 샘플군에서의 유전자 쌍의 상관 계수(PCCreference(xi, xj))와, 제 3 단계(S300)에서 구한 교란 샘플군에서의 유전자 쌍의 상관 계수(PCCperturbed(xi, xj))의 차이의 절대값(ΔPCC(xi, xj))을, 유전자 쌍의 상관 계수의 변화량으로 정의할 수 있다. 이는 다음의 수학식 3과 같이 나타낼 수 있다.
Figure 112019132611064-pat00011
제 4 단계(S400)에서는 M 개의 유전자가 이루는 MC2 개의 유전자 쌍에 대해 각각 수학식 3에 입력하여, 유전자 쌍의 상관 계수의 변화량을 구할 수 있다.
이때 정상 샘플군에서 제 1 유의 확률(P1)이 0.05 미만이고, 교란 샘플군에서 제 2 유의 확률(P2)이 0.05 미만을 만족하는 유전자 쌍에 대해서만, 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 산출할 수도 있다.
산출된 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))를 이용하여, 다음 도 1b와 같이 암 환자의 개인별 유전자 네트워크를 생성할 수 있다.
도 1b는 본 발명의 일 실시예에 의해 생성된, 암 환자의 개인별 유전자 네트워크를 개략적으로 나타낸 도면이다.
암 환자의 개인별 유전자 네트워크(N)는, 도 1b에 도시된 것과 같이 유전자를 노드(node)로 나타내고, 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 에지(edge)로 나타내어 표현할 수 있다.
제 5 단계(S500)에서는 다수의 암 환자 별로 유전자를 노드(node)로 나타내고, 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 에지(edge)로 나타내어 개인별 유전자 네트워크(N)를 각각 생성할 수 있다. 암 환자의 수가 C 명이라면 총 C 개의 암 환자 개인별 유전자 네트워크(N)를 생성할 수 있다.
암 환자의 개인별 유전자 네트워크(N)는, 암의 예후 유전자 쌍을 발굴하는데 이용될 수 있는데 이를 다음과 같이 설명한다.
도 2는 본 발명의 일 실시예에 따른, 암의 예후 유전자 쌍을 발굴하는 방법을 개략적으로 나타낸 도면이다.
암의 예후 유전자 쌍을 발굴하는 방법의 제 1 단계(T100)는, 제 1, 2 유의 확률(P1, P2)에 따라 유전자 쌍을 선택하는 단계이다.
정상 샘플군에서의 제 1 유의 확률(P1)과 교란 샘플군에서의 제 2 유의 확률(P2) 중 적어도 하나가 0.05 이상인 유전자 쌍은, 상관 계수의 유의미한 차이가 있지 않은 것으로 판단하여, 암의 예후 예측을 위한 유전자 쌍에서 제외할 수 있다.
이에 따라 제 1 단계(T100)에서는 다수의 암 환자의 개인별 유전자 네트워크에서, 제 1 유의 확률(P1)과 제 2 유의 확률(P2)이 모두 0.05 미만인 유전자 쌍을 예후 유전자 쌍의 후보로서 선택하여, 다음 제 2 단계(T200)에 적용할 수 있다.
암의 예후 유전자 쌍을 발굴하는 방법의 제 2 단계(T200)는, 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))에 따라 다수의 암 환자를 분류하는 단계이다.
우선 특정 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을, 다수의 암 환자의 개인별 유전자 네트워크를 통해 암 환자의 인원 수만큼 구한다.
암 환자의 인원 수가 C 명이라면, 특정 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 C 개 만큼 구할 수 있다.
유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 정렬하여, 값이 큰 순서대로 상위 U % 에 속한 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 갖는 암 환자를 제 1 그룹(G1)으로 분류하고, 그렇지 않은 암 환자를 제 2 그룹(G2)으로 분류한다. 이때 U % 는 바람직하게는 50 % 일 수 있으나 이에 한정하지는 않는다.
제 1 그룹(G1) 또는 제 2 그룹(G2)에 포함된 암 환자의 수가 10 명 미만이라면, 샘플의 개수가 부족하여 해당 유전자 쌍은 암의 예후 예측을 위한 유전자 쌍에서 제외될 수 있다.
암의 예후 유전자 쌍을 발굴하는 방법의제 3 단계(T300)는, 유전자 쌍에 대해 로그 순위법(log rank test)을 실행하는 단계이다.
하나의 유전자 쌍에 대하여, 제 1 그룹(G1)과 제 2 그룹(G2)으로 분류된 암 환자들의 생존 여부를 기간 별로 구분한다. 이에 따라 제 1 그룹(G1)과 제 2 그룹(G2)으로 분류된 생존 중인 암 환자들의 인원과, 사망 인원을 기간 별로 구분할 수 있다.
기간 별로 구분된 생존 중인 암 환자들의 인원과 사망 인원에 대해 로그 순위법을 적용하여, 유의 확률(p-value)을 산출하며, 이를 제 3 유의 확률(P3)로 정의한다.
제 3 유의 확률(P3)은 예를 들어 다음 수학식 4를 이용하여 구할 수 있다.
Figure 112019132611064-pat00012
Figure 112019132611064-pat00013
Figure 112019132611064-pat00014
수학식 4에서 변수 t 는 구분된 기간을 나타낸 것이고,
Figure 112019132611064-pat00015
,
Figure 112019132611064-pat00016
,
Figure 112019132611064-pat00017
는 제 1 그룹(G1)에서 기간 별 기대 빈도, 사망 빈도, 생존 인원 수를 각각 나타낸 것이다. 그리고
Figure 112019132611064-pat00018
,
Figure 112019132611064-pat00019
,
Figure 112019132611064-pat00020
는 제 2 그룹(G2)에서 기간 별 기대 빈도, 사망 빈도, 생존 인원 수를 각각 나타낸 것이다.
상기 수학식 4를 통해 구한
Figure 112019132611064-pat00021
값이 로그 순위법의 임계 값인 3.84를 초과하면 제 3 유의 확률(P3)을 0.05 미만으로 볼 수 있고, 제 1 그룹(G1)과 제 2 그룹(G2) 사이에 유의미한 차이가 있는 것으로 판단할 수 있다.
암의 예후 유전자 쌍을 발굴하는 방법의 제 4 단계(T400)는, 제 3 유의 확률(P3)을 보정하는 단계이며, 선택적으로 실행될 수 있다.
제 3 단계(T300)에서 구한 제 3 유의 확률(P3)은, 벤자민과 호크버그(Benjamini-Hochberg procedure)가 제시한 FDR(False Discovery Rate)을 이용하여 보정할 수 있다.
C 명의 암 환자에 대한 제 3 유의 확률(P3)을 구한 것에 더하여, 다른 암 환자 들의 유전자 쌍에 대해 제 1 내지 제 3 단계(T100 ~ T300)를 다수 번 실행하여, 다수 개의 제 3 유의 확률(P3)을 산출한다. 예를 들어 H 개의 제 3 유의 확률(P3)을 산출할 수 있다.
구해진 H 개의 제 3 유의 확률(P3)을 정렬한 후, 다음 수학식 5를 만족하는 가장 큰 j 값을 찾는다.
Figure 112019132611064-pat00022
수학식 5에서
Figure 112022055882242-pat00023
는 올림 차순으로 정렬된 H 개의 제 3 유의 확률(P3) 중 j 번째 유의 확률을 나타내며,
Figure 112022055882242-pat00024
는 레벨을 나타낸다
그리고 수학식 5를 만족하는 제 3 유의 확률(p1 ~ pj)을 기각하여 이를 보정할 수 있다.
또는 콕스 비례 위험 모형(Cox Proportional Hazard Regression Model)을 이용하여 보정할 수도 있다. 이때 위험 함수의 비에 대한 유의 확률을 보정된 제 3 유의 확률(P3)로서 산출할 수 있다.
암의 예후 유전자 쌍을 발굴하는 방법의 제 5 단계(T500)는, 예후 유전자 쌍을 선정하는 단계이다.
제 3 단계(T300) 또는 제 4 단계(T400)에서 구한 제 3 유의 확률(P3)이 0.05 미만이라면, 제 1 그룹(G1)과 제 2 그룹(G2) 사이에 유의미한 차이가 있는 것으로 판단할 수 있기 때문에, 제 1 그룹(G1)에 속한 암 환자 들의 생존 기간이 제 2 그룹(G2)에 속한 암 환자 보다 짧다고 볼 수 있다.
따라서 제 1, 2 유의 확률(P1, P2)이 0.05 미만이고, 제 3 유의 확률(P3)이 0.05 미만인 경우, 암 환자 들을 제 1 그룹(G1)과 제 2 그룹(G2)으로 분류한 기준이 된 유전자 쌍을 잠재적인 예후 유전자 쌍으로 볼 수 있다.
선정된 예후 유전자 쌍이 암 환자의 개인별 유전자 네트워크에 포함되는지를 검색하여, 암 환자의 생존률과 생존 기간 등의 예후를 예측하고 적절한 치료 방법을 선택할 수 있다.
암 환자의 개인별 유전자 네트워크를 생성하는 방법과, 암의 예후 유전자 쌍을 발굴하는 방법을 실행하는 시스템을 다음과 같이 설명한다.
도 3은 본 발명의 일 실시예에 따른, 암 환자의 유전자 네트워크 생성 및 암의 예후 예측을 위한 유전자 쌍 발굴 시스템을 개략적으로 나타낸 도면이다.
본 발명의 일 실시예에 따른, 암 환자의 유전자 네트워크 생성 및 암의 예후 유전자 쌍 발굴 시스템(100)은, 유전자 네트워크 생성부(110)와, 예후 유전자 쌍 발굴부(120)를 포함할 수 있다.
유전자 네트워크 생성부(110)는 유전자 발현 데이터 입력부(111)와, 유전자 발현 데이터 저장부(112), 상관 계수 연산부(113), 유전자 네트워크 저장부(114), 유전자 네트워크 출력부(115), 유전자 쌍 검색부(116)를 포함할 수 있다.
유전자 발현 데이터 입력부(111)는, 정상 샘플의 유전자 발현 데이터와, 종양 샘플의 유전자 발현 데이터, 암 환자 샘플의 유전자 발현 데이터를 입력 받을 수 있다.
유전자 발현 데이터 입력부(111)는, 시스템(100)과 연결된 단말기(200)를 통해 유전자 발현 데이터를 직접 입력 받을 수 있다. 그리고 시스템(100)의 외부에 위치하는 데이터 베이스(300)로부터 유전자 발현 데이터를 획득할 수 있다.
시스템(100)의 외부에 위치하는 데이터 베이스(300)로부터 유전자 발현 데이터를 획득할 때는, 예를 들어 GTEx 에서 정상 샘플의 유전자 발현 데이터를 획득하거나, TCGA 에서 종양 샘플의 유전자 발현 데이터를 암종 별로 획득할 수 있다.
유전자 발현 데이터 저장부(112)는, 유전자 발현 데이터 입력부(111)를 통해 입력 받은 정상 샘플의 유전자 발현 데이터와, 종양 샘플의 유전자 발현 데이터, 암 환자 샘플의 유전자 발현 데이터를 구분하여, 파일이나 데이터베이스 형식으로 저장할 수 있다.
그리고 각 샘플의 유전자 발현 데이터에는 유전자 발현량이 포함될 수 있다.
상관 계수 연산부(113)는, 유전자 발현 데이터 저장부(112)에 저장된 샘플에 대하여, 유전자 쌍의 상관 계수를 구할 수 있다.
상관 계수 연산부(113)는, 정상 샘플에 포함된 유전자 쌍 별로 상관 계수(PCCreference(xi, xj))와 제 1 유의 확률(P1)을 구할 수 있다.
예를 들어 상관 계수 연산부(113)는, 정상 샘플 N 개에 각각 포함된 i 번째 유전자 및 j 번째 유전자의 발현량과 평균 발현량을 유전자 발현 데이터 저장부(112)로부터 입력 받아, i 번째 유전자 및 j 번째 유전자가 이루는 유전자 쌍의 상관 계수(PCCreference(xi, xj))를 구할 수 있다. 이를 위하여 상관 계수 연산부(113)는 수학식 1을 이용할 수 있다.
그리고 상관 계수 연산부(113)는, 암 환자 샘플을 유전자 발현 데이터 저장부(112)로부터 입력 받아, 정상 샘플에 추가한 교란 샘플을 생성할 수 있으며, 교란 샘플에 포함된 유전자 쌍 별로 상관 계수(PCCperturbed(xi, xj))와 제 2 유의 확률(P2)을 구할 수 있다.
상관 계수 연산부(113)는, 교란 샘플 N+1 개에 각각 포함된 i 번째 유전자 및 j 번째 유전자의 발현량과 평균 발현량을 유전자 발현 데이터 저장부(112)로부터 입력 받아, i 번째 유전자 및 j 번째 유전자가 이루는 유전자 쌍의 상관 계수(PCCperturbed(xi, xj))를 구할 수 있다. 이를 위하여 상관 계수 연산부(113)는 수학식 2를 이용할 수 있다.
또한, 상관 계수 연산부(113)는, 유전자 쌍 별로 정상 샘플의 유전자 쌍의 상관 계수(PCCreference(xi, xj))와, 교란 샘플의 유전자 쌍의 상관 계수(PCCperturbed(xi, xj))의 절대값 차이인, 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 구할 수 있다. 이를 위하여 상관 계수 연산부(113)는 수학식 3을 이용할 수 있다.
이때 정상 샘플에서 제 1 유의 확률(P1)이 0.05 미만이고, 교란 샘플에서 제 2 유의 확률(P2)이 0.05 미만을 만족하는 유전자 쌍에 대해서만, 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 산출할 수도 있다.
유전자 네트워크 저장부(114)는, 유전자 쌍 별로 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))과 제 1 유의 확률(P1) 및 제 2 유의 확률(P2)을 저장할 수 있다.
유전자 네트워크 저장부(114)는, 유전자를 노드(node)로 나타내고, 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 에지(edge)로 나타내어, 암 환자의 개인별 유전자 네트워크를 저장할 수 있다. 그리고 제 1 유의 확률(P1) 및 제 2 유의 확률(P2)을 에지(edge)에 추가적으로 저장할 수 있다.
유전자 네트워크 출력부(115)는 단말기(200)를 통하여 유전자 네트워크를 그래프 형태로 표시할 수 있다. 또는 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 파일이나 데이터 베이스 형태로 출력할 수 있다.
유전자 쌍 검색부(116)는, 유전자 네트워크 저장부(114)에 저장된 유전자 네트워크에서 예후 유전자가 포함되는지 검색한 후, 유전자 네트워크 출력부(115)를 통해 그 여부를 출력할 수 있다.
유전자 네트워크 생성부(110)는, 1 명의 암 환자 뿐만 아니라 다수의 암 환자에 대하여 각각 유전자 쌍 별로 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 구한 후, 다수의 암 환자에 대하여 개인별 유전자 네트워크를 생성할 수 있다.
예후 유전자 쌍 발굴부(120)는 암 환자 분류부(121)와, 유의 확률 연산부(122), 유의 확률 보정부(123), 예후 유전자 쌍 선정부(124), 예후 유전자 쌍 출력부(125)를 포함할 수 있다.
암 환자 분류부(121)는, 유전자 네트워크 저장부(114)에 저장된 다수의 암 환자 개인별 유전자 네트워크에서, 제 1 유의 확률(P1)이 0.05 미만이고, 제 2 유의 확률(P2)이 0.05 미만인 유전자 쌍을 선택한다. 그리고 암 환자 분류부(121)는, 유전자 네트워크 저장부(114)에 저장된 다수의 암 환자 개인별 유전자 네트워크에서, 유전자 쌍 별로 다수의 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 획득할 수 있다.
또한 암 환자 분류부(121)는 다수의 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 정렬하여, 값이 큰 순서대로 상위 U % 에 속한 유전자 쌍의 상관 계수의 변화량(ΔPCC(xi, xj))을 갖는 암 환자를 제 1 그룹(G1)으로 분류할 수 있고, 그렇지 않은 암 환자를 제 2 그룹(G2)으로 분류할 수 있다. 이때 U % 는 바람직하게는 50 % 일 수 있으나 이에 한정하지는 않는다.
유의 확률 연산부(122)는, 제 1 그룹(G1)과 제 2 그룹(G2)으로 분류된 생존 중인 암 환자들의 인원과, 사망 인원을 기간 별로 구분할 수 있다.
그리고 유의 확률 연산부(122)는, 기간 별로 구분된 생존 중인 암 환자들의 인원과 사망 인원에 대해 로그 순위법(log rank test)을 적용하여, 제 3 유의 확률(P3)을 구할 수 있다. 이를 위하여 유의 확률 연산부(122)는 수학식 4를 이용할 수 있다.
유의 확률 보정부(123)는, 유의 확률 연산부(122)에서 구한 제 3 유의 확률(P3)을 보정할 수 있다. 예후 유전자 쌍 발굴부(120)는 유의 확률 보정부(123)를 선택적으로 포함할 수 있고, 유의 확률 보정부(123)는 FDR 또는 콕스 비례 위험 모형을 이용하여 제 3 유의 확률(P3)을 보정할 수 있다.
예후 유전자 쌍 선정부(124)는, 제 3 유의 확률(P3)을 이용하여 예후 유전자 쌍을 발굴 할 수 있다.
예후 유전자 쌍 선정부(124)는, 유의 확률 연산부(122)에서 산출되거나 유의 확률 보정부(123)에서 보정된 제 3 유의 확률(P3)이 0.05 미만인 유전자 쌍을 예후 유전자 쌍으로 선정할 수 있다.
선정된 예후 유전자 쌍은 유전자 쌍 검색부(116)으로 전송되어, 암 환자 개인별로 예후 유전자 쌍을 포함하고 있는지 검색할 수 있다.
예후 유전자 쌍 출력부(125)는, 예후 유전자 쌍 선정부(124)에서 선정한 예후 유전자 쌍을 단말기(200)로 출력할 수 있다. 또는 파일이나 데이터 베이스 형태로 출력할 수 있다.
본 발명의 일 실시예에 따른 방법 및 시스템에 의해 선정된 예후 유전자 쌍이, 암의 예후를 나타내는 효과에 대하여 다음과 같이 설명한다.
도 4a와 도 4b는 제 1 그룹과 제 2 그룹의 생존률과 생존 기간을 카플란 마이어 곡선으로 나타낸 도면이다.
도 4a는 유전자 쌍이 아닌 개별 유전자에 대한 제 3 유의 확률(P3)을 구하고, 제 1 그룹과 제 2 그룹의 생존률(survival rate, 세로축)과 생존 기간(survival time, 가로축)을 나타낸 것이다.
유방암 환자에 대하여 LINC01234 유전자에 대한 제 3 유의 확률(P3)은 3.70 x 10-3 로 0.05 보다 낮지만, 제 1 그룹(Group 1)과 제 2 그룹(Group 2)의 생존률과 생존 기간은 크게 차이가 없는 것을 볼 수 있다.
MET 유전자 역시, 제 1 그룹(Group 1)과 제 2 그룹(Group 2)의 생존률과 생존 기간은 마찬가지로 크게 차이가 없는 것을 볼 수 있다.
도 4b는 본 발명의 일 실시예에 따른, 암 환자의 개인별 유전자 네트워크를 생성하는 방법과 암의 예후 유전자 쌍을 발굴하는 방법을 통해, 유전자 쌍 별로 유의 확률을 구한 것이다.
(A)는 유방암 환자에 대하여, 2 개의 유전자 쌍 별로 생존률과 생존 기간을 나타내었다.
(A)에서 좌측에 도시된, LINC01234 유전자와 MET 유전자가 이루는 유전자 쌍에 대한 제 3 유의 확률(P3)은 4.11 x 10-10 이고, 보정된 값은 2.56 x 10-7 이다.
제 1 그룹(Group 1)에 속한 암 환자의 생존률과 생존 기간이, 제 2 그룹(Group 2)에 속한 암 환자 보다 현저히 낮은 것을 볼 수 있다.
(A)에서 우측에 도시된, KRT5 유전자와 SP1 유전자가 이루는 유전자 쌍에 대한 제 3 유의 확률(P3)은 1.73 x 10-9 이고, 보정된 값은 1.71 x 10-6 이다.
(LINC01234, MET) 유전자 쌍과 마찬가지로, 제 1 그룹(Group 1)에 속한 암 환자의 생존률과 생존 기간이, 제 2 그룹(Group 2)에 속한 암 환자 보다 현저히 낮은 것을 볼 수 있다.
따라서 제 3 유의 확률(P3)이 0.05 보다 낮은 유전자 쌍인 (LINC01234, MET)와 (KRT5, SP1)는, 유방암의 예후를 예측하는 유전자 쌍으로 볼 수 있다.
(B)는 대장암 환자에 대하여, 2 개의 유전자 쌍 별로 생존률과 생존 기간을 나타내었다.
(B)에서 좌측에 도시된, LINC01133 유전자와 PTGER4 유전자가 이루는 유전자 쌍에 대한 제 3 유의 확률(P3)은 3.06 x 10-6 이고, 보정된 값은 6.33 x 10-5 이다.
제 1 그룹(Group 1)에 속한 암 환자의 생존률과 생존 기간이, 제 2 그룹(Group 2)에 속한 암 환자 보다 낮은 것을 볼 수 있다.
(B)에서 우측에 도시된, ESR2 유전자와 ZEB1-AS1 유전자가 이루는 유전자 쌍에 대한 제 3 유의 확률(P3)은 1.12 x 10-5 이고, 보정된 값은 1.45 x 10-4 이다.
(LINC01133, PTGER4) 유전자 쌍과 마찬가지로, 제 1 그룹(Group 1)에 속한 암 환자의 생존률과 생존 기간이, 제 2 그룹(Group 2)에 속한 암 환자 보다 낮은 것을 볼 수 있다.
따라서 제 3 유의 확률(P3)이 0.05 보다 낮은 유전자 쌍인 (LINC01133, PTGER4)와 (ESR2, ZEB1-AS1)는, 대장암의 예후를 예측하는 유전자 쌍으로 볼 수 있다.
(C)는 폐암 환자에 대하여, 2 개의 유전자 쌍 별로 생존률과 생존 기간을 나타내었다.
(C)에서 좌측에 도시된, KRT18 유전자와 SCUBE3 유전자가 이루는 유전자 쌍에 대한 제 3 유의 확률(P3)은 9.92 x 10-10 이고, 보정된 값은 1.37 x 10-7 이다.
제 1 그룹(Group 1)에 속한 암 환자의 생존률과 생존 기간이, 제 2 그룹(Group 2)에 속한 암 환자 보다 현저히 낮은 것을 볼 수 있다.
(C)에서 우측에 도시된, KRT18 유전자와 RBM 유전자가 이루는 유전자 쌍에 대한 제 3 유의 확률(P3)은 9.13 x 10-6 이고, 보정된 값은 3.69 x 10-6 이다.
(KRT18, SCUBE3) 유전자 쌍과 마찬가지로, 제 1 그룹(Group 1)에 속한 암 환자의 생존률과 생존 기간이, 제 2 그룹(Group 2)에 속한 암 환자 보다 낮은 것을 볼 수 있다.
따라서 제 3 유의 확률(P3)이 0.05 보다 낮은 유전자 쌍인 (KRT18, SCUBE3)와 (KRT18, RBM)는, 폐암의 예후를 예측하는 유전자 쌍으로 볼 수 있다.
이와 같이 개별 유전자가 아닌 유전자 쌍을 분석할 때, 제 1 그룹(Group 1)과 제 2 그룹(Group 2)의 생존률과 생존 기간을 명확히 구분할 수 있다. 따라서 본 발명은 유전자 쌍 및 유전자 쌍의 상관 계수의 변화량에 대하여 제 3 유의 확률(P3)을 분석함으로써, 암 환자의 예후 예측의 정확도를 높일 수 있다.
도 5a와 도 5b는 본 발명의 일 실시예에 따라 생성한 암 환자의 개인별 유전자 네트워크를 나타낸 도면이다.
도 5a에 도시된 제 1 네트워크(N1)에서는, (LINC01234, MET)와 (KRT5, SP1) 유전자 쌍이 포함된 것을 볼 수 있다.
그러나 도 5b에 도시된 제 2 네트워크(N2)에서는, (LINC01234, MET)와 (KRT5, SP1) 유전자 쌍이 포함되지 않은 것을 볼 수 있다.
또한 암의 예후 유전자 쌍을 포함할수록, 암 환자의 개인별 유전자 네트워크의 크기가 큰 것을 볼 수 있다. 이에 따라 본 발명의 일 실시예에서는, 암 환자의 개인별 유전자 네트워크에서, 예후 유전자 쌍의 존재 여부를 검색하여, 암 환자의 생존률과 생존 기간 등의 예후를 예측할 수 있다.
이와 같이 본 발명은 상기 실시 예로 한정되지 않고, 본 발명의 취지를 벗어나지 않고 효과를 저해하지 않는 한도 내에서 다양하게 변경하여 실시할 수 있다.
S100 ~ S500 : 암 환자의 개인별 유전자 네트워크 생성 방법의 각 단계
T100 ~ T500 : 암의 예후 예측 유전자 쌍 발굴 방법의 각 단계
100 : 암 환자의 개인별 유전자 네트워크 생성 및 암의 예후 예측 유전자 쌍 발굴 시스템
110 : 유전자 네트워크 생성부 111 : 유전자 발현 데이터 입력부
112 : 유전자 발현 데이터 저장부 113 : 상관 계수 연산부
114 : 유전자 네트워크 저장부 115 : 유전자 네트워크 출력부
116 : 유전자 쌍 검색부 120 : 예후 예측 유전자 쌍 발굴부
121 : 암 환자 분류부 122 : 유의 확률 연산부
123 : 유의 확률 보정부 124 : 예후 유전자 쌍 선정부
125 : 예후 유전자 쌍 출력부

Claims (9)

  1. 정상 샘플군의 유전자 발현 데이터를 획득하는 단계와,
    상기 정상 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수 및 제 1 유의 확률을 산출하는 단계와,
    상기 정상 샘플군에 암 환자의 샘플을 추가하여 구성한 교란 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수 및 제 2 유의 확률을 산출하는 단계와,
    상기 유전자 쌍 별로, 유전자 쌍의 상관 계수의 변화량을 산출하는 단계와,
    유전자를 노드(node)로 나타내고, 상기 유전자 쌍의 상관 계수의 변화량을 에지(edge)로 나타내어 네트워크를 생성하는 단계를 포함하는,
    암 환자의 유전자 네트워크 생성 방법.
  2. 제 1 항에 있어서,
    상기 정상 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수를 산출하는 단계와,
    상기 교란 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수를 산출하는 단계는,
    피어슨 상관 계수(Pearson Correlation Coefficient)를 이용하여 산출하는 암 환자의 유전자 네트워크 생성 방법.
  3. 제 2 항에 있어서,
    상기 정상 샘플군에 암 환자의 샘플 1개를 추가하여, 상기 교란 샘플군을 생성하는 암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 방법.
  4. 제 1 항에 있어서,
    상기 유전자 쌍의 상관 계수의 변화량은, 상기 정상 샘플군의 유전자 쌍의 상관 계수와, 상기 교란 샘플군의 유전자 쌍의 상관 계수의 차이의 절대값인 암 환자의 유전자 네트워크 생성 방법.
  5. 다수의 정상 샘플로 구성된 정상 샘플군의 유전자 발현 데이터를 획득하는 단계와,
    상기 정상 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수를 산출하고, 상기 정상 샘플군의 유전자 쌍의 상관 계수에 대한 제 1 유의 확률을 산출하는 단계와,
    상기 정상 샘플군에 암 환자의 샘플을 추가하여 구성한 교란 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수를 산출하고, 상기 교란 샘플군의 유전자 쌍의 상관 계수에 대한 제 2 유의 확률을 산출하는 단계와,
    상기 유전자 쌍 별로, 유전자 쌍의 상관 계수의 변화량을 산출하는 단계와,
    유전자를 노드(node)로 나타내고, 상기 유전자 쌍의 상관 계수의 변화량을 에지(edge)로 나타내어 네트워크를 생성하는 단계와,
    다수의 암 환자 유전자 네트워크에서, 상기 제 1 유의 확률이 0.05 미만이고 제 2 유의 확률이 0.05 미만인 조건을 모두 만족하는 유전자 쌍을 선택하는 단계와,
    상기 유전자 쌍의 상관 계수의 변화량에 따라 다수의 암 환자를 제 1 그룹과 제 2 그룹으로 분류하는 단계와,
    생존 중인 암 환자들의 인원과, 사망 인원을 기간 별로 구분하고, 기간 별로 구분된 생존 중인 암 환자들의 인원과 사망 인원에 대해, 로그 순위법을 적용하여 제 3 유의 확률을 산출하는 단계와,
    상기 제 3 유의 확률이 0.05 미만인 유전자 쌍을 예후 유전자 쌍으로 선정하는 단계를 포함하는,
    암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 방법.
  6. 제 5 항에 있어서,
    상기 유전자 쌍의 상관 계수의 변화량에 따라 다수의 암 환자를 제 1 그룹과 제 2 그룹으로 분류하는 단계는,
    상기 유전자 쌍의 상관 계수의 변화량이 큰 순서대로 상위 50 % 인 암 환자를 제 1 그룹으로 분류하고, 그렇지 않은 암 환자를 제 2 그룹으로 분류하는 암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 방법.
  7. 제 6 항에 있어서,
    상기 제 3 유의 확률을 FDR 또는 콕스 비례 위험 모형으로 보정하는 단계를 더 포함하는 암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 방법.
  8. 외부로부터 유전자 발현 데이터를 획득하는 유전자 발현 데이터 입력부와,
    획득한 상기 유전자 발현 데이터를 저장하는 유전자 발현 데이터 저장부와,
    정상 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수 및 제 1 유의 확률을 산출하며, 상기 정상 샘플군에 암 환자의 샘플을 추가하여 구성한 교란 샘플군의 유전자 발현 데이터로부터 유전자 쌍의 상관 계수 및 제 2 유의 확률을 산출하며, 유전자 쌍 별로 유전자 쌍의 상관 계수의 변화량을 산출하는 상관 계수 연산부와,
    유전자를 노드(node)로 나타내고, 상기 유전자 쌍의 상관 계수의 변화량과 상기 제 1, 2 유의 확률을 에지(edge)로 나타내어, 암 환자의 개인별 유전자 네트워크를 저장하는 유전자 네트워크 저장부와,
    상기 암 환자의 개인별 유전자 네트워크를 그래프 형태로 표현하여 외부로 출력하는 유전자 네트워크 출력부와,
    상기 암 환자의 개인별 유전자 네트워크에서 유전자 쌍의 존재 여부를 검색하는 유전자 쌍 검색부를 포함하는,
    암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 시스템.
  9. 제 8 항에 있어서,
    상기 유전자 네트워크 저장부에 저장된 다수의 암 환자 유전자 네트워크에서, 상기 제 1 유의 확률이 0.05 미만이고 제 2 유의 확률이 0.05 미만인 조건을 모두 만족하는 유전자 쌍을 선택하고, 상기 유전자 쌍의 상관 계수의 변화량에 따라, 다수의 암 환자를 제 1 그룹과 제 2 그룹으로 분류하는 암 환자 분류부와,
    생존 중인 암 환자들의 인원과 사망 인원을 기간 별로 구분하고 로그 순위법을 적용하여 제 3 유의 확률을 산출하는 유의 확률 연산부와,
    상기 제 3 유의 확률을 FDR 또는 콕스 비례 위험 모형으로 보정하는 유의 확률 보정부와,
    상기 제 3 유의 확률이 0.05 미만인 유전자 쌍을 예후 유전자로 선정하는 예후 유전자 쌍 선정부와,
    상기 예후 유전자 쌍을 외부로 출력하는 예후 유전자 쌍 출력부를 더 포함하는,
    암 환자의 유전자 네트워크 생성 및 예후 유전자 쌍 발굴 시스템.
KR1020190172666A 2019-12-23 2019-12-23 암 환자의 유전자 네트워크 생성 및 예후 예측을 위한 유전자 쌍 발굴 방법과 시스템 KR102462746B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190172666A KR102462746B1 (ko) 2019-12-23 2019-12-23 암 환자의 유전자 네트워크 생성 및 예후 예측을 위한 유전자 쌍 발굴 방법과 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190172666A KR102462746B1 (ko) 2019-12-23 2019-12-23 암 환자의 유전자 네트워크 생성 및 예후 예측을 위한 유전자 쌍 발굴 방법과 시스템

Publications (2)

Publication Number Publication Date
KR20210080766A KR20210080766A (ko) 2021-07-01
KR102462746B1 true KR102462746B1 (ko) 2022-11-04

Family

ID=76859994

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190172666A KR102462746B1 (ko) 2019-12-23 2019-12-23 암 환자의 유전자 네트워크 생성 및 예후 예측을 위한 유전자 쌍 발굴 방법과 시스템

Country Status (1)

Country Link
KR (1) KR102462746B1 (ko)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. Webber 외, "Integration of tumor genomic data with cell lines using multi-dimensional network (후략)", Cell Sys. 7(5), pp.526-536, 2018.11.28.
L. Yu 외, "Identification of Cancer Hallmarks based on the Gene C0-expression Networks of Seven Cancers", Frontiers in Genetics, 10권, 99호, 2019.02.19.

Also Published As

Publication number Publication date
KR20210080766A (ko) 2021-07-01

Similar Documents

Publication Publication Date Title
Peng et al. Cell–cell communication inference and analysis in the tumour microenvironments from single-cell transcriptomics: data resources and computational strategies
US20220076789A1 (en) Filtering genetic networks to discover populations of interest
US20160224723A1 (en) Method for predicting drug response based on genomic and transcriptomic data
CA3122110A1 (en) Anomalous fragment detection and classification
US20210090686A1 (en) Single cell rna-seq data processing
KR101941011B1 (ko) 유전자 발현 데이터를 통한 유방암 환자 예후 판단 방법
CN115762792A (zh) 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法
Li et al. A neural network-based method for exhaustive cell label assignment using single cell RNA-seq data
CN113130002B (zh) 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法
Whitehouse et al. Timesweeper: accurately identifying selective sweeps using population genomic time series
KR102462746B1 (ko) 암 환자의 유전자 네트워크 생성 및 예후 예측을 위한 유전자 쌍 발굴 방법과 시스템
KR102386876B1 (ko) 빅테이터를 이용한 조건별 마이크로 rna 표적 조사 방법
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测系统
Shah et al. Model-based clustering of array CGH data
Shahweli et al. In Silico Molecular Classification of Breast and Prostate Cancers using Back Propagation Neural Network
Sha et al. Feature selection for polygenic risk scores using genetic algorithm and network science
Riley et al. Interpreting generative adversarial networks to infer natural selection from genetic data
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
Huynh-Thu et al. Gene regulatory network inference from systems genetics data using tree-based methods
CN114566223A (zh) 一种基因表达量特征选择方法
US20200105374A1 (en) Mixture model for targeted sequencing
KR101701168B1 (ko) 유전자 패스웨이 활성지수의 세부적 정량화를 위한 유전자 프로파일 방법
Firoozbakht et al. A novel approach for finding informative genes in ten subtypes of breast cancer
Blazadonakis et al. The linear neuron as marker selector and clinical predictor in cancer gene analysis
CN115762631A (zh) 一种癌症驱动基因识别方法及系统

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant