KR102659917B1 - 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용 - Google Patents
비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용 Download PDFInfo
- Publication number
- KR102659917B1 KR102659917B1 KR1020200167766A KR20200167766A KR102659917B1 KR 102659917 B1 KR102659917 B1 KR 102659917B1 KR 1020200167766 A KR1020200167766 A KR 1020200167766A KR 20200167766 A KR20200167766 A KR 20200167766A KR 102659917 B1 KR102659917 B1 KR 102659917B1
- Authority
- KR
- South Korea
- Prior art keywords
- gene
- matrix
- data
- disease
- genes
- Prior art date
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 267
- 238000000034 method Methods 0.000 title claims abstract description 103
- 230000002068 genetic effect Effects 0.000 claims abstract description 192
- 201000010099 disease Diseases 0.000 claims abstract description 155
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 155
- 239000003814 drug Substances 0.000 claims abstract description 59
- 229940079593 drug Drugs 0.000 claims abstract description 57
- 238000004393 prognosis Methods 0.000 claims abstract description 13
- 238000003745 diagnosis Methods 0.000 claims abstract description 10
- 108090000623 proteins and genes Proteins 0.000 claims description 410
- 230000014509 gene expression Effects 0.000 claims description 39
- 238000001914 filtration Methods 0.000 claims description 31
- 230000009257 reactivity Effects 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 12
- 230000004850 protein–protein interaction Effects 0.000 claims description 7
- 230000035790 physiological processes and functions Effects 0.000 claims description 6
- 230000008236 biological pathway Effects 0.000 claims description 5
- 239000012472 biological sample Substances 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000001747 exhibiting effect Effects 0.000 claims 1
- 230000004043 responsiveness Effects 0.000 abstract description 41
- 239000000090 biomarker Substances 0.000 abstract description 21
- 238000010187 selection method Methods 0.000 abstract description 2
- 229960001183 venetoclax Drugs 0.000 description 41
- LQBVNQSMGBZMKD-UHFFFAOYSA-N venetoclax Chemical compound C=1C=C(Cl)C=CC=1C=1CC(C)(C)CCC=1CN(CC1)CCN1C(C=C1OC=2C=C3C=CNC3=NC=2)=CC=C1C(=O)NS(=O)(=O)C(C=C1[N+]([O-])=O)=CC=C1NCC1CCOCC1 LQBVNQSMGBZMKD-UHFFFAOYSA-N 0.000 description 41
- 102100021569 Apoptosis regulator Bcl-2 Human genes 0.000 description 26
- 108091012583 BCL2 Proteins 0.000 description 26
- 230000008569 process Effects 0.000 description 20
- 210000004027 cell Anatomy 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 18
- 208000031261 Acute myeloid leukaemia Diseases 0.000 description 17
- 108700038897 Bcl-2 family Proteins 0.000 description 17
- 208000033776 Myeloid Acute Leukemia Diseases 0.000 description 16
- 230000034727 intrinsic apoptotic signaling pathway Effects 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 12
- 102000051485 Bcl-2 family Human genes 0.000 description 11
- 102100021334 Bcl-2-related protein A1 Human genes 0.000 description 11
- 101000894929 Homo sapiens Bcl-2-related protein A1 Proteins 0.000 description 11
- 101001056180 Homo sapiens Induced myeloid leukemia cell differentiation protein Mcl-1 Proteins 0.000 description 10
- 102100026539 Induced myeloid leukemia cell differentiation protein Mcl-1 Human genes 0.000 description 10
- 102100023932 Bcl-2-like protein 2 Human genes 0.000 description 8
- 230000037361 pathway Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 102000004169 proteins and genes Human genes 0.000 description 6
- 230000001105 regulatory effect Effects 0.000 description 6
- 101150008012 Bcl2l1 gene Proteins 0.000 description 5
- 101000904691 Homo sapiens Bcl-2-like protein 2 Proteins 0.000 description 5
- 108700000711 bcl-X Proteins 0.000 description 5
- 102000055104 bcl-X Human genes 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 4
- 230000033228 biological regulation Effects 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 230000030833 cell death Effects 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 210000003470 mitochondria Anatomy 0.000 description 4
- 101100493630 Homo sapiens BCL2L2 gene Proteins 0.000 description 3
- 230000002424 anti-apoptotic effect Effects 0.000 description 3
- 230000006907 apoptotic process Effects 0.000 description 3
- 238000013332 literature search Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000006916 protein interaction Effects 0.000 description 3
- 101150084750 1 gene Proteins 0.000 description 2
- 102100029592 Activator of apoptosis harakiri Human genes 0.000 description 2
- 102100027308 Apoptosis regulator BAX Human genes 0.000 description 2
- 108050006685 Apoptosis regulator BAX Proteins 0.000 description 2
- 102100032305 Bcl-2 homologous antagonist/killer Human genes 0.000 description 2
- 108010040168 Bcl-2-Like Protein 11 Proteins 0.000 description 2
- 102100021572 Bcl-2-binding component 3, isoforms 1/2 Human genes 0.000 description 2
- 102100021589 Bcl-2-like protein 11 Human genes 0.000 description 2
- 102100022541 Bcl-2-related ovarian killer protein Human genes 0.000 description 2
- 206010059866 Drug resistance Diseases 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- 101000987827 Homo sapiens Activator of apoptosis harakiri Proteins 0.000 description 2
- 101000798320 Homo sapiens Bcl-2 homologous antagonist/killer Proteins 0.000 description 2
- 101000971203 Homo sapiens Bcl-2-binding component 3, isoforms 1/2 Proteins 0.000 description 2
- 101000971209 Homo sapiens Bcl-2-binding component 3, isoforms 3/4 Proteins 0.000 description 2
- 101000899346 Homo sapiens Bcl-2-related ovarian killer protein Proteins 0.000 description 2
- 101000733743 Homo sapiens Phorbol-12-myristate-13-acetate-induced protein 1 Proteins 0.000 description 2
- 235000006679 Mentha X verticillata Nutrition 0.000 description 2
- 235000002899 Mentha suaveolens Nutrition 0.000 description 2
- 235000001636 Mentha x rotundifolia Nutrition 0.000 description 2
- 102000003945 NF-kappa B Human genes 0.000 description 2
- 108010057466 NF-kappa B Proteins 0.000 description 2
- 102100033716 Phorbol-12-myristate-13-acetate-induced protein 1 Human genes 0.000 description 2
- 102100035548 Protein Bop Human genes 0.000 description 2
- 108050008794 Protein Bop Proteins 0.000 description 2
- 229940124639 Selective inhibitor Drugs 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001962 electrophoresis Methods 0.000 description 2
- 238000012252 genetic analysis Methods 0.000 description 2
- 208000027866 inflammatory disease Diseases 0.000 description 2
- 101150044508 key gene Proteins 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 238000003752 polymerase chain reaction Methods 0.000 description 2
- 230000000861 pro-apoptotic effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 108091008023 transcriptional regulators Proteins 0.000 description 2
- 238000007482 whole exome sequencing Methods 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 102000048850 Neoplasm Genes Human genes 0.000 description 1
- 108700019961 Neoplasm Genes Proteins 0.000 description 1
- 102000013535 Proto-Oncogene Proteins c-bcl-2 Human genes 0.000 description 1
- 108010090931 Proto-Oncogene Proteins c-bcl-2 Proteins 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 230000004186 co-expression Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000016097 disease of metabolism Diseases 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 208000026278 immune system disease Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B10/00—ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Physiology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 발명은 비음수행렬분해(non-negative matrix factorization, NMF) 기반의 메타유전자 선별 방법 및 이의 적용에 관한 것으로, 보다 상세하게는 NMF 및 도메인 지식을 활용한 질병 관련 메타유전자 생성 방법, 생성 장치 및 이를 이용한 피검체의 비-유전자 데이터 예측 방법에 관한 것이다.
도메인 지식 및 NMF 기법을 활용한 본 발명의 방법 따라 생성된 메타유전자는 질병의 진단, 예후 예측, 약물 반응성 예측 등과 관련된 정확한 정보를 제공할 수 있어 새로운 바이오 마커로서 활용 가능성이 매우 높다.
도메인 지식 및 NMF 기법을 활용한 본 발명의 방법 따라 생성된 메타유전자는 질병의 진단, 예후 예측, 약물 반응성 예측 등과 관련된 정확한 정보를 제공할 수 있어 새로운 바이오 마커로서 활용 가능성이 매우 높다.
Description
본 발명은 비음수행렬분해(non-negative matrix factorization, 이하 'NMF'라 함) 기반의 메타유전자 생성 방법 및 이의 적용에 관한 것으로, 보다 상세하게는 NMF 및 도메인 지식을 활용한 질병 관련 메타유전자 생성 방법, 생성 장치 및 이를 이용한 피검체의 비-유전자 데이터 예측 방법에 관한 것이다.
질병을 진단하고, 예후를 예측하며, 특정 환자에서 특정 약물의 반응성을 예측하는 것을 가능케하는 '바이오 마커'는 정밀의학(precision medicine) 및 맞춤형 의료(personalized medicine) 시대에서 그 중요성이 점점 증가하고 있다.
이와 같은 필요성에 의해 암, 염증성 질환, 자가면역질환과 같은 일반적이면서도 복합적인 질병과 연관성이 있는 마커 유전자를 찾기 위한 노력이 계속되고 있다. 현재까지, 질병 관련 유전자를 발굴하기 위하여 다양한 방법들이 시도되고 있으며 대체적으로는 특정 질병에서 특정 유전자가 얼마나 동시에 출현하는가에 대한 빈도를 가지고 관련성을 통계나 수학적인 방법을 통해 측정하는 방법과 유전자 본체론을 이용한 관련성 측정 방법이 많이 시도되고 있다.
그러나 이 같은 방법은 기존에 알려진 사실들에 의해 유전자의 질병 관련성이 밀접하게 반영되는 방법으로, 새로운 질병 관련 유전자들을 찾기에는 한계가 있고, 생물 시스템에서 질병과 관련된 유전자들의 복합적인 상관관계 등을 반영하지 못하고 있다.
이러한 연유로, 현재까지 보고된 질병 관련 바이오 마커들은 미래가 불확실한 잠재 환자의 발병, 예후, 약물 반응성 등을 일관되게 예측하는데 한계를 나타내고 있다.
이에, 본 발명자는 다양한 생물학적 현상을 일관되게 기술하고 종래의 유전자 마커와 비교해 질병 관련 정보를 보다 정확하게 예측할 수 있는 유전자 그룹 선별 방법을 개발하기 위하여 예의 연구를 거듭한 결과, NMF 기법과 도메인 지식을 활용한 일련의 과정 통해 공지된 마커 유전자로부터 확장된 메타유전자(meta-gene)를 생성하는 방법을 개발하였고, 이와 같은 방법을 통해 생성된 상기 메타유전자가 공지된 마커 유전자와 비교해 질병 관련 정보의 예측력이 향상되었음을 확인하고 본 발명을 완성하게 되었다.
따라서, 본 발명의 목적은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬(p × q, (p-1) × q, (p-2) × q… 1 × q)을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하는 단계;
(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; 및
(h) 상기 생성된 예측모델의 성능을 평가하는 단계를 포함하는, 질병 관련 메타유전자 생성 방법을 제공하는 것이다.
본 발명의 다른 목적은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계; (b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계; (c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계; (d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계; (e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계; (f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하는 단계; (g) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계; (h) 상기 입력행렬에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r Х (q + t))를 산출하는 단계; (i) 상기 (h) 단계에서 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; (j) 상기 (h) 단계에서 산출된 r × t 행렬을 상기 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법을 제공하는 것이다.
상기한 본 발명의 목적을 달성하기 위하여 본 발명은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬(p × q, (p-1) × q, (p-2) × q… 1 × q)을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하는 단계;
(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; 및
(h) 상기 생성된 예측모델의 성능을 평가하는 단계를 포함하는, 질병 관련 메타유전자 생성 방법을 제공한다.
본 발명의 다른 목적을 달성하기 위하여 본 발명은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계; (b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계; (c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계; (d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계; (e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계; (f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하는 단계; (g) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계; (h) 상기 입력행렬에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r Х (q + t))를 산출하는 단계; (i) 상기 (h) 단계에서 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; (j) 상기 (h) 단계에서 산출된 r × t 행렬을 상기 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법을 제공한다.
이하, 본 발명에 대해 상세히 설명한다.
본 발명은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬(p × q, (p-1) × q, (p-2) × q… 1 × q)을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하는 단계;
(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; 및
(h) 상기 생성된 예측모델의 성능을 평가하는 단계를 포함하는, 질병 관련 메타유전자 생성 방법을 제공한다.
본 발명의 일실시예에 따르면, 본 발명자는 광범위한 인간 유전체 정보들 중에서 핵심 바이오 마커 유전자와 더불어 복잡한 병리현상에 직간접적으로 관여하고 있을 가능성이 높은 신규한 개념의 유전자군, 즉, 메타유전자(meta-gene)을 생성하기 위해 NMF 기법을 적용하였고, 본 발명이 제공하는 상기 방법을 통해 생성된 메타유전자는 종래 보고된 바이오 마커 유전자와 비교해 월등히 향상된 질병 관련 비-유전자 데이터 예측력을 나타냄이 확인되었다.
이하, 본 발명이 제공하는 상기 방법의 각 단계를 보다 구체적으로 설명한다.
(a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자 데이터를 수신하는 단계;
상기 (a) 단계는 임상적으로 수집된 환자의 유전자 데이터 및 비-유전자 데이터를 기반으로, 비-유전자 데이터예측력이 높은 메타유전자(meta-gene) 생성을 위한 데이터베이스를 확보하는 단계이다.
본 발명에서 상기 '환자'란 특정 질병에 걸린 피검체만을 의미하는 것이 아니며, 건강한 피검체(즉, 대조군)도 포함하는 것으로 이해될 수 있다. 상기 환자의 범위는 특별히 제한되지 않으며 어떠한 원인에 의하든 의료기관에 유전자 데이터 및 비-유전자 데이터를 남긴 피검체를 의미할 수 있다. 또한, 상기 환자는 특정 질병에 의해 사망한 이후에 유전자 데이터 및 비-유전자 데이터가 확보된 피검체도 포함하는 것으로 이해될 수 있다. 바람직하게는, 상기 환자는 본 발명의 방법에 따라 메타유전자와의 연관성을 분석하고자 하는 특정 질병에 걸린 환자이거나, 특정 질병에 걸린 것으로 의심되는 환자이거나, 특정 질병에 걸린 것으로 의심되었으나 건강한 것으로 판정된 환자이거나, 특정 질병에 걸린 것으로 의심되고 실제 질병에 걸린 것으로 판정된 환자이거나, 특정 질병에 걸린 것으로 판정된 이후에 완치된 환자이거나, 특정 질병에 걸린 것으로 판정된 이후에 사망한 환자이거나 또는 특정 질병이 완치된 이후에 재발한 환자일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 상기 '질병'이란 본 발명의 방법에 따라 메타유전자와의 연관성을 확보하고자 하는 비정상적인 병리상태를 의미하는 것으로, 그 종류가 특별히 제한되는 것은 아니다. 상기 질병은, 예를 들어, 암, 면역성 질환, 염증성 질환, 바이러스성 질환, 감염성 질환, 대사성 질환 또는 퇴행성 신경질환일 수 있다.
본 발명에서 상기 '유전자 데이터'란 환자로부터 제공된 생물학적 시료에서 분석된 유전체(genome) 정보로서, 유전자 발현량, 단일염기 다형성 및 유전자 돌연변이로 이루어진 군에서 선택된 1종 이상이 벡터로 제공되는 것을 의미할 수 있으며, 바람직하게는 유전자 발현량일 수 있다.
상기 유전자 데이터는 환자로부터 제공된 생물학적 시료를 전유전체 시퀀싱(WGS, Whole Genome Sequencing), 전엑솜 시퀀싱(WES, Whole Exome Sequencing), 마이크 로어레이(Microarray), 타켓 시퀀싱(Target Sequencing), 생어 시퀀싱(Sanger sequencing), 전기영동법(Electrophoresis), 차세대염기서열분석법(NGS), 알엔에이 시퀀싱(RNA Sequenicng), 중합효소연쇄반응법(PCR), 전기영동법(Electrophoresis) 등의 유전자 분석 방법을 통해 분석한 데이터일 수 있다.
상기 유전자 데이터는 기 구축된 데이터베이스로부터 제공받을 수 있으며, 또는 필요에 따라 환자로부터 확보된 생물학적 시료에서 공지된 유전자 분석방법에 따라 분석되고 처리된 데이터일 수도 있다.
본 발명에서 상기 '비-유전자'데이터란 환자로부터 수득된 질병 진단 데이터, 질병 예후 데이터, 약물 반응성 데이터, 병리학 데이터, 생화학 데이터 또는 이들의 임의의 조합을 포함할 수 있으며, 바람직하게는 질병 진단 데이터, 질병 예후 데이터, 약물 반응성 데이터 또는 이들의 조합일 수 있다.
상기 질병 진단 데이터는 환자가 특정 질병에 걸린 것으로 진단되었는지 여부, 진단 시점에서의 연령, 성별, 기타 임상정보 등을 포함하며, 바람직하게는 특정 질환의 진단 여부를 의미할 수 있다.
상기 질병 예후 데이터란 환자가 특정 질병에 걸린 것으로 진단된 이후 진행 경과를 의미하는 것으로, 사망률, 재발율, 완치율, 질병 경과의 좋고 나쁨의 정도 등을 포함한다.
상기 약물 반응성 데이터는 특정 약물을 투여 받은 특정 질환의 환자에서 약효의 발휘 정도를 의미하는 것으로, 약물을 투여한 이후에 질병의 치료율, 재발율, 사망률, 질병 경과의 좋고 나쁨의 정도, 약물을 투여한 시점의 및 중단한 시점에서의 환자의 질병의 진행 정도, 약물의 투여 농도 등을 포함한다.
본 발명에서 상기 유전자 데이터 및 비-유전자 데이터는 동일한 환자로부터 확보된 것이며, 유전자 데이터 및 비-유전자 데이터 중 어느 한 가지 데이터만 확보된 환자의 데이터는 본 발명의 상기 (a) 단계에서 제외되는 것이 바람직하다.
본 발명에서 상기 비-유전자 데이터는 수치화된 데이터로 변환되어 제공될 수 있다. 예를 들어, 상기 비-유전자 데이터가 환자의 질병 진단 데이터인 경우, 특정 질병에 걸린 것으로 진단된 이력이 있는 경우 1, 없는 경우 0으로 나타내어질 수 있다. 상기 비-유전자 데이터가 환자의 질병 예후 데이터인 경우, 특정 질병의 예후의 좋고 나쁨의 정도는 10 내지 -10 등의 수치로 환산되어 나타내어질 수 있다. 상기, 비-유전자 데이터가 약물 반응성 데이터인 경우, 특정 약물에 대한 반응성의 높고 낮음의 정도는 10 내지 -10 등의 수치로 환산되어질 수 있다.
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;
본 발명에서 상기 (b) 단계는 실시자가 관심을 갖고 있는, 환자의 비-유전자 데이터 중 어느 한 가지 이상, 바람직하게는 어느 한 가지와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계이다.
본 발명에서 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자는 본 발명이 속하는 기술분야에서 일반적으로 '진단 마커', '예후 마커', '약물 반응성 마커' 등으로 불리는 '바이오 마커' 유전자 또는 상기 바이오 마커 단백질을 코딩하는 유전자로 쉽게 이해될 수 있다.
보다 구체적으로는, 상기 질병 관련 유전자는 비-유전자 데이터, 예를 들어 질병의 진단, 질병의 예후 또는 약물의 반응성 정도와 양의 상관관계 또는 음의 상관관계가 공지된 유전자일 수 있다.
바람직한 일 구현예에 따르면, 상기 질병 관련 유전자는 특정 유전자의 발현이 증가되어 있는 환자에서 특정 질병의 진단 가능성이 증가하거나, 질병의 예후가 나쁘거나 또는 약물의 반응성이 증가하거나, 또는 이와 반대되는 등 유전자의 발현 경향성이 비-유전자 데이터의 경향성과 직접적인 상관관계가 있음이 공지된 유전자일 수 있다.
상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자는 1종 이상일 수 있으며, 이 경우 복수의 질병 관련 유전자가 선별될 수 있다.
본 발명에서 상기 질병 관련 유전자는 종래 공지된 데이터베이스를 통해서 선별할 수 있으며, 상기 공지된 데이터베이스는, 예를 들어 OMIM(Online Mendelian Inheritance in Man), Genetic Association Database, KEGG DISEASE, PharmGKB, Cancer Gene Census, HuGE Navigator, PharmGKB, ClinVar 또는 Leiden Open Variation Database일 수 있으나, 이에 제한되는 것은 아니다. 또한, 본 발명에서 상기 질병 관련 유전자는 공지된 문헌 검색을 통해 선별되거나, 실험을 통해 새롭게 규명하여 선별될 수도 있다.
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자의 유전자 데이터를 필터링하는 단계;
본 발명에서 상기 (c) 단계는 상기 (b) 단계에서 선별된 1종 또는 그 이상의 질병 관련 유전자와 달리 상기 비-유전자 데이터와의 직접적인 연관성이 공지되어 있지는 않지만, 상기 비-유전자 데이터와 직간접적으로 연관성이 있을 가능성이 높은 유전자 후보군을 선정하기 위하여 도메인 지식(domain knowledge)을 활용하는 단계이다.
본 발명의 일 양태에 따르면, 본 발명에서 상기 질병 관련 유전자와 네트워크를 형성하는 유전자군이란 유전자의 기능적 링크(functional link)를 포함하는 네트워크 내에서 상기 질병 관련 유전자의 생물학적 경로(biological pathway)와 관련된 유전자 집단을 의미하는 것일 수 있다.
본 발명에서 “유전자 네트워크(gene network)”의 용어는 유전자들간에 서로 복잡하게 연결된 네트워크를 나타내기 위한 용어로서, 유전자들이 노드들(nodes)로 표현되고 유전자들 간의 연결들은 에지들(edges)로 표현된 유전자 집단을 의미할 수 있다.
본 발명에서 정의하는 상기 유전자 네트워크의 종류는 크게 발현, 단백질 상호작용, 전사조절 네트워크가 포함될 수 있으나, 이에 제한되는 것은 아니다.
상기 발현 네트워크는 유전자 발현 데이터를 활용하여 특정 환경 또는 형질에서 발현 차이를 보이는 유전자들을 대량 발굴하여, 유전자들 사이에서 공발현을 가지고 있는 관계가 규명된 유전자군을 의미한다.
상기 단백질 상호작용 네트워크는 상호간에 물리적 접촉을 나타내는 단백질 네트워크, 특정 단백질의 기능이 타 단백질의 기능 발현에 직접적으로 영향을 주는 단백질 네트워크, 또는 이를 코딩하는 유전자군을 의미한다.
상기 전사조절 네트워크는 조절인자와 표적인자의 관계로 설명되는 네트워크이다. 보다 구체적으로는, 특정 대사경로에 참여하는 단백질군의 발현이 그들에게 공통적으로 특이성을 갖는 전사조절인자에 의해 결정되는 경우, 이들 전사조절인자들과 그들의 표적유전자들 간의 종속관계를 갖는 네트워크이다.
상기 유전자 네트워크는 현재 많은 논문들, 특허들을 통해 접할 수 있는 개념으로서, 당해 기술분야의 통상의 기술자라면 상기 예시한 유전자 네트워크 이외에도 그 범위와 의미를 명확하게 이해할 수 있다.
본 발명의 다른 일 양태에 따르면, 본 발명에서 상기 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군은 상기 질병 관련 유전자와 직접적인 네트워크를 형성하고 있는 유전자로 제한되지 않는다.
즉, 본 발명에서 정의되는 상기 (c) 단계에서의 유전자군은 통상적인 의미의 유전자 네트워크를 포함할 뿐 아니라 하기 단계를 포함하는 방법에 따라 선별된 유전자군도 포함될 수 있다:
(c1) 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군; 및 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군으로 이루어진 군에서 선택된 1종 이상의 유전자군을 선별하는 단계; 및
(c2) 상기 (c1) 단계에서 선별된 유전자군과 유전자 네트워크를 형성하는 유전자군을 선별하는 단계.
상기 (c2) 단계에서 정의된 '유전자 네트워크'는 전술한 통상적인 의미의 유전자 네트워크를 의미한다.
본 발명의 상기 (c) 단계는 상기 비-유전자 데이터와 연관성이 공지된 질병 관련 유전자와 직간접적으로 상호작용하여 상기 비-유전자 데이터에 영향을 미칠 가능성이 있는 유전자를 1차적으로 선별하는 과정이므로, 종래 공지된 유전자 네트워크 이외에도 다양한 도메인 지식을 활용한 문헌 조사, 분석 등을 통해 그 범위가 충분히 확장되는 것이 바람직할 수 있다.
상기 공지된 유전자 네트워크는 기 구축된 데이터베이스를 통해서 확보할 수 있으며 상기 데이터베이스는, 예를 들어, HPRD, BioGrid, IntAct, MINT, DIP, iRefWeb data, pathway map, MsigDB 등이 포함될 수 있으나 이에 제한되는 것은 아니다.
본 발명에서 상기 '필터링'이란 상기 (a) 단계에서 수신한 환자의 유전자 데이터 중에서 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군에 대한 데이터만을 이후의 절차에서 활용하고, 나머지 유전자 데이터는 이후의 절차에서 활용하지 않는 것을 의미한다.
본 발명에서는 상기 (a) 단계에서 유전자 데이터를 수신한 이후에 유전자를 필터링하는 것으로 설명하였으나, 상기 (b) 단계 및 (c) 단계를 통해서 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군을 먼저 선별한 후, 상기 선별된 유전자군에 대한 환자의 유전자 데이터만 수신하는 것으로 단계가 변경될 수 있다.
(d) 상기 필터링된 유전자(p개) 데이터와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;
본 발명에서 상기 (d) 단계는 상기 (c) 단계에서 필터링된 상기 환자(q명)의 유전자(p개) 데이터를 이용하여 p × q의 제1입력행렬 원본값을 생성하는 단계이다.
상기 p × q의 제1입력행렬에서 각 행렬의 값은 상기 환자의 유전자 데이터를 벡터화한 수치이며, 바람직하게는 필터링된 각 유전자의 발현량일 수 있다.
본 발명에서 상기 유전자 데이터를 벡터화한 수치란 정량적인 수치로 표현 가능한 유전자 발현량의 경우 유전자의 발현량 값, 정량적인 수치로 표현되지 않는 유전자 데이터, 예를 들어, 유전자 돌연변이, SNP(single nucleotide polymorphism) 등의 경우 발현 또는 미발현으로 이분화하여 0 또는 1로 표현하는 방법을 의미한다.
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하는 단계;
본 발명에서 상기 (e) 단계 및 (f) 단계는 상기 (d) 단계에서 확보된 입력행렬(p × q)에 대해 NMF를 수행하여 차원을 축소하는 단계이다.
본 발명의 상기 (e) 단계 및 (f) 단계에서는 상기 (d) 단계에서 확보된 입력행렬을 최적화하여, 상기 입력행렬 내 p개의 유전자 중에서 공통되는 특성에 의해서 가장 잘 구분이 될 수 있는 유전자 조합 및 이의 NMF 데이터를 확보할 수 있다. 상기 (e) 단계 및 (f) 단계를 포함하는 최적화 과정의 결과, 메타유전자를 구분하기 위한 최종 유전자군 및 최적의 NMF 랭크(rank)값 r이 얻어질 수 있다.
우선 상기 (e) 단계에서는 상기 (d) 단계에서 생성한 제1입력행렬(p × q)을 기초로 제2입력행렬을 생성한다. 상기 제2입력행렬은 상기 제1입력행렬과 동일한 열(환자, q)을 포함하며, 상기 제1입력행렬의 행(p)에 포함된 유전자 1개 내지 p개의 모든 유전자 조합으로 이루어진 각각의 입력행렬이다.
즉, 상기 제2입력행렬은 p × q 입력행렬, (p-1) × q 입력행렬, (p-2) × q 입력행렬, (p-3) × q 입력행렬 ......1 × q 입력행렬의 모든 조합을 포함한다. 상기 (p-1)은 p개의 유전자에서 임의의 유전자 1개를 제외한 모든 경우의 유전자 조합을 의미하며, 상기 (p-2)는 p개의 유전자에서 임의의 유전자 2개를 제외한 모든 경우의 유전자 조합을 의미하며, 상기 (p-3)은 p개의 유전자에서 임의의 유전자 3개를 제외한 모든 경우의 유전자 조합을 의미하며, 상기 1은 p개의 유전자에 포함된 각각의 유전자를 의미한다.
상기 제2입력행렬을 생성한 후, 각각의 제2입력행렬에서 임의의 값을 결측치로 처리한다. 결측치로 처리하는 값의 개수는 특별히 제한되지 않는다.
상기 (e) 단계에서 결측치로 처리되는 유전자 데이터는 임의의 유전자 데이터일 수 있으나, 상기 (b) 단계에서 선별된 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자 데이터를 결측치로 처리하는 것이 바람직하다.
구체적으로는, 상기 (b) 단계에서 선별된 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자 데이터 중 1 내지 20%의 환자 데이터를 결측치로 처리하는 것이 바람직하며, 더 바람직하게는 2 내지 15%, 보다 더 바람직하게는 3 내지 10%, 가장 바람직하게는 4 내지 6%의 환자 데이터를 결측치로 처리할 수 있다.
임의의 값을 결측치로 처리한 각각의 제2입력행렬에 대해 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소를 진행한다. NMF 수행시 적용되는 랭크(rank)값은 2 내지 r이다.
상기 랭크(rank)값은, 예를 들어, 10, 9, 8, 7, 6, 5, 4, 3 또는 2 일 수 있으며, 바람직하게는 7, 6, 5, 4, 3, 또는 2일 수 있으며, 더 바람직하게는 6, 5, 4, 3 또는 2일 수 있으며, 가장 바람직하게는 5, 4 또는 3 일 수 있다.
본 발명에서 상기 유전자 매트릭스란 상기 제2입력행렬에 대한 NMF를 수행하여 생성된 p × r, (p-1) × r, (p-2) × r … 1 × r 각각의 행렬을 의미하며, 상기 환자 매트릭스란, 상기 제2입력행렬에 대한 NMF를 수행하여 생성된 r × q 각각의 행렬을 의미한다.
상기 각각의 제2입력행렬에 대한 랭크(rank)값 2 내지 r의 NMF 수행 결과 출력된 유전자 매트릭스와 환자 매트릭스를 재결합하고, 상기 재결합에 의해 생성된 결측치에 대한 복원값을 상기 각각의 제2입력행렬 내 원본값과 비교하여 오차를 산출한다.
상기 오차는 AE(Average Error), MAE(Mean absolute error), MAPE(Mean absolute percentage error), MAE(Mean squared error), MSE(Mean square error) 및 RMSE(root MSE)으로 이루어진 군에서 선택된 방법에 따라 수치화하여 각각의 제2입력행렬에 대한 성능을 평가한다.
상기 방법에 따라 각각의 제2입력행렬 및 랭크값 r에 대한 NMF의 성능을 평가하여 가장 낮은 오차를 나타내는(즉, 가장 우수한 복원력을 나타내는) 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출한다.
바람직하게는, 본 발명의 상기 (e) 단계에서는 p개의 유전자부터 1개의 유전자 조합까지 순차적으로 NMF를 수행하면서 그 성능을 평가하여, 가장 나쁜 성능을 나타내는(즉, 가장 높은 오차를 나타내는) 유전자를 1개씩 제거하는 그리디(greedy) 방법에 따라 최적의 성능을 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터를 산출할 수 있다.
보다 바람직하게는, 상기 선별된 p개의 유전자 중에서 상기 (b) 단계에서 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자 k개를 제외한 (p-k)개의 유전자부터 1개의 유전자 조합까지 순차적으로 NMF를 수행하면서 그 성능을 평가하여, 가장 나쁜 성능을 나타내는(즉, 가장 높은 오차를 나타내는) 유전자를 1개씩 제거하는 그리디(greedy) 방법에 따라 최적의 성능을 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터를 산출할 수 있다. 이와 같은 방법에 따라, 상기 (b) 단계에서 선별된 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자는 상기 NMF 성능 평가 과정에서 제거될 가능성이 배제된다.
본 발명에서 정의하는 상기 메타유전자(meta-gene)'는 상기 (f) 단계에서 산출된 NMF 데이터에서 N × r 행렬의 각 열을 의미하며, 상기 q명의 환자 각각 대한 메타유전자들의 값(또는 발현값)은 상기 산출된 NMF 데이터에서 r × q 행렬 값에 대응된다. 즉, 상기 산출된 NMF 데이터에서 N × r 행렬의 각 열을 메타유전자 1, 메타유전자 2, 메타유전자 3 … 메타유전자 r로 표현할 수 있으며, 환자 각각에 대한 메타유전자 1 내지 메타유전자 r의 값(또는 발현값)은 상기 r × q 행렬값에 대응이 된다.
예를 들어, 상기 (f) 단계에서 30개의 유전자(N) 및 랭크값(r) 5가 선별되었고, 수치화된 약물 반응성 데이터를 제공하고 있는 환자의 수가 100명일 때, 상기 (f) 단계에서는 30 × 5 행렬 (W 행렬) 및 5 × 100 행렬 (H 행렬)이 NMF 데이터로 산출된다. 상기 W 행렬에서 각각의 열이 메타유전자 1 내지 5로 정의되며, 상기 100명의 환자 각각의 메타유전자 1 내지 5의 값(또는 발현값)은 상기 H 행렬의 값에 대응된다. 구체적인 예로서, 상기 100명의 환자 중 5번 환자의 메타유전자 3의 값(또는 발현값)은 상기 H 행렬의 5열, 3행의 값이다.
(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계;
상기 (g) 단계는 상기 산출된 NMF 데이터에서 r Х q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계이다. 즉, 상기 r × q 행렬에서 각 환자의 메타유전자 1 내지 r의 값(또는 발현값)과 상기 환자의 비-유전자 데이터의 관계를 설명할 수 있는 예측모델을 생성하는 단계이다.
본 발명의 일양태에서, 상기 (g) 단계는 상기 r × q 행렬에서 각 환자의 메타유전자 1 내지 r의 값(또는 발현값)을 학습용 입력 데이터, 상기 환자들의 비-유전자 데이터를 학습용 출력 데이터로 하여 기계학습시켜 예측모델을 생성할 수 있다.
본 발명에서 상기 "예측모델"이란 환자의 비-유전자 데이터 예측모델을 의미한다. 보다 구체적으로는, 상기 학습용 입력 데이터와 학습용 출력 데이터의 상관관계를 분석하여 상기 r × q 행렬에서 각 환자의 메타유전자 1 내지 r의 값(또는 발현값)에 따른 환자의 비-유전자 데이터를 예측하는 입출력함수를 의미한다.
상기 (g) 단계에서는 상기 r × q 행렬에서 각 환자의 메타유전자 1 내지 r의 값(또는 발현값)을 학습용 입력 데이터로, 상기 환자들의 비-유전자 데이터를 학습용 출력 데이터로 하여 기계학습을 시키는 과정에서 상기 메타유전자 1 내지 r 각각의 중요도가 평가될 수 있다. 상기 "중요도"란 환자의 비-유전자 데이터를 예측하는 예측변수로서의 "정확도" 또는 "기여도" 등으로 이해될 수 있다. 구체적으로, 상기 메타유전자 1 내지 r 중에서 환자의 비-유전자 데이터 예측에 있어서 중요도 순위가 가장 낮은 메타유전자를 순차적으로 제외해가면서, 나머지 메타유전자를 학습용 입력 데이터로 하여 환자의 비-유전자 데이터를 예측하는 예측모델을 각각 생성하거나, 또는 상기 메타유전자 1 내지 r로 이루어진 군에서 선택된 2종 이상의 변수를 학습용 입력 데이터로 하여 환자의 비-유전자 데이터를 예측하는 예측모델을 각각 생성할 수 있다. 이와 같은 방식으로 생성된 각각의 예측모델은 이후 단계에서 그 성능이 평가되어 환자의 비-유전자 데이터를 가장 정확하게 예측할 수 있는, 즉 최대의 성능을 나타내는 예측모델이 선별될 수 있다.
본 발명의 일양태에서, 상기 (g) 단계의 예측모델은 로지스틱 회귀 알고리즘, 딥 러닝 알고리즘, 의사 결정 트리 알고리즘, 랜덤 포레스트 알고리즘, 나이브 베이즈(nave Bayes) 알고리즘, 서포트 벡터 기계 알고리즘, K-근접이웃(K-Nearest Neighbor) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine) 알고리즘, 신경망(Neural Network) 알고리즘 및 엑스트라 트리(extra trees) 알고리즘으로 이루어진 군에서 선택된 어느 하나 이상의 기계 학습 모델인 것을 특징으로 할 수 있다.
(h) 상기 생성된 예측모델의 성능을 평가하는 단계;
본 발명의 상기 (h) 단계는 상기 (g) 단계에서 생성된 예측모델의 예측 정확도 및 예측 정밀도를 평가하는 단계이다.
본 발명의 상기 (h) 단계에서 예측모델의 성능을 평가하는데 사용되는 방법은 특별히 제한되지 않으며, 독립변수(x)와 종속변수(y) 사이의 연관성을 확인하기 위해 통상적으로 사용되는 통계적 혹은 컴퓨팅적 방법을 사용할 수 있다. 예를 들어, 종속변수에 해당하는 비-유전자 데이터가 연속형일 때 상관분석 및 회귀분석 등을, 비-유전자 데이터가 불연속형일 때 t-test, chi-square test, 로지스틱 회귀분석 등을 사용할 수 있다. 지도학습으로 상기 예측모델의 성능을 검증할 경우, 비-유전자 데이터가 연속형일 때 회귀분석을, 비-유전자 데이터가 불연속형일 때 로지스틱 회귀분석, K-최근접이웃알고리즘, 결정트리 등을 사용할 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 일양태에서, 상기 예측모델의 성능은 ROC의 곡선 아래 면적(AUC), 밸런스 정확도(BA), 민감도, 특이도, 양성 예측값(PPV), 음성 예측값(NPV), 위양성률(FPR), 위발견율(FDR) 및 F1 스코어로 이루어진 군에서 선택된 하나 이상의 결과에 의해 평가될 수 있다.
본 발명은 또한 상기 각 단계가 포함된 방법을 수행하기 위한 프로그램이 기록되는, 컴퓨터 판독 가능한 기록 매체를 제공한다.
본 발명은 또한 전술한 각 단계가 일련의 프로세서에 의해 구동되는 질병 관련 메타 유전자 생성 장치를 제공한다.
보다 구제적으로, 상기 장치는 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자 데이터를 수신하는 데이터 수신부;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자가 입력되는 입력부;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자의 유전자 데이터를 필터링하는 필터링부;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 입력행렬 생성부;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬(p × q, (p-1) × q, (p-2) × q … 1 × q)을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 NMF 연산부;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하여 출력하는 출력부;
(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 예측모델 생성부; 및
(h) 상기 생성된 예측모델의 성능을 평가하는 검증부.
본 발명의 상기 장치에는 데이터 수신부, 입력부, 필터링부, 입력행렬 생성부, NMF 연산부, 출력부, 메타유전자 선별부 및 검증부는 각각의 기능들에 따라 별도의 독립적인 명칭들로 구분된 것일 뿐, 하나의 프로세서로 구현될 수 있다.
또한, 데이터 수신부, 입력부, 필터링부, 입력행렬 생성부, NMF 연산부, 출력부, 예측모델 생성부및 검증부 각각은 프로세서 내의 하나 이상의 프로세싱 모듈에 대응될 수도 있다. 또는, 데이터 수신부, 입력부, 필터링부, 입력행렬 생성부, NMF 연산부, 출력부, 예측모델 생성부 및 검증부는 각각의 기능들에 따라 구분된 별도의 소프트웨어 알고리즘 단위에 해당될 수도 있다. 즉, 프로세서 내에서 데이터 수신부, 입력부, 필터링부, 입력행렬 생성부, NMF 연산부, 출력부, 예측모델 생성부 및 검증부의 구현 형태는 어느 하나에 의해 제한되지 않는다.
또한, 상기 나열된 (a) 내지 (h)의 각 구성요소 이외에 다른 범용적인 구성요소들이 더 포함될 수 있다.
본 발명에서 제공하는 상기 장치의 (a) 내지 (h)의 각 구성요소의 구동방식은 전술한 바를 참고할 수 있다.
한편, 본 발명이 제공하는 상기 장치의 (c) 필터링부는 유전자 네트워크 데이터베이스를 저장하는 데이터베이스 저장부; 및 상기 질병 관련 유전자와 관련된 도메인 지식을 검색하는 검색부를 추가로 포함할 수 있다.
상기 데이터베이스 저장부는 유전자 정보 프로세서, 단백질 상호작용 프로세서, 신호전달 경로 프로세서 등과 같은 유전자 네트워크 정보 제공을 위한 복수의 프로세서를 포함할 수 있다.
상기 데이터베이스 저장부에는 질병 관련 유전자의 기능적 링크(functional link)를 포함하는 네트워크 내에서 상기 질병 관련 유전자의 생물학적 경로(biological pathway)와 관련된 유전자 정보 및 유전자 네트워크 정보가 저장되어 있다.
상기 (b) 입력부에서 질병 관련 유전자가 입력되면 상기 데이터베이스 저장부에서는 상기 질병 관련 유전자와 직간접적인 생물학적 경로를 공유하고 있는 유전자 네트워크 정보를 검색하여 제공한다.
상기 검색부는 상기 데이터베이스 저장부에 저장되어 있는 유전자 네트워크 정보뿐만 아니라, 기 구축된 온라인 데이터베이스를 검색하여 상기 질병 관련 유전자와 직간접적인 생물학적 경로를 공유하고 있는 네트워크 정보를 탐색한다.
상기 기 구축된 온라인 데이터베이스는, 예를 들어, HPRD, BioGrid, IntAct, MINT, DIP, iRefWeb data, pathway map, MsigDB 등이 포함될 수 있다.
또한, 상기 검색부는 기 구축된 온라인 데이터베이스 외에도 논문, 특허, 보고서 등을 검색하여 상기 질병 관련 유전자와의 관련성이 공지되었으나 상기 온라인 데이터베이스에 반영되지 않은 추가 유전자를 탐색할 수 있다. 보다 구체적으로는, 상기 검색부는 도메인 지식을 검색하여 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군; 상기 질병 관련 유전자와 단백질-단백질 상호작용을 하는 것으로 공지된 유전자군; 및 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군을 검색하고 그 정보를 제공할 수 있다.
또한, 상기 (c) 필터링부는 상기 검색된 도메인 지식에 따라 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군; 상기 질병 관련 유전자와 단백질-단백질 상호작용을 하는 것으로 공지된 유전자군; 및 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군으로 이루어진 군에서 선택된 1종 이상의 유전자군을 상기 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군으로 선별하는 유전자 네트워크 선별부를 더 포함할 수 있다.
또한, 상기 (c) 필터링부에는 사용자가 설정하는 제한조건에 따라 상기 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군을 한정하는 제한조건 입력부가 추가로 포함될 수 있다. 상기 제한조건 입력부에서는, 예를 들어, 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군, 상기 질병 관련 유전자와 단백질-단백질 상호작용을 하는 유전자군, 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군 등 사용자가 필터링하고자 하는 조건을 한정함으로써, 상기 데이터베이스 저장부 및 검색부에서 제공되는 유전자군이 일정한 범위 내지는 군으로 제한되도록 설정할 수 있다.
본 발명은 또한 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계; (b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계; (c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계; (d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계; (e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계; (f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하는 단계; (g) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계; (h) 상기 입력행렬에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r × (q + t))를 산출하는 단계; (i) 상기 (h) 단계에서 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; (j) 상기 (h) 단계에서 산출된 r × t 행렬을 상기 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법을 제공한다.
본 발명의 상기 방법에서 (a) 내지 (j)의 각 단계는 질병 관련 메타유전자 생성 방법에 관한 이전 설명을 참고할 수 있다.
본 발명의 상기 (a) 단계에서 피검체란 유전자 데이터만이 제공되어 있고, 비-유전자 데이터는 제공되지 않은 임의의 환자를 의미한다. 보다 구체적으로는, 상기 피검체는 특정 질병에 걸렸는지 진단하고자 하는 환자, 특정 질병에 걸린 것으로 진단된 환자로서 예후를 예측하고자 하는 환자, 특정 질병에 걸린 것으로 진단된 환자로서 적절한 치료 약물을 선택하고자 하는 환자 등을 포함한다.
상기 (h) 단계에서의 랭크(rank)값 r은 상기 (f) 단계에서 선별된 랭크값 r과 동일한 것이다.
상기 (j) 단계에서는 상기 (h) 단계에서 NMF로 생성된 상기 r × t 행렬을 상기 예측모델의 입력값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력한다.
예를 들어, 상기 (h) 단계에서 생성된 예측모델이 특정 약물에 대한 반응성(비-유전자 데이터) 예측을 위한 예측모델이었다면, 상기 r × t 행렬 내 각 피검체의 메타유전자 1 내지 r의 값을 상기 예측모델의 입력값으로 하여 상기 피검체(t명)의 상기 특정 약물에 대한 반응성을 예측해 볼 수 있다.
본 발명의 상기 방법에서 상기 (i) 단계 이후에 상기 예측모델의 성능을 평가하는 단계를 추가로 수행할 수 있다.
본 발명이 제공하는 상기 피검체의 질병 관련 비-유전자 데이터 예측 방법은 피검체의 질병 관련 비-유전자 데이터를 예측하는데 필요한 정보를 제공하기 위한 목적으로 수행될 수 있다.
본 발명은 또한 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계; (b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계; (c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계; (d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계; (e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계; (f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하는 단계; (g) 상기 산출된 NMF 데이터에서 r Х q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; (h) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계; (i) 상기 (h) 단계에서 생성된 입력행렬(N × (q + t))에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r × (q + t))를 산출하는 단계; 및 (j) 상기 (i) 단계에서 산출된 NMF 데이터에서 r × t 행렬을 상기 (g) 단계에서 생성된 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법을 제공한다.
본 발명의 방법에 따라 생성된 메타유전자 및 이를 이용한 예측모델을 통해 미지의 피검체로부터 비-유전자 데이터를 예측하는 방법은 단일 바이오 마커 유전자 또는 바이오 마커 유전자군 등 통상적인 방법에 따라 선별된 바이오 마커를 이용한 비-유전자 데이터 예측방법과 비교해 향상된 예측력을 제공할 수 있다.
도메인 지식 및 NMF 기법을 활용한 본 발명의 방법 따라 생성된 메타유전자는 질병의 진단, 예후 예측, 약물 반응성 예측 등과 관련된 정확한 정보를 제공할 수 있어 새로운 바이오 마커로서 활용 가능성이 매우 높다.
도 1은 도메인 지식에 따라 선별된 유전자 조합에 따른 랭크값 r의 NMF 수행 결과, 결측치에 대한 행렬의 복원값과 대응되는 원본값 사이의 오차(mean-square error)를 나타낸 결과이다.
도 2는 행렬 최적화 과정을 통해 오차가 가장 낮은 것으로 선정된 유전자 조합 및 랭크값을 갖는 NMF 결과의 세포주 매트릭스(A) 및 유전자 매트릭스(B)를 출력한 결과이다.
도 3은 베네토클락스에 대한 약물 반응성(IC50)과 BLC2의 유전자 발현량(A) 또는 본 발명의 실시예에서 선별된 메타유전자 2의 가중치(B)와의 상관관계를 확인한 도면이다.
도 4는 선형 회귀 방법에 따라 본 발명의 실시예에서 선별된 각 메타유전자 각각이 베네토클락스 약물 반응성(IC50) 값에 미치는 영향을 베타 계수(beta coefficient)로 확인한 결과이다.
도 5는 선형 회귀(Linear regression) 모델을 사용하여 각각의 바이오마커가 베네토클락스 약물 반응성(IC50)을 예측하는 성능을 평가한 결과이다.
도 6은 도메인 지식에 따라 선별된 유전자 조합에 따른 랭크값 3의 NMF 수행 결과, 결측치에 대한 행렬의 복원값과 대응되는 원본값 사이의 오차(Mean absolute percentage error)를 나타낸 결과이다.
도 7는 행렬 최적화 과정을 통해 오차가 가장 낮은 것으로 선정된 유전자 조합을 갖는 NMF 결과의 환자 매트릭스(A) 및 유전자 매트릭스(B)를 출력한 결과이다.
도 8은 로지스틱 회귀 (logistic regression) 알고리즘을 사용하여 각각의 바이오 마커가 베네토클락스 약물 반응성(high group/low group)을 예측하는 성능을 평가한 결과이다.
도 2는 행렬 최적화 과정을 통해 오차가 가장 낮은 것으로 선정된 유전자 조합 및 랭크값을 갖는 NMF 결과의 세포주 매트릭스(A) 및 유전자 매트릭스(B)를 출력한 결과이다.
도 3은 베네토클락스에 대한 약물 반응성(IC50)과 BLC2의 유전자 발현량(A) 또는 본 발명의 실시예에서 선별된 메타유전자 2의 가중치(B)와의 상관관계를 확인한 도면이다.
도 4는 선형 회귀 방법에 따라 본 발명의 실시예에서 선별된 각 메타유전자 각각이 베네토클락스 약물 반응성(IC50) 값에 미치는 영향을 베타 계수(beta coefficient)로 확인한 결과이다.
도 5는 선형 회귀(Linear regression) 모델을 사용하여 각각의 바이오마커가 베네토클락스 약물 반응성(IC50)을 예측하는 성능을 평가한 결과이다.
도 6은 도메인 지식에 따라 선별된 유전자 조합에 따른 랭크값 3의 NMF 수행 결과, 결측치에 대한 행렬의 복원값과 대응되는 원본값 사이의 오차(Mean absolute percentage error)를 나타낸 결과이다.
도 7는 행렬 최적화 과정을 통해 오차가 가장 낮은 것으로 선정된 유전자 조합을 갖는 NMF 결과의 환자 매트릭스(A) 및 유전자 매트릭스(B)를 출력한 결과이다.
도 8은 로지스틱 회귀 (logistic regression) 알고리즘을 사용하여 각각의 바이오 마커가 베네토클락스 약물 반응성(high group/low group)을 예측하는 성능을 평가한 결과이다.
이하, 본 발명을 하기 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하기 위한 것일 뿐, 본 발명이 이들에 의해 제한되는 것은 아니다.
실시예 1: AML 세포주를 이용한 메타유전자의 생성 및 이의 유용성 검증
1. AML(acute myeloid leukemia) 세포주의 베네토클락스(venetoclax)에 대한 약물 반응성 평가
"Cancer Discov. 2018 Dec;8(12):1582-1597." 에서 제공하는 각 AML 세포주에 대한 IC50 값을 이용하여, 21종 AML 세포주의 베네토클락스에 대한 약물 반응성 정보(즉, 비-유전자 데이터)를 확보하였다. 확보한 각 AML 세포주의 베네토클락스에 대한 약물 반응성은 도 2에 표시하였다.
이후, 하기 방법에 따라 베네토클락스에 대한 반응성이 확보된 각 AML 세포주의 전체 유전자 발현량(즉, 유전자 데이터)을 확보하였다:
(1) Broad Institute Cancer Cell Line Encyclopedia (CCLE, Nature. 2019 May;569(7757):503-508.)에서 제공하는 fastq (mRNA 시퀀스 리드) 를 Sequence Read Archive (SRA)를 통해 받음
(2) 상기 시퀀스 리드를 STAR (Bioinformatics. 2013 Jan 1;29(1):15-21)를 통해 reference 서열(hg19)에 매핑
(3) 상기 매핑 정보에서 RSEM (BMC Bioinformatics. 2011 Aug 4;12:323.)을 통해 유전자에 매핑된 시퀀스 리드를 카운트하여 유전자 발현 값(FPKM; Fragments Per Kilobase of transcript per Million)으로 가공
2. 베네토클락스 약물 반응성 예측을 위한 메타유전자 선별
(1) BCL2와 유전자 네트워크를 형성하는 유전자군의 선별
베네토클락스는 BCL2 선택적인 저해제이다. 베네토클락스의 약물 반응성을 예측하기 위한 메타유전자 선별을 위해 BCL2와 유전자 네트워크를 형성하는 유전자군을 다음과 같이 선별하였다:
1) 문헌조사 (BCL2 family 유전자들)
내재적 세포사멸 과정의 핵심 유전자는 BCL2 family로써, 총 15개의 유전자가 pro-apoptotic 및 anti-apoptotic 기능에 대해 알려져 있다(Cell Death Differ. 2018 Jan;25(1):56-64.). 이들 BCL2 famaily 유전자 15개를 1차적으로 선별하였으며, 선별된 BCL2 family 유전자 리스트는 다음과 같다:
BID,BCL2L11,PMAIP1,BBC3,BAD,BIK,HRK,BCL2,BCL2L1,MCL1,BCL2L2,BCL2A1,BAX,BAK1,BOK
2) gene set DB 이용
세포사멸 과정은 내재적/외재적으로 구분되므로, BCL2와 같이 내재적 세포사멸에 한정된 유전자 선별을 위해 공개 DB인 MsigDB에서 내재적 세포사멸과 관련된 유전자를 다음과 같이 수집하였다.
-GO_INTRINSIC_APOPTOTIC_SIGNALING_PATHWAY (내재적 세포사멸 조절 경로에 참여하는 유전자): 152개
-REACTOME_INTRINSIC_PATHWAY_FOR_APOPTOSIS (내재적 세포사멸 조절 경로에 참여하는 유전자): 30개
-BIOCARTA_MITOCHONDRIA_PATHWAY (내재적 세포사멸 조절은 미토콘드리아에서 일어남. 따라서, 미토콘드리아에서 내재적 세포사멸에 관여하는 유전자를 선별함): 21개
- REACTOME_ACTIVATION_OF_BH3_ONLY (BH3 only protein은 BCL2 family의 일부임. 이들의 activation에 관여하는 유전자 항목을 선별함): 17개
- GENEGO_TNF_NFkB_BCL2_PATHWAY (내재적 세포사멸의 핵심 유전자인 BCL2 family의 전사(transcription) 관련 유전자와 단백질-단백질 상호작용(protein-protein interaction) 관계의 유전자들도 간접적 연관성이 존재하므로 포함시킴. 구체적으로, BCL2 family 유전자 중 일부는 TNFs/NF-kB pathway를 통해 전사가 조절됨. 이에 관련된 유전자를 선별함): 38개
또한, anti-apoptotic BCL2 family와 단백질-단백질 상호작용하는 유전자 266개를 BioGRID에서 수집하였다.
(2) 행렬 최적화
상기 선별된 유전자군으로 상기 AML 세포주들의 유전자 데이터를 필터링하고, 상기 선별된 유전자 중 사용 가능한 유전자 (391개) X 상기 AML 세포주(21개)의 제1입력행렬(p x q)을 생성하였다.
상기 사용가능한 유전자는 1) 전체 샘플 수의 90% 이하에서만 발현하는 유전자 제외하고 2) 유전자의 스케일을 통일하기 위해 quantile normalization을 수행 후 제 1 입력행렬의 값으로 사용하였다.
이후, 상기 제1입력행렬을 기준으로 하기 단계를 포함하는 방법에 따라 제2입력행렬을 생성한 후 임의의 값을 결측치로 처리하고 NMF를 수행하여, 최적의 유전자 조합 및 랭크값을 나타내는 NMF 데이터를 선별하였다:
본 실시예에서는 결측치 대상 유전자를 다음과 같이 선택하였다.
1) 베네토클락스 약물의 대상이 되는 BCL2
2) BCL2와 동일한 기능성을 가지지만, 베네토클락스 약물의 대상이 되지 않기 때문에 약물 저항성을 가지게 하는 유전자 4개 (MCL1, BCL2L1(BCLXL), BCL2A1(BFL1), BCL2L2(BCLW))
1) 상기 선별된 391종의 유전자에서부터 유전자가 10개가 남을 때까지 하기 (1-1) 내지 (1-4) 과정을 반복(p=391, 390, 389, … 10)함
(1-1) 상기 결측치 대상 유전자(5개)를 제외한 (p-5)개 유전자 중에서 각각의 유전자(G)에 대해 각각 아래 과정을 실시함
(1-1-1) 유전자 G를 제외한 (p-1)개 유전자로 제2입력행렬 (p-1)x 21 생성
(1-1-2) 상기 제2입력행렬에서 결측치 대상 유전자에 해당하는 부분 (5 x 21)의 유전자 데이터 중에서 무작위로 5%를 결측치로 처리
(1-1-3) 상기 결측치 처리된 행렬에서 rank(r)에 대해 NMF를 수행하여 결과 행렬 W((p-1) × r), H(r × 21) 생성
(1-1-4) 상기 생성된 결과행렬(W행렬, H행렬)끼리 곱해 제2입력행렬을 복원
(1-1-5) 상기 (1-1-3)단계에서 결측치 처리된 값의 상기 (1-1-4)에서의 복원값과 상기 제2입력행렬에서 대응되는 원본값 사이의 오차를 (MSE) 계산
(1-1-6) 상기 (1-1-3) ~ (1-1-5) 과정을 30번 반복하여 계산된 30개의 MSE 값의 평균을 최종 오차로 지정
(1-2) 상기 과정에서 생성된 오차(p-5)개 중 최소값의 오차를 나타내는 유전자를 선별
(1-3) 상기 선별된 유전자를 입력행렬에서 제거
(1-4) 남은 유전자(p-1개) 및 이에 해당하는 오차값 기록
2) 상기 기록된 오차 중 최소값의 오차를 나타내는 유전자군 (최종 유전자군) 및 랭크(rank)값 선별
(3) NMF 결과 출력
상기 (1)의 유전자군 선발 및 상기 (2)의 행렬 최적화 과정을 통해 유전자(64개) 조합 및 랭크값(5)을 갖는 유전자 매트릭스(W)와 세포주 매트릭스(H)를 출력하였다.
도면의 W 매트릭스에서 각 열을 좌측에서부터 메타유전자 1 내지 5로 지정하였으며, 이들 메타유전자 중에서 베네토클락스의 약물 반응성과 양의 상관관계를 나타내는 것으로 알려진 BCL2의 가중치가 가장 높은 메타유전자 2, 그리고 베네토클락스의 약물 반응성과 음의 상관관계를 나타내는 것으로 알려진 BCL2L2, BCL2L1, BCL2A1 또는 MCL1의 가중치가 가장 높은 메타유전자 1, 3, 4 및 5중에서, 우선 메타유전자 2를 선별하여 이하 바이오 마커로서의 유용성을 검증하였다.
(4) 메타유전자의 검증
1) 메타유전자 2의 검증
상기 (3)에서 선별된 메타유전자 2가 베네토클락스의 약물 반응성을 예측할 수 있는 바이오 마커로서 활용될 수 있을지를 이하 검증하였다.
우선, 도면의 H 매트릭스를 참고하면, 각 AML 세포주의 베네토클락스에 대한 반응성을 IC50 순서로 나열하고, 이를 표시하였다. 도면의 H 매트릭스에 표시된 각 AML 세포주의 베네토클락스에 대한 반응성과 메타유전자 2와의 양의 상관관계가 존재하는 것으로 확인되었다. 구체적으로, 도면의 H 매트릭스에서 베네토클락스에 대한 반응성이 좋은 세포주들은 메타유전자 1 내지 5 중에서 메타유전자 2의 가중치가 가장 높은 것을 확인할 수 있으며, 베네토클락스에 대한 반응성이 좋지 않은 세포주들은 메타유전자 2의 가중치가 낮은 것을 확인할 수 있다.
보다 상세하게는 상기 도면에 나타낸 바와 같이, BCL2 단독의 발현량 보다, 본 발명의 방법에 따라 선별된 메타유전자 2(BCL2-related mata-gene)가 베네토클락스 약물 반응성에 더 높은 상관관계를 나타낸다는 것을 확인할 수 있다.
2) 모든 메타유전자의 검증
또한, 상기 선별된 메타유전자 2 뿐만 아니라 메타유전자 1,3,4,5도 베네토클락스의 약물 반응성을 예측할 수 있는 바이오 마커로서 활용될 수 있을지를 추가적으로 이하 검증하였다.
구체적으로, 선형 회귀(Linear Regression)를 사용하여 메타유전자(x값)가 각각 약물 반응성 IC50(y값)에 미치는 영향을 베타 계수(beta coefficient)로 파악했다.
양의 coefficient는 IC50(y)와 양의 연관성이, 음의 coefficient는 IC50(y)와 음의 연관성이 있다고 해석 가능하다.
도면을 참고하면, 상기 선별되었던 메타유전자 2(BCL2-related)는 각 세포주에서 베네토클락스의 IC50와 강한 음의 연관성 (반응성과 양의 연관성)을 갖는 것으로 확인되었다. 즉, 메타유전자 2의 가중치가 높은 세포주일수록 베네토클락스의 IC50값이 낮기 때문에 약물 반응성이 높다.
반대로, 메타유전자 1,4 및 5는 IC50과 양의 연관성 (반응성과 음의 연관성)을 갖는 것으로 확인되었다. 즉, 메타유전자 1, 4 또는 5의 가중치가 높은 세포주일수록 베네토클락스의 IC50값이 높기 때문에 약물 반응성이 낮다.
한편, 상기 메타유전자 3은 베네토클락스의 IC50와 양의 연관성 및 음의 연관성 모두 나타내지 않기 때문에 베네토클락스 약물 반응성 예측을 위한 바이오마커에서 제외하였다.
즉, 메타유전자 1,2,4,5를 베네토클락스 반응성 예측을 위한 바이오 마커로 선정하였다.
선형 회귀(Linear Regression) 모델을 사용하여 상기 선정된 메타유전자 1,2,4,5 (x값)의 베네토클락스 약물 반응성(y값) 예측력을 평가하였다. 예측력 평가의 지표는 100-repeated 5-fold cross-validation으로 얻은 MSE(Mean Square Error)를 사용하였으며, 세부 내용은 다음과 같다:
상기 유전자 데이터를 확보한 21개 세포주의 유전자 데이터를 무작위로 5개 fold로 나눈다. 4개의 fold로 모델을 학습시킨 후 남은 1개의 fold로 모델을 평가하여 MSE 값을 얻는다. 이를 각 fold에 대해 반복한 후 얻은 5개의 MSE 평균을 5-fold cross-validation MSE (CV-MSE)라 칭한다. 이 과정을 100번 반복하여 얻은 100개의 CV-MSE의 평균을 모델 평가에 이용하였다.
도면에서, 갈색 및 노란색 막대는 각각 BCL2 또는 BCL2 패밀리 유전자 발현 정보(x값)를 이용한 IC50 (y값) 예측 모델 학습 결과를 나타내며, 주황 막대는 필터링 수행 전 모든 유전자 정보에서 최적화된 유전자 개수와 동일하게 무작위로 추출한 후 NMF를 수행해 발굴된 메타유전자(x값)를 이용한 IC50 (y값) 예측 모델 학습 결과를 나타내며, 보라 막대는 필터링 수행 전 모든 유전자 정보에서 NMF를 통해 발굴된 메타유전자(x값)를 이용한 IC50 (y값) 예측 모델 학습 결과를 나타내며, 초록 막대는 도메인 지식으로 축소된 유전자 자료(apoptosis genes) 에서 NMF를 통해 발굴된 메타유전자(x값)를 이용한 IC50 (y값) 예측 모델 학습 결과를 나타내며, 파랑 막대는 도메인 지식을 활용한 유전자 네트워크 자료 및 행렬 최적화된 유전자 정보로부터 발굴된 메타유전자(x값)를 모두(메타유전자1~5) 이용한 IC50 (y값) 예측 모델 학습 결과를 나타낸다. 빨강 막대는 상기 최종적으로 선별된 메타유전자 1,2,4,5 (x값)를 이용한 IC50 (y값) 예측 모델 학습 결과를 나타낸다.
도면에서 확인할 수 있는 바와 같이, 본 발명의 방법에 따라 도메인 지식을 활용하고, 행렬 최적화된 유전자 정보로부터 발굴된 메타유전자를 이용한 IC50 예측 모델이 다른 모델들과 비교했을 때 베네토클락스의 약물 반응성 예측력이 현저히 우수한 것을 확인할 수 있다. 또한, 메타유전자 1,2,4 및 5 사용 시 최고의 성능을 내는 것을 확인할 수 있다. 즉, 상기 선별된 메타유전자와 비-유전자 데이터와의 양의 상관관계 또는 음의 상관관계를 검증함으로써 이들 메타유전자를 활용한 약물 반응성 예측의 정확도를 더욱 향상시킬 수 있다.
실시예 2: 환자 데이터를 이용한 메타유전자의 생성 및 이의 유용성 검증
1. AML(acute myeloid leukemia) 환자의 베네토클락스(venetoclax)에 대한 약물 반응성 평가
"Nature. 2018 Oct;562(7728):526-531." 에서 제공하는 beatAML 프로젝트에서 AML 환자 451 명의 전제 유전자 발현량 (즉, 유전자 데이터)와 그 중, 153 명의 약물 반응성 정보(즉, 비-유전자 데이터)를 확보하였다. 확보한 각 AML 환자의 베네토클락스에 대한 약물 반응성은 도7에 표시하였다. 이후 하기 방법에 따라 AML 환자의 전체 유전자 발현량 (즉, 유전자 데이터)를 가공하였다.
2. 베네토클락스 약물 반응성 예측을 위한 메타유전자 선별
(1) BCL2와 유전자 네트워크를 형성하는 유전자군의 산출
베네토클락스는 BCL2 선택적인 저해제이다. 베네토클락스의 약물 반응성을 예측하기 위한 메타유전자 산출을 위해 BCL2와 유전자 네트워크를 형성하는 유전자군을 다음과 같이 선별하였다:
1) 문헌조사 (BCL2 family 유전자들)
내재적 세포사멸 과정의 핵심 유전자는 BCL2 family로써, 총 15개의 유전자가 pro-apoptotic 및 anti-apoptotic 기능에 대해 알려져 있다(Cell Death Differ. 2018 Jan;25(1):56-64.). 이들 BCL2 famaily 유전자 15개를 1차적으로 선별하였으며, 선별된 BCL2 family 유전자 리스트는 다음과 같다:
BID,BCL2L11,PMAIP1,BBC3,BAD,BIK,HRK,BCL2,BCL2L1,MCL1,BCL2L2,BCL2A1,BAX,BAK1,BOK
2) gene set DB 이용
세포사멸 과정은 내재적/외재적으로 구분되므로, BCL2와 같이 내재적 세포사멸에 한정된 유전자 선별을 위해 공개 DB인 MsigDB에서 내재적 세포사멸과 관련된 유전자를 다음과 같이 수집하였다.
- GO_INTRINSIC_APOPTOTIC_SIGNALING_PATHWAY (내재적 세포사멸 조절 경로에 참여하는 유전자): 152개
- REACTOME_INTRINSIC_PATHWAY_FOR_APOPTOSIS (내재적 세포사멸 조절 경로에 참여하는 유전자): 30개
- BIOCARTA_MITOCHONDRIA_PATHWAY (내재적 세포사멸 조절은 미토콘드리아에서 일어남. 따라서, 미토콘드리아에서 내재적 세포사멸에 관여하는 유전자를 선별함): 21개
- REACTOME_ACTIVATION_OF_BH3_ONLY (BH3 only protein은 BCL2 family의 일부임. 이들의 activation에 관여하는 유전자 항목을 선별함): 17개
- GENEGO_TNF_NFkB_BCL2_PATHWAY (내재적 세포사멸의 핵심 유전자인 BCL2 family의 전사(transcription) 관련 유전자와 단백질-단백질 상호작용(protein-protein interaction) 관계의 유전자들도 간접적 연관성이 존재하므로 포함시킴. 구체적으로, BCL2 family 유전자 중 일부는 TNFs/NF-kB pathway를 통해 전사가 조절됨. 이에 관련된 유전자를 선별함): 38개
이외에 문헌조사를 통해, BCL2 family의 조절에 관여하는 유전자 30개를 추가하여 최종 유전자 세트 (236개)를 선별했다.
(2) 행렬 최적화
상기 선별된 유전자군으로 상기 AML 환자의 유전자 데이터를 필터링하고, 상기 선별된 유전자 중 사용 가능한 유전자 (228개) X 상기 AML 환자(451건)의 제1입력행렬(p x q)을 생성하였다.
이후, 상기 제1입력행렬을 기준으로 하기 단계를 포함하는 방법에 따라 제2입력행렬을 생성한 후 임의의 값을 결측치로 처리하고 NMF를 수행하여, 최적의 유전자 조합을 나타내는 NMF 데이터를 선별하였다.
본 실시예에서는 결측치 대상 유전자를 다음과 같이 선택하였다.
1) 베네토클락스 약물의 대상이 되는 BCL2
2) BCL2와 동일한 기능성을 가지지만, 베네토클락스 약물의 대상이 되지 않기 때문에 약물 저항성을 가지게 하는 유전자 4개 (MCL1, BCL2L1(BCLXL), BCL2A1(BFL1), BCL2L2(BCLW))
1) 상기 선별된 391종의 유전자에서부터 유전자가 10개가 남을 때까지 하기 (1-1) 내지 (1-4) 과정을 반복(p=228, 227, 226, … 10)함
(1-1) 상기 결측치 대상 유전자(5개)를 제외한 (p-5)개 유전자 중에서 각각의 유전자(G)에 대해 각각 아래 과정을 실시함
(1-1-1) 유전자 G를 제외한 (p-1)개 유전자로 제2입력행렬 (p-1) × 451 생성
(1-1-2) 상기 제2입력행렬에서 결측치 대상 유전자에 해당하는 부분 (5 × 451)의 유전자 데이터 중에서 무작위로 10%를 결측치로 처리
(1-1-3) 상기 결측치 처리된 행렬에서 rank(r)에 대해 NMF를 수행하여 결과 행렬 W((p-1) × r), H(r × 451) 생성
(1-1-4) 상기 생성된 결과행렬(W행렬, H행렬)끼리 곱해 제2입력행렬을 복원
(1-1-5) 상기 (1-1-3)단계에서 결측치 처리된 값의 상기 (1-1-4)에서의 복원값과 상기 제2입력행렬에서 대응되는 원본값 사이의 오차를 (MAPE;
Mean Absolute Percentage Error) 계산
(1-2) 상기 과정에서 생성된 오차(p-5)개 중 최소값의 오차를 나타내는 유전자를 선별
(1-3) 상기 선별된 유전자를 입력행렬에서 제거
(1-4) 남은 유전자(p-1개) 및 이에 해당하는 오차값 기록
2) 상기 기록된 오차 중 최소값의 오차를 나타내는 유전자군 (최종 유전자군)선별
(3) NMF 결과 출력
상기 (1)의 유전자군 선발 및 상기 (2)의 행렬 최적화 과정을 통해 유전자(97개) 조합 및 랭크값(3)을 갖는 유전자 매트릭스(W)와 환자 매트릭스(H)를 출력하였다.
도면의 W 매트릭스에서 베네토클락스 저항성 관련 유전자 (BCL2, MCL1, BCL2A1; 연구자의 경험에 의한 선택)의 기여도에 따라, 각 열을 좌측에서부터 BCL2 메타유전자, MCL1/BCL2 메타유전자, BFL1/MCL1 메타유전자로 지정하였다.
(4) 메타유전자의 검증
상기 (3)에서 산출된 메타유전자가 베네토클락스의 약물 반응성을 예측할 수 있는 바이오 마커로서 활용될 수 있을지를 이하 검증하였다.
구체적으로, 로지스틱 회귀(Logistic Regression) 모델을 사용하여 상기 산출된 메타유전자의 베네토클락스 약물 반응성(y값) 예측력을 평가하였다. 예측력 평가는 10-repeated train/test split(7:3)으로 얻은 test AUROC (Area Under a Receiver Operating Characteristic)를 사용하였으며, 세부 내용은 다음과 같다:
상기 유전자 데이터와 약물 반응성 정보를 확보한 153건 환자의 유전자 데이터를 무작위로 70%:30%으로 나눈다. 70%로 모델을 학습시킨 후 남은 30%로 모델을 평가하여 AUROC 값을 얻는다. 무작위 나눔을 10번 반복하여 얻은 10개의 AUROC의 평균을 모델 평가에 이용하였다.
도 8에서, 빨간색 막대는 상기 생성된 메타유전자를 이용한 약물 반응성 모델 결과를 나타내며, 파란색과 하늘색 막대는 각각 BCL2 패밀리 유전자 발현 정보 (BCL2+MCL1+BFL1) 와 (BCL2+MCL1+BFL1+BCLXL+BCLW)를 이용한 예측 모델 결과를 나타낸다. DEG로 표기된 막대는 차등발현 (Differential Expression Gene; DEG) 중 상위 유전자 발현 정보를 이용한 예측 모델 결과를 나타낸다. total과 BCL2 family-related genes로 표기된 막대는 각각 전체유전자 발현 정보, 도메인 지식으로 축소된 유전자 발현 정보를 이용해 다른 머신러닝 방법 (Lasso, 랜덤포레스트, 서포트벡터머신)으로 학습한 모델의 결과를 나타낸다.
도면에서 확인할 수 있는 바와 같이, 본명의 방법에 따라 도메인 지식을 활용하고, 행렬 최적화된 유전자 정보로부터 발굴된 메타유전자를 이용한 모델이 다른 모델들과 비교했을 때, 베네토클락스 약물 반응성 예측력이 현저히 우수한 것을 확인할 수 있다.
이상의 결과를 통해, 본 발명의 방법에 따라 선별된 메타유전자가 단일 유전자 또는 도메인 지식만을 적용하여 발굴된 메타유전자보다 바이오 마커로서 향상된 유용성을 제공한다고 판단할 수 있다.
도메인 지식 및 NMF 기법을 활용한 본 발명의 방법 따라 생성된 메타유전자는 질병의 진단, 예후 예측, 약물 반응성 예측 등과 관련된 정확한 정보를 제공할 수 있어 새로운 바이오 마커로서 활용 가능성이 매우 우수해 산업상 이용가능성이 높다.
Claims (17)
- (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하는 단계;
(g) 상기 산출된 NMF 데이터에서 r Х q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; 및
(h) 상기 생성된 예측모델의 성능을 평가하는 단계를 포함하는, 질병 관련 메타유전자(meta-gene) 생성 방법.
- 제1항에 있어서, 상기 (a) 단계의 유전자 데이터는 환자로부터 제공된 생물학적 시료에서 분석된 유전자 발현량 데이터인 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
- 제1항에 있어서, 상기 비-유전자 데이터는, 환자의 질병 진단 데이터, 질병 예후 데이터 및 약물 반응성 데이터로 이루어진 군에서 선택되는 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
- 제3항에 있어서, 상기 비-유전자 데이터는 수치화된 데이터인 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
- 제1항에 있어서, 상기 (b) 단계의 질병 관련 유전자는 유전자의 발현량과 비-유전자 데이터 사이에 양의 상관관계 또는 음의 상관관계가 존재하는 것으로 공지된 유전자인 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
- 제1항에 있어서, 상기 (c) 단계에서 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군은 유전자의 기능적 링크(functional link)를 포함하는 네트워크 내에서 상기 질병 관련 유전자의 생물학적 경로(biological pathway)와 관련된 유전자 집단인 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
- 제1항에 있어서, 상기 (c) 단계의 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군은 하기 단계를 포함하는 방법에 의해 선별되는 것을 특징으로 하는 질병 관련 메타유전자 생성 방법:
(c1) 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군; 상기 질병 관련 유전자와 단백질-단백질 상호작용을 하는 것으로 공지된 유전자군; 및 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군으로 이루어진 군에서 선택된 1종 이상의 유전자군을 선별하는 단계; 및
(c2) 상기 (c1) 단계에서 선별된 유전자군과 유전자 네트워크를 형성하는 유전자군을 선별하는 단계.
- 제1항에 있어서, (f) 단계에서 오차는 결측치에 대한 복원값과 상기제2입력행렬 내 대응되는 원본값 사이의 AE(Average Error), MAE(Mean absolute error), MAPE(Mean absolute percentage error), MAE(Mean squared error), MSE(Mean square error) 및 RMSE(root MSE)로 이루어진 군에서 선택된 지표에 따라 평가하는 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
- 제1항에 있어서, 상기 (e)에서 p개 내지 1개의 유전자 조합을 따른 각각의 제2입력행렬을 그리디(gkreedy) 방법에 따라 순차적으로 NMF를 수행하고, 상기 (f) 단계에서 결측치에 대한 복원값이 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자 조합 및 이의 NMF 데이터를 선별하는 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
- 제1항 내지 제9항 중 어느 한 항에 따른 방법을 수행하기 위한 프로그램이 기록되는, 컴퓨터 판독 가능한 기록 매체.
- (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터를 수신하는 데이터 수신부;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자가 입력되는 입력부;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 필터링부;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 입력행렬 생성부;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 NMF 연산부;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하여 출력하는 출력부;
(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 예측모델 생성부; 및
(h) 상기 생성된 예측모델의 성능을 평가하는 검증부를 포함하는, 질병 관련 메타유전자 생성 장치.
- 제11항에 있어서, 상기 필터링부는 상기 질병 관련 유전자와 관련된 도메인 지식을 검색하는 검색부를 더 포함하는 것을 특징으로 하는 질병 관련 메타유전자 생성 장치.
- 제12항에 있어서, 상기 필터링부는 상기 검색된 도메인 지식에 따라 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군; 상기 질병 관련 유전자와 단백질-단백질 상호작용을 하는 것으로 공지된 유전자군; 및 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군으로 이루어진 군에서 선택된 1종 이상의 유전자군을 상기 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군으로 선별하는 유전자 네트워크 선별부를 더 포함하는 것을 특징으로 하는 질병 관련 메타유전자 생성 장치.
- (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하는 단계;
(g) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계;
(h) 상기 (g) 단계에서 생성된 입력행렬에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r × (q + t))를 산출하는 단계;
(i) 상기 (h) 단계에서 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계;
(j) 상기 (h) 단계에서 산출된 r × t 행렬을 상기 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법.
- 제14항에 있어서, 상기 (i) 단계 이후에 상기 예측모델의 성능을 평가하는 단계를 추가로 수행하는 것을 특징으로 하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법.
- (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하는 단계;
(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계;
(h) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계;
(i) 상기 (h) 단계에서 생성된 입력행렬(N × (q + t))에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r × (q + t))를 산출하는 단계; 및
(j) 상기 (i) 단계에서 산출된 NMF 데이터에서 r × t 행렬을 상기 (g) 단계에서 생성된 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법.
- 제16항에 있어서, 상기 (g) 단계 이후에 상기 예측모델의 성능을 평가하는 단계를 추가로 수행하는 것을 특징으로 하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20190159376 | 2019-12-03 | ||
KR1020190159376 | 2019-12-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210069599A KR20210069599A (ko) | 2021-06-11 |
KR102659917B1 true KR102659917B1 (ko) | 2024-04-23 |
Family
ID=76221834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200167766A KR102659917B1 (ko) | 2019-12-03 | 2020-12-03 | 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102659917B1 (ko) |
WO (1) | WO2021112593A1 (ko) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101082367B1 (ko) * | 2009-04-29 | 2011-11-10 | 충북대학교 산학협력단 | 질병네트워크로부터 질병단백체를 발굴하는 방법 |
CN104462817B (zh) * | 2014-12-09 | 2017-07-25 | 西北师范大学 | 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 |
WO2018144135A1 (en) * | 2017-01-31 | 2018-08-09 | Counsyl, Inc. | Systems and methods for inferring genetic ancestry from low-coverage genomic data |
KR101940657B1 (ko) * | 2017-04-24 | 2019-01-21 | (주) 노보믹스 | 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템 |
KR101990429B1 (ko) * | 2017-06-22 | 2019-06-18 | 한국과학기술원 | 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법 |
CN109797221A (zh) * | 2019-03-13 | 2019-05-24 | 上海市第十人民医院 | 一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其应用 |
-
2020
- 2020-12-03 KR KR1020200167766A patent/KR102659917B1/ko active IP Right Grant
- 2020-12-03 WO PCT/KR2020/017561 patent/WO2021112593A1/ko active Application Filing
Non-Patent Citations (3)
Title |
---|
H-Q. Wang 외, Bioinformatics, 31권, 42호, pp. 572-580, 2015. |
J-P. Brunet 외, PNAS, 101권, 12호, pp. 4164-4169, 2004.05.23. |
N. Fujita 외, Scientific Reports, 8:9743, 2018.07.27. |
Also Published As
Publication number | Publication date |
---|---|
WO2021112593A1 (ko) | 2021-06-10 |
KR20210069599A (ko) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210383890A1 (en) | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network | |
CA2894317C (en) | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network | |
Motsinger‐Reif et al. | Comparison of approaches for machine‐learning optimization of neural networks for detecting gene‐gene interactions in genetic epidemiology | |
CN109411016B (zh) | 基因变异位点检测方法、装置、设备及存储介质 | |
KR102351306B1 (ko) | 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법 | |
KR102316989B1 (ko) | 신약 후보 물질의 발굴 시스템 및 그 방법 | |
Nasir et al. | Single and mitochondrial gene inheritance disorder prediction using machine learning | |
Bracher-Smith et al. | Machine learning for prediction of schizophrenia using genetic and demographic factors in the UK biobank | |
Bellot et al. | Boosted trees for risk prognosis | |
Babu et al. | A comparative study of gene selection methods for cancer classification using microarray data | |
Drenos et al. | Networks in coronary heart disease genetics as a step towards systems epidemiology | |
KR102336311B1 (ko) | 딥러닝을 이용한 암의 예후 예측 모델 | |
KR102659917B1 (ko) | 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용 | |
Sergeev et al. | Genome-wide analysis of MDR and XDR Tuberculosis from Belarus: Machine-learning approach | |
KR102659915B1 (ko) | 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용 | |
US20200371111A1 (en) | System and method for discovery of gene-environment interactions | |
CN117425937A (zh) | 用于确定双基因或寡基因变异的组合的致病性的预测方法 | |
Veytsman et al. | Practical detection of biological age: why it is not a trivial task | |
Vinogradova et al. | MLT-LE: predicting drug-target binding affinity with multi-task residual neural networks | |
CN114373547B (en) | Disease risk prediction method and system | |
Francis et al. | Ensemble approach for predicting genetic disease through case-control study | |
Koumadorakis et al. | Gene Regulatory Network Reconstruction Using Single-Cell RNA-Sequencing | |
Pirim | Construction of gene networks using expression profiles | |
He et al. | MINED: an efficient mutual information based epistasis detection method to improve quantitative genetic trait prediction | |
Mišić et al. | Evaluation of Neural Networks Based Systems for DNA Motif Discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |