KR20240054201A - 질병 발생 위험도 예측 장치 및 방법 - Google Patents
질병 발생 위험도 예측 장치 및 방법 Download PDFInfo
- Publication number
- KR20240054201A KR20240054201A KR1020230139363A KR20230139363A KR20240054201A KR 20240054201 A KR20240054201 A KR 20240054201A KR 1020230139363 A KR1020230139363 A KR 1020230139363A KR 20230139363 A KR20230139363 A KR 20230139363A KR 20240054201 A KR20240054201 A KR 20240054201A
- Authority
- KR
- South Korea
- Prior art keywords
- disease
- risk
- genetic
- occurrence
- value
- Prior art date
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 187
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 187
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000002068 genetic effect Effects 0.000 claims abstract description 110
- 230000035772 mutation Effects 0.000 claims abstract description 66
- 239000002773 nucleotide Substances 0.000 claims abstract description 49
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 49
- 230000003234 polygenic effect Effects 0.000 claims abstract description 37
- 206010006187 Breast cancer Diseases 0.000 claims description 79
- 208000026310 Breast neoplasm Diseases 0.000 claims description 79
- 210000004369 blood Anatomy 0.000 claims description 6
- 239000008280 blood Substances 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 230000036438 mutation frequency Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims 1
- 102000054765 polymorphisms of proteins Human genes 0.000 abstract description 3
- 230000001364 causal effect Effects 0.000 abstract description 2
- 108090000623 proteins and genes Proteins 0.000 description 94
- 206010060862 Prostate cancer Diseases 0.000 description 41
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 41
- 238000011161 development Methods 0.000 description 26
- 239000000523 sample Substances 0.000 description 20
- 238000010801 machine learning Methods 0.000 description 14
- 108700020462 BRCA2 Proteins 0.000 description 13
- 102000052609 BRCA2 Human genes 0.000 description 13
- 101150008921 Brca2 gene Proteins 0.000 description 13
- 108010067741 Fanconi Anemia Complementation Group N protein Proteins 0.000 description 11
- 102000016627 Fanconi Anemia Complementation Group N protein Human genes 0.000 description 11
- 101000777277 Homo sapiens Serine/threonine-protein kinase Chk2 Proteins 0.000 description 11
- 102100031075 Serine/threonine-protein kinase Chk2 Human genes 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 11
- 101700002522 BARD1 Proteins 0.000 description 10
- 108700020463 BRCA1 Proteins 0.000 description 10
- 102000036365 BRCA1 Human genes 0.000 description 10
- 101150072950 BRCA1 gene Proteins 0.000 description 10
- 102100028048 BRCA1-associated RING domain protein 1 Human genes 0.000 description 10
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 10
- 102000015098 Tumor Suppressor Protein p53 Human genes 0.000 description 10
- 102000000872 ATM Human genes 0.000 description 9
- 108010004586 Ataxia Telangiectasia Mutated Proteins Proteins 0.000 description 9
- 230000001717 pathogenic effect Effects 0.000 description 8
- 206010064571 Gene mutation Diseases 0.000 description 6
- 102100021088 Homeobox protein Hox-B13 Human genes 0.000 description 6
- 101001041145 Homo sapiens Homeobox protein Hox-B13 Proteins 0.000 description 6
- 230000007614 genetic variation Effects 0.000 description 6
- 108700028369 Alleles Proteins 0.000 description 5
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 description 5
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000000391 smoking effect Effects 0.000 description 5
- 238000013456 study Methods 0.000 description 5
- 102100034484 DNA repair protein RAD51 homolog 3 Human genes 0.000 description 4
- 102100034483 DNA repair protein RAD51 homolog 4 Human genes 0.000 description 4
- 101001132271 Homo sapiens DNA repair protein RAD51 homolog 3 Proteins 0.000 description 4
- 101001132266 Homo sapiens DNA repair protein RAD51 homolog 4 Proteins 0.000 description 4
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 201000005202 lung cancer Diseases 0.000 description 4
- 208000020816 lung neoplasm Diseases 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 108091026890 Coding region Proteins 0.000 description 3
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 3
- 102100021147 DNA mismatch repair protein Msh6 Human genes 0.000 description 3
- 102100034553 Fanconi anemia group J protein Human genes 0.000 description 3
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 3
- 101000968658 Homo sapiens DNA mismatch repair protein Msh6 Proteins 0.000 description 3
- 101000848171 Homo sapiens Fanconi anemia group J protein Proteins 0.000 description 3
- 229910015837 MSH2 Inorganic materials 0.000 description 3
- 108010074346 Mismatch Repair Endonuclease PMS2 Proteins 0.000 description 3
- 102000008071 Mismatch Repair Endonuclease PMS2 Human genes 0.000 description 3
- 102000007530 Neurofibromin 1 Human genes 0.000 description 3
- 108010085793 Neurofibromin 1 Proteins 0.000 description 3
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 3
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 3
- 239000012472 biological sample Substances 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 150000007523 nucleic acids Chemical group 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 102100035886 Adenine DNA glycosylase Human genes 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 238000000729 Fisher's exact test Methods 0.000 description 2
- 101001000351 Homo sapiens Adenine DNA glycosylase Proteins 0.000 description 2
- 101000874160 Homo sapiens Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Proteins 0.000 description 2
- 102100035726 Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Human genes 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010230 functional analysis Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- 101150096316 5 gene Proteins 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 102100031235 Chromodomain-helicase-DNA-binding protein 1 Human genes 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 101000785776 Homo sapiens Artemin Proteins 0.000 description 1
- 101000777047 Homo sapiens Chromodomain-helicase-DNA-binding protein 1 Proteins 0.000 description 1
- 101000981336 Homo sapiens Nibrin Proteins 0.000 description 1
- -1 MYTYH Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 102100024403 Nibrin Human genes 0.000 description 1
- 108020004485 Nonsense Codon Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 208000016097 disease of metabolism Diseases 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 210000005087 mononuclear cell Anatomy 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 230000037434 nonsense mutation Effects 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 210000002381 plasma Anatomy 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2537/00—Reactions characterised by the reaction format or use of a specific feature
- C12Q2537/10—Reactions characterised by the reaction format or use of a specific feature the purpose or use of
- C12Q2537/165—Mathematical modelling, e.g. logarithm, ratio
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Primary Health Care (AREA)
- Zoology (AREA)
- Evolutionary Biology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Biochemistry (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
개체의 단일 염기 다형성과 단일 유전 인자 변이 유무를 이용하여 질병 발생 위험도를 예측하는 장치 및 방법에 관한 것으로, 일 양상에 따른 개체의 질병 발생 위험도를 예측하는 장치 및 방법에 의하면, 개체의 유전정보에 근거하여 인과관계가 분명하나 드물게 나타나는 단일 유전 인자 및 그에 비해 연관성이 높지는 않으나 흔히 나타나는 단일 염기 다형성에 기반하는 다유전자 위험 점수를 모두 반영하여 보다 정확한 유전적 위험도를 기반하여 질병 발생 위험도 예측을 가능케 한다.
Description
개체의 단일 염기 다형성과 단일 유전 인자 변이 유무를 이용하여 질병 발생 위험도를 예측하는 장치 및 방법에 관한 것이다.
단일염기다형성(single nucleotide polymorphism, SNP)은 유전적 염기서열이 개인 간의 차이를 보이는 유전 변이의 일종으로, 단일의 염기가 다른 염기서열을 나타내며, 인구집단 내에서 1%이상의 빈도로 2개의 대립 염기서열(bi-allelic) 변이가 발생하는 위치이다.
최근 전장 유전체 분석(genome-wide association study)과 차세대서열분석(next-generation sequencing) 등의 유전체 분석 기술의 발달로 인간 유전체 변이형, 특히 SNP 정보를 분석할 수 있는 기술이 개발되었다.
최근 연구들에서 각각의 SNP는 일반적으로 낮은 질병 연관성을 나타내고 있지만, SNP의 특정 조합은 높은 질병연관성을 나타낼 수 있음이 밝혀지고 있다. 질병 발생을 예측할 수 있는 최적의 SNP 조합을 발굴하기 위하여 베이즈 요인, 로지스틱 회귀분석, 은닉 마르코브 모델, 서포트 벡터 머신, 랜덤 포레스트 기계 학습 등이 최근 연구들에서 사용되고 있다.
GWAS 분석은 유전자 변이와 연관된 형질(예를 들어, 신장, 모발색상, 눈 색상, 각종 질병 위험도)을 찾는 하나의 탐색 (Exploratory) 방법으로, 일반적으로 케이스(Case, 관심 형질을 가진 집단, 예를 들어 환자군) 와 컨트롤(Control, 형질을 갖지 않는 집단, 예를 들어 정상군)의 유전 정보를 전체 유전체 영역에 걸쳐 서로 비교하여 케이스 상에서 더 많은 빈도를 갖는 유전자 변이를 형질과 연관성을 가진 유전자 변이로 선정하는 방식을 사용하고 있다.
이에 GWAS 분석을 통해 확인된 유전자 변이 다수를 비롯하여 질병의 발생에 대한 원인으로 알려진 특정 유전자들의 단일 유전 인자 변이 유무를 함께 반영하여 질병 발생 위험도를 예측하는 모델을 구축하여 본 발명을 완성하였다.
일 양상은 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)과 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하는 단계; 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하는 단계; 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하는 단계를 포함하는 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법을 제공하는 것이다.
다른 양상은 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 것이다.
또 다른 양상은 적어도 하나의 메모리; 및 적어도 하나의 프로세서;를 포함하고, 상기 프로세서는 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)와 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하고, 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하고, 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하여 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 컴퓨팅 장치를 제공하는 것이다.
본 발명은 임의의 유전자에 대하여 특정 질병에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 오즈비와 인구집단 기여 위험분율을 곱한 값을 지표로 삼아 특정 질병과 관련된 유전자군 또는 유전자를 선별하는 단계를 포함하고, 상기 선별된 유전자군 또는 유전자내 개체의 유전변이를 분석하여 개체의 특정 질병 발생의 위험도를 예측하는 방법을 제공한다. 구체적으로, 특정 질병의 발생과 연관성이 있는 유전자군 또는 유전자를 선별하는 단계는 특정 질병의 발생에 대한 연관도 또는 영향력이 유사한 유전자끼리 군집화하는 단계를 포함할 수 있다. 보다 구체적으로, 특정 질병에 대한 오즈비와 인구집단 기여 위험분율 각각 또는 이들을 곱한 값을 특정 질병 관련 단일 유전 인자를 가지는 유전자들의 선별을 위한 지표로 할 수 있다. 이는 질병 관련 유전자를 선별함에 있어서, 이론적인 접근 방법이 아니라 실제 임상 데이터에서 질병군 및 비질병군 유전체 데이터로부터 추산하는 방법으로 진행된다.
상기 질병은 유전적 요인에 의해 또는 유전적 요인의 영향이 직간접적으로 미치는 모든 질병을 제한없이 포함할 수 있고, 구체적으로 난소암, 위암, 유방암, 전립선암, 심혈관계 질환, 대사 질환, 당뇨일 수 있으나, 이에 한정되는 것은 아니다. 일 실시예에 있어서, 상기 질병은 유방암 또는 전립선암일 수 있다.
본 발명의 질병의 유전적 위험도를 기반으로 개체의 특정 질병 발생의 위험도를 예측하는 방법은 대상 질병과 상관관계가 이미 잘 알려진 유전자뿐 아니라, 잘 알려져 있지 않으나 관련도가 높을 가능성이 있는 유전자의 변이 정보를 새롭게 발굴 및, 이를 포함하여 질병 발병의 위험도를 보다 정확하게 예측할 수 있다.
본 명세서에서 용어 "유전자"는 단백질 또는 RNA를 코딩하는 핵산 서열(또한 본원에서 "코딩 서열" 또는 "코딩 영역"으로도 언급됨)의 절편을 의미하는데, 이는 경우에 따라 코딩 서열의 상류 또는 하류에 위치될 수 있는 조절 영역 예를 들어 프로모터, 오퍼레이터, 터미네이터 등을 동반한다.
본 명세서에서 용어 "유전 정보"는 대상이 갖는 유전자 분석을 통해 얻어진 정보를 포괄하는 것으로, 예컨대 특정 질병 발생에 관련된 유전 형질 또는 유전자 변이에 대한 정보를 포함한다. 상기 유전자 변이는 미스센스(missense) 변이, 프레임시프트(frameshift mutation) 변이, 넌센스(nonsense) 변이 또는 스플라이스(splice) 변이, 뉴클레오티드의 치환, 삽입 또는 결실 등의 형태일 수 있으나 이에 제한되지 않는다. 특정 예에서, 상기 유전 정보는 단일염기다형성(SNP, single nucleotide polymorphism)을 포함할 수 있다. 이러한 유전 정보에 기반하여 산출된 질병 발생 위험도는 해당 질병에 대한 선천적인 발생 위험도의 의미를 포함한다.
본 명세서에서 "다형성 (polymorphism)"은 하나의 유전자 좌위 (locus)에 두 가지 이상의 대립 유전자 (allele)가 존재하는 경우를 말하며 다형성 부위 중에서, 사람에 따라 단일 염기만이 다른 것을 단일 염기 다형성(single nucleotide polymorphism, SNP)이라 한다. 바람직한 다형성 마커는 선택된 집단에서 1% 이상, 더욱 바람직하게는 5% 또는 10% 이상의 발생 빈도를 나타내는 두 가지 이상의 대립 유전자를 가진다.
본 명세서에서 "오즈비(odds ratio, OR)"는 상대 위험도의 추정치 지표로써 코호트로부터 추정하는데, 특정 질병의 환자(case)와 대조군이 혼합되어 있을 때 특정 유전자에서 희귀변이를 가지고 있는 환자 대 대조군 비율을 변이를 가지고 있지 않은 환자 대 대조군 비율로 나누어 계산한다. 이를 유전자에 대한 오즈비로 고려한다.
본 명세서에서 "인구집단 기여 위험분율(population attributable fraction, PAF)"은 특정 외부요인에 노출됨으로 인하여 특정 질병이 발생했을 것으로 추정되는 경우 그 영향을 수치로 추론한 것을 의미하고, 아래의 수학식 1으로 정의된다. 예를 들어, 흡연이라는 외부 요인에 노출됨으로 인해 폐암이 발생했을 것으로 추정되는 상황에서, 흡연의 폐암 발생에 대한 영향을 수치로 추론한 것을 의미한다. 본 발명에 있어서는, 특정 유전자의 변이 등 유전적 요인의 특정 질병의 발생에 대한 영향을 수치로 추론한 것을 의미할 수 있다.
상기 pe는 prevalence of risk factors로 위험 인자에 노출하는 비율을 의미하고, 상기 RR은 상대위험도(relative risk)로 위험 인자에 노출된 그룹의 결과 확률과 노출되지 않은 그룹의 결과 확률의 비율의 의미한다. 예를 들어, 흡연이라는 외부 요인에 노출됨으로 인해 폐암이 발생했을 것으로 추정되는 상황에서, 흡연의 폐암 발생에 대한 영향을 수치로 추론한 것이 PAF라고 했을 때, PAF를 구하는 수식의 pe는 흡연에 노출되는 비율을 의미한다. 본 발명에 있어서는, 유전자의 변이 등 유전적 요인의 특정 질병의 발생에 대한 영향을 수치로 추론한 것을 PAF라고 했을 때, 상기 pe는 질병 발생 위험도를 예측에서 유전변이 보유 비율을 의미하는 것일 수 있다.
본 발명은 개체의 질병 발생에 관하여 유전적 위험도를 예측하는 장치에 관한 것으로, 상기 질병 발생 위험도를 예측하는 장치는 개체의 샘플을 분석하여, 질병 발생과 관련된 단일 유전 인자의 변이 유무를 검출하는 단계를 포함할 수 있다.
일 양상은 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)와 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하는 단계; 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하는 단계; 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하는 단계를 포함하는 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법을 제공한다.
일 구체예에 있어서, 상기 제1 값은 질병에 대한 개체의 단일 염기 다형성 정보를 기반으로 획득한 PRS(polygenic risk score) 값일 수 있다.
일 구체예에 있어서, 상기 제2 값은 질병에 대한 개체의 단일 유전 인자 정보를 기반으로 획득한 MRS(monogenic risk score) 값일 수 있다.
다른 양상은 상술한 방법을 컴퓨터에서 실행시키기 위한 방법을 기록한 기록매체를 포함한다.
또 다른 양상은 적어도 하나의 메모리; 및 적어도 하나의 프로세서;를 포함하고, 상기 프로세서는 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)와 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하고, 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하고, 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하여 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 컴퓨팅 장치를 제공하는 것이다.
일 구체예에 있어서, 상기 획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 산출하는 단계를 더 포함하는 것일 수 있다.
상기 개체의 유전정보를 분석하는 것은 개체로부터 분리된 생물학적 시료, 구체적으로 혈액, 조직, 또는 세포 샘플, 예를 들어 생검 또는 분리된 핵산(예를 들어 DNA 또는 RNA) 샘플에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다.
상기 물리적 변화는 물리적 물질을 절단 또는 단편화하는 것, 예컨대 게놈 DNA 단편으로부터 물리적 독립체를 제조하는 것(예를 들어, 조직으로부터 핵산 샘플을 분리시키는 것), 2 이상의 별개의 독립체를 혼합물로 합하는 것, 공유 또는 비-공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다.
일 구체예에 있어서, 상기 개체의 샘플은 혈액일 수 있고, 상기 혈액은 바람직하게 전혈, 혈청, 혈장, 또는 혈액단핵구일 수 있으나, 이로 제한되는 것은 아니다.
상기 질병 발생 위험도를 예측하는 방법은 개체로부터 분리된 개체의 샘플이 포함하는 유전변이를 통해 다유전자 위험 점수(polygenic risk score, PRS) 및 단일 유전자 위험 점수(monogenic risk score)을 계산하는 단계를 포함할 수 있다.
일 구체예에 있어서, 상기 제1 값은 상기 질병 발생 위험도를 예측하는 장치는 개체로부터 분리된 생물학적 시료의 다유전자 위험 점수(polygenic risk score, PRS)를 의미할 수 있다.
일 구체예에 있어서, 상기 제2 값은 상기 질병 발생 위험도를 예측하는 장치는 개체로부터 분리된 생물학적 시료의 단일 유전자 위험 점수(monogenic risk score)를 의미하는 것일 수 있다.
일 구체예에 있어서, 단일 유전 인자(monogenic variant)의 변이는 병원성 인자(pathogenic variant)의 변이와 상호호환적으로 사용될 수 있고, 특정 질병에 대한 원인으로 작용하는 유전 변이이므로, 특정 질병에 대해 단일 유전 인자의 변이(또는 병원성 인자의 변이)를 가진 개인은 특정 질병에 대한 위험도가 수 배 높아질 수 있다. 하지만, 개인이 특정 좌위에서 보유할 수 있는 유전변이의 개수는 0, 1, 또는 2개이며, 상기 병원성 변이의 경우 99% 이상 0개의 변이를 가지므로, 특정 변이 1개에 대한 보유 빈도가 1% 미만으로 매우 낮게 보고된다. 즉, 단일 유전 인자의 변이는 상기 질병 발생 위험도를 예측하는데 유리하나 그 빈도가 매우 드문 한계점이 있다.
일 구체예에 있어서, 상기 단일 유전 인자는 질병 발생 원인으로 작용하는 유전자, 및 유전체학 관점으로 상기 유전자에 영향을 줄 수 있는 유전자를 포함하는 것일 수 있다.
일 실시예에 있어서, 상기 질병이 유방암인 경우, 유방암의 단일 유전 인자로 작용하는 유전자는 BRCA1, BRCA2, PALB2, ATM, CDH1, CHEK2, BARD1, TP53, MYTYH, NF1, RAD51C, BRIP1, 및 RAD51D로 이루어진 군으로부터 선택된 하나 이상을 포함할 수 있다.
일 실시예에 있어서, 상기 질병이 전립선암인 경우, 전립선암의 단일 유전 인자로 작용하는 유전자는 HOXB13, ATM, BRCA2, PTEN, CDH1, PMS2, CHEK2, BRCA1, MSH6, MSH2, BARD1, PALB2, TP53, 및 NBN로 이루어진 군으로부터 선택된 하나 이상을 포함할 수 있다.
일 구체예에 있어서, 상기 질병 발생 원인으로 작용하는 유전자의 종류는 개체의 나이, 성별, 인종 등에 대한 정보에 기초해 변경될 수 있으며, 이는 상기 기계 학습(machine learning)의 데이터 세트는 상기 질병을 진단을 받은 자의 유전정보와, 상기 질병을 진단을 받지 않은 자의 유전정보를 포함할 수 있다.
일 구체예에 있어서, 상기 기계 학습(machine learning)은 유전 변이들이 상기 질병의 발병에 미치는 영향력을 유효크기로 반영하는 것을 포함하는 것일 수 있다.
본 발명의 질병 발생 위험도 예측하기 위한 정보 제공 방법에 있어서, 상기 질병 발생과 관련된 단일 유전 인자는 질병의 발생 확률에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별되는 것일 수 있다.
일 구체예에 있어서, 특정 질병의 발생 확률에 대한 오즈비 및 인구집단 기여 위험분율을 이용하여, 상기 질병과 관련도가 높은 유전자를 선별 및 군집화(clustering)의 기계 학습(machine learning)을 수행할 수 있다.
일 구체예에 있어서, 상기 제2 값은 질병 발생에 대한 영향력에 비례하여 가중치를 고려하는 단계에서 하나 이상의 단일 유전 인자들을 하나 이상의 클러스터로 군집화(clustering)하는 단계를 포함할 수 있다.
상기 군집화는 계층적 군집화(hierarchical clustering), k-평균 군집화(k-means clustering), 혼합 모델 군집화(mixture model clustering), 밀도 기반 군집화(density-based spatial clustering of applications with noise, DBSCAN), 생성적 적대 신경망(generative adversarial networks, GAN) 및 자기조직화지도(selforganizing map, SOM)로 이루어진 군에서 선택되는 어느 하나의 비지도 학습(unsupervised learning) 기법을 이용하는 것일 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 일 실시예에 있어서, 각각 특정 질병의 발생 확률에 대한 오즈비 및 인구집단 기여 위험분율의 값에 log를 취한 값에 밀도 기반 군집화 방법(DBSCAN)을 통해, 특정 질병 발생에 대한 영향력이 유사한 유전자별로 군집화할 수 있다. 이 때, 각 클러스터의 질병 발생에 대한 관련도 또는 영향력은 특정 패턴을 나타낼 수 있다. 일 실시예에 있어서, 상기 밀도 기반 군집화 방법에 의해, 군집화된 각 클러스터는 원점과의 거리가 클수록, 질병 발생과 관련도가 높은 유전자로 선별되는 것일 수 있으나, 이에 제한되는 것은 아니다.
일 구체예에 있어서, 질병 발생과 관련된 단일 유전 인자의 선별 및 군집화는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별되는 것일 수 있다. 상기 곱한 값을 내림차순으로 정렬하여 상위에 정렬된 유전자일수록 상기 질병 발생과 관련도가 높은 유전자로 선별되는 것일 수 있다.
일 구체예에 있어서, 상기 질병 발생과 관련된 단일 유전 인자의 선별에 있어서, 데이터 세트내 유전 변이 중 빈도가 0.001%미만인 유전자에 대해서는 제외할 수 있다.
일 구체예에 있어서, 상기 제2 값은 질병 발생과 관련된 것으로 선별된 단일 유전 인자의 유전 변이의 보유 여부에 의해 결정되는 것일 수 있다. 본 실시예에 있어서, 유전체 데이터 세트로부터 단일 유전 인자를 선별한 후 실제 발병정보를 이용하여 유전자별로 유효크기를 추산하고 그 영향력에 따라 가중치를 두어 제2 값을 결정하였다.
일 구체예에 있어서, 상기 질병이 유방암인 경우, 제2 값은 BRCA1, BRCA2, ATM, PALB2, CHEK2, BARD1, RAD51C, MUTYH, BRIP1, RAD51D, CHD1, TP53, SDHB, 및 NF1로 이루어진 군에서 선택된 1종 이상의 유전 변이 보유 여부에 의해 결정되는 것일 수 있다.
일 구체예에 있어서, 상기 질병이 전립선암인 경우, 제2 값은 HOXB13, ATM, BRCA2, PTEN, CDH1, PMS2, CHEK2, BRCA1, MSH6, MSH2, BARD1, PALB2, TP53, 및 NBN 로 이루어진 군에서 선택된 1종 이상의 유전 변이 보유 여부에 의해 결정되는 것일 수 있다.
일 구체예에 있어서, 다유전자 위험 점수(polygenic risk score, PRS)은 전장 유전체 연관분석 연구(genome wide association study, GWAS)를 통해 특정 질병 발병에 대한 원인으로 작용하지 않더라도 연관성을 확인하는 방법일 수 있다. 선천적인 요인에 의한 특정 질병의 위험도를 측정하는 방법 중 하나로, 복수의 유전적 요인을 예측 모델 등에 반영하면 영향력이 높아질 수 있다. 구체적으로, 다유전자 위험 점수는 단일 염기 다형성(single nucleotide polymorphism, SNP) 또는 특정 SNP에 가중치를 두어 수치화 과정을 거치는 등 특정 질환의 특성을 반영하여 유전변이들의 영향력 값을 변조하는 과정을 거친 값을 의미하는 것일 수 있다.
일 구체예에 있어서, 상기 제1 값은 질병 발생 연관도가 상위 10 백분위(percentile)에 해당하거나 대조군 대비 2배 이상의 빈도를 보이는 단일 염기 다형성(SNP) 유전 변이의 보유 여부에 의해 결정되는 것일 수 있다.
일 구체예에 있어서, 상기 단일 염기 다형성(SNP) 유전 변이는 50 이하의 염기쌍의 삽입 또는 결실일 수 있다.
일 구체예에 있어서, 상기 질병이 유방암인 경우, 유방암 발병 위험도를 예측하기 위해 확인한 특정 SNP는 rs11200014, rs78540526, rs4784227, rs4442975, rs62355901, 및 rs10941679으로 이루어진 군에서 선택된 1종 이상의 변이 보유 여부에 의해 결정되는 것일 수 있다.
일 구체예에 있어서, 상기 질병이 전립선암인 경우, 전립선암 발병 위험도를 예측하기 위해 확인한 특정 SNP는 rs10090154, rs11263763, rs56005245, rs12795301, rs191785584, 및 rs6998061으로 이루어진 군에서 선택된 1종 이상의 변이 보유 여부에 의해 결정되는 것일 수 있다.
일 구체예에 있어서, 상기 질병 발생 원인으로 작용하는 특정 SNP의 종류는 개체의 나이, 성별, 인종 등에 대한 정보에 기초해 변경될 수 있다.
일 구체예에 있어서, 상기 다유전자 위험 점수 및 단일 유전자 위험 점수는 각각 단일 염기 다형성 분석 및 선별된 단일 유전 인자에 그 유효크기를 고려하여 산출된 것일 수 있다.
일 구체예에 있어서, 상기 유효크기는 질병 발생 연관도가 높은 인자 또는 연관도가 높은 인자들로 이루어진 군부터 연관도가 낮은 인자 또는 연관도가 낮은 인자들로 이루어진 군의 순서대로 가중치가 반영된 것일 수 있다.
일 구체예에 있어서, 상기 제1 값 및 제2 값은 각 유전변이 유효크기에 비례하여 가중치를 두어 산출하는 것일 수 있다.
일 구체예에 있어서, 상기 질병의 발생 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 단계를 더 포함할 수 있다.
질병 발생 위험도를 예측하는 것은 질병 관련 유전 변이를 탐색하는 것을 포함할 수 있다. 구체적으로, 개체의 샘플을 분석한 결과를 기반으로 개체의 단일 염기 다형성(Single nucleotide polymorphism, SNP) 유전 변이 데이터를 입력하면 소정의 기계 학습(machine learning) 모델링(알고리즘)을 통해 상기 개체의 다유전자 위험 점수(polygenic risk score, PRS)를 산출하는 것, 개체의 단일 유전 인자 유전 변이 데이터를 입력하면 소정의 기계 학습(machine learning) 모델링(알고리즘)을 통해 상기 개체의 단일 유전자 위험 점수(monogenic risk score, MRS)를 산출하는 것, 또는 상기 산출된 다유전자 위험 점수(polygenic risk score, PRS)와 단일 유전자 위험 점수(monogenic risk score, MRS)을 합산하는 것을 의미할 수 있다.
일 구체예에 있어서, 상기 질병 발생 위험도를 예측하기 위한 장치의 프로세서는 기계 학습 모델을 이용하여 개체의 단일 염기 다형성(Single nucleotide polymorphism, SNP) 정보를 포함하는 유전 정보를 분석하여 제1 값을 산출하고, 개체의 단일 유전 인자 정보를 포함하는 유전 정보를 분석하여 제2 값을 산출하고, 상기 제1 값 및 상기 제2 값을 이용하여 질병 발생의 위험도를 계산할 수 있다. 이 경우, 기계 학습 모델은 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)과 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하고, 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하고, 각각 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1값 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 계산하고, 산출된 질병 발생 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하도록 학습될 수 있다.
일 구체예에 있어서, 상기 질병 발생 위험도 예측은 인공지능 모델을 이용하여 질병 발생 위험도를 결정하기 위한 가중치 위험도 모델을 학습시킬 수 있다.
상기 가중치 위험도 모델은 각각 개체에 대한 질병과 관련된 SNP 및 단일 유전 인자들의 위험 대립 유전자의 수를 더하되, 각 SNP또는 단일 유전 인자의 질병에 대한 유효크기(기여도)에 따라 가중치를 부여한 것일 수 있다. 각 개체의 SNP 및 단일 유전 인자의 위험 대립 유전자는 0개, 1개, 또는 2개를 가질 수 있다.
일 구체예에 있어서, 상기 기계 학습(machine learning)의 데이터 세트는 상기 질병을 진단을 받은 자의 유전정보와, 상기 질병을 진단을 받지 않은 자의 유전정보를 포함할 수 있다.
일 구체예에 있어서, 상기 기계 학습(machine learning)은 유전 변이들이 상기 질병의 발병에 미치는 영향력을 유효크기로 반영하는 것을 포함하는 것일 수 있다.
일 구체예에 있어서, 상기 유효크기는 질병의 발생과 연관도가 높은 인자 또는 연관도가 높은 인자들로 이루어진 군부터 연관도가 낮은 인자 또는 연관도가 낮은 인자들로 이루어진 군의 순서대로 가중치가 반영된 것일 수 있다.
상기 질병 발생 위험도를 계산하기 위해 기계 학습으로 로지스틱 회귀(logistic regression) 모델, Support Vector machine, 의사결정나무(decision tree), Nearest-neighbor classifier, Neural network, Random forest, Boosted tree 등의 알고리즘 및/또는 방식(기법)을 사용할 수 있으나, 이에 한정되지 않는다.
일 구체예에 있어서, 하기 수학식 2를 통해 질병 발생 위험도를 예측할 수 있다.
P(x_p)는 다유전자 위험점수(또는 레이블)이고,
x_p는 질병 발생 관련SNP 마커 세트이고,
M(x_m)은 단일 유전자 위험 점수(또는 레이블)이고,
x_m은 질병 발생 관련 단일 유전 인자 세트이고,
F(x)는 두가지 위험 점수 P 및 M을 결합하여 산출되는 질병 발생 위험도 수준 또는 발병 추정치이다.
일 구체예에 있어서, 상기 F(x)는 로지스틱 회귀 모델 또는 Support Vector machine일 수 있으나, 이에 한정되는 것은 아니며, 정확도(성능)는 알고리즘에 따라 달라질 수 있다.
일 구체예에 있어서, 기계 학습으로 Support Vector machine을 이용하여, 산출된 질병 발생의 위험도에 따라 개체를 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 것일 수 있다.
다만, 전술한 알고리즘 및/또는 방식(기법)은 예시적인 것으로 본 발명의 사상이 이에 한정되는 것은 아니다.
일 양상에 따른 개체의 질병 발생 위험도를 예측하는 장치 및 방법에 의하면, 개체의 유전정보에 근거하여 인과관계가 분명하나 드물게 나타나는 단일 유전 인자 및 그에 비해 연관성이 높지는 않으나 흔히 나타나는 단일 염기 다형성에 기반하는 다유전자 위험 점수를 모두 반영하여 보다 정확한 유전적 위험도를 기반하여 질병 발생 위험도 예측을 가능케 한다.
도 1은 일 실시예에 따른 질병 발생 위험도를 예측하는 방법의 일 예를 설명하기 위한 흐름도이다.
도 2는 일 실시예에 따른 질병 발생 위험도를 예측하는 방법의 다른 예를 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 다유전자 위험 점수를 산출하는 일 예를 설명하기 위한 흐름도이다.
도 4은 일 실시예에 따른 단일 유전자 위험 점수를 산출하는 일 예를 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 기계 학습을 수행하여 유방암의 단일 유전 인자를 선별 및 군집화하는 단계의 일 예를 설명하기 위한 그래프이다.
도 6은 일 실시예에 따른 유방암의 단일 유전 인자 클러스터의 다유전자 위험 점수와의 상관관계를 확인한 그래프이다.
도 7는 일 실시예에 따른 기계 학습을 수행하여 전립선암의 단일 유전 인자를 선별 및 군집화하는 단계의 일 예를 설명하기 위한 그래프이다.
도 8은 일 실시예에 따른 전립선암의 단일 유전 인자 클러스터의 다유전자 위험 점수와의 상관관계를 확인한 그래프이다.
도 2는 일 실시예에 따른 질병 발생 위험도를 예측하는 방법의 다른 예를 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 다유전자 위험 점수를 산출하는 일 예를 설명하기 위한 흐름도이다.
도 4은 일 실시예에 따른 단일 유전자 위험 점수를 산출하는 일 예를 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 기계 학습을 수행하여 유방암의 단일 유전 인자를 선별 및 군집화하는 단계의 일 예를 설명하기 위한 그래프이다.
도 6은 일 실시예에 따른 유방암의 단일 유전 인자 클러스터의 다유전자 위험 점수와의 상관관계를 확인한 그래프이다.
도 7는 일 실시예에 따른 기계 학습을 수행하여 전립선암의 단일 유전 인자를 선별 및 군집화하는 단계의 일 예를 설명하기 위한 그래프이다.
도 8은 일 실시예에 따른 전립선암의 단일 유전 인자 클러스터의 다유전자 위험 점수와의 상관관계를 확인한 그래프이다.
이하, 본 발명의 이해를 돕기 위하여 바람직한 실시예를 제시한다. 그러나 하기의 실시예는 본 발명을 보다 쉽게 이해하기 위하여 제공되는 것일 뿐, 하기 실시예에 의해 본 발명의 내용이 한정되는 것은 아니다.
질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법의 일 구체예로, 상기 질병이 유방암 또는 전립선암인 경우, 각 질병의 유전적 위험도를 기반하여 유방암 위험도 및 전립암의 위험도를 예측하였다.
실시예 1.1. 유방암 관련 유전자의 선별 - OR X PAF 값 기반
유방암 발병 여부 및 단일 유전인자 변이 보유 여부를 기준으로, 유방암이며, 단일 유전인자 변이 포함 샘플을 (a), 유방암이며 단일 유전인자 변이를 미포함한 샘플을 (b), 유방암이 아니며 단일 유전인자 변이를 포함하는 샘플을 (c), 및 유방암이 아니며 단일유전인자 변이 미포함 샘플을 (d)으로 두었으며, 각각의 값을 아래의 식에 대입하여 유전자별 통계 기준치를 구하였다.
우선, Fisher's exact test를 통해 p-값을 산출하였고, 아래의 식을 통해 순차적으로 오즈비, 상대 위험도, exposed-proportion, 및 인구집단 기여 위험분율(PAF)를 계산하였으며, 그 값을 표 1에 나타내었다. 단, 상대 위험도 값이 2 미만으로 나타나는 유전자는 제외하였다.
No | gene | OR*PAF | OR | p-value | RR | exposed proportion | PAF |
1 | BRCA1 | 0.09254235 | 14.06872 | 2.E-20 | 14.03062 | 0.000508 | 0.006578 |
2 | BRCA2 | 0.07326647 | 6.87475 | 2.E-35 | 6.82972 | 0.001848 | 0.010657 |
3 | ATM | 0.02555615 | 4.11091 | 4.E-19 | 4.09173 | 0.002023 | 0.006217 |
4 | PALB2 | 0.02114053 | 4.28661 | 1.E-15 | 4.27100 | 0.001515 | 0.004932 |
5 | CHEK2 | 0.00840107 | 2.73503 | 2.E-08 | 2.72795 | 0.001783 | 0.003072 |
6 | BARD1 | 0.00406168 | 3.54031 | 2.E-04 | 3.53713 | 0.000453 | 0.001147 |
7 | RAD51C | 0.00365523 | 4.51247 | 1.E-03 | 4.50984 | 0.000231 | 0.000810 |
8 | MUTYH | 0.00335833 | 1.17757 | 2.E-02 | 1.17421 | 0.016417 | 0.002852 |
9 | BRIP1 | 0.00285680 | 2.79108 | 9.E-04 | 2.78869 | 0.000573 | 0.001024 |
10 | RAD51D | 0.00106846 | 3.08452 | 4.E-02 | 3.08365 | 0.000166 | 0.000346 |
11 | CDH1 | 0.00103956 | 8.01808 | 2.E-01 | 8.01750 | 0.000018 | 0.000130 |
12 | TP53 | 0.00100285 | 4.00950 | 7.E-02 | 4.00875 | 0.000083 | 0.000250 |
13 | SDHB | 0.00100285 | 4.00950 | 7.E-02 | 4.00875 | 0.000083 | 0.000250 |
14 | NF1 | 0.00066858 | 4.00925 | 1.E-01 | 4.00875 | 0.000055 | 0.000167 |
표 1에 나타낸 바와 같이, 각 유전자의 오즈비(OR)과 인구집단 기여 위험분율(PAF)의 값을 곱한 값을 내림차순으로 나열했을 때, 상위에 나열되는 유전자와 참고문헌인 L. Dorling et al. N Engl J Med 2021; 384:428-439에서 특정 유전자의 단백질 생성 종결 변이와 유방암 위험도가 관련이 있는 것으로 발표한 9개의 유전자(ATM, BRCA1, BRCA2, CHEK2, PALB2, BARD1, RAD51C, RAD51D, TP53)가 상응함을 확인하였다.
이 결과를 통해, 각 유전자의 오즈비(OR)과 인구집단 기여 위험분율(PAF)의 값을 곱한 값은 특정 질병과 관련 유전자를 선별하는데 있어 통계유전학 지표로 활용될 수 있으며, 이는 본 실시예의 유방암 관련 유전자 선별뿐 아니라, 다른 유전적 요인으로 발병하는 다른 질환에도 적용가능 할 것이다. 상기의 방법을 통한 유전자 선별은 대상 질병과 관련하여 이미 잘 알려진 유전자뿐 아니라, 잘 알려져 있지 않으나 관련도가 높을 가능성이 있는 유전자도 반영할 수 있다는 점에서 의미가 있다.
상기의 방법을 통해 선별한 유방암 관련 유전자는 본원 발명에 따른 유방암의 발병 예측함에 있어 단일 유전 인자로 반영된다.
실시예 1.2. 단일 염기 다형성(SNP)기반 다유전자 위험 점수 산출
모델링 대상 데이터세트로 여성 데이터를 선별하였고, 유방암 진단받은 여성 13,581명과 유방암 진단받지 않은(대조군) 117,248명의 유전체 데이터 QC 및 유방암 진단 여부에 대한 정보를 포함하는 데이터세트를 확보하였다. 유방암에 대한 GWAS 결과들 중 인종, 샘플 규모 및 방법론 등을 검토하여 Nature 551, 92-94 (2017)을 선정하였고 해당 논문이 제공하는 마커세트 정보에 다유전자 위험 점수 계산방식들 중 하나인 'Pruning and Thresholding'을 적용하였다. 이 때, 변이빈도가 낮은 마커 및 퀄리티가 낮은 마커 등은 일반적인 QC 기준으로써 제외하였으며, 해당 방법론의 적용 결과로써 p-value < 0.0003을 만족하는 마커들이 다유전자 위험 점수 계산에 포함되었다. 전체 데이터세트를 질병 위험도 예측값 순서로 정렬 후 그룹을 구성하여 위험도가 높은 것부터 낮은 것으로 정렬하였고, 다유전자 위험 점수(PRS) 모델링 결과를 검토하기 위해 유방암에 대한 오즈비 등 지표를 기준으로 삼아 비교하였다. 전체 샘플을 100개의 그룹으로 분리한 후, 10개씩 취합하였을 때, 상위 2개의 그룹의 위험도가 중간그룹의 위험도의 2배 이상이 되는 것을 확인하였는데 이는 유방암에 대한 유사한 연구들에서 나타나는 결과와 동일한 맥락이라고 볼 수 있을 뿐이고, 고위험 그룹을 평균 또는 하위 그룹과 비교하는 기존 방법론이 아니라 위험 수준별 그룹 지정을 위해 5개의 그룹으로 분류하였다.
상기 실시예 1.2.의 방법을 통한 단일 염기 다형성(SNP) 기반 다유전자 위험 점수는 본원 발명의 유방암 발병 예측함에 있어 상기 분류된 5개의 그룹별로 유방암 발병 가능성이 가장 높은 그룹부터 가중치를 두어 유방암 발병 위험도 예측 계산에 반영된다.
실시예 1.3. 단일 유전자 위험 점수(monogenic risk score) 산출
유방암의 단일 유전 인자를 선별하기 위해 여성 샘플에 존재하는 유전변이를 취합한 후, 기능분석(annotation)을 수행하였다. 유전변이 빈도가 5% 이상인 변이는 제외하였으며, 유전변이가 병원성 변이인지 여부를 예측하였다. 전체 샘플 중 2.6%에 해당되는 1200여개의 유전 변이에서 병원성을 확인하였다. 유전자별 유방암 발병에 미치는 영향력을 통계치로 분석하기 위해 상기 실시예1.2. 및 표 1에 나타낸 방법으로 유전자별 인구집단 기여 위험분율(PAF)를 계산하였다. 선별한 병원성 유전자 중 가중치를 둘 유전자를 분류하기 위해 각 유전자별 오즈비와 인구집단 기여 위험분율의 값을 곱한 값에 따라 큰 값부터 5개의 유전자 그룹을 설정하였고, 값이 큰 그룹부터 각각 10, 9, 8, 7, 6으로 점수를 부여하였다. 이때, 각각의 점수는 상대적으로 낮은 영향력을 가진 유전자에 대해서도 점수를 부여하기 위한 것이다. 유전 변이의 영향력에 따라 가중치는 두는 것에 의미가 있을 뿐, 가중치로 부여된 숫자의 크기나 간격은 상기 실시예에 의해 제한되는 것은 아니다.
상기 실시예 1.3.의 방법을 통해 단일 유전 인자 그룹별 가중치 값은 본원 발명의 유방암 발병 위험도 예측 계산에 반영된다.
실시예 1.4. 유방암 발병 위험도 예측
유전 정보를 이용하여 상기 실시예 1.2. 및 실시예 1.3.에서 구한 다유전자 위험 점수(polygenic risk score) 및 단일 유전자 위험 점수(monogenic risk score)를 하기의 표 2 내지 표6과 같이 조합하여 개체의 유방암 발병 위험도를 예측하였다.
상기 실시예 1.2. 에서 구한 다유전자 위험 점수(PRS) 및 실시예1.3.에서 구한 단일 유전자 위험점수(MRS)를 바탕으로 분류된 그룹별로 유방암 진단된 환자의 수 및 진단받지 않은 여성의 수를 확인하였다.
다인자 위험 점수(PRS)가 가장 높은 것으로 분류된 그룹부터 가장 낮은 것으로 분류된 그룹까지 순차적으로 그룹 내 실제 유방암 진단받은 환자의 수와 유방암 진단받지 않은 대조군의 수를 표 2 내지 표 6에 나타내었다.
그룹 | PRS | MRS | 유방암 | 대조군 | 합계 | 유방암 비율 |
6_5 | 5 | 6 | 7 | 4 | 11 | 63.636% |
10_5 | 5 | 10 | 32 | 23 | 55 | 58.182% |
8_5 | 5 | 8 | 15 | 18 | 33 | 45.455% |
9_5 | 5 | 9 | 37 | 48 | 85 | 43.529% |
7_5 | 5 | 7 | 77 | 278 | 355 | 21.690% |
Novar_5 | 5 | 0 | 3681 | 17372 | 21053 | 17.484% |
그룹 | PRS | MRS | 유방암 | 대조군 | 합계 | 유방암 비율 |
10_4 | 4 | 10 | 28 | 29 | 57 | 49.123% |
9_4 | 4 | 9 | 26 | 44 | 70 | 37.143% |
8_4 | 4 | 8 | 11 | 23 | 34 | 32.353% |
7_4 | 4 | 7 | 73 | 335 | 108 | 17.892% |
6_4 | 4 | 6 | 0 | 3 | 3 | 0.000% |
Novar_4 | 4 | 0 | 2605 | 18405 | 21010 | 12.399% |
그룹 | PRS | MRS | 유방암 | 대조군 | 합계 | 유방암 비율 |
10_3 | 3 | 10 | 15 | 20 | 35 | 42.857% |
9_3 | 3 | 9 | 26 | 47 | 73 | 35.616% |
8_3 | 3 | 8 | 11 | 27 | 38 | 28.947% |
6_3 | 3 | 6 | 3 | 9 | 12 | 25.000% |
7_3 | 3 | 7 | 50 | 338 | 388 | 12.887% |
Novar_3 | 3 | 0 | 2144 | 18904 | 21048 | 10.186% |
그룹 | PRS | MRS | 유방암 | 대조군 | 합계 | 유방암 비율 |
10_2 | 2 | 10 | 23 | 22 | 45 | 51.111% |
6_2 | 2 | 6 | 4 | 6 | 10 | 40.000% |
9_2 | 2 | 9 | 29 | 51 | 80 | 36.250% |
8_2 | 2 | 8 | 7 | 42 | 49 | 14.286% |
7_2 | 2 | 7 | 35 | 342 | 377 | 9.284% |
Novar_2 | 2 | 0 | 1748 | 19276 | 21024 | 8.314% |
그룹 | PRS | MRS | 유방암 | 대조군 | 합계 | 유방암 비율 |
10_1 | 1 | 10 | 29 | 34 | 43 | 43.032% |
9_1 | 1 | 9 | 12 | 61 | 73 | 16.438% |
8_1 | 1 | 8 | 4 | 34 | 38 | 10.526% |
7_1 | 1 | 7 | 32 | 349 | 381 | 8.399% |
6_1 | 1 | 6 | 0 | 8 | 8 | 0.000% |
Novar_1 | 1 | 0 | 1212 | 19804 | 21016 | 5.767% |
표 2 내지 표 6에 나타낸 바와 같이, 유방암 발병 비율은 다유전자 위험 점수의 그룹에 정비례하는 것을 확인하였다. 또한, 단일 유전 인자를 포함하지 않는 그룹에 비해 단일 유전 인자를 가진 그룹은 유전자가 속한 그룹의 가중치 수준에 비례하여 30% 내지 900%까지 유방암 발병 비율이 상승함을 확인하였다.
표 6을 참조하면, 다유전자 위험 점수가 가장 낮은 그룹에서도 단일 유전 인자를 1개 이상 포함하는 경우 유방암 발병 비율이 그룹 내 평균 이상으로 높아지는 것을 알 수 있다.
상기 실시예 1.2.에서 사용한 데이터세트와 동일한 데이터 세트인 영국 여성 45-74세의 유방암 누적 발병률은 2020년 기준 8.29%으로 보고되어, 그 값이 상기 표 5의 다유전자 위험 점수 2그룹의 유방암 발병 비율(8.314%)과 유사함을 확인하였다.
실시예 2.1. 유방암 관련 유전자의 선별 - DBSCAN 기반
상기 실시예 1.1과 동일한 방법으로, 표 1의 유방암에 대한 각 유전자의 OR 값 및 PAF 값을 이용하여, 유방암 발생과 관련도가 높은 유전자의 선별 및, 유방암 발병에 대한 영향력이 유사한 유전자끼리 군집화(clustering)을 수행하였다.
구체적으로, 각 유전자에 대하여 표 1에 나타낸 OR 값 및 PAF 값에 log를 취한 값을 각각 x축, y축으로 하여 그래프를 그렸다. 그 후, 밀도에 따른 비지도방식 클러스터링 방법인 DBSCAN을 이용하여, 인접한 유전자끼리 군집화(clustering)를 수행하였고, 그 결과를 도 5에 나타내었다. 이 때, 유방암 발병에 대한 영향력이 유사한 유전자끼리 하나의 클러스터에 포함된다. 각 군집별 영향력은 특정 패턴을 나타낼 수 있으나, 구체적으로 그래프상 원점에서 클러스터간 거리의 값이 커질수록 유방암 발병에 대한 영향력인 큰 것임을 의미한다.
도 5에 나타낸 바와 같이, 유방암 발병과 연관된 유전자 중, BRCA2 및 BRCA1이 하나의 클러스터를 이루고, CHEK2, ATM 및 PALB2가 하나의 클러스터를 이루고, BARD1 및 TP53이 하나의 클러스터를 이루는 것을 확인하였다. 이 때, BRCA2 및 BRCA1> CHEK2, ATM 및 PALB2> BARD1 및 TP53 순서로 원점으로부터 떨어져 있는 거리가 큰 값을 가져, 유방암 발병에 대한 영향력의 크기는 이에 비례할 것으로 예상할 수 있다. 이는 상기 실시예 1.1 내지 1.4와 유사한 결과를 나타내는 것을 확인하였다.
실시예 2.2. 유방암 발병 위험도 예측
상기 실시예 2.1의 DBSCAN 방법에 따른 유방암 발병 관련 유전자 및 영향력에 따른 군집화 결과에, 상기 실시예 1.2의 단일 염기 다형성(SNP) 기반 다유전자 위험 점수(PRS)를 반영하여, 실제 유방암 발병 위험도를 예측하였다.
구체적으로, 실시예 1.2와 마찬가지의 방법으로, 단일 염기 다형성 변이를 고려한 다유전자 위험 점수(PRS)에 따라 유전자 발병 위험도가 낮은 그룹을 low 그룹, 위험도가 높은 그룹을 high 그룹, 그 사이의 그룹을 intermediate 그룹으로 나눈 후, 각각을 x축으로 하였고, 상기 표 1에서 구한 유방암 발병에 관한 오즈비를 y축으로 하여 그래프를 그렸다. 이 때, 단일 유전 인자 변이가 없고(no variant 군) 다유전자 위험 점수가 intermediate 그룹인 경우를 오즈비 1.0 값을 갖도록 기준을 설정하였다. 이를 도 6에 나타내었다. 일반적으로, 오즈비는 1.0이면 질병에 대한 위험인자(단일 유전인자 또는 다형성 변이)와 질병간의 연관성이 없음을 의미하고, 오즈비가 1.0 보다 큰 경우, 위험인자와 질병 간의 연관성을 의미하고, 그 값이 클수록 위험인자와 질병 발병의 연관성이 큰 것을 의미한다.
도 6에 나타낸 바와 같이, 각 클러스터군은 PRS값이 high> intermediate> low 순서대로 오즈비가 큰 값을 가지는 것을 확인하였다. 또한, 클러스터간 유방암 발병에 영향력을 비교한 결과, BRCA2 및 BRCA1> CHEK2, ATM 및 PALB2> BARD1 및 TP53 순서로 높은 오즈값을 나타내는 점을 통해, 상기 실시예 2.1에서 확인한 바와 같이 DBSCAN을 이용한 분류한 유전자의 군집에 따라, 질병 발생에 대한 유사한 영향력을 가지는 것을 확인하였다. 특히, CHEK2, ATM 및 PALB2를 포함하는 클러스터는 PRS 값에 따라 오즈비의 변동 폭이 큰 것을 통해, PRS의 영향력이 크게 작용하는 양상을 확인하였다.
이상의 결과를 통해, 유방암과 관련된 유전자의 변이 유무를 통해 유방암 발생의 위험도를 예측하는 단계에서, DBSCAN 방법을 통해 각 단일 유전 인자의 영향력을 군집화한 후 이를 기반으로 다유전자 위험 점수를 반영하였을 때, 보다 정확하게 유방암 발생 위험도를 예측할 수 있음을 확인하였다. 또한, 유방암에 한정되지 않고, 유전 변이에 의해 질병 발생에 영향을 받는 모든 질병에 대해 질병 발생 위험도를 예측하는데 유용하게 사용될 수 있다.
실시예 3.1. 전립선암 관련 유전자의 선별 - DBSCAN를 이용
전립선암 발병 여부 및 단일 유전인자 변이 보유 여부를 기준으로, 상기 실시예 1.1.과 동일한 방법을 통해 유전자별 통계 기준치를 구하였다. 마찬가지로, Fisher's exact test를 통해 p-값을 산출하였고, 아래의 식을 통해 순차적으로 오즈비, 상대 위험도, exposed-proportion, 및 인구집단 기여 위험분율(PAF)을 계산하였으며, 그 값을 표 2에 나타내었다. 단, 상대 위험도 값이 2 미만으로 나타나는 유전자는 제외하였다.
No | Gene | OR | p-value | RR | Variant frequency | PAF |
1 | HOXB13 | 3.77 | 8.04E-23 | 3.08623191 | 3.54E-01 | 0.00734 |
2 | ATM | 2.61 | 4.46E-06 | 2.31190136 | 2.23E-01 | 0.00292 |
3 | BRCA2 | 2.26 | 1.59E-03 | 2.0563115 | 1.73E-01 | 0.00182 |
4 | PTEN | 8.59 | 2.27E-02 | 5.33627755 | 6.42E-03 | 0.00028 |
5 | CDH1 | 11.45 | 7.47E-02 | 6.22452011 | 1.84E-03 | 0.00010 |
6 | PMS2 | 0.64 | 9.22E-02 | 0.65487381 | 1.22E-01 | -0.00478 |
7 | CHEK2 | 1.51 | 2.10E-01 | 1.45200846 | 3.23E-01 | 0.00146 |
8 | BRCA1 | 0.86 | 4.85E-01 | 0.86836417 | 7.89E-01 | -0.00683 |
9 | MSH6 | 1.01 | 5.86E-01 | 1.00929122 | 6.79E-02 | 0.00001 |
10 | MSH2 | 1.01 | 5.86E-01 | 1.00929122 | 6.79E-02 | 0.00001 |
11 | BARD1 | 1.00 | 7.98E-01 | 0.99582676 | 2.29E-02 | -0.05844 |
12 | PALB2 | 1.27 | 8.66E-01 | 1.24514874 | 1.19E-01 | 0.00029 |
13 | TP53 | 0.88 | 8.54E-01 | 0.88911922 | 1.28E-02 | -0.00129 |
14 | NBN | 1.19 | 9.67E-01 | 1.17442477 | 4.86E-02 | 0.00008 |
표 7에 나타낸 바와 같이, 각 유전자의 p-value 값을 기준으로 내림차순으로 나열했을 때, 0.05 미만의 값으로 전립선암의 발병과 유의한 연관성을 갖는 유전자 중에서 기존의 전립선암 위험도가 관련이 있는 것으로 알려진 다수의 유전자가 상응함을 확인하였다.
상기 실시예 3.1의 방법을 통해 선별한 전립선암 관련 유전자는 본원 발명에 따른 전립선암의 발병 예측함에 있어 단일 유전 인자로 반영된다.
실시예 3.2. 단일 염기 다형성(SNP)기반 다유전자 위험 점수 산출
모델링 대상 데이터세트로 여성 데이터를 선별하였고, 전립선암 진단받은 남성 8,753명과 전립선암 진단받지 않은(대조군) 100,203명의 유전체 데이터 QC 및 전립선암 진단 여부에 대한 정보를 포함하는 데이터세트를 확보하였다. 전립선암에 대한 GWAS 결과들 중 샘플 규모 및 방법론 등을 검토하여 마커세트 정보에 다유전자 위험 점수 계산방식들 중 하나인 'Pruning and Thresholding'을 적용하였다. 이 때, 변이빈도가 낮은 마커 및 퀄리티가 낮은 마커 등은 일반적인 QC 기준으로써 제외하였다. 전체 데이터세트를 질병 위험도 예측값 순서로 정렬 후 그룹을 구성하여 위험도가 높은 것부터 낮은 것으로 정렬하였고, 다유전자 위험 점수(PRS) 모델링 결과를 검토하기 위해 유방암에 대한 오즈비 등 지표를 기준으로 삼아 비교하였다. 위험 수준별 그룹 지정을 위해 3개의 그룹으로 분류하였다.
상기 실시예 3.2.의 방법을 통한 단일 염기 다형성(SNP) 기반 다유전자 위험 점수는 본원 발명의 전립선암 발병 예측함에 있어 상기 분류된 3개의 그룹별로 전립선암 발병 가능성이 가장 높은 그룹부터 가중치를 두어 전립선암 발병 위험도 예측 계산에 반영된다.
실시예 3.3. 단일 유전자 위험 점수(monogenic risk score) 산출
전립선암의 단일 유전 인자를 선별하기 위해 남성 샘플에 존재하는 유전변이를 취합한 후, 기능분석(annotation)을 수행하였다. 유전변이 빈도가 5% 이상인 변이는 제외하였으며, 유전변이 중 병원성 변이들만, 변이 보유 샘플(carrier)로 추출하였다. 유전자별 전립선암 발병에 미치는 영향력을 통계치로 분석하기 위해 상기 실시예 3.2. 및 표 7에 나타낸 방법으로 유전자별 오즈비(OR) 및 인구집단 기여 위험분율(PAF)을 계산하였다. 이후, 유효 병원성 유전자를 선별하기 위해, 1) p-값이 0.05 미만이며, 2) 발견 빈도가 0.1% 이상인 유전자를 선별하였다. 전립선암 발생과 관련도가 높은 유전자의 선별 및, 전립선암 발병에 대한 영향력에 따라 가중치를 부여하기 위해, 표 7의 전립선암에 대한 각 유전자의 OR 값 및 PAF 값을 이용하여, 유사한 유전자끼리 군집화(clustering)을 수행하였다.
구체적으로, 각 유전자에 대하여 표 7에 나타낸 OR 값 및 PAF 값에 log를 취한 값을 각각 x축, y축으로 하여 그래프를 그렸다. 그 후, 밀도에 따른 비지도방식 클러스터링 방법인 DBSCAN을 이용하여, 인접한 유전자끼리 군집화(clustering)를 수행하였고, 그 결과를 도 7에 나타내었다. 이 때, 유방암 발병에 대한 영향력이 유사한 유전자끼리 하나의 클러스터에 포함된다. 각 군집별 영향력은 특정 패턴을 나타낼 수 있으나, 구체적으로 그래프상 원점에서 클러스터간 거리의 값이 커질수록 유방암 발병에 대한 영향력인 큰 것임을 의미한다.
도 7에 나타낸 바와 같이, 전립선암 발병과 연관된 유전자 중, HOXB13이 하나의 클러스터를 이루고, BRCA2, 및 ATM이 하나의 클러스터를 이루는 것을 확인하였다. 이 때, HOXB13> BRCA2, 및 ATM 순서로 원점으로부터 떨어져 있는 거리가 큰 값을 가져, 전립선암 발병에 대한 영향력의 크기는 이에 비례할 것으로 예상할 수 있다.
상기 실시예 3.3.의 방법을 통해 단일 유전 인자 그룹별 가중치 값은 본원 발명의 전립선암 발병 위험도 예측 계산에 반영된다. 단, 유전 변이의 영향력에 따라 가중치는 두는 것에 의미가 있을 뿐, 가중치로 부여된 숫자의 크기나 간격은 상기 실시예에 의해 제한되는 것은 아니다.
실시예 3.4. 전립선암 발병 위험도 예측
상기 실시예 3.3.의 DBSCAN 방법에 따른 전립선암 발병 관련 유전자 및 영향력에 따른 군집화 결과에, 상기 실시예 3.2.의 단일 염기 다형성(SNP) 기반 다유전자 위험 점수(PRS)를 반영하여, 실제 전립선암 발병 위험도를 예측하였다.
구체적으로, 실시예 3.2와 마찬가지의 방법으로, 단일 염기 다형성 변이를 고려한 다유전자 위험 점수(PRS)에 따라 유전자 발병 위험도가 낮은 그룹을 low 그룹, 위험도가 높은 그룹을 high 그룹, 그 사이의 그룹을 intermediate 그룹으로 나눈 후, 각각을 x축으로 하였고, 상기 표 7에서 구한 전립선암 발병에 관한 오즈비를 y축으로 하여 그래프를 그렸다. 이 때, 단일 유전 인자 변이가 없고(no variant 군) 다유전자 위험 점수가 intermediate 그룹인 경우를 오즈비 1.0 값을 갖도록 기준을 설정하였다. 이를 도 8에 나타내었다. 일반적으로, 오즈비는 1.0이면 질병에 대한 위험인자(단일 유전인자 또는 다형성 변이)와 질병간의 연관성이 없음을 의미하고, 오즈비가 1.0 보다 큰 경우, 위험인자와 질병 간의 연관성을 의미하고, 그 값이 클수록 위험인자와 질병 발병의 연관성이 큰 것을 의미한다.
도 8에 나타낸 바와 같이, 각 클러스터군은 PRS값이 high> intermediate> low 순서대로 오즈비가 큰 값을 가지는 것을 확인하였다. 또한, 클러스터간 유방암 발병에 영향력을 비교한 결과, HOXB13> BRCA2, 및 ATM 순서로 높은 오즈값을 나타내는 점을 통해, 상기 실시예 3.3에서 확인한 바와 같이 DBSCAN을 이용한 분류한 유전자의 군집에 따라, 질병 발생에 대한 유사한 영향력을 가지는 것을 확인하였다.
이상의 결과를 통해, 전립선암과 관련된 유전자의 변이 유무를 통해 전립선암 발생의 위험도를 예측하는 단계에서, DBSCAN 방법을 통해 각 단일 유전 인자의 영향력을 군집화 후 이를 기반으로 다유전자 위험 점수를 반영하였을 때, 보다 정확하게 전립선암 발생 위험도를 예측할 수 있음을 확인하였다. 또한, 전립선암에 한정되지 않고, 유전 변이에 의해 질병 발생에 영향을 받는 모든 질병에 대해 질병 발생 위험도를 예측하는데 유용하게 사용될 수 있다.
본원 발명의 방법을 이용하여 유방암 또는 전립선암 발병 예측도와 실제 데이터 세트 내의 유방암 또는 전립선암 발병률이 유사한 경향성을 보임을 확인하였다. 본원 발명의 예측 모델은 나이 또는 가족력에 관한 정보를 활용하지 않고도, 단일 유전 변이만 고려하여 질병의 발생을 예측하는 방식과 다유전자 위험 점수만을 고려하는 방식 등 하나의 요인만 고려했을 때보다 정확하게 질병의 발병 위험에 대한 정보를 제공할 수 있다. 구체적으로, 다유전자 위험 점수가 비교적 낮은 그룹으로 분류되거나 평균의 점수를 갖더라도 단일 유전 변이를 보유하였다면 유전자 그룹 정보에 따라 고위험군으로 분류될 수 있고, 다유전자 위험 점수가 비교적 높은 그룹으로 분류되는 군이라면 단일 유전 변이가 존재하지 않더라도, 다유전자 위험 점수가 낮고 단일 유전 변이가 존재하지 않는 경우에 비해 유방암 발병의 위험성이 높은 것으로 분류하여, 이에 관한 정보를 사전에 제공함으로써 정확하게 질병의 발생을 예측하고 예방하는데 유용하게 활용될 수 있다.
Claims (15)
- 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)과 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하는 단계;
개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하는 단계;
상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및
상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하는 단계;를 포함하는 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법. - 청구항 1에 있어서,
획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 산출하는 단계를 더 포함하는 방법. - 청구항 1에 있어서,
상기 제1 값은 질병 발생 연관도가 상위 10 백분위(percentile)에 해당하거나 대조군 대비 2배 이상의 빈도를 보이는 단일 염기 다형성(SNP) 유전 변이의 보유 여부에 의해 결정되는 것인 방법. - 청구항 1에 있어서,
상기 제2 값은 질병 발생과 관련된 것으로 선별된 단일 유전 인자의 유전 변이의 보유 여부에 의해 결정되는 것인 방법. - 청구항 1에 있어서,
상기 질병 발생 연관 단일 유전 인자는 질병의 발생 확률에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별되는 것인 방법. - 청구항 1에 있어서,
상기 제2 값은 질병 발생에 대한 영향력에 비례하여 가중치를 고려하는 단계에서 하나 이상의 단일 유전 인자들을 하나 이상의 클러스터로 군집화(clustering)하는 단계를 포함하고,
상기 군집화는 상기 군집화는 계층적 군집화(hierarchical clustering), k-평균 군집화(k-means clustering), 혼합 모델 군집화(mixture model clustering), 밀도 기반 군집화(density-based spatial clustering of applications with noise, DBSCAN), 생성적 적대 신경망(generative adversarial networks, GAN) 및 자기조직화지도(self-organizing map, SOM)로 이루어진 군에서 선택되는 어느 하나의 비지도 학습(unsupervised learning) 기법을 이용하는 것인 방법. - 청구항 1에 있어서, 상기 질병 발생의 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 단계를 더 포함하는 것인 방법.
- 청구항 1에 있어서, 상기 개체의 샘플은 혈액인 것인 방법.
- 청구항 1의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- 적어도 하나의 메모리; 및
적어도 하나의 프로세서;를 포함하고,
상기 프로세서는 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)와 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하고, 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하고, 상기 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보를 기반으로 상기 질병에 대한 PRS(polygenic risk score) 값인 제1 값, 및 상기 선별된 단일 유전 인자 정보를 기반으로 상기 질병에 MRS(monogenic risk score) 값인 제2 값을 획득하고, 획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 획득하여 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 컴퓨팅 장치. - 청구항 10에 있어서,
획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 산출하는 컴퓨팅 장치. - 청구항 10에 있어서,
상기 프로세서는 상기 제1 값을 질병 발생 연관도가 상위 10 백분위(percentile)에 해당하거나 대조군 대비 2배 이상의 변이 빈도를 보이는 단일 염기 다형성(SNP) 유전 변이의 보유 여부에 의해 결정하는 것인 컴퓨팅 장치. - 청구항 10에 있어서,
상기 프로세서는 상기 제2 값을 질병 발생과 관련된 것으로 선별된 단일 유전 인자의 유전 변이의 보유 여부에 의해 결정하는 것인 컴퓨팅 장치. - 청구항 10에 있어서,
상기 프로세서는 상기 질병 발생 연관 단일 유전 인자를 유방암의 발병 확률에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별하는 것인 컴퓨팅 장치. - 청구항 10에 있어서,
상기 프로세서는 상기 질병 발생의 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 것인 컴퓨팅 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20220133676 | 2022-10-18 | ||
KR1020220133676 | 2022-10-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240054201A true KR20240054201A (ko) | 2024-04-25 |
Family
ID=90885166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230139363A KR20240054201A (ko) | 2022-10-18 | 2023-10-18 | 질병 발생 위험도 예측 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240054201A (ko) |
-
2023
- 2023-10-18 KR KR1020230139363A patent/KR20240054201A/ko unknown
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190316209A1 (en) | Multi-Assay Prediction Model for Cancer Detection | |
US7653491B2 (en) | Computer systems and methods for subdividing a complex disease into component diseases | |
US11164655B2 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
Jia et al. | Mapping quantitative trait loci for expression abundance | |
CN112048559A (zh) | 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用 | |
Baladandayuthapani et al. | Bayesian random segmentation models to identify shared copy number aberrations for array CGH data | |
JP6681475B2 (ja) | がん患者のゲノム塩基配列変異情報と生存情報を利用したカスタマイズ型の薬物選択方法及びシステム | |
US20220367063A1 (en) | Polygenic risk score for in vitro fertilization | |
Zhao et al. | Identification of pan-cancer prognostic biomarkers through integration of multi-omics data | |
CN111312334A (zh) | 一种影响细胞间通讯的受体-配体系统分析方法 | |
CN109801681B (zh) | 一种基于改进的模糊聚类算法的snp选择方法 | |
EP4031688A1 (en) | In vitro method for determining the risk of developing breast cancer in a subject | |
Taşan et al. | An en masse phenotype and function prediction system for Mus musculus | |
CN116895380A (zh) | 基于多因素特征融合的疾病风险预测方法MFF-DeepPRS | |
KR20240054201A (ko) | 질병 발생 위험도 예측 장치 및 방법 | |
Pan et al. | Deep learning based on multi-omics integration identifies potential therapeutic targets in breast cancer | |
CN107851136B (zh) | 用于对未知重要性的变体划分优先级顺序的系统和方法 | |
CN116469552A (zh) | 一种用于乳腺癌多基因遗传风险评估的方法和系统 | |
KR20240053754A (ko) | 유방암 발병 위험도 예측 장치 및 방법 | |
Boulesteix et al. | Multiple testing for SNP-SNP interactions | |
WO2024085660A1 (ko) | 질병 발생 위험도 예측 장치 및 방법 | |
Xu et al. | A Bayes factor approach with informative prior for rare genetic variant analysis from next generation sequencing data | |
CN115171887B (zh) | 基于免疫相关细胞对的黑素瘤预后预测系统 | |
US20220068491A1 (en) | Method for predicting a risk of suffering from a disease, electronic device and storage medium | |
Mutalib et al. | Weighted frequent itemset of SNPs in genome wide studies |