KR20240054201A

KR20240054201A - 질병 발생 위험도 예측 장치 및 방법

Info

Publication number: KR20240054201A
Application number: KR1020230139363A
Authority: KR
Inventors: 강병규; 이병철; 김지웅; 이영기; 천명재; 강준호
Original assignee: 제노플랜 인크
Priority date: 2022-10-18
Filing date: 2023-10-18
Publication date: 2024-04-25

Abstract

개체의 단일 염기 다형성과 단일 유전 인자 변이 유무를 이용하여 질병 발생 위험도를 예측하는 장치 및 방법에 관한 것으로, 일 양상에 따른 개체의 질병 발생 위험도를 예측하는 장치 및 방법에 의하면, 개체의 유전정보에 근거하여 인과관계가 분명하나 드물게 나타나는 단일 유전 인자 및 그에 비해 연관성이 높지는 않으나 흔히 나타나는 단일 염기 다형성에 기반하는 다유전자 위험 점수를 모두 반영하여 보다 정확한 유전적 위험도를 기반하여 질병 발생 위험도 예측을 가능케 한다.

Description

질병 발생 위험도 예측 장치 및 방법{Method and apparatus for predicting risk of disease}

개체의 단일 염기 다형성과 단일 유전 인자 변이 유무를 이용하여 질병 발생 위험도를 예측하는 장치 및 방법에 관한 것이다.

단일염기다형성(single nucleotide polymorphism, SNP)은 유전적 염기서열이 개인 간의 차이를 보이는 유전 변이의 일종으로, 단일의 염기가 다른 염기서열을 나타내며, 인구집단 내에서 1%이상의 빈도로 2개의 대립 염기서열(bi-allelic) 변이가 발생하는 위치이다.

최근 전장 유전체 분석(genome-wide association study)과 차세대서열분석(next-generation sequencing) 등의 유전체 분석 기술의 발달로 인간 유전체 변이형, 특히 SNP 정보를 분석할 수 있는 기술이 개발되었다.

최근 연구들에서 각각의 SNP는 일반적으로 낮은 질병 연관성을 나타내고 있지만, SNP의 특정 조합은 높은 질병연관성을 나타낼 수 있음이 밝혀지고 있다. 질병 발생을 예측할 수 있는 최적의 SNP 조합을 발굴하기 위하여 베이즈 요인, 로지스틱 회귀분석, 은닉 마르코브 모델, 서포트 벡터 머신, 랜덤 포레스트 기계 학습 등이 최근 연구들에서 사용되고 있다.

GWAS 분석은 유전자 변이와 연관된 형질(예를 들어, 신장, 모발색상, 눈 색상, 각종 질병 위험도)을 찾는 하나의 탐색 (Exploratory) 방법으로, 일반적으로 케이스(Case, 관심 형질을 가진 집단, 예를 들어 환자군) 와 컨트롤(Control, 형질을 갖지 않는 집단, 예를 들어 정상군)의 유전 정보를 전체 유전체 영역에 걸쳐 서로 비교하여 케이스 상에서 더 많은 빈도를 갖는 유전자 변이를 형질과 연관성을 가진 유전자 변이로 선정하는 방식을 사용하고 있다.

이에 GWAS 분석을 통해 확인된 유전자 변이 다수를 비롯하여 질병의 발생에 대한 원인으로 알려진 특정 유전자들의 단일 유전 인자 변이 유무를 함께 반영하여 질병 발생 위험도를 예측하는 모델을 구축하여 본 발명을 완성하였다.

일 양상은 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)과 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하는 단계; 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하는 단계; 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하는 단계를 포함하는 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법을 제공하는 것이다.

다른 양상은 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 것이다.

또 다른 양상은 적어도 하나의 메모리; 및 적어도 하나의 프로세서;를 포함하고, 상기 프로세서는 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)와 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하고, 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하고, 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하여 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 컴퓨팅 장치를 제공하는 것이다.

본 발명은 임의의 유전자에 대하여 특정 질병에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 오즈비와 인구집단 기여 위험분율을 곱한 값을 지표로 삼아 특정 질병과 관련된 유전자군 또는 유전자를 선별하는 단계를 포함하고, 상기 선별된 유전자군 또는 유전자내 개체의 유전변이를 분석하여 개체의 특정 질병 발생의 위험도를 예측하는 방법을 제공한다. 구체적으로, 특정 질병의 발생과 연관성이 있는 유전자군 또는 유전자를 선별하는 단계는 특정 질병의 발생에 대한 연관도 또는 영향력이 유사한 유전자끼리 군집화하는 단계를 포함할 수 있다. 보다 구체적으로, 특정 질병에 대한 오즈비와 인구집단 기여 위험분율 각각 또는 이들을 곱한 값을 특정 질병 관련 단일 유전 인자를 가지는 유전자들의 선별을 위한 지표로 할 수 있다. 이는 질병 관련 유전자를 선별함에 있어서, 이론적인 접근 방법이 아니라 실제 임상 데이터에서 질병군 및 비질병군 유전체 데이터로부터 추산하는 방법으로 진행된다.

상기 질병은 유전적 요인에 의해 또는 유전적 요인의 영향이 직간접적으로 미치는 모든 질병을 제한없이 포함할 수 있고, 구체적으로 난소암, 위암, 유방암, 전립선암, 심혈관계 질환, 대사 질환, 당뇨일 수 있으나, 이에 한정되는 것은 아니다. 일 실시예에 있어서, 상기 질병은 유방암 또는 전립선암일 수 있다.

본 발명의 질병의 유전적 위험도를 기반으로 개체의 특정 질병 발생의 위험도를 예측하는 방법은 대상 질병과 상관관계가 이미 잘 알려진 유전자뿐 아니라, 잘 알려져 있지 않으나 관련도가 높을 가능성이 있는 유전자의 변이 정보를 새롭게 발굴 및, 이를 포함하여 질병 발병의 위험도를 보다 정확하게 예측할 수 있다.

본 명세서에서 용어 "유전자"는 단백질 또는 RNA를 코딩하는 핵산 서열(또한 본원에서 "코딩 서열" 또는 "코딩 영역"으로도 언급됨)의 절편을 의미하는데, 이는 경우에 따라 코딩 서열의 상류 또는 하류에 위치될 수 있는 조절 영역 예를 들어 프로모터, 오퍼레이터, 터미네이터 등을 동반한다.

본 명세서에서 용어 "유전 정보"는 대상이 갖는 유전자 분석을 통해 얻어진 정보를 포괄하는 것으로, 예컨대 특정 질병 발생에 관련된 유전 형질 또는 유전자 변이에 대한 정보를 포함한다. 상기 유전자 변이는 미스센스(missense) 변이, 프레임시프트(frameshift mutation) 변이, 넌센스(nonsense) 변이 또는 스플라이스(splice) 변이, 뉴클레오티드의 치환, 삽입 또는 결실 등의 형태일 수 있으나 이에 제한되지 않는다. 특정 예에서, 상기 유전 정보는 단일염기다형성(SNP, single nucleotide polymorphism)을 포함할 수 있다. 이러한 유전 정보에 기반하여 산출된 질병 발생 위험도는 해당 질병에 대한 선천적인 발생 위험도의 의미를 포함한다.

본 명세서에서 "다형성 (polymorphism)"은 하나의 유전자 좌위 (locus)에 두 가지 이상의 대립 유전자 (allele)가 존재하는 경우를 말하며 다형성 부위 중에서, 사람에 따라 단일 염기만이 다른 것을 단일 염기 다형성(single nucleotide polymorphism, SNP)이라 한다. 바람직한 다형성 마커는 선택된 집단에서 1% 이상, 더욱 바람직하게는 5% 또는 10% 이상의 발생 빈도를 나타내는 두 가지 이상의 대립 유전자를 가진다.

본 명세서에서 "오즈비(odds ratio, OR)"는 상대 위험도의 추정치 지표로써 코호트로부터 추정하는데, 특정 질병의 환자(case)와 대조군이 혼합되어 있을 때 특정 유전자에서 희귀변이를 가지고 있는 환자 대 대조군 비율을 변이를 가지고 있지 않은 환자 대 대조군 비율로 나누어 계산한다. 이를 유전자에 대한 오즈비로 고려한다.

본 명세서에서 "인구집단 기여 위험분율(population attributable fraction, PAF)"은 특정 외부요인에 노출됨으로 인하여 특정 질병이 발생했을 것으로 추정되는 경우 그 영향을 수치로 추론한 것을 의미하고, 아래의 수학식 1으로 정의된다. 예를 들어, 흡연이라는 외부 요인에 노출됨으로 인해 폐암이 발생했을 것으로 추정되는 상황에서, 흡연의 폐암 발생에 대한 영향을 수치로 추론한 것을 의미한다. 본 발명에 있어서는, 특정 유전자의 변이 등 유전적 요인의 특정 질병의 발생에 대한 영향을 수치로 추론한 것을 의미할 수 있다.

상기 p_e는 prevalence of risk factors로 위험 인자에 노출하는 비율을 의미하고, 상기 RR은 상대위험도(relative risk)로 위험 인자에 노출된 그룹의 결과 확률과 노출되지 않은 그룹의 결과 확률의 비율의 의미한다. 예를 들어, 흡연이라는 외부 요인에 노출됨으로 인해 폐암이 발생했을 것으로 추정되는 상황에서, 흡연의 폐암 발생에 대한 영향을 수치로 추론한 것이 PAF라고 했을 때, PAF를 구하는 수식의 p_e는 흡연에 노출되는 비율을 의미한다. 본 발명에 있어서는, 유전자의 변이 등 유전적 요인의 특정 질병의 발생에 대한 영향을 수치로 추론한 것을 PAF라고 했을 때, 상기 p_e는 질병 발생 위험도를 예측에서 유전변이 보유 비율을 의미하는 것일 수 있다.

본 발명은 개체의 질병 발생에 관하여 유전적 위험도를 예측하는 장치에 관한 것으로, 상기 질병 발생 위험도를 예측하는 장치는 개체의 샘플을 분석하여, 질병 발생과 관련된 단일 유전 인자의 변이 유무를 검출하는 단계를 포함할 수 있다.

일 양상은 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)와 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하는 단계; 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하는 단계; 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하는 단계를 포함하는 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법을 제공한다.

일 구체예에 있어서, 상기 제1 값은 질병에 대한 개체의 단일 염기 다형성 정보를 기반으로 획득한 PRS(polygenic risk score) 값일 수 있다.

일 구체예에 있어서, 상기 제2 값은 질병에 대한 개체의 단일 유전 인자 정보를 기반으로 획득한 MRS(monogenic risk score) 값일 수 있다.

다른 양상은 상술한 방법을 컴퓨터에서 실행시키기 위한 방법을 기록한 기록매체를 포함한다.

일 구체예에 있어서, 상기 획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 산출하는 단계를 더 포함하는 것일 수 있다.

상기 개체의 유전정보를 분석하는 것은 개체로부터 분리된 생물학적 시료, 구체적으로 혈액, 조직, 또는 세포 샘플, 예를 들어 생검 또는 분리된 핵산(예를 들어 DNA 또는 RNA) 샘플에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다.

상기 물리적 변화는 물리적 물질을 절단 또는 단편화하는 것, 예컨대 게놈 DNA 단편으로부터 물리적 독립체를 제조하는 것(예를 들어, 조직으로부터 핵산 샘플을 분리시키는 것), 2 이상의 별개의 독립체를 혼합물로 합하는 것, 공유 또는 비-공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다.

일 구체예에 있어서, 상기 개체의 샘플은 혈액일 수 있고, 상기 혈액은 바람직하게 전혈, 혈청, 혈장, 또는 혈액단핵구일 수 있으나, 이로 제한되는 것은 아니다.

상기 질병 발생 위험도를 예측하는 방법은 개체로부터 분리된 개체의 샘플이 포함하는 유전변이를 통해 다유전자 위험 점수(polygenic risk score, PRS) 및 단일 유전자 위험 점수(monogenic risk score)을 계산하는 단계를 포함할 수 있다.

일 구체예에 있어서, 상기 제1 값은 상기 질병 발생 위험도를 예측하는 장치는 개체로부터 분리된 생물학적 시료의 다유전자 위험 점수(polygenic risk score, PRS)를 의미할 수 있다.

일 구체예에 있어서, 상기 제2 값은 상기 질병 발생 위험도를 예측하는 장치는 개체로부터 분리된 생물학적 시료의 단일 유전자 위험 점수(monogenic risk score)를 의미하는 것일 수 있다.

일 구체예에 있어서, 단일 유전 인자(monogenic variant)의 변이는 병원성 인자(pathogenic variant)의 변이와 상호호환적으로 사용될 수 있고, 특정 질병에 대한 원인으로 작용하는 유전 변이이므로, 특정 질병에 대해 단일 유전 인자의 변이(또는 병원성 인자의 변이)를 가진 개인은 특정 질병에 대한 위험도가 수 배 높아질 수 있다. 하지만, 개인이 특정 좌위에서 보유할 수 있는 유전변이의 개수는 0, 1, 또는 2개이며, 상기 병원성 변이의 경우 99% 이상 0개의 변이를 가지므로, 특정 변이 1개에 대한 보유 빈도가 1% 미만으로 매우 낮게 보고된다. 즉, 단일 유전 인자의 변이는 상기 질병 발생 위험도를 예측하는데 유리하나 그 빈도가 매우 드문 한계점이 있다.

일 구체예에 있어서, 상기 단일 유전 인자는 질병 발생 원인으로 작용하는 유전자, 및 유전체학 관점으로 상기 유전자에 영향을 줄 수 있는 유전자를 포함하는 것일 수 있다.

일 실시예에 있어서, 상기 질병이 유방암인 경우, 유방암의 단일 유전 인자로 작용하는 유전자는 BRCA1, BRCA2, PALB2, ATM, CDH1, CHEK2, BARD1, TP53, MYTYH, NF1, RAD51C, BRIP1, 및 RAD51D로 이루어진 군으로부터 선택된 하나 이상을 포함할 수 있다.

일 실시예에 있어서, 상기 질병이 전립선암인 경우, 전립선암의 단일 유전 인자로 작용하는 유전자는 HOXB13, ATM, BRCA2, PTEN, CDH1, PMS2, CHEK2, BRCA1, MSH6, MSH2, BARD1, PALB2, TP53, 및 NBN로 이루어진 군으로부터 선택된 하나 이상을 포함할 수 있다.

일 구체예에 있어서, 상기 질병 발생 원인으로 작용하는 유전자의 종류는 개체의 나이, 성별, 인종 등에 대한 정보에 기초해 변경될 수 있으며, 이는 상기 기계 학습(machine learning)의 데이터 세트는 상기 질병을 진단을 받은 자의 유전정보와, 상기 질병을 진단을 받지 않은 자의 유전정보를 포함할 수 있다.

일 구체예에 있어서, 상기 기계 학습(machine learning)은 유전 변이들이 상기 질병의 발병에 미치는 영향력을 유효크기로 반영하는 것을 포함하는 것일 수 있다.

본 발명의 질병 발생 위험도 예측하기 위한 정보 제공 방법에 있어서, 상기 질병 발생과 관련된 단일 유전 인자는 질병의 발생 확률에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별되는 것일 수 있다.

일 구체예에 있어서, 특정 질병의 발생 확률에 대한 오즈비 및 인구집단 기여 위험분율을 이용하여, 상기 질병과 관련도가 높은 유전자를 선별 및 군집화(clustering)의 기계 학습(machine learning)을 수행할 수 있다.

일 구체예에 있어서, 상기 제2 값은 질병 발생에 대한 영향력에 비례하여 가중치를 고려하는 단계에서 하나 이상의 단일 유전 인자들을 하나 이상의 클러스터로 군집화(clustering)하는 단계를 포함할 수 있다.

상기 군집화는 계층적 군집화(hierarchical clustering), k-평균 군집화(k-means clustering), 혼합 모델 군집화(mixture model clustering), 밀도 기반 군집화(density-based spatial clustering of applications with noise, DBSCAN), 생성적 적대 신경망(generative adversarial networks, GAN) 및 자기조직화지도(selforganizing map, SOM)로 이루어진 군에서 선택되는 어느 하나의 비지도 학습(unsupervised learning) 기법을 이용하는 것일 수 있으나, 이에 제한되는 것은 아니다.

본 발명의 일 실시예에 있어서, 각각 특정 질병의 발생 확률에 대한 오즈비 및 인구집단 기여 위험분율의 값에 log를 취한 값에 밀도 기반 군집화 방법(DBSCAN)을 통해, 특정 질병 발생에 대한 영향력이 유사한 유전자별로 군집화할 수 있다. 이 때, 각 클러스터의 질병 발생에 대한 관련도 또는 영향력은 특정 패턴을 나타낼 수 있다. 일 실시예에 있어서, 상기 밀도 기반 군집화 방법에 의해, 군집화된 각 클러스터는 원점과의 거리가 클수록, 질병 발생과 관련도가 높은 유전자로 선별되는 것일 수 있으나, 이에 제한되는 것은 아니다.

일 구체예에 있어서, 질병 발생과 관련된 단일 유전 인자의 선별 및 군집화는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별되는 것일 수 있다. 상기 곱한 값을 내림차순으로 정렬하여 상위에 정렬된 유전자일수록 상기 질병 발생과 관련도가 높은 유전자로 선별되는 것일 수 있다.

일 구체예에 있어서, 상기 질병 발생과 관련된 단일 유전 인자의 선별에 있어서, 데이터 세트내 유전 변이 중 빈도가 0.001%미만인 유전자에 대해서는 제외할 수 있다.

일 구체예에 있어서, 상기 제2 값은 질병 발생과 관련된 것으로 선별된 단일 유전 인자의 유전 변이의 보유 여부에 의해 결정되는 것일 수 있다. 본 실시예에 있어서, 유전체 데이터 세트로부터 단일 유전 인자를 선별한 후 실제 발병정보를 이용하여 유전자별로 유효크기를 추산하고 그 영향력에 따라 가중치를 두어 제2 값을 결정하였다.

일 구체예에 있어서, 상기 질병이 유방암인 경우, 제2 값은 BRCA1, BRCA2, ATM, PALB2, CHEK2, BARD1, RAD51C, MUTYH, BRIP1, RAD51D, CHD1, TP53, SDHB, 및 NF1로 이루어진 군에서 선택된 1종 이상의 유전 변이 보유 여부에 의해 결정되는 것일 수 있다.

일 구체예에 있어서, 상기 질병이 전립선암인 경우, 제2 값은 HOXB13, ATM, BRCA2, PTEN, CDH1, PMS2, CHEK2, BRCA1, MSH6, MSH2, BARD1, PALB2, TP53, 및 NBN 로 이루어진 군에서 선택된 1종 이상의 유전 변이 보유 여부에 의해 결정되는 것일 수 있다.

일 구체예에 있어서, 다유전자 위험 점수(polygenic risk score, PRS)은 전장 유전체 연관분석 연구(genome wide association study, GWAS)를 통해 특정 질병 발병에 대한 원인으로 작용하지 않더라도 연관성을 확인하는 방법일 수 있다. 선천적인 요인에 의한 특정 질병의 위험도를 측정하는 방법 중 하나로, 복수의 유전적 요인을 예측 모델 등에 반영하면 영향력이 높아질 수 있다. 구체적으로, 다유전자 위험 점수는 단일 염기 다형성(single nucleotide polymorphism, SNP) 또는 특정 SNP에 가중치를 두어 수치화 과정을 거치는 등 특정 질환의 특성을 반영하여 유전변이들의 영향력 값을 변조하는 과정을 거친 값을 의미하는 것일 수 있다.

일 구체예에 있어서, 상기 제1 값은 질병 발생 연관도가 상위 10 백분위(percentile)에 해당하거나 대조군 대비 2배 이상의 빈도를 보이는 단일 염기 다형성(SNP) 유전 변이의 보유 여부에 의해 결정되는 것일 수 있다.

일 구체예에 있어서, 상기 단일 염기 다형성(SNP) 유전 변이는 50 이하의 염기쌍의 삽입 또는 결실일 수 있다.

일 구체예에 있어서, 상기 질병이 유방암인 경우, 유방암 발병 위험도를 예측하기 위해 확인한 특정 SNP는 rs11200014, rs78540526, rs4784227, rs4442975, rs62355901, 및 rs10941679으로 이루어진 군에서 선택된 1종 이상의 변이 보유 여부에 의해 결정되는 것일 수 있다.

일 구체예에 있어서, 상기 질병이 전립선암인 경우, 전립선암 발병 위험도를 예측하기 위해 확인한 특정 SNP는 rs10090154, rs11263763, rs56005245, rs12795301, rs191785584, 및 rs6998061으로 이루어진 군에서 선택된 1종 이상의 변이 보유 여부에 의해 결정되는 것일 수 있다.

일 구체예에 있어서, 상기 질병 발생 원인으로 작용하는 특정 SNP의 종류는 개체의 나이, 성별, 인종 등에 대한 정보에 기초해 변경될 수 있다.

일 구체예에 있어서, 상기 다유전자 위험 점수 및 단일 유전자 위험 점수는 각각 단일 염기 다형성 분석 및 선별된 단일 유전 인자에 그 유효크기를 고려하여 산출된 것일 수 있다.

일 구체예에 있어서, 상기 유효크기는 질병 발생 연관도가 높은 인자 또는 연관도가 높은 인자들로 이루어진 군부터 연관도가 낮은 인자 또는 연관도가 낮은 인자들로 이루어진 군의 순서대로 가중치가 반영된 것일 수 있다.

일 구체예에 있어서, 상기 제1 값 및 제2 값은 각 유전변이 유효크기에 비례하여 가중치를 두어 산출하는 것일 수 있다.

일 구체예에 있어서, 상기 질병의 발생 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 단계를 더 포함할 수 있다.

질병 발생 위험도를 예측하는 것은 질병 관련 유전 변이를 탐색하는 것을 포함할 수 있다. 구체적으로, 개체의 샘플을 분석한 결과를 기반으로 개체의 단일 염기 다형성(Single nucleotide polymorphism, SNP) 유전 변이 데이터를 입력하면 소정의 기계 학습(machine learning) 모델링(알고리즘)을 통해 상기 개체의 다유전자 위험 점수(polygenic risk score, PRS)를 산출하는 것, 개체의 단일 유전 인자 유전 변이 데이터를 입력하면 소정의 기계 학습(machine learning) 모델링(알고리즘)을 통해 상기 개체의 단일 유전자 위험 점수(monogenic risk score, MRS)를 산출하는 것, 또는 상기 산출된 다유전자 위험 점수(polygenic risk score, PRS)와 단일 유전자 위험 점수(monogenic risk score, MRS)을 합산하는 것을 의미할 수 있다.

일 구체예에 있어서, 상기 질병 발생 위험도를 예측하기 위한 장치의 프로세서는 기계 학습 모델을 이용하여 개체의 단일 염기 다형성(Single nucleotide polymorphism, SNP) 정보를 포함하는 유전 정보를 분석하여 제1 값을 산출하고, 개체의 단일 유전 인자 정보를 포함하는 유전 정보를 분석하여 제2 값을 산출하고, 상기 제1 값 및 상기 제2 값을 이용하여 질병 발생의 위험도를 계산할 수 있다. 이 경우, 기계 학습 모델은 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)과 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하고, 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하고, 각각 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1값 및 상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 계산하고, 산출된 질병 발생 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하도록 학습될 수 있다.

일 구체예에 있어서, 상기 질병 발생 위험도 예측은 인공지능 모델을 이용하여 질병 발생 위험도를 결정하기 위한 가중치 위험도 모델을 학습시킬 수 있다.

상기 가중치 위험도 모델은 각각 개체에 대한 질병과 관련된 SNP 및 단일 유전 인자들의 위험 대립 유전자의 수를 더하되, 각 SNP또는 단일 유전 인자의 질병에 대한 유효크기(기여도)에 따라 가중치를 부여한 것일 수 있다. 각 개체의 SNP 및 단일 유전 인자의 위험 대립 유전자는 0개, 1개, 또는 2개를 가질 수 있다.

일 구체예에 있어서, 상기 기계 학습(machine learning)의 데이터 세트는 상기 질병을 진단을 받은 자의 유전정보와, 상기 질병을 진단을 받지 않은 자의 유전정보를 포함할 수 있다.

일 구체예에 있어서, 상기 유효크기는 질병의 발생과 연관도가 높은 인자 또는 연관도가 높은 인자들로 이루어진 군부터 연관도가 낮은 인자 또는 연관도가 낮은 인자들로 이루어진 군의 순서대로 가중치가 반영된 것일 수 있다.

상기 질병 발생 위험도를 계산하기 위해 기계 학습으로 로지스틱 회귀(logistic regression) 모델, Support Vector machine, 의사결정나무(decision tree), Nearest-neighbor classifier, Neural network, Random forest, Boosted tree 등의 알고리즘 및/또는 방식(기법)을 사용할 수 있으나, 이에 한정되지 않는다.

일 구체예에 있어서, 하기 수학식 2를 통해 질병 발생 위험도를 예측할 수 있다.

P(x_p)는 다유전자 위험점수(또는 레이블)이고,

x_p는 질병 발생 관련SNP 마커 세트이고,

M(x_m)은 단일 유전자 위험 점수(또는 레이블)이고,

x_m은 질병 발생 관련 단일 유전 인자 세트이고,

F(x)는 두가지 위험 점수 P 및 M을 결합하여 산출되는 질병 발생 위험도 수준 또는 발병 추정치이다.

일 구체예에 있어서, 상기 F(x)는 로지스틱 회귀 모델 또는 Support Vector machine일 수 있으나, 이에 한정되는 것은 아니며, 정확도(성능)는 알고리즘에 따라 달라질 수 있다.

일 구체예에 있어서, 기계 학습으로 Support Vector machine을 이용하여, 산출된 질병 발생의 위험도에 따라 개체를 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 것일 수 있다.

다만, 전술한 알고리즘 및/또는 방식(기법)은 예시적인 것으로 본 발명의 사상이 이에 한정되는 것은 아니다.

일 양상에 따른 개체의 질병 발생 위험도를 예측하는 장치 및 방법에 의하면, 개체의 유전정보에 근거하여 인과관계가 분명하나 드물게 나타나는 단일 유전 인자 및 그에 비해 연관성이 높지는 않으나 흔히 나타나는 단일 염기 다형성에 기반하는 다유전자 위험 점수를 모두 반영하여 보다 정확한 유전적 위험도를 기반하여 질병 발생 위험도 예측을 가능케 한다.

도 1은 일 실시예에 따른 질병 발생 위험도를 예측하는 방법의 일 예를 설명하기 위한 흐름도이다.
도 2는 일 실시예에 따른 질병 발생 위험도를 예측하는 방법의 다른 예를 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 다유전자 위험 점수를 산출하는 일 예를 설명하기 위한 흐름도이다.
도 4은 일 실시예에 따른 단일 유전자 위험 점수를 산출하는 일 예를 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 기계 학습을 수행하여 유방암의 단일 유전 인자를 선별 및 군집화하는 단계의 일 예를 설명하기 위한 그래프이다.
도 6은 일 실시예에 따른 유방암의 단일 유전 인자 클러스터의 다유전자 위험 점수와의 상관관계를 확인한 그래프이다.
도 7는 일 실시예에 따른 기계 학습을 수행하여 전립선암의 단일 유전 인자를 선별 및 군집화하는 단계의 일 예를 설명하기 위한 그래프이다.
도 8은 일 실시예에 따른 전립선암의 단일 유전 인자 클러스터의 다유전자 위험 점수와의 상관관계를 확인한 그래프이다.

이하, 본 발명의 이해를 돕기 위하여 바람직한 실시예를 제시한다. 그러나 하기의 실시예는 본 발명을 보다 쉽게 이해하기 위하여 제공되는 것일 뿐, 하기 실시예에 의해 본 발명의 내용이 한정되는 것은 아니다.

질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법의 일 구체예로, 상기 질병이 유방암 또는 전립선암인 경우, 각 질병의 유전적 위험도를 기반하여 유방암 위험도 및 전립암의 위험도를 예측하였다.

실시예 1.1. 유방암 관련 유전자의 선별 - OR X PAF 값 기반

유방암 발병 여부 및 단일 유전인자 변이 보유 여부를 기준으로, 유방암이며, 단일 유전인자 변이 포함 샘플을 (a), 유방암이며 단일 유전인자 변이를 미포함한 샘플을 (b), 유방암이 아니며 단일 유전인자 변이를 포함하는 샘플을 (c), 및 유방암이 아니며 단일유전인자 변이 미포함 샘플을 (d)으로 두었으며, 각각의 값을 아래의 식에 대입하여 유전자별 통계 기준치를 구하였다.

우선, Fisher's exact test를 통해 p-값을 산출하였고, 아래의 식을 통해 순차적으로 오즈비, 상대 위험도, exposed-proportion, 및 인구집단 기여 위험분율(PAF)를 계산하였으며, 그 값을 표 1에 나타내었다. 단, 상대 위험도 값이 2 미만으로 나타나는 유전자는 제외하였다.

No	gene	OR*PAF	OR	p-value	RR	exposed proportion	PAF
1	BRCA1	0.09254235	14.06872	2.E-20	14.03062	0.000508	0.006578
2	BRCA2	0.07326647	6.87475	2.E-35	6.82972	0.001848	0.010657
3	ATM	0.02555615	4.11091	4.E-19	4.09173	0.002023	0.006217
4	PALB2	0.02114053	4.28661	1.E-15	4.27100	0.001515	0.004932
5	CHEK2	0.00840107	2.73503	2.E-08	2.72795	0.001783	0.003072
6	BARD1	0.00406168	3.54031	2.E-04	3.53713	0.000453	0.001147
7	RAD51C	0.00365523	4.51247	1.E-03	4.50984	0.000231	0.000810
8	MUTYH	0.00335833	1.17757	2.E-02	1.17421	0.016417	0.002852
9	BRIP1	0.00285680	2.79108	9.E-04	2.78869	0.000573	0.001024
10	RAD51D	0.00106846	3.08452	4.E-02	3.08365	0.000166	0.000346
11	CDH1	0.00103956	8.01808	2.E-01	8.01750	0.000018	0.000130
12	TP53	0.00100285	4.00950	7.E-02	4.00875	0.000083	0.000250
13	SDHB	0.00100285	4.00950	7.E-02	4.00875	0.000083	0.000250
14	NF1	0.00066858	4.00925	1.E-01	4.00875	0.000055	0.000167

표 1에 나타낸 바와 같이, 각 유전자의 오즈비(OR)과 인구집단 기여 위험분율(PAF)의 값을 곱한 값을 내림차순으로 나열했을 때, 상위에 나열되는 유전자와 참고문헌인 L. Dorling et al. N Engl J Med 2021; 384:428-439에서 특정 유전자의 단백질 생성 종결 변이와 유방암 위험도가 관련이 있는 것으로 발표한 9개의 유전자(ATM, BRCA1, BRCA2, CHEK2, PALB2, BARD1, RAD51C, RAD51D, TP53)가 상응함을 확인하였다.

이 결과를 통해, 각 유전자의 오즈비(OR)과 인구집단 기여 위험분율(PAF)의 값을 곱한 값은 특정 질병과 관련 유전자를 선별하는데 있어 통계유전학 지표로 활용될 수 있으며, 이는 본 실시예의 유방암 관련 유전자 선별뿐 아니라, 다른 유전적 요인으로 발병하는 다른 질환에도 적용가능 할 것이다. 상기의 방법을 통한 유전자 선별은 대상 질병과 관련하여 이미 잘 알려진 유전자뿐 아니라, 잘 알려져 있지 않으나 관련도가 높을 가능성이 있는 유전자도 반영할 수 있다는 점에서 의미가 있다.

상기의 방법을 통해 선별한 유방암 관련 유전자는 본원 발명에 따른 유방암의 발병 예측함에 있어 단일 유전 인자로 반영된다.

실시예 1.2. 단일 염기 다형성(SNP)기반 다유전자 위험 점수 산출

모델링 대상 데이터세트로 여성 데이터를 선별하였고, 유방암 진단받은 여성 13,581명과 유방암 진단받지 않은(대조군) 117,248명의 유전체 데이터 QC 및 유방암 진단 여부에 대한 정보를 포함하는 데이터세트를 확보하였다. 유방암에 대한 GWAS 결과들 중 인종, 샘플 규모 및 방법론 등을 검토하여 Nature 551, 92-94 (2017)을 선정하였고 해당 논문이 제공하는 마커세트 정보에 다유전자 위험 점수 계산방식들 중 하나인 'Pruning and Thresholding'을 적용하였다. 이 때, 변이빈도가 낮은 마커 및 퀄리티가 낮은 마커 등은 일반적인 QC 기준으로써 제외하였으며, 해당 방법론의 적용 결과로써 p-value < 0.0003을 만족하는 마커들이 다유전자 위험 점수 계산에 포함되었다. 전체 데이터세트를 질병 위험도 예측값 순서로 정렬 후 그룹을 구성하여 위험도가 높은 것부터 낮은 것으로 정렬하였고, 다유전자 위험 점수(PRS) 모델링 결과를 검토하기 위해 유방암에 대한 오즈비 등 지표를 기준으로 삼아 비교하였다. 전체 샘플을 100개의 그룹으로 분리한 후, 10개씩 취합하였을 때, 상위 2개의 그룹의 위험도가 중간그룹의 위험도의 2배 이상이 되는 것을 확인하였는데 이는 유방암에 대한 유사한 연구들에서 나타나는 결과와 동일한 맥락이라고 볼 수 있을 뿐이고, 고위험 그룹을 평균 또는 하위 그룹과 비교하는 기존 방법론이 아니라 위험 수준별 그룹 지정을 위해 5개의 그룹으로 분류하였다.

상기 실시예 1.2.의 방법을 통한 단일 염기 다형성(SNP) 기반 다유전자 위험 점수는 본원 발명의 유방암 발병 예측함에 있어 상기 분류된 5개의 그룹별로 유방암 발병 가능성이 가장 높은 그룹부터 가중치를 두어 유방암 발병 위험도 예측 계산에 반영된다.

실시예 1.3. 단일 유전자 위험 점수(monogenic risk score) 산출

유방암의 단일 유전 인자를 선별하기 위해 여성 샘플에 존재하는 유전변이를 취합한 후, 기능분석(annotation)을 수행하였다. 유전변이 빈도가 5% 이상인 변이는 제외하였으며, 유전변이가 병원성 변이인지 여부를 예측하였다. 전체 샘플 중 2.6%에 해당되는 1200여개의 유전 변이에서 병원성을 확인하였다. 유전자별 유방암 발병에 미치는 영향력을 통계치로 분석하기 위해 상기 실시예1.2. 및 표 1에 나타낸 방법으로 유전자별 인구집단 기여 위험분율(PAF)를 계산하였다. 선별한 병원성 유전자 중 가중치를 둘 유전자를 분류하기 위해 각 유전자별 오즈비와 인구집단 기여 위험분율의 값을 곱한 값에 따라 큰 값부터 5개의 유전자 그룹을 설정하였고, 값이 큰 그룹부터 각각 10, 9, 8, 7, 6으로 점수를 부여하였다. 이때, 각각의 점수는 상대적으로 낮은 영향력을 가진 유전자에 대해서도 점수를 부여하기 위한 것이다. 유전 변이의 영향력에 따라 가중치는 두는 것에 의미가 있을 뿐, 가중치로 부여된 숫자의 크기나 간격은 상기 실시예에 의해 제한되는 것은 아니다.

상기 실시예 1.3.의 방법을 통해 단일 유전 인자 그룹별 가중치 값은 본원 발명의 유방암 발병 위험도 예측 계산에 반영된다.

실시예 1.4. 유방암 발병 위험도 예측

유전 정보를 이용하여 상기 실시예 1.2. 및 실시예 1.3.에서 구한 다유전자 위험 점수(polygenic risk score) 및 단일 유전자 위험 점수(monogenic risk score)를 하기의 표 2 내지 표6과 같이 조합하여 개체의 유방암 발병 위험도를 예측하였다.

상기 실시예 1.2. 에서 구한 다유전자 위험 점수(PRS) 및 실시예1.3.에서 구한 단일 유전자 위험점수(MRS)를 바탕으로 분류된 그룹별로 유방암 진단된 환자의 수 및 진단받지 않은 여성의 수를 확인하였다.

다인자 위험 점수(PRS)가 가장 높은 것으로 분류된 그룹부터 가장 낮은 것으로 분류된 그룹까지 순차적으로 그룹 내 실제 유방암 진단받은 환자의 수와 유방암 진단받지 않은 대조군의 수를 표 2 내지 표 6에 나타내었다.

그룹	PRS	MRS	유방암	대조군	합계	유방암 비율
6_5	5	6	7	4	11	63.636%
10_5	5	10	32	23	55	58.182%
8_5	5	8	15	18	33	45.455%
9_5	5	9	37	48	85	43.529%
7_5	5	7	77	278	355	21.690%
Novar_5	5	0	3681	17372	21053	17.484%

그룹	PRS	MRS	유방암	대조군	합계	유방암 비율
10_4	4	10	28	29	57	49.123%
9_4	4	9	26	44	70	37.143%
8_4	4	8	11	23	34	32.353%
7_4	4	7	73	335	108	17.892%
6_4	4	6	0	3	3	0.000%
Novar_4	4	0	2605	18405	21010	12.399%

그룹	PRS	MRS	유방암	대조군	합계	유방암 비율
10_3	3	10	15	20	35	42.857%
9_3	3	9	26	47	73	35.616%
8_3	3	8	11	27	38	28.947%
6_3	3	6	3	9	12	25.000%
7_3	3	7	50	338	388	12.887%
Novar_3	3	0	2144	18904	21048	10.186%

그룹	PRS	MRS	유방암	대조군	합계	유방암 비율
10_2	2	10	23	22	45	51.111%
6_2	2	6	4	6	10	40.000%
9_2	2	9	29	51	80	36.250%
8_2	2	8	7	42	49	14.286%
7_2	2	7	35	342	377	9.284%
Novar_2	2	0	1748	19276	21024	8.314%

그룹	PRS	MRS	유방암	대조군	합계	유방암 비율
10_1	1	10	29	34	43	43.032%
9_1	1	9	12	61	73	16.438%
8_1	1	8	4	34	38	10.526%
7_1	1	7	32	349	381	8.399%
6_1	1	6	0	8	8	0.000%
Novar_1	1	0	1212	19804	21016	5.767%

표 2 내지 표 6에 나타낸 바와 같이, 유방암 발병 비율은 다유전자 위험 점수의 그룹에 정비례하는 것을 확인하였다. 또한, 단일 유전 인자를 포함하지 않는 그룹에 비해 단일 유전 인자를 가진 그룹은 유전자가 속한 그룹의 가중치 수준에 비례하여 30% 내지 900%까지 유방암 발병 비율이 상승함을 확인하였다.

표 6을 참조하면, 다유전자 위험 점수가 가장 낮은 그룹에서도 단일 유전 인자를 1개 이상 포함하는 경우 유방암 발병 비율이 그룹 내 평균 이상으로 높아지는 것을 알 수 있다.

상기 실시예 1.2.에서 사용한 데이터세트와 동일한 데이터 세트인 영국 여성 45-74세의 유방암 누적 발병률은 2020년 기준 8.29%으로 보고되어, 그 값이 상기 표 5의 다유전자 위험 점수 2그룹의 유방암 발병 비율(8.314%)과 유사함을 확인하였다.

실시예 2.1. 유방암 관련 유전자의 선별 - DBSCAN 기반

상기 실시예 1.1과 동일한 방법으로, 표 1의 유방암에 대한 각 유전자의 OR 값 및 PAF 값을 이용하여, 유방암 발생과 관련도가 높은 유전자의 선별 및, 유방암 발병에 대한 영향력이 유사한 유전자끼리 군집화(clustering)을 수행하였다.

구체적으로, 각 유전자에 대하여 표 1에 나타낸 OR 값 및 PAF 값에 log를 취한 값을 각각 x축, y축으로 하여 그래프를 그렸다. 그 후, 밀도에 따른 비지도방식 클러스터링 방법인 DBSCAN을 이용하여, 인접한 유전자끼리 군집화(clustering)를 수행하였고, 그 결과를 도 5에 나타내었다. 이 때, 유방암 발병에 대한 영향력이 유사한 유전자끼리 하나의 클러스터에 포함된다. 각 군집별 영향력은 특정 패턴을 나타낼 수 있으나, 구체적으로 그래프상 원점에서 클러스터간 거리의 값이 커질수록 유방암 발병에 대한 영향력인 큰 것임을 의미한다.

도 5에 나타낸 바와 같이, 유방암 발병과 연관된 유전자 중, BRCA2 및 BRCA1이 하나의 클러스터를 이루고, CHEK2, ATM 및 PALB2가 하나의 클러스터를 이루고, BARD1 및 TP53이 하나의 클러스터를 이루는 것을 확인하였다. 이 때, BRCA2 및 BRCA1> CHEK2, ATM 및 PALB2> BARD1 및 TP53 순서로 원점으로부터 떨어져 있는 거리가 큰 값을 가져, 유방암 발병에 대한 영향력의 크기는 이에 비례할 것으로 예상할 수 있다. 이는 상기 실시예 1.1 내지 1.4와 유사한 결과를 나타내는 것을 확인하였다.

실시예 2.2. 유방암 발병 위험도 예측

상기 실시예 2.1의 DBSCAN 방법에 따른 유방암 발병 관련 유전자 및 영향력에 따른 군집화 결과에, 상기 실시예 1.2의 단일 염기 다형성(SNP) 기반 다유전자 위험 점수(PRS)를 반영하여, 실제 유방암 발병 위험도를 예측하였다.

구체적으로, 실시예 1.2와 마찬가지의 방법으로, 단일 염기 다형성 변이를 고려한 다유전자 위험 점수(PRS)에 따라 유전자 발병 위험도가 낮은 그룹을 low 그룹, 위험도가 높은 그룹을 high 그룹, 그 사이의 그룹을 intermediate 그룹으로 나눈 후, 각각을 x축으로 하였고, 상기 표 1에서 구한 유방암 발병에 관한 오즈비를 y축으로 하여 그래프를 그렸다. 이 때, 단일 유전 인자 변이가 없고(no variant 군) 다유전자 위험 점수가 intermediate 그룹인 경우를 오즈비 1.0 값을 갖도록 기준을 설정하였다. 이를 도 6에 나타내었다. 일반적으로, 오즈비는 1.0이면 질병에 대한 위험인자(단일 유전인자 또는 다형성 변이)와 질병간의 연관성이 없음을 의미하고, 오즈비가 1.0 보다 큰 경우, 위험인자와 질병 간의 연관성을 의미하고, 그 값이 클수록 위험인자와 질병 발병의 연관성이 큰 것을 의미한다.

도 6에 나타낸 바와 같이, 각 클러스터군은 PRS값이 high> intermediate> low 순서대로 오즈비가 큰 값을 가지는 것을 확인하였다. 또한, 클러스터간 유방암 발병에 영향력을 비교한 결과, BRCA2 및 BRCA1> CHEK2, ATM 및 PALB2> BARD1 및 TP53 순서로 높은 오즈값을 나타내는 점을 통해, 상기 실시예 2.1에서 확인한 바와 같이 DBSCAN을 이용한 분류한 유전자의 군집에 따라, 질병 발생에 대한 유사한 영향력을 가지는 것을 확인하였다. 특히, CHEK2, ATM 및 PALB2를 포함하는 클러스터는 PRS 값에 따라 오즈비의 변동 폭이 큰 것을 통해, PRS의 영향력이 크게 작용하는 양상을 확인하였다.

이상의 결과를 통해, 유방암과 관련된 유전자의 변이 유무를 통해 유방암 발생의 위험도를 예측하는 단계에서, DBSCAN 방법을 통해 각 단일 유전 인자의 영향력을 군집화한 후 이를 기반으로 다유전자 위험 점수를 반영하였을 때, 보다 정확하게 유방암 발생 위험도를 예측할 수 있음을 확인하였다. 또한, 유방암에 한정되지 않고, 유전 변이에 의해 질병 발생에 영향을 받는 모든 질병에 대해 질병 발생 위험도를 예측하는데 유용하게 사용될 수 있다.

실시예 3.1. 전립선암 관련 유전자의 선별 - DBSCAN를 이용

전립선암 발병 여부 및 단일 유전인자 변이 보유 여부를 기준으로, 상기 실시예 1.1.과 동일한 방법을 통해 유전자별 통계 기준치를 구하였다. 마찬가지로, Fisher's exact test를 통해 p-값을 산출하였고, 아래의 식을 통해 순차적으로 오즈비, 상대 위험도, exposed-proportion, 및 인구집단 기여 위험분율(PAF)을 계산하였으며, 그 값을 표 2에 나타내었다. 단, 상대 위험도 값이 2 미만으로 나타나는 유전자는 제외하였다.

No	Gene	OR	p-value	RR	Variant frequency	PAF
1	HOXB13	3.77	8.04E-23	3.08623191	3.54E-01	0.00734
2	ATM	2.61	4.46E-06	2.31190136	2.23E-01	0.00292
3	BRCA2	2.26	1.59E-03	2.0563115	1.73E-01	0.00182
4	PTEN	8.59	2.27E-02	5.33627755	6.42E-03	0.00028
5	CDH1	11.45	7.47E-02	6.22452011	1.84E-03	0.00010
6	PMS2	0.64	9.22E-02	0.65487381	1.22E-01	-0.00478
7	CHEK2	1.51	2.10E-01	1.45200846	3.23E-01	0.00146
8	BRCA1	0.86	4.85E-01	0.86836417	7.89E-01	-0.00683
9	MSH6	1.01	5.86E-01	1.00929122	6.79E-02	0.00001
10	MSH2	1.01	5.86E-01	1.00929122	6.79E-02	0.00001
11	BARD1	1.00	7.98E-01	0.99582676	2.29E-02	-0.05844
12	PALB2	1.27	8.66E-01	1.24514874	1.19E-01	0.00029
13	TP53	0.88	8.54E-01	0.88911922	1.28E-02	-0.00129
14	NBN	1.19	9.67E-01	1.17442477	4.86E-02	0.00008

표 7에 나타낸 바와 같이, 각 유전자의 p-value 값을 기준으로 내림차순으로 나열했을 때, 0.05 미만의 값으로 전립선암의 발병과 유의한 연관성을 갖는 유전자 중에서 기존의 전립선암 위험도가 관련이 있는 것으로 알려진 다수의 유전자가 상응함을 확인하였다.

상기 실시예 3.1의 방법을 통해 선별한 전립선암 관련 유전자는 본원 발명에 따른 전립선암의 발병 예측함에 있어 단일 유전 인자로 반영된다.

실시예 3.2. 단일 염기 다형성(SNP)기반 다유전자 위험 점수 산출

모델링 대상 데이터세트로 여성 데이터를 선별하였고, 전립선암 진단받은 남성 8,753명과 전립선암 진단받지 않은(대조군) 100,203명의 유전체 데이터 QC 및 전립선암 진단 여부에 대한 정보를 포함하는 데이터세트를 확보하였다. 전립선암에 대한 GWAS 결과들 중 샘플 규모 및 방법론 등을 검토하여 마커세트 정보에 다유전자 위험 점수 계산방식들 중 하나인 'Pruning and Thresholding'을 적용하였다. 이 때, 변이빈도가 낮은 마커 및 퀄리티가 낮은 마커 등은 일반적인 QC 기준으로써 제외하였다. 전체 데이터세트를 질병 위험도 예측값 순서로 정렬 후 그룹을 구성하여 위험도가 높은 것부터 낮은 것으로 정렬하였고, 다유전자 위험 점수(PRS) 모델링 결과를 검토하기 위해 유방암에 대한 오즈비 등 지표를 기준으로 삼아 비교하였다. 위험 수준별 그룹 지정을 위해 3개의 그룹으로 분류하였다.

상기 실시예 3.2.의 방법을 통한 단일 염기 다형성(SNP) 기반 다유전자 위험 점수는 본원 발명의 전립선암 발병 예측함에 있어 상기 분류된 3개의 그룹별로 전립선암 발병 가능성이 가장 높은 그룹부터 가중치를 두어 전립선암 발병 위험도 예측 계산에 반영된다.

실시예 3.3. 단일 유전자 위험 점수(monogenic risk score) 산출

전립선암의 단일 유전 인자를 선별하기 위해 남성 샘플에 존재하는 유전변이를 취합한 후, 기능분석(annotation)을 수행하였다. 유전변이 빈도가 5% 이상인 변이는 제외하였으며, 유전변이 중 병원성 변이들만, 변이 보유 샘플(carrier)로 추출하였다. 유전자별 전립선암 발병에 미치는 영향력을 통계치로 분석하기 위해 상기 실시예 3.2. 및 표 7에 나타낸 방법으로 유전자별 오즈비(OR) 및 인구집단 기여 위험분율(PAF)을 계산하였다. 이후, 유효 병원성 유전자를 선별하기 위해, 1) p-값이 0.05 미만이며, 2) 발견 빈도가 0.1% 이상인 유전자를 선별하였다. 전립선암 발생과 관련도가 높은 유전자의 선별 및, 전립선암 발병에 대한 영향력에 따라 가중치를 부여하기 위해, 표 7의 전립선암에 대한 각 유전자의 OR 값 및 PAF 값을 이용하여, 유사한 유전자끼리 군집화(clustering)을 수행하였다.

구체적으로, 각 유전자에 대하여 표 7에 나타낸 OR 값 및 PAF 값에 log를 취한 값을 각각 x축, y축으로 하여 그래프를 그렸다. 그 후, 밀도에 따른 비지도방식 클러스터링 방법인 DBSCAN을 이용하여, 인접한 유전자끼리 군집화(clustering)를 수행하였고, 그 결과를 도 7에 나타내었다. 이 때, 유방암 발병에 대한 영향력이 유사한 유전자끼리 하나의 클러스터에 포함된다. 각 군집별 영향력은 특정 패턴을 나타낼 수 있으나, 구체적으로 그래프상 원점에서 클러스터간 거리의 값이 커질수록 유방암 발병에 대한 영향력인 큰 것임을 의미한다.

도 7에 나타낸 바와 같이, 전립선암 발병과 연관된 유전자 중, HOXB13이 하나의 클러스터를 이루고, BRCA2, 및 ATM이 하나의 클러스터를 이루는 것을 확인하였다. 이 때, HOXB13> BRCA2, 및 ATM 순서로 원점으로부터 떨어져 있는 거리가 큰 값을 가져, 전립선암 발병에 대한 영향력의 크기는 이에 비례할 것으로 예상할 수 있다.

상기 실시예 3.3.의 방법을 통해 단일 유전 인자 그룹별 가중치 값은 본원 발명의 전립선암 발병 위험도 예측 계산에 반영된다. 단, 유전 변이의 영향력에 따라 가중치는 두는 것에 의미가 있을 뿐, 가중치로 부여된 숫자의 크기나 간격은 상기 실시예에 의해 제한되는 것은 아니다.

실시예 3.4. 전립선암 발병 위험도 예측

상기 실시예 3.3.의 DBSCAN 방법에 따른 전립선암 발병 관련 유전자 및 영향력에 따른 군집화 결과에, 상기 실시예 3.2.의 단일 염기 다형성(SNP) 기반 다유전자 위험 점수(PRS)를 반영하여, 실제 전립선암 발병 위험도를 예측하였다.

구체적으로, 실시예 3.2와 마찬가지의 방법으로, 단일 염기 다형성 변이를 고려한 다유전자 위험 점수(PRS)에 따라 유전자 발병 위험도가 낮은 그룹을 low 그룹, 위험도가 높은 그룹을 high 그룹, 그 사이의 그룹을 intermediate 그룹으로 나눈 후, 각각을 x축으로 하였고, 상기 표 7에서 구한 전립선암 발병에 관한 오즈비를 y축으로 하여 그래프를 그렸다. 이 때, 단일 유전 인자 변이가 없고(no variant 군) 다유전자 위험 점수가 intermediate 그룹인 경우를 오즈비 1.0 값을 갖도록 기준을 설정하였다. 이를 도 8에 나타내었다. 일반적으로, 오즈비는 1.0이면 질병에 대한 위험인자(단일 유전인자 또는 다형성 변이)와 질병간의 연관성이 없음을 의미하고, 오즈비가 1.0 보다 큰 경우, 위험인자와 질병 간의 연관성을 의미하고, 그 값이 클수록 위험인자와 질병 발병의 연관성이 큰 것을 의미한다.

도 8에 나타낸 바와 같이, 각 클러스터군은 PRS값이 high> intermediate> low 순서대로 오즈비가 큰 값을 가지는 것을 확인하였다. 또한, 클러스터간 유방암 발병에 영향력을 비교한 결과, HOXB13> BRCA2, 및 ATM 순서로 높은 오즈값을 나타내는 점을 통해, 상기 실시예 3.3에서 확인한 바와 같이 DBSCAN을 이용한 분류한 유전자의 군집에 따라, 질병 발생에 대한 유사한 영향력을 가지는 것을 확인하였다.

이상의 결과를 통해, 전립선암과 관련된 유전자의 변이 유무를 통해 전립선암 발생의 위험도를 예측하는 단계에서, DBSCAN 방법을 통해 각 단일 유전 인자의 영향력을 군집화 후 이를 기반으로 다유전자 위험 점수를 반영하였을 때, 보다 정확하게 전립선암 발생 위험도를 예측할 수 있음을 확인하였다. 또한, 전립선암에 한정되지 않고, 유전 변이에 의해 질병 발생에 영향을 받는 모든 질병에 대해 질병 발생 위험도를 예측하는데 유용하게 사용될 수 있다.

본원 발명의 방법을 이용하여 유방암 또는 전립선암 발병 예측도와 실제 데이터 세트 내의 유방암 또는 전립선암 발병률이 유사한 경향성을 보임을 확인하였다. 본원 발명의 예측 모델은 나이 또는 가족력에 관한 정보를 활용하지 않고도, 단일 유전 변이만 고려하여 질병의 발생을 예측하는 방식과 다유전자 위험 점수만을 고려하는 방식 등 하나의 요인만 고려했을 때보다 정확하게 질병의 발병 위험에 대한 정보를 제공할 수 있다. 구체적으로, 다유전자 위험 점수가 비교적 낮은 그룹으로 분류되거나 평균의 점수를 갖더라도 단일 유전 변이를 보유하였다면 유전자 그룹 정보에 따라 고위험군으로 분류될 수 있고, 다유전자 위험 점수가 비교적 높은 그룹으로 분류되는 군이라면 단일 유전 변이가 존재하지 않더라도, 다유전자 위험 점수가 낮고 단일 유전 변이가 존재하지 않는 경우에 비해 유방암 발병의 위험성이 높은 것으로 분류하여, 이에 관한 정보를 사전에 제공함으로써 정확하게 질병의 발생을 예측하고 예방하는데 유용하게 활용될 수 있다.

Claims

질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)과 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하는 단계;
개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하는 단계;
상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제1 값, 및
상기 선별된 단일 유전 인자 정보에 질병 발생에 대한 영향력에 비례하여 가중치가 고려된 제2 값을 획득하는 단계;를 포함하는 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 방법.
청구항 1에 있어서,
획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 산출하는 단계를 더 포함하는 방법.
청구항 1에 있어서,
상기 제1 값은 질병 발생 연관도가 상위 10 백분위(percentile)에 해당하거나 대조군 대비 2배 이상의 빈도를 보이는 단일 염기 다형성(SNP) 유전 변이의 보유 여부에 의해 결정되는 것인 방법.
청구항 1에 있어서,
상기 제2 값은 질병 발생과 관련된 것으로 선별된 단일 유전 인자의 유전 변이의 보유 여부에 의해 결정되는 것인 방법.
청구항 1에 있어서,
상기 질병 발생 연관 단일 유전 인자는 질병의 발생 확률에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별되는 것인 방법.
청구항 1에 있어서,
상기 제2 값은 질병 발생에 대한 영향력에 비례하여 가중치를 고려하는 단계에서 하나 이상의 단일 유전 인자들을 하나 이상의 클러스터로 군집화(clustering)하는 단계를 포함하고,
상기 군집화는 상기 군집화는 계층적 군집화(hierarchical clustering), k-평균 군집화(k-means clustering), 혼합 모델 군집화(mixture model clustering), 밀도 기반 군집화(density-based spatial clustering of applications with noise, DBSCAN), 생성적 적대 신경망(generative adversarial networks, GAN) 및 자기조직화지도(self-organizing map, SOM)로 이루어진 군에서 선택되는 어느 하나의 비지도 학습(unsupervised learning) 기법을 이용하는 것인 방법.
청구항 1에 있어서, 상기 질병 발생의 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 단계를 더 포함하는 것인 방법.
청구항 1에 있어서, 상기 개체의 샘플은 혈액인 것인 방법.
청구항 1의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
적어도 하나의 메모리; 및
적어도 하나의 프로세서;를 포함하고,
상기 프로세서는 질병 발생과 연관된 단일 염기 다형성(single nucleotide polymorphism, SNP)와 질병의 발생과 연관된 단일 유전 인자(monogenic variant)를 선별하고, 개체의 샘플로부터 개체의 상기 선별된 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보와 개체의 상기 선별된 단일 유전 인자 정보를 분석하고, 상기 단일 염기 다형성(single nucleotide polymorphism, SNP) 정보를 기반으로 상기 질병에 대한 PRS(polygenic risk score) 값인 제1 값, 및 상기 선별된 단일 유전 인자 정보를 기반으로 상기 질병에 MRS(monogenic risk score) 값인 제2 값을 획득하고, 획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 획득하여 질병의 유전적 위험도를 기반으로 질병의 위험도를 예측하는 컴퓨팅 장치.
청구항 10에 있어서,
획득한 제1 값과 제2 값을 기반으로 상기 질병에 대한 통합 유전적 위험도를 산출하는 컴퓨팅 장치.
청구항 10에 있어서,
상기 프로세서는 상기 제1 값을 질병 발생 연관도가 상위 10 백분위(percentile)에 해당하거나 대조군 대비 2배 이상의 변이 빈도를 보이는 단일 염기 다형성(SNP) 유전 변이의 보유 여부에 의해 결정하는 것인 컴퓨팅 장치.
청구항 10에 있어서,
상기 프로세서는 상기 제2 값을 질병 발생과 관련된 것으로 선별된 단일 유전 인자의 유전 변이의 보유 여부에 의해 결정하는 것인 컴퓨팅 장치.
청구항 10에 있어서,
상기 프로세서는 상기 질병 발생 연관 단일 유전 인자를 유방암의 발병 확률에 대한 오즈비(odds ratio, OR), 인구집단 기여 위험분율(population attributable fraction, PAF), 또는 질병의 발생 확률에 대한 오즈비(odds ratio, OR) 및 인구집단 기여 위험분율(population attributable fraction, PAF)을 곱한 값을 통해 선별하는 것인 컴퓨팅 장치.
청구항 10에 있어서,
상기 프로세서는 상기 질병 발생의 위험도에 따라 비-위험군, 위험군, 고위험군, 초고위험군으로 분류하는 것인 컴퓨팅 장치.