KR20230022141A

KR20230022141A - 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법 및 장치

Info

Publication number: KR20230022141A
Application number: KR1020220098686A
Authority: KR
Inventors: 홍정한
Original assignee: 에이치앤비지노믹스 주식회사
Priority date: 2021-08-06
Filing date: 2022-08-08
Publication date: 2023-02-14

Abstract

본 발명은 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법은, (a) 사용자의 사용자 정보를 수신하는 단계; (b) 상기 사용자 정보로부터 표현형(phenotype) 분포 및 다유전자 위험 점수(polygenic risk score, PRS)의 예측 유용성 정보(predictive utility information)를 결정하는 단계; 및 (c) 상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하는 단계;를 포함할 수 있다.

Description

지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법 및 장치{A method and apparatus for providing information on the risk of developing complex diseases customized for each individual based on intelligent omics}

본 발명은 복잡질환 발병 위험도 정보 제공 방법 및 장치에 관한 것으로, 더욱 상세하게는 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법 및 장치에 관한 것이다.

질환을 단일 유전자와 관련된 질병과 여러 유전자 및 환경 요인의 영향을 받는 질병의 두 가지 부류로 구분할 수 있다.

단일 유전 질환은 단일 유전자의 변이로 추적될 수 있다(예: 낭포성 섬유증-CFTR).

복잡 질환은 환경적 영향(예: 식단, 수면, 스트레스 및 흡연)과 함께 많은 게놈 변이의 결과로 발생할 수 있다(예: 관상 동맥 질환-60개 게놈 변이).

다유전자 위험 점수(PRS, Polygenic Risk Score)를 생성하는 데 사용되는 데이터는 대규모 게놈 연 구로부터 특정 질병이 있는 그룹과 질병이 없는 그룹을 비교하여 게놈 변이를 찾은 것이다.

다양한 건강 관련 표현형에 대한 예측 유용성이 증가함에 따라 다유전자 점수의 임상 적용에 대 한 관심이 증가하고 있다.

발생의 원인을 두었던 당뇨, 비만, 암, 천식, 파킨슨병, 고혈압, 골다공증, 정신질환, 주의력결핍 과잉행동장애 등 다양한 분야에서 유전적인 부분이 관여하는 것으로 알려지면서 유전체 변이에 대 한 관심이 더욱 높아져가고 있다.

[특허문헌 1] 한국등록특허 제10-2344344호

본 발명은 전술한 문제점을 해결하기 위하여 창출된 것으로, 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법 및 장치를 제공하는 것을 그 목적으로 한다.

또한, 본 발명은 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하기 위한 방법 및 장치를 제공하는 것을 그 목적으로 한다.

또한, 본 발명은 전사 후 유전자 발현 조절 인자를 가중치로 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하기 위한 방법 및 장치를 제공하는 것을 그 목적으로 한다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

상기한 목적들을 달성하기 위하여, 본 발명의 일 실시예에 따른 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법은, (a) 사용자의 사용자 정보를 수신하는 단계; (b) 상기 사용자 정보로부터 표현형(phenotype) 분포 및 다유전자 위험 점수(polygenic risk score, PRS)의 예측 유용성 정보(predictive utility information)를 결정하는 단계; 및 (c) 상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하는 단계;를 포함할 수 있다.

실시예에서, 상기 사용자 정보는, 사용자 개인 정보, 유전형(genotype) 정보, 표현형 정보, 마이크로(micro) RNA 정보, 단일염기다형성(single nucleotide polymorphism, SNP)에 대한 요약 통계 정보 및 복합질환 발명과 관련된 전사 후 유전자 발현조절 인자 및 표적 유전자 세트의 요약 통계 정보 중 적어도 하나를 포함할 수 있다.

실시예에서, 상기 (b) 단계는, 상기 사용자 정보로부터 전사 후 유전자 발현 조절 인자를 결정하는 단계;를 포함할 수 있다.

실시예에서, 상기 (c) 단계는, 상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하는 단계; 및 상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하는 단계;를 포함할 수 있다.

실시예에서, 상기 (c) 단계는, 상기 사용자 정보로부터 결정된 상기 사용자의 질환이 이원 표현형인 경우, 상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하는 단계; 상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하는 단계; 및 정규 분포 모델에 기반하여 상기 가중된 다유전자 위험 점수(PRS)를 절대 위험 스케일의 비선형 변환 값으로 변환하는 단계;를 포함할 수 있다.

실시예에서, 상기 (c) 단계는, 상기 사용자 정보로부터 결정된 상기 사용자의 질환이 연속 표현형인 경우, 상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하는 단계; 및 다유전자 위험 점수(PRS) 분위수 내에서 결정된 표현형 평균 및 표준편차에 기반하여 상기 가중된 다유전자 위험 점수(PRS)를 절대 위험 스케일의 비선형 변환 값으로 변환하는 단계;를 포함할 수 있다.

실시예에서, 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 장치는, 사용자의 사용자 정보를 수신하는 통신부; 및 상기 사용자 정보로부터 표현형(phenotype) 분포 및 다유전자 위험 점수(polygenic risk score, PRS)의 예측 유용성 정보(predictive utility information)를 결정하고, 상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하는 제어부;를 포함할 수 있다.

실시예에서, 상기 제어부는, 상기 사용자 정보로부터 전사 후 유전자 발현 조절 인자를 결정할 수 있다.

실시예에서, 상기 제어부는, 상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하고, 상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출할 수 있다.

실시예에서, 상기 제어부는, 상기 사용자 정보로부터 결정된 상기 사용자의 질환이 이원 표현형인 경우, 상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하고, 상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하고, 정규 분포 모델에 기반하여 상기 가중된 다유전자 위험 점수(PRS)를 절대 위험 스케일의 비선형 변환 값으로 변환할 수 있다.

실시예에서, 상기 제어부는, 상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하고, 다유전자 위험 점수(PRS) 분위수 내에서 결정된 표현형 평균 및 표준편차에 기반하여 상기 가중된 다유전자 위험 점수(PRS)를 절대 위험 스케일의 비선형 변환 값으로 변환할 수 있다.

상기한 목적들을 달성하기 위한 구체적인 사항들은 첨부된 도면과 함께 상세하게 후술될 실시예들을 참조하면 명확해질 것이다.

그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라, 서로 다른 다양한 형태로 구성될 수 있으며, 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자(이하, "통상의 기술자")에게 발명의 범주를 완전하게 알려주기 위해서 제공되는 것이다.

본 발명의 일 실시예에 의하면, 선행 기술과의 가장 큰 차별성은 다유전자 위험 점수의 절대 위험 메트릭 스케일 변환을 통해 질병의 진행에 대한 기준선이나 기간을 제공할 수 있다.

또한, 본 발명의 일 실시예에 의하면, 다유전자 위험 점수는 질병에 대한 질병이 발생할 가능성, 즉, 절대 위험을 보여줄 수 있다.

본 발명의 효과들은 상술된 효과들로 제한되지 않으며, 본 발명의 기술적 특징들에 의하여 기대되는 잠정적인 효과들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 학습 모형 선택의 예를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 파라미터 설정의 예를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 GWAS 품질 관리 통과의 예를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 다중공선성 제거의 예를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 연결 변이 식별의 예를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 모델 예측 성능 평가의 예를 도시한 도면이다.
도 8a는 본 발명의 일 실시예에 따른 자가보고 질환의 위험 계층적 시각화의 예를 도시한 도면이다.
도 8b는 본 발명의 일 실시예에 따른 맞춤 식단 설계의 예를 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 장치의 기능적 구성을 도시한 도면이다.

본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시예들을 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.

청구범위에 개시된 발명의 다양한 특징들은 도면 및 상세한 설명을 고려하여 더 잘 이해될 수 있을 것이다. 명세서에 개시된 장치, 방법, 제법 및 다양한 실시예들은 예시를 위해서 제공되는 것이다. 개시된 구조 및 기능상의 특징들은 통상의 기술자로 하여금 다양한 실시예들을 구체적으로 실시할 수 있도록 하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다. 개시된 용어 및 문장들은 개시된 발명의 다양한 특징들을 이해하기 쉽게 설명하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다.

본 발명을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.

이하, 본 발명의 일 실시예에 따른 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법 및 장치를 설명한다.

도 1은 본 발명의 일 실시예에 따른 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법을 도시한 도면이다. 도 2는 본 발명의 일 실시예에 따른 학습 모형 선택의 예를 도시한 도면이다.

일 실시예에서, 도 1의 각 단계는 도 9의 복잡질환 발병 위험도 정보 제공 장치(900)에 의해 수행될 수 있다.

도 1을 참고하면, S101 단계는, 사용자의 사용자 정보를 수신하는 단계이다.

일 실시예에서, 사용자 정보는, 사용자 개인 정보, 유전형(genotype) 정보, 표현형 정보, 마이크로(micro) RNA 정보, 단일염기다형성(single nucleotide polymorphism, SNP)에 대한 요약 통계 정보 및 복합질환 발명과 관련된 전사 후 유전자 발현조절 인자 및 표적 유전자 세트의 요약 통계 정보 중 적어도 하나를 포함할 수 있다.

S103 단계는, 사용자 정보로부터 표현형(phenotype) 분포 및 다유전자 위험 점수(polygenic risk score, PRS)의 예측 유용성 정보(predictive utility information)를 결정하는 단계이다.

일 실시예에서, 사용자 정보로부터 전사 후 유전자 발현 조절 인자를 결정할 수 있다.

S105 단계는, 표현형 분포 및 예측 유용성 정보에 기반하여 다유전자 위험 점수(PRS)를 산출하는 단계이다.

일 실시예에서, 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하고, 전사 후 유전자 발현 조절 인자를 가중치로 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출할 수 있다.

일 실시예에서, 사용자 정보로부터 결정된 사용자의 질환이 이원 표현형인 경우, 표현형 분포 및 예측 유용성 정보에 기반하여 다유전자 위험 점수(PRS)를 산출하고, 전사 후 유전자 발현 조절 인자를 가중치로 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하며, 정규 분포 모델에 기반하여 가중된 다유전자 위험 점수(PRS)를 절대 위험 스케일의 비선형 변환 값으로 변환할 수 있다.

일 실시예에서, 사용자 정보로부터 결정된 상기 사용자의 질환이 연속 표현형인 경우, 전사 후 유전자 발현 조절 인자를 가중치로 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하고, 다유전자 위험 점수(PRS) 분위수 내에서 결정된 표현형 평균 및 표준편차에 기반하여 가중된 다유전자 위험 점수(PRS)를 절대 위험 스케일의 비선형 변환 값으로 변환할 수 있다.

일 실시예에서, 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법 및 장치에 대해 상세히 설명한다.

국가, 민족, 인종, 성별, 연령, 체질량(BMI), 음주, 흡연, 자가 보고한 질병, 가족력을 포함한 요청자의 정보를 수신할 수 있다. 여기서, 요청자는 검사 대상인 사용자를 포함할 수 있다.

요청자의 DNA시료로부터 생산된 Genotype 정보와 cDNA와 RNA시료로부터 생산된 mi-RNA(마이크로 RNA) 정보를 수신할 수 있다.

서버에 저장된 참조 표준 데이터베이스로부터 요청자의 국가, 민족, 인종, 성별, 연령, 체질량(BMI), 음주, 흡연, 자가 보고한 질병, 가족력에 대응하는 유전형(Genotype) 및 표현형(Phenotype) 요약 통계를 추출할 수 있다.

예를 들어, 참조표준 데이터베이스는 다유전자 위험 스코어(PRS) 계산을 위한 참조표준 GWAS 데이터베이스를 포함할 수 있다.

요청자가 자가 보고한 질병 기준으로 각각의 복잡질환 질병 위험에 약간 기여하는 다수의 서로 다른 단일염기다형성(Single Nucleotide Polymorphism, SNP)에 대한 요약 통계를 추출할 수 있다.

요청자가 자가 보고한 질환에 대응하는 각각의 복잡질환(예: 골다공증, 골감소증, 제2형 당뇨) 발병과 연관된 전사 후 유전자 발현조절 인자 miRNA와 표적 유전자 세트의 요약통계를 추출할 수 있다.

본 발명은 동질 집단 내에서 중심극한정리(Central Limit Theorem)에 따른 정규 분포 이론을 사용 하여 표현형(Phenotype) 분포와 다유전자 위험 점수(PRS)의 예측 유용성(Predictive Utility)을 기반으로 miRNA에 의한 전사 후 유전자 발현 조절 가중 다유전자 위험 점수(PRS)를 정의할 수 있다.

일 실시예에서, 표현형(Phenotype) 분포는, 예를 들어, 골다공증을 표현형으로 선정했을 때, 골다공증은 연속형 수치인 BMD 값이 수집된 자료의 근사된 표준정규분포를 의미할 수 있다.

일 실시예에서, 모집단의 골다공증 유병률은 표준정규분포 상에서 -2.5표준편차 밖의 환자가 모집단 분포 전체에서 차지하는 비율에 해당할 수 있다.

예를 들어, 골절과 같이 표현형이 이분형(골절 YES, 골절 NO)인 경우, 모집단의 골절 유병률은 모집단 분포 전체에서 골절 환자가 차지하는 비율에 해당할 수 있다.

데이터 입력을 출력에 복사하도록 훈련된 특수 유형의 AutoEncoder 신경망을 이용하여 데이터를 압축하고, 일련의 복잡한 통계 및 계산 알고리즘을 채택하여 위험 SNP 간의 복잡한 연관성을 복잡한 질병 표현형에 수학적으로 매핑하여 예측을 수행할 수 있다.

이원 표현형(예: 골다공증성 골절)의 경우 다유전자 위험 점수(PRS)는 표현형(Phenotype)의 모집단 유병률과 다유전자 위험 점수의 예측 효용(Predictive Utility)을 사용하여 기반으로 miRNA에 의한 전사 후 유전자 발현 조절 인자로 가중된 후, 두 가지 정규 분포의 혼합모델(Gaussian Mixture Model)로부터 절대 위험 스케일의 비선형 변환 값을 계산할 수 있다.

일 실시예에서, 예측 효용은 ‘예측 유용성 정보’ 또는 이와 동등한 기술적 의미를 갖는 용어로 지칭될 수 있다.

일 실시예에서, 다유전자 예측 점수(PRS)의 '예측 효용'은 PRS의 잠재적 임상 유용성을 탐색하기 위해 일정 기간(예: 향후10년) 절대 위험 추정과 같은 PRS를 활용한 미래 예측의 유용성을 의미할 수 있다.

일 실시예에서, miRNA에 의한, 전사 후 유전자 발현 조절 인자는전사 후 유전자 발현 조절은 RNA 수준에서 타겟 유전자 발현을 조절하는 것을 의미할 수 있다. 일 실시예에서, micro-RNA가 타겟 유전자의 전사체인 mRNA의 발현을 조절하는 인자를 의미할 수 있다.

일 실시예에서, 두 가지 정규 분포의 혼합모델은 전체 모집단 안의 하위 집단의 존재를 나타내기 위한 확률 모델을 의미할 수 있다.

일 실시예에서, 절대 위험 스케일(Absolute Risk Scale)은이벤트를 가질 수 있는 모든 사람과 비교하여 의료적 이벤트가 발생한 사람의 비율을 의미할 수 있다. 예를 들어, 100명 중 26명이 일생 동안 치매에 걸린다면 절대 위험은 26/100 또는 26%일 수 있다.

일 실시예에서, 도 2를 참고하면, 상기 모델은 계층적 베이지안 로지스틱 회귀 모형을 포함할 수 있다.

연속 표현형(예 골반 골밀도(Hip Bone Minearl Density)의 경우, 다유전자 위험 점수(PRS)는 표현형 miRNA에 의한 전사 후 유전자 발현 조절 인자로 가중된 후, 다유전자 위험 점수(PRS) 분위수 내에서 관찰된 표현형(Phenotype) 평균 및 표준 편차를 추정된 값과 비교하여 절대 위험 스케일 의 비선형 변환 값을 계산할 수 있다.

일 실시예에서, 표현형miRNA는 표현형에 연관된 타겟 유전자의 전사체인 mRNA의 발현을 조절하는 인자를 의미할 수 있다.

일 실시예에서, 전사 후 유전자 발현 조절인자는전사 후 조절은 RNA 수준에서 타겟 유전자 발현을 조절하는 것을 의미할 수 있다. 일 실시예에서, micro-RNA가 타겟 유전자의 전사체인 mRNA의 발현을 조절하는 인자를 의미할 수 있다.

일 실시예에서, 다유전자 위험 점수(PRS) 분위수, 즉, '백분위수(percentile)'는 정규 분포에서 마커의 위치를 설명하는 0에서 100까지의 범위에서 다유전자 위험 점수의 추정값을 의미할 수 있다.

일 실시예에서, 표현형 평균 및 표준 편차는,예를 들어, 골반 골밀도(Hip Bone Mineral Density)를 표현형이라 가정할 때, 골반 골밀도의 PRS는 유전자 발현에 영향을 미치는 전사 후 유전자 발현 조절 인자의 효과 크기로 가중된 가중합으로 계산될 수 있다. 이 때 산출된 골반 골밀도 PRS의 백분위수는 골반 골밀도라는 표현형의 근사적 확률분포로 나타낼 수 있다. 확률분포로 나타내면, 확률분포로부터 평균과 표준편차를 추정할 수 있다. 다만, 표현형의 종류는 다양할 수 있으며 제한되지 않는다.

일 실시예에서, 표현형 평균 및 표준 편차를 "추정된 값"과 비교하여 절대 위험 스케일을 결정할 수 있다.

예를 들어, 골반 골밀도(Hip Bone Mineral Density)를 표현형이라 가정할 때, 골반 골밀도의 PRS는 유전자 발현에 영향을 미치는 전사 후 유전자 발현 조절 인자의 효과크기로 가중된 가중합으로 계산될 수 있다. 이 때 산출된 골반 골밀도 PRS의 백분위수는 골반 골밀도라는 표현형의 근사적 확률분포로 나타낼 수 있다. 확률분포로 나타내면, 확률분포로부터 골반 골밀도의 평균과 표준편차를 추정할 수 있다. 추정된 평균 및 표준편차 값을 활용하여, 골반 골밀도가 앞으로 낮아져 향후 10년 내 골절을 입을 절대 위험 스케일을 추정할 수 있다.

유전적 및 생활 방식 위험 조합 기반의 위험 계층화로 최종 산출된 절대 위험 스케일의 비선형 변환 값을 사용자 이해가 용이한 인포그래픽으로 표현할 수 있다.

일 실시예에서, 유전적 및 생활 방식 위험 조합 기반의 변환값의 경우, 예를 들어, ‘당뇨병’을 표현형이라 할 때, ‘당뇨병’은 유전적 요인뿐만 아니라, 식이섭취 증가, 운동량 부족과 같은 생활방식에 따라 ‘당뇨병’ 발병 위험이 달라질 수 있다.

따라서 ‘당뇨병’의 PRS를 추정할 때, 당뇨병에 공통된 많은 유전적 변이 각각의 효과 크기뿐만 아니라, 연령, BMI, 엉덩이/허리둘레비율, 흡연과 같은 생활방식 요인 각각의 효과 크기까지 포함하여 가중된 합계를 계산하여 개인의 특정 질병에 대한 발병 위험을 보다 정교하게 추정할 수 있다. 추정된 발병 위험은 생활 방식의 조합에 따라 고연령/저연령, 흡연/비흡연, 고도비만/정상 등의 계층화를 통해 발병위험의 상대 크기를 비교하기 용이할 수 있다.

일 실시예에서, 최종 산출된 절대 위험 스케일의 비선형 변환 값의 인포그래픽을 요청자의 단말에 출력할 수 있다.

일 실시예에서, 선행 기술과의 가장 큰 차별성은 다유전자 위험 점수의 절대 위험 메트릭 스케일 변환을 통해 질병의 진행에 대한 기준선이나 기간을 제공할 수 있다.

일 실시예에서, 종래의 경쟁 기술의 다유전자 위험 점수는 질병에 대한 상대적 위험(Relative Risk)만을 설명할 수 있고 질병이 발생할 가능성 즉 절대 위험을 보여줄 수 없었으며, 이는 다유전자 점수의 해석 가능성 및 임상적 유용성에서 주요 제한을 나타낼 수 있다.

도 3은 본 발명의 일 실시예에 따른 파라미터 설정의 예를 도시한 도면이다.

도 3을 참고하면, 복잡질환을 반응변수로, 유전적 변이를 예측변수로, 국가, 인종, 민족, 성 별, 연령, 유전적 주성분(PC) 등을 공변량으로 설정할 수 있다.

일 실시예에서, 복합질환은 2개 이상의 단일질환에 동시에 이환된 경우로 정의될 수 있다.

일 실시예에서, 단일질환(Single disease)은 유전학의 맥락에서 질환의 유전적 원인이 단일환 질환을 의미할 수 있다.

일 실시예에서, 복잡질환(Complex Disease)은 유전학의 맥락에서 여러 유전적 변이의 상호작용으로 발병하는 질환으로, 질환의 한 종류일 수 있다. 예를 들어, 심장병, 제2형 당뇨, 만성콩팥병은 단일 유전적 원인이 아니라, 여러 유전자의 영향을 받는 대표적인 복잡질환일 수 있다.

일 실시예에서, 유전적 변이(genetic variant)는 일반적으로 염기 서열 한 쌍의 변이에 의하여 다른 형질로 표현되는 단일 염기 다형성(Single Nucleotide Polymorphism, SNP)을 의미할 수 있다.

일 실시예에서, 다유전 위험 점수(Polygenic Risk Score)는 특정한 질병에 공통된 많은 유전적 변이 각각의 효과 크기로 가중된 합계를 계산하여 개인의 특정 질병에 대한 발병 위험을 추정할 수 있다.

도 4는 본 발명의 일 실시예에 따른 GWAS 품질 관리 통과의 예를 도시한 도면이다.

도 4를 참고하면, GWAS 플랫폼에서 p-값이 1e^-5 미만인 유전자 변이를 1차 선택할 수 있다.

구체적으로, PRS에 필요한 변이체 정보가 충분한 품질 수준인지 확인하는 품질관리(Quality Control, QC) 절차가 수행될 수 있다.

첫째, 샘플 특성이 모집단 인구 특성에의 연관성이 떨어지는 샘플을 제외하는 방식으로 모형에 포함되는 모든 샘플이 고품질 데이터를 갖고 있는지 결정할 수 있다.

둘째, 표본에 대한 결측 데이터가 없는 변이체의 비율로 정의되는 샘플 호출률(call rate)이 낮은 샘플을 모형에서 제외시킬 수 있다.

셋째, 진화적 영향이 없는 안정적인 집단의 대립유전자 및 유전자형 빈도가 세대 간에 일정하게 유지된다는 HWE(Hardy-Weinberg Equilibrium) 원칙에서 벗어나는 편차가 우연한 발생이 기대되는 확률 수준인지 여부를 확인하여, 우연적이 아닌 특이한 발현인 변이체를 제외할 수 있다.

종합하면, 연관성이 모호한 샘플 제거, 호출률 0.9 미만 또는 HWE(Hardy Weinberg Equilibrium) 테스트 결과 소수 대립유전자의 수를 조건으로 모집단이 정확한 이형 접합체 확률분포 상에 있는지 확인한 유의수준의 값 1 x 10^-5 (또는 1 x 10e^-5)미만인 변이체를 제외함으로써 QC 과정이 수^{행될 수}있다.

일 실시예에서,진화적 영향이 없는 안정적인 집단의 대립유전자 및 유전자형 빈도가 세대 간에 일정하게 유지된다는 HWE 원칙에서 벗어나는 편차가 우연한 발생이 기대되는 확률 수준인지 여부를 확인하여 p-값이 1e^-5미만으로 매우 품질이 낮은 변이체를 1차적으로 선택하여 분석에서 제외한다.

도 5는 본 발명의 일 실시예에 따른 다중공선성 제거의 예를 도시한 도면이다.

도 5를 참고하면, 각 변이 주위에 50,000 염기쌍(bp)의 윈도우 내에서 두 개 이상의 중요함을 확인할 수 있다.

유전자형 변이가 발견되면 가장 작은 p- 값을 가진 변이 유지가 확인될 수 있다.

일 실시예에서, 다중공선성이란 모형에 포함된 독립변수들 간의 강한 선형적 관계를 의미하며, 만약 구축한 회귀모형에 다중공선성이 있으면 추정된 회귀계수의 표준오차는 상당히 커지게 되므로 회귀계수의 유의성 검정은 그 의미를 잃는다.

따라서, 다중공선성을 제거한다는 의미는 분산확대인자(variance inflation factor)를 확인하여 이 값이 10 이상이면 해당 독립변수는 다른 독립변수에 의존하는 변수이므로, 가장 의존적인 독립변수 순으로 회귀모형에서 제거하는 것이다.

일 실시예에서, 연관 불균형(Linkage disequilibrium, LD)은 물리적 근접성으로 인해 함께 유전될 가능성이 더 높은 인접 유전자 변이체 간의 상관 관계를 측정하여 집단 내 연관을 유도할 수 있다. 고전적인 통계 모델링에서와 같이 다중 공선성은 모형의 계수 추정의 오차 문제를 일으킬 수 있으므로 높은 LD의 모든 변이체는 "가지치기" 와 같은 방법으로 PRS 개발 과정 중에 식별되고 제거됨으로써 모형의 안정적인 계수 추정을 도울 수 있다.

도 6은 본 발명의 일 실시예에 따른 연결 변이 식별의 예를 도시한 도면이다.

도 6을 참고하면, 100,000 bp 내에서 모델의 각 변이에 가장 강력히 연결된 변이를 식별할 수 있다.

도 7은 본 발명의 일 실시예에 따른 모델 예측 성능 평가의 예를 도시한 도면이다.

도 7을 참고하면, 선택된 변이와 공변량을 특성으로 임상대상자에 대한 로지스틱회귀 모델이 사용될 수 있다.

일 실시예에서, 예측 성능을 ROC 곡선 아래 AUC 계산하여 참조표준과 비교할 수 있다.

일 실시예에서, 공변량(Covariance)은 임상의학에서 관심 있는 독립변수 이외에 종속변수에 영향을 줄 수 있는 잡음인자를 통제하고자 설정하는 변수를 의미할 수 있다.

즉, 임상시험 결과변수에 영향을 미칠 수 있는 시험대상자들의 특징을 설명하는 변수를 의미할 수 있다. 다시 말해, 관심 있는 변수가 아니라 종속변수에 영향을 미칠 수 있는 변수로, 독립변수의 잔여효과를 더 정확하게 발견하기 위해 통제되어야 하는 변수일 수 있다. 예를 들면, 시험대상자들의 성, 연령, 결혼 여부, 인종 등이 포함될 수 있다.

도 8a는 본 발명의 일 실시예에 따른 자가보고 질환의 위험 계층적 시각화의 예를 도시한 도면이다. 도 8b는 본 발명의 일 실시예에 따른 맞춤 식단 설계의 예를 도시한 도면이다.

도 8a를 참고하면, 유전적 및 생활 방식 위험 조합 기반의 위험 계층화로 건강 위험 점수 데이터 시각화하여 긍정적 행동 변화 동기를 부여할 수 있다.

도 8b를 참고하면, 유전적 및 생활 방식 조합 기반의 맞춤 식단 설계를 제공할 수 있다.

도 9는 본 발명의 일 실시예에 따른 지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 장치(900)의 기능적 구성을 도시한 도면이다. 일 실시예에서, 복잡질환 발병 위험도 정보 제공 장치(900)는 사용자 단말, 서버 또는 관리자 단말로 구현될 수 있다.

도 9를 참고하면, 복잡질환 발병 위험도 정보 제공 장치(900)는 통신부(910), 제어부(920), 저장부(930) 및 표시부(940)를 포함할 수 있다.

통신부(910)는 사용자의 사용자 정보를 수신할 수 있다.

일 실시예에서, 통신부(910)는 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 통신부(910)의 전부 또는 일부는 '송신부', '수신부' 또는 '송수신부(transceiver)'로 지칭될 수 있다.

제어부(920)는 사용자 정보로부터 표현형(phenotype) 분포 및 다유전자 위험 점수(polygenic risk score, PRS)의 예측 유용성 정보(predictive utility information)를 결정하고, 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출할 수 있다.

일 실시예에서, 제어부(920)는 적어도 하나의 프로세서 또는 마이크로(micro) 프로세서를 포함하거나, 또는, 프로세서의 일부일 수 있다. 또한, 제어부(920)는 CP(communication processor)라 지칭될 수 있다. 제어부(920)는 본 발명의 다양한 실시예에 따른 복잡질환 발병 위험도 정보 제공 장치(900)의 동작을 제어할 수 있다.

저장부(930)는 사용자 정보, 다유전자 위험 점수를 저장할 수 있다.

일 실시예에서, 저장부(930)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고, 저장부(930)는 제어부(920)의 요청에 따라 저장된 데이터를 제공할 수 있다.

표시부(940)는 다유전자 위험 점수를 디스플레이할 수 있다.

일 실시예에서, 표시부(940)는 복잡질환 발병 위험도 정보 제공 장치(900)에서 처리되는 정보를 나타낼 수 있다. 예를 들면, 표시부(940)는 액정 디스플레이(LCD; Liquid Crystal Display), 발광 다이오드(LED; Light Emitting Diode) 디스플레이, 유기 발광 다이오드(OLED; Organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; Micro Electro Mechanical Systems) 디스플레이, 터치 디스플레이 및 전자 종이(electronic paper) 디스플레이 중 적어도 어느 하나를 포함할 수 있다.

도 9를 참고하면, 복잡질환 발병 위험도 정보 제공 장치(900)는 통신부(910), 제어부(920), 저장부(930) 및 표시부(940)를 포함할 수 있다. 본 발명의 다양한 실시 예들에서 복잡질환 발병 위험도 정보 제공 장치(900)는 도 93에 설명된 구성들이 필수적인 것은 아니어서, 도 9에 설명된 구성들보다 많은 구성들을 가지거나, 또는 그보다 적은 구성들을 가지는 것으로 구현될 수 있다.

이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로, 통상의 기술자라면 본 발명의 본질적인 특성이 벗어나지 않는 범위에서 다양한 변경 및 수정이 가능할 것이다.

본 명세서에 개시된 다양한 실시예들은 순서에 관계없이 수행될 수 있으며, 동시에 또는 별도로 수행될 수 있다.

일 실시예에서, 본 명세서에서 설명되는 각 도면에서 적어도 하나의 단계가 생략되거나 추가될 수 있고, 역순으로 수행될 수도 있으며, 동시에 수행될 수도 있다.

본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라, 설명하기 위한 것이고, 이러한 실시예들에 의하여 본 발명의 범위가 한정되는 것은 아니다.

본 발명의 보호범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 이해되어야 한다.

900: 복잡질환 발병 위험도 정보 제공 장치
910: 통신부
920: 제어부
930: 저장부
940: 표시부

Claims

(a) 사용자의 사용자 정보를 수신하는 단계;
(b) 상기 사용자 정보로부터 표현형(phenotype) 분포 및 다유전자 위험 점수(polygenic risk score, PRS)의 예측 유용성 정보(predictive utility information)를 결정하는 단계; 및
(c) 상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하는 단계;
를 포함하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법.
제1항에 있어서,
상기 사용자 정보는, 사용자 개인 정보, 유전형(genotype) 정보, 표현형 정보, 마이크로(micro) RNA 정보, 단일염기다형성(single nucleotide polymorphism, SNP)에 대한 요약 통계 정보 및 복합질환 발명과 관련된 전사 후 유전자 발현조절 인자 및 표적 유전자 세트의 요약 통계 정보 중 적어도 하나를 포함하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법.
제1항에 있어서,
상기 (b) 단계는,
상기 사용자 정보로부터 전사 후 유전자 발현 조절 인자를 결정하는 단계;
를 포함하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법.
제3항에 있어서,
상기 (c) 단계는,
상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하는 단계; 및
상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하는 단계;
를 포함하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법.
제3항에 있어서,
상기 (c) 단계는,
상기 사용자 정보로부터 결정된 상기 사용자의 질환이 이원 표현형인 경우, 상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하는 단계;
상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하는 단계; 및
정규 분포 모델에 기반하여 상기 가중된 다유전자 위험 점수(PRS)를 절대 위험 스케일의 비선형 변환 값으로 변환하는 단계;
를 포함하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법.
제3항에 있어서,
상기 (c) 단계는,
상기 사용자 정보로부터 결정된 상기 사용자의 질환이 연속 표현형인 경우, 상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하는 단계; 및
다유전자 위험 점수(PRS) 분위수 내에서 결정된 표현형 평균 및 표준편차에 기반하여 상기 가중된 다유전자 위험 점수(PRS)를 절대 위험 스케일의 비선형 변환 값으로 변환하는 단계;
를 포함하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 방법.
사용자의 사용자 정보를 수신하는 통신부; 및
상기 사용자 정보로부터 표현형(phenotype) 분포 및 다유전자 위험 점수(polygenic risk score, PRS)의 예측 유용성 정보(predictive utility information)를 결정하고,
상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하는 제어부;
를 포함하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 장치.
제7항에 있어서,
상기 사용자 정보는, 사용자 개인 정보, 유전형(genotype) 정보, 표현형 정보, 마이크로(micro) RNA 정보, 단일염기다형성(single nucleotide polymorphism, SNP)에 대한 요약 통계 정보 및 복합질환 발명과 관련된 전사 후 유전자 발현조절 인자 및 표적 유전자 세트의 요약 통계 정보 중 적어도 하나를 포함하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 장치.
제7항에 있어서,
상기 제어부는,
상기 사용자 정보로부터 전사 후 유전자 발현 조절 인자를 결정하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 장치.
제9항에 있어서,
상기 제어부는,
상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하고,
상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 장치.
제9항에 있어서,
상기 제어부는,
상기 사용자 정보로부터 결정된 상기 사용자의 질환이 이원 표현형인 경우, 상기 표현형 분포 및 예측 유용성 정보에 기반하여 상기 다유전자 위험 점수(PRS)를 산출하고,
상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하고,
정규 분포 모델에 기반하여 상기 가중된 다유전자 위험 점수(PRS)를 절대 위험 스케일의 비선형 변환 값으로 변환하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 장치.
재9항에 있어서,
상기 제어부는,
상기 전사 후 유전자 발현 조절 인자를 가중치로 상기 다유전자 위험 점수(PRS)에 적용하여 가중된 다유전자 위험 점수(PRS)를 산출하고,
다유전자 위험 점수(PRS) 분위수 내에서 결정된 표현형 평균 및 표준편차에 기반하여 상기 가중된 다유전자 위험 점수(PRS)를 절대 위험 스케일의 비선형 변환 값으로 변환하는,
지능형 오믹스 기반 개인별 맞춤형 복잡질환 발병 위험도 정보 제공 장치.