KR20220053642A - 유전자 데이터 분석을 위한 컴퓨터 구현 방법 및 장치 - Google Patents

유전자 데이터 분석을 위한 컴퓨터 구현 방법 및 장치 Download PDF

Info

Publication number
KR20220053642A
KR20220053642A KR1020227010224A KR20227010224A KR20220053642A KR 20220053642 A KR20220053642 A KR 20220053642A KR 1020227010224 A KR1020227010224 A KR 1020227010224A KR 20227010224 A KR20227010224 A KR 20227010224A KR 20220053642 A KR20220053642 A KR 20220053642A
Authority
KR
South Korea
Prior art keywords
micro
mapped
variants
input data
data
Prior art date
Application number
KR1020227010224A
Other languages
English (en)
Inventor
빈센트 얀 마리 플래그놀
레이첼 무어
이바 마리아 로라 크래폴
Original Assignee
제노믹스 피엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 제노믹스 피엘씨 filed Critical 제노믹스 피엘씨
Publication of KR20220053642A publication Critical patent/KR20220053642A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 개시는 유전자 데이터 분석에 관한 것이다. 한 배열에서, 방법은 표적 표현형을 포함하는 하나 이상의 표현형과 복수의 유전적 변이들 사이의 연관의 강도들을 포함하는 입력 데이터에 대해 작동한다. 하나 이상의 독립적인 표현형-변이 연관들을 식별하기 위해 미세-매핑 알고리즘이 상기 입력 데이터의 전체 또는 서브세트에 적용된다. 각 연관에 대해 하나 이상의 미세-매핑된 변이들의 세트가 식별된다. 미세-매핑 예측 모델은 입력 데이터와 미세-매핑된 변이들의 세트를 기반으로 계산된다. 미세-매핑된 변이들의 세트의 표적 표현형에 관한 효과는 상기 입력 데이터로부터 차감되어 잔여 연관 데이터를 획득한다. 상기 표적 표현형과 복수의 유전적 변이들 사이의 추가 예측 상관관계들을 식별하기 위해 상기 잔여 연관 데이터에 기계 학습 알고리즘이 적용된다.

Description

유전자 데이터 분석을 위한 컴퓨터 구현 방법 및 장치
본 발명은 특히 관심 표현형에 대해 개선된 다유전자 위험 점수(polygenic risk score, PRS)를 획득되는 것을 가능하게 하는 맥락에서 유기체에 관한 정보를 얻기 위해 그 유기체에 관한 유전 및 표현형 데이터를 분석하는 것에 관한 것이다.
PRS는 유기체가 나타낼 수 있는 표현형에 대한 유기체의 유전된 DNA 기여도를 정량적으로 요약한 것이다. PRS는 관심 표현형과 (직접적으로 또는 간접적으로) 관련된 모든 DNA 변이들을 포함하거나 자신의 컴포넌트 부분들이 유기체의 생물학(세포, 조직 또는 기타 생물학적 유닛들, 메커니즘 또는 프로세스 포함)의 특정 측면에 더 관련이 있는 경우 그 자신의 컴포넌트 부분들을 사용할 수 있다. PRS는 유기체의 과거, 현재 및 미래 생물학의 측면들을 추론하기 위해 직접적으로 또는 그 유기체에 관한 복수의 측정 또는 기록의 일부로 사용될 수 있다. 인간 건강 및 건강 관리 개선의 맥락에서, PRS는 다음을 포함하지만 이에 국한되지 않는 다양한 실제 용도를 가진다: 질병 또는 표현형 발병 위험 예측, 표현형 발병 연령 예측, 질병 중증도 예측, 질병 하위 유형 예측, 치료에 대한 반응 예측, 개인에 대한 적절한 선별 전략 선택, 적절한 약물 중재 선택 및 다른 예측 알고리즘에 대한 사전 확률들 설정. PRS는 다른 고차원 입력 데이터(예: 이미징)로부터 예측 또는 분류를 수행하기 위해 인공 지능 및 기계 학습 접근 방식을 적용함에 있어서 입력 소스로서 직접 사용할 수 있다. PRS는 예를 들어 비유전적 데이터를 기반으로 예측 측정을 식별하기 위해 이러한 알고리즘들을 훈련시키기 위해 사용뒬 수 있다. 개인에 대한 예측 진술을 하는 데 유용할 뿐만 아니라 개인들의 집단들을 식별하기 위해 사용할 수도 있으며, 이는 다수의 개인에 대한 PRS를 계산한 다음 PRS들에 기초하여 개인들을 그룹화함으로써 위의 적용을 포함하지만 이에 국한되지는 않는다. PRS는 또한 예를 들어 관련 질병 또는 표현형을 개발할 가능성이 더 높은 개인들을 모집하여 새로운 치료법의 효능 평가를 향상함으로써 시험 설계를 최적화하기 위해 임상 시험을 위해 개인들을 선택함에 있어서 또한 도움을 줄 수 있다. PRS는 그 PRS에 대한 계산 대상인 개인들에 대한 정보는 물론 (상속 DNA의 일부를 공유하는) 그 개인들의 친척에 대한 정보도 전달한다. 표현형에 대한 개인의 DNA 영향에 대한 정보는 DNA 변이의 특정 조합을 전달하는 잠재적 영향에 대한 관련 평가에서 파생될 수 있다. 다음에서 유전적 연관 연구(genetic association study, GAS)에서 파생된 최근의 풍부한 정보에 대한 분석에 초점을 맞춘다. 이러한 연구들은 표현형의 유전적 기초에 대한 DNA 변이의 잠재적 기여를 체계적으로 평가한다.
2000년대 중반부터 GAS (일반적으로 게놈 전체 관련 연구들: GWAS 또는 단일 변이, 또는 게놈 영역의 변이을 표적으로 하는 연관 연구들, 또는 게놈의 특정 영역으로 제한된 GWAS)은 수백만 명의 개인들에서 수천 개의 (대부분 인간) 표현형들에 대해 수행되어, 유전자형들과 표현형들 사이의 수십억 개의 잠재적인 링크들을 생성한다. 그 결과인 원시 (raw) 데이터는 종종 요약 통계 데이터를 생성하기 위해 그 후에 단순화된다. (귀속형 또는 관찰형이건) 각 유전적 변이에 대해, GAS 요약 통계 데이터는 GAS의 표현형에 대한 유전 변이의 추론된 효과 크기와 그 추론된 효과 크기의 표준 오차로 구성된다. 다른 경우에는, 연구에서 개인들의 전체 유전 프로필과 그 개인들의 표현형들에 관한 정보로 구성된 개인 레벨 데이터가 직접적으로 사용 가능할 수 있다. 그러나, 개인 레벨 데이터는 일반적으로 개인 데이터의 프라이버시에 관한 보호 요구 사항으로 인해 널리 이용 가능하지 않다.
다음에 우리는 표현형을 단일 연구를 구비한 동의어로서 참조한다. 그러나, 동일하거나 유사한 표현형에 대한 여러 다른 연구들로부터의 또는 여러 다른 표현형들이 측정된 단일 집단으로부터의 데이터가 이용 가능한 경우가 많다.
PRS는 일반적으로 각각이 작은 개별 효과를 갖는 많은 수의 유전적 변이들의 효과들을 집계한 것으로 구성되어, 관심 특성에 대한 집계 예측기를 구축한다. 그런 점수에 포함된 변이들은 그 변이들이 특성에 직접 (약하지만 직접적으로) 영향을 미친다는 의미에서 "인과적 변이"이거나 "태그 변이"일 수 있으며, 이는 그 변이들이 인과적이지만 태그 변이 그 자체는 표현형에 직접적인 영향을 미치지 않는 알 수 없는 다른 변이들과 강한 상관관계가 있음을 의미한다.
PRS는 개인 레벨 데이터 또는 요약 통계 데이터를 사용하여 계산될 수 있다. PRS 구축을 위한 전략이 확장되고 있지만 정확한 PRS를 구축하기 위한 잘 받아들여진 일반적인 접근 방식은 기본 생물학적 연관들을 가장 잘 포착하는 변이들의 조합을 조사함으로써 모든 연관들 영역에서 신호를 디컨볼루션하는 것으로 구성된다. 이 프로세스는 각 연관에 대해 확률적 가중치들을 각 변이에 할당하여 어느 변이들이 또는 어느 변이가 직접 원인이 될 가능성이 있는가를 설명한다. 이 프로세스를 "미세-매핑"이라고 하며, 이 작업을 달성하기 위해 여러 전략들이 이전에 제안되었다 (예를 들어, Benner 등의 Bioinformatics 2016, 15;32(10):1493-1501 참조).
연관들의 수는 단일 잠재적 연관을 포함하는 많은 게놈 영역들과 함께 변할 수 있으며, 일부 게놈 영역들은 여러 개의 독립적인 연관들을 포함할 것이다 (드물지만 최대 10개가 보고됨). 어떤 영역의 모든 연관들을 담당하는 변이들의 올바른 조합을 식별함에 있어서 기술적인 문제는 이러한 변이들이 서로 상관될 수 있다는 것이다. 상관 관계가 클수록 이러한 상관 관계를 분석하는 데 더 많은 샘플들이 필요할 것이다.
PRS를 구축하는 일부 도구들은 요약 통계 데이터의 이점을 활용하도록 설계되었다. 이러한 접근 방식 중 하나는 프루닝 및 임계값 설정 (pruning and thresholding)으로 언급된다: 가장 연관성이 높은 변이가 PRS에 기여하도록 선택되고 상관성이 높은 변이들이 제거된다. 나머지 변이들 중에서 가장 연관성이 높은 변이들이 그 후에 선택되고, 그 나머지 변이들의 중요도가 미리 정의된 임계값 아래로 떨어질 때까지 상기 프로세스가 반복된다. LDpred 소프트웨어(https://github.com/bvilhjal/ldpred)에 의해 대중화된 추가의 접근 방식은 게놈 전체에서 그럴듯한 변이들의 다중 랜덤 선택들을 반복하고, 변이들이 선택되거나 제거됨에 따라 잔여 신호를 추정한다.
요약 통계 데이터 기반 전략의 장점은, 개인 레벨 데이터 공유에 대한 제한이 없다는 것은 과학 커뮤니티에서 훨씬 더 큰 샘플 크기들을 사용할 수 있음을 의미한다는 것이다. 이것은 현재 PRS 설계의 대부분이 이러한 대규모 요약 통계 데이터 세트들을 기반으로 하는 이유이다.
그러나, 모든 요약 통계 데이터 기반 방법들의 경우, 상관된 변이들은 변이들 간의 상관 관계들이 예상되는 것을 설명하는 외부 데이터 소스를 참조하여 처리된다. 유전적 변이들 사이의 상관 관계 패턴은 연쇄 불균형(linkage disequilibrium, LD)이라고 한다. 이러한 외부 데이터 소스들의 상관 관계는 요약 통계 데이터를 생성하는 데 사용된 개인 레벨 데이터에서 획득될 수 있을 상관 관계와 완벽하게 일치하지 않는다. 이것은 정확한 상관 관계가 무엇이어야 하는가에 관한 불확실성으로 인해 미세-매핑 절차에 추가 불확실성을 도입한다. 따라서, 요약 통계 데이터 기반 미세-매핑은 기본 LD 패턴에 관한 불확실성에 의해 근본적으로 제한된다.
LD의 패턴을 설명하기 위해 외부 데이터세트에 의존하는 것의 다른 한계는 다른 모집단들이 LD의 독특한 패턴을 가지고 있다는 것이다. 그러므로, 한 모집단에 대한 추론은 다른 모집단들에 대해 정확하지 않을 수 있다. 즉, 참조 LD 데이터 세트를 기반으로 파생된 PRS들은 모집단 변동성에 대해 제한된 견고성을 제공한다.
본 발명의 목적은 유기체에 관한 유전 데이터의 분석을 개선하고 그리고/또는 개인들에 대해 보다 강력하며 그리고/또는 정확한 PRS들이 획득되는 것을 허용하는 것이다.
LD의 패턴은 모집단마다 다르지만, 한 모집단에서 특성이나 질병에 영향을 미치는 변이는 일반적으로 상이한 모집단들 내 동일한 특성/질병에도 영향을 미칠 것이다. 따라서, 미세-매핑 기술을 사용하여 원인 변이나 변이들 또는 원인 변이나 변이들를 포함하거나 태그를 지정할 가능성이 있는 변이들의 세트들을 식별하는 것은 특히 모집단 변동성에 대한 견고성을 증가시켜 PRS를 보다 정확하게 만들 것이다.
그러나, 모든 변이들이, 특히 표적 표현형에 작은 영향을 미치는 많은 수의 변이들이 미세-매핑될 수 있는 것은 아니다. 따라서, 어떤 변이들이 원인인지에 관해 정확하게 설명할 필요가 없고 예측 문제에만 초점을 맞춘 대체 기술들도 PRS 구성에 유용한다.
따라서 질병을 예측하거나 특정 약물이나 치료에 대한 개인의 반응을 예측함에 있어서 잠재적으로 높은 임상적 유용성이 있는 PRS의 정확한 유도는 미세-매핑의 이점을 활용하는 통계 기술의 이점을 얻을 수 있으며, 적절한 경우 대체 기계 학습 기술의 활용을 또한 허용한다.
본 발명의 한 측면에 따르면, 유기체에 관한 정보를 획득하기 위해 상기 유기체에 관한 유전 데이터를 분석하는 컴퓨터 구현 방법이 제공되며, 상기 방법은: 표적 표현형을 포함하는 하나 이상의 표현형과 유기체의 게놈의 관심 영역 내 복수의 유전적 변이들 사이의 연관의 강도들을 포함하는 입력 데이터를 수신하는 단계; 관심 영역 내에서 하나 이상의 독립적인 표현형-변이 연관들을 식별하기 위해 상기 입력 데이터의 전체 또는 서브세트에 미세-매핑 알고리즘을 적용하는 단계로, 복수의 유전적 변이들로부터 하나 이상의 미세-매핑된 변이들의 세트를 각 연관에 대해 식별하는 단계, 및 각각의 미세-매핑된 변이에 대해 상기 표현형-변이 연관에 대한 원인일 추정된 확률을 결정하는 단계를 포함하며, 상기 세트 내의 미세-매핑된 변이들에 대한 확률들의 합은 1인, 단계; 상기 입력 데이터 및 미세-매핑된 변이들의 세트에 기초하여 미세-매핑된 변이들의 세트의 표적 표현형에 관한 효과를 정량화하는 미세-매핑 예측 모델을 계산하는 단계; 잔여 연관 데이터를 획득하기 위해 상기 미세-매핑 예측 모델을 사용하여 상기 입력 데이터로부터 미세-매핑된 변이들의 세트의 표적 표현형에 관한 상기 효과를 차감하는 단계; 그리고 상기 표적 표현형과 상기 복수의 유전적 변이들 사이의 추가 예측 상관관계들을 식별하기 위해 상기 잔여 연관 데이터에 기계 학습 알고리즘을 적용하는 단계를 포함한다.
미세-매핑 기술을 사용하여 표적 표현형에 대한 잠재적 웡인인 미세-매핑된 변이들을 식별하고, 그 미세-매핑된 변이들의 효과가 설명된 후 남아 있는 잔여 신호를 (잔여 연관 데이터를 통해) 추가로 분석함으로써, 상기 방법은 상기 데이터에 존재할 수 있는 추가적인 약한 상관 관계들을 고려할 수 있다. 이러한 추가 상관 관계를 포함시키는 것은 상기 모델의 예측 정확도를 향상시킨다.
실시예에서, 상기 연관의 강도들은 상기 표적 표현형에 대한 복수의 유전적 변이들 각각의 추정된 효과 크기 및 추정된 효과 크기들의 표준 오차를 포함한다. 추정된 효과 크기들 및 그 크기들의 오차들은 다수의 연구에서 요약 통계 데이터로 널리 이용 가능하며, 그래서 많은 데이터에 접근하는 것을 가능하게 한다.
일 실시예에서, 입력 데이터를 수신하는 단계는: 복수의 개인들 각각에 대한 유전자형 및 대응하는 표현형들을 포함하는 개인 레벨 데이터를 수신하는 단계; 그리고 상기 개인 레벨 데이터를 사용하여 상기 표적 표현형에 대한 복수의 유전적 변이들 각각의 추정된 효과 크기 및 그 추정된 효과 크기들 각각의 표준 오차를 결정하는 단계를 포함한다. 개인 레벨 데이터는, 요약 통계 데이터에 존재할 수 있는 영역 내의 변이들 간의 상관관계들에 관한 기본 가정들에 의해 영향을 받지 않아 의도하지 않은 편향 또는 오류를 도입할 가능성을 줄이기 때문에, 일부 실시예들에서 사용될 수 있다.
실시예에서, 상기 미세-매핑된 변이들의 세트를 식별하는 것은 반복 방법을 사용하여 수행되며, 각 반복은: 이전에 식별된 임의의 미세-매핑된 변이와 상이한 게놈의 영역 내의 미세-매핑된 변이를 상기 입력 데이터에 기초하여 식별하는 단계; 상기 게놈의 영역 내의 유전적 변이들 간의 상관관계들의 매트릭스를 사용하여, 이미 식별된 미세-매핑된 변이들의 표적 표현형에 관한 효과를 설명하기 위해 상기 입력 데이터를 업데이트하는 단계; 그리고 상기 업데이트된 입력 데이터에 기초하여 추가 반복을 수행할지 여부를 결정하는 단계를 포함한다. 반복적인 접근 방식을 사용하여, 단일 미세-매핑된 변이으로 설명되지 않는 잔여 신호에서 여러 미세-매핑된 변이들이 식별될 수 있으므로, 요약 데이터에 있는 신호들의 사용을 극대화한다.
일 실시에에서, 미세-매핑된 변이 세트를 식별하는 단계는 표적 표현형에 영향을 미치는 것으로 알려진 복수의 도구 특성들을 사용하는 단계를 포함하고, 도구 특성들의 사용은: 상기 도구 특성들에 대한 미세-매핑된 변이들의 세트를 결정하는 단계; 그리고 상기 복수의 도구 특성들과 상기 표적 표현형 사이의 관계에 기초하여, 상기 표적 표현형에 대한 미세-매핑된 변이들의 세트에 상기 도구 특성들에 대한 하나 이상의 미세-매핑된 변이들 각각을 포함할지 여부를 결정하는 단계를 포함한다. 상기 복수의 도구 특성들과 표적 표현형 사이의 관계는 상기 도구 특성들과 표적 표현형 사이의 잠재적으로 복잡한 연관의 패턴들을 고려할 수 있다. 대안적으로 또는 추가로, 다른 실시예들에서, 미세-매핑된 변이들의 세트를 식별하는 것은 표적 표현형에 영향을 미치는 것으로 알려진 하나 이상의 직접 원인 도구 특성들에 대해 미세-매핑된 변이들의 세트를 식별하는 것을 포함한다. 이러한 경우 여러 도구 특성과 상기 목표 표현형 간의 복잡한 연관들의 패턴들을 고려할 필요가 없을 수 있다.
도구 특성들을 사용하면 유전 변이들가 상기 목표 표현형에 미치는 영향은 적지만 도구 특성에는 더 큰 영향을 미치는 표현형에 대해 미세-매핑된 변이들을 결정하는 정확도를 향상시킬 수 있다.
일 실시예에서, 상기 미세-매핑 예측 모델을 계산하는 단계는: 미세-매핑된 변이들의 세트의 하나 이상의 도구 특성들에 관한 효과 크기들을 상기 하나 이상의 도구 특성들에 대해 결정하는 단계, 그리고 상기 도구 특성들에 관한 효과 크기들과 상기 표적 표현형에 대한 효과 크기들 사이의 미리 결정된 관계에 기초하여 상기 표적 표현형에 대한 미세-매핑된 변이들의 세트에 포함된 기기 특성들에 대한 상기 미세-매핑된 변이들 각각의 표적 표현형에 대해 효과 크기를 결정하는 단계를 포함한다. 도구 특성에 관한 유전적 변이의 효과가 상기 목표 표현형보다 큰 경우, 그 도구 특성들은 효과 크기들의 추정을 개선하기 위해 사용할 수 있다. 이는 도구 특성과 표적 표현형 간의 관계가 잘 특성화되어 있는 경우 특히 효과적일 수 있다.
한 실시예에서, 미세-매핑된 변이들의 세트의 표적 표현형에 관한 효과는 기계 학습 알고리즘을 사용하여 추론된다. 이러한 실시예에서, 상기 미세-매핑된 변이들의 세트 및 이들의 대응 한계 효과 크기들은 효과 크기를 생성하기 위해 기계 학습 알고리즘에 입력되며, 그래서 상기 잔여 연관 데이터가 미세-매핑된 변이들의 세트에만 대응하는 한계 효과 크기들이도록 한다. 상기 미세-매핑된 변이들의 세트는 상기 표적 표현형에 대한 원인일 높은 가능성을 가진 것으로 알려진 하나 이상의 변이들을 추가로 포함할 수 있다.
이것은, 원인일 가능성이 가장 높은 변이들에 집중하여 기계 학습 알고리즘이 적용되는 유전 변이들의 수를 줄인다. 이것은 계산 부하를 줄이고 상기 방법의 효율성을 향상시킨다.
한 실시예에서, 연관의 강도들은 상기 표적 표현형에 대한 복수의 유전적 변이들 각각의 추정된 효과 크기, 및 추정된 효과 크기들 각각의 표준 오차를 포함하며; 그리고 상기 미세-매핑 예측 모델은 미세-매핑된 변이들 각각에 대한 표적 표현형에 관한 미세-매핑된 효과 크기를 포함하며, 상기 미세-매핑된 효과 크기는 상기 미세-매핑된 변이들이 상기 표현형-변이 연관에 대한 원인일 추정된 확률을 고려하여 상기 미세-매핑된 변이들의 추정된 효과 크기로부터 계산된다. 원인일 확률에 따라 미세-매핑된 변이들의 효과 크기들을 조정하는 것은, 미세-매핑된 변이가 원인일 낮은 확실성을 가지면 그 미세-매핑된 변이의 중요성이 과대평가되지 않다는 것을 보장한다.
한 실시예에서, 연관의 강도들은 상기 표적 표현형에 대한 복수의 유전적 변이들 각각의 추정된 효과 크기, 및 그 추정된 효과 크기들 각각의 표준 오차를 포함하며; 그리고 상기 입력 데이터로부터 미세-매핑된 변이들의 세트의 표적 표현형에 관한 상기 효과를 차감하는 단계는 상기 입력 데이터의 복수의 유전적 변이들 각각에 관한 잔여 효과 크기를 획득하는 단계를 포함하며, 상기 잔여 연관 데이터는 잔여 효과 크기들을 포함하며, 여기에서, 등분산 (equal variance)을 보장하기 위해 상기 효과 크기들을 적절하게 재정규화한 후, 유전적 변이
Figure pct00001
에 대한 잔여 효과 크기
Figure pct00002
는 다음과 같이 주어지며:
Figure pct00003
여기에서
Figure pct00004
는 유전적 변이
Figure pct00005
의 추정된 한계 효과 크기이며,
Figure pct00006
는 미세-매핑된 변이체들 수이며,
Figure pct00007
는 변이 j가 원인인 확률이며,
Figure pct00008
는 상기 표적 표현형에 관한
Figure pct00009
번째 미세-매핑된 변이의 미세-매핑된 효과 크기이며, 그리고
Figure pct00010
는 상기
Figure pct00011
번째 미세-매핑된 변이 및 유전적 변이 i 사이의 상관관계이다.
위의 접근 방식은 기계 학습 알고리즘에 의한 추가 분석을 위해 게놈의 관심 영역에 있는 변이들의 잔여 효과를 명확하게 식별할 수 있도록 한다.
한 실시예에서, 상기 입력 데이터는 복수의 상이한 유전 연구들로부터 유래되며, 그리고 상기 잔여 연관 데이터에 기계 학습 알고리즘을 적용하는 상기 단계는 상기 상이한 유전 연구들 사이의 표적 표현형 그리고 각 유전적 변이 사이의 연관의 강도의 일관성에 종속하는 표적 표현형에 대해 상기 복수의 유전적 변이들 각각이 원인일 사전 확률을 사용하는 단계를 포함한다. 기계 학습 알고리즘을 위해 비-플랫 사전 (non-flat prior)을 사용하면 특정 데이터가 신뢰할 수 있다는 확신에 관한 추가 정보를 고려하여 상기 방법의 정확도를 향상시킬 수 있다.
실시예에서, 기계 학습 알고리즘을 잔여 연관 데이터에 적용하는 단계는, 관심 지역 내 복수의 복수의 유전적 변이들의 게놈 주석들에 의존하는 표적 표현형에 대한 원인인 복수의 유전적 변이들 각각에 대한 사전 확률을 사용하는 것을 포함한다. 게놈 주석을 포함하면 특정 변이들이 표적 표현형의 원인이 될 가능성에 관한 추가 데이터를 제공하여, 효과 크기를 결정하는 것을 개선한다.
한 실시예에서, 상기 방법은 미세-매핑 예측 모델 및 기계 학습 알고리즘에 의해 식별된 추가 예측 상관 관계로부터의 유전 데이터를 사용하여 상기 표적 표현형에 대한 상기 개인용 다유전자 위험 점수를 계산하는 단계를 추가로 포함한다.
상기 기계 학습 알고리즘에 의해 식별된 추가 상관 관계를 설명하면 상기 방법이 미세-매핑된 변이들의 세트에 의해 설명되지 않는 잔여 신호들을 고려하는 것을 허용함으로써 PRS의 정확도를 향상시킨다.
한 실시예에서, 상기 입력 데이터는 상기 유기체의 복수의 상이한 모집단들로부터 유래되며, 상기 미세-매핑 예측 모델을 계산하는 것이 상이한 모집단들에 대응하는 상기 입력 데이터의 부분들에 대해 개별적으로 수행되어 다수의 개별 모집단-매칭 미세-매핑 예측 모델을 획득하며; 그리고 상기 잔여 연관 데이터에 상기 기계 학습 알고리즘을 적용하는 것은 상이한 모집단들에 대응하는 상기 입력 데이터의 부분들에 대해 개별적으로 수행되어 모집단-매칭 추가 예측 상관 관계들의 다중 개별 세트들을 획득하는 것 중 어느 하나 또는 둘 모두가 충족된다.
특정 모집단들과 일치하는 미세-매핑 예측 모델 및 추가 잔여 예측 상관 관계들의 세트를 제공하면 상기 방법이 게놈의 관심 영역 내에서 연쇄 불균형(변이들 간의 상관 관계)에서의 가능한 변이들을 설명할 수 있다.
한 실시예에서, 상기 방법은 상이한 모집단들의 혼합물로부터의 유전자들을 갖는 개인으로부터 입력 데이터를 수신하는 단계; 그리고 상기 개인에 대한 다유전자 위험 점수를: 다중 모집단-매칭 미세-매핑 예측 모델들 각각을 상기 모집단-매칭 미세-매핑 예측 모델의 모집단과 일치하는 입력 데이터의 대응 부분에 매칭하며, 각 매칭된 미세-매핑 예측 모델을 상기 입력 데이터의 상기 대응 부분에 적용함; 그리고 모집단-매칭 추가 예측 상관 관계들의 다중 세트들 각각을 상기 모집단-매칭 추가 예측 상관 관계들의 세트의 모집단과 일치하는 입력 데이터의 대응 부분에 매칭하며, 추가 예측 상관 관계들의 각 매칭된 세트를 상기 입력 데이터의 상기 대응 부분에 적용함 중 어느 하나 또는 둘 모두를 수행하여 상기 개인에 대한 다유전자 위험 점수를 계산하는 단계를 더 포함한다.
다수의 미세-매핑 예측 모델들 및/또는 개인의 입력 데이터의 상이한 여러 부분들과 일치하는 추가 잔여 예측 상관 관계들의 세트들을 사용하여 개인에 대한 다유전자 위험 점수를 계산하는 것은 상기 방법이 상이한 모집단들과 연관된 변이들 사이의 상관 관계들에서의 체계적인 차이들을 고려하는 보다 정확한 예측 위험 점수를 제공하는 것을 허용하도록 한다.
한 실시예에서, 상기 방법은 상이한 모집단들 중 하나로부터의 유전자들을 주로 갖는 개인으로부터 입력 데이터를 수신하는 단계; 그리고 상기 개인에 대한 다유전자 위험 점수를: 상기 개인으로부터의 모든 입력 데이터에 모집단-매칭 미세-매핑 예측 모델을 적용함 - 상기 모집단-매칭 미세-매핑 예측 모델은 상기 개인의 모집단에 매칭됨; 그리고 상기 개인으로부터의 모든 입력 데이터에 모집단-매칭 추가 예측 상관 관계들의 세트를 적용함 - 상기 모집단-매칭 추가 예측 상관 관계들의 세트는 상기 개인의 모집단에 매칭됨, 중 어느 하나 또는 둘 모두를 수행하여 계산하는 단계를 더 포함한다.
미세-매핑 예측 모델 및 개인의 모집단과 일치하는 추가 잔여 예측 상관 관계의 세트들을 사용하여, 상기 방법이 상이한 모집단들과 연관된 변이들간 상관관계들에서의 쳬계적인 차이들을 고려하는 더 정확한 예측 위험 점수를 제공하도록 허용한다.
실시예들에서, 상기 미세-매핑 알고리즘에 의한 상기 하나 이상의 미세-매핑된 변이들을 식별하는 것은 복수의 유전적 변이들 그리고 상기 표적 표현형 이외의 표현형들 간의 연관을 고려한다.
다른 표현형들과의 상관 관계에 관한 정보를 사용하면 미세-매핑된 변이들 및 그것들의 효과 크기들을 식별하는 데 사용할 수 있는 사용 가능한 정보의 양을 최대화한다. 이는 상기 방법의 결과들의 정확도를 더욱 향상시킨다.
대안적인 측면에 따르면, 유기체에 관한 정보를 획득하기 위해 상기 유기체에 관한 유전 데이터를 분석하는 장치가 제공되며, 상기 장치는: 상기 유기체의 게놈의 관심 영역에서 표적 표현형을 포함하는 하나 이상의 표현형들과 복수의 유전적 변이들 사이의 연관의 강도들을 포함하는 입력 데이터를 수신하도록 구성된 수신 유닛; 그리고 데이터 처리 유닛을 포함하며, 상기 데이터 처리 유닛은: 복수의 유전적 변이들로부터 하나 이상의 미세-매핑된 변이들의 세트를 각 연관에 대해 식별하며, 그리고 각각의 미세-매핑된 변이에 대해 상기 표현형-변이 연관에 대한 원인일 추정된 확률을 결정함으로써, 관심 영역 내에서 하나 이상의 독립적인 표현형-변이 연관들을 식별하기 위해 상기 입력 데이터의 전체 또는 서브세트에 미세-매핑 알고리즘을 적용하도록 구성되며, 상기 세트 내의 미세-매핑된 변이들에 대한 확률들을 합하면 1이며; 상기 입력 데이터 및 미세-매핑된 변이들의 세트에 기초하여 미세-매핑된 변이들의 세트의 표적 표현형에 관한 효과를 정량화하는 미세-매핑 예측 모델을 계산하도록 구성되며; 상기 미세-매핑 예측 모델을 사용하여, 상기 입력 데이터로부터 상기 미세-매핑된 변이들의 세트의 타겟 표현형에 관한 효과를 차감하도록 구성되어 잔여 연관 데이터를 획득하며; 그리고
상기 표적 표현형과 상기 복수의 유전적 변이들 사이의 추가 예측 상관관계들을 식별하기 위해 상기 잔여 연관 데이터에 기계 학습 알고리즘을 적용하도록 구성된다.
본 발명의 실시예들은 첨부 도면을 참조하여 단지 예로서 추가로 설명될 것이다.
도 1은 유기체에 관한 정보를 얻기 위해 유전 데이터를 분석하는 방법을 도시하는 흐름도이다.
도 2는 유기체에 관한 정보를 얻기 위해 유전 데이터를 분석하는 장치를 도시한다.
도 3은 관상동맥질환(coronary artery disease, CAD)과 저밀도 지단백(low-density lipoprotein, LDL)의 효과 크기를 비교한 그래프이다.
도 4는 6번 염색체의 LPA 영역에서 LDL과 연관된 미세-매핑된 변이들을 식별하기 위한 4개의 개별적인 연관 신호들을 식별하기 위한 단계적 순방향 회귀 분석의 단계들을 나타내는 4개의 그래프를 보여준다.
도 5는 도 4에서 식별된 4개의 연관 신호들에 대한 관절 대 변연 LDL 효과 크기 추정을 도시한 그래프이다.
도 6은 도 4 및 5의 분석을 사용하여 얻은 잔여 연관 데이터에 LDpred 기계 학습 알고리즘을 적용하여 얻은 6번 염색체의 LPA 영역에 대한 CAD PRS 가중치들을 도시한 그래프이다.
도 7은 사전 미세-매핑 단계 없이 LDpred 기계 학습 알고리즘을 CAD 변이 데이터에 직접 적용하여 얻은 염색체 6의 LPA 영역에 대한 CAD PRS 가중치들을 도시한 그래프이다.
본 개시의 실시예들은 유기체에 관한 정보를 획득하기 위해 유기체에 관한 유전 데이터를 분석하는 컴퓨터 구현 방법에 관한 것이다. 도 1은 이러한 방법들의 프레임워크를 도시한다. 도 2는 상기 방법들을 수행하기 위한 장치(6)를 도시한다.
단계 S1에서, (예를 들어, 장치(6)의 수신 유닛(8)에 의해) 입력 데이터(2)가 수신된다. 수신 유닛(8)은 데이터 통신 인터페이스를 포함할 수 있다. 상기 데이터 통신 인터페이스는 입력 데이터(2)가 장치(6)의 데이터 처리 유닛(10)에 제공되는 것을 허용한다. 데이터 처리 유닛(10)은 후술되는 데이터 처리 기능을 수행하도록 구성된 컴퓨터 하드웨어, 펌웨어 및/또는 소프트웨어의 임의의 적절한 조합을 포함할 수 있다. 컴퓨터 판독 가능 매체에 옵션으로 제공되는 컴퓨터 프로그램은 아래에 설명된 방법들 중 임의의 것을 수행하기 위한 명령어들을 포함하여 제공될 수 있다. 장치(6)는 독립형 유닛(예를 들어, 단일 PC 또는 워크스테이션)으로 도시되지만 이것이 본질적인 것은 아니다. 다른 실시예에서, 장치(6)는 네트워크에 의해 연결된 다수의 컴퓨터들을 포함하는 분산 컴퓨팅 시스템을 포함한다.
일부 실시예들에서, 상기 입력(2)은 표적 표현형을 포함하는 하나 이상의 표현형과 유기체의 게놈의 관심 영역 내 복수의 유전적 변이들 사이의 연관의 강도들을 포함한다. 일부 실시예에서, 입력 데이터(2)는 GWAS 요약 통계 및 개인 레벨 데이터 중 하나 또는 둘 다를 포함한다. 아래에서 더 자세히 설명되는 바와 같이, 상기 방법은 (i) 표적 표현형에 직접적인 인과적 효과가 있다는 높은 신뢰도로 변이들 (미세-매핑된 변이들라고 함)을 식별하고; (ii) 고신뢰 변이들에 관한 컨디셔닝 및/또는 개인들에 대한 특성 위험 예측(예: PRS의 형태임) 후에 잔여 연관 데이터(이는 잔여 신호로 지칭될 수 있으며 그리고/또는 잔여 신호로부터 파생될 수 있음)를 획득하기 위해 상기 입력 데이터(2)를 사용할 수 있다. 상기 방법은 유기체가 인간인 시시예들에서 사용될 때 특히 유리하다.
상기 표적 표현형은, GWAS의 주제였거나 연관된 개인 레벨 유전 데이터가 이용 가능한 관심 표현형일 수 있다. 이러한 표현형의 예는 다양하며 다음을 포함한다: 유전자(및 관련 뉴클레오티드 서열)의 발현 레벨 및 발현 조절; 후성 유전적 특성(예: 뉴클레오티드 변이, 염색체 형태); 단백질 또는 펩티드의 풍부함 레벨; 단백질 또는 펩티드의 기능 및/또는 분자 구조; 유기체 내 분자의 양(예: 약물, 호르몬, DNA 분자 또는 RNA 분자, 대사산물, 비타민); 생화학적 및 대사 과정의 특성(예: 기초 대사율, 프로트롬빈 시간, 활성화된 부분 트롬보플라스틴 시간); 세포 형태 및 기능(예: 적혈구 평균 미립자 부피, 절대 호중구 수); 조직 형태 및 기능(예: 골밀도, 모발 색상); 기관 및 기관 시스템 형태 및 기능(예: 좌심실 박출률, 강제 폐활량); 외부 자극 또는 자극(예: 빛, 소리, 터치 또는 기타 감각 입력)에 대한 모든 반응; 물질 또는 병원체에 대한 노출에 대한 모든 반응(예: 식이 입력, 약물, 가스, 바이러스, 박테리아); 행동 및 생활 방식 특성(예: 흡연, 알코올 소비, 직업); 생식 및 생애 과정의 특성 및 기능(예: 초경 연령, 태반 중량, 교육 연수); 질병 또는 상태(예: 당뇨병, 심혈관 질환, 비만)의 발병, 궤적 및 예후; 측정 가능한 해부학적 특성(예: 체질량 지수, 제지방 근육량, 체지방률); 측정 가능한 생리학적 또는 기능적 특성(예: 심박수, 혈압, 지능); 및 측정 가능한 심리적 또는 인지적 특성(예: 유동성 지능, 정신병적 증상의 척도). 이러한 측정치들은 절대적이거나 상대적일 수 있다. 표현형은 종종 특성이라고도 언급된다.
단계 S2에서, 입력 데이터(2)의 전체 또는 서브세트에 미세-매핑 알고리즘이 적용된다. 일 실시예에서, 상기 미세-매핑 단계는 원인일 높은 신뢰성을 가진 변이들을 식별하여, 미세-매핑된 변이들의 세트를 획득한다. 단계 S2에 관한 자세한 내용은 나중에 제공된다.
단계 S3에서, 입력 데이터(2) 및 미세-매핑된 변이들에 기초하여 미세-매핑 예측 모델이 계산된다. 상기 미세-매핑 예측 모델은 목표 표현형에 미세-매핑된 변이들의 효과 크기를 수량화한다. 효과 크기는 주어진 변이가 질병 위험 (또는 더 일반적으로는 주어진 표현형을 갖거나 발달시킬 "위험")에 얼마나 영향을 미치는지를 나타낸다. 예를 들어, 1.2의 효과 크기는 해당 변이에 대해 위험 대립 유전자 (각 개인에 대해 0, 1 또는 2로 인코딩될 수 있음) 당 위험이 20% 증가함을 의미한다. 따라서 효과 크기들의 정량화는 미세-매핑 예측 모델이 개인의 유전 데이터를 기반으로 개인에 대한 예측을 할 수 있게 힌다. S3에 대한 자세한 내용은 나중에 주어진다.
단계 S4에서, 상기 미세-매핑 예측 모델이 사용되어, 입력 데이터(2)로부터 미세-매핑된 변이들의 세트의 표적 표현형에 관한 효과를 차감하여 잔여 연관 데이터를 획득한다. 단계 S4에 대한 자세한 내용은 나중에 제공된다.
단계 S5에서, 머신 러닝 알고리즘은 상기 목표 표현형과 입력 데이터(2)의 복수의 유전적 변이들 사이의 추가 예측 상관관계를 식별하기 위해 상기 잔여 연관 데이터에 적용된다. 아래의 특정 예에서, LDpred라고 불리는 기계 학습 알고리즘이 사용된다. LDpred는 미세-매핑 및 PRS 생성 분야에서 잘 알려져 있다. 구현용 소프트웨어는 https://github.com/bvilhjal/ldpred에서 이용 가능하다. (미세-매핑된 변이들의 효과가 고려된 후) 추가 예측 상관 관계들은 미세-매핑된 변이들 이외의 변이들과 연관된 효과 크기들을 정량화할 수 있으며, 그래서 상기 미세-매핑 예측 모델만이 개인의 유전 데이터에 적용되되었다면 개인에 관한 예측들이 상대적으로 개선되도록 한다.
단계 S6에서, PRS 모델이 평가된다. 상기 PRS 모델은 부분적으로는 단계 S3의 미세-매핑 예측 모델로부터 그리고 부분적으로는 단계 S5에서 수행된 기계 학습으로부터의 추가 예측 상관 관계로부터 파생될 수 있다. 아래에서 설명되는 바와 같이, 상기 미세-매핑 예측 모델과 상기 기계 학습으로부터의 추가 예측 상관의 조합은 변이들에 걸친 가중치 합의 형태를 취하는 PRS를 계산하기 위한 레시피를 정의할 수 있으며, 여기에서 미세-매핑 변이들에 대한 가중치들은 상기 미세-매핑 예측 모델에 의해 제공되고 다른 변이들에 대한 가중치들은 상기 기계 학습으로부터의 추가 예측 상관 관계들에 의해 제공된다. 이것은 훈련된 기계 학습 알고리즘이 변이들에 걸친 그런 가중치 합의 면에서 해석될 수 있는 경우에 가능하다. 다른 실시예들에서, 상기 훈련된 기계 학습 알고리즘은 더 복잡할 수 있고 따라서 상기 PRS 모델의 일부로서 상이한 방식으로 표현될 수 있다.
단계 S6에서 계산된 PRS 모델은 개인으로부터의 유전 데이터를 기반으로 PRS 점수를 계산하기 위해 사용될 수 있다. 상기 PRS 모델은 그 PRS 모델을 나타내는 데이터로서 (예를 들어, 도 2의 장치(6)의 데이터 통신 인터페이스를 통해) 출력될 수 있다. 따라서 (상기 기계 학습 알고리즘의 훈련을 포함하는) 단계 S6까지 이어지고 단계 S6을 포함하는 단계들은 하나의 장치(6)에서 수행될 수 있고 PRS 모델의 사용을 포함하는 후속 단계들(예: 개인에 대한 PRS 점수들 계산용)은, 필요한 데이터 처리 작업들을 수행할 수 있는 컴퓨터 하드웨어, 펌웨어 및/또는 소프트웨어의 임의의 적절한 조합을 포함하는 다른 장치(도시되지 않음)에서 수행될 수 있다. 또는, PRS 점수의 계산은 PRS 모델을 계산한 동일한 장치(6)에서 수행될 수 있다.
단계 S7에서, 단계 S6에서 계산된 PRS 모델이 사용되어, 개인에 대한 PRS 점수를 계산한다. 상기 PRS 점수는 그 PRS 점수를 나타내는 데이터(4)로서 출력될 수 있다.
상기 계산된 PRS 모델은 임의의 개인으로부터 얻은 유전 정보로부터 PRS 점수가 계산되는 것을 가능하게 한다는 점에서 (예로서, 일반적으로 인간에 관한) 일반적인 레벨에서 유기체에 관한 정보를 구축한다. 상기 PRS 점수는 특정 개별 유기체(예: 단일 인간 대상)에 관한 정보를 구축한다.
예시의 애플리케이션 시나리오
도 3-7은 예시적인 시나리오에서 도 1의 방법의 사용을 도시하고 아래에 주어진 방법 단계들에 대한 보다 상세한 논의에서 참조될 것이다.
도 3은 LDL에 대한 효과 크기들이 LDL과 연관된 95개의 개별 유전자 위치들에서 CAD에 관한 효과 크기들과 어떻게 상관되는지를 예시한다. 이 상관관계는 LDL이 CAD에 거의 직접적인 원인적 영향을 미치는 것으로 이해되기 때문에 부분적으로 관찰된다. 그러므로 우리는 CAD에 대한 적절한 도구로tj LDL을 참조하며, 이는 LDL에 관한 정보가 CAD에 대한 PRS의 정확도를 개선하는 데 사용될 수 있음을 의미한다.
도 4는 확립된 방법론(단계적 전진 회귀)을 사용하여 염색체 6의 LPA 영역에서 도 1의 방법을 사용하한 LDL의 미세-매핑의 결과를 보여준다. 각 회귀 단계는 추가로 독립적인 표현형-변이 연관을 식별하여, 총 4개의 독립적인 표현형-변이 연관들이 식별된다. 각 플롯에서 검은색 삼각형들은 새로 식별된 미세-매핑된 변이 또는 미세-매핑된 변이들의 신뢰할 수 있는 세트(credible set, CS)를 나타낸다. 각 단계에서, 미세-매핑 확률이 낮은 (< 1%) 유전 변이들은 회색으로 표시된다. 첫 번째 LDL 연관 신호는 사후 확률이 1%보다 큰 4개의 미세-매핑된 변이들을 구비하는 반면, 나머지 3개의 LDL 연관 신호들은 미세-매핑 확률 > 1%인 단일 미세-매핑된 변이를 식별한다.
도 5는 이 예의 LDL 도구 특성에 대해 도 4에 표시된 4개의 독립적인 표현형-변이 연관에서 추정된 4개의 공동으로 추정된 효과 크기들이 4개의 한계적으로 추정된 효과 크기들과 약간 다르다는 것을 보여준다.
도 6 및 도 7은 6번 염색체 내 동일한 LPA 영역용 CAD에 대한 파생된 PRS 가중치들을 도시한다. 도 6에서, 상기 미세-매핑된 CAD 변이들은 LDL 미세-매핑 및 효과 크기들(도 4 및 5)로부터 외삽되었으며 LDpred 분석 전에 CAD 데이터로부터 차감되어, 잔여 신호(추가 예측 상관 관계를 나타냄)를 포착한다. 따라서 도 6은 LDL 미세-매핑(검은색)에서 파생된 PRS 가중치들을 LDpred 잔여 신호(회색)에서 파생된 PRS 가중치들과 결합한다. 이는 초기 미세-매핑 단계 없이 CAD만을 기반으로 하는 표준 LDpred 분석 전략이 적용된 도 7과 대조된다. 초기 LDL 미세-매핑이 없는 프로세스의 제한된 정확도의 결과들 중 하나는 도 7에서 네 번째 신호가 검출지되지 않는다는 것이다. 이는 CAD 데이터만으로는 이 연관을 특성화하기에 충분하지 않기 때문이다.
도 1의 단계들 S2-S7에 대한 추가적인 예시적인 구현 세부사항들이 아래에 제공되며, 이는 예시적인 목적을 위해 상기의 예시적인 애플리케이션 시나리오에 적절한 경우 참조가 이루어진다.
단계 S2: 미세-매핑
위에서 언급한 바와 같이, 단계 S2에서 상기 방법은 관심 영역 내에서 하나 이상의 독립적인 표현형-변이 연관들을 식별하기 위해 입력 데이터(2)의 전체 또는 서브세트에 미세-매핑 알고리즘을 적용한다. 관심 영역 내에서 하나 이상의 독립적인 표현형-변이 연관을 식별하는 것은, 관심 표현형에 대해 인과적 변이 또는 인과적 변이의 태그 변이 중 어느 하나인 것에 대한 높은 신뢰도를 갖는 변이들인 고신뢰도 미세-매핑된 변이들을 식별하는 것을 포함할 수 있다. 각각의 연관에 대해, 하나 이상의 미세-매핑된 변이들의 세트가 복수의 유전적 변이들로부터 식별된다.
도 4는 위에서 논의된 예시의 응용 시나리오의 맥락에서 미세-매핑 알고리즘의 응용을 예시한다. 이 경우에서 상기 미세-매핑 알고리즘은 (도시된 4개의 플롯들 각각에 대해 하나씩) 염색체 6 상의 영역 내에서 LDL에 대한 4개의 독립적인 표현형-변이 연관들을 식별한다.
미세-매핑 알고리즘은, 인과적 변이 또는 변이들을 찾거나, 또는 인과적 변이나 변이들을 포함하거나 밀접하게 태그를 지정하는 신뢰할 수 있는 변이들의 세트나 세트들을 대안으로 찾음으로써 표적 표현형에 대한 기본 인과적인 생물학을 포착하도록 일반적으로 설계되었다. 미세-매핑 알고리즘은, 기본 생물학에 매핑되는 데이터의 개별 요약을 제공하지 않으면서 예측 신호드을 포착하는 LASSO, 랜덤 포레스트 또는 신경망과 같은 기계 학습 기술을 일반적으로 기반으로 하는 대안적인 순수 예측 접근 방식과 대조된다.
상기 표현형-변이 연관들은, 두 식별된 변이들 사이에 어느 정도의 상관관계가 존재할 수 있음에도 불구하고 두 번째 미세-매핑된 변이의 표현형과의 연관이 상기 포현형과 연관된 첫 번째 미세-매핑된 변이와의 상관 관계 때문만은 아니라는 점에서 독립적이다. 즉, 상기 두 번째 미세-매핑된 변이는, 상기 표현형과 연관된 첫 번째 미세-매핑된 변이를 고려하거나 컨디셔닝한 후에도 상기 표현형과 연관된다. 이에 비해, CS 내의 여러 변이들은 서로 독립적이지 않으며, 왜냐하면 CS 내의 변이들 중 하나를 선택하고 이 변이를 컨디셔닝한다면, 그 CS 내의 다른 모든 변이들에서 상기 연관이 사라질 것이기 때문이며, 즉, 다중 연관들은 상기 변이들 사이에서의 높은 상관관계로 인해 존재하기 때문이다.
각 독립적인 표현형-변이 연관은 단일 미세-매핑된 변이 또는 (여러) 미세-매핑된 변이의 신뢰할 수 있는 세트(CS) 중 어느 하나에 링크될 수 있다. 그래서 각 연관에 대해 하나 이상의 미세-매핑된 변이들의 세트가 복수의 유전적 변이들로부터 식별된다. 미세-매핑된 변이들의 CS는 표적 표현형에 대해 원인일 가능성이 높은 것으로 간주되는 2개 이상의 미세-매핑된 변이들의 세트이다. 상기 방법은 각 미세-매핑된 변이에 대해 표현형-변이 연관에 대한 원인인 추정된 확률을 결정하고, 상기 세트 내의 미세-매핑된 변이들에 대한 확률들의 합은 1을 더한다. 하나의 미세-매핑된 변이만이 식별되는 경우, 상기 추정된 확률은 단순하게 그 미세-매핑된 변이에 대한 것일 것이다. 도 4에서, 순방향 회귀 단계들 2-4는 단일 미세-매핑된 변이를 식별하는 예를 표시하는 반면, 순방향 회귀 단계 1은 미세-매핑된 변이들의 CS를 식별한다.
일부 실시예들에서, 상기 미세-매핑 알고리즘에 의한 상기 하나 이상의 미세-매핑된 변이들을 식별하는 것은 복수의 유전적 변이들 그리고 상기 표적 표현형 이외의 표현형들 간의 연관을 고려한다. 그래서 그런 실시예들에 대한 입력 데이터(2)는 유기체 게놈의 관심 영역에서 복수의 표현형들과 복수의 유전적 변이들 사이에서의 연관의 강도를 포함할 것이다. 복수 표현형과의 연관성을 사용하면, 다양한 상이한 표현형들을 포괄할 수 있고 많은 특성들이 동일한 원인 변이를 공유할 수 있다는 사실을 활용할 수 있는, 많은 연구들로부터의 데이터를 쉽게 활용할 수 있다.
한 실시예에서, 상기 입력 데이터(2)는 개별 변이들 및 표적 표현형 사이의 연관을 기술하는 데이터를 한계 변이 효과 크기 및 표준 오차의 형태로 포함한다. 그런 실시예에서, 상기 연관의 강도들은 상기 표적 표현형에 대한 복수의 유전적 변이들 각각의 추정된 효과 크기 및 추정된 효과 크기들의 표준 오차를 포함할 수 있다. 상기 추정된 효과 크기는 한계 변이 효과 크기이다. 상기 한계 변이 효과 크기는 분리하여 고려될 때 상기 변이의 영향을 나타내며, 즉, 가까운 상관된 변이들의 영향을 무시한다. 예를 들어, 태그 변이는 강력한 한계 효과 크기를 가질 수 있지만 그것의 "실제" 효과 크기는 0이다. 이 형식의 입력 데이터는 일반적으로 요약 통계 데이터로 언급된다.
일 실시예에서, 관심 영역 내에서 하나 이상의 독립적인 표현형-변이 연관들을 식별하기 위해 입력 데이터(2)의 전체 또는 서브세트에 대한 미세-매핑 알고리즘의 적용은 다음을 포함한다. 주어진 DNA 영역(즉, 유기체의 게놈 영역) 내에서 확률 모델(예: 베이지안 통계 모델)을 사용하여, (각각이 표적 표현형과 하나 이상의 유전적 변이들 간의 연관의 강도에 관한 데이터를 포함하는) 연구들은 클러스터들에 할당되며, 각 클러스터는 원인 변이의 유사한 변동 패턴을 갖는 것으로 가정된다. 그런 다음 마코브 체인 몬테 카를로 (Markov chain Monte Carlo) 알고리즘 또는 이와 유사한 것이 가능한 클러스터 할당 공간을 탐색하기 위해 사용된다. 연구들을 클러스터들에 할당하는 일련의 반복이 수행되면, 그 클러스터의 특성들의 세트가 사용되어, 대응 클러스터에 할당된 표현형에 대한 원인일 가능성이 있는 단일 변이 또는 유전적 변이들의 CS (즉, 하나 이상의 미세-매핑된 변이들의 세트)를 식별할 수 있다. 많은 수의 표현형들을 기반으로 한 이 방법을 사용하면 표현형들에 영향을 미치는 변이들이 식별되는 능력과 정확도를 증가시킨다. 이 유형의 방법에 대한 추가의 상세 내용들은 PCT 출원 번호 PCT/GB2019/050525에서 찾을 수 있다.
일부 경우에, 이 방법은 주어진 DNA 영역에 대해 최대 단일 미세-매핑된 변이들 또는 미세-매핑된 변이들의 단일 CS를 식별한다. 그러나, 영역 내에서 원인일 수 있을 가능성이 있는 하나 이상의 독립적인 미세-매핑된 변이 (또는 이에 따라 하나 이상의 CS)가 존재할 수 있다. 이러한 추가의 독립적인 정밀 매핑된 변이들을 식별하는 것은 관심 대상 특성 또는 질병의 추가 예측기들을 제공하고 따라서 질병 또는 특성이 발병할 개인의 위험을 예측하는 능력을 향상시킨다.
요약 통계 데이터만이 사용가능할 때에 단계 S2의 대체 구현
요약 통계 데이터만 사용할 수 있을 때에 추가로 독립적인 미세-매핑된 변이들을 식별하는 것이 가능하다. 일 실시예에서, 이는 일반적으로 "LD 매트릭스"로 요약되는 게놈 영역 내의 유전적 변이들 간의 상관관계를 고려함으로써 달성되며, 위치
Figure pct00012
,
Figure pct00013
에서 유전자형들
Figure pct00014
Figure pct00015
의 상관관계들의 매트릭스
Figure pct00016
는 1000 지노머스 (Genomes) 컨소시엄 또는 하폴로유형 레퍼런스 컨소시엄 (Haplotype Reference Consortium)과 같은 참조 패널의 하위 모집단들로부터 종종 획득된다. FINEMAP과 같은 방법론(Benner 등, Bioinformatics 2016, 15;32(10):1493-501)은 많은 수의 연구들과 표현형들을 고려하는 이 설정에 적합하게 적용될 수 있다.
또 다른 그런 실시예는 DNA 영역 내에서 이미 식별된 미세-매핑된 변이들의 효과를 설명하기 위해 상기 요약 통계 데이터를 업데이트하며, 그리고 추가의 미세-매핑된 변이에 대한 잔여 증거를 평가함으로써 추가의 원인 변이들 (본원에서는 미세-매핑된 변이들로 언급됨)을 식별할 것이다. 이 경우, 미세-매핑된 변이들의 세트를 식별하는 것은 반복적인 방법을 사용하여 수행된다. 각 반복은 이전에 식별된 미세-매핑된 변이와 상이한 게놈 영역 내의 미세-매핑된 변이를 상기 입력 데이터를 기반으로 식별하는 단계, 이미 식별된 미세-매핑된 변이들의 표적 표현형에 관한 효과를 설명하기 위해 상기 입력 데이터를 업데이트하는 단계, 게놈의 영역 내의 유전적 변이들 간의 상관관계 매트릭스를 사용하는 단계, 그리고 상기 업데이트된 입력 데이터에 기초하여 추가 반복을 수행할지 여부를 결정하는 단계를 (예: 미리 결정된 중요성 임계값이 더 이상 초과되지 않거나 그리고/또는 P-값들이 모두 상대적으로 평평한 때와 같이 상기 업데이트된 입력 데이터가 더 이상 관심 정보를 포함하지 않는다고 결정될 때에 중단됨) 포함한다.
상기 접근 방식은 최대 하나의 미세-매핑된 변이의 추가 또는 제거를 제안함으로써 DNA 내 미세-매핑된 변이들의 공간을 탐색하기 위해 반복적으로 적용될 수 있다 (https://projecteuclid.org/euclid.aoas/1507168840). 따라서, 일부 실시예에서, 임의의 이전에 식별된 미세-매핑된 변이와 상이한 미세-매핑된 변이를 식별하는 단계는 이전에 식별된 미세-매핑된 변이를 미세-매핑된 변이의 세트로부터 제거하는 단계를 포함한다. 이러한 방법에 대한 자세한 내용은 PCT 출원 번호 PCT/GB2019/050525에서 찾을 수 있다.
개인 레벨 데이터를 사용하여 단계 S2의 대체 구현
또 다른 미세-매핑 전략은 개인 레벨 데이터로 미세-매핑을 수행하는 것이다. 이러한 실시예에서, 입력 데이터를 수신하는 상기 단계는 복수의 개인들 각각에 대한 유전자형들 및 대응하는 표현형들을 포함하는 개인 레벨 데이터를 수신하는 단계, 그리고 상기 개인 레벨 데이터를 사용하여 표적 표현형에 관한 상기 복수의 유전적 변이들 각각의 추정된 효과 크기들 그리고 상기 추정된 효과 크기들 각각의 표준 오차를 결정하는 단계를 포함한다. 이것은 순방향 선택, 역방향 제거 또는 이 둘의 조합을 사용하여 미세-매핑된 변이들의 공간을 탐색하기 위해 단계적 회귀 방법론을 사용하여 달성될 수 있다.
대안으로, 상기 개인 레벨 데이터는 PCT 출원 번호 PCT/GB2019/050525에 설명된 것과 같은 요약 통계 기반 미세-매핑 방법에서 얻은 정보를 활용하여 상기 요약 통계 데이터와 조합하여 사용될 수 있을 것이다. 이겻이 달성될 수 있는 한 가지 방법은 PCT 출원 번호 PCT/GB2019/050525에 설명된 것과 같은 방법에서 얻은 단일 미세-매핑된 변이/CS를 사용하며, 그리고 후속 단계적 회귀 단계들에 관한 컨디셔닝을 하는 것이다 (이전처럼 순방향 선택 및 역방향 제거의 조합이 사용될 수 있다).
대안으로, 이미 식별된 미세-매핑된 변이들에 관해 컨디셔닝된, 개인 레벨 데이터에서 파생된 잔여 요약 통계 데이터가 획득될 수 있다. 이러한 방식에서, 이미 높은 신뢰도의 미세-매핑된 변이들로 식별된 변이들의 효과가 제거되어, 잔여 상관관계들을 사용하여 추가 미세-매핑된 변이들을 식별하는 것을 가능하게 한다.
이는 개인 레벨 데이터를 사용할 수 없을 때에 요약 통계 데이터에 관해 수행하는 컨디셔닝과 유사한 방식으로 수행되며 LD 정보가 필요하지 않다는 주요한 이점을 가진다. 이러한 파생된 잔여 요약 통계 데이터는 PCT 출원 번호 PCT/GB2019/050525에 설명된 것과 같은 방법을 위한 입력으로 사용할 수 있다. 이 절차는 되풀이하여 반복될 수 있다. 이 방법론은 개인 레벨 데이터로부터 파생된 요약 통계 데이터만 사용하거나 개인 레벨 데이터가 존재하지 않는 연구에서 LD 패널들을 사용하여 파생된 잔여 요약 통계 데이터와 함께 사용하는 것에 기반할 수 있다.
하나 이상의 도구 특성들을 사용하여 단계 S2의 대체 구현
단계 S2의 대안적인 구현은 기기 연구를 활용하여, 미세-매핑된 변이들의 세트를 식별하는 것이 표적 표현형에 영향을 미치는 것으로 알려진 하나 이상의 도구 특성들을 사용하는 것을 포함하도록 한다. 특성이 관심대상인 특성과 강하게 상관되어 있을 때에 그 특성을 표적 표현형에 대한 도구로 정의한다. 특별한 경우는 표적 표현형에 대한 직접적인 원인인/수정하는 도구이다. 예를 들어, LDL은 관상동맥 질환에 대한 도구 특성로 간주될 수 있으며, 그리고 관상 동맥 질환은 전체 생존을 위한 도구 특성이다. 도구 연구는, 표적 표현형과 관련하여 고려되는 다수의 유전적 변이들 그리고 도구 특성 사이의 연관의 강도에 관한 정보를 제공한다.
많은 경우에, 표적 표현형에 관한 변이의 영향는 상기 표적 표현형을 위한 신뢰할 수 있는 세트(CS)를 식별하기에는 너무 작을 것이다. 그러나, 상기 효과는 적절하게 강화된 기기 연구를 사용하여 달성할 수 있는 미세-매핑을 위해 충분할 수 있다. 즉, 도구 특성에 관한 변이의 효과가 표적 표현형에 관한 변이의 효과보다 크기 때문에, 상기 변이가 도구 특성에 대한 원인인지의 여부를 정확하게 판별하는 것은 더 쉽다.. 그 맥락에서, 미세 매핑 및 원인 신호 식별은 전적으로 기기 연구만을 기반으로 할 것이며, 그래서 특성화되지 않을 표적 표현형에 관한 정보를 제공한다.
상기 통찰에 기초하여, 일 실시에에서, 미세-매핑된 변이들의 세트를 식별하는 것은 표적 표현형에 영향을 미치는 것으로 알려진 하나 이상의 직접 원인 도구 특성들에 대해 미세-매핑된 변이들의 세트를 식별하는 것을 포함한다. 이것은 도구 특성들을 사용하여 단계 S2의 미세-매핑을 보완하는 비교적 간단한 방법이지만, 알려진 직접 원인 도구 특성들이 이용 가능할 것을 필요로 한다. 다른 실시예들에서, 미세-매핑된 변이들의 세트를 식별하는 것은 상기 표적 표현형에 영향을 미치는 것으로 알려진 복수의 도구 특성들을 사용하는 것을 포함한다. 그 다음, 상기 방법은 도구 특성들에 대한 미세-매핑된 변이들의 세트를 결정하는 단계 그리고 상기 도구 특성들에 대한 미세-매핑된 변이들 중의 하나 이상 각각을 상기 도구 특성 및 상기 표적 표현형 사이의 관계에 기초하여 상기 표적 표현형에 대한 미세-매핑된 변이들의 세트 내에 포함시킬지 여부를 결정하는 단계를 포함한다. 이 경우, 상기 복수의 도구 특성들 및 상기 표?? 표현형 사이의 관계는 상기 도구 특성들과 상기 표적 표현형 사이의 잠재적으로 복잡한 연관 패턴을 고려하여, 반드시 직접적으로 원인 도구 특성들은 아닌 도구 특성들을 사용할 수게 허용한다.
도 3- 도 5는 CAD의 도구 특성인 LDL에 대해 미세-매핑이 수행되며, 그리고 LDL에 대해 식별된 미세-매핑된 변이들(도 4)이, CAD가 관심 대상 표현형으로 사용되는 (도 6) 후속 단계들에서 사용되는 예를 제공한다.
단계 S3: 미세- 매핑 예측 모델 계산(예: 미세- 매핑된 변이들 대한 효과 크기들을 추정하기 위해)
위에서 언급된 바와 같이, 단계 S3에서 상기 방법은 입력 데이터(2) 및 미세-매핑된 변이들의 세트(단계 S2에서 식별됨)에 기초하여 미세-매핑 예측 모델을 계산한다. 상기 미세-매핑 예측 모델은 미세-매핑된 변이들의 세트의 표적 표현형에 관한 효과를 정량화한다. 상기 표적 표현형에 관한 효과는 그 표적 표현형에 대한 미세-매핑된 효과 크기를 사용하여 정량화될 수 있으며, 이 경우 상기 미세-매핑 예측 모델은, 변이들 간의 상관 관계들을 설명하는 상기 미세-매핑된 변이들 각각에 대한 표적 표현형에 관한 미세-매핑된 효과 크기로 구성되거나 이를 포함한다.
연관의 강도가 요약 통계 데이터 (예를 들어, 표적 표현형에 관한 복수의 유전적 변이들 각각의 추정된 효과 크기, 및 추정된 효과 크기들 각각의 표준 오차)를 포함하는 실시예들에서, 상기 미세-매핑된 효과 크기들은 표적 특성 (즉, 표적 표현형)에 대한 단일 GWAS의 한계 요약 통계 데이터로부터 직접 획득될 수 있다. 지역 내에서 하나의 미세-매핑된 변이가 식별될 때에, 상기 GWAS 요약 통계 데이터에 보고된 효과 크기가 사용될 수 있다. 변이들의 CS가 식별될 때, GWAS 요약 통계 데이터는 상기 변이가 원인일 확률 (상기 CS 내 나머지 변이들에 상대적임)에 따라 가중치가 부여될 수 있다. 일부 실시예에서, 그러므로 각각의 미세-매핑된 효과 크기는, (예를 들면, 위에서 설명된 것처럼 가중치로서 상기 입력 데이터(2)로부터 파생된) 상기 표현형-변이 연관에 대한 원인일 상기 미세-매핑된 변이의 추정된 확률을 고려하는 상기 미세-매핑된 변이의 (예를 들면, 입력 데이터(2)로부터 파생된) 추정된 효과 크기로부터 계산될 수 있다. 예를 들어, 상기 미세-매핑된 효과 크기는, 상기 추정된 효과 크기에 상기 미세-매핑된 변이가 원인일 확률을 곱한 것에 기초하여 유도될 수 있다.
상관 연관들이 있는 경우 단계 S3의 대체 구현
여러 개의 독립적인 생물학적 연관들을 포착하는 여러 개의 신뢰할 수 있는 세트들이 동일한 DNA 영역에서 식별될 때에, 연관들 간의 상관 관계들을 제어하기 위해 상기 효과 크기들에 교정이 적용되는 것이 바람직하다. 교정된 효과 크기는 일반적으로 관절 효과 크기라고 언급된다. 이것은 도 4를 참조하여 위에서 설명한 염색체 6의 LPA 영역의 미세-매핑 예에 설명된다. 도 5는 LDL 도구 특성에 대해 4개의 공동으로 추정된 효과 크기들이 4개의 한계적으로 추정된 효과 크기들과 약간 다르다는 것을 보여준다. 연관들이 밀접하게 상관되어 있다면, 그 차이들은 상당할 수 있다.
미세-매핑된 여러 변이들이 서로 독립적으로 특성과 연관되어 있을 때에, 여전히 이들 간에 약간의 상관 관계가 있을 수 있다. 이러한 독립적인 미세-매핑된 변이들의 한계 효과 크기들은 변이들 간의 상관 관계를 설명하기 위해 조정될 필요가 있다. 그래서 다시 말하면 상기 공동 효과 크기들은 변이들 간의 상관 관계를 고려한 하나의 특성에 대한 여러 변이들의 효과 크기들이며, 예를 들어 그런 4개의 변이들 사이에 일부 상관 관계가 있다는 점을 고려한 LDL 예에서 4개의 미세-매핑된 변이들이다.
모집단 특이적 DNA 영역의 변이 상관 관계들 (또는 LD)의 패턴이 잘 특성화된다면, 공동 효과 크기 추정에 대한 이 교정은 (Yang 등, Nature Genetics 2012, 44(4):369-75 에서 설명된 것처럼) 요약 통계 데이터를 사용하여 적용될 수 있다. 대안으로, 개인 레벨 데이터를 사용하여 이 교정이 적용될 수 있으며, 이로써 DNA 영역 내에서 식별된 모든 선택된 미세-매핑된 변이들은 회귀 모델을 사용하여 공동으로 피팅된다. 여러 별개의 연관들이 상관된 변이들의 신뢰할 수 있는 세트들에 링크되었다면 이 교정이 필요하다.
하나 이상의 도구 특성들을 사용하여 단계 S3의 대체 구현
효과 크기 추정을 위한 대체 방법론은 도구 연구를 활용한다. 이러한 유형의 실시예에서, 단계 S2에서 미세-매핑된 변이들의 세트를 식별하는 것은 표적 표현형에 영향을 미치는 것으로 알려진 하나 이상의 도구 특성들에 대한 미세-매핑된 변이들의 세트를 결정하는 것을 포함한다. 그 다음, 상기 미세-매핑 예측 모델을 계산하는 것은, 하나 이상의 도구 특성들에 대한 미세-매핑된 변이들의 세트의 하나 이상의 도구 특성들에 관한 효과 크기를 결정하는 단계, 그리고 도구 특성들에 대한 효과 크기들과 상기 표적 표현형에 대한 효과 크기들 사이의 미리 결정된 관계에 기초하여 상기 표적 표현형에 대한 미세-매핑된 변이들의 세트에 포함된 도구 특성들에 대한 미세-매핑된 변이들 각각의 목표 표현형을 위한 효과 크기를 결정하는 단계를 포함한다. 상기 도구 특성에 관한 유전적 변이의 영향이 상기 표적 표현형보다 높기 때문에, 표적 표현형에 관한 것보다 상기 도구 특성에 관한 변이들의 효과 크기를 추정하는 것이 더 쉽다.
따라서, 외부의 또는 전체 게놈 데이터가 상기 도구 특성과 목표 표현형 효과 크기들 간의 관계를 정확하게 특성화할 수 있게 하면, 상기 도구 특성에 대해 더 양호하게 추정된 효과 크기를 활용하여 상기 표적 표현형에 대해 상기 효과 크기를 보다 정확하게 추정할 수 있다. 도구 특성과 목표 표현형 효과 크기들 간의 관계를 특성화하는 한 가지 방법은, 그 도구 특성과 목표 표현형 둘 모두에 대해 미세-매핑되도록 정의된 변이들에 대한 효과 크기들에 대해 선형 회귀를 수행하는 것이다.
도 3은, LDL과 CAD에 관한 효과 크기들 간의 관계가 LDL 연관된 변이들의 큰 세트를 사용하여 추론된 예를 보여준다. LDL은 이 예에서 CAD에 대한 도구 특성로 작용한다.
모든 연구/표현형을 잠재적인 도구 특성들로 사용하여 단계 S3의 대체 구현
단계 S3에 대한 대안은 위에서 설명된 (그리고 PCT 출원 번호 PCT/GB2019/050525에 자세히 설명된바와 같은) 확률 모델을 훈련하는 데 사용된 모든 연구에 대해 식별된 독립적인 미세-매핑된 변이들 (또는 CS)을 사용하는 것이다. 그것은 적어도 하나의 질병/특성에 대한 원인이 될 가능성이 있는 변이들의 세트의 결과를 가져온다.
그런 다음 단계 S5의 기계 학습 알고리즘이 이 변이들의 세트에 적용될 수 있다 (일반적으로 이 세트 내 변이들의 수는 단계 S5에 사용된 수보다 훨씬 적음). 이에 의해, 미세-매핑된 변이들의 세트의 표적 표현형에 관한 효과는, 바람직하게는 단계 S5에서 사용된 것과 동일한 알고리즘인 기계 학습 알고리즘을 사용하여 추론된다. 단계 S3의 이 실시예의 입력은 미세-매핑된 변이들 각각에 대한 한계 효과 크기들이며, 즉 이 단계에서 신호 감산이 적용되지 않았다. 단계 S3의 이 실시예의 출력은 단계 S5의 출력과 동일하며, 즉, 효과 크기 추정의 불확실성 및 변이가 초점 표현형에 대해 원인일 확률을 설명하는 잔여 효과 크기들에 기초한 가중치들의 세트이다. 미세-매핑된 변이의 서브세트에 대해 계산된 이러한 가중치들은 복수의 유전적 변이들에 대한 효과 크기들로부터 차감되어, 단계 S4의 다른 실시예에 필적하는 잔여 연관 데이터를 생성한다.
일부 실시예들에서, 미세-매핑된 변이들의 세트는 질병/특성의 원인이 될 가능성이 높은 문헌에 보고된 변이들의 세트와 조합될 수 있다. 이에 따라, 상기 미세-매핑된 변이들의 세트는 상기 표적 표현형에 대한 원인일 높은 가능성을 가진 것으로 알려진 하나 이상의 변이들을 추가로 포함한다.
교차 모집단 데이터를 사용하여 단계 S3의 대체 구현
모집단들에 걸친 효과 크기들의 일관성에 관해 가정할 수 있다. 한 극단적인 경우, 상기 효과 크기들은 모집단들 전체에 걸쳐 일정하다고 가정할 수 있다. 또 다른 극단적인 경우, 충분한 데이터를 사용할 수 있으면, 일치하는 모집단에서 앞서 언급한 방법들 중 하나를 사용하여 효과 크기들을 추정하기 위해 모집단 특정 데이터 세트들만이 사용될 수 있다.
중간 프로세스는 모집단 전체에 걸친 효과 크기들에 관한 정보를 차용하는 계층적 모델이며, 데이터가 이를 뒷받침하면 추론된 효과 크기에서 약간의 변동성을 허용한다.
S4 및 S5 단계: 차감 및 기계 학습
단계 S4 및 S5에서, 상기 방법은 미세-매핑 예측 모델을 사용하여, 미세-매핑된 변이들의 세트의 타겟 표현형에 미치는 효과를 상기 입력 데이터(2)로부터 차감하여 잔여 연관 데이터를 획득하는 단계, 그리고 기계 학습 알고리즘을 상기 잔여 연관 데이터에 적용하여 상기 표적 표현형과 다수의 유전적 변이들 사이의 추가 예측 상관관계들을 식별하는 단계를 포함한다.
일 실시예에서, 상기 기계 학습 알고리즘은 LDpred에 의해 제안된 모델을 포함하며 그리고 잔여 신호를 식별하기 위해 요약 통계 데이터만을 필요로 한다.
그 예시적인 맥락에서, 각 변이에 대해 세 가지 유형의 효과 크기들이 정의된다.
Figure pct00017
는 변이
Figure pct00018
의 한계 효과를 나타내며, 이는 요약 통계 데이터가 사용될 때에 요약 통계 데이터로부터 추정된 효과 크기이다.
Figure pct00019
는 미세-매핑된 변이 j가 원인인 확률을 나타낸다 (신뢰할 수 있는 세트 내 확률들의 합은 1이 됨).
Figure pct00020
는 상기 미세-매핑 단계를 기반으로 미세-매핑된 변이
Figure pct00021
의 추론된 원인 효과를 나타내며, 그래서 상기 표적 표현형에 관한
Figure pct00022
번째 미세-매핑된 변이의 추정된 미세-매핑된 효과 크기에 대응한다. 대부분의 변이들은 어떤 원이 효과도 가지지 않을 것이지만 신뢰할 수 있는 세트 내에서 미세-매핑된 변이들은 0이 아닌 값들을 가질 것이며 그러므로
Figure pct00023
의 0이 아닌 값들을 가질 것이다.
Figure pct00024
는 변이
Figure pct00025
의 잔여 효과 크기이며, 즉, 변이
Figure pct00026
의 한계 효과이며, 그러나 신뢰할 수 있는 세트 내 상관된 변이들의 효과는 차감된다.
이러한 표기법을 사용하여, 효과 크기들
Figure pct00027
를 정규화한 후, 그 크기들의 변이들이 같도록 차감이 수행될 수 있다.
Figure pct00028
여기에서
Figure pct00029
는 변이들
Figure pct00030
Figure pct00031
간의 상관 관계들을 포착하며, 이는 모집단 특정이며, 연쇄 불균형 (linkage disequilibrium)의 패턴으로 종종 언급된다. 이 차감은 미세-매핑 확률
Figure pct00032
가 0이 아닌 모든 변이들에 걸쳐서 수행된다. 이에 의해, 이 실시예에서, 상기 입력 데이터로부터 상기 미세-매핑된 변이들의 세트의 표적 표현형에 관한 효과를 차감하는 것은 표적 표현형에 관한 복수의 유전적 변이들 각각의 추정된 효과 크기로부터 효과 크기들의 가중 합을 차감하는 것을 포함하여, 복수의 유전적 변이들 각각에 대한 잔여 효과 크기를 획득한다. 이 실시예에서, 상기 잔여 연관 데이터는 상기 잔여 효과 크기들을 포함한다.
그런 다음 상기 추정의 기계 학습 단계는, 미세-매핑이 없다면 (즉, 단계 S2 및 S3이 수행되지 않았으며 기계 학습 단계가 상기 입력 데이터에 직접적으로 작동했으면) 수행되었을 방식과 동일한 방식으로 이러한 잔여 효과 크기들에 관해 수행될 수 있다. 미세-매핑을 추가하면 기계 학습 프로세스의 출력에서의 상당한 차이들이라는 결과를 가져올 수 있다. 이러한 실질적인 차이들은, 예를 들어 도 6 (미세-매핑 방법을 사용하여 파생된 PRS 가중치들을 보여줌)과 도 7(미세-매핑 없는 방법을 사용하여 파생된 PRS 가중치들을 보여줌) 사이에서 보이는 차이들에 의해 예시된 것처럼 PRS 가중치들 (아래에서 정의됨)을 계산하기 위해 상기 기계 학습 알고리즘로부터의 출력이 사용되는 경우에 볼 수 있다. 또한, 미세-매핑된 신호들은, 일반적으로 모집단들 간에 공유되는 실제 원인 변이에 근접할 것이며, 그래서 모집단 차이들에 대한 더 나은 견고성으로 이끈다.
기계 학습 단계 S5는, 변이들 간의 상관 관계를 고려하면서 상기 잔여 신호를 기반으로 상기 변이들에 할당된 중요성을 표시하는 비-미세-매핑된 변이들 (즉, 상기 입력 데이터(2)에 포함되었지만 단계 S2에서 미세-매핑된 변이들로 식별되지 않은 변이들)에 대한 가중치들의 세트를 출력할 수 있다. 이 프로세스는 변이들 사이의 모집단 특정 상관 패턴에 의해 크게 영향을 받으며, 모집단에 특정한 가중치들 및 변이들의 세트들이라는 결과를 가져온다. 따라서, 상기 입력 데이터가 유기체의 복수의 상이한 모집단들로부터 유래되는 실시예에서,
Figure pct00033
번째 및 j번째 변이간의 상관관계
Figure pct00034
는 모집단-종속적이다.
도 6과 도 7은 기계 학습/LDpred 가중치들이 지역 전체에 광범위하게 분포되어 있는 방법을 보여주며, 이는 원인인 것으로 추론되거나 실제 원인 변이와 적어도 근접하게 상관관계가 있는 변이들을 정확하게 특성화하는 미세-매핑 출력과는 대조적이다.
시전 특정 변이 내 관련 특성 연관 데이터 통합
LDpred와 같은 유전 예측을 위한 베이지안 기계 학습 알고리즘은 변이가 원인인 확률을 포착하는 사전 값 (prior value)에 보통은 의존한다. 일반적으로, 모든 변이들에 동일한 사전 값이 할당된다. 이것을 플랫 사전 (flat prior)이라고 한다. 모든 변이들에 할당된 낮은 사전 값들은, 대부분의 가중치들이 작거나 0과 같은 희소 모델들로 이어지는 반면, 높은 값들은 예측 가중치들이 더 많은 수의 변이들에 걸쳐서 분산하는 더 확산하는 모델들로 이어진다. 각 변이에 대해 플랫 사전을 가정하는 표준 LDpred 모델에 대한 대안은 사전 확률들을 변이 특정 방식으로 조정하기 위해서 교차-특성 정보를 활용하는 것이다.
이를 달성하는 한 가지 가능한 방법은 로지스틱 회귀 모델들을 사용하는 것이다: 이진 결과 변수는 개인들의 독립적인 집단을 사용하여 표적 표현형에 대한 잘 강화된 GWAS 및 동일한 표적 표현형에 대한 GWAS 사이의 한계 변이 효과 크기의 방향의 일관성을 나타낸다.
이것은 상기 입력 데이터가 복수의 상이한 유전 연구들로부터 유래된 경우, 잔여 연관 데이터에 기계 학습 알고리즘을 적용하는 단계가 각 유전적 변이 그리고 상이한 유전 연구들간의 표적 표현형 사이의 연관의 강도의 일관성에 종속하는 표적 표현형에 대한 원인인 복수의 유전적 변이들 각각에 대한 사전 확률을 사용하는 것을 포함할 수 있음을 의미한다. 관련 특성들에 관해 수행된 GWAS로부터의 연관 강도들(예: P-값들)은 입력/예측 변수들로서 사용된다. 입력 변수들 (즉, 피팅된 값)에 의해 가중치가 부여된 (상기 관련 특성이 표적 표현형에 대해 어떻게 예측하는가를 각 회귀 계수가 포착하는 경우) 회귀 계수들의 결과인 선형 조합과 뒤이은 정규화 절차는 변이 특정 사전들(variant specific priors)로서 작용할 수 있다. 결과적으로, 상기 기계 학습 알고리즘은 목표 표현형과 가장 관련이 있는 특성들에서 연관의 증거가 있는 변이들에 대해 더 높은 가중치들을 생성할 것이다.
변이 특정 가중치의 정의를 위한 또 다른 옵션은 GWAS가 아닌 외부 게놈 연구들로부터 파생된 게놈 주석의 통합이다. 이러한 경우에, 기계 학습 알고리즘을 잔여 연관 데이터에 적용하는 단계는, 관심 지역 내 복수의 복수의 유전적 변이들의 게놈 주석들에 의존하는 표적 표현형에 대한 원인인 복수의 유전적 변이들 각각에 대한 사전 확률을 사용하는 것을 포함한다. 이러한 기능 정보, 예를 들어 단백질 코딩 변이들의 존재 또는 관련 전사 인자들에 대한 DNA 결합 부위들은 기계 학습 알고리즘을 더욱 향상시키고 예측 성능을 개선하기 위해 GWAS 데이터에서 정의된 사전들 (priors)과 결합될 수 있다.
S6 및 S7 단계: PRS 모델 및 PRS들 계산
실시예에서, 상기 방법은 미세-매핑 예측 모델(단계 S3에서 계산됨) 그리고 (단계 S5에서) 기계 학습 알고리즘에 의해 식별된 추가 예측 상관 관계들을 사용하여 상기 표적 표현형에 대한 개인을 위한 PRS를 계산하는 단계를 추가로 포함한다. 실시예에서, 상기 미세-매핑 예측 모델 그리고 상기 기계 학습 알고리즘에 의해 식별된 추가의 예측 상관 관계들은 PRS 모델을 정의하기 위해 사용된다 (단계 S6). 상기 PRS 모델은 개인의 유전 데이터(3)가 주어지면 그 개인을 위한 PRS를 계산하는 데 사용할 수 있다 (단계 S7). 실시예에서, 상기 PRS 모델은 변이들에 걸친 가중 합이며, 여기서 가중치들은 상기 미세-매핑 예측 모델에 의해 제공되고 추가 예측 상관관계들은 상기 기계 학습 알고리즘에 의해 식별된다. 실시예에서, 상기 PRS는 다음과 같이 계산된다:
Figure pct00035
여기에서
Figure pct00036
은 PRS에 기여하는 변이들의 수이며, 각 변이는 미세-매핑 예측 모델에 또는 기계 학습 알고리즘으로부터의 추가 예측 상관 관계에 포함되며,
Figure pct00037
는 변이
Figure pct00038
에 대한 유전자형이며, 그리고
Figure pct00039
는 PRS 가중치이며, 이는 목표 표현형에 관한 변이 l의 예측 영향을 정량화한다 (즉, 표적 표현형에 관한 변이 l의 연관의 강도를 정량화함). PRS 가중치들은 효과 크기들과 관련되며 미세-매핑 예측 모델(단계 S3에서 계산됨)에 의해 또는 (단계 S5에서 획득된) 기계 학습 알고리즘의 추가 예측 상관 관계에 의해 지정될 수 있다.
미세-매핑된 변이들에 대해, PRS 가중치
Figure pct00040
는 상기 변이가 원인인 확률
Figure pct00041
에 의해 가중치 부여된, 상기 목표 표현형에 관한 변이 l의 효과 크기
Figure pct00042
에 보통은 직접적으로 관련이 있으며, 그래서:
Figure pct00043
.
도구 특성이 사용되었고, (
Figure pct00044
는 도구 연구를 위한 효과 크기일 때에 비례
Figure pct00045
와 같이) 상기 도구와 목표의 효과 크기들 사이에 관계가 설립되었으면, 상기 PRS 가중치는 이 도구를 기반으로 한다:
Figure pct00046
기계 학습 알고리즘에 의해 할당된 PRS 가중치들이 있는 변이들에 대해, 상기 효과 크기와 PRS 가중치들 간의 관계는 덜 직접적일 수 있으며 상기 알고리즘의 사용에 종속할 수 있다.
일부 실시예에서, 개인에 대한 다유전자 (polygenic) 위험 점수는, (예를 들어, 유전 데이터 내 미세-매핑된 변이들만에 기초하여) 상기 미세-매핑 예측 모델을 개인으로부터의 유전 데이터에 적용함으로써 제공되는 제1 부분 다유전자 위험 점수와 (예를 들어, 미세-매핑된 변이들이 아닌 유전 데이터 내 변이들에 기반하여) 상기 개인으로부터의 유전 데이터에 기계 학습 알고리즘으로부터의 추가 예측 상관 관계들을 적용하여 제공된 제2 부분 다유전자 위험 점수의 조합 (예를 들면, 합)으로부터 유도될 수 있다.
PRS 가중치들 계산으로 이어지는 기계 학습 단계들은 모집단 특정일 수 있으며, 이는 유전 데이터를 사용하여 식별할 수 있는 자신들의 조상에 기반하여 상이한 PRS들이 상이한 개인에게 적용될 수 있다는 것을 의미한다.
일부 실시예에서, 상기 입력 데이터(2)는 유기체의 복수의 상이한 모집단들 (예를 들어, 상이한 가계 클래스들)로부터 유래되고, 다음 중 하나 또는 둘 모두가 충족된다:
i) 상기 미세-매핑 예측 모델을 계산하는 것이 상이한 모집단들에 대응하는 상기 입력 데이터의 부분들에 대해 개별적으로 수행되어 다수의 개별 모집단-매칭 미세-매핑 예측 모델을 획득하며; 그리고
ii) 상기 잔여 연관 데이터에 상기 기계 학습 알고리즘을 적용하는 것은 상이한 모집단들에 대응하는 상기 입력 데이터의 부분들에 대해 개별적으로 수행되어 모집단-매칭 추가 예측 상관 관계들의 다중 개별 세트들을 획득한다.
상기 모집단들 중 하나로부터의 개인 (예: 상이한 집단들 중 하나로부터의 우세한 유전자들을 가진 개인)에 대한 PRS는 다음과 같이 계산할 수 있다. 입력 데이터는 개인으로부터 수신된다. PRS는 다음 중 하나 또는 둘 다를 수행하여 개인에 대해 계산된다:
i) 상기 개인으로부터의 모든 입력 데이터에 모집단-매칭 미세-매핑 예측 모델을 적용하며, 상기 모집단-매칭 미세-매핑 예측 모델은 상기 개인의 모집단에 매칭됨; 그리고
ii) 상기 개인으로부터의 모든 입력 데이터에 모집단-매칭 추가 예측 상관 관계들의 세트를 적용하며, 상기 모집단-매칭 추가 예측 상관 관계들의 세트는 상기 개인의 모집단에 매칭됨.
혼혈 개인들에 대한 PRS 계산을 위한 대체 구현
아프리카계 미국인 개인들과 같이 2개 이상의 잘 정의된 조상 그룹들이 혼합된 개인들에 대해, 염색체의 다른 세그먼트들이 이러한 조상들 각각에 할당될 수 있다. 미세-매핑 접근 방식에 대한 주요 동기는 모집단들에 걸쳐 일관성이 있을 가능성이 더 높은 원인 변이들 및 CS를 식별하는 것이다. 그러나, 미세-매핑 외에도, 기계 학습 방법론을 포함하는 예측 알고리즘의 클래스는 연쇄 불균형의 패턴에 종속하며, 따라서 목표 모집단에 종속한다. 결과적으로, 상이한 모집단들에 대해 상이한 PRS들이 파생될 것이다.
모집단 유전학 분야는 개인의 염색체 분절을 이러한 분절들이 유래한 별개의 모집단들과 일치시키는 방법론을 확립했다. 이 과정을 "염색체 페인팅"이라고 한다. 혼혈 개인들을 적절하게 처리하기 위해서, 이 염색체 페인팅 단계를 해당 개인의 유전자형 데이터에 적용한다. 개인을 단일 집단에 할당하는 대신, 모계와 부계 염색체 사본들을 분리해서 고려하여, 적절한 염색체 세그먼트에 관련 모집단 특정 PRS를 적용하는 혼합 PRS를 구축한다.
이 유형의 실시예에서, (상이한 모집단들의 혼혈로부터의 유전자를 가진) 개인으로부의 입력 데이터가 수신된다. PRS는 다음 중 하나 또는 둘 다를 수행하여 개인에 대해 계산된다:
i) 다중 모집단-매칭 미세-매핑 예측 모델들 각각을 상기 모집단-매칭 미세-매핑 예측 모델의 모집단과 일치하는 입력 데이터의 대응 부분에 매칭하며, 각 매칭된 미세-매핑 예측 모델을 상기 입력 데이터의 상기 대응 부분에 적용함; 그리고
ii) 모집단-매칭 추가 예측 상관 관계들의 다중 세트들 각각을 상기 모집단-매칭 추가 예측 상관 관계들의 세트의 모집단과 일치하는 입력 데이터의 대응 부분에 매칭하며, 추가 예측 상관 관계들의 각 매칭된 세트를 상기 입력 데이터의 상기 대응 부분에 적용함.
실제로, 상기 미세-매핑 예측 모델은 모집단들에 걸쳐 대부분 일관성이 있을 것으로 예상되며, 그래서 상기 미세-매핑된 변이들의 세트 그리고 심지어 일부 경우 상기 미세-매핑된 변이들의 효과 크기들이 올바른 정보를 얻는 데 사용되는 교차 모집단 정보를 구비하여 고유할 수 있도록 한다. 따라서, 위의 방법에서, 추가 예측 상관 관계들의 세트와 관련하여 모집단들에 대한 매칭을 수행하는 것이 가장 가치가 있을 것으로 예상된다. 따라서, 실시예에서, 상기 미세-매핑 예측 모델은 다음 중 하나 또는 둘 모두에 대해 복수의 이용 가능한 모집단 데이터세트로부터의 데이터를 결합함으로써 확립된다: i) 미세-매핑된 변이들에 대한 선택 및 ii) 이러한 변이들과 연련된 효과 크기들. 이러한 실시예들에서, 다유전자 위험 점수는 공유된 모집단-일관성 미세-매핑 예측 모델 (즉, 그들이 속한 모집단 또는 모집단들에 관계없이 다수의 개인들에 대해 유효한 미세-매핑 예측 모델)을, 모집단 특정 방식으로 확립되는 추가 예측 상관 관계들만으로 개인으로부터의 입력 데이터에 적용함으로써 유도될 수 있다.

Claims (26)

  1. 유기체에 관한 정보를 획득하기 위해 유기체에 관한 유전 데이터를 분석하는 컴퓨터 구현 방법으로서, 상기 방법은:
    표적 표현형을 포함하는 하나 이상의 표현형과 유기체의 게놈의 관심 영역 내 복수의 유전적 변이들 사이의 연관의 강도들을 포함하는 입력 데이터를 수신하는 단계;
    관심 영역 내에서 하나 이상의 독립적인 표현형-변이 연관들을 식별하기 위해 상기 입력 데이터의 전체 또는 서브세트에 미세-매핑 알고리즘을 적용하는 단계로, 복수의 유전적 변이들로부터 하나 이상의 미세-매핑된 변이들의 세트를 각 연관에 대해 식별하는 단계, 및 각각의 미세-매핑된 변이에 대해 상기 표현형-변이 연관에 대한 원인일 추정된 확률을 결정하는 단계를 포함하며, 상기 세트 내의 미세-매핑된 변이들에 대한 확률들의 합은 1인, 단계;
    상기 입력 데이터 및 미세-매핑된 변이들의 세트에 기초하여 미세-매핑된 변이들의 세트의 표적 표현형에 관한 효과를 정량화하는 미세-매핑 예측 모델을 계산하는 단계;
    잔여 연관 데이터를 획득하기 위해 상기 미세-매핑 예측 모델을 사용하여 상기 입력 데이터로부터 미세-매핑된 변이들의 세트의 표적 표현형에 관한 상기 효과를 차감하는 단계; 그리고
    상기 표적 표현형과 상기 복수의 유전적 변이들 사이의 추가 예측 상관관계들을 식별하기 위해 상기 잔여 연관 데이터에 기계 학습 알고리즘을 적용하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 연관의 강도들은 상기 표적 표현형에 대한 복수의 유전적 변이들 각각의 추정된 효과 크기 및 상기 추정된 효과 크기들의 표준 오차를 포함하는, 방법.
  3. 제1항 또는 제2항에 있어서, 입력 데이터를 수신하는 단계는:
    복수의 개인들 각각에 대한 유전자형 및 대응하는 표현형들을 포함하는 개인 레벨 데이터를 수신하는 단계; 그리고
    상기 개인 레벨 데이터를 사용하여 상기 표적 표현형에 대한 복수의 유전적 변이들 각각의 추정된 효과 크기 및 그 추정된 효과 크기들 각각의 표준 오차를 결정하는 단계를 포함하는, 방법.
  4. 제1항에 있어서,
    상기 미세-매핑된 변이들의 세트를 식별하는 것은 반복 방법을 사용하여 수행되며, 각 반복은:
    이전에 식별된 임의의 미세-매핑된 변이와 상이한 게놈의 영역 내의 미세-매핑된 변이를 상기 입력 데이터에 기초하여 식별하는 단계;
    상기 게놈의 영역 내의 유전적 변이들 간의 상관관계들의 매트릭스를 사용하여, 이미 식별된 미세-매핑된 변이들의 표적 표현형에 관한 효과를 설명하기 위해 상기 입력 데이터를 업데이트하는 단계; 그리고
    상기 업데이트된 입력 데이터에 기초하여 추가 반복을 수행할지 여부를 결정하는 단계를 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    미세-매핑된 변이들의 세트를 식별하는 단계는 상기 표적 표현형에 영향을 미치는 것으로 알려진 복수의 도구 특성들을 사용하는 단계를 포함하고, 상기 도구 특성들 사용은:
    상기 도구 특성들에 대한 미세-매핑된 변이들의 세트를 결정하는 단계; 그리고
    상기 복수의 도구 특성들과 상기 표적 표현형 사이의 관계에 기초하여, 상기 표적 표현형에 대한 미세-매핑된 변이들의 세트에 상기 도구 특성들에 대한 하나 이상의 미세-매핑된 변이들 각각을 포함할지 여부를 결정하는 단계를 포함하는, 방법.
  6. 제1항에 있어서,
    미세-매핑된 변이 세트를 식별하는 단계는 상기 표적 표현형에 영향을 미치는 것으로 알려진 하나 이상의 직접 원인 도구 특성들에 대해 미세-매핑된 변이들의 세트를 식별하는 단계를 포함하는, 방법.
  7. 제5항 또는 제6항에 있어서, 상기 미세-매핑 예측 모델을 계산하는 단계는:
    미세-매핑된 변이들의 세트의 하나 이상의 도구 특성들에 관한 효과 크기들을 상기 하나 이상의 도구 특성들에 대해 결정하는 단계, 그리고
    상기 도구 특성들에 관한 효과 크기들과 상기 표적 표현형에 대한 효과 크기들 사이의 미리 결정된 관계에 기초하여 상기 표적 표현형에 대한 미세-매핑된 변이들의 세트에 포함된 기기 특성들에 대한 상기 미세-매핑된 변이들 각각의 표적 표현형에 대해 효과 크기를 결정하는 단계를 포함하는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    연관의 강도들은 상기 표적 표현형에 대한 복수의 유전적 변이들 각각의 추정된 효과 크기, 및 추정된 효과 크기들 각각의 표준 오차를 포함하며; 그리고
    상기 미세-매핑 예측 모델은 미세-매핑된 변이들 각각에 대한 표적 표현형에 관한 미세-매핑된 효과 크기를 포함하며, 상기 미세-매핑된 효과 크기는 상기 미세-매핑된 변이들이 상기 표현형-변이 연관에 대한 원인일 추정된 확률을 고려하여 상기 미세-매핑된 변이들의 추정된 효과 크기로부터 계산되는, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    미세-매핑된 변이들의 세트의 표적 표현형에 관한 효과는 기계 학습 알고리즘을 사용하여 추론되는, 방법.
  10. 제9항에 있어서,
    미세-매핑된 변이들의 세트는 상기 표적 표현형에 대한 원인일 가능성이 높은 것으로 알려진 하나 이상의 변이들을 추가로 포함하는, 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    연관의 강도들은 상기 표적 표현형에 대한 복수의 유전적 변이들 각각의 추정된 효과 크기, 및 그 추정된 효과 크기들 각각의 표준 오차를 포함하며; 그리고
    상기 입력 데이터로부터 미세-매핑된 변이들의 세트의 표적 표현형에 관한 상기 효과를 차감하는 단계는 상기 입력 데이터의 복수의 유전적 변이들 각각에 관한 잔여 효과 크기를 획득하는 단계를 포함하며, 상기 잔여 연관 데이터는 잔여 효과 크기들을 포함하며,
    여기에서, 등분산 (equal variance)을 보장하기 위해 상기 효과 크기들을 적절하게 재정규화한 후, 유전적 변이
    Figure pct00047
    에 대한 잔여 효과 크기
    Figure pct00048
    는 다음과 같이 주어지며,
    Figure pct00049

    여기에서
    Figure pct00050
    는 유전적 변이
    Figure pct00051
    의 추정된 한계 효과 크기이며,
    Figure pct00052
    는 미세-매핑된 변이체들 수이며,
    Figure pct00053
    는 변이 j가 원인인 확률이며,
    Figure pct00054
    는 상기 표적 표현형에 관한
    Figure pct00055
    번째 미세-매핑된 변이의 미세-매핑된 효과 크기이며, 그리고
    Figure pct00056
    는 상기
    Figure pct00057
    번째 미세-매핑된 변이 및 유전적 변이 i 사이의 상관관계인, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 입력 데이터는 복수의 상이한 유전 연구들로부터 유래되며, 그리고 상기 잔여 연관 데이터에 기계 학습 알고리즘을 적용하는 상기 단계는 상기 상이한 유전 연구들 사이의 표적 표현형 그리고 각 유전적 변이 사이의 연관의 강도의 일관성에 종속하는 표적 표현형에 대해 상기 복수의 유전적 변이들 각각이 원인일 사전 확률을 사용하는 단계를 포함하는, 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    상기 잔여 연관 데이터에 기계 학습 알고리즘을 적용하는 상기 단계는 상기 관심 영역 내 복수의 유전적 변이들의 게놈 주석들에 종속하는 표적 표현형에 대해 상기 복수의 유전적 변이들 각각이 원인일 사전 확률을 사용하는 단계를 포함하는, 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서,
    미세-매핑 예측 모델 및 기계 학습 알고리즘에 의해 식별된 추가 예측 상관 관계로부터의 유전 데이터를 개인으로부터의 유전 데이터에 적용함으로써 상기 표적 표현형에 대한 상기 개인용 다유전자 위험 점수를 계산하는 단계를 추가로 포함하는 방법.
  15. 제14항에 있어서,
    상기 다유전자 위험 점수가 다음의 가중 합계에 의해 제공되며,
    Figure pct00058

    여기에서,
    Figure pct00059
    는 PRS (polygenic risk score)에 기여하는 변이들의 수이며, 각 변이는 미세-매핑 예측 모델에 또는 기계 학습 알고리즘로부터의 추가 예측 상관 관계에 포함되며,
    Figure pct00060
    는 표적 표현형에 대한 변이 l의 연관의 강도를 정량화하며, 연관의 강도는 미세-매핑 예측 모델에 의해 또는 기계 학습 알고리즘으로부터의 추가 예측 상관 관계에 의해 지정되며, 그리고
    Figure pct00061
    는 변이 l의 유전자형인, 방법.
  16. 제14항 또는 제15항에 있어서,
    개인에 대한 다유전자 위험 점수는 그 개인으로부터의 유전 데이터에 미세-매핑 예측 모델을 적용하여 제공된 제1 부분 다유전자 위험 점수와 상기 개인으로부터의 유전 데이터에 기계 학습 알고리즘의 추가 예측 상관 관계를 적용하여 제공된 제2 부분 다유전자 위험 점수의 조합으로부터 유도되는, 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    상기 입력 데이터는 상기 유기체의 복수의 상이한 모집단들로부터 유래되며,
    상기 미세-매핑 예측 모델을 계산하는 것이 상이한 모집단들에 대응하는 상기 입력 데이터의 부분들에 대해 개별적으로 수행되어 다수의 개별 모집단-매칭 미세-매핑 예측 모델을 획득하며; 그리고
    상기 잔여 연관 데이터에 상기 기계 학습 알고리즘을 적용하는 것은 상이한 모집단들에 대응하는 상기 입력 데이터의 부분들에 대해 개별적으로 수행되어 모집단-매칭 추가 예측 상관 관계들의 다중 개별 세트들을 획득하는 것 중 어느 하나 또는 둘 모두가 충족되는, 방법.
  18. 제17항에 있어서,
    상이한 모집단들의 혼합물로부터의 유전자들을 갖는 개인으로부터 입력 데이터를 수신하는 단계; 그리고
    상기 개인에 대한 다유전자 위험 점수를:
    다중 모집단-매칭 미세-매핑 예측 모델들 각각을 상기 모집단-매칭 미세-매핑 예측 모델의 모집단과 일치하는 입력 데이터의 대응 부분에 매칭하며, 각 매칭된 미세-매핑 예측 모델을 상기 입력 데이터의 상기 대응 부분에 적용함; 그리고
    모집단-매칭 추가 예측 상관 관계들의 다중 세트들 각각을 상기 모집단-매칭 추가 예측 상관 관계들의 세트의 모집단과 일치하는 입력 데이터의 대응 부분에 매칭하며, 추가 예측 상관 관계들의 각 매칭된 세트를 상기 입력 데이터의 상기 대응 부분에 적용함 중 어느 하나 또는 둘 모두를 수행하여 계산하는 단계를 더 포함하는, 방법.
  19. 제18항에 있어서,
    모집단-매칭 추가 예측 상관 관계들의 다중 세트들 각각을 매칭하는 것이 수행되고, 다중 모집단-매칭 미세-매핑 예측 모델들 각각을 매칭하는 것은 수행되지 않으며, 상기 다유전자 위험 점수를 계산하는 것은 공유 모집단-일관성 미세-매핑 예측 모델을 상기 개인으로부터의 입력 데이터에 적용하는 것을 포함하는, 방법.
  20. 제17항에 있어서,
    상이한 모집단들 중 하나로부터의 유전자들을 주로 갖는 개인으로부터 입력 데이터를 수신하는 단계; 그리고
    상기 개인에 대한 다유전자 위험 점수를:
    상기 개인으로부터의 모든 입력 데이터에 모집단-매칭 미세-매핑 예측 모델을 적용함 - 상기 모집단-매칭 미세-매핑 예측 모델은 상기 개인의 모집단에 매칭됨; 그리고
    상기 개인으로부터의 모든 입력 데이터에 모집단-매칭 추가 예측 상관 관계들의 세트를 적용함 - 상기 모집단-매칭 추가 예측 상관 관계들의 세트는 상기 개인의 모집단에 매칭됨, 중 어느 하나 또는 둘 모두를 수행하여 상기 개인에 대한 다유전자 위험 점수를 계산하는 단계를 더 포함하는, 방법.
  21. 제20항에 있어서,
    상기 모집단-매칭 추가 예측 상관 관계들의 세트를 적용하는 것이 수행되며, 상기 모집단-매칭 미세-매핑 예측 모델을 적용하는 것은 수행되지 않으며, 상기 다유전자 위험 점수를 계산하는 것은 공유 모집단-일관성 미세-매핑 예측 모델을 상기 개인으로부터의 입력 데이터에 적용하는 것을 포함하는, 방법.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서,
    상기 미세-매핑 알고리즘에 의해 상기 하나 이상의 미세-매핑 변이들을 식별하는 것은 복수의 유전적 변이들과 상기 표적 표현형 이외의 표현형들 간의 연관들을 고려하는, 방법.
  23. 제1항 내지 제22항 중 어느 한 항에 있어서,
    상기 유기체는 인간인, 방법.
  24. 유기체에 관한 정보를 획득하기 위해 상기 유기체에 관한 유전 데이터를 분석하는 장치로서, 상기 장치는:
    상기 유기체의 게놈의 관심 영역에서 표적 표현형을 포함하는 하나 이상의 표현형들과 복수의 유전적 변이들 사이의 연관의 강도들을 포함하는 입력 데이터를 수신하도록 구성된 수신 유닛; 그리고
    데이터 처리 유닛을 포함하며, 상기 데이터 처리 유닛은:
    복수의 유전적 변이들로부터 하나 이상의 미세-매핑된 변이들의 세트를 각 연관에 대해 식별하며, 그리고 각각의 미세-매핑된 변이에 대해 표현형-변이 연관에 대한 원인일 추정된 확률을 결정함으로써, 관심 영역 내에서 하나 이상의 독립적인 표현형-변이 연관들을 식별하기 위해 상기 입력 데이터의 전체 또는 서브세트에 미세-매핑 알고리즘을 적용하도록 구성되며, 상기 세트 내의 미세-매핑된 변이들에 대한 확률들을 합하면 1이며;
    상기 입력 데이터 및 미세-매핑된 변이들의 세트에 기초하여 미세-매핑된 변이들의 세트의 표적 표현형에 관한 효과를 정량화하는 미세-매핑 예측 모델을 계산하도록 구성되며;
    상기 미세-매핑 예측 모델을 사용하여, 상기 입력 데이터로부터 상기 미세-매핑된 변이들의 세트의 타겟 표현형에 관한 효과를 차감하도록 구성되어 잔여 연관 데이터를 획득하며; 그리고
    상기 표적 표현형과 상기 복수의 유전적 변이들 사이의 추가 예측 상관관계들을 식별하기 위해 상기 잔여 연관 데이터에 기계 학습 알고리즘을 적용하도록 구성된, 장치.
  25. 컴퓨터 프로그램으로,
    상기 프로그램이 컴퓨터에 의해 실행될 때 그 컴퓨터로 하여금 제1항 내지 제23항 중 어느 한 항의 방법을 수행하도록 하는 명령어들을 포함하는 컴퓨터 프로그램.
  26. 컴퓨터에 의해 실행될 때 그 컴퓨터로 하여금 제1항 내지 제23항 중 어느 한 항의 방법을 수행하게 하는 명령어들을 포함하는 컴퓨터 판독가능 매체.
KR1020227010224A 2019-08-28 2020-08-28 유전자 데이터 분석을 위한 컴퓨터 구현 방법 및 장치 KR20220053642A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1912331.4 2019-08-28
GBGB1912331.4A GB201912331D0 (en) 2019-08-28 2019-08-28 Computer-implemented method and apparatus for analysing genentic data
PCT/GB2020/052060 WO2021038234A1 (en) 2019-08-28 2020-08-28 Computer-implemented method and apparatus for analysing genetic data

Publications (1)

Publication Number Publication Date
KR20220053642A true KR20220053642A (ko) 2022-04-29

Family

ID=68108944

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227010224A KR20220053642A (ko) 2019-08-28 2020-08-28 유전자 데이터 분석을 위한 컴퓨터 구현 방법 및 장치

Country Status (11)

Country Link
US (1) US20220367009A1 (ko)
EP (1) EP4022626B1 (ko)
JP (1) JP2022546984A (ko)
KR (1) KR20220053642A (ko)
CN (1) CN114341990A (ko)
AU (1) AU2020338287A1 (ko)
CA (1) CA3151246A1 (ko)
ES (1) ES2934989T3 (ko)
GB (1) GB201912331D0 (ko)
IL (1) IL290904A (ko)
WO (1) WO2021038234A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240013547A (ko) 2022-07-22 2024-01-30 인천대학교 산학협력단 인공 지능을 이용한 게놈 서열 분석 기반 covid-19 및 유사 바이러스의 분류 방법, 장치 및 시스템

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021231910A1 (en) * 2020-05-15 2021-11-18 The Scripps Research Institute Adjusted polygenic risk scores and calculation process
WO2022251640A1 (en) * 2021-05-28 2022-12-01 Optum Services (Ireland) Limited Comparatively-refined polygenic risk score generation machine learning frameworks
WO2024081814A1 (en) * 2022-10-13 2024-04-18 Myome, Inc. Application of local ancestry inference and polygenic risk scores for prediction of complex disease risk in admixed individuals
CN116072214B (zh) 2023-03-06 2023-07-11 之江实验室 基于基因显著性增强的表型智能预测、训练方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240013547A (ko) 2022-07-22 2024-01-30 인천대학교 산학협력단 인공 지능을 이용한 게놈 서열 분석 기반 covid-19 및 유사 바이러스의 분류 방법, 장치 및 시스템

Also Published As

Publication number Publication date
ES2934989T3 (es) 2023-02-28
CN114341990A (zh) 2022-04-12
JP2022546984A (ja) 2022-11-10
IL290904A (en) 2022-04-01
WO2021038234A1 (en) 2021-03-04
EP4022626B1 (en) 2022-11-30
EP4022626A1 (en) 2022-07-06
AU2020338287A1 (en) 2022-03-10
CA3151246A1 (en) 2021-03-04
GB201912331D0 (en) 2019-10-09
US20220367009A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
EP4022626B1 (en) Computer-implemented method and apparatus for analysing genetic data
AU2019227498B2 (en) A computer-implemented method of analysing genetic data about an organism
JP7041614B6 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
CN115769300A (zh) 变体致病性评分和分类及其用途
Le et al. Expanding Polygenic Risk Scores to Include Automatic Genotype Encodings and Gene-gene Interactions.
US20240038330A1 (en) Computer-implemented method and apparatus for analysing genetic data
TW202324151A (zh) 用於分析基因數據之電腦實施的方法及裝置
CN115715415A (zh) 变体致病性评分和分类及其用途
US20240105280A1 (en) Computer-implemented method and apparatus for analysing genetic data
US20240120096A1 (en) Computational Method And System For Diagnostic And Therapeutic Prediction From Multimodal Data
Nguyen Multiple hypothesis testing and RNA-seq differential expression analysis accounting for dependence and relevant covariates
McCarthy et al. Optimizing expression quantitative trait locus mapping workflows for single-cell studies
CN117877573A (zh) 一种利用伊辛模型的多基因遗传风险评估模型的构建方法
Gibbons et al. Jiebiao Wang, Eric R. Gamazon, 2, 3 Brandon L. Pierce, Barbara E. Stranger, 4, 5 Hae Kyung Im, 4
Jaffe et al. Gene set bagging for estimating replicability of gene set analyses