KR102648634B1 - 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법 - Google Patents

게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR102648634B1
KR102648634B1 KR1020207009945A KR20207009945A KR102648634B1 KR 102648634 B1 KR102648634 B1 KR 102648634B1 KR 1020207009945 A KR1020207009945 A KR 1020207009945A KR 20207009945 A KR20207009945 A KR 20207009945A KR 102648634 B1 KR102648634 B1 KR 102648634B1
Authority
KR
South Korea
Prior art keywords
delete delete
variants
sample
identity
samples
Prior art date
Application number
KR1020207009945A
Other languages
English (en)
Other versions
KR20200065000A (ko
Inventor
제프리 스테이플스
루카스 하베거
제프리 레이드
Original Assignee
리제너론 파마슈티칼스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 리제너론 파마슈티칼스 인코포레이티드 filed Critical 리제너론 파마슈티칼스 인코포레이티드
Priority to KR1020247008421A priority Critical patent/KR20240038142A/ko
Publication of KR20200065000A publication Critical patent/KR20200065000A/ko
Application granted granted Critical
Publication of KR102648634B1 publication Critical patent/KR102648634B1/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Abstract

집단에서 복합 이형 접합 돌연변이(CHM) 및 데 노보 돌연변이(DNM)를 식별하기 위한 방법, 비 일시적 컴퓨터 구현 방법 및 시스템이 제공된다. 또한, 집단의 관련성을 활용하여 집단에서 유전자 변이체를 페이징하는 방법이 제공된다. 또한, 인간 집단에서 관련성의 예측 모델이 제공된다.

Description

게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법
관련 출원에 대한 상호 참조
본 출원은 2017년 9월 7일자로 출원된 미국 가특허출원 제 62/555,597 호의 이익을 주장하며, 그의 전문은 본원에서 참고로 포함된다. 또한, 2018년 9월 7일자로 출원된 "인간 집단에서 관련성의 예측 모델을 위한 시스템 및 방법(Systems and Methods for Predicting Relatedness in a Human Population)"이라는 발명의 명칭의 동시 계류중인 출원도 또한 그의 전문이 참고로 포함된다.
본 개시는 일반적으로는 게놈 데이터의 분석, 및 희귀 유전자 변이를 질병 및 질병 감수성에 연결하기 위해 대규모 집단 코호트(large population cohort)에서 관련성(relatedness)을 이용하기 위한 방법 및 시스템에 관한 것이다. 보다 구체적으로, 본 개시는 가계 정체성(identity by descent)을 확립하고, 복합 이형 접합 돌연변이 또는 데 노보 돌연변이(de novo mutation)로서 유전자 변이체를 페이징(phasing)하기 위한 시스템 및 방법에 관한 것이다.
인간의 질병 상태는 환경적 요인뿐만 아니라 유전적 요인에 의해 야기되고 영향을 받는다. 그러므로, 인간 집단의 유전자 변이에 대한 이해는 인간 질병의 병인 및 진행에 대한 이해뿐만 아니라 이들 질병의 치료를 위한 새로운 약물 표적의 확인에 중요하다.
건강 관리 집단에 대한 유전자 연구는, 그것이 광범위한 건강 관리 데이터의 이용 가능성 때문에 유전자 변이체가 인간의 질병 상태에 어떻게 기여하는지에 대한 연구를 단순화시킨다는 점에서 특히 유용하다. 과거에, 이러한 연구는 일반적으로는, 일단 확인되면 분자 레벨에 대해 더욱 상세하게 분석될 수 있는 질병 유전자자리(locus, loci)를 맵핑하기 위한 게놈-전체 유전자 연결 분석에 기초하였다.
지난 몇년간에 걸쳐, 고 처리량 DNA 시퀀싱 기술의 광범위한 가용성은 수십만명의 인간 게놈의 병렬 시퀀싱을 가능하게 해주었다. 이론적으로, 이러한 데이터는 인간 질병의 유전적 토대를 해독하는데 사용될 수 있는 강력한 정보 소스를 나타낸다. 그러나, 계속해서 증가하는 이러한 데이터 세트는 이러한 매우 대규모의 데이터 세트를 지속하여 효율적으로 처리하기 위해 생물정보학 도구 및 분석 파이프라인의 지속적인 혁신을 요구하여 왔다. 또한, 이러한 대규모의 데이터 세트에서의 관련성과 가족구조의 효용 및 그것이 변이체의 식별 및 특성화에 활용될 수 있는 정도는 완전히 인지되고 활용되지 못하였다.
대규모 게놈 데이터의 분석을 위한 개선된 생물정보학 도구에 대한 요구가 여전히 남아 있다. 본 개시는 이러한 요구를 해결한다.
하나의 양태에서, 본 개시는, 집단의 관련성을 활용함으로써 집단에서 유전자 변이체를 페이징하는 방법으로서, 복수의 인간 대상체로부터 수득된 핵산 서열 샘플들의 데이터 세트로부터 저품질 서열 변이체(low-quality sequence variant)를 제거하는 단계; 하나 이상의 상기 샘플 각각에 대한 조상 상강 지정(ancestral superclass designation)을 확립하는 단계; 상기 데이터 세트로부터 저품질 샘플을 제거하는 단계; 조상 상강에서 대상체의 제 1 가계 정체성 추정치(first identity-by-descent estimate)를 생성하는 단계; 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치를 생성하는 단계; 하나 이상의 제 2 가계 정체성 추정치에 기초하여 대상체를 일차 1도 가족 네트워크(primary first-degree family network)로 클러스터링하는 단계; 일차 1도 가족 네트워크에서 대상체의 제 3 가계 정체성 추정치를 생성하는 단계; 제 1 및 제 3 가계 정체성 추정치를 병합하여 병합된 가계 정체성 추정치를 수득하는 단계; 병합된 가계 정체성 추정치에 기초하여 샘플의 이차 1도 가족 네트워크를 구성하는 단계; 및 상기 병합된 가계 정체성 추정치 및 상기 이차 1도 가족 네트워크에 따라 변이체를 복합 이형 접합 돌연변이(compound heterozygous mutation)(CHM)로서 또는 CHM이 아닌 것으로서 페이징하거나, 또는 상기 병합된 가계 정체성 추정치 및 상기 이차 1도 가족 네트워크에 따라 변이체를 데 노보 돌연변이(de novo mutation)(DNM)로서 식별하는 단계를 포함하는 방법들을 제공한다.
일부 예시적인 실시형태에서, 제 1 및 제 3 가계 정체성 추정치를 병합하는 단계는 제 1 가계 정체성 추정치를 제 3 가계 정체성 추정치에 고유한 쌍형(pairwise) 가계 정체성 추정치로 증강시키는 단계를 포함한다.
일부 예시적인 실시형태에서, 변이체를 복합 이형 접합 돌연변이(CHM)로서 페이징하는 단계는, (1) 변이체를 집단 대립 유전자 빈도(population allele frequency)에 따라 페이징하는 단계; (2) 하디-바인베르크 평형(Hardy-Weinberg equilibrium)(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하고, 약 2 이하의 깊이별 품질(quality by depth)(QD), 또는 약 5 미만의 판독 깊이(read depth)(DP), 또는 약 10% 이하의 교대 대립 유전자 평형(allele balance)(AB), 또는 이들의 조합을 갖는 단일 뉴클레오티드 다형성(single nucleotide polymorphism)(SNP)을 제거한 다음, 약 2 이하의 QD, 또는 약 5 미만의 DP, 또는 약 10% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(insertions or deletions)(INDELS)을 제거하는 단계; (3) 남아 있는 변이체를 동일한 샘플에서 및 동일한 유전자에서 하나 이상의 변이체 쌍이 존재하는 잠재적 복합 이형 접합 돌연변이(potential compound heterozygous mutation)(pCHM)로서 선택하는 단계; 및 (4) 상기 pCHM을 시스 또는 트랜스 pCHM으로 페이징한 다음, 트랜스 pCHM으로서 페이징된 pCHM을 CHM으로서 분류하는 단계를 포함한다.
일부 예시적인 실시형태에서, 변이체를 복합 이형 접합 돌연변이로서 페이징하는 단계는, 하디-바인베르크 평형(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하는 단계; 및 약 3 이하의 깊이별 품질(QD), 또는 약 7 미만의 판독 깊이(DP), 또는 약 15% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거하는 단계; 및 약 5 이하의 QD, 또는 약 10 미만의 DP, 또는 약 20% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 방법은 (1) CHM을 기능적 효과 우선 순위(functional effect priority)에 따라 채점(scoring)하는 단계, 및 (2) 샘플에 대해 유전자당 가장 높은 기능적 효과 우선 순위 점수를 갖는 CHM을 선택함으로써, 인간이 동일 유전자에서 하나 이상의 CHM을 가질 경우 단백질 기능 억제를 일으킬 가능성이 가장 높은 CHM을 식별하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 변이체를 데 노보 돌연변이로서 식별하는 단계는, (1) 이차 1도 가족 네트워크 및 그의 트리오(trios)의 샘플에서 변이체를 식별하는 단계; (2) 유전자형 우도 점수(genotype likelihood score)를 트리오의 부모 샘플 및 상응하는 자식 샘플에서 변이체에 할당하여 상기 변이체가 데 노보 돌연변이일 확률을 계산하고, 상기 계산된 확률이 통계적으로 유의할 경우에 상기 변이체를 가능성 있는 데 노보 돌연변이로서 식별하는 단계; (3) 트리오의 자식 샘플에서 변이체를 식별하고, 상기 변이체가 트리오의 부모 샘플 중의 어느 하나에서 존재하지 않을 경우에 상기 변이체를 가능성 있는 데 노보 돌연변이로 식별하는 단계; (4) 자식 샘플에서 약 35 미만의 유전자형 품질(genotype quality)(GQ) 주석(annotation)을 갖거나, 또는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 10 이상의 교대 대립 유전자 카운트(allele count)(AC)를 갖거나, 또는 자식 샘플에서 약 7 미만의 판독 깊이(DP) 및 약 4 미만의 교대 DP를 갖거나, 또는 부모 샘플 중의 어느 하나에서 약 2% 초과의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 15% 미만의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 90% 초과의 AB를 갖거나, 또는 부모 샘플 중의 어느 하나에서 교대 대립 유전자 동형 접합성(homozygosity)을 갖거나, 또는 이들의 조합을 갖는 가능성 있는 데 노보 돌연변이를 제거함으로써 식별된 가능성 있는 데 노보 돌연변이를 필터링하는 단계; 및 (5) 상기 필터링된 식별된 가능성 있는 데 노보 돌연변이를 조합함으로써 가능성 있는 데 노보 돌연변이 데이터 세트를 형성하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 가능성 있는 데 노보 돌연변이가 자식 샘플에서 약 0.15 이상 및 각각의 부모 샘플에서 약 0.02 이하의 대립 유전자 평형을 갖고, 약 40 미만의 맵핑 품질(mapping quality)을 갖지 않고, 약 2 미만의 깊이별 품질(QD) 값을 갖지 않고, 샘플 전체에 걸쳐 약 20 미만의 MAC를 갖고, 캐리어 중에서 상기 가능성 있는 데 노보 돌연변이의 변이체 사이트에서 약 3 이하의 소프트-클립핑된 판독값(soft-clipped reads)을 가지며, 약 4 초과의 모노-폴리머 런(mono-polymer run)을 갖는 INDEL이 아닌 경우에 가능성 있는 데 노보 돌연변이 데이터 세트에서 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 상기 중간 신뢰도 데 노보 돌연변이가 부모 샘플에서 약 90 이상의 유전자형 품질 주석을 갖고, 각각의 부모 샘플에서 약 10 이상의 판독 깊이를 갖고, 자식 샘플에서 약 7 이상의 교대 판독 깊이를 갖고, SNP에 대해 약 3 초과의 QD를 가지며, INDEL에 대해 약 5 초과의 QD를 갖는 경우에 상기 중간 신뢰도 데 노보 돌연변이를 고 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
하나의 양태에서, 본 개시는, 집단에서 복합 이형 접합 돌연변이(CHM)를 식별하는 방법으로서, 복수의 인간 대상체로부터의 DNA 서열 샘플에서 변이체를 식별하는 단계; 식별된 변이체에 기초하여 대상체에 대한 조상 상강 지정을 확립하는 단계; 조상 상강 내에서 대상체의 제 1 가계 정체성 추정치를 생성하는 단계; 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치를 생성하는 단계; 하나 이상의 상기 제 2 가계 정체성 추정치에 기초하여 대상체를 일차 1도 가족 네트워크로 클러스터링하는 단계; 일차 1도 가족 네트워크 내에서 대상체의 제 3 가계 정체성 추정치를 생성하는 단계; 제 1 및 제 3 가계 정체성 추정치를 병합하여 병합된 가계 정체성 추정치를 수득하는 단계; 병합된 가계 정체성 추정치에 기초하여 이차 1도 가족 네트워크를 구성하는 단계; 집단 대립 유전자 빈도에 따라 샘플에서 변이체를 페이징하는 단계; 동일한 대상체 및 유전자에서 둘 이상의 변이체의 존재에 기초하여 페이징된 변이체를 잠재적 CHM으로서 분류하는 단계; 및 동일한 대상체 및 유전자에서 잠재적 CHM을 또 다른 변이체와 시스 또는 트랜스로서 페이징한 다음, 트랜스로서 페이징된 잠재적 CHM을 CHM으로서 분류하는 단계를 포함하는 방법을 제공한다.
일부 예시적인 실시형태에서, 상기 방법은 대상체에 대한 조상 상강 지정이 확립되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은 대상체의 제 1 및 제 2 가계 정체성 추정치가 생성되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 변이체를 필터링하는 단계는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 약 10% 초과의 교대 대립 유전자 빈도를 갖는 변이체, 또는 > 약 10-6 의 p-값을 갖는 하디-바인베르크 평형(HWE)을 위반하는 변이체, 또는 복수의 인간 대상체로부터의 샘플의 > 약 5%의 누락된 호출(missing call)을 갖는 변이체, 또는 이들의 조합을 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 방법은 식별된 변이체가 필터링된 후에 저품질 샘플을 제거하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플은 > 0.12의 D-stat 또는 < 75%의 20x 판독 범위, 또는 이들 둘다를 갖는 샘플이다.
일부 예시적인 실시형태에서, 제 1 및 제 3 가계 정체성 추정치를 병합하는 단계는 제 1 가계 정체성 추정치를 제 3 가계 정체성 추정치에 고유한 쌍형 가계 정체성 추정치로 증강시키는 단계를 포함한다.
일부 예시적인 실시형태에서, 가계 정체성 추정치는 샘플 쌍 중에서 IBD 0, 1, 및 2 값을 갖는 게놈-전체 계산치를 포함한다.
일부 예시적인 실시형태에서, 상기 방법은 변이체가 집단 대립 유전자 빈도에 따라 페이징된 후에 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 집단 대립 유전자 빈도에 따라 페이징된 변이체를 필터링하는 단계는, 하디-바인베르크 평형(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하는 단계; 및 약 2 이하의 깊이별 품질(QD), 또는 약 5 미만의 판독 깊이(DP), 또는 약 10% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거하는 단계; 및 약 2 이하의 QD, 또는 약 5 미만의 DP, 또는 약 10% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 집단 대립 유전자 빈도에 따라 변이체를 페이징하는 단계는 인간 대상체의 DNA 서열 샘플을 유전자간 영역(intergenic region)에서 대략 동등한 크기, 실질적인 세그먼트 중첩 및 중단점(break point)을 갖는 게놈 세그먼트로 분할하는 단계를 포함한다.
일부 예시적인 실시형태에서, 잠재적 CHM은 트리오 데이터, 또는 부모-자식 데이터, 또는 전체 형제자매 데이터(full-sibling data), 또는 먼 친척 데이터(distant relative data), 또는 이들의 조합에 기초하여 페이징되거나; 또는 미량의 대립 유전자 카운트(MAC)에 기초하여 페이징되거나; 또는 집단 대립 유전자 빈도에 기초하여 페이징되거나; 또는 이들의 조합에 기초하여 페이징된다.
일부 예시적인 실시형태에서, 상기 방법은 CHM을 기능적 효과 우선 순위에 따라 채점한 다음 샘플에 대해 유전자당 가장 높은 기능적 효과 우선 순위 점수를 갖는 CHM을 선택함으로써 의학적으로 관련된 돌연변이를 수집하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, DNA 서열 샘플은 엑솜 서열을 포함한다.
일부 예시적인 실시형태에서, 복수의 인간 대상체는 10K 초과의 대상체를 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플의 D-stat은 콜모고로프-스미르노프(Kolmogorov-Smirnov)(KS) 테스트를 이용하여 샘플의 실제 대립 유전자 평형 분포를 예상되는 대립 유전자 평형 분포와 비교함으로써 결정된다.
일부 예시적인 실시형태에서, 집단 대립 유전자 빈도에 따라 페이징된 변이체를 필터링하는 단계는, 하디-바인베르크 평형(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하는 단계; 및 약 3 이하의 깊이별 품질(QD), 또는 약 7 미만의 판독 깊이(DP), 또는 약 15% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거하는 단계; 및 약 5 이하의 QD, 또는 약 10 미만의 DP, 또는 약 20% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계를 포함한다.
다른 양태에서, 본 개시는 집단에서 복합 이형 접합 돌연변이(CHM)를 식별하기 위한 비-일시적 컴퓨터 구현 방법(non-transitory computer-implemented method)을 제공한다. 일반적으로, 상기 비-일시적 컴퓨터 구현 방법은, 컴퓨팅 장치의 데이터 프로세서를 사용하여 복수의 인간 대상체로부터의 DNA 서열 샘플에서 변이체를 식별하는 단계; 상기 데이터 프로세서를 사용하여 식별된 변이체에 기초하여 대상체에 대한 조상 상강 지정을 확립하는 단계; 상기 데이터 프로세서를 사용하여 조상 상강 내에서 대상체의 제 1 가계 정체성 추정치를 생성하는 단계; 상기 데이터 프로세서를 사용하여 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치를 생성하는 단계; 상기 데이터 프로세서를 사용하여 하나 이상의 제 2 가계 정체성 추정치에 기초하여 대상체를 일차 1도 가족 네트워크로 클러스터링하는 단계; 상기 데이터 프로세서를 사용하여 일차 1도 가족 네트워크 내에서 대상체의 제 3 가계 정체성 추정치를 생성하는 단계; 상기 데이터 프로세서를 사용하여 제 1 및 제 3 가계 정체성 추정치를 병합하여 병합된 가계 정체성 추정치를 수득하는 단계; 상기 데이터 프로세서를 사용하여 병합된 가계 정체성 추정치에 기초하여 이차 1도 가족 네트워크를 구성하는 단계; 상기 데이터 프로세서를 사용하여 집단 대립 유전자 빈도에 따라 샘플에서 변이체를 페이징하는 단계; 상기 데이터 프로세서를 사용하여 동일한 대상체 및 유전자에서 둘 이상의 변이체의 존재에 기초하여 페이징된 변이체를 잠재적 CHM으로 분류하는 단계; 및 상기 데이터 프로세서를 사용하여 잠재적 CHM을 또 다른 변이체와 시스 또는 트랜스로서 페이징한 다음 트랜스로서 페이징된 잠재적 CHM을 CHM으로서 분류하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 대상체에 대한 조상 상강 지정이 확립되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 대상체의 제 2 가계 정체성 추정치가 생성되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 변이체를 필터링하는 단계는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 약 10% 초과의 교대 대립 유전자 빈도를 갖는 변이체, 또는 > 약 10-6 의 p-값을 갖는 하디-바인베르크 평형(HWE)을 위반하는 변이체, 또는 복수의 인간 대상체로부터의 샘플의 > 약 5%의 누락된 호출(missing call)을 갖는 변이체, 또는 이들의 조합을 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 식별된 변이체가 필터링된 후에 저품질 샘플을 제거하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플은 > 0.12의 D-stat 또는 < 75%의 20x 판독 범위, 또는 이들 둘다를 갖는 샘플이다.
일부 예시적인 실시형태에서, 제 1 및 제 3 가계 정체성 추정치를 병합하는 단계는 제 1 가계 정체성 추정치를 제 3 가계 정체성 추정치에 고유한 쌍형 가계 정체성 추정치로 증강시키는 단계를 포함한다.
일부 예시적인 실시형태에서, 가계 정체성 추정치는 샘플 쌍 중에서 IBD 0, 1, 및 2 값을 갖는 게놈-전체 계산치를 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 변이체가 집단 대립 유전자 빈도에 따라 페이징된 후에 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 집단 대립 유전자 빈도에 따라 페이징된 변이체를 필터링하는 단계는, 하디-바인베르크 평형의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하는 단계; 및 약 2 이하의 깊이별 품질(QD), 또는 약 5 미만의 판독 깊이(DP), 또는 약 10% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거하는 단계; 및 약 2 이하의 QD, 또는 약 5 미만의 DP, 또는 약 10% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 집단 대립 유전자 빈도에 따라 변이체를 페이징하는 단계는 인간 대상체의 DNA 서열 샘플을 유전자간 영역에서 대략 동등한 크기, 실질적인 세그먼트 중첩 및 중단점을 갖는 게놈 세그먼트로 분할하는 단계를 포함한다.
일부 예시적인 실시형태에서, 잠재적 CHM은 트리오 데이터, 또는 부모-자식 데이터, 또는 전체 형제자매 데이터, 또는 먼 친척 데이터, 또는 이들의 조합에 기초하여 페이징되거나; 또는 미량의 대립 유전자 카운트(MAC)에 기초하여 페이징되거나; 또는 집단 대립 유전자 빈도에 기초하여 페이징되거나; 또는 이들의 조합에 기초하여 페이징된다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 CHM을 기능적 효과 우선 순위에 따라 채점한 다음 샘플에 대해 유전자당 가장 높은 기능적 효과 우선 순위 점수를 갖는 CHM을 선택함으로써 의학적으로 관련된 돌연변이를 수집하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, DNA 서열 샘플은 엑솜 서열을 포함한다.
일부 예시적인 실시형태에서, 상기 복수의 인간 대상체는 10K 초과의 대상체를 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플의 D-stat은 KS 테스트를 이용하여 샘플의 실제 대립 유전자 평형 분포를 예상되는 대립 유전자 평형 분포와 비교함으로써 결정된다.
일부 예시적인 실시형태에서, 집단 대립 유전자 빈도에 따라 페이징된 변이체를 필터링하는 단계는, 하디-바인베르크 평형(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하는 단계; 및 약 3 이하의 깊이별 품질(QD), 또는 약 7 미만의 판독 깊이(DP), 또는 약 15% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거하는 단계; 및 약 5 이하의 QD, 또는 약 10 미만의 DP, 또는 약 20% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계를 포함한다.
또 다른 양태에서, 본 개시는 상기 방법들 및 비-일시적 컴퓨터 구현 방법을 구현하기 위한 시스템을 제공한다. 이러한 시스템은 일반적으로는 데이터 프로세서; 상기 데이터 프로세서에 연결된 메모리; 및 상기 메모리에 저장된 프로그램을 포함하며, 상기 프로그램은 하기 단계들에 대한 명령을 포함한다: 복수의 인간 대상체로부터의 DNA 서열 샘플에서 변이체를 식별하는 단계; 식별된 변이체에 기초하여 대상체에 대한 조상 상강 지정을 확립하는 단계; 조상 상강 내에서 대상체의 제 1 가계 정체성 추정치를 생성하는 단계; 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치를 생성하는 단계; 하나 이상의 상기 제 2 가계 정체성 추정치에 기초하여 대상체를 일차 1도 가족 네트워크로 클러스터링하는 단계; 일차 1도 가족 네트워크 내에서 대상체의 제 3 가계 정체성 추정치를 생성하는 단계; 제 1 및 제 3 가계 정체성 추정치를 병합하여 병합된 가계 정체성 추정치를 수득하는 단계; 병합된 가계 정체성 추정치에 기초하여 이차 1도 가족 네트워크를 구성하는 단계; 집단 대립 유전자 빈도에 따라 샘플에서 변이체를 페이징하는 단계; 동일한 대상체 및 유전자에서 둘 이상의 변이체의 존재에 기초하여 페이징된 변이체를 잠재적 CHM으로서 분류하는 단계; 및 동일한 대상체 및 유전자에서 잠재적 CHM을 또 다른 변이체와 시스 또는 트랜스로서 페이징한 다음, 트랜스로서 페이징된 잠재적 CHM을 CHM으로서 분류하는 단계.
일부 예시적인 실시형태에서, 상기 프로그램은 대상체에 대한 조상 상강 지정이 확립되기 전에 식별된 변이체를 필터링하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은 대상체의 제 1 및 제 2 가계 정체성 추정치가 생성되기 전에 식별된 변이체를 필터링하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 변이체를 필터링하는 단계는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 약 10% 초과의 교대 대립 유전자 빈도를 갖는 변이체, 또는 > 약 10-6 의 p-값을 갖는 하디-바인베르크 평형(HWE)을 위반하는 변이체, 또는 복수의 인간 대상체로부터의 샘플의 > 약 5%의 누락된 호출을 갖는 변이체, 또는 이들의 조합을 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은 식별된 변이체가 필터링된 후에 저품질 샘플을 제거하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플은 > 0.12의 D-stat 또는 < 75%의 20x 판독 범위, 또는 이들 둘다를 갖는 샘플이다.
일부 예시적인 실시형태에서, 제 1 및 제 3 가계 정체성 추정치를 병합하는 단계는 제 1 가계 정체성 추정치를 제 3 가계 정체성 추정치에 고유한 쌍형 가계 정체성 추정치로 증강시키는 단계를 포함한다.
일부 예시적인 실시형태에서, 가계 정체성 추정치는 샘플 쌍 중에서 IBD 0, 1, 및 2 값을 갖는 게놈-전체 계산치를 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은 변이체가 집단 대립 유전자 빈도에 따라 페이징된 후에 변이체를 필터링하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 집단 대립 유전자 빈도에 따라 페이징된 변이체를 필터링하는 단계는, 하디-바인베르크 평형(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하는 단계; 및 약 2 이하의 깊이별 품질(QD), 또는 약 5 미만의 판독 깊이(DP), 또는 약 10% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거하는 단계; 및 약 2 이하의 QD, 또는 약 5 미만의 DP, 또는 약 10% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 집단 대립 유전자 빈도에 따라 변이체를 페이징하는 단계는 인간 대상체의 DNA 서열 샘플을 유전자간 영역에서 대략 동등한 크기, 실질적인 세그먼트 중첩 및 중단점을 갖는 게놈 세그먼트로 분할하는 단계를 포함한다.
일부 예시적인 실시형태에서, 잠재적 CHM은 트리오 데이터, 또는 부모-자식 데이터, 또는 전체 형제자매 데이터, 또는 먼 친척 데이터, 또는 이들의 조합에 기초하여 페이징되거나; 또는 소량의 대립 유전자 카운트(MAC)에 기초하여 페이징되거나; 또는 집단 대립 유전자 빈도에 기초하여 페이징되거나; 또는 이들의 조합에 기초하여 페이징된다.
일부 예시적인 실시형태에서, 상기 프로그램은 CHM을 기능적 효과 우선 순위에 따라 채점한 다음 샘플에 대해 유전자당 가장 높은 기능적 효과 우선 순위 점수를 갖는 CHM을 선택함으로써 의학적으로 관련된 돌연변이를 수집하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, DNA 서열 샘플은 엑솜 서열을 포함한다.
일부 예시적인 실시형태에서, 복수의 인간 대상체는 10K 초과의 대상체를 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플의 D-stat은 KS 테스트를 이용하여 샘플의 실제 대립 유전자 평형 분포를 예상되는 대립 유전자 평형 분포와 비교함으로써 결정된다.
일부 예시적인 실시형태에서, 집단 대립 유전자 빈도에 따라 페이징된 변이체를 필터링하는 단계는, 하디-바인베르크 평형(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하는 단계; 및 약 3 이하의 깊이별 품질(QD), 또는 약 7 미만의 판독 깊이(DP), 또는 약 15% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거하는 단계; 및 약 5 이하의 QD, 또는 약 10 미만의 DP, 또는 약 20% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계를 포함한다.
또 다른 양태에서, 본 개시는 집단에서 데 노보 돌연변이(DNM)를 식별하는 방법을 제공한다. 일반적으로, 이러한 방법은, 복수의 인간 대상체로부터의 DNA 서열 샘플에서 변이체를 식별하는 단계; 식별된 변이체에 기초하여 대상체에 대한 조상 상강 지정을 확립하는 단계; 조상 상강 내에서 대상체의 제 1 가계 정체성 추정치를 생성하는 단계; 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치를 생성하는 단계; 하나 이상의 상기 제 2 가계 정체성 추정치에 기초하여 대상체를 일차 1도 가족 네트워크로 클러스터링하는 단계; 일차 1도 가족 네트워크 내에서 대상체의 제 3 가계 정체성 추정치를 생성하는 단계; 제 1 및 제 3 가계 정체성 추정치를 병합하여 병합된 가계 정체성 추정치를 수득하는 단계; 병합된 가계 정체성 추정치에 기초하여 핵가족(nuclear family)을 구성하는 단계; 핵가족에서 변이체를 식별하는 단계; 구성된 핵가족에서 트리오의 각각의 부모 및 자식으로부터의 샘플의 변이체에 유전자형 우도 점수를 할당하고 변이체가 데 노보 돌연변이일 확률을 계산하고, 부모 샘플 중의 어느 하나에서 트리오로 존재하지 않는 자식 샘플에서 변이체를 독립적으로 순수하게 식별하고 변이체가 데 노보 돌연변이일 확률을 계산한 다음, 이들 두 확률을 조합함으로써 가능성 있는 데 노보 돌연변이의 데이터 세트를 형성하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 방법은 대상체에 대한 조상 상강 지정이 확립되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은 대상체의 제 2 가계 정체성 추정치가 생성되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 변이체를 필터링하는 단계는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 약 10% 초과의 교대 대립 유전자 빈도를 갖는 변이체, 또는 > 약 10-6 의 p-값을 갖는 하디-바인베르크 평형(HWE)을 위반하는 변이체, 또는 복수의 인간 대상체로부터의 샘플의 > 약 5%의 누락된 호출을 갖는 변이체, 또는 이들의 조합을 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 방법은 식별된 변이체가 필터링된 후에 저품질 샘플을 제거하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플은 > 0.12의 D-stat 또는 < 75%의 20x 판독 범위, 또는 이들 둘다를 갖는 샘플이다.
일부 예시적인 실시형태에서, 제 1 및 제 3 가계 정체성 추정치를 병합하는 단계는 제 1 가계 정체성 추정치를 제 3 가계 정체성 추정치에 고유한 쌍형 가계 정체성 추정치로 증강시키는 단계를 포함한다.
일부 예시적인 실시형태에서, 가계 정체성 추정치는 샘플 쌍 중에서 IBD 0, 1, 및 2 값을 갖는 게놈-전체 계산치를 포함한다.
일부 예시적인 실시형태에서, 상기 유전자형 우도 점수는 복수의 핵가족에서 복수의 인간 대상체로부터의 DNA 서열 샘플에 기초한다.
일부 예시적인 실시형태에서, 상기 방법은, 유전자형 우도 점수에 기초하여 변이체가 데 노보 돌연변이인 것으로 확률이 계산된 후에 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 부모 샘플 중의 어느 하나에 존재하지 않는 자식 샘플에서 변이체를 순수하게 식별하는 것에 기초하여 변이체가 데 노보 돌연변이인 것으로 확률이 계산된 후에 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 변이체를 필터링하는 단계는, 자식 샘플에서 약 35 미만의 유전자형 품질(GQ) 주석을 갖거나, 또는 샘플들 중에서 10 이상의 교대 대립 유전자 카운트(AC)를 갖거나, 또는 자식 샘플에서 약 7 미만의 판독 깊이(DP) 또는 약 4 미만의 교대 DP를 갖거나, 또는 부모 샘플 중의 어느 하나에서 약 2% 초과의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 15% 미만의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 90% 초과의 AB를 갖거나, 또는 부모 샘플 중의 어느 하나에서 교대 대립 유전자 동형 접합성을 갖거나, 또는 이들의 조합을 갖는 변이체를 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 방법은 품질 관리 메트릭스로 변이체를 주석 처리하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 부모 샘플 중의 어느 하나에 존재하지 않는 자식 샘플에서 변이체를 순수하게 식별하는 것에 기초하여 가능성 있는 데 노보 돌연변이가 식별된 후에 샘플 BAM 파일 데이터에 기초하여 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 가능성 있는 데 노보 돌연변이가 자식 샘플에서 약 0.15 이상의 대립 유전자 평형을 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 가능성 있는 데 노보 돌연변이가 각각의 부모 샘플에서 약 0.02 이하의 대립 유전자 평형을 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 가능성 있는 데 노보 돌연변이가 약 40 미만의 맵핑 품질을 갖지 않을 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 가능성 있는 데 노보 돌연변이가 약 2 미만의 깊이별 품질(QD) 값을 갖지 않을 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 가능성 있는 데 노보 돌연변이가 샘플 전체에 걸쳐 약 20 미만의 MAC를 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 가능성 있는 데 노보 돌연변이가 캐리어 중에서 상기 가능성 있는 데 노보 돌연변이의 변이체 사이트에서 약 3 이하의 소프트-클립핑된 판독값을 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 가능성 있는 데 노보 돌연변이가 약 4 초과의 모노-폴리머 런을 갖는 INDEL이 아닐 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 가능성 있는 데 노보 돌연변이가 자식 샘플에서 약 0.15 이상 및 각각의 부모 샘플에서 약 0.02 이하의 대립 유전자 평형(AB)을 갖고, 약 40 미만의 맵핑 품질(MQ)을 갖지 않고, 약 2 미만의 깊이별 품질(QD) 값을 갖지 않고, 샘플 전체에 걸쳐 약 20 미만의 미량의 대립 유전자 카운트(MAC)를 갖고, 캐리어 중에서 상기 가능성 있는 데 노보 돌연변이의 변이체 사이트에서 약 3 이하의 소프트-클립핑된 판독값을 가지며, 약 4 초과의 모노-폴리머 런을 갖는 INDEL이 아닌 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 방법은, 중간 신뢰도 데 노보 돌연변이가 부모 샘플에서 약 90 이상의 유전자형 품질(GQ) 주석을 갖고, 각각의 부모 샘플에서 약 10 이상의 판독 깊이(DP)를 갖고, 자식 샘플에서 약 7 이상의 교대 DP를 갖고, SNP에 대해 약 3 초과의 QD를 가지며, INDEL에 대해 약 5 초과의 QD를 갖는 경우에 상기 중간 신뢰도 데 노보 돌연변이를 고 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, DNA 서열 샘플은 엑솜 서열을 포함한다.
일부 예시적인 실시형태에서, 상기 복수의 인간 대상체는 10K 초과의 대상체를 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플의 D-stat은 KS 테스트를 이용하여 샘플의 실제 대립 유전자 평형 분포를 예상되는 대립 유전자 평형 분포와 비교함으로써 결정된다.
또 다른 양태에서, 본 개시는 집단에서 데 노보 돌연변이(DNM)를 식별하기 위한 비-일시적 컴퓨터 구현 방법을 제공한다. 일반적으로, 이러한 비-일시적 컴퓨터 구현 방법은, 컴퓨팅 장치의 데이터 프로세서를 사용하여 복수의 인간 대상체로부터의 DNA 서열 샘플에서 변이체를 식별하는 단계; 데이터 프로세서를 사용하여 식별된 변이체에 기초하여 대상체에 대한 조상 상강 지정을 확립하는 단계; 데이터 프로세서를 사용하여 조상 상강 내에서 대상체의 제 1 가계 정체성 추정치를 생성하는 단계; 데이터 프로세서를 사용하여 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치를 생성하는 단계; 데이터 프로세서를 사용하여 하나 이상의 상기 제 2 가계 정체성 추정치에 기초하여 대상체를 일차 1도 가족 네트워크로 클러스터링하는 단계; 데이터 프로세서를 사용하여 일차 1도 가족 네트워크 내에서 대상체의 제 3 가계 정체성 추정치를 생성하는 단계; 데이터 프로세서를 사용하여 제 1 및 제 3 가계 정체성 추정치를 병합하여 병합된 가계 정체성 추정치를 수득하는 단계; 데이터 프로세서를 사용하여 병합된 가계 정체성 추정치에 기초하여 핵가족을 구성하는 단계; 데이터 프로세서를 사용하여 핵가족에서 변이체를 식별하는 단계; 데이터 프로세서를 사용하여 구성된 핵가족에서 트리오의 각각의 부모 및 자식으로부터의 샘플의 변이체에 유전자형 우도 점수를 할당하고 변이체가 데 노보 돌연변이일 확률을 계산하고, 부모 샘플 중의 어느 하나에서 트리오로 존재하지 않는 자식 샘플에서 변이체를 독립적으로 순수하게 식별하고 변이체가 데 노보 돌연변이일 확률을 계산한 다음, 이들 두 확률을 조합함으로써 가능성 있는 데 노보 돌연변이의 데이터 세트를 형성하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 대상체에 대한 조상 상강 지정이 확립되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 대상체의 제 2 가계 정체성 추정치가 생성되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 변이체를 필터링하는 단계는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 약 10% 초과의 교대 대립 유전자 빈도를 갖는 변이체, 또는 > 약 10-6 의 p-값을 갖는 하디-바인베르크 평형을 위반하는 변이체, 또는 복수의 인간 대상체로부터의 샘플의 > 약 5%의 누락된 호출을 갖는 변이체, 또는 이들의 조합을 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 식별된 변이체가 필터링된 후에 저품질 샘플을 제거하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플은 > 0.12의 D-stat 또는 < 75%의 20x 판독 범위, 또는 이들 둘다를 갖는 샘플이다.
일부 예시적인 실시형태에서, 제 1 및 제 3 가계 정체성 추정치를 병합하는 단계는 제 1 가계 정체성 추정치를 제 3 가계 정체성 추정치에 고유한 쌍형 가계 정체성 추정치로 증강시키는 단계를 포함한다.
일부 예시적인 실시형태에서, 가계 정체성 추정치는 샘플 쌍 중에서 IBD 0, 1, 및 2 값을 갖는 게놈-전체 계산치를 포함한다.
일부 예시적인 실시형태에서, 상기 유전자형 우도 점수는 복수의 핵가족에서 복수의 인간 대상체로부터의 DNA 서열 샘플에 기초한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 유전자형 우도 점수에 기초하여 변이체가 데 노보 돌연변이인 것으로 확률이 계산된 후에 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 부모 샘플 중의 어느 하나에 존재하지 않는 자식 샘플에서 변이체를 순수하게 식별하는 것에 기초하여 변이체가 데 노보 돌연변이인 것으로 확률이 계산된 후에 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 변이체를 필터링하는 단계는, 자식 샘플에서 약 35 미만의 유전자형 품질(GQ) 주석을 갖거나, 또는 샘플 전체에 걸쳐 10 이상의 교대 대립 유전자 카운트(AC)를 갖거나, 또는 자식 샘플에서 약 7 미만의 판독 깊이(DP) 또는 약 4 미만의 교대 DP를 갖거나, 또는 부모 샘플 중의 어느 하나에서 약 2% 초과의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 15% 미만의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 90% 초과의 AB를 갖거나, 또는 부모 샘플 중의 어느 하나에서 교대 대립 유전자 동형 접합성을 갖거나, 또는 이들의 조합을 갖는 변이체를 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 품질 관리 메트릭스로 변이체를 주석 처리하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 부모 샘플 중의 어느 하나에 존재하지 않는 자식 샘플에서 변이체를 순수하게 식별하는 것에 기초하여 가능성 있는 데 노보 돌연변이가 식별된 후에 샘플 BAM 파일 데이터에 기초하여 변이체를 필터링하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 가능성 있는 데 노보 돌연변이가 자식 샘플에서 약 0.15 이상의 대립 유전자 평형을 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 가능성 있는 데 노보 돌연변이가 각각의 부모 샘플에서 약 0.02 이하의 대립 유전자 평형을 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 가능성 있는 데 노보 돌연변이가 약 40 미만의 맵핑 품질을 갖지 않을 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 가능성 있는 데 노보 돌연변이가 약 2 미만의 깊이별 품질(QD) 값을 갖지 않을 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 가능성 있는 데 노보 돌연변이가 샘플 전체에 걸쳐 약 20 미만의 MAC를 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 가능성 있는 데 노보 돌연변이가 캐리어 중에서 상기 가능성 있는 데 노보 돌연변이의 변이체 사이트에서 약 3 이하의 소프트-클립핑된 판독값을 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 가능성 있는 데 노보 돌연변이가 약 4 초과의 모노-폴리머 런을 갖는 INDEL이 아닐 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 가능성 있는 데 노보 돌연변이가 자식 샘플에서 약 0.15 이상 및 각각의 부모 샘플에서 약 0.02 이하의 대립 유전자 평형(AB)을 갖고, 약 40 미만의 맵핑 품질(MQ)을 갖지 않고, 약 2 미만의 깊이별 품질(QD) 값을 갖지 않고, 샘플 전체에 걸쳐 약 20 미만의 미량의 대립 유전자 카운트(MAC)를 갖고, 캐리어 중에서 상기 가능성 있는 데 노보 돌연변이의 변이체 사이트에서 약 3 이하의 소프트-클립핑된 판독값을 가지며, 약 4 초과의 모노-폴리머 런을 갖는 INDEL이 아닌 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 상기 비-일시적 컴퓨터 구현 방법은, 상기 데이터 프로세서를 사용하여 중간 신뢰도 데 노보 돌연변이가 부모 샘플에서 약 90 이상의 유전자형 품질(GQ) 주석을 갖고, 각각의 부모 샘플에서 약 10 이상의 판독 깊이(DP)를 갖고, 자식 샘플에서 약 7 이상의 교대 DP를 갖고, SNP에 대해 약 3 초과의 QD를 가지며, INDEL에 대해 약 5 초과의 QD를 갖는 경우에 상기 중간 신뢰도 데 노보 돌연변이를 고 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, DNA 서열 샘플은 엑솜 서열을 포함한다.
일부 예시적인 실시형태에서, 상기 복수의 인간 대상체는 10K 초과의 대상체를 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플의 D-stat은 KS 테스트를 이용하여 샘플의 실제 대립 유전자 평형 분포를 예상되는 대립 유전자 평형 분포와 비교함으로써 결정된다.
또 다른 양태에서, 본 개시는 시스템을 제공한다. 이러한 시스템은, 예를 들면, 상기 방법들 및 비-일시적 컴퓨터 구현 방법을 구현하는데 사용될 수 있다. 이러한 시스템은 일반적으로는 데이터 프로세서; 상기 데이터 프로세서에 연결된 메모리; 및 상기 메모리에 저장된 프로그램을 포함하며, 상기 프로그램은, 복수의 인간 대상체로부터의 DNA 서열 샘플에서 변이체를 식별하는 단계; 식별된 변이체에 기초하여 대상체에 대한 조상 상강 지정을 확립하는 단계; 조상 상강 내에서 대상체의 제 1 가계 정체성 추정치를 생성하는 단계; 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치를 생성하는 단계; 하나 이상의 상기 제 2 가계 정체성 추정치에 기초하여 대상체를 일차 1도 가족 네트워크로 클러스터링하는 단계; 일차 1도 가족 네트워크 내에서 대상체의 제 3 가계 정체성 추정치를 생성하는 단계; 제 1 및 제 3 가계 정체성 추정치를 병합하여 병합된 가계 정체성 추정치를 수득하는 단계; 병합된 가계 정체성 추정치에 기초하여 핵가족을 구성하는 단계; 핵가족에서 변이체를 식별하는 단계; 구성된 핵가족에서 트리오의 각각의 부모 및 자식으로부터의 샘플의 변이체에 유전자형 우도 점수를 할당하고 변이체가 데 노보 돌연변이일 확률을 계산하고, 부모 샘플 중의 어느 하나에서 트리오로 존재하지 않는 자식 샘플에서 변이체를 독립적으로 순수하게 식별하고 변이체가 데 노보 돌연변이일 확률을 계산한 다음, 이들 두 확률을 조합함으로써 가능성 있는 데 노보 돌연변이의 데이터 세트를 형성하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은 대상체에 대한 조상 상강 지정이 확립되기 전에 식별된 변이체를 필터링하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은 대상체의 제 2 가계 정체성 추정치가 생성되기 전에 식별된 변이체를 필터링하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 변이체를 필터링하는 단계는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 약 10% 초과의 교대 대립 유전자 빈도를 갖는 변이체, 또는 > 약 10-6 의 p-값을 갖는 하디-바인베르크 평형(HWE)을 위반하는 변이체, 또는 복수의 인간 대상체로부터의 샘플의 > 약 5%의 누락된 호출을 갖는 변이체, 또는 이들의 조합을 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은 식별된 변이체가 필터링된 후에 저품질 샘플을 제거하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플은 > 0.12의 D-stat 또는 < 75%의 20x 판독 범위, 또는 이들 둘다를 갖는 샘플이다.
일부 예시적인 실시형태에서, 제 1 및 제 3 가계 정체성 추정치를 병합하는 단계는 제 1 가계 정체성 추정치를 제 3 가계 정체성 추정치에 고유한 쌍형 가계 정체성 추정치로 증강시키는 단계를 포함한다.
일부 예시적인 실시형태에서, 가계 정체성 추정치는 샘플 쌍 중에서 IBD 0, 1, 및 2 값을 갖는 게놈-전체 계산치를 포함한다.
일부 예시적인 실시형태에서, 상기 유전자형 우도 점수는 복수의 핵가족에서 복수의 인간 대상체로부터의 DNA 서열 샘플에 기초한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 유전자형 우도 점수에 기초하여 변이체가 데 노보 돌연변이인 것으로 확률이 계산된 후에 변이체를 필터링하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 부모 샘플 중의 어느 하나에 존재하지 않는 자식 샘플에서 변이체를 순수하게 식별하는 것에 기초하여 변이체가 데 노보 돌연변이인 것으로 확률이 계산된 후에 변이체를 필터링하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 변이체를 필터링하는 단계는, 자식 샘플에서 약 35 미만의 유전자형 품질(GQ) 주석을 갖거나, 또는 샘플 전체에 걸쳐 10 이상의 교대 대립 유전자 카운트(AC)를 갖거나, 또는 자식 샘플에서 약 7 미만의 판독 깊이(DP) 또는 약 4 미만의 교대 DP를 갖거나, 또는 부모 샘플 중의 어느 하나에서 약 2% 초과의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 15% 미만의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 90% 초과의 AB를 갖거나, 또는 부모 샘플 중의 어느 하나에서 교대 대립 유전자 동형 접합성을 갖거나, 또는 이들의 조합을 갖는 변이체를 제거하는 단계를 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은 품질 관리 메트릭스로 변이체를 주석 처리하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 부모 샘플 중의 어느 하나에 존재하지 않는 자식 샘플에서 변이체를 순수하게 식별하는 것에 기초하여 가능성 있는 데 노보 돌연변이가 식별된 후에 샘플 BAM 파일 데이터에 기초하여 변이체를 필터링하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 가능성 있는 데 노보 돌연변이가 자식 샘플에서 약 0.15 이상의 대립 유전자 평형을 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 가능성 있는 데 노보 돌연변이가 각각의 부모 샘플에서 약 0.02 이하의 대립 유전자 평형을 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 가능성 있는 데 노보 돌연변이가 약 40 미만의 맵핑 품질을 갖지 않을 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 가능성 있는 데 노보 돌연변이가 약 2 미만의 깊이별 품질(QD) 값을 갖지 않을 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 가능성 있는 데 노보 돌연변이가 샘플 전체에 걸쳐 약 20 미만의 MAC를 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 가능성 있는 데 노보 돌연변이가 캐리어 중에서 상기 가능성 있는 데 노보 돌연변이의 변이체 사이트에서 약 3 이하의 소프트-클립핑된 판독값을 가질 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 가능성 있는 데 노보 돌연변이가 약 4 초과의 모노-폴리머 런을 갖는 INDEL이 아닐 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 가능성 있는 데 노보 돌연변이가 자식 샘플에서 약 15% 이상 및 각각의 부모 샘플에서 약 2% 이하의 대립 유전자 평형(AB)을 갖고, 약 40 미만의 맵핑 품질(MQ)을 갖지 않고, 약 2 미만의 깊이별 품질(QD) 값을 갖지 않고, 샘플 전체에 걸쳐 약 20 미만의 미량의 대립 유전자 카운트(MAC)를 갖고, 캐리어 중에서 상기 가능성 있는 데 노보 돌연변이의 변이체 사이트에서 약 3 이하의 소프트-클립핑된 판독값을 가지며, 약 4 초과의 모노-폴리머 런을 갖는 INDEL이 아닌 경우에 상기 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, 상기 프로그램은, 중간 신뢰도 데 노보 돌연변이가 부모 샘플에서 약 90 이상의 유전자형 품질(GQ) 주석을 갖고, 각각의 부모 샘플에서 약 10 이상의 판독 깊이(DP)를 갖고, 자식 샘플에서 약 7 이상의 교대 DP를 갖고, SNP에 대해 약 3 초과의 QD를 가지며, INDEL에 대해 약 5 초과의 QD를 갖는 경우에 상기 중간 신뢰도 데 노보 돌연변이를 고 신뢰도 데 노보 돌연변이로서 분류하는 단계에 대한 명령을 포함한다.
일부 예시적인 실시형태에서, DNA 서열 샘플은 엑솜 서열을 포함한다.
일부 예시적인 실시형태에서, 상기 복수의 인간 대상체는 10K 초과의 대상체를 포함한다.
일부 예시적인 실시형태에서, 저품질 샘플의 D-stat은 KS 테스트를 이용하여 샘플의 실제 대립 유전자 평형 분포를 예상되는 대립 유전자 평형 분포와 비교함으로써 결정된다.
일부 예시적인 실시형태에서, 상기 방법, 비-일시적 컴퓨터 구현 방법 또는 시스템은 구성된 핵가족에서 트리오의 각각의 부모 및 자식으로부터의 샘플의 변이체에 유전자형 우도 점수를 할당하고 변이체가 데 노보 돌연변이일 확률을 계산하는 단계, 및 변이체가 데 노보 돌연변이일 유의적으로 높은 확률을 선택하는 단계, 및 트리오의 부모 샘플 중의 어느 하나에서 호출되지 않은 자식 샘플에서 호출된 변이체를 독립적으로 순수하게 식별하는 단계, 및 이어서 데 노보 돌연변이의 2개의 세트를 조합함으로써 가능성 있는 데 노보 돌연변이의 데이터 세트를 형성하는 단계를 포함한다.
또 다른 양태에서, 본 개시는 인간 집단에서 관련성의 예측 모델을 제공한다. 이러한 예측 모델은, 제 1 집단 데이터 세트를 확립하는 단계; 120년의 번인 단계(burn-in phase)를 수행하여 제 2 집단 데이터 세트를 확립하는 단계; 및 하기 단계들: (a) 상기 제 2 집단 데이터 세트의 개체를 개체의 연령에 따라 연령 풀(age pool)로 이동시키는 단계; (b) 상기 제 2 집단 데이터 세트의 독신 남성 및 독신 여성으로 부터 사촌보다 더 먼 친척 관계에 있는 독신 남성 및 독신 여성의 쌍을 무작위로 선택하고, 그들을 연령 파라미터에 따라 지정된 결혼률로 결혼시키는 단계(여기서, 상기 쌍들은 결혼률 파라미터에 의해 지정된 바와 같이 다수의 결혼에 도달할 때까지 선택된다); (c) 결혼한 부부를 지정된 이혼율로 이혼시키는 단계(여기서, 결혼한 부부는 상기 제 2 집단 데이터 세트에서 무작위로 선택되며 이혼시에는 독신으로 표시된다); (d) 독신 남성 및 독신 여성의 쌍 또는 결혼한 부부를 상기 제 2 집단 데이터 세트로부터 무작위로 지정된 비율로 선택하고, 그들이 목표 임신 횟수에 도달할 때까지 지정된 출산율에 따라 번식시키는 단계(여기서, 부모는 사촌보다 더 먼 관계로 제한되며, 제 2 집단 데이터 세트의 모든 개체는 매년 1명의 자녀를 갖는 것으로 제한된다); (e) 상기 제 2 집단 데이터 세트의 개체가 연령 파라미터에 의해 지정된 사망률(death rate) 및 지정된 치사율(mortality)로 사망하도록 하는 단계; (f) 개체를 다른 곳에서 제 2 집단 데이터 세트로 또는 그로부터 다른 곳으로 이주시킴으로써, 집단의 연령 및 성별 분포 및 제 2 집단 데이터 세트에서 결혼한 다산 노인(married fertile aged individual)의 비율을 유지시키는 단계; 및 (g) 개체가 제 2 집단 데이터 세트 내에서 이동할 수 있도록 함으로써, 하위 집단으로부터의 개체가 무작위로 선택되고, 존재하는 경우, 하위 집단 사이의 지정된 이동률이 달성될 때까지 또 다른 하위 집단에 무작위로 할당되는 단계를, 예정된 기간 동안 1년 간격으로 단계 (a) 내지 (g)를 반복적으로 반복(여기서, 상기 단계들은 선행 반복 단계로부터 생성되는 집단 데이터 세트에 적용된다)하여 수행함으로써 상기 제 2 집단 데이터 세트를 수정하는 단계를 포함하는 프로세스에 의해 제조될 수 있다.
일부 예시적인 실시형태에서, 제 1 집단 데이터 세트를 확립하는 단계는 다수의 하위 집단 및 크기를 특정하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 제 1 집단 데이터 세트를 확립하는 단계는 제 1 집단 데이터 세트에서 개체에 대한 연령을 0세 내지 최대 생식 연령(age of fertility) 사이에서 할당하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 최대 생식 연령은 49세이다.
일부 예시적인 실시형태에서, 번인 단계를 수행하는 단계는 제 2 집단 데이터 세트에서 개체의 출생 및 사망자 수를 동등하게 유지하고 개체의 순이주율(rate of net migration of individual)을 0으로 유지하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 번인 단계를 수행하는 단계는, 개체 연령이 최소 생식 연령을 초과할 때 개체를 제 2 집단 데이터 세트의 청소년 풀에서 짝짓기 풀(mating pool)로 이동시키는 단계; 및 개체 연령이 최대 생식 연령을 초과할 때 개체를 짝짓기 풀에서 노인 풀(aged pool)로 이동시키는 단계; 및 개체가 이주하거나 사망하는 경우 개체를 모든 연령 풀에서 제거하는 단계를 추가로 포함한다.
일부 예시적인 실시형태에서, 최소 생식 연령은 15세이며 최대 생식 연령은 49세이다.
다른 양태에서, 본 개시는 예측 모델을 이용하는 방법을 제공하며, 여기서 개체를 확인하는 단계는 무작위로 수행된다.
다른 양태에서, 본 개시는 예측 모델을 이용하는 방법을 제공하며, 여기서 개체를 확인하는 단계는 클러스터링된 방식으로 수행된다.
일부 예시적인 실시형태에서, 개체를 확인하는 단계는 확인된 개체들 사이의 1도 또는 2도 관계, 또는 둘 모두를 포함하는 확인된 개체에 대한 관련성 데이터 및 관련 통계를 수집하는 단계를 추가로 포함한다.
도 1은 집단의 유전적 변이체가 집단의 관련성을 활용함으로써 페이징/식별되는 예시적인 실시형태의 흐름도이다.
도 2는 복합 이형 접합 돌연변이(CHM)가 집단에서 식별되는 예시적인 실시형태의 흐름도이다.
도 3은 데 노보 돌연변이(DNM)가 집단에서 식별되는 예시적인 실시형태의 흐름도이다
도 4는 예시적인 실시형태에 따른 인간 집단의 관련성 예측 모델을 제조하는 방법의 흐름도이다.
도 5a 내지 도 5d는 가계 정체성이 결정되는 예시적인 실시형태의 흐름도를 나타낸다.
도 6a 내지 도 6c는 복합 이형 접합 돌연변이(CHM)가 집단에서 식별/페이징되는 예시적인 실시형태의 흐름도를 나타낸다.
도 7a 및 도 7b는 데 노보 돌연변이(DNM)가 집단에서 식별되는 예시적인 실시형태의 흐름도를 나타낸다. DNM 호출, 필터링, 및 신뢰도 순위 워크플로우(workflow). GQ = 유전자형 품질; MAC는 DiscovEHR에서의 미량의 대립 유전자 카운트이다; DP = DNM 사이트에서의 판독 깊이; AD = 교대 대립 유전자 깊이; AB = 교대 대립 유전자 평형; MQ = 맵핑 품질; QD = DiscovEHR pVCF라는 조인트의 DNM 사이트에 대한 깊이별 품질; 호모폴리머 INDEL은 동일한 뉴클레오티드의 4개 초과의 연속 염기쌍을 갖는 INDEL이다. 블랙리스트에 있는 유전자는 PDE4DIP, PRAMEF1, PABPC3, NBPF10, NBPF14, 후각 유전자(OR*), MUC 유전자(MUC*) 및 HLA 유전자(HLA-*)를 포함한다.
도 8a, 도 8b, 도 8c 및 도 8d는 상이한 유형의 집단-기반 게놈 연구 및 상응하는 샘플링 방법의 개요를 제공하는 체계를 나타내며, 철저한 확인은 가족 구조(family structure)를 증가시키고 사용되어야 하는 통계적 분석 접근법에 영향을 미친다는 것을 예시한다. 패널 A는 (1) 전통적인 집단-기반 게놈 연구(회색 상자); (2) 건강 관리 집단-기반 게놈(health-care population-based genomic)(HPG) 연구(녹색 상자); 및 (3) 가족-기반 게놈 연구(황색 상자)의 개략도를 도시하고; 패널 B는 상기 3 가지 확인 접근법에서 가족 구조의 선 그래프를 도시하고; 패널 C는 상기 3 가지 확인 접근법에서 가족 구조의 산포도(scatter graph)(여기서, 라인은 상기 3 가지 확인 접근법으로부터 확인된 1도 및 2도 쌍형 관계를 나타냄)를 도시하며; 패널 D는 가족 구조의 수준에 기초하여 4 가지 카테고리로 분류된 통계적 분석 방법을 도시한다.
도 9는 분석된 데이터 세트(DiscovEHR 데이터 세트; 실시예 참조) 중에서 잠재적 복합 이형 접합 돌연변이(pCHM)의 상을 결정하기 위해 수행된 캐스케이딩 분석(cascading analysis)을 개략적으로 설명하는 예시적인 실시형태의 흐름도이다.
도 10은 예시적인 작동 환경이다.
도 11은 개시된 방법을 수행하도록 구성된 복수의 시스템 컴포넌트를 예시한다.
도 12a, 도 12b, 도 12c 및 도 12d는 예시적인 실시형태에 따른 DiscovEHR 코호트로부터의 첫 번째 61K 시퀀싱된 개체에서 발견되는 관련성을 예시한다. 패널 A는 IBD0 대 IBD1 플롯을 도시하고; 패널 B는 분석된 코호트에서의 1도 가족 네트워크의 크기 분포를 플롯팅한 히스토그램을 도시하고; 패널 C는 쌍형-IBD 추정치로부터 재구성된 25명의 시퀀싱된 개체를 포함하는 1도 가족 네트워크 가계도(pedigree)를 도시하며; 패널 D는 7,084명의 개체으로 구성된 가장 큰 2도 가족 네트워크를 묘사한 체계를 도시한다.
도 13a 및 도 13b는 예시적인 실시형태에 의해 확인된 데이터 세트에서 확인된 개체의 수의 함수로서 DiscovEHR 코호트 내에서의 관련성의 축적(accumulation)을 도시한다.
도 14a 및 도 14b는 예시적인 실시형태에 따른 61K DiscovEHR 참가자들 중에서의 1도 친척의 확인과 모의 집단의 무작위 확인 사이의 비교값을 도시한다. 패널 A는 1도 친척 쌍들의 확인을 도시하며, 패널 B는 하나 초과의 1도 친척을 가진 개체의 수의 확인을 도시한다.
도 15a, 도 15b, 도 15c 및 도 15d는 예시적인 실시형태에 따라 확인된 DiscovEHR 코호트 내에서의 1도 관련성의 축적에 적합한 모의 집단 및 확인을 도시한다. 패널 A는 1도 친척의 쌍들의 축적을 도시하고; 패널 B는 하나 이상의 1도 친척을 가진 확인된 참가자의 비율을 도시하고; 패널 C는 1도 관계의 수의 상한 및 하한을 가진 모의 확인 예측을 도시하며; 패널 D는 1명 이상의 1도 친척을 가진 확인된 참가자의 비율의 상한 및 하한을 가진 모의 예측을 도시한다.
도 16a, 도 16b, 도 16c 및 도 16d는 예시적인 실시형태에 따라 확인된 확대 DiscovEHR 코호트로부터의 첫 번째 92K 시퀀싱된 개체를 예시한다. 패널 A는 IBD0 대 IBD1 플롯을 도시하고; 패널 B는 분석된 코호트에서의 1도 가족 네트워크의 크기 분포를 플롯팅한 히스토그램을 도시하고; 패널 C는 쌍형-IBD 추정치로부터 재구성된 25명의 시퀀싱된 개체를 포함하는 1도 가족 네트워크 가계도를 도시하며; 패널 D는 7,084명의 개체으로 구성된 가장 큰 2도 가족 네트워크를 묘사 한 체계를 도시한다.
도 17a 및 도 17b는 예시적인 실시형태에 따른 92K 확대 DiscovEHR 참가자들 중에서의 1도 친척의 확인과 모의 집단의 무작위 확인 사이의 비교값을 도시한다. 패널 A는 1도 친척 쌍들의 확인을 도시하며, 패널 B는 하나 초과의 1도 친척을 가진 개체의 수의 확인을 도시한다.
도 18a, 도 18b, 도 18c 및 도 18d는 예시적인 실시형태에 따른, 확대 DiscovEHR 코호트에서의 1도 관련성의 축적에 적합한 모의 집단 및 확인을 도시한다. 패널 A는 1도 친척의 쌍들의 축적을 도시하고; 패널 B는 하나 이상의 1도 친척을 가진 확인된 참가자의 비율을 도시하고; 패널 C는 1도 관계의 수의 상한 및 하한을 가진 모의 확인 예측을 도시하며; 패널 D는 1명 이상의 1도 친척을 가진 확인된 참가자의 비율의 상한 및 하한을 가진 모의 예측을 도시한다.
도 19a, 도 19b, 도 19c 및 도 19d는 예시적인 실시형태에 따라 확인된 DiscovEHR 코호트 내에서의 1도 및 2도 관련성의 축적에 적합한 모의 집단 및 확인을 도시한다. 패널 A는 1도 및 2도 친척의 쌍들의 축적을 도시하고; 패널 B는 하나 이상의 1도 및 2도 친척을 가진 확인된 참가자의 비율을 도시하고; 패널 C는 1도 및 2도 관계의 수의 상한 및 하한을 가진 모의 확인 예측을 도시하며; 패널 D는 1명 이상의 1도 및 2도 친척을 가진 확인된 참가자의 비율의 상한 및 하한을 가진 모의 예측을 도시한다.
도 20a, 도 20b, 도 20c 및 도 20d는 예시적인 실시형태에 따라 확인된 확대 DiscovEHR 코호트 내에서의 1도 및 2도 관련성의 축적에 적합한 모의 집단 및 확인을 도시한다. 패널 A는 1도 및 2도 친척의 쌍들의 축적을 도시하고; 패널 B는 하나 이상의 1도 및 2도 친척을 가진 확인된 참가자의 비율을 도시하고; 패널 C는 1도 및 2도 관계의 수의 상한 및 하한을 가진 모의 확인 예측을 도시하며; 패널 D는 1명 이상의 1도 및 2도 친척을 가진 확인된 참가자의 비율의 상한 및 하한을 가진 모의 예측을 도시한다.
도 21a, 도 21b, 도 21c 및 도 21d는 예시적인 실시형태에 따른 DiscovEHR 코호트에서 개체 당 및 유전자 당 식별된 복합 이형 접합 돌연변이(CHM) 및 데 노보 돌연변이(DNM)의 수를 도시한다. 패널 A는 DiscovEHR 코호트에서 개체 당 CHM의 수를 도시하고; 패널 B는 DiscovEHR 코호트에서 유전자 당 CHM의 수를 도시하고; 패널 C는 DiscovEHR 코호트에서 트리오의 자녀들 중에서 엑손 고 신뢰도 DNM의 수의 분포를 도시하며; 패널 D는 유전자 당 비동의(non-synonymous) DNM을 도시한다.
도 22는 예시적인 실시형태에 따른 DiscovEHR 데이터 세트에 대해 식별된 페이징된 복합 이형 접합 돌연변이체(CHM) 변이체들 사이의 게놈 거리의 범위를 예시하는 차트이다.
도 23a, 도 23b 및 도 23c는 (A) 대동맥류, (B) QT 연장 증후군(long QT syndrome), 및 (C) 갑상선 암에 대한 변이체를 포함하여 공지된 질병-유발 변이체의 분리를 입증하는 DiscovEHR 코호트로부터의 재구성된 가계도를 도시한다.
도 24는 LDLR에서의 탠덤 복제의 22/29개의 캐리어 및 시퀀싱된 코호트로부터의 10개의 영향받지 않은 관련된(1도 또는 2도) 개체를 포함하는 시퀀싱된 DiscovEHR로부터 재구성된 가계도이다.
도 25는 92K 디스커버 참가자들 중에서 잠재적 복합 이형 접합 돌연변이(pCHM)의 상을 결정하기 위한 예시적인 실시형태의 의사결정 캐스케이드(decision cascade)이다.
도 26a, 도 26b, 도 26c 및 도 26d는 예시적인 실시형태에 따라 확인된 복합 이형 접합 돌연변이(CHM) 및 데 노보 돌연변이(DNM)를 초래하는 확대 DiscovEHR 코호트를 도시한다. 패널 A는 DiscovEHR 코호트에서 개체 당 CHM의 수의 분포를 도시하고; 패널 B는 유전자 당 CHM의 수의 분포를 도시하고; 패널 C는 DiscovEHR 코호트에서 트리오의 자녀들 중에서 3,415개의 엑손 고-중 신뢰도 DNM의 분포를 도시하며; 패널 D는 1개 이상의 2,802개의 유전자 전체에 걸친 비동의 DNM 분포를 도시한다.
도 27은 예시적인 실시형태에 따른 확대 DiscovEHR에 대해 식별된 페이징된 복합 이형 접합 돌연변이체(CHM) 변이체들 사이의 게놈 거리의 범위를 예시하는 차트이다.
도 28은 예시적인 실시형태에 따른 DiscovEHR 데이터 세트에서 식별된 가족 트리오, 부모 연령을 갖는 가족 트리오, 1+ 엑손 DNM을 갖는 발단자, 엑손 DNM, 중간/고 신뢰도 DNM, 단일 뉴클레오티드 DNM, 중간/고 신뢰도 변이체 및 무작위 변이체를 도시하는 코호트 프로파일이다.
도 29는 예시적인 실시형태에 따른 확대 DiscovEHR 코호트에서 신뢰도 수준 당 및 사람 당 식별된 DNM의 수를 도시한다. 패널 A는 확대 DiscovEHR 코호트에서 신뢰도 수준 당 DNM의 수의 분포를 도시하고; 패널 B는 확대 DiscovEHR 코호트에서 개체 당 DNM의 수의 분포를 도시하며; 여기서 DNM은 예시적인 실시형태에 따라 식별되었다.
도 30은 예시적인 실시형태에 따른 확대 DiscovEHR 코호트에서 기능적 효과 DNM 당 식별된 DNM의 수의 분포를 플롯팅한 히스토그램이다.
도 31은 예시적인 실시형태에 따른 확대 DiscovEHR 코호트에서 DNM의 타입(전이, 전환, 및 indels) 당 식별된 DNM의 수의 분포를 플롯팅한 히스토그램이다.
도 32는 예시적인 실시형태에 따른 확대 DiscovEHR 코호트에서 단일 뉴클레오티드 DNM(→)의 타입 당 식별된 DNM의 수의 분포를 플롯팅한 히스토그램이다.
도 33은 예시적인 실시형태에 따른 확대 DiscovEHR 코호트에서 염색체에 대해 10M 엑손 염기쌍 당 식별된 DNM의 수의 분포를 플롯팅한 히스토그램이다.
도 34는 예시적인 실시형태에 따른 확대 DiscovEHR 코호트에서 CG 디뉴클레오티드(통상 CpG로 나타내며, 여기서 "p"는 두 염기 사이의 인산염을 나타낸다)가 풍부하다고 알려진 게놈의 영역에서 발생하는 DNM 또는 무작위로 선택된 변이체의 백분율의 분포를 플롯팅한 막대 차트이다.
도 35는 LDLR에서의 신규한 FH-유발 탠덤 복제의 25/37개의 캐리어 및 확대 DiscovEHR 시퀀싱된 코호트로부터의 20개의 비-캐리어 관련(1도 또는 2도) 개체를 포함하는 재구성된 가계도 예측의 이미지를 도시한다.
도 36a 및 도 36b는 DiscovEHR 코호트에서 출생시의 부모 및 산모 연령과 예시적인 실시형태에 따라 자식에서 식별된 엑손 DNM의 수 사이의 관계를 도시한다.
도 37은 DiscovEHR 코호트에서 자식의 출생시의 산모 및 부모 연령과 예시적인 실시형태에 따라 자식에서 식별된 DNM과의 상관관계를 도시하는 차트이다.
도 38은 예시적인 실시형태에 따른 확대 DiscovEHR 코호트에서 식별된 DNM 및 무작위 변이체에 대한 병원성 예측을 플롯팅한 히스토그램이다.
"일"이라는 용어는 "적어도 하나"를 의미하는 것으로 이해되어야 하고; "약(about)" 및 "대략(approximately)"이라는 용어는 당업자가 이해할 수 있는 일반적인 변형을 허용하는 것으로 이해되어야 하며; 범위가 제공되는 경우, 종말점(endpoint)이 포함된다.
종래의 대규모 인간 게놈 연구는 일반적으로는 여러 다른 지리적 영역 및/또는 건강 관리 시스템에 걸쳐 인간 샘플을 수집한 다음, 이들을 조합하여 분석용 코호트를 생성하였다. 이들 코호트에서 샘플링된 개체의 총 수는 종종 많았지만, 이들 코호트의 관련성 및 가족 구조의 범위는 상대적으로 적은 경향이 있었다. 연관성 분석 및 기본 컴포넌트 분석을 포함한 게놈 분석의 맥락에서 통상적으로 사용되는 많은 통계적 방법은 모든 샘플이 관련이 없어야 한다. 그렇지 않으면, 이러한 테스트의 통계 결과가 편향되어 과장된 p-값 및 잘못된 명백한 결과(도 8)를 초래할 것이다[참조 문헌: Kang et al. (2010), Nature Publishing Group 42, 348-354; Sun and Dimitromanolakis (2012), Methods Mol. Biol. 850, 47-57; Devlin and Roeder (1999), Biometrics 55, 997-104; 및 Voight and Pritchard (2005), PLoS Genet 1, e32-10].
데이터 세트에서 가족 구조를 제거하는 것은 데이터 세트가 단지 소수의 밀접한 관련 샘플을 갖는 경우에만 가능한 옵션이다[참조 문헌: Lek, et al.(2016), Nature Publishing Group 536, 285-291; Fuchsberger et al. (2016), Nature Publishing Group 536, 41-47; Locke et al. (2015), Nature 518, 197-206; 및 Surendran et al. (2016), Nat Genet 48, 1151-1161]. 가족 구조를 제거하는 것은 또한 데이터의 관련이 없는 서브 세트(subset)가 통계적 분석, 예를 들면 기본 컴포넌트(principle component)(PC)를 컴퓨팅한 다음 나머지 샘플을 이들 PC 상에서 예측하는 통계적 분석에 적합한 경우에도 가능한 옵션이다[참조 문헌: (Dewey et al. (2016), Science 354, aaf6814-aaf6814). 연구자들이 개체의 최대 규모의 관련이 없는 세트를 유지하는데 도움이 되는 많은 방법들이 존재한다[참조 문헌: Staples et al. (2013), Genet. Epidemiol. 37, 136-141; Chang et al. (2015), Gigascience 4, 7]. 불행히도, 관련이 있는 개체를 제거하면 샘플 크기가 감소할뿐만 아니라 소중한 관계 정보도 폐기된다. 실제로, 데이터 세트가 중간 수준의 가족 구조를 가진 경우 많은 분석에서 이러한 정보 손실은 허용되지 않는다.
본 개시는, 적어도 부분적으로는, 복수의 대상체의 게놈 샘플의 데이터 세트 내에서 가족 및 가계도 구조 및 관련성에 관한 정보가, 다른 많은 것들 중에서도, 희귀 유전자 변이(예를 들면, 복합 이형 접합 및/또는 데 노보 돌연변이)와 질병 사이의 관련성을 조사할 수 있는 많은 분석에 대한 문호를 개방해 주기 때문에 유용하다는 인식에 기초한다.
본 개시는 또한, 적어도 부분적으로는, 게놈-전체 가계 정체성(IBD) 추정치가 복수의 대상체의 게놈 샘플의 데이터 세트 내에서 및 두 쌍의 개체들 사이의 관련성 수준을 정량화하기 위한 우수한 메트릭이라는 인식에 기초한다.
정확한 쌍형 관계를 모델링하는 몇 가지 통계적 방법이 개발되어 왔다. 예를 들면, 혼합 모델을 사용하는 게놈 전체 연관성 연구는 교란 관련성(confounding relatedness)을 모델링하지 않는 보다 강력하고 성능이 뛰어난 방법[참조 문헌: Kang et al. (2010), Nature Publishing Group 42, 348-354; Zhang et al. (2010)) , Nat Genet 42, 355-360; Yang et al. (2014), Nat Genet 46, 100-106; 및 Kirkpatrick and Bouchard-Ct
Figure 112020040416944-pct00002
(2016), arXiv q-bio.QM]이지만, 혼합 모델은 가족 구조내에 포함된 정보를 완전히 활용하지 않으며 실제로는 수십만개의 샘플 및 수백 내지 수천개의 표현형을 가진 데이터 세트로 확장되지 않을 수 있다. 쌍형 관계는 또한 가계도가 없는(pedigree-free) QTL 연관 분석에도 사용될 수 있다[참조 문헌: Day-Williams et al. (2011), Genet. Epidemiol. 35, 360-370]. 집단 구조 및 가족 구조를 모델링하는 추가의 소프트웨어 패키지가 쌍형 관계 추정(PCrelate)[참조 문헌: Conomos et al. (2016), Am. J. Hum. Genet. 98, 127-148] 및 주성분 분석(principle component analysis)(PC-AiR)[참조 문헌: Conomos et al. (2015), Genet. Epidemiol. 39, 276-293]을 위해 존재한다.
종래의 게놈 전체 연관성 연구와는 달리, 최근 및 미래의 대규모 게놈 연구, 예를 들면, 본 개시에서 구현된 연구는 개체별 지리적 영역으로부터 수만 내지 수십만명의 참가자를 샘플링한다. 결과적으로, 이러한 연구는 동일한 지역으로부터 온 사람들을 훨씬 더 높은 비율로 확인하며, 따라서 샘플링된 데이터 세트 내의 가족 및 가계도 구조는 종래의 집단-전체 연관성 분석에서 과소평가된 가족에서 분리되는 희귀 변이체를 식별한다.
이러한 대규모 게놈 연구의 데이터는 몇 가지 이유로 가족 구조 및 원거리 잠재 관련성(distant cryptic relatedness)이 풍부하다. 첫째, 이러한 연구는, 예를 들면 건강 관리 시스템 집단을 통해 특정 지리적 영역에서 많은 샘플을 추출하며, 단일 집단에서 더 많은 샘플이 확인되면 확인된 관련 개체의 쌍의 수가 조합적으로 증가한다(도 8a). 둘째, 동일한 지리적 영역에 거주하는 가족은 보험 적용 범위와 편의성 때문에 동일한 건강 관리 시스템에서 동일한 의사로부터 의료 서비스를 받고 있을 가능성이 높다. 셋째, 공유된 유전적 및 환경적 요인은 특정 가족의 건강 관리 상호 작용 빈도를 증가시킬 수 있다. 이주율이 낮은 집단에서는 가족 구조 및 원거리 잠재 관련성 모두 훨씬 더 두드러진다[참조 문헌: Henn et al. (2012), PLoS ONE 7, e34267]. 가족 구조의 영향은 연관, 가계도-기반 분석, IBD 모델링, 및 관련이 없는 분석에 대한 샘플링 방법의 효과를 통해 관찰될 수 있다(도 8, 패널 D). "연관(linkage)"은 하나 이상의 유익한 가계도를 사용하는 전통적인 연관 분석을 지칭하고; "가계도-기반 분석(Pedigree-based analysis)"은 관련이 없는 개체를 포함하는 더 큰 코호트 내에서 가계도 구조를 사용하는 연관을 초월하는 통계적 방법을 지칭하고; "IBD 모델링(IBD modeling)"은 전체 가계도 구조를 사용하지 않고 개체들 사이의 쌍형 관계를 모델링하는 분석을 지칭하며; "관련이 없는 분석(Analysis of Unrelateds)"은 코호트 내의 모든 개체가 관련이 없다고 가정하는 분석을 지칭한다.
본 개시는 가족 구조에 초점을 맞추고 실제 데이터 및 모의 데이터 모두를 사용하는 상위 레벨의 가족 구조를 설명한다. 본 개시의 개선 중의 하나는 복합 이형 접합 돌연변이(CHM) 및/또는 데 노보 돌연변이(DNM)를 전통적인 접근법보다 더 정확하고 신뢰성있게 식별 및/또는 페이징한다는 것이다(실시예 섹션에 개시된 데이터 참조).
따라서, 본 개시는 집단의 관련성을 활용함으로써 확인된 집단에서 유전적 변이체를 페이징하는 방법을 제공한다. 예시적인 페이징 방법을 개략적으로 예시하는 흐름도가 도 1에서 제공된다.
상기 방법은 상이한 집단에서 다양한 유형의 유전적 변이체에 적용될 수 있다. 평가될 수 있는 유전적 변이체의 유형의 비제한적인 예는 점 돌연변이, 삽입물, 삭제물, 도치물, 복제물 및 다합체를 포함한다. 집단의 유형의 비제한적인 예는 단일-건강 관리 네트워크 집단; 다중-건강 관리 네트워크 집단; 인종, 문화 또는 사회적으로 균질하거나 이질적인 집단; 혼합 연령 집단 또는 연령면에서 균질한 집단; 지리적으로 집중되거나 분산된 집단; 또는 이들의 조합을 포함한다. 유전적 변이체를 획득할 수 있는 수단의 비제한적인 예는 다음 단계들을 포함한다:
- 샘플 준비 및 시퀀싱[참조 문헌: Dewey et al. (2016), Science 354, aaf6814-1 to aaf6814-10].
- 시퀀싱이 완료되면, 각각의 시퀀싱 실행의 원시 데이터가 로컬 버퍼 스토리지에 수집되고 자동 분석용의 DNAnexus 플랫폼[참조 문헌: Reid et al. (2014); BMC Bioinformatics 15, 30]에 업로드된다.
- 샘플-레벨 판독 파일은 CASAVA(일루미나 인코포레이티드(Illumina Inc.), 캘리포니아주 샌디에고 소재)로 생성되고, BWA-mem[참조 문헌: Li and Durbin (2009); Bioinformatics 25, 1754-176; Li (2013); arXiv q-bio.GN]를 사용하여 GRCh38에 정렬시킨다.
- 생성되는 BAM 파일은 GATK[참조 문헌: McKenna et al. (2010); Genome Res. 20, 1297-1303] 및 Picard를 사용하여 처리하여 복제물을 정렬, 표시하고, 추정 indel 주위에서 판독의 로컬 재정렬을 수행한다.
- 시퀀싱된 변이체는 Ensembl85 유전자 정의를 사용하여 snpEFF[참조 문헌: Cingolani et al. (2012); Fly (Austin) 6, 80-92]로 주석을 달아 전사체 및 유전자에 대한 기능적 영향을 결정한다.
상기 방법은 전술한 단계 중의 임의의 것으로 제한되지 않으며, 서열 변이체의 획득은 임의의 적절한 수단에 의해 수행될 수 있는 것으로 이해된다.
도 1은 집단의 유전적 변이체가 집단의 관련성을 활용함으로써 페이징/식별되는 예시적인 실시형태의 흐름도이다. 복수의 인간 대상체로부터 수득된 핵산 서열 샘플의 데이터 세트로부터의 저품질 서열 변이체는 임의의 적절한 수단에 의해 단계 1 에서 제거될 수 있다. 이러한 수단의 비제한적인 예는 PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 것들을 포함한다.
하나 이상의 샘플 각각에 대한 조상 상강 지정은 단계 2 에서 임의의 적절한 수단에 의해 확립될 수 있다. 이러한 수단의 비제한적인 예는 PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 것들을 포함한다.
저품질 샘플은 단계 3 에서 임의의 적절한 수단에 의해 데이터 세트로부터 제거될 수 있다. 이러한 수단의 비제한적인 예는 문헌[참조: Dewey et al. (2016), Science 354, aaf6814-1 to aaf6814-10]에 개시된 것들, 및 실시예에 개시된 것들을 포함한다.
조상 상강 내에서의 대상체의 제 1 가계 정체성 추정치는 단계 4 에서 임의의 적절한 수단에 의해 생성될 수 있다. 이러한 수단의 비제한적인 예는 PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 것들을 포함한다.
대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치는 단계 5 및 단계 6 에서 생성될 수 있으며, 대상체들은 임의의 적절한 수단에 의해 하나 이상의 제 2 가계 정체성 추정치에 기초한 일차 1도 가족 네트워크로 클러스터링될 수 있다. 이러한 수단의 비제한적인 예는 PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 것들을 포함한다.
일차 1도 가족 네트워크 내에서의 대상체들의 제 3 가계 정체성 추정치는 단계 7 에서 임의의 적절한 수단에 의해 생성될 수 있다. 이러한 수단의 비제한적인 예는 PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 것들을 포함한다.
제 1 및 제 3 가계 정체성 추정치는 단계 8 에서 임의의 적절한 수단에 의해 병합되어 병합된 가계 정체성 추정치를 수득할 수 있다. 이러한 수단의 비제한적인 예는 PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 것들을 포함한다.
병합된 가계 정체성 추정치에 기초한 대상체의 이차 1도 가족 네트워크는 단계 9 에서 임의의 적절한 수단에 의해 구성될 수 있다. 이러한 수단의 비제한적인 예는 PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 것들을 포함한다.
변이체는 단계 10 에서 병합된 가계 정체성 추정치 및 이차 1도 가족 네트워크에 따라 임의의 적절한 수단에 의해 복합 이형 접합 돌연변이(CHM)가 존재하거나 또는 존재하지 않는 것으로서 페이징될 수 있거나, 또는 변이체는 병합된 가계 정체성 추정치 및 이차 1도 가족 네트워크에 따라 임의의 적절한 수단에 의해 데 노보 돌연변이(DNM)로서 식별될 수 있다. 이러한 수단의 비제한적인 예는 도 6 및 도 7, 및 실시예에 개시된 것들을 포함한다.
가계 정체성(IBD) 추정치를 생성하는 방법론 뿐만 아니라 IBD 추정치를 사용하여 유전자 변이체를 복합 이형 접합 돌연변이(CHM) 또는 잠재적 복합 이형 접합 돌연변이(pCHM)로서, 또는 데 노보 돌연변이(DNM)로서 페이징하는 방법론을 설명하기 위하여, 도 5 내지 도 7은 기본 작동 로직을 제공하지만, 이로 제한되는 것은 아니다. 로직에서 식별되는 프로그램(예를 들면, EAGLE, PLINK, 등)은 그들이 식별하는 단계에 대한 예시이지만, 이러한 프로그램이 그러한 단계를 수행하기 위한 유일한 방식은 아닌 것으로 이해된다.
변이체를 복합 이형 접합 돌연변이(CHM)로서 페이징하는 단계는, (1) 변이체를 집단 대립 유전자 빈도에 따라 페이징하는 단계; (2) 하디-바인베르크 평형(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하고, 약 2 이하의 깊이별 품질(QD), 또는 약 5 미만의 판독 깊이(DP), 또는 약 10% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거한 다음, 약 2 이하의 QD, 또는 약 5 미만의 DP, 또는 약 10% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계; (3) 남아 있는 변이체를 동일한 샘플에서 및 동일한 유전자에서 하나 이상의 변이체 쌍이 존재하는 잠재적 복합 이형 접합 돌연변이(pCHM)로서 선택하는 단계; 및 (4) pCHM을 시스 또는 트랜스 pCHM으로 페이징한 다음, 트랜스 pCHM으로서 페이징된 pCHM을 CHM으로서 분류하는 단계를 포함한다. 변이체를 집단 대립 유전자 빈도에 따라 페이징하는 단계는 EAGLE[참조 문헌: Loh et al. (2016), Nat Genet 48, 1443-1448]을 포함한 임의의 적절한 수단에 의해 촉진될 수 있지만, 이로 제한되는 것은 아니다. 특정 선택 기준을 만족하지 않는 변이체는 제거될 수 있고, 잔류 변이체는 잠재적 복합 이형 접합 돌연변이로서 선택될 수 있으며, 잠재적 복합 이형 접합 돌연변이는 실시예에 기술된 수단들을 포함한 임의의 적절한 수단에 의해 페이징될 수 있다. 이러한 예시적인 실시형태는 또한 도 6에 도시되어 있다.
변이체를 복합 이형 접합 돌연변이로서 페이징하는 단계는, 하디-바인베르크 평형(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하는 단계; 및 약 3 이하의 깊이별 품질(QD), 또는 약 7 미만의 판독 깊이(DP), 또는 약 15% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거하는 단계; 및 약 5 이하의 QD, 또는 약 10 미만의 DP, 또는 약 20% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계를 포함한다. 이러한 단계는 배제 파라미터(exclusion parameter)가 보다 엄격한 레벨로 설정되는 것을 제외하고는 본원의 다른 곳에 기술된 바와 같이 수행될 수 있다.
일부 예시적인 실시형태에서, 상기 방법은 (1) CHM을 기능적 효과 우선 순위에 따라 채점하는 단계, 및 (2) 샘플에 대해 유전자당 가장 높은 기능적 효과 우선 순위 점수를 갖는 CHM을 선택함으로써, 인간이 동일 유전자에서 하나 초과의 CHM을 가질 경우 단백질 기능 억제를 일으킬 가능성이 가장 높은 CHM을 식별하는 단계를 추가로 포함한다. 이러한 단계는 SIFT[참조 문헌: Loh et al. (2016); Nat Genet 48, 1443-1448](손상), PolyPhen2 HDIV45(손상 및 손상 가능성), PolyPhen2 HVAR(손상 및 손상 가능성), LRT46(유해성), 및 MutationTaster(Schwarz et al. (2014); Nat. Methods 11, 361-362)(자동 질병 유발 및 질병 유발)을 포함한 임의의 적절한 수단에 의해 수행될 수 있지만, 이로 제한되는 것은 아니다.
변이체를 데 노보 돌연변이로서 식별하는 단계는, (1) 이차 1도 가족 네트워크 및 그의 트리오의 샘플에서 변이체를 식별하는 단계; (2) 유전자형 우도 점수를 트리오의 부모 샘플 및 상응하는 자식 샘플에서 변이체에 할당하여 상기 변이체가 데 노보 돌연변이일 확률을 계산하고, 상기 계산된 확률이 통계적으로 유의할 경우에 상기 변이체를 가능성 있는 데 노보 돌연변이로서 식별하는 단계; (3) 트리오의 자식 샘플에서 변이체를 식별하고, 상기 변이체가 트리오의 부모 샘플 중의 어느 하나에서 존재하지 않을 경우에 상기 변이체를 가능성 있는 데 노보 돌연변이로 식별하는 단계; (4) 자식 샘플에서 약 35 미만의 유전자형 품질(GQ) 주석을 갖거나, 또는 샘플 전체에 걸쳐 10 이상의 교대 대립 유전자 카운트(AC)를 갖거나, 또는 자식 샘플에서 약 7 미만의 판독 깊이(DP) 및 약 4 미만의 교대 DP를 갖거나, 또는 부모 샘플 중의 어느 하나에서 약 2% 초과의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 15% 미만의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 90% 초과의 AB를 갖거나, 또는 부모 샘플 중의 어느 하나에서 교대 대립 유전자 동형 접합성을 갖거나, 또는 이들의 조합을 갖는 가능성 있는 데 노보 돌연변이를 제거함으로써 식별된 가능성 있는 데 노보 돌연변이를 필터링하는 단계; 및 (5) 상기 필터링된 식별된 가능성 있는 데 노보 돌연변이를 조합함으로써 가능성 있는 데 노보 돌연변이 데이터 세트를 형성하는 단계를 포함한다. 이러한 단계는 실시예에 기술된 수단들을 포함한 임의의 적절한 수단에 의해 수행될 수 있다. 이러한 예시적인 실시형태는 또한 도 7에 도시되어 있다.
일부 예시적인 실시형태에서, 상기 방법은, 가능성 있는 데 노보 돌연변이가 자식 샘플에서 약 0.15 이상 및 각각의 부모 샘플에서 약 0.02 이하의 대립 유전자 평형을 갖고, 약 40 미만의 맵핑 품질(mapping quality)을 갖지 않고, 약 2 미만의 깊이별 품질(QD) 값을 갖지 않고, 샘플 전체에 걸쳐 약 20 미만의 MAC를 갖고, 캐리어 중에서 상기 가능성 있는 데 노보 돌연변이의 변이체 사이트에서 약 3 이하의 소프트-클립핑된 판독값(soft-clipped reads)을 가지며, 약 4 초과의 모노-폴리머 런(mono-polymer run)을 갖는 INDEL이 아닌 경우에 가능성 있는 데 노보 돌연변이 데이터 세트에서 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다. 일부 예시적인 실시형태에서, 상기 방법은, 상기 중간 신뢰도 데 노보 돌연변이가 부모 샘플에서 약 90 이상의 유전자형 품질 주석을 갖고, 각각의 부모 샘플에서 약 10 이상의 판독 깊이를 갖고, 자식 샘플에서 약 7 이상의 교대 판독 깊이를 갖고, SNP에 대해 약 3 초과의 QD를 가지며, INDEL에 대해 약 5 초과의 QD를 갖는 경우에 상기 중간 신뢰도 데 노보 돌연변이를 고 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함한다. 이러한 예시적인 실시형태 모두 실시예에 개시된 방식들을 포함한 임의의 방식으로 실시될 수 있지만, 이로 제한되는 것은 아니다.
본 개시는 또한 집단에서 복합 이형 접합 돌연변이(CHM)를 식별하는 방법을 제공한다. CHM을 식별하기 위한 방법의 예를 예시하는 흐름도가 도 2에서 제공된다.
상기 방법은 임의의 수단에 의해 유도된 임의의 유형의 인간 대상체로부터의 임의의 유형의 DNA 서열 샘플에 적용될 수 있다. 변이체의 비제한적인 예는 점 돌연변이, 삽입물, 삭제물, 도치물, 복제물 및 다합체를 포함한다. 인간 대상체의 유형의 비제한적인 예는 단일-건강 관리 네트워크 집단; 다중-건강 관리 네트워크 집단; 인종, 문화 또는 사회적으로 균질하거나 이질적인 집단; 혼합 연령 집단 또는 연령면에서 균질한 집단; 지리적으로 집중되거나 분산된 집단; 또는 이들의 조합을 포함한다. DNA 서열 샘플은 문헌[참조: Dewey et al. (2016), Science 354, aaf6814-1 to aaf6814-10]에 개시된 방식을 포함한 임의의 다양한 방식으로 획득될 수 있지만, 이로 제한되는 것은 아니다.
일부 예시적인 실시형태에서, DNA 서열 샘플은 엑솜 서열을 포함한다. 엑솜 DNA는 통상적으로 사용되는 임의의 방법에 의해, 또는 문헌[참조: Dewey et al. (2016), Science 354, aaf6814-1 to aaf6814-10]에 기술된 바와 같이 분리될 수 있다.
복수의 인간 대상체로부터의 DNA 서열 샘플 내의 변이체는 단계 11 에서 임의의 적절한 수단에 의해 식별될 수 있다. 변이체를 식별할 수 있는 수단의 비제한적인 예는 다음 단계들을 포함한다:
- 시퀀싱이 완료되면, 각각의 시퀀싱 실행의 원시 데이터가 로컬 버퍼 스토리지에 수집되고 자동 분석용의 DNAnexus 플랫폼[참조 문헌: Reid et al. (2014); BMC Bioinformatics 15, 30]에 업로드된다.
- 샘플-레벨 판독 파일은 CASAVA 소프트웨어(일루미나 인코포레이티드, 캘리포니아주 샌디에고 소재)로 생성되고, BWA-mem[참조 문헌: Li and Durbin (2009); Bioinformatics 25, 1754-176; Li (2013); arXiv q-bio.GN]를 사용하여 GRCh38에 정렬시킨다.
- 생성되는 BAM 파일은 GATK[참조 문헌: McKenna et al. (2010); Genome Res. 20, 1297-1303] 및 Picard를 사용하여 처리하여 복제물을 정렬, 표시하고, 추정 indel 주위에서 판독의 로컬 재정렬을 수행한다.
- 시퀀싱된 변이체는 Ensembl85 유전자 정의를 사용하여 snpEFF[참조 문헌: Cingolani et al. (2012); Fly (Austin) 6, 80-92]로 주석을 달아 전사체 및 유전자에 대한 기능적 영향을 결정한다.
상기 방법은 전술한 단계 중의 임의의 것으로 제한되지 않으며, 서열 변이체의 획득은 임의의 적절한 수단에 의해 수행될 수 있는 것으로 이해된다.
도 2는 복합 이형 접합 돌연변이(CHM)가 집단에서 식별되는 예시적인 실시형태의 흐름도이다. 식별된 변이체에 기초한 대상체에 대한 조상 상강 지정은 단계 12 에서 확립될 수 있고; 조상 상강 내의 대상체의 제 1 가계 정체성 추정치는 단계 13 에서 생성될 수 있고; 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치는 단계 14 에서 생성될 수 있고; 대상체는 단계 15 에서 하나 이상의 제 2 가계 정체성 추정치에 기초하여 일차 1도 가족 네트워크로 클러스터링될 수 있고; 일차 1도 가족 네트워크 내의 대상체의 제 3 가계 정체성 추정치는 단계 16 에서 생성될 수 있고; 제 1 및 제 3 가계 정체성 추정치를 단계 17 에서 병합하여 병합된 가계 정체성 추정치를 수득할 수 있으며; 이차 1도 가족 네트워크는 단계 18 에서 임의의 적절한 수단에 의해 병합된 가계 정체성 추정치에 기초하여 구성될 수 있다. 이러한 수단의 비제한적인 예는 PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 것들을 포함한다. 일부 예시적인 실시형태에서, 가계 정체성 추정치는 샘플 쌍 중에서 IBD 0, 1, 및 2 값을 갖는 게놈-전체 계산치를 포함한다.
샘플의 변이체는 단계 19 에서 EAGLE[참조 문헌: Loh et al. (2016), Nat Genet 48, 1443-1448]을 포함한 임의의 적절한 수단에 의해 집단 대립 유전자 빈도에 따라 페이징될 수 있지만, 이로 제한되는 것은 아니다.
페이징된 변이체의 쌍은 단계 20 에서 동일한 대상체 및 유전자 내의 2개의 변이체의 존재에 기초하여 잠재적 CHM으로서 분류될 수 있으며, 이는 동일한 사람의 유전자 내에서 이형 접합 pLoF 및/또는 유해한 미스센스 변이체(missense variant)의 모든 가능한 조합을 테스트함으로써 확인되었다.
잠재적 CHM은 단계 21 에서 시스 또는 트랜스로서 페이징될 수 있으며, 트랜스로서 페이징된 잠재적 CHM이 CHM으로서 분류될 수 있다. 잠재적 CHM은 임의의 적절한 수단에 의해 페이징될 수 있다. 비제한적인 예에서, 집단 대립 유전자 빈도-기반 페이징과 EAGLE 및 가계도/관계-기반 페이징의 조합이 잠재적 CHM이 시스 또는 트랜스 상인지를 결정하는데 사용된다(이러한 예시적인 프로세스는 또한 도 9에 도시되어 있다).
일부 예시적인 실시형태에서, 상기 방법은 대상체에 대한 조상 상강 지정이 확립되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함하며; 일부 예시적인 실시형태에서, 상기 방법은 대상체의 제 2 가계 정체성 추정치가 생성되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함한다. 변이체는 임의의 적절한 수단에 의해 필터링될 수 있다. 이러한 수단의 비제한적인 예는 PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 것들을 포함한다.
일부 예시적인 실시형태에서, 변이체를 필터링하는 단계는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 약 10% 초과의 교대 대립 유전자 빈도를 갖는 변이체, 또는 > 약 10-6 의 p-값을 갖는 하디-바인베르크 평형(HWE)을 위반하는 변이체, 또는 복수의 인간 대상체로부터의 샘플의 > 약 5%의 누락된 호출을 갖는 변이체, 또는 이들의 조합을 제거하는 단계를 포함한다. 특정 선택 기준을 만족하지 않는 변이체는 제거될 수 있고, 잔류 변이체는 잠재적 복합 이형 접합 돌연변이로서 선택될 수 있으며, 잠재적 복합 이형 접합 돌연변이는 실시예에 기술된 수단들을 포함한 임의의 적절한 수단에 의해 페이징될 수 있다. 이러한 예시적인 실시형태는 또한 도 6에 도시되어 있다.
일부 예시적인 실시형태에서, 상기 방법은 식별된 변이체가 필터링된 후에 저품질 샘플을 제거하는 단계를 추가로 포함한다. 저품질 샘플은 임의의 적절한 수단에 의해 제거될 수 있다. 이러한 수단의 비제한적인 예는 일반적으로 공지되어 있는, 문헌[참조: Dewey et al. (2016), Science 354, aaf6814-1 to aaf6814-10]에 개시된 것들, 및 실시예에 개시된 것들을 포함한다. 일부 예시적인 실시형태에서, 파라미터는 > 0.12의 D-stat 또는 < 75%의 20x 판독 범위, 또는 이들 둘다를 갖는 샘플이 제거될 저품질 샘플이 되도록 조정된다.
제 1 및 제 3 가계 정체성 추정치를 병합하는 단계는 제 1 가계 정체성 추정치를 제 3 가계 정체성 추정치에 고유한 쌍형 가계 정체성 추정치로 증강시키는 단계를 포함할 수 있으며, 이는, 예를 들면, PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 수단들에 의해 촉진될 수 있지만, 이로 제한되는 것은 아니다.
일부 예시적인 실시형태에서, 상기 방법은, 변이체가 집단 대립 유전자 빈도에 따라 페이징된 후에 변이체를 필터링하는 단계를 추가로 포함하며, 이러한 필터링 단계는 일부 예시적인 실시형태에서는 인간 대상체의 DNA 서열 샘플을 유전자간 영역에서 대략 동등한 크기, 실질적인 세그먼트 중첩 및 중단점을 갖는 게놈 세그먼트로 분할하는 단계를 포함할 수 있다. 변이체를 집단 대립 유전자 빈도에 따라 페이징하는 단계는 EAGLE[참조 문헌: Loh et al. (2016), Nat Genet 48, 1443-1448]을 포함한 임의의 적절한 수단에 의해 촉진될 수 있지만, 이로 제한되는 것은 아니다. 집단 대립 유전자 빈도에 따라 페이징된 변이체를 필터링하는 단계는, 하디-바인베르크 평형(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하는 단계; 및 약 2 이하의 깊이별 품질(QD), 또는 약 5 미만의 판독 깊이(DP), 또는 약 10% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거하는 단계; 및 약 2 이하의 QD, 또는 약 5 미만의 DP, 또는 약 10% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계를 포함할 수 있다. 집단 대립 유전자 빈도에 따라 페이징된 변이체를 필터링하는 단계는, 하디-바인베르크 평형(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하는 단계; 및 약 3 이하의 깊이별 품질(QD), 또는 약 7 미만의 판독 깊이(DP), 또는 약 15% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거하는 단계; 및 약 5 이하의 QD, 또는 약 10 미만의 DP, 또는 약 20% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계를 포함할 수 있다. 특정 선택 기준을 만족하지 않는 변이체는 제거될 수 있고, 잔류 변이체는 잠재적 복합 이형 접합 돌연변이로서 선택될 수 있으며, 잠재적 복합 이형 접합 돌연변이는 실시예에 기술된 수단들을 포함한 임의의 적절한 수단에 의해 페이징될 수 있다. 이러한 예시적인 실시형태는 또한 도 6에 도시되어 있다.
잠재적 CHM은 트리오 데이터, 또는 부모-자식 데이터, 또는 전체 형제자매 데이터, 또는 먼 친척 데이터, 또는 이들의 조합에 기초하여 페이징될 수 있거나; 또는 미량의 대립 유전자 카운트(MAC)에 기초하여 페이징되거나; 또는 집단 대립 유전자 빈도에 기초하여 페이징되거나; 또는 이들의 조합에 기초하여 페이징된다. 페이징은 당 업계에서 통상적으로 사용되는 임의의 적절한 방법에 의해 촉진될 수 있다. 비제한적인 예에서, 집단 대립 유전자 빈도-기반 페이징과 EAGLE 및 가계도/관계-기반 페이징의 조합이 잠재적 CHM을 페이징하는데 사용된다. 이러한 예시적인 프로세스는 또한 도 9에 예시되어 있다.
일부 예시적인 실시형태에서, 상기 방법은 CHM을 기능적 효과 우선 순위에 따라 채점하는 단계, 및 샘플에 대해 유전자당 가장 높은 기능적 효과 우선 순위 점수를 갖는 CHM을 선택함으로써 의학적으로 유의미한 돌연변이를 획득하는 단계를 추가로 포함한다. 이러한 단계는 SIFT[참조 문헌: Loh et al. (2016); Nat Genet 48, 1443-1448](손상), PolyPhen2 HDIV(손상 및 손상 가능성), PolyPhen2 HVAR(손상 및 손상 가능성), LRT(유해성), 및 MutationTaster[참조 문헌: Schwarz et al. (2014); Nat. Methods 11, 361-362](자동 질병 유발 및 질병 유발)을 포함한 임의의 적절한 수단에 의해 수행될 수 있지만, 이로 제한되는 것은 아니다.
일부 예시적인 실시형태에서, 저품질 샘플의 D-stat은 KS 테스트를 이용하여 샘플의 실제 대립 유전자 평형 분포를 예상되는 대립 유전자 평형 분포와 비교함으로써 결정된다.
본 개시는 또한 집단에서 데 노보 돌연변이(DNM)를 식별하는 방법을 제공한다. DNM을 식별하기 위한 방법의 예를 예시하는 흐름도가 도 3에서 제공된다.
상기 방법은 임의의 수단에 의해 유도된 임의의 유형의 인간 대상체로부터의 임의의 유형의 DNA 서열 샘플에 적용될 수 있다. 변이체의 비제한적인 예는 점 돌연변이, 삽입물, 삭제물, 도치물, 복제물 및 다합체를 포함한다. 인간 대상체의 유형의 비제한적인 예는 단일-건강 관리 네트워크 집단; 다중-건강 관리 네트워크 집단; 인종, 문화 또는 사회적으로 균질하거나 이질적인 집단; 혼합 연령 집단 또는 연령면에서 균질한 집단; 지리적으로 집중되거나 분산된 집단; 또는 이들의 조합을 포함한다. DNA 서열 샘플은 문헌[참조: Dewey et al. (2016), Science 354, aaf6814-1 to aaf6814-10]에 개시된 방식을 포함한 임의의 다양한 방식으로 획득될 수 있지만, 이로 제한되는 것은 아니다.
DNA 서열 샘플은 엑솜 서열을 포함하거나 또는 엑솜 서열이다. 엑솜 DNA는 통상적으로 사용되는 임의의 방법에 의해, 또는 문헌[참조: Dewey et al. (2016), Science 354, aaf6814-1 to aaf6814-10]에 기술된 바와 같이 분리될 수 있다.
복수의 인간 대상체로부터의 DNA 서열 샘플 내의 변이체는 단계 22 에서 임의의 적절한 수단에 의해 식별될 수 있다. 변이체를 식별할 수 있는 수단의 비제한적인 예는 다음 단계들을 포함한다:
- 시퀀싱이 완료되면, 각각의 시퀀싱 실행의 원시 데이터가 로컬 버퍼 스토리지에 수집되고 자동 분석용의 DNAnexus 플랫폼[참조 문헌: Reid et al. (2014); BMC Bioinformatics 15, 30]에 업로드된다.
- 샘플-레벨 판독 파일은 CASAVA(일루미나 인코포레이티드, 캘리포니아주 샌디에고 소재)로 생성되고, BWA-mem[참조 문헌: Li and Durbin (2009); Bioinformatics 25, 1754-176; Li (2013); arXiv q-bio.GN]를 사용하여 GRCh38에 정렬시킨다.
- 생성되는 BAM 파일은 GATK[참조 문헌: McKenna et al. (2010); Genome Res. 20, 1297-1303] 및 Picard를 사용하여 처리하여 복제물을 정렬, 표시하고, 추정 indel 주위에서 판독의 로컬 재정렬을 수행한다.
- 시퀀싱된 변이체는 Ensembl85 유전자 정의를 사용하여 snpEFF[참조 문헌: Cingolani et al. (2012); Fly (Austin) 6, 80-92]로 주석을 달아 전사체 및 유전자에 대한 기능적 영향을 결정한다.
상기 개시는 전술한 단계 중의 임의의 것으로 제한되지 않으며, 서열 변이체의 획득은 임의의 적절한 수단에 의해 수행될 수 있는 것으로 이해된다.
도 3은 데 노보 돌연변이(DNM)가 집단에서 식별되는 예시적인 실시형태의 흐름도이다. 식별된 변이체에 기초한 대상체에 대한 조상 상강 지정은 단계 23 에서 확립될 수 있고; 조상 상강 내의 대상체의 제 1 가계 정체성 추정치는 단계 24 에서 생성될 수 있고; 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치는 단계 25 에서 생성될 수 있고; 대상체는 단계 26 에서 하나 이상의 제 2 가계 정체성 추정치에 기초하여 일차 1도 가족 네트워크로 클러스터링될 수 있고; 일차 1도 가족 네트워크 내의 대상체의 제 3 가계 정체성 추정치는 단계 27 에서 생성될 수 있으며; 제 1 및 제 3 가계 정체성 추정치를 단계 28 에서 임의의 적절한 수단에 의해 병합하여 병합된 가계 정체성 추정치를 수득할 수 있다. 이러한 수단의 비제한적인 예는 PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 것들을 포함한다. 가계 정체성 추정치는 샘플 쌍 중에서 IBD 0, 1, 및 2 값을 갖는 게놈-전체 계산치를 포함할 수 있다.
더우기, 핵가족은 단계 29 에서 병합된 가계 정체성 추정치에 기초하여 구성될 수 있고; 핵가족의 변이체는 단계 30 에서 식별될 수 있으며; 유전자형 우도 점수를 단계 31 에서 구성된 핵가족에서 트리오의 각각의 부모 및 자식으로부터의 샘플 내의 변이체에 할당하여 변이체가 데 노보 돌연변이일 확률을 계산하고, 이와 독립적으로 부모 샘플 중의 어느 하나에서 트리오로 존재하지 않는 자식 샘플에서 변이체를 순수하게 식별하고 변이체가 데 노보 돌연변이일 확률을 계산한 다음, 가능성 있는 데 노보 돌연변이의 세트 둘다를 조합함으로써 가능성 있는 데 노보 돌연변이의 데이터 세트를 형성할 수 있다. 상기 단계를 수행하기 위한 수단의 비제한적인 예는 실시예에 개시된 것들을 포함한다.
일부 예시적인 실시형태에서, 상기 방법은 대상체에 대한 조상 상강 지정이 확립되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함하며; 일부 예시적인 실시형태에서, 상기 방법은 대상체의 제 2 가계 정체성 추정치가 생성되기 전에 식별된 변이체를 필터링하는 단계를 추가로 포함한다. 변이체는 임의의 적절한 수단에 의해 필터링될 수 있다. 이러한 수단의 비제한적인 예는 PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 것들을 포함한다.
변이체를 필터링하는 단계는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 약 10% 초과의 교대 대립 유전자 빈도를 갖는 변이체, 또는 > 약 10-6 의 p-값을 갖는 하디-바인베르크 평형(HWE)을 위반하는 변이체, 또는 복수의 인간 대상체로부터의 샘플의 > 약 5%의 누락된 호출을 갖는 변이체, 또는 이들의 조합을 제거하는 단계를 포함한다. 특정 선택 기준을 만족하지 않는 변이체는 제거될 수 있고, 잔류 변이체는 잠재적 복합 이형 접합 돌연변이로서 선택될 수 있으며, 잠재적 복합 이형 접합 돌연변이는 실시예에 기술된 수단들을 포함한 임의의 적절한 수단에 의해 페이징될 수 있다.
일부 예시적인 실시형태에서, 상기 방법은 식별된 변이체가 필터링된 후에 저품질 샘플을 제거하는 단계를 추가로 포함한다. 저품질 샘플은 임의의 적절한 수단에 의해 제거될 수 있다. 이러한 수단의 비제한적인 예는 일반적으로 공지되어 있고 따라서 본원에서 추가로 상세히 설명되지 않는, 문헌[참조: Dewey et al. (2016), Science 354, aaf6814-1 to aaf6814-10]에 개시된 것들, 및 실시예에 개시된 것들을 포함한다.
일부 예시적인 실시형태에서, 파라미터는 > 0.12의 D-stat 또는 < 75%의 20x 판독 범위, 또는 이들 둘다를 갖는 샘플이 제거될 저품질 샘플이 되도록 조정된다. 일부 예시적인 실시형태에서, 저품질 샘플의 D-stat은 KS 테스트를 이용하여 샘플의 실제 대립 유전자 평형 분포를 예상되는 대립 유전자 평형 분포와 비교함으로써 결정된다.
제 1 및 제 3 가계 정체성 추정치를 병합하는 단계는 제 1 가계 정체성 추정치를 제 3 가계 정체성 추정치에 고유한 쌍형 가계 정체성 추정치로 증강시키는 단계를 포함할 수 있으며, 이는, 예를 들면, PLINK[참조 문헌: Chang et al. (2015); Gigascience 4, 7], 및 실시예에 개시된 수단들에 의해 촉진될 수 있지만, 이로 제한되는 것은 아니다.
변이체를 필터링하는 단계는, 자식 샘플에서 약 35 미만의 유전자형 품질(GQ) 주석을 갖거나, 또는 샘플 전체에 걸쳐 10 이상의 교대 대립 유전자 카운트(AC)를 갖거나, 또는 자식 샘플에서 약 7 미만의 판독 깊이(DP) 또는 약 4 미만의 교대 DP를 갖거나, 또는 부모 샘플 중의 어느 하나에서 약 2% 초과의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 15% 미만의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 약 90% 초과의 AB를 갖거나, 또는 부모 샘플 중의 어느 하나에서 교대 대립 유전자 동형 접합성을 갖거나, 또는 이들의 조합을 갖는 변이체를 제거하는 단계를 포함할 수 있다. 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계는, 상기 가능성 있는 데 노보 돌연변이가 자식 샘플에서 약 15% 이상 및 각각의 부모 샘플에서 약 2% 이하의 대립 유전자 평형(AB)을 갖고, 약 40 미만의 맵핑 품질(MQ)을 갖지 않고, 약 2 미만의 깊이별 품질(QD) 값을 갖지 않고, 샘플 전체에 걸쳐 약 20 미만의 미량의 대립 유전자 카운트(MAC)를 갖고, 캐리어 중에서 상기 가능성 있는 데 노보 돌연변이의 변이체 사이트에서 약 3 이하의 소프트-클립핑된 판독값을 가지며, 약 4 초과의 모노-폴리머 런을 갖는 INDEL이 아닌 경우에 발생할 수 있다. 중간 신뢰도 데 노보 돌연변이를 고 신뢰도 데 노보 돌연변이로서 분류하는 단계는, 상기 중간 신뢰도 데 노보 돌연변이가 부모 샘플에서 약 90 이상의 유전자형 품질(GQ) 주석을 갖고, 각각의 부모 샘플에서 약 10 이상의 판독 깊이(DP)를 갖고, 자식 샘플에서 약 7 이상의 교대 DP를 갖고, SNP에 대해 약 3 초과의 QD를 가지며, INDEL에 대해 약 5 초과의 QD를 갖는 경우에 발생할 수 있다.
이러한 단계는 실시예에 기술된 수단들을 포함한 임의의 적절한 수단에 의해 수행될 수 있다. 이러한 예시적인 실시형태는 또한 도 7에 예시되어 있다.
본원에서 사용되는 용어 D-stat은 저품질 샘플을 식별하기 위해 생성되고 사용될 수 있는 QC 메트릭을 지칭한다. 샘플의 저품질은 오염으로 인해 유발될 수 있으며, 이는 다운스트림 분석(downstream analyses)에 문제를 유발할 수 있다. 샘플의 D-stat은, 예를 들면, 샘플의 실제 대립 유전자 평형 분포를 기준 대립 유전자 평형 분포(예를 들면, 예상되는 대립 유전자 평형 분포)와 비교함으로써 계산될 수 있다. 기준 분포는, 예를 들면, 분석될 샘플을 쿼리(query)하는데 사용된 것과 동일한 플랫폼을 사용하여 포획되고 시퀀싱된 오염의 어떠한 흔적도 없이 복수의 샘플로부터 계산될 수 있다. 본원에서 사용되는 D-stat QC 메트릭의 값은 p-값을 계산하기 전에 K-S(Kolmogorov-Smirnov) 테스트로부터 생성된 D 통계량과 동등하다. D-stat은 단위가 없다. K-S 테스트로부터의 D 통계량은 0 과 1 사이의 값을 생성하며, 1 은 기준 분포 및 샘플 분포의 누적 분포 사이의 최대 차이를 의미한다. 일부 예시적인 실시형태에서, 저품질 샘플은 샘플의 실제 대립 유전자 평형 분포를 K-S 테스트에 따라 계산된 대립 유전자 평형의 예상 분포/기준 분포와 비교함으로써 식별된다. 일부 예시적인 실시형태에서, 특정 D-stat 값을 갖는 것으로 결정된 샘플은 저품질 샘플로 간주되며 추가의 분석에서 제거된다. 일부 예시적인 실시형태에서, 품질이 낮고 제거되어야 하는 것으로 간주되는 샘플의 D-stat 값은 > 0.01, 0.02, 0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09, 0.1, 0.11 또는 0.12이다. 바람직한 실시형태에서, 품질이 낮고 제거되어야 하는 것으로 간주되는 샘플의 D-stat 값은 > 약 0.12이다. 보다 바람직한 실시형태에서, 품질이 낮고 제거되어야 하는 것으로 간주되는 샘플의 D-stat 값은 > 0.12이다.
설명되거나 예시된 임의의 방법은 비-일시적 컴퓨터 구현 방법으로서 및/또는 시스템으로서 실시될 수 있다. 당업자에게 공지된 임의의 적절한 컴퓨터 시스템이 이러한 목적에 사용될 수 있다.
도 10은 본 발명의 방법 및 시스템이 작동할 수 있는 예시적인 환경(201)에 대한 다양한 양태를 도시한다. 본 발명의 방법은 디지털 장비 및 아날로그 장비 모두를 사용하는 다양한 유형의 네트워크 및 시스템에서 사용될 수 있다. 본원에서는 기능적인 설명이 제공되며, 개개의 기능은 소프트웨어, 하드웨어, 또는 소프트웨어와 하드웨어의 조합에 의해 수행될 수 있다.
환경(201)은 로컬 데이터/처리 센터(210)를 포함할 수 있다. 로컬 데이터/처리 센터(210)는 하나 이상의 컴퓨팅 장치(computing device) 사이의 통신을 용이하게 하기 위해 근거리망과 같은 하나 이상의 네트워크를 포함할 수 있다. 하나 이상의 컴퓨팅 장치가 생물학적 데이터를 저장, 처리, 분석, 출력, 및/또는 시각화하는데 사용될 수 있다. 환경(201)은 의료 데이터 제공자(220)를 선택적으로 포함할 수 있다. 의료 데이터 제공자(220)는 생물학적 데이터에 대한 하나 이상의 공급원을 포함할 수 있다. 예를 들면, 의료 데이터 제공자(220)는 하나 이상의 환자에 대한 의료 정보에 접근할 수 있는 하나 이상의 의료 시스템을 포함할 수 있다. 의료 정보는, 예를 들면, 병력, 의료 전문가의 관찰 및 논평, 실험실 보고서, 진단서, 의사의 오더, 처방전, 생체 신호, 체액 밸런스, 호흡 기능, 혈액 파라미터, 심전도, x-선, CT 스캔, MRI 데이터, 실험실 테스트 결과, 진단서, 예후, 평가, 입원 및 퇴원 노트, 및 환자 등록 정보 등을 포함할 수 있다. 의료 데이터 제공자(220)는 하나 이상의 컴퓨팅 장치 사이의 통신을 용이하게 하기 위해 근거리망과 같은 하나 이상의 네트워크를 포함할 수 있다. 하나 이상의 컴퓨팅 장치는 의료 정보를 저장, 처리, 분석, 출력, 및/또는 시각화하는데 사용될 수 있다. 의료 데이터 제공자(220)는 의료 정보를 탈 식별화하고, 탈 식별화된 의료 정보를 로컬 데이터/처리 센터(210)에 제공할 수 있다. 탈 식별화된 의료 정보는, 의료 정보를 탈 식별화된 상태로 유지하면서 한 환자의 의료 정보를 다른 환자와 구별하도록 각 환자에 대한 고유 식별자를 포함할 수 있다. 탈 식별화된 의료 정보는 환자의 정체성이 환자 본인의 특정 의료 정보와 연결되는 것을 방지한다. 로컬 데이터/처리 센터(210)는 탈 식별화된 의료 정보를 분석하여 (예를 들면, 국제 질병 분류 "ICD" 코드 및/또는 현행 절차 용어 "CPT" 코드를 할당함으로써) 각각의 환자에게 하나 이상의 표현형을 할당할 수 있다.
환경(201)은 NGS 시퀀싱 시설(230)을 포함할 수 있다. NGS 시퀀싱 시설(230)은 하나 이상의 시퀀서(예를 들면, Illumina HiSeq 2500, Pacific Biosciences PacBio RS II 등)를 포함할 수 있다. 하나 이상의 시퀀서가 엑솜 시퀀싱, 전장 엑솜 시퀀싱, RNA-seq, 전장 게놈 시퀀싱, 표적화 시퀀싱 등을 위해 구성될 수 있다. 하나의 예시적인 양태에서, 의료 데이터 제공자(220)는 탈 식별화된 의료 정보와 연관된 환자로부터 생물학적 샘플을 제공할 수 있다. 고유 식별자는 생물학적 샘플과 상기 생물학적 샘플에 대응하는 탈 식별화된 의료 정보 사이의 연관성을 유지하는데 사용될 수 있다. NGS 시퀀싱 시설(230)은 생물학적 샘플에 기초하여 각 환자의 엑솜을 시퀀싱할 수 있다. 시퀀싱에 앞서 생물학적 샘플을 저장하기 위해, NGS 시퀀싱 시설(230)은 (예를 들면, 리코닉 인스트루먼츠(Liconic Instruments)사의) 바이오뱅크를 포함할 수 있다. 생물학적 샘플은 튜브(각각의 튜브는 환자와 연관됨)에 수용될 수 있고, 각각의 튜브는 샘플이 스캐닝되어 로컬 데이터/처리 센터(210) 내로 자동적으로 로그될 수 있는 바코드(또는 다른 식별자)를 포함할 수 있다. NGS 시퀀싱 시설(230)은 데이터의 균일성 및 효율적인 무정지 작동이 이루어지도록 하나 이상의 시퀀싱 단계에서 사용하기 위한 하나 이상의 로봇을 포함할 수 있다. 따라서, NGS 시퀀싱 시설(230)은 연간 수만개의 엑솜을 시퀀싱할 수 있다. 하나의 양태에서, NGS 시퀀싱 시설(230)은 매월 적어도 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10,000, 11,000 또는 12,000개의 전장 엑솜을 시퀀싱하는 기능적 용량을 갖는다.
NGS 시퀀싱 시설(230)에 의해 생성된 생물학적 데이터(예를 들면, 원시 시퀀싱 데이터)는 로컬 데이터/처리 센터(210)로 전송될 수 있으며, 이어서 로컬 데이터/처리 센터는 생물학적 데이터를 원격 데이터/처리 센터(240)로 전송할 수 있다. 원격 데이터/처리 센터(240)는 하나 이상의 컴퓨팅 장치를 포함하는 클라우드 기반의 데이터 저장 및 처리 센터를 포함할 수 있다. 다른 데이터 통신 시스템(예를 들면, 인터넷)이 고려될 수도 있지만, 로컬 데이터/처리 센터(210) 및 NGS 시퀀싱 시설(230)은 하나 이상의 고용량 광섬유 라인을 통해 원격 데이터/처리 센터(240)와 직접적으로 데이터를 주고 받을 수 있다. 하나의 예시적인 양태에서, 원격 데이터/처리 센터(240)는 제 3 자 시스템, 예를 들면 아마존 웹 서비스(DNAnexus)를 포함할 수 있다. 원격 데이터/처리 센터(240)는 분석 단계들의 자동화를 용이하게 할 수 있으며, 안전한 방식으로 하나 이상의 협력자(250)와 데이터를 공유할 수 있다. 로컬 데이터/처리 센터(210)로부터 생물학적 데이터를 수신하면, 원격 데이터/처리 센터(240)는 생물정보 도구를 사용하여 1차 및 2차 데이터 분석을 위한 자동화된 일련의 파이프라인 단계를 수행하여, 각각의 샘플에 대해 주석이 달린 변이체 파일을 생성할 수 있다. 이러한 데이터 분석의 결과들(예를 들면, 유전자형)은 로컬 데이터/처리 센터(210)와 다시 통신할 수 있으며, 예를 들면, 실험실 정보 관리 시스템(LIMS)에 통합되어 각각의 생물학적 샘플의 상태를 유지하도록 구성될 수 있다.
이어서, 로컬 데이터/처리 센터(210)는 NGS 시퀀싱 시설(230)과 원격 데이터/처리 센터(240)를 통해 수득된 생물학적 데이터(예를 들면, 유전자형)를 탈 식별화된 의료 정보(식별된 표현형을 포함함)와 함께 사용하여 유전자형과 표현형 사이의 연관성을 식별할 수 있다. 예를 들면, 로컬 데이터/처리 센터(210)는 특정 질병 영역, 예를 들면, 심혈관 질환의 경우 극단적인 혈중 지질 영역에서 치료적 잠재성을 가질 수 있는 것으로 정의되는 경우, 표현형 우선 접근법을 적용할 수 있다. 또 다른 실시예는 합병증의 전형적 범위로부터 보호되는 것으로 보이는 개체를 식별하기 위한 비만 환자에 대한 연구이다. 또 다른 접근법은 유전형 및 가설, 예를 들면 유전자 X가 질병 Y를 유발하거나 질병 Y로부터 보호하는 것에 관련된다는 가설에서 출발하는 것이다.
하나의 예시적인 양태에서, 하나 이상의 협력자(250)는 인터넷(260)과 같은 네트워크를 통해 생물학적 데이터 및/또는 탈 식별화된 의료 정보의 일부 또는 전부에 접근할 수 있다.
도 11에 도시된 하나의 예시적인 양태에서, 하나 이상의 로컬 데이터/처리 센터(210) 및/또는 원격 데이터/처리 센터(240)는 유전자 데이터 컴포넌트(300), 표현형 데이터 컴포넌트(310), 유전자 변이체-표현형 연관성 데이터 컴포넌트(320), 및/또는 데이터 분석 컴포넌트(330) 중의 하나 이상을 포함하는 하나 이상의 컴퓨팅 장치를 포함할 수 있다. 유전자 데이터 컴포넌트(300), 표현형 데이터 컴포넌트(310), 및/또는 유전자 변이체-표현형 연관성 데이터 컴포넌트(320)는 서열 데이터의 품질 평가, 기준 게놈에 대한 판독 정렬, 변이체 식별, 변이체의 주석, 표현형 식별, 변이체-표현형 연관성 식별, 데이터 시각화, 이들의 조합 등 중의 하나 이상을 위해 구성될 수 있다.
하나의 예시적인 양태에서, 컴포넌트들 중의 하나 이상은 완전한 하드웨어 실시형태, 완전한 소프트웨어 실시형태, 또는 소프트웨어 양태 및 하드웨어 양태를 조합한 실시형태의 형태를 취할 수 있다. 또한, 상기 방법 및 시스템은 저장 매체에서 구현되는 컴퓨터 판독가능 프로그램 명령(예를 들면, 비-일시적 컴퓨터 소프트웨어)을 가진 컴퓨터 판독가능 저장 매체 상의 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 보다 구체적으로, 본 발명의 방법 및 시스템은 웹 구현 컴퓨터 소프트웨어의 형태를 취할 수 있다. 하드 디스크, CD-ROM, 광 저장 장치, 또는 자기 저장 장치를 포함한 임의의 적절한 컴퓨터 판독가능 저장 매체가 이용될 수 있다.
하나의 예시적인 양태에서, 유전자 데이터 컴포넌트(300)는 하나 이상의 유전자 변이체에 기능적으로 주석을 달도록 구성될 수 있다. 유전자 데이터 컴포넌트(300)는 또한 하나 이상의 유전자 변이체의 저장, 분석, 수용 등을 위해 구성될 수도 있다. 하나 이상의 유전자 변이체는 하나 이상의 환자(대상체)로부터 수득된 서열 데이터(예를 들면, 원시 서열 데이터)로부터 주석이 달릴 수 있다. 예를 들면, 하나 이상의 유전자 변이체는 적어도 100,000, 200,000, 300,000, 400,000 또는 500,000개의 대상체 각각으로부터 주석이 달릴 수 있다. 하나 이상의 유전자 변이체에 기능적으로 주석을 달면 유전자 변이체 데이터가 생성된다. 예로서, 유전자 변이체 데이터는 하나 이상의 변이체 호출 포맷(VCF) 파일을 포함할 수 있다. VCF 파일은 SNP, indel, 및/또는 구조적 변형 호출을 표현하기 위한 텍스트 파일 포맷이다. 변이체는 전사체/유전자에 대한 그들의 기능적 영향에 대해 평가되며, 잠재적 기능 상실(pLoF) 후보가 식별된다. 변이체는 Ensembl75 유전자 정의를 사용하여 snpEff로 주석 처리되며, 이어서 각각의 변이체(및 유전자)에 대해 기능적 주석이 추가적으로 처리된다.
본 명세서에서 숫자 및/또는 문자로 제공되는 방법 단계의 연속적인 라벨링은 상기 방법 또는 그의 임의의 예시적인 실시형태를 특정의 지시된 순서로 제한하려는 의도가 아니다.
특허, 특허 출원, 공개 특허 출원, 수탁 번호, 기술 논문 및 학술 논문을 포함한 다양한 공개 문헌은 명세서 전반에 걸쳐 인용된다. 인용된 각각의 참고 문헌은 그의 내용 전체가 본 문서에서 참고로 포함된다.
본 개시를 보다 상세하게 설명하기 위하여 제공된 하기 실시예를 참조하면 본 개시가 보다 완전하게 이해될 것이다. 이들은 예시를 위한 것이며, 본 개시의 범위를 제한하는 것으로 해석되어서는 안된다.
실시예
실시예 1.1
61K 인간 엑솜의 코호트에서의 관계 추정 및 관련성 설명
61K 인간 엑솜의 코호트를 분석하였다. 이러한 코호트는 2014년에 시작된 리제네론 유전학 센터(Regeneron Genetics Center)(RGC)와 가이신저 헬스 시스템(Geisinger Health System)(GHS)에 의한 연구에서 비롯되었다[참조 문헌: Dewey et al.(2016), Science 354, aaf6814-aaf6814]. 이러한 DiscovEHR 연구는 이주율이 낮은 집단을 대상으로 하는 단일 건강 관리 시스템에서 환자를 조밀하게 샘플링하였다. 61K 인간 엑솜 코호트는 본원에서 DiscovEHR 데이터 세트로 지칭된다. DiscovEHR 데이터 세트 내에서 엄청난 양의 가족 구조가 식별되었으며, 본원에서 개시된 시뮬레이션은 연구에서 250K의 타겟을 확인할 경우에 데이터 세트 내에 있는 개체의 70% 내지 80%가 1도 또는 2도 친척을 가질 것으로 예상하였다.
가계 정체성(IBD) 추정치를 사용하여 데이터 세트 내에서 상이한 유형의 가족 관계를 식별하였으며, PRIMUS[참조 문헌: Staples et al. (2014), Am. J. Hum. Genet. 95, 553-564]를 사용하여 쌍형 관계를 다른 가족 계급으로 분류하고 가계도를 재구성하였다(실시예 8에 자세히 설명되어 있다). 전장 엑솜 시퀀싱(WES) 데이터로부터 먼 친척에 대한 IBD 비율을 정확하게 추정하는데 대한 한계로 인하여, DiscovEHR 데이터 세트 샘플 중에서 추정된 1도, 2도 및 고 신뢰도 3도 관계만을 포함하였다.
전체적으로, 20명의 일란성 쌍둥이, 8,802명의 부모 자식 관계, 6,122명의 완전한 형제자매 관계 및 약 20,000명의 2도 관계가 데이터 세트 내에서 식별되었다(도 12a). 2도 및 3도 관계의 IBD 공유 분포가 서로 중첩되기 때문에, 본 연구에서는 두 가지 예상 평균 사이의 확실한 중간 컷오프 값이 선택되었다. (도 12a에서 별표로 표시된) 3도 관계는 엑솜 데이터의 기술적 한계뿐만 아니라 더 먼 관계 등급(예를 들면 4도 및 5도)의 예상되는 평균 IBD 비율 부근의 확대 및 겹침 변동으로 인해 정확하게 추정하기가 어렵다. 이어서, 개체를 노드(node)로 처리하고 관계를 에지로 처리하여 무방향 그래프(undirected graph)를 생성하였다. 단지 1도 관계만을 사용하여, 7,684명의 연결 컴포넌트를 식별하였으며, 이를 1도 가족 네트워크라 지칭하였다. 도 12b는 2 내지 25명의 시퀀싱된 개체 범위인 1도 가족 네트워크의 크기 분포를 도시한다. 마찬가지로, 7,136명의 2도 가족 네트워크가 발견되었으며; 최대 7,123명의 개체를 포함하였다(전체 데이터 세트의 약 12%; 도 12d). 도 12d에서, 2도 가족 네트워크 내의 1도 가족 네트워크는 네트워크(도 12c에 도시된 1도 가족 네트워크 가계도를 포함함) 내의 개체의 수에 비례하여 크기가 정해진 적색 상자로서 도시된다. 단일 개체는 청색 에지로 도시된 2도 관계에 의해 연결된 흑색 노드로서 도시된다.
대략 4,500명의 3도 관계가 2도 가족 네트워크 내에서 식별될 수 있다. 조상 그룹 내에서 IBD 추정에 대한 최소 IBD 컷오프 값의 완화를 나타내면서 DiscovEHR 데이터 세트 내에서 50K를 훨씬 초과하는 3도 관계가 식별되었다. 유럽계 조상을 가진 개체는 DiscovEHR 데이터 세트의 단지 96.5% 만을 차지하는 반면(하기 표 1a 참조), 데이터 세트에서 발견되는 쌍형 관계의 대다수(> 99%)는 유럽계 조상을 가진 개체과 관련이 있다(하기 표 1b 참조). 어쨌든, 동일한 비 유럽계 조상을 가진 사람들 사이 및 상이한 조상을 가진 사람들 사이에는 많은 관계가 있다. 예를 들면, 트리오는 유럽계 아버지 및 동아시아계 어머니와 함께 DiscovEHR 데이터 세트에서 발견되었으며, 그들의 자손에게는 기준 집단과 밀접하게 일치하지 않았기 때문에 미상의(unknown) 조상이 할당되었다.
[표 1a]
[표 1b]
실험적으로(도 13a) 및 친척 누적 비율이 샘플 확인 비율을 훨씬 초과한 시뮬레이션(도 14a)을 통하여 친척 누적 비율이 샘플 확인 비율을 훨씬 초과하는 것으로 나타났다. 추가적인 쌍형 관계의 누적은 이러한 관계에 더 많은 개체들을 참여하도록 하였다. 현재, 61K 개체의 50.4%는 DiscovEHR 데이터 세트에서 하나 이상의 1도 또는 2도 친척을 가지고 있다(도 13b).
실시예 1.2
92K 인간 엑솜의 코호트에서의 관계 추정 및 관련성 설명
92,455명의 인간 엑솜의 더 큰 임상 코호트를 분석하였다. 이러한 코호트는 2014년에 시작된 리제네론 유전학 센터(RGC)와 가이신저 헬스 시스템(GHS)에 의한 연구에서 비롯되었다[참조 문헌: Staples et al. (2018), Am. J. Hum. Genet. 102(5): 874-889]. 이러한 확대 DiscoverEHR 코호트도 또한 펜실베니아 중부 지역에서 이주율이 낮은 농촌 지역 주민에게 서비스를 제공하는 단일 건강 관리 시스템 참가자의 밀집된 표본이다.
제조 및 시퀀싱된 제 1 61K 샘플(실시예 1.1)을 포함하는 세트를 "VCRome 세트"라 지칭하였다. NimbleGen 프로브 캡처(capture) 대신에 IDT의 xGen 프로브의 약간 수정된 버전(여기서, 보충 프로브는 NimbleGen VCRome 캡처 시약(capture reagent)에 의해 보호되었지만 표준 xGen 프로브에 의해 잘 보호되지 않는 게놈 영역을 캡처하는데 사용되었다)이 사용되었다는 것을 제외하고는, 동일한 프로세스에 의해 31K 샘플의 나머지 세트를 제조하였다. 캡처된 단편을 스트렙타비딘-접합 비드에 결합시킨 다음, 제조회사(IDT)의 권장 프로토콜에 따라 연쇄적으로 엄격하게 세척하여 비특이적 DNA 단편을 제거하였다. 이러한 샘플의 제 2 세트를 "xGen 세트"라 지칭하였다. GATK를 사용하여 변이체 호출을 생성하였다. GATK는 추정 indel 주위에 각 샘플의 정렬된 복제 표시 판독의 국소 재조정에 사용되었다. GATK의 HaplotypeCaller를 사용하여 INDEL 재정렬된 복제 표시 판독을 처리하여 게놈 변이체 호출 포맷(gVCF)에서 샘플이 게놈 참조와 다른 모든 엑손 위치를 식별하였다. 유전자형 분석은, 각각의 샘플 및 참조와 비교하였을 때 단일 뉴클레오티드 변이체(SNV) 및 indel 모두를 식별하는 단일 샘플 변이체 호출 포맷(VCF) 파일을 출력하는 50개의 무작위 선택된 샘플의 트레이닝 세트(training set) 상에서 GATK의 GenotypeGVCF로 수행하였다. 이어서, 단일 샘플 VCF 파일을 사용하여 두 세트의 단일 샘플 VCF 파일에서 모든 가변 사이트를 포함하는 의사 샘플(pseudo-sample)을 작성하였다. 또한, 200개의 단일 샘플 gVCF 파일을 의사 샘플과 공동 호출함으로써 VCRome에 대한 독립적인 pVCF 파일을 셋팅하여 두 캡처 세트 전체에 걸쳐 모든 가변 사이트에서 각각의 샘플에 대한 호출 또는 비호출(no-call)을 강제한다. 모든 200개의 샘플 pVCF 파일을 결합하여 VCRome pVCF 파일을 작성하였으며, 이러한 프로세스를 반복하여 xGen pVCF 파일을 작성하였다. VCRome 및 xGen pVCF 파일을 결합하여 통합 pVCF 파일을 작성하였다. GRCh38에 대한 서열 판독을 정렬한 다음, Ensembl 85 유전자 정의를 사용하여 변이체에 주석을 달았다. 유전자 정의는, 주석이 달린 시작 및 정지로 단백질을 코딩하는, 19,467개의 유전자에 상응하는 54,214개의 전사체로 제한되었다. 샘플 QC 공정 후에, 분석을 위해 92,455개의 엑솜을 남겨두었다.
92,455명의 개체의 확대 DiscovEHR 데이터 세트로부터, 43명의 일란성 쌍둥이, 16,476명의 부모-자식 관계, 10,479명의 완전한 형제자매 관계, 및 39,000명의 2도 관계가 식별되었다(도 16, 패널 A). 개체를 노드로 처리하고 관계를 에지로 처리하여 무방향 그래프를 생성하였다. 단지 1도 관계만을 사용하여, 12,594명의 연결 컴포넌트를 식별하였으며, 이를 1도 가족 네트워크라 지칭하였다. 도 16에서, 패널 B는 2 내지 25명의 시퀀싱된 개체 범위인 1도 가족 네트워크의 크기 분포를 도시한다. 마찬가지로, 최대 19,968명의 개체(전체 데이터 세트의 22%; 도 16, 패널 C)을 포함하는 10,173명의 2도 가족 네트워크를 식별하였다. 또한, 2도 가족 네트워크 내에서 약 5,300명의 3도 관계도 식별하였다. 2도 가족 네트워크를 고려하지 않고 조상 그룹 내에서 IBD 추정을 위해 더 낮은 IBD 컷오프 값(PIJ_HAT> 0.09875)을 사용하여, 확대 DiscovEHR 코호트 내에서 100,000명을 초과하는 3도 관계를 식별하였다. 확대 DiscovEHR 개체의 95.9%가 유럽계 조상이었음을 감안하였을 때(표 2a), 확인된 쌍형 관계의 대다수(98.6%)가 유럽계 조상의 두 개체 사이에 있었다는 것은 놀라운 일이 아니다(표 2b). 그럼에도 불구하고, 같은 비 유럽계 조상을 가진 사람들 사이 및 다른 조상을 가진 개체들 사이의 많은 관계가 식별되었다; 예를 들면, 1명의 유럽계 부모, 1명의 동아시아계 부모, 및 이들 부모의 게놈의 혼합 특성으로 인해 조상이 상위 집단(super-population)에 할당되지 않은 자녀를 가진 트리오가 여러개 있었다. 중요하게는, 실험적으로(도 17a) 및 시뮬레이션을 통하여(도 18a), 친척 누적 비율이 샘플 확인 비율을 훨씬 초과한다는 것을 알아내었다. 크기가 커짐에 따라 데이터 세트 내에서 가능한 쌍형 관계의 수가 조합적으로 증가하고 데이터 세트에서 이전에는 관련되지 않았던 개체가 새롭게 식별된 관계에 관여할 가능성도 증가할 수 있다는 점을 감안하였을 때, 이는 예상된 일이었다. 현재, 확대 DiscovEHR 코호트에 있는 개체의 39%는 데이터 세트에서 적어도 하나의 1도 친척을 가질 수 있으며, 참가자의 56%는 데이터 세트에서 하나 이상의 1도 또는 2도 친척을 갖는다(도 17, 패널 B).
[표 2a]
[표 2b]
실시 예 2
SimProgeny 및 관련성 예측을 사용한 시뮬레이션
DiscovEHR 및 확대 DiscovEHR 데이터 세트에서 관계 네트워크의 성장을 모델링, 이해 및 예측하기 위하여, 수백년 동안 여러 하위 집단에 분산되어 있는 수백만명의 혈통(lineage)을 시뮬레이션할 수 있는 시뮬레이션 프레임워크(simulation framework)(이하 "SimProgeny")가 개발되었다. 이러한 모의 집단을 통해 다양한 샘플링 접근법을 모델링할 수 있으며 주어진 집단 및 샘플링 파라미터의 세트에 대해 연구원이 찾아야 할 관련성의 양을 추정할 수 있다(실시예 17 참조).
SimProgeny는, DiscovEHR 및 확대 DiscovEHR 집단을 시뮬레이션하고, 그들로부터 제 1 61K 및 제 1 92K 참가자 각각을 확인하기 위해 사용되었다. 시뮬레이션은 DiscovEHR 및 확대 DiscovEHR 참가자가 집단으로부터 무작위로 샘플링된 것이 아니라 가까운 친척에 대해 데이터 세트가 풍부해졌음을 보여준다. 도 14a 및 도 14b에 도시된 바와 같이, 실제 데이터는 희미한 선으로 연결된 구두점(punctuation point)으로 표시된 주기적 "동결점(freezes)"에서 계산되었다. 또한, 61K-사람 동결점에서 식별된 샘플 및 관계를 취한 다음, 61K DiscovEHR 참가자의 상반기가 하반기에 비해 1도 관계가 강화되었음을 입증하기 위해 확인 순서를 뒤섞었다. DiscovEHR로부터 확인된 실제 집단과 유사한 파라미터를 사용하여 다양한 크기의 집단을 시뮬레이션하였다. 이어서, 이들 집단 각각으로부터 무작위 확인을 수행하여 실제 데이터에 가장 적합한 집단 크기를 확인하였다. 요점은 이러한 집단 크기 중의 어느 것도 실제 데이터에 적합하지 않으며 무작위 확인 접근법이 적합하지 않다는 것이다. 무작위 확인과 비교하였을 때 1도 친척을 풍부하게 하는 다른 확인 접근법이 더 적합할 수 있었다. 도 14a는 크기 270K의 유효 샘플링 집단에서 1도 친척 쌍의 확인이 실제 데이터의 뒤섞인 버전에 매우 적합하지만, 61K 미만의 확인된 참가자의 친척 쌍의 수를 과소 평가하고 61K 초과의 참가자의 친척 쌍의 수를 극적으로 과대 평가한다는 것을 도시한다. 도 14b는 270K의 집단이 하나 이상의 1도 친척을 가진 개체의 수와 관련하여 뒤섞인 실제 데이터에 가장 적합하지만, 실제 데이터에는 적합하지 않다는 것을 도시한다.
확대 DiscovEHR 데이터 세트를 사용하여 유사한 결과를 관찰하였다(도 17a 및 도 17b). 이어서, 92K 확대 DiscovEHR 참가자의 상반기가 하반기에 비해 1도 관계가 강화되었음을 입증하기 위해 92K-사람 동결점에서 식별된 샘플 및 관계를 뒤섞었다. 이어서, 이들 집단 각각으로부터 무작위 확인을 수행하여 실제 데이터에 가장 적합한 집단 크기를 확인하였다. 도 17a는 크기 403K의 유효 샘플링 집단에서 1도 친척 쌍의 확인이 실제 데이터의 뒤섞인 버전에 매우 적합하지만, 92K 미만의 확인된 참가자의 친척 쌍의 수를 과소 평가하고 92K 초과의 참가자의 친척 쌍의 수를 극적으로 과대 평가한다는 것을 도시한다. 도 17b는 403K의 집단이 하나 이상의 1도 친척을 가진 개체의 수와 관련하여 뒤섞인 실제 데이터에 가장 적합하지만, 확대 DiscovEHR 참가자가 무작위로 확인되지 않았음을 시사하는 실제 데이터에는 적합하지 않다는 것을 도시한다.
가까운 친척의 강화는 DiscovEHR(도 15a 및 도 15b) 및 확대 DiscovEHR(도 18a 및 도 18b)에 대한 실제 데이터에 더 적합한 시뮬레이션을 생성하는 클러스터 확인 접근법(실시예 17 참조)을 사용하여 모델링되었다. 도 15 및 도 18 둘 모두의 경우, 실제 데이터는 희미한 선으로 연결된 구두점으로 표시되는 주기적 "동결점"에서 계산되었다. 대부분의 시뮬레이션 파라미터는 실제 집단의 인구 통계 및 DiscovEHR 확인 접근법에 대한 정보에 기초하여 설정되었다. 그러나, 하기 두개의 파라미터는 알 수 없었으며 실제 데이터에 적합하도록 선택되었다: 1) 샘플이 확인된 유효 집단 크기, 및 2) 이전에 확인된 1도 친척을 감안하였을 때 누군가가 확인되는, "클러스터 확인"이라 지칭되는 증가된 가능성. 모든 패널은 추정된 유효 집단 크기에 걸쳐 동일한 3개의 시뮬레이션된 집단 크기를 보여준다. 1도 친척의 포아송 분포 난수(Poisson-distributed random number)(포아송 분포 람다 값은 범례에서 표시된다)에 따라 개체를 무작위로 확인함으로써 클러스터 확인을 시뮬레이션하였다. 이러한 시뮬레이션 결과는 유효 샘플링 집단 크기가 ~ 475K 개체가었고 0.2의 람다 값을 가진 포아송 분포가 1도 친척의 강화에 가장 잘 일치한다고 제안하였다. 이는 현재 참가자의 대다수가 전체 GHS 집수 지역(> 250만명의 개체)에 걸쳐 고루 분포되지 않고, 본 실시예에서는 펜실베니아주 댄빌 지역(~ 500K 개체)과 같은 특정 지역에 거주한다는 사실과 일치하였다.
실제 데이터에 적당한 시뮬레이션 파라미터가 확인된 후, SimProgeny를 사용하여 DiscovEHR 및 확대 DiscovEHR 연구가 250K 참가자의 목표까지 확장될 때 예상되어야 하는 1도 관계의 양을 예측하였다. 결과는, 동일한 방법으로 참가자 확인을 계속한 경우에, DiscovEHR(도 15c) 및 확대 DiscovEHR(도 18c)에 대해 예상되어야 하는 ~150K 1도 관계를 수득하고, DiscovEHR 참가자의 ~ 60%(도 15d)를 포함하며, 확대 DiscovEHR 참가자의 ~ 60%(도 18d)를 포함하는 것으로 나타났다.
이어서, 시뮬레이션 분석은 2도 관계를 포함하도록 확대되었으며, 시뮬레이션 결과는 250K 참가자들과 함께 DiscovEHR(도 19) 및 확대 DiscovEHR(도 20)에 있는 개체의 70% 이상을 포함하는 200K 이상의 결합 1도 및 2도 관계가 예상되어야 한다고 제안하였다. 이러한 분석을 위해, 실제 데이터는 도면에서 희미한 선으로 연결된 구두점으로 표시되는 주기적 "동결점"에서 계산되었다. 대부분의 시뮬레이션 파라미터는 실제 집단의 인구 통계 및 DiscovEHR 확인 접근법에 대한 정보에 기초하여 설정되었다. 모든 패널은 추정된 유효 집단 크기에 걸쳐 동일한 3개의 시뮬레이션된 집단 크기를 보여준다. 1도 친척의 포아송 분포 난수 및 2도 친척의 별도의 난수(이들 두 포아송 분포는 도면 범례에 표시된 람다 값을 갖는다)에 따라 개체를 무작위로 확인함으로써 클러스터 확인을 시뮬레이션하였다.
시뮬레이션 결과는 DiscovEHR HPG 연구에서 명확한 관련성 강화를 입증하였을 뿐만 아니라 추가 참가자의 확인이 계속될 것으로 예상되는 엄청난 양의 관련성에 대한 핵심 통찰을 제공하였다.
실시예 3.1
관련성을 DicoverEHR 데이터 세트의 방해 변수로 취급하는 대신 관련성을 활용
가계도 재구성 도구 PRIMUS[참조 문헌: Staples et al. (2014), Am. J. Hum. Genet. 95, 553-564]를 사용하여 DiscovEHR 데이터 세트에서 7,684명의 1도 가족 네트워크를 모두 재구성하였으며, 이러한 가계도의 98.9%가 IBD 추정치 및 보고 된 연령을 고려할 때 독특하게 재구성된 것으로 밝혀졌다. 이러한 가계도는 1,081명의 핵가족(925명의 트리오, 134명의 쿼텟, 19명의 퀸텟, 및 3명의 섹스텟)을 포함하였으며; 아래 표 3은 조상별로 트리오를 분류한 것이다. 1,081명의 핵가족은 개별 트리오 컴포넌트로 분류하였다. 예를 들면, 쿼텟은 같은 부모를 가진 두개의 개별 트리오로 분할될 것이다. DiscovEHR 코호트는 대부분 유럽인이었기 때문에, 트리오의 대다수는 유럽계 조상의 개체를 포함하였다. 미상의 조상을 가진 개체들은 일반적으로 상이한 조상 배경을 가진 부모의 자녀였다, 예를 들면, EAS-EUR-미상 트리오의 세명 모두 EUR 아버지와 EAS 어머니를 포함하여 혼혈아가 생긴다. 이들 EUR-EAS 혼열 개체와 밀접하게 일치하는 기준 집단이 없었기 때문에, 그들은 조상 미상으로 제외하였다.
표 3(조상 상강별 트리오의 분석)
조상 추정 트리오의 수(#)
EUR 1235
SAS 1
AFR-EUR 14
AMR-EUR 5
EAS-EUR-미상 3
EUR-미상 2
AFR-EUR-미상 1
AFR-미상 1
도 12c는 25명의 시퀀싱된 개체를 포함하는, DiscovEHR 데이터 세트에서 식별된 가장 큰 1도 가계도를 도시한다. 이러한 관계 및 가계도는 다음을 포함하여 여러 방식으로 사용되었다.
복합 이형 접합 돌연변이
인간 유전학의 주요 목표는 인간 게놈에서 모든 유전자의 기능을 더 잘 이해하는데 있다. 동형 접합 기능 상실 돌연변이(LoF)는 이러한 "인간 녹아웃(human knockout)"(KO)의 표현형 효과를 분석함으로써 유전자 기능에 대한 통찰력을 얻기 위한 강력한 도구이다. 희귀한(MAF < 1%) 동형 접합 LoF는 최근의 대규모 시퀀싱 연구에서 강조되어 왔으며 많은 유전자-표현형 상호 작용을 식별하는데 중요하다[참조 문헌: Lek et al. (2016), Nature Publishing Group 536, 285-291; Dewey et al. (2016) ,Science 354, aaf6814-aaf6814; Saleheen et al. (2017), Nature Publishing Group 544, 235-239; and Narasimhan et al. (2016), Science 352, 474-477]. 2개의 이형 접합 LoF의 희귀 복합 이형 접합 돌연변이(CHM)는 기능적으로는 희귀 동형 접합 KO와 동등하지만, 그들은 이러한 대규모 시퀀싱 연구에서는 거의 조사되지 않는다[참조 문헌: Lek et al. (2016), Nature Publishing Group 536, 285-291; Dewey et al. (2016), Science 354, aaf6814-aaf6814; and Saleheen et al. (2017), Nature Publishing Group 544, 235-239]. LoF의 희귀 CHM의 정확한 식별은, (1) 희귀 CHM이 인간 유전자 KO의 수를 실질적으로 증가시켜 통계적 능력을 향상 시키고; (2) 희귀 CHMs KO는 동형 접합 캐리어가 결여될 수 있는 매우 희귀한 이형 접합 돌연변이를 포함할 수 있으며; (3) 희귀 CHM은 "인간 KO 프로젝트"를 위해 보다 완전한 KO 세트를 제공하기 때문에 유용하다[참조 문헌: Saleheen et al. (2017), Nature Publishing Group 544, 235-239; Perdigoto (2017), Nat. Rev. Genet. 18, 328-329].
DiscovEHR 데이터 세트에서 희귀 CHM에 대한 조사를 수행하였다. 첫 번째로, 추정 LoF(pLoF, 즉, 넌센스, 프레임시프트 또는 스플라이스 사이트 돌연변이) 또는 해로운 것으로 확실한 증거가 있는 미스센스 변이체인 희귀 이형 접합 변이체의 쌍으로 이루어진 39,459개의 고품질의 잠재적 CHM(pCHM)을 식별하였다(실시예 10 참조). 두 번째로, EAGLE을 사용하는 대립 유전자 빈도-기반 페이징 및 재구성된 가계도 및 관계 데이터를 사용하는 가계도-기반 페이징의 조합을 사용하여 pCHM을 페이징하였다(도 9). EAGLE은 트리오 검증에 기초하여 91.4%의 정확도로 pCHM을 페이징하였다(아래 표 4 참조). 그러나, 이러한 코호트 내에 광범위한 가계도 및 관계 데이터가 있었기 때문에, pCHM의 거의 3분의 1이 이들 데이터에 기초하여 ~ 100% 정확도(아래 표 4 참조)로 페이징되어 부정확한 페이징이 약 31% 정도 감소될 수 있다. 페이징된 pCHM은 단생아(singleton)에서 1% MAF까지 전체 범위에 걸쳐 있었다(아래 표 5 참조).
표 4(상이한 페이징 접근법을 사용한 잠재적 복합 이형 접합 돌연변이(pCHM)의 페이징 정확도)
페이징 접근법 보정 예상 정확도
부모/자식 597 597 100.00%
완전한 형제자매 33 33 100.00%
먼 친척 120 120 100.00%
EAGLE 459 502 91.43%
트리오의 자식에서 발생된 MAF < 1% 및 MAC > 1을 갖는 모든 pCHM은 재구성 된 트리오를 사용하여 페이징하였고 "참(truth)"인 것으로 가정하였다. 하나 이상의 기여 변이체가 자식에서 데 노보되는 것으로 결정된 임의의 pCHM은 배제하였다. 이어서, 다른 페이징 방법은 트리오-페이징 pCHM을 사용하여 평가하였다. EAGLE 정확도는 각각의 재구성된 핵가족에서 하나의 자식의 모든 1도 친척을 제거한 다음 나머지 데이터 세트의 모든 변이체를 페이징함으로써 평가하였다. EAGLE 페이징 pCHM을 트리오 페이징 pCHM과 비교하였다.
표 5 (미량 대립 유전자 빈도(MAF) 및 미량 대립 유전자 카운트(MAC)별 61K DiscovEHR 참가자 중에서 발견된 pCHM의 분석)
MAF MAC # 트랜스 # 시스 미상
(0% - 0.001%) 1 241 135 6
(0.001%-0.005%] 2 - 6 3138 3559 28
(0.005% - 0.01%] 7 - 12 1830 2281 14
(0.01% - 0.05%] 13 - 61 3675 5679 42
(0.05% - 0.1%] 62 - 122 1205 2876 10
(0.1% - 0.5%] 123 - 610 2742 5911 31
(0.5% - 1%) 611 - 1,220 504 99 3
pCHM의 정확도는 극히 희귀한 변이체에서 감소하는 경향이 있었기 때문에, 두개의 pCHM 변이체 중 더 희귀한 MAF를 사용하여 pCHM을 개개의 빈도 빈(frequency bins)으로 비닝(bin)하였다. MAC가 1 인 pCHM은 관계 데이터를 사용하여 페이징하였으며, pCHM 캐리어에서 데 노보 돌연변이되지 않는 것으로 가정하였다. pCHM에 대한 미지의 상은 pCHM 변이체 중의 하나 또는 둘 다가 EAGLE(MAC = 1 또는 소실율 > 10%)에 의해 필터링되고 페이징에 대한 관계 데이터가 없기 때문이었다.
처리 후, pCHM의 39%가 트랜스로 페이징되어 61K 개체 중 11,375개에 분포 된 13,335개의 희귀하고 유해한 CHM의 고 신뢰도 세트를 생성하였다(평균 = 0.22; 최대 = 6; 도 21, 패널 A). 시스(5,308 bps)에서 pCHM 변이체 사이의 중간 게놈 거리는 트랜스(11,201 bps; 도 22)에서 변이체 사이의 중간 거리의 절반보다 약간 작았다. CHM의 거의 3 분의 1은 적어도 하나의 pLoF를 포함하였으며, 9.8%의 CHM은 2개의 pLoF 변이체로 구성되었다(아래 표 6 참조). 19,467개의 표적화된 유전자 중 3,385개 이상은 하나 이상의 CHM 캐리어를 포함하였으며(아래 표 7 참조), 그중 1,555개(46%)는 하나 초과의 캐리어를 가졌다. 85개 초과의 CHM 캐리어를 가진 11개의 유전자는 ExAC pLI 점수에 기초하여 게놈에서 LoF에 가장 내성이 있는 것으로 추정되었다[참조 문헌: Lek et al. (2016), Nature Publishing Group 536, 285-291](아래 표 8 참조).
표 6(61K DiscovEHR 참가자 중 희귀 CHM에 기여하는 기능적 부류 및 변이체 유형의 분석)
CHMs 부류 # CHMs % CHMs indel-indel indel-SNP SNP-SNP
pLoF-pLoF 1302 9.8% 445 501 356
pLoF-미스센스 2945 22.1% 0 1212 1733
미스센스-미스센스 9088 68.2% 0 0 9088
상기 표는 희귀한(<1% MAF) pLoF 및 미스센스 변이체로 구성된 CHM의 분석을 제공한다. 또한, 이러한 CHM 중 얼마나 많은 수가 indel-indel, indel-SNP 및 SNP-SNP 쌍으로 구성되어 있는지를 보여준다.
표 7(61K DiscovEHR 참가자에서 희귀한(<1% MAF) 예측된 기능 상실 돌연변이 및 예측된 유해한 돌연변이에 의해 영향을 받는 전사체 둘 다를 갖는 유전자의 수)
예측된 기능 상실 변이체 단독  
캐리어의 수(#) 동형 접합체 CHMs 동형 접합체 + CHMs KO 유전자의 % 증가율 w/ CHMs
> 1 1409 480 1627 15%
> 2 693 163 806 16%
> 5 242 49 302 25%
> 10 63 14 97 54%
> 20 8 6 18 125%
예측된 기능 상실 변이체 + 해로운 미스센스 변이체
캐리어의 수(#) 동형 접합체 CHMs 동형 접합체 + CHMs KO 유전자의 % 증가율 w/ CHMs
> 1 4298 3385 5519 28%
> 2 2341 1768 3370 44%
> 5 814 659 1554 91%
> 10 181 254 627 246%
> 20 19 92 180 847%
표 8(가장 많은 수의 CHM을 가진 유전자는 ExAC pLI 점수에 의해 기능 상실 내성이 있을 것으로 예상된다)
# CHMs 유전자 pLI 점수 pLI 점수 내성 백분위수
190 OBSCN 5.36E-91 100.00%
168 DNAH7 1.04E-47 99.96%
165 ADGRV/GPR98 8.11E-24 99.18%
161 NEB 4.08E-17 97.79%
123 DNAH3 9.63E-51 99.96%
117 DNAH8 2.09E-37 99.85%
116 SYNE1 3.75E-27 99.45%
111 SSPO na* na*
103 MTMR2 2.13E-01 38.32%
96 FAT1 1.77906E-10 92.51%
92 DNAH1 4.42227E-20 98.68%
가장 많은 CHM을 가진 11개의 유전자에 대해 ExAC에 의해 보고되는 pLI 점수가 표시된다. 또한, 모든 유전자에 pLi 점수로 순위를 매기고 pLi 점수를 보고한 유전자의 총 수로 나누어 계산된 LoF 내성에 대한 각 유전자의 백분위수가 표시된다.
* SSPO에 대한 pLI 점수는 ExAC에 의해 보고되지 않는다.
보다 강력한 인간 녹아웃 유전자의 세트를 수득하고 CHM의 부가가치를 입증하기 위해, CHM을 61K DiscovEHR 참가자 중에서 발견된 3,915개의 동형 접합 pLoF와 조합하였다. pLoF-pLoF CHM은 추정 KO를 가진 ≥1 및 ≥10 개체의 유전자의 수를 각각 15% 및 54% 증가시켰다(상기 표 6 참조). KO 분석에서 포함된 CHM의 이점은 단백질 기능을 파괴할 것으로 예측되는 미스센스 변이체를 고려할 경우에 훨씬 더 중요했다: CHM은 ≥1개의 캐리어로 28% 더 많은 유전자를, ≥10개의 캐리어로 246% 더 많은 유전자를 제공하였으며, 여기서 유전자의 두 사본은 완전히 녹아웃되거나 파괴될 것으로 예측되었다.
Trio 검증 결과는 가족 관계 기반 페이징이 100%(750/750 pCHM) 정확하였고, EAGLE 페이징은 91.4%(459/502 pCHM; 상기 표 3 참조)로 덜 정확했음을 나타내었다. 또한, 190개의 pCHM(115개 시스 및 79개 트랜스; 126개 EAGLE 페이징 및 74개 가계도/관계 페이징)에 대해서도 Illumina 판독 데이터의 시각적 검증을 수행하였다. 시각적 검증은 가계도/관계 및 EAGLE 페이징에 대해 각각 95.8% 및 89.9%의 전체적인 정확도를 나타내었다(아래 표 9 참조). Illumina 판독-기반 검증 결과는 트리오 검증 결과와 비슷하였지만, Illumina 판독-기반 검증 정확도 결과가 트리오로 페이징함으로써 결정된 페이징 정확도보다 낮았다는 것을 주목해야 한다. 이러한 차이는 시퀀싱 및 변이체 호출 에러가 발생하기 쉬운 엑손의 작은 문제가 있는 영역에서 위양성(false positive) pCHM의 풍부화에 기인했던 것으로 생각된다.
표 9(두 변이체 모두 Illumina 75 염기쌍 판독으로 페이징될 수 있는 190개의 pCHM에 대한 페이징 검증 결과)
전체 # 시스 # 트랜스 시스 보정 트랜스 보정 시스 정확도 트랜스 정확도 전체 정확도
EAGLE 119 71 48 65 42 92% 88% 89.9%
가계도/관계 71 40 31 40 28 100% 90% 95.8%
두 변이체가 서로 75개의 염기쌍 내에 있는 61K DiscovEHR 참가자 중 200개의 pCHM이 무작위로 선택된 다음, 두 변이체에 걸쳐 있는 판독 스택(read stack)을 관찰함으로써 상을 시각적으로 검증하였다. 두 변이체에 중첩된 판독이 전혀 없었거나 판독이 상충되는 결과를 제공했기 때문에 판독 스택을 사용하여 10개(5%)를 신뢰성있게 페이징할 수 없었다(즉, 일부 판독은 cis를 나타내었고 다른 판독은 trans를 나타내었다).
데 노보 돌연변이
데 노보 돌연변이(DNM)는 정제 선택의 감소로 인해 인간에서 극단적인 표현형을 생성할 가능성이 많은 희귀 변이의 부류이다. 최근의 시퀀싱 연구에 따르면 DNM은 인간 유전 질환의 주요 동인인 것으로 나타났으며[참조 문헌: de Ligt et al. (2012), N. Engl. J. Med. 367, 1921-1929; Deciphering Developmental Disorders Study (2017). Prevalence and architecture of de novo mutations in developmental disorders. Nature Publishing Group 542, 433-438; and Fromer et al. (2014), Publishing Group 506, 179-184], DNM이 유전자 기능을 더 잘 이해하는데 유용한 도구인 것으로 입증되었다.
DiscovEHR 데이터 세트에서 재구성된 핵가족은 1,262명의 트리오의 자식 중 887명에게 분포된 1,800개의 중간 및 고 신뢰도 엑손 DNM을 신뢰성있게 호출하는데 사용되었다(실시예 12 참조). 개체당 평균 DNM 수는 1.43이었고 최대 49명이었다(도 21c). PolyPhen2는 DNM의 28.2%(N = 507)를 "손상 가능"으로 예상하였고 추가 8.6%(N = 154)를 "손상"이라고 예상하였다. DNM을 1,597개의 유전자에 걸쳐 분포시켰으며(도 21d), 단 하나의 유전자만이 5개 이상을 수용하였다. 가장 일반적인 유형의 DNM은 비동의적 SNV(57.17%)와 동의적 SNV(25.56%)였다. 아래 표 10은 DNM 유형의 완전한 분석을 제공하며, 다양한 기능 등급에 속하는 DNM의 비율은 발달 장애를 가진 자식의 최근 DNM 연구에서 발견된 것과 거의 일치함을 나타낸다.
표 10(DiscusEHR 코호트에서 발견된 중간 및 고 신뢰도 엑손 DNM 유형의 분석을 최근의 4,293명의 트리오의 발달 지연 엑솜 연구와 비교하였다)
DNM의 유형 DNM의 수(#) DNM% # DDD 연구 * % DDD 연구 *
비동의적 SNV 1,029 57.2% 4,797 57.8%
동의적 SNV 460 25.6% 1,629 19.6%
스플라이싱 74 4.1% 671 8.1%
비 프레임시프트 삭제 42 2.3% 167 2.0%
비 프레임시프트 삽입 30 1.7% 28 0.3%
프레임시프트 102 5.7% 603 7.3%
스톱-게인 SNV 61 3.4% 402 4.8%
스톱-게인SNV 2 0.1% 7 0.1%
* 발달 장애 연구(Developmental Disorders Study)(DDD) 해독[참조 문헌: Deciphering Developmental Disorders Study (2017); Prevalence and architecture of de novo mutations in developmental disorders. Nature Publishing Group 542, 433-438]. DDD 보고서는 또한 우리의 분석이나 이 표에 포함되지 않은 다른 부류의 57개의 DNM을 보고하였으며; 그에 따라 백분율이 조정되었다.
모든 기능 등급에 걸쳐 23개의 고 신뢰도, 30개의 중간 신뢰도 및 47개의 저 신뢰도 DNM에 대한 시각적 검증이 시도되었다. 8개의 중간 신뢰도 및 2개의 저 신뢰도 변이체는 참 또는 가양성 DNM이라 자신할 수 없었다. 나머지 것들 중에서, 23/23개(100%)의 고 신뢰도, 19/22개(86%)의 중간 신뢰도 및 12/43개(28%)의 저 신뢰도 DNM은 참으로 검증될 수 있다. 또한, 시각적 검증은 > 10개의 DNM을 가진 개체에서 잠재적 DNM의 대다수 (40/49)가 가양성 호출일 수 있음을 확인하였다.
가계도에서 변이체 및 표현형 분리
DiscovEHR 데이터 세트 중에서 재구성된 가계도 데이터는 신규/희귀 집단 변이와 가족 변이체 사이를 구별하기 위해 사용되었으며, 집단-전체 연관성 분석에서 과소 평가된 가족에서 분리되는 고 침투성 질환 변이체를 식별하기 위해 활용되었다. 이것은 이러한 가계도를 통해 전염되는 모든 알려진 멘델리아 질병 유발 변이에 대한 조사를 목적으로 하지는 않았지만, 가족성 대동맥류(도 23, 패널 A), QT 연장 증후군(도 23, 패널 B), 갑상선암(도 23, 패널 C) 및 가족성 고 콜레스테롤 혈증(FH; 도 24)[참조: Maxwell, E.K., et al. (2017), Profiling copy number variation and disease associations from 50,726 DiscovEHR Study exomes]을 포함한 몇 가지 대표적인 예가 식별되었다. FH의 예는 LDLR에서 새로운 가족성 고 콜레스테롤 혈증 유발 탠덤 복제의 27/29 캐리어가 재구성 되었기 때문에 특히 흥미로웠다. 이러한 가계도에는 또한 5개의 추가 캐리어(도시되지 않음)도 포함되었다. 관상 동맥 질환 및 조기 발병 허혈성 심장 질환(남성의 경우 "연령 IHD" < 55 및 여성의 경우 < 65))의 증가된 LDL 및 총 콜레스테롤뿐만 아니라 증가된 유병률은 복제 캐리어와 차별된다. 그들의 공유된 조상의 역사는 그들이 모두 약 6 세대 전에 공통 조상으로부터 이러한 복제 이벤트를 물려 받았다는 증거를 제공한다. 나머지 2개의 샘플은 서로에 대해 1도 친척이었지만, 성공적으로 유전자형 분석되지 않았으며, 그 결과 더 큰 가계도와 연결될 수 없었다.
시퀀싱 연구는 지속적으로 증가하는 비율의 인간 집단을 계속 수집하고 시퀀싱하며, 인간 관련성의 매우 복잡하고 뒤얽힌 특성을 밝혀 내고 있다. DiscovEHR 데이터 세트에서, ~ 35K의 1도 및 2도 관계가 식별되었고, 7,684개의 가계도가 재구성되었으며, 7,000명 초과의 참가자로 구성된 2도 가족 네트워크를 밝혀내었다. 초기 창립 집단에 대한 연구는 이미 관계의 복잡성을 강조하였으며[참조 문헌: Old Order Amish (McKusick, V.A., HOSTETLER, J.A., and EGELAND, J.A. (1964). GENETIC STUDIES OF THE AMISH, BACKGROUND AND POTENTIALITIES. Bull Johns Hopkins Hosp 115, 203-222), Hutterites (Ober et al. (2001), The American Journal of Human Genetics 69, 1068-1079), and Ashkenazi Jews (Gusev et al. (2012), Mol. Biol. Evol. 29, 473-486], 비창립 집단에 대한 최근의 연구는 광범위한 수준의 관련성을 보고하고 있다[참조 문헌: UK Biobank (Bycroft et al. (2017). Genome-wide genetic data on ~500,000 UK Biobank participant), NHAMES (Malinowski et al. (2015), Front Genet 6, 317), and AncestryDNA (Han et al. (2017), Nat Commun 8, 14238]. 한때 대규모 시퀀싱 코호트에 단지 소수의 개체만이 관여했던 것과 밀접한 관계는 대규모의 건강 관리 집단 기반 게놈(HPG) 연구에서 대다수가 아니더라도 개체의 대규모 집단과 관련될 가능성이 높다. 여기에서는 시뮬레이션과 실제 데이터를 통해 수많은 밀접한 가족 관계, 핵가족 및 유익한 가계도를 얻을 수 있음을 입증한다. 이러한 관찰은, 가족이 동일한 건강 관리 시스템을 방문하는 경향이 있고 유사한 유전적 및 환경적 질병 위험을 가지고 있기 때문에 HPG 연구를 위해 수집된 데이터 세트에서 더욱 두드러질 수 있었을 것이다. 이것이 전체 코호트의 단지 일부에 불과하다는 사실을 알게 되면 더 이상 연관성 연구에서 개체들의 밀접하게 관련된 쌍들을 간단히 제거할 수 없다는 것이 분명해지고 있다. 최대 크기의 관련이 없는 세트를 얻는 기존의 접근 방식은 HPG 코호트 크기를 획기적으로 줄일 것이므로, 이러한 유형의 코호트에 대해 수행되는 많은 주요 질병 표현형 분석에 적합하지 않을 수 있다. 대신에, 본원에서 요약되는 바와 같이 관련성 정보를 활용하기 위한 새로운 방법이 필요하다.
본 연구에서, 관련성 정보를 활용하는 방법에 대한 몇 가지 방식이 입증되었다. 첫째, 희귀 복합 이형 접합 돌연변이(CHM)의 페이징 정확도가 개선되었다. CHM의 정확한 페이징은 EAGLE을 사용하여 수득하였지만, 가계도 및 관계 기반 페이징이 훨씬 더 정확하여 pCHM 페이징 오류가 약 31% 감소하였다. 쌍형 관계를 이용한 페이징은, 두개의 변이체가 두개의 친척에 함께 나타나는 경우 그들이 시스 위치에 있고 공통 조상으로부터 서로 분리되어 있다고 가정하기 때문에 pCHM의 관계 기반 페이징의 정확도는 > 1% MAF를 가진 변이체가 포함됨에 따라 약간 감소할 수 있다. 두개의 독립적으로 분리된 공통 변이체가 여러 사람에게 함께 나타날 가능성이 훨씬 높아서 알고리즘에 의해 cis로서 부정확하게 페이징될 것이다. 일반적인 변이체의 경우, 집단 대립 유전자 빈도를 사용하여 페이징하는 단계가 관계 기반 페이징 단계보다 더 적합할 수 있다.
둘째, HPG 연구를 이용하여 식별된 관계의 가계도 재구성은 다양한 방식으로 사용될 수 있는 귀중한 트리오 및 유익한 가계도를 제공하였다. 1,262개의 재구성된 트리오를 사용하여 1,800개의 DNM을 확인하였으며, 확대된 가계도를 통해 공지된 질병 유발 돌연변이를 추적할 수 있었다. 유익한 가계도의 수와 크기는 집단의 더 많은 부분이 시퀀싱됨에 따라 계속 증가하여 훨씬 더 풍부한 가계도 데이터 세트를 제공할 것이다. 가계도 및 관계는 매우 희귀한 변이체에 특히 유용한데, 그 이유는 가계도를 통한 희귀 변이체의 전염이 그것이 실제라는 사실에 대한 강력한 증거를 제공하고보다 전통적인 멘델의 유전적 접근을 허용할 수 있기 때문이다. 가계도는 환자와 다시 접촉하고 추가의 가족 구성원을 모집하여 후속 연구에서 소규모의 가계도를 중간 크기의 가계도로 확대하는 DiscovEHR의 능력과 결합될 때 특히 유용한 것으로 나타났다.
관련성을 다루어야 할 귀찮은 것으로 보는 대신에, 그것은 가치있고 알려지지 않은 유전적 통찰력을 활용할 수 있는 기회로 여겨져야 한다. 게놈 기반 정밀 의학의 시대가 시작되면서, 끊임없이 성장하는 시퀀싱 코호트 내에 포함된 가족 구조 및 먼 관련성을 효과적으로 채굴할 수 있는 혁신적인 방법 및 도구가 절실히 필요하다.
실시예 3.2
관련성을 확대 DicoverEHR 데이터 세트의 방해 변수로 취급하는 대신 관련성을 활용
가계도 재구성 도구 PRIMUS를 사용하여 확대 DiscovEHR 데이터 세트에서 12,574명의 1도 가족 네트워크에 대한 가계도 구조를 재구성하였다. 이러한 가계도의 98.9%가 LBD 추정치 및 보고된 참가자 연령을 고려하였을 때 단일 가계도 구조로 독특하게 재구성된 것으로 밝혀졌다. 이러한 가계도는 2,192명의 핵가족(1,841명의 트리오, 297명의 쿼텟, 50명의 퀸텟, 3명의 섹스텟, 및 1명의 셉텟)을 포함한다. 표 11은 조상별 트리오의 분석 결과를 나타낸다. 도 14의 패널 C는 34개의 시퀀싱된 개체를 포함하는 가장 큰 1도 가계도를 도시한다.
표 11(조상 상강별 트리오의 분석)
조상 추정 트리오의 수(#)
EUR 2547
AMR 4
SAS 2
AFR 1
AMR-EUR 18
AFR-EUR 14
EAS-EUR-미상 6
EUR-미상 5
AFR-미상 2
AFR-EUR-미상 1
AMR-미상 1
EAS-미상 1
복합 이형 접합 돌연변이
추정 LoF(pLoF, 즉, 넌센스, 프레임시프트 또는 스플라이스 사이트 돌연변이) 또는 해로운 것으로 확실한 증거가 있는 미스센스 변이체인 희귀 이형 접합 변이체의 쌍으로 이루어진 57,355개의 고품질의 pCHM을 인지하였다. 두 번째로, EAGLE을 사용하는 대립 유전자 빈도-기반 페이징 및 재구성된 가계도 및 관계 데이터를 사용하는 가계도-기반 페이징의 조합을 사용하여 pCHM을 페이징을 수행하였다(도 25). 트리오 검증은 EAGLE이 평균 89.1% 정확도로 pCHM을 페이징하였음을 나타내었다(아래 표 12 참조). 그러나, 이러한 코호트 내의 광범위한 가계도 및 관계 데이터 때문에, pCHM의 25.2%가 페이징되었으며, 트랜스 CHM의 33.8%가 매우 정확한 트리오 및 관계 페이징 데이터(R 98.0%; 표 12)를 가지고 있어 트랜스 CHM의 부정확한 페이징이 대략 3분의 1 만큼 감소되었다. 페이징된 pCHM은 단생아에서 1% MAF까지 전체 범위에 걸쳐 있었다(아래 표 13 참조).
표 12(상이한 페이징 접근법을 사용한 잠재적 복합 이형 접합 돌연변이(pCHM)의 페이징 정확도)
페이징 접근법 보정 예상 정확도
부모/자식 844 844 100.0%
완전한 형제자매 48 49 98.0%
먼 친척 168 171 98.2%
관계 조합 1060 1064 99.6%
EAGLE 766 860 89.1%
트리오의 자식에서 발생된 MAF < 1% 및 MAC > 1을 갖는 모든 pCHM은 재구성 된 트리오를 사용하여 페이징하였고 "참"인 것으로 가정하였다. 하나 이상의 기여 변이체가 자식에서 데 노보되는 것으로 결정된 임의의 pCHM은 배제하였다. 이어서, 다른 페이징 방법은 트리오-페이징 pCHM을 사용하여 평가하였다. EAGLE 정확도는 각각의 재구성된 핵가족에서 하나의 자식의 모든 1도 친척을 제거한 다음 나머지 데이터 세트의 모든 변이체를 페이징함으로써 평가하였다. EAGLE 페이징 pCHM을 트리오 페이징 pCHM과 비교하였다.
표 13(미량 대립 유전자 빈도(MAF) 및 미량 대립 유전자 카운트(MAC)별 92K 확대 DiscovEHR 참가자 중에서 발견된 pCHM의 분석)
MAF MAC # 트랜스 # 시스 미상
(0% - 0.001%) 1 251 143 8
(0.001%-0.005%] 2-9 5663 6444 46
(0.005% - 0.01%] 10-18 2669 3388 31
(0.01% - 0.05%] 19-92 5455 8149 59
(0.05% - 0.1%] 93-184 1854 3894 12
(0.1% - 0.5%] 185-924 4302 8610 63
(0.5% - 1%) 925-1,849 753 133 4
처리 후, pCHM의 40.3%가 트랜스로 페이징되어 92K 개체 중 17,533개에 분포 된 20,947개의 희귀하고 유해한 CHM의 고 신뢰도 세트를 생성하였다(사람당 평균 ~ 0.23; 사람당 최대 ~ 10; 도 26, 패널 A). 시스(5,955 bp)에서 pCHM 변이체 사이의 중간 게놈 거리는 트랜스(11,600 bp; 도 27)에서 pCHM 사이의 중간 거리의 절반을 약간 초과하였다. CHM의 거의 3 분의 1은 적어도 하나의 pLoF를 포함하였으며, 8.9%의 CHM은 2개의 pLoF 변이체로 구성되었다(아래 표 14 참조). 19,467개의 표적화된 유전자 중 4,216개 이상은 하나 이상의 CHM 캐리어를 포함하였으며(아래 표 15 참조), 그중 2,468개는 하나 초과의 캐리어를 가졌다(도 26, 패널 B). ExAC pLI 점수는 125개 초과의 CHM 캐리어를 가진 10개의 유전자가 게놈에서 LoF에 가장 내성이 있다는 것을 나타낸다(아래 표 16 참조).
표 14(92K 확대 DiscovEHR 참가자 중 희귀 CHM에 기여하는 기능적 부류 및 변이체 유형의 분석)
CHMs 부류 # CHMs % CHMs indel-indel indel-SNP SNP-SNP
pLoF-pLoF 1,864 8.9% 505 796 563
pLoF-미스센스 4,688 22.4% 0 1,860 2,828
미스센스-미스센스 14,395 68.7% 0 0 14,395
상기 표는 희귀한(<1% MAF) pLoF 및 미스센스 변이체로 구성된 CHM의 분석을 제공한다. 또한, 이러한 CHM 중 얼마나 많은 수가 indel-indel, indel-SNP 및 SNP-SNP 쌍으로 구성되어 있는지를 보여준다.
표 15(92K 확대 DiscovEHR 참가자에서 희귀한(<1% MAF) 예측된 기능 상실 돌연변이 및 예측된 유해한 돌연변이에 의해 영향을 받는 전사체 둘 다를 갖는 유전자의 수)
예측된 기능 상실 변이체 단독  
캐리어의 수(#) 동형 접합체 CHMs 동형 접합체 + CHMs KO 유전자의 % 증가율 w/ CHMs
> 1 1870 678 2151 15%
> 2 995 257 1136 14%
> 5 426 76 514 21%
> 10 155 22 201 30%
> 20 33 8 53 61%
> 25 9 5 26 189%
예측된 기능 상실 변이체 + 해로운 미스센스 변이체
캐리어의 수(#) 동형 접합체 CHMs 동형 접합체 + CHMs KO 유전자의 % 증가율 w/ CHMs
> 1 5306 4216 6667 26%
> 2 3169 2468 4351 37%
> 5 1415 1003 2243 59%
> 10 503 503 1140 127%
> 20 79 79 393 397%
> 25 32 32 249 678%
표 16(가장 많은 수의 CHM을 가진 유전자는 ExAC pLI 점수에 의해 기능 상실 내성이 있을 것으로 예상된다)
# CHMs 유전자 pLI 점수 pLI 점수 내성 백분위수
326 OBCSN 5.36E-91 100.00%
325 DNAH7 1.04E-47 99.96%
267 ADGRV1/GRP98 8.11E-24 99.18%
234 DNAH3 9.63E-51 99.96%
222 NEB 4.08E-17 97.79%
204 DNAH8 2.09E-37 99.85%
193 SSPO na* na*
185 SYNE1 3.75E-27 99.45%
155 SNAH1 4.42E-20 98.68%
140 FAT1 1.78E-10 92.51%
가장 많은 CHM을 가진 10개의 유전자에 대해 ExAC3에 의해 보고되는 pLi 점수가 표시된다. 또한, 모든 유전자에 pLi 점수로 순위를 매기고 pLi 점수를 보고한 유전자의 총 수로 나누어 계산된 LoF 내성에 대한 각 유전자의 백분위수가 표시된다.
* SSPO에 대한 pLi 점수는 ExAC에 의해 보고되지 않는다.
유전자의 두 사본이 동일한 개체에서 녹아웃되거나 파괴되는 보다 강력한 유전자 세트를 얻고 CHM의 부가가치를 입증하기 위해, CHM을 92K DiscovEHR 참가자 중에서 발견된 6,560개의 희귀한(MAF < 1%) 동형 접합 pLoF와 조합하였다. pLoF-pLoF CHM은 R1 및 R20 개체에서 녹아웃된 유전자의 수를 각각 15% 및 61% 증가시켰다 (하기 표 16 참조). KO 분석에서 CHM을 포함시키는 이점은 단백질 기능을 파괴할 것으로 예측되는 미스센스 변이체를 고려할 경우에 훨씬 더 유의미하다. 조합된 20,364개의 희귀 동형 접합 pLOF 및 유해한 미스센스 변이체가 92K 참가자 중에서 발견되었다. 동형 접합 pLoF 또는 예측되는 해로운 미스센스 변이체의 캐리어는 완전히 녹아웃되거나 파괴될 것으로 예측되는 다수의 유전자를 제공하였다. 그러나, CHM의 캐리어가 포함되면 R1 개체에서 녹아웃 또는 파괴되는 유전자를 26% 더 많이 제공하고, R20 개체에서 녹아웃 또는 파괴되는 유전자를 397% 더 많이 제공되었다(표 15).
데 노보 돌연변이
92K 확대 DiscovEHR 참가자들로부터 재구성된 핵가족은 트리오의 2,602명의 자식들 중 1,783명에게 배포된 3,415개의 중간 및 고 신뢰도 엑손 DNM(평균 ~ 1.31; 최대 ~ 48; 도 26, 패널 C)을 신뢰성있게 호출할 수 있었다. PolyPhen2는 DNM의 29.1%(n ~ 995)를 "손상 가능"으로 예상하고 추가 9.2%(n ~ 316)를 "손상"이라고 예상한다. DNM은 2,802개의 유전자에 분포되어 있으며(도 26, 패널 D), TTN이 가장 많이(9개) 수용한다. 가장 일반적인 유형의 DNM은 비동의적 SNV(58.5%)와 동의적 SNV(24.3%)이다. 표 17은 DNM 유형의 완전한 분석을 제공하며, 상이한 기능 등급에 속하는 DNM의 비율은 일반적으로는 발달 장애를 가진 자식의 최근의 DNM 연구에서 발견된 것과 일치함을 나타낸다. 도 7에 설명되어 있는 바와 같이, DNM 호출, 필터링 및 신뢰도 순위 흐름도를 따랐다. 시퀀싱된 92,455개의 GHS 엑솜을 갖는 코호트로부터, 2,602개의 트리오가 식별되었다(도 28). 6,645개의 엑손 DNM이 트리오에서 식별되었으며, 이는 저 신뢰도, 중간 신뢰도, 및 고 신뢰도 DNM을 기준으로 분류되었다. 확대 DiscovEHR 데이터 세트로부터 재구성된 가족을 이용하여 2,602명의 가족 트리오로부터 3,409개의 중간 및 고 신뢰도 엑손 DNM 및 3,045개의 단일 뉴클레오티드 DNM을 신뢰성있게 호출하였다(도 29, 패널 A 및 B). 코호트에 있는 대부분의 개체는 5개 미만의 DNM을 가졌다. 또한, 시퀀싱된 92,455개의 GHS 엑솜을 갖는 코호트로부터, 2,602개의 트리오가 식별되었으며, 이는 저, 중간 및 고 신뢰도 변이체에 기초하여 분류되어 10,000개의 랜덤 변이체를 생성하는 73,192개의 중간/고 신뢰도 변이체를 제공하였다.
가장 일반적인 유형의 DNM은 비동의적 SNV에 이어서 동의적 SNV였다. 스톱-로스(Stop-loss) SNV는 가장 일반적이지 않은 DNM이었다. 이러한 결과는 61K 엑솜 시퀀싱 데이터를 포함하는 DiscovEHR 코호트에 대해 수득된 결과와 유사하였다(아래 표 17 참조). 도 30은 확대 DiscovEHR 코호트에서 발견된 중간 및 고 신뢰도 엑손 DNM(n = 3409)의 유형의 완전한 분석을 제공하며, 상이한 기능 효과 등급에 속하는 DNM의 비율을 도시한다.
표 17(4,293개의 트리오의 최근의 발달 지연 엑솜 연구와 비교되는 확대 DiscovEHR 코호트에서 발견된 중간 및 고 신뢰도 엑손 DNM의 유형의 분석)
DNM의 유 DNM의 수(#) % DNM DDD 연구에서의 수(#)* DDD 연구에서의 % *
비동의적 SNV 1,996 58.3% 4,797 57.8%
동의적 SNV 831 24.3% 1,629 19.6%
스플라이싱 153 4.5% 671 8.1%
비-프레임 시프트 삭제 78 2.3% 167 2.0%
비-프레임 시프트 삽입 55 1.6% 28 0.3%
프레임 시프트 187 5.5% 603 7.3%
스톱-게인 SNV 112 3.3% 402 4.8%
스톱-로스 SNV 3 0.1% 7 0.1%
* 발달 장애 연구(Developmental Disorders Study)(DDD) 해독[참조 문헌: Deciphering Developmental Disorders Study (2017); Prevalence and architecture of de novo mutations in developmental disorders. Nature Publishing Group 542, 433-438]. DDD 보고서는 또한 우리의 분석이나 이 표에 포함되지 않은 다른 부류의 57개의 DNM을 보고하였으며; 그에 따라 백분율이 조정되었다.
도 31은 확대 DiscovEHR 코호트에서 발견되는 중간 및 고 신뢰도 엑손 DNM(n = 3409)의 유형의 분석을 제공하며, 전이, 전환 및 indel에 의해 야기된 DNM의 비율을 도시한다. 확대 DiscovEHR에서 발견되는 중간 및 고 신뢰도 엑손 DNM(n = 3409) 중에서, 전이로 인한 돌연변이의 수는 2038개였고, 전환으로 인한 돌연변이의 수는 1007개였으며, indel로 인한 돌연변이의 수는 364개였다. 따라서, 전환 대 전이 비(Ti:Tv)는 2:1 이었으며, 이는 다른 연구에서 수득된 전이 대 전환 비와 유사하다. 단일 뉴클레오티드 DNM(n = 3045) 중에서, 시스테인-티민 및 구아닌-아데닌이 가장 흔한 돌연변이였다(도 32).
중간 및 고 신뢰도 DNM은 오토좀 전체에 고르게 분포되었다. 단방향 카이 스퀘어 테스트(one-way chi-squared test)(χ2 테스트)는, 10M 엑손 염기쌍당 DNM이 무작위 분포(p = 0.045)에서 크게 벗어나지 않았음을 보여주었다(도 33).
CG 디뉴클레오티드(통상적으로 CpG로 언급되며, 여기서 "p"는 두개의 염기 사이의 인산염을 나타낸다)에서의 돌연변이는 인간에서 질병을 유발하는 생식선 돌연변이의 1/3을 담당한다[참조 문헌: Cooper and Krawczak (1990); Hum. Genet. 85: 55-74]. 중간/고 신뢰도 DNM(n = 3,409) 중에서, CpG 섬의 DNM으로 인해 약 13%의 DNM이 설명되었다. 무작위 변이체(n = 10,000) 중에서, CpG 섬의 DNM으로 인해 약 10%의 DNM이 설명되었다. DNM은 랜덤 변이체보다 CpG 섬에서 발생할 가능성이 더 높았다(χ2 = 32.3661, df 값 = 1; p 값 = 1.28E-08)(도 34). 이는 이러한 사이트의 높은 돌연변이성으로 인해 예상된다.
모든 기능 등급에 걸쳐 23개의 고 신뢰도, 30개의 중간 신뢰도 및 47개의 저 신뢰도 DNM에 대한 시각적 검증이 시도되었다. 8개의 중간 신뢰도 및 2개의 저 신뢰도 변이체는 참 또는 가양성 DNM이라 자신할 수 없었다. 나머지 것들 중에서, 23/23개(100%)의 고 신뢰도, 19/22개(86%)의 중간 신뢰도 및 12/43개(28%)의 저 신뢰도 DNM은 참으로 검증되었다. 또한, 시각적 검증은 > 10개의 DNM을 가진 개체에서 잠재적 DNM의 대다수 (40/49)가 가양성 호출일 수 있음을 확인하였다.
가계도에서 변이체 및 표현형 분리
92K 확대 DiscovEHR 참가자들로부터 재구성된 가계도 데이터는 희귀 집단 변이와 가족 변이체 사이를 구별하기 위해 사용되었으며, 가족에서 분리되는 고 침투성 질환 변이체를 식별하기 위해 활용되었다. 비록 이것이 DiscoverEHR 데이터 세트와 유사한 이러한 가계도를 통해 전염되는 모든 알려진 멘델리아 질병 유발 변이에 대한 조사를 목적으로 하지는 않았지만, 가족성 대동맥류, QT 연장 증후군, 갑상선암 및 가족성 고 콜레스테롤 혈증(FH [MLM: 143890]; 도 35)이 식별되었다. CNV 호출을 업데이트 할 때, 92K 엑솜 중에서 FH를 유발하는 탠덤 복제의 37개의 캐리어가 발견되었다. 이를 기반으로, 37개의 캐리어 중 30개가 단일 확장 가계도로 재구성되었다. 캐리어의 공유된 조상의 역사는 그들이 모두 약 6 세대 전에 공통 조상으로부터 이러한 복제 이벤트를 물려 받았다는 증거를 제공하였다. 비록 7개의 나머지 캐리어 중 2개는 서로에 대해 2도 친척이지만, 유전자형 배열 데이터는 나머지 7개의 캐리어도 또한 도 36의 다른 캐리어와 먼 관계에 있다는 것을 확인하는데 이용할 수 없었다. 도 36에서 설명된 가계도의 경우, 캐리어 및 비-캐리어 상태는 각 개체로부터의 엑솜 데이터로부터 결정되었으며, 증가된 최대 LDL 수준(기호 아래의 값)뿐만 아니라 관상 동맥 질환(CAD, 적색 충진) 및 순수한 고 콜레스테롤 혈증(ICD 272.0; 청색)의 유병률 증가가 복제 캐리어로 분리되는 것으로 밝혀졌다. 또한, 5개의 추가 캐리어(도시되지 않음)가 이러한 가계도(도 36)에서 개체의 먼 친척(7도 내지 9도 친척)이 되는 것으로 밝혀졌다.
실시예 4
환자 및 샘플
예측 모델을 코호트, 즉 (A) 61,720명의 탈 식별화된 환자의 엑솜을 갖는 DicovEHR 코호트 및 (B) 92,455명의 탈 식별화된 환자의 엑솜을 가진 확대 DicovEHR 코호트에 적용하여 두 세트의 데이터를 수집하였다.
가이신저 헬스 시스템(GHS)으로부터 입수된 두 코호트의 탈 식별화된 모든 환자-참가자들을 시퀀싱하였다. 모든 참가자는 마이코드® 커뮤니티 헬스 이니셔티브(MyCode® Community Health Initiative)(Carey et al. (2016), Genet. Med. 18, 906-913)에 참여하고, 리제네론-GHS DiscovEHR 연구(Regeneron-GHS DiscovEHR Study)(Dewey et al. (2016), Science 354, aaf6814-aaf6814)에서 게놈 분석을 위해 DNA 샘플을 기증하는 것에 동의하였다. 모든 환자는 그들의 엑솜이 상응하는 탈 식별화된 전자 건강 기록(EHR)과 관련되어 있었다. 최초 50,726명의 시퀀싱된 개체에 대한 보다 상세한 설명은 이전에 공개되었다[참조 문헌: Dewey et al. (2016), Science 354, aaf6814-aaf6814; Abul-Husn et al. (2016), Science 354, aaf7000-aaf7000].
본 연구는 가족이 연구에 참여하는 것을 구체적으로 목표하지 않았지만, 건강 관리 시스템과 자주 상호 작용하는 만성적인 건강 문제가 있는 성인과 관상 동맥 도관 검사실 및 배리애트릭 서비스(Bariatric Service)의 참가자는 풍부하였다.
실시예 5
샘플 준비, 시퀀싱, 변이체 호출 및 샘플 QC
샘플 준비 및 시퀀싱은 드웨이(Dewey) 등의 문헌[참조: Dewey et al. (2016), Science 354, aaf6814-aaf6814]에 이미 기술되어 있다.
시퀀싱이 완료되면, 각각의 일루미나 Hiseq 2500 실행의 원시 데이터가 로컬 버퍼 스토리지에 수집되고 자동 분석용의 DNAnexus 플랫폼[참조 문헌: Reid et al. (2014); 15, 30]에 업로드된다. 샘플-레벨 판독 파일은 CASAVA(일루미나 인코포레이티드(Illumina Inc.), 캘리포니아주 샌디에고 소재)로 생성되고, BWA-mem[참조 문헌: Li and Durbin (2009); Bioinformatics 25, 1754-1760; Li, H. (2013); arXiv q-bio.GN]를 사용하여 GRCh38에 정렬시킨다. 생성되는 BAM 파일은 GATK 및 Picard를 사용하여 처리하여 복제물을 정렬, 표시하고, 추정 indel 주위에서 판독의 로컬 재정렬을 수행한다. 시퀀싱된 변이체는 Ensembl85 유전자 정의를 사용하여 snpEFF[참조 문헌: Cingolani et al. (2012); Fly (Austin) 6, 80-92]로 주석을 달아 전사체 및 유전자에 대한 기능적 영향을 결정한다. 유전자 정의는 19,467개의 유전자에 상응하는 주석이 달린 시작 및 정지를 사용하여 단백질을 코딩하는 54,214개의 전사체로 제한되었다.
높은 비율의 동형 접합성, 낮은 서열 데이터 범위, 또는 실제 일란성 쌍둥이임을 확인할 수 없는 유전적으로 식별된 복제물로 표시되는 저품질 DNA 서열 데이터를 가진 대상체는 배제되었으며; 분석을 위해 61,019개의 엑솜은 남겨두었다. 샘플 준비, 시퀀싱, 변이체 호출 및 변이체 주석에 대한 추가 정보는 문헌[참조: Dewey et al. (2016), Science 354, aaf6814-1 to aaf6814-10]에 보고되어 있다.
실시예 6
주요 컴포넌트 및 조상 추정
PLINKv1.9를 사용하여 데이터 세트를 HapMap3(International HapMap3 Consortium, Altshuler et al. (2010); Nature Publishing Group 467, 52-58)과 병합한 다음, 두 데이터 세트 모두에서 단지 SNP 만을 유지하였다. 또한, 하기 PLINK 필터도 적용하였다: --maf 0.1 --geno 0.05 --snps-only --hwe 0.00001. 주요 컴포넌트(PC) 분석을 HapMap3 샘플에 대해 계산한 다음, PLINK를 사용하여 각 샘플을 데이터 세트에서 해당 PC 상에 투사하였다. HapMap3 샘플용 PC를 사용하여 5 가지의 조상 상강, 즉 아프리카인(AFR), 혼혈 미국인(AMR), 동아시아인(EAS), 유럽인(EUR) 및 남아시아인(SAS) 각각에 대한 커널 밀도 추정기(KDE)를 학습하였다. KDE를 사용하여 각 샘플이 각각의 상강에 속할 가능성을 계산하였다. 각 샘플에 대해, 가능성에 따라 조상 상강을 할당하였다. 샘플이 > 0.3의 가능성을 가진 두개의 조상 그룹을 가진 경우, AFR을 EUR에, AMR을 EUR에, AMR을 EAS에, SAS를 EUR에, AMR을 AFR에 할당하였으며; 그렇지 않은 경우에는 "미상(UNKNOWN)"이었다(이는 EUR 및 EAS 집단의 엄격한 추정치와 데이터 세트에서 혼혈 집단에 대한 포괄적 추정치를 제공하도록 수행되었다). 0개 또는 2개 초과의 조상 그룹이 충분히 높은 가능성을 가진 경우, 샘플의 조상에 대해 "미상"이 할당되었다. 미상의 조상을 가진 샘플은 조상 기반 가계 정체성(IBD) 계산에서 배제하였다.
실시예 7
IBD 추정
고품질의 공통 변이체는 하기 플래그(flag)를 사용하여 완전한 데이터 세트상에서 PLINK를 실행함으로써 필터링하였다: --maf 0.1 --geno 0.05 --snps-only --hwe 0.00001. 이어서, 엑솜 데이터에서 정확한 IBD 추정치를 얻기 위해 양면적 접근 방식을 취하였다. 첫 번째로, 개체 간의 IBD 추정치는 조상 분석에서 결정된 것과 동일한 조상 상강(예를 들면, AMR, AFR, EAS, EUR 및 SAS) 내에서 계산되었다. 하기 PLINK 플래그를 사용하여 2도 관계에 대한 IBD 추정치를 얻었다: --genome --min 0.1875. 모든 샘플이 유사한 조상 대립 유전자를 공유했기 때문에 보다 정확한 관계 추정이 가능하였지만; 그러나, 이러한 접근법은 조상 배경이 다른 개체들, 예를 들면 유럽계 아버지와 아시아계 어머니의 자녀, 사이의 관계를 예측할 수 없었다.
두 번째로, 조상이 다른 개체들 사이의 1도 관계를 파악하기 위해, --min 0.3 PLINK 옵션을 사용하여 모든 개체 중에서 IBD 추정치를 계산하였다. 이어서, 개체를, 네트워크 노드가 개체고 에지가 1도 관계인 1도 가족 네트워크로 그룹화하였다. 각각의 1도 가족 네트워크는 prePRIMUS 파이프라인[참조 문헌: Staples et al. (2014); Am. J. Hum. Genet. 95, 553-564]을 통해 실행되었으며, 이는 샘플의 조상을 적절한 조상의 미량 대립 유전자 빈도에 일치시켜 IBD 추정을 개선시켰다. 이 프로세스는 각각의 가족 네트워크 (0.15의 최소 PI_HAT) 내에서 개체 간의 1도 및 2도 관계를 정확하게 추정하였다.
마지막으로, 조상 기반 IBD 추정치에 가족 네트워크 유래 IBD 추정으로부터 누락된 관계를 추가함으로써 전술된 2 가지 접근법으로부터의 IBD 추정치를 조합하였다. 이러한 접근법은 유사한 조상의 모든 샘플들 사이의 2도 관계 및 모든 샘플들 사이의 1도 관계에 대한 정확한 IBD 추정치를 도출하였다.
3도 친척에 대한 IBD 비율은 다양한 조상 배경을 가진 큰 엑솜 시퀀싱 데이터 세트로부터 정확하게 추정하는 데 어려움을 겪고 있는데, 그 이유는 분석이 종종 인위적으로 팽창된 IBD 추정치로 인해 과도하게 많은 예측된 3도 관계를 초래하기 때문이다. 조상별 IBD 분석 중에 --min 0.09875 컷오프를 사용하여 DiscovEHR 및 확대 DiscovEHR 코호트에 존재할 수 있는 많은 3도 관계를 파악하였지만, 이들을 페이징 또는 가계도 기반 분석에서는 사용되지 않았다. 그보다는 오히려, 본원에서 개시되는 관계 기반 분석의 경우, 단지 1도 및 2도 가족 네트워크 내에서 식별된 고 신뢰도 3도 관계만이 사용되었다.
실시예 8
가계도 재구성
DiscovEHR 및 확대 DiscovEHR 코호트 내에서 식별된 모든 1도 가족 네트워크는 PRIMUSv1.9.0으로 재구성되었다. 조합된 IBD 추정치는 유전자 유래된 성별 및 EHR 보고된 연령과 함께 PRIMUS에 제공되었다. 1도 가족 네트워크로 재구성을 제한하기 위해 PI_HAT > 0.375의 관련성 컷오프가 지정되었으며, 2도 네트워크를 정의하기 위해 0.1875의 컷오프가 지정되었다.
실시예 9
대립 유전자 빈도 기반 페이징
61,019개의 엑솜으로부터의 모든 이중 대립 유전자 변이체는 EAGLEv2.3[참조 문헌: Loh et al. (2016); Nat Genet 48, 1443-1448]을 사용하여 페이징하였다. DNAnexus 내에서 분석을 병렬화하기 위해, 게놈을 500개의 변이체 및 250K 염기쌍의 최소 중첩을 갖는 ~ 40K 변이체의 중첩 세그먼트로 분할하였다. 목표는 유전자 내에서 추정 복합 이형 접합 돌연변이를 만드는 것이기 때문에, 유전자간 영역에서 세그먼트 중단점이 발생하도록 주의를 기울였다.
hg19에서 GRCh38로 EAGLE이 제공한 genetic_map_hg19.txt.gz 파일의 양도가 수행되었으며, 염색체 위치 및 cM 위치가 정렬될 때 순서가 증가하지 않도록 하는 염색체 내에서 전환된 염색체 또는 상대 순서를 변경하는 모든 변이체가 제거되었다. 대부분의 경우,이러한 QC 단계는 동원체 주변에서의 역전을 제거하였다. 교대 염색체에 맵핑된 SNP도 제거되었다. 총 330만개의 SNP 중 2,783개만이 유전자 지도 파일에서 제거되었다. 각각의 세그먼트에 대한 데이터는 PLINK 형식 파일로 EAGLE에 제공되었으며, 하기의 EAGLE 명령 라인 파라미터를 사용하여 DNAnexus 상에서 실행하였다:
--geneticMapFile=genetic_map_hg19_withX.txt.GRCh38_liftover.txt.gz
--maxMissingPerIndiv 1
--genoErrProb 0.01
--numThreads=16
실시예 10
복합 이형 접합 호출
목표는 잠재적으로 녹아웃되거나 파괴된 유전자의 두 카피를 갖는 사람을 식별하기 위해 추정 기능 상실(pLoF) 변이체의 높은 신뢰도의 복합 이형 접합 돌연변이(CHM) 호출을 얻는 것이었다. 변이체는, 프레임시프트, 정지 코돈 수득, 정지 코돈 손실, 출발 코돈 수득, 출발 코돈 손실 또는 스플라이싱 수용자 또는 공여자 변경 변이체를 생성하는 경우, pLoF로 분류되었다. pLOF 및 아마도 파괴적 미스센스 변이체를 포함하는 잠재적으로 유해한 변이체의 제2 세트가 생성되었고, 이는 다음 5 가지 방법 모두에 의해 유해한 것으로 예측되어 정의되었다: SIFT(참조 문헌: Loh et al. (2016); Nat Genet 48, 1443-1448)(손상), PolyPhen2 HDIV(손상 및 손상 가능성), PolyPhen2 HVAR(손상 및 손상 가능성), LRT(유해) 및 MutationTaster(참조 문헌: Schwarz et al. (2014); Nat. Methods 11, 361-362)(자동 질병 유발 및 질병 유발).
동일한 사람의 유전자 내에서 이형 접합 pLoF 및/또는 해로운 미스센스 변이체의 모든 가능한 조합을 시험함으로써 드문(대체 대립 유전자 수 < 1%) 잠재적 복합 이형 접합 돌연변이(pCHM)를 식별하였다. 61K 샘플에서 10% 누락을 초과하거나 동일한 개체에서 10개의 염기쌍 내에 다른 변이체를 갖는, Hardy-Weinberg 평형(HWE)에서 벗어난 모든 변이체(PLINK로 계산한 p-값 < 10-15(참조 문헌: Chang et al. (2015); Gigascience 4, 7))는 제외되었다. QD < 3, AB < 15%, 판독 깊이 < 7의 SNP 및 QD < 5, AB < 20% 및 판독 깊이 < 10의 INDELS도 제외되었다. 필터링 후, pCHM 변이체가 트랜스에서 단계적으로 진행되는 경우, 25,031명의 개체 사이에 분포하였고, 사람 유전자의 두 카피의 기능을 녹아웃하거나 파괴할 수 있는 39,459개의 고품질 pCHM을 수득하였다.
다음 단계는 pCHM을 페이징하는 것이었다. 집단 대립 유전자-빈도-기반 페이징과 EAGLE 및 가계도/관계-기반 페이징의 조합을 사용하여 pCHM이 시스 또는 트랜스인지를 결정하였다. 도 9는 DiscovEHR 데이터 세트에서 각각의 pCHM에 대해 가장 정확한 페이징을 얻기 위해 사용된 pCHM 페이징 워크플로우를 도시한다. 도 2는 확장된 DiscovEHR 데이터 세트에서 각각의 pCHM에 대해 가장 정확한 페이징을 수득하기 위해 사용된 pCHM 페이징 워크플로우를 도시한다. 가계도 및 관계 페이징이 EAGLE 페이징보다 더 정확한 것으로 나타났으므로, 가계도 및 관계 데이터가 우선적으로 페이징에 사용되었다. 하기 표 18은 상이한 유형의 가족 관계에 대한 pCHM의 페이스를 결정하기 위해 사용되는 논리를 기술한다. 나머지 모든 pCHM에 대해, 상기 기술된 EAGLE 페이징된 데이터가 사용되었다. 변이체 중 하나 또는 둘 다가 독신인 EAGLE 페이징된 pCHM은, 독신에 의한 EAGLE 페이징 정확도가 무작위 추측과 유의하게 상이하지 않기 때문에, 제외되었다(DiscovEHR 데이터 세트의 경우 하기 표 19 및 확장된 DiscovEHR 데이터 세트의 경우 하기 표 20 참조). DiscovEHR 데이터 세트에서, pCHM의 두 변이체가 100개 미만의 동일한 소량 대립 유전자 수(MAC)를 갖는다면, 거의 항상 시스(본 발명자들의 트리오에서 37개 발생 중 36개)인 것으로 밝혀졌고, 이는 EAGLE pCHM 페이징의 정확도를 초과한다. 확장된 DiscovEHR 데이터 세트에서, pCHM의 두 변이체가 100개 미만의 동일한 소량 대립 유전자 수(MAC)를 갖는다면, 거의 항상 시스(트리오에서 22개 발생 중 22개)인 것으로 밝혀졌고, 이는 EAGLE pCHM 페이징의 정확도를 초과한다.
표 18(가계도-기반 페이징에 사용되는 논리)
트리오 규칙 결과
1개 이하의 변이체가 부모에 존재한다 데 노보
부모 중 1명은 두 변이체 중 0개의 카피를 갖고, 다른 부모는 두 변이체 1개 이상의 카피를 갖는다 시스
각각의 부모는 서로 상이한 변이체에서 1개의 변이체의 정확히 1개의 카피를 갖는다 트랜스
부모 중 1명 이상은 두 변이체 중 1개 이상의 카피를 갖고, 부모 둘 다 동일한 변이체에 대해 이형 접합성이다 ?
부모 둘 다 동일한 변이체에 대해 동형 접합성이다(이때, 자식이 동형 접합성이므로 가능하지 않음) NA
부모 중 1명은 두 변이체 중 단지 1개에 대해 동형 접합성이고, 다른 부모는 이러한 변이체 중 1개 이하를 갖고, 1개 이상의 다른 변이체를 갖는다 트랜스
부모 중 1명은 변이체의 0개 카피를 갖고, 다른 부모는 다른 변이체에 대해 동형 접합성이다 시스
부모 중 1명은 변이체 둘 다에 대해 동형 접합성이다 시스
부모-자식 규칙(데 노보 돌연변이가 없고 "NA" 트리오 결과가 발생하지 않는 것으로 추정된다)
PC_rel은 0개의 변이체를 갖는다 시스
PC_rel은 변이체 둘 다에 대해 동형 접합성이다 시스
PC_rel은 변이체 둘 다에 대해 het이고, 변이체는 둘 다 드물다 시스
PC_rel은 변이체 둘 다에 대해 het이고, 1개 이상은 드물지 않다 ?
PC_rel은 1개의 변이체에 대해 동형 접합성이고, 다른 것을 갖지 않는다 트랜스
PC_rel은 1개의 변이체에 대해 동형 접합성이고, 다른 것에 대해 het이고, het는 드물다 시스
PC_rel은 1개의 변이체에 대해 동형 접합성이고, 다른 것에 대해 het이고, het는 드물다 ?
PC_rel은 1개의 변이체에 대해 het이고, 다른 것을 갖지 않고, het는 드물다 트랜스
PC_rel은 1개의 변이체에 대해 het이고, 다른 것을 갖지 않고, het는 드물다 ?
완전-형제자매 규칙(데 노보 돌연변이가 없고 "NA" 트리오 결과가 발생하지 않는 것으로 추정된다) 결과
다른 변이체가 없는 형제자매에서 1개의 드문 변이체 트랜스
드문 변이체가 단독으로 나타나지 않으면, 다른 변이체가 드물고, 0.5^N < 0.05, 이때 N은 완전-형제자매의 수이다 시스
1도 초과의 친척 규칙 결과
드문 변이체 중 1개 또는 둘 다가 다른 변이체 없이 친척에 존재하여야 한다 트랜스
이 규칙은 각 관계의 최상위 규칙부터 순서대로 적용되었다. "?" 결과는 pCHM이 페이징될 수 없음을 의미한다. "NA" 결과는 결과가 발생하지 않아야 하고, 시퀀싱 오차 또는 다른 비-멘델 전달의 결과일 가능성이 있음을 나타낸다. PC_rel은 부모-자식 관계의 비-pCHM 캐리어를 나타낸다. "드문"은 본원에 사용된 모든 변이체를 포함하는 MAF < 1%를 지칭한다.
표 19(비닝된 소량 대립 유전자 빈도(MAF)에 의한 pCHM의 EAGLE 페이징 정확도)
MAF 빈 MAC 빈 pCHM의 수(#) 정확한 호출/전체 가능성 정확도 부정확한 호출(시스:트랜스)
(0% - 0.001%) 1 2421 (7.1%) 15/29 52% (8:6)
(0.001%-0.005%] 2 - 6 5485 (16.1%) 49/64 77% (5:10)
(0.005% - 0.01%] 7 - 12 3827 (11.3%) 66/68 97% (1:1)
(0.01% - 0.05%] 13 - 61 9011 (26.5%) 128/134 96% (2:4)
(0.05% - 0.1%] 62 - 122 3976 (11.7%) 40/41 98% (0:1)
(0.1% - 0.5%] 123 - 610 8683 (25.5%) 120/123 98% (1:2)
(0.5% - 1%] 611 - 1,220 606 (1.8%) 12/12 100% (0:0)
MAF < 1%인 모든 pCHM은 pCHM을 구성하는 2개의 변이체 중 덜 빈번하게 비닝되었다. pCHM의 EAGLE 페이징을 트리오로 결정된 페이징과 비교하여 정확한 호출과 정확도를 결정하였다. 트리오 내에서 시스 또는 트랜스인 것으로 결정된 부정확한 EAGLE 페이징된 pCHM의 수가 또한 제공된다. 트리오의 자식에서 변이체 중 1개 또는 둘 다가 새로운 것으로 결정된 pCHM은 제외되었다. MAC > 6인 pCHM은 모두 90대 중반 내지 후반에서 비슷한 정확도를 보였지만, 2 내지 6의 MAC에서는 정확도가 떨어졌다. EAGLE의 독신 페이징은 무작위 추측보다 유의하게 양호하게 수행되지 않았고, 이에 따라 EAGLE 페이징된 독신은 페이징된 pCHM 결과 및 EAGLE 페이징된 pCHM의 전체 정확도를 측정할 때 제외되었다.
표 20(비닝된 소량 대립 유전자 빈도(MAF)에 의한 pCHM의 EAGLE 페이징 정확도)
MAF 빈 MAC 빈 pCHM의 수(#) 가능한 정확한 호출/전체 정확도 부정확한 호출(시스:트랜스)
(0% - 0.001%) 1 0/402 (0%)* 39/69 57% (14:16)
(0.001%-0.005%] 2-9 9475/12153 (78%) 99/129 77% (8:22)
(0.005% - 0.01%] 10-18 9346/6088 (71.4%) 105/114 92% (3:6)
(0.01% - 0.05%] 19-92 9780/13663 (71.6%) 229/243 94% (8:6)
(0.05% - 0.1%] 93-184 4461/5760 (77.4%) 76/78 97% (0:2)
(0.1% - 0.5%] 185-924 10056/12975 (77.5%) 202/210 96% (3:5)
(0.5% - 1%] 925-1849 613/890 (68.9 16/17 94% (0:1)
MAF < 1%인 모든 pCHM은 pCHM을 구성하는 두 변이체 중에서 덜 빈번하게 비닝되었다. pCHM의 EAGLE 페이징을 트리오로 결정된 페이징과 비교하여 정확한 호출과 정확도를 결정하였다. 본 발명자들은 또한 트리오 내에서 시스 또는 트랜스로 결정된 부정확하게 EAGLE 페이징된 pCHM의 수를 제공한다. 본 발명자들은 변이체 중 1개 또는 둘 다가 트리오의 자식에서 데 노보인 것으로 결정된 pCHM을 제외하였다. MAC > 9인 pCHM은 모두 비슷한 정확도 90을 가졌지만, 본 발명자들은 2 내지 9의 MAC를 사용하는 EAGLE pCHM 페이징 정확도의 저하를 확인하였다. 독신을 포함하는 pCHM의 EAGLE 페이징은 무작위 추측보다 유의하게 양호하게 수행되지 않았고, 이에 따라 EAGLE 페이징된 독신은 페이징된 pCHM 결과 및 EAGLE 페이징된 pCHM의 전체 정확도를 측정할 때 제외되었다. 독신 변이체를 포함하는 *2,838 pCHM은 독신 변이체의 EAGLE의 낮은 페이징 정확도로 인해 제거되었다. 따라서, 401개의 나머지 독신 변이체는 트리오 및 관계 데이터만으로 페이징되었다.
전체 데이터 세트에서 EAGLE pCHM 페이징에 대한 정확도의 양호한 측정치를 수득하기 위해, 페이징 전에 각각의 핵가족에서 한 자식의 모든 1도 친척을 제외한 전체 데이터 세트에서 EAGLE를 실행하였다. 부모의 1배체형을 포함하는 것이 데이터 세트에 부모가 없는 샘플과 비교할 때 트리오의 자식에 대한 페이징 정확도를 개선하므로, 이러한 프루닝이 필요하였다.
마지막으로, 개체의 동일한 유전자 내에 1개 초과의 pCHM이 존재하면, 가장 유해한 프로파일을 갖는 pCHM만이 유지되었다(하기 표 21 참조). 모든 pCHM의 99% 초과를 페이징하고, 13,335개의 드문 복합 이형 접합 돌연변이(CHM)를 식별하는 것이 가능하였다.
표 21(pCHM에 기여하는 변이체에 대한 기능적 효과 우선 순위)
효과 기술 기능적 효과 우선 순위
프레임쉬프트 변이체는 프레임쉬프트(예컨대, 3의 배수가 아닌 삽입 또는 결실(INDEL) 크기)를 야기한다 1
정지 수득 변이체는 정지 코돈(예컨대, Cag/Tag, Q/*)을 야기한다 2
출발 손실 변이체는 비-출발 코돈으로 돌연변이되는 출발 코돈(예컨대 aTg/aGg, M/R)을 야기한다 3
스플라이스 수용자 변이체는 스플라이스 수용자 부위(첫 번째 엑손을 제외하고, 엑손 출발 전의 2개의 염기로서 정의됨)를 때린다 4
스플라이스 공여자 변이체는 스플라이스 공여자 부위(마지막 엑손을 제외하고, 코딩 후 2개의 염기로서 정의됨)를 때린다 5
정지 손실 변이체는 비-정지 코돈(예컨대, Tga/Cga, */R)으로 돌연변이되는 정지 코돈을 야기한다 6
미스센스 변이체는 상이한 아미노산을 생성하는 코돈(예컨대, Tgg/Cgg, W/R)을 야기한다 8
모든 전사체에 영향을 줌 2개의 변이체는 유전자의 모든 전사체에 영향을 준다 0
일부 전사체에 영향을 줌 2개의 변이체는 이들이 공동으로 영향을 주는 하나 이상의 전사체(그러나, 모든 전사체는 아님)를 갖는다 10
트랜스 트랜스로 페이징된 변이체 0
시스 시스로 페이징된 변이체 30
사람이 동일한 유전자에 2개 이상의 트랜스 pCHM을 갖는 경우, 이러한 표의 값을 사용하여 가장 유해한 pCHM을 식별하고 유지한다. 효과 점수는 두 변이체의 기능적 효과 점수를 추가한 다음, 모든 유전자 전사체에 영향을 미치지 않는 경우의 쌍에 불이익을 주어 계산되었다. 점수가 낮은 pCHM이 가장 해롭고 유지되는 것으로 예측되었다.
실시예 11.1
DiscovEHR 데이터 세트에 대한 복합 이형 접합 돌연변이 검증
페이징 정확도는 페이징 예측을 트리오 및 Illumina 판독으로 수행된 페이징과 비교하여 평가되었다. 먼저, 참으로서 트리오 페이징된 pCHM을 사용하여 pCHM의 페이징 정확도를 평가하였다. 각 가족 관계의 페이징 접근이 트리오 페이징과 독립적으로 수행되었기 때문에, pCHM 캐리어가 트리오의 자식인 한, 각 관계 클래스의 페이징 정확도의 양호한 측정치를 얻는 것이 가능하였다. 상기 표 4 및 표 12는 가족 관계-기반 페이징의 정확도가 이러한 드문 pCHM에 대해 100% 정확함을 보여준다. EAGLE 페이징은 DiscovEHR 및 확장된 DiscovEHR 데이터 세트 각각에 대해 91.4% 및 89.1%로 정확도가 떨어졌다. DiscovEHR 데이터 세트의 경우, 페이징 pCHM에서 EAGLE의 정확도는 상이한 소량의 대립 유전자 빈도 범위에서 평가되었고, 6 초과의 MAC의 경우 95% 초과 및 2 내지 6의 MAC의 경우 약 77%의 정확도를 일관되게 획득하는 것으로 밝혀졌다(상기 표 19 참조). EAGLE 페이징은 예측된 바와 같이 독신의 경우 단지 불량하게 수행되었다.
두 번째로, 2개의 변이체가 동일한 판독에서 또는 독립적으로 발생하는지 식별하기 위하여 Integrative Genomics Viewer(IGV)의 판독 스택을 검사함으로써 짧은 Illumina 판독치(약 75 bp)로 200개의 pCHM을 검증하려고 시도하였다(참조 문헌: Robinson et al. (2011); Nat. Biotechnol. 29, 24-26). 검증 과정에서, 첫 번째 결실의 말단이 두 번째 결실의 10 bp 내에 있는 2개의 결실로 구성된 pCHM이 실제로 2개의 별개의 결실로서 부정확하게 지칭되는 단일한 큰 결실이었음이 확인되었다(N = 1,109개/39,459개 pCHM). 단지 15개가 트랜스로 페이징되므로(전체 pCHM 데이터 세트의 약 0.1%), 이러한 pCHM은 전체 분석에서 제외되지 않았지만, 200개의 pCHM이 검증을 위해 선택되었을 때는 제외되었다. 짧은 판독치를 사용하여 무작위로 선택된 200개의 pCHM 중 190개를 결정적으로 페이징하기 위하여 판독치를 사용하는 것이 가능하였다. 나머지 10개는 시스 및 트랜스 페이징 둘 다의 판독 증거를 나타냈는 데, 아마도 변이체 중 1개 또는 둘 다가 위양성 호출인 것에 기인한 것 같다.
실시예 11.2
확장된 DiscovEHR 데이터 세트에 대한 복합 이형 접합 돌연변이 검증
DiscovEHR 데이터 세트의 경우, 상기 표 12는 가족-기반 페이징의 정확도가 드문 pCHM의 경우 99.6%(1,060개/1,064개 pCHM)임을 나타낸다. EAGLE 페이징은 89.1%로 정확도가 떨어졌다(766개/860개 pCHM; 표 12). 상이한 범위의 소량 대립 유전자 빈도에서 EAGLE의 pCHM-페이징 정확도를 평가하여 EAGLE이 9 초과의 MAC에서 90% 초과의 정확도 및 2 내지 9의 MAC에 대해 약 77%의 정확도를 일관되게 달성한다는 것을 확인하였다(상기 표 20 참조). 독신에서는 EAGLE 페이징이 불량하게 수행되었다.
두 번째로, 2개의 변이체가 동일한 판독에서 또는 독립적으로 발생하는지 식별하기 위하여 Integrative Genomics Viewer(IGV)의 판독 스택을 검사함으로써 짧은 Illumina 판독치(975 bp)로 200개의 pCHM을 검증하려고 시도하였다(참조 문헌: Robinson et al. (2011); Nat. Biotechnol. 29, 24-26). 짧은 판독치를 사용하여 190개(115개 시스 및 79개 트랜스; 126개 EAGLE-페이징 및 74개 가계도 또는 관계-페이징) pCHM을 선택하였다. 나머지 10개는 시스와 트랜스 페이징 둘 다에 대한 판독 증거를 나타냈는 데, 아마도 변이체 중 1개 또는 둘 다가 위양성 호출인 것에 기인한 것 같다. 육안 검증은 가계도 및 관계-페이징 및 EAGLE-페이징에 대해 각각 95.8% 및 89.9%의 전체 정확도를 나타냈다(표 22 참조). Illumina 판독치-기반 검증 결과가 트리오 검증 검사 결과와 일치하지만, Illumina 판독치-기반 검증 정확도 결과는 트리오를 사용한 페이징의 정확도보다 낮았다. 이러한 차이는 시퀀싱 및 단호한 호출 오차가 발생하기 쉬운 작은 문제가 있는 엑손 영역에서 위양성 pCHM이 풍부하기 때문일 가능성이 높다.
표 22. 변이체 둘 다가 Illumina 75개 염기쌍 판독치로 페이징될 수 있는 190개 pCHM에 대한 페이징 검증 결과
시스 수 트랜스 수 정확한 시스 정확한 트랜스 시스 정확도 트랜스 정확도 전체 정확도
EAGLE 119 71 48 65 42 92% 88% 89.9%
가계도/관계 71 40 31 40 28 100% 90% 95.8%
200개의 pCHM은 두 변이체가 서로 75개의 염기쌍 내에 존재하는 92K 확장된 DiscovEHR 참가자 중에서 무작위로 발생했고, 두 변이체에 걸친 판독치 스택을 검사하여 육안으로 검증되었다. 두 변이체에 중첩되는 판독치가 전혀 없었거나 판독치가 상충되는 결과를 제공하므로(즉, 일부 판독치는 시스를 나타내고 다른 판독치는 트랜스를 나타냄), 10개(5%)는 판독치 스택에 의해 확실하게 페이징되지 않을 수 있다.
실시예 12
데 노보 돌연변이(DNM) 검출
DNM 검출을 위한 2개의 상이한 접근법으로부터의 결과가 통합되었다. 첫 번째 방법은 TrioDeNovo(참조 문헌: Wei et al. (2015); Bioinformatics 31, 1375-1381)이고, 각 자식의 가변 부위에서 자식 및 부모의 유전자형 가능성을 판독하였다. 이러한 가능성은 베이지안 프레임워크에 입력되어 자식의 변이체가 DNM인 이후 가능성을 계산하였다. 두 번째 프로그램은 DeNovoCheck(https://sourceforge.net/projects/denovocheck)이고, 리지트(Ligt) 등의 보완 방법에 기술되어 있다(참조 문헌: de Ligt et al. (2012); N. Engl. J. Med. 367, 1921-1929). DeNovoCheck는 부모가 아닌 자식에서 호출된 것으로 식별된 후보 DNM 세트를 취하였다. 이어서, BAM 파일을 검사하여 자식에서의 변이체의 존재 및 부모 둘 다의 부재를 식별하였다. 이러한 잠재적인 DNM을 필터링하고, 통합 세트에서의 각 DNM에 대한 신뢰 수준을 다양한 QC 메트릭을 사용하여 평가하였다. 도 7은 이 DNM 호출 프로세스를 설명하고, 적용된 변이체 필터를 도시하고, 각 DNM을 낮은 신뢰도, 보통 신뢰도 또는 높은 신뢰도로 분류하는 데 사용된 기준을 제공한다.
실시예 13.1
DiscovEHR 데이터 세트에서 임신시 부모 연령과 DNM 수(#) 사이의 상관 관계 시험
본 분석을 위하여, 10개 초과의 DNM을 갖는 샘플은 이상치(N = 6 제외 샘플)로서 제외되었고, 이는 아마도 기술적 인공물 또는 체세포 변이를 나타낸다. 모계 및 부계의 연령은 밀접한 상관 관계가 있고(rho = 0.78, p = 1.2 x 10^-262); 공동으로 모델링할 때, 공선성(0.0053 모계 DNM/년, p = 0.48; 0.0076 부계 DNM/년, p = 0.26; 포아송 회귀)으로 인해 유의하지 않았다(도 36A 및 36B). 이어서, 출생시 모계 또는 부계 연령과 함께 부모의 연령 차이(부계 - 모계 연령)를 시험하였다. 부계 및 모계 연령은 둘 다 DNM의 수를 똑같이 예측하는 것으로 나타났다(즉, 연령 차이는 모계 또는 부계 연령을 고려한 DNM의 수와 유의하게 연관되지 않았다).
모계(0.012 DNM/년, p = 0.011; 포아송 회귀; 도 37) 및 출생시 부계 연령(0.011 DNM/년; p = 0.007)과 관련하여 엑손 DNM의 수의 증가가 또한 관찰되었고, 다른 보고서와 일치한다(참조 문헌: Deciphering Developmental Disorders Study (2017). Nature 542, 433-438; Kong et al. (2012) Nature 542, 433-438; Rahbari et al. (2016) Nat. Genet. 48, 126-133; and Wong et al. (2016) Nat. Commun. 7, 10486). 특히, 출생시 모계 및 부계 연령은 데이터 세트에서 높은 상관 관계를 보였고(rho = 0.78, p = 1.2 x 10^-262; 도 38), 이에 따라 비율은 부가적이지 않았고, 구동 인자로서 구별되는 어떠한 유의한 차이도 식별되지 않았다.
실시예 13.2
확장된 DiscovEHR 데이터 세트에서 임신시 부모 연령과 자식의 DNM 수(#) 사이의 상관 관계 시험
확장된 DiscoverEHR 코호트는 임신시 부모 연령과 자식의 DNM 수 사이의 상관 관계에 대한 DiscovEHR 코호트와 유사한 결과를 나타냈다. 출생시 모계(0.011 DNM/년, p = 7.3 x 10-4; 포아송 회귀; 도 37) 및 부계(0.010 DNM/년; p = 5.6 x 10-4) 연령 둘 다와 관련하여 엑손 DNM 수의 증가가 관찰되었고, 다른 보고서와 일치하였다. 특히, 출생시 모계 및 부계 연령은 데이터 세트에서 높은 상관 관계가 있고(r = 0.79; 도 39); 이에 따라, 비율은 부가적이지 않고, 구동 인자로서 유의한 차이가 식별되지 않았다.
부모 연령은 포아송 분포(n = 2,587, 계수 = 0.010, p = 5.67E-4)를 사용하여 인당 DNM 수와 상관 관계가 있다. 유사하게, 모계 연령은 포아송 분포(n = 2,587, 계수 = 0.011, p = 7.35E-4)를 사용하여 인당 DNM 수와 상관 관계가 있다. 또한, 부계 및 모계 연령은 또한 서로 상관 관계가 있다(R2 = 0.79; p < 10E-308).
기능적 예측 알고리즘 - SIFT(손상), PolyPhen2 HDIV(손상 및 손상 가능성), PolyPhen2 HVAR(손상 및 손상 가능성), LRT(유해) 및 MutationTaster(참조 문헌: Schwarz et al. (2014); Nat. Methods 11, 361-362)(자동 질병 유발 및 질병 유발)를 사용하여 DNM의 병원성이 예측되었다. DNM의 병원성 예측은 무작위 변이체 분포의 것과는 유의하게 상이하다(도 38). DNM의 높은 비율은 또한 비병원성의 만장일치의 예측을 가졌다. DNM은 5/5 알고리즘에 의해 병원성으로 예측될 가능성이 1.8배 더 높다. 무작위 변이체는 병원성을 부조화롭게 예측할 수 있는 확률이 1.5배 더 높다.
실시예 14
LDLR 직렬 복제 원격 가계도 추정
본 발명자들의 코호트의 탈 식별화된 개체의 진정한 가족력을 알 수는 없지만, PRIMUS(참조 문헌: Staples et al. (2014); Am. J. Hum. Genet. 95, 553-564) 재구성된 가계도, ERSA(참조 문헌: Huff et al. (2011); Genome Res. 21, 768-774) 먼 관계 추정, 및 가계도를 연결하는 PADRE(참조 문헌: Staples et al. (2016); The American Journal of Human Genetics 99, 154-162)의 능력을 사용하여 LDLR에서 신규한 직렬 복제의 돌연변이 캐리어의 최선 가계도 표현을 식별하였다(참조 문헌: Maxwell et al. (2017). Profiling copy number variation and disease associations from 50,726 DiscovEHR Study exomes). HumanOmniExpress 어레이 데이터는 더 먼 관계를 추정하는 데 종래 사용되었다.
실시예 15
SimProgeny
SimProgeny는 하나 이상의 하위-집단에 분산된 수백만 명의 사람의 집단을 시뮬레이션하고 수백 년 동안 그들의 사망자를 추적할 수 있다. 단순함과 현실감 사이의 적절한 균형을 찾기 위해 사용자가 조정할 수 있는 몇 가지 주요 집단 레벨 매개 변수가 선택되었다(하기 표 23 참조). 이러한 매개 변수는 시뮬레이션 도구를 비교적 단순하게 유지하면서 실제 집단과 가족 가계도 구조에 대한 양호한 근사치를 제공하도록 선택되었다. 기본값은 미국 인구 통계를 기반으로 한다. 기본값은 코호트 둘 다에 대해 작동하도록 설정되었고, SimProgeny 코드(웹 리소스)를 포함하는 구성 파일을 수정하여 상이한 집단을 모델링하도록 이러한 매개 변수를 쉽게 사용자 정의할 수 있다. 집단 시뮬레이션 프로세스에 대한 자세한 설명은 실시예 17을 참조한다.
표 23(SimProgeny에서 사용되는 시뮬레이션 매개 변수 및 기본값)
매개 변수 설명 기본값
출생률 년간 인당 출생 0.0219
사망률 년간 인당 사망 0.0095
결혼율 년간 인당 결혼 0.01168
이혼율 년간 인당 이혼 0.0028
전체-형제자매 비율 결혼한 커플에 대한 출산 비율 0.88
생식 개시 개체가 출산할 수 있는 최저 연령 15
생식 종료 개체가 출산할 수 있는 최고 연령 49 또는 50
역내 이민율 년간 역내 이민 비율 0.01
역외 이민율 년간 역외 이민 비율 0.021
가임(연령) 0 내지 50세 여성에 대한 가중 벡터 0 내지 1
남성 사망률(연령) 0 내지 120세 남성에 대한 가중 벡터 0 내지 1
여성 사망률(연령) 0 내지 120세 여성에 대한 가중 벡터 0 내지 1
남성 결혼(연령) 0 내지 50세 남성에 대한 가중 벡터 0 내지 1
여성 결혼(연령) 0 내지 50세 여성에 대한 가중 벡터 0 내지 1
DiscovEHR 코호트에 대한 프레임워크 개발 세트의 경우, 생식 종료는 49세였고, 확장된 DiscovEHR 코호트에 대한 프레임워크 개발 세트의 경우, 생식 종료는 50세였다.
집단 모델링 외에, SimProgeny는 유전학 연구를 위해 집단으로부터의 개체 선택을 모델링하는 2개의 확인 접근법(즉, 무작위 확인 및 군집 샘플링)을 시뮬레이션한다. 무작위 확인은 집단의 각 개체에게 대체없이 확인될 수 있는 동등한 기회를 제공한다. 군집 샘플링은 가까운 친척을 강화하는 접근법이고, 많은 1도 및 2도 친척과 함께 무작위로 개체를 선택함으로써 수행된다. 1도 친척의 수는 사용자가 특정한 1도 확인 람다(기본값은 0.2임)에 의해 분포된 포아송으로부터의 값을 샘플링하여 결정된다. 2도 친척의 수는 같은 방식으로 결정되고, 기본값 2도 확인 람다는 0.03이다. SimProgeny의 확인 옵션에 대한 추가 정보는 실시예 17을 참조한다.
실시예 16
기초 DiscovEHR 집단의 시뮬레이션 및 확인
시뮬레이션 모델을 지나치게 복잡하게 하지 않기 위해, 시뮬레이션은 200K, 300K, 400K, 450K, 500K, 550K, 600K 및 1,000K의 출발 크기를 갖는 개별 집단을 포함하였다. SimProgeny 매개 변수(상기 표 23 참조)는 공개적으로 사용 가능한 국가, 주 및 카운티 수준 데이터와 GHS를 통해 개체를 확인하는 방법에 대한 자체 이해를 바탕으로 조정되었다. 선택한 매개 변수의 소스는 보조 파일 Simulation_parameters.xls에서 사용할 수 있다. 미국 펜실베니아주(PA) 평균으로부터의 역내 이민 및 역외 이민 비율은 GHS가 주로 농촌 지역에 서비스를 제공하기 때문에 감소되었고, 이는 더 많은 도시 지역보다 이민율이 낮은 경향이 있다. 120년의 번인(burn-in) 기간으로 시뮬레이션을 실행한 후, 101년 동안 진행하였다. 시뮬레이션된 인구는 약 15%만큼 증가하였고, 이는 20 세기 중반 이후 PA의 성장과 유사한다.
무작위 및 군집 확인이 둘 다 수행되었다. 확인 접근법 둘 다에 대해, 협업 시작시 GHS 바이오뱅크에서 개체의 무작위 시퀀싱 순서를 모델링하기 위해 집단의 처음 5%(ordered_sampling_proportion 매개 변수로 특정됨)의 확인 순서를 섞었다. 이러한 매개 변수의 선택은 무작위 확인에 영향을 미치지 않고, 군집 확인에서 쌍별 관계의 축적에 무시할 수 있는 영향을 미치지만, 람다 값이 높을수록 더 현저한 변곡점을 야기함으로써, 군집 샘플링에 의해 확인된 데이터 세트에서 1명 이상의 친척을 갖는 개체의 비율에 영향을 미쳤다. 이러한 변곡점은 실제 데이터의 동결 프로세스를 모델링하거나 바이오뱅크로부터의 시퀀싱 샘플과 새로 확인된 개체 사이의 매끄러운 전이를 모델링하는 경우 덜 현저할 것이다.
실시예 17
SimProgeny 집단 및 확인 시뮬레이션 프로세스
시뮬레이션은 사용자가 특정한 수의 하위-집단 및 크기를 초기화함으로써 시작되었다. 연령은 초기에 0세에서 최대 가임 연령으로 지정되었다(기본값은 49세였다). 집단의 개체는 청소년, 가임기 또는 노인의 세 가지 연령-기반 풀 중 하나에 속하였다. 개체는 가임 연령 미만인 경우(15세의 기본값) 하위-집단의 청소년 풀로 지정되거나, 가임 연령 범위인 경우(15 내지 49세의 기본값) 하위-집단의 교합 풀로 지정되었다. 개체의 최소 가임 연령 이상으로 나이가 들어감에 따라 청소년 풀에서 교합 풀로 옮겨졌다. 마찬가지로, 그들은 최대 가임 연령을 넘어 나이가 들면 교합 풀에서 노인 풀로 옮겨졌다. 개체는 역외 이민하거나 사망 한 경우 모든 연령 풀로부터 제거되었다. 초기 집단을 설정한 후, 시뮬레이션은 120년의 번인 페이스를 수행하여, 동일한 수의 출생 및 사망과 0의 순 이민율을 요구하면서, 입력 매개 변수와 더 밀접하게 부합하는 가족 관계 및 연령 분포를 확립하였다. 번인 후, 시뮬레이션은 제공된 인구 증가율과 이주율로 지정된 기간 동안 실행되었다. 시뮬레이션은 1년 단위로 진행되었고, 달리 명시되지 않는 한, 매년 각 하위-집단 내에서 수행되는 다음 단계가 있었다.
1. 연령 - 연령 풀에서 나이가 든 개체를 다음 연령 풀로 옮긴다.
2. 코트 - 미혼 남성과 미혼 여성이 일부일처 결혼에 참여하는 것을 시뮬레이션한다. 이러한 프로세스는 사실적인 전체-형제자매 관계를 얻는 데 중요하다. 남성과 여성의 쌍은 미혼 생식 연령의 남성과 여성의 풀로부터 무작위로 선택되고, 남성과 여성의 "결혼(연령)" 매개 변수에 의해 특정된 연령에서 결혼 가능성에 따라 성공적으로 결혼한다. 상기 쌍은 결혼율로 정의된 성공적인 결혼 횟수에 도달할 때까지 추첨된다. 커플은 1도 사촌보다 더 먼 관계로 제한된다. 번인 페이스에서, 결혼율은 사용자가 특정한 초기 결혼율에 도달할 때까지 2배가 된다(기본값은 결혼 중인 가임 풀의 66%임).
3. 갈라짐 - 특정된 이혼율로 결혼이 깨진 남성과 여성을 시뮬레이션한다. 커플은 무작위로 선택되고, 두 개체는 모두 미혼으로 표시된다.
4. 사교 - 집단 내에서 1년 동안 발생할 수 있는 모든 생식을 시뮬레이션한다. 어머니/아버지 쌍은 미혼 생식 연령 풀 또는 기혼 풀로부터 전체-형제자매 비율로 정의된 비율로 무작위로 선택된다(기본값은 기혼 커플의 모든 출생의 88%임). 성공적인 임신의 표적 수에 도달할 때까지 쌍을 추첨하고, 생식을 시도한다(출생률 기본값은 인당 0.0219임). 성공적인 임신이 일어날 가능성은 임산부 연령과 해당 출산율에 기초한다. 부모는 1도 사촌보다 더 먼 관계로 제한되고, 모든 개체는 매년 1명의 자식을 갖도록 제한된다.
5. 도태 - 사망하는 개체를 시뮬레이션한다. 사망률(기본값은 인당 0.0095 임)은 주어진 해에 집단 내에서 예상되는 사망자 수를 결정하는 데 사용된다. 남성 및 여성 사망률(연령 매개 변수)을 사용하여 무작위로 선택된 개체가 사망할 가능성을 가중시킨다. 0 내지 1의 임의의 수가 남성/여성 연령에서 사망할 확률을 초과하면, 개체가 유지되고 다른 개체가 선택된다. 불행한 개체는 사망 풀로 추가되고, 임의의 다른 생존 풀로부터 제거된다. 120세 초과의 모든 개체는 자동으로 사망 풀로 추가되고, 해당 연도의 목표 사망자 수로 계수된다.
6. 이민 - 집단으로부터 및 집단으로의 이민을 시뮬레이션한다. 역외 이민은 교합 풀로부터 개체를 무작위로 선택하고, 기혼 및 가임 연령의 배우자와 함께 집단으로부터 개체를 제거함으로써 수행된다. 이민하는 청소년 및 노인 개체의 비율은 가임 연령의 기혼 커플의 수와 함께 기록된다. 역내 이민은 연령 분포와 가임 연령의 기혼 커플의 수를 유지하는 방식으로 수행된다. 먼저, 청소년은 기존 집단에서 무작위로 선택되고, 동일한 성별과 연령의 새로운 개체가 청소년 풀에 추가되고, 이러한 프로세스는 적절한 비율의 청소년이 추가될 때까지 반복된다. 동일한 프로세스가 노인 개체에게 반복된다. 다음으로, 2명의 가임 연령의 개체는 기존 집단으로부터 선택되고, 2명의 새로운 개체가 해당 연령으로 추가된다. 1명은 남성으로 다른 1명은 여성으로 지정되고, 이때 2명의 역내 이민자는 결혼한다. 이러한 단계는 기혼 커플의 수가 보충될 때까지 반복된다. 마지막으로, 기혼 연령의 개체가 새로운 청소년을 추가하는 데 사용되는 것과 동일한 프로세스로 추가되고, 목표 역내 이민자 수가 달성될 때까지 반복된다. 이러한 프로세스는 집단의 연령 및 성별 분포와 가임 연령의 기혼 개체의 비율을 유지하는 데 도움이 된다.
7. 이주 - 하위-집단 내에서 움직이는 사람을 시뮬레이션한다. 하위-집단 간의 유전학적 분리의 결핍을 시뮬레이션하기 위해, 개체는 전체 집단 내에서 하위-집단 간을 이동할 수 있다. 단일 이동률이 전체 집단에 걸쳐 사용된다. 하위-집단의 개체는 원하는 수의 이주가 달성될 때까지 무작위로 선택되어 다른 하위-집단 중 하나에 무작위로 지정된다. 이러한 단계는 하나의 하위-집단이 존재하거나 이주율이 0인 경우 발생하지 않는다(기본값은 매년 전체 집단 이주의 1%임).
특정된 시간 동안 시뮬레이션을 진행하여 각 시조와 그 자손을 추적한다.
무작위 및 군집 확인이 모두 수행되었다. 확인 접근법 둘 다에서, 협력의 초기에 집단의 처음 5%(ordered_sampling_proportion 매개 변수로 지정됨)의 확인 순서가 순서 모델에서 GHS 바이오뱅크에 있는 개체의 무작위 시퀀싱 순서를 섞었다. 이러한 매개 변수의 선택은 무작위 확인에 영향을 미치지 않고, 군집 확인에서 쌍별 관계의 축적에 무시할 수 있는 영향을 미치지만, 람다 값이 높을수록 더 현저한 변곡점을 야기함으로써, 군집 샘플링에 의해 확인된 데이터 세트에서 1명 이상의 친척을 갖는 개체의 비율에 영향을 미쳤다. 이러한 변곡점은 실제 데이터의 동결 프로세스를 모델링하거나 바이오뱅크로부터의 시퀀싱 샘플과 새로 확인된 개체 사이의 매끄러운 전이를 모델링하는 경우 덜 현저할 것이다. 다음 하위-집단 집합으로 이동하기 전에 하나 이상의 하위-집단으로부터 확인하는 것을 시뮬레이션하려는 경우, 사용자는 하위-집단 확인 순서를 특정할 수 있다. 기본값은 모든 하위-집단을 초기에 그룹화하고, 마치 단일 집단인 것처럼 확인하는 것이다. 사용자는 또한 다른 하위-집단 또는 전체 집단으로 이동하기 전에 확인된 집단의 초기 비율을 특정할 수 있다. 프로그램은 전체 집단에 대한 ped 파일 형식의 출력, 확인된 순서대로 확인된 샘플의 목록, 및 유용한 집단 및 확인 통계를 요약한 여러 결과 파일을 확립하였다.
실시예 18
주어진 표현형의 유전학적 원인을 식별하는 데 도움을 주기 위해 가계도 구조를 사용하는 방법은 전형적으로 연관 매핑, 연결 분석 또는 둘 다에 대한 혁신적인 변형을 포함한다. 이러한 방법은 MORGAN31, pVAAST15, FBAT(www.hsph.harvard.edu/fbat/fbat.htm), QTDT (csg.sph.umich.edu/abecasis/qtdt/), ROADTRIPS, rareIBD 및 RV-GDT를 포함한다. 사용하는 적절한 방법은 표현형, 유전 방식, 조상 배경, 가계도 구조/크기, 가계도 수, 및 관련되지 않은 데이터 세트의 크기에 따라 상이하다. 관계와 가계도를 사용하여 유전자-표현형 연관성을 직접 조사하는 것 외에도, 이들은 가계도-인식 대치, 가계도-인식 페이징, 멘델 오차 확인, 복합 이형 접합 녹아웃 검출 및 데 노보 돌연변이 호출 및 변이체 호출 검증과 같은 추가적인 또는 개선된 데이터를 생성하는 다양한 다른 방식에 사용될 수 있다.
본 개시내용은 상술되고 예시된 예시적인 양태로 제한되지 않지만, 첨부된 청구범위의 범주 내에서 변형 및 수정될 수 있다.

Claims (138)

  1. 집단의 관련성(relatedness)을 활용함으로써 상기 집단에서 유전자 변이체를 페이징(phasing)하는 방법으로서, 하나 이상의 샘플 각각에 대한 조상 상강 지정(ancestral superclass designation)을 확립하는 단계; 조상 상강에서 대상체(subject)의 제 1 가계 정체성 추정치(identity-by-descent estimate)를 생성하는 단계; 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치를 생성하는 단계; 하나 이상의 상기 제 2 가계 정체성 추정치에 기초하여 대상체를 일차 1도 가족 네트워크(first-degree family network)로 클러스터링하는 단계; 일차 1도 가족 네트워크에서 대상체의 제 3 가계 정체성 추정치를 생성하는 단계; 제 1 및 제 3 가계 정체성 추정치를 병합하여 병합된 가계 정체성 추정치를 수득하는 단계; 병합된 가계 정체성 추정치에 기초하여 샘플의 이차 1도 가족 네트워크를 구성하는 단계; 및 병합된 가계 정체성 추정치 및 이차 1도 가족 네트워크에 따라 변이체를 복합 이형 접합 돌연변이(compound heterozygous mutation)(CHM)로서 또는 CHM이 아닌 것으로서 페이징하거나, 또는 병합된 가계 정체성 추정치 및 이차 1도 가족 네트워크에 따라 변이체를 데 노보 돌연변이(de novo mutation)(DNM)로서 식별하는 단계를 포함하는, 방법.
  2. 제 1 항에 있어서, 제 1 및 제 3 가계 정체성 추정치를 병합하는 단계는 상기 제 1 가계 정체성 추정치를 상기 제 3 가계 정체성 추정치에 고유한 쌍형(pairwise) 가계 정체성 추정치로 증강시키는 단계를 포함하는, 방법.
  3. 제 1 항에 있어서, 변이체를 복합 이형 접합 돌연변이(CHM)로서 페이징하는 단계는 변이체를 집단 대립 유전자 빈도(population allele frequency)에 따라 페이징하는 단계; 하디-바인베르크 평형(Hardy-Weinberg equilibrium)(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하고, 2 이하의 깊이별 품질(QD), 또는 5 미만의 판독 깊이(DP), 또는 10% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 단일 뉴클레오티드 다형성(SNP)을 제거한 다음, 2 이하의 QD, 또는 5 미만의 DP, 또는 10% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(insertions or deletions)(INDELS)을 제거하는 단계; 남아 있는 변이체를 동일한 샘플에서 및 동일한 유전자에서 하나 이상의 변이체 쌍이 존재하는 잠재적 복합 이형 접합 돌연변이(pCHMs)로서 선택하는 단계; 및 pCHM을 시스 또는 트랜스 pCHM으로 페이징한 다음, 트랜스 pCHM으로서 페이징된 pCHM을 CHM으로서 분류하는 단계를 포함하는, 방법.
  4. 제 3 항에 있어서, 변이체를 복합 이형 접합 돌연변이로서 페이징하는 단계는, 하디-바인베르크 평형(HWE)의 외측에서 또는 동일한 샘플의 다른 변이체의 10개의 염기쌍 내에서 또는 이들 둘다에서 변이체를 제거하는 단계; 및 3 이하의 깊이별 품질(QD), 또는 7 미만의 판독 깊이(DP), 또는 15% 이하의 교대 대립 유전자 평형(AB), 또는 이들의 조합을 갖는 SNP를 제거하는 단계; 및 5 이하의 QD, 또는 10 미만의 DP, 또는 20% 이하의 AB, 또는 이들의 조합을 갖는 삽입물 또는 삭제물(INDELS)을 제거하는 단계를 포함하는, 방법.
  5. 제 3 항에 있어서, CHM을 표현형 중증도(phenotype severity)에 따라 채점하는 단계, 및 샘플에 대해 유전자당 가장 높은 표현형 중증도를 갖는 CHM을 선택함으로써, 인간이 동일 유전자에서 하나 이상의 CHM을 가질 경우 단백질 기능 억제를 일으킬 가능성이 가장 높은 CHM을 식별하는 단계를 추가로 포함하는, 방법.
  6. 제 1 항에 있어서, 변이체를 데 노보 돌연변이로서 페이징하는 단계는 이차 1도 가족 네트워크 및 그의 트리오(trios)의 샘플에서 변이체를 식별하는 단계; 유전자형 우도 점수(genotype likelihood score)를 트리오의 부모 샘플 및 상응하는 자식 샘플에서 변이체에 할당하여 상기 변이체가 데 노보 돌연변이일 확률을 계산하고, 상기 계산된 확률이 통계적으로 유의할 경우에 상기 변이체를 가능성 있는 데 노보 돌연변이로서 식별하는 단계; 트리오의 자식 샘플에서 변이체를 식별하고, 상기 변이체가 트리오의 부모 샘플 중의 어느 하나에서 존재하지 않을 경우에 상기 변이체를 가능성 있는 데 노보 돌연변이로 식별하는 단계; 자식 샘플에서 35 미만의 유전자형 품질(GQ) 주석(annotation)을 갖거나, 또는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 10 이상의 교대 대립 유전자 카운트(allele count)(AC)를 갖거나, 또는 자식 샘플에서 7 미만의 판독 깊이(DP) 및 4 미만의 교대 DP를 갖거나, 또는 부모 샘플 중의 어느 하나에서 2% 초과의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 15% 미만의 대립 유전자 평형(AB)을 갖거나, 또는 자식 샘플에서 90% 초과의 AB를 갖거나, 또는 부모 샘플 중의 어느 하나에서 교대 대립 유전자 동형 접합성을 갖거나, 또는 이들의 조합을 갖는 가능성 있는 데 노보 돌연변이를 제거함으로써 식별된 가능성 있는 데 노보 돌연변이를 필터링하는 단계; 및 필터링된 식별된 가능성 있는 데 노보 돌연변이를 조합함으로써 가능성 있는 데 노보 돌연변이 데이터 세트를 형성하는 단계를 포함하는, 방법.
  7. 제 6 항에 있어서, 가능성 있는 데 노보 돌연변이가 자식 샘플에서 0.15 이상 및 각각의 부모 샘플에서 0.02 이하의 대립 유전자 평형을 갖고, 40 미만의 맵핑 품질(mapping quality)을 갖지 않고, 2 미만의 깊이별 품질(QD) 값을 갖지 않고, 샘플 전체에 걸쳐 20 미만의 MAC를 갖고, 캐리어 중에서 상기 가능성 있는 데 노보 돌연변이의 변이체 사이트에서 3 이하의 소프트-클립핑된 판독값(soft-clipped reads)을 가지며, 4 초과의 모노-폴리머 런(mono-polymer run)을 갖는 INDEL이 아닌 경우에 가능성 있는 데 노보 돌연변이 데이터 세트에서 가능성 있는 데 노보 돌연변이를 중간 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함하는, 방법.
  8. 제 7 항에 있어서, 중간 신뢰도 데 노보 돌연변이가 부모 샘플에서 90 이상의 유전자형 품질 주석을 갖고, 각각의 부모 샘플에서 10 이상의 판독 깊이를 갖고, 자식 샘플에서 7 이상의 교대 판독 깊이를 갖고, SNP에 대해 3 초과의 QD를 가지며, INDEL에 대해 5 초과의 QD를 갖는 경우에 상기 중간 신뢰도 데 노보 돌연변이를 고 신뢰도 데 노보 돌연변이로서 분류하는 단계를 추가로 포함하는, 방법.
  9. 제 6 항에 있어서, 상기 데이터 세트에서 저품질 샘플을 제거하는 단계로서, 상기 저품질 샘플이 ≥0.12의 D-stat 또는 <75%의 20x 판독 범위, 또는 이들 둘다를 갖는 샘플인, 단계를 추가로 포함하는, 방법.
  10. 데이터 프로세서; 및 상기 데이터 프로세서에 연결된 메모리를 포함하는 시스템으로서, 상기 메모리는 하기의 단계들을 수행하는 프로그램을 저장하는 시스템:
    복수의 인간 대상체로부터의 DNA 서열 샘플에서 변이체를 식별하는 단계; 식별된 변이체에 기초하여 대상체에 대한 조상 상강 지정을 확립하는 단계; 조상 상강 내에서 대상체의 제 1 가계 정체성 추정치를 생성하는 단계; 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치를 생성하는 단계; 하나 이상의 상기 제 2 가계 정체성 추정치에 기초하여 대상체를 일차 1도 가족 네트워크로 클러스터링하는 단계; 일차 1도 가족 네트워크 내에서 대상체의 제 3 가계 정체성 추정치를 생성하는 단계; 제 1 및 제 3 가계 정체성 추정치를 병합하여 병합된 가계 정체성 추정치를 수득하는 단계; 병합된 가계 정체성 추정치에 기초하여 이차 1도 가족 네트워크를 구성하는 단계; 집단 대립 유전자 빈도에 따라 샘플에서 변이체를 페이징하는 단계; 동일한 대상체 및 유전자에서 둘 이상의 변이체의 존재에 기초하여 페이징된 변이체를 잠재적 CHM으로서 분류하는 단계; 및 동일한 대상체 및 유전자에서 잠재적 복합 이형 접합 돌연변이("CHM")를 또 다른 변이체와 시스 또는 트랜스로서 페이징한 다음, 트랜스로서 페이징된 잠재적 CHM을 CHM으로서 분류하는 단계.
  11. 제 10 항에 있어서, 상기 프로그램은 대상체에 대한 조상 상강 지정이 확립되기 전에 식별된 변이체를 필터링하는 단계를 더 수행하는, 시스템.
  12. 제 10 항에 있어서, 상기 프로그램은 대상체의 제 2 가계 정체성 추정치가 생성되기 전에 식별된 변이체를 필터링하는 단계를 더 수행하는, 시스템.
  13. 제 10 항 내지 제 12 항 중 어느 한 항에 있어서, 변이체를 필터링하는 단계는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 10% 초과의 교대 대립 유전자 빈도를 갖는 변이체, 또는 > 10-6 의 p-값을 갖는 하디-바인베르크 평형(HWE)을 위반하는 변이체, 또는 복수의 인간 대상체로부터의 샘플의 > 5%의 누락된 호출을 갖는 변이체, 또는 이들의 조합을 제거하는 단계를 포함하는, 시스템.
  14. 제 11 항에 있어서, 상기 프로그램은 식별된 변이체가 필터링된 후에 저품질 샘플을 제거하는 단계를 더 수행하는, 시스템.
  15. 제 14 항에 있어서, 저품질 샘플은 >0.12의 D-stat 또는 <75%의 20x 판독 범위, 또는 이들 둘다를 갖는 샘플인, 시스템.
  16. 제 10 항에 있어서, 제 1 및 제 3 가계 정체성 추정치를 병합하는 단계는 상기 제 1 가계 정체성 추정치를 상기 제 3 가계 정체성 추정치에 고유한 쌍형 가계 정체성 추정치로 증강시키는 단계를 포함하는, 시스템.
  17. 데이터 프로세서; 및 상기 데이터 프로세서에 연결된 메모리를 포함하는 시스템으로서, 상기 메모리는 하기의 단계들을 수행하는 프로그램을 저장하는 시스템:
    복수의 인간 대상체로부터의 DNA 서열 샘플에서 변이체를 식별하는 단계; 식별된 변이체에 기초하여 대상체에 대한 조상 상강 지정을 확립하는 단계; 조상 상강 내에서 대상체의 제 1 가계 정체성 추정치를 생성하는 단계; 대상체의 조상 상강과 독립적인 대상체의 제 2 가계 정체성 추정치를 생성하는 단계; 하나 이상의 상기 제 2 가계 정체성 추정치에 기초하여 대상체를 일차 1도 가족 네트워크로 클러스터링하는 단계; 일차 1도 가족 네트워크 내에서 대상체의 제 3 가계 정체성 추정치를 생성하는 단계; 제 1 및 제 3 가계 정체성 추정치를 병합하여 병합된 가계 정체성 추정치를 수득하는 단계; 병합된 가계 정체성 추정치에 기초하여 핵가족을 구성하는 단계; 핵가족에서 변이체를 식별하는 단계; 구성된 핵가족에서 트리오의 각각의 부모 및 자식으로부터의 샘플의 변이체에 유전자형 우도 점수를 할당하고 변이체가 데 노보 돌연변이일 확률을 계산하고, 변이체가 데 노보 돌연변이일 유의적으로 높은 확률을 선택하는 단계, 및 트리오의 부모 샘플 중의 어느 하나에서 호출되지 않은 자식 샘플에서 호출된 변이체를 독립적으로 순수하게 식별하는 단계, 및 이어서 데 노보 돌연변이의 2개의 세트를 조합함으로써 가능성 있는 데 노보 돌연변이의 데이터 세트를 형성하는 단계.
  18. 제 17 항에 있어서, 상기 프로그램은 대상체에 대한 조상 상강 지정이 확립되기 전에 식별된 변이체를 필터링하는 단계를 더 수행하는, 시스템.
  19. 제 17 항에 있어서,상기 프로그램은 대상체의 제 2 가계 정체성 추정치가 생성되기 전에 식별된 변이체를 필터링하는 단계를 더 수행하는, 시스템.
  20. 제 18 항에 있어서, 변이체를 필터링하는 단계는 복수의 인간 대상체로부터의 샘플 전체에 걸쳐 10% 초과의 교대 대립 유전자 빈도를 갖는 변이체, 또는 > 10-6의 p-값을 갖는 하디-바인베르크 평형(HWE)을 위반하는 변이체, 또는 복수의 인간 대상체로부터의 샘플의 > 5%의 누락된 호출을 갖는 변이체, 또는 이들의 조합을 제거하는 단계를 포함하는, 시스템.
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
  61. 삭제
  62. 삭제
  63. 삭제
  64. 삭제
  65. 삭제
  66. 삭제
  67. 삭제
  68. 삭제
  69. 삭제
  70. 삭제
  71. 삭제
  72. 삭제
  73. 삭제
  74. 삭제
  75. 삭제
  76. 삭제
  77. 삭제
  78. 삭제
  79. 삭제
  80. 삭제
  81. 삭제
  82. 삭제
  83. 삭제
  84. 삭제
  85. 삭제
  86. 삭제
  87. 삭제
  88. 삭제
  89. 삭제
  90. 삭제
  91. 삭제
  92. 삭제
  93. 삭제
  94. 삭제
  95. 삭제
  96. 삭제
  97. 삭제
  98. 삭제
  99. 삭제
  100. 삭제
  101. 삭제
  102. 삭제
  103. 삭제
  104. 삭제
  105. 삭제
  106. 삭제
  107. 삭제
  108. 삭제
  109. 삭제
  110. 삭제
  111. 삭제
  112. 삭제
  113. 삭제
  114. 삭제
  115. 삭제
  116. 삭제
  117. 삭제
  118. 삭제
  119. 삭제
  120. 삭제
  121. 삭제
  122. 삭제
  123. 삭제
  124. 삭제
  125. 삭제
  126. 삭제
  127. 삭제
  128. 삭제
  129. 삭제
  130. 삭제
  131. 삭제
  132. 삭제
  133. 삭제
  134. 삭제
  135. 삭제
  136. 삭제
  137. 삭제
  138. 삭제
KR1020207009945A 2017-09-07 2018-09-07 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법 KR102648634B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020247008421A KR20240038142A (ko) 2017-09-07 2018-09-07 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762555597P 2017-09-07 2017-09-07
US62/555,597 2017-09-07
PCT/US2018/049967 WO2019051238A1 (en) 2017-09-07 2018-09-07 SYSTEMS AND METHODS OF OPERATING PARENTAL IN GENOMIC DATA ANALYSIS

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020247008421A Division KR20240038142A (ko) 2017-09-07 2018-09-07 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20200065000A KR20200065000A (ko) 2020-06-08
KR102648634B1 true KR102648634B1 (ko) 2024-03-19

Family

ID=63684599

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020207009431A KR20200050992A (ko) 2017-09-07 2018-09-07 인간 집단의 관련성을 예측하기 위한 시스템 및 방법
KR1020207009945A KR102648634B1 (ko) 2017-09-07 2018-09-07 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법
KR1020247008421A KR20240038142A (ko) 2017-09-07 2018-09-07 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020207009431A KR20200050992A (ko) 2017-09-07 2018-09-07 인간 집단의 관련성을 예측하기 위한 시스템 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020247008421A KR20240038142A (ko) 2017-09-07 2018-09-07 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법

Country Status (11)

Country Link
US (3) US11605444B2 (ko)
EP (2) EP3679575A1 (ko)
JP (3) JP7277438B2 (ko)
KR (3) KR20200050992A (ko)
CN (3) CN111247599A (ko)
AU (3) AU2018327331A1 (ko)
CA (2) CA3075266A1 (ko)
IL (2) IL272927A (ko)
MX (2) MX2020002665A (ko)
SG (2) SG11202001715YA (ko)
WO (2) WO2019051233A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL3207481T3 (pl) * 2014-10-14 2020-05-18 Ancestry.Com Dna, Llc Redukowanie błędu w przewidywanych powiązaniach genetycznych
JP2021536635A (ja) 2018-09-07 2021-12-27 リジェネロン・ファーマシューティカルズ・インコーポレイテッドRegeneron Pharmaceuticals, Inc. 家系エンリッチメント及び家系内の家族ベース解析のための方法及びシステム
CN110060737B (zh) * 2019-04-30 2023-04-18 上海诚明融鑫科技有限公司 一种基于最大频率虚拟个体的str快速比对方法及系统
CN110974203B (zh) * 2019-12-10 2020-12-04 电子科技大学 一种基于等值排列网络的心率非平衡性分析方法
CN111883207B (zh) * 2020-07-31 2022-08-16 武汉蓝沙医学检验实验室有限公司 一种生物学亲缘关系的鉴定方法
CN116209777A (zh) * 2020-10-27 2023-06-02 深圳华大基因股份有限公司 基于无创产前基因检测数据的亲缘关系判定方法和装置
WO2022109267A2 (en) 2020-11-19 2022-05-27 Regeneron Pharmaceuticals, Inc. Genotyping by sequencing
CN112863601B (zh) * 2021-01-15 2023-03-10 广州微远基因科技有限公司 病原微生物耐药基因归属模型及其建立方法和应用
CN113380328B (zh) * 2021-04-23 2023-06-20 中国人民大学 一种基于mRNA碱基的生物亲缘识别方法和系统
GB2621782A (en) * 2021-05-05 2024-02-21 Univ Leland Stanford Junior Methods and systems for analyzing nucleic acid molecules
CN115101130A (zh) * 2022-06-30 2022-09-23 山东大学 一种基于网络对抗学习的单细胞数据插补方法及系统

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1288835A1 (en) * 2001-08-31 2003-03-05 Hitachi, Ltd. A method for defining gene hunting studies
WO2006093879A2 (en) * 2005-02-26 2006-09-08 Coco Communications Corporation Naming system layer
US20080055049A1 (en) * 2006-07-28 2008-03-06 Weill Lawrence R Searching methods
US20090177496A1 (en) * 2005-09-28 2009-07-09 Tuck Edward F Relationship prediction system
CA2630070A1 (en) * 2005-11-17 2007-05-31 Motif Biosciences, Inc. Systems and methods for the biometric analysis of index founder populations
WO2008025093A1 (en) * 2006-09-01 2008-03-06 Innovative Dairy Products Pty Ltd Whole genome based genetic evaluation and selection process
JP4778876B2 (ja) * 2006-11-02 2011-09-21 株式会社エー・アンド・デイ エンジン計測装置
US20130080365A1 (en) * 2011-04-13 2013-03-28 The Board Of Trustees Of The Leland Stanford Junior University Phased Whole Genome Genetic Risk In A Family Quartet
EP3514798A1 (en) * 2011-10-31 2019-07-24 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
WO2013112948A1 (en) * 2012-01-26 2013-08-01 Nodality, Inc. Benchmarks for normal cell identification
US9177098B2 (en) * 2012-10-17 2015-11-03 Celmatix Inc. Systems and methods for determining the probability of a pregnancy at a selected point in time
US20140222349A1 (en) * 2013-01-16 2014-08-07 Assurerx Health, Inc. System and Methods for Pharmacogenomic Classification
EP2949204B2 (en) * 2013-06-14 2020-06-03 Keygene N.V. Directed strategies for improving phenotypic traits
AU2014284180B2 (en) * 2013-06-21 2020-03-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20150088541A1 (en) * 2013-09-26 2015-03-26 Univfy Inc. System and method of using personalized outcome probabilities to support the consumer in comparing costs and efficacy of medical treatments and matching medical provider with consumer
JP6399511B2 (ja) * 2013-09-30 2018-10-03 学校法人近畿大学 家系図作成支援装置及びコンピュータプログラム
US10468121B2 (en) 2013-10-01 2019-11-05 Complete Genomics, Inc. Phasing and linking processes to identify variations in a genome
US20150112706A1 (en) * 2013-10-17 2015-04-23 Ovuline, Inc. System and Methods for Personal health Analytics Technical Field
WO2015058093A1 (en) * 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for genotyping genetic samples
CA2937502A1 (en) * 2014-01-27 2015-07-30 Celmatix, Inc. Methods for assessing whether a genetic region is associated with infertility
US9670530B2 (en) 2014-01-30 2017-06-06 Illumina, Inc. Haplotype resolved genome sequencing
US9779460B2 (en) * 2014-02-18 2017-10-03 Marineh Tchakerian Systems, methods and non-transitory computer readable storage media for tracking and evaluating predictions regarding relationships
US20160042282A1 (en) * 2014-08-11 2016-02-11 Rashied Baradaran Amini Relationship evaluator
WO2016049878A1 (zh) * 2014-09-30 2016-04-07 深圳华大基因科技有限公司 一种基于snp分型的亲子鉴定方法及应用
EP3216002A4 (en) * 2014-11-06 2018-04-18 Ancestryhealth.com, LLC Predicting health outcomes
CN106169034B (zh) * 2016-05-26 2019-03-26 中国农业科学院作物科学研究所 基因组信息辅助育种方法i-基于snp聚类信息和pav变异信息的育种亲本选择

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mark M Sasaki 외, Whole-exome Sequence Analysis Implicates Rare Il17REL Variants in Familial and Sporadic Inflammatory Bowel Disease, Inflamm Bowel Dis., 2017.01.01., Vol.22, No.1, pp.20-27.
Sharon R. Browning 외, Detecting Rare Variant Associations by Identity-by-Descent Mapping in Case-Control Studies, Genetics, 2012.04.01., Vol.190, No.4, pp.1521-1531.

Also Published As

Publication number Publication date
KR20200065000A (ko) 2020-06-08
JP7277438B2 (ja) 2023-05-19
WO2019051238A1 (en) 2019-03-14
IL272927A (en) 2020-04-30
AU2018327326A1 (en) 2020-03-19
MX2020002665A (es) 2020-10-05
US20190205502A1 (en) 2019-07-04
SG11202001747XA (en) 2020-03-30
CN111279420A (zh) 2020-06-12
JP2020533679A (ja) 2020-11-19
AU2023282218A1 (en) 2024-01-04
CN111247599A (zh) 2020-06-05
JP2020532989A (ja) 2020-11-19
US20190074092A1 (en) 2019-03-07
JP2023103325A (ja) 2023-07-26
EP3679575A1 (en) 2020-07-15
CN117746978A (zh) 2024-03-22
CN111279420B (zh) 2024-01-16
MX2020002664A (es) 2020-09-25
IL272963A (en) 2020-04-30
WO2019051233A1 (en) 2019-03-14
KR20240038142A (ko) 2024-03-22
KR20200050992A (ko) 2020-05-12
CA3075266A1 (en) 2019-03-14
US11605444B2 (en) 2023-03-14
EP3679576A1 (en) 2020-07-15
AU2018327331A1 (en) 2020-03-12
CA3075182A1 (en) 2019-03-14
US20220336045A1 (en) 2022-10-20
SG11202001715YA (en) 2020-03-30

Similar Documents

Publication Publication Date Title
KR102648634B1 (ko) 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법
Sasani et al. Large, three-generation human families reveal post-zygotic mosaicism and variability in germline mutation accumulation
Staples et al. Profiling and leveraging relatedness in a precision medicine cohort of 92,455 exomes
Wu et al. A comparison of humans and baboons suggests germline mutation rates do not track cell divisions
Halman et al. Accuracy of short tandem repeats genotyping tools in whole exome sequencing data
Luo et al. Worldwide genetic variation of the IGHV and TRBV immune receptor gene families in humans
Ruark et al. The ICR1000 UK exome series: a resource of gene variation in an outbred population
Garimella et al. Detection of simple and complex de novo mutations with multiple reference sequences
Niehus et al. PopDel identifies medium-size deletions jointly in tens of thousands of genomes
Ribeiro-dos-Santos et al. High-throughput sequencing of a South American Amerindian
Rusman et al. Evidence of hybridization, mitochondrial introgression and biparental inheritance of the kDNA minicircles in Trypanosoma cruzi I
Zhang et al. NyuWa Genome Resource: Deep Whole Genome Sequencing Based Chinese Population Variation Profile and Reference Panel
Löytynoja Thousands of human mutation clusters are explained by short-range template switching
Wu et al. A comparison of humans and baboons suggests germline mutation rates do not track cell divisions
Hård et al. Conbase: a software for discovery of clonal somatic mutations in single cells through read phasing
Zeng et al. A pipeline for classifying relationships using dense SNP/SNV data and putative pedigree information
Yilmaz et al. Genome-wide Copy Number Variations in a Large Cohort of Bantu African Children
Löytynoja Drastic mutations can be hidden in short-read mapping: thousands of mutation clusters in human genome are explained by short-range template switching
Harris et al. The evolutionary genomic dynamics of Peruvians before, during, and after the Inca Empire
Richter Noncoding Genetic Variants in Congenital Heart Disease
이선호 New Methods for SNV/InDel Calling and Haplotyping from Next Generation Sequencing Data
Sirsi et al. Using genome-wide data to ascertain taxonomic status and assess population genetic structure for Houston toads (Bufo [= Anaxyrus] houstonensis)
Kim et al. LT1, an ONT long-read-based assembly scaffolded with Hi-C data and polished with short reads
Shogren et al. Recent secondary contact, genome-wide admixture, and limited introgression of neo-sex chromosomes between two Pacific island bird species
Al-Jumaan et al. Low-pass Whole Genome Imputation Enables the Characterization of Polygenic Breast Cancer Risk in the Indigenous Arab Population

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant