KR20200050992A - 인간 집단의 관련성을 예측하기 위한 시스템 및 방법 - Google Patents

인간 집단의 관련성을 예측하기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20200050992A
KR20200050992A KR1020207009431A KR20207009431A KR20200050992A KR 20200050992 A KR20200050992 A KR 20200050992A KR 1020207009431 A KR1020207009431 A KR 1020207009431A KR 20207009431 A KR20207009431 A KR 20207009431A KR 20200050992 A KR20200050992 A KR 20200050992A
Authority
KR
South Korea
Prior art keywords
individuals
population
age
dataset
population dataset
Prior art date
Application number
KR1020207009431A
Other languages
English (en)
Inventor
제프리 스테이플스
루카스 하베거
제프리 레이드
Original Assignee
리제너론 파마슈티칼스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 리제너론 파마슈티칼스 인코포레이티드 filed Critical 리제너론 파마슈티칼스 인코포레이티드
Publication of KR20200050992A publication Critical patent/KR20200050992A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Abstract

인간 집단 내의 관련성의 예측 모델을 준비하기 위한 방법, 컴퓨터 구현 방법 및 시스템이 제공된다. 방법, 컴퓨터 구현 방법 및 시스템에 의해 준비된 예측 모델은 다양한 연구 집단 및 표본화 접근법을 모델링하여 연구자들이 유전자 코호트에서 예상해야 하는 관련성의 양을 추정하는 데 사용될 수 있다.

Description

인간 집단의 관련성을 예측하기 위한 시스템 및 방법
[관련 출원에 대한 상호참조]
본 출원은 2017년 9월 7일에 출원된 미국 가특허출원 제62/555,597호의 이익을 주장하며; 본 출원의 전문은 본 명세서에 참조로 포함된다. 또한, "Systems and Methods For Leveraging Relatedness In Genomic Data Analysis"라는 명칭으로 2018년 9월 7일에 출원된 공동 계류 출원도 그 전문이 참조로 포함된다.
본 개시는 일반적으로 인간 집단(human population)의 관련성(relatedness)의 예측 모델에 관한 것이다. 보다 구체적으로, 본 개시는 인간 집단의 관련성 모델을 작성하고 유전자 연구용 집단으로부터 개체의 서브세트를 선택하기 위한 모델을 동정하기 위한 시스템 및 방법에 관한 것이다.
인간 질환의 증상은 환경적 요인뿐만 아니라, 유전적 요인에 의해서 생기며 영향을 받는다. 따라서, 인간 집단의 유전 변이에 대한 이해는 인간 질환의 병인 및 진행에 대한 이해뿐만 아니라, 이들 질환의 치료를 위한 새로운 약물 표적의 동정에 중요하다.
건강 관리 집단에 대한 유전자 연구는, 유전 변이체가 인간 질환의 증상에 어떻게 기여하는지에 대한 연구를 단순화하는 광범위한 건강 관리 데이터의 이용 가능성 때문에 특히 이와 관련하여 유용하다. 종래에, 이러한 연구는 일반적으로 질환 유전자좌(disease loci)를 맵핑하기 위한 게놈-와이드 유전자 계대 분석(genome-wide genetic linkage analyses)에 기초하였으며, 이는 동정되면, 그 후에 분자 레벨에 대해 더욱 상세하게 분석될 수 있다. 지난 몇 년간, 고수율 DNA 시퀀싱 기술의 광범위한 이용 가능성은 수십만 명의 인간의 게놈의 병렬 시퀀싱을 가능하게 해주었다. 이론적으로, 고수율 DNA 시퀀싱 기술로부터 얻은 데이터는 인간 질환의 유전자 언더피닝(genetic underpinnings)을 해독하는 데 사용할 수 있는 강력한 정보원을 나타낸다. DiscovEHR(Dewey 등(2016) Science, 354, aaf6814), UK Bio bank/the US government's All of Us(정밀 의료 계획(Precision Medicine Initiative)의 일부)(Collins and Varmus(2015) N. Engl. J. Med. 372, 793-795), TOPMed, ExAC/gnomAD(Lek 등(2016) Nature 536, 285-291); 및 많은 다른 것들을 포함한, 이러한 대규모 인간 시퀀싱 프로젝트의 수와 규모가 급성장하고 있다. 이들 연구 중 다수는 전자 건강 기록(electronic health record: EHR)과 게놈 서열 데이터를 조합하여 번역 발견 및 정밀 의학을 촉진시키는 것을 목표로 표현형이 풍부한(phenotype-rich) 전자 건강 기록(EHR)을 수반하는 통합 건강 관리 집단으로부터 표본을 수집하고 있다(Dewey 등(2016) Science, 354, aaf6814).
전통적으로, 대규모 유전자 연구의 높은 비용과 개별 연구자의 자원 제한은 다양한 지리적 영역으로부터 개체들에 대한 피상적인 확인을 나타내는 연구 집단을 생성했다. 통계적 검증력(statistical power)을 개선하기 위해서, 연구자들은 다양한 수집 센터로부터의 표본을 더 큰 코호트(cohort)로 결합하며, 이들 코호트는 종종 수만 내지 수십만 명의 개체로 이루어지는 더 큰 컨소시엄으로 병합된다. 표본화된 개체들의 총 수는 종종 많지만, 이들 연구는 전형적으로 임의의 제공된 지리적 영역 내의 상대적으로 적은 비율의 개체들만을 표본화한다. 이러한 전통적인 집단 기반 연구는 일반적으로 다수의 지리적 영역으로부터 표본을 수집했기 때문에, 가장 일반적으로 가장 광범위한 "등급"(class)의 관련성, 즉 집단 구조(population structure)를 나타낸다. 유전자 연구에서의 집단 구조(종종 "하위구조(substructure)" 또는 "계층화(stratification)"라고 칭함)는 상이한 조상 그룹, 또는 "유전자 딤(genetic demes)"의 대립 유전자 빈도가 딤들 사이보다 딤들 내에서 더 유사할 때에 발생한다. 유전자 딤은 보다 최근의 유전자 분리(genetic isolation), 표류(drift), 및 이주 패턴(migration pattern)의 결과로서 발생한다. 유전자 딤 내의 개체들의 동정은 관계가 먼 난해한 관련성(Henn 등(2012) PLoS ONE 7, e324267; Han 등(2017) Nat. Commun. 8, 14238), 즉, 여기서는 3촌 내지 9촌 친척이라고 정의된, 제2 "등급"의 관련성을 생성할 수 있다. 이러한 먼 친척은 EHR로부터 동정할 가능성이 없지만, 일반적으로 그들의 게놈의 하나 이상의 큰 세그먼트가 그들의 관련성 정도와 대립 유전자의 재조합 및 분리에 따라, 유전에 의해 동일하기 때문에 중요하다(Huff 등(2011) Genome Res. 21, 768-774). 관계가 먼 난해한 관련성은 일반적으로 대규모 집단의 작은 표본화로부터 구축된 연구 코호트에서 제한적이지만, 유효 집단 크기가 감소하고 표본 크기가 증가함에 따라 난해한 관련성의 레벨이 실질적으로 증가한다. 최종적으로, 가족을 수집하도록 설계되지 않는 한, 전통적인 집단 기반 연구는 전형적으로 아주 적은 가족 구조, 즉, 1촌 및 2촌 관계로 이루어지는 제3 등급의 관련성(Sudlow 등 PLoS Med. 12, e1001779; Han 등(2017) Nat. Commun. 8, 14238; Fuchsberger 등(2016) Nature 536, 41-47; Locke 등(2015) Nature 51, 197-206; Surendran 등(2016) Nat. Genet 48, 1151-1161)을 갖는다.
코호트 내의 가족 구조의 증가는 다운스트림 분석의 선택 및 실행에 상당한 영향을 미칠 수 있고 신중하게 고려되어야 한다. 임의의 집단을 분석하기 위한 통계 도구를 선택하기 위해서, 집단의 관련성의 양에 대한 지식이 중요한 역할을 한다(Santorico 등(2014) Genet. Epidemiol. 38(Suppl 1), S92-S96; Hu 등(2014) Nat. Biotechnol. 32, 663-669; Price 등(2010) Nat. Rev. Genet. 11, 459-463; Kang 등(2010) Nat. Genet. 42, 348-354; Sun 및 Dimitromanolakis(2012) Methods Mol. Biol 850, 47 -57; Devlin 및 Roeder(1999) Biometrics 55, 997-1004; 및 Voight 및 Pritchard(2005) PLoS Genet. 1, e32). 예를 들어, 일부 도구(예를 들어, 주성분 [PC] 분석)는 모든 개체가 관련이 없다고 가정하며, 일부(예를 들어, 선형 혼합 모델)는 쌍별 관계의 추정을 효과적으로 처리하고, 다른 도구(예를 들어, 계대 및 TOT 분석)는 혈통 구조(pedigree structure)를 직접 활용할 수 있다.
가족 구조의 제거(즉, 관계를 제거하기 위해 표본을 선택적으로 제외함)는 잠재적으로 가치 있는 관계 정보를 폐기하면서 표본 크기 및 파워를 감소시킨다. 분석 또는 시각화에 필요한 혈통 구조에서, 관련성은 PRIMUS(Staples 등(2014) Am. J. Hum. Genet. 95, 553-564) 및 CLAPPER(Ko 및 Neilsen(2017) PLoS Genet. 95, 553-564)와 같은 도구를 사용하여 유전자 데이터로부터 혈통 구조를 직접 재구성하기 위해 사용될 수 있다. 데이터세트 내의 관련성 및 가족 구조의 유용성은 관련성이 있는 데이터세트 내의 변이의 동정 및 특성에 대한 통찰력을 제공할 수 있다. 따라서, 혈통을 재구성하고, 복합 이형접합성 돌연변이(compound heterozygous mutation: CHM)를 단계화(phasing)하며, 드 노보 돌연변이(de novo mutation: DNM)를 검출함으로써 연구에 대한 관련성을 활용하여 유전자 데이터를 보다 잘 분석하기 위해서는, 집단 간의 관련성을 갖는 데이터세트가 도움이 된다.
그러나, 오늘날 데이터세트의 크기 증가는 이들을 효율적으로 계속해서 처리하기 위한 생물정보학 툴(bioinformatics tools)과 분석 파이프라인의 지속적인 혁신을 필요로 한다. 데이터세트를 선택할 때에는, 종종 연구자들이 얼마나 많은 관련성을 볼 것으로 예상해야 하는지, 그리고 이전의 집단 기반 게놈 연구에서 보여지는 관련성의 레벨을 따를 것인지의 여부는 불분명하다. 다운스트림 분석에 관련성이 미치는 영향을 고려하면, 이러한 양의 관련성이 예상되는지, 데이터세트에 독특한 것인지, 그리고 시퀀싱된 코호트가 확장됨에 따라 얼마나 증가할지를 결정할 필요가 있다. 본 개시는 이러한 필요성을 해결한다.
일 양태에서, 본 개시의 예시적인 실시형태는 인간 집단의 관련성의 예측 모델을 제공한다. 예측 모델은 제1 집단 데이터세트를 확립하는 단계; 제2 집단 데이터세트를 확립하기 위해 120년의 번인 단계(burn-in phase)를 수행하는 단계; 및 이하의 단계 중 하나 이상을 실행함으로써 제2 집단 데이터세트를 변경하는 단계를 포함하는 프로세스에 의해 준비될 수 있다: (a) 제2 집단 데이터세트 내의 개체들을 개체들의 연령에 따라 연령 풀(age pool)로 이동시키는 단계; (b) 제2 집단 데이터세트 내의 독신 남성 및 독신 여성으로부터 무작위로 사촌(first-cousin)보다 관계가 더 먼 독신 남성 및 독신 여성의 쌍을 선택하고 이들을 연령 파라미터에 의해 특정의 결혼으로 결혼시키는 단계 - 상기 쌍은 다수의 결혼이 결혼률 파라미터에 의해 특정된 바와 같이 달성될 때까지 선택됨 -; (c) 기혼 커플을 특정의 이혼율로 이혼시키는 단계 - 상기 기혼 커플은 제2 집단 데이터세트로부터 무작위로 선택되고 이혼 시 독신으로서 표시됨 -; (d) 독신 남성 및 독신 여성 또는 기혼 커플의 쌍을 특정의 비율로 제2 집단 데이터세트로부터 무작위로 선택하고, 상기 쌍이 성공적인 임신의 목표 수에 도달될 때까지 특정의 출산률(fertility rate)에 따라 재생산할 수 있게 하는 단계 - 부모는 사촌보다 관계가 더 먼 것으로 제한되며, 제2 집단 데이터세트 내의 모든 개체는 매년 1명의 자녀를 갖는 것으로 제한됨 -; (e) 제2 집단 데이터세트 내의 개체들이 연령 파라미터에 의해 특정의 사망률 및 특정의 치사율로 사망할 수 있게 하는 단계; (f) 개체들이 제2 인구 데이터세트로 또는 그로부터 이주할 수 있게 하는 단계 - 이에 따라, 집단의 연령 및 성별 분포 및 제2 집단 데이터세트 내의 기혼의 출산 가능한 연령의 개체들의 비율이 유지됨 -; (g) 개체들이 제2 집단 데이터세트 내에서 이동할 수 있게 하는 단계 - 이에 따라, 하위 집단으로부터의 개체들이 무작위로 선택되고 하위 집단들 간의 특정의 이동률이 달성될 때까지 존재하는 경우 다른 하위 집단에 무작위로 할당됨 -; 및 소정의 연수 동안 1년 간격으로 반복적으로 단계 (a) 내지 (g) 중 하나 이상을 반복하는 단계 - 상기 단계들은 이전의 반복으로부터 생긴 집단 데이터세트에 적용되어 소정의 시간에 인간 집단 내의 관련성의 예측 모델을 나타내는 최종 집단 데이터세트를 생성함.
일부 예시적인 실시형태에서, 제1 집단 데이터세트를 확립하는 단계는 다수의 하위 집단 및 크기를 특정하는 단계를 더 포함한다.
일부 예시적인 실시형태에서, 제1 집단 데이터세트를 확립하는 단계는 제1 집단 데이터세트 내의 개체들에 0과 최대 출산 연령 사이의 연령을 할당하는 단계를 더 포함한다.
일부 예시적인 실시형태에서, 최대 출산 연령은 49세이다.
일부 예시적인 실시형태에서, 번인 단계를 수행하는 단계는 제2 집단 데이터세트 내의 개체들의 출생자 및 사망자 수를 동일하게 유지하고 개체들의 순 이주율을 0으로 유지하는 단계를 더 포함한다.
일부 예시적인 실시형태에서, 번인 단계를 수행하는 단계는 개체들 연령이 최소 출산 연령을 초과할 때 제2 집단 데이터세트 내의 개체들을 청소년 풀(juvenile pool)로부터 교배 풀(mating pool)로 이동시키는 단계; 개체들 연령이 최대 출산 연령을 초과할 때 개체들을 교배 풀로부터 노령 풀(aged pool)로 이동시키는 단계; 및 개체들이 이주해 가거나 사망한 경우에 모든 연령 풀로부터 개체들을 제거하는 단계를 더 포함한다.
일부 예시적인 실시형태에서, 최소 출산 연령은 15세이고 최대 출산 연령은 49세이다.
다른 양태에서, 본 개시의 예시적인 실시형태는 개체들을 확인하는 단계가 무작위로 수행되는 예측 모델을 사용하는 방법을 제공한다.
다른 양태에서, 본 개시는 개체들을 확인하는 단계가 클러스터 방식(clustered fashion)으로 수행되는 예측 모델을 사용하는 방법을 제공한다.
일부 예시적인 실시형태에서, 개체들을 확인하는 단계는 확인된 개체들 간의 1촌 또는 2촌 관계, 또는 둘 다를 포함하는 확인된 개체들에 대한 관련성 데이터 및 관련 통계를 수집하는 단계를 더 포함한다.
일부 예시적인 실시형태에서, 예측 모델은 최종 집단 데이터세트에 기초한 유전자 분석을 위해 인간 집단을 선택하는 단계를 더 포함할 수 있다. 유전자 분석은 혈통 재구성, 복합 이형접합성 돌연변이의 단계화, 드 노보 돌연변이의 검출, 또는 이들의 조합을 포함할 수 있다.
일부 예시적인 실시형태에서, 인간 집단은 다수의 인간 집단을 포함하고, 최종 집단 데이터세트를 생성하는 단계는 다수의 인간 집단 각각에 대한 최종 집단 데이터세트를 생성하는 단계를 포함하며, 최종 집단 데이터세트에 기초한 유전자 분석을 위해 다수의 인간 집단 중 하나를 선택하는 단계를 더 포함한다.
도 1은 하나의 예시적인 실시형태에 따른 인구 집단 내의 관련성의 예측 모델을 작성하는 방법의 흐름도이다.
도 2는 예시적인 운영 환경이다.
도 3은 개시된 방법을 수행하기 위해 구성된 복수의 시스템 구성요소를 도시한다.
도 4a 및 도 4b는 본 개시의 예시적인 실시형태에 따른 61K DiscovEHR 참가자 중에서의 1촌 친척의 확인과 시뮬레이션된 집단의 무작위 확인 간의 비교를 나타낸다. 패널 A는 1촌 친척 쌍의 확인을 나타내고 패널 B는 둘 이상의 1촌 친척이 있는 개체들의 수의 확인을 나타낸다.
도 5a 및 도 5b는 본 개시의 예시적인 실시형태에 따른 시뮬레이션된 집단의 무작위 확인과 비교되는 92K 확장된 DiscovEHR 참가자 중에서의 1촌 친척의 확인 사이의 비교를 도시한다. 패널 A는 1촌 친척 쌍의 확인을 나타내고 패널 B는 둘 이상의 1촌 친척이 있는 개체들의 수의 확인을 나타낸다.
도 6a, 도 6b, 도 6c, 및 도 6d는 본 개시의 예시적인 실시형태에 따른 DiscovEHR 코호트 내의 1촌 관련성의 누적에 대한 클러스터 확인 접근법의 시뮬레이션된 집단 및 적합(fit)을 나타낸다. 패널 A는 1촌 친척의 쌍의 누적을 나타내고; 패널 B는 하나 이상의 1촌 친척이 있는 확인된 참가자의 비율을 나타내며; 패널 C는 1촌 관계의 수의 상한 및 하한을 갖는 시뮬레이션된 확인 투영상을 나타내고; 패널 D는 하나 이상의 1촌 친척이 있는 확인된 참가자의 비율의 상한 및 하한을 갖는 시뮬레이션된 투영상을 나타낸다.
도 7a, 도 7b, 도 7c, 및 도 7d는 본 개시의 예시적인 실시형태에 따른 DiscovEHR 코호트 내의 1촌 관련성의 누적에 대한 클러스터 확인 접근법의 시뮬레이션된 집단 및 적합을 나타낸다. 패널 A는 1촌 친척의 쌍의 누적을 나타내고; 패널 B는 하나 이상의 1촌 친척이 있는 확인된 참가자의 비율을 나타내며; 패널 C는 1촌 관계의 수의 상한 및 하한을 갖는 시뮬레이션된 확인 투영상을 나타내고; 패널 D는 하나 이상의 1촌 친척이 있는 확인된 참가자의 비율의 상한 및 하한을 갖는 시뮬레이션된 투영상을 나타낸다.
도 8a, 도 8b, 도 8c, 및 도 8d는 본 개시의 예시적인 실시형태에 따른 DiscovEHR 코호트 내의 1촌 및 2촌 관련성의 누적에 대한 클러스터 확인 접근법의 시뮬레이션된 집단 및 적합을 나타낸다. 패널 A는 1촌 및 2촌 친척의 쌍의 누적을 나타내고; 패널 B는 하나 이상의 1촌 및 2촌 친척이 있는 확인된 참가자의 비율을 나타내며; 패널 C는 1촌 및 2촌 관계의 수의 상한 및 하한을 갖는 시뮬레이션된 확인 투영상을 나타내고; 패널 D는 하나 이상의 1촌 친척이 있는 확인된 참가자의 비율의 상한 및 하한을 갖는 시뮬레이션된 투영상을 나타낸다.
도 9a, 도 9b, 도 9c, 및 도 9d는 본 개시의 예시적인 실시형태에 따른 확장된 DiscovEHR 코호트 내의 1촌 및 2촌 관련성의 누적에 대한 클러스터 확인 접근법의 시뮬레이션된 집단 및 적합을 나타낸다. 패널 A는 1촌 및 2촌 친척의 쌍의 누적을 나타내고; 패널 B는 하나 이상의 1촌 및 2촌 친척이 있는 확인된 참가자의 비율을 나타내며; 패널 C는 1촌 및 2촌 관계의 수의 상한 및 하한을 갖는 시뮬레이션된 확인 투영상을 나타내고; 패널 D는 하나 이상의 1촌 친척이 있는 확인된 참가자의 비율의 상한 및 하한을 갖는 시뮬레이션된 투영상을 나타낸다.
도 10은 본 개시의 예시적인 실시형태에 따라 모델링된 확인된 데이터세트 내의 관련성의 양을 드라이브하는 요인 중 일부를 나타낸다.
용어 "하나"("a")는 "적어도 하나"를 의미하는 것으로 이해되어야 하고; 용어 "약" 및 "대략"은 당업자가 이해할 수 있는 표준 변형을 허용하는 것으로 이해되어야 하며; 범위가 제공되는 경우에는 종점이 포함된다.
이전의 대규모 인간 게놈 연구는 전형적으로 다수의 상이한 지리적 영역 및/또는 건강 관리 시스템에 걸쳐 인간 표본을 수집하고 이들을 조합하여 분석용 코호트를 생성했다. 이들 코호트에서 표본화된 개체들의 총 수는 종종 많았지만, 이들 코호트 내의 관련성 및 가족 구조의 범위는 비교적 낮은 경향이 있었다. 연관 분석 및 주성분 분석을 포함한, 게놈 분석의 맥락에서 일반적으로 사용되는 많은 통계 방법은 모든 표본이 관련되지 않은 것을 필요로 한다. 그렇지 않으면, 이들 테스트의 통계 출력이 편향되어, 과장된 p-값 및 잘못된 명백한 발견(false positive finding)을 초래한다(Kang 등(2010), Nature Publishing Group 42, 348-354; Sun 및 Dimitromanolakis(2012), Methods Mol. Biol. 850, 47-57; Devlin 및 Roeder(1999), Biometrics 55, 997-104; 및 Voight 및 Pritchard(2005), PLoS Genet 1, e32-10).
데이터세트로부터 가족 구조의 제거는 데이터세트가 밀접하게 관련된 소수의 표본만을 갖는 경우에 실행 가능한 옵션이다(Lek 등(2016), Nature Publishing Group 536, 285-291; Fuchsberger 등(2016), Nature Publishing Group 536, 41-47; Locke 등(2015), Nature 518, 197-206; 및 Surendran 등(2016) Nat Genet 48, 1151-1161). 가족 구조의 제거는 또한 데이터의 무관한 서브세트가 주성분(principle component: PC)을 계산한 후에 나머지 표본을 이들 PC에 투영하는 것과 같은 통계 분석에 적합한 경우에 가능한 옵션이다(Dewey 등(2016), Science 354, aaf6814-aaf6814). 연구자들이 최대 크기의 무관한 세트의 개체들을 보유하는 데 도움이 되는 다수의 방법이 존재한다(Staples 등(2013), Genet. Epidemiol. 37, 136-141; Chang 등(2015), Gigascience 4, 7). 불행하게도, 관련된 개체들의 제거는 표본 크기를 감소시킬 뿐만 아니라, 소중한 관계 정보도 폐기한다. 실제로, 이러한 정보 손실은 데이터세트가 중간 정도의 레벨의 가족 구조를 갖는 경우에 많은 분석에서 채택 불가능하다.
개체들 간의 유전자 관련성은 많은 유전학 분야에서 중요한 역할을 한다. 유전자 분석에서, 관련성에 대한 지식은 유전 가능성(heritability) 및 유전 상관(genetic correlation)과 같은 유전자 파라미터를 추정하는 데 사용된다(Falconer 및 Mackay(1996) Introduction to Quantitative Genetics. Longmans Green, Harlow, Essex, UK). 진화 생물학에서는, 사회적 상호 작용의 진화 결과를 예측하기 위해 상호 작용하는 개체들 간의 관련성에 대한 지식이 필요하다(Hamilton(1964) Theor. Biol. 7, 17-52). 보존 유전학에서는, 보존 전략을 최적화하기 위해 관련성에 대한 지식이 필요하다. 코호트 내의 집단의 관련성에 대한 정보는 정량적 유전학, 보존 유전학, 법의학, 진화 및 생태학의 많은 연구 분야에서 중요한 용도를 가질 수 있다. 코호트 내의 개체들 간의 유전자 관련성은 집단 및 개체들이 집단으로부터 어떻게 표본화되는지에 따라 다양한 방식으로 코호트 내에서 스스로 발현하는 연속체(continuum)이다. 건강 관리 집단 기반 게놈(healthcare population based genomic: HPG) 연구에서의 관련성의 증가는 다운스트림 분석을 선택하고 실행할 때에 중요한 영향을 미치며 신중하게 고려되어야 한다(Santorico 등(2014) Genet. Epidemiol. 38 Suppl 1, S92-S96; Hu 등(2014). Nat. Biotechnol. 32, 663-669; Price 등(2010) Nat. Rev. Genet. 11, 459-463; Kang 등(2010). Nature Publishing Group 42, 348-354; Sun 및 Dimitromanolakis(2012) Methods Mol. Biol. 850, 47-57; Devlin 및 Roeder(1999) Biometrics 55, 997-104; Voight 및 Pritchard(2005) PLoS Genet 1, e32-10). 관련성을 활용하는 유전자 데이터는 혈통을 재구성하고, 복합 이형접합성 돌연변이(CHM)를 단계화하며, 드 노보 돌연변이(DNM)을 검출하는 데 사용될 수 있다. 또한, 데이터는 집단 증가를 예측하고 집단 간의 질환 패턴을 표시하기 위한 마커를 제공하는 데 사용될 수도 있다.
이러한 데이터를 분석하기 위해서는, 관련성을 갖는 개체들을 포함하는 데이터세트가 바람직할 수 있다. 또한, 데이터세트 내의 개체들 간의 관련성 정도에 기초하여 데이터세트에 적용될 수 있는 상이한 통계 도구가 존재한다. 이용 가능한 데이터세트 또는 설계될 데이터세트는 이들을 효율적으로 계속해서 처리하기 위해 생물정보학 툴 및 분석 파이프라인의 지속적인 혁신을 필요로 한다.
유전학 또는 진화론 또는 인구 조사 연구의 경우, 데이터세트를 선택하거나 설계하기 위해서, 코호트 내의 관련성 정도를 예측할 수 있는 방법이나 모델이 존재하지 않으며, 연구자들은 연구자들이 얼마나 많은 관련성을 볼 것으로 예상해야 하는지 그리고 관련성의 레벨이 이전의 집단 기반 게놈 연구에서 보여지는 관련성의 레벨과 유사한지에 대해 종종 불분명하다.
본 개시는 적어도 부분적으로 인간 집단 내의 관련성의 예측 모델에 기초한다.
본 개시의 예시적인 실시형태에 따른 인간 집단 내의 관련성의 예측 모델은 특정된 집단 파라미터에 기초하여 하나 이상의 하위 집단에 걸쳐 분산된 수백만명의 집단을 예측하는 데 사용될 수 있다. 모델은, HGP 연구를 포함한 광범위한 집단 기반 연구를 나타내는 현실적인 혈통 구조 및 집단을 생성하는 특정의 파라미터에 기초하여 하위 집단들 간의 결합, 출생, 분리, 이주, 사망, 및/또는 이동을 시뮬레이션하여 해마다 진행하고 있다. 파라미터는 상이한 집단을 모델링하기 위해 쉽게 커스터마이징될 수 있다.
본 개시의 예시적인 실시형태는 또한 연구자들이 제공된 집단의 세트 및 표본화 파라미터에 대해 발견할 것으로 예상해야 하는 관련성의 양을 추정하기 위해 인간 집단 내의 관련성의 예측 모델을 준비하는 프로세스에 적어도 부분적으로 기초한다. 이러한 모델을 생성하는 프로세스의 일례가 도 1에 설명되어 있다.
본 개시의 예시적인 실시형태에 따르면, 인간 집단 내의 관련성의 예측 모델을 준비하는 프로세스는 단계 100과 같이 제1 집단 데이터세트를 확립하는 단계를 포함할 수 있다. 이 제1 집단 데이터세트는 사용자에 의해 정의될 수 있다.
일부 예시적인 실시형태에서, 소정의 시간의 번인 단계가 단계 120과 같이 제2 집단 데이터세트를 확립하기 위해 수행된다. 번인 단계는 연구에 기초하여 가변되고 사용자에 의해 선택될 수 있다. 특정의 예시적인 실시형태에서, 번인 단계는 범위 내의 임의의 원하는 값을 포함한, 90 내지 200년의 범위일 수 있다. 다른 특정의 예시적인 실시형태에서, 번인 단계는 약 120년이다.
일부 예시적인 실시형태에서, 제2 집단 데이터세트 내의 개체들의 초기 연령은 0 내지 49세의 범위일 수 있다. 이 제2 집단 데이터세트 내의 개체들은 상이한 풀, 예를 들어 청소년 또는 출산/교배 또는 노령으로 할당될 수 있다. 예를 들어, 약 15세 연령 미만의 개체들은 청소년 풀에 할당될 수 있다. 15세와 49세 연령 사이의 개체들은 출산/교배 풀에 할당될 수 있다. 또한, 개체들은 15세를 초과할 때에 청소년 풀로부터 출산/교배 풀로 이동될 수도 있고, 49세를 초과할 때에 출산/교배 풀로부터 노령 풀로 이동될 수 있다. 이 데이터세트 내의 개체들은 이주해 가거나 사망한 경우에 추가로 제거될 수 있다. 사용자는 지리적 영역 또는 조상 등급의 인구 통계 또는 이력 또는 그룹에 영향을 줄 수 있는 임의의 다른 파라미터에 기초하여 풀이 구성하는 이들 연령 그룹을 선택할 수 있다. 제2 집단 데이터세트에서, 사용자는 지리적 영역 또는 조상 등급의 인구 통계 또는 이력 또는 이러한 비율에 영향을 줄 수 있는 임의의 다른 파라미터에 따라 출생률, 사망률, 전입률, 전출률, 결합률, 분리율, 출산 시작 연령, 출산 종료 연령, 연령별 출산에 대한 전형매율(full-sibling rate) 범위, 연령별 남성 사망률, 연령별 여성 사망률, 연령별 남성 결합, 및/또는 연령별 여성 결합을 추가로 설정할 수 있다. 예를 들어, 쌍둥이 비율, 사산률, 낙태율, 동성 결혼률, 입양률, 다자간 연애(polyamorous) 관계율이 파라미터를 설정하는 데 사용될 수 있다. 추가적으로, 파라미터는 또한 집단 내의 사람들의 지리적 위치(예를 들어 그들이 서로 거주하고 일하는 장소) 및 교배할 가능성을 증가 또는 감소시킬 수 있는 지리적/사회적 장벽(예를 들어, 강, 계곡, 산, 조상 배경, 및 이웃)에 기초하여 모델링될 수 있다. 일부 예시적인 실시형태에서, 제2 집단은 약 0.0219의 출생률 또는 약 0.0095의 사망률 또는 약 0.01168의 결합률 또는 약 0.0028의 분리율 또는 약 0.88의 전형매율 또는 약 15세의 출산 시작 연령 또는 약 49세의 출산 종료 연령 또는 약 0.01의 전입률 또는 약 0.021의 전출률 또는 0 내지 1 범위의 연령별 출산률(0 내지 50의 여성 연령에 대한 가중 벡터) 또는 0 내지 1 범위의 연령별 남성 사망률(0 내지 120의 남성 연령에 대한 가중 벡터) 또는 0 내지 1 범위의 연령별 여성 사망률(0 내지 120의 여성 연령에 대한 가중 벡터) 또는 0 내지 1 범위의 연령별 남성 결합(0 내지 50의 남성 연령에 대한 가중 벡터) 또는 0 내지 1 범위의 연령별 여성 결합(0 내지 50의 여성 연령에 대한 가중 벡터) 또는 이들의 조합을 가질 수 있다.
일부 예시적인 실시형태에서, 확립된 제2 집단은 개체들의 연령 - 청소년, 출산/교배 또는 노령 -에 따라 단계 130과 같이 제2 집단 데이터세트 내의 개체들을 연령 풀로 이동시킴으로써 변경될 수 있다.
일부 예시적인 실시형태에서, 확립된 제2 집단은 단계 140과 같이 제2 집단 데이터세트 내의 독신 남성 및 독신 여성으로부터 무작위로 사촌보다 관계가 더 먼 독신 남성 및 독신 여성의 쌍을 선택하고 이들을 연령 파라미터에 의해 특정의 결혼으로 결혼시킴으로써 추가로 변경될 수 있다. 결혼하는 것으로 선택된 쌍은 설정된 결혼률 파라미터에 의해 특정의 결혼 수에 도달될 때까지 결혼하는 것이 가능해질 수 있다. 사용자는 지리적 영역 또는 조상 등급의 인구 통계 또는 이력 또는 이러한 비율에 영향을 줄 수 있는 임의의 다른 파라미터(대응하는 값 및 비율을 가짐)에 기초하여 연령 파라미터에 의해 결혼을 선택할 수 있다. 예를 들어, 쌍둥이 비율, 사산률, 낙태율, 동성 결혼률, 입양률, 다자간 연애 관계율이 파라미터를 설정하는 데 사용될 수 있다. 추가적으로, 파라미터는 또한 집단 내의 사람들의 지리적 위치(예를 들어 그들이 서로 거주하고 일하는 장소) 및 교배할 가능성을 증가 또는 감소시킬 수 있는 지리적/사회적 장벽(예를 들어, 강, 계곡, 산, 조상 배경, 및 이웃)에 기초하여 모델링될 수 있다.
제2 집단 데이터세트를 추가로 변경하기 위해서, 사용자는 지리적 영역 또는 조상 등급의 인구 통계 또는 이력 또는 영향을 줄 수 있는 임의의 다른 파라미터에 기초하여 이혼률 및/또는 재생산률을 선택할 수 있다. 일부 예시적인 실시형태에서, 확립된 제2 집단은 단계 150과 같이 기혼 커플이 특정의 이혼률로 이혼될 수 있도록 변경될 수 있다. 제2 집단 데이터세트로부터 무작위로 선택된 독신 남성 및 독신 여성 또는 기혼 커플의 쌍은 특정의 비율로 선택될 수 있고, 성공적인 임신의 목표 수에 도달될 때까지 단계 160과 같이 특정의 출산률에 따라 재생산하는 것이 가능해질 수 있다. 부모는 사촌보다 관계가 더 먼 것으로 제한될 수 있다. 또한, 제2 집단 데이터세트의 교배/출산 연령 풀 내의 모든 개체는 매년 1명의 자녀를 갖는 것으로 한정될 수 있다.
또한, 제2 집단 데이터세트는 지리적 영역 또는 조상 등급의 인구 통계 또는 이력 또는 이러한 비율에 영향을 줄 수 있는 임의의 다른 파라미터(대응하는 값 및 비율을 가짐)에 기초하여 사망률 및/또는 이주를 설정함으로써 변경될 수 있다.
일부 예시적인 실시형태에서, 확립된 제2 집단 데이터세트 내의 개체들은 단계 170과 같이 연령 파라미터에 의해 특정의 사망률 및 특정의 치사율로 사망할 수 있게 된다. 또한, 제2 집단 데이터세트 내의 개체들은 단계 180과 같이 제2 집단 데이터세트로 및 그로부터 이주할 수도 있게 된다. 그러나, 이러한 이주는 집단의 연령 및 성별 분포와 제2 집단 데이터세트 내의 기혼의 출산 가능한 연령의 개체들의 비율을 유지할 수 있다.
일부 예시적인 실시형태에서, 확립된 제2 집단의 개체들은 단계 190과 같이 제2 집단 데이터세트 내에서 이동할 수 있게 되며, 이에 따라 하위 집단으로부터의 개체들이 무작위로 선택되고 다른 하위 집단에 무작위로 할당된다.
일부 예시적인 실시형태에서, 제2 집단 데이터세트 내의 교배, 결혼, 이혼, 재생산, 이주, 사망 또는 하나의 하위 집단으로부터 다른 하위 집단으로의 이동 중 하나 이상의 단계는 이전의 반복으로부터 생긴 집단 데이터세트에 단계들을 적용함으로써 소정의 연수 동안 1년 간격으로 (단계 200과 같이) 반복될 수 있다.
이 프레임워크는 더 많은 일시적인 집단의 더 피상적인 확인을 모델링하는 것에 적용하기에 충분히 유연하다. 제1 집단 데이터세트에 기초하여, 제2 집단 데이터세트에 대한 파라미터는 임의의 특정 지리적 영역 또는 하위 집단에 대한 예측 모델을 커스터마이징하도록 변경될 수 있다.
일부 실시형태에서, 예측 모델은 집단으로부터 개체들을 무작위로 확인할 수 있다. 무작위 확인은 집단 내의 각 개체에게 대체없이 확인될 수 있는 동등한 기회를 제공한다.
일부 예시적인 실시형태에서, 예측 모델은 집단으로부터 개체들을 클러스터 방식으로 확인할 수 있다. 클러스터 표본화는 다수의 1촌 및 2촌 친척이 있는 개체를 무작위로 선택함으로써 가까운 친척을 강화할 수 있다.
본 개시에 의해 설명되거나 예시된 임의의 방법은 컴퓨터 구현 방법 및/또는 시스템으로서 실시될 수 있다. 당업자에게 공지된 임의의 적합한 컴퓨터 시스템이 이 목적을 위해 사용될 수 있다.
도 2는 본 방법 및 시스템이 작동할 수 있는 예시적인 환경(201)의 다양한 양태를 도시한다. 본 방법은 디지털 및 아날로그 장비 모두를 채용하는 다양한 유형의 네트워크 및 시스템에서 사용될 수 있다. 본 명세서에서는 기능 설명이 제공되며, 각각의 기능은 소프트웨어, 하드웨어, 또는 소프트웨어와 하드웨어의 조합에 의해 수행될 수 있다.
환경(201)은 로컬 데이터/처리 센터(210)를 포함할 수 있다. 로컬 데이터/처리 센터(210)는 하나 이상의 컴퓨팅 디바이스 간의 통신을 용이하게 하기 위해 근거리 통신망과 같은 하나 이상의 네트워크를 포함할 수 있다. 하나 이상의 컴퓨팅 디바이스는 생체 데이터(biological data)를 저장, 처리, 분석, 출력 및/또는 시각화하는 데 사용될 수 있다. 환경(201)은 선택적으로 의료 데이터 제공자(220)를 포함할 수 있다. 의료 데이터 제공자(220)는 하나 이상의 생체 데이터 소스를 포함할 수 있다. 예를 들어, 의료 데이터 제공자(220)는 한 명 이상의 환자에 대한 의료 정보에 액세스하는 하나 이상의 건강 시스템을 포함할 수 있다. 의료 정보는, 예를 들어 병력, 의료 전문가 관찰 및 소견, 실험실 보고서, 진단, 의사의 지시, 처방전, 활력 징후(vital sign), 유체 균형, 호흡 기능, 혈액 파라미터, 심전도, 엑스레이, CT 스캔, MRI 데이터, 실험실 테스트 결과, 진단, 예후, 평가, 입원 및 퇴원 노트, 및 환자 등록 정보를 포함할 수 있다. 의료 데이터 제공자(220)는 하나 이상의 컴퓨팅 디바이스 간의 통신을 용이하게 하기 위해 근거리 통신망과 같은 하나 이상의 네트워크를 포함할 수 있다. 하나 이상의 컴퓨팅 디바이스는 의료 정보를 저장, 처리, 분석, 출력 및/또는 시각화하는 데 사용될 수 있다. 의료 데이터 제공자(220)는 의료 정보를 식별 방지(de-identify)하고 식별 방지된 의료 정보를 로컬 데이터/처리 센터(210)에 제공할 수 있다. 식별 방지된 의료 정보는 의료 정보를 식별 방지된 상태로 유지하면서 한 환자의 의료 정보를 다른 환자와 구별하기 위해 각 환자에 대한 고유 식별자를 포함할 수 있다. 식별 방지된 의료 정보는 환자의 신원이 자신의 특정 의료 정보와 연결되는 것을 방지한다. 로컬 데이터/처리 센터(210)는 식별 방지된 의료 정보를 분석하여 하나 이상의 표현형을 (예를 들어, "ICD"(International Classification of Diseases) 및/또는 "CPT"(Current Procedural Terminology) 코드를 할당함으로써) 각 환자에게 할당할 수 있다.
환경(201)은 NGS 시퀀싱 설비(230)를 포함할 수 있다. NGS 시퀀싱 설비(230)는 하나 이상의 시퀀서(예를 들어, Illumina HiSeq 2500, Pacific Biosciences PacBio RS II 등)를 포함할 수 있다. 하나 이상의 시퀀서는 엑솜(exome) 시퀀싱, 전체 엑솜 시퀀싱, RNA-seq, 전체 게놈 시퀀싱, 표적화된 시퀀싱 등을 위해 구성될 수 있다. 예시적인 양태에서, 의료 데이터 제공자(220)는 식별 방지된 의료 정보와 연관된 환자들로부터의 생체 표본을 제공할 수 있다. 고유 식별자는 생체 표본과 생채 표본에 대응하는 식별 방지된 의료 정보 사이의 연관성을 유지하는 데 사용될 수 있다. NGS 시퀀싱 설비(230)는 생체 표본에 기초하여 각 환자의 엑솜을 시퀀싱할 수 있다. 시퀀싱 전에 생체 표본을 저장하기 위해서, NGS 시퀀싱 설비(230)는 (예를 들어, 리코닉 인스트루먼츠(Liconic Instruments)로부터의) 바이오뱅크를 포함할 수 있다. 생체 표본은 튜브(환자와 연관된 각 튜브) 내에 수용될 수 있고, 각 튜브는 표본을 자동적으로 로컬 데이터/처리 센터(210)에 로그(log)하기 위해 스캔될 수 있는 바코드(또는 다른 식별자)를 포함할 수 있다. NGS 시퀀싱 설비(230)는 균일한 데이터 및 효과적으로 논스톱 작업을 보장하기 위해 하나 이상의 시퀀싱 단계에서 사용하기 위한 하나 이상의 로봇을 포함할 수 있다. 따라서, NGS 시퀀싱 설비(230)는 매년 수만개의 엑솜을 시퀀싱할 수 있다. 일 양태에서, NGS 시퀀싱 설비(230)는 매월 적어도 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10,000, 11,000 또는 12,000개의 전체 엑솜을 시퀀싱하는 기능적 능력을 갖는다.
NGS 시퀀싱 설비(230)에 의해 생성된 생체 데이터(예를 들어, 로우 시퀀싱 데이터)는 로컬 데이터/처리 센터(210)로 전송된 후, 생체 데이터를 원격 데이터/프로세싱 센터(240)로 전송할 수 있다. 원격 데이터/처리 센터(240)는 하나 이상의 컴퓨팅 디바이스를 포함하는 클라우드 기반 데이터 저장 및 처리 센터를 포함할 수 있다. 로컬 데이터/프로세싱 센터(210) 및 NGS 시퀀싱 설비(230)는 하나 이상의 고용량 파이버 라인을 통해 직접 원격 데이터/프로세싱 센터(240)와 데이터를 통신할 수 있지만, 다른 데이터 통신 시스템(예를 들어, 인터넷)도 고려된다. 예시적인 양태에서, 원격 데이터/처리 센터(240)는 제3자 시스템, 예를 들어 아마존 웹 서비스(DNAnexus)를 포함할 수 있다. 원격 데이터/처리 센터(240)는 분석 단계의 자동화를 용이하게 할 수 있고, 안전한 방식으로 하나 이상의 협력자(Collaborator)(250)와 데이터를 공유할 수 있게 한다. 로컬 데이터/처리 센터(210)로부터 생체 데이터를 수신하면, 원격 데이터/처리 센터(240)는 생체 정보 도구를 사용하여 1차 및 2차 데이터 분석을 위한 자동화된 일련의 파이프라인 단계를 수행하여, 각 표본에 대해 주석이 달린 변이 파일을 생성할 수 있다. 이러한 데이터 분석(예를 들어, 유전자형)의 결과는 로컬 데이터/처리 센터(210)로 다시 전달될 수 있고, 예를 들어, 각 생체 표본의 상태를 유지하도록 구성될 수 있는 실험실 정보 관리 시스템(Laboratory Information Management System: LIMS)에 통합될 수 있다.
그 후, 로컬 데이터/처리 센터(210)는 식별 방지된 의료 정보(동정된 표현형 포함)와 조합하여 NGS 시퀀싱 설비(230) 및 원격 데이터/처리 센터(240)를 통해 획득된 생체 데이터(예를 들어, 유전자형)를 이용하여 유전자형과 표현형 간의 연관성을 동정할 수 있다. 예를 들어, 로컬 데이터/처리 센터(210)는 표현형 우선 접근법을 적용할 수 있고, 여기서 표현형은 특정 질환 영역, 예를 들어 심혈관 질환에 대한 극단적인 혈액 지질에서 치료 가능성을 가질 수 있는 것으로 정의된다. 다른 예는 전형적인 범위의 동반 질환(comorbidity)으로부터 보호되는 것으로 보이는 개체들을 동정하기 위한 비만 환자의 연구이다. 다른 접근법은, 예를 들어 유전자 X는 질환 Y를 유발하거나 그로부터 보호하는 데 관여된다는 가설과 유전자형으로부터 시작하는 것이다.
예시적인 양태에서, 하나 이상의 협력자(250)는 인터넷(260)과 같은 네트워크를 통해 생체 데이터 및/또는 식별 방지된 의료 정보의 일부 또는 전부에 액세스할 수 있다.
도 3에 도시된 예시적인 양태에서, 로컬 데이터/처리 센터(210) 및/또는 원격 데이터/처리 센터(240) 중 하나 이상은 유전자 데이터 구성요소(300), 표현형 데이터 구성요소(310), 유전자 변이-표현형 연관 데이터 구성요소(320), 및/또는 데이터 분석 구성요소(330) 중 하나 이상을 포함하는 하나 이상의 컴퓨팅 디바이스를 포함할 수 있다. 유전자 데이터 구성요소(300), 표현형 데이터 구성요소(310), 및/또는 유전자 변이-표현형 연관 데이터 구성요소(320)는 서열 데이터의 품질 평가, 기준 게놈에 대한 판독 정렬, 변이 동정, 변이의 주석, 표현형 동정, 변이-표현형 연관 동정, 데이터 시각화, 이들의 조합 등 중 하나 이상을 위해 구성될 수 있다.
본 명세서에서 숫자 및/또는 문자로 제공되는 방법 단계의 연속적인 라벨링은 방법 또는 그의 임의의 실시형태를 특정의 표시된 순서로 한정하려는 것이 아니다.
특허, 특허 출원, 공개된 특허 출원, 수탁 번호, 기술 논문 및 학술 논문을 포함한 다양한 공개물이 명세서 전반에 걸쳐 인용된다. 이러한 인용된 참고 문헌 각각은 그 전문이 모든 목적을 위해 본 명세서에 참조로 포함된다.
본 개시는 이하의 실시예를 참조하여 보다 완전하게 이해될 것이며, 이는 본 개시를 더욱 상세히 설명하기 위해 제공된다. 이들은 예시를 위한 것이며 본 개시의 범위를 한정하는 것으로 해석되지 않아야 한다.
[실시예]
실시예 1
환자 및 표본
예측 모델을 코호트 - (A) 61,720명의 식별 방지 환자의 엑솜을 갖는 DicovEHR 코호트 및 (B) 92,455명의 식별 방지 환자의 엑솜을 갖는 확장된 DicovEHR 코호트 -에 적용함으로써 두 세트의 데이터를 수집하였다.
가이싱거 헬스 시스템(Geisinger Health System: GHS)으로부터 획득한 양쪽의 코호트 내의 식별 방지 환자-참가자 모두를 시퀀싱하였다. 모든 참가자는 MyCode® Community Health Initiative(Carey 등(2016), Genet. Med. 18, 906-913)에 참가하는 데 동의하였고, Regeneron-GHS DiscovEHR Study(Dewey 등(2016), Science 354, aaf6814-aaf6814)에서의 게놈 분석을 위해 DNA 표본을 제공하였다. 모든 환자는 그들의 엑솜이 대응하는 식별 방지 전자 건강 기록(electronic health record: EHR)에 링크되어 있었다. 처음 50,726명의 시퀀싱된 개체들에 대한 더욱 상세한 설명은 이전에 발표되어 있다(Dewey 등(2016), Science 354, aaf6814-aaf6814; Abul-Husn 등(2016), Science 354, aaf7000-aaf7000).
이 연구는 연구에 참가할 가족을 특히 목표로 삼지 않았지만, 건강관리 시스템과 빈번하게 상호 작용하는 만성 건강 문제가 있는 성인뿐만 아니라, 관상 동맥 도관 삽입 검사실(Coronary Catheterization Laboratory) 및 비만 서비스(Bariatric Service)로부터의 참가자를 강화하였다.
실시예 2
SimProgeny 및 관련성 투영(relatedness projection)을 사용한 시뮬레이션
DiscovEHR 및 확장된 DiscovEHR 데이터세트 내의 관계망의 성장을 모델링, 이해, 및 예측하기 위한 시도에서, 시뮬레이션 프레임워크(이하, "SimProgeny")를 개발하여, 다수의 하위 집단에 걸쳐 수백년 동안 수백만명의 계보를 시뮬레이션할 수 있었다. 이러한 시뮬레이션된 집단으로부터, 다양한 표본화 접근법을 모델링할 수 있고, 제공된 세트의 집단 및 표본화 파라미터에 대해 연구자들이 발견할 것으로 예상해야 하는 관련성의 양을 추정할 수 있다(실시예 6 참조).
SimProgeny를 사용하여 DiscovEHR 및 확장된 DiscovEHR 집단 및 이들로부터 처음 61K 및 처음 92K 참가자의 확인을 각각 시뮬레이션하였다. 시뮬레이션은 DiscovEHR 및 확장된 DiscovEHR 참가자가 집단으로부터 무작위로 표본화된 것이 아니라, 데이터세트가 가까운 친척에 대해 강화되었음을 나타낸다. 도 2a 및 도 2b에 나타낸 바와 같이, 희미한 선으로 연결된 구두점(punctuation point)으로 표시된 주기적인 "프리즈(freeze)"에서 실제 데이터를 계산하였다. 61K 사람의 프리즈에서 동정된 표본 및 관계도 취득하고, 이어서 확인 순서를 셔플하여 61K DiscovEHR 참가자의 전반이 후반에 비해 1촌 관계가 강화되었는지를 입증하였다. DiscovEHR이 확인된 실제 집단과 유사한 파라미터를 사용하여 다양한 크기의 집단을 시뮬레이션하였다. 그 후, 이들 집단 각각으로부터의 무작위 확인을 수행하여 어느 집단 크기가 실제 데이터에 가장 잘 적합한지를 확인하였다. 중요한 점은 이들 집단 크기 중 어느 것도 실제 데이터에 적합하지 않다는 것이며, 무작위 확인 접근법은 그다지 적합하지 않다. 무작위 확인과 비교하여 1촌 친척을 강화하는 다른 확인 접근법이 더 양호한 적합을 생성할 수 있었다. 도 4a는 크기 270K의 유효 표본화 집단 내의 1촌 친척 쌍의 확인이 실제 데이터의 셔플된 버전에 밀접하게 적합하지만, 61K 미만의 확인된 참가자의 친척 쌍의 수를 과소 평가하고 61K 초과의 참가자의 친척 쌍의 수를 극적으로 과대 평가한다는 것을 나타낸다. 도 4b는 270K의 집단이 하나 이상의 1촌 친척이 있는 개체들의 수와 관련하여 셔플된 실제 데이터에 가장 잘 적합하지만 실제 데이터에는 그다지 적합하지 않다는 것을 나타낸다.
확장된 DiscovEHR 데이터세트를 사용하여 유사한 결과를 관찰하였다(도 5a 및 도 5b). 그 후, 92K 사람의 프리즈에서 동정된 표본 및 관계를 셔플하여 92K 확장된 DiscovEHR 참가자의 전반이 후반에 비해 1촌 관계가 강화되었는지를 입증하였다. 그 후, 이들 집단 각각으로부터의 무작위 확인을 수행하여 어느 집단 크기가 실제 데이터에 가장 잘 적합한지를 확인하였다. 도 5a는 크기 403K의 유효 표본화 집단 내의 1촌 친척 쌍의 확인이 실제 데이터의 셔플된 버전에 밀접하게 적합하지만, 92K 미만의 확인된 참가자의 친척 쌍의 수를 과소 평가하고 92K 초과의 참가자의 친척 쌍의 수를 극적으로 과대 평가한다는 것을 나타낸다. 도 5b는 403K의 집단이 하나 이상의 1촌 친척이 있는 개체들의 수와 관련하여 셔플된 실제 데이터에 가장 잘 적합하지만, 실제 데이터에는 그다지 적합하지 않다는 것을 나타낸다.
DiscovEHR(도 6a 및 도 6b) 및 확장된 DiscovEHR(도 7a 및 도 7b)에 대한 실제 데이터에 더 잘 적합한 시뮬레이션을 생성하는 클러스터 확인 접근법(실시예 6 참조)을 사용하여 가까운 친척의 강화를 모델링하였다. 도 6 및 도 7 모두에 대해, 희미한 선으로 연결된 구두점으로 표시된 주기적인 "프리즈"에서 실제 데이터를 계산하였다. 대부분의 시뮬레이션 파라미터를 실제 집단 인구 통계 및 DiscovEHR 확인 접근법에 대한 정보에 기초하여 설정하였다. 그러나, 2개의 파라미터를 우리가 이용 불가능하였기에 알 수 없었고, 따라서 실제 데이터에 대한 적합에 기초하여 추론하였다: 1) 표본이 확인된 유효 집단 크기 및 2) "클러스터 확인이라고 지칭되는, 1촌 친척이 이전에 확인되었으면 누군가가 확인될 가능성 증가. 도 6 및 도 7에서의 모든 패널은 추정된 유효 집단 크기에 걸친 3개의 동일한 시뮬레이션된 집단 크기를 나타낸다. 1촌 친척의 포아송-분포형 난수(Poisson-distributed random number)와 함께 개체를 무작위로 확인함으로써 클러스터 확인을 시뮬레이션하였다(분포의 람다는 범례에 표시됨). 이들 시뮬레이션 결과는 유효 표본화 집단 크기가 ~ 475K 개체이고 0.2의 람다를 갖는 포아송 분포가 1촌 친척의 강화와 가장 잘 매칭되었음을 제시한다. 이는 현재 참가자의 대다수가 전체 GHS 집수 영역(> 250만 개체)에 걸쳐 균일하게 분포되기보다는, 이 실시예에서 펜실베니아주 댄빌 지역(~ 500K 개체)과 같은 특정의 로컬 지리적 영역에 거주한다는 이해와 일치하였다.
실제 데이터에 합리적으로 적합한 시뮬레이션 파라미터를 동정한 후, SimProgeny를 사용하여 DiscovEHR 및 확장된 DiscovEHR 연구가 250K 참가자의 목표로 확장될 때에 예상되어야 하는 1촌 관계의 양의 예측을 구하였다. 결과는, 동일한 방식으로 참가자의 확인을 계속한 경우, DiscovEHR 참가자(도 6d)의 ~60%를 포함하고 확장된 DiscovEHR 참가자(도 7d)의 ~60%를 포함하는 DiscovEHR(도 6c) 및 확장된 DiscovEHR(도 7c)에 대해 ~150K 1촌 관계를 얻는 것이 예상되어야 함을 나타냈다.
그 후, 시뮬레이션 분석을 2촌 관계를 포함하도록 확장하였으며, 시뮬레이션 결과는 250K 참가자에서, DiscovEHR(도 8) 및 확장된 DiscovEHR(도 9) 내의 개체들의 70% 초과를 포함하는 200K를 훨씬 넘는 조합된 1촌 및 2촌 관계가 예상되어야 함을 제시하였다. 이 분석에 대해, 도면에서 희미한 선으로 연결된 구두점으로 표시된 주기적인 "프리즈"에서 실제 데이터를 계산하였다. 대부분의 시뮬레이션 파라미터를 실제 집단 인구 통계 및 DiscovEHR 확인 접근법에 대한 정보에 기초하여 설정하였다. 그러나, 2개의 파라미터를 알 수 없었고, 다음 실제 데이터에 대한 적합에 기초하여 선택하였다: 1) 표본이 확인된 유효 집단 크기 및 2) "클러스터 확인이라고 지칭되는, 1촌 또는 2촌 친척이 이전에 확인되었으면 누군가가 확인될 가능성 증가. 도 8 및 도 9에서의 모든 패널은 추정된 유효 집단 크기에 걸친 3개의 동일한 시뮬레이션된 집단 크기를 나타낸다. 1촌 친척의 포아송 분포 난수 및 2촌 친척의 별도의 난수와 함께 개체를 무작위로 확인함으로써 클러스터 확인을 시뮬레이션하였다(양쪽의 포아송 분포는 도면 범례에 표시된 람다를 갖는다).
시뮬레이션 결과는 DiscovEHR HPG 연구에서 분명한 관련성 강화를 입증하였을 뿐만 아니라, 추가 참가자의 확인이 계속됨에 따라 확인될 것으로 예상되는 엄청난 양의 관련성에 대한 중요한 통찰력을 제공하였다.
실시예 3
표본 준비, 시퀀싱, 변이 호출(variant calling) 및 표본 QC
데이터 표본 준비 및 시퀀싱은 Dewey 등(Dewey 등(2016), Science 354, aaf6814-aaf6814)에 전술되어 있다.
시퀀싱의 완료 시, 각 Illumina Hiseq 2500 실행의 로우 데이터를 로컬 버퍼 스토리지에 수집하고 자동화 분석을 위해 DNAnexus 플랫폼(Reid 등(2014) 15, 30)에 업로드하였다. 표본 레벨 판독 파일을 CASAVA(캘리포니아주 샌디에고, Illumina Inc.)로 생성하였고, BWA-mem(Li 및 Durbin(2009); Bioinformatics 25, 1754-1760; Li, H. (2013); arXiv q-bio.GN)으로 GRCh38에 정렬하였다. 결과적인 BAM 파일을 GATK 및 Picard를 사용하여 처리하여 중복을 분류 및 표시하였고, 추정 인델(indel) 주위에서 판독의 로컬 재정렬을 수행하였다. Ensembl85 유전자 정의를 사용하여 snpEFF(Cingolani 등(2012); Fly(Austin) 6, 80-92)로 시퀀싱된 변이체에 주석을 달아 트랜스크립트(transcript) 및 유전자에 대한 기능적 영향을 결정하였다. 유전자 정의를 19,467개의 유전자에 대응하는, 주석이 달린 시작 및 정지로 단백질 코딩하는 54,214개의 트랜스크립트로 제한하였다.
높은 비율의 동형접합성(homozygosity), 낮은 서열 데이터 커버리지, 또는 실제 일란성 쌍둥이(monozygotic twins)인 것으로 검증될 수 없는 유전적으로 동정된 중복에 의해 표시된 저품질 DNA 서열 데이터를 갖는 개체들을 제외하였고; 분석을 위해 61,019개의 엑솜이 남았다. 표본 준비, 시퀀싱, 변이 호출, 및 변이 주석(variant annotation)에 대한 추가 정보는 Dewey 등(2016), Science 354, aaf6814-1 내지 aaf6814-10에 보고되어 있다.
실시예 4
SimProgeny
SimProgeny는 큰 집단뿐만 아니라 해당 집단으로부터의 다양한 표본 확인 방법을 시뮬레이션하기 위해 개발되었다. SimProgeny는 하나 이상의 하위 집단에 걸쳐 분산된 수백만명의 집단을 시뮬레이션하고 수백년 동안 사망자를 추적할 수 있다. 단순성과 현실성 간의 양호한 균형을 알아내기 위해서, 사용자에 의해 조정될 수 있는 수개의 중요한 집단 레벨 파라미터를 선택하였다(아래의 표 1 참조). 시뮬레이션 도구를 비교적 단순하게 유지하면서 실제 집단과 가족 혈통 구조의 양호한 근사를 제공하기 위해 이들 파라미터를 선택하였다. 기본값은 미국 인구 통계에 기초하고 있다(1960년부터의 미국 평균 출생률: Department of Health and Human Services, National Center for Health Statistics; 1960년부터의 미국 평균 사망률: National Center for Health Statistics, US Census Bureau; 1960년부터의 미국 평균 결혼률: 100 years of marriage and divorce statistics United States, 1867-1967; 1960년부터의 미국 평균 이혼률: 100 years of marriage and divorce statistics United States, 1867-1967; 농촌 이주 및 도시 이주 모두를 반영한 2000년부터의 필라델피아(PA)에 대한 전입률 및 전출률; 1970년부터의 미국 출산률: Hamilton, B. E., Martin, J. A., Osterman, M. J. K., Curtin, S. C., & Mathews, T. J. (2015), Births: Final data for 2014. National Vital Statistics Reports, 64(12), and Hyattsville, MD: National Center for Health Statistics; 2005년부터의 여성 사망률; 2005년 7월 1일자로 추정된 2000년 인구조사에 기초한 사망률의 인구조사후 추정치; 및 2009년부터의 연령별 남녀 결혼률). 기본값은 다양한 코호트에 대해 작동하도록 설정되어 있으며, 이들 파라미터는 SimProgeny 코드(웹 리소스)에 포함된 구성 파일을 변경함으로써 상이한 집단을 모델링하도록 쉽게 커스터마이징될 수 있다. 집단 시뮬레이션 프로세스의 상세한 설명에 대해서는 실시예 6을 참조한다.
[표 1] (SimProgeny에서 사용되는 시뮬레이션 파라미터 및 기본값)
Figure pct00001
DiscovEHR 코호트를 위해 개발된 프레임워크의 경우, 출산 종료가 49세이었고, 확장된 DiscovEHR 코호트를 위해 개발된 프레임워크의 경우, 출산 종료는 50세이었다.
집단 모델링 이외에도, SimProgeny는 유전자 연구를 위해 집단에서 개체들을 선택하는 것을 모델링하기 위한 2개의 확인 접근법, 즉 무작위 확인 및 클러스터 표본화를 시뮬레이션한다. 무작위 확인은 집단 내의 각 개체에게 대체없이 확인될 수 있는 동등한 기회를 제공한다. 클러스터 표본화는 가까운 친척을 강화하기 위한 접근법이고, 다수의 1촌 및 2촌 친척과 함께 개체를 무작위로 선택함으로써 수행될 수 있다. 1촌 친척의 수는 사용자 특정의 1촌 확인 람다(기본값은 0.2)와 함께 분포된 포아송으로부터의 값을 표본화함으로써 결정된다. 2촌 친척의 수는 동일한 방식으로 결정되며 기본 2촌 확인 람다는 0.03이다. SimProgeny의 확인 옵션에 대한 추가 정보에 대해서는 실시예 6을 참조한다.
실시예 5
기초 DiscovEHR 집단의 시뮬레이션 및 그의 확인
시뮬레이션 모델을 지나치게 복잡하게 하지 않기 위해서, 시뮬레이션은 200K, 300K, 400K, 450K, 500K, 550K, 600K, 및 1000K의 시작 크기를 갖는 개체 집단을 포함하였다. SimProgeny 파라미터(상기 표 1 참조)를 공개적으로 사용 가능한 국가, 주, 및 카운티 레벨로 조정하였다. GHS가 주로 더 많은 도시 지역보다 이주율이 낮은 경향이 있는 농촌 지역에 서비스를 제공하기 때문에 펜실베이니아(PA) 평균으로부터의 이주해 온 비율 및 이주해 간 비율이 감소하였다. 120년의 번인 기간으로 시뮬레이션을 실행하고 나서 101년 동안 진행하였다. 시뮬레이션된 집단은 20세기 중반 이래로 PA의 성장과 유사한 ~15%만큼 증가하였다.
무작위 및 클러스터 확인 모두를 수행하였다. 양쪽의 확인 접근법에 대해, 협력 시작 시 GHS 바이오뱅크에서 개체들의 무작위 시퀀싱 순서를 모델링하기 위해 집단의 처음 5%의 확인 순서(ordered_sampling_proportion 파라미터로 특정됨)를 셔플하였다. 이 파라미터의 선택은 무작위 확인에 영향을 주지 않고 클러스터 확인에서 쌍별 관계의 누적에 무시할 수 있는 영향을 주지 않지만, 람다 값이 높을수록 더 확연해지는 변곡점을 유발함으로써 클러스터 표본화로 확인된 데이터세트 내의 하나 이상의 친척이 있는 개체들의 비율에는 영향을 준다. 이 변곡점은 실제 데이터의 프리즈 프로세스를 모델링하거나 GHS 바이오뱅크로부터의 시퀀싱 표본과 새롭게 확인된 개체들 간의 더 원활한 전이를 모델링함으로써 덜 확연해질 수 있다.
실시예 6
SimProgeny 집단 및 확인 시뮬레이션 프로세스
시뮬레이션은 사용자 특정 수의 하위 집단 및 크기를 초기화함으로써 시작하였다. 연령을 처음에 0과 최대 출산 연령(기본값을 49임) 사이에 할당하였다. 집단 내의 개체들은 청소년, 출산, 또는 노령의 3개의 연령 기반 풀 중 하나에 거주하였다. 개체들이 출산 연령(15의 기본값) 미만인 경우에는 개체들을 하위 집단의 청소년 풀에 할당하였고, 출산 연령 범위(기본값으로 15 내지 49) 내에 있는 경우에는 개체들을 하위 집단의 교배 풀에 할당하였다. 개체들이 최소 출산 연령 초과의 연령이 되었을 때에 개채들을 청소년 풀로부터 교배 풀로 이동하였다. 마찬가지로, 그들이 최대 출산 연령을 넘는 연령이 되면 그들을 교배 풀로부터 노령 풀로 이동하였다. 개체들이 이주해 가거나 사망한 경우에 개체들을 모든 연령 풀로부터 제거하였다. 초기 집단을 확립한 후, 시뮬레이션은 120년의 번인 단계를 수행하여, 동일한 출생자 및 사망자 수와 0의 순이주율을 필요로 하면서 입력 파라미터와 더욱 근접하게 매칭되는 가족 관계 및 연령 분포를 확립하였다. 번인 후, 제공된 집단 증가 및 이주율로 특정 연수 동안 시뮬레이션을 실행하였다. 시뮬레이션은 1 년 증분으로 진행되었으며, 달리 명시되지 않는 한 매년 각 하위 집단 내에서 수행되는 이하의 단계가 있었다:
1. 연령(age) - 자신의 연령 풀로부터 나이를 먹은 개체들을 다음 연령 풀로 이동한다.
2. 법원(court) - 일부일처 결혼에 참여하는 독신 남성 및 독신 여성을 시뮬레이션한다. 이 프로세스는 전형매 관계의 현실적인 수를 얻는 데 중요하다. 남성과 여성의 쌍은 독신의 재생산 노령 남성과 여성의 풀로부터 무작위로 선택되며, 그들은 남성과 여성의 "연령별 결혼" 파라미터에 의해 특정되는 연령에 결혼할 가능성에 기초하여 성공적으로 결혼한다. 결혼률로 정의된 바와 같이 성공적인 결혼 수에 도달될 때까지 쌍이 정해진다. 커플은 사촌보다 관계가 더 먼 것으로 제한될 수 있다. 번인 단계 동안, 사용자 특정의 초기 결혼률에 도달될 때까지 결혼률은 두 배이다(기본값은 결혼한 출산 풀의 66%이다).
3. 스플릿(split) - 특정의 이혼률로 결혼을 파기하는 남성 및 여성을 시뮬레이션한다. 커플은 무작위로 선택되며 두 개체는 모두 독신으로서 표시된다.
4. 교제(mingle) - 1년 동안 집단 내에서 발생할 수 있는 모든 재생산을 시뮬레이션한다. 모/부 쌍은 전형매율에 의해 정의된 비율로 독신 재생산 연령 풀 또는 기혼 풀로부터 무작위로 선택된다(기본값은 모든 출생의 88%가 기혼 커플에 있는 것이다). 성공적인 임신의 목표 수에 도달될 때까지 쌍이 정해지고 재생산 시도가 이루어진다(기본 출생률은 1인당 0.0219 출생이다). 성공적인 임신이 생길 가능성은 임부(prospective mother)의 연령 및 대응하는 출산률에 기초하고 있다. 부모는 사촌보다 관계가 더 먼 것으로 제한되어 있으며, 모든 개체는 매년 1명의 자녀를 갖는 것으로 제한되어 있다.
5. 도태(cull) - 사망하는 개체들을 시뮬레이션한다. 사망률(기본값은 1인당 0.0095 사망임)은 제공된 해에 집단 내에서 예상되는 사망 수를 결정하는 데 사용된다. 연령 파라미터별 남녀 사망률은 무작위로 선택된 개체가 사망할 가능성을 가중하는 데 사용된다. 0과 1 사이의 난수가 자신의 연령에서 사망할 사람의 확률을 초과하면, 개체는 유지되고 다른 개체가 선택된다. 불행한 개체들은 고인 풀(departed pool)에 추가되고 생존하는 임의의 다른 풀로부터 제거된다. 120세보다 고령인 모든 개체는 자동적으로 고인 풀에 추가되고 해당 연도의 목표 사망자 수에 포함된다.
6. 이주(migrate) - 집단으로/으로부터의 이주를 시뮬레이션한다. 타지로의 이주(emigration)는 집단으로부터 개체를 무작위로 선택하고 결혼한 경우 배우자와 함께 집단으로부터 제거함으로써 수행된다. 남은 청소년 및 노령 개체들의 비율은 출산 가능한 연령의 기혼 커플의 수와 함께 기록된다. 타지로부터의 이주(Immigration)는 연령 분포 및 출산 가능한 연령의 기혼 커플의 수를 유지하는 방식으로 행해진다. 처음에, 청소년이 기존 집단으로부터 무작위로 선택되고 동일한 성별과 연령의 새로운 개체가 청소년 풀에 추가되며, 적절한 비율의 청소년이 추가될 때까지 이 프로세스가 반복된다. 이주 단계 동안 사람들을 제거함에 따라, 제거된 집단 내의 청소년의 비율을 기록하였다. 제거된 동일한 수의 청소년을 집단 내에 다시 추가하였다. 예를 들어, 100명의 사람(20명의 청소년 포함)이 제거되고 10명의 사람만이 추가된 경우, 그 10명의 사람 중 2명은 청소년일 것이다. 노령의 개체들에 대해서도 동일한 프로세스가 반복된다. 다음에, 2명의 출산 가능한 연령의 개체들이 기존 집단으로부터 선택되고, 2명의 새로운 개체가 대응하는 연령으로 추가된다. 한 명은 남성으로, 다른 한 명은 여성으로 할당되고, 그 후에 2명의 이주자가 결혼한다. 이 단계는 기혼 커플의 수가 보충될 때까지 반복된다. 마지막으로, 출산 가능한 연령의 개체들이 새로운 청소년을 추가하는 데 사용되는 것과 동일한 프로세스로 추가되며, 목표 수의 이주자가 달성될 때까지 반복된다. 이 프로세스는 집단의 연령 및 성별 분포뿐만 아니라 기혼의 출산 가능한 연령의 개체들의 비율을 유지하는 데 도움을 준다.
7. 이식(transplant) - 하위 집단 내에서 이동하는 사람들을 시뮬레이션한다. 하위 집단들 간의 유전자 분리의 부족을 시뮬레이션하기 위해서, 개체들은 전체 집단 내의 하위 집단들 간에서 이동할 수 있다. 전체 집단에 걸쳐 단일 이동률이 사용된다. 하위 집단으로부터의 개체들은 원하는 이식이 달성될 때까지 무작위로 선택되고 다른 하위 집단들 중 하나에 무작위로 할당된다. 이 단계는 하위 집단이 하나만 있는 경우 또는 이식률이 0인 경우(기본값은 매년 전체 집단 이식의 1%임)에 발생하지 않는다.
시뮬레이션은 각 설립자(founder) 및 그 자손의 추적을 유지하면서 특정의 시간 동안 진행한다.
무작위 및 클러스터 확인 모두를 수행하였다. 양쪽의 확인 접근법에 대해, 협력 시작 시 GHS 바이오뱅크에서 개체들의 무작위 시퀀싱 순서를 모델링하기 위해 집단의 처음 5%의 확인 순서(ordered_sampling_proportion 파라미터로 특정됨)를 셔플하였다. 이 파라미터의 선택은 무작위 확인에 영향을 주지 않았고 클러스터 확인에서 쌍별 관계의 누적에 무시할 수 있는 영향을 주지 않았지만, 람다 값이 높을수록 더 확연해지는 변곡점을 유발함으로써 클러스터 표본화로 확인된 데이터세트 내의 하나 이상의 친척이 있는 개체들의 비율에는 영향을 주었다. 이 변곡점은 실제 데이터의 프리즈 프로세스를 모델링하거나 바이오뱅크로부터의 시퀀싱 표본과 새롭게 확인된 개체들 간의 더 원활한 전이를 모델링한 경우에 덜 확연해질 수 있었다. 예를 들어, 사용자는 다음 세트의 하위 집단으로 이동하기 전에 하나 이상의 하위 집단으로부터의 확인을 시뮬레이션하려는 경우에 하위 집단 확인 순서를 특정할 수 있었다. 기본값은 모든 하위 집단을 초기에 그룹화하고 그들이 단일 집단인 것처럼 그들로부터 확인하는 것이었다. 사용자는 다른 하위 집단 또는 전체 집단으로 이동하기 전에 확인된 집단의 초기 비율을 특정할 수도 있다. 이 프로그램은 전체 집단에 대한 ped 파일 형식의 출력, 확인된 순서대로의 확인된 표본의 리스트, 및 유용한 집단 및 확인 통계를 요약한 수개의 결과 파일을 확립하였다.
이러한 순방향 시뮬레이션 프레임워크(SimProgeny)는 (상기에서 예시된 바와 같이) GHS와 같은 건강관리 시스템에 의해 제공된 집단을 포함한, 다양한 집단을 시뮬레이션하는 데 사용될 수 있다. 또한, HPG 연구에 의해 사용된 표본 확인도 시뮬레이션할 수 있다. 확인된 데이터세트 내의 관련성의 양을 드라이브할 수 있는 수개의 요인이 있다(도 10).
또한, 이러한 모델은 사용자 특정 집단 파라미터(상기 표 1 참조)에 기초하여 하나 이상의 하위 집단에 걸쳐 분산된 수백만명의 집단을 시뮬레이션할 수 있다. 해마다 진행하는 시뮬레이션은 특정 파라미터에 기초하여 결합, 출생, 분리, 이주, 사망, 및 하위 집단들 간의 이동을 작성한다. 이 프로세스는 다양한 HPG 연구를 나타내는 현실적인 혈통 구조 및 집단을 생성한다. 기본 값은 시뮬레이션된 집단이 DiscovEHR 코호트 및 확장된 DiscovEHR 코호트를 모델링하도록 조정되었지만, SimProgeny 코드에 포함된 구성 파일을 변경함으로써 상이한 집단을 모델링하기 위해 이들 파라미터를 쉽게 커스터마이징할 수 있다.

Claims (42)

  1. 인간 집단(human population) 내의 관련성을 예측하는 방법으로서,
    제1 집단 데이터세트를 확립하는 단계;
    상기 제1 집단 데이터세트로부터 제2 집단 데이터세트를 확립하기 위해 특정의 연수 동안 번인 단계(burn-in phase)를 수행하는 단계; 및
    상기 제2 집단 데이터세트에 대한 시뮬레이션을 수행하는 단계를 포함하며, 상기 시뮬레이션을 수행하는 단계는,
    (a) 상기 제2 집단 데이터세트 내의 개체들을 개체들의 연령에 따라 연령 풀(age pool)로 이동시키는 단계;
    (b) 상기 제2 집단 데이터세트 내의 독신 남성 및 독신 여성으로부터 무작위로 사촌보다 관계가 더 먼 독신 남성 및 독신 여성의 쌍을 선택하여 이들을 연령 파라미터에 의해 특정의 결혼으로 결혼시키는 단계 - 상기 쌍은 다수의 결혼이 결혼률 파라미터에 의해 특정된 바와 같이 달성될 때까지 선택됨 -;
    (c) 기혼 커플을 특정의 이혼율로 이혼시키는 단계 - 상기 기혼 커플은 상기 제2 집단 데이터세트로부터 무작위로 선택되고 이혼 시 독신으로서 표시됨 -;
    (d) 독신 남성 및 독신 여성 또는 기혼 커플의 쌍을 특정의 비율로 상기 제2 집단 데이터세트로부터 무작위로 선택하고, 상기 쌍이 성공적인 임신의 목표 수에 도달될 때까지 특정의 출생률에 따라 재생산할 수 있게 하는 단계 - 부모는 사촌보다 관계가 더 먼 것으로 제한되며, 상기 제2 집단 데이터세트 내의 모든 개체는 매년 1명의 자녀를 갖는 것으로 제한됨 -;
    (e) 상기 제2 집단 데이터세트 내의 개체들이 연령 파라미터에 의해 특정의 사망률 및 특정의 치사율로 사망할 수 있게 하는 단계;
    (f) 개체들이 상기 제2 집단 데이터세트로 또는 그로부터 이동할 수 있게 하는 단계 - 이에 따라, 상기 집단의 연령 및 성별 분포 및 상기 제2 집단 데이터세트 내의 기혼의 출산 가능한 연령의 개체들의 비율이 유지됨 -;
    (g) 개체들이 상기 제2 집단 데이터세트 내에서 이동할 수 있게 하는 단계 - 이에 따라, 하위 집단으로부터의 개체들은 무작위로 선택되고 하위 집단들 간의 특정의 이동률이 달성될 때까지 존재하는 경우 다른 하위 집단에 무작위로 할당됨 -; 및
    (h) 소정의 연수 동안 1년 간격으로 반복적으로 (a) 내지 (g) 중 하나 이상을 반복하는 단계 - (a) 내지 (g) 중 하나 이상은 이전의 반복으로부터 생긴 상기 집단 데이터세트에 적용되어 상기 인간 집단 내의 관련성을 예측하는 최종 집단 데이터세트를 생성함 -를 포함하는, 방법.
  2. 제1항에 있어서, 상기 최종 집단 데이터세트에 기초한 유전자 분석을 위해 상기 인간 집단을 선택하는 단계를 더 포함하는, 방법.
  3. 제2항에 있어서, 상기 유전자 분석은 혈통 재구성, 복합 이형접합성 돌연변이(compound heterozygous mutation)의 단계화 또는 드 노보 돌연변이(de novo mutation)의 검출을 포함하는, 방법.
  4. 제1항에 있어서, 상기 인간 집단은 다수의 인간 집단을 포함하고, 상기 최종 집단 데이터세트를 생성하는 단계는 상기 다수의 인간 집단 각각에 대한 최종 집단 데이터세트를 생성하는 단계를 포함하며, 상기 최종 집단 데이터세트에 기초한 상기 유전자 분석을 위해 상기 다수의 인간 집단 중 하나를 선택하는 단계를 더 포함하는, 방법.
  5. 제1항에 있어서, 상기 제1 집단 데이터세트를 확립하는 단계는 다수의 하위 집단 및 크기를 특정하는 단계를 더 포함하는, 방법.
  6. 제5항에 있어서, 상기 제1 집단 데이터세트를 확립하는 단계는 상기 제1 집단 데이터세트 내의 개체들에 0과 최대 출산 연령 사이의 연령을 할당하는 단계를 더 포함하는, 방법.
  7. 제5항에 있어서, 최대 출산 연령은 49세인, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 번인 단계를 수행하는 단계는 상기 제2 집단 데이터세트 내의 개체들의 출생 및 사망 수를 동일하게 유지하고 개체들의 순 이주율을 0으로 유지하는 단계를 더 포함하는, 방법.
  9. 제8항에 있어서, 상기 번인 단계를 수행하는 단계는,
    개체들 연령이 최소 출산 연령을 초과할 때 상기 제2 집단 데이터세트 내의 개체들을 청소년 풀(juvenile pool)로부터 교배 풀(mating pool)로 이동시키는 단계;
    개체들 연령이 최대 출산 연령을 초과할 때 개체들을 상기 교배 풀로부터 노령 풀로 이동시키는 단계; 및
    개체들이 이주해 가거나 사망한 경우 모든 연령 풀로부터 개체들을 제거하는 단계를 더 포함하는, 방법.
  10. 제9항에 있어서, 상기 최소 출산 연령은 15세이고, 상기 최대 출산 연령은 49세인, 방법.
  11. 제1항 내지 제10항 중 어느 한 항의 상기 예측 모델을 사용하는 상기 방법에 있어서, 상기 개체들을 확인하는 단계는 무작위로 수행되는, 방법.
  12. 제1항 내지 제10항 중 어느 한 항의 상기 예측 모델을 사용하는 상기 방법에 있어서, 상기 개체들을 확인하는 단계는 클러스터 방식(clustered fashion)으로 수행되는, 방법.
  13. 제11항 또는 제12항에 있어서, 상기 개체들을 확인하는 단계는 확인된 개체들 간의 1촌 또는 2촌 관계, 또는 둘 다를 포함하는 확인된 개체들에 대한 관련성 데이터 및 관련 통계를 수집하는 단계를 더 포함하는, 방법.
  14. 제1항에 있어서, 상기 특정의 연수는 120년인, 방법.
  15. 인간 집단 내의 관련성을 예측하기 위한 시스템으로서,
    데이터 프로세서, 상기 데이터 프로세서와 결합된 메모리, 및 상기 메모리 내에 저장된 프로그램을 포함하며, 상기 프로그램은 상기 데이터 프로세서에 의해 실행될 수 있는 명령어를 포함하고, 상기 프로그램은,
    제1 집단 데이터세트를 확립하고;
    상기 제1 집단 데이터세트로부터 제2 집단 데이터세트를 확립하기 위해 특정의 연수 동안 번인 단계를 수행하며; 그리고,
    상기 제2 집단 데이터세트에 대한 시뮬레이션을 수행하고, 상기 시뮬레이션은,
    (a) 상기 제2 집단 데이터세트 내의 개체들을 개체들의 연령에 따라 연령 풀로 이동시키는 단계;
    (b) 상기 제2 집단 데이터세트 내의 독신 남성 및 독신 여성으로부터 무작위로 사촌보다 관계가 더 먼 독신 남성 및 독신 여성의 쌍을 선택하여 이들을 연령 파라미터에 의해 특정의 결혼으로 결혼시키는 단계 - 상기 쌍은 다수의 결혼이 결혼률 파라미터에 의해 특정된 바와 같이 달성될 때까지 선택됨 -;
    (c) 기혼 커플을 특정의 이혼율로 이혼시키는 단계 - 상기 기혼 커플은 상기 제2 집단 데이터세트로부터 무작위로 선택되고 이혼 시 독신으로서 표시됨 -;
    (d) 독신 남성 및 독신 여성 또는 기혼 커플의 쌍을 특정의 비율로 상기 제2 집단 데이터세트로부터 무작위로 선택하고, 상기 쌍이 성공적인 임신의 목표 수에 도달될 때까지 특정의 출생률에 따라 재생산할 수 있게 하는 단계 - 부모는 사촌보다 관계가 더 먼 것으로 제한되며, 상기 제2 집단 데이터세트 내의 모든 개체는 매년 1명의 자녀를 갖는 것으로 제한됨 -;
    (e) 상기 제2 집단 데이터세트 내의 개체들이 연령 파라미터에 의해 특정의 사망률 및 특정의 치사율로 사망할 수 있게 하는 단계;
    (f) 개체들이 상기 제2 집단 데이터세트로 또는 그로부터 이동할 수 있게 하는 단계 - 이에 따라, 상기 집단의 연령 및 성별 분포 및 상기 제2 집단 데이터세트 내의 기혼의 출산 가능한 연령의 개체들의 비율이 유지됨 -;
    (g) 개체들이 상기 제2 집단 데이터세트 내에서 이동할 수 있게 하는 단계 - 이에 따라, 하위 집단으로부터의 개체들은 무작위로 선택되고 하위 집단들 간의 특정의 이동률이 달성될 때까지 존재하는 경우 다른 하위 집단에 무작위로 할당됨 -; 및
    (h) 소정의 연수 동안 1년 간격으로 반복적으로 (a) 내지 (g) 중 하나 이상을 반복하는 단계 - (a) 내지 (g) 중 하나 이상은 이전의 반복으로부터 생긴 상기 집단 데이터세트에 적용되어 상기 인간 집단 내의 관련성을 예측하는 최종 집단 데이터세트를 생성함 - 중 하나 이상을 포함하는, 시스템.
  16. 제15항에 있어서, 상기 최종 집단 데이터세트에 기초한 유전자 분석을 위해 인간 집단을 선택하는 단계를 더 포함하는, 시스템.
  17. 제16항에 있어서, 상기 유전자 분석은 혈통 재구성, 복합 이형접합성 돌연변이의 단계화 또는 드 노보 돌연변이의 검출을 포함하는, 시스템.
  18. 제15항에 있어서, 상기 인간 집단은 다수의 인간 집단을 포함하고, 상기 최종 집단 데이터세트를 생성하는 단계는 상기 다수의 인간 집단 각각에 대한 최종 집단 데이터세트를 생성하는 단계를 포함하며, 상기 최종 집단 데이터세트에 기초한 상기 유전자 분석을 위해 상기 다수의 인간 집단 중 하나를 선택하는 단계를 더 포함하는, 시스템.
  19. 제15항에 있어서, 상기 제1 집단 데이터세트를 확립하는 단계는 다수의 하위 집단 및 크기를 특정하는 단계를 더 포함하는, 시스템.
  20. 제19항에 있어서, 상기 제1 집단 데이터세트를 확립하는 단계는 상기 제1 집단 데이터세트 내의 개체들에 0과 최대 출산 연령 사이의 연령을 할당하는 단계를 더 포함하는, 시스템.
  21. 제19항에 있어서, 상기 최대 출산 연령은 49세인, 시스템.
  22. 제15항 내지 제21항 중 어느 한 항에 있어서, 상기 번인 단계를 수행하는 단계는 상기 제2 집단 데이터세트 내의 개체들의 출생 및 사망 수를 동일하게 유지하고 개체들의 순 이주율을 0으로 유지하는 단계를 더 포함하는, 시스템.
  23. 제22항에 있어서, 상기 번인 단계를 수행하는 단계는,
    개체들 연령이 최소 출산 연령을 초과할 때 상기 제2 집단 데이터세트 내의 개체들을 청소년 풀로부터 교배 풀로 이동시키는 단계;
    개체들 연령이 최대 출산 연령을 초과할 때 개체들을 상기 교배 풀로부터 노령 풀로 이동시키는 단계; 및
    개체들이 이주해 가거나 사망한 경우 모든 연령 풀로부터 개체들을 제거하는 단계를 더 포함하는, 시스템.
  24. 제23항에 있어서, 상기 최소 출산 연령은 15세이고, 상기 최대 출산 연령은 49세인, 시스템.
  25. 제15항 내지 제24항 중 어느 한 항의 상기 예측 모델을 사용하는 상기 시스템에 있어서, 상기 개체들을 확인하는 단계는 무작위로 수행되는, 시스템.
  26. 제15항 내지 제24항 중 어느 한 항의 상기 예측 모델을 사용하는 상기 시스템에 있어서, 상기 개체들을 확인하는 단계는 클러스터 방식으로 수행되는, 시스템.
  27. 제25항 또는 제26항에 있어서, 상기 개체들을 확인하는 단계는 확인된 개체들 간의 1촌 또는 2촌 관계, 또는 둘 다를 포함하는 확인된 개체들에 대한 관련성 데이터 및 관련 통계를 수집하는 단계를 더 포함하는, 시스템.
  28. 제15항에 있어서, 상기 특정의 연수는 120년인, 시스템.
  29. 인간 집단 내의 관련성을 결정하는 비일시적 컴퓨터 구현 방법으로서,
    제1 집단 데이터세트를 확립하기 위해 데이터 프로세서를 사용하는 단계;
    특정의 연수 동안 번인 단계를 수행하여 상기 제1 집단 데이터세트로부터 제2 집단 데이터세트를 확립하기 위해 상기 데이터 프로세서를 사용하는 단계; 및
    상기 제2 집단 데이터세트에 대한 시뮬레이션을 수행하기 위해 상기 데이터 프로세서를 사용하는 단계를 포함하며, 상기 시뮬레이션은,
    (a) 상기 제2 집단 데이터세트 내의 개체들을 개체들의 연령에 따라 연령 풀로 이동시키는 단계;
    (b) 상기 제2 집단 데이터세트 내의 독신 남성 및 독신 여성으로부터 무작위로 사촌보다 관계가 더 먼 독신 남성 및 독신 여성의 쌍을 선택하여 이들을 연령 파라미터에 의해 특정의 결혼으로 결혼시키는 단계 - 상기 쌍은 다수의 결혼이 결혼률 파라미터에 의해 특정된 바와 같이 달성될 때까지 선택됨 -;
    (c) 기혼 커플을 특정의 이혼율로 이혼시키는 단계 - 상기 기혼 커플은 상기 제2 집단 데이터세트로부터 무작위로 선택되고 이혼 시 독신으로서 표시됨 -;
    (d) 독신 남성 및 독신 여성 또는 기혼 커플의 쌍을 특정의 비율로 상기 제2 집단 데이터세트로부터 무작위로 선택하고, 상기 쌍이 성공적인 임신의 목표 수에 도달될 때까지 특정의 출생률에 따라 재생산할 수 있게 하는 단계 - 부모는 사촌보다 관계가 더 먼 것으로 제한되며, 상기 제2 집단 데이터세트 내의 모든 개체는 매년 1명의 자녀를 갖는 것으로 제한됨 -;
    (e) 상기 제2 집단 데이터세트 내의 개체들이 연령 파라미터에 의해 특정의 사망률 및 특정의 치사율로 사망할 수 있게 하는 단계;
    (f) 개체들이 상기 제2 집단 데이터세트로 또는 그로부터 이동할 수 있게 하는 단계 - 이에 따라, 상기 집단의 연령 및 성별 분포 및 상기 제2 집단 데이터세트 내의 기혼의 출산 가능한 연령의 개체들의 비율이 유지됨 -;
    (g) 개체들이 상기 제2 집단 데이터세트 내에서 이동할 수 있게 하는 단계 - 이에 따라, 하위 집단으로부터의 개체들은 무작위로 선택되고 하위 집단들 간의 특정의 이동률이 달성될 때까지 존재하는 경우 다른 하위 집단에 무작위로 할당됨 -; 및
    (h) 소정의 연수 동안 1년 간격으로 반복적으로 (a) 내지 (g) 중 하나 이상을 반복하는 단계 - (a) 내지 (g) 중 하나 이상은 이전의 반복으로부터 생긴 상기 집단 데이터세트에 적용되어 상기 인간 집단 내의 관련성을 예측하는 최종 집단 데이터세트를 생성함 - 중 하나 이상을 포함하는, 비일시적 컴퓨터 구현 방법.
  30. 제29항에 있어서, 상기 최종 집단 데이터세트에 기초한 유전자 분석을 위해 인간 집단을 선택하는 단계를 더 포함하는, 비일시적 컴퓨터 구현 방법.
  31. 제30항에 있어서, 상기 유전자 분석은 혈통 재구성, 복합 이형접합성 돌연변이의 단계화 또는 드 노보 돌연변이의 검출을 포함하는, 시스템.
  32. 제29항에 있어서, 상기 인간 집단은 다수의 인간 집단을 포함하고, 상기 최종 집단 데이터세트를 생성하는 단계는 상기 다수의 인간 집단 각각에 대한 최종 집단 데이터세트를 생성하는 단계를 포함하며, 상기 최종 집단 데이터세트에 기초한 상기 유전자 분석을 위해 상기 다수의 인간 집단 중 하나를 선택하는 단계를 더 포함하는, 비일시적 컴퓨터 구현 방법.
  33. 제29항에 있어서, 상기 제1 집단 데이터세트를 확립하는 단계는 다수의 하위 집단 및 크기를 특정하는 단계를 더 포함하는, 비일시적 컴퓨터 구현 방법.
  34. 제33항에 있어서, 상기 제1 집단 데이터세트를 확립하는 단계는 상기 제1 집단 데이터세트 내의 개체들에 0과 최대 출산 연령 사이의 연령을 할당하는 단계를 더 포함하는, 비일시적 컴퓨터 구현 방법.
  35. 제34항에 있어서, 상기 최대 출산 연령은 49세인, 비일시적 컴퓨터 구현 방법.
  36. 제29항 내지 제35항 중 어느 한 항에 있어서, 상기 번인 단계를 수행하는 단계는 상기 제2 집단 데이터세트 내의 개체들의 출생 및 사망 수를 동일하게 유지하고 개체들의 순 이주율을 0으로 유지하는 단계를 더 포함하는, 비일시적 컴퓨터 구현 방법.
  37. 제36항에 있어서, 상기 번인 단계를 수행하는 단계는,
    개체들 연령이 최소 출산 연령을 초과할 때 상기 제2 집단 데이터세트 내의 개체들을 청소년 풀로부터 교배 풀로 이동시키는 단계;
    개체들 연령이 최대 출산 연령을 초과할 때 개체들을 상기 교배 풀로부터 노령 풀로 이동시키는 단계; 및
    개체들이 이주해 가거나 사망한 경우 모든 연령 풀로부터 개체들을 제거하는 단계를 더 포함하는, 비일시적 컴퓨터 구현 방법.
  38. 제37항에 있어서, 상기 최소 출산 연령은 15세이고, 상기 최대 출산 연령은 49세인, 비일시적 컴퓨터 구현 방법.
  39. 제29항 내지 제38항 중 어느 한 항에 있어서, 상기 개체들을 확인하는 단계는 무작위로 수행되는, 비일시적 컴퓨터 구현 방법.
  40. 제29항 내지 제38항 중 어느 한 항에 있어서, 상기 개체들을 확인하는 단계는 클러스터 방식으로 수행되는, 비일시적 컴퓨터 구현 방법.
  41. 제39항 또는 제40항에 있어서, 상기 개체들을 확인하는 단계는 확인된 개체들 간의 1촌 또는 2촌 관계, 또는 둘 다를 포함하는 확인된 개체들에 대한 관련성 데이터 및 관련 통계를 수집하는 단계를 더 포함하는, 비일시적 컴퓨터 구현 방법.
  42. 제29항에 있어서, 상기 특정의 연수는 120년인, 비일시적 컴퓨터 구현 방법.
KR1020207009431A 2017-09-07 2018-09-07 인간 집단의 관련성을 예측하기 위한 시스템 및 방법 KR20200050992A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762555597P 2017-09-07 2017-09-07
US62/555,597 2017-09-07
PCT/US2018/049960 WO2019051233A1 (en) 2017-09-07 2018-09-07 SYSTEM AND METHOD FOR PREDICTING PARENTALITY IN A HUMAN POPULATION

Publications (1)

Publication Number Publication Date
KR20200050992A true KR20200050992A (ko) 2020-05-12

Family

ID=63684599

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020207009431A KR20200050992A (ko) 2017-09-07 2018-09-07 인간 집단의 관련성을 예측하기 위한 시스템 및 방법
KR1020207009945A KR102648634B1 (ko) 2017-09-07 2018-09-07 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법
KR1020247008421A KR20240038142A (ko) 2017-09-07 2018-09-07 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020207009945A KR102648634B1 (ko) 2017-09-07 2018-09-07 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법
KR1020247008421A KR20240038142A (ko) 2017-09-07 2018-09-07 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법

Country Status (11)

Country Link
US (3) US11605444B2 (ko)
EP (2) EP3679575A1 (ko)
JP (3) JP7277438B2 (ko)
KR (3) KR20200050992A (ko)
CN (3) CN111247599A (ko)
AU (3) AU2018327331A1 (ko)
CA (2) CA3075266A1 (ko)
IL (2) IL272927A (ko)
MX (2) MX2020002665A (ko)
SG (2) SG11202001715YA (ko)
WO (2) WO2019051233A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL3207481T3 (pl) * 2014-10-14 2020-05-18 Ancestry.Com Dna, Llc Redukowanie błędu w przewidywanych powiązaniach genetycznych
JP2021536635A (ja) 2018-09-07 2021-12-27 リジェネロン・ファーマシューティカルズ・インコーポレイテッドRegeneron Pharmaceuticals, Inc. 家系エンリッチメント及び家系内の家族ベース解析のための方法及びシステム
CN110060737B (zh) * 2019-04-30 2023-04-18 上海诚明融鑫科技有限公司 一种基于最大频率虚拟个体的str快速比对方法及系统
CN110974203B (zh) * 2019-12-10 2020-12-04 电子科技大学 一种基于等值排列网络的心率非平衡性分析方法
CN111883207B (zh) * 2020-07-31 2022-08-16 武汉蓝沙医学检验实验室有限公司 一种生物学亲缘关系的鉴定方法
CN116209777A (zh) * 2020-10-27 2023-06-02 深圳华大基因股份有限公司 基于无创产前基因检测数据的亲缘关系判定方法和装置
WO2022109267A2 (en) 2020-11-19 2022-05-27 Regeneron Pharmaceuticals, Inc. Genotyping by sequencing
CN112863601B (zh) * 2021-01-15 2023-03-10 广州微远基因科技有限公司 病原微生物耐药基因归属模型及其建立方法和应用
CN113380328B (zh) * 2021-04-23 2023-06-20 中国人民大学 一种基于mRNA碱基的生物亲缘识别方法和系统
GB2621782A (en) * 2021-05-05 2024-02-21 Univ Leland Stanford Junior Methods and systems for analyzing nucleic acid molecules
CN115101130A (zh) * 2022-06-30 2022-09-23 山东大学 一种基于网络对抗学习的单细胞数据插补方法及系统

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1288835A1 (en) * 2001-08-31 2003-03-05 Hitachi, Ltd. A method for defining gene hunting studies
WO2006093879A2 (en) * 2005-02-26 2006-09-08 Coco Communications Corporation Naming system layer
US20080055049A1 (en) * 2006-07-28 2008-03-06 Weill Lawrence R Searching methods
US20090177496A1 (en) * 2005-09-28 2009-07-09 Tuck Edward F Relationship prediction system
CA2630070A1 (en) * 2005-11-17 2007-05-31 Motif Biosciences, Inc. Systems and methods for the biometric analysis of index founder populations
WO2008025093A1 (en) * 2006-09-01 2008-03-06 Innovative Dairy Products Pty Ltd Whole genome based genetic evaluation and selection process
JP4778876B2 (ja) * 2006-11-02 2011-09-21 株式会社エー・アンド・デイ エンジン計測装置
US20130080365A1 (en) * 2011-04-13 2013-03-28 The Board Of Trustees Of The Leland Stanford Junior University Phased Whole Genome Genetic Risk In A Family Quartet
EP3514798A1 (en) * 2011-10-31 2019-07-24 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
WO2013112948A1 (en) * 2012-01-26 2013-08-01 Nodality, Inc. Benchmarks for normal cell identification
US9177098B2 (en) * 2012-10-17 2015-11-03 Celmatix Inc. Systems and methods for determining the probability of a pregnancy at a selected point in time
US20140222349A1 (en) * 2013-01-16 2014-08-07 Assurerx Health, Inc. System and Methods for Pharmacogenomic Classification
EP2949204B2 (en) * 2013-06-14 2020-06-03 Keygene N.V. Directed strategies for improving phenotypic traits
AU2014284180B2 (en) * 2013-06-21 2020-03-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20150088541A1 (en) * 2013-09-26 2015-03-26 Univfy Inc. System and method of using personalized outcome probabilities to support the consumer in comparing costs and efficacy of medical treatments and matching medical provider with consumer
JP6399511B2 (ja) * 2013-09-30 2018-10-03 学校法人近畿大学 家系図作成支援装置及びコンピュータプログラム
US10468121B2 (en) 2013-10-01 2019-11-05 Complete Genomics, Inc. Phasing and linking processes to identify variations in a genome
US20150112706A1 (en) * 2013-10-17 2015-04-23 Ovuline, Inc. System and Methods for Personal health Analytics Technical Field
WO2015058093A1 (en) * 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for genotyping genetic samples
CA2937502A1 (en) * 2014-01-27 2015-07-30 Celmatix, Inc. Methods for assessing whether a genetic region is associated with infertility
US9670530B2 (en) 2014-01-30 2017-06-06 Illumina, Inc. Haplotype resolved genome sequencing
US9779460B2 (en) * 2014-02-18 2017-10-03 Marineh Tchakerian Systems, methods and non-transitory computer readable storage media for tracking and evaluating predictions regarding relationships
US20160042282A1 (en) * 2014-08-11 2016-02-11 Rashied Baradaran Amini Relationship evaluator
WO2016049878A1 (zh) * 2014-09-30 2016-04-07 深圳华大基因科技有限公司 一种基于snp分型的亲子鉴定方法及应用
EP3216002A4 (en) * 2014-11-06 2018-04-18 Ancestryhealth.com, LLC Predicting health outcomes
CN106169034B (zh) * 2016-05-26 2019-03-26 中国农业科学院作物科学研究所 基因组信息辅助育种方法i-基于snp聚类信息和pav变异信息的育种亲本选择

Also Published As

Publication number Publication date
KR20200065000A (ko) 2020-06-08
JP7277438B2 (ja) 2023-05-19
WO2019051238A1 (en) 2019-03-14
IL272927A (en) 2020-04-30
AU2018327326A1 (en) 2020-03-19
MX2020002665A (es) 2020-10-05
US20190205502A1 (en) 2019-07-04
SG11202001747XA (en) 2020-03-30
CN111279420A (zh) 2020-06-12
JP2020533679A (ja) 2020-11-19
AU2023282218A1 (en) 2024-01-04
CN111247599A (zh) 2020-06-05
JP2020532989A (ja) 2020-11-19
US20190074092A1 (en) 2019-03-07
JP2023103325A (ja) 2023-07-26
EP3679575A1 (en) 2020-07-15
CN117746978A (zh) 2024-03-22
CN111279420B (zh) 2024-01-16
KR102648634B1 (ko) 2024-03-19
MX2020002664A (es) 2020-09-25
IL272963A (en) 2020-04-30
WO2019051233A1 (en) 2019-03-14
KR20240038142A (ko) 2024-03-22
CA3075266A1 (en) 2019-03-14
US11605444B2 (en) 2023-03-14
EP3679576A1 (en) 2020-07-15
AU2018327331A1 (en) 2020-03-12
CA3075182A1 (en) 2019-03-14
US20220336045A1 (en) 2022-10-20
SG11202001715YA (en) 2020-03-30

Similar Documents

Publication Publication Date Title
KR20200050992A (ko) 인간 집단의 관련성을 예측하기 위한 시스템 및 방법
Gurdasani et al. Uganda genome resource enables insights into population history and genomic discovery in Africa
Hotaling et al. Species discovery and validation in a cryptic radiation of endangered primates: coalescent‐based species delimitation in M adagascar's mouse lemurs
Morales et al. Speciation with gene flow in North American Myotis bats
Mende et al. Assessment of metagenomic assembly using simulated next generation sequencing data
Rosenberg et al. Clines, clusters, and the effect of study design on the inference of human population structure
Larena et al. Philippine Ayta possess the highest level of Denisovan ancestry in the world
Lee et al. Combining accurate tumor genome simulation with crowdsourcing to benchmark somatic structural variant detection
Novikova et al. Polyploidy breaks speciation barriers in Australian burrowing frogs Neobatrachus
O’Brien et al. A Bayesian approach to inferring the phylogenetic structure of communities from metagenomic data
Konno et al. Deep distributed computing to reconstruct extremely large lineage trees
Chelysheva et al. RNA2HLA: HLA-based quality control of RNA-seq datasets
KR102085169B1 (ko) 개인 유전체 맵 기반 맞춤의학 분석 시스템 및 이를 이용한 분석 방법
Silva et al. Ancient mitochondrial diversity reveals population homogeneity in Neolithic Greece and identifies population dynamics along the Danubian expansion axis
Guzzi et al. Automatic summarisation and annotation of microarray data
JP6374532B2 (ja) 特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム
US10540324B2 (en) Human haplotyping system and method
Lazebnik et al. Cancer-inspired genomics mapper model for the generation of synthetic DNA sequences with desired genomics signatures
KR20210120782A (ko) 피검 대상 맞춤형 변이체 기반 레퍼런스 데이터 세트의 구축 방법
Tallman et al. Whole-genome sequencing of Bantu-speakers from Angola and Mozambique reveals complex dispersal patterns and interactions throughout sub-Saharan Africa
Seffernick et al. High-dimensional genomic feature selection with the ordered stereotype logit model
Alaçamlı et al. READv2: Advanced and user-friendly detection of biological relatedness in archaeogenomics
Becker et al. Structural variation calling and genotyping by moment-based deep convolutional neural networks
Marcus Inferring Interpretable Representations of Population Structure
Salcedo Assessment and Application of Subclonal Reconstruction for Profiling Tumour Evolution

Legal Events

Date Code Title Description
A201 Request for examination
WITB Written withdrawal of application