KR20180132727A - 유전자 변이체 표현형 분석 시스템 및 사용 방법 - Google Patents

유전자 변이체 표현형 분석 시스템 및 사용 방법 Download PDF

Info

Publication number
KR20180132727A
KR20180132727A KR1020187030806A KR20187030806A KR20180132727A KR 20180132727 A KR20180132727 A KR 20180132727A KR 1020187030806 A KR1020187030806 A KR 1020187030806A KR 20187030806 A KR20187030806 A KR 20187030806A KR 20180132727 A KR20180132727 A KR 20180132727A
Authority
KR
South Korea
Prior art keywords
data
component
variant
phenotype
gene
Prior art date
Application number
KR1020187030806A
Other languages
English (en)
Inventor
제프리 레이드
옴리 가테스맨
루카스 하베거
브라이언 카제스
제프리 스테플스
이반 맥스웰
Original Assignee
리제너론 파마슈티칼스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 리제너론 파마슈티칼스 인코포레이티드 filed Critical 리제너론 파마슈티칼스 인코포레이티드
Publication of KR20180132727A publication Critical patent/KR20180132727A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • G06F19/18
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G06F19/22
    • G06F19/26
    • G06F19/28
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

유전자 변이체-표현형 연관성의 결과를 생성하고 분석하기 위한 방법 및 시스템이 개시된다.

Description

유전자 변이체 표현형 분석 시스템 및 사용 방법
관련 출원에 대한 교차 참조
본 출원은 2016년 3월 29일에 출원된 미국 특허 가출원 제62/314,684호, 2016년 7월 15일에 출원된 미국 특허 가출원 제62/362,660호, 및 2017년 3월 6일 출원된 미국 특허 가출원 제62/467,547호에 대한 우선권을 주장하며, 상기 모두는 그 전체가 본원에 참조로서 통합된다.
서열 목록에 대한 참조
2017년 3월 29에 생성된 "37595_0009P1_Sequence_Listing.txt"라는 이름의 텍스트 파일로서 2017년 3월 29에 제출된 6,470 바이트의 크기를 갖는 서열 목록이 37 C.F.R. § 1.52(e)(5)에 따라 참조로서 본원에 통합된다.
인간 코호트에 고 처리량 DNA 시퀀싱을 적용함으로써, 희귀하고 공통된 유전자 변이체에 대한 포괄적인 카탈로그의 개발에서부터(Genomes Project, C., 등의 Nature 2010; 467: 1061; Tennessen JA, 등의 Science 2012; 337: 64) 멘델 유전병(Mendelian disease)에 대한 신규한 원인 유전자의 해명에(Chong JX, 등의 Am J Hum Genet 2015; 97: 199; Yang Y, 등의 JAMA, 2014; 312:1870) 이르기까지 유전학적 발견이 가능해졌으며, 희귀한 변이체는 공통의 복합 질병에 연루하는 것으로 여겨져 왔다(Do R, 등의 Nature 2015; 518: 102; Holm H, 등의 Nat Genet 2011; 43: 316; Steinberg S, 등의 Nat Genet, 2015; 47: 445).
최근의 발견에는 희귀한 "인간 녹아웃(human knockouts)"의 발견이 도움이 되었다(MacArthur DG, 등의 Science 2012; 335:823; Sulem P, 등의 Nat Genet 2015; 47: 448; Lim ET, 등의 PLoS Genet 2014; 10: e1004494). 경우에 따라, 서열 데이터베이스는 전염병 데이터(Li AH, 등의 Nat Genet 2015; 47: 640)에 연결되거나 구조화된 임상 기록에서 포착된 임상적 표현형(Sulem P, 등의 Nat Genet 2015; 47: 448; Lim ET, 등의 PLoS Genet 2014; 10: e1004494)에 연결되어 변이체와 표현형 간의 연관성을 발견하는 것을 용이하게 한다. (Gudbjartsson DF, 등의 Nat Genet 2015; 47: p. 435-44; Consortium UK, 등의 Nature 2015; 526: 82).
이러한 노력들은 몇 가지 치료 표적을 발견하는 것을 용이하게 하였다. 예를 들어, 기능 상실(LoF) 돌연변이가 유리한 지질 프로파일 및 관상 동맥성 심장 질환의 위험을 감소시키는 것과 관련이 있는 PCSK9 유전자(Kathiresan, S. and C. Myocard Infarction, N Engl J Med 2008; 358: 2299) 및 APOC3 유전자(Pollin TI, 등의 Science 2008; 322: 1702)에서 식별되었으며, 그러한 발견들이 이들 유전자 산물을 표적으로 하는 치료법의 개발을 용이하게 하였다.
그러나, 정밀 의약품의 구현을 추진하고 약물학적 개입을 위한 더 많은 생물학적 표적을 식별하기 위해서는 건강과 질병에 영향을 미치는 유전 인자에 대한 추가적인 설명과 이러한 정보에 기초한 표적화된 치료법의 개발이 요구된다. 추정 생물학적 표적을 식별하기 위한 하나의 접근법은 유전자 변이체 정보 및 표현형 정보를 이용할 수 있는 다수의 대상체 모집단에서의 표현형과 관심 변이체를 통계적으로 연관시키는 것이다(예를 들어, Wellcome Trust Case Control Consortium, Nature 2007; 447: 661; Cohorts for Heart and Aging Research in Genomic Epidemiology Consortium, Circulation: Cardiovascular Genetics 2009; 2: 73)(반대 결과도 동일함). 그러나, 이러한 노력은 일반적으로 희귀하고 영향력이 큰 기능 상실 변이체를 발견하기에 충분한 수의 대상물 또는 충분히 깊이 있는 유전자 변이체의 특성 분석을 활용하지 못하는데, 이는 임상적으로 관련된 추정적 표적을 지명하기에는 유전자 변이체 표현형과 연관된 데이터가 충분하지 못한 것과 통계적 검증력이 충분하지 못한 것에 적어도 부분적으로 기인한다.
또한, 바이오 제약 산업에 의한 연구 개발에 대한 투자 증가에도 불구하고, 1상 임상 시험에 들어가는 분자의 90%를 초과하는 부분이 규제 승인을 획득하기에 충분한 안전성과 효능을 입증하지 못한다. 대부분의 실패는 2상 임상 시험에서 발생하는데, 실패의 약 절반은 효능 부족으로 인한 것이고, 실패의 약 1/4은 독성 때문이다. 실패의 원인에는 예비 임상 모델이 임상적 이점을 예측하기에 부족한 것일 수 있다는 것이 포함된다.
따라서, 당업계에는 (1) 수십 만 개의 대상물에 대한 유전자 변이체 및 표현형 데이터에 대한 확장 가능한 저장 장치, (2) 유전자 변이체-표현형 연관성에 대한 확장 가능한 자동 분석 장치, 및 (3) 유전자 변이체-표현형 연관성에 대한 자동화된 컴퓨터 분석 장치가 필요하다.
이하의 일반적인 설명 및 하기의 상세한 설명은 모두 예시적이고 설명하기 위한 것일 뿐이며 제한적이지 않다는 것을 이해해야 한다. 유전자 변이체-표현형 연관성의 결과를 생성하고 분석하기 위한 방법 및 시스템이 개시된다.
본 방법 및 시스템은 유전자 변이체 데이터, 표현형 데이터, 연관성 결과 데이터 및 계통도의 검토를 용이하게 하는 유전 데이터 컴포넌트, 표현형 데이터 컴포넌트, 자동화된 유전자 변이체-표현형 연관성 결과 데이터 컴포넌트, 자동화된 결과 데이터 분석 컴포넌트 및 인터페이스를 포함하는 통합 전자 시스템을 제공한다. 생물학적 데이터의 저장, 처리, 분석, 출력 및/또는 시각화를 위한 방법 및 시스템이 본원에 개시된다.
본 방법 및 시스템은 생물학적 약물 표적의 지명 식별을 용이하게 하는데, 이는 예를 들어 동물 모델과 같은 기능적 모델에서 후속적으로 조사될 수 있다. 인간 유전적 증거에 의해 식별이 뒷받침되는 생물학적 약물 표적은 인간 유전적 증거에 의해 식별이 뒷받침되는 표적보다 임상 시험에서 성공 가능성이 더 높은 것으로 여겨진다.
본 방법 및 시스템은 신규한 유전자 변이체-표현형 연관성의 발견을 위한 주 엔진의 역할을 하며, 동형 접합 상태에 있는 것들을 포함하여 희귀한 해롭고 방어적인 대립 유전자의 응집을 용이하게 하고, 많은 환자-대조군 연구 및 극단적/정밀한 표현형에서의 조사를 용이하게 하고, 인간 녹아웃(knockout)의 발견을 용이하게 하고, 유전형 제1 쿼리 및 관심 대상물에 대한 후속 조치를 통한 소견의 검증 및 이들 관심 대상물에서의 깊이 있는 표현형 분석을 용이하게 하고, 인간 임상 시험에서의 약물 유전학 연구를 용이하게 한다.
서열 데이터로부터 수득된 하나 이상의 유전자 변이체에 기능적으로 주석을 달도록 구성된 유전자 데이터 컴포넌트; 상기 서열 데이터가 수득되고 유전자 데이터 성분에 의해 분석된 하나 이상의 환자에 대한 하나 이상의 표현형을 결정하도록 구성된 표현형 데이터 컴포넌트; 하나 이상의 유전자 변이체와 하나 이상의 표현형 간의 하나 이상의 연관성을 결정하도록 구성된 유전자 변이체-표현형 연관성 데이터 컴포넌트; 및 유전자 변이체-표현형 연관성 데이터 컴포넌트로부터의 하나 이상의 연관성을 생성, 저장 및 색인화하도록 구성된 데이터 분석 컴포넌트를 포함하는 시스템이 개시된다.
표현형 데이터 컴포넌트에 결합된 표현형 데이터 인터페이스; 표현형 데이터 컴포넌트에 결합된 유전형 변이체 데이터 인터페이스; 유전형 데이터 컴포넌트에 결합된 가계(pedigree) 인터페이스; 및 표현형 데이터 컴포넌트 및 데이터 분석 컴포넌트에 결합된 결관 인터페이스를 포함하는 시스템이 개시된다.
개시된 시스템을 통해 (예를 들어, 그래픽 사용자 인터페이스를 통해) 유전자 변이체 데이터를 보는 방법이 개시된다.
개시된 시스템을 통해 (예를 들어, 그래픽형 사용자 인터페이스를 통해) 표현형 데이터를 보는 방법이 개시된다.
개시된 시스템을 통해 (예를 들어, 그래픽 사용자 인터페이스를 통해) 유전자 변이체-표현형 연관성 데이터를 보는 방법이 개시된다.
개시된 시스템을 통해 유전자 데이터로부터 가계를 생성하는 방법이 개시된다.
유전자 변이체-표현형 연관성 결과를 생성하는 방법으로서, 본 발명의 시스템의 유전자 데이터 컴포넌트 및 표현형 데이터 컴포넌트로부터 데이터에 접근하는 단계; 및 하나 이상의 유전자 또는 유전자 변이체를 하나 이상의 표현형과 연관시켜 하나 이상의 유전자 변이체-표현형 연관성 결과를 수득하는 단계를 포함하는 방법이 개시된다.
하나이 이상의 기준의 선택을 수신하는 단계; 하나 이상의 기준과 연관된 하나 이상의 식별 정보가 제거된 의료 기록을 결정하는 단계; 하나 이상의 식별 정보가 제거된 의료 기록을 제1 결과로 그룹화하는 단계; 및 하나 이상의 기준의 제1 분포를 적용된 제1 결과로서 디스플레이하는 단계를 포함하는 방법이 개시된다.
엑솜(exome) 서열화 데이터로부터 복수의 변이체를 수신하는 단계; 복수의 변이체의 기능적 충격을 평가하는 단계; 복수의 변이체 각각에 대한 효과 예측 요소를 생성하는 단계; 및 효과 예측 요소를 복수의 변이체를 포함하는 검색 가능한 데이터베이스로 조립하는 단계를 포함하는 방법이 개시된다.
관심 유전자와 연관된 변이체에 대한 유전자 데이터 컴포넌트를 쿼리하는 단계; 변이체를 보유하는 코호트에 대한 쿼리로서 표현형 데이터 컴포넌트에 상기 변이체를 전달하는 단계; 변이체 및 코호트를 유전자 변이체-표현형 연관성 데이터 컴포넌트에 전달하여 변이체와 코호트의 표현형 간의 연관성 결과를 결정하는 단계; 연관성 결과를 데이터 분석 컴포넌트에 전달하여 연관성 결과를 변이체 및 표현형 중 적어도 하나에 따라 저장하고 색인화하는 단계; 및 표적 변이체 또는 표적 표현형에 의해 데이터 분석 컴포넌트를 쿼리하는 단계를 포함하는 방법으로서, 상기 연관성 결과는 응답으로 제공되는 것인, 방법이 개시된다.
추가의 이점은 부분적으로 하기 설명에 제시되거나 실시에 의해 알 수 있을 것이다. 이점은 첨부된 청구범위에 특별히 언급된 요소 및 조합에 의해 실현되고 달성될 것이다.
본 명세서에 통합되고 본 명세서의 일부를 구성하는 첨부 도면은 구현예를 도시하고, 상세한 설명과 함께 본 발명의 방법 및 시스템의 원리를 설명하는 역할을 하며, 첨부 도면 중:
도 1은 예시적인 작동 환경이고;
도 2는 개시된 방법을 수행하도록 구성된 복수의 시스템 컴포넌트를 도시하고;
도 3은 데이터 분석, 시각화, 및/또는 교환을 위한 구성된 예시적인 시스템 인터페이스를 도시하고;
도 4a는 예시적인 그래픽 사용자 인터페이스이고;
도 4b는 예시적인 표현형 데이터 그래픽 사용자 인터페이스이고;
도 4c는 예시적인 표현형 데이터 그래픽 사용자 인터페이스이고;
도 4d는 표현형 데이터 그래픽 사용자 인터페이스로부터의 예시적인 쿼리 결과이고;
도 4e는 예시적인 표현형 데이터 그래픽 사용자 인터페이스이고;
도 5는 예시적인 표현형 데이터 방법이고;
도 6a는 예시적인 유전자 데이터 그래픽 사용자 인터페이스이고;
도 6b는 예시적인 유전자 데이터 그래픽 사용자 인터페이스이고;
도 7a는 예시적인 유전자 데이터 그래픽 사용자 인터페이스이고;
도 7b는 유전자 데이터 그래픽 사용자 인터페이스로부터의 예시적인 쿼리 결과이고;
도 7c는 예시적인 유전자 데이터 그래픽 사용자 인터페이스이고;
도 7d는 예시적인 유전자 데이터 그래픽 사용자 인터페이스이고;
도 7e는 예시적인 유전자 데이터 그래픽 사용자 인터페이스이고;
도 8a는 예시적인 유전자 데이터 방법이고;
도 8b는 개시된 방법에 의해 생성된 예시적인 VCF 파일이고;
도 9는 예시적인 가계 사용자 인터페이스이고;
도 10은 예시적인 가계 사용자 인터페이스이고;
도 11은 예시적인 가계 사용자 인터페이스이고;
도 12a는 예시적인 결과 사용자 인터페이스이고;
도 12b는 예시적인 결과 사용자 인터페이스이고;
도 13a는 예시적인 유전자 데이터 및 표현형 데이터 그래픽 사용자 인터페이스이고;
도 13b는 유전자 데이터 및 표현형 데이터 그래픽 사용자 인터페이스로부터의 예시적인 쿼리 결과이고;
도 14는 예시적인 방법이고;
도 15는 예시적인 작동 환경이고;
도 16a, 16b, 16c, 16d, 16e 16f는 50,726개의 엑솜 서열에서의 기능적 변이체의 빈도 및 분포를 예시하는데: 도 16a는 기능적 분류에 의한 교호 대립 유전자 및 부위 번호 사이의 관계를 도시하고; 도 16b는 더 많은 기능적으로 유해한 변이체 중에 희귀 대립 유전자가 풍부함을 보여주는 기능적 분류에 의한 부위 빈도 스펙트럼을 도시하고; 도 16c는 기능적 분류에 의한 희귀한 (교호 대립 유전자 빈도가 1%보다 작은) 변이체의 발생을 도시하는 선 그래프이고; 도 16d는 50,726개의 서열화된 개체를 5,000개씩 증분하도록 무작위로 샘플링하고, 각각의 증분에 대해 10개의 샘플을 생성하여 추정한 샘플 크기의 함수로서 다수의 예측된 기능 손실 담체(pLoF)를 갖는 상 염색체 유전자의 백분율을 도시하는 선형 그래프이고; 도 16e는 50,726개의 엑솜 서열에서의 조기 정지 변이체의 관찰/예측 비의 분포를 도시하는 히스토그램이고; 도 16f는 50,726개의 엑솜 서열에서의 조기 정지 변이체의 관찰된/예측된 비의 분포를 유전자 분류(필수 유전자, 마우스 필수 유전자(Georgi B, 등의 PLoS Genet 2013; 9: e1003484); 암 유전자, 암 소인 유전자(Rahman N, Nature 2014; 505: 302); OMIM으로부터 엄선된 우성 질환 유전자, 상 염색체 우성 질환 유전자(Blekhman R, 등의 Curr Biol 2008; 18: 883; Berg JS, 등의 Genet Med 2013; 15: 36); 미국 식약청(Food and Drug Administration)이 승인한 약물 표적, 약물 표적을 암호화하는 유전자(Wishart DS, 등의 Nucleic Acids Res 2006; 34: D668); OMIM으로부터 엄선된 열성 질환 유전자, 상 염색체 열성 질환 유전자; 후각 유전자, 후각 수용체 유전자)에 따라 도시하는 박스 그래프이고;
도 17은 조기 정지 코돈 및 프레임시프트 인델을 유도하는 단일 뉴클레오티드 변이체의 분포를 코딩 서열을 따르는 위치의 함수로서 도시하는 히스토그램이다. 약어: pLoF = 예측된 기능 상실(predicted loss of function);
도 18a, 18b18c는 50,726개의 DiscovEHR 참가자에서 유전적으로 유추된 가족 관계를 도시하는데; 도 18a는 3촌 이상의 모든 관계에 대해 PRIMUS를 사용하여(Staples J, 등의 Am J Hum Genet 2014; 95: 553) 엑솜 서열 데이터로부터 유추한 쌍 단위의 가계 동일성을 도시한다. 빨간색 선은 적어도 하나의 1촌 또는 2촌 가족 관계를 갖는 개체의 경험적으로 관찰된 부분을 나타내고, 파란색 음영 범위는 연구 코호트를 위한 인구 통계학적 데이터에 기초한 예상 n을 나타내며; 도 18b는 하나 이상의 1촌 또는 2촌 친척으로(이들도 서열화됨) 지금까지 서열화된 참가자 중 관찰된 분획을 도시하는 히스토그램이고; 도 18c는 엑솜 서열 데이터로부터 재구축한 가장 큰 가족 네트워크의 그래픽 표현으로, 1촌 또는 2촌 관계에 의해 연결된 3,144개의 개체를 나타내며;
도 19는 34,246개의 DiscovEHR 참가자에서 동형 접합성의 런을 나타내는 막대 그래프이다. F (ROH)는 길이가 5Mb 이상인 런의 비율이다. 약어: ASW, 미국 남서부의 아프리카계 미국인; CEU, 북유럽 및 서유럽인 혈통의 유타 거주민(CEPH); CHB, 중국 북경의 한족; CHS, 남부 한족; CLM, 콜롬비아 메델린 출신의 콜롬비아인; FIN, 핀란드의 핀란드인; GBR, 영국과 스코틀랜드의 영국인; GHS, 게이싱어(Geisinger) 의료 시스템 (DiscovEHR); IBS, 스페인의 이베리아 인구; JPT, 일본 동경의 인본인; LWK, 케냐 웨부이의 루히아족; MXL, 미국 로스 앤젤레스 출신의 멕시코인 혈통; PUR, 푸에르토 리코 출신의 푸에르토 리코인; TSI, 이태리의 토스카니인; YRI, 나이지리아 이바단의 요루바족;
도 20a, 20b, 20c20d는 DiscovEHR 연구를 위한 지질 특성에 대한 단일 표지 연관성 결과의 분위-분위(Q-Q) 플롯을 도시한다. 플롯은 작은 대립 유전자 빈도가 0.1%를 초과하는 단일 뉴클레오티드 및 인델 변이체에 대한 관찰된 P 값 대 예측된 P 값을 기술한다. P 값은 연령, 연령2, 성별, 및 혈통의 주된 성분에 대해 보정된 지질 특성 잔류물에 대한 혼합 선형 모델 연관성 분석을 위한 것이며, 유전자형은 가산 모형 하에서 코딩하였다. 중성 지방과 HDL-C는 회귀 분석 전에 log10으로 변환하였다. 약어: λGC = 게놈 조절 람다;
도 21a, 21b, 21c, 21d, 21e, 21f21g는 전장 엑솜에서 HDL-C, LDL-C 및 중성 지방의 다변수 분석을 통한 유의한 연구 결과를 도시하는 표이며;
도 22a, 22b, 22c 22d는 전장 엑솜에서 총 콜레스테롤 수치와 단일 표지의 유의한 연관성을 도시하는 표이며;
도 23a, 23b, 23c, 23d 23e는 전장 엑솜에서 HDL-C 수치와 단일 표지의 유의한 연관성을 도시하는 표이며;
도 24a, 24b, 24c 24d는 전장 엑솜에서 LDL-C 수치와 단일 표지의 유의한 연관성을 도시하는 표이며;
도 25a, 25b, 25c, 25d25e는 전장 엑솜에서 걸쳐 중성 지방 수치와 단일 표지의 유의한 연관성을 도시하는 표이며;
도 26은 50,726개의 DiscovEHR 참가자의 지질 수치에 대한 유전자 기반 부담 시험의 결과를 도시하는 표이며;
도 27은 단일 변이체에 대한 대립 유전자 빈도와 효과의 크기 간의 관계 및 지질 수치와의 연관성에 대한 유전자 기반 시험을 도시하는 산포도 그래프이다. 효과의 크기는 표준 편차 단위로 표시된 베타의 절대값으로서 주어진다. 엑솜 전체에 걸쳐 유의한 기준(단일 변이체 및 연관성의 유전자 기반 부담 시험의 경우 1x10-7 및 1x10- 6)을 만족하는 단일 변이체 및 유전자 기반 부담의 연관성만이 표시되며;
도 28은 지질 약물 표적 유전자에서의 예측된 기능 상실 변이체와 지질 수치 사이의 연관성을 도시한다. 각각의 박스는 (표준 편차 단위로 표시된 베타의 절대값으로 주어진) 효과의 크기에 해당하고, 위스커(whisker)는 베타에 대한 95% 신뢰 구간을 나타낸다. 박스의 크기는 예측된 기능 상실 담체의 로그(밑수 10)에 비례한다. 괄호 안의 숫자는 95% 신뢰 구간을 나타내며;
도 29는 지질 저하 약물 표적을 암호화하는 유전자에서의 예측된 기능 상실 돌연변이와 평균 수명 주기 지질 수치 사이의 연관성을 도시하며;
도 30a, 30b, 30c, 30d, 30e, 30f, 30g 30h는 50,726개의 서열화된 DiscovEHR 참가자에서 76개의 임상적으로 활동 가능한 질환 유전자 중 예상되고 알려진 병원성 돌연변이를 도시하는 표이며;
도 31LDLR 순차 복제의 전체 게놈 서열 검증을 도시하고; 서열번호 1~11은 위에서 아래로 각각 도시되어 있으며;
도 32는 부모와 자식 모두가 CLAMMS(<= 28 CNVs) 또는 PennCNV(<= 50 CNVs)에 의한 이상치(outlier)가 아닌 1,174개의 부모-자식 듀오(2,132개의 고유 샘플)에 대해 CLAMMS(전장 엑솜 서열) 및 PennCNV(SNP 어레이)에 의해 이루어진 CNV 검출(CNV calls)을 비교한 결과를 도시하는 선형 그래프이며;
도 33은 GHS 모집단에서 알려진 질병 관련 CNV 세트의 관찰된 빈도를 도시하는 표이며;
도 34는 가계 다이어그램이며;
도 35a는 가변하는 대립 유전자 빈도 범위에서 결실 및 복제 유전자좌에 대한 평균 길이(95% 신뢰성 대역)를 도시하고;
도 35b는 CNV 카운트의 샘플식 분포를 도시하는 히스토그램이고;
도 35c는 대립 유전자 빈도에 의한 CNV 유전자좌의 누적 분포를 도시하며;
도 36은 대립 유전자 빈도에 대해 상대적인 CNV 길이를 도시하는 산포도이며;
도 37은 CNV에 대한 유전자 내성 대 LoF SNV에 대한 유전자 내성의 비교를 도시하는 선형 그래프이며;
도 38a는 기능 상실 불내성 유전자가 풍부하거나 고갈된 유전자 집합을 도시하고(높은 ExAC Pli 랭킹);
도 38b는 (a)로부터의 각 유전자 집합에서 유전자의 복제 또는 결실을 관찰한 예상 확률(평균, 95% 신뢰 구간)을 "모든 유전자(All Genes)"의 확대집합과 비교하여 도시하고;
도 39는 내포된 결실을 갖는 HMGCR 함유 순차 복제의 개략도이고; 서열번호 12~26은 위에서 아래로 각각 도시되어 있으며;
도 40LDLR DUP13 -17 담체 가계 및 LDL 수치를 도시한다.
본 방법 및 시스템이 개시되고 기술되기 전에, 본 방법 및 시스템은 특정 방법, 특정 컴포넌트, 또는 특정 실시를 한정하고자 하는 것이 아님을 이해해야 한다. 또한 본원에서 사용된 용어는 단지 특정한 구현예를 설명하기 위한 것이고 제한하고자 하는 의도가 아닌 것으로 이해된다.
본 명세서 및 첨부된 청구항에 사용된 바와 같이, 문맥에 달리 명시되어 있지 않는 한 단수 형태("a," "an" 및 "the")는 다수의 참조를 포함한다. 범위는 "약" 하나의 특정 값, 및/또는 "약" 또 다른 특정 값까지로서 본원에서 표현될 수 있다. 이러한 범위가 표현될 때, 다른 구현예는 하나의 특정 값으로부터 그리고/또는 다른 특정 값 까지를 포함한다. 유사하게, 값이 근사값으로 표현될 때, 선행하는 "약"의 사용에 의해, 특정 값은 다른 구현예를 형성하는 것으로 이해될 것이다. 각 범위의 종점은 다른 종점과 관련하여, 그리고 다른 종점과 관계없이 모두 유의한 것으로 추가로 이해될 것이다.
"선택적" 또는 "선택적으로"는, 후속으로 기재된 사건 또는 상황이 발생하거나 발생하지 않을 수 있고, 그 기재가 상기 사건 또는 상황이 발생하는 경우 및 발생하지 않는 경우를 포함함을 의미한다.
본 명세서의 상세한 설명 및 청구범위 전체에 걸쳐, "포함하다"라는 단어 및 "포함하는" 및 "포함하고"와 같은 이의 변화형은 "포함하지만 이에 한정되지 않는"을 의미하며, 예를 들어, 다른 구성요소, 정수 또는 단계를 배제하고자 하는 것은 아니다. "예시적인"은 "~의 일례"를 의미하며, 바람직한 또는 이상적인 구현예의 표시를 나타내고자 하는 것은 아니다. "~와 같은"은 제한적인 의미로 사용되지 않고 설명을 목적으로 사용된다.
개시된 방법 및 조성물은 이들이 다양할 수 있으므로 기술된 특정 방법론, 프로토콜, 및 시약에 한정되지 않는 것으로 이해된다. 또한 본 명세서에 사용되는 용어는 특정 구현예를 기술하기 위한 것일 뿐이며, 첨부된 청구범위에 의해서만 한정되는 본 방법 및 시스템의 범위를 한정하고자 하는 것이 아님을 이해해야 한다.
달리 정의되지 않는 한, 본 명세서에 사용된 모든 기술적 및 과학적 용어는 개시된 방법 및 조성물이 속한 당업자에 의해 통상 이해되는 것과 동일한 의미를 가진다. 본원에 기술된 것과 동등하거나 유사한 임의의 방법 및 재료가 본 방법 및 조성물을 실시하거나 시험하기 위해 사용될 수 있지만, 특히 유용한 방법, 장치 및 재료는 기술된 바와 같다. 본원에 인용된 간행물 및 그 간행물이 인용된 자료는 본원에 구체적으로 참조로써 포함된다. 본원 중의 어떠한 것도 선행 발명이라는 이유로 본 방법 및 시스템이 그러한 개시보다 앞설 권리가 없음을 인정하는 것으로 해석되지 않아야 한다. 임의의 참고문헌은 선행 기술을 구성하는 것으로 인정되지 않는다. 참고문헌의 논의는 그의 저자들이 주장하는 바를 나타내며, 출원인은 인용된 문헌의 정확성 및 적절성에 이의를 제기할 권리를 유보한다. 다수의 간행물이 본 명세서에 언급되어 있지만, 이러한 언급은 이들 문헌 중 임의의 것이 당업계의 통상적인 일반 지식의 일부를 형성한다는 인정을 구성하지 않는 것으로 명확히 이해될 것이다.
개시된 방법 및 시스템을 수행하는 데 사용될 수 있는 컴포넌트가 개시된다. 이들 및 다른 컴포넌트가 본원에 개시되어 있으며, 이러한 컴포넌트의 조합, 하위 집합, 상호작용, 군 등이 개시되어 있을 때, 이들의 각각의 다양한 개별적 및 집합적 조합과 순열의 구체적인 언급이 명시적으로 개시될 수 없지만, 각각은 본 명세서에서 모든 방법 및 시스템에 대하여 구체적으로 고려되고 기술되어 있는 것으로 이해된다. 이는 개시된 방법의 단계를 포함하지만 이에 한정되지 않는 본 출원의 모든 측면에 적용된다. 따라서, 수행될 수 있는 다양한 추가의 단계들이 존재하는 경우, 이들 추가의 단계 각각은 개시된 방법의 임의의 특정 구현예 또는 구현예의 조합으로 수행될 수 있는 것으로 이해된다.
본 방법 및 시스템은 하기의 바람직한 구현예의 상세한 설명 및 거기에 포함된 실시예 그리고 도면 및 이들의 상기 및 하기 설명을 참조로 더 쉽게 이해될 수 있다.
본 방법 및 시스템은 완전한 하드웨어 구현예, 완전한 소프트웨어 구현예, 또는 소프트웨어 양태와 하드웨어 양태를 조합한 구현예의 형태를 취할 수 있다. 또한, 본 방법 및 시스템은 컴퓨터 판독가능 프로그램 명령어 (예컨대, 컴퓨터 소프트웨어)가 저장 매체에서 구현되는, 컴퓨터 판독가능 저장 매체 상의 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 보다 구체적으로, 본 방법 및 시스템은 웹 구현 컴퓨터 소프트웨어의 형태를 취할 수 있다. 하드 디스크, CD-ROM, 광 저장 장치, 또는 자기 저장 장치를 포함하는 임의의 적합한 컴퓨터 판독가능 저장 매체가 이용될 수 있다.
본 방법 및 시스템의 구현예는 방법, 시스템, 장치 및 컴퓨터 프로그램 제품의 블록 다이어그램 및 순서도 예시를 참조하여 아래에 기술된다. 블록 다이어그램 및 순서도 예시의 각각의 블록, 및 블록 다이어그램 및 순서도 예시의 블록들의 조합은 각각 컴퓨터 프로그램 명령어에 의해 구현될 수 있는 것으로 이해될 것이다. 이들 컴퓨터 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터, 또는 다른 프로그래밍가능한 데이터 처리 장치 상에 로딩되어 머신(machine)을 생성할 수 있으며, 이에 따라 컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치에서 실행되는 명령어는 순서도 블록 또는 블록들에 명시된 기능을 구현하기 위한 수단을 생성한다.
컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치가 특정 방식으로 기능하도록 지시할 수 있는 이들 컴퓨터 프로그램 명령어는 또한 컴퓨터 판독가능 메모리에 저장될 수 있으며, 이에 따라 컴퓨터 판독가능 메모리에 저장된 명령어는 순서도 블록 또는 블록들에 명시된 기능을 구현하기 위한 컴퓨터 판독가능 명령어를 포함하는 제조 물품을 생성한다. 컴퓨터 프로그램 명령어는 또한 컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치 상에 로딩되어 일련의 작동 단계가 컴퓨터 또는 다른 프로그래밍가능한 장치 상에서 수행되게 하여 컴퓨터 구현 프로세스를 생성할 수 있으며, 이에 따라 컴퓨터 또는 다른 프로그래밍가능한 장치 상에서 실행되는 명령어는 순서도 블록 또는 블록들에 명시된 기능을 구현하기 위한 단계를 제공할 수 있다.
따라서, 블록 다이어그램 및 순서도 예시의 블록은 명시된 기능을 수행하기 위한 수단들의 조합, 명시된 기능을 수행하기 위한 단계들의 조합 및 명시된 기능을 수행하기 위한 프로그램 명령어 수단을 지원한다. 블록 다이어그램 및 순서도 예시의 각각의 블록, 및 블록 다이어그램 및 순서도 예시의 블록들의 조합은 명시된 기능 또는 단계를 수행하는 특수 목적 하드웨어 기반 컴퓨터 시스템, 또는 특수 목적 하드웨어와 컴퓨터 명령어의 조합에 의해 구현될 수 있는 것으로 또한 이해될 것이다.
차세대 DNA 시퀀싱 기술은 대규모의 유전 연구를 가능하게 한다. 개시된 방법 및 시스템은 의학적으로 관련된 연관성을 위해 탈 식별화된 임상 정보 및 생물학적 데이터를 활용할 수 있다. 개시된 방법 및 시스템은 충족되지 않는 주요한 의학적 요구가 있는 질병을 포함하여 다양한 질환을 유발하거나 이에 영향을 미치는 유전 인자를 발견하고 확인하기 위한 고 처리량 플랫폼을 포함할 수 있다.
본원에서 사용되는 바와 같이, "생물학적 데이터"는 인간, 동물 또는 (미생물, 바이러스, 식물 및 기타 생물체를 포함하는) 다른 생물학적 유기체의 생물학적 상태를 측정하는 것에서 유래된 임의의 데이터를 지칭할 수 있다. 측정은 의사, 과학자, 진단 전문가 등에게 알려진 임의의 시험, 분석 또는 관찰에 의해 이루어질 수 있다. 생물학적 데이터는 임상 시험 및 관찰, 물리적 및 화학적 측정, 게놈 결정, 게놈 서열화 데이터, 엑솜 서열화 데이터, 단백질 결정, 약물 수치, 호르몬 및 면역 검사, 신경 화학적 또는 신경 물리학적 측정, 미네랄 및 비타민 수치 결정, 유전적 및 가족성 이력, 및 검사 중인 개체 또는 개체들의 상태에 대한 통찰력을 줄 수 있는 기타 결정을 포함하되 이들로 한정되지 않는다. 용어 "데이터"는 "생물학적 데이터"와 상호 교환적으로 사용될 수 있다. 본원에서 사용되는 바와 같이, "표현형 데이터"는 표현형에 관한 데이터를 지칭한다. 표현형은 아래에서 더 논의된다.
본원에서 사용되는 바와 같이, 용어 "대상물"은 개체를 의미한다. 일 양태에서, 대상물은 인간과 같은 포유류이다. 일 양태에서, 대상물은 비인간 영장류일 수 있다. 비인간 영장류에는, 몇 가지 예를 들면, 마모셋(marmosets), 원숭이(monkeys), 침팬지(chimpanzees), 고릴라(gorillas), 오랑우탄(orangutans), 및 긴팔 원숭이(gibbons)가 포함됩니다. 용어 "대상물"에는 고양이, 개 등과 같은 길들여진 동물, 가축 (예: 소 (젖소), 말, 돼지, 양, 염소 등), 실험실 동물 (예: 힌 족제비(ferret), 친칠라(chinchilla), 마우스(mouse), 토끼(rabbit), 랫트(rat), 게르빌루스 쥐(gerbil), 기니 피그(guinea pig) 등) 및 조류 종 (예: 닭, 칠면조, 오리, 꿩, 비둘기(pigeons), 비둘기(doves), 앵무새(parrots), 앵무새(cockatoos), 거위 등)도 포함된다. 대상물에는 물고기(예: 제브라 피쉬(zebrafish), 금붕어(goldfish), 틸라피아(tilapia), 연어(salmon) 및 송어(trout)), 양서류 및 파충류도 포함될 수 있으나 이들로 한정되지 않는다. 본원에서 사용되는 바와 같이, "대상물"은 "환자"와 동일하며, 이 용어들은 상호 교환적으로 사용될 수 있다.
본원에서 사용되는 바와 같이, 용어 "일배체형(haplotype)"은 연관 불평형 상태인 2개 이상의 대립 유전자(특정 핵산 서열)의 세트를 지칭한다. 일 양태에서, 일배체형은 단일 염색체 상에서 서로 통계적으로 연관되어 있는 것으로 밝혀진 단일 염기 다형성(single nucleotide polymorphisms, SNP)의 세트를 지칭한다. 일배체형은 또한 단일 염색체 상에서 서로 통계적으로 연관되어 있는 것으로 밝혀진 다형성(예: SNP) 및 기타 유전자 표지(예: 삽입 또는 결실)의 조합을 지칭할 수 있다.
용어 "다형성(polymorphism)"은 모집단에서 하나 이상의 유전적으로 결정된 대체 서열 또는 대립 유전자의 발생을 지칭한다. "다형성 부위(polymorphic site)"는 서열 발산이 발생하는 유전자좌이다. 다형성 부위는 적어도 하나의 대립 유전자를 갖는다. 이대립 유전자 다형성(diallelic polymorphism)은 2개의 대립 유전자를 갖는다. 삼대립 유전자 다형성(triallelic polymorphism)은 3개의 대립 유전자를 갖는다. 이배체 유기체는 대립 유전자 형태에 있어서 동형 접합성이거나 이형 접합성일 수 있다. 다형성 부위는 하나의 염기쌍만큼 작을 수 있다. 다형성 부위의 예에는, 제한 단편 길이 다형성(RFLP), 다양한 수의 순차 반복(VNTR), 고 가변 영역, 미소부수체(minisatellites), 디뉴클레오티드 반복, 트리뉴클레오타이드 반복, 테트라뉴클레오타이드 반복, 및 간단한 서열 반복이 포함된다. 본원에서 사용되는 바와 같이, "다형성"에 대한 참조는 다형성 세트(즉, 일배체형)를 포함할 수 있다. "단일 염기 다형성(SNP)"은 단일 뉴클레오티드가 점유하고 있는 다형성 부위에서 발생할 수 있는데, 이는 대립 유전자 서열 간의 변이 부위이다. 상기 부위는 대립 유전자의 고도로 보존적인 서열이 앞에 위치할 수 있고, 뒤에 위치할 수 있다. SNP는 다형성 부위에서 하나의 뉴클레오티드가 또 다른 뉴클레오티드로 치환됨으로 인해 발생할 수 있다. 하나의 퓨린을 다른 퓨린으로 대체되거나 하나의 피리미딘을 다른 피리미딘으로 대체하는 것을 전이(transition)라 한다. 퓨린을 피리미딘으로 대체하거나 그 반대로 하는 것을 변위(transversion)라 한다. 동의(synonymous) SNP는 암호화된 폴리펩티드의 아미노산 서열이 바뀌지 않는 코딩 영역에서 하나의 뉴클레오티드를 다른 뉴클레오티드로 치환하는 것을 지칭한다. 비동의(non-synonymous) SNP는 암호화된 폴리펩티드의 아미노산 서열이 바뀌는 코딩 영역에서 하나의 뉴클레오티드를 다른 뉴클레오티드로 치환하는 것을 지칭한다. SNP는 기준 대립 유전자에 대해 상대적으로 뉴클레오티드/뉴클레오티드들의 결실 또는 삽입으로 발생할 수도 있다.
다형성의 "세트(set)"는 하나 이상의 다형성, 즉 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 또는 적어도 6개 이상의 다형성을 의미한다.
본원에서 사용되는 바와 같이, "핵산(nucleic acid)", "폴리뉴클레오티드(polynucleotide)", 또는 "올리고뉴클레오티드(oligonucleotide)"는 임의 길이의 뉴클레오티드의 중합체 형태일 수 있고, DNA나 RNA일 수 있으며, 단일 가닥 또는 이중 가닥일 수 있다. 핵산은 프로모터 또는 기타 조절 서열을 포함할 수 있다. 올리고뉴클레오티드는 합성 수단에 의해 제작될 수 있다. 핵산은 DNA의 세그먼트를 포함하거나, 다형성 부위 중 임의의 하나를 가로지르거나 이의 측면에 위치하는 DNA 세그먼트의 상보적인 부분(complements)을 포함한다. 세그먼트는 5 내지 100개의 인접 염기일 수 있고, 5, 10, 15, 20 또는 25 뉴클레오티드의 하한에서 10, 15, 20, 25, 30, 50 또는 100 뉴클레오티드의 상한까지의 범위일 수 있다(상한은 하한보다 더 큼). 5~10, 5~20, 10~20, 12~30, 15~30, 10~50, 20~50, 또는 20~100 염기 사이의 핵산이 일반적이다. 다형성 부위는 세그먼트의 임의의 부위 내에서 발생할 수 있다. 이중 가닥 핵산 중 한 가닥의 서열을 참조하는 것은 상보적 서열을 정의하는 것이며, 이와 달리 문맥으로부터 명백한 경우를 제외하고는, 핵산의 한 가닥을 참조하는 것은 이의 상보적 부분도 참조하는 것이다.
본원에 기술된 바와 같이, "뉴클레오티드(nucleotide)"는 결합 시 핵산 RNA 및 DNA의 개별 구조 단위를 구성하는 분자를 지칭한다. 뉴클레오티드는 핵염기(질소성 염기), 5탄당(리보스 또는 2-데옥시리보스 중 하나), 및 하나의 인산기로 이루어진다. "핵산"은 뉴클레오티드 단량체로 만들어진 중합체 거대 분자이다. DNA에서, 퓨린 염기는 아데닌(A)과 구아닌(G)인 반면, 피리미딘은 티민(T)과 시토신(C)이다. RNA는 티민(T) 대신에 우라실(U)을 사용한다.
본원에서 사용되는 바와 같이, 용어 "유전자 변이체" 또는 "변이체"는 그 서열이 모집단에서 가장 보편적인 서열과 상이한 (본원에 기술된 SNP의 경우, 예를 들어 하나의 뉴클레오티드 만큼 상이한) 뉴클레오티드 서열을 지칭한다. 예를 들어, 뉴클레오티드 서열에서의 일부 변이 또는 치환은 상이한 아미노산이 암호화되도록 코돈을 변형시킴으로써 유전자 변이체 폴리펩티드를 생성시킨다. 또한, 용어 "유전자 변이체"는 암호화된 폴리펩티드의 아미노산 서열이 변하지 않는 (보존적 변화의) 위치에서 그 서열이 모집단에서 가장 보편적인 서열과 상이한 폴리펩티드를 지칭할 수 있다. 유전자 변이체 폴리펩티드는 위험 일배체형에 의해 암호화될 수 있고, 보호 일배체형에 의해 암호화될 수 있거나, 중성 일배체형에 의해 암호화될 수 있다. 유전자 변이체 폴리펩티드는 위험과 관련될 수 있고, 보호와 관련되거나, 중립적일 수 있다.
유전자 변이체의 비한정적 실시예에는 프레임시프트(frameshift) 변이체, 정지 코돈 획득(stop gained) 변이체, 스플라이스 수용체(splice acceptor) 변이체, 스플라이스 공여자(splice donor) 변이체, 인프레임 인델(inframe indel) 변이체, 스플라이스 영역(splice region) 변이체, 동의(synonymous) 변이체 및 유전자 복제수(copy number) 변이체가 포함된다. 유전자 복제수 변이체의 비한정적 유형에는 결실(deletion)과 복제(duplication)가 포함된다.
본원에서 사용되는 바와 같이, "유전자 변이체 데이터(genetic variant data)"는 기준 핵산 서열에 대해 상대적으로 대상물의 핵산에서 대립 유전자 변이체를 식별함으로써 획득한 데이터를 지칭한다. 용어 "유전자 변이체 데이터"는 변이체 유전자에 의해 암호화된 폴리펩티드의 생화학적 구조/기능에 변이체가 미치는 예상 효과를 나타내는 데이터를 포함한다.
개시된 방법 및 시스템은 시간의 경과에 따라 새로운 대상물을 대한 유전자 변이체 및 표현형 데이터가 추가됨에 따라, 수시로 유전자 변이체-표현형 연관성에 대한 대규모의 자동화된 통계적 분석을 지원한다. 예를 들어, 일 양태에서, 수행되는 통계적 연관성 분석은 전장 유전체 연관성 연구(GWAS)의 통계적 분석이다(van der Sluis S, 등의 PLOS Genetics 2013; 9: e1003235; Visscher PM, 등의 Am J Hum Genet 2012; 90: 7). GWAS 분석에서, 어느 유전자 또는 유전자 변이체가 관심 표현형과 연관되는지가 결정된다. 일 양태에서, 유전자 변이체 데이터는 시스템 내에 유전자 변이체 및 표현형 데이터가 포함된 대상물의 게놈 시퀀싱으로부터 수득된다. 또 다른 양태에서, 유전자 변이체 데이터는 시스템 내에 유전자 변이체 및 표현형 데이터가 포함된 대상물의 엑솜(예: 전장 엑솜) 시퀀싱으로부터 수득된다.
또 다른 양태에서, 수행되는 통계적 연관성 분석은 전장 표현체 연관성 연구(phenome-wide association study, PheWAS)의 통계적 분석이다(Denny JC, 등의 Nature Biotechnol 2013; 31: 1102). PheWAS에서, 하나 이상의 관심 유전자 또는 유전자 변이체와 연관되는 표현형이 결정된다. PheWAS에서, 하나 이상의 특이적 유전자 변이체와 하나 이상의 생리학적 및/또는 임상적 결과물 및 표현형 사이의 연관성이 식별되고 분석될 수 있다. 일 양태에서, 전자 의료 기록(EMR) 및 전자 건강 기록(EHR) 데이터를 분석하기 위해 알고리즘이 사용될 수 있다. 또 다른 양태에서, 관찰 코호트 연구에서 수집된 데이터가 분석될 수 있다.
본원에서 사용되는 바와 같이, 용어 "전자 의료 기록" 및 "전자 건강 기록"은 동일한 의미를 갖는다.
본원에서 사용되는 바와 같이, 유전자 변이체가 둘 이상의 표현형에 미치는 효과를 갖는 경우, 유전자 변이체는 "다면 발현성(pleiotropic)"이다(Gottesman O, 등의 Plos One 2012; 7: e46419). 일 구현예에서, 유전자 변이체는 예를 들어 오즈비(odds ratio)의 증가로서 측정되는 둘 이상의 표현형의 크기 증가와 연관된다. 또 다른 구현예에서, 유전자 변이체는 예를 들어 오즈비의 감소로서 측정되는 둘 이상의 표현형의 크기 감소와 연관된다. 또 다른 구현예에서, 유전자 변이체는 하나 이상의 표현형의 크기 증가와 연관되고, 하나 이상의 표현형의 크기 감소와도 연관된다.
또 다른 구현예에서, 멘델 유전병의 영향을 받는 가족에서 식별되거나 파운더 모집단에서 식별된 관심 변이체는 본 방법 및 시스템에 포함된 유전자 변이체 및 표현형 정보에 대해 더 큰 모집단에서 조사될 수 있다. 그러한 접근법을 사용하면, 유전자 변이체가 식별된 파운더 모집단이나 멘델 유전병의 영향을 받는 가족보다 더 큰 모집단에서 어떤 표현형이 (존재하는 경우) 변이체와 연관되는지 식별하기 위한 통계적 분석을 수행할 수 있다. 이러한 접근법은 "가족 대 모집단(family-to-population)" 분석으로서 본원에서 지칭된다.
또 다른 구현예에서, 임상 실험 참가자에서의 표현형과 이미 이전에 연관된 관심 변이체가 본 방법 및 시스템에 포함된 유전자 변이체 및 표현형 정보에 대해 더 큰 모집단에서 조사될 수 있다. 그러한 접근법을 사용하면, 임상 실험 참가자의 그룹보다 더 큰 모집단에서 어떤 표현형이 (존재하는 경우) 변이체와 연관되는지 식별하기 위한 통계적 분석을 수행할 수 있다.
본 방법 및 시스템은 또한 유전자에 기초한 표현형 분석 방법을 제공한다. 그러한 방법에 있어서, 유전자 변이체-표현형 연관성이 식별되었고, 모집단 내의 대상물이 관련된 관심 변이체를 가지지만 유전자 변이체와 연관된 관심 표현형을 나타내지 않는 경우, 향후의 표현형의 전개에 대해 대상물을 모니터링할 수 있다. 대안적으로, (이전에 진단되지 않은) 표현형의 존재에 대해 대상물을 조사할 수 있다.
어떤 유형의 통계적 분석이 개시된 시스템을 사용하여 채용되는지와 무관하게, 임의의 관심 카테고리에 의해 유전자 변이체-표현형 연관성 결과를 필터링할 수 있다. 결과를 필터링할 수 있는 비한정적인 관심 카테고리는 연령, 성별, 인종, 민족성, 체중, 약물, 진단, 연구실 시험, 연구실 시험 결과, 연구실 시험 결과 범위, 또는 임의의 다른 표현형 카테고리 또는 표현형 데이터 컴포넌트가 구성되는 유형 등이다.
일 구현예에서, 유전자 변이체 및 표현형 데이터는 적어도 50,000, 60,000, 70,000, 80,000, 90,000, 100,000, 110,000, 120,000, 130,000, 140,000, 150,000, 160,000, 170,000, 180,000, 190,000, 200,000, 250,000, 300,000, 350,000, 400,000, 450,000, 500,000, 600,000, 700,000, 800,000, 900,000 또는1,000,000대상체의 모집단으로부터 수득된다. 유전자 데이터 및 표현형 데이터는 하나 이상의 표현형과 하나 이상의 유전자 및/또는 하나 이상의 유전자 변이체의 연관성을 통계적으로 분석하는데 사용될 수 있다.
샘플 크기(서열화된 대상물의 수)가 증가함에 따라 하나 이상의 표현형과 유의하게 연관된 것으로 밝혀진 변이체의 수가 증가할 수 있다. 거짓 양성 유전자 변이체-표현형의 통계적 연관성을 최소화하기 위해서는 적절한 검증력과 엄격한 유의성 임계 값이 있어야 한다(Sham PC and Purcell SM, Nature Rev 2014; 15: 335). 변이체의 검출에 필요한 샘플 크기는 마이너 대립 유전자 빈도(minor allele frequency, MAF)와 같은 변이체 빈도 및 변이체의 효과 크기 둘 모두에 의해 영향을 받는다.
일 구현예에서, 유전자 변이체의 MAF는 적어도 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9% 또는 10%이다. 또 다른 구현예에서, 유전자 변이체의 MAF는 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1%, 0.9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.09%, 0.08%, 0.07%, 0.06%, 0.05%, 0.04%, 0.03%, 0.02% 또는 0.01% 미만이다.
통계적 검증력은 대립 유전자 빈도 및 효과 크기에 따라 달라진다. 데이터의 희소성으로 인해 희귀 변이체(MAF < 1%)의 분석은 어려울 수 있다. 효과 크기가 큰 경우에도, 희귀 변이체에 대한 통계적으로 유의한 연관성은 매우 큰 샘플에서만 검출될 수도 있다. 검증력은 유전자 영역의 변이체에 걸친 정보를 요약 투여량 변수(유전자 부담 검사)와 결합(결집)시킴으로써 증가될 수 있다. 유전자 부담 시험의 비한정적인 예는 SKAT(sequence kernal association test), CAST(cohort allelic sum test), WST(weighted sum test), CMD(combined multivariate and collapsing method), Wald 시험, 및 CMC-Wald 시험 등이다(Wu MC, 등의 Am. J. Hum. Genet. 2011; 89: 82; Lee S, 등의 Am. J. Hum. Genet. 2014; 95: 5).
일 구현예에서, 연관성 분석에서 표현형 정보가 수득된 대상체의 적어도 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 60%, 70%, 80% 또는 90%에서 표현형이 관찰된다. 또 다른 구현예에서, 연관성 분석에서 표현형 정보가 수득된 대상체의 50%, 45%, 40%, 35%, 30%, 25%, 20%, 15%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1%, 0.9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.09%, 0.08%, 0.07%, 0.06%, 0.05%, 0.04%, 0.03%, 0.02%, 0.01%, 0.009%, 0.008%, 0.007%, 0.006%, 0.005%, 0.004%, 0.003%, 0.002% 또는 0.001% 미만에서 표현형이 관찰된다.
통계적 연관성 연구에서 하나 이상의 관심 표현형에 대한 관심 변이체의 투과도를 결정하기 위해, 환자-대조군 연구가 수행될 수 있다(Sham PC and Purcell SM, Nature Reviews 2014; 15: 335). 이러한 환자-대조군 연구에서, 관심 표현형(들)을 가지는 대상물은 "환자(cases)"로 지정되고, 관심 표현형(들)을 가지지 않는 대상물은 "대조군(controls)"으로 지정된다. 이어서, 관심 변이체의 발생률이 대상물의 "환자"군과 "대조"군에서 각각 결정된다.
일 구현예에서, 본 방법 및 시스템에는 탈 식별화된 대상물 정보가 포함되는데, 이는 (대상물의 유전자 변이체 데이터를 포함하는) 유전자 데이터 컴포넌트(304) 또는 (대상물의 표현형 데이터를 포함하는) 표현형 데이터 컴포넌트(302) 중 어느 것도 대상물을 식별할 수 있는 정보(예: 이름, 생일, 주소, 사회 보장 번호 등)를 포함하지 않는다는 것을 의미한다.
본 방법 및 시스템은 임상 결정 지원 시스템은 아니다. 본원에서 사용되는 바와 같이, 용어 "임상 결정 지원 시스템(clinical decision support system)"은 임상의(예: 의사, 간호사, 약사, 보조의, 물리 치료사, 실험실 기술자 등)가 환자의 생체 신호, 실험 결과, 임상 서사 노트와 같은 환자 식별식 임상 정보를 기록하기 위해 사용하는 전자 시스템으로서, 예를 들어 투약 금지,알러지 등에 관련된 경고를 제공한다.
본원에서 사용되는 바와 같이, "표현형(phenotype)"은 임상 진단, 임상 파라미터명, 임상 파라미터 값, 약 이름, 투여량 또는 투여 경로, 실험실 시험명 또는 실험실 시험 값 등과 같은 임상적 지정 또는 카테고리이다. 본원에서 사용되는 바와 같이, "이진 표현형(binary phenotype)"은 예 또는 아니오인 고정된 표현형으로서, 예를 들어, 임상 진단, 임상 파라미터명, 약 이름이나 투여 경로, 또는 실험실 시험명 등이다. 본원에서 사용되는 바와 같이, "양적 표현형(quantitative phenotype)"은, 예를 들어, 임상 파라미터 값(예: 혈압 수치 또는 혈청 포도당 수치), 투약량, 또는 실험실 시험 값과 같은 범위 내의 값을 갖는 표현형이다.
표현형 데이터 컴포넌트는 양적 표현형 중 적어도 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900 또는 2000 카테고리의 표현형을 포함할 수 있는데, 이 중에는 적어도 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800 카테고리의 이진 표현형과 적어도 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 350, 400, 450 또는 500 카테고리의 양적 표현형이 있다.
도 1은 본 방법 및 시스템이 작동할 수 있는 예시적 환경(100)에 대한 다양한 양태를 도시한다. 본 방법은 디지털 및 아날로그 장비 모두를 사용하는 다양한 유형의 네트워크 및 시스템에서 사용될 수 있다. 본원에는 기능적 설명이 제공되며, 각각의 기능은 소프트웨어, 하드웨어, 또는 소프트웨어와 하드웨어의 조합에 의해 수행될 수 있다.
환경(100)은 로컬 데이터/처리 센터(102)를 포함할 수 있다. 로컬 데이터/처리 센터(102)는 하나 이상의 연산 장치 사이의 통신을 용이하게 하기 위한 근거리망과 같은 하나 이상의 네트워크를 포함할 수 있다. 하나 이상의 연산 장치는 생물학적 데이터를 저장, 처리, 분석, 출력 및/또는 시각화하는 데 사용될 수 있다. 환경(100)은 의료 데이터 제공자(104)를 선택적으로 포함할 수 있다. 의료 데이터 제공자(104)는 생물학적 데이터에 대한 하나 이상의 공급원을 포함할 수 있다. 예를 들어, 의료 데이터 제공자(104)는 하나 이상의 환자에 대한 의료 정보에 접근할 수 있는 하나 이상의 의료 시스템을 포함할 수 있다. 의료 정보에는, 예를 들어, 병력, 의료 전문가의 관찰 및 비고, 실험실 보고서, 진단서, 의사의 오더, 처방전, 생체 신호, 체액 밸런스, 호흡 기능, 혈액 파라미터, 심전도, X-선, CT 스캔, MRI 데이터, 실험실 시험 결과, 진단서, 예후, 평가, 입원 및 퇴원 노트, 및 환자 등록 정보 등이 포함된다. 의료 데이터 제공자(104)는 하나 이상의 연산 장치 사이의 통신을 용이하게 하기 위한 근거리망과 같은 하나 이상의 네트워크를 포함할 수 있다. 하나 이상의 연산 장치는 의료 정보를 저장, 처리, 분석, 출력 및/또는 시각화하는 데 사용될 수 있다. 의료 데이터 제공자(104)는 의료 정보를 탈 식별화하고, 탈 식별화된 의료 정보를 로컬 데이터/처리 센터(102)에 제공할 수 있다. 탈 식별화된 의료 정보는, 의료 정보를 탈 식별화된 상태로 유지하면서 한 환자의 의료 정보를 다른 환자와 구별하도록 각 환자에 대한 고유 식별자를 포함할 수 있다. 탈 식별화된 의료 정보는 환자의 신분이 환자 본인의 특정 의료 정보와 연결되는 것을 방지한다. 로컬 데이터/처리 센터(102)는 탈 식별화된 의료 정보를 분석하고, (예를 들어, 국제 질병 분류 "ICD" 코드 및/또는 현행 절차 용어 "CPT" 코드를 할당함으로써) 각각의 환자에게 하나 이상의 표현형을 할당할 수 있다.
환경(100)은 NGS 시퀀싱 시설(106)을 포함할 수 있다. NGS 시퀀싱 시설(106)은 하나 이상의 시퀀서(예: Illumina HiSeq 2500, Pacific Biosciences PacBio RS II 등)를 포함할 수 있다. 하나 이상의 시퀀서는 엑솜 시퀀싱, 전장 엑솜 시퀀싱, RNA 시퀀싱, 전장 유전체 시퀀싱, 표적화 시퀀싱 등을 위해 구성될 수 있다. 일 양태에서, 의료 데이터 제공자(104)는 탈 식별화 의료 정보와 연관된 부모에게서 생물학적 샘플을 제공할 수 있다. 고유 식별자는 생물학적 샘플과 생물학적 샘플에 대응하는 탈 식별화된 의료 정보 사이의 연관성을 유지하는 데 사용될 수 있다. NGS 시퀀싱 시설(106)은 생물학적 샘플에 기초하여 각 환자의 엑솜을 서열화할 수 있다. 시퀀싱에 앞서 생물학적 샘플을 저장하기 위해, NGS 시퀀싱 시설(106)은 (예를 들어, Liconic Instruments사의) 바이오뱅크를 포함할 수 있다. 생물학적 샘플은 튜브(각각의 튜브는 환자와 연관됨)에 수용될 수 있고, 각각의 튜브는 샘플을 로컬 데이터/처리 센터(102) 내에 자동적으로 기록하도록 스캐닝할 수 있는 바코드(또는 다른 식별자)를 포함할 수 있다. NGS 시퀀싱 시설(106)은 데이터의 균일성 및 효율적인 무정지 작동이 이루어지도록 시퀀싱의 하나 이상의 단계에서 사용하기 위한 하나 이상의 로봇을 포함할 수 있다. NGS 시퀀싱 시설(106)은 따라서 연간 수만 개의 엑솜을 시퀀싱할 수 있다. 일 양태에서, NGS 시퀀싱 시설(106)은 매월 적어도 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10,000, 11,000 또는 12,000개의 전장 엑솜을 시퀀싱하는 기능 용량을 갖는다.
NGS 시퀀싱 시설(106)에 의해 생성된 생물학적 데이터(예: 원시 시퀀싱 데이터)는 로컬 데이터/처리 센터(102)에 전달될 수 있으며, 로컬 데이터/처리 센터는 이어서 생물학적 데이터를 원격 데이터/처리 센터(108)에 전송할 수 있다. 원격 데이터/처리 센터(108)는 하나 이상의 연산 장치를 포함하는 클라우드 기반의 데이터 저장 및 처리 센터를 포함할 수 있다. 다른 데이터 통신 시스템(예: 인터넷)을 고려할 수도 있지만, 로컬 데이터/처리 센터(102)와 NGS 시퀀싱 시설(106)은 하나 이상의 고용량 광섬유 라인을 통해 원격 데이터/처리 센터(108)과 직접적으로 데이터를 주고 받을 수 있다. 일 양태에서, 원격 데이터/처리 센터(108)는 아마존 웹 서비스(Amazon Web Services)(DNAnexus)와 같은 제3 자 시스템을 포함할 수 있다. 원격 데이터/처리 센터(108)는 분석 단계들의 자동화를 용이하게 할 수 있으며, 기밀한 방식으로 하나 이상의 협력자(110)와 데이터가 공유될 수 있게 한다. 로컬 데이터/처리 센터(102)로부터 생물학적 데이터가 수신되면, 원격 데이터/처리 센터(108)는 생물정보 도구를 사용해 1차 및 2차 데이터 분석을 위한 자동화된 일련의 파이프라인 단계를 수행하여, 각각의 샘플에 대해 주석이 달린 변이체 파일을 생성할 수 있다. 이러한 데이터 분석(예: 유전자형)의 결과들은 로컬 데이터/처리 센터(102)에 다시 전달될 수 있고, 예를 들어, 실험실 정보 관리 시스템(LIMS)에 통합되어 각 생물학적 샘플의 상태를 유지하도록 구성될 수 있다.
그런 다음, 로컬 데이터/처리 센터(102)는 NGS 시퀀싱 시설(106)과 원격 데이터/처리 센터(108)를 통해 수득한 생물학적 데이터(예: 유전자형)를 탈 식별화된 의료 정보(식별된 표현형을 포함함)와 함께 사용하여 유전자형과 표현형 사이의 연관성을 식별할 수 있다. 예를 들어, 로컬 데이터/처리 센터(102)는 특정 질병 영역(예: 심혈관 질환의 경우 극단적인 혈중 지질 영역)에서 치료적 잠재력을 가질 수 있는 표현형이 정의되는 경우, 표현형 우선 접근법을 적용할 수 있다. 또 다른 실시예는 합병증의 전형적 범위로부터 보호되는 것으로 보이는 개체를 식별하기 위한 비만 환자에 대한 연구이다. 또 다른 접근법은 유전형과 가설, 예를 들어, 유전자 X가 질병 Y를 유발하거나 질병 Y로부터 보호하는 것에 관련된다는 가설에서 출발하는 것이다.
일 양태에서, 하나 이상의 협력자(110)는 인터넷(112)과 같은 네트워크를 통해 생물학적 데이터 및/또는 탈 식별화된 의료 정보의 일부 또는 전부에 접근할 수 있다.
도 2에 도시된 일 양태에서, 하나 이상의 로컬 데이터/처리 센터(102) 및/또는 원격 데이터/처리 센터(108)는 유전자 데이터 컴포넌트(202), 표현형 데이터 컴포넌트(204), 유전자 변이체-표현형 연관성 데이터 컴포넌트(206), 및/또는 데이터 분석 컴포넌트(208) 중 하나 이상을 포함하는 하나 이상의 연산 장치를 포함할 수 있다. 유전자 데이터 컴포넌트(202), 표현형 데이터 컴포넌트(204), 및/또는 유전자 변이체-표현형 연관성 데이터 컴포넌트(206)는 서열 데이터의 정확도 평가, 기준 게놈에 대한 리드(read) 정렬, 변이체 식별, 변이체의 주석, 표현형 식별, 변이체-표현형 연관성 식별, 데이터 시각화, 이들의 조합 등 중 하나 이상을 위해 구성될 수 있다.
일 양태에서, 컴포넌트들 중 하나 이상은 완전한 하드웨어 구현예, 완전한 소프트웨어 구현예, 또는 소프트웨어 양태와 하드웨어 양태를 조합한 구현예의 형태를 취할 수 있다. 또한, 본 방법 및 시스템은 컴퓨터 판독가능 프로그램 명령어 (예컨대, 컴퓨터 소프트웨어)가 저장 매체에서 구현되는, 컴퓨터 판독가능 저장 매체 상의 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 보다 구체적으로, 본 방법 및 시스템은 웹 구현 컴퓨터 소프트웨어의 형태를 취할 수 있다. 하드 디스크, CD-ROM, 광 저장 장치, 또는 자기 저장 장치를 포함하는 임의의 적합한 컴퓨터 판독가능 저장 매체가 이용될 수 있다.
일 양태에서, 유전자 데이터 컴포넌트(202)는 하나 이상의 유전자 변이체에 기능적으로 주석을 달도록 구성될 수 있다. 유전자 데이터 컴포넌트(202)는 하나 이상의 유전자 변이체의 저장, 분석, 수용 등을 위해 구성될 수도 있다. 하나 이상의 유전자 변이체는 하나 이상의 환자(대상물)로부터 수득된 서열 데이터(예: 원시 서열 데이터)로부터 주석이 달릴 수 있다. 예를 들어, 하나 이상의 유전자 변이체는 적어도 100,000, 200,000, 300,000, 400,000 또는 500,000개의 대상물 각각으로부터 주석이 달릴 수 있다. 하나 이상의 유전자 변이체에 기능적으로 주석을 달면 유전자 변이체 데이터가 생성된다. 예로서, 유전자 변이체 데이터는 하나 이상의 변이체 검출 포맷(VCF) 파일을 포함할 수 있다. VCF 파일은 SNP, 인델(indel), 및/또는 구조적 변형 검출을 나타내기 위한 텍스트 파일 포맷이다. 변이체는 전사체/유전자에 대한 이들의 기능적 효과에 대해 평가되고, 잠재적 기능 상실(pLoF) 후보가 식별된다. 변이체에는 Ensembl75 유전자 정의를 사용하여 snpEff로 주석 처리되고, 그런 다음 기능적 주석은 각각의 변이체(및 유전자)에 대한 단일 REGN 효과 예측(REP)으로 추가적으로 처리된다.
유전자 데이터 컴포넌트(202)는 포괄적일 수 있고, 따라서 대부분 고 정확도의 변이체를 포함할 수 있지만, (대부분 인델에서의 정렬 오류로 인해) 정확도가 낮은 일부 변이체 검출을 포함할 수 있다. 다양한 계산을 위해, 유전자 데이터 컴포넌트(202)는 3가지 정확도 수준을 구별할 수 있고, 경험적으로 결정된 컷오프에 기초하여 변이체 검출 및 pLoF 정의에 대해 상이한 제한을 부과할 수 있다:
레벨 설명 QD
필터
측면 위치
영역
pLoF 정의
L1 "느슨함" 없음 +/- 100nt Ensembl75(주석 처리된 시작 및 정지 코돈을 갖는 단백질 코딩 전자체 )를 사용하는 REP
L2 "보통" QD >=3 +/- 100nt 위(L1)와 동일하지만 교호 대립 유전자가 혈통 대립 유전자와 일치하는 부위를 제외함.
L3 "엄격함" QD >=5 +/- 20nt 위(L2)와 동일하지만, pLoF가 영향을 받은 전사체의 마지막 5%에서 발생하는 경우 이를 제외함(정지 코돈_획득 변이체 프레임시프트 변이체에만 적용됨)
유전자 데이터 컴포넌트(202)는 하나 이상의 유전자 변이체의 기능적 주석을 수행하는 하나 이상의 컴포넌트를 포함할 수 있다. 예를 들어, 유전자 데이터 컴포넌트(202)는 트리밍 컴포넌트, 정렬 컴포넌트, 변이체 검출 컴포넌트, 이들의 조합 등으로 구성된 변이체 식별 컴포넌트(210)을 포함할 수 있다. 유전자 데이터 컴포넌트(202)는 기능적 예측자 컴포넌트 등으로 구성된 변이체 주석 컴포넌트(212)를 포함할 수 있다. 변이체 식별 컴포넌트(210)는 원시 서열 데이터(예: 리드)의 정확도를 평가하여, 정의된 정확도 표준에 미달하는 리드를 제거, 트리밍 또는 보정할 수 있다. NGS 시퀀싱 시설(106)에 의해 생성된 원시 서열 데이터는 염기 검출 오류, 인델(INDEL), 정확도가 떨어지는 리드(read), 및/또는 어댑터 오염과 같은 인공 산물(artifact)에 의해 손상될 수 있다. 트리밍 컴포넌트는 서열 데이터의 리드(read)로부터 정확도가 낮은 단부를 트리밍하여 없애도록 구성될 수 있다. 트리밍 컴포넌트는 염기 정확도와 뉴클레오티드 분포를 결정할 수 있다. 트리밍 컴포넌트는 리드(read)를 트리밍하고, 프라이머 오염, N 성분, 및/또는 GC 편차와 같은 서열 특성 및 염기 정확도에 기초하여 리드 필터링을 수행할 수 있다.
서열 데이터(예: 리드)가 정의된 정확도 표준을 만족하도록 처리된 후, 변이체 식별 컴포넌트(210)는 정렬 컴포넌트를 사용하여 서열 데이터(예: 리드)를 기존 기준 게놈에 정렬시킬 수 있다. 예를 들어, Burrow-Wheeler(BWA), BWA MEM, Bowtie/Bowtie2, MAQ, mrFAST, Novoalign, SOAP, SSAHA2, Stampy, 및/또는 YOABS와 같은 임의의 정렬 알고리즘/프로그램이 사용될 수 있다. 정렬 컴포넌트는 서열 정렬/맵(SAM) 및/또는 이진 정렬/맵(BAM)을 생성할 수 있다. SAM은 기준 서열에 대해 리드 정렬을 저장하기 위한 정렬 포맷인 반면, BAM은 SAM의 압축된 이진 버전이다. BAM 파일은 뉴클레오티드 서열 정렬의 콤팩트하고 색인 가능한 표현이다.
서열 데이터(예: 리드)가 정렬된 후, 변이체 식별 컴포넌트(210)는 하나 이상의 변이체를 식별(예: 검출)할 수 있다. 전장 유전체 식별을 위한 도구는 4개의 카테고리로 그룹화될 수 있다: (i) 생식세포 검출자(germline caller), (ii) 체세포 검출자(somatic caller), (iii) CNV 식별 및 (iv) SV 식별. 큰 구조적 변형을 식별하기 위한 도구는 CNV를 찾는 도구와 역전, 전좌 또는 큰 INDEL과 같은 다른 SV를 찾는 도구로 나눌 수 있다. CNV는 전장 유전체 연구 및 전장 엑솜 시퀀싱 연구 모두에서 검출될 수 있다. 이러한 도구의 비한정적인 예는 CASAVA, GATK, SAMtools, SomaticSniper, SNVer, VarScan 2, CNVnator, CONTRA, ExomeCNV, RDXplorer, BreakDancer, Breakpointer, CLEVER, GASVPro, 및 SVMerge를 포함하되 이들로 한정되지 않는다.
복제수 변이체를 검출하기 위한 방법(본원에서는 "CLAMMS"로 지칭됨)의 비한정적인 예는 2015년 5월 18일 출원되고, 그 전체가 본원에 참조로서 통합된 미국 특허 출원 번호 제14/714,949호("Methods and Systems for Copy Number Variant Detection")에 기술되어 있다.
변이체 식별 컴포넌트(210)는 CNV 식별을 포함하여 하나 이상의 변이체를 식별(예: 검출)할 수 있다. 본원에서 사용되는 바와 같이, "CNV"는 게놈의 특정 영역의 복제수가 모집단에서 가장 공통적으로 관찰되는 복제수와 상이한 유전자 변이체일 수 있는 "복제수 변이체"를 지칭한다. 예를 들어, 대부분의 개체는 이배체 염색체(암컷의 염색체 X뿐만 아니라 상 염색체) 상에 2개의 유전자 카피를 가지지만, 복제수 변이체를 보유하는 개체는 0, 1, 3, 또는 4개 이상의 유전자 카피를 가질 수 있다. 서열 자체는 SNP 또는 인델 변이체를 포함하거나 포함하지 않을 수 있으며, 모집단에서 가장 공통적인 복제수는 반드시 2개일 필요는 없다. 복제수 변이체 영역의 크기에 대한 제한은 없지만, CNV는 일반적으로 인델보다 더 크고(예를 들어, >100bp) 염색체 아암보다 더 작은 것으로 간주된다.
하나 이상의 CNV가 CLAMMS를 사용하는 모든 전장 엑솜 시퀀싱 샘플에서 검출될 수 있다. 모든 CNV는 시작 및 종료 좌표, 예상 복제수 상태, 및/또는 신뢰성 레벨에 의해 정의될 수 있다. 시작 및 종료 좌표는 예측된 CNV 영역 내에서의 첫 번째 엑손과 마지막 엑손에 해당될 수 있다. 복제수 상태는 확률적 CLAMMS 혼합 모델과 히든 마코프 모델(HMM)에 의해 예측된 바와 같이 가장 가능성이 있는 상태(복제수)이다. 신뢰성 레벨("QC 레벨")은 0과 3 사이에서 할당될 수 있다(QC0은 신뢰성이 가장 낮은 CNV 검출이고, QC3은 신뢰성이 가장 높은 CNV 검출임). 신뢰성 레벨은 아래의 "Primary Sequence Analysis, CNV Calling, and Quality Control"에 기술된 CLAMMS 정확도 관리 파이프라인을 사용하여 할당될 수 있다. 고 신뢰성 CNV는 QC 레벨 2~3으로, 저 신뢰성 CNV는 QC 레벨 0~1로서 정의될 수 있다.
CNV 신뢰성 레벨이 할당된 후, CNV는 CNV "수퍼 유전자좌" 또는 "유전자좌"로 병합될 수 있다. 모델이 첫 번째 및 마지막 엑손 윈도우를 얼마나 확실히 식별하는지에 따라 CNV 좌표가 다소 부정확할 수 있기 때문에, 예측된 좌표에 기초하여 동일한 기본 복제수 변이체 대립 유전자를 나타낼 것으로 예상되는 CLAMMS CNV 검출을 그룹화하기 위한 병합 단계를 수행하는 것이 필요할 수 있다. 이러한 그룹화 단계를 수행하기 위해, 50% 이상의 상호 중첩을 갖는 고 신뢰성(QC 레벨 2~3) CNV는 (즉, CNV1이 CNV2의 적어도 50%와 중첩하고 CNV2가 CNV1의 적어도 50%와 중첩함) 반복적으로 "수퍼 유전자좌"로 병합될 수 있다. 2개의 CNV가 병합되면, 새로운 수퍼 유전자좌 좌표는 병합된 CNV의 가장 극단적인 단부 지점을 나타내므로, CNV는 수퍼 유전자좌의 좌표를 지나 연장되지 않는다. 병합 과정이 반복적이기 때문에, 수퍼 유전자좌는 새로운 수퍼 유전자좌를 정의하는 단계 및 모든 기본 CNV를 각각의 수퍼 유전자좌로부터 새로운 수퍼 유전자좌로 그룹화하는 단계를 수반하는 후속 병합 단계에서 함께 병합될 수 있다. 반복적 병합은 유전자좌를 추가적으로 병합될 수 없을 때까지, 또는 최대 병합 반복 횟수가 발생할 때까지 (예: 반복 횟수가 10회 이하임) 계속된다. 마지막으로, CNV 수퍼 유전자좌 병합은 고 신뢰성 CNV에 대해서만 수행되기 때문에, 최종 단계는 최소 중첩 기준(예: 저 신뢰성 CNV의 적어도 90%가 수퍼 유전자좌와 중첩됨)에 기초하여 저 신뢰성 CNV를 CNV 수퍼 유전자좌에 할당하도록 시도한다. 할당이 이루어지지 않는 경우, CNV는 연관된 수퍼 유전자좌를 갖지 않는다. CNV 유전자좌 정의는 대립 유전자 빈도의 추정, 접합성(zygosity)의 분배, 및 표현형과의 CNV 연관성의 시험을 가능하게 한다.
대상물의 유전 서열에서 이수성(aneuploidy)을 결정하기 위한 방법의 비한정적인 실시예는 2016년 2월 12일에 출원되고, 그 전체가 본원에 참조로서 통합된 미국 특허 출원 번호 제62/294,669호("Methods and Systems for Detection of Abnormal Karyotypes")에 기술되어 있다.
변이체 주석 컴포넌트(212)는 기능적 정보를 결정하고 이를 식별된 변이체에 할당하도록 구성될 수 있다. 변이체 주석 컴포넌트(212)는 게놈에서의 코딩 서열에 대한 변이체의 관계 및 변이체가 코딩 서열을 변화시키고 유전자 산물에 영향을 미칠 수 있는 방법에 기초하여 각각의 변이체를 카테고리화하도록 구성될 수 있다. 변이체 주석 컴포넌트(212)는 다중 뉴클레오티드 다형성(MNP)에 주석을 달도록 구성될 수 있다. 변이체 주석 컴포넌트(212)는 서열 보존을 측정하도록 구성될 수 있다. 변이체 주석 컴포넌트(212)는 단백질 구조 및 기능에 대한 변이체의 효과를 예측하도록 구성될 수 있다. 변이체 주석 컴포넌트(212)는 dbSNP와 같은 다양한 공개된 변이체 데이터베이스에 대한 데이터베이스 링크를 제공하도록 구성될 수도 있다. 변이체 주석 컴포넌트(212)의 결과는 허용된 돌연변이 및 유해한 돌연변이로의 분류 및/또는 유해한 효과의 가능성을 반영하는 점수일 수 있다. 변이체 주석 컴포넌트(212)는 기능적 예측자 컴포넌트, 예컨대 SnpEff, 결합식 주석 의존형 고갈(Combined Annotation Dependent Depletion, CADD), ANNOVAR, AnnTools, NGS-SNP, 서열 변이체 분석기(sequence variant analyzer, SVA), 'SeattleSeq' 변이체 서버, VARIANT, 변이체 효과 예측기(variant effect predictor, VEP), 이들의 조합 등을 이용할 수 있다.
변이체 식별 컴포넌트(210) 및 변이체 주석 컴포넌트(212)의 결과로서, 유전자 데이터 컴포넌트(202)는 NGS 시퀀싱 시설(106)에 의해 생성된 서열 데이터로부터 유래된 변이체의 식별 및 기능적 주석을 포함할 수 있다. 수십만 명의 환자(대상물)에 대해 수백만 개의 변이체가 식별되고 주석(예: SNP, 인델, 프레임시프트, 절단, 동의, 비동의 등)이 달릴 수 있다.
유전자 데이터 컴포넌트(202)는 (a) 전체 모집단, 예를 들어, 상세한 장기적인 전자 간강 기록이 대상물에 대해 유지되는 의료 시스템에서 치료받고자 하는 대상물의 모집단에서, (b) 멘델 유전병에 의해 영향을 받은 가족에서, 및 (c) 파운더 모집단에서 시퀀싱 대상물로부터 유래된 변이체의 식별 및 기능적 주석을 포함할 수 있다.
유전자 데이터 컴포넌트(202)는 적어도 1백만, 2백만, 3백만, 4백만, 5백만, 6백만, 7백만, 8백만, 9백만, 1천만, 1천 1백만, 1천 2백만, 1천 3백만, 1천 4백만, 1천 5백만, 1천 6백만, 1천 7백만, 1천 8백만, 1천 9백만, 또는 2천만 변이체의 식별 및 기능적 주석을 포함할 수 있다.
유전자 데이터 컴포넌트(202)는 적어도15만, 16만, 17만, 18만, 19만, 20만, 21만, 22만, 23만, 24만, 25만, 26만, 27만, 28만, 29만, 또는 30만의 예측된 기능 상실 변이체의 식별 및 기능적 주석을 포함할 수 있다.
유전자 데이터 컴포넌트(202)에서의 데이터는 통계적 분석에서 사용될 수 있다.
표현형 데이터 컴포넌트(204)는 환자(대상물)에 대한 하나 이상의 표현형을 결정, 저장, 분석, 수용 등을 위해 구성될 수 있다. 표현형 데이터 컴포넌트(204)는 적어도 10만 명의 환자(대상물) 각각에 대한 하나 이상의 표현형을 결정하도록 구성될 수 있다. 환자(대상물)는 시퀀싱 데이터가 수득되어 유전자 데이터 컴포넌트(202)에 의해 분석된 환자일 수 있다. 하나 이상의 표현형을 결정한 결과 표현형 데이터가 생성된다. 표현형 데이터는 표현형의 복수의 카테고리(예: 1,500 이상의 카테고리)로부터 결정될 수 있다.
표현형 데이터 컴포넌트(204)는 환자에 대한 하나 이상의 표현형을 결정하기 위한 하나 이상의 컴포넌트를 포함할 수 있다. 표현형은 유전 정보 및 환경적 영향에 기초하여 유기체에서 관찰 가능한 질병, 신장, 또는 혈액형과 같은 특이적 특징의 물리적 또는 생화학적 발현일 수 있다. 유기체의 표현형은 물리적 외양, 생화학적 과정, 및 행동과 같은 요인을 포함할 수 있다. 표현형은 일반적인 모집단에서보다 질환이나 병태를 가진 개체에서 더 자주 발견되는 측정 가능한 생물학적(생리학적, 생화학적, 및 해부학적 특징), 습관적(심리적 패턴), 또는 인지 표지를 포함할 수 있다. 표현형 데이터 컴포넌트(204)는 이진 표현형 컴포넌트(214), 양적 표현형 컴포넌트(216), 카테고리 표현형 컴포넌트(218), 임상 서사 표현형(clinical narrative phenotype) 컴포넌트(220), 이들의 조합 등을 포함할 수 있다.
일 양태에서, 이진 표현형 컴포넌트(214)는 탈 식별화된 의료 정보를 분석하여 탈 식별화된 의료 정보에서 환자에게 할당된 하나 이상의 코드를 식별하도록 구성될 수 있다. 하나 이상의 코드는, 예를 들어, 국제 질병 분류 코드(ICD-9, ICD-9-CM, ICD-10), 약물-임상 용어의 체계적 명명법(Nomenclature of Medicine-Clinical Terms, SNOMED CT) 코드, 통일 의료 용어 시스템(Unified Medical Language System, UMLS) 코드, RxNorm 코드, 현행 절차 용어(Current Procedural Terminology, CPT) 코드, 논리적 관찰 식별자명 및 코드(Logical Observation Identifier Names and Codes, LOINC)의 코드, MedDRA 코드, 약물명, 청구 코드 등일 수 있다. 하나 이상의 코드는 통제된 용어에 기초하며, 특정 진단과 의료 절차에 할당된다. 이진 표현형 컴포넌트(214)는 하나 이상의 코드의 존재(또는 부재)를 식별하고, 하나 이상의 코드와 연관된 표현형(들)을 결정하고, 탈 식별화된 의료 정보와 연관된 환자에게 고유 식별자를 통해 표현형(들)을 할당할 수 있다.
일 양태에서, 양적 표현형 컴포넌트(216)는 탈 식별화된 의료 정보를 분석하여 연속 변수를 식별하고, 식별된 연속 변수에 기초하여 표현형을 할당하도록 구성될 수 있다. 연속 변수는 일정 값의 범위에 걸친 하나 이상의 값을 포함하는 생리학적 측정을 포함할 수 있다. 예를 들어, 혈당, 심박수, 임의의 실험실 측정 값 등을 포함할 수 있다. 양적 표현형 컴포넌트(214)는 이러한 연속 변수를 식별하고, 식별된 연속 변수를 상기 식별된 연속 변수에 대한 소정의 분류 등급에 적용하고, 탈 식별화된 의료 정보와 연관된 환자에게 고유 식별자를 통해 표현형(들)을 할당할 수 있다.
일 양태에서, 카테고리 표현형 컴포넌트(218)는 탈 식별화된 의료 정보를 분석하여 주어진 양적 표현형의 범위를 식별하도록 구성될 수 있다.
일 양태에서, 임상 서사 표현형 컴포넌트(220)는 탈 식별화된 의료 정보를 분석하여, 환자에게 표현형을 할당하는 데 사용될 수 있는 용어를 식별하기 위해 도록 구성된 자연어 처리(NLP) 표현형 컴포넌트일 수 있다. NLP 표현형 컴포넌트(220)는, 예를 들어, 탈 식별화된 의료 정보에 담긴 (구조화되지 않은) 서사 데이터를 분석할 수 있다. NLP 표현형 컴포넌트(220)는 텍스트를 처리하여 언어적 법칙을 사용해 정보를 추출할 수 있다. NLP 표현형 컴포넌트(220)는 문장과 단락을 단어로 쪼개고, 각각의 단어(예: 명사 또는 형용사)에 음성의 일부를 할당할 수 있다. 그런 다음, NLP 표현형 컴포넌트(220)는 언어적 법칙을 적용하여 문장의 가능한 의미를 해석할 수 있다.  이렇게 하는 중에, NLP 표현형 컴포넌트(220)는 문장에 포함된 개념을 식별할 수 있다. NLP 표현형 컴포넌트(220)는 건강 관련 전문 용어를 표준화하고, 용어를 정의하며, 용어를 서로 및 개념(예: 온톨로지(ontology))에 연관시키는 하나 이상의 데이터베이스에 접근함으로써 여러 용어를 개념에 연결시킬 수 있다. 이러한 데이터베이스는 건강 관련 전문 용어를 카테고리(예: 신체 구조 또는 임상적 소견)로 조직화하는 SNOMED CT, 약물명을 주요 제약사의 다른 약물명 및 약물 상호 작용 데이터베이스에 연결시키는 RxNorm, 및 표현형 지식 기반 웹사이트(PheKB)를 포함한다.
유전자 변이체-표현형 연관성 데이터 컴포넌트(206)는 유전자 변이체 데이터에서의 하나 이상의 유전자 변이체와 표현형 데이터에서의 하나 이상의 표현형 사이의 하나 이상의 연관성의 결정, 분석, 수용 등을 위해 구성될 수 있다. 일 양태에서, 유전자 변이체-표현형 연관성 데이터 컴포넌트(206)는 1백만 개 이상(예: 10억 개 이상)의 유전자 변이체-표현형 연관성 결과를 생성할 수 있다. 유전자 변이체-표현형 연관성 데이터 컴포넌트(206)는 하나 이상의 연관성을 결정하기 위한 하나 이상의 컴포넌트를 포함할 수 있다. 유전자 변이체-표현형 연관성 데이터 컴포넌트(206)는 연산 컴포넌트(222), 정확도 컴포넌트(224) 및 이들의 조합 등을 포함할 수 있다. 일 양태에서, 유전자 변이체-표현형 연관성 데이터 컴포넌트(206)는 R과 같은 통계적 패키지를 포함할 수 있다.
일 양태에서, 연산 컴포넌트(222)는 하나 이상의 통계적 검정을 수행하도록 구성될 수 있다. 예를 들어, 연산 컴포넌트(222)는 이직 표현형에 대한 하디-와인버그 균형(HWE) 분석, 피셔의 정확도 검정, BOLT-LMM 분석, 로지스틱 회귀, 선형 혼합 모델링 등을 수행하도록 구성될 수 있다. 연산 컴포넌트(222)는 양적 표현형에 대한 선형 회귀, 선형 혼합 모델링, ANOVA 등을 수행하도록 구성될 수 있다. 연산 컴포넌트(222)는 특정 표현형에 대해 각각의 변이체를 독립적으로 검사하는 일련의 단일 유전자좌 통계 검정을 수행할 수 있다. 수행된 통계적 검증은 양적 표현형 대 환자/대조군 표현형과 같은 다양한 요인에 따라 달라진다. 일 구현예에서, 연산 컴포넌트(222)는 또한 각각의 유전자 변이체-표현형 연관성에 대한 오즈비를 계산할 수 있다.
양적 표현형은 일반화된 선형 모델(GLM) 접근법, 예를 들어 분산 분석(ANOVA)을 사용하여 분석될 수 있는데, GLM은 카테고리 예측 변수(본 경우에는 유전자형 분류)를 갖는 선형 회귀 분석과 유사하다. 단일 변이체를 사용하는 ANOVA의 귀무 가설은 임의의 유전자형 그룹의 특성 평균 사이에는 차이가 없다는 것이다. GLM과 ANOVA의 가정은 1) 특성이 정상적으로 분포되어있고; 2) 각 그룹 내의 특성 편차는 동일하고(그룹은 동분산적임); 3) 그룹은 독립적이라는 것이다.
이분법 (이진) 환자/대조군 표현형은 분할표(contingency table) 방법, 로지스틱 회귀 분석 등을 사용하여 분석할 수 있다. 분할표 검정은 표현형과 유전자형 분류 사이에 아무런 연관성이 없다는 귀무 가설 하에서 예상되는 독립성의 편차를 검사하고 측정하는 것이다. 이에 대한 예에는 카이 제곱 검정(chi-square test) 및 피셔의 정확도 검정이 포함된다.
로지스틱 회귀는 선형 모델의 결과가 유전자형 분류가 주어진 환자 상태를 가질 확률을 예측하는 로지스틱 함수를 사용해 변환되는 선형 회귀의 확장이다. 로지스틱 회귀는 임상적 공변량(및 다른 요인)에 대한 조정을 가능하고 하고, 효과 크기의 측정으로서 조절된 오즈비를 제공할 수 있기 때문에 종종 선호되는 접근법이다. 로지스틱 회귀는 광범위하게 개발되었으며, 모델의 해석을 돕기 위한 수많은 진단 절차가 이용 가능하다.
오즈비는 효과 크기의 척도이다. 현재의 맥락에서, 오즈비는 관심 변이체를 갖는 "대조군" 그룹 내 대상물의 확률(odds)에 대한 관심 변이체를 갖는 "환자" 그룹 내 대상물의 확률의 비율이다. 예를 들어, 통계적 연관성의 효과 크기는 관심 변이체 대립 유전자의 1개 또는 2개의 카피를 갖지 않는 대상물에서 관심 표현형(들)이 존재할 확률의 비율, 관심 변이체 대립 유전자의 1개 또는 2개의 카피를 갖는 대상물에서 관심 표현형(들)이 존재할 확률의 비율로서 측정될 수 있다.   잠재적인 기능 상실 변이체의 경우, 1 미만의 오즈비는 변이체가 보호성 변이체라는 것을 시사하며, 1보다 큰 오즈비는 변이체가 위험 변이체 또는 위험 유발성 변이체라는 것을 시사한다.
일 구현예에서, 오즈비는 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0, 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9, 3.0, 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 4, 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8, 5.9, 6.0, 6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.8, 6.9, 7.0, 7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7, 7.8, 7.9, 8.0, 8.1, 8.2, 8.3, 8.4, 8.5, 8.6, 8.7, 8.8, 8.9, 9.0, 9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.7, 9.8, 9.9 또는 10.0보다 더 크다. 또 다른 구현예에서, 오즈비는 0.90, 0.85, 0.80, 0.75, 0.70, 0.65, 0.60, 0.55, 0.50, 0.45, 0.40, 0.35, 0.30, 0.25, 0.20, 0.15, 0.10 또는 0.05 미만이다.
양적 표현형 분석 및 이분적(이진) 표현형 분석 모두에 있어서 (즉, 분석 방법에 상관없이), 연관성 검정을 위해 유전자형 데이터가 암호화되거나 성형될 수 있는 다양한 방법이 존재한다. 형성되는 유전자형 기반 그룹의 수에 따라 검정의 자유도가 달라질 수 있으므로 데이터 암호화의 선택은 검정의 통계적 검증력에 영향을 줄 수 있다. 대립 유전자 연관성 검정은 변이체의 하나의 대립 유전자와 표현형 상이의 연관성을 조사하는 것이다. 유전자형 연관성 검정은 유전자형(또는 유전자형 분류)과 표현형 사이의 연관성을 조사하는 것이다. 변이체에 대한 유전자형은 또한 우성 모델, 열성 모델, 승법 모델 또는 가법 모델과 같은 유전자형 분류 또는 모델로 그룹화될 수 있다.
통계적 분석에서, 귀무 가설이 참인 경우, 관찰된 검정 통계 이상인 검정 통계를 볼 확률인 p 값이 각 통계적 검정에 대해 생성된다. 일 구현예에서, 유전자 변이체-표현형 연관성 또는 유전자-표현형의 p-값은 1 x 10-5, 1 x 10-6, 1 x 10-7, 1 x 10-8, 1 x 10-9, 1 x 10-10, 1 x 10-11, 1 x 10-12, 1 x 10-13, 1 x 10-14, 1 x 10-15, 1 x 10-16, 1 x 10-17, 1 x 10-18, 1 x 10-19, 1 x 10-20, 1 x 10-21, 1 x 10-22, 1 x 10-23, 1 x 10-24, 1 x 10-25, 1 x 10-26, 1 x 10-27, 1 x 10-28, 1 x 10-29, 1 x 10-30, 1 x 10-31, 1 x 10-32, 1 x 10-33, 1 x 1034, 1 x 10-35, 1 x 10-36, 1 x 10-37, 1 x 10-38, 1 x 10-39, 1 x 10-40, 1 x 10-45, 1 x 10-50, 1 x 10-55, 1 x 10-60, 1 x 10-65, 1 x 10-70, 1 x 10-75, 1 x 10-80, 1 x 10-85, 1 x 10-90, 1 x 10-95, 1 x 10-100, 1 x 10-125, 1 x 10-150, 1 x 10-175, 1 x 10-200, 1 x 10-225, 1 x 10-250 , 1 x 10-275 또는 1 x 10-300 이하이다.
통계적 분석에서, p 값이 사전 정의된 알파 값(예: 0.05) 아래로 떨어지는 경우, 통계적 검정은 유의한 것으로 일반적으로 간주되고, 귀무 가설은 기각된다. 이는 단일 통계적 검정과 관련이 있으며; 전장 게놈 연관성 연구(GWAS)의 경우, 각각의 검정이 위 양성 확률(false positive probability)을 갖는 수십만 내지 수백만 건의 검정이 수행된다. 따라서, 전체 GWAS 분석에 걸쳐 하나 이상의 위 양성을 발견할 누적 가능성은 매우 높다.
일 양태에서, 정확도 컴포넌트(224)는 (인식되지 않은 모집단 구조, 분석적 접근법, 유전자형 분석 인공 산물 등으로부터) 체계적 바이어스의 증거를 식별하도록 구성될 수 있다. 예를 들어, 정확도 컴포넌트(224)는 분위-분위(Q-Q) 플롯 등을 결정할 수 있다. Q-Q 플롯은 검정 통계의 관찰된 분포가 예측된 (귀무) 분포를 따르는 정도를 특성화하는 데 사용될 수 있다.
유전자 변이체-표현형 연관성 데이터 컴포넌트(206)는 새로운 결과가 각각의 유전자 데이터 동결(시퀀싱된 대상물의 수)에서 자동적으로 계산되는 유전자 변이체-표현형 연관성 결과 및/또는 유전자-표현형 연관성 결과를 생성하도록 구성될 수 있다. 생성될 수 있는 유전자 변이체-표현형 연관성 및/또는 유전자-표현형 연관성 결과의 수에 포함된 요소는 유전자 및/또는 유전자 변이체의 수, 표현형의 수, 및 수행되는 통계적 검정 또는 모델의 수를 포함한다. 따라서, 유전자 변이체-표현형 연관성 데이터 컴포넌트(206)는 무한히 확장될 수 있다. 일 구현예에서, 원하는 수의 유전자 및/또는 유전자 변이체에 대한 유전자 변이체-표현형 연관성 결과 및/또는 유전자-표현형 연관성 결과 분석, 원하는 수의 표현형 및 적용된 통계적 검정 또는 모델의 수가 기술된다.
일 구현예에서, 유전자 변이체-표현형 연관성 데이터 컴포넌트는 적어도 1천만, 2천만, 3천만, 4천만, 5천만, 6천만, 7천만, 8천만, 9천만, 1억, 2억, 3억, 4억, 5억, 6억, 7억, 8억, 9억, 10억, 12억, 13억, 14억, 15억, 16억, 17억, 18억, 19억, 20억, 21억, 22억, 23억, 24억, 25억, 26억, 27억, 28억, 29억, 30억, 40억, 50억, 60억, 70억, 80억, 90억, 110억, 120억, 130억, 140억, 150억, 160억, 170억, 180억, 190억, 200억, 210억, 220억, 230억, 240억, 250억, 260억, 270억, 280억, 290억, 300억 개의 유전자 변이체-표현형 연관성 및/또는 유전자-표현형 결과를 생성하고 저장하도록 구성될 수 있다. 더 큰 규모에서는, 파운더 모집단 분석에 유용한 분석적 접근법이 파운더 모집단보다 더 큰 모집단에서 유용해진다.
유전자 변이체-표현형 연관성 데이터 컴포넌트(206)의 결과는 로컬 데이터/처리 센터(102) 및/또는 원격 데이터/처리 센터(108) 중 하나 이상에서 집적되고 저장될 수 있다. 유전자 변이체-표현형 연관성 데이터 컴포넌트(206)의 예들(instances)은 모든 것에 의한 모든(all-by-all) 결과 생성(모든 변이체/모든 표현형)을 용이하게 하도록 최적화될 수 있고, 맞춤형 결과 생성(예: 관심 표현형에 대한 결과 계산)을 용이하게 할 수 있다. 모든 것에 의한 모든 것(all-by-all) 및 맞춤형 분석의 경우, 모든 결과가 후속 검토를 위해 저장될 수 있다.
데이터 분석 컴포넌트(208)는 유전저 변이체-표현형 연관성 데이터 컴포넌트(206)로부터 결과를 생성, 저장 및 색인화하도록 구성될 수 있다. 예를 들어, 결과는 변이체(들)에 따라 색인화될 수 있고, 표현형(들)에 따라 및 이들의 조합 등에 따라 색인화될 수 있다. 데이터 분석 컴포넌트(208)는 데이터 마이닝(data mining), 인공 지능 기술(예: 머신 러닝), 및/또는 예측 분석을 수행하도록 구성될 수 있다. 데이터 분석 컴포넌트(208)는 x 축을 따라 변이체를 보여주고 y 축을 따라 유의성을 보여주는 시각화, 예를 들어 맨해튼 플롯을 생성하고 저장할 수 있다.
도 3에 도시된 일 양태에서, 로컬 데이터/처리 센터(102) 및/또는 원격 데이터/처리 센터(108) 중 하나 이상은 표현형 데이터 인터페이스(302), 유전자 변이체 데이터 인터페이스(304), 가계 인터페이스(306), 및/또는 결과 인터페이스(308) 중 하나 이상을 포함하는 하나 이상의 연산 장치를 포함할 수 있다.
표현형 데이터 인터페이스(302)는 표현형 데이터 컴포넌트(204)에 저장된 데이터에 접근할 수 있다. 표현형 데이터 인터페이스(302)는 표현형 데이터 뷰어(302a), 쿼리/시각화 컴포넌트(302b), 및 데이터 교환 인터페이스(302c) 중 하나 이상을 포함할 수 있다. 표현형 데이터 뷰어(302a)는 쿼리/시각화 컴포넌트(302b)에 사용자가 하나 이상의 쿼리를 입력할 수 있도록 구성된 그래픽 사용자 인터페이스를 포함할 수 있다. 도 4a는 표현형 데이터 인터페이스(302) 및/또는 유전자 변이체 데이터 인터페이스(304) 중 하나 이상의 결과를 쿼리 및/또는 디스플레이하기 위한 예시적인 그래픽 사용자 인터페이스를 도시한다. 사용자 인터페이스 요소(401)는 쿼리 입력 요소(402)로 하여금 쿼리를 수신하고 표현형 데이터 인터페이스(302)에 전송하도록 하기 위해 사용될 수 있다. 사용자 인터페이스 요소(403)는 쿼리 입력 요소(402)로 하여금 쿼리를 수신하고 유전자 변이체 데이터 인터페이스(304)에 전송하도록 하기 위해 사용될 수 있다. 사용자 인터페이스 요소(404)는 쿼리 입력 요소(402)로 하여금 쿼리를 수신하고 표현형 데이터 인터페이스(302)와 유전자 변이체 데이터 인터페이스(304) 모두에 전송하도록 하기 위해 사용될 수 있다. 도 4b는 사용자 인터페이스 요소(403)의 선택에 의해 표현형 데이터 인터페이스(302)의 결과를 쿼리 및/또는 디스플레이하기 위한 예시적인 그래픽 사용자 인터페이스를 도시한다. 특정 표현형이 쿼리 입력 요소(402)에 쿼리로서 입력될 수 있다. 쿼리 입력 요소(402)는 표현형의 드롭 다운 리스트(drop down list)를 추가로 포함할 수 있다. 표현형의 드롭 다운 리스트는 표현형의 그래픽 묘사(405)와 함께 포함된 모든 표현형을 포함할 수 있다. 추가적인 양태에서, 표현형의 그래픽 묘사(405)는 특정 표현형에 대한 쿼리를 위해 생성되고 편집될 수 있다. 표현형의 그래픽 묘사(405)는, 예를 들어, ICD-9 코드에 기초한 표현형의 계층 구조(또는 다른 관계 구조)를 포함할 수 있다. 표현형의 그래픽 묘사(405)에 하나 이상의 요소를 사용하면 도 4c에 도시된 바와 같이 표현형의 그래픽 묘사(405)를 추가적으로 확장할 수 있다. 쿼리는 표현형의 그래픽 묘사(405)에 하나 이상의 요소를 사용하는 것에 기초하여 생성될 수 있다. "지질"의 표현형 쿼리에 대한 예시적인 쿼리 결과가 도 4d에 도시되어 있다. 쿼리 결과는 지질과 연관된 모든 유전자를 나타내고 유전자와 연관된 다양한 데이터(예: 유전자, 염색체 번호, 게놈 위치, 기준, 대체 대립 유전자, 변이체, 변이체명, 예측된 변이체 유형, 아미노산 변화, 특정 표현형 등)를 포함한다.
그래픽 사용자 인터페이스는 하나 이상의 데이터 시각화를 디스플레이하도록 구성될 수도 있다. 하나 이상의 데이터 시각화는 정적이거나 상호 작용식일 수 있다. 도 4e는 예시적인 표현형 데이터 뷰어(302a)를 도시한다.
쿼리/시각화 컴포넌트(302b)는 데이터 쿼리 기능, 데이터 시각화 기능 등을 포함할 수 있다. 예를 들어, 쿼리/시각화 컴포넌트(302b)는 비순환식 그래프에 저장된 표현형 데이터(의료 정보를 포함함)를 쿼리하도록 구성될 수 있다. 일 양태에서, 쿼리/시각화 컴포넌트(302b)는 유전자, 유전자 집합, 및/또는 변이체에 따라 쿼리할 수 있다. 비순환 그래프는 통일 의료 용어 시스템(UMLS) 계층 구조의 관계를 이용해 만들 수 있다. 예를 들어, 비순환 그래프의 노드(nodes)는 표현형을 포함할 수 있고, 노드 사이의 에지는 "진단을 가짐", "투약을 함" 등과 같은 관계를 포함할 수 있다. 예시적인 쿼리 유형은 "얼마나 많은 환자가 이 질병을 앓고 있거나, 이 약물을 투여받고 있는가?"일 수 있다. 또한, 쿼리는 특정 실험실 결과를 특정할 수 있다(예: ldl > 200). 비순환 그래프는 표현형 데이터에 관한 메타 데이터, 예를 들어, 데이터가 유래된 데이터 세트 등을 포함할 수 있다. 쿼리/시각화 컴포넌트(302b)는 쿼리 결과의 하나 이상의 시각화를 생성하고 디스플레이할 수 있다. 하나 이상의 시각화는 쿼리 결과에 대한 그래픽 표현을 사용자가 볼 수 있게 한다. 데이터 시각화 포맷에는, 예를 들어, 막대 차트, 트리 차트, 파이 차트, 선형 그래프, 풍선형 그래프, 지리적 맵, 및 데이터가 그래픽에 의해 표현될 수 있는 임의의 다른 포맷이 포함된다.
도 4e의 표현형 데이터 뷰어(302a)는 모든 코호트에 적용되고 코호트 2에 적용된 단일 쿼리의 결과를 도시한다. 표현형 데이터 뷰어(302a)는 사용자가 불 논리(Boolean logic)의 지원을 받아 입력 영역(406)에서 임의의 수의 기준을 쿼리에 추가하거나 삭제함으로써 직관적으로 쿼리를 생성할 수 있게 한다. 도시된 쿼리는, 질병 X로 진단된 모든 환자로서, 30세 이상이고 체질량 지수(BMI)가 적어도 27이며 약물 A, 약물 B 또는 약물 C 중 하나를 처방받은 환자에 대한 것이다. 쿼리는 처리를 위해 쿼리/시각화 컴포넌트(302b)에 전달될 수 있다.
쿼리/시각화 컴포넌트(302b)는 일부 또는 모든 표현형 데이터(의료 정보를 포함함)에 대해 쿼리를 적용하도록 구성될 수 있다. 표현형 데이터(의료 정보를 포함함)는 하나 이상의 코호트로 구분될 수 있다. 쿼리는 하나 이상의 코호트에 별도로 적용될 수 있고, 코호트 간의 비교를 위해 결과가 디스플레이될 수 있다. 일 양태에서, 2개의 그룹 사이에서 공통인 변이체가 결정될 수 있다.
도 4e의 표현형 데이터 뷰어(302a)는 모든 코호트에 적용된 쿼리의 결과(디스플레이 영역(407)) 및 코호트 2에 적용된 쿼리의 결과(디스플레이 영역(408))를 도시한다. 표현형 데이터 뷰어(302a)는 쿼리 결과를 임의의 데이터 포맷(예: 텍스트 파일, 스프레드 시트 등)으로 다운로드할 수 있게 한다. 표현형 데이터 뷰어(302a)는 동일하거나 유사한 쿼리(예: 표현형/변이체)를 수행하고 있는 다른 사용자를 식별함으로써 사용자를 지원하기 위한 경향 검색(trending search)을 디스플레이할 수 있다.
데이터 교환 인터페이스(302c)는 다른 인터페이스의 출력이 표현형 데이터 인터페이스(302)로의 입력으로서 사용될 수 있게 하고, 표현형 데이터 인터페이스(302)의 출력이 다른 인터페이스로의 입력으로서 사용될 수 있게 한다. 일 양태에서, 하나 이상의 다른 인터페이스가 표현형 데이터 인터페이스(302)로부터 개시될 수 있고, 표현형 데이터 인터페이스(302)의 하나 이상의 쿼리 결과가 입력으로서 하나 이상의 다른 인터페이스에 전달될 수 있다. 예를 들어, 표현형 데이터 인터페이스(302)는 유전자 변이체 데이터 인터페이스(304)로부터의 공통 변이체에 기초하여 사전 정의된 코호트를 수신할 수 있다. 표현형 데이터 인터페이스(302)는 사전 정의된 코호트 및 추가 코호트에 쿼리를 적용할 수 있다. 데이터 교환 인터페이스(302c)는 또한 쿼리 결과를 가계 인터페이스(306)에 입력으로서 제공하여, 쿼리 결과에 포함된 어떤 환자가 가계에 속하는지를 결정할 수 있다.
도 5에 도시된 일 양태에서, 하나 이상의 기준의 선택을 수신하는 단계를 (502)에 포함하는 방법(500)이 제공된다. 하나 이상의 기준은 진단, 인구 통계, 측정, 생체, 투약 등 중 하나 이상을 포함할 수 있다. 방법(500)은 인터페이스 요소를 통해 토글 상호 작용을 수신하는 단계를 더 포함하되, 토글 상호 작용은 하나 이상의 오퍼레이터가 하나 이상의 기준에 적용된 상태를 변경하게 하는 것이다. 상태는 AND, OR 또는 XOR 중 하나를 포함할 수 있다.
방법(500)은, 하나 이상의 기준과 연관된 하나 이상의 탈 식별화된 의료 기록을 결정하는 단계를 (504)에 포함할 수 있다. 하나 이상의 탈 식별화된 의료 기록은 제1 코호트와 연관될 수 있다. 방법(500)은 하나 이상의 탈 식별화된 의료 기록을 제1 결과로 그룹화하는 단계를 (506)에 포함할 수 있다.
방법(500)은, 제1 결과에 적용된 하나 이상의 기준의 제1 분포를 표시하는 단계를 (508)에 포함할 수 있다. 방법(500)은 복수의 코호트 중 제1 코호트의 제1 선택을 수신하는 단계를 더 포함할 수 있다. 방법(500)은 복수의 코호트 중 제2 코호트의 제2 선택을 수신하는 단계를 더 포함할 수 있다. 방법(500)은, 하나 이상의 기준과 연관된 하나 이상의 탈 식별화된 의료 기록을 결정하는 단계(하나 이상의 탈 식별화된 의료 기록은 제2 코호트와 연결됨), 하나 이상의 탈 식별화된 의료 기록을 제2 결과로 그룹화하는 단계, 및 제2 결과에 적용된 하나 이상의 기준의 제2 분포를 디스플레이하는 단계를 더 포함할 수 있다.
방법(500)은 하나 이상의 탈 식별화된 의료 기록의 유전자 프로파일에 대한 요청을 수신하는 단계(요청은 하나 이상의 탈 식별화된 의료 기록 각각에 대한 식별자를 포함함), 및 원격 연산 장치로부터 유전자 프로파일을 수신하는 단계를 더 포함할 수 있다. 유전자 프로파일은 하나 이상의 DNA 서열을 포함할 수 있다. 하나 이상의 DNA 서열은 하나 이상의 DNA 서열 변이체를 포함할 수 이다.
방법(500)은 유전자 프로파일 및 하나 이상의 탈 식별화된 의료 기록을 데이터 세트로 컴파일링하는 단계를 더 포함할 수 있다. 방법(500)은 데이터 세트를 처리하여 유전자 프로파일과 의료 조건 사이의 연관성을 식별하는 단계를 더 포함할 수 있다. 예로서, 방법(500)은 표현형 데이터 인터페이스(302)를 통해 수행될 수 있다.
도 3으로 돌아가서, 유전자 변이체 데이터 인터페이스(304)는 유전자 데이터 컴포넌트(202)에 저장된 데이터에 접근할 수 있다. 유전자 변이체 데이터 인터페이스(304)는 엑솜 시퀀싱 노력의 일부로서 식별된 복제수 변이체("CNV")를 포함하여 모든 변이체의 추적을 가능하게 하며, 변이체 빈도와 추정 함수에 대한 맥락을 제공한다. 적어도 하나의 환자에서 관찰된 임의의 SNP 또는 인델은 유전자 데이터 컴포넌트(202)에 기록되며, 유전자 변이체 데이터 인터페이스(304)에 의해 접근될 수 있다. 일부 양태에서, 2개의 구별되는 교호 대립 유전자를 갖는 변이체가 기록된다.
일 양태에서, 유전자 변이체 데이터 인터페이스(304)는 유전자 변이체 데이터 뷰어(304a), 쿼리/시각화 컴포넌트(304b), 및/또는 데이터 교환 인터페이스(304c) 중 하나 이상을 포함할 수 있다. 유전자 변이체 데이터 뷰어(304a)는 쿼리/시각화 컴포넌트(304b)에 사용자가 하나 이상의 쿼리를 입력할 수 있도록 구성된 그래픽 사용자 인터페이스를 포함할 수 있다. 그래픽 사용자 인터페이스는 하나 이상의 데이터 시각화를 디스플레이하도록 구성될 수도 있다. 하나 이상의 데이터 시각화는 정적이거나 상호 작용식일 수 있다. 유전자 변이체 데이터 뷰어(304a)는 주석이 달린 유전자 변이체 데이터를 볼 수 있게 한다. 도 6a6b는 예시적인 유전자 변이체 데이터 뷰어(304a)를 도시한다. 도 7a는 사용자 인터페이스 요소(401)의 선택에 의해 유전자 데이터 인터페이스(304)의 결과를 쿼리 및/또는 디스플레이하기 위한 예시적인 그래픽 사용자 인터페이스를 도시한다. 특정 유전자 또는 특정 변이체가 쿼리로서 쿼리 입력 요소(402)에 입력될 수 있다. 쿼리 입력 요소(402)는 유전자 및/또는 변이체의 드롭 다운 리스트를 추가로 포함할 수 있다. "PCSK9"의 유전자 쿼리에 대한 예시적인 쿼리 결과가 도 7b에 도시되어 있다. 쿼리 결과는 PCSK9과 연관된 모든 변이체를 나타내고 변이체와 연관된 다양한 데이터(예: 유전자, 염색체 번호, 게놈 위치, 기준, 대체 대립 유전자, 변이체, 변이체명, 예측된 변이체 유형, 아미노산 변화, 특정 표현형 등)를 포함한다.
쿼리/시각화 컴포넌트(304b)는 데이터 쿼리 기능, 데이터 시각화 기능 등을 포함할 수 있다. 예를 들어, 쿼리/시각화 컴포넌트(304b)는 유전자 데이터 컴포넌트(202)에서 하나 이상의 VCF 파일에 저장된 유전자 변이체 데이터를 쿼리하도록 구성될 수 있다. 예를 들어, 쿼리/시각화 컴포넌트(304b)는 유전자, 유전자 집합, 및/또는 변이체에 따라 쿼리할 수 있다. 도 6은 사용자로부터 입력으로서 쿼리를 수신하도록 구성된 예시적인 유전자 변이체 데이터 뷰어(304a)를 도시한다. 사용자는 쿼리할 데이터 세트 및 적용할 데이터 필터(존재하는 경우)를 입력 영역(602)에서 지정할 수 있다. 이어서, 사용자는 유전자, 유전자 집합, 및/또는 변이체를 입력 영역(604)에 입력할 수 있다.
유전자 쿼리의 경우, 쿼리/시각화 컴포넌트(304a)가 관심 유전자와 중첩하는 변이체를 검색할 수 있다. 관심 유전자에 따른 예시적인 검색 결과는 도 6b에 도시된다. 결과의 시각화는, 표적화 영역 및 관찰 리드 범위(중앙 값)의 편차도(variogram), 상이한 기능적 분류에 대한 담체 정보(로그 척도), 및 기능적 도메인을 갖는 유전자 모델 중 하나 이상을 포함할 수 있다. 또한, 유전체 좌표(변이체의 염색체 위치, 기준 대립 유전자, 교호 대립 유전자, rsID - 이용 가능한 경우), 기능적 효과 예측, 효과 우선 순위, 기능적 효과가 추정적 기능 상실(Is_pLoF)을 야기할 가능성이 있는지 여부의 표시, 영향 받은 전사체, 전사체 시작 부위에 대한 엑손 번호의 상대적인 랭킹, cDNA 레벨에서 기능적 영향을 설명하는 HGVS 주석, 단백질 레벨에서 기능적 영향을 설명하는 HGVS 주석, 교호 대립 유전자의 빈도, 이형접합성 담체의 수, 동형접합성 담체의 수, 및 담체 정보와 추가 주석을 제공하는 별도 페이지에 대한 링크에 대한 정보를 갖는 표가 도면에 도시된다.
유전자 쿼리의 또 다른 경우에 있어서, 쿼리/시각화 컴포넌트(304b)는 관심 쿼리 유전자에 기초하여 CNV 관련 데이터를 검색할 수 있다. 도 2와 관련하여 기술된 바와 같이, 변이체 식별 컴포넌트(210)는 CNV 식별을 포함하여 하나 이상의 변이체를 식별(예: 검출)할 수 있다. 유전자 변이체 데이터 뷰어(304a)는 따라서 CNV 브라우저(browser)를 포함한다. 위에 기술된 바와 같이, 대립 유전자 빈도의 추정, 접합성(zygosity)의 분포, 및 표현형과의 CNV 연관성의 시험을 가능하게 하는 CNV 유전자좌 정의를 생성하는데 CLAMMS가 사용될 수 있다. CNV 브라우저는 유전자좌 정의에 기초하여 사용될 수 있는데, 유전자좌 정의는 유전자좌 병합 프로세스에 사용된 특정 입력 CNV 세트에 대해 정의될 수 있다. 도 7c는 사용자 인터페이스 요소(702)의 선택에 의해 유전자 데이터 인터페이스(304)로부터 CNV 관련 결과를 쿼리 및/또는 디스플레이하기 위한 예시적인 그래픽 사용자 인터페이스를 도시한다. 사용자는 사용자 인터페이스 요소(702)를 통해, 사용자 인터페이스 요소(704)에 입력된 쿼리 유전자와 중첩되는 모든 CNV 유전자좌를 사용자가 검색할 수 있는 CLAMMS CNV 버전을 선택할 수 있다.
관심 유전자에 따른 CNV 관련 데이터의 예시적인 검색 결과는 도 7d에 도시된다. 복제, 결실, 또는 쿼리 유전자와 중첩하는 임의의 CNV를 갖는 담체의 총 수가 사용자에게 제공될 수 있고, 이어서 쿼리 유전자와 중첩하는 모든 수퍼 유전자좌를 나열하는 표가 제공될 수 있다. 각각의 유전자좌는 좌표, 담체의 수(총 수 및 복제수에 따라 나눈 수), 대립 유전자 빈도, 유전자좌와 중첩하는 유전자의 목록(쿼리 유전자 포함), 및 수퍼 유전자좌를 생성하는 데 사용된 담체 특이적 입력 CNV인 "원시(Raw) CNV"를 보기 위한 링크를 포함하는 정보를 가질 수 있다.
사용자는 사용자 입력 요소(706) "Raw CNV"를 (예를 들어, 하이퍼링크 형태로) 사용할 수 있다. 유전자좌에 대해 사용자 인터페이스 요소(706)를 사용하면 사용자가 도 7e에 도시된 상세한 수퍼 유전자좌 보기 페이지로 안내된다. 사용자에게는 고 신뢰성 CNV와 모든 정확도 CNV 사이의 토글 스위치(사용자 인터페이스 요소(708))가 제공될 수 있으므로, 고 신뢰성 CNV QC 기준에 미달하는 추가적인 CNV를 볼 수 있다. 또한, 수퍼 유전자좌 정의 쿼리 조건은 "[X]"(사용자 인터페이스 요소(710))을 클릭하여 제거될 수 있으므로, 원 유전자 쿼리에 대한 모든 원시 CNV(저 신뢰성 CNV를 포함함)를 볼 수 있다. 후속하는 표의 행은 원시 좌표(수퍼 유전자좌와 동일하거나 수퍼 유전자좌의 경계 내에 있을 것임), QC 레벨, 예측된 복제수(동형접합성 결실은 복제수 0으로 표시됨), 엑손의 수, 검출 레벨 QC 측정 기준, 및 중첩 유전자명과 같이 개별 샘플에서 만들어진 CNV 검출에 해당한다.
유전자 집합 연구의 경우, 쿼리/시각화 컴포넌트(304b)는 유전자 집합에 대한 변이체/pLoF의 요약을 수득할 수 있다. 결과 시각화는, 정의된 유전자 집합에 대해 생성된 유전자 레벨 pLoF 요약, 유전자 ID(예: 앙상블 유전자 ID), 유전자명, 유전자에서 적어도 하나의 동형접합성 pLoF 변이체를 가지는 개체의 수, 유전자에서 적어도 하나의 이형접합성 pLoF 변이체를 가지는 개체의 수, 유전자의 비동의(non-synonymous) 변화를 유발하는 적어도 하나의 동형접합성 SNP를 가지는 개체의 수, 유전자의 비동의 변화를 유발하는 적어도 하나의 이형접합성 SNP를 가지는 개체의 수, 유전자에서 프레임시프트 부위의 수, 유전자에서 정지 코돈 획득 부위의 수, 유전자에서 시작 코돈 상실 부위의 수, 유전자에서 스플라이스 수용체에 영향을 미치는 부위의 수, 유전자에서 정지 코돈 상실을 유발하는 부위의 수, 유전자에서 인프레임 인델의 수, 유전자에서 비동의 부위의 수, 및 유전자에서 동의 부위의 수 중 하나 이상을 포함할 수 있다.
변이체 쿼리의 경우, 쿼리/시각화 컴포넌트(304b)는 특정 변이체와 연관되는 담체를 수득할 수 있다. 결과 시각화는, 샘플명, 접합성 표시, 정확도 측정 기준의 표시(예: L1, L2, L3 각각에 대한 합격/불합격), 및 다른 페이지, 예를 들어, 원시 VCF 룩업 페이지 또는 리드 스택 보기(read stack view) 페이지에 대한 링크 중 하나 이상을 포함하는 표를 포함할 수 있다. 쿼리/시각화 컴포넌트(304b)는 쿼리 결과의 하나 이상의 시각화를 생성하고 디스플레이하도록 구성될 수 있다. 하나 이상의 시각화는 쿼리 결과에 대한 그래픽 표현을 사용자가 볼 수 있게 한다. 데이터 시각화 포맷에는, 예를 들어, 막대 차트, 트리 차트, 파이 차트, 선형 그래프, 풍선형 그래프, 지리적 맵, 및 데이터가 그래픽에 의해 표현될 수 있는 임의의 다른 포맷이 포함된다.
쿼리/시각화 컴포넌트(304b)는 달성한 중앙 값 범위에 기초하여 게놈 내 영역의 커버리지/검출 가능성을 탐색하고, 유전자/변이체 전사의 맥락에서 변이체 위치를 시각화하고, 기능 분류(예: 동의, 미스센스 또는 pLoF)에 따라 변이체의 상대 위치 및 밀도를 탐색하고, (분류에 따라, 및 변이체에 따라) 변이체의 모집단 내 담체의 수를 식별하고, 변이체에 대한 관련 전사체를 찾고, 변이체의 아미노산 영향을 결정하고, 변이체의 빈도를 (유전자 데이터 컴포넌트(202)에서 또는 데이터 교환 인터페이스(304c)가 링크된 또 다른 데이터베이스에서) 결정하고, 유전자 데이터 컴포넌트(202)에서의 변이체를 RSID에 연결하고, 상세한 변이체 추석을 탐색하고, 변이체 데이터를 (예를 들어, 엑셀 스프레드시트와 같은 스프레드 시트 또는 PDF 포맷으로) 내보내고, 변이체 데이터를 표현형 데이터 인터페이스(302)에 보내고, 시각적 평가를 위해 리드 스택 정보를 추출 및 디스플레이하고, 필터 레벨의 관점에서 변이체의 정확도 정보를 제공하도록 구성될 수 있다.
일 양태에서, 쿼리/시각화 컴포넌트(304b)는 상이한 코호트에 대한 대립 유전자 빈도 스펙트럼을 생성하고, 내재된 차이를 분석하도록 구성될 수 있다. 예를 들어, 사용자는 쿼리/시각화 컴포넌트(304b)를 사용하여 코호트간에 풍부함이 10X, 100X 등으로 상이한 변이체를 식별할 수 있다. 그런 다음, 쿼리/시각화 컴포넌트(304b)는 코호트를 비교하고, 어떤 코호트가 관심 변이체의 농도가 가장 높은지, 또는 관심 유전자의 변이체의 농도가 가장 높은지를 확인하는 데 사용될 수 있다. 쿼리/시각화 컴포넌트(304b)는 주어진 변이체에 대해 이형접합성 상태에 있거나 동형접합성 상태에 있는 대상물의 수를 디스플레이하는 데 사용될 수도 있다.
데이터 교환 인터페이스(304c)는 다른 인터페이스의 출력이 유전자 변이체 데이터 인터페이스(304)로의 입력으로서 사용될 수 있게 하고, 유전자 변이체 데이터 인터페이스(304)의 출력이 다른 인터페이스로의 입력으로서 사용될 수 있게 한다. 일 양태에서, 하나 이상의 다른 인터페이스가 유전자 변이체 데이터 인터페이스(304)로부터 개시될 수 있고, 유전자 변이체 데이터 인터페이스(304)의 하나 이상의 쿼리 결과가 입력으로서 하나 이상의 다른 인터페이스에 전달될 수 있다. 예를 들어, 유전자 변이체 데이터 인터페이스(304)는 표현형 데이터 인터페이스(302)로부터 관심 유전자를 수신할 수 있다. 유전자 변이체 데이터 인터페이스(304)는 수신된 관심 유전자에 기초한 쿼리를 적용할 수 있다. 데이터 교환 인터페이스(304c)는 또한 쿼리 결과를 가계 인터페이스(306)에 입력으로서 제공하여, 쿼리 결과에 포함된 어떤 환자가 가계에 속하는지를 결정할 수 있다.
도 8a에 도시된 일 양태에서, 엑솜 시퀀싱 데이터로부터 복수의 변이체를 수신하는 단계를 (802)에 포함하는 방법(800)이 제공된다. 방법(800)은 복수의 변이체의 기능적 영향을 평가하는 단계를 (804)에 포함할 수 있다. 방법(800)은 복수의 변이체 각각에 대한 효과 예측 요소를 생성하는 단계를 (806)에 포함할 수 있다. 복수의 변이체 각각에 대한 효과 예측 요소를 생성하는 단계는 잠재적 기능 상실(pLoF) 후보로서 복수의 변이체 각각을 식별하는 단계를 포함할 수 있다. pLoF 후보로서 복수의 변이체 각각을 식별하는 단계는 복수의 변이체 각각에 대한 각 변이체 검출과 연관된 정확도 수준을 식별하는 단계 및 정확도 수준에 기초하여 pLoF 정의를 적용하는 단계를 포함할 수 있다. pLoF 후보로서 복수의 변이체 각각을 식별하는 단계는 유전자 변이체 주석 및 효과 예측 방법을 복수의 변이체 각각에 적용하는 단계를 포함할 수 있다(표 1 참조). 본원에서 사용되는 바와 같이, 용어 "효과 예측"은 변이체 유전자의 발현 산물의 생화학적 구조 및 기능에 대한 변이체의 효과의 예측을 지칭하며, 표현형에 대한 변이체의 효과의 예측을 지칭하지 않는다.
[표 1. DiscovEHR 엑솜 서열 변이체에 대한 기능적 주석 할당의 계층 구조]
효과 설명 효과
우선 순위
pLoF 변이체
" 프레임시프트 변이체" 변이체가 프레임 시프트 (예: 3의 배수가 아닌 삽입/결실( indel )의 크기)를 야기함 1
"정지 코돈 획득" 변이체가 정지 코돈(예: Cag /Tag, Q/*)을 야기함 2
"시작 코돈 상실" 변이체가 시작 코돈을 비시작 코돈(예: aTg/aGg, M/R)으로 변이시킴 3
" 스플라이스 수용체 변이체" 변이체가 (제1 엑손을 제외하고는 엑손 시작 이전의 2개의 염기로 정의된) 스플라이스 수용체 부위를 공격함 4
" 스플라이스 공여자 변이체" 변이체가 (마지막 엑손을 제외하고는 코딩 엑손 말단 다음의 2개의 염기로 정의된) 스플라이스 공여자 부위를 공격함 5
"정지 코돈 상실" 변이체가 정지 코돈을 비정지 코돈(예: aTg/aGg, M/R)으로 변이시킴 6
" 인프레임 인델 " 변이체가 하나 또는 다수의 코돈(예: 3의 배수임)을 삽입하거나 결실함 7 아니오
" 미스센스 변이체 " 변이체가 상이한 아미노산을 생산하는 코돈(예: Tgg/Cgg, W/R)을 야기함 8 아니오
" 스플라이스 영역 변이체" 변이체가 스플라이스 부위의 영역 내에서 엑손의 1~3개의 염기 또는 인트론의 3~8개의 염기 중 하나 내에서 발생함 9 아니오
"동의 변이체" 변이체가 동일한 아미노산을 생산하는 코돈(예: Ttg/Ctg, L/L)을 야기함 10 아니오
방법(800)은 효과 예측 요소를 복수의 변이체를 포함하는 검색 가능한 데이터베이스로 조립하는 단계를 (808)에 포함할 수 있다. 검색 가능한 데이터베이스는 유전자, 유전자 집합, 및 변이체 중 하나 이상에 따라 검색되도록 구성될 수 있다. 방법(800)은 복수의 변이체 중 하나 이상을 개체에 할당하는 단계를 더 포함할 수 있다. 일 양태에서, 방법(800)은 유전자형의 변이체를 암호화하는 맞춤식 변이체 검출 포맷(VCF) 파일을 생성 또는 쿼리하는 단계를 추가로 포함할 수 있다. 일 양태에서, 맞춤형 VCF 파일은 각각이 하나 이상의 변이체의 유전체 좌표를 나타내는 복수의 표준 VCF 파일로부터 생성될 수 있다. 맞춤형 VCF 파일을 생성하는 단계는, 각각의 구별되는 변이체에 대해, VCF 파일 중 각각의 변이체를 포함하는 파일을 결정하는 단계를 포함할 수 있다. 그런 다음, 각각의 변이체에 해당하는 하나의 행 및 VCF 파일 각각에 해당하는 하나의 열을 포함하는 단일 표가 생성될 수 있다. 표에서 주어진 행(변이체)과 열(VCF 파일)에 대한 입력은 주어진 행의 변이체가 주어진 파일 내에 존재하는지 여부를 나타내게 된다. 일 양태에서, 표는 런-렝스 암호화(Run-Length Encodings, RLE)를 포함할 수 있는데, 각각의 입력은 대응하는 행의 변이체에 대한 RLE를 나타낸다. 따라서, 복수의 VCF 파일에 걸쳐 표시된 변이체는 대신에 단일 표로서 표현될 수 있다. RLE는 데이터의 런이 (즉, 많은 후속 데이터 요소들에서 동일한 데이터 값이 발생하는 시퀀스가) 원본 런으로서가 아니라 단일 데이터 값 및 카운트로서 저장되는 무손실 압축 형식이다. 본원에 기술된 바와 같은 RLE의 사용은 변이체의 대부분이 "희귀"(예를 들어, 변이체 부위의 약 85%가 10개 미만의 담체를 가짐)하므로 매우 효율적이다.
예를 들어, 다음은 6개의 예시적 VCF 입력 파일을 도시하며, 각각의 입력은 변이체의 유전체 좌표를 포함한다.
VCF1 VCF2 VCF3 VCF4 VCF5 VCF6
1:1002:A:T 1:1002:A:T 1:1039:G:C 1:1039:G:C 1:2107:T:G 1:1002:A:C
1:1039:G:C 2:5268:C:A 3:3024:T:C 3:3024:T:C 4:9848:A:C 1:1039:G:C
1: 2017:T:G 4:9848:A:C 4:9848:A:C 4:9848:A:C 5:3243:T:G 2:5268:C:A
4:9848:A:C 5:3243:T:G
이어서, 각각의 VCF 파일에 포함되는 각각의 변이체를 나타내는, 생성된 표는 다음과 같이 표현될 수 있다("A"는 해당 변이체가 해당 VCF 파일에 부재함을 나타내고, "P"는 해당 부위가 해당 VCF 파일에 존재함을 나타냄):
부위 VCF1 VCF2 VCF3 VCF4 VCF5 VCF6 RLE
1:1002:A:C A A A A A P 5AP
1:1002:A:T P P A A A A 2P4A
1:1039:G:C P A P P A P PA2PAP
1:2017:T:G P A A A P A P3APA
2:5268:C:A A P A A A P AP3AP
3:3024:T:C A A P P A A 2A2P2A
4:9848:A:C P P P P P A 5PA
5:3243:T:G A A A P P A 3A2PA
따라서, 위에서 표현된 바와 같이, 표는 다수의 VCF 파일을 단일 표에 통합시킬 수 있으므로, 데이터 저장 공간을 감소시킬 뿐만 아니라 변이체를 식별할 때 접근 속도를 증가시킨다. 또한, 표는 표가 생성된 원래 VCF 파일을 재생성하는 데 사용될 수 있다. 방법(800)은 각각의 부위에 대한 추가 정보를 암호화하는 단계를 추가로 포함할 수 있다. 이러한 추가 정보는 변이체 검출의 존재 여부, 변이체 레벨(예: L1, L2, 및/또는 L3), VQSR, 접합성 등을 포함할 수 있다. 일 양태에서, 암호화될 각각의 속성은 비트 플래그(bit flag)로서 표현될 수 있다. 예를 들어, 다음의 속성은, 아래에서 다룰 미국 정보 교환용 표준 코드 (ASCII) 오프셋과 함께 다음과 같이 암호화될 수 있다:
속성 비트 플래그 정수 값
ASCII_OFFSET 01000000 64
NO_CALL 00111111 63
CALL 00000000 0
HOM 00000001 1
VQSR 00000010 2
L2 00000100 4
L3 00001000 8
따라서, 방법(800)은 복수의 VCF 파일을 수신할 수 있고, 복수의 VCF 파일 간에 공통인 하나 이상의 변이체 부위를 결정할 수 있고; 복수의 VCF 파일 각각에 대한 하나 이상의 변이체 부위의 존재 또는 부재를 식별하는 색인을 생성할 수 있고, 복수의 속성을 복수의 VCF 파일 각각에 대한 단일 값으로 암호화할 수 있고, 색인 및 암호화된 복수의 변수를 포함하는 최종 VCF 파일을 생성할 수 있으며, 쿼리/시각화 컴포넌트는, 도 8b에 도시된 바와 같이, 최종 VCF 파일에 저장된 유전자 변이체 데이터를 쿼리하도록 구성된다. 도 8b는 각각의 정확도 측정 기준(L1, L2, L3)에 대한 대립 유전자 빈도(801), 정확도 측정 기준에 대한 다수의 HET 및 HOM 담체(803), 런-렝스 암호화된 샘플 표시자(805), 및 샘플 표시자를 샘플명과 관련시키는 샘플 표시자 색인(807)을 포함하는 예시적인 최종 VCF 파일을 보여준다.
방법(800)은 복수의 변이체 중 어느 것이 전사체의 화이트리스트에 포함되는지를 결정하는 단계 및 화이트리스트에 포함된 복수의 변이체를 필터링하여 필터링된 변이체 집합을 생성하는 단계를 더 포함할 수 있다. 방법(800)은 필터링된 변이체 집합에 의해 나타난 각각의 유전자에 대해 가장 유해한 기능적 효과 분류를 선별하는 단계를 더 포함할 수 있다. 각각의 유전자에 대해 가장 유해한 기능적 효과 분류를 선별하는 단계는 필터링된 변이체 집합에 유해함의 계층 구조를 적용하는 단계를 포함할 수 있다.
방법(800)은 쿼리 변이체를 포함하는 검색 쿼리를 수신하는 단계 및 쿼리 변이체와 연관된 하나 이상의 개체를 식별하는 단계를 더 포함할 수 있다. 방법(800)은 하나 이상의 개체와 연관된 하나 이상의 탈 식별화된 의료 기록에 대한 요청을 수신하는 단계, 하나 이상의 개체 각각에 대한 식별자를 포함하는 요청을 전송하는 단계, 및 하나 이상의 의료 기록을 원격 연산 장치로부터 수신하는 단계를 더 포함할 수 있다. 예로서, 방법(800)은 유전자 변이체 데이터 인터페이스(304)를 통해 수행될 수 있다.
가계 인터페이스(306)는 유전자 데이터베이스 내에서 가계를 재구성하도록 구성될 수 있다. 가계 인터페이스(306)는 가계 재구성을 위해 사용되는 혈통에 의한 동질성(Identity By Descent, IBD) 추정치를 생성할 수 있다.. 가계 인터페이스(306)는 IBD 추정치를 사용하여 유전자 데이터 세트를 가족 네트워크로 분해한 다음 각각의 가족 네트워크를 별도로 재구성할 수 있다. 가계 인터페이스(306)는 유전자 데이터 컴포넌트(202)에 저장된 데이터에 접근할 수 있다. 가계 인터페이스(306)는 가계 데이터 뷰어(306a), 쿼리/시각화 컴포넌트(306b), 및/또는 데이터 교환 인터페이스(306c) 중 하나 이상을 포함할 수 있다. 가계 데이터 뷰어(306a)는 쿼리/시각화 컴포넌트(306b)에 사용자가 하나 이상의 쿼리를 입력할 수 있도록 구성된 그래픽 사용자 인터페이스를 포함할 수 있다. 그래픽 사용자 인터페이스는 가계과 같은 하나 이상의 데이터 시각화를 디스플레이하도록 구성될 수도 있다. 하나 이상의 데이터 시각화는 정적이거나 상호 작용식일 수 있다. 가계 데이터 뷰어(306a)는 주석이 달린 유전자 변이체 데이터를 볼 수 있게 한다. 도 9, 도 10, 및 도 11은 예시적인 가계 데이터 뷰어(306a)를 도시한다.
쿼리/시각화 컴포넌트(306b)는 데이터 쿼리 기능, 데이터 시각화 기능 등을 포함할 수 있다. 예를 들어, 쿼리/시각화 컴포넌트(306b)는 유전자 데이터 컴포넌트(202)에서 하나 이상의 VCF 파일에 저장된 유전자 변이체 데이터를 쿼리하도록 구성될 수 있다. 예를 들어, 쿼리/시각화 컴포넌트(306b)는 유전자, 유전자 집합, 및/또는 변이체에 따라 쿼리할 수 있다. 쿼리/시각화 컴포넌트(306b)는 쿼리 결과를 분석하여 IBD 추정치를 결정하고, 가계 데이터 뷰어(306a)를 통해 디스플레이하기 위해 하나 이상의 가계를 조립할 수 있다.
데이터 교환 인터페이스(306c)는 다른 인터페이스의 출력이 가계 인터페이스(306)로의 입력으로서 사용될 수 있게 하고, 가계 인터페이스(306)의 출력이 다른 인터페이스로의 입력으로서 사용될 수 있게 한다. 일 양태에서, 하나 이상의 다른 인터페이스가 가계 인터페이스(306)로부터 개시될 수 있고, 가계 인터페이스(306)의 하나 이상의 쿼리 결과가 입력으로서 하나 이상의 다른 인터페이스에 전달될 수 있다. 예를 들어, 가계 인터페이스(306)는 유전자 변이체 데이터 인터페이스(304)로부터 관심 유전자 또는 관심 유전자 변이체를 수신할 수 있다. 가계 인터페이스(306)는 수신한 관심 유전자 또는 관심 유전자 변이체에 기초하여 쿼리를 적용할 수 있고, 쿼리 결과에 기초하여 가계를 구성할 수 있다. 데이터 교환 인터페이스(306c)는 또한 쿼리 결과를 표현형 데이터 인터페이스(302)에 입력으로서 제공하여, 쿼리 결과에 포함된 어떤 환자가 가계에 속하는지를 결정할 수 있다.
가계 인터페이스(306)는 유전자 샘플 식별자 세트와 관련된 하나 이상의 가계를 시각화하고, 주어진 유전자 데이터 샘플과 관련된 대상물에 대한 유전자 데이터 샘플 정보를 식별하여 내보내고, (더 큰 데이터 세트에 기초한 예상에 비해 상대적으로) 관련 샘플 세트에서 풍부한 변이체를 식별하고, 주어진 샘플과 밀접하게 관련된 대상물 샘플에 대한 IDB 추정치를 조회(look up)하며, 예를 들어 (엑셀 스프레드시트와 같은) 스프레드 시트 또는 PDF 포맷으로 내보내거나, 표현형 데이터 인터페이스(302)에 내보내기 위해 관련 샘플 세트를 식별하도록 구성될 수 있다.
결과 인터페이스(308)는 데이터 분석 컴포넌트(208) 및 표현형 데이터 분석 컴포넌트(208)에 저장된 데이터에 접근할 수 있다. 결과 인터페이스(308)는 데이터 분석 컴포넌트(208)에 저장된 하나 이상의 연관성 연구로부터의 연산 결과를 볼 수 있게 하고, 이와 상호 작용할 수 있게 한다. 결과 인터페이스(308)는 사용자가 데이터 세트를 선택하고 (즉, 데이터 세트로 이동하고) 데이터 세트의 시각적 표시물과 상호 작용할 수 있게 한다. 결과 인터페이스(308)는 포괄적 분석 결과물의 집합에 기초하여 데이터 세트를 필터링할 수 있게 한다. 결과 인터페이스(308)를 통해 생성된 소견은 추가적인 해석을 위해 저장할 수 있고, (예를 들어, PDF 또는 엑셀 포맷으로) 내보낼 수 있고, 공유할 수 있다.
일 양태에서, 결과 인터페이스(308)는 결과 뷰어(308a), 쿼리/시각화 컴포넌트(308b), 및/또는 데이터 교환 인터페이스(308c) 중 하나 이상을 포함할 수 있다. 결과 뷰어(308a)는 쿼리/시각화 컴포넌트(308b)에 사용자가 하나 이상의 쿼리를 입력할 수 있도록 구성된 그래픽 사용자 인터페이스를 포함할 수 있다. 그래픽 사용자 인터페이스는 하나 이상의 데이터 시각화를 디스플레이하도록 구성될 수도 있다. 하나 이상의 데이터 시각화는 정적이거나 상호 작용식일 수 있다. 결과 뷰어(308a)는 주석이 달린 유전자 변이체 데이터를 볼 수 있게 한다. 도 12a도 12b는 예시적인 결과 뷰어(308a)를 도시한다. 도 13a는 사용자 인터페이스 요소(404)의 선택에 의해 표현형 데이터 인터페이스(302) 및 유전자 데이터 인터페이스(304) 모두로부터의 결과를 쿼리 및/또는 디스플레이하기 위한 예시적인 그래픽 사용자 인터페이스를 도시한다. 특정 유전자 또는 특정 변이체가 쿼리로서 쿼리 입력 요소(402a)에 입력될 수 있고, 특정 표현형이 쿼리 요소(402b)에 입력될 수 있다. 쿼리 입력 요소(402a402b)는 유전자 및/또는 변이체의 드롭 다운 리스트(402a) 및 표현형의 드롭 다운 리스트(402b)를 추가로 포함할 수 있다. 추가 양태에서, 표현형의 그래픽 묘사(예: 도 4b도 4c에 기술된 표현형의 그래픽 묘사(405))가 사용될 수 있다. "PCSK9"의 유전자 쿼리 및 "지질"의 표현형 쿼리에 대한 예시적인 쿼리 결과가 도 13b에 도시되어 있다. 쿼리 결과는 PCSK9 및 지질 모두에 연관된 모든 유전자를 나타낸다. 쿼리 결과는 유전자와 연관된 다양한 데이터(예: 유전자, 염색체 번호, 게놈 위치, 기준, 대체 대립 유전자, 변이체, 변이체명, 예측된 변이체 유형, 아미노산 변화, 특정 표현형 등)를 포함할 수 있다.
쿼리/시각화 컴포넌트(308b)는 데이터 쿼리 기능, 데이터 시각화 기능 등을 포함할 수 있다. 예를 들어, 쿼리/시각화 컴포넌트(308b)는 유전자 데이터 컴포넌트(202)에서 하나 이상의 VCF 파일 및/또는 데이터 분석 컴포넌트(208)에서의 행렬 파일에 저장된 유전자 변이체 데이터를 쿼리하도록 구성될 수 있다. 예를 들어, 쿼리/시각화 컴포넌트(308b)는 유전자, 유전자 집합, 변이체, 및/또는 표현형에 따라 쿼리할 수 있다.
일 구현예에서, 결과 인터페이스(308)는 GWAS 통계 분석의 결과를 디스플레이할 수 있다. 일 구현예에서, 결과는 본원에서 "GWAS 뷰"로서 지칭되는 형태로 시각화된다. 유전자 쿼리 또는 유전자 변이체 쿼리의 경우, 쿼리/시각화 컴포넌트(308b)는 관심 유전자와 중첩하는 변이체를 검색할 수 있고, 그 결과를 동적 플롯으로 디스플레이할 수 있다. 맨해튼 플롯은 유전자 또는 유전자 변이체와 표현형 사이의 연관성의 유의성을 도시한다. Y 축은 -log10으로 변환된 p 값을 보여주는데, 이는 연관성의 세기를 나타낸다. X 축은 염색체에 따른 유전자 또는 변이체를 보여주며, 염색체 번호, 염색체 위치 또는 게놈 위치를 포함할 수 있다. 맨해튼 플롯은, 예를 들어, 분석에서 수행된 모든 검정을 고려한 본페로니(Bonferroni) 보정의 계산 후 전장 유전체 유의성의 적절한 레벨에서 수평선을 포함할 수 있다. 플롯의 데이터 지점의 높이는 유의성에 직접적으로 연관되며, 눈금 상의 데이터 지점이 높을 수록 유전자 또는 유전자 변이체와 표현형의 연관성이 더 유의해진다.
또 다른 구현예에서, 결과 인터페이스(308)는 PheWAS 통계 분석의 결과를 디스플레이할 수 있다. 일 구현예에서, 결과는 본원에서 "PheWas 뷰"로서 지칭되는 형태로 시각화된다. PheWas 뷰에서, 사용자는 관심 유전자 또는 유전자 변이체와 표현형(들)의 연관성을 시각화할 수 있다. 일 구현예에서, 쿼리/시각화 컴포넌트(308b)는 동적 플롯으로 결과를 디스플레이할 수 있다. 또 다른 구현예에서, 결과는 "PHEHATTAN 스타일 플롯"으로 본원에서 지칭되는 플롯으로 디스플레이되고 시각화될 수 있다. 또 다른 구현예에서, PHEHATTAN 스타일 플롯은 동적 플롯이다. PHEHATTAN 스타일 플롯은 유전자 또는 유전자 변이체와 하나 이상의 표현형 사이의 연관성의 유의성을 도시한다. Y 축은 -log10으로 변환된 p 값을 보여주는데, 이는 연관성의 세기를 나타낸다. X 축은 표현형(들)을 보여준다. PHEHATTAN 스타일 플롯은, 예를 들어, 분석에서 수행된 모든 검정을 고려한 본페로니(Bonferroni) 보정의 계산 후 전장 유전체 유의성의 적절한 레벨에서 수평선을 포함할 수 있다. 플롯의 데이터 지점의 높이는 유의성에 직접적으로 연관되며, 눈금 상의 데이터 지점이 높을 수록 유전자 또는 유전자 변이체와 표현형의 연관성이 더 유의해진다.
쿼리/시각화 컴포넌트(308b)는 쿼리 결과의 하나 이상의 시각화를 생성하고 디스플레이할 수 있다. 하나 이상의 시각화는 쿼리 결과에 대한 그래픽 표현을 사용자가 볼 수 있게 한다. 데이터 시각화 포맷에는, 예를 들어, 막대 차트, 트리 차트, 파이 차트, 선형 그래프, 풍선형 그래프, 지리적 맵, 및 데이터가 그래픽에 의해 표현될 수 있는 임의의 다른 포맷이 포함된다.
또 다른 구현예에서, 결과 인터페이스(308)는 PheWAS 통계 분석의 결과를 디스플레이할 수 있다. 쿼리/시각화 컴포넌트(308b)를 사용하여, 사용자는 표현형 카테고리를 탐색할 수 있으며, 맨해튼 플롯은 해당 표현형에 대해 어떤 유전적 변이체-표현형 결과가 수득되었는지, 어떤 통계적 검정(들)이 사용되었는지, 및 유전자 변이체(들)가 표현형과 연관되었는지를 동적으로 디스플레이할 것이다.
쿼리/시각화 컴포넌트(308b)는 유전자 변이체-표현형 연관성 결과를 단리하고, 결과와 관련된 정보를 디스플레이하는 데 사용될 수 있다.
쿼리/시각화 컴포넌트(308b)를 사용하여, 사용자는 임의의 관심 파라미터에 따라 유전자 변이체-표현형 연관성 결과를 필터링할 수 있다. 사용자가 결과를 필터링할 수 있는 관심 파라미터의 비한정적 예에는 유전자 변이체, 유전자, 유전자 데이터 컴포넌트(202)에서 유전자 데이터가 수득된 대상물 코호트의 하위 집합, 표현형 카테고리의 유형(이진 또는 양적), 표현형 카테고리, 염색체, (p 값에 의한) 유의성 정도, 및 효과 크기(예: 오즈비)를 포함한다.
쿼리/시각화 컴포넌트(308b)는 유전자 변이체-표현형 연관성 결과와 관련된 다양한 정보 필드를 디스플레이할 수 있다. 결과 인터페이스(308)를 사용해 시각화될 수 있고 더 조사될 수 있는 정보의 비한정적인 예에는 변이체명, 염색체, 게놈 위치, 기준 대립 유전자, 교호 대립 유전자, RSID, 시험 교정이 부실한 분석을 표시하는 지표, 적은 환자 수를 표시하는 지표, 마이너 대립 유전자 수가 적은 검정을 표시하는 지표, 하디 와인버그 균형(HWE)에서 변이체를 표시하는 지표, 베타, 표준 오차, 오즈비, 오즈비의 신뢰성 구간, -log10 p 값, 표준 오차, 베타의 표준 오차, 유전자명, 앙상블 ID, 기능적 주석, HGVS cDNA 변화, HGVS 아미노산 변화, 유전자 발현 산물 위치(예를 들어, 분비 위치, 막관통 위치, 핵 위치 등), 변이체가 기능 상실 변이체인지 여부, 변이체가 삽입 또는 결실 변이체인지 여부, 데이터 세트에서 교호 대립 유전자의 빈도, 이형접합체의 수, 적어도 하나의 교호 대립 유전자를 갖는 대상물의 수, 교호 대립 유전자 동형접합체의 수, HWE p 값, 및 소스 데이터 파일명 등이 포함된다.
쿼리/시각화 컴포넌트(308b)는 결과에 대한 정확도 정보, 예를 들어, Q-Q 플롯을 동적으로 생성하는 데 사용될 수도 있다. 쿼리/시각화 컴포넌트(308b)는 결과를 생성하는 데 사용된 통계적 검정의 유형에 따라 결과를 필터링하는 데 사용될 수도 있다. 쿼리/시각화 컴포넌트(308b)는 관심 염색체 또는 관심 염색체나 게놈의 위치에 대한 필터링에 사용될 수도 있다.
데이터 분석 컴포넌트(208)에 포함된 연산 결과에 접근함으로써, 쿼리/시각화 컴포넌트(308b)는 주어진 변이체에 대해 어떤 결과가 수득되었는지 및 주어진 표현형에 대해 어떤 결과가 수득되었는지를 결정할 수 있다. 결과 인터페이스(308)는 따라서 신규한 데이터 표현을 제공하고, 사용자로 하여금 데이터 분석 컴포넌트(208)에 저장된 유전자 변이체-표현형 연관성 데이터 컴포넌트(206)의 연산 결과를 검색/열람할 수 있게 한다.
결과 인터페이스(308)는 사용자가 (예를 들어, 유전자, 마스크, 표현형, 염색체, 위치 등에 기초한) 연관성 결과 히트, 필터 히트에 표기하거나 달리 표시하는 것을 허용할 수 있고, 사용자가 이후의 접근 및 타 사용자와의 공유를 위해 이전 시각화를 북마크하는 것을 허용할 수 있다. 결과 인터페이스(308)는 텍스트 파일, 스프레드 시트, 파워포인트, PDF와 같은 임의의 파일 포맷으로 데이터를 내보낼 수 있게 한다.
사용자는 쿼리/시각화 컴포넌트(308b)에 의해 생성된 시각화와 상호 작용하여 추가적으로 데이터를 "드릴 다운(drill down)" 분석할 수 있다. 예를 들어, 사용자는 쿼리 결과를 클릭하여 변이체, 유전자 등과 연관된 (이진, 양적, 기타) 표현형을 검색할 수 있다. 사용자는 변이체와 표현형 데이터 사이에서 앞 뒤로 탐색할 수 있다.
결과 인터페이스(308)는 임의의 양으로 데이터를 조작하고 디스플레이하도록 구성되어 높은 데이터 확장성을 제공할 수 있다. 결과 인터페이스(308)는 기초 데이터에 관해 일치된 하나의 진(truth) 버전을 제공한다. 결과 인터페이스(308)는 사용자가 적합하지 않을 수도 있는 데이터를 검증할 수 있게 한다. 결과 인터페이스(308)가 연산 결과에 따라 작동하므로, R 스크립트 및 플랫 파일(flat file)은 필요하지 않다. 결과 인터페이스(308)는 사용자가 (결과를 시각화하는데 필요한, 시간 단위가 아닌 분 단위의) 시간을 절약할 수 있게 하고, 데이터 과학자(네트워크, 군집화, 분류 등)에 의한 분석을 용이하게 한다.
데이터 교환 인터페이스(308c)는 다른 인터페이스의 출력이 결과 인터페이스(308)로의 입력으로서 사용될 수 있게 하고, 결과 인터페이스(308)의 출력이 다른 인터페이스로의 입력으로서 사용될 수 있게 한다. 일 양태에서, 하나 이상의 다른 인터페이스가 결과 인터페이스(308)로부터 개시될 수 있고, 결과 인터페이스(308)의 하나 이상의 쿼리 결과가 입력으로서 하나 이상의 다른 인터페이스에 전달될 수 있다. 예를 들어, 결과 인터페이스(308)는 유전자 변이체 데이터 인터페이스(304)로부터 관심 유전자를 수신할 수 있다. 결과 인터페이스(308)는 수신된 관심 유전자에 기초한 쿼리를 적용할 수 있다. 데이터 교환 인터페이스(308c)는 또한 쿼리 결과를 표현형 데이터 인터페이스(302)에 입력으로서 제공하여 쿼리 결과에 포함된 환자의 의료 정보를 결정할 수 있다.
도 14에 도시된 일 양태에서, 관심 유전자와 연관된 변이체에 대한 유전자 데이터 컴포넌트를 쿼리하는 단계를 (1402)에 포함하는 방법(1400)이 제공된다. 유전자 데이터 컴포넌트는 유전자 데이터 컴포넌트(202) 및/또는 유전자 변이체 데이터 인터페이스(304)를 포함할 수 있다.
방법(1400)은 변이체를 보유하는 코호트에 대한 쿼리로서 표현형 데이터 컴포넌트에 변이체를 전달하는 단계를 (1404)에 포함할 수 있다. 표현형 데이터 컴포넌트는 비순환 그래프에 저장된 표현형 데이터에 쿼리를 적용하도록 구성될 수 있다. 비순환 그래프에 저장된 표현형 데이터는 통합 의료 용어 시스템(Unified Medical Language System, UMLS) 계층 구조에 기초한 하나 이상의 관계를 포함할 수 있다. 표현형 데이터 컴포넌트는 표현형 데이터 컴포넌트(204) 및/또는 표현형 데이터 인터페이스(302)를 포함할 수 있다.
방법(1400)은 유전자 변이체-표현형 연관성 데이터 컴포넌트에 변이체와 코호트를 전달하여 변이체와 코호트의 표현형 사이의 연관성 결과를 결정하는 단계를 (1406)에 포함할 수 있다. 유전자 변이체-표현형 연관성 데이터 컴포넌트는 유전자 변이체-표현형 연관성 데이터 컴포넌트(206)를 포함할 수 있다.
방법(1400)은 연관성 결과를 데이터 분석 컴포넌트에 전달하여 저장하고, 변이체 및 상기 표현형 중 적어도 하나에 의해 이를 색인화하는 단계를 (1408)에 포함할 수 있다. 데이터 분석 컴포넌트는 데이터 분석 컴포넌트(208) 및/또는 결과 인터페이스(308)를 포함할 수 있다. 방법(1400)은 표적 변이체 또는 표적 표현형에 따라 데이터 분석 컴포넌트에 대해 쿼리하되, 연관성 결과는 응답으로 제공되는 단계를 (1410)에 포함할 수 있다.
방법(1400)은 맨해튼 플롯 및 PHEHATTAN 플롯 중 하나 이상을 데이터 분석 컴포넌트에 의해 생성하는 단계를 더 포함할 수 있다. 방법(1400)은 연관성 결과에 대한 정확도 정보를 데이터 분석 컴포넌트에 의해 생성하는 단계를 더 포함할 수 있다. 정확도 정보는 Q-Q 플롯을 포함할 수 있다. 방법(1400)은 하나 이상의 시각화를 데이터 분석 컴포넌트에 의해 생성하는 단계를 더 포함할 수 있다. 하나 이상의 시각화는 정적이거나 상호 작용식일 수 있다. 방법(1400)은 연관성 결과에서의 하나 이상의 히트 및 (예를 들어, 유전자, 마스크, 표현형, 염색체, 위치 등에 기초한) 필터 히트를 표시하기 위해 사용자에게 인터페이스를 제공하는 단계를 포함할 수 있다. 인터페이스는 사용자가 이후의 접근 및 타 사용자와의 공유를 위해 이전 시각화를 북마크하는 것을 더 허용할 수 있다.
방법(1400)은 복수의 연관성 결과를 수신하는 단계 및 유전자 변이체, 유전자, 코호트의 하위 집합, 표현형 카테고리의 유형(이진 또는 양적), 표현형 카테고리, 염색체, (p 값에 의한) 유의성 정도, 및 효과 크기 중 하나 이상에 의해 복수의 연관성 결과를 필터링하는 단계를 더 포함할 수 있다.
방법(1400)은 가계 인터페이스에 연관성 결과를 제공하는 단계를 더 포함할 수 있다. 가계 인터페이스는 코호트에서 하나 이상의 대상물 사이의 하나 이상의 관계를 나타내는 가계를 구성할 수 있다.
예시적인 양태에서, 상기 방법 및 시스템은 도 15에 도시되어 있고 아래 기술된 바와 같이 컴퓨터 (1501) 상에서 구현될 수 있다. 유사하게, 개시된 방법 및 시스템은 하나 이상의 위치에서 하나 이상의 기능을 수행하기 위해 하나 이상의 컴퓨터를 이용할 수 있다. 도 15는 개시된 방법을 수행하기 위한 예시적인 운영 환경을 나타내는 블록 다이어그램이다. 이러한 예시적인 운영 환경은 운영 환경의 예시일 뿐이며 운영 환경 아키텍처의 사용 또는 기능의 범위에 대한 임의의 제한을 제시하도록 의도되지 않는다. 또한, 운영 환경은 예시적인 운영 환경에 도시된 컴포넌트 중 임의의 하나 또는 조합과 관련된 임의의 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안된다.
본 방법 및 시스템은 다수의 다른 범용 또는 특수 목적 컴퓨터 시스템 환경 또는 구성으로 작동 가능할 수 있다. 본 시스템 및 방법과 함께 사용하기에 적절할 수 있는 컴퓨터 시스템, 환경, 및/또는 구성의 예는, 비제한적으로, 개인 컴퓨터, 서버 컴퓨터, 랩톱 장치, 및 멀티프로세서 시스템을 포함한다. 추가의 예는 셋톱 박스, 프로그램 가능한 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 장치 중 임의의 것을 포함하는 분산 컴퓨팅 환경 등을 포함한다.
개시된 방법 및 시스템의 처리는 소프트웨어 컴포넌트에 의해 수행될 수 있다. 개시된 방법 및 시스템은 하나 이상의 컴퓨터 또는 다른 장치에 의해 실행되는 프로그램 모듈과 같은, 컴퓨터로 실행가능한 명령어의 일반적인 맥락에서 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 컴퓨터 코드, 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 개시된 방법은, 또한, 태스크가 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 수행되는 그리드 기반 및 분산형 컴퓨팅 환경에서 실시될 수 있다. 분산형 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체 둘 모두에 위치할 수 있다.
개시된 방법 및 시스템의 처리는 APACHE SPARK와 같은 클러스터 컴퓨팅 프레임워크에 의해 수행될 수 있다. 일 양태에서, 클러스터 컴퓨팅 프레임워크는 탄력적인 분산 데이터 세트(RDD)를 중심으로 한 애플리케이션 프로그래밍 인터페이스를 제공할 수 있다. RDD는 컴퓨터나 다른 처리 장치의 클러스터에 걸쳐 분산된 데이터 항목의 읽기 전용 멀티셋을 포함할 수 있다. 일 양태에서, 클러스터는 하나 이상의 폴트 톨러런스(fault tolerances)로 구현된다. 일 양태에서, 클러스터 컴퓨팅 프레임워크는 클러스터 내 각 장치의 성능을 관리하는 클러스터 매니저, 및 분산 저장 시스템을 포함할 수 있다.
일 양태에서, 클러스터 컴퓨팅 프레임워크는 RDD 추상화(abstraction)를 중심으로 한 애플리케이션 프로그래밍 인터페이스(API)를 구현할 수 있다. 일 양태에서, API는 분산된 태스크 디스패칭, 스케쥴링, 및/또는 입출력(I/O) 기능을 제공할 수 있다. 일 양태에서, API는 프로그래밍의 기능적/고차 모델을 미러링할 수 있다. 예를 들어, 프로그램은 RDD 상에서 맵핑, 필터링, 또는 축소와 같은 병렬 연산을 검출할 수 있고, 그런 다음 스케줄러는 클러스터 내에서 함수의 병렬 실행을 예약한다. 일 양태에서, 이러한 연산은 하나의 RDD를 입력으로서 수용하여 새로운 RDD를 출력으로서 생성할 수 있다. 일 양태에서, 폴트 톨러런스는 각각의 RDD를 생성하기 위한 일련의 연산을 추적함으로써 달성될 수 있으며, 이에 따라 데이터 유실이 발생했을 때 RDD의 재구성이 가능해진다.
일 양태에서, 클러스터 컴퓨팅 프레임워크는 "DataFrames"로도 지칭되는 구조화된 데이터 및 반 구조화된 데이터를 지원하는 데이터 추상화를 구현할 수 있다. 일 양태에서, 클러스터 컴퓨팅 프레임워크는 주어진 프로그래밍 언어 또는 포맷으로 암호화된 DataFrames를 조작하기 위한 도메인 특이적 언어를 구현할 수 있다. 일 양태에서, 이는 구조화 쿼리 언어(SQL) 쿼리를 용이하게 할 수 있다.
일 양태에서, 클러스터 컴퓨팅 프레임워크는 배치(batch) 스트리밍 분석을 수행하여 데이터를 배치(batch) 또는 부분으로 데이터를 수집하고, 이들 데이터 배치에 대한 RDD 변환을 수행할 수 있다. 이는 배치 분석용으로 작성된 애플리케이션 코드의 동일한 세트가 스트리밍 분석에 사용될 수 있게 함으로써, 람다 아키텍처를 용이하게 한다. 또 다른 양태에서, 데이터는 배치로 처리되는 대신에 이벤트마다 처리될 수 있다. 일 양태에서, 클러스터 컴퓨팅 프레임워크는 분산된 머신 러닝 프레임워크를 포함할 수 있다. 스트리밍은 실시간 데이터 스트림의 확장 가능한 고 처리량, 폴트 톨러런스 스트림 처리를 가능하게 한다. 데이터는 많은 소스로부터 수집될 수 있고 복잡한 알고리즘(예: 무엇보다도 맵, 축소, 결합 및 윈도우 등과 같은 하이 레벨 함수로 표현된 알고리즘)을 사용해 처리될 수 있다. 마지막으로, 처리된 데이터를 파일 시스템, 데이터베이스, 및 실시간 대시보드에 보낼 수 있다. 일 양태에서, 하나 이상의 머신 러닝 및/또는 그래프 처리 알고리즘이 데이터 스트림 상에서 수행될 수 있다.
일 양태에서, 클러스터 컴퓨팅 프레임워크는 실시간 입력 데이터 스트림을 수신하고, 데이터를 배치로 나눈 다음, 배치를 처리되어 최종 결과 스트림을 배치로 생성할 수 있다. 스트리밍은, 데이터의 연속 스트림을 나타내는, 이산화된 스트림 또는 DStream으로 불리는 고 수준의 추상화를 제공한다. DStream은 소스로부터의 입력 데이터 스트림으로부터 생성되거나 다른 DStream에 고 수준의 연산을 적용하여 생성될 수 있다. 내부적으로, DStream은 일련의 RDD로서 나타날 수 있다. RDD는 병렬로 연산될 수 있는 요소의 불변의 분할된 수집을 나타냅니다.
또한, 본원에 개시된 시스템 및 방법은 컴퓨터(1501) 형태의 범용 연산 장치를 통해 구현될 수 있다. 컴퓨터 (1501) 컴포넌트는, 하나 이상의 프로세서(1503), 시스템 메모리(1512), 및 시스템 메모리(1512)에 하나 이상의 프로세서(1503)를 포함하는 다양한 시스템 컴포넌트를 결합시키는 시스템 버스(1513)를 포함할 수 있지만 이에 한정되지 않는다. 시스템은 병렬 컴퓨팅을 이용할 수 있다.
시스템 버스(1513)는 다양한 버스 아키텍처 중 임의의 것을 사용하는 메모리 버스 또는 메모리 컨트롤러, 주변기기 버스, 가속 그래픽 포트, 또는 로컬 버스를 포함하는 여러 가능한 유형의 버스 구조들 중 하나 이상을 나타낸다. 버스(1513), 및 본 명세서에서 특정된 모든 버스는 또한 유선 또는 무선 네트워크 접속을 통해 구현될 수 있으며, 하나 이상의 프로세서(1503), 대용량 저장 장치(1504), 운영 체제(1505), 소프트웨어(1506), 데이터(1507), 네트워크 어댑터(1508), 시스템 메모리(1512), 입/출력 인터페이스(1510), 디스플레이 어댑터(1509), 디스플레이 장치(1511), 및 사용자-장치 인터페이스(1502)를 포함하는 하위 시스템의 각각은 이러한 형태의 버스를 통해 접속된 물리적으로 별개의 위치에서 하나 이상의 원격 연산 장치(1514a,b,c) 내에 포함되어 사실상 완전 분산형 시스템을 구현할 수 있다.
컴퓨터(1501) 는 일반적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 예시적인 판독가능 매체는 컴퓨터(1501)에 의해 접근가능한 임의의 이용 가능한 매체일 수 있으며, 예를 들어 휘발성 및 비휘발성 매체, 착탈식 및 비착탈식 매체를 모두 포함하되 이들로 한정되지는 않는다. 시스템 메모리(1512)는 임의 접근 메모리(RAM)와 같은 휘발성 메모리, 및/또는 읽기 전용 메모리(ROM)와 같은 비휘발성 메모리 형태의 컴퓨터 판독가능 매체를 포함한다. 시스템 메모리(1512)는 일반적으로 데이터(1507)와 같은 데이터, 및/또는 하나 이상의 프로세서(1503)에 즉시 접근 가능하고/하거나 이에 의해 현재 작동되는 운영 체제(1505) 및 소프트웨어(1506)와 같은 프로그램 모듈을 포함한다.
또 다른 양태에서, 컴퓨터(1501)는 다른 착탈식/비착탈식, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수도 있다. 예로서, 도 15는 컴퓨터(1501)를 위한 컴퓨터 코드, 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 및 다른 데이터의 비휘발식으로 저장할 수 있는 대용량 저장 장치(1504)를 도시한다. 예를 들어 그리고 제한하고자 하는 것은 아니지만, 대용량 저장 장치(1504)는 하드 디스크, 착탈식 자기 디스크, 착탈식 광 디스크, 자기 카세트 또는 다른 자기 저장 장치, 플래시 메모리 카드, CD-ROM, 디지털 다용도 디스크(digital versatile disk, DVD) 또는 다른 광 저장 장치, 무작위 접근 메모리 (RAM), 읽기 전용 메모리 (ROM), 전기적으로 삭제가능한 판독가능한 읽기 전용 메모리 (EEPROM) 등일 수 있다.
선택적으로, 예를 들어 운영 체제(1505) 및 소프트웨어(1506)를 포함하여 임의의 수의 프로그램 모듈이 대용량 저장 장치(1504)에 저장될 수 있다. 운영 체제(1505)와 소프트웨어(1506) 각각(또는 이들의 일부 조합)은 프로그래밍 및 소프트웨어(1506)의 요소를 포함할 수 있다. 데이터(1507)도 대용량 저장 장치(1504)에 저장될 수 있다. 데이터(1507)는 하나 이상의 데이터베이스 중 어느 하나에 저장될 수 있다. 이러한 데이터베이스의 예는 DB2®, MICROSOFT® Access, MICROSOFT® SQL Server, ORACLE®, MYSQL®, POSTGRESQL® 등을 포함한다. 데이터베이스는 집중화되거나 다수의 시스템에 걸쳐 분산될 수 있다.
또 다른 양태에서, 사용자는 입력 장치(미도시)를 통해 컴퓨터(1501)에 명령어 및 정보를 입력할 수 있다. 이러한 입력 장치의 예는 키보드, 포인팅 장치(예: "마우스"), 마이크, 조이스틱, 스캐너, 글러브와 같은 촉감 입력 장치, 및 기타 입는 장치 등을 포함하나 이들로 한정되지 않는다. 이들 및 다른 입력 장치는 시스템 버스(1513)에 결합된 사용자-장치간 인터페이스(1502)를 통해 하나 이상의 프로세서(1503)에 연결될 수 있지만, 병렬 포트, 게임 포트, (Firewire 포트로도 지칭되는) IEEE 1394 포트, 직렬 포트, 또는 범용 직렬 버스(USB)와 같은 다른 인터페이스 및 버스 구조에 의해 연결될 수 있다.
또 다른 양태에서, 디스플레이 장치(1511)도 디스플레이 어댑터(1509)와 같은 인터페이스를 통해 시스템 버스(1513)에 연결될 수 있다. 컴퓨터(1501)는 2개 이상의 디스플레이 어댑터(1509)를 가질 수 있고, 컴퓨터(1501)는 2개 이상의 디스플레이 장치(1511)를 가질 수 있는 것으로 간주한다. 예를 들어, 디스플레이 장치는 모니터, LCD(액정 디스플레이), 또는 프로젝터일 수 있다. 디스플레이 장치(1511) 이외에, 다른 출력용 주변 장치는 입/출력 인터페이스(1510)를 통해 컴퓨터(1501)에 연결될 수 있는 스피커(미도시) 및 프린터(미도시)와 같은 컴포넌트를 포함할 수 있다. 본 방법의 임의의 단계 및/또는 결과는 임의의 형태로 출력 장치에 출력될 수 있다. 이러한 출력은 텍스트, 그래픽, 애니메이션, 오디오, 촉각 등을 포함하지만 이들로 한정되지 않는 임의의 형태의 시각적 표현일 수 있다. 디스플레이(1511) 및 컴퓨터(1501)는 하나의 장치의 일부, 또는 개별 장치일 수 있다.
컴퓨터(1501)는 하나 이상의 원격 연산 장치(1514a,b,c)에 대한 논리 접속을 사용하여 네트워크 환경에서 작동할 수 있다. 예로서, 원격 연산 장치는 개인 컴퓨터, 휴대용 컴퓨터, 스마트폰, 서버, 라우터, 네트워크 컴퓨터, 피어 장치 또는 다른 공통 네트워크 노드 등일 수 있다. 컴퓨터(1501)와 원격 연산 장치(1514a,b,c) 사이의 논리 접속은 근거리 네트워크(LAN) 및/또는 일반 광역 네트워크(WAN)와 같은 네트워크(1515)를 통해 이루어질 수 있다. 이러한 네트워크 접속은 네트워크 어댑터(1508)를 통해 이루어질 수 있다. 네트워크 어댑터(1508)는 유선 및 무선 환경 둘 모두에서 구현될 수 있다. 이러한 네트워킹 환경은 주택, 사무실, 전사적 컴퓨터 네트워크, 인트라넷, 및 인터넷에서 일반적이고 일상적으로 사용되는 것들이다. 일 양태에서, 시스템 메모리(1512)는 네트워크(1515)를 통해 하나 이상의 원격 연산 장치(1514a,b,c)에 접근할 수 있게 된 하나 이상의 객체를 저장할 수 있다. 따라서, 컴퓨터(1501)는 클라우드 기반 개체 저장 장치로서의 역할을 할 수 있다. 또 다른 양태에서, 하나 이상의 원격 연산 장치(1514a,b,c) 중 하나 이상은 컴퓨터(1501) 및/또는 하나 이상의 원격 연산 장치(1514a,b,c) 중 나머지에 접근할 수 있게 된 하나 이상의 객체를 저장할 수 있다. 따라서, 하나 이상의 원격 연산 장치(1514a,b,c)도 클라우드 기반 객체 저장 장치로서의 역할을 할 수 있다.
도시의 목적으로, 응용 프로그램 및 운영 체제(1505)와 같은 다른 실행 가능한 프로그램 컴포넌트가 본 명세서에 별개의 블록으로 도시되어 있지만, 이러한 프로그램 및 컴포넌트는 연산 장치(1501)의 다양한 시간에 상이한 저장 컴포넌트에 상주하며, 컴퓨터의 하나 이상의 프로세서(1503)에 의해 실행되는 것으로 인식된다. 일 양태에서, 소프트웨어(1506)의 적어도 일부 및/또는 데이터(1507)는 연산 장치(1501), 원격 연산 장치(1514a,b,c) 및/또는 이들의 조합 중 하나 이상에서 저장되고/되거나 수행될 수 있다. 따라서, 소프트웨어(1506) 및/또는 데이터(1507)는 클라우드 컴퓨팅 환경 내에서 작동할 수 있으며, 이에 따라 소프트웨어(1506) 및/또는 데이터(1507)에 대한 접근은 네트워크(1515) 상에서 (예컨대, 인터넷 상에서) 수행될 수 있다. 또한, 일 양태에서, 데이터(1507)는 연산 장치(1501), 원격 연산 장치(1514a,b,c) 및/또는 이들의 조합 중 하나 이상에 걸쳐 동기화될 수 있다.
소프트웨어(1506)의 구현은 일정 형태의 컴퓨터 판독가능 매체에 저장되거나 이를 통해 전송될 수 있다. 임의의 개시된 방법이 컴퓨터 판독가능 매체 상에 구현된 컴퓨터 판독가능 명령어에 의해 수행될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있다. 한정하고자 하는 것이 아니라 예로서, 컴퓨터 판독가능 매체는 "컴퓨터 저장 매체" 및 "통신 매체"를 포함할 수 있다. "컴퓨터 저장 매체"는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 착탈식 및 비착탈식 매체를 포함한다. 예시적인 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다용도 디스크(DVD) 또는 다른 광 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만 이로 한정되지 않는다.
본 방법 및 시스템은 또한 하나 이상의 유전자 또는 하나 이상의 유전자 변이체와 하나 이상의 표현형과의 연관성을 결정하는 방법으로서, 유전자 데이터 컴포넌트(202)로부터 데이터에 접근하는 단계, 표현형 데이터 컴포넌트(204)로부터 데이터에 접근하는 단계, 및 유전자 변이체-표현형 연관성 데이터 컴포넌트(206)에서 하나 이상의 유전자 또는 하나 이상의 유전자 변이체와 하나 이상의 표현형의 연관성에 대한 통계적 분석을 수행하는 단계를 포함하는 방법을 제공한다. 일 구현예에서, 하나 이상의 표현형은 하나 이상의 이진 표현형이다. 또 다른 구현예에서, 하나 이상의 표현형은 하나 이상의 양적 표현형이다. 통계적 분석의 비한정적인 예는 피셔의 정확도 검정, 선형 혼합 모델, 볼트 선형 혼합 모델, 로지스틱 회귀, 퍼스 회귀(Firth regression), 일반 회귀 모델 및 선형 회귀를 포함한다.
본 방법 및 시스템은 또한 유전자 변이체-표현형 연관성 결과를 시각화하는 방법으로서, 유전자 데이터 컴포넌트(202)로부터 데이터에 접근하는 단계, 표현형 데이터 컴포넌트(204)로부터 데이터에 접근하는 단계, 유전자 변이체-표현형 연관성 데이터 컴포넌트(206)에서 하나 이상의 유전자 또는 하나 이상의 유전자 변이체와 하나 이상의 표현형의 연관성에 대한 통계적 분석을 수행하는 단계, 및 결과 인터페이스(308)에서 하나 이상의 유전자 변이체-표현형 연관성 결과를 시각화하는 단계를 포함하는 방법을 제공한다. 일 구현예에서, 결과는 GWAS 뷰에서 시각화된다. 또 다른 구현예에서, 결과는 GWAS 뷰에서 맨해튼 플롯으로서 시각화된다. 또 다른 구현예에서, 맨해튼 플롯은 동적 플롯이다. 또 다른 구현예에서, 결과는 PheWas 뷰에서 시각화된다. 또 다른 구현예에서, 결과는 PheWas 뷰에서 PHEHATTAN 스타일 플롯으로서 시각화된다. 또 다른 구현예에서, PHEHATTAN 스타일 플롯은 동적 플롯이다.
본 방법 및 시스템은 또한 유전자 데이터를 시각화하는 방법으로서, 유전자 데이터 컴포넌트(202)에서 데이터에 접근하는 단계, 및 유전자 변이체 데이터 인터페이스(304)에서 유전자 데이터를 시각화하는 단계를 포함하는 방법을 제공한다.
본 방법 및 시스템은 또한 표현형 데이터를 시각화하는 방법으로서, 표현형 데이터 컴포넌트(204)에서 데이터에 접근하는 단계, 및 표현형 데이터 인터페이스(302)에서 유전자 데이터를 시각화하는 단계를 포함하는 방법을 제공한다.
본 방법 및 시스템은 또한 가계를 시각화하는 방법으로서, 유전자 데이터 컴포넌트(202)에서 데이터에 접근하는 단계, 및 가계 인터페이스(306)에서 하나 이상의 가계를 시각화하는 단계를 포함하는 방법을 제공한다.
본 방법 및 시스템에서, 연산 컴포넌트(222) 및 임의의 다른 컴포넌트/인터페이스는 머신 러닝 및 반복 학습과 같은 감독된 인공 지능 기술 및 감독되지 않은 인공 기능 기술을 사용할 수 있다. 이러한 기술의 예는 전문가 시스템, 사례 기반 추론, 베이지안 네트워크, 클러스터링 분석, 정보 수집, 문서 수집, 네트워크 분석, 연관성 규칙 분석, 행동 기반 AI, 신경망, 퍼지 시스템, 진화 연산(예: 유전자 알고리즘), 군집 지능(예: 개미 알고리즘), 및 하이브리드 지능형 시스템(예: 신경망을 통해 생성된 전문가 추론 규칙 또는 통계 학습으로부터의 생성 규칙)을 포함하지만 이들로 한정되지 않는다.
본 시스템 및 방법은 유전자 변이체와 연관된 것으로 식별된 표현형과 관련된 생물학적 경로(들)의 연구를 용이하게 한다. 생물학적 경로는, 예를 들어, 약물 개발에 대한 지원을 통해 자세히 연구되어 약학적 개입을 위한 추정 생물학적 표적을 식별할 수 있다. 이러한 연구에는 생화학적 연구, 분자 생물학적 연구, 물리학적 연구, 제약학적 연구 및 컴퓨터 연구가 포함될 수 있다.
일 구현예에서, 추정 생물학적 표적은 유전자 변이체-표현형 연관성에서 식별된 변이체를 포함하는 유전자에 의해 암호화된 폴리펩티드이다. 또 다른 구현예에서, 추정 생물학적 표적은 유전자 변이체-표현형 연관성에서 식별된 변이체를 포함하는 유전자에 의해 암호화된 폴리펩티드에 결합하는 분자(예를 들어, 보다 큰 폴리펩티드 복합체의 수용체, 보조 인자 또는 폴리펩티드 성분)이다.
또 다른 구현예에서, 추정 생물학적 표적은 유전자 변이체-표현형 연관성에서 식별된 변이체를 포함하는 유전자이다.
또한, 본 방법 및 시스템은 바로 위에서 논의된 추정 생물학적 표적에 결합하는 치료 분자의 식별을 용이하게 한다. 적합한 치료 분자의 비한정적인 예에는 추정 생물학적 표적에 특이적으로 결합하는 펩티드 및 폴리펩티드(예: 항체 또는 이의 단편), 및 저 화학 분자가 포함된다. 예를 들어, 후보 치료 분자는 적합한 스크리닝 분석에서 추정 생물학적 표적에 대한 결합에 관한 시험될 수 있다.
본 방법 및 시스템은 또한 유전자 변이체-표현형 연관성에서 식별된 변이체를 포함하는 유전자의 발현에 영향을 미치는 치료 방법의 식별을 용이하게 한다. 적합한 치료 방법의 비한정적인 예에는 게놈 편집, 유전자 치료, RNA 침묵, 및 siRNA가 포함된다.
본 방법 및 시스템은 또한 유전자 변이체-표현형 연관성의 식별에 영향을 미치는 진단 방법 및 도구의 식별을 용이하게 한다.
본 방법 및 시스템은 또한 유전자 변이체-표현형 연관성의 식별에 영향을 미치는 유전자 작제물(예: 발현 벡터) 및 세포주의 제작을 용이하게 한다.
본 방법 및 시스템은 또한 녹아웃(knockout) 설치류 및 유전자 전이 설치류(예: 마우스)의 제작을 용이하게 한다. 유전자 변형 비인간 동물 및 배아 줄기(ES) 세포가 임의의 적절한 방법을 사용해 생성될 수 있다. 예를 들어, 이러한 유전자 변형 비인간 동물 ES 세포는 각각이 참조로서 본원에 통합된 미국 특허 번호 제6,586,251호, 제6,596,541호, 제7,105,348호 및 Valenzuela 등의 Nat Biotech 2003; 21: 652에 기술된 VELOCIGENE® 기술을 사용해 생성될 수 있다.  
실시예 1
기능적 변이체 연구
시퀀싱된 표현형 분석 모집단
DiscovEHR 코호트에서 전자 건강 기록(HER)에서 유래된 임상 표현형을 갖는 50,726명의 성인 MyCode 참가자의 전장 엑솜 시퀀싱에서 얻은 초기 통찰이 본원에 기술된다. 이들 참가자에서 식별된 기능적 분류에 따른 단백질 코딩 변이체의 스펙트럼, 및 안정한 지역 미국 보건 의료 모집단에서 확인된 고유 가족 하부 구조가 본원에 기술된다. 이들 참가자에서 기능 상실 및 다른 기능적 유전자 변이체가 조사되며, 게놈 발견을 목적으로 이들 데이터를 EHR에서 유래된 임상 표현형에 연결시키는 실시예가 제공된다. 마지막으로, 이들 개체에서 임상적으로 작용 가능한 변이체 유전자가 보고되며, 이러한 정보를 반환하고 이러한 정보에 대해 임상적인 행동을 취하는 계획이 요약되어 있다.
마이코드 지역 의료 재단(MyCode Community Health Initiative)에서 게이싱어 의료 시스템(GHS)의 환자인 참가자를 등록한다(Carey 등의 Genes in Medicine, in press 2016). GHS는 70개가 넘는 펜실베니아 북중부 및 북동부 지역의 외래 환자 및 입원 환자 치료 시설에서 1차 및 전문 의료 서비스를 제공하는 종합 의료 시스템이다. GHS는 이들의 환자에 대한 포괄적이고 장기적인 임상 데이터 소스를 제공하는 EHR 시스템을 일찍 도입하였다. MYCODE® 참가자들은 게놈 분석, 및 GHS EHR의 데이터에 대한 링크를 포함하여 광범위한 연구를 목적으로 하는 전신 검체 보관소에 혈액 및 DNA 샘플을 제공하는데 동의한다. GHS 현재 환자 모두는 적격한 참가자이며, 동의율은 높다(참가를 권유받은 개체의 >85%). 동의한 환자의 코호트는 GHS 환자 모집단의 대표 샘플을 제공할만큼 충분히 크다(>90,000의 동의 환자). MyCode 참가자는 추가적으로 표현형 분석과 임상적으로 조치 가능한 결과의 반환을 위해 다시 접촉하는 것에 동의한다.
광범위한 연구적 용도, 재접촉 및 임상적으로 조치 가능한 결과의 반환에 동의한 환자의, EHR 링크된 바이오뱅크인 MyCode 지역 의료 재단(게이싱어 의료 시스템)에 등록한 개체에게 대규모 엑솜 시퀀싱 및 전장 유전체 표현형 분석법을 적용하였다. 크고 안정한 환자 모집단에서 장기적인 EHR 데이터와 게놈 데이터를 결합시키는 능력은, 임상 진료를 통해 수집한 광범위한 표현형에 대해 광범위한 게놈-표현형 분석을 위한 강력한 플랫폼을 생성한다. EHR에 연결된 통합 의료 시스템의 코호트는 임상 진료를 통해 수집된 광범위한 표현형의 도움으로 광범위한 게놈-표현형 분석을 가능하게 한다. 이러한 노력을 통합 의료 시스템에 구현하면 개체와 모집단의 건강을 알려주는 게놈 정보를 사용하는 프로세스를 개발하는 특별한 기회를 제공할 수 있다.
본원에 보고된 DiscovEHR 코호트는 전장 엑솜 서열 분석이 수행된 50,000명이 넘는 MyCode 참가자들로 구성된다. 여기에는 심장 도관(cardiac catheterization) 실험실에서 모집한 6,672명의 개체와 비만 수술 클리닉에서 모집한 2,785명의 개체가 포함되며, 나머지 약 41,000명은 개체는 MyCode 참가자로서 달리 선별되지 않은 GHS 환자를 나타낸다.
이들 DiscovEHR 참가자는 중앙 값 14년 동안 GHS EHR에 기록된 임상 표현형을 가지며, 환자당 중앙 값으로 87회의 임상 결과, 687회의 실험실 검증 및 7회의 수술이 기록되어 있다(표 2). 심혈관 대사 질환, 호흡기 질환, 신경인지 질환 및 종양학 분야 질환을 선별하기 위한 인구 통계 및 환자수가 표 2에 기술된다.
[표 2. 성인(19세 이상) DiscovEHR 연구 모집단의 인구 통계 및 임상적 특징]
기본 인구 통계 GHS 현재 환자 DiscovEHR
시퀀싱된 환자
N 1,173,589 50,726
여성, N(%) 622022 (53) 29,928 (59)
연령 중앙 값, 세 48 (30~66) 61 (48~74)
BMI 중앙 값, kg/m2 27 (22~32) 30 (28~33)
EHR 데이터 햇수의 중앙 값 5 (0~10) 14 (11~17)
환자당 투약 오더의 중앙 값   16 (0~42) 129 (37~221)
환자당 실험실 결과의 중앙 값 115 (0~274) 658 (197~1,119)
심혈관 대사 표현형
관상동맥 질환, N(%) 61,389 (5) 12,298 (24)
2형 당뇨병, N(%) 81,363 (7) 11,474 (23)
심부전, N(%) 39,168 (3) 5,596 (11)
비만치료 수술, N(%) 6,115 (0.5) 3,112 (6)
호흡기 표현형 및 면역학적 표현형
COPD, N(%) 52,932 (5) 6,181 (12)
아토피 천식, N(%) 74,638 (6) 7,363 (15)
류머티스성 관절염, N(%) 10,505 (1) 1,586 (3)
궤양성 대장염, N(%) 4,550 (0.4) 553 (1)
신경병성 표현형  (0.5)
알츠하이머 병, N(%) 6,323 (0.5) 233 (0.5)
파킨슨 병, N(%) 6,217 (0.5) 555 (1)
다발성 경화증, N(%) 4,164 (0.4) 487 (1)
중증 근무력증, N(%) 698 (0.06) 90 (0.2)
종양학 표현형
유방암, N(%) 14,894 (1) 1,362 (3)
전립선암, N(%) 10,964 (1) 1,349 (3)
폐암, N(%) 7,073 (0.6) 550 (1)
직장암, N(%) 7,047 (0.6) 616 (1)
달리 표시되지 않는 한, 값은 중앙 값으로 표현된다(사분위간 범위).
약어: EHR, 전자 건강 기록; GHS, 게이싱어 의료 시스템.
질병은 국제 질병 분류, 제9판(ICD-9) 진단 코드에 의해 정의된다.
통합 건강 시스템은 게놈 데이터를 임상 진료에 사용하기 위한 방법을 개발하고 검정하기 위한 이상적인 플랫폼을 또한 제공한다. 참가자를 MyCode에 등록하는 데 사용된 통지된 동의 절차는 광범위한 연구적 사용, 참가자의 EHR 데이터와 샘플의 링크, 재 접촉, 및 임상적으로 조치할 수 있는 연구 소견의 반환을 위해 생물학적 샘플을 보관(banking)할 수 있게 한다. 데이터는 이러한 큰 임상 모집단에서의 임상적으로 조치를 취할 수 있는 유전자 변이체의 하위 집합에 대해 제시되며, 상기 데이터는 개체의 건강을 증진시키기 위해 이러한 정보를 환자 및 제공자에게 전달하기 위한 프레임워크를 설명한다. 샘플 준비 및 시퀀싱
요약하자면, 샘플 수량은 2%의 프리캐스트(pre-cast) 아가로오스 겔(Life Technologies) 상에서 100 ng의 샘플을 시험하여 평가한 정확도 및 형광(Life Technologies)에 결정하였다. DNA 샘플을 노멀라이즈하여 하나의 분취량(aliquot)을 유전형 분석을 위해 보내고(Illumina, Human OmniExpress Exome Beadchip) 또 다른 분취량은 집속형 음향 에너지(Covaris LE220)를 사용하여 150 염기 쌍의 평균 단편 길이로 전단하였다. 전단한 게놈 DNA는 Regeneron Genetics Center에서 개발된 완전 자동화된 접근법을 사용해 Kapa Biosystems의 맞춤 시약 키트로 엑솜을 포획하기 위해 준비하였다. 라이브러리를 준비하는 동안 고유한 6 염기 쌍 바코드를 각각의 DNA 단편에 추가하여 다중화 엑솜 포획 및 시퀀싱을 용이하게 하였다. 엑솜 포획에 앞서 NimbleGen 프로브(SeqCap VCRome)로 동일한 양의 샘플을 풀(pool)로 모았다. 포획한 단편은 스트렙타아비딘(streptavidin)이 결합된 비드에 결합시키고 비특이적 DNA 단편은 제조자의 추천 프로토콜(Roche NimbleGen)에 따라 여러 번의 엄격한 세척에 의해 제거하였다. 포획한 DNA를 PCR 증폭시키고 qRT-PCR(Kapa Biosystems)에 의해 정량화하였다. 다중화된 샘플은, Illumina v4 HiSeq 2500상에서 75 bp의 페어 엔드(paired-end) 시퀀싱을 사용하여 샘플의 96%에서 표적 염기의 85%에 대해 20x보다 큰 일배체 리드 깊이(표적 염기에 대해 평균 약 80x의 일배체 리드 깊이)를 제공하기에 충분한 커버리지 깊이까지 시퀀싱하였다.
서열 정렬, 변이체 식별, 및 유전자형 할당
시퀀싱이 완료된 후, 각각의 Illumina Hiseq 2500 런으로부터의 원시 서열 데이터를 로컬 버퍼 저장 장치에 모은 뒤 자동화 분석을 위해 DNAnexus 플랫폼(Reid JG 등의 BMC Bioinformatics, 2014; 15: 30)에 업로딩하였다. 업로딩이 완료된 후, BCL 파일을 FASTQ 포맷의 리드(read)로 변환하여 분석을 시작하고, CASAVA 소프트웨어 패키지(Illumina Inc., San Diego, CA)를 사용해, 특이적 바코드를 통해 샘플에 할당하였다. 이어서, 해당 샘플에 대해 생성된 모든 리드(read)를 나타내는 샘플 특이적 FASTQ 파일은 BWA-mem(Li H and R Durbin, Bioinformatics,2009; 25: 1754)을 사용하여 GRCh37.p13 게놈 기준에 정렬시켰다.
각각의 샘플에 대해 생성된 이진 정렬 파일(BAM)에는 맵핑된 리드(read)의 게놈 좌표, 정확도 정보, 및 특정 리드가 맵핑된 위치에서 기준과 상이한 정도가 포함되었다. 그런 다음, BAM 파일 내의 정렬된 리드를 평가하고, Picard MarkDuplicates 도구를 사용하여 복제 리드를 식별하고 표시하여 정렬 파일(duplicatesMarked.BAM)을 생성하였고, 모든 잠재적 복제 리드에 대해서는 후속 분석을 위해 제외하도록 표시하였다.
게놈 분석 툴킷(GATK)(McKenna A 등의 Genome Res 2010; 20: 1297)을 사용해 변이체 검출을 생성하였다. GATK를 사용해 인델에 대해 각 샘플의 정렬된 복제 표시 리드의 로컬 재정렬을 수행하였다. 그런 다음, GATK의 HaplotypeCaller를 사용해 INDEL로 재정렬된 복제 표시 리드를 연산하여 샘플이 게놈 VCF 포맷(GVCF)의 게놈 기준과 달라진 모든 엑손 위치를 식별하였다. 이전에 리제너론 유전자 센터(Regeneron Genetics Center, RGC)에서 수행된 50개의 무작위로 선별된 샘플로 이루어진 트레이닝 세트와 각각의 샘플에 대해 GATK의 GenotypeGVCF를 사용해 유전형 분석을 수행하여, 기준과 비교했을 때 SNV와 인델(indels) 모두를 식별하는 단일 샘플 VCF 파일을 출력하였다. 추가적으로, 각각의 VCF 파일은 각 변이체의 접합성, 기준 및 교호 대립 유전자의 리드 수, 유전자형 검출의 신뢰성을 나타내는 유전자형 정확도, 해당 위치에서 변이체 검출의 전반적 정확도, 및 모든 변이체 부위에 대한 QualityByDepth를 가졌다.
각 변이체의 정확도를 평가하고 재계산하기 위한 트레이닝 데이터 세트(예: 1000 게놈 프로젝트)를 사용해 샘플의 변이체에 대한 전반적 정확도를 평가하는 데 GATK의 변이체 정확도 재보정(Variant Quality Score Recalibration, VQSR)을 사용하여, 특이성을 증가시켰다. Picard, bcftools, 및 FastQC를 사용해 포획, 정렬 및 변이체 검출을 평가하기 위해 각 샘플에 대해 메트릭 통계를 캡처하였다.
코호트 시퀀싱이 완료된 후, 유전적으로 결정된 성별과 보고된 성별 간의 불일치(n=143); 높은 비율의 이형접합성 또는 낮은 서열 데이터 커버리지(20x 커버리지를 달성하는 표적 염기의 75% 미만)로 표시되는 부정확한 DNA 서열 데이터(n=181); 또는 유전적으로 확인된 복제 샘플(n=222)을 보이는 샘플을 제외시켰다(n=494의 고유 샘플을 제외함). 이들을 제외한 후, 51,298개의 엑솜 서열을 다운스트림 분석에 사용할 수 있었고, 최초 동의 시점에 18세 이상이었던 50,726명의 개체에 해당하는 엑솜 서열로부터의 결과가 본원에 보고된다. 이들 샘플을 사용하여 다운스트림 분석을 위한 프로젝트 레벨의 VCF(PVCF)를 컴파일하였다. 200개의 샘플 블록에서 유전자형을 공동으로 검출하기 위한 GATK의 GenotypeGVCF을 사용하여 다단계 프로세스에서 PVCF를 생성하고, VQSR로 재보정하고, GATK의 CombineVCFs를 사용해 단일 전장 코호트 PVCF에 통합하였다. 모든 동형접합성 기준 유전자형, 이형접합성 유전자형, 동형접합성 교호 유전자형, 및 비검출 유전자형을 프로젝트 레벨 VCF에 옮기는 데 주의를 기울였다. 다운스트림 분석을 위해, 단일 샘플 파이프라인에서 QD < 5.0 이고 DP < 10인 샘플은 유전자형 정보를 '비 검출'로 변환하였고, 표적 영역 밖으로 20 bp보다 많이 떨어지는 변이체는 제외시켰다.
기능적 변이체의 서열 주석 및 식별
Ensembl75 유전자 정의를 사용하여 snpEff(Cingolani P, 등의 Fly (Austin) 2012; 6: p. 80-92.)로 서열 변이체에 주석을 달아 전사체 및 유전자에 대한 서열 변이체의 기능적 영향을 결정하였다. 부정확한 전사체 정의와 관련된 위양(false-positive) pLoF 검출의 수를 줄이기 위해, 주석 처리된 시작 및 정지 코돈을 갖는 56,507개의 단백질 코딩 전사체(19,729개의 유전자에 해당함)의 "화이트리스트(WhiteList)" 집합을 기능적 주석에 대한 기준으로서 선별하였다. 이들 전사체에도 표시를 하여 다음의 특징들에 대해 다운스트림 필터링을 수행할 수 있게 하였다: 작은 인트론(<15 bp), 작은 엑손(< 15 bp), 비정규(non-canonical) 스플라이스 부위(비"GT/AG" 스플라이스 부위).
그러면, "화이트리스트(whiteList)"로 필터링된 전사체에 대응하는 snpEff 예측은, 표 1의 계층 구조에 따라 각각의 유전자에 대한 가장 유해한 기능적 효과 분류를 선별함으로써 하나의 가장 유해한 기능적 영향의 예측으로 축소된다. 예측된 기능 상실 변이를 조기 정지 코돈, 시작 또는 정지 코돈의 상실, 또는 정규 스플라이스 디뉴클레오티드의 파괴를 초래하는 SNV; 인델을 시트프시키는 개방형 해독틀을 유도하거나, 시작 및 정지 코돈을 파괴하는 인델을 유도하거나, 정규 스플라이스 디뉴클레오티드를 파괴하는 인델을 유도하는 SNV로서 정의하였다(표 1). 혈통의 대립 유전자에 해당하거나, 영향을 받은 모든 전사체의 적어도 5%에서 발생하는 예측된 기능 상실 변이체를 제외시켰다.
주요 성분 및 혈통 추정
GHS 전장 엑솜 서열 및 1000 게놈 프로젝트의 옴니 칩 플랫폼(Omni chip platform)으로부터의 중첩 변이체 부위(n=6,331)의 하위 집합을 사용해 PLINK2(Chang CC 등의 Gigascience 2015; 4: 7)에서 주요 성분(PC) 분석을 수행하였다. 이 분석은, 하디 와인버그(p>1x10- 8)와 MHC 영역(필터 다음의 부위 n=3,974)에 맵핑되지 않은 연결 평형 모두에서 높은 유전자형 비율(>90%)을 갖는 흔한(MAF>5%) 상염색체 변이체 부위에 더 국한시켰다. 초기 계산은 1000 게놈 프로젝트의 샘플을 기반으로 하였고, GHS 개체를 이들 PC에 투영시켰다.
GHS 내의 유럽인 개체의 하위 집합을 식별하기 위해, 알려진 혈통 그룹(EUR, ASN, AFR)의 1000 게놈 프로젝트로부터의 PC 추측에 대해 처음 3개의 PC를 사용해 트레이닝된 선형 모델을 제작하였다. 각각의 모델(EUR=0.9, AFR=0.7, ASN=0.8)에 대한 임계치를 적용하여 각각의 GHS 개체에 대해 가장 일치하는 대륙 혈통을 결정하였고; 이들 임계치 중 어느 것도 만족하지 않는 샘플들은 "혼합(Admixed)"으로서 지정하였다. GHS 유럽인 모집단 내에서, 유사 변이체 필터링 기준을 사용해 개체의 최대 비관련 집합(MUS)에 대해 새로운 PC 집합을 계산하였다. GHS 내의 관련된 개체는 후속적으로 이들 PC 상에 투영시켰다. 비관련 GHS 개체로부터 계산된 이들 유럽인만의 PC를 표현형 연관성 분석에 사용하였다.
50,726개의 시퀀싱에 의해 발견된 단백질 코딩 변이의 분포
엑솜
50,726 DiscovEHR 참가자에서 18,852개의 유전자의 단백질 코딩 영역을 시퀀싱하였다. 서열 커버리지는 샘플의 96%에서 표적화 염기의 평균 85%>에서 적어도 20x 일배체 리드 깊이를 제공하기에 충분했다. 옴니익스프레스 엑솜 플랫폼(OmniExpress Exome Platform)을 사용해 전장 게놈 어레이 유전자형 분석도 수행하였다. 일인당 중앙 값 21,409의 단일 뉴클레오티드 변이체(SNV) 및 중앙 값 1,031의 인델 변이체를 게놈의 단백질 코딩 영역에서 식별하였는데; 각각의 개체에서 이들 변이체 중 중앙 값 887의 변이체가 신규했다.
전이(transition) 대 전위(transversion) 비율의 중앙 값은 3.04였고, 이형접합성(heterozygous) 대 동형접합성(homozygous) 비율의 중앙 값은 1.51이었다. 모든 연구 참가자 가운데서, 4,028,206개의 고유 SNV 및 224,100개의 고유 인델을 식별하였는데(표 3), 이 중 98%는 1% 미만의 대체 대립 유전자 빈도에서 발생했으며, 빈도가 이보다 더 낮은 것으로 여겨지는 변이체를 희귀한 것으로 간주하였다. 이러한 희귀 변이체 집합 중에서, 2,002,912개인 비동의 변이체일 것으로 예측하였다. 176,365개의 변이체가 다음 유형 중 하나 이상의 전체사에 대한 예측된 효과에 기초하여 유전자 기능 상실(pLoF)을 야기할 것으로 예측된다는 것을 발견했다: 조기 정지 코돈, 시작 코돈의 상실, 또는 정지 코돈의 상실을 유도하는 SNV; 정규 스플라이스 수용자 또는 공여자 디뉴클레오티드를 파괴하는 SNV 또는 인델; 조기 종지 코돈의 형성을 유도하는 인델을 시프팅하는 개방형 해독틀. 이들 pLoF 중에서, 114,340개(모든 pLoF의 65%)는 RefSeq에 카달로그된 모든 전사체의 기능 상실을 야기할 것으로 예측된다.
[표 3. 50,726 DiscovEHR 참가자의 전장 엑솜 시퀀싱을 사용해 식별된 서열 변이체 ]
변이체 유형 모든 변이체 대립 유전자 빈도 = 1%
단일 뉴클레오티드 변이체 4,028,206 3,947,488
삽입/결실 변이체 224,100 218,785
예측된 기능 상실 변이체 176,365 175,393
비동의 변이체 2,025,800 2,002,912
4,252,306 4,166,273
개체당 중앙 값 21의 희귀 pLoF 및 수백 개의 더 흔한 pLoF를 식별하였는데(표 4); 이들 pLoF 변이체의 평균 43%는 프레임시프트 인델이었고, 나머지는 SNV였다.
[표 4. 50,726 DiscovEHR 참가자의 개체당 예측된 기능 상실 변이체의 중앙 값]
변이체 유형 대립 유전자 빈도 = 1%, 중앙 값(IQR) 대립 유전자 빈도 > 1%
중앙 값(IQR)
스플라이스 공여자 2 (1~3) 14 (13~16)
스플라이스 수용자 2 (1~3) 43 (40~45)
정지 코돈 획득 6 (5~8) 49 (45~52)
프레임 시프트 9 (7~11) 153 (146~160)
정지 코돈 상실 0 (0~1) 10 (9~11)
시작 코돈 상실 0 (0~1) 14 (12~15)
21 (18~24) 283 (272~293)
약어: IQR, 사분위 범위(interquartile range)
기능적 분류에 따른 SNV 및 인델에 대한 빈도 분포를 그 다음에 조사하였다(도 16a도 16b). 기능적으로 유해한 변이체는 희귀한 대립 유전자에 더 많았는데; 가능한 기능 상실(pLoF) 변이체의 60%는 단일성(singleton)이었고(50,726명의 참가자 중 단 한 번 관찰됨), 이는 비동의 비pLoF 변이체의 56% 및 동의 변이체의 49%와 비교된다. 이러한 소견들은 pLoF 변이체가 기능적으로 덜 유해한 변이체 분류에 비해, 더 강한 정제 선별에 의해 모집단에서 더 낮은 빈도로 유지된다는 것을 시사한다. 샘플 크기가 커짐에 따라 기능적 분류에 의해 서열 변이체의 발생을 추정하기 위해, 50,726개의 시퀀싱된 개체를 5,000개씩 증분하도록 무작위로 샘플링하여, 각 증분에 대해 10개의 샘플을 생성하였다(도 16c).
도 16d는 시퀀싱된 샘플 크기의 함수로서 상 염색체 유전자당 pLoF 돌연변이의 추정 발생을 도시한다. 현재까지 시퀀싱될 샘플에서, 17,414개의 유전자(표적 유전자의 92%) 중 적어도 하나의 개체에서 희귀한 pLoF 변이체를 관찰하였는데; 15,525개의 유전자(표적 유전자의 82%)가 적어도 하나의 개체에서 Ensembl 75에 카달로그된 주석 처리된 시작 및 정지 코돈을 갖는 모든 단백질 코딩 전사체의 기능 상실을 유발하는 것으로 예측되는 희귀한 pLoF를 보유하였다. 동형접합성 pLoF 변이체를 1,313개의 유전자(표적 유전자의 7%) 중 하나 이상의 전사체에서의 적어도 하나의 개체에서 발견하였는데, 868개의 유전자(표적 유전자의 5%)가 모든 전사체에 영향을 미친 희귀 pLoF를 보유하였다. 총 312개의 유전자는 희귀 동형접합성 pLoF 변이체를 5명 이상의 개체에서 보유하였고(표 5), 203개의 유전자(표적 유전자의 1%)는 모든 전사체의 동형접합성 기능 상실을 야기할 것으로 예측된 pLoF를 5명 이상의 개체에서 보유하였다. 후자의 카테고리는 인간 유전자 녹아웃의 코호트를 구성하여, 고도로 유해한 돌연변이에 대한 표현형 연관성을 발견하기 위한 기회를 제공한다.
[표 5. 50,726 DiscovEHR 참가자에서 대립 유전자 빈도 = 1%인 예측된 기능 상실 변이체에 영향을 받은 유전자의 수]
영향을 받은 유전자 수(%)
참가자 수 전부,
N (%)
이형접합체,
N (%)
동형접합체,
N (%)
= 1 17,414 (92) 17,409 (92) 1,313 (7)
= 5 14,608 (77) 14,598 (77) 312 (2)
= 10 12,105 (64) 12,093 (64) 161 (1)
= 20 8,815 (47) 8,803 (47) 81 (0.4)
그 다음으로, pLoF 변이체의 기능적 맥락을 전사체 내에서 이들의 분포 및 기능적 분류가 상이한 유전자에서의 이들의 발현 모두에 대해 조사하였다.   MacArthur 등(MacArthur DG, 등의, Science 2012; 335: 823)과 유사하게, 전사 인자의 말단 부분에서 pLoF 변이체가 더 많이 관찰되었는데, 이는 거의 전장 단백질을 생성하는 추정상의 단백질 절단 돌연변이에 대한 내성이 더 큰 것과 일관된다(도 17). 기능 상실 변이에 대한 내성을 유전자별로 평가하기 위해, 각각의 단백질 코딩 전사체의 모든 뉴클레오티드 위치의 돌연변이를 가상 실험으로(in silico) 치환하여 계산된 관찰된 돌연변이 대 예상 조기 정지 돌연변이의 비율을 조사하였다(Yang J, 등의 Am J Hum Genet 2011; 88: 76). 전장 게놈에서 이들 비율의 분포는 도 16e에 표시되고, 유전자 분류별 분포는 도 16f에 표시된다. 이러한 결과들은 필수 유전자, 암 연관 유전자, 및 상 염색체 퇴행 질환 유전자와 연관된 유전자 보다는 상 염색체 지배적 인간 질환과 연관된 유전자, 약물 표적, 및 후각 수용체에서 기능 상실 변이체에 대한 내성이 낮다는 것을 시사한다.
DiscovEHR 모집단 관련성 추정에 있어서 유전적으로 추론한 관련성
정확한 쌍별(pairwise) 혈통에 의한 동질성(IBD) 추정치를 PLINK2(Chang CC 등의 Gigascience 2015; 4: 7)를 사용해 계산하였고, PRIMUS(Staples J 등의 Am J Hum Genet 2014; 95: 553)로 가계를 재구성하는 데 이를 사용하였다. 흔한 변이체(MAF >10%)를 하디 와인버그 평형(p 값 > 0.000001)에 사용하여 모든 샘플의 쌍에 대한 IBD를 계산하였고, 변이체 검출 결측(--mind 0.1)이 >10%이고 PLINK에서 --het 옵션으로 계산한 근교 계수가 비정상적으로 낮은(-0.15) 개체를 제외시켰다. pi_hat >0.1875인 친척의 비율이 pi_hat = 0.05로 결정된 샘플의 전체 관계의 40% 미만인 경우에는 pi_hat >0.1875인 친척이 >100인 샘플을 제거하고, 친척이 >300인 모든 샘플을 제거하였다. 잔여 샘플은 가족 네트워크로 그룹화하였다. 2개의 개체가 2촌 친척이거나 더 가까울 것으로 예측되었다면, 이들은 동일한 네트워크에 있다. PRIMUS에서 구현된 IBD 파이프라인을 실행하여 각 가족 네트워크 내의 샘플들 간의 IBD 추정치를 계산하였다. 이 접근법은 각 가족 네트워크 내의 관계를 계산하기 위해 더 잘 일치된 참조 대립 유전자 빈도를 이용할 수 있게 하였다.
동형접합체의 런 분석
개체의 가계에서 부모의 혈통을 공유하는 것에서 기인하는 동형접합체의 런(ROH) 분석은 모집단 내에서 고대 혈연 관계와 최근의 부모 관계의 정도를 추정하는 강력한 접근법이다. 일반적으로, 사촌의 자손은 흔히 10 Mb가 넘는 긴 ROH를 가진다. 대조적으로, 거의 모든 유럽인은 ∼2Mb 길이의 ROH를 가짐으로써, 공유된 혈통이 수백 또는 수천 년 전의 것임을 나타낸다. 따라서, 길이가 상이한 ROH에 집중함으로써, 상이한 과거의 시간 깊이에서 인구 통계적 역사의 양태를 추측하는 것이 가능하다(Genomes Project, C. 등의 Nature 2012; 491: 56). FROH 측정을 사용하여 1000 게놈 프로젝트의 모집단과 GHS를 비교하고 대조하였다. 이러한 측정들은 가계 근교 계수의 게놈 등가물이지만, 가계 재구성의 문제를 겪지는 않는다. 계수된 ROH는 그 길이를 변화시킴으로써, 과거의 상이한 시점에서 부모의 혈연 관계를 평가하도록 조정될 수 있다. 지난 4 내지 6세대 동안의 부모 관계를 반영하고, ROH에 존재하는 5 Mb가 넘는 길이의 상 염색체 게놈의 분획인 FROH5를 동질접합성의 측정 기준으로서 사용하였다.
Omni HumanOmniExpressExome-8v1-2 유전자형 데이터를 이용할 수 있는 GHS 개체의 하위 집합의 경우(N=34,246), 1000 게놈 프로젝트 단계 I로부터의 1,092개의 개체와 유전자형을 병합하였다. ROH는 PLINK2(Chang CC 등의 Gigascience 2015; 4: 7)를 사용해 식별하였다. 증분량(step size)을 5변이체로 하고 결정계수(r-squared)를 0.2로 하여 50 kb의 윈도우에서 LD를 기반으로 한 SNP 가지치기(pruning)를 수행하였다. ROH를 계산하기 위한 다음 파라미디터를 변이체의 가기치기한 하위 집합(N=114,514)에 적용하였다: 5 MB 윈도우 크기; ROH당 최소 100개의 동형접합성 SNP; ROH 윈도우당 최소 50 SNP; 윈도우당 1회의 이형접합성 검출 및 5회의 검출 결측(missing calls); 1 Mb 이하 길이의 동형접합체 내에서 변이체간의 최대 거리. GHS 모집단과 각각 1000 게놈 프로젝트 모집단에 대해 별도로 ROH를 식별하였다.
ROH의 3가지 특징을 평가하였다: (i) 동형접합성 세그먼트의 수(평균 및 범위, 모집단 내의 개체에 대해 계산함), (ii) 세그먼트 길이의 합(평균 및 범위, 모집단 내의 개체에 대해 계산함) 및 (iii) 정해진 길이 임계치를 넘는 ROH 중 상 염색체 게놈의 비율로서 정의된, 개별적인 동질 접합성의 게놈 측정인 FROH (FROH1은 길이가 1 Mb 이상인 런에서 게놈의 비율을 정의하는 데 사용하고, FROH5는 길이가 5 Mb 이상의 런에서의 비율을 정의하는데 사용함) (Genomes Project, C. 등의 Nature 2012; 491: 56).
연구 참가자를 안정한 지역 의료 모집단에서 샘플링하였기 때문에, 밀접한 가족 관계가 예상되었고, 일부 경우에는, 여러 세대에 걸친 일가 친척이 연구 모집단에서 나타날 것이 예상되었다. 데이터에서 가족 관계의 정도를 이해하기 위해, PRIMUS(Staples J 등의 Am J Hum Genet 2014; 95: 553)를 사용해 밀접한 관계의 개체를 식별하고 전장 엑솜 서열 데이터로부터 가계를 추정하였다. 시퀀싱된 50,726명의 참가자 중, 11,958명의 1촌 가족 관계를 식별하였고(20명의 일란성 쌍둥이, 6,950명의 부모 자식 관계, 및 4,988명의 완전한 형제 자매 관계), 14,951명의 2촌 관계, 및 50,000명이 넘는 3촌 관계를 식별하였다(도 18a).
종합하자면, 시퀀싱된 참가자의 48%는 데이터 세트에서 하나 이상의 1촌 또는 2촌인 친척을 가지고 있었다(도 18b). 1촌 및 2촌 관계만을 사용해 개체들을 가족 네트워크로 군집화한 결과, 6,000개가 넘는 가계가 가계 크기의 중앙 값으로서 2명의 시퀀싱된 개체를 갖는 것으로 식별되었다. 이 결과는 가족 단위로서 진료를 받고 있는 (MyCode에 동록됨) GHS 환자와도 일치하는데, 이는 주로 지방 모집단을 제공하는 큰 통합 시스템에 대해서도 동일할 것으로 예상된다(도 18c). 1촌 및 2촌 친척을 포함하는 가장 큰 단일 관계 네트워크는 3,144명의 개체로 구성되었다(도 18c).
GHS 개체의 경우, 평균 FROH5는 0.0006이었다. CEU 개체의 경우, 평균 FROH5는 0.0008이었다. 이는 HapMap CEU 개체의 경우 평균 FROH5가 0.0008이었고, 영국 개체의 경우 FROH5가 0.0001인 유럽인 및 유럽인 유래의 모집단에 대한 이전의 추정과 일치하였다 (O'Dushlaine CT 등의 Eur J Hum Genet 2010; 18: 1248). 전체를 모집단으로 했을 때, GHS 개체는 CEU보다 낮고 영국 개체보다는 단지 약간 높은 게놈 접합성 수치를 가지는 것으로 결론지었다.
개체의 가계에서 부모의 혈통을 공유하는 것에서 기인하는 동형접합체의 런(ROH) 분석은 모집단 내에서 고대 혈연 관계와 최근의 부모 관계의 정도를 추정하는 강력한 접근법이다. Omni HumanOmniExpressExome-8v1-2 유전자형 데이터를 이용할 수 있었던 34,246명의 GHS 개체로부터 계산된 동형접합성의 런을 조사하였고, 이러한 결과들을 1000 게놈 프로젝트의 단계 I로부터의 1,092명의 개체와 비교하였다. 지난 4 내지 6세대 동안의 부모 관계를 반영하고, ROH에 존재하는 5 Mb가 넘는 길이의 상 염색체 게놈의 분획인 FROH5를 동질접합성의 측정 기준으로서 사용하였다. 본 분석에서 0.0006의 평균 FROH5가 관찰되었다. 1000 게놈 프로젝트의 단계 I로부터의 CEU 개체의 경우, 평균 FROH5는 0.0008이었다. 이는 HapMap CEU 개체의 경우 평균 FROH5가 0.0008이었고, 영국 개체의 경우 FROH5가 0.0001인 유럽인 및 유럽인 유래의 모집단에 대한 이전의 추정과 일치하였다 (O'Dushlaine CT 등의 Eur J Hum Genet 2010; 18: 1248) (도 19). 전체적으로, DiscovEHR 참가자 중 평균 1.2%의 상 염색체 게놈 영역이 동질접합성인 것으로 추정된다. 통칭하여, 이러한 소견들은 DiscovEHR 모집단에 다른 이계교배 유럽인 모집단과 유사한 동질접합 비율을 갖는 실질적인 가계 구성이 있음을 나타낸다(O'Dushlaine CT 등의 Eur J Hum Genet 2010; 18: 1248).
혈청 지질에 대한 전장 연관성의 발견
표현형 정의
질병 상태는 국제 질병 분류, 제9판(ICD-9) 진단 코드를 사용해 정의하였다. ICD-9에 기초한 진단에는 다음 중 하나 이상이 요구되었다: 진단 코드에 대한 문제점 목록 입력, 입원 환자 입퇴원 진단 코드, 또는 다른 역일에 외래 환자와의 2번의 개별 접촉에 대해 입력한 접촉 진단 코드. 총 콜레스테롤, 저밀도 지단백질 콜레스테롤(LDL-C), 고밀도 지단백질 콜레스테롤(HDL-C), 중성지방, 체질량 지수를 포함하여 모든 개체에 대해 순차적으로 측정한 실험실에서의 형질 및 의인화된 형질에 대한 중간 값은, 표준 편차가 3보다 클 가능성이 있는 가짜 값(likely spurious value)을 개체 내 중간 값으로부터 제거한 다음, EHR에서 2개 이상의 측정 값을 가진 모든 개체에 대해 계산하였다. 혈청 지질 수치의 전장 엑손 연관성 분석을 목적으로, 평균 스타틴 투여량에 대한 LDL-C 및 총 콜레스테롤의 평균 감소를 기준으로 전처리 지질 값을 추정하기 위해 총 콜레스테롤과 LDL-C를 각각 0.8 및 0.7로 나누어 지질 변경 약물의 사용에 대해 조정하였다(Baigent C 등의 Lancet 2005; 366: 1267). HDL-C 및 중성지방 값은 지질 변경 약물의 사용에 대해 조정하지 않았다. HDL-C 및 중성지방을 log10으로 변환하고, 약물에 대해 조정된 LDL-C 및 총 콜레스테롤 값은 변환하지 않았다. 나이, 나이2, 성별, 및 조상의 첫 10가지 주요 성분에 대해 조정한 뒤 형질 잔량을 계산하고, 전장 엑손 연관성 분석 이전에 이들 잔량을 랭크에 기초하여 역 정규변환하였다.
혈청 지질 수치에 대한 연관성 분석
EHR 유래의 표현형 및 DiscovEHR에서의 전장 서열 데이터를 사용하는 연관성 발견의 잠재력을 도시하기 위해, DiscovEHR 코호트로부터 유럽계 미국인을 조상으로 둔 39,087명의 참가자에서 공복 지질 수치(총 콜레스테롤, HDL-C, LDL-C 및 중성지방)의 중간 값에 대한 전장 엑솜 연관성 연구를 수행하였다. 이 연구에는 2개 이상의 순차적으로 수집된 측정치 및 개체당 중간 값으로 6개의 측정치를 갖는 32,840명의 참가자를 포함시켰다. 공복 시 지질 수치는 관상 동맥 질환, 심근경색, 및 뇌졸중과 같은 허혈성 혈관 질환에 대한 유전 가능한 위험 인자이다.
지질 수치에 대한 단일 표지 전장 엑솜 연관성 분석에서, 결측율이 1% 미만이고, 하디 와인버그 평형 p 값이 1.0x10-6보다 크며, 마이너 대립 유전자 빈도가 0.1%보다 큰 모든 이대립 유전자 변이체를 분석하였다. 가법 모델(동형접합성 기준은 0, 이형접합성 기준은 1, 동형접합성 대체는 2임)에 따라 유전자형을 코드화하였다. 조상 및 인척관계로부터 모집단 구성을 해명하기 위해, 연관성의 혼합 선형 모델을 사용하여 단일 변이체와 지질 형질 잔량 간의 연관성을 검정하여, (0.1%보다 큰 마이너 대립 유전자 빈도로 근사 연관 평형에 있는 39,858개의 비-MHC 표지로부터 제작된) 유전적 연관성 행렬을 무작위 효과 공변량으로서 적합화하였다
동일한 통계적 검정 프레임워크를 사용해 유전자(Li B and SM Leal, Am J Hum Genet 2008; 83: 311)에 걸쳐 집계된 변이체 및 위에 열거된 형질 간의 연관성을 식별하였다. 연관성 분석에는 3개의 변이체 집합을 사용하였다:
1. 예측된 기능 상실 돌연변이
2. 예측된 기능 상실 돌연변이 및 5개 알고리즘(SIFT, LRT, MutationTaster, PolyPhen2 HumDiv, PolyPhen2 HumVar) 중 5개의 일치에 의해 유해한 것으로 예측된 비동의 변이체
3. 예측된 기능 상실 돌연변이 및 5개의 알고리즘 중 적어도 1개에 의해 유해한 것으로 예측된 희귀한(대체 대립 유전자 빈도가 1% 미만임) 비동의 변이체.
대립 유전자를, 비담체인 경우, 어떤 대립 유전자와도 동형접합체가 아닌 적어도 하나의 대립 유전자에 대한 이형접합체인 경우, 및 각 변이체 집합에서 적어도 하나의 대립 유전자에 대한 동형접합체인 경우 각각 0, 1, 2로 코딩하였다. 단일 표지 및 유전자 기반 부담 시험에 대한 전장 엑솜 분위-분위 플롯 및 게놈 조절 람다 값은 도 20a~20d에 제공된다. 문제가 되는 p 값의 체계적인 증가는 관찰되지 않았다. 모든 통계적 분석에는 GTCA v1.2.4(Yang J 등의 Am J Hum Genet 2011; 88: 76) 및 R 버전 3.2.1 (통계적 연산을 위한 R 프로젝트)를 사용하였다.
또한, 피어슨 적률상관(Pearson product-moment correlation)의 다변수 일반화인 정준 상관분석을 사용하여 유전자형과 지질 형질 간의 연관성을 공동으로 측정하였다. 전자 건강 기록(EHR)에서 추출된 모든 엑손 변이체 및 모든 지질 형질 간의 상관관계를 연산함으로써 공동 검정에 사용된 지질 형질은 중간 수명의 LDL-C, HDL-C 및 중성지방이었다. LDL-C와 총 콜레스테롤 사이에는 높은 상관관계가 있으므로 총 콜레스테롤은 다변수 모델에 포함시키지 않았다. 유럽인 조상 중 3가지 지질 형질 모두에 대한 완전한 데이터를 가진 27,511명 무관한 개체를 사용하여 MV-PLINK(Ferreira MA 및 SM Purcell, Bioinformatics, 2009; 25: 132 25)로 구현된 다변수 분석을 수행하였으며, MV-PLINK로 수행된 연관성 검정에 사용된 명령어는 다음과 같다: plink.multivariate ― noweb ―file geno mqfam mult - pheno pheno .phen ―out output. 가법 모델(additive model)을 적용하였다. 단일 변수 지질의 전장 연관성 연구(exwas)에서 수행된 것과 동일한 나이, 성별, 약물의 사용 및 지질 형질의 주요 성분에 대한 모델 조정을 수행하였고, 잔량은 MV-PLINK에 입력으로서 사용하였다. MV-PLINK는 분석된 유전자 변이체당 F-통계량과 p-값을 생성한다. 1x10-7 임계치보다 낮은 다변수 p-값을 갖는 SNP를 전장 엑솜의 유의한 SNP로 간주하였다. 단일변수 p-값 및 베타를 Plink 선형 회귀분석을 사용해 연산하여 각각의 형질에 대한 효과 크기의 추정치를 수득하였다. 다면 발현 효과는 SNP가 2개 이상의 형질과 연관될 때로 간주하였다. 결과를 도 21a~21g에 도시하였다.
마이너 대립 유전자 빈도가 0.1%보다 큰 160,341개의 이대립 유전자 단일 변이체에 대한 연관성 검정에서, 전장 엑솜에서 총 콜레스테롤과 유의한 연관성(p<1x10-7)을 갖는 17개의 유전자좌에서 51개의 SNV 또는 인델 변이체(비동의 또는 스플라이스 변이체는 30개), 전장 엑솜에서 HCL-C와 유의한 연관성을 갖는 20개의 유전자좌에서 57개의 변이체(비동의 또는 스플라이스 변이체는 29개), 전장 엑솜에서 LDL-C와 유의한 연관성을 갖는 16개의 유전자좌에서 55개의 변이체(비동의 또는 스플라이스 변이체는 27개), 및 전장 엑솜에서 중성지방과 유의한 연관성을 갖는 17개의 유전자좌에서 65개의 변이체(비동의 또는 스플라이스 변이체는 30개)를 식별하였다(도 22a~22d, 도 23a~23e, 도 24a~24d, 도 25a~25e, 도 26). 다른 보고서들(Consortium, UK 등의 Nature 2015; 526: 82; Peloso GM 등의 Am J Hum Genet 2014; 94: 223; Lange, LA 등의 Am J Hum Genet 2014; 94: 233)과 일관되게, 대립 유전자 빈도와 효과 크기 사이에서 역 연관성이 관찰되었으며(도 27), 희귀 단일 변이체의 경우, 전장 엑솜에서 지질 수치와 총 4개의 독립된 유의한 연관성을 발견하였다: 낮은 중성지방 수치(베타 = -1.27, p = 1.4x10-52) 및 높은 HDL-C 수치(베타 = 0.85, p = 4.3x10- 24)와 연관된, APOC3(IVS2+1G>A, 대립 유전자 빈도 0.2%)에서의 rs138326449-A; 낮은 LDL-C 수치(베타 = -0.33, p = 9.4x10-10) 및 낮은 총 콜레스테롤 수치(베타 = -0.30, p = 2.0x10-8)와 연관된, APOB(p.Arg1128His, 대립 유전자 빈도 0.5%)에서의 rs12713843-T; 낮은 LDL-C 수치(베타 = -0.30, 1.4x10-14) 및 낮은 총 콜레스테롤 수치(베타 = -0.27, p = 7.1x10-12)와 연관된, LDLR에서의 인트론 변이체로서, 최근의 이러한 희귀 변이체에 대한 LDL-C 수치와의 유사 연관성 보고서(Consortium, UK 등의 Nature 2015; 526: 82)를 뒷받침하는 rs72658867-A(대립 유전자 빈도 0.1%); 및 높은 LDL-C 수치(베타 = 0.55, p = 4.5x10-7)와 연관된, ZNF426(p.Trp118Gly, 대립 유전자 빈도 0.1%)에서의 rs142298564-C. 마지막 연관성은 본 프로젝트에 의해 새롭게 발견되었으며, 징크 핑거 426을 암호화하는 ZNF426을 신규한 LDL 연관 유전자로서 지명한다.
전장 엑솜에서 유의한 레벨로 지질 수치와 연관시키기에는 각각이 너무 희귀할 수 있는, 유사한 기능적 결과를 갖는 변이체에 대한 추가적인 연관성을 포착하기 위해 3개의 변이체 집합에 대해 유전자 기반의 연관성 검정을 수행하였다: 1) pLoF 변이체, 2) 5개의 알고리즘의 일치에 의해 유해한 것으로 예측된 pLoF 변이체 및 비동의 변이체, 및 3) 하나의 알고리즘에 의해 유해한 것으로 예측된 pLoF 변이체 및 희귀 비동의 변이체. 이러한 분석을 통해, 지질 수준과의 연관성이 잘 정립된 희귀 대립 유전자에 추가하여, 유전자 기반의 부담 시험(p<1x10-6)을 위해 전장 엑솜에서 유의한 레벨로 HDL-C(LIPG , LIPC , LCAT, SCARB1), LDL-C (ABCA6 , APOH), 및 중성지방(ANGPTL3) ( 21)과 연관된 신규 희귀 대립 유전자를 식별하였다.
하나의 유전자는 유럽인 모집단에서 지질 수치와의 연관성에 대한 변이체 부담 시험을 통해 새로이 포함시켰다: G6PC에서 pLoF 변이체 및 예측된 유해 변이체의 288개의 이형접합성 담체는 중성지방 수치가 유의하게 높았다(베타 = 0.35, p = 5.2x10-7). G6PC는 인간 유전자를 암호화하는 3개의 촉매 소단위 중 하나의 촉매 소단위인 포도당 6 포스파타아제를 암호화한다. G6P6에서의 동형접합성 돌연변이 및 복합 이형접합성 돌연변이는, 저혈당증, 젖산산증, 고요산혈증, 및 고지혈증이 동반되는 간 및 신장에서의 지질 및 포도당 축적을 특징으로 하는 당원병(glycogen storage disease) 1형과 연관된다(Chou JY 등의 Curr Mol Med 2002; 2: 121).
이들 결과는 G6PC에서의 단백질 파괴 돌연변이에 대한 이형접합체가 중간 수준의 고중성지방혈증을 특징으로 하는 중간 표현형을 밝힐 수 있다는 것을 시사한다. HDL-C 수치가 유의하게 높은 CD36에서(베타 = 0.20, p = 3.4 x 10-7) pLoF 변이체 및 예측된 유해 변이체의 994개의 이형접합성 담체를 식별하였다. CD36은 산화 지단백질 및 지방산을 비롯하여 다양한 리간드에 대한 수용체의 역할을 하는, 광범위하게 발현된 막 당단백질을 암호화한다(Thorne RF 등의 FEBS Lett 2007; 581: 1227). 간에서 HDL-C를 흡수하는 데 이어서 CD36의 역할은 CD36 녹아웃 마우스에 대한 연구에 의해 제안되었으며(Brundert M 등의 J Lipid Res 2011; 52: 745), CD36 유전자좌에서의 흔한 변이는 아프리카계 미국인의 HDL-C 레벨과 연관되어 있다(Coram MA 등의 Am J Hum Genet 2013; 92: 904; Elbers CC 등의 PLoS One 2012; 7: e50198). 이들 결과는 유럽인 조상의 개체에서 집계된 희귀한 기능적 변이체와의 이러한 연관성을 통해 인간에서 HDL-C 레벨을 조절하는 CD36의 역할에 대한 추가적인 증거를 제공한다. 이들 결과는 엑솜 시퀀싱을 사용하는 희귀한 코딩 변이에 대한 포괄적으로 의문을 가지고, 결집된 코딩 변이체를 연관성 검정에 고려하는 것이 EHR 유래 표현형과의 신규한 연관성을 드러낼 수 있다는 것을 입증한다.
약물 표적 유전자에서의 단백질 파괴 돌연변이에 의한 치료 효과의 반복
인간 모집단에서의 유전자 변이체는 새로운 치료 표적을 조명할 수 있다. 약물 표적을 암호화하는 유전자를 불활화시키는 인간 유전자 변이체는 이들 표적의 치료적 길항 작용을 모방함으로써, 이러한 약물의 임상 효과를 추론하는 데 사용될 수 있는 "자연의 실험"을 제공한다. 치료 표적을 발견하기 위해 DiscovEHR 모집단으로부터의 임상 표현형을 기능 상실 변이체와 결합시킬 수 있는 잠재력을 도시하기 위해, 개발 중이거나 미국 식약청에서 지질 개질에 대해 승인된 약물의 9가지 치료 표적에서, 유전자별로 모은 pLoF 변이체에 대해 EHR로부터 추출한 중간 수명 지질 레벨로 연관성 분석을 수행하였다. 이들 분석의 결과는 도 28도 29에 설명된다.
이들 약물 표적 유전자 중, 6/9는 치료제의 임상 효과를 반복하는 지질 표현형과 적어도 명목상으로 연관된 pLoF 변이체를 보유하였다. 현재 승인된 치료제 중에서, 이러한 관찰은 에제티미브(ezetimibe)의 표적을 암호화하는 NPC1L1(n = 137 이종접합체) 및 알리로쿠맙(alirocumab), 에볼로쿠맙(evolocumab), 및 보코지쿠맙(bococizumab)의 표적을 암호화하는 PCSK9(n = 49 이종접합체)에서 pLoF 변이체 간의 연관성 및 LDL-C 레벨의 감소를 확인하여(Kathiresan S 외 Myocardial Infarction Genetics, N Engl J Med 2008; 358: 2299; Benn M 등의 J Am Coll Cardiol 2010; 55: 2833; Cohen JC 등의 N Engl J Med 2006; 354: 1264; Myocardial Infarction Genetics Consortium, I. 등의 N Engl J Med 2014; 371: 2072), 이들 유전자의 치료적 길항 작용의 임상 효과를 반영한다. APOB에서 pLoF 변이체 간에 통계적으로 매우 유의한 연관성이 관찰되고, 58개의 pLoF 담체 간에 LDL-C 및 중성지방 레벨의 감소가 관찰되었으므로, apo-B100에 대한 안티센스 올리고뉴클레오티드인 미포메르센(mipomersen)에 의한 치료적 길항 작용은 반복되었다(Thomas GS 등의 J Am Coll Cardiol 2013; 62: 2178; Raal FJ 등의 Lancet 2010; 375: 998).
APOB에서의 동형접합성 돌연변이 또는 복합 이형접합성 절단 돌연변이는, LDL-C 및 중성지방이 풍부한 지단백질을 포함하는 apoB 함유 지단백질에 의한 심한 우울증, 및 간 중성지방 축적을 특징으로 하는 가족 저베타지질단백혈증(familial hypobetalipoproteinemia)에 관련되어 있다(Welty FK, Curr Opin Lipidol 2014; 25: 161. 질병(가장 흔하게는 지방 간)의 임상 특징에 대한 관찰된 상 염색체의 공동우성 유전(codominant transmission)과 일관되게, 이러한 결과들은 검정된 모집단에서 이러한 변이체의 이형접합성 담체가 LDL-C와 중성지방에 의한 온건한 우울증을 특징으로 하는 중간 표현형을 또한 밝힌다는 것을 시사한다. 대조적으로, MTTP에서 예측된 기능 상실 돌연변이에 대해 이형접합성인 29명의 DiscovEHR 참가자들의 지질 레벨은 비담체와 유의하게 상이하지 않았는데, 이는 MTTP가 연관된 무베타지질단백혈증(abetalipoproteinemia)이 본 연구 모집단에서 열성 형질로서 배타적으로 분리된다는 것을 시사한다.
HMG-coA 환원 효소 억제제의 표적을 암호화하는 유전자인 HMGCR(n = 12 담체)에서는 적은 수의 이형접합성 예측된 기능 상실 돌연변이가 관찰되었으며, 이들 담체 간에는 비담체 사이에서보다 유의하게 상이한 지질 레벨이 관찰되지 않았다. 이는 지질 레벨과의 적당한 연관성을 검출하는 검정력이 낮거나, 인간의 지질 레벨에 영향을 미치는 이대립 유전자의 저차형태(hypomorphic) 또는 기능 상실 대립 유전자에 대한 요구로 인한 것일 수 있다.
후기 임상 시험 중인 미승인 약물 중에서, 아나세트라핍(anacetrapib, 현재 제3상 임상 시험 중임)의 표적 및 보다 높은 HDL-C(베타 = 0.82, p =2.9x10-6)를 암호화하는 CETP에서 pLoF 변이체 간의 연관성이 관찰되었다. 지질 개질에 대해 제2상 임상 시험이 현재 진행 중인 치료제의 표적을 암호화하는 3개의 유전자 중 2개는 치료 효과를 반복하는 지질 프로파일(APOC3 , ANGPTL3)과 연관된 pLoF를 보유하였다. 지질 저하에 대한 제2상 임상 시험이 진행 중인 ACLY 길항제 벰페도익산(bempedoic acid)의 표적 유전자인 ACLY에서 예측된 기능 상실 변이체에 대한 9개의 이형접합체는 LDL-C 값(베타 = -0.67, p = 0.07)이 낮아지는 추세를 보였다.
50,726개의 엑솜에서의 임상적으로 반환 가능한 유전적 소견의 보급
ACMG의 56개의 권장 유전자 목록에서 식별된 모든 코딩 변이체(Consortium, U.K. 등의 Nature 2015; 526: 82) 및 반환 가능한 이차 소견을 위한 추가 GHS의 20개의 유전자를 추출하였다. 해당 변이체들은 ClinVar 데이터 세트[2015년 12월 갱신됨]와 상호 참조하였으며, GHS 모집단 중 병원성으로 분류되고 마이너 대립 유전자 빈도가 1% 미만인 것들로 제한하였다. 인간 유전자 돌연변이 데이터베이스[HGMD 2015.4]를 갖는 변이체들을 또한 상호 참조하였고, 오직 MAF가 1% 미만인 고신뢰성의 질병 유발 돌연변이(DM)로 제한하였다. 임상적으로 조치 가능한 결과의 반환을 위해 추정적 기능 상실(pLoF)을 포함하는 예측된 병원성(EP) 변이체 및/또는 알려진 병원성(KP) 변이체가 권고되는 유전자에 대한 공개된 가이드라인에 따라 반환 가능한 변이체를 컴파일하였다(도 21).
통합 건강 시스템에서 적절한 절차에 따라 동의한 많은 수의 환자의 전장 엑손 서열 데이터를 이용할 수 있다면 게놈 정보를 환자의 치료에 적용할 수 있는 고유한 기회가 제공된다. 개질되었을 때 27개의 병태에 대해 임상적으로 조치를 취할 수 있는 소견을 유도하는 76개 유전자(G76)의 하위 집합에서, ClinVar "병원성" 분류(Landrum MJ 등의 Nucleic Acids Res 2014; 42: D980)에 따라 엑솜 서열 데이터를 분석하여 잠재적으로 병원성인 모든 변이체를 식별하였다(도 30a~30h). G76에는 임상적으로 조치를 취할 수 있는 유전적 소견의 식별 및 보고를 위한 ACMG 가이드라인 내에서 권고되는 56개의 유전자가 포함되는데, 침투성이 강한 단일 유전자 질환과의 관련성뿐만 아니라 병태의 병리학적 특징을 완화시키기 위한 예방적 조치 또는 조기 치료 개입을 위한 기회로서 정의된 잠재적 임상 조치 가능성에 기초하여 56개의 해당 유전자와 추가로 20개의 유전자를 선별하였다.
기능 상실 변이가 유전적 질환을 유발할 것으로 예측되는(예상 병원성) 이들 유전자의 하위 집합에서, 임상적으로 조치 가능한 유전적 소견의 식별 및 보고를 위한 ACMG 가이드라인에 따라 pLoF 변이체를 식별하였다(Green RC 등의 Genet Med 2013; 15: 565). 종합적으로, 시퀀싱된 참가자의 약 13%(6,653 개체)가 하나 이상의 이러한 잠재적 병원성 변이체를 이러한 유전자 리스트에 보유하였다: 5,435명의 개체는 ClinVar에서 "병원성"으로 단정하는 이들 유전자에 적어도 하나의 변이체를 갖고, 1,218명의 추가 참가자들은 예측된 병원성 LoF 변이체를 가짐.   그런 다음, 2,500개의 서열 파일(전체의 4.9%)로 이루어진 파일럿 세트를, 임상 진료로 복귀할 가능성이 있는 해당 파일 내의 G76에서 병원성 변이체 또는 가능한 병원성 변이체를 식별하기 위해 Richards 등으로부터의 기준(Richards S 등의 Genet Med 2015; 17: 405)을 적용하여 임상 큐레이션을 수행하였다. 이러한 큐레이션 다음에는 변이체의 CLIA 확인이 인증된 실험실에서 반환 이전에 수행될 것이다.
파일럿 세트 내에서, 생물정보학적 여과 후, G76에서 641개의 변이체를 검토하였다: 32개(5.0%)는 "병원성"으로 간주되었고, 23개(3.6%)는 "병원성의 가능성이 있는 것"으로 간주되었고, 나머지 586개(91.4%)는 유의성이 불확실한 변이체, 양성, 양성의 가능성이 있는 것, 또는 위양성으로 간주됨. "병원성" 또는 "병원성의 가능성이 있는 것"으로 분류되고 CLIA 인증 분자 진단 실험실에서 확인된 변이체들은 환자와 공급자에게 반환하기에 적합한 것으로 간주된다. 연구 참가자의 4.4%가 G76으로부터 병원성에 대한 예측을 단정짓기 위한 현재의 임상 표준을 충족하거나 초과하는, 즉 질병의 원인이 되는 변이체에 대한 90%가 넘는 확실성을 갖는 이러한 임상 결과를 얻을 것으로 추정하였다(Richards S 등의 Genet Med 2015; 17: 405). 이러한 결과는 돌연변이 데이터베이스의 목록에 오른 변이체에 대한 전문 임상 검토 및 병원성 단정에 대한 지속적인 필요성을 강조하며, 대부분의 선택되지 않은 임상 모집단에서 의학적으로 실행 가능한 유전적 소견의 부담에 대한 기대감을 생성한다.
논의
본원에서 논의된 소견은 통합 건강 시스템의 임상 모집단에서 대규모 시퀀싱의 가치를 입증하고 인간 유전자 변이체에 관한 지식 기반을 더한다. 프로그램의 주된 목적 중 하나는 질병과 관련된 형질에 큰 효과를 미치는 기능적 변이체 및 임상적으로 및 치료적으로 실행 가능한 변이체를 식별하는 것이다. 현재까지, 대부분의 효과가 큰 변이체 및 알려진 병원성 대립 유전자는 게놈의 단백질 코딩 영역에서 관찰되었고(Chong JX 등의 Am J Hum Genet 2015; 97: 199; Green RC 등의 Genet Med 2013; 15: 565; Choi M. 등의 Proc Natl Acad Sci USA 2009; 106: 19096), 희귀 대립 유전자 내에 많이 존재한다. DiscovEHR 코호트에서의 엑손 변이체의 프로파일에 대한 이들 결과는 이전의 대규모 시퀀싱 프로젝트(Genomes Project, C. 등의 Nature 2010; 467: 1061;Chong JX 등의 Am J Hum Genet 2015; 97: 199; Genomes Project, C 등의 Nature 2012; 491: 56)에서 보고된 것들과 유사하다. 예상한 바와 같이, 엑손 변이체의 압도적인 대다수는 희귀하다.
관심 임상 형질에 큰 효과를 미치는 희귀 변이체를 식별하기 위해서 매우 큰 유전자 변이체 데이터베이스가 필요한데; 이러한 변이체는 정제 선별로 인해 극도로 희귀하지만, 신규한 생물학적 메커니즘을 밝히고 치료 표적을 식별함에 있어서 매우 유익한 정보가 될 수 있다. 코호트의 각 개체는 20개 이하의 희귀한 예측 LoF 변이체를 다수의 유전자에 보유하였다. 종합하자면, 시퀀싱된 모든 참가자에 걸쳐서, 적어도 하나의 개체에서 유전자의 약 92%가 희귀 이형접합성 예측 LoF 변이체를 보유하고 유전자의 7%는 동형접합성 예측 LoF 변이체를 보유하여, 인간의 부분적 및 완전한 유전자 녹아웃의 표현형 효과를 연구하기 위한 풍부한 자원을 제공한다.
희귀 기능적 변이체의 연관성 및 효과를 검출하기 위해서는 매우 큰 샘플 크기가 필요하다. 이러한 분석을 위한 DiscovEHR 코호트와 같은 코호트의 가치는 전장 엑솜 연관성 분석에서 혈청 지질 형질과 연관된 다수의 신규 희귀 코딩 대립 유전자를 식별함으로써 본원에서 입증되었다. 본원에서 보고된 결과는 현재까지 혈청 지질에 대한 가장 큰 엑솜 시퀀싱의 일부이며, 알려진 지질 유전자에서 신규한 중성지방 연관 유전자(G6PC) 및 다수의 신규한 희귀 대립 유전자를 지명한다. 또한, 지질 강하 약물의 표적을 생성하는 11개 유전자의 집합을 연구하였고, 결과는 대부분이 혈청 지질에 대한 효과가 이들 약물의 확립된 약리학적 효과와 일치하는 pLoF 변이체를 보유한다는 것을 나타낸다. 이러한 분석은, 특정 표현형 연관성을 중심으로 유전자 중심 가설을 조사하는 능력을 식별하는 것뿐만 아니라, 관심 표현형에 대해 효과가 큰 신규 변이체를 식별하는 것 모두에 대한 이러한 자원의 유용성을 입증한다.
DiscovEHR 코호트와 같은 코호트의 또 다른 장점은 통합 지역 의료 시스템으로부터 건강 진료를 받는 안정한 환자 모집단의 결과로서, 다중 세대 가계를 포함하는 많은 수의 가족 관계에 있다. 이는 필요에 따라 모집단 기반의 또는 가족 기반의 연구 수행을 가능하게 한다.
DiscovEHR 코호트는 본 방법 및 시스템을 실행하기 위해 유전자 변이체 및 표현형 데이터가 수득될 수 있는 대상물로 이루어진 코호트의 비한정적인 일 예이다.
실시예 2
복제수 변이 연구
단일 뉴클레오티드 변이(SNV) 및 작은 인델 외에도, 구조적 변이는 주어진 개체에서 식별될 수 있고 잠재적 표현형 서열에 대해 조사될 수 있는 유전자 변이의 스펙트럼을 포함한다. 복제수 변이체(CNV)는 결실이나 증폭을 통해 스스로의 복제수가 예상되는 정상 이배체 상태로부터 벗어나는 게놈 내 영역으로 정의되는 구조적 변이의 일 유형이다. 역위(inversion)와 같은 다른 구조적 변이체와 달리, CNV는 특정 유전자좌에 대한 게놈에 존재하는 복제수(0, 1, 2, >2)를 정확하게 추정할 수 있는 다양한 방법을 통해 직접 확인할 수 있다. 또한, 유전자 파괴 또는 코딩 영역의 결실이나 복제를 통한 투여량 변경은 유전자 재배열로 야기된 다수의 유전자 질환의 식별에 의해 입증되는 바와 같이 유의한 표현형 결과를 가질 수 있다(Lupski JR, Environ Mol Mutagen 2015; doi: 10.1002/em.21943). 복제수 변이는 신경 발달 장애 및 멘델 유전병의 맥락에서 광범위하게 연구되어 왔지만, 흔한 질병의 원인을 밝히는 역할은 대부분 불확실하게 남아 있다(Zhang F 등의 Annu Rev Genomics Hum Genet 2009;10:451).
소수의 흔한 CNV가 질병과 관련되어 있지만 - CFHR 결실은 노화와 관련된 시력 감퇴를 예방하고(Hughes AE 등의 Nat Genet 2006; 38: 1173) LCE3 결실은 건선에 대한 감수성을 증가시킴(de Cid R 등의 Nat Genet 2009; 41: 211-5) - 이전의 연구에서는 총체적으로 흔한 CNV가 질병의 유전적 기초에 크게 기여하지 않는 것으로 결론을 내렸다(Conrad DF 등의 Nature 2010; 464: 704; Wellcome Trust Case Control Consortium 외, Nature 2010; 464: 713).
1q21.1에서의 변이체(Mefford HC 등의 N Engl J Med 2008; 359: 1685), 15q13.3에서의 변이체(van bon BW 등의 J Med Genet 2009; 46: 511), 16p11.2에서의 변이체(McCarthy SE 등의 Nat Genet 2009; 41: 1223) 및 16p12.1에서의 변이체(Girirajan S 등의 Nat Genet 2010; 42: 203)를 포함하여, 신경 발달 장애에 대한 불완전한 침투력을 갖는 몇 가지 희귀 변이체가 식별되었다. 그러나, 대규모 연관성 연구를 통해 흔한 질병 및 복합 형질(예: 지질 수준; Surakka 등, 2015)에 대한 희귀 SNV의 역할이 조사된 반면, 이들 조사는 CNV에 대해서는 수행되지 않았다.
(엑솜 또는 전장 게놈을 통한) 게놈 시퀀싱의 광범위한 적용은 복제수 변이체의 검출을 현대 인간 재시퀀싱 파이프라인의 중요하고 필요한 부분으로 만들었다. 게놈 시퀀싱 데이터를 사용하는 CNV에 대한 모집단 조사는 거의 수행되지 않았으며(Korbel 등의 Science 2007; 318: 420; Mills 등, 2011); 따라서 상이한 크기 및 대립 유전자 빈도에 걸친 인간 복제수 변이의 카탈로그는 불완전한 상태로 남아있다. 시퀀싱 데이터로부터 CNV를 식별하기 위해 여러 가지 알고리즘이 개발되었는데, 이들은 대개 감수성과 특이성이 달라, 선호도가 다르고 이벤트를 감지할 수 있는 크기와 빈도 스펙트럼이 제한된다.
이러한 연구에서, CLAMMS(Packer JS 등의 Bioinformatics 2015; 32: 133)를 사용하여 게이싱어 의료 시스템의 환자인 연구 참가자들로부터 샘플링한 50,726개의 엑솜에서 희귀한 CNV와 흔한 CNV의 카탈로그를 컴파일하였다. 또한, CNV의 높은 수준의 특성 및 유전적 기능 상실을 야기하는 경향을 분석하기 위해 유전자에 미치는 CNV 부담에 대한 전장 엑솜 조사를 수행하였다. 이러한 데이터 세트를 생성하는 과정에서, 자동화된 CNV 검출 파이프라인과 신규한 정확성 제어 절차를 개발하였고, 이를 유전체 커뮤니티의 리소스로 제공되는 CNV 대립 유전자 카탈로그와 CNV-SNV 연결 맵을 구성하는 데 사용하였다. 이러한 변이체를 사용하여 신규한 표현형 연관성을 발견할 가능성을 예시하기 위해, EHR에서 추출한 지질 프로파일에 대한 연관성 분석을 실시하고, 관상 동맥 심장 질환에 대한 지질 연관 CNV의 침투성을 조사하였다.
주요 서열 분석, CNV 검출, 및 정확도 제어
이러한 연구에서, 상기 실시예 1에서 논의된 모집단에 대한 실험실 검사로부터의 인구 통계 정보 및 정량적 혈청 지질 데이터, 및 실시예 1에서 수득된 서열 정보를 사용하여 연관성 분석을 수행하여, CNV가 제공하는 유용성 및 임상 데이터와의 연관성 연구에 CNV를 통합할 수 있는 가능성을 입증하였다.
모집단 규모에서 임의의 대립 유전자 빈도의 엑솜 CNV를 검출하도록 이전에 개발된 효율적인 알고리즘인 CLAMMS(Packer JS 등의 Bioinformatics 2016; 32: 133)로 리드 깊이에서 CNV를 검출하기 전에 일관된 절차를 사용하여 모든 샘플을 준비하고 시퀀싱하였다. 본원에서 사용된 정확도 제어 절차에는 검출된 CNV 내의 대립 유전자 밸런스와 SNP의 접합성에 관한 정보뿐만 아니라, 2개의 모델 기반 정확도 측정 기준(Q non-dip 및 Q exact )이 통합된다.
CLAMMS CNV 검출에 대한 필터링 기준에 관해, 결실의 Q_non_dip은 50 이상이어야 하고 Q_exact는 0.5 이상이어야 한다. 복제의 Q_non_dip은 50 이상이어야 하고 Q_exact는 -1.0 이상이어야 한다. Q_non_dip은 CLAMMS 모델 하에서 이배체가 아닌, 검출된 CNV 영역의 임의의 일부에 대한 Phred 스케일의 확률이다. 실제로, 많은 영역이 이배체 상태에 대한 모델과 일치하지 않지만, 검출된 바와 같이 CNV에 대한 모델과는 반드시 일치할 필요는 없다. Q_exact는 CNV 영역의 커버리지가 정확히 주장된 복제수 상태 및 중단점과 얼마나 일치하는 지의 척도(Phred 스케일 아님)이다. 이는 알고리즘의 공개 이후 CLAMMS에 추가된 새로운 특징이다.
결실은 2개의 추가 기준 중 적어도 하나를 만족해야 한다: 1) Q_non_dip은 100 이상이고 Q_exact는 1.0 이상, 또는 2) CNV 영역에서 이형접합성 SNP가 검출되지 않고 적어도 하나의 동형접합성 SNP가 검출됨. 복제는 2개의 추가 기준 중 적어도 하나를 만족해야 한다: 1) Q_non_dip은 100 이상이고 Q_exact는 -0.5 이상, 또는 2) CNV 영역에서 적어도 하나의 이형접합성 SNP가 검출되고, 영역 내의 모든 이형접합성 SNP에 걸친 평균 대립 유전자 밸런스가 정상치 복제 검출의 15백분위수 및 85백분위수에 해당하는 [0.611, 0.723]의 범위에 있음. SNP의 "대립 유전자 밸런스"는 최대(REF 지원 리드의 #, ALT 지원 리드의 #) / 총 리드 #와 동일한 것으로 정의된다.
각각의 CNV 검출에 대해, CNV 검출과 적어도 90% (상호) 중첩되는 CNV 호출 집합을 본 연구의 다른 샘플로부터 식별하였다. [CNV + 5인 본 집합 내에서 검출된 동형접합성 SNP의 총 #] / [CNV + 5인 본 집합에서 검출된 SNV의 총 #]가 0.9 미만이고, 본 CNV 집합 내에서 검출된 이형접합성 SNP의 평균 대립 유전자 밸런스가 0.8 미만인 경우, 결실을 필터링하였다. 대립 유전자 밸런스가 0.8보다 크다는 것은 낮은 커버리지 영역에서 동형접합성 SNP의 검출이 누락됨을 나타낸다. 본 CNV의 집합 내에서 검출된 이형접합성 SNP의 총 #가 3 이상이고, 이들의 평균 대립 유전자 밸런스가 0.611 미만인 경우, 복제를 필터링하였다.
CNV가 있는 샘플의 검출은 총 28회 이하(= 중앙 값의 2배)이어야 한다. 이러한 샘플은 "정상치(inliers)"로 지칭된다. [29, 280]에서 다수 검출된 샘플은 "이상치(outliers)"로 지칭되고, 280회 초과로 검출된 샘플은 "극한 이상치(extreme outlier)"로 지칭된다. 각각의 CNV 검출에 대해, 정상치에서의 CNV 검출 세트 및 CNV 검출과 적어도 33.3%만큼 (상호) 중첩되는 비극한 이상치(non-extreme outlier)에서의 CNV 검출 세트를 식별하였다. 2 * [정상치에서 중첩되는 검출 #] < [이상치에서 중첩되는 검출 #] -1인 경우, 검출을 필터링하였다. 실제로, 이러한 절차는 달리 정확도가 높은 샘플 내에서 "문제 영역"을 식별한다. 이론에 구속됨이 없이, 이상치 샘플은 손상된 DNA를 나타낸다는 가설이 성립한다.
예를 들어, 이형접합성 SNP는 실제 이종접합체 방식으로 결실된(반접합성) 영역에서는 발생할 수 없다. 과수의 CNV가 생성된 샘플은 종종 매우 낮은 전염률을 나타내는데, 이들은 고 신뢰성 검출 세트로부터 필터링하였다. 일부 경우에는 높은 CNV 검출율에 대한 타당한 생물학적 원인(예: 암 샘플에서의 체세포 변이체)이 있지만, 다른 경우는 이들의 기준 패널에 대해 상대적으로 적절히 정상화되지 않는 시퀀싱 정확도의 이상치일 수 있다.
CNV 검출 및 정확도 제어를 위한 자동화된 파이프라인의 구현을 위해, Samtools(Li H 및 Durbin R, Bioinformatics 2009; 25:1754; Li H, 등의 Bioinformatics 2009; 15: 2078)를 사용해 맵핑 정확도가 30 이상인 리드만을 포함하는 각각의 샘플에 대해 커버리지 깊이가 연산된다. Picard를 사용하여 각 샘플에 대해 7개의 시퀀싱 정확도 제어 측정 기준이 계산된다: GC_DROPOUT, AT_DROPOUT, MEAN_INSERT_SIZE, ON_BAIT_VS_SELECTED, PCT_PF_UQ_READS, PCT_TARGET_BASES_10, 및 PCT_TARGET_BASES_50X. 이들 2가지 태스크는 각각의 샘플에 대해 병렬로 수행된다.
본 메트릭 공간에서의 k 차원 트리는 Packer JS 등의 Bioinformatics 2015; 32: 133의 증보(Supplement)에 기술된 바와 같이 처리된 첫 N개의 샘플을 색인화하는 데 사용된다. 이러한 색인이 제작된 후, N개의 샘플 각각 및 후속하는 각각의 샘플을 병렬로 처리한다. 각 샘플에 대해, k 차원 트리 색인의 카피가 다운로드된다. k 차원 트리는 시퀀싱 QC 메트릭 공간에서 샘플의 m(= 100)개의 가장 가까운 이웃을 식별하는 데 사용된다. 이들 m개의 샘플에 대한 커버리지 파일이 다운로드된다. CNV는 CLAMMS(Packer JS 등의 Bioinformatics 2015; 32: 133)를 사용하여 샘플에 대해 검출되는데, CLAMMS는 해당 샘플의 커버리지 파일과 m개 샘플 기준 패널의 커버리지 파일을 입력으로 사용한다. 샘플의 SNP 검출을 위한 VCF 파일(GATK 최고 수행 사례를 사용하여 별도의 프로세스에서 생성됨)이 이어서 다운로드된다. VCF 파일은, 바로 아래에 정의된 바와 같이, 3가지 통계로 각각의 각 CNV 검출에 CNV의 추석을 추가하는데 사용된다: CNV의 추정 중단점 내에서 검출된 SNP 수; 동형접합체인 SNP 수; 및 CNV 내의 이형접합성 SNP의 평균 대립 유전자 밸런스.
LDLR 복제 담체의 가계는 모두 서로 먼 친척관계이다. 이러한 식별되지 않은 개체의 실제 가족력은 알려지지 않았지만, PRIMUS(Staples J 등의 Am J Hum Genet 2014; 95: 553)를 사용하여 가계를 재구성하였고 ERSA(Huff CD 등의 Genome Res 2011; 21: 768) 먼 친척관계 예측을 사용하여 담체의 공유 조상을 가장 잘 나타내는 가계를 추정하였다. PRIMUS는 HumanOmniExpress 어레이 데이터(또는 어레이 데이터를 이용할 수 없었던 경우에는 전장 엑솜 시퀀싱 데이터)를 사용하여 1촌 내지 3촌 관계를 추정하고, 해당 하위 가계를 재구성하였다. 하위 가계를 연결하는 더 먼 친척관계는 시퀀싱된 샘플에 대해 이용 가능한 HumanOmniExpress 칩 데이터를 사용하여 ERSA로 계산하였다. ERSA는 먼 친척관계 예측의 상한을 9촌으로 하여, 모든 LDLR 복제 담체에 대한 가장 가까운 공통 조상에 대한 하계를 설정한다. 서로에게 2촌 친척인 것으로 추정되는 2개의 복제 담체에는 어레이 데이터가 포함되어 있지 않으므로, 이들이 다른 담체와 먼 친척관계인지 확인할 수 없었다. 이 가계에 표시되지 않은 나머지 7개의 담체는 본 가계에서 하나 이상의 담체에 대해 7촌 내지 9촌의 친척일 것으로 예측되지만, 도면이 복잡해지지 않도록 도시하지 않았다. 파운더 담체와 공통 조상의 관계는 적어도 6세대를 거슬러 올라가는 것으로 추정된다. 각 세대마다 평균 25년을 가정할 때, 복제는 적어도 150년 전에 발생한 것으로 예측된다.
마지막으로, 바로 위에 설명된 정확도 제어 절차는 각 CNV 검출을 높은 신뢰도 또는 낮은 신뢰도로 표지하도록 적용된다. 특정 CNV 유전자좌에 대한 평균 통계를 기반으로 하는 QC 절차는 첫 N개 샘플에 대해 연산된 통계를 사용하는데, 이 통계는 각 병렬 컴퓨팅 인스턴스에 의해 다운로드된 파일에 컴파일된다. 이는 데이터가 시퀀서에서 나올 때 샘플에 대해 완전하게 정확도가 제어된 CNV를 검출할 수 있게 한다. 샘플 배치가 처리되어 분석 준비가 되면, QC 절차는 첫 N개의 샘플 대신에 해당 배치에 대한 집계 통계를 사용하도록 선택적으로 되돌아갈 수 있다.
합해서, 샘플의 6.66%는 본 분석에서 고려되지 않았으므로, 47,349명의 개체를 나타내는 높은 신뢰도의 검출 세트를 생성하였다. CLAMMS는 모든 표적화 엑손의 88%를 나타내는 리드 커버리지가 일관되고 예측 가능할 것으로 예상되는 (예: 비극한 GC 함량 및 서열 다형 비율, 높은 맵핑 가능성, 등; Packer JS 등의 Bioinformatics 2015; 32: 133) 엑손에 초점을 맞춘다. 위에 논의된 바와 같이, CNV 검출 및 정확도 제어를 위한 자동화된 파이프라인을 구현하는 데 CLAMMS가 어떻게 사용되었는지가 본원에 기술된다.
CLAMMS CNV 검출의 원시 집합에 몇 가지 필터를 적용하였다(전술 참조). 이들 필터는 CLAMMS 통계 모델을 사용하여 검출된 CNV 영역에서 샘플의 커버리지 프로파일의 일관성, 영역에서 SNP의 대립 유전자 밸런스 및 접합성에 대한 정보, 거의 동일한 중단점을 가진 다른 샘플에서 CNV에 대한 커버리지 및 SNP 정보를 고려한다. 필터를 설계 할 때, 목표는 5% 이하의 추정된 위양 비율을 반영하여 희귀 변이체에 대해 47.5% 이하의 전염률을 유지하면서 가능한 최대한의 민감도를 달성하는 것이었다. 이러한 목표는 다소 복잡한 필터링 기준의 세트를 사용하여 달성하였다. 이러한 기준이 데이터에 과적합하지 않게 하기 위해, 시퀀싱된 첫 30,000까지의 샘플의 전염률을 기반으로 이들 기준을 트레이닝하였고 다음 20,000개까지의 샘플에서 이를 평가하였다. 전염률은 트레이닝 세트에서보다 시험 세트에서 약간 낮았지만, 전반적으로 과적합이라 할만큼 크지 않았다(표 6).
[표 6: QC 트레이닝 세트 및 검정 세트에서 전염률]
CNV 하위 집합 트레이닝 T-rate
(샘플 크기)
검정 T-rate
(샘플 크기)
결합 T-rate
(샘플 크기)
이형접합성, AF < 1% 47.36%
(3,913)
46.02%(5,198) 46.59%
(9,111)
CN = 1, AF < 1% 48.01%(1,610) 45.76%
(2,087)
46.74%
(3,697)
CN = 3, AF < 1% 46.90%(2,303) 46.19%
(3,111)
46.49%
(5,414)
이형접합성,
AF < 1%, <= 3 엑손
42.26%(1,273) 42.10%
(1,684)
42.17%
(2,957)
CN = 1,
AF < 1%, <= 3 엑손
43.79%(612) 42.48%
(791)
43.05%
(1,403)
CN = 3,
AF < 1%, <= 3 엑손
40.84%(661) 41.77%
(893)
41.38%
(1,554)
이형접합성,
AF < 1%, 1 엑손
37.85%(251) 39.81%
(324)
38.96%
(575)
CN = 1,
AF < 1%, 1 엑손
36.64%(131) 42.77%
(166)
40.07%
(297)
CN = 3,
AF < 1%, 1 엑손
39.17%(120) 36.71%
(158)
37.77%
(278)
전염률 분석
PRIMUS(Staples J 등의 Am J Hum Genet 2014; 95: 553)를 사용하여 엑솜 데이터로부터 재구성된 가계를 통해 6,527명의 부모-자식 쌍을 식별하였다. 부모는 의료 기록에 나열된 연령에 기초하여 자식과 구별하였다. 자식에서의 검출이 부모에서의 검출과 적어도 50% 중첩되는 경우, 추정 CNV가 부모로부터 자식에게 전달되는 것으로 정의한다. 부모 중 하나에서 이형 접합성인 희귀 변이체의 경우, 자식의 부모 중 다른 하나가 동일한 변이체를 가질 확률이 낮으므로, 예상 전달 확률은 50% 이하이다. 공통 변이체는 부모 기원이 모호할 가능성이 더 높기 때문에(특히 부모 중 한 명만이 시퀀싱되는 경우), 전염률 분석은 관찰된 대립 유전자 빈도가 1% 미만인 희귀 변이체에 집중되었다.
연관성 분석 및 표현형 데이터
CNV 유전자좌 및 지질 형질 간의 양적 연관성 분석은 BOLT-LMM(Loh PR 등의 Nature 2015; 47: 284)에서 구현된 선형 복합 모델을 사용하여 무작위 효과로서 포함된 유전 관계 행렬(CNV 데이터 대신에 200개의 흔한 SNP를 사용하여 추정함)을 사용하여 수행하였다. 이는, 데이터의 관련성이 유의성 평가에 적절히 고려되도록 하기 위해 선형 혼합 모델을 사용해 CNV 연관성 분석을 처음으로 구현한 것이다. 동일한 유전자좌에서의 결실과 복제는 별도로 고려하였다.
총 콜레스테롤, 저밀도 지단백질 콜레스테롤(LDL-C), 고밀도 지단백질 콜레스테롤(HDL-C) 및 중성지방을 포함하여 순차적으로 측정한 실험실에서의 형질에 대한 중간 값은, 표준편차가 3보다 클 가능성이 있는 가짜 값을 개체 내 중간 값으로부터 제거한 다음, EHR에서 2개 이상의 측정 값을 가진 모든 개체에 대해 계산하였다. 혈청 지질 수치의 전장 엑손 연관성 분석을 목적으로, 평균 스타틴 투여량에 대한 LDL-C 및 총 콜레스테롤의 평균 감소를 기준으로 전처리 지질 값을 추정하기 위해 총 콜레스테롤과 LDL-C를 각각 0.8 및 0.7로 나누어 지질 변경 약물의 사용에 대해 조정하였다. HDL-C 및 중성지방 값은 지질 변경 약물의 사용에 대해 조정하지 않았다. HDL-C 및 중성지방을 log10으로 변환하고, 약물에 대해 조정된 LDL-C 및 총 콜레스테롤 값은 변환하지 않았다. 그런 다음, 나이, 나이2, 성별, 및 조상의 첫 10가지 주요 성분에 대해 조정한 뒤 형질 잔량을 계산하고, 전장 엑손 연관성 분석 이전에 이들 잔량을 랭크에 기초하여 역 정규변환하였다. 허혈성 심장 질환(IHD) 상태는 국제 질병 분류, 제9판(ICD-9) 진단 코드 410~414를 사용해 정의하였다. ICD-9에 기초한 진단에는 다음 중 하나 이상이 요구되었다: 진단 코드에 대한 문제점 목록 항목, 또는 다른 역일에 2번의 개별 접촉에 대해 입력한 접촉 진단 코드.
GCNT4 SV2C 에서 관찰된 LDLR 복제 및 HMGCR 가로지르는 복제-결실-복제의 전장 게놈 시퀀싱 및 중단점 검증
500 ng의 게놈 DNA를 Covaris LE220에서 평균 160 bp의 크기로 절단하고 Kapa Biosystems의 맞춤형 라이브러리 준비 키트를 사용하여 Illumina 시퀀싱을 위해 준비하였다. 샘플은 v4 Illumina HiSeq 2500s를 사용하여 30x의 평균 깊이까지 시퀀싱하였고, 페어 엔드는 75 염기쌍 리드였다. 원시 리드는 엑솜 시퀀싱 데이터에 사용된 것과 동일한 방법을 사용해 처리하였다. Pindel(Ye K 등의 Bioinformatics 2009; 25: 2865-71)과 LUMPY(Layer RM 등의 Genome Biol 2014; 15: R84)는 구조적 변이체를 전장 게놈에서 검출하기 위해 조합하여 사용하였으며, 두 방법 모두를 통해 LDLR 복제 중단점을 독립적으로 확인하였다(도 31).
하나의 LDLR 복제 담체를 전장 게놈 시퀀싱하면 엑손 13~17의 복제를 확인할 수 있다. 불일치 맵핑 리드쌍 및 분할 리드 정렬은 중단점 유전자좌 및 삽입 유전자좌를 chr19: 11229700 및 chr19: 11241173으로 위치시키며, 3개의 뉴클레오티드 미세상동성(녹색)은 2개의 유전자좌 모두에서 공유된다. 중단점 유전자좌와 삽입 유전자좌 모두는 Alu 반복 서열에서 발생한다. 예측 단백질 번역은 인프레임이다. 생어(Sanger) 시퀀싱을 사용하여 중단점을 가로 지르는 신규한 서열을 추가적인 담체에서 확인하였다.
HMGCR을 가로지르는 복제-결실-복제 변이체의 경우, Pindel을 통해 직렬 복제만을 식별하였고, LUMPY를 통해 결실만을 식별하였다. 상대 쌍과 분할 리드 정렬의 불일치 맵핑은 수동으로 분석하여 중단점을 확인하고 연관된 미세상동성 서열을 식별하였다.
LDLR 복제의 생어(Sanger) 확인
LDLR CNV 중단점을 포함하는 500 bp 이하의 DNA 단편을 Kapa HiFi 중합 효소를 사용하여 게놈 DNA로부터 증폭시켰다. 증폭은 25 ul의 2X Kapa HiFi PCR 마스터 혼합물, 프라이머 LDLR-CNV-F (5'-CATGTGATCCCAGAACTTGG-3'; 서열번호 27) 및 LDLR-CNV-R (5'-ACCATCTCGACTATTTGTGAGTGC-3'; 서열번호 28), 5 ul의 PCRx 증강자 (Invitrogen), 50 ng의 게놈 DNA, 및 총 부피 50 ul의 물을 사용해 수행하였다. PCR 반응 조건은 다음과 같았다: 95℃에서 3분; 이어서 98℃에서 20초, 62℃에서 15초, 및 72℃에서 1분 사이클 30회; 및 최종적으로 72℃에서 추가로 5분. 생어 시퀀싱은 리제너론(Regeneron) DNA 코어에서 전방 프라이머만으로 수행하였다.
대규모 건강 시스템 모집단으로부터의 복제수 변이체 카탈로그
단일 엑손까지의 분해능을 가진 임의의 대립 유전자 빈도의 CNV에 민감한, 개발되고 기 보고된 방법인 CLAMMS(Packer JS 등의 Bioinformatics 2015; 32: 133)를 사용하여, 흔한 CNV와 희귀 CNV를 리드 깊이에 기초하여 각각의 엑솜에 대해 검출하였다. CNV 유전자좌에서 SNP로부터 정보(대립 유전자 밸런스 및 접합성)를 통합하고, 혈통에 의한 동일성 추정에 기초한 가계 재구성 도구인 PRIMUS(Staples J 등의 Am J Hum Genet 2014; 95: 553)로 식별된 부모-자식 쌍에서의 전염률에 기초하여 CNV 신뢰성 필터를 트레이닝하여 검출된 CNV에 대한 광범위한 정확도 제어 절차를 수행하였다. 이들 가계는 6,527쌍의 부모-자식을 포함한다. 부모와 자식은 EHR에 기록된 나이를 사용해 구별하였다. 트레이닝 절차는 희귀(MAV < 1%) 이형접합성 CNV 검출을 위한 전염률에 초점을 맞추었는데; 이들 희귀 CNV는 유전자 정보가 없는 부모로부터 유전되고 또 존재할 가능성이 적다. 따라서, 트레이닝 세트에서의 이상적인 전염률은, 새로운 엑손 구조적인 변이체가 희귀하다는 가정하에서 50%에 가깝다(Kloosterman WP 등의 Genome Res 2015; 25: 792-801). 50% 미만의 전염률은 부모의 위양성(false positive)과 자식의 위음성(false negative)으로 인해 발생한다. 13,782개의 유전자좌에서 47,349개의 표본(~ 93%)과 475,664개의 이벤트를 포함하는 이러한 고 신뢰성 CNV 검출 세트의 결과(표 7 참조)가 보고된다.
[표 7: 엄격한 QC 기준을 통과하는 47,349명의 개체를 포함하는 고 신뢰성 CNV 검출 세트에 대한 전장 엑솜 CNV 통계]
총 # CNVs # 복제 # 결실
CNV 빈도
475664 130247 345417
매우 희귀 (AF < 0.1%) 47170 28580 18590
희귀 (AF = [0.1~1%]) 35850 22530 13320
흔함 (AF > 1%) 392644 79137 313507
샘플 평균
10.05 2.75 7.30
매우 희귀 (AF < 0.1%) 1.00 0.60 0.39
희귀 (AF = [0.1~1%]) 0.76 0.48 0.28
흔함 (AF > 1%) 8.29 1.67 6.62
유전자좌 빈도
13782 7680 6102
매우 희귀 (AF < 0.1%) 13582 7563 6019
희귀 (AF = [0.1~1%]) 142 89 53
흔함 (AF > 1%) 58 28 30
유전자 중앙 값 크기(kb)
17.7 32.5 8.4
매우 희귀 (AF < 0.1%) 17.9 33.0 8.4
희귀 (AF = [0.1~1%]) 12.6 13.4 9.0
흔함 (AF > 1%) 7.1 13.4 4.4
단일 유전자 유전자좌 8377 3970 4407
다중 유전자 유전자좌 5180 3622 1558
# 포함된 유전자* 13170 11066 6492
# 중첩하는 상호 유전자좌 포함 957 945
*VCRome 표적을 갖는 Ensembl75로 필터링되지 않은 18,046개의 유전자 중에서 CNV < 2 Mb만 감안함.
샘플당 평균 1.76개의 희귀한 고 신뢰성 CNV가 46.59%의 예측 전염률로 검출된다. 여기에는 샘플당 평균 0.54개의 작은(<= 3 엑손) 희귀 변이체가 포함되며, 예상 전염률은 42.17%이다. 전술한 바와 같이, CNV 카탈로그는 또한 흔한 변이체(MAF> 1 %)를 포함하는데; 샘플당 평균 6.6개의 결실과 1.7개의 복제가 관찰되었다. 이들 샘플의 하위 집합에 대해 흔한 CNV 유전자형은, 검증된 변이체의 위양성이 단 1%인 TAQMAN® qPCR을 사용하여 이전에 검증하였다(Packer JS 등의 Bioinformatics 2015; 32: 133). 샘플의 전체 세트의 경우, 29개의 흔한 변이체 유전자좌에서 이형 접합성 결손에 대한 평균 및 중간 위음성 비율은 (주어진 하디-와인버그 평형과 동형 접합성 결실의 수에 대한 예상에 기초하여) 각각 8.5% 및 1.1%로 추정하였다.
본원의 CNV 카탈로그와 이전의 보고서를 비교하고자 하였지만, 직접적으로 비교 가능한 검출 세트가 발견되지 않았다. CNV 유전자좌는 기존의 CNV 데이터베이스에서 거의 찾을 수 없다. 예를 들어, CNV 중 386개(3% 미만; 13개는 흔하고, 22개는 희귀하고, 351개는 매우 희귀한 유전자좌이며 중간 크기는 50 Kb 이하임)만이 유전체 변이 데이터베이스(MacDonald JR 등의 Nucleic Acids Research 2013; 42: D986)에서 상대(20%의 상호 중첩 기준)를 갖는다. 본원에서 관찰된 CNV 중 많은 수가 희귀하고 이전에는 관찰되지 않았겠지만, 대다수가 어레이 비교 게놈 하이브리드화(aCGH)나 SNP 칩과 같은 어레이 기반 플랫폼을 사용한 다양한 연구를 통해 기존의 데이터 세트를 컴파일하였다. 그러나, 이들 연구의 대부분은 어레이 기술의 한계(예: 프로브 밀도)로 인해 더 작은 크기의 스펙트럼에서 CNV를 식별하지 못한다. 본원에서의 데이터로 확인된 바와 같이, 칩 기반의 CNV 검출은 재현성이 약 50 Kb 미만으로 떨어지는 반면(Pinto 등의 Nature Biotechnology 2011; 29; 512; 도 32 참조), 고밀도 aCGH 접근법은 약 5 Kb 미만의 CNV를 신뢰성있게 식별하지 못한다.
CLAMMS는 높은 전염률을 갖는 CNV를 낮은 임의의 크기로(임계치는 단일 엑손까지 낮아짐) 생성하며, QC 필터는 CNV 크기에 의해 크게 바이어스되지 않는다. 그러나, SNP 어레이 상에서 표지의 분해능 때문에 PennCNV는 작은 유전자좌에서 고 정확도의 검출(즉, 고 전염률)을 달성할 수 있다. "QC 이후" PennCNV 검출 세트에는 x-축에 반영된 최소 크기 필터가 필수적으로 적용될 것이다. PennCNV에 대한 100 Kb의 고 신뢰성 크기 컷오프를 사용하는 CNV에 의해 영향을 받는 유전자의 평균 수는 개체당 ~ 3.2개의 유전자이다(2.6개는 복제로부터, 0.7개는 결실로부터 영향을 받음). CLAMMS의 경우, 고 신뢰성 검출 세트는 CNV에 의해 영향을 받는 개체당 ~14.2개의 유전자를 생성한다(4.5개는 복제에 의하고 9.7개는 결실에 의한 것임).
CLAMMS 이외의 다른 엑솜 시퀀싱 기반의 검출 방법은 샘플 코호트에 걸쳐 차수 감소 기술(예: PCA)를 사용하여 리드 깊이의 정규화에 의존하므로 흔한 변이체에 대한 검출을 생성하지 않는다. 이러한 접근법은 확장성도 제한되는데, 이는 많은 수의 샘플에 대해서는 정규화가 계산상으로 제약되기 때문이다. 따라서 이전의 시퀀싱 기반 CNV 조사(전장 게놈 및 전장 엑솜 모두)는 훨씬 작은 수의 샘플을 포함하고 있다.
멘델 유전병 표현형과 관련된 CNV
본원의 결과와 멘델 형질에 연루된 유전자좌와의 관련성을 입증하기 위해, 본 모집단에서의 알려진 질병과 연관된 CNV 세트의 관찰된 빈도가 도 33에 제시된다.
본 모집단이 실제 대조군 세트를 나타내지는 않지만, 관찰된 빈도는, 다수의 목록화된 CNV가 확인된 신경정신 병 코호트 이외의 광범위하고 우세한 유럽인 모집단에서 예상되는 복제수 변이체의 코딩 스펙트럼을 나타낼 수 있다. 본 세트는 (단일 엑슨 CNV에서 최대 1 Mb까지) 광범위한 크기 스펙트럼을 나타내는 첫 번째 대규모 엑솜 CNV 검출 세트이므로, 이러한 리소스는 멘델 CNV의 침투율 추정치를 세분화할 수 있는 기회를 제공한다.
예를 들어, 투여량 민감성 유전자 PMP22를 포함하고, 가장 흔한 형태의 말초신경증인 샤르코 마리 투드(Charcot-Marie-Tooth)병 1A형(CMT1A; MIM #118220)과 연관된 17p11.2 복제의 25개 담체를 발견하였다(Lupski, J.R. 등의 Cell 1991; 66: 219; Hoogendijk JE 등의 Lancet 1992; 339: 1081; DiVincenzo C 등의 Mol Genet Genomic Med 2014; 2: 522). 유사하게, 유전성 압박 마비 신경병증(HNPP; MIM #162500)과 관련된 상호 결실의 25개의 담체를 식별하였다(Chance PF 등의 Cell 1993; 72: 143; Chance PF, 등의 Hum Mol Genet 1994; 3:223). 이전에 1/2,500으로 추정된 질병의 유병률에 관해서는(Skre, H., Clin. Genet. 1974; 6: 98), CMT와 연관된 복제의 관찰 빈도 하나만 높다(5.2x10-4). 또한, 동일한 수의 결실 담체(MAF = 5.2x10-4)를 식별하였는데, 이는 역학 연구(Meretoja P 등의 Neuromuscul Disord 1997; 7: 529)에서 보고된 빈도 16/100,000보다 훨씬 높았다. 본원에서의 관찰은, 임상적 실체로서의 HNPP 및 이의 분자적 원인(PMP22를 포함하는 17p11.2 결실)이 동일한 빈도로 결실되고 복제되었음이 밝혀짐에 따라 역사적으로 진단되지 않았음을 확인한다. 이들 담체에서 관계의 구조를 이해하기 위해 가계 재구성 및 먼 친척 분석을 수행하였고, 그 결과 PMP22 CNV의 전염을 나타내는 다양한 가계가 존재하지만(도 34) 이들 담체를 연결하는 공통 조상은 식별되지 않음을 밝혀 냈다.
Ped8 및 Ped10에서의 PMP22 복제 담체가 4세대 전의 공통 조상으로부터 PMP22 복제를 유전받았을 수 있다는 관계 추정의 증거가 있다. 유사하게, Ped3 및 Ped4에서의 결실 담체가 4세대 전의 공통 조상으로부터 결실을 유전받았을 수 있다는 관계 추정의 증거가 있다. 그러나, 다른 복제 또는 결실 담체 중 어느 것도 공통 조상으로부터 PMP22 CNV를 유전받았다는 관계 추정의 증거는 없다. 이는 본 모집단에서 관찰된 비교적 동일한 빈도의 다수의 새로운 CNV 이벤트가 있었다는 가설을 뒷받침한다.
이는, PMP22 복제 및 결실의 전염이 본원에서 관찰되었지만, 17p11.2 복제로 인해 CMT1A의 특발성 질병의 70~80%가 새롭게 발생한다는 관찰 결과와 일관되게, 이들 게놈 재배치의 대부분이 새로운 이벤트로서 이들 가족에서 독립하여 일어날 가능성이 높았다는 것을 시사한다(Szigeti K 및 Lupski JR, Eur J Hum Genet 2009; 17: 703). 새로운 복제 및 결실의 상대 빈도를 추정하기 위해 많은 수의 독립적인 가계와 개체를 사용하면, 빈도는 이벤트 유형 간에 대략 동일하게 유지된다(복제 19개, 결실 21개; 신규 MAF는 각각 4.01x10-4 및 4.44x10-4임). 결과적으로 복제 CNV 빈도는 질병에 대한 모집단의 유병률 추정치(1/2,500)와 동일하지만, 1/23,000 내지 1/79,000 범위의 새로운 정자 기반 추정 빈도보다는 높다(Turner DJ 등의 Nat Genet 2008; 40: 90). 중요한 것은, 이들 CNV 재배치의 대부분이 신경병증 표현형을 갖는 환자에서 산발적으로 발생하기 때문에 이러한 변이체를 표식하는 SNV가 없다는 것이다. 결과적으로, 유전자형-표현형 연관성은 흔한 변이체의 연관성 연구를 통해 식별될 수 없다. 이는 신경병증을 초월한, 흔하고 복잡한 형질을 포함하는 다른 표현형에 대해서도 적용할 수 있으며, CNV를 이산된 표지로서 식별하고 표현형의 연관성을 독립하여 또는 SNV와 조합으로 탐구하는 것의 중요성이 강조된다.
뚜렷한 엑손 CNV 유전자좌의 대부분에서 변이는 극단적으로 희귀하다
뚜렷한 CNV 유전자좌 세트는 동일한 유형(결실 또는 복제)의 CNV를 적어도 50% 상호 중첩되도록 재귀적으로 병합함으로써 정의하였다. 도 35a~35c는 크기, 대립 유전자 빈도(AF) 및 개체당 예상 수에 대한 CNV 유전자좌의 분포를 나타낸다. 표 7은 CNV 검출 세트의 전장 엑솜 통계를 포함한다. 뚜렷한 CNV 유전자좌의 대부분(91%, 도 35c)의 AF는 본 모집단(< 10 담체)에서 < 0.01%이며, 절반 이상은 본 코호트에서 단일 샘플에 대해 고유한 CNV를 나타낸다.
관찰된 흔한 CNV 유전자좌(AF = 1%)의 중간 크기는 7.1 kb(결실 4.4 kb, 복제 13.4 kb)이다. 관찰된 희귀 CNV 유전자좌(AF < 1%)의 중간 크기는 17.8 kb(결실 8.4 kb, 복제 32.7 kb)이다. CNV 길이와 대립 유전자 빈도 사이에서 결실과 복제 모두에 대한 음의 로그 선형 상관관계가 관찰되었다(도 35a; 결실의 경우 p = 2.93x10-3, 복제의 경우 p = 2.07x10-2; 도 36 참조). 대립 유전자 갯수가 10개 이상인 431개의 결실 유전자좌 중 170개(39%)는 코호트에서 관찰 된 적어도 하나의 중첩 복제(50% 상호 중첩 기준)을 갖는다. 관찰된 중첩 복제를 갖는 결실 유전자좌는 이를 갖지 않는 것들 보다 더 큰 중간 크기를 갖는 반면(18.3 kb 대 7.4 kb), 관찰된 중첩 결실을 갖는 복제 유전자좌는 이를 갖지 않는 것들 보다 더 작은 중간 크기를 갖는다(20.2 kb 대 34.7 kb). 1,902개의 고유한 중첩 결실 및 복제 유전자좌 중 140개로(표 7) 이루어진 엑손 중단점의 측면에 위치하는 쌍 저복제 반복(paired low-copy repeats)을 직접 배향에서 식별하였는데(95% 이상의 서열 상동성; 5' 및 3' 중단점의 100 Kb 윈도우 내의 서열에 대해 최소 300 bp의 길이임), 이는 이러한 식별된 중첩 결실/복제 유전자좌의 분획이 비대립 유전자 동종 재조합(NAHR) 이벤트로 발생하는 잠재적으로 반복 매개된 상호적 CNV임을 시사한다(Liu P 등의 Curr Opin Genet Dev 2012; 22: 211). 단일 개체에서 엑손 CNV의 예상 수는 10개이며, 이들 중 대부분은 흔하다(AF > 1%; 도 35b 및 표 7 참조).
평균적으로, 하나의 매우 희귀한(AF <0.1 %) CNV를 단일 개체의 엑솜에서 관찰하였고, 7개체 중 대략 1개체는 (코호트 대비) 이들의 엑솜에 대해 고유한 적어도 하나의 CNV를 포함한다. 희귀 결실에 대한 희귀 복제의 비율(AF < 1%인 절대 수치이며, 유전자좌 수가 아님)은 1.6:1이다. 결실은 유전자좌가 제한되어 있으며 일배체 결핍을 통해 포함된 유전자 또는 유전자들에 명확한 기능 상실 유전적 영향을 미칠 수 있지만, 분류로서의 복제는 일반적으로 유전 물질의 손실이 없기 때문에 유해하지 않은 것으로 간주된다. 그러나, 유전자 투여량 변경, 조절 요소 및 조절 요소가 조절하는 유전자의 공간적 파괴, 및 (유전자 내에서 순차적으로 발생하는 경우의) 유전자 융합과 같은 다수의 메커니즘을 통하면 복제도 매우 유해할 수 있다. 또한, 게놈의 또 다른 영역에의 삽입 복제로서 이벤트가 발생할 때, 복제는 다른 유전자를 파괴할 수 있다. 단지 작은 분획(2~3% 이하)의 복제만이 삽입 이벤트로서 발생하고 대다수는 일렬로 일어나는 것이 관찰되었는데(Newman, S 등의 Am J Human Genetics 2015; 96 : 208), 이는 복제의 기능적 영향을 평가하기가 어렵긴 해도, 복제의 기능적 효과가 보다 국지화되고 어쩌면 더 잘 견딜 수 있다는 것을 암시한다.
전체적으로 13,170개의 유전자가 2 Mb 미만의 길이를 갖는 적어도 하나의 CNV에 의해 영향을 받는데, 이는 전체 검출 가능한 유전자 세트의 약 73%를 나타낸다(엑솜 포착 표적을 가진 ENSEMBL75에서 필터링되지 않은 18,048개의 유전자). 복제 유전자좌는 결실보다 다수의 유전자좌에 걸쳐 있을 가능성이 높은데(47.7% 대 26.1%, p = 3.11x10-145; 표 7), 이는 다수의 유전자를 결실하는 것이 복제하는 것보다 일반적으로 더 해롭고, 이에 대항해 복제가 선택되었음을 시사한다. 그럼에도 불구하고, 복제 유전자좌의 46.5%와 결실 유전자좌의 68.0%가 임의의 유전자의 전체와 중첩되지 않으며, 각각 23.8%(복제)와 46.2%(결실)는 임의의 유전자의 절반과도 중첩되지 않는다. 따라서, 대부분의 엑손 CNV는 유전체 단위가 비교적 짧으므로, 전체 크기 범위에 걸쳐 고해상도인 CNV 검출자의 중요성이 강조된다.
엑손 복제 및 결실의 일반적인 기능 상실 특성은, 엑솜 집합체 컨소시엄(Exome Aggregation Consortium)에 의해 제공된 기능 상실 불내성(pLI) 측정법의 해당 확률에 유전자에서 CNV의 관찰 빈도(유전자의 적어도 하나의 엑손과 중첩하는, 길이가 2 Mb 미만인 CNV의 수)를 비교하는 것에 의해 특정화시켰다(ExAC 릴리즈 v0.3 (Lek 등의 (2016) Analysis of protein-coding genetic variation in 60,706 humans. Nature 536, 285-291); N = 17,367의 유전자가 데이터 세트 간에 비교 가능함). 결실과 복제 모두에 대한 CNV 빈도와 pLI 사이에서 음의 상관관계가 관찰되지만(스피어만 랭크 상관관계: 복제의 경우 ρ = -0.082, p = 2.36x10-27; 결실의 경우 ρ = -0.276, p = 2.49x10-300임), 음의 상관관계는 결실에 대해 유의하게 더 강하다(피셔의 상관관계 계수의 Z 변환, Z = -18.799, p = 5.03x10-78). 기능 손실 SNV에 가장 내성이 있는 유전자는 복제와 결실 모두에 대해 유사하게 적어도 하나의 관찰된 CNV를 가질 가능성이 매우 높았다(기능 상실에 가장 내성이 있는 유전자 100개 중 각각 76개와 83개). 그러나, 기능 상실 SNV에 가장 내성이 없는 유전자에서는 복제가 빈번하게 관찰되었지만, 결실은 드물게 관찰되었다(기능 상실에 가장 내성이 없는 유전자 100개 중 각각 63개와 26개). pLI가 90% 이상(랭크 = 14,158)인 제시 임계 값을 사용하여 기능 상실 내성을 정의한 결과, 기능 상실 내성 유전자의 57.6%에서 복제가 관찰된 것에 비해 21.2%에서만 결실이 관찰되었다.
도 37은 pLI 측정법(큐빅 스플라인 기저를 갖는 일반화된 가법 모델)에 의한 랭크에 대해 상대적으로 유전자에서 적어도 하나의 복제 또는 결실을 관찰할 확률을 추정한다. SNV 기능 상실 내성 확률에 의해 랭크된 유전자(pLI; ExAC v0.3)는 동일한 유전자에서 CNV를 관찰할 관찰 확률과 상관관계가 있다. 기능 상실(LoF)에 가장 내성이 있는 유전자에서는 결실과 복제가 관찰되었을 가능성이 가장 크다. 그러나, pLI 랭킹 임계 값이 약 2,500보다 높은 경우, 유전자에서 관찰된 복제율은 기능 상실 내성과 무관하게 약 60~70%로 일관되게 유지된다. 반대로, 결실이 관찰된 유전자의 빈도는 기능 상실 내성과 관련하여 지속적으로 감소하며, 기능 상실 내성이 가장 없는 유전자 중 약 20~25%만이 코호트에서 임의의 관찰된 결실을 갖는다.
도 38a도 38b에서, 기능 손실 내성이 없는 유전자가 풍부하거나 고갈된 유전자 세트로서, 또한 예상에 비해 풍부하거나 고갈된 CNV 빈도를 종종 나타내는 유전자 세트가 도시된다.
도 38a에 도시된 바와 같이, CNV 빈도와 기능 상실 불내성 간의 상관관계 또한 크기에 의해 영향을 받는다. CNV 유전자좌를 작은 크기(<10Kb)의 빈, 중간 크기(10-50Kb)의 빈, 및 큰 크기(50Kb-2Mb)의 빈으로 나누고 각 하부 집합 간의 상관관계를 검정하였다. 도 38b에 도시된 바와 같이, 모든 CNV/크기 조합에 대해 CNV 빈도와 pLI 사이에서 음의 상관관계가 관찰되었지만, 크기는 결실에 대한 상관관계에 가장 큰 영향을 미쳤다. 복제의 경우, 상관 계수는 ρsmall = -0.065, ρmedium = -0.057, 및 ρlarge = -0.049인 반면, 결실의 경우 ρsmall = -0.247, ρmedium = - 0.176, 및 ρlarge = -0.115인 상관 계수를 나타냈다. 따라서 기능 상실 불내성은 모든 CNV에 대한 불내성과 일반적으로 연관되지만, 전체적으로 복제가 결실에 비해 더 내성이 있고 큰 CNV가 작은 CNV보다 더 내성이 있다.
CNV와 SNV 사이의 연관 불평형은 HMGCR 포함하는 내재 결실을 갖는 신규한 순차 복제를 식별한다
일배체 내의 독립적인 CNV를 나타낼 수 있는 연관 불평형에서 CNV 쌍을 식별하거나, 대안적으로, 리드 깊이 기반의 CNV 검출의 제한으로 인해 독립적인 이벤트로서 나타나는 개별 복합 구조 변이체를 식별하기 위한 분석을 수행하였다. 최근의 조사에서는, 인접 복제를 갖는 반전, 복제 이벤트/반전 삼복제 이벤트/복제 이벤트(Carvalho 등의 Nat Genet 2011; 43: 1074), 내재 결실을 갖는 복제(Brand H 등의 Am J Hum Genet 2015; 97: 170), 및 복제되고/되거나 반전된 삽입을 포함하는 복합 결실(Sudmant PH 등의 Nature 2015; 526: 75)을 포함하여, 상당한 빈도로 나타나는 구조적 변이체의 복잡한 분류가 식별되었다. r2가 0.2 이상인 5 Mb의 윈도우 내에서 링크된 33쌍의 이벤트를 식별하였다.
대응하는 유전자형 SNP 어레이 데이터(34,246 개체)를 갖는 코호트의 하위 집합을 사용하여, 이러한 개념을 CNV-SNV 결합으로 확장시키고, 엑손 CNV를 표지하는 알려진 SNV를 식별하기 위한 분석을 수행하였다. 이러한 경우에는, 검출되지 않은 CNV에 의해 유도되는 기능적 영향을 가진 표현형과 연관되는 GWAS 히트 및 기타 관심 SNV가 포함될 수 있다. 상기 분석에는 892,083개의 SNV(대립 유전자 빈도가 0.0% 내지 0.5%임)와 7,444개의 CNV 유전자좌(대립 유전자 빈도가 0.00003% 내지 0.3593%임)를 포함시켰다. 2 Mb의 윈도우 내에서, 총 35개의 CNV(r2 > = 0.2)를 태그하는 94개의 SNV(마이너 대립 유전자 빈도는 4.8x10-5 내지 0.49 범위임)를 식별하였다. 이러한 연관 맵은 SNV에 의해 태그가 지정되는 연관성을 해부하기 위한 리소스로서 일반적인 효용을 가지지만, CNV의 대다수가 SNV에 의해 태그가 지정되지 않는 것이 이러한 결과로부터 분명하므로, CNV 데이터의 가치를 강조한다.
(총 918,320개의 변이체에 걸쳐) 변이체 누락이 1% 이상인 샘플을 필터링한 후, 칩 데이터를 갖는 31,211/34,246 개체를 SNR과 CNV 사이의 연관 불평형(LD) 분석을 위해 고려하였다. 이러한 세트의 경우, 유전자형 분석율은 99.5%였다. 1%의 최대 유전자형 누락 필터는 마이너 대립 유전자 빈도가 0~0.5 범위이고, 중앙 값이 0.136이고, 중간 값이 0.171인 892,083개의 변이체로 변이체 수를 감소시켰다. SNV를 7,444개의 CNV와 병합한 후(MAF=0.0000313-0.3593, 중앙 값 0.0000627, 중간 값 0.00149, 최소 MAC=3, 최대 MAC=34,400, 중앙 값=5, 중간 값=142), LD를 PLINK로 계산하였다.
복합 구조 변이체를 나타내는 연관 CNV 유전자좌의 가능성을 조사하기 위해, SV2C(단일 엑손 유전자; 담체 24개) 및 GCNT4(담체 23개)를 포함하여 24개의 개체 사이에서 거의 완벽한 연관 불평형 상태에 있는(r2 = 0.958, D' = 1) 2개의 신규한 복제에 초점을 맞추었다. HMGCR의 양측 중 하나에 있는 이들 유전자좌의 배향을 고려하여, 이들 유전자좌는 HMGCR을 포함할 수 있는 단일 이벤트의 일부라는 가설을 세웠다. 이러한 가설을 하나의 담체의 전장 게놈 시퀀싱을 통해 확인함으로써, 재배치의 중단점을 정확하게 맵핑할 수 있었다. 약 1.5 Mb인, 영역의 큰 순차 복제(hg19:g.chr5:74177861-75690164)를 식별하였는데, 이 중 약 600 Kb는 내부 영역의 내재 결실이었다 (hg19:g.chr5:74592844-75189858). 생성된 유전자형은 SV2C , GCNT4 및 예측 유전자 ANKRD31의 3카피를 포함하지만, HMGCR , COL4A3BP , POLK , ANKDD1BPOC5는 내재 결실로 인해 이배체로 유지된다(도 39).
전장 게놈 시퀀싱을 통해, HMGCR을 가로지르는 내재 결실을 갖는 순차 복제인 2개의 관련된 구조 변이체의 중단점을 식별하였다. 분할된 리드 정렬(도시됨) 및 불일치 맵핑 메이트 페어(mate-pair) 리드(미도시)를 통해 다음과 같은 두 이벤트 모두를 둘러싸는 미세상동성을 식별하였다: 27nt Alu 반복 하위 서열(녹색; 순차 복제), 및 간단한 3nt T 반복(적색; 내재 결실). 특히, 가장 간략한 설명은 내재 복제가 복제 매개 결실을 나타내는 복제 카피(3' 카피에 도시됨) 내에서 발생하지만, 반대 배향(5' 카피 내의 결실)은 배제할 수 없다는 것이다.
QC 필터를 통과하지 못한 구조 변이체의 하나의 추가 담체 및 하나의 GCNT4 복제를 식별하여, 전체 담체 수가 25가 되었다.
지질 형질에 대한 LDLR 에서의 희귀 복제의 신규한 연관성
표현형 연관성 맵핑을 위한 흔한 복제수 변이체 및 희귀 복제수 변이체의 리소스의 사용을 입증하기 위해, 허혈성 심혈관 질환에 대한 유전적 위험 인자인 혈청 지질의 전장 엑솜(전장 CNV) 연관성 연구를 수행하였다. 관상 동맥성 심장 질환에 대한 이들 지질 관련 변이체의 침투성도 평가하였다. 구체적으로, 모든 CNV 유전자좌를 49,675명의 개체 중 하위 집합에서 지질 강하 약물의 사용을 위해 조정된 공복 혈청 지질 수준(HDL-C, LDL-C, 총 콜레스테롤 및 중성지방)과 비교하였다. 본페로니(Bonferroni) 교정된 1.2x10-5의 유의성 임계치를 사용해 지질 수준과 유의하게 연관된 3개의 CNV 유전자좌를 밝혀냈다(표 8).
[표 8. 복제수 변이체가 지질 레벨과 유의적으로 연관된 유전자좌]
CHR 19 19 19 16
BP1 11230767 11230767 54801926 15125591
BP2 11241993 11241993 54804607 16292040
크기 11227 11227 2682 1166450
유형 DUP DUP DEL DUP
BETA* 1.715 1.377 0.05285 -0.4617
SE* 0.2357 0.2357 0.01037 0.09467
P* 3.55E-13 5.23E-09 3.52E-07 1.09E-06
A1FREQ 0.000256717 0.000254914 0.169554 0.00158309
NMISS* 35065 35313 35444 35065
Beta-LMM 1.73379 1.38355 0.0520635 -0.439315
SE-LMM 0.234111 0.234806 0.0103203 0.094804
P-값, BOLT-LMM 1.30E-13 3.80E-09 4.50E-07 3.60E-06
유전자 LDLR LDLR LILRA3 NDE1,RRN3,etc
형질 LDL TCHOL HDL LDL
Beta-LMM (mg/dL) 76.1689 60.8742 0.652206 -14.0667
식별된 가장 유의한 CNV-지질 연관성은 고 LDL 콜레스테롤(
Figure pct00001
=1.73 [76 mg/dl], p=1.3x10-13) 및 높은 총 콜레스테롤(
Figure pct00002
=1.38 [61 mg/dl], p=3.8x10-9; 표 8 참조)과 연관된 저밀도 지단백질 수용체 유전자 LDLR(18 엑손 유전자)의 엑손 13~17의 신규 복제였다. 이 복제는 LDL 수용체 단백질의 막관통 도메인에 해당하는 엑손을 포함하는 24개의 담체에서 식별하였다. 본 이벤트의 추가적인 기능적 특성 분석이 이러한 연관성에 기계론적 설명을 제공할 것이지만, 순차 복제가 막관통 도메인의 안정성을 타당하게 파괴하여 이러한 복제수 이벤트의 담체에서 LDLR의 기능 상실을 야기할 수 있다는 가설을 세웠다.
구조 변이체를 확인하고 정확한 중단점을 식별하기 위해 하나의 복제 담체의 전장 게놈 시퀀싱을 수행하였다(방법 참조). 불일치 맵핑된 메이트 페어 및 분할된 리드를 통해, 11.4 Kb의 LDLR 유전자 내 영역(GRCh37/hg19 g.chr19:11229700-11241173)에 걸쳐 순차 복제가 일어난다는 것을 확인하였다. 중단점 맵핑 및 시퀀싱은, 이벤트가 3 bp의 공유 미세상동성을 갖는 인트론 12 및 17( 31 40; 중단점은 CLAMMS 검출을 지원함)에서의 2개의 Alu 반복 서열의 맥락에서, 중단 시에 발생한 것으로 밝혀냈다. 결과적인 mRNA의 예측된 번역은 복제가 인프레임에서 일어난다는 것을 시사하지만, 수용체의 구조에서 이러한 복제의 효과는 알려지지 않았다. 몇 개의 복제수 변이체가 이전에 LDLR(Leigh 등 2008)에서 보고되었지만; 이러한 특정 복제는 신규한 것으로 보인다.
별도의 연구에서, SLC44A2(약 500 kb 거리)의 시작 코돈 상실 SNV는 LDLR 복제 CNV과 완벽한 연관 불균형 상태이 있은 것으로 식별되었다(1:1 대응). 이는, 구조 변이체가 유발체(driver)일 가능성이 가장 높은 LoF 구조 변이체를 태그하는 LoF SNV의 경우를 나타내지만, CNV 데이터가 없는 경우 SLC44A2를 범인 유전자로 잘못 식별하는지를 분석한다. 이러한 태그화 SNP를 가이드로서 사용하여, 고 신뢰성의 정확성 필터를 통과하지 않은 CNV 검출 및 복제수 변이체에 대해 위음(false negative)인 단일 추가 담체를 가진 추가적인 4개의 담체를 식별하였다. 대응하는 유전자형 어레이 데이터를 가진 20개의 캐리어에 대해서, PennCNV(Wang K 등의 Genome Research 2007; 17: 1665)는 전장 게놈 서열 검증에 사용된 하나의 담체만을 검출할 수 있었다.
Ped8 및 Ped10에서의 PMP22 복제 담체가 4세대 전의 공통 조상으로부터 PMP22 복제를 유전받았을 수 있다는 관계 추정의 증거가 있다. 유사하게, Ped3 및 Ped4에서의 결실 담체가 4세대 전의 공통 조상으로부터 결실을 유전받았을 수 있다는 관계 추정의 증거가 있다. 그러나, 다른 복제 또는 결실 담체 중 어느 것도 공통 조상으로부터 PMP22 CNV를 유전받았다는 관계 추정의 증거는 없다. 이는 본 모집단에서 관찰된 비교적 동일한 빈도의 다수의 새로운 CNV 이벤트가 있었다는 가설을 뒷받침한다.
또한, 개별 PennCNV 검출에는 단지 8개의 표지만 포함시켰고, 엑손 16 및 17은 제외시켰다. 이러한 데이터는 유전자형 어레이가 이러한 복제 및 지질 연관성을 식별하는데 필요한 민감도를 가지지 않는다는 것을 시사한다. 전장 게놈 검증된 중단점 서열을 가이드로서 사용하여, PCR 프라이머를 삽입된 서열의 5' 말단 주변의 작은 영역을 위해 설계하였고, 생거(Sanger) 시퀀싱을 사용하여, 29개 담체 중 26개 모두에서 충분한 DNA와 함께 복제가 존재함을 검증하였을 뿐만 아니라 6개의 음성 대조군(비담체 및 기타 LDLR 이벤트와 관련됨)에서 복제가 부재함을 검증하였다.
관상동맥 질환(CAD)에 대한 이러한 복제수 변이체의 침투성은, 혈관 조영 및 진단 코드 기준(Dewey 등의 2016, In Press)의 조합을 사용하여 정의된 12,298명의 환자와 35,128건의 대조군에서 조사하였다. 이러한 분석에서, LDLR 복제는 현저히 증가된 CAD 위험과 유의하게 연관되었다(OR = 5.01, p = 6x10-4). 완전한 담체 세트에 PRIMUS(Staples J 등의 Am J Hum Genet 2014; 95: 553)를 사용하여, 21/29개의 LDLR 복제 담체가 포함된 IBD 추정치(3촌 친척까지)에 기초하여 10개의 가계를 재구성하였다. 8개의 추가 담체 모두를 비롯하여 9/10 가계를 27/29개의 담체 및 적어도 6세대를 거스르는 공통 조상을 포함하는 단일 대규모 추정 가계에 연결하기 위해 먼 친척 분석을 수행하였다(도 40).
시퀀싱된 코호트로부터 LDLR 엑손 13~17 및 10개의 영향받지 않은(1촌 또는 2촌) 개체의 신규 복제의 22/29 담체를 함유하는 가계를 재구성하였다. 본 가계 추정에서 제외된 7개의 담체 중 5개 또한 본 가계와 먼 친척 관계인 것으로 예측된다. 나머지 2개의 담체는 먼 친척 관계일 가능성이 있지만, 관계를 이용 가능한 데이터로 신뢰성있게 추정할 수 없었다. 높은 LDL 수치(p=1.3x10-13)와 IHD 관련 진단(p=6.1x10-4)은 복제 담체와 분리되어 가족성 고콜레스테롤혈증(FH)의 신규한 원인을 제시한다.
이러한 확장된 가계에서, 높은 LDL 및 15/29 돌연변이 담체와 분리된 돌연변이는 국제 질병 분류, 제9판(ICD-9) 진단 코드 410*~414*에 정의된 바와 같은 허혈성 심장 질환(IHD)을 가졌다. 또한, IHD를 가진 11/15 돌연변이 담체는 조기 발병 IHD(IHD 코딩의 첫 번째 발병 당시에 55세 미만인 남성 및 65세 미만의 여성의 정의됨)로 나타났다. 대조적으로, 3/10 관련된 비담체는 IHD 병력이 있었고, 단 한 명만이 조기 발병 질환으로 나타났다. 가족성 고콜레스테롤혈증 (FH) 환자에서 LDLR이 빈번히 돌연변이 되었고(Leigh SE 등의 Ann Hum Genet 2008; 72: 485), 이러한 변이체를 상당히 증가된 LDL, CAD 위험 및 조기 발병 IHD의 높은 비율에 따라 분리하는 대규모의 확장된 혈통이 식별되었다면, 이것이 신규한 FH 유발 CNV일 수 있는 것으로 결론이 난다.
LILRA3 에서 흔한 결실과 지질 형질의 신규한 연관성
다음으로, 백혈구 면역 글로불린(Ig) 유사 수용체 A3 유전자(LILRA3)에서의 흔한 결실(대립 유전자 빈도 17% 이하)을 HDL 수준의 증가와 연관시켰다(
Figure pct00003
=0.05 [0.65 mg/dl], p=4.5x10-7). 관상 동맥 질환의 발생률에는 유의한 차이가 관찰되지 않았다. LILRA3의 미세결실은 흔하며 모집단 간에 높은 유전적 다양성을 가진다. 이의 대립 유전자 빈도는 유럽인에게서는 이전에 17%로 추정되었는데, 이는 (Hirayasu K, Arase H, Journal of Human Genetics 2015; 60)에서의 관찰과 일치한다. 이러한 미세결실은 다발성 경화증(Ordonez D 등의 Genes and Immunity 2009; 10: 579), 류마티스성 관절염, 루푸스 및 전립선 암을 포함하는 질병과의 연관성에 대해 이전에 조사되었다(Hirayasu K, Arase H, Journal of Human Genetics 2015; 60). LILRA3에 인접한 GWAS 히트가 HDL 수준과 연관되어 있는 반면(Teslovich 등의 Nature 2010; 466, 707), 이러한 LILRA3 CNV와 지질 표현형 사이의 연관성은 확인되지 않았다. 본원에서의 CNV-SNV 연관 불평형 분석은 높은 누락으로 인해 이러한 SNV를 배제하였지만, 연관의 직접 연산은 결실과 SNV가 실제로 연관되어 있음을 시사한다(r2 = 0.77, D' = 0.959). 따라서 미세결실은 SNV에 의해 태그화되는 동안 HDL 효과를 유도할 가능성이 있으며, 이는 CNV 검출을 위한 기존 기술의 한계로 인해 이전에 만들어지지 않은 관찰이다.
LILRA3 미세결실은 역사적으로 PCR을 통해 정량화되었으며, 최근에는 대규모 전장 게놈 시퀀싱 연구의 맥락에서 정량화되었다. 그러나, 이러한 결실의 크기 및 대립 유전자 빈도는 엑솜 시퀀싱 데이터로부터 식별하는 것을 특히 어렵게 만든다. 본원에서의 결과는 CLAMMS를 사용하여 엑솜에서 임상적으로 관련된 작고 흔한 CNV를 식별할 수 있는 가능성을 입증한다. TAXMAN® 정량적 중합 효소 연쇄 반응(qPCR)을 사용하여 69개의 담체에 대해 이러한 유전자좌에서 CLAMMS에 의해 수행된 복제수 검출은 이전에 검증되어, 100% 민감성과 특이성을 입증하였지만 다른 엑솜 기반 CNV 검출자는 유전자좌에서 복제수를 정확히 식별할 수 없었다(Packer JS 등의 Bioinformatics 2015; 32: 133). 이러한 CNV 또한 어레이에 의해 검출될 수 없었는데; PennCNV는 전체 코호트에서 2개의 담체만을 검출하였다(50%의 상호 중첩 기준). 높은 신뢰도의 CLAMMS 검출 세트에서, 이러한 결실은 61.7%(흔한 변이체의 경우 50%를 초과하는 전염률이 예상됨)의 관찰된 전염률을 가졌다.
마지막으로, 전술한 HMGCR을 둘러싼 복합 구조 변이체(도 39)의 담체의 지질 프로파일을 조사하였고, 이러한 구조 변이체의 담체에서 높은 LDL과의 한계 연관성이 관찰되었다(p = 3.1x10-4). 이러한 연관성은 전장 엑솜 유의성을 통과할만큼 충분히 강력하지 않았지만, 구조 변이체가 HMGCR 발현에 영향을 미칠 수 있다는 가설이 성립한다. 담체 간의 IHD 발병률의 차이는 식별되지 않았다(p = 0.66).
추가 담체 및 영향을 받지 않은 개체의 식별은 지질 형질과 심혈관 표현형의 연관성을 시험하기 위한 더 큰 표본 크기를 제공할 것이다. PennCNV는 칩을 가진 18/18개의 샘플에서 2개의 복제 단편(GCNT4 단편: 약 400 Kb 이상, 약 115개의 표지, SV2C 단편: 약 500 Kb 이상, 약 175 표지)을 모두 감지하여 - 더 큰 이벤트에 대한 어레이 데이터의 민감도 향상을 강조하였지만(도 39) - 샘플 크기를 증가시키기 위한 임의의 추가 담체를 발견하지 않았다.
전장 게놈 시퀀싱을 통해, HMGCR을 가로지르는 내재 결실을 갖는 순차 복제인 2개의 관련된 구조 변이체의 중단점을 식별하였다. 분할된 리드 정렬(도시됨) 및 불일치 맵핑 메이트 페어(mate-pair) 리드(미도시)를 통해 다음과 같은 두 이벤트 모두를 둘러싸는 미세상동성을 식별하였다: 27nt Alu 반복 하위 서열(녹색; 순차 복제), 및 간단한 3nt T 반복(적색; 내재 결실). 특히, 가장 간략한 설명은 내재 복제가 복제 매개 결실을 나타내는 복제 카피(3' 카피에 도시됨) 내에서 발생하지만, 반대 배향(5' 카피 내의 결실)은 배제할 수 없다는 것이다.
가설이 사실인 경우, 가장 간략한 설명은 변이체가 HMGCR 조절을 파괴한다는 것이다. 그러나, SV2C , GCNT4 및/또는 ANKRD31의 유전자 투여 효과는 배제할 수 없다.
본 연구는 광범위한 임상 집단에서 엑솜 데이터를 사용하여 평가된 흔한 복제수 변이체 및 희귀 복제수 변이체에 대한 조사를 제공하고, EHR 내에 포함된 건강 정보의 맥락에서 유전자 변이를 분석하는 것의 유용성을 입증한다. 건강 및 질병과의 연관성에 대해 아직 충분히 조사되지 않은 이러한 연구 모집단에서 게놈 변이의 실질적인 원천을 대표하는 포괄적인 CNV 카탈로그가 본원에 제공된다. 스펙트럼의 희귀성 부분에 있어서, 크기 및 돌연변이 불내성 유전자에 대한 영향에 있어서 복제의 유의한 차이를 결실과 비교하여 관찰하면 복제가 훨씬 더 내성이 있다는 것을 알 수 있다. CNV 및 CNV를 태그하는 SNV 둘 모두에 대한 연계 불평형 맵을 생성함으로써, 연관성 결과에 대한 깊은 이해를 돕는 리소스가 제공되며, SNV 데이터로부터의 전가(imputation)에 의해 CNV 편차를 거의 평가할 수 없다는 것을 알 수 있다. 혈청 지질 형질에 대한 집중 분석을 통해 CNV 및 질병 연관성에 대한 보다 광범위한 심문을 위한 가치 및 개념 입증을 제공할 수 있음이 본원에서 강조된다. 전례가 없는 것은 아니지만, LDLR에서의 복제수 변이체는 가족성 고콜레스테롤혈증의 연구되지 않은 원인을 나타낸다. 1,749개의 샘플 중 1개 이하로 존재하며, 설명되고 철저히 특성화된 엑손 13~17 복제는 본 코호트에서 관찰된 전체 FH 돌연변이율의 대략 10%를 나타낸다. FH 연관 변이체의 유병률은 약 1:215이다(Dewey F 등, 출판 중). LDLR 재배치(Leigh 등, 2008)와 관련된 다른 보고서와 조합한 이러한 데이터는 구조 변이체가 전체 FH 환자 중 유의한 부분을 차지할 수 있다는 것을 시사한다. 다양한 모집단에서 높은 LDLR 수치를 나타내는 개체의 LDLR에 대한 추가 시퀀싱 및 CNV 분석은 추가적인 원인이 되는 복제수 변이체를 밝혀내고, 가족성 고콜레스테롤혈증의 진단률을 향상시키고, 궁극적으로 환자 치료에 대한 정보를 제공할 수 있다.
약 600 Kb의 내재 결실과 함께 약 1.5 Mb의 순차 복제가 HMGCR 이배체를 남기지만 발현을 타당하게 방해하는 HMGCR을 둘러싸는 복합 구조 변이체뿐만 아니라 흔한 LILRA3 미세결실과 HDL 콜레스테롤 수치 사이의 신규한 연관성도 식별하였다. 이러한 변이체를 높은 LDL 콜레스테롤과 한계치로 연관시켰지만(p=3.1x10-4), 전장 엑솜 유의성을 통과하지 못했다. 시퀀싱된 코호트에 적은 수의 담체가 있는 경우, 추가 담체 및 영향을 받지 않은 관련 개체의 식별은 이러한 변이체의 잠재적 표현형 효과를 조사하기 위한 보다 큰 샘플 크기를 제공할 것이다. 16p13.11에서 복제와 LDL의 감소 사이에 신규한 연관성이 식별되었는데(표 8;
Figure pct00004
=-0.44 [-14 mg/dl], p=3.60x10-6), 이는 결실이 간질 경련과 연관되는 유전자좌이다(Heinzen EL 등의, Am J Hum Genet 2010; 86: 707).
이러한 연관성은 명확한 생물학적 또는 기능적 설명을 가지지 않는 반면, 약 1.2 Mb 복제에는 이전에 유전자 발현 효과를 통해 콜레스테롤 수준 및 스타틴 치료에 연관되었던 ABCC1이 포함된다(Celestino 등, 2015; Rebecchi 등, 2009). 또한, CLAMMS는 이전에 관찰된 LDL 및 총 콜레스테롤 증가와의 연관성의 방향성을 반복하기에 충분한 약 1.6 Kb의 흔한 CNV를 HP에서 검출한다는 것을 보여준다(Boettger LM 등의 Nat Genet, 2016; 1-9). 이러한 유전자좌의 완전한 특성 분석에는 (단일 뉴클레오티드 분해능을 포함하는) 완전한 일배 체형의 해부가 필요한 반면, CLAMMS는 단일 매핑 가능 엑손(mappable exon)을 통해 엑솜 서열 리드 깊이로부터 이러한 CNV를 직접 식별할 수 있음을 보여준다.
최근에, qPRR-기반 접근법을 사용하여 264개의 개체에서 HP에 대해 내부에 있는 약 1.7 Kb의 복합적이고 흔한 복제수 변이체를 둘러싸는 일배체형을 특성화하고, 20,000개보다 많은 개체에 대해 SNV를 전가하였다(Boettger LM 등의 Nat Genet, 2016; 1-9). 저자들은 LDL과 총 콜레스테롤 감소와의 연관성을 보고했다(둘 모두에 대해
Figure pct00005
Figure pct00006
-0.1임). 이러한 2개의 엑손 반복 유전자좌(엑손 3~4 & 엑손 5~6)의 복잡성은 엑손 복제수 계산만으로는 평가하기 어려운 반면(엑손 2, 6, 7만이 75% 이상인 맵핑 가능 임계치를 통과함), 이러한 변이체의 빈번한 결실과 복제를 엑손 6의 단일 엑손 검출에 기초하여 식별하였다. HDL 증가(
Figure pct00007
=0.15 [1.5 mg/dl], p=1.9x10-3) 및 중성지방 감소(
Figure pct00008
=-0.12 [-11.0 mg/dl], p=1.5x10- 2)와의 한계(전장 엑솜 유의적이지 않음) 연관성을 복제의 담체에서(N=571) 관찰하였지만, 결실과 관련해서는 유의한 연관성이 관찰되지 않았다. 그러나, 결실은 크기 및 맵핑 가능성 문제로 인해 빈번하게 낮은 신뢰도로 필터링된다는 것을 관찰하였다. 따라서, 비이상치(non-outlier) 샘플에서 필터링되지 않은 검출 세트에 대한 연관성을 재분석하고 두 가지 연관성 모두의 방향성을 LDL 감소(
Figure pct00009
=-0.03 [-1.3 mg/dl], p=1.7x10-2) 및 총 콜레스테롤 감소(
Figure pct00010
=-0.02 [-1.1 mg/dl], p=5.0x10-2)와 함께 약 12%의 추정 대립 유전자 빈도로 복제하였다. CLAMMS가 이러한 복합 일배체형을 기존의 qPCR 기반 접근법의 분해능까지 유전자형을 분석하여, 왜 연관성이 전장 엑솜에서 유의하지 않은지 추정적으로 설명할 수 있다고 여기지지 않는 반면, 이러한 실시예는 기존 기술로는 이전에는 달성할 수 없었던, 작고 복잡한 CNV에 대한 CLAMMS의 민감도를 강조한다.
본원에서 전장 엑솜 CNV 대립 유전자 빈도에 대해 제공된 자료는 희귀 질환 및 흔한 질환에 대한 향후 연구에서 관심 표현형과의 연관성을 검출하기 위한 샘플 크기 요구 사항을 평가하는 데 유용할 수 있다. 구별되는 CNV 중 90% 초과가 10,000개의 개체에서 1 미만으로 존재한다는 것을 밝혀냈다. 따라서, 극단적으로 큰 대조군이 표현형 연관성을 정립하기 위해 필요하다.
마지막으로, CNV 검출 파이프라인에 사용된 방법은 최첨단 기술에 대한 몇 가지 개선 사항을 제공하는데, 상기 방법은 복제수 변이체의 향후 연구에 유용할 수 있다. 재구성된 가계에서 전염률을 평가하는 것은 본인의 데이터에 대한 CNV 검출 알고리즘의 성능을 평가할 수 있게 하는데, 이는 알고리즘과 함께 공개된 데이터에 대한 알고리즘의 성능과 유의하게 상이할 수 있다. 또한, 위양 검출을 식별하기 위한 SNP 유전자형 분석 정보의 사용과 같은 정확도 제어 절차를 조정하는 것이 유용하다.
본원의 데이터가 나타내는 바와 같이, 유전자형 칩 상의 표지 밀도는 불충분하거나 인간의 복제수 변이체의 전체 스펙트럼을 특성화시킨다(도 32). 전장 게놈 시퀀싱의 편재성이 증대되고, 희귀한 질병과 흔한 질병 모두에서 CNV의 연루를 암시하는 실질적인 문헌이 주어짐에 따라, CNV 검출을 표준 생물 정보학 파이프라인에 포함시키는 것은 오래 전에 이루어졌어야 하는 일이다.
실시예 3
SERPINA1 PI*Z 이형접합성 및 폐 및 간 질환에 대한 위험
SERPINA1(PI*Z; rs28929474)에서 Z 변이체에 대한 동형접합성은 만성 폐색성 폐질환(COPD) 및 간 질환의 위험 증가와 함께 알파-1-항트립신(AAT) 결핍을 초래한다. PI*Z에 대한 이형접합성이 질병의 위험을 일으키는 것으로 의심되는 반면, 그 역할은 확실하게 정립되어 있지 않다. 개시된 시스템 및 방법은 임상 진료 코호트에서 폐 및 간 질환과 PI*Z 이형접합성의 연관성을 결정하는데 사용되었다.
유럽인을 조상으로 둔 49,176명의 시퀀싱된 성인에서, AAT(n = 1,360), 알라닌 아미노전이효소(ALT; n = 43,458), 아스파테이트 아미노전이효소(AST; n = 42,806), 알칼리성 인산가수분해효소(ALP; n = 42,401), γ-글루타밀 트랜스퍼라제 (GGT; n = 3,389) 및 폐활량 측정법(n = 9,825)의 EHR 추출 측정치와 PI*Z 이형접합성과의 연관성을 조사하였다. PI*Z 이형접합성은, ICD9 진단 코드에 정의된 바와 같은 알코올성 간 질환(n = 197) 및 비알코올성 간질환(n = 3,316), 천식(n = 7,652), COPD (n = 6,314), 및 폐기종의 COPD 특이적 진단(n = 1,546) 및 만성 기관지염(n = 2,450)에 대해서도 검정하였다.
코호트에는 1,669명의 이형접합성 PI*Z 담체가 있었다. PI*Z에 대한 이형접합성은 AAT의 46% 감소(p = 9.57x10-53), 및 ALT 수치의 증가(2 %; p = 7.22x10-15), AST 수치의 증가(1.5 %; 3.73x10-18) 및 ALP 수치의 증가(5.9 %; 1.56x10-25)와 연관되었다. GGT 또는 폐활량 측정법과는 연관되지 않았다. 환자/대조군 분석에서, PI*Z에 대한 이형접합성을 알콜성 및 비알콜성 간 질환(각각 오즈비[OR] 2.41, p = 0.001; OR 1.24, p = 0.04), COPD(OR 1.27, p = 0.008), 및 폐기종(OR 1.41, p = 0.02)과 연관시켰다. 폐활량 검사에서 기도 폐색이 확진된 COPD 환자(n = 2,002) 및 폐기종 환자(n = 728)로 분석을 제한하면, PI*Z 이형접합성은 유의미한 관련이 있었다(각각 OR 1.44, p = 0.006; OR = 1.75, p = 0.005). 천식이나 만성 기관지염과는 연관성이 없었다.
큰 임상 진료 코호트에서, SERPINA1 PI*Z 이형접합성은 간효소 수치 증가와 유의하게 관련되었고, COPD, 폐기종 및 간 질환의 위험을 증가시켰다. 이는 PI*Z 대립 유전자의 높은 모집단 빈도를 고려할 때 중요한 의미가 있는 임상적 질병 위험성과의 PI*Z 이형접합성과의 연관성을 명확히 입증하는 첫 연구이다.
실시예 4
조발성 염증성 장 질환에서 NOD2 돌연변이 스펙트럼
크론병(Crohn 's Disease, CD) 또는 궤양성 대장염(UC)으로 임상적으로 정의된 염증성 장질환(IBD)은 유전적으로 감수성인 숙주에서 위장관의 만성 염증을 초래한다. IBD는 일반적으로 30대에 진단된다. 그러나, 소아 발병형 IBD는 특히 심각하며, 장협착, 항문 주위염, 발달 장애, 및 통상적인 치료에 대한 낮은 반응을 동반할 가능성이 매우 높다. GWAS는 성인에서 IBD 감수성 및 진행과 관련된 163개의 유전자좌를 식별하였다. 이들 중, 2개의 (NOD2) 유전자를 포함하는 뉴클레오티드 결합 및 올리고머화 도메인은, 현재까지, 성인 CD와 연관된 최초 및 최고로 복제된 유전자이다. 그러나, 소아 발병형 IBD에서의 역할은 잘 알려져 있지 않다.
소아 발병형 IBD(연령 0~18세)의 발단자 및, 가능한 경우, 이들의 영향을 받거나 영향을 받지 않는 부모 및 형제 자매 1,183명으로 이루어진 코호트에 대해 전장 엑솜 시퀀싱을 수행하였다. 유전자의 식별과 발견을 위한 492개의 완전한 트리오에 대해 트리오 기반 분석을 수행하였고, 나머지 691명의 발단자는 후보 유전자의 복제에 사용하였다.
초기 분석에서, 열성 화합물 이형접합성 또는 동형접합성 변이체로 12 가족을 NOD2(MAF < 2 %)에서 식별하였다. 이러한 희귀 변이체 중 일부가 더 흔하고 이전에 보고된 CD 위험 대립 유전자(2%<MAF>5%)에서 인 트랜스(in trans) 발생한다는 관찰 결과는 NOD2 변이체의 열성 유전에 대한 추가 발단자 조사로 이어졌다. 총 105명의 발단자를 열성 NOD2 변이체로 식별하였는데, 열성 NOD2 변이체는 또 다른 NOD2 CD 위험 대립 유전자나 완전히 신규한 NOD2 변이체 중 하나에 추가하여 NOD2 CD 위험 대립 유전자를 지닌다. 전장 엑솜 서열을 전자 건강 기록과 연결시키는 리제너론 유전자 센터-게이싱어 건강 시스템의 DiscovEHR 연구에서 유래한 1,146명의 IBD 환자에서 이러한 희귀하고 빈도가 낮은 NOD2 대립 유전자의 열성 유전 기여도를 그 다음에 조사했다. 여기서, 14% CD 환자를 포함하여, 이러한 성인 IBD 코호트에서 환자 중 7%가 NOD2 변이체의 열성 유전에 기인할 수 있음이 밝혀졌다. 이 중 1%는 18세 이전에 진단을 받았는데, 조기 발병 CD와 일치하였다.
요약하자면, 소아 발병형 IBD 코호트에서의 9%의 발단자는 NOD2에서 희귀하고 빈도가 낮은(MAF < 5%) 유해 변이체에 대한 열성 멘델 유전 방식을 따른다. 이러한 열성 유전을 성인 IBD 코호트에서 확인하였고, 몇 가지 조기 발병 CD 사례에서도 식별하였다. 종합적으로, 개시된 방법 및 시스템을 이용하는 소견은 NOD2가 조기 발병 IBD에 대한 멘델 유전병 유전자로서 관련됨을 시사한다.
실시예 5
DiscovEHR 코호트 내의 51 K의 탈 식별화된 엑솜에서 6,000개가 넘은 가계의 신규 재구성
가계 및 가족 기반 분석은 인간 유전학의 선두로 다시 옮겨가고 있다. 그러나 계획되고 진행 중인 많은 대규모 시퀀싱 계획은 정확한 가족력 및 가계 기록을 얻을 수 있는 능력 없이 수 십만 건의 탈 식별화된 개체를 확인하고 시퀀싱하면서, 많은 강력한 가족 기반 분석을 배제하고 있다. 개시된 방법 및 시스템은 수 십만의 가까운 친척 관계가 DiscovEHR 코호트 내에서 추론될 수 있고, 상응하는 가계가 유전자 데이터로부터 직접 재구성되어, 하류 유전자형-표현형 분석에 사용될 수 있는 많은 가족 관계를 식별함으로써, 모집단 분석 접근법 및 가족 기반 분석 접근법 모두를 가능하게 한다는 것을 입증한다.
PLINK를 사용하여 DiscovEHR 코호트의 모든 개체들 사이의 전장 게놈 IBD 비율을 추정함으로써, 개체의 48% 이상이 약 5,000건의 완전한 형제자매 관계, 약 7,000건의 부모자식 관계, 및 약 15,000건의 2촌 관계 중 하나 이상에 포함되었음을 알아 냈다. 후속하여, PRIMUS를 사용하여 2명 이상의 시퀀싱된 개체를 포함하여 6,000건 이상의 가계를 구성하였다. 식별된 가장 크게 확장된 가족에는 3000명 이상의 개체가 포함되었다(데이터 세트의 약 6%). 948개의 트리오가 포함된 825개의 핵가족도 식별하여 풍부한 트리오 기반 분석을 수행할 수 있었다. 이러한 트리오는 CNV 검출을 개선하고, 복합 이형접합성 돌연변이를 단계적으로 도입하고, 희귀 변이체 검출을 검증하는데 도움을 주었다.
재구성 가계 데이터의 이러한 자원은 신규/희귀 모집단 변이 및 가족성 변이체를 구별하는 데 사용될 수 있으며, 가족 내에서 분리되고 전장 모집단 연관성 분석에서 과소 평가되는 고 침투성 질환 변이체를 식별하는 데 활용될 수 있다. 이러한 접근법은, LDLR에서 신규한 가족성 고콜레스테롤혈증 유발 순차 복제를 갖는 29개의 관련 개체가 포함되는 큰 가계를 포함하여, 무엇보다도, 가족성 대동맥류, 심전도 결함, 갑상선암, 색소 녹내장, 가족성 고콜레스테롤혈증을 유발하는 고 침투성 멘델 유전병 유발 변이체를 구별하는 관련 개체를 식별함으로써 검증되었다.
본 방법 및 시스템은 바람직한 구현예 및 특정 실시예와 관련하여 설명되었지만, 본원의 구현예는 모든 면에서 제한적이 아니라 예시적이므로 본 발명의 범주가 제시된 특정 구현예에 한정되는 것으로 의도되지 않아야 한다.
달리 명시적으로 언급되지 않는 한, 본원에 기재된 임의의 방법은 그 단계가 특정 순서로 수행될 것을 요구하는 것으로서 간주되도록 의도되지 않는다. 따라서, 방법 청구항이 방법의 단계들이 따라야 할 순서를 실제로 나열하지 않거나, 단계들이 특정 순서로 한정될 것을 청구범위 또는 명세서에서 달리 구체적으로 기재하지 않는 한, 어떤 면에서도 순서가 이에 따라 추론되는 것으로 의도되지 않는다. 이는, 다음을 포함하여, 해석을 위한 모든 가능한 비 명시적 근거를 포함한다: 단계 또는 작동 순서의 배치에 관한 논리적 문제; 문법적 구조 또는 구두점에서 파생된 명백한 의미; 명세서에 기술된 구현예의 수 또는 유형.
본 발명의 범주 또는 사상을 벗어나지 않고도 다양한 수정 및 변형이 이루어질 수 있다. 다른 구현예는 명세서 및 본원에 개시된 실시의 고찰로부터 명백해질 것이다. 본 명세서 및 실시예는 단지 예시적인 것으로만 간주되어야 하며, 진정한 범주 및 사상은 다음의 청구범위에 의해 표시된다.
<110> Regeneron Pharmaceuticals, Inc. <120> GENETIC VARIANT-PHENOTYPE ANALYSIS SYSTEM AND METHODS OF USE <130> PCT/US2017/024810 <150> US 62/314,684 <151> 2016-03-29 <150> US 62/362,660 <151> 2016-07-15 <150> US 62/467,547 <151> 2017-03-06 <160> 28 <170> PatentIn version 3.5 <210> 1 <211> 107 <212> DNA <213> Homo sapiens <400> 1 ctaaggtagg agattgagac tgcagtgact tgtgattgcg tcactgcgct ccagcctggg 60 tgacagagtt gagactccgt ctcaaaaaaa aaaaaaaaaa aaaaaat 107 <210> 2 <211> 76 <212> DNA <213> Homo sapiens <400> 2 tgtgattgcg tcactgcgct ccagcctggg tgacagagtt gagactccgt ctcaaaaaaa 60 aaaaaaaaaa aaacaa 76 <210> 3 <211> 76 <212> DNA <213> Homo sapiens <400> 3 acttgtgatt gcgtcactgc gctccagcct gggtgacaga gttgagactc cggctcaaaa 60 aaaaaaaaaa aaaaaa 76 <210> 4 <211> 76 <212> DNA <213> Homo sapiens <400> 4 gacttgtgat tgcgtcactg cgctccagcc tgggtgacag agttgagact ccgtctcaaa 60 aaaaaaaaaa aaaaaa 76 <210> 5 <211> 76 <212> DNA <213> Homo sapiens <400> 5 gacttgtgat tgcgtcactg cgctccagcc tgggtgacag agttgagact ccgtctcaaa 60 aaaaaaaaaa aaaaaa 76 <210> 6 <211> 76 <212> DNA <213> Homo sapiens <400> 6 tgagactgca gtgacttgtg attgcgtcac tgcgctccag cctgggtgac agagttgaga 60 ctccgtctca aaaaaa 76 <210> 7 <211> 76 <212> DNA <213> Homo sapiens <400> 7 gattgagact gcagtgactt gtgattgcgt cactgcgctc cagcctgggt gacagagttg 60 agactccgtc tcaaaa 76 <210> 8 <211> 76 <212> DNA <213> Homo sapiens <400> 8 gagattgaga ctgcagtgac ttgtgattgc gtcactgcgc tccagcctgg gtgacagagt 60 tgagactccg tctcaa 76 <210> 9 <211> 76 <212> DNA <213> Homo sapiens <400> 9 ggagattgag actgcagtga cttgtgattg cgtcactgcg ctccagcctg ggtgacagag 60 ttgagactcc gtctca 76 <210> 10 <211> 76 <212> DNA <213> Homo sapiens <400> 10 gtaggagatt gagactgcag tgacttgtga ttgcgtcact gcgctccagc ctgggtgaca 60 gagttgagac tccgtc 76 <210> 11 <211> 76 <212> DNA <213> Homo sapiens <400> 11 aaggtaggag attgagactg cagtgacttg tgattgcgtc actgcgctcc agcctgggtg 60 acagagttga gactcc 76 <210> 12 <211> 94 <212> DNA <213> Homo sapiens <400> 12 ttctttaaaa acttgagctt cttggccggg tgcggtggct cacgcctgta atcccagcac 60 tttgggaggc taaggagggc ggatcacgag gtca 94 <210> 13 <211> 76 <212> DNA <213> Homo sapiens <400> 13 ttcttggccg ggtgcggtgg ctcacgcctg taatcccagc actttgggag gctaaggagg 60 gcggatcacg aggtca 76 <210> 14 <211> 76 <212> DNA <213> Homo sapiens <400> 14 ttcttggccg ggtgcggtgg ctcacgcctg taatcccagc actttgggag gctaaggagg 60 gcggatcacg aggtca 76 <210> 15 <211> 76 <212> DNA <213> Homo sapiens <400> 15 ttaaaaactt gagcttcttg gccgggtgcg gtggctcacg cctgtaatcc cagcactttg 60 ggaggctaag gagggc 76 <210> 16 <211> 76 <212> DNA <213> Homo sapiens <400> 16 ctttaaaaac ttgagcttct tggccgggtg cggtggctca cgcctgtaat cccagcactt 60 tgggaggcta aggagg 76 <210> 17 <211> 76 <212> DNA <213> Homo sapiens <400> 17 ttctttaaaa acttgagctt cttggccggg tgcggtggct cacgcctgta atcccagcac 60 tttgggaggc taagga 76 <210> 18 <211> 90 <212> DNA <213> Homo sapiens <400> 18 gcatatgaga ttgtaagggt caattttgag agataaagtt cagttttagt gaagggaatg 60 ggaaaccatt gtaggttttt aagcgaggga 90 <210> 19 <211> 76 <212> DNA <213> Homo sapiens <400> 19 gcatatgaga ttgtaagggt caattttgag agataaagtt cagttttagt gaagggaatg 60 ggaaaccatt gtaggt 76 <210> 20 <211> 76 <212> DNA <213> Homo sapiens <400> 20 catatgagat tgtaagggtc aattttgaga gataaagttc agttttagtg aagggaatgg 60 gaaaccattg taggtt 76 <210> 21 <211> 76 <212> DNA <213> Homo sapiens <400> 21 atatgagatt gtaagggtca attttgagag ataaagttca gttttagtga agggaatggg 60 aaaccattgt aggttt 76 <210> 22 <211> 76 <212> DNA <213> Homo sapiens <400> 22 atatgagatt gtaagggtca attttgagag ataaagttca gttttagtga agggaatggg 60 aaaccattgt aggttt 76 <210> 23 <211> 76 <212> DNA <213> Homo sapiens <400> 23 atgagattgt aagggtcaat tttgagagat aaagttcagt tttagtgaag ggaatgggaa 60 accattgtag gttttt 76 <210> 24 <211> 76 <212> DNA <213> Homo sapiens <400> 24 ttgtaagggt caattttgag agataaagtt cagttttagt gaagggaatg ggaaaccatt 60 gtaggttttt aagcga 76 <210> 25 <211> 76 <212> DNA <213> Homo sapiens <400> 25 tgtaagggtc aattttgaga gataaagttc agttttagtg aagggaatgg gaaaccattg 60 taggttttta agcgag 76 <210> 26 <211> 76 <212> DNA <213> Homo sapiens <400> 26 aagggtcaat tttgagagat aaagttcagt tttagtgaag ggaatgggaa accattgtag 60 gtttttaagc gaggga 76 <210> 27 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 27 catgtgatcc cagaacttgg 20 <210> 28 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 28 accatctcga ctatttgtga gtgc 24

Claims (90)

  1. 서열 데이터로부터 수득된 하나 이상의 유전자 변이체에 기능적으로 주석을 달도록 구성된 유전 데이터 컴포넌트;
    상기 유전자 데이터 컴포넌트에 의해 상기 서열 데이터를 수득되고 분석한 하나 이상의 환자에 대한 하나 이상의 표현형을 결정하도록 구성된 표현형 데이터 컴포넌트;
    상기 하나 이상의 유전자 변이체와 상기 하나 이상의 표현형 간의 하나 이상의 연관성을 결정하도록 구성된 유전자 변이체-표현형 연관성 데이터 컴포넌트; 및
    상기 유전자 변이체-표현형 연관성 데이터 컴포넌트로부터 하나 이상의 연관성을 생성, 저장 및 색인화하도록 구성된 데이터 분석 컴포넌트를 포함하는 시스템.
  2. 제1항에 있어서, 상기 하나 이상의 유전자 변이체에 상기 기능적으로 주석을 다는 것에 의해 유전자 변이체 데이터가 생성되는, 시스템.
  3. 제2항에 있어서, 상기 유전자 변이체 데이터에서의 하나 이상의 변이체가 전사체/유전자에 대한 이들의 기능적 영향에 대해 평가되고, 잠재적 기능 상실(pLoF) 후보가 식별되는, 시스템.
  4. 제1항에 있어서, 상기 유전자 데이터 컴포넌트는 트리밍 컴포넌트, 정렬 컴포넌트, 및 변이체 검출 컴포넌트로 이루어진 변이체 식별 컴포넌트를 포함하는, 시스템.
  5. 제4항에 있어서, 상기 변이체 식별 컴포넌트는 상기 서열 데이터의 정확도를 평가하고, 정의된 정확도 표준을 충족시키지 않는 상기 서열 데이터의 리드를 제거, 트리밍, 또는 보정하도록 구성되는, 시스템.
  6. 제1항에 있어서, 상기 유전자 데이터 컴포넌트는 기능적 예측자 컴포넌트로 이루어진 변이체 주석 컴포넌트를 포함하는, 시스템.
  7. 제6항에 있어서, 상기 변이체 주석 컴포넌트는 기능적 정보를 결정하고 상기 하나 이상의 유전자 변이체에 할당하도록 구성되는, 시스템.
  8. 제7항에 있어서, 상기 변이체 주석 컴포넌트는 게놈에서의 코딩 서열에 대한 변이체의 관계 및 상기 하나 이상의 유전자 변이체가 상기 코딩 서열을 변화시키고 유전자 산물에 영향을 미칠 수 있는 방법에 기초하여 상기 하나 이상의 유전자 변이체 각각을 카테고리화하도록 구성되는, 시스템.
  9. 제1항에 있어서, 상기 유전자 데이터 컴포넌트에 의해 상기 서열 데이터를 수득하고 분석한 상기 하나 이상의 환자에 대한 상기 하나 이상의 표현형을 결정하는 것에 의해 표현형 데이터가 생성되는, 시스템.
  10. 제1항에 있어서, 상기 표현형은 유기체에서 특이적 특성의 관찰 가능한 물리적 또는 생화학적 발현을 포함하는, 시스템.
  11. 제1항에 있어서, 상기 표현형 데이터 컴포넌트는 이진(binary) 표현형 컴포넌트 및 양적 표현형 컴포넌트를 포함하는, 시스템.
  12. 제11항에 있어서, 상기 이진 표현형 컴포넌트는 탈 식별화된 의료 정보을 분석하여 상기 탈 식별화된 의료 정보에서 환자에게 할당된 하나 이상의 코드를 식별하도록 구성되는, 시스템.
  13. 제12항에 있어서, 상기 이진 표현형 컴포넌트는:
    상기 하나 이상의 코드의 존재 또는 부재를 식별하고;
    상기 하나 이상의 코드와 연관된 표현형을 결정하고;
    고유의 식별자를 통해 상기 탈 식별화된 의료 정보와 연관된 상기 환자에게 상기 표현형을 할당하도록 구성되는, 시스템.
  14. 제11항에 있어서, 상기 양적 표현형 컴포넌트는 탈 식별화된 의료 정보를 분석하여 연속 변수를 식별하고, 상기 식별된 연속 변수에 기초하여 표현형을 할당하도록 구성되는, 시스템.
  15. 제14항에 있어서, 상기 연속 변수는 일정 값의 범위에 걸친 하나 이상의 값을 포함하는 생리학적 측정을 포함하는, 시스템.
  16. 제11항에 있어서, 상기 양적 표현형 컴포넌트는:
    상기 연속 변수를 식별하고;
    상기 식별된 연속 변수를 소정의 분류 스케일에 적용하고;
    고유의 식별자를 통해 상기 탈 식별화된 의료 정보와 연관된 상기 환자에게 표현형을 할당하도록 구성되는, 시스템.
  17. 제11항에 있어서, 상기 카테고리 표현형 컴포넌트는 탈 식별화된 의료 정보를 분석하여 주어진 양적 표현형의 범위를 식별하도록 구성된, 시스템.
  18. 제11항에 있어서, 상기 임상 서사 표현형 컴포넌트는 탈 식별화된 의료 정보를 분석하여, 고유의 식별자를 통해 상기 탈 식별화된 의료 정보와 연관된 상기 환자에게 표현형을 할당하는 용어를 식별하도록 구성된 자연어 처리(NLP) 표현형 컴포넌트를 포함하는, 시스템.
  19. 제1항에 있어서, 상기 유전자 변이체-표현형 연관성 데이터 컴포넌트는 연산 컴포넌트 및 정확도 컴포넌트를 포함하는, 시스템.
  20. 제19항에 있어서, 상기 연산 컴포넌트는 하나 이상의 통계적 시험을 수행하도록 구성되는, 시스템.
  21. 제20항에 있어서, 상기 하나 이상의 통계적 시험은 이진 표현형에 대한 하디-와인버그 평형(Hardy-Weinberg equilibrium, HWE) 분석, 피셔의 정확도 검정(Fisher's exact test), BOLT-LMM 분석, 로지스틱 회귀(logistic regression), 및 선형 혼합 모델 중 하나 이상을 포함하는, 시스템.
  22. 제20항에 있어서, 상기 하나 이상의 통계적 시험은 양적 표현형에 대한 선형 회귀, 선형 혼합 모델, ANOVA 중 하나 이상을 포함하는, 시스템.
  23. 제19항에 있어서, 상기 정확도 컴포넌트는 체계적 편차의 증거를 식별하도록 구성되는, 시스템.
  24. 제23항에 있어서, 상기 정확도 컴포넌트는 분위-분위(quantile-quantile, Q-Q) 플롯을 결정하도록 구성되는, 시스템.
  25. 제1항에 있어서,
    상기 표현형 데이터 컴포넌트에 결합된 표현형 데이터 인터페이스;
    상기 유전자 데이터 컴포넌트에 결합된 유전자 변이체 데이터 인터페이스;
    상기 유전자 데이터 컴포넌트에 결합된 가계 인터페이스; 및
    상기 표현형 데이터 컴포넌트 및 상기 데이터 분석 컴포넌트에 결합된 결과 인터페이스를 추가로 포함하는, 시스템.
  26. 제2572항에 있어서, 상기 표현형 데이터 인터페이스는 표현형 데이터 뷰어, 쿼리/시각화 컴포넌트, 및 데이터 교환 인터페이스 중 하나 이상을 포함하는, 시스템.
  27. 제26항에 있어서, 상기 표현형 데이터 뷰어는 상기 쿼리/시각화 컴포넌트에 사용자가 하나 이상의 쿼리를 입력할 수 있도록 구성된 그래픽 사용자 인터페이스를 포함하는, 시스템.
  28. 제27항에 있어서, 상기 쿼리/시각화 컴포넌트는 비순환 그래프에 저장된 표현형 데이터에 대해 쿼리하도록 구성되는, 시스템.
  29. 제28항에 있어서, 상기 데이터 교환 인터페이스는 상기 표현형 데이터 인터페이스로의 입력으로서 사용될 출력을 상기 유전자 변이체 데이터 인터페이스, 상기 가계 인터페이스, 및 상기 결과 인터페이스로부터 수신하고, 상기 유전자 변이체 데이터 인터페이스, 상기 가계 인터페이스, 및 상기 결과 인터페이스로의 입력으로서 사용될 상기 표현형 데이터 인터페이스의 출력을 제공하도록 구성되는, 시스템.
  30. 제25항에 있어서, 상기 유전자 변이체 데이터 인터페이스는 유전자 변이체 데이터 뷰어, 쿼리/시각화 컴포넌트, 및/또는 데이터 교환 인터페이스 중 하나 이상을 포함하는, 시스템.
  31. 제30항에 있어서, 상기 유전자 변이체 데이터 뷰어는 상기 쿼리/시각화 컴포넌트에 사용자가 하나 이상의 쿼리를 입력할 수 있도록 구성된 그래픽 사용자 인터페이스를 포함하는, 시스템.
  32. 제31항에 있어서, 상기 쿼리/시각화 컴포넌트는 상기 유전자 데이터 컴포넌트에서 하나 이상의 VCF 파일에 저장된 유전자 변이체 데이터를 쿼리하도록 구성되는, 시스템.
  33. 제32항에 있어서, 상기 유전자 데이터 컴포넌트는,
    복수의 VCF 파일을 수신하고;
    상기 복수의 VCF 파일 간에 공통인 하나 이상의 변이체 부위를 결정하고;
    상기 복수의 VCF 파일 각각에 대해 상기 하나 이상의 변이체 부위의 존재 또는 부재를 식별하는 색인을 생성하고;
    상기 각각의 VCF 파일 각각에 대한 단일 값으로서 복수의 속성을 암호화하고;
    상기 색인 및 상기 암호화된 복수의 변수를 포함하는 최종 VCF 파일을 생성하도록 더 구성되며, 상기 쿼리/시각화 컴포넌트는 상기 최종 VCF 파일에 저장된 유전자 변이체 데이터를 쿼리하도록 구성되는, 시스템.
  34. 제32항에 있어서, 상기 데이터 교환은 상기 유전자 변이체 데이터 인터페이스로의 입력으로서 사용될 출력을 상기 표현형 데이터 인터페이스, 상기 가계 인터페이스, 및 상기 결과 인터페이스로부터 수신하고, 상기 표현형 데이터 인터페이스, 상기 가계 인터페이스, 및 상기 결과 인터페이스로의 입력으로서 사용될 상기 유전자 변이체 데이터 인터페이스의 출력을 제공하도록 구성되는, 시스템.
  35. 제25항에 있어서, 상기 가계 인터페이스는 유전자 데이터시트 내에서 가계를 재구성하도록 구성되는, 시스템.
  36. 제25항에 있어서, 상기 가계 인터페이스는 가계 데이터 뷰어, 쿼리/시각화 컴포넌트, 및/또는 데이터 교환 인터페이스 중 하나 이상을 포함하는, 시스템.
  37. 제36항에 있어서, 상기 가계 데이터 뷰어는 상기 쿼리/시각화 컴포넌트에 사용자가 하나 이상의 쿼리를 입력할 수 있도록 구성된 그래픽 사용자 인터페이스를 포함할 수 있는, 시스템.
  38. 제37항에 있어서, 상기 쿼리/시각화 컴포넌트는 상기 유전자 데이터 컴포넌트에서 하나 이상의 VCF 파일에 저장된 유전자 변이체 데이터를 쿼리하도록 구성될 수 있는, 시스템.
  39. 제38항에 있어서, 상기 데이터 교환은 상기 가계 인터페이스로의 입력으로서 사용될 출력을 상기 표현형 데이터 인터페이스, 상기 유전자 변이체 데이터 인터페이스, 및 상기 결과 인터페이스로부터 수신하고, 상기 표현형 데이터 인터페이스, 상기 유전자 변이체 데이터 인터페이스, 및 상기 결과 인터페이스로의 입력으로서 사용될 상기 가계 인터페이스의 출력을 제공하도록 구성되는, 시스템.
  40. 제25항에 있어서, 상기 결과 인터페이스는 상기 데이터 분석 컴포넌트 및 상기 표현형 데이터 분석 컴포넌트에 저장된 데이터에 접근하도록 구성되는, 시스템.
  41. 제25항에 있어서, 상기 결과 인터페이스는 상기 데이터 분석 컴포넌트에 의해 저장된 하나 이상의 연관성 결과를 보고 이와 상호 작용하도록 구성되는, 시스템.
  42. 제25항에 있어서, 상기 결과 인터페이스는 결과 뷰어, 쿼리/시각화 컴포넌트, 및/또는 데이터 교환 인터페이스 중 하나 이상을 포함하는, 시스템.
  43. 제42항에 있어서, 상기 결과 뷰어는 상기 쿼리/시각화 컴포넌트에 사용자가 하나 이상의 쿼리를 입력할 수 있도록 구성된 그래픽 사용자 인터페이스를 포함할 수 있는, 시스템.
  44. 제43항에 있어서, 상기 쿼리/시각화 컴포넌트는 상기 유전자 데이터 컴포넌트에서 하나 이상의 VCF 파일 및/또는 상기 데이터 분석 컴포넌트에서 행렬 파일에 저장된 유전자 변이체 데이터를 쿼리하도록 구성되는, 시스템.
  45. 제44항에 있어서, 상기 데이터 교환은 상기 결과 인터페이스로의 입력으로서 사용될 출력을 상기 표현형 데이터 인터페이스, 상기 유전자 변이체 데이터 인터페이스, 및 상기 가계 인터페이스로부터 수신하고, 상기 표현형 데이터 인터페이스, 상기 유전자 변이체 데이터 인터페이스, 및 상기 가계 인터페이스로의 입력으로서 사용될 상기 결과 인터페이스의 출력을 제공하도록 구성되는, 시스템.
  46. 제11항에 있어서, 상기 표현형 데이터 컴포넌트는 카테고리 표현형 컴포넌트 및/또는 임상 서사 표현형 컴포넌트를 추가로 포함하는, 시스템.
  47. 하나 이상의 기준의 선택을 수신하는 단계;
    상기 하나 이상의 기준과 연관된 하나 이상의 탈 식별화된 의료 기록을 결정하는 단계;
    상기 하나 이상의 탈 식별화된 의료 기록을 제1 결과로 그룹화하는 단계; 및
    상기 제1 결과에 적용된 상기 하나 이상의 기준의 제1 분포를 표시하는 단계를 포함하는, 방법.
  48. 제47항에 있어서, 상기 하나 이상의 기준은 진단, 의료 코드, 인구 통계, 측정, 생체 신호(vital sign), 투약 또는 투약량, 실험실 결과, 또는 임상 서사 노트 상의 단어나 문구 중 하나 이상을 포함하는, 방법.
  49. 제47항에 있어서, 상기 하나 이상의 탈 식별화된 의료 기록은 표현형 데이터 및 의료 정보 중 하나 이상을 포함하는, 방법.
  50. 제47항에 있어서, 인터페이스 요소를 통해 토글 상호 작용을 수신하는 단계를 더 포함하되, 상기 토글 상호 작용은 하나 이상의 오퍼레이터가 상기 하나 이상의 기준에 적용된 상태를 변경하게 하는, 방법.
  51. 제50항에 있어서, 상기 상태는 AND, OR 또는 XOR 중 하나를 포함하는, 방법.
  52. 제47항에 있어서, 복수의 코호트 중 제1 코호트의 제1 선택을 수신하는 단계를 더 포함하는, 방법.
  53. 제52항에 있어서, 상기 하나 이상의 탈 식별화된 의료 기록은 상기 복수의 코호트 중 제1 코호트와 연관되는, 방법.
  54. 제53항에 있어서, 상기 복수의 코호트 중 제2 코호트의 제2 선택을 수신하는 단계를 더 포함하는, 방법.
  55. 제54항에 있어서,
    상기 하나 이상의 기준과 연관된 하나 이상의 탈 식별화된 의료 기록을 결정하는 단계(상기 하나 이상의 탈 식별화된 의료 기록은 상기 제2 코호트와 연관됨);
    상기 하나 이상의 탈 식별화된 의료 기록을 제2 결과로 그룹화하는 단계; 및
    상기 제2 결과에 적용된 상기 하나 이상의 기준의 제2 분포를 표시하는 단계를 더 포함하는, 방법.
  56. 제47항에 있어서,
    상기 하나 이상의 탈 식별화된 의료 기록의 유전자 프로파일에 대한 요청을 수신하는 단계;
    상기 요청을 원격 연산 장치에 전송하는 단계(상기 요청은 상기 하나 이상의 탈 식별화된 의료 기록 각각에 대한 식별자를 포함함); 및
    상기 원격 연산 장치로부터 상기 유전자 프로파일을 수신하는 단계를 더 포함하는, 방법.
  57. 제56항에 있어서, 상기 유전자 프로파일은 하나 이상의 핵산 서열을 포함하는, 방법.
  58. 제57항에 있어서, 상기 하나 이상의 핵산 서열은 하나 이상의 DNA 서열 변이체를 포함하는, 방법.
  59. 제56항에 있어서, 상기 유전자 프로파일 및 상기 하나 이상의 탈 식별화된 의료 기록을 데이터세트로 컴파일링하는 단계를 더 포함하는, 방법.
  60. 제59항에 있어서, 상기 데이터세트를 처리하여 유전자 프로파일과 표현형 사이의 연관성을 식별하는 단계를 더 포함하는, 방법.
  61. 엑솜 서열화 데이터로부터 복수의 변이체를 공급받는 단계;
    상기 복수의 변이체의 기능적 충격을 평가하는 단계;
    상기 복수의 변이체 각각에 대한 효과 예측 요소를 생성하는 단계; 및
    상기 효과 예측 요소를 상기 복수의 변이체를 포함하는 검색 가능한 데이터베이스로 조립하는 단계를 포함하는, 방법.
  62. 제61항에 있어서, 상기 효과 예측 요소는 변이체 유전자의 발현 산물의 생화학적 구조 및 기능에 대한 변이체의 효과의 예측을 지칭하며, 표현형에 대한 상기 변이체의 상기 효과의 예측을 지칭하지 않는, 방법.
  63. 제61항에 있어서, 상기 복수의 변이체 각각에 대한 효과 예측 요소를 생성하는 단계는 잠재적 기능 상실(pLoF) 후보로서 상기 복수의 변이체 각각을 식별하는 단계를 포함하는, 방법.
  64. 제63항에 있어서, pLoF 후보로서 상기 복수의 변이체 각각을 식별하는 단계는 상기 복수의 변이체 각각에 대한 각 변이체 검출과 연관된 정확도 수준을 식별하는 단계 및 상기 정확도 수준에 기초하여 pLoF 정의를 적용하는 단계를 포함하는, 방법.
  65. 제63항에 있어서, pLoF 후보로서 상기 복수의 변이체 각각을 식별하는 단계는 유전자 변이체 주석 및 효과 예측 방법을 상기 복수의 변이체 각각에 적용하는 단계를 포함하는, 방법.
  66. 제65항에 있어서, 상기 유전자 변이체 주석은 프레임시프트 변이체(frameshift variant), 증지 코돈 획득 변이체(stop gained variant), 개시 코돈 상실 변이체(start lost variant), 접합 수용체 변이체(splice acceptor variant), 접합 공여자 변이체(splice donor variant), 정지 코돈 상실 변이체(stop lost variant), 인프레임 인델(inframe indel), 미스센스 변이체(missense variant), 접합 영역 변이체(splice region variant), 및 동의 변이체(synonymous variant) 중 하나 이상을 포함하는, 방법.
  67. 제61항에 있어서, 상기 검색 가능한 데이터베이스는 유전자, 유전자 집합, 및 변이체 중 하나 이상에 따라 검색되도록 구성되는, 방법.
  68. 제61항에 있어서, 상기 복수의 변이체 중 하나 이상을 탈 식별화된 개체에 할당하는 단계를 더 포함하는, 방법.
  69. 제61항에 있어서, 상기 복수의 변이체 중 어느 것이 전사체의 화이트리스트에 포함되는지를 결정하는 단계 및 상기 화이트리스트에 포함된 상기 복수의 변이체를 필터링하여 필터링된 변이체 집합을 생성하는 단계를 더 포함하는, 방법.
  70. 제69항에 있어서, 상기 필터링된 변이체 집합에 의해 나타난 각각의 유전자에 대해 가장 유해한 기능적 효과 분류를 선별하는 단계를 더 포함하는, 방법.
  71. 제70항에 있어서, 각각의 유전자에 대해 가장 유해한 기능적 효과 분류를 선별하는 단계는 상기 필터링된 변이체 집합에 유해함의 계층 구조를 적용하는 단계를 포함하는, 방법.
  72. 제61항에 있어서, 쿼리 변이체를 포함하는 검색 쿼리를 수신하는 단계 및 상기 쿼리 변이체와 연관된 하나 이상의 개체를 식별하는 단계를 더 포함하는, 방법.
  73. 제72항에 있어서,
    상기 하나 이상의 개체와 연관된 하나 이상의 탈 식별화된 의료 기록에 대한 요청을 수신하는 단계;
    상기 요청을 원격 연산 장치에 전송하는 단계(상기 요청은 상기 하나 이상의 탈 식별화된 개체 각각에 대한 식별자를 포함함); 및
    상기 원격 연산 장치로부터 상기 하나 이상의 탈 식별화된 의료 기록을 수신하는 단계를 더 포함하는, 방법.
  74. 관심 유전자와 연관된 변이체에 대한 유전자 데이터 컴포넌트를 쿼리하는 단계;
    상기 변이체를 보유하는 코호트에 대한 쿼리로서 표현형 데이터 컴포넌트에 상기 변이체를 전달하는 단계;
    유전자 변이체-표현형 연관성 데이터 컴포넌트에 상기 변이체와 상기 코호트를 전달하여 상기 변이체와 상기 코호트의 표현형 사이의 연관성 결과를 결정하는 단계;
    상기 연관성 결과를 데이터 분석 컴포넌트에 전달하여 저장하고, 상기 변이체 및 상기 표현형 중 적어도 하나에 의해 이를 색인화하는 단계; 및
    표적 변이체 또는 표적 표현형에 의해 상기 데이터 분석 컴포넌트에 대해 쿼리하는 단계를 포함하되, 상기 연관성 결과는 응답으로 제공되는, 방법.
  75. 제74항에 있어서, 상기 표현형 데이터 컴포넌트는 비순환 그래프에 저장된 표현형 데이터에 상기 쿼리를 적용하는, 방법.
  76. 제75항에 있어서, 상기 비순환 그래프에 저장된 상기 표현형 데이터는 통합 의료 용어 시스템(Unified Medical Language System, UMLS) 계층 구조에 기초한 하나 이상의 관계를 포함하는, 방법.
  77. 제74항에 있어서, 맨해튼 플롯(Manhattan plot) 및 PHEHATTAN 플롯 중 하나 이상을 상기 데이터 분석 컴포넌트에 의해 생성하는 단계를 더 포함하는, 방법.
  78. 제74항에 있어서, 상기 연관성 결과에 대한 정확도 정보를 상기 데이터 분석 컴포넌트에 의해 생성하는 단계를 더 포함하는, 방법.
  79. 제78항에 있어서, 상기 정확도 정보는 Q-Q 플롯을 포함하는, 방법.
  80. 제74항에 있어서, 하나 이상의 시각화를 상기 데이터 분석 컴포넌트에 의해 생성하는 단계를 더 포함하는, 방법.
  81. 제80항에 있어서, 상기 하나 이상의 시각화는 정적 및 동적 시각화 중 하나 이상인, 방법.
  82. 제74항에 있어서, 상기 연관성 결과의 히트(hit) 및 필터 히트 중 하나 이상을 나타내기 위해 사용자에게 인터페이스를 제공하는 단계를 더 포함하는, 방법.
  83. 제82항에 있어서, 상기 필터 히트는 유전자, 마스크, 표현형, 염색체, 및 위치 중 하나 이상에 기초하는, 방법.
  84. 제82항에 있어서, 상기 인터페이스는 상기 사용자가 이후의 접근 및 타 사용자와의 공유를 위해 이전 시각화를 북마크할 수 있게 하는, 방법.
  85. 제74항에 있어서, 복수의 연관성 결과를 수신하는 단계 및 유전자 변이체, 유전자, 코호트의 하위 집합, 표현형 범주의 유형, 표현형 범주, 염색체, 유의성 정도, 및 효과 크기 중 하나 이상에 의해 상기 복수의 연관성 결과를 필터링하는 단계를 더 포함하는, 방법.
  86. 제74항에 있어서, 가계 인터페이스에 상기 연관성 결과를 제공하는 단계를 더 포함하는, 방법.
  87. 제86항에 있어서, 상기 가계 인터페이스는 상기 코호트에서 하나 이상의 대상물 사이의 하나 이상의 관계를 나타내는 가계를 구성하는, 방법.
  88. 제47항에 있어서, 상기 하나 이상의 탈 식별화된 의료 기록은 제1항의 상기 시스템의 상기 표현형 데이터 컴포넌트로부터 수신되는, 방법.
  89. 제61항에 있어서, 상기 복수의 변이체는 제1항의 상기 시스템의 상기 유전자 데이터 컴포넌트로부터 수신되는, 방법.
  90. 제74항에 있어서, 상기 유전자 데이터 컴포넌트는 제1항의 상기 시스템의 상기 유전자 데이터 컴포넌트이고, 상기 표현형 데이터 컴포넌트는 제1항의 상기 시스템의 상기 표현형 데이터 컴포넌트이며, 상기 데이터 분석 컴포넌트는 제1항의 상기 시스템의 상기 데이터 분석 컴포넌트인, 방법.
KR1020187030806A 2016-03-29 2017-03-29 유전자 변이체 표현형 분석 시스템 및 사용 방법 KR20180132727A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201662314684P 2016-03-29 2016-03-29
US62/314,684 2016-03-29
US201662362660P 2016-07-15 2016-07-15
US62/362,660 2016-07-15
US201762467547P 2017-03-06 2017-03-06
US62/467,547 2017-03-06
PCT/US2017/024810 WO2017172958A1 (en) 2016-03-29 2017-03-29 Genetic variant-phenotype analysis system and methods of use

Publications (1)

Publication Number Publication Date
KR20180132727A true KR20180132727A (ko) 2018-12-12

Family

ID=58503755

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187030806A KR20180132727A (ko) 2016-03-29 2017-03-29 유전자 변이체 표현형 분석 시스템 및 사용 방법

Country Status (11)

Country Link
US (1) US20170286594A1 (ko)
EP (1) EP3437001A1 (ko)
JP (1) JP2019515369A (ko)
KR (1) KR20180132727A (ko)
CN (1) CN109155149A (ko)
AU (1) AU2017242028A1 (ko)
CA (1) CA3018186C (ko)
IL (1) IL261882A (ko)
MX (1) MX2018011941A (ko)
SG (1) SG11201808261RA (ko)
WO (1) WO2017172958A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022145877A1 (ko) * 2020-12-29 2022-07-07 주식회사 피터페터 주기적으로 업데이트 되는 유전자 변이 검사 결과 리포트 자동 발행 시스템
KR102470337B1 (ko) * 2022-05-18 2022-11-25 주식회사 쓰리빌리언 변이 접합성 판별 시스템

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US10289615B2 (en) * 2017-05-15 2019-05-14 OpenGov, Inc. Natural language query resolution for high dimensionality data
US11699069B2 (en) * 2017-07-13 2023-07-11 Helix, Inc. Predictive assignments that relate to genetic information and leverage machine learning models
CN107395704B (zh) * 2017-07-13 2020-03-10 福州大学 一种Spark云计算平台下的结构物理参数辨识方法
WO2019070634A1 (en) * 2017-10-06 2019-04-11 The Trustees Of Columbia University In The City Of New York GENOMIC DIAGNOSTIC PREDICTIONS BASED ON ELECTRONIC HEALTH RECORD DATA
NZ759804A (en) 2017-10-16 2022-04-29 Illumina Inc Deep learning-based techniques for training deep convolutional neural networks
US11861491B2 (en) 2017-10-16 2024-01-02 Illumina, Inc. Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs)
CN110021345B (zh) * 2017-12-08 2021-02-02 北京哲源科技有限责任公司 基于spark平台的基因数据分析方法
US11705219B2 (en) * 2018-01-15 2023-07-18 Illumina, Inc. Deep learning-based variant classifier
US11238955B2 (en) * 2018-02-20 2022-02-01 International Business Machines Corporation Single sample genetic classification via tensor motifs
AU2018201712B2 (en) * 2018-03-09 2024-02-22 Pryzm Health IQ Pty Ltd Visualising Clinical and Genetic Data
NL2020861B1 (en) * 2018-04-12 2019-10-22 Illumina Inc Variant classifier based on deep neural networks
JP2021521886A (ja) * 2018-04-18 2021-08-30 レディ チルドレンズ ホスピタル リサーチ センター 迅速な遺伝子解析のための方法およびシステム
CA3109961A1 (en) * 2018-09-07 2020-03-12 Regeneron Pharmaceuticals, Inc. Methods and systems for pedigree enrichment and family-based analyses within pedigrees
US11116778B2 (en) 2019-01-15 2021-09-14 Empirico Inc. Prodrugs of ALOX-15 inhibitors and methods of using the same
WO2020159608A1 (en) * 2019-01-31 2020-08-06 Children's Medical Center Corporation Cost-effective detection of low frequency genetic variation
US11216742B2 (en) 2019-03-04 2022-01-04 Iocurrents, Inc. Data compression and communication using machine learning
EP3935638A4 (en) * 2019-03-08 2023-01-25 Nantomics, LLC SYSTEM AND PROCEDURES FOR VARIANT CALLING
JP7462685B2 (ja) * 2019-06-13 2024-04-05 エフ. ホフマン-ラ ロシュ アーゲー 縦方向データを解釈して視覚化するための改善されたユーザインタフェースを有するシステムおよび方法
US10671632B1 (en) 2019-09-03 2020-06-02 Cb Therapeutics, Inc. Automated pipeline
CN114599801A (zh) * 2019-09-08 2022-06-07 托莱多大学 用于测试肺癌风险的试剂盒和方法
US11636951B2 (en) 2019-10-02 2023-04-25 Kpn Innovations, Llc. Systems and methods for generating a genotypic causal model of a disease state
CN110610747B (zh) * 2019-10-10 2023-08-18 桂林理工大学 一种基于深度学习的微型化学实验系统及方法
CN112835491B (zh) * 2019-11-22 2024-04-05 北京沃东天骏信息技术有限公司 信息处理方法、装置、电子设备及可读存储介质
RU2754884C2 (ru) * 2020-02-03 2021-09-08 Атлас Биомед Груп Лимитед Определение фенотипа на основе неполных генетических данных
US20230139964A1 (en) * 2020-03-06 2023-05-04 The Research Institute at Nationwide Childern's Hospital Genome dashboard
CN111584011B (zh) * 2020-04-10 2023-08-29 中国科学院计算技术研究所 面向基因比对的细粒度并行负载特征抽取分析方法及系统
WO2021252883A1 (en) * 2020-06-12 2021-12-16 Regeneron Pharmaceuticals, Inc. Methods and systems for determination of gene similarity
CN113113081B (zh) * 2020-08-31 2021-12-14 东莞博奥木华基因科技有限公司 基于CNV-seq测序数据检测多倍体和基因组纯合区域ROH的系统
WO2022076909A1 (en) * 2020-10-09 2022-04-14 23Andme, Inc. Formatting and storage of genetic markers
BE1028784B1 (fr) 2020-11-10 2022-06-07 Oncodna Méthode de création d'un rapport mutationnel d'un materiel génétique d'un échantillon à l'aide d'une base de données pour la détection de caractéristiques phénotypiques des variants d'un gène de référence d'un génome de référence
JP2023550242A (ja) * 2020-11-19 2023-12-01 リジェネロン・ファーマシューティカルズ・インコーポレイテッド シーケンシングによるジェノタイピング
CN112768085B (zh) * 2021-01-11 2024-04-26 中国人民解放军军事科学院军事医学研究院 一种现场流行病学调查与综合态势可视化分析方法及系统
CN113066529B (zh) * 2021-03-26 2023-08-18 四川大学华西医院 基于全外显子数据的近亲家系鉴定方法、装置及设备
US11922017B2 (en) 2021-04-27 2024-03-05 Apple Inc. Compact genome data storage with random access
CN113345525B (zh) * 2021-06-03 2022-08-09 谱天(天津)生物科技有限公司 一种用于高通量检测中减少协变量对检测结果影响的分析方法
CN113921089B (zh) * 2021-11-22 2022-04-08 北京安智因生物技术有限公司 一种用于确认ivd基因注释数据库更新频率的方法及系统
CN114912086A (zh) * 2022-03-29 2022-08-16 广州超音速自动化科技股份有限公司 一种软件权限管理分配方法及系统
CN114496076B (zh) * 2022-04-01 2022-07-05 微岩医学科技(北京)有限公司 一种基因组遗传分层联合分析方法及系统
WO2024006702A1 (en) * 2022-06-27 2024-01-04 Foundation Medicine, Inc. Methods and systems for predicting genotypic calls from whole-slide images
WO2024064679A1 (en) * 2022-09-20 2024-03-28 Foundation Medicine, Inc. Methods and systems for functional status assignment of genomic variants

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7105348B2 (en) 2000-10-31 2006-09-12 Regeneron Pharmaceuticals, Inc. Methods of modifying eukaryotic cells
US6596541B2 (en) 2000-10-31 2003-07-22 Regeneron Pharmaceuticals, Inc. Methods of modifying eukaryotic cells
US6586251B2 (en) 2000-10-31 2003-07-01 Regeneron Pharmaceuticals, Inc. Methods of modifying eukaryotic cells
US20040146870A1 (en) * 2003-01-27 2004-07-29 Guochun Liao Systems and methods for predicting specific genetic loci that affect phenotypic traits
ZA200903761B (en) * 2006-11-30 2010-08-25 Navigenics Inc Genetic analysis systems and methods
US8140270B2 (en) * 2007-03-22 2012-03-20 National Center For Genome Resources Methods and systems for medical sequencing analysis
KR20090127939A (ko) * 2007-03-26 2009-12-14 디코드 제네틱스 이에이치에프 유방암의 위험도 평가, 진단, 예후 및 치료용 마커인 염색체 2 및 염색체 16 상의 유전적 변이
DK2297333T3 (en) * 2008-05-30 2015-04-07 Massachusetts Inst Technology Method for spatial separation and for screening cells
RS54416B1 (en) * 2009-10-19 2016-04-28 Rostaquo S.P.A. ROSTAFUROXIN FOR PHARMACOGENOMIC TREATMENT OF CARDIOVASCULAR STATES
US10127346B2 (en) * 2011-04-13 2018-11-13 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for interpreting a human genome using a synthetic reference sequence
WO2014015084A2 (en) * 2012-07-17 2014-01-23 Counsyl, Inc. System and methods for detecting genetic variation
JP6268184B2 (ja) * 2012-11-26 2018-01-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 患患者固有の関連性評価を用いた変異と疾患の関連付けを使用する診断的遺伝子分析
WO2014110350A2 (en) * 2013-01-11 2014-07-17 Oslo Universitetssykehus Hf Systems and methods for identifying polymorphisms
US20140278133A1 (en) * 2013-03-15 2014-09-18 Advanced Throughput, Inc. Systems and methods for disease associated human genomic variant analysis and reporting
CN105404793B (zh) * 2015-12-07 2018-05-11 浙江大学 基于概率框架和重测序技术快速发现表型相关基因的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022145877A1 (ko) * 2020-12-29 2022-07-07 주식회사 피터페터 주기적으로 업데이트 되는 유전자 변이 검사 결과 리포트 자동 발행 시스템
KR102470337B1 (ko) * 2022-05-18 2022-11-25 주식회사 쓰리빌리언 변이 접합성 판별 시스템

Also Published As

Publication number Publication date
WO2017172958A1 (en) 2017-10-05
SG11201808261RA (en) 2018-10-30
CA3018186C (en) 2023-06-13
AU2017242028A1 (en) 2018-09-06
JP2019515369A (ja) 2019-06-06
CN109155149A (zh) 2019-01-04
US20170286594A1 (en) 2017-10-05
IL261882A (en) 2018-10-31
MX2018011941A (es) 2019-03-28
EP3437001A1 (en) 2019-02-06
CA3018186A1 (en) 2017-10-05

Similar Documents

Publication Publication Date Title
CA3018186C (en) Genetic variant-phenotype analysis system and methods of use
Taliun et al. Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program
Pietzner et al. Synergistic insights into human health from aptamer-and antibody-based proteomic profiling
Abel et al. Mapping and characterization of structural variation in 17,795 human genomes
US20200327956A1 (en) Methods of selection, reporting and analysis of genetic markers using broad-based genetic profiling applications
Ngo et al. A diagnostic ceiling for exome sequencing in cerebellar ataxia and related neurological disorders
Stavropoulos et al. Whole-genome sequencing expands diagnostic utility and improves clinical management in paediatric medicine
Weiner et al. Polygenic architecture of rare coding variation across 394,783 exomes
International HapMap 3 Consortium Integrating common and rare genetic variation in diverse human populations
Trujillano et al. A comprehensive global genotype–phenotype database for rare diseases
Yang et al. Harvesting candidate genes responsible for serious adverse drug reactions from a chemical-protein interactome
Brandys et al. Overview of genetic research in anorexia nervosa: The past, the present and the future
Liu et al. Genetic architecture of the inflammatory bowel diseases across East Asian and European ancestries
Shieh et al. Application of full-genome analysis to diagnose rare monogenic disorders
Lee et al. Prioritizing disease‐linked variants, genes, and pathways with an interactive whole‐genome analysis pipeline
Pietzner et al. Cross-platform proteomics to advance genetic prioritisation strategies
Bleazard et al. Fine-scale mapping of meiotic recombination in Asians
Chai et al. Genome-wide association for HbA1c in Malay identified deletion on SLC4A1 that influences HbA1c independent of glycemia
Liu et al. Population analyses of mosaic X chromosome loss identify genetic drivers and widespread signatures of cellular selection
Shivani et al. Computational approach towards identification of pathogenic missense mutations in AMELX gene and their possible association with amelogenesis imperfecta
Wang et al. Genome-wide analysis of rare haplotypes associated with breast cancer risk
Zhang et al. Adaptation of ACMG-ClinGen technical standards for copy number variant interpretation concordance
Zhu et al. A robust pipeline for ranking carrier frequencies of autosomal recessive and X-linked Mendelian disorders
Mehandziska et al. Workflow for the implementation of precision genomics in healthcare
He et al. Genetic associations of protein-coding variants in venous thromboembolism