KR102307872B1 - 카피수 변이체 검출을 위한 방법 및 시스템 - Google Patents

카피수 변이체 검출을 위한 방법 및 시스템 Download PDF

Info

Publication number
KR102307872B1
KR102307872B1 KR1020177036068A KR20177036068A KR102307872B1 KR 102307872 B1 KR102307872 B1 KR 102307872B1 KR 1020177036068 A KR1020177036068 A KR 1020177036068A KR 20177036068 A KR20177036068 A KR 20177036068A KR 102307872 B1 KR102307872 B1 KR 102307872B1
Authority
KR
South Korea
Prior art keywords
coverage
calling
coverage data
sample
metrics
Prior art date
Application number
KR1020177036068A
Other languages
English (en)
Other versions
KR20180008651A (ko
Inventor
제프리 레이드
루카스 하베거
조나단 파커
이반 맥스웰
Original Assignee
리제너론 파마슈티칼스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 리제너론 파마슈티칼스 인코포레이티드 filed Critical 리제너론 파마슈티칼스 인코포레이티드
Publication of KR20180008651A publication Critical patent/KR20180008651A/ko
Application granted granted Critical
Publication of KR102307872B1 publication Critical patent/KR102307872B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Organic Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

카피수 변이체를 결정하기 위한 방법 및 시스템이 개시된다. 예시적인 방법은 샘플 그룹화 기법을 적용하여 참조 커버리지 데이터를 선택하는 단계, 복수의 게놈 영역을 포함하는 샘플 커버리지 데이터를 정규화하는 단계, 및 선택된 참조 커버리지 데이터에 기초하여 정규화된 샘플 커버리지 데이터에 대해 혼합 모델을 피팅하는 단계를 포함할 수 있다. 예시적인 방법은 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(HMM)에 따라 하나 이상의 카피수 변이체(CNV)를 확인하는 단계를 포함할 수 있다. 예시적인 방법은 하나 이상의 카피수 변이체를 출력하는 단계를 포함할 수 있다.

Description

카피수 변이체 검출을 위한 방법 및 시스템
관련 특허 출원의 상호 참조
본 출원은 전체적으로 본 명세서에 참고로 포함된 2015년 5월 18일자로 출원된 미국 정규 출원 제14/714,949호에 대한 우선권을 주장한다.
게놈 시퀀싱은 멘델 장애의 유전적 기초를 발견하는 효과적인 도구이다. 게놈 서열의 분석은 카피수 변이체(CNV)(예를 들어, 개체의 유전자형에서의 특정 유전자의 카피수)의 존재를 밝혀내었다. CNV는 인간 질병 및/또는 약물 반응에서 중요한 역할을 할 수 있다. 그러나, 게놈 서열 데이터(예를 들어, 엑솜 서열 데이터)로부터 CNV를 호출하는 것은 어렵다. 현재의 해법은 인간 시퀀싱 판독 깊이로부터 CNV를 검출하지만, 대략 수 만개 또는 수 십만개 엑솜의 대규모 집단 연구에는 적합하지 않다. 이들 해법의 한계는, 다른 것들 중에서, 자동화된 변이체 호출 파이프라인에 통합하기 어렵고, 공통 변이체를 검출하는 데에는 부적합하다는 것을 포함한다. 이들 및 다른 단점이 본 명세서에서 다루어진다.
하기의 전반적인 설명 및 하기의 상세한 설명은 모두 예시적이고 설명하기 위한 것일 뿐이며 제한적이지 않다는 것을 이해해야 한다. 카피수 변이체를 결정하기 위한 방법 및 시스템이 개시된다. 예시적인 방법은 샘플 그룹화 기법을 적용하여 참조 커버리지 데이터(reference coverage data)를 선택하는 단계, 복수의 게놈 영역을 포함하는 샘플 커버리지 데이터를 정규화하는 단계, 및 선택된 참조 커버리지 데이터에 기초하여 정규화된 샘플 커버리지 데이터에 대해 혼합 모델을 피팅(fitting)하는 단계를 포함할 수 있다. 예시적인 방법은 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(Hidden Markov Model, HMM)에 따라 하나 이상의 카피수 변이체(CNV)를 확인하는 단계를 포함할 수 있다. 예시적인 방법은 하나 이상의 카피수 변이체를 출력하는 단계를 포함할 수 있다.
일 태양에서, 다른 예시적인 방법은 복수의 게놈 영역을 포함하는 샘플 커버리지 데이터를 제공하는 단계, 및 참조 커버리지 데이터의 표시를 수신하는 단계를 포함할 수 있다. 참조 커버리지 데이터는 샘플 그룹화 기법에 기초하여 선택될 수 있다. 본 방법은 하나 이상의 필터를 선택하여 샘플 커버리지 데이터에 적용함으로써 샘플 커버리지 데이터를 정규화하는 단계, 및 참조 커버리지 데이터에 기초하여 정규화된 샘플 커버리지 데이터에 대한 혼합 모델의 피팅을 요청하는 단계를 포함할 수 있다. 본 방법은 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(HMM)에 따라 하나 이상의 카피수 변이체를 확인할 것을 요청하는 단계를 포함할 수 있다. 본 방법은 하나 이상의 카피수 변이체의 표시를 수신하는 단계를 추가로 포함할 수 있다.
일 태양에서, 다른 예시적인 방법은 복수의 게놈 영역을 포함하는 샘플 커버리지 데이터를 수신하는 단계, 샘플 커버리지 데이터에 대한 하나 이상의 메트릭(metric)을 검색하는 단계, 샘플 커버리지 데이터 및 참조 커버리지 데이터에 샘플 그룹화 기법을 적용하여 참조 커버리지 데이터의 하위 세트를 선택하는 단계, 복수의 게놈 영역을 포함하는 샘플 커버리지 데이터를 정규화하는 단계, 및 참조 커버리지 데이터의 하위 세트에 기초하여, 정규화된 샘플 커버리지 데이터에 대해 혼합 모델을 피팅하는 단계를 포함할 수 있다. 본 방법은 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(HMM)에 따라 하나 이상의 카피수 변이체를 확인하는 단계를 포함할 수 있다. 본 방법은 하나 이상의 카피수 변이체를 출력하는 단계를 포함할 수 있다.
추가의 이점은 부분적으로 하기 설명에 제시되거나 실시에 의해 알 수 있다. 이점들은 첨부된 청구범위에 특별히 언급된 요소 및 조합에 의해 실현되고 달성될 것이다.
본 명세서에 포함되어 본 명세서의 일부를 구성하는 첨부된 도면은 실시 형태를 도시하며, 상세한 설명과 함께, 본 방법 및 시스템의 원리를 설명하는 역할을 한다:
도 1은 예시적인 CNV 호출 파이프라인을 보여주는 순서도이다.
도 2는 카피수 변이체를 결정하기 위한 예시적인 방법을 보여주는 순서도이다.
도 3은 GC 함량과 커버리지의 관계를 보여주는 그래프를 도시한다.
도 4는 다양한 엑손의 정규화된 커버리지를 보여주는 그래프이다.
도 5는 카피수 변이체를 추정하기 위한 다른 예시적인 방법을 보여주는 순서도이다.
도 6은 카피수 변이체를 추정하기 위한 또 다른 예시적인 방법을 보여주는 순서도이다.
도 7은 개시된 방법을 수행하기 위한 예시적인 작동 환경을 보여주는 블록 다이어그램이다.
도 8은 CLAMMS 대 다른 알고리즘의 RAM 사용량을 비교한 것이다.
도 9는 CEPH 가계도 상에서의 CNV 호출에 대한 성능 메트릭을 보여주는 표이다.
도 10은 PennCNV 골드-스탠다드(gold-standard)와 비교한 CLAMMS 및 XHMM CNV 호출을 나타낸다.
도 11은 희소 CNV TaqMan 검증을 보여주는 표를 나타낸다.
도 12는 공통 CNV TaqMan 검증을 보여주는 표를 나타낸다.
도 13은 LILRA3 공통 변이체 유전자좌에 대한 CLAMMS 및 TaqMan 카피수 예측치를 비교하는 그래프이다.
도 14는 LILRA3 공통 변이체 유전자좌에 대한 CLAMMS 및 TaqMan 카피수 예측치를 비교하는 그래프이다.
도 15는 예시적인 출력이다.
본 방법 및 시스템이 개시되고 기술되기 전에, 본 방법 및 시스템은 특정 방법, 특정 컴포넌트, 또는 특정 구현예로 한정되지 않는다는 것을 이해해야 한다. 또한, 본 명세서에 사용되는 용어는 특정 실시 형태를 기술하기 위한 것일 뿐이며, 한정하고자 하는 것이 아님을 이해해야 한다.
본 명세서 및 첨부된 청구범위에 사용된 바와 같이, 단수 형태는 문맥상 명백히 달리 지시하지 않는 한 복수의 지시 대상을 포함한다. 범위는 본 명세서에서 "약" 하나의 특정 값으로부터 그리고/또는 "약" 다른 특정 값까지로서 표현될 수 있다. 그러한 범위가 표현될 때, 다른 실시 형태는 하나의 특정 값으로부터 그리고/또는 다른 특정 값까지를 포함한다. 유사하게, 값이 근사값으로 표현될 때, 선행하는 "약"의 사용에 의해, 특정 값은 다른 실시 형태를 형성하는 것으로 이해될 것이다. 각 범위의 종점들은 다른 종점과 관련하여 그리고 다른 종점과 관계 없이 모두 유의한 것으로 추가로 이해될 것이다.
"선택적" 또는 "선택적으로"는, 후속으로 기재된 사건 또는 상황이 발생하거나 발생하지 않을 수 있고, 그 기재가 상기 사건 또는 상황이 발생하는 경우 및 발생하지 않은 경우를 포함함을 의미한다.
본 명세서의 상세한 설명 및 청구범위 전체에 걸쳐, "포함한다"라는 단어 및 "포함하는" 및 "포함하고"와 같은 이의 변화형은 "포함하지만 이에 한정되지 않는"을 의미하며, 예를 들어, 다른 구성 요소, 정수 또는 단계를 배제하고자 하는 것이 아니다. "예시적인"은 "~의 일례"를 의미하며, 바람직한 또는 이상적인 실시 형태의 표시를 나타내고자 하는 것이 아니다. "~와 같은"은 제한적인 의미로 사용되지 않고, 설명을 목적으로 사용된다.
개시된 방법 및 조성물은 이들이 다양할 수 있으므로 기술된 특정 방법, 프로토콜, 및 시약에 한정되지 않는 것으로 이해된다. 또한, 본 명세서에 사용되는 용어는 특정 실시 형태를 기술하기 위한 것일 뿐이며, 첨부된 청구범위에 의해서만 한정되는 본 방법 및 시스템의 범위를 한정하고자 하는 것이 아님을 이해해야 한다.
달리 정의되지 않는 한, 본 명세서에 사용되는 모든 기술 및 학술 용어는 개시된 방법 및 조성물이 속하는 기술 분야의 당업자에 의해 통상적으로 이해되는 것과 동일한 의미를 가진다. 본 명세서에 기술된 것들과 유사하거나 등가인 임의의 방법 및 재료가 본 방법 및 조성물의 실시 또는 시험에 사용될 수 있지만, 특히 유용한 방법, 장치, 및 재료는 기술된 바와 같다. 본 명세서에 인용된 간행물 및 그 간행물들이 인용된 자료는 본 명세서에 구체적으로 참고로 포함된다. 본 명세서 중의 어떠한 것도 선행 발명이라는 이유로 본 발명이 그러한 개시보다 앞설 권리가 없음을 인정하는 것으로 해석되지 않아야 한다. 임의의 참고 문헌은 선행 기술을 구성하는 것으로 인정되지 않는다. 참고 문헌의 논의는 그의 저자들이 주장한 바를 나타내며, 출원인은 인용된 문헌의 정확성 및 적절성에 이의를 제기할 권리를 유보한다. 다수의 간행물이 본 명세서에 언급되어 있지만, 이러한 언급은 이들 문헌 중 임의의 것이 당업계의 통상적인 일반 지식의 일부를 형성한다는 인정을 구성하지 않는 것으로 명확히 이해될 것이다.
개시된 방법 및 시스템을 수행하는 데 사용될 수 있는 구성 요소가 개시된다. 이들 및 다른 구성 요소가 본 명세서에 개시되어 있으며, 이들 구성 요소들의 조합, 하위 세트, 상호작용, 그룹 등이 개시되어 있을 때, 이들의 각각의 다양한 개별적 및 집합적 조합과 순열의 구체적인 언급이 명시적으로 개시될 수 없지만, 각각은 본 명세서에서 모든 방법 및 시스템에 대하여 구체적으로 고려되고 기술되어 있는 것으로 이해된다. 이는 개시된 방법의 단계를 포함하지만 이에 한정되지 않는 본 출원의 모든 태양에 적용된다. 따라서, 수행될 수 있는 다양한 추가의 단계들이 존재하는 경우, 이들 추가의 단계 각각은 개시된 방법의 임의의 특정 실시 형태 또는 실시 형태들의 조합으로 수행될 수 있는 것으로 이해된다.
본 방법 및 시스템은 하기의 바람직한 실시 형태의 상세한 설명 및 거기에 포함된 실시예 그리고 도면 및 이들의 상기 및 하기 설명을 참조로 더 쉽게 이해될 수 있다.
당업자에 의해 인식되는 바와 같이, 본 방법 및 시스템은 완전한 하드웨어 실시 형태, 완전한 소프트웨어 실시 형태, 또는 소프트웨어 태양과 하드웨어 태양을 조합한 실시 형태의 형태를 취할 수 있다. 또한, 본 방법 및 시스템은 컴퓨터 판독가능 프로그램 명령어(예를 들어, 컴퓨터 소프트웨어)가 내부에 구현되는, 컴퓨터 판독가능 저장 매체 상의 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 더 구체적으로, 본 방법 및 시스템은 웹 구현 컴퓨터 소프트웨어의 형태를 취할 수 있다. 하드 디스크, CD-ROM, 광 저장 장치, 또는 자기 저장 장치를 포함하는 임의의 적합한 컴퓨터 판독가능 저장 매체가 이용될 수 있다.
본 방법 및 시스템의 실시 형태는 방법, 시스템, 장치 및 컴퓨터 프로그램 제품의 블록 다이어그램 및 순서도 예시를 참조로 하기에 기술된다. 블록 다이어그램 및 순서도 예시의 각각의 블록, 및 블록 다이어그램 및 순서도 예시의 블록들의 조합은 각각 컴퓨터 프로그램 명령어에 의해 구현될 수 있는 것으로 이해될 것이다. 이들 컴퓨터 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터, 또는 다른 프로그래밍가능한 데이터 처리 장치 상에 로딩되어 머신(machine)을 생성할 수 있으며, 이에 따라 컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치에서 실행되는 명령어는 순서도 블록 또는 블록들에 명시된 기능을 구현하기 위한 수단을 생성시킨다.
컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치가 특정 방식으로 기능하도록 지시할 수 있는 이들 컴퓨터 프로그램 명령어는 또한 컴퓨터 판독가능 메모리에 저장될 수 있으며, 이에 따라 컴퓨터 판독가능 메모리에 저장된 명령어는 순서도 블록 또는 블록들에 명시된 기능을 구현하기 위한 컴퓨터 판독가능 명령어를 포함하는 제조 물품을 생성시킨다. 컴퓨터 프로그램 명령어는 또한 컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치 상에 로딩되어 일련의 작동 단계가 컴퓨터 또는 다른 프로그래밍가능한 장치 상에서 수행되게 하여 컴퓨터 구현 프로세스를 생성할 수 있으며, 이에 따라 컴퓨터 또는 다른 프로그래밍가능한 장치 상에서 실행되는 명령어는 순서도 블록 또는 블록들에 명시된 기능을 구현하기 위한 단계를 제공한다.
따라서, 블록 다이어그램 및 순서도 예시의 블록은 명시된 기능을 수행하기 위한 수단들의 조합, 명시된 기능을 수행하기 위한 단계들의 조합 및 명시된 기능을 수행하기 위한 프로그램 명령어 수단을 지원한다. 블록 다이어그램 및 순서도 예시의 각각의 블록, 및 블록 다이어그램 및 순서도 예시의 블록들의 조합은 명시된 기능 또는 단계를 수행하는 특수 목적 하드웨어 기반 컴퓨터 시스템, 또는 특수 목적 하드웨어와 컴퓨터 명령어의 조합에 의해 구현될 수 있는 것으로 또한 이해될 것이다.
본 방법 및 시스템은 CNV 검출(예를 들어, 확인, 예측, 추정)에 관한 것이다. 본 방법 및 시스템의 일부 태양은 "격자 정렬 혼합 모델을 사용한 카피수 추정(Copy number estimation using Lattice-aligned Mixture Models, CLAMMS)"으로 지칭될 수 있다.
전체 엑솜 시퀀싱(whole exome sequencing, WES) 데이터로 카피수 변이체를 검출하는 것은 어려울 수 있는데, 이는 CNV 브레이크포인트(breakpoint)가 엑솜의 범위 밖에 존재할 가능성이 있기 때문이다. 본 방법 및 시스템은 CNV 이내의 판독 깊이를 이용할 수 있다. 이러한 판독 깊이는 카피수 상태와 선형적으로 상호 관련될 수 있다. 그러나, 커버리지 깊이(depth-of-coverage)는 체계적인 편향(예를 들어, 종종 서열 GC 함량과 관련됨)과 확률 변동성(예를 들어, 입력 DNA 품질의 변화에 의해 악화됨) 둘 모두에 좌우될 수 있다. 본 방법 및 시스템은, 커버리지 데이터를 정규화하여 체계적인 편향을 보정하고 이배체 카피수를 고려하여 예상 커버리지 프로파일을 특성화함으로써 실제 CNV가 노이즈와 구별될 수 있게 한다. 이러한 정규화는, 예를 들어, 각 샘플의 커버리지 데이터를 유사하게 시퀀싱된 샘플의 "참조 패널"(예를 들어, 참조 커버리지 데이터)로부터의 데이터와 비교하는 것을 포함할 수 있다. 샘플 준비 및 시퀀싱 절차의 가변성은, 통상 "배치(batch) 효과"라 지칭되는 추가의 커버리지 편향을 초래할 수 있다.
일 태양에서, 본 방법 및 시스템은 혼합 모델과 히든 마르코프 모델(HMM) 둘 모두의 사용에 기초하여 CNV를 확인할 수 있다. 예를 들어, 혼합 모델은 k-최근접 이웃 알고리즘과 같은 샘플 그룹화 알고리즘을 사용하여 결정된 참조 커버리지 데이터에 기초하여 피팅될 수 있다. 혼합 모델로부터의 정보는 CNV의 확인을 위해 HMM에 입력될 수 있다.
도 1은 예시적인 CNV 호출 파이프라인을 도시하는 순서도이다. 커버리지 데이터(예를 들어, 하나 이상의 게놈 포착 영역을 포함하는 참조 커버리지 데이터)의 참조 패널은, 샘플 그룹화 기법을 이용하여 복수의 메트릭(예를 들어, 시퀀싱 품질 관리(QC) 메트릭)을 기초로 각 샘플(예를 들어, 하나 이상의 게놈 포착 영역을 포함하는 샘플 커버리지 데이터)에 대해 선택될 수 있다. 샘플 그룹화 기법은 유사성에 의해 샘플을 그룹화하기 위한 기법(예를 들어, 알고리즘)을 포함할 수 있다. 사용될 수 있는 샘플 그룹화 기법의 예는 의사 결정 트리, 서포트-벡터 머신(support-vector machine), k-최근접 이웃(knn) 알고리즘, 나이브 베이즈
Figure 112017124596199-pct00001
알고리즘, CART(분류 및 회귀 트리(Classification and Regression Trees)) 알고리즘 등을 포함하지만 이에 한정되지 않는다. 예를 들어, kNN 알고리즘은 k-d 트리 데이터 구조를 생성하는 것을 포함할 수 있다. 참조 커버리지 데이터는 샘플 커버리지 데이터(예를 들어, 또는 샘플 커버리지 데이터와 관련된 메트릭)를 k-d 트리 구조에 삽입하고 미리 결정된 수(예를 들어, 10, 100, 1000, 10000 등)의 최근접 이웃을 확인함으로써 선택될 수 있다. 참조 커버리지 데이터를 선택한 후, 샘플은 동시에 처리될 수 있다. 샘플 수준 분석(우측 패널)은 커버리지를 정규화하고, 혼합 모델로 커버리지 분포를 피팅하고, HMM으로부터 호출을 생성하는 것을 포함한다.
일 태양에서, 본 방법 및 시스템의 예시적인 구현은 도 1에 개시되어 있다. 좌측 패널에 나타낸 바와 같이, (예를 들어, 샘플 세트로부터 인출된) 참조 커버리지 데이터는 샘플 그룹화 기법의 일부로서 사용될 수 있다. k-d 트리를 이용하는 k-최근접 이웃 알고리즘을 사용하여 샘플 그룹화 기법을 예시하고 있지만, 다른 샘플 그룹화 기법(예를 들어, 임의의 적절한 클러스터링, 그룹화, 및/또는 분류 알고리즘)이 적용될 수 있다는 것을 인식해야 한다. k-d 트리는 k 차원 공간의 점들에 대한 다차원 탐색 트리를 포함할 수 있다. 예를 들어, 참조 커버리지 데이터의 복수의 메트릭이 샘플 그룹화 기법에 의해 사용될 수 있다. 예를 들어, 참조 커버리지 데이터의 복수의 메트릭을 사용하여 k-d 트리를 구축할 수 있다. 복수의 메트릭은, 예를 들어, 시퀀싱 품질 관리(QC) 메트릭, 샘플 메타데이터, 가계 기반 값, 서열 유사성 스코어, 및/또는 샘플 수준 가변성을 포착하는 임의의 메트릭을 포함할 수 있다. 예를 들어, 시퀀싱 QC 메트릭의 경우, 7개의 QC 메트릭이 사용될 수 있다. 예시로서, 시퀀싱 QC 메트릭은 GCDROPOUT, ATDROPOUT, MEANINSERTSIZE, ONBAITVSSELECTED, PCTPFUQREADS, PCTTARGETBASES10X, PCTTARGETBASES50X 등을 포함할 수 있다. 시퀀싱 QC 메트릭은 (예를 들어, 선형 변환을 적용하여) 스케일링되고 처리되어 k-d 트리를 구축할 수 있다.
샘플 커버리지 데이터에 대한 복수의 메트릭(예를 들어, 시퀀싱 QC 메트릭)이 또한 스케일링되고 k-d 트리에 삽입될 수 있다. 이어서, k-d 트리가 사용되어 최근접 이웃 탐색을 수행함으로써 샘플 커버리지 데이터에 대한 최근접 이웃을 확인할 수 있다. 참조 커버리지 데이터 내의 임의의 수(예를 들어, 10, 100, 1000, 10000 등)의 최근접 이웃이 확인될 수 있다. 원하는 수의 최근접 이웃이 사용되어 선택된 참조 커버리지 데이터(예를 들어, 참조 커버리지 데이터의 하위 세트)를 형성할 수 있다. 본 방법 및 시스템은 각 샘플에 대한 맞춤형 참조 커버리지 데이터를 선택함으로써 데이터 이질성을 해결할 수 있다. 예로서, 샘플들(예를 들어, 참조 커버리지 데이터) 사이의 거리 메트릭이 상술한 7개의 시퀀싱 QC 메트릭에 기초하여 정의될 수 있다. 예를 들어, 시퀀싱 QC 메트릭은 Picard와 같은 시퀀싱 도구로부터 결정, 선택, 수신 등이 될 수 있다. 각각의 새로 시퀀싱된 샘플이 이 메트릭 공간의 k-d 트리에 추가될 수 있다. CNV는 개별 샘플의 k(예를 들어, 100) 최근접 이웃을 포함하는 선택된 참조 커버리지 데이터를 사용하여 호출될 수 있다. k-최근접 이웃은 k-d 트리 알고리즘과 같은 임의의 최근접 이웃 알고리즘 또는 다른 샘플 그룹화 기법을 이용하여 찾을 수 있다.
우측 패널에 나타낸 바와 같이, 샘플 커버리지 데이터(예를 들어, 샘플 i)가 샘플 세트로부터 선택될 수 있다. 샘플 커버리지 데이터는 정규화되어 GC 증폭 편향 및 전반적인 평균 커버리지 깊이를 보정할 수 있다. 다른 태양에서, 샘플 커버리지 데이터가 필터링될 수 있다. 예를 들어, 샘플 커버리지 데이터는, GC 함량 수준, 맵핑 가능성(mappability) 스코어, 판독 커버리지의 중심 경향 척도, 다중 카피 복제 엑솜 포착 영역에서의 호출 윈도우의 발생, 이들의 조합 등에 기초하여 필터링될 수 있다. 예를 들어, 맵핑 가능성이 낮은 영역에서의 판독 깊이는 게놈의 서열 용량을 정확하게 나타내지 않을 수도 있다.
일단 샘플 커버리지 데이터가 정규화되면, 선택된 참조 커버리지 데이터(최근접 이웃)가 사용되어 샘플 커버리지 데이터에서 하나 이상의(또는 각각의) 게놈(예를 들어, 엑솜) 포착 영역에 대해 유한 혼합 모델을 피팅할 수 있다. 유한 혼합 모델은 2개 이상의 확률 밀도 함수들의 조합을 포함할 수 있다. 유한 혼합 모델은 하기와 같은 하나 이상의 구성 요소를 포함할 수 있다: 관측치에 대응하는 N개의 무작위 변수로서, 각각 K개의 구성 요소들의 혼합물에 따라 분포된 것으로 가정되며, 각각의 구성 요소는 동일한 분포 매개 변수 계열에 속하지만 상이한 매개 변수를 갖는, 무작위 변수; 각 관측치의 혼합 모델의 구성 요소의 아이덴티티를 특정하는 N개의 대응하는 무작위 잠재 변수로서, 각각 K 차원 카테고리 분포에 따라 분포되는, 무작위 잠재 변수; K개의 혼합 가중치의 세트로서, 각각의 혼합 가중치는 확률(0과 1을 포함하는 0과 1 사이의 실수)이고 이들 모두의 합이 1인, 혼합 가중치의 세트; K개의 매개 변수의 세트로서, 각각의 매개 변수는 혼합 모델의 대응하는 구성 요소의 매개 변수를 특정하는, 매개 변수의 세트. 일부 태양에서, 매개 변수는 매개 변수의 세트를 포함할 수 있다. 본 방법 및 시스템에서, 혼합 모델의 각각의 구성 요소는 특정 정수 카피수 상태에 대한 샘플에 걸쳐 예상 커버리지 분포를 모델링할 수 있다. 동형접합성 결실 및 성 염색체를 다루도록 적응이 이루어질 수 있다.
일 태양에서, 기대값-최대화(EM) 알고리즘이 사용되어 유한 혼합 모델을 피팅할 수 있다. EM 알고리즘은 누락된 값 또는 잠재 변수가 있을 때 최대 가능도 추정치를 찾기 위한 일반적인 방법이다. EM 알고리즘은 반복 알고리즘일 수 있다. 반복은 기대값(E) 단계를 수행하는 것과 최대화(M) 단계를 수행하는 것 사이를 오가는 것으로, 기대값(E) 단계는 매개 변수에 대한 현재 추정치를 사용하여 평가된 로그-가능도의 기대값을 위한 함수를 생성할 수 있고, 최대화(M) 단계는 E 단계에서 찾은 기대 로그-가능도를 최대화하는 매개 변수를 계산할 수 있다. 이어서, 이 매개변수-추정치가 사용되어 다음 E 단계에서 잠재 변수의 분포를 결정할 수 있다.
일 태양에서, CNV는 히든 마르코프 모델(HMM)을 사용하여 샘플 커버리지 데이터에 대해 호출될 수 있다. 예를 들어, 각 영역에 대한 개별 샘플의 정규화된 커버리지 값은 HMM에 대한 입력 서열일 수 있다. HMM의 방출 확률은 학습된(예를 들어, 피팅된, 적응된) 혼합 모델에 기초할 수 있다. HMM의 전이 확률은, 본 명세서에 참고로 포함된, XHMM과 같은 다른 모델에 의해 사용되는 것과 유사할 수 있다. 혼합 모델은 카피수 다형성 유전자좌가 자연스럽게 취급될 수 있게 하는 한편, HMM은 근처의 비정상적 신호가 다수의 작은 CNV보다 단일 CNV의 일부일 가능성이 더 높을 것이라는 사전 기대를 포함한다. 본 방법 및 시스템은 혼합 모델 및 HMM을 단일 확률 모델로 통합할 수 있다.
도 2는 카피수 변이체를 결정하기 위한 예시적인 방법(200)을 보여주는 순서도이다. 일 태양에서, 본 방법 및 시스템은 복수의 게놈 영역을 포함하는 샘플 커버리지 데이터를 분석하여 CNV를 검출하도록 구성될 수 있다. 단계(202)에서, 샘플 그룹화 기법이 적용되어 참조 커버리지 데이터를 선택할 수 있다. 예를 들어, 샘플 그룹화 기법은 유사성에 의해 샘플을 그룹화하기 위한 기법(예를 들어, 알고리즘)을 포함할 수 있다. 샘플 그룹화 기법을 적용하여 참조 커버리지 데이터를 선택하는 것은 샘플 커버리지 데이터에 대한 복수의 메트릭을 수신하는 것을 포함할 수 있다. 샘플 커버리지 데이터와 참조 커버리지 데이터 사이의 거리 메트릭은 복수의 메트릭에 기초하여 정의될 수 있다. 참조 커버리지 데이터는 거리 메트릭에 기초하여 (예를 들어, 각 샘플에 대해) 선택될 수 있다. 샘플 그룹화 기법은 그룹화 알고리즘, 클러스터링 알고리즘, 분류 알고리즘 등을 포함할 수 있다. 예를 들어, 샘플 그룹화 기법은 의사 결정 트리, 서포트-벡터 머신, k-최근접 이웃(knn) 알고리즘, 나이브 베이즈 알고리즘, CART(분류 및 회귀 트리) 알고리즘 등을 포함할 수 있다. 예를 들어, 샘플 그룹화 기법을 적용하여 참조 커버리지 데이터를 선택함에 있어서, 본 방법은 참조 커버리지 데이터와 관련된 복수의 메트릭을 스케일링하는 단계, 참조 커버리지 데이터와 관련된 스케일링된 복수의 메트릭에 기초하여 k-d 트리를 생성하는 단계, 샘플 커버리지 데이터와 관련된 복수의 메트릭을 스케일링하는 단계, 샘플 커버리지 데이터와 관련된 스케일링된 복수의 메트릭에 기초하여 샘플 커버리지 데이터를 k-d 트리에 추가하는 단계, 샘플 커버리지 데이터에 대한 미리 결정된 수의 최근접 이웃을 선택된 참조 커버리지 데이터로서 확인하는 단계 등을 포함할 수 있다.
샘플 그룹화 기법을 적용하여 참조 커버리지 데이터를 선택하는 것이 하기와 같이 더 상세히 기술된다. 시퀀싱 조건의 가변성으로 인해 발생하는 체계적인 커버리지 편향은 통상 "배치 효과"라고 지칭된다. 일 태양에서, 본 방법 및 시스템은 맞춤형 참조 패널(예를 들어, 선택된 참조 커버리지 데이터) 접근법을 이용하여 배치 효과를 보정하도록 구성될 수 있다. 예를 들어, 샘플의 커버리지 프로파일 - 고차원 공간 -에 기초하여 샘플 커버리지 데이터를 비교하는 대신, 본 방법 및 시스템은 시퀀싱 품질 관리(QC) 메트릭에 기초하여 저차원 메트릭 공간을 고려하도록 구성될 수 있다. 예를 들어, 시퀀싱 QC 메트릭은 7개의 시퀀싱 QC 메트릭을 포함할 수 있다. 시퀀싱 QC 메트릭은 Picard와 같은 시퀀싱 도구로부터의 시퀀싱 QC 메트릭을 포함할 수 있다. 이 저차원 공간에서의 작업은 개선된 확장성(scalability)을 허용한다. 예를 들어, 샘플은 (예를 들어, 임의의 적절한 인덱싱 및/또는 탐색 알고리즘을 사용하여) 미리 인덱싱될 수 있다. 추가의 예로서, 샘플은 k-최근접 이웃 알고리즘을 사용하여 미리 인덱싱될 수 있다. 예를 들어, k-최근접 이웃 알고리즘은, 신속한 최근접-이웃 질의를 허용하고 최소량의 RAM을 사용하는 k-d 트리 구조를 사용할 수 있다.
예시로서, 예시적인 변이체 호출 파이프라인은 하기와 같이 진행되도록 구성될 수 있다:
1. 실험실 정보 관리 시스템에 질의하여 각 샘플에 대해 하기와 같은7개의 Picard 시퀀싱 품질 관리 메트릭을 검색한다: GCDROPOUT, ATDROPOUT, MEANINSERTSIZE, ONBAITVSSELECTED, PCTPFUQREADS, PCTTARGETBASES10X, 및 PCTTARGETBASES50X.
2. 선형 변환을 적용하여 각 메트릭을 범위 [0, 1]로 스케일링한 후에(예를 들어, 스케일링된 값 = [미가공 값 - 최소값]/[최대값 - 최소값]) 각 샘플의 QC 메트릭 벡터 k-d 트리 데이터 구조를 삽입한다.
3. 각 샘플에 대해 하기를 동시에 수행한다:
(a) 샘툴(samtool)을 사용하여 BAM 파일로부터 커버리지 깊이를 계산하고 CLAMMS의 샘플내 정규화 단계를 실행한다.
(b) k-d 트리에서 샘플의 100개의 최근접 이웃을 사용하여 CLAMMS 모델을 학습시킨다.
(c) 이들 모델을 사용하여 CNV를 호출한다.
일 태양에서, 더 큰 k값은 혼합 모델 매개 변수의 통계적 추론에서 분산은 감소시킬 수 있지만 편향을 증가시킬 수 있다. 디폴트 k값은 특정 응용 프로그램에 따라 선택될 수 있다. 일부 시나리오에서, 디폴트 값 k = 100이 최상의 편향-분산 트레이드오프를 제공할 수 있다. 파이프 라인은, k-d 트리가 데이터베이스에 저장되는 경우, 네트워크(예를 들어, 웹 인터페이스)를 통해 실행되도록 확장될 수 있다. 소규모 연구와 같은 일부 시나리오에서, 본 방법 및 시스템은 또한 QC 메트릭을 계산할 필요 없이 사용될 수 있다. 예를 들어, 샘플은 샘플 x 엑손 커버리지 행렬의 PCA 플롯에 기초하여 배치에 수동으로 할당될 수 있다. 별도의 모델 세트가 각 배치에 대해 학습되어 그 배치의 샘플에 대해 CNV를 호출하는 데 사용될 수 있다.
일 태양에서, 본 방법 및 시스템은 샘플 커버리지 데이터의 복수의 게놈 영역을 하나 이상의 호출 윈도우(예를 들어, 복수의 호출 윈도우)로 분할할 수 있다. 예를 들어, 본 방법 및 시스템은 게놈(예를 들어, 엑솜) 포착 영역을 동일한 크기의 호출 윈도우로 분할할 수 있다. 예를 들어, 길이가 1000 bp 이상인 게놈 포착 영역은 동일한 크기의 500 내지 1000 염기쌍(bp)의 호출 윈도우로 분할될 수 있다. 본 방법 및 시스템은, 게놈 영역을 호출 윈도우로 분할하여, 긴 엑손과 부분적으로 중첩하는 CNV가 검출될 수 있게 하도록 구성될 수 있다. 비정상적으로 긴 엑손을 갖는 유전자의 예는 AHNAK, TTN, 및 여러 뮤신을 포함한다. 일 태양에서, 복수의 게놈 영역 중 미리 결정된 크기보다 큰, 예를 들어 999개 염기보다 큰 게놈 영역만이 분할될 수 있다. 임의의 다른 적절한 수의 염기가 사용될 수 있다는 것을 주의해야 한다.
일 태양에서, 본 방법 및 시스템은, 선택적으로, 샘플 커버리지 데이터를 필터링하는 단계를 포함할 수 있다. 필터링은 단계(202) 전에, 단계(202) 동안, 그리고/또는 방법(200)의 다른 단계들 동안 달성될 수 있다. 샘플 커버리지 데이터를 필터링하는 단계는 구아닌-시토신(GC) 함량 수준에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계를 포함할 수 있다. GC 함량 수준에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 하나 이상의 호출 윈도우 중의 호출 윈도우의 GC 함량 수준이 미리 결정된 범위 밖에 있는 경우, 그 호출 윈도우를 제외시키는 단계를 포함할 수 있다. 일 태양에서, 본 방법 및 시스템은 극단적인 구아닌-시토신(GC) 함량으로 윈도우를 필터링할 수 있다. GC-증폭 편향은 편향이 임의의 특정 GC 함량 수준에 대해 거의 일관될 때 보정될 수 있다. 그러나, 매우 낮거나 높은 GC 함량에서, 확률 커버리지 변동성이 극적으로 증가하여, 효과적으로 정규화하는 것을 어렵게 할 수 있다. 따라서, 본 방법 및 시스템은 GC 분율이 구성가능한(예를 들어, 또는 미리 정의된) 범위 또는 임계값 밖에 있는 윈도우를 필터링할 수 있다. 예시로서, 구성가능한 범위는 도 3에 나타낸 바와 같이 [0.3, 0.7]을 포함할 수 있다. 그러나, 다른 범위(예를 들어, 임계값)가 적절하게 이용될 수 있다는 것을 인식해야 한다.
GC 함량에 기초한 필터링의 추가의 설명으로서, 도 3은 GC 함량과 커버리지의 관계를 보여주는 그래프를 나타낸다. 예를 들어, 커버리지의 변동 계수(예를 들어, 표준 편차/평균)를 y축에 나타내고, GC 함량을 x축에 나타낸다. 그래프는 50개의 샘플(예를 들어, 가시성을 위해 점들이 찍혀 있음)을 나타낸다. 구성가능한 범위의 디폴트 상한(예를 들어, GC = 0.7) 초과의 경우, 커버리지 분산은 평균에 비해 매우 커서, 커버리지 기반 CNV 호출을 신뢰할 수 없게 할 수 있다. 구성가능한 범위의 디폴트 하한(예를 들어, GC 함량 = 0.3) 미만의 경우, 추가의 문제가 발생한다. 예를 들어, 커버리지 분산 자체가 샘플 간에 매우 가변적일 수 있다. 이 분산은 특정 윈도우에서 특정 샘플에 대한 예상 커버리지 분산을 정확하게 추정하는 것을 어렵게 하는데, 이는 각각의 참조 패널 샘플의 커버리지 값이 상이한 분포로부터의 관측치이기 때문이다.
일 태양에서, 전체 DNA 단편의 GC 함량은 시퀀싱된 판독뿐만 아니라 단편 카운트에 영향을 줄 수 있다. 따라서, GC 분율을 계산할 때, 윈도우는 평균 단편 크기보다 적어도 약간 길도록 대칭적으로 확장될 수 있다. 평균 단편 크기는 CLAMMS의 다른 구성가능한 매개 변수일 수 있다. 평균 단편 크기는 디폴트가 200 bp로 설정되거나 다른 적절한 값이 사용될 수 있다.
샘플 커버리지 데이터를 필터링하는 단계는 복수의 게놈 영역 중의 게놈 영역의 맵핑 가능성 스코어에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계를 포함할 수 있다. 예를 들어, 본 방법 및 시스템은 윈도우의 각 염기에서 시작하는 k량체(k-mer)에 대한 평균 맵핑 가능성 스코어(디폴트 k=75)가 0.75 미만인 호출 윈도우를 필터링할 수 있다. 맵핑 가능성 스코어에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 복수의 게놈 영역의 각 게놈 영역에 대한 맵핑 가능성 스코어를 결정하는 단계, 및 복수의 게놈 영역 중의 게놈 영역의 맵핑 가능성 스코어가 미리 결정된 임계값 미만인 경우, 하나 이상의 호출 윈도우 중에서, 복수의 게놈 영역 중의 그 게놈 영역을 포함하는 호출 윈도우를 제외시키는 단계를 포함할 수 있다. 복수의 게놈 영역의 각 게놈 영역에 대한 맵핑 가능성 스코어를 결정하는 단계는 첫 번째 염기가 복수의 게놈 영역 중의 게놈 영역과 중첩하는 k량체의 역 참조 게놈 빈도의 평균을 결정하는 단계를 포함할 수 있다.
다른 태양에서, 샘플 커버리지 데이터를 필터링하는 단계는 판독 커버리지의 중심 경향 척도에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계를 포함할 수 있다. 판독 커버리지의 중심 경향 척도에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 하나 이상의 호출 윈도우 중의 호출 윈도우가 유사한 GC 함량을 갖는 호출 윈도우에 대한 예상 커버리지 값보다 작은 판독 커버리지의 중심 경향 척도를 포함하는 경우, 하나 이상의 호출 윈도우 중의 그 호출 윈도우를 제외시키는 단계를 포함할 수 있다. 예를 들어, 본 방법 및 시스템은 샘플 간의 중간 및/또는 평균 커버리지가 유사한 GC 함량을 갖는 윈도우에 대한 기대값의 10% 미만인 윈도우를 필터링할 수 있다.
다른 태양에서, 샘플 커버리지 데이터를 필터링하는 단계는 다중 카피 복제 게놈 영역에서의 호출 윈도우의 발생에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계를 포함할 수 있다. 다중 카피 복제 게놈 영역에서의 호출 윈도우의 발생에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 하나 이상의 호출 윈도우 중의 호출 윈도우가 다중 카피 복제가 존재하는 것으로 알려진 영역 내에서 발생하는 경우, 하나 이상의 호출 윈도우 중의 그 호출 윈도우를 제외시키는 단계를 포함할 수 있다. 예시로서, 엑솜 포착 영역의 일부(예를 들어, 상기 디폴트를 사용하여 12%)가 이들 필터를 사용하여 호출 프로세스로부터 제외될 수 있다.
다시 도 2를 참조하면, 단계(204)에서, 샘플 커버리지 데이터가 정규화될 수 있다. 샘플 커버리지 데이터는 복수의 게놈 영역을 포함할 수 있다. 본 방법 및 시스템은 각각의 개별 샘플에 대한 샘플 커버리지 데이터를 정규화하여 GC 편향 및 전반적인 평균 커버리지 깊이를 보정할 수 있다. 샘플 커버리지 데이터를 정규화하는 단계는 호출 윈도우 w에 대한 미가공 커버리지를 결정하는 단계, 호출 윈도우 w의 GC 분율에 조건부인 하나 이상의 호출 윈도우에 걸쳐 샘플 커버리지 데이터에 대한 중간 커버리지를 결정하는 단계, 및 미가공 커버리지를 중간 커버리지로 나누어 정규화된 샘플 커버리지 데이터를 생성하는 단계를 포함할 수 있다. 호출 윈도우 w의 GC 분율에 조건부인 복수의 윈도우에 걸쳐 샘플 커버리지 데이터에 대한 중간 커버리지를 결정하는 단계는 하나 이상의 호출 윈도우를 GC 분율로 비닝(binning)하여 복수의 빈(bin)을 생성하는 단계, 복수의 빈의 각 빈에 대한 중간 커버리지를 결정하는 단계, 및/또는 호출 윈도우 w에 가장 가까운 2개의 빈에 대한 중간 커버리지 사이의 선형 보간법을 사용하여 각각의 구별되는 가능한 GC 분율에 대한 정규화 인자를 결정하는 단계를 포함할 수 있다.
샘플 커버리지 데이터의 정규화는 하기와 같이 더 상세히 설명된다. 예를 들어, 조건부 중간값은 샘플에 대한 모든 윈도우를 GC 분율(예를 들어, [0.300, 0.310], [0.315, 0.325] 등)로 비닝함으로써 결정(예를 들어, 계산, 산출)될 수 있다. 예를 들어, 복수의 빈은 GC 분율 값에 기초하여 결정될 수 있다. 복수의 빈 중 하나 이상의(또는 각각의) 빈은 하나 이상의 증분 값(예를 들어, 0.01)에 기초하여 총 GC 분율 값 범위를 (예를 들어, 균등하게) 나눔으로써 결정될 수 있다. 각각의 빈에 대한 중간 커버리지가 결정(예를 들어, 산출, 계산)될 수 있다. 주어진 GC 분율에 대한 정규화 인자가 결정(예를 들어, 산출, 계산)될 수 있다. 예를 들어, 주어진 GC 분율에 대한 정규화 인자는 해당 빈에 가장 가까운 2개의 빈에 대한 중간 커버리지 사이에 선형 보간법을 사용하여 결정될 수 있다. 일 태양에서, 비닝 해상도(예를 들어, 증분 값들의 크기)는 구성가능할 수 있다. 추정을 위한 충분한 샘플 크기를 각 빈에 제공할 필요가 있는 세분화된 비닝의 균형을 맞추는 예시적인 디폴트 해상도가 결정(예를 들어, 선택)될 수 있다.
도 4는 다양한 엑손의 정규화된 커버리지를 보여주는 그래프이다. 그래프는 (예를 들어, 샘플내 정규화가 적용된 후에) GSTT1 유전자의 엑손에 대한 관찰된 커버리지 분포에 대해 피팅된 혼합 모델을 나타낸다. (예를 들어, 가시성을 위해 찍힌) 각 점은 엑손에 대한 샘플의 정규화된 커버리지를 나타낸다. 플롯 점들의 음영은, 엑손이 이의 이웃과 관계 없이 취급되어야 하는 경우, 가장 가능성이 높은 카피수와 두 번째로 가능성이 높은 카피수 사이의 가능도 비에 비례하는 모델 및 불투명도를 고려하여 가장 가능성이 높은 카피수를 나타낸다.
다시 도 2를 참조하면, 단계(206)에서, 혼합 모델은 선택된 참조 커버리지 데이터에 기초하여 정규화된 샘플 커버리지 데이터에 대해 피팅(예를 들어, 학습, 변형, 적응)될 수 있다. 예를 들어, 혼합 모델은 선택된 참조 커버리지 데이터에 따라 학습될 수 있다. 선택된 참조 커버리지 데이터에 기초하여 정규화된 샘플 커버리지 데이터에 대해 혼합 모델을 피팅하는 단계는 복수의 혼합 모델(예를 들어, 하나 하나가 복수의 게놈 영역 각각에 대한 것임)을 결정하는 단계를 포함할 수 있다. 복수의 혼합 모델의 하나 이상의(또는 각각의) 구성 요소는 대응하는 확률 분포를 포함할 수 있다. 확률 분포는 특정 카피수에 조건부인 예상 정규화 커버리지를 나타낼 수 있다. 복수의 혼합 모델은 기대값-최대화 알고리즘을 사용하여 정규화된 샘플 커버리지 데이터에 대해 피팅될 수 있다. 예를 들어, 복수의 혼합 모델은 기대값-최대화 알고리즘을 사용하여 정규화된 샘플 커버리지 데이터에 대해 피팅되어, 하나 이상의 호출 윈도우 각각에서의 각각의 카피수에 대한 가능도를 결정할 수 있다. 선택된 참조 커버리지 데이터는 기대값-최대화 알고리즘에 입력될 수 있다.
추가의 예시로서, 본 방법 및 시스템은 혼합 모델을 사용하여 각각의 호출 윈도우에서의 예상(예를 들어, 정규화된) 커버리지 분포를 특성화할 수 있다. 예상 커버리지 분포는 카피수 상태에 조건부일 수 있다. 이들 혼합 모델은 피팅 알고리즘을 사용하여 피팅될 수 있다. 예를 들어, 혼합 모델은 데이터 분포의 형상과 가장 잘 일치하는 모델 매개 변수를 확인함으로써 피팅될 수 있다. 일 태양에서, 피팅 알고리즘은 EM과 같은 혼합 모델 매개 변수를 추정하기 위한 최적화 방법을 포함할 수 있다. 대안적으로, 무감독 클러스터링 또는 샘플링 알고리즘이 사용되어 구별되는 카피수 상태를 확인하고/하거나 카피수 상태에 걸쳐 커버리지 데이터의 분포를 모델링할 수 있다.
예를 들어, 피팅 알고리즘은 샘플의 참조 패널로부터의 입력 데이터(예를 들어, 참조 커버리지 데이터)와 함께 기대값-최대화 알고리즘(EM 알고리즘)을 포함할 수 있다. 일 태양에서, EM 알고리즘은 은닉(hidden)(예를 들어, 잠재) 모델 매개 변수를 피팅하기 위한 최적화 알고리즘을 포함할 수 있다. 일부 구현예에서, 피팅 알고리즘은 경사 하강법(gradient descent), 뉴턴-랩슨법(Newton-Raphson), 및/또는 유사한 알고리즘의 사용을 포함할 수 있다. 혼합 모델의 구성 요소는 카피수 0, 1, 2, 및 3에 대응할 수 있다. 일부 구현예에서, 3 초과의 카피수는 무시될 수 있다. 예를 들어, 3 초과의 카피수에 의해 설명될 수 있는 커버리지는 확률적 GC 관련 편향의 결과일 수 있다.
일 태양에서, 0이 아닌 카피수에 대응하는 혼합 모델의 하나 이상의 구성 요소는 가우스 분포를 따르도록 정의될 수 있다. 예를 들어, 가우스 분포는
Figure 112017124596199-pct00002
의 형태를 가질 수 있으며, 여기서 μ는 평균을 나타내고, σ는 분산 또는 표준 편차를 나타낸다. 이배체 카피에 대한 가우스 분포는 μ DIP (예를 들어, 이배체 카피에 대응하는 혼합 구성 요소의 평균) 및 σ DIP (예를 들어, 이배체 카피에 대응하는 혼합 구성 요소의 표준 편차)의 적어도 2개의 자유 매개 변수를 포함할 수 있다. 각각의 비-이배체 카피수 k에 대해, 평균은 (k/2)*μ DIP 와 같도록 제약될 수 있다(예를 들어, CLAMMS 약어에서 "격자 정렬"이라는 용어가 유래됨). 일배체 샘플에 대한 표준 편차인 σ HAP
Figure 112017124596199-pct00003
와 같도록 설정될 수 있다. 가우스 근사법에도 불구하고, 특정 카피수에 조건부인 커버리지는 분산이 평균과 같은 푸아송 분포(Poisson-distributed)일 수 있다. 2 초과의 카피수에 대응하는 구성 요소에 대한 표준 편차 매개 변수는 σ DIP 와 같도록 설정될 수 있다. 이 구성은 거짓 양성 복제 비율을 높이는 것을 피할 수 있다. 비-이배체 구성 요소의 매개 변수에 부과된 제약 조건은 학습 데이터를 오버피팅(overfitting)하는 것을 피하도록 모델을 구성할 수 있다.
일 태양에서, 피팅 알고리즘은 결실 영역에 대응하는 미스맵핑된(mismapped) 판독을 설명하도록 구성될 수 있다. 예를 들어, 혼합 모델의 하나 이상의 구성 요소는 지수 분포로 정의될 수 있다. 동형접합성 결실(예를 들어, 카피수 0)은 커버리지 0을 나타낼 수 있지만, 미스맵핑된 판독은 실제로 결실된 영역에서도 낮은 수준의 커버리지를 제공할 수 있다. 따라서, 카피수 0에 대응하는 구성 요소는 지수 분포로 정의될 수 있다. 지수 분포는 비율 매개 변수 λ를 포함할 수 있다. 예를 들어, 지수 분포는
Figure 112017124596199-pct00004
의 형태를 가질 수 있다. 지수 분포는, 초기에 μ DIP 의 6.25% 또는 다른 적절한 비와 동일한 평균(예를 들어, 1/λ)으로 구성될 수 있다. 추가의 예로서, 이 구성 요소의 평균은 이 초기 값보다 크지 않도록 제약될 수 있다. 영역과의 미스맵핑 문제가 없는 경우, 피팅 알고리즘의 반복은 평균을 0으로(예를 들어, λ → ∞) 유도할 수 있다. 이 문제를 해결하기 위해, 평균이 μ DIP 의 0.1% 미만으로 떨어지는 경우, 피팅 알고리즘은 지수 분포를 0의 질점으로 대체할 수 있다.
요약하면, 혼합 모델은 하기 매개 변수 중 하나 이상으로 구성될 수 있다: μ DIP 및 σ DIP ; 지수 구성 요소(예를 들어, 카피수 0)의 비율 λ, 및 지수가 질점에 의해 대체되었는지를 나타내는 플래그(flag).
일 태양에서, 피팅 알고리즘은 혼합 모델을 피팅하기 위한 솔루션(solution)에 반복적으로 수렴하도록 구성될 수 있으며, 각 반복은 모델과 데이터 간의 차이를 줄인다.
일 태양에서, 피팅 알고리즘은 최대 반복 횟수로 구성될 수 있다. 예를 들어, 혼합 모델은 최대 반복 횟수(예를 들어, 30, 40, 50)를 사용하여 피팅될 수 있다. 일부 시나리오에서, 피팅 알고리즘은 최대 반복 횟수보다 적은 반복 횟수를 사용할 수 있다. 예를 들어, 휴리스틱이 사용되어 조기 수렴을 검출할 수 있다. 국소 최적화 절차인 EM 알고리즘의 경우, μ DIP 와 σ DIP 의 초기 값은 피팅 알고리즘이 비전역적 최적값으로 수렴할 가능성을 감소시킬 수 있는 것으로 추정될 수 있다. 일부 시나리오의 경우, μ DIP 는 해당 영역에 대해 모든 샘플에 걸쳐 중간 커버리지로 초기화될 수 있다(예를 들어, 중간 샘플이 일배체인 영역에서, 반복은 결국 적절한 이배체 평균에 도달할 수 있음). 일 태양에서, σ DIP 는 커버리지 값의 중간값 주위의 커버리지 값의 중간 절대 편차(MAD)로 초기화되며, 상수 인자에 의해 스케일링되어 점근적 정규성을 달성할 수 있다(예를 들어, R의 "mad" 함수를 비교함).
고려된 모든 카피수 상태에 대해 가능도가 낮은(예를 들어, 평균으로부터 2.5σ 미만인) 샘플은 모델 피팅을 위해 이상치(outlier)로서 플래깅될 수 있다. 영역이 이상치 샘플을 갖는 경우, 혼합 모델은 이상치 커버리지 값이 제거된 상태로 재학습될 수 있다.
단계(208)에서, 하나 이상의 카피수 변이체(CNV)는 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(HMM), 베이지안 네트워크(Bayesian network), 및/또는 다른 확률 모델에 따라 확인(예를 들어, 결정, 예측, 추정)될 수 있다. 예를 들어, 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(HMM)에 따라 하나 이상의 카피수 변이체를 확인하는 단계는 (예를 들어, 하나 이상의 호출 윈도우의) 각각의 호출 윈도우에 대한 정규화된 샘플 커버리지 데이터를 HMM에 입력하는 단계를 포함할 수 있다.
다른 태양에서, 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(HMM)에 따라 하나 이상의 카피수 변이체를 확인하는 단계는 혼합 모델에 기초하여 HMM의 하나 이상의 방출 확률을 결정하는 단계를 포함할 수 있다. 예를 들어, (예를 들어, 하나 이상의 호출 윈도우 중의) 호출 윈도우 w에서, 정규화된 커버리지 값 x를 관찰할 확률은, HMM 상태 s를 고려하여, 상태 s에 대응하는 w에 대한 혼합 모델의 구성 요소에 기초하여 결정될 수 있다.
다른 태양에서, 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(HMM)에 따라 하나 이상의 카피수 변이체를 확인하는 단계는, (예를 들어, 하나 이상의 호출 윈도우 중의) 호출 윈도우의 최대 가능도 상태 서열이 비-이배체인 경우, 그 호출 윈도우를 CNV로서 확인하는 단계를 포함할 수 있다. 예를 들어, 비터비 알고리즘(Viterbi algorithm)은 복수의 게놈 영역 중의 게놈 영역 상에서 5'에서 3' 방향으로 수행될 수 있다. 비터비 알고리즘은 복수의 게놈 영역 중의 그 게놈 영역에서 3' 내지 5' 방향으로 수행될 수 있다. (예를 들어, 하나 이상의 호출 윈도우 중의) 호출 윈도우와 관련된, 복수의 게놈 영역 중의 게놈 영역이 5'에서 3' 방향으로 그리고 3'에서 5' 방향으로 가장 가능성이 높은 비-이배체 상태를 갖는 경우, 그 호출 윈도우가 CNV로서 확인될 수 있다.
일 태양에서, HMM은, 모델링되는 시스템이 관찰되지 않은(예를 들어, 은닉) 상태를 갖는 마르코프 프로세스인 것으로 가정되는 통계적 마르코프 모델을 포함할 수 있다. 은닉 상태 공간은 카테고리 분포로서 모델링된 N개의 가능한 값들 중 하나를 포함할 수 있다. HMM은 전이 확률을 포함할 수 있다. 시간 t에서의 은닉 변수가 존재할 수 있는 N개의 가능한 상태 각각의 경우, 총 N2의 전이 확률에 대하여, 이 상태로부터 시간 t + 1에서의 은닉 변수의 가능한 상태 각각으로의 전이 확률이 존재할 수 있다. HMM은, 또한, 특정 시간에서의 은닉 변수의 상태를 고려하여, 그 시간에서의 관찰된 변수의 분포를 지배하는 (예를 들어, N개의 가능한 상태 각각에 대한) 방출 확률을 포함할 수 있다.
HMM에 대한 입력은 각각의 호출 윈도우에서의 개별 샘플에 대한 (예를 들어, 전술한 샘플내 절차로부터의) 정규화된 커버리지 값일 수 있다. 예를 들어, HMM의 상태는 DEL(결실), DIP(이배체), DUP(복제) 등을 포함할 수 있다. 일부 시나리오에서, 카피수 0과 1의 구별은 DEL 호출이 이루어진 후에 후처리 단계(post-processing step)에서 이루어질 수 있다.
일 태양에서, HMM은 그 전이 확률을 입력 값으로 포함할 수 있다. 전이 확률은 XHMM에 사용된 것에 기초할 수 있다. 예를 들어, 매개 변수 1/q(예를 들어, CNV에서의 윈도우 개수의 사전 기하 분포의 평균)을 제외한 XHMM의 전이 확률은 0으로(예를 들어, q = ∞) 설정될 수 있다. 예를 들어, 전이 확률은 q를 무한대로 설정함으로써 0으로 설정될 수 있는 XHMM 매개 변수 1/q를 제외하고는 XHMM의 매개 변수와 유사(예를 들어, XHMM(0이 아님)과 거의 동일)할 수 있다. 이 설정의 효과는 HMM이 CNV에서의 윈도우 개수에 사전 가정을 하지 않도록 구성될 수 있다는 것이다. 대신, HMM은 실제 게놈 거리에 기초한 지수 분포 감쇠 인자만을 사용하도록 구성될 수 있다. 일 태양에서, XHMM 매개 변수 1/q를 0으로 설정하는 것은 하기 두 가지 가정을 가져올 수 있다: 1) DEL 및 DUP는 존재할 가능성이 동일하고, 2) CNV의 크기는 지수 분포된다. 문헌[Fromer et al. (2012), "Discovery and statistical genotyping of copy-number variation from whole-exome sequencing depth." Am J Hum Genet, 91 (4), 597-607]에 교시된 바와 같은 XHMM과 관련된 교시 내용은 구체적으로 본 명세서에 참고로 포함된다.
일 태양에서, HMM은 방출 확률을 입력 값으로 포함할 수 있다. 방출 확률은 혼합 모델로부터 유래될 수 있다. 예를 들어, HMM 상태 s를 고려하여, 호출 윈도우 w에서 (예를 들어, 정규화된) 커버리지 값 x를 관찰할 확률은 상태 s에 대응하는 w에서 학습된 혼합 모델의 구성 요소에 의해 제공될 수 있다. DEL 상태의 경우, 카피수 0과 1을 고려하여 확률의 가능도 가중 평균이 사용될 수 있다. 예를 들어, L(CN=1 | cov) = 9*L(CN=0 | cov)인 경우, 방출 확률은 0.9*P(cov | CN=1) + 0.1*P(cov | CN=0)일 수 있다.
이 히든 마르코프 모델을 사용하여, 본 방법 및 시스템은 CNV를 확인하도록 구성될 수 있다. 예를 들어, 본 방법 및 시스템은 CNV를, (예를 들어, 비터비 알고리즘 또는 다른 적절한 알고리즘에 의해 예측된) 최대 가능도 상태 서열이 비-이배체인 영역으로서 확인하도록 구성될 수 있다. 단지 하나의 방향으로 비터비 알고리즘을 실행하는 것은 CNV 호출에 지향성 편향을 도입할 수 있다는 것을 주의해야 한다. CNV를 "여는(open)" 데에는 사실상 고비용이 들지만 그 CNV를 "확장하는(extending)" 데에는 저비용이 든다. 따라서, 호출된 CNV 영역은 트레일링 브레이크포인트를 넘어가는 경향이 있을 수 있다. 이 문제를 해결하기 위해, 본 방법 및 시스템은 가장 가능성이 높은 상태가 비터비 알고리즘의 5'에서 3' 방향으로의 실행 및 3'에서 5' 방향으로의 실행 둘 모두에서 비-이배체인 영역만을 CNV로 보고하도록 구성될 수 있다.
일 태양에서, 각각의 발견된 CNV에 대해, 정방향-역방향 알고리즘으로부터의 확률에 기초하여 하기의 5개의 품질 메트릭이 계산될 수 있다: 영역이 임의의 CNV를 포함할 프레드 스케일(phred-scaled) 확률인 Qany; 실제 CNV가 호출된 영역으로부터 적어도 하나의 윈도우만큼 더 업스트림/다운스트림으로 확장될 프레드 스케일 확률인 Qextend left 및 Qextend right; 및 실제 CNV가 호출된 영역과 비교하여 적어도 하나의 윈도우만큼 업스트림 또는 다운스트림으로 수축될 프레드 스케일 확률인 Qcontract left 및 Qcontract right.
상술한 바와 같이 GC 함량이 임계값 범위(예를 들어, [0.3, 0.7]) 밖에 있는 윈도우의 선험적 필터링에 의해서도 높은 비율의 확률적 시퀀싱 아티팩트(artifact)가 여전히 이 임계값 범위의 극단부에서 발생할 수 있음을 주의해야 한다. 비터비 및 정방향-역방향 알고리즘은 이들 윈도우를 완전히 무시하지 않고 "적당히 극단적인" GC 함량을 갖는 윈도우에 더 적은 신빙성을 두도록 변형(예를 들어, 구성)될 수 있다. 이 구성은 윈도우의 GC 함량에 기초하여 주어진 윈도우의 모든 상태에 대한 로그 방출 확률에 범위 [0, 1]의 가중치를 곱함으로써 달성될 수 있다. 이 구성은 (예를 들어, 상태 전이 확률에 의해 인코딩된) 이전 윈도우와 비교하여 이 윈도우에서의 데이터(예를 들어, 관찰된 커버리지)의 상대적 유의성을 감소시킬 수 있다. 예시로서, [0.3, 0.7]의 디폴트 선험적 유효 범위 내의 GC 분율 f의 경우, 윈도우 가중치는 (1 - (5 * abs(f - 0.5))18)18과 동일하게 설정될 수 있다. 고차 다항식 항은 비-극단적 GC(예를 들어, f = 0.4에 대해 가중치 = 0.99993)에 대해 곡선을 평평하게 할 수 있지만, 유효 GC 범위(예를 들어, f = 0.3333에 대해 가중치 = 0.5)의 에지에서 급격히 하강하게 할 수 있다.
일 태양에서, 본 방법 및 시스템은, 각각의 입력 샘플의 성별이 제공된 경우, 모델을 피팅하고 성 염색체 상의 영역에 대해 CNV 호출을 할 수 있다. 예상 카피수(예를 들어, 이배체 또는 일배체)를 성별에 바탕을 두는 것은 성별에 기인한 분산을 정규화하거나 샘플을 상관관계가 높은 샘플과 비교하는 것보다 명백히 더 효과적일 수 있는데, 이는 이러한 접근법이 카피수 상태의 정수 성질을 설명하기 때문이다. 예시로서, chrX 상의 영역에 대해 0.5x 예상 커버리지를 갖는 여성은 이형접합성 결실을 가질 가능성이 있다. 동일한 수준의 커버리지를 갖는 남성은 이형접합성 결실을 가질 가능성이 없을 수 있는데, 이는 1/2의 카피수를 가질 수 없기 때문이다.
단계(210)에서, 하나 이상의 카피수 변이체가 출력될 수 있다. 예를 들어, 하나 이상의 카피수 변이체는 (예를 들어, 사용자 인터페이스를 통해) 사용자에게 출력될 수 있다. 하나 이상의 카피수 변이체는 네트워크를 통해 원격지로 전송될 수 있다. 하나 이상의 카피수 변이체는 다른 실행가능한 프로그램에 대한 입력으로 제공될 수 있다. 하나 이상의 카피수 변이체는 데이터베이스와 같은 저장 위치에 저장되거나 다른 파일 형식으로 저장될 수 있다. 예시적인 출력이 도 15에 나타나 있다.
도 5는 카피수 변이체를 추정하기 위한 다른 예시적인 방법(500)을 보여주는 순서도이다. 단계(502)에서, 복수의 게놈 영역을 포함하는 샘플 커버리지 데이터가 (예를 들어, 사용자에 의해 제1 장치로부터 제2 장치로) 제공될 수 있다. 일 태양에서, 복수의 게놈 영역은 하나 이상의 호출 윈도우(예를 들어, 복수의 호출 윈도우)로 분할될 수 있다. 예를 들어, 복수의 게놈 영역 중 미리 결정된 크기보다 큰 게놈 영역만이 분할될 수 있다.
단계(504)에서, 참조 커버리지 데이터의 표시가 (예를 들어, 사용자에 의해 제1 장치로부터 제2 장치로) 수신될 수 있다. 참조 커버리지 데이터는 샘플 그룹화 기법에 기초하여 선택될 수 있다. 예를 들어, 샘플 그룹화 기법은 유사성에 의해 샘플을 그룹화하기 위한 기법(예를 들어, 알고리즘)을 포함할 수 있다. 샘플 그룹화 기법은 클러스터링 알고리즘, 분류 알고리즘, 이들의 조합 등을 포함할 수 있다. 예를 들어, 샘플 그룹화 기법은 샘플 커버리지 데이터에 대한 복수의 메트릭을 수신하는 단계, 복수의 메트릭에 기초하여 샘플 커버리지 데이터와 참조 커버리지 데이터 사이의 거리 메트릭을 정의하는 단계, 거리 메트릭에 기초하여 각 샘플에 대한 참조 커버리지 데이터를 선택하는 단계 등을 포함할 수 있다.
예시로서, 샘플 그룹화 기법은 k-최근접 이웃(knn) 알고리즘을 포함할 수 있다. 샘플 그룹화 기법에 기초하여 참조 커버리지 데이터를 선택하는 단계는 하기 단계 중 하나 이상을 포함할 수 있다: 참조 커버리지 데이터와 관련된 복수의 메트릭을 스케일링하는 단계, 참조 커버리지 데이터와 관련된 스케일링된 복수의 메트릭에 기초하여 k-d 트리를 생성하는 단계, 샘플 커버리지 데이터와 관련된 복수의 메트릭을 스케일링하는 단계, 샘플 커버리지 데이터와 관련된 스케일링된 복수의 메트릭에 기초하여 샘플 커버리지 데이터를 k-d 트리에 추가하는 단계, 샘플 커버리지 데이터에 대한 미리 결정된 수의 최근접 이웃을 선택된 참조 커버리지 데이터로서 확인하는 단계 등.
단계(506)에서, 샘플 커버리지 데이터에 적용하여 샘플 커버리지 데이터를 정규화하기 위해 하나 이상의 필터가 (예를 들어, 사용자에 의해, 제1 장치 및/또는 제2 장치에 의해) 선택될 수 있다. 예를 들어, 샘플 커버리지 데이터는 필터링될 수 있다. 하나 이상의 필터는 하기 단계 중 하나 이상을 위해 구성될 수 있다: GC 함량 수준에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계, 복수의 게놈 영역 중의 게놈 영역의 맵핑 가능성 스코어에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계, 판독 커버리지의 중심 경향 척도에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계, 다중 카피 복제 게놈 영역에서의 호출 윈도우의 발생에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계 등.
일 태양에서, GC 함량 수준에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 하나 이상의 호출 윈도우 중의 호출 윈도우의 GC 함량 수준이 미리 결정된 범위 밖에 있는 경우, 그 호출 윈도우를 제외시키는 단계를 포함할 수 있다.
일 태양에서, 맵핑 가능성 스코어에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는 복수의 게놈 영역의 각 게놈 영역에 대한 맵핑 가능성 스코어를 결정하는 단계를 포함할 수 있다. 예를 들어, 복수의 게놈 영역의 각 게놈 영역에 대한 맵핑 가능성 스코어를 결정하는 단계는 첫 번째 염기가 복수의 게놈 영역 중의 게놈 영역과 중첩하는 k량체의 역 참조 게놈 빈도의 평균을 결정하는 단계를 포함할 수 있다. 맵핑 가능성 스코어에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 복수의 게놈 영역 중의 게놈 영역의 맵핑 가능성 스코어가 미리 결정된 임계값 미만인 경우, 하나 이상의 호출 윈도우 중에서, 복수의 게놈 영역 중의 그 게놈 영역을 포함하는 호출 윈도우를 제외시키는 단계를 추가로 포함할 수 있다.
일 태양에서, 판독 커버리지의 중심 경향 척도에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 하나 이상의 호출 윈도우 중의 호출 윈도우가 유사한 GC 함량을 갖는 호출 윈도우에 대한 예상 커버리지 값보다 작은 판독 커버리지의 중심 경향 척도를 포함하는 경우, 하나 이상의 호출 윈도우 중의 그 호출 윈도우를 제외시키는 단계를 포함할 수 있다.
일 태양에서, 다중 카피 복제 게놈 영역에서의 호출 윈도우의 발생에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 하나 이상의 호출 윈도우 중의 호출 윈도우가 다중 카피 복제가 존재하는 것으로 알려진 영역 내에서 발생하는 경우, 하나 이상의 호출 윈도우 중의 그 호출 윈도우를 제외시키는 단계를 포함할 수 있다.
일 태양에서, 필터링 및/또는 정규화 단계는 호출 윈도우 w에 대한 미가공 커버리지를 결정하는 단계, 호출 윈도우 w의 GC 분율에 조건부인 하나 이상의 호출 윈도우에 걸쳐 샘플 커버리지 데이터에 대한 중간 커버리지를 결정하는 단계, 미가공 커버리지를 중간 커버리지로 나누는(예를 들어, 그렇게 하여 정규화된 샘플 커버리지 데이터를 생성하는) 단계 등 중 하나 이상을 포함할 수 있다. 예를 들어, 호출 윈도우 w 의 GC 분율에 조건부인 복수의 윈도우에 걸쳐 샘플 커버리지 데이터에 대한 중간 커버리지를 결정하는 단계는 하나 이상의 호출 윈도우를 GC 분율로 비닝하는(예를 들어, 그렇게 하여 복수의 빈을 생성하는) 단계, 복수의 빈의 각 빈에 대한 중간 커버리지를 결정하는 단계, 호출 윈도우 w에 가장 가까운 2개의 빈에 대한 중간 커버리지 사이에 선형 보간법을 사용하여 각각의 구별되는 가능한 GC 분율에 대한 정규화 인자를 결정하는 단계 등 중 하나 이상을 포함할 수 있다.
단계(508)에서, 참조 커버리지 데이터에 기초한 정규화된 샘플 커버리지 데이터에 대한 혼합 모델의 피팅이 (예를 들어, 사용자에 의해 제1 장치로부터 제2 장치로) 요청될 수 있다. 예를 들어, 선택된 참조 커버리지 데이터에 따른 혼합 모델의 학습이 요청될 수 있다. 참조 커버리지 데이터에 기초하여 정규화된 샘플 커버리지 데이터에 대해 혼합 모델을 피팅하는 단계는 하나 하나가 복수의 게놈 영역 각각에 대한 것인 복수의 혼합 모델을 결정하는 단계를 포함할 수 있다. 복수의 혼합 모델의 각각의 구성 요소는 특정 카피수에 조건부인 예상 정규화 커버리지를 나타내는 확률 분포를 포함할 수 있다. 참조 커버리지 데이터에 기초하여 정규화된 샘플 커버리지 데이터에 대해 혼합 모델을 피팅하는 단계는 기대값-최대화 알고리즘을 사용하여 정규화된 샘플 커버리지 데이터에 대해 복수의 혼합 모델을 피팅함으로써 하나 이상의 호출 윈도우 각각에서의 각 카피수에 대한 가능도를 결정하는 단계를 포함할 수 있다. 선택된 참조 커버리지 데이터는 기대값-최대화 알고리즘에 입력될 수 있다.
단계(510)에서, 하나 이상의 카피수 변이체는 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(HMM)에 따라 (예를 들어, 사용자에 의해, 제1 장치에 의해, 제2 장치에 의해) 확인될 수 있다. 예를 들어, 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(HMM)에 따라 하나 이상의 카피수 변이체를 확인하는 단계는 (예를 들어, 하나 이상의 호출 윈도우의) 각각의 호출 윈도우에 대한 정규화된 샘플 커버리지 데이터를 HMM에 입력하는 단계, 혼합 모델에 기초하여 HMM의 하나 이상의 방출 확률을 결정하는 단계, (예를 들어, 하나 이상의 호출 윈도우 중의) 호출 윈도우의 최대 가능도 상태 서열이 비-이배체인 경우, 그 호출 윈도우를 CNV로서 확인하는 단계 등 중 하나 이상을 포함할 수 있다.
일 태양에서, 혼합 모델에 기초하여 HMM의 하나 이상의 방출 확률을 결정하는 단계는, (예를 들어, 하나 이상의 호출 윈도우 중의) 호출 윈도우 w 에서 정규화된 커버리지 값 x를 관찰할 확률을, HMM 상태 s를 고려하여, 상태 s에 대응하는 w에 대한 혼합 모델의 구성 요소에 기초하여 결정하는 단계를 포함할 수 있다.
일 태양에서, (예를 들어, 하나 이상의 호출 윈도우 중의) 호출 윈도우의 최대 가능도 상태 서열이 비-이배체인 경우, 그 호출 윈도우를 CNV로서 확인하는 단계는 복수의 게놈 영역 중의 게놈 영역 상에서 5'에서 3' 방향으로 비터비 알고리즘을 수행하는 단계, 복수의 게놈 영역 중의 그 게놈 영역 상에서 3'에서 5' 방향으로 비터비 알고리즘을 수행하는 단계, (예를 들어, 하나 이상의 호출 윈도우 중의) 호출 윈도우와 관련된, 복수의 게놈 영역 중의 그 게놈 영역이 5'에서 3' 방향으로 그리고 3'에서 5' 방향으로 비-이배체의 가장 가능성이 높은 상태를 갖는 경우, 그 호출 윈도우를 CNV로서 확인하는 단계 등 중 하나 이상을 포함할 수 있다.
단계(512)에서, 하나 이상의 카피수 변이체의 표시가 (예를 들어, 사용자에 의해, 제1 장치에 의해, 제2 장치에 의해) 수신될 수 있다. 예를 들어, 표시는 네트워크를 통해 디스플레이 등에 제공될 수 있다. 하나 이상의 카피수 변이체의 예시적인 표시가 도 15에 나타나 있다.
도 6은 카피수 변이체를 추정하기 위한 또 다른 예시적인 방법(600)을 보여주는 순서도이다. 단계(602)에서, 복수의 게놈 영역을 포함하는 샘플 커버리지 데이터가 수신될 수 있다. 일 태양에서, 복수의 게놈 영역은 하나 이상의 호출 윈도우(예를 들어, 복수의 호출 윈도우)로 분할될 수 있다. 예를 들어, 복수의 게놈 영역 중 미리 결정된 크기보다 큰 게놈 영역만이 분할될 수 있다.
일 태양에서, 샘플 커버리지 데이터는 필터링될 수 있다. 예를 들어, 샘플 커버리지 데이터를 필터링하는 단계는 GC 함량 수준에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계, 복수의 게놈 영역 중의 게놈 영역의 맵핑 가능성 스코어에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계, 판독 커버리지의 중심 경향 척도에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계, 다중 카피 복제 게놈 영역에서의 호출 윈도우의 발생에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계 등 중 하나 이상을 포함할 수 있다.
일 태양에서, GC 함량 수준에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 하나 이상의 호출 윈도우 중의 호출 윈도우의 GC 함량 수준이 미리 결정된 범위 밖에 있는 경우, 그 호출 윈도우를 제외시키는 단계를 포함할 수 있다. 맵핑 가능성 스코어에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는 복수의 게놈 영역의 각 게놈 영역에 대한 맵핑 가능성 스코어를 결정하는 단계를 포함할 수 있다. 예를 들어, 복수의 게놈 영역의 각 게놈 영역에 대한 맵핑 가능성 스코어를 결정하는 단계는 첫 번째 염기가 복수의 게놈 영역 중의 게놈 영역과 중첩하는 k량체의 역 참조 게놈 빈도의 평균을 결정하는 단계를 포함할 수 있다. 맵핑 가능성 스코어에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 복수의 게놈 영역 중의 게놈 영역의 맵핑 가능성 스코어가 미리 결정된 임계값 미만인 경우, 하나 이상의 호출 윈도우 중에서, 복수의 게놈 영역 중의 그 게놈 영역을 포함하는 호출 윈도우를 제외시키는 단계를 추가로 포함할 수 있다.
일 태양에서, 판독 커버리지의 중심 경향 척도에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 하나 이상의 호출 윈도우 중의 호출 윈도우가 유사한 GC 함량을 갖는 호출 윈도우에 대한 예상 커버리지 값보다 작은 판독 커버리지의 중심 경향 척도를 포함하는 경우, 하나 이상의 호출 윈도우 중의 그 호출 윈도우를 제외시키는 단계를 포함할 수 있다. 다중 카피 복제 게놈 영역에서의 호출 윈도우의 발생에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계는, 하나 이상의 호출 윈도우 중의 호출 윈도우가 다중 카피 복제가 존재하는 것으로 알려진 영역 내에서 발생하는 경우, 하나 이상의 호출 윈도우 중의 그 호출 윈도우를 제외시키는 단계를 포함할 수 있다.
단계(604)에서, 샘플 커버리지 데이터에 대한 제1의 복수의 메트릭이 검색될 수 있다. 제1의 복수의 메트릭은, 예를 들어, 시퀀싱 품질 관리(QC) 메트릭, 샘플 메타데이터, 가계 기반 값, 서열 유사성 스코어, 및/또는 샘플 수준 가변성을 포착하는 임의의 메트릭을 포함할 수 있다. 예를 들어, 시퀀싱 QC 메트릭의 경우, 7개의 QC 메트릭이 사용될 수 있다. 예시로서, 시퀀싱 QC 메트릭은 GCDROPOUT, ATDROPOUT, MEANINSERTSIZE, ONBAITVSSELECTED, PCTPFUQREADS, PCTTARGETBASES10X, PCTTARGETBASES50X 등을 포함할 수 있다. 시퀀싱 QC 메트릭은 (예를 들어, 선형 변환을 적용하여) 스케일링되고 처리되어 k-d 트리를 구축할 수 있다.
단계(606)에서, 샘플 그룹화 기법이 샘플 커버리지 데이터 및 참조 커버리지 데이터에 적용되어 참조 커버리지 데이터의 하위 세트를 선택할 수 있다. 샘플 그룹화 기법은 유사성에 의해 샘플을 그룹화하기 위한 기법(예를 들어, 알고리즘)을 포함할 수 있다. 예를 들어, 샘플 그룹화 기법은 클러스터링 알고리즘, 분류 알고리즘, 이들의 조합 등을 포함할 수 있다. 일 태양에서, 샘플 그룹화 기법을 샘플 커버리지 데이터 및 참조 커버리지 데이터에 적용하여 참조 커버리지 데이터의 하위 세트를 선택하는 단계는 제1 복수의 메트릭에 기초하여 샘플 커버리지 데이터와 참조 커버리지 데이터 사이의 거리 메트릭을 정의하는 단계를 포함할 수 있다. 참조 커버리지 데이터는 거리 메트릭에 기초하여 각 샘플에 대해 선택될 수 있다.
다른 예로서, 샘플 그룹화 기법은 k-최근접 이웃(knn) 알고리즘을 포함할 수 있다. 샘플 그룹화 기법을 샘플 커버리지 데이터 및 참조 커버리지 데이터에 적용하여 참조 커버리지 데이터의 하위 세트를 선택하는 단계는 참조 커버리지 데이터와 관련된 제2 복수의 메트릭을 검색하는 단계, 참조 커버리지 데이터와 관련된 제2 복수의 메트릭을 스케일링하는 단계, 참조 커버리지 데이터와 관련된 스케일링된 제2 복수의 메트릭에 기초하여 k-d 트리를 생성하는 단계, 샘플 커버리지 데이터에 대한 제1 복수의 메트릭을 스케일링하는 단계, 샘플 커버리지 데이터에 대한 스케일링된 제1 복수의 메트릭에 기초하여 샘플 커버리지 데이터를 k-d 트리에 추가하는 단계, 샘플 커버리지 데이터에 대한 미리 결정된 수의 최근접 이웃을 참조 커버리지 데이터의 하위 세트로서 확인하는 단계 등 중 하나 이상을 포함할 수 있다.
단계(608)에서, 복수의 게놈 영역을 포함하는 샘플 커버리지 데이터가 정규화될 수 있다. 예를 들어, 복수의 게놈 영역을 포함하는 샘플 커버리지 데이터를 정규화하는 단계는 호출 윈도우 w에 대한 미가공 커버리지를 결정하는 단계, 호출 윈도우 w의 GC 분율에 조건부인 하나 이상의 호출 윈도우에 걸쳐 샘플 커버리지 데이터에 대한 중간 커버리지를 결정하는 단계; 미가공 커버리지를 중간 커버리지로 나누는(예를 들어, 그렇게 하여 정규화된 샘플 커버리지 데이터를 생성하는) 단계 등 중 하나 이상을 포함할 수 있다.
일 태양에서, 호출 윈도우 w의 GC 분율에 조건부인 복수의 윈도우에 걸쳐 샘플 커버리지 데이터에 대한 중간 커버리지를 결정하는 단계는 하나 이상의 호출 윈도우를 GC 분율로 비닝하는(예를 들어, 그렇게 하여 복수의 빈을 생성하는) 단계, 복수의 빈의 각 빈에 대한 중간 커버리지를 결정하는 단계, 호출 윈도우 w에 가장 가까운 2개의 빈에 대한 중간 커버리지 사이에 선형 보간법을 사용하여 각각의 구별되는 가능한 GC 분율에 대한 정규화 인자를 결정하는 단계 등 중 하나 이상을 포함할 수 있다.
단계(610)에서, 혼합 모델은 참조 커버리지 데이터의 하위 세트에 기초하여 정규화된 샘플 커버리지 데이터에 대해 피팅될 수 있다. 예를 들어, 혼합 모델은 참조 커버리지 데이터의 하위 세트에 따라 학습될 수 있다. 참조 커버리지 데이터의 하위 세트에 기초하여 정규화된 샘플 커버리지 데이터에 대해 혼합 모델을 피팅하는 단계는 하나 하나가 복수의 게놈 영역 각각에 대한 것인 복수의 혼합 모델을 결정하는 단계를 포함할 수 있다. 복수의 혼합 모델의 하나 이상의(또는 각각의) 구성 요소는 특정 카피수에 조건부인 예상 정규화 커버리지를 나타내는 확률 분포를 포함할 수 있다. 참조 커버리지 데이터의 하위 세트에 기초하여 정규화된 샘플 커버리지 데이터에 대해 혼합 모델을 피팅하는 단계는 기대값-최대화 알고리즘을 사용하여 정규화된 샘플 커버리지 데이터에 대해 복수의 혼합 모델을 피팅함으로써 하나 이상의 호출 윈도우 각각에서 각 카피수에 대한 가능도를 결정하는 단계를 또한 포함할 수 있다. 참조 커버리지 데이터의 하위 세트는 기대값-최대화 알고리즘에 입력될 수 있다.
단계(612)에서, 하나 이상의 카피수 변이체는 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(HMM)에 따라 확인될 수 있다. 예를 들어, 정규화된 샘플 커버리지 데이터 및 피팅된 혼합 모델에 기초하여 히든 마르코프 모델(HMM)에 따라 하나 이상의 카피수 변이체를 확인하는 단계는 (예를 들어, 하나 이상의 호출 윈도우의) 각각의 호출 윈도우에 대한 정규화된 샘플 커버리지 데이터를 HMM에 입력하는 단계, 혼합 모델에 기초하여 HMM의 하나 이상의 방출 확률을 결정하는 단계, (예를 들어, 하나 이상의 호출 윈도우 중의) 호출 윈도우의 최대 가능도 상태 서열이 비-이배체인 경우, 그 호출 윈도우를 CNV로서 확인하는 단계 등 중 하나 이상을 포함할 수 있다. 일 태양에서, 혼합 모델에 기초하여 HMM의 하나 이상의 방출 확률을 결정하는 단계는, (예를 들어, 하나 이상의 호출 윈도우 중의) 호출 윈도우 w에서 정규화된 커버리지 값 x를 관찰할 확률을, HMM 상태 s를 고려하여 상태 s에 대응하는 w에 대한 혼합 모델의 구성 요소를 기초로 결정하는 단계를 포함할 수 있다.
일 태양에서, (예를 들어, 하나 이상의 호출 윈도우 중의) 호출 윈도우의 최대 가능도 상태 서열이 비-이배체인 경우, 그 호출 윈도우를 CNV로서 확인하는 단계는 복수의 게놈 영역 중의 게놈 영역 상에서 5'에서 3' 방향으로 비터비 알고리즘을 수행하는 단계, 복수의 게놈 영역 중의 그 게놈 영역 상에서 3'에서 5' 방향으로 비터비 알고리즘을 수행하는 단계, (예를 들어, 하나 이상의 호출 윈도우 중의) 호출 윈도우와 관련된, 복수의 게놈 영역 중의 그 게놈 영역이 5'에서 3' 방향으로 그리고 3'에서 5' 방향으로 비-이배체의 가장 가능성이 높은 상태를 갖는 경우, 그 호출 윈도우를 CNV로서 확인하는 단계 등 중 하나 이상을 포함할 수 있다.
단계(614)에서, 하나 이상의 카피수 변이체가 출력될 수 있다. 예를 들어, 하나 이상의 카피수 변이체는 (예를 들어, 사용자 인터페이스를 통해) 사용자에게 출력될 수 있다. 하나 이상의 카피수 변이체는 네트워크를 통해 원격지로 전송될 수 있다. 하나 이상의 카피수 변이체는 다른 실행가능한 프로그램에 대한 입력으로 제공될 수 있다. 하나 이상의 카피수 변이체는 데이터베이스와 같은 저장 위치에 저장되거나 다른 파일 형식으로 저장될 수 있다. 예시적인 출력은 도 15에 나타낸다.
예시적인 태양에서, 본 방법 및 시스템은 도 7에 도시되고 후술되는 바와 같이 컴퓨터(701) 상에서 구현될 수 있다. 유사하게, 개시된 방법 및 시스템은 하나 이상의 컴퓨터를 이용하여 하나 이상의 위치에서 하나 이상의 기능을 수행할 수 있다. 도 7은 개시된 방법을 수행하기 위한 예시적인 작동 환경을 도시하는 블록 다이어그램이다. 이 예시적인 작동 환경은 작동 환경의 일례일 뿐이며, 작동 환경 아키텍처의 사용 또는 기능의 범주에 관한 어떠한 한정도 제시하고자 하는 것이 아니다. 작동 환경은 예시적인 작동 환경에서 보여주는 컴포넌트들 중 임의의 하나 또는 이들의 조합에 관해 임의의 의존 또는 요건을 갖는 것으로 해석되지 않아야 한다.
본 방법 및 시스템은 다수의 다른 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성으로 작동될 수 있다. 본 시스템 및 방법과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예는 개인 컴퓨터, 서버 컴퓨터, 랩톱 장치, 및 멀티프로세서 시스템을 포함하지만 이들로 한정되지 않는다. 추가의 예는 셋톱 박스, 프로그래밍가능한 가전 제품, 네트워크 PC, 미니 컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 장치 중 임의의 것을 포함하는 분산형 컴퓨팅 환경 등을 포함한다.
개시된 방법 및 시스템의 처리는 소프트웨어 컴포넌트에 의해 수행될 수 있다. 개시된 시스템 및 방법은, 하나 이상의 컴퓨터 또는 다른 장치에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행가능 명령어의 일반적인 맥락에서 설명될 수 있다. 대체로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 타입을 구현하는 컴퓨터 코드, 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 개시된 방법은, 또한, 태스크가 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 수행되는 그리드 기반 및 분산형 컴퓨팅 환경에서 실시될 수 있다. 분산형 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체 둘 모두에 위치할 수 있다.
또한, 당업자는 본 명세서에 개시된 시스템 및 방법이 컴퓨터(701) 형태의 범용 컴퓨팅 장치를 통해 구현될 수 있음을 인식할 것이다. 컴퓨터(701)의 컴포넌트는 하나 이상의 프로세서(703), 시스템 메모리(712), 및 하나 이상의 프로세서(703)를 포함하는 다양한 시스템 구성 요소를 시스템 메모리(712)에 커플링시키는 시스템 버스(713)를 포함할 수 있지만 이들로 한정되지 않는다. 시스템은 병렬 컴퓨팅을 이용할 수 있다.
시스템 버스(713)는 다양한 버스 아키텍처 중 임의의 것을 사용하는 메모리 버스 또는 메모리 컨트롤러, 주변기기 버스, 가속 그래픽 포트, 또는 로컬 버스를 포함하는 여러 가능한 유형의 버스 구조들 중 하나 이상을 나타낸다. 예로서, 이러한 아키텍처는 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) 로컬 버스, AGP(Accelerated Graphics Port) 버스, 및 PCI(Peripheral Component Interconnects), PCI-Express 버스, PCMCIA(Personal Computer Memory Card Industry Association), USB(Universal Serial Bus) 등을 포함할 수 있다. 버스(713), 및 본 설명에서 특정된 모든 버스는 또한 유선 또는 무선 네트워크 접속을 통해 구현될 수 있으며, 하나 이상의 프로세서(703), 대용량 저장 장치(704), 운영 체제(705), CNV 호출 소프트웨어(706), CNV 호출 데이터(707), 네트워크 어댑터(708), 시스템 메모리(712), 입/출력 인터페이스(710), 디스플레이 어댑터(709), 디스플레이 장치(711), 및 인간-기계 인터페이스(702)를 포함하는 각각의 하위 시스템은 이 형태의 버스를 통해 접속된 물리적으로 별개의 위치에 있는 하나 이상의 원격 컴퓨팅 장치(714a, 714b, 714c) 내에 포함되어 사실상 완전 분산형 시스템을 구현할 수 있다.
컴퓨터(701)는 전형적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 예시적인 판독가능 매체는 컴퓨터(701)에 의해 액세스 가능하고, 예를 들어 휘발성 및 비휘발성 매체, 착탈식 및 비착탈식 매체를 모두 포함하지만 이들로 한정하고자 하는 것이 아닌 임의의 이용 가능한 매체일 수 있다. 시스템 메모리(712)는 RAM(random access memory)과 같은 휘발성 메모리, 및/또는 ROM(read only memory)과 같은 비휘발성 메모리 형태의 컴퓨터 판독가능 매체를 포함한다. 시스템 메모리(712)는 전형적으로 CNV 호출 데이터(707)와 같은 데이터, 및/또는 하나 이상의 프로세서(703)에 즉시 액세스 가능하고/하거나 이에 의해 현재 작동되는 운영 체제(705) 및 CNV 호출 소프트웨어(706)와 같은 프로그램 모듈을 포함한다.
다른 태양에서, 컴퓨터(701)는 또한 다른 착탈식/비착탈식, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 예로서, 도 7은 컴퓨터(701)에 대한 컴퓨터 코드, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 및 다른 데이터의 비휘발성 저장을 제공할 수 있는 대용량 저장 장치(704)를 도시한다. 예를 들어 그리고 제한하고자 하는 것은 아니지만, 대용량 저장 장치(704)는 하드 디스크, 착탈식 자기 디스크, 착탈식 광 디스크, 자기 카세트 또는 다른 자기 저장 장치, 플래시 메모리 카드, CD-ROM, 디지털 다용도 디스크(digital versatile disk, DVD) 또는 다른 광 저장 장치, RAM, ROM, EEPROM(electrically erasable programmable read-only memory) 등일 수 있다.
선택적으로, 예로서 운영 체제(705) 및 CNV 호출 소프트웨어(706)를 포함하는 임의의 수의 프로그램 모듈이 대용량 저장 장치(704)에 저장될 수 있다. 운영 체제(705)와 CNV 호출 소프트웨어(706) 각각(또는 이들의 일부 조합)은 프로그래밍 및 CNV 호출 소프트웨어(706)의 요소를 포함할 수 있다. CNV 호출 데이터(707)는 또한 대용량 저장 장치(704)에 저장될 수 있다. CNV 호출 데이터(707)는 당업계에 공지된 하나 이상의 데이터베이스 중 임의의 것에 저장될 수 있다. 이러한 데이터베이스의 예는 DB2®, Microsoft® Access, Microsoft® SQL Server, Oracle®, mySQL, PostgreSQL 등을 포함한다. 데이터베이스는 집중화되거나 다수의 시스템에 걸쳐 분산될 수 있다.
다른 태양에서, 사용자는 입력 장치(나타내지 않음)를 통해 컴퓨터(701)에 커맨드 및 정보를 입력할 수 있다. 이러한 입력 장치의 예는 키보드, 포인팅 장치(예를 들어, "마우스"), 마이크로폰, 조이스틱, 스캐너, 장갑과 같은 촉각 입력 장치, 및 다른 신체 착용품 등을 포함하지만 이들로 한정되지 않는다. 이들 및 다른 입력 장치가 시스템 버스(713)에 커플링된 인간-기계 인터페이스(702)를 통해 하나 이상의 프로세서(703)에 접속될 수 있지만, 다른 인터페이스 및 버스 구조, 예컨대 병렬 포트, 게임 포트, IEEE 1394 포트(또한 Firewire 포트로 알려져 있음), 직렬 포트, 또는 범용 직렬 버스(USB)에 의해 접속될 수 있다.
또 다른 태양에서, 디스플레이 장치(711)는 또한 디스플레이 어댑터(709)와 같은 인터페이스를 통해 시스템 버스(713)에 접속될 수 있다. 컴퓨터(701)는 1개 초과의 디스플레이 어댑터(709)를 가질 수 있고, 컴퓨터(701)는 1개 초과의 디스플레이 장치(711)를 가질 수 있는 것으로 고려된다. 예를 들어, 디스플레이 장치는 모니터, LCD(액정 디스플레이), 또는 프로젝터일 수 있다 디스플레이 장치(711) 이외에, 다른 출력 주변기기 장치는 입/출력 인터페이스(710)를 통해 컴퓨터(701)에 접속될 수 있는 스피커(나타내지 않음) 및 프린터(나타내지 않음)와 같은 구성 요소를 포함할 수 있다. 본 방법의 임의의 단계 및/또는 결과는 임의의 형태로 출력 장치에 출력될 수 있다. 이러한 출력은 텍스트, 그래픽, 애니메이션, 오디오, 촉각 등을 포함하지만 이들로 한정되지 않는 임의의 형태의 시각적 표현일 수 있다. 디스플레이(711) 및 컴퓨터(701)는 하나의 장치의 일부, 또는 개별 장치일 수 있다.
컴퓨터(701)는 하나 이상의 원격 컴퓨팅 장치(714a, 714b, 714c)에 대한 논리 접속을 사용하여 네트워크 환경에서 작동할 수 있다. 예로서, 원격 컴퓨팅 장치는 개인 컴퓨터, 휴대용 컴퓨터, 스마트폰, 서버, 라우터, 네트워크 컴퓨터, 피어 장치 또는 다른 공통 네트워크 노드 등일 수 있다. 컴퓨터(701)와 원격 컴퓨팅 장치(714a, 714b, 714c) 사이의 논리 접속은 근거리 네트워크(LAN) 및/또는 일반 광역 네트워크(WAN)와 같은 네트워크(715)를 통해 이루어질 수 있다. 이러한 네트워크 접속은 네트워크 어댑터(708)를 통해 이루어질 수 있다. 네트워크 어댑터(708)는 유선 및 무선 환경 둘 모두에서 구현될 수 있다. 이러한 네트워킹 환경은 주택, 사무실, 전사적 컴퓨터 네트워크, 인트라넷, 및 인터넷에서 통상적이고 흔하다.
예시를 위해, 응용 프로그램 및 운영 체제(705)와 같은 다른 실행가능한 프로그램 컴포넌트가 본 명세서에 별개의 블록으로 도시되어 있지만, 이러한 프로그램 및 구성 요소는 컴퓨팅 장치(701)의 상이한 저장 컴포넌트들에 다양한 시점에서 상주하며, 컴퓨터의 하나 이상의 프로세서(703)에 의해 실행되는 것으로 인식된다. CNV 호출 소프트웨어(706)의 구현은 일정 형태의 컴퓨터 판독가능 매체에 저장되거나 이를 지나 전송될 수 있다. 임의의 개시된 방법이 컴퓨터 판독가능 매체 상에 구현된 컴퓨터 판독가능 명령어에 의해 수행될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있다. 한정하고자 하는 것이 아니라 예로서, 컴퓨터 판독가능 매체는 "컴퓨터 저장 매체" 및 "통신 매체"를 포함할 수 있다. "컴퓨터 저장 매체"는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 착탈식 및 비착탈식 매체를 포함한다. 예시적인 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다용도 디스크(DVD) 또는 다른 광 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만 이로 한정되지 않는다.
본 방법 및 시스템은 기계 학습 및 반복 학습과 같은 인공 지능 기법을 이용할 수 있다. 이러한 기법의 예는 전문가 시스템, 사례 기반 추론, 베이지안 네트워크, 행동 기반 AI, 신경망, 퍼지 시스템, 진화 연산(예를 들어, 유전자 알고리즘), 군집 지능(예를 들어, 개미 알고리즘), 및 하이브리드 지능형 시스템(예를 들어, 신경망을 통해 생성된 전문가 추론 규칙 또는 통계 학습으로부터의 생성 규칙)을 포함하지만 이들로 한정되지 않는다.
하기의 실시예는 당업자에게 본 명세서에 청구된 화합물, 조성물, 물품, 장치 및/또는 방법이 어떻게 실시되고 평가되는지에 관한 완전한 개시 및 설명을 제공하기 위해 제시되고, 순수하게 예시적인 것으로 의도되며, 본 방법 및 시스템의 범위를 한정하고자 하는 것이 아니다. 수치(예를 들어, 양 등)와 관련하여 정확성을 보장하도록 노력하였지만, 일부 오차 및 편차가 고려되어야 한다.
본 방법 및 시스템은 다양한 검증 실험을 사용하여 검증되었다. 제1 실험은 CLAMMS 및 다른 알고리즘으로부터의 CNV 호출의 가계도 상에서의 멘델 유전 양상 준수를 평가하였다. 3164개 샘플의 세트에 대한 CLAMMS, XHMM (다른 널리 사용되는 알고리즘), 및 SNP 유전자형 판별 어레이로부터의 호출이 비교된다. 다른 검증 실험은 TaqMan qPCR을 사용하여 CLAMMS에 의해 예측된 CNV를 검증하였다. 예를 들어, TaqMan qPCR이 예시로 사용되어 17개의 공통 변이체 유전자좌에 걸쳐 37개의 유전자좌에서 CLAMMS를 검증할 수 있다(95%의 희소 변이체가 검증됨). 평균 정밀도 및 재현율은 각각 99% 및 94%이다.
본 방법 및 시스템의 검증은 CLAMMS 알고리즘의 조작 복잡성 및 확장성의 분석을 포함하였다. 예를 들어, n개의 샘플을 시퀀싱하는 데에 O(n log n) 시간이 소요될 수 있는데, 이는 k-d 트리를 유지하는 데에 샘플당 O(log n) 시간만이 소요되기 때문이다. 이 접근법은 이전 알고리즘의 O(n 2) 복잡성을 개선시킨다(예를 들어, PCA와, CANOES 및 ExomeDepth의 참조 패널 선택 방법 둘 모두는 각 샘플의 커버리지 프로파일이 모든 다른 샘플과 비교될 필요가 있게 함).
본 명세서에 추가로 기술된 바와 같이, CLAMMS, XHMM, CoNIFER, CANOES, 및 ExomeDepth로부터의 CNV 호출의 멘델 유전 양상 준수가 평가될 수 있다. 일 예시로서, 이들 알고리즘으로부터의 CNV 호출의 준수는, 3개의 기술적 복제물로 시퀀싱된, CEPH 가계도 1463의 8명의 구성원에 대해 평가되었다. 92개의 추가 샘플이 참조 패널로서 제공되었다. 가계도에서의 대부분의 CNV는 (예를 들어, 정의상) 공통 변이체임을 주의해야 한다. 호출의 98%는 유전되었고, 94%는 모든 3개의 기술적 복제물에 걸쳐 일관성이 있었다. 다른 평가된 알고리즘에 대한 통계는 하기에 추가로 제시된다.
공통 CNV에 대한 CLAMMS 알고리즘 성능의 개선은 희소 CNV에 대한 성능의 저하를 대가로 하지 않는다. 예를 들어, 다른 검증 실험으로서, CLAMMS 및 XHMM으로부터의 CNV 호출을, 3164개의 샘플에 대해 PennCNV (예를 들어, SNP 유전자형 판별 어레이로부터의 데이터를 사용함)로부터의 "골드-스탠다드" 호출과 비교하였다. PennCNV 호출은 여러 품질 관리 필터를 필요로 하였다. 희소 변이체(예를 들어, 어레이 데이터에서 AF ≤ 0.1%)의 경우, CLAMMS는 XHMM의 66% 정밀도 및 64% 재현율과 비교하여 78% 정밀도 및 65% 재현율을 가졌다.
다른 검증 실험으로서, TaqMan qPCR을 사용하여 CLAMMS에 의해 예측된 CNV의 무작위 하위 세트를 검증할 수 있다. TaqMan qPCR을 사용하여 인간 유전자 돌연변이 데이터베이스(Human Gene Mutation Database)의 질병 관련 유전자와 중첩하는 20개의 희소 변이체 유전자좌 및 20개의 공통 변이체 유전자좌에서 검증하였다. 이 예시적인 검증 실험에서, CLAMMS에 의해 예측된 19/20(95%)의 희소 변이체가 검증되었다. TaqMan 데이터에서의 큰 분산으로 인해 3개의 공통 변이체 유전자좌가 제외되었다. 나머지 17개의 유전자좌는 각각 99.0% 및 94.1%의 평균 정밀도/재현율 값을 생성시켰다. 다른 결과로서, 16/17(94%)의 유전자좌는 거짓 양성을 갖지 않았다. 추가의 결과로서, 13/17의 유전자좌(76%)는 유전자 판별된 165개의 샘플에 대해 민감도가 90% 이상이었다. 도 8 내지 도 14는 이 검증 실험을 더 상세히 보여준다.
도 8은 CLAMMS 대 다른 알고리즘의 RAM 사용량을 비교한 것이다. CLAMMS의 RAM 사용량은 일정한 것으로 나타나지만, 다른 알고리즘의 RAM 사용량은 샘플 개수에 따라 선형적으로 증가한다. CNV 호출 알고리즘의 RAM 사용량은 모든 알고리즘에 대하여 50개의 샘플에 대해 나타나 있다. CNV 호출 알고리즘의 RAM 사용량은, 완료 없이 4시간 실행된 CANOES를 제외한 모든 알고리즘과 관련하여 100개 및 200개의 샘플에 대해 나타나 있다. RAM 사용량은 CLAMMS 및 XHMM을 사용한 3164개의 샘플에 대해 나타나 있다.
일 태양에서, CLAMMS 알고리즘은 하기와 같이 검증될 수 있다. 검증은, 예를 들어 CEPH 가계도 1463과 같은 저장소로부터의 데이터를 사용하여 수행될 수 있다. 제1 검증 실험은 CLAMMS 및 4가지의 다른 알고리즘(XHMM, CoNIFER, CANOES, 및 ExomeDepth)으로부터의 CNV 호출의 8명 구성원의 가계도(예를 들어, 조부모 NA12889, NA12890, NA12891, NA12892; 부모 NA12877, NA12878; 및 자손 NA12880, NA12882를 포함하는 CEPH 가계도 1463의 하위 세트) 상에서의 멘델 유전 양상 준수를 평가하는 것이었다. 8명의 가계도 구성원 각각을 3개의 기술적 복제물로 시퀀싱하였다. CNV 호출은 본 명세서에 기술된 바와 같이 각 알고리즘의 디폴트 매개 변수를 사용하여 이루어졌다. 92개의 관련없는 샘플의 참조 패널이 각 알고리즘에 이용가능하게 되었다. 공정한 비교를 보장하기 위해, CLAMMS에 의해 사용된 선험적 필터(예를 들어, 극단적인 GC 및 맵핑 가능성이 낮은 영역을 필터링함)를 모든 알고리즘에 대한 입력 데이터에 적용하여 성능 차이가 가장 문제가 있는 게놈 영역의 CLAMMS에 의한 제외에 기인하지 않게 할 수 있다. 성 염색체를 비교로부터 또한 제외시켰다.
각 알고리즘에 대해 하기의 3개의 평가 메트릭을 계산할 수 있다: 1) 모든 3개의 기술적 복제물에 걸쳐 일관성이 있는 호출의 비율, 2) 1세대 및 2세대에서의 호출의 전달률, 및 3) 2세대 및 3세대에서의 유전된 호출의 비율. 호출이 전달 및/또는 유전되는지의 여부를 판정할 때 50% 중첩 기준을 사용하였다(예를 들어, 자손의 CNV는 그의 부모의 임의의 CNV와 적어도 50% 중첩하는 경우에는 유전된 것임).
도 9는 CEPH 가계도 상에서의 CNV 호출에 대한 성능 메트릭을 보여주는 표이다. 호출 개수 컬럼은 3개의 기술적 복제물에 걸쳐 8명의 가계도 구성원에 대한 것(예를 들어, 총 24개의 샘플)이다. CNV는 CNV의 대립 유전자 빈도가 1% 이상인 경우에 공통으로 분류되었고, 그렇지 않은 경우에 희소로 분류되었다(예를 들어, 희소 CNV는 거짓 양성일 수 있음을 주의해야 함). ExomeDepth 호출은 10 미만의 베이즈 인자(Bayes Factor)(예를 들어, 또는 다른 임계값)를 이용하여 제외시킬 수 있다. 도 9는 또한 각 알고리즘에 의해 생성된 호출의 개수, 기술적 복제물 간의 일관성, 및 대응하는 멘델 유전 양상을 나타낸다. 이전에 설명한 바와 같이, CLAMMS를 제외한 언급된 모든 알고리즘은 참조 패널 샘플이 모든 유전자좌에서 이배체임(예를 들어, 단봉형 커버리지 분포를 나타냄)을 가정하여 오로지 희소 변이체에 초점이 맞추어져 있다. 따라서, 다른 알고리즘의 불량한 성능이 예상될 수 있는데, 이는 가계도에서의 대부분의 CNV가 공통 변이체이기 때문이다. 한편, CLAMMS는 이들 공통 변이체의 유전자형을 정확하게 판별한다(예를 들어, 이의 호출의 2%만이 새로운 것으로 추정됨). 멘델보다 높은 전달률(예를 들어, 61%)은 단순히 우연에 기인한 것일 수 있다(예를 들어, 1세대 및 2세대에서는 단 27개의 고유 CNV 유전자좌만이 존재함).
일 태양에서, 검증은 "골드-스탠다드" 어레이 기반 CNV 호출을 사용하여 수행될 수 있다. 본 발명자들의 제2 검증 실험은 CLAMMS 및 XHMM로부터의 CNV 호출을 PennCNV로부터의 "골드-스탠다드" 호출과 비교하는 것이었으며, PennCNV는 Regeneron Genetics Center의 인간 엑솜 변이체 데이터베이스의 3164개 샘플의 세트에 대한 SNP 유전자형 판별 어레이로부터의 데이터를 이용한다. 하기 시험 조건 중 어떠한 것이라도 충족하면 시험 세트 샘플을 제외시켰다: 50 초과의 PennCNV 호출 개수, 0.23(95 백분위수) 초과의 LRR_SD(log R 비의 표준 편차), 및 0.005(95 백분위수) 초과의 BAF_ drift(B-대립 유전자 빈도 부동).
일 태양에서, 어레이 기반 CNV 호출은 대체로 엑솜 시퀀싱 판독 깊이로부터의 CNV 호출보다 더 정확하지만 진정한 "골드-스탠다드"가 아닐 수 있으며, 2개의 공개된 데이터 세트(849개의 전체 게놈으로부터의 CNV 호출, 및 자폐증 연구에서의 19,584개의 대조군으로부터의 어레이 기반 CNV 호출)의 임의의 변이체와 중첩하지 않은 여러 추정 카피수 다형성 유전자좌(예를 들어, 1% 초과의 AF)를 포함하는 거짓 양성을 포함할 수 있다. 시험 세트에서 거짓 양성 비율을 최소화하기 위해, 희소하고 작지 않은 CNV만을 포함시켰다. 하기 조건 중 하나 이상을 충족하는 PennCNV 호출을 제외시켰다: CNV 길이가 10 kb 미만 또는 2 Mb 초과인 경우, CNV가 어레이 설계에서 적어도 1개의 엑손 및 적어도 10개의 SNP와 중첩하지 않는 경우, 그 CNV가 참조 게놈(예를 들어, GRCh37)의 갭 또는 HapMap에서의 공통 게놈 재배열과 중첩하는 경우, 대립 유전자 빈도가 0.1%의 특정 데이터 세트 및/또는 3,164개의 시험 샘플보다 큰 경우(예를 들어, CNV는 이들 CNV가 해당 CNV의 적어도 33.3%와 중첩하는 경우에 대립 유전자 빈도 카운트에 포함됨).
모든 필터가 적용된 후의 최종 시험 세트는 1,240개의 샘플 내에 1,715개의 CNV(예를 들어, 46% DEL, 54% DUP)를 포함할 수 있다. 이 평가를 위해, 디폴트 매개 변수와 절차를 이용하여 CLAMMS와 XHMM 둘 모두를 실행하였다. 임의의 특정 데이터 세트에 대한 호출의 중간 값의 2배를 갖는 샘플을 이상치로 간주할 것이 권고된다. 이러한 예시적인 데이터 세트의 경우, 샘플당 CLAMMS 호출의 중간 값은 11이다. CLAMMS가 22 초과의 호출을 수행하는 26개의 샘플(예를 들어, 전체의 0.8%)로부터의 CLAMMS 호출을 제외시켰다. 이들 샘플로부터의 어레이 호출은 여전히 시험 세트에 포함될 수 있다.
도 10은 PennCNV "골드-스탠다드"와 비교한 CLAMMS 및 XHMM CNV 호출을 나타낸다. 정밀도는 아마도 PennCNV 호출에 의해 지원될 수 있는 CLAMMS/XHMM 호출의 백분율로서 계산될 수 있으며, 이는 2개의 알고리즘이 동일한 필터링 기준 - 지정된 중첩 임계값에서 PennCNV 호출에 의해 실제로 중첩됨 -을 필요로 함을 의미한다. 재현율(예를 들어, 민감도)은 지정된 중첩 임계값에서 임의의 CLAMMS/XHMM 호출에 의해 중첩되는(예를 들어, 필터는 적용되지 않음) PennCNV 호출의 백분율로서 계산될 수 있다. F 스코어는 정밀도와 재현율의 기하 평균으로서 정의될 수 있다.
일 태양에서, CLAMMS는 임의의 중첩 기준을 사용하여 XHMM보다 9.3% 높은 F 스코어를, 33% 중첩 기준을 사용하여 5.8% 높은 F 스코어를, 그리고 50% 중첩 기준을 사용하여 4.9% 높은 F 스코어를 달성할 수 있다. 이 개선은 CLAMMS의 더 높은 정밀도(예를 들어, 중첩 임계값에 따라 18% 내지 20% 더 높음)에 의해 유도된다.
CLAMMS는 CNV의 브레이크포인트를 추정할 때(예를 들어, 더 작은 CNV를 보고함) PennCNV 또는 XHMM보다 대체로 더 보수적인데, 이는 50% 중첩에 비해 임의의 중첩을 사용한 경우에 재현율이 유의하게 더 크기 때문이다. 본 명세서에서 논의된 바와 같이, PennCNV 및 XHMM을 포함하는 알고리즘은 비터비 알고리즘을 사용하여 CNV 영역을 확인하는데, 한 방향(예를 들어, 5'에서 3')으로 엑솜을 가로질러 스캐닝한다. 이러한 접근법은 CNV 호출에 지향성 편향을 도입한다: CNV를 "여는" 데에는 사실상 고비용이 들지만 그 CNV를 "확장하는" 데에는 저비용이 들며, 이에 따라 호출된 CNV 영역은 3'-말단 브레이크포인트를 넘어가는 경향이 있을 것임. 한편, CLAMMS는 비터비가 정방향(5'에서 3') 및 역방향(3'에서 5')으로 실행될 때 호출되는 CNV 영역의 교차점만을 보고하도록 구성되어 지향성 편향을 제거할 수 있다.
일 태양에서, 검증은 하기와 같이 TaqMan qPCR을 사용하여 수행될 수 있다. TaqMan 정량 PCR을 사용하여 CLAMMS에 의해 예측된 CNV 유전자좌(예를 들어, 희소 20개, 공통 20개)의 선택을 검증할 수 있다. 각각의 유전자좌에 대하여, PCR 기반 카피수 예측치를 희소 및 공통 유전자좌에 대해 각각 56개/165개 샘플에 대한 CLAMMS CNV 유전자형과 비교할 수 있다. CNV 유전자좌는 인간 유전자 돌연변이 데이터베이스에 기록된 질병 연관성을 갖는 적어도 하나의 유전자와 중첩하는 모든 유전자좌 세트로부터 무작위로 선택될 수 있다.
이 접근법을 사용하여 19/20(95%)의 희소 변이체를 검증하였다. 3/20의 공통 변이체 유전자좌는 그럴듯하게 정확했지만, PCR 데이터에서의 분산이 커서 결과를 모호하게 했다. 16/17(94%)의 나머지 공통 변이체 유전자좌는 거짓 양성을 갖지 않았으며, 하나의 유전자좌는 5/6의 호출이 정확했다. 13/17(76%)의 모호하지 않은 공통 변이체 유전자좌는 90% 이상의 민감도(예를 들어, 100% 민감도를 갖는 9/17의 유전자좌를 포함함)를 가졌다. 다른 4/17는 87.5%, 87.3%, 81.5%, 및 70.1%의 민감도를 가졌다. 17개의 유전자좌에 대한 정밀도/민감도의 평균은 각각 99.0% 및 94.1%였다.
도 11 은 희소 CNV TaqMan 검증을 보여주는 표를 나타낸다. 이 예시적인 검증에서, 각각의 유전자좌가 비-이배체 카피수를 갖는 샘플의 합리적인 수를 갖는지를 보장하는 데에 필요한 샘플 수를 최소화하기 위한 시도 중에 공통 CNV 유전자좌에 대해 시험된 165개의 샘플은 무작위로 선택되지 않았다(예를 들어, 이는 표의 여러 유전자좌가 정확히 10개의 예측된 CNV를 갖는 이유임).
도 12는 공통 CNV TaqMan 검증을 도시하는 표를 나타낸다. 도 13은 LILRA3 공통 변이체 유전자좌에 대한 CLAMMS 및 TaqMan 카피수 예측치의 비교를 도시하는 그래프이다. 도 14는 LILRA3 공통 변이체 유전자좌에 대한 CLAMMS 및 TaqMan 카피수 예측치의 비교를 도시하는 그래프이다.
본 방법 및 시스템이 바람직한 실시 형태 및 특정 실시예와 관련하여 기술되었지만, 제시된 특정 실시 형태로 범위가 한정되도록 의도되지 않는데, 이는 본 명세서의 실시 형태가 모든 면에서 제한적이라기보다는 예시적인 것으로 의도되기 때문이다.
달리 명시적으로 언급되지 않는 한, 본 명세서에 제시된 임의의 방법은 그 단계가 특정 순서로 수행될 것을 요구하는 것으로 해석되도록 의도되지 않는다. 따라서, 방법 청구항이 그 단계가 따라야 할 순서를 실제로 열거하지 않거나 그 단계가 특정 순서로 한정되어야 한다고 청구범위 또는 상세한 설명에 달리 구체적으로 언급되지 않은 경우, 어떠한 방식으로도, 어떠한 면에서든 순서가 추론되도록 의도되지 않는다. 이는 하기를 포함하는 해석을 위한 임의의 가능한 비명시적 근거에 대해서도 마찬가지다: 단계의 배열 또는 작동 상의 흐름에 관한 논리 문제; 문법적 구성 또는 구두점에서 파생된 명백한 의미; 및 본 명세서에 기술된 실시 형태의 수 또는 유형.
본 출원 전반에 걸쳐, 다양한 간행물이 참조된다. 이들 간행물의 개시 내용은 전체적으로 본 출원에 참고로 포함되어, 본 방법 및 시스템과 관련된 종래 기술을 더 상세히 설명한다.
다양한 변형 및 변화가 범위 또는 사상을 벗어나지 않고 이루어질 수 있다는 것이 당업자에게 명백할 것이다. 다른 실시 형태가 본 명세서 및 본 명세서에 개시된 실시의 고려로부터 당업자에게 명백할 것이다. 본 명세서 및 실시예는 단지 예시적인 것으로 간주되도록 의도되며, 진정한 범위 및 사상은 하기 청구범위에 의해 표현된다.

Claims (22)

  1. 컴퓨팅 장치가, 객체의 핵산 샘플들의 시퀀싱으로부터 획득되는 복수의 게놈 서열들을 포함하는 샘플 커버리지 데이터(sample coverage data) 세트 및 샘플 시퀀싱 품질 관리(sample sequencing quality control; SSQC) 메트릭들을 수신하는 단계;
    상기 컴퓨팅 장치가, 시퀀싱 품질 관리(sequencing quality control; SQC) 메트릭들의 세트들을 유사성에 따라 다차원 트리 데이터 구조로 그룹화하는 단계 - 각각의 SQC 메트릭들의 세트는 복수의 게놈 영역들 및 리드 깊이들을 포함하는 참조 커버리지 데이터 세트들 각각과 연관됨 -;
    상기 컴퓨팅 장치가, 상기 다차원 트리 데이터 구조를 사용하여 상기 참조 커버리지 데이터 세트들의 참조 패널을 선택하는 단계 - 상기 선택된 참조 패널은 상기 SSQC 메트릭들과 유사한 SQC 메트릭들을 가짐 -:
    상기 컴퓨팅 장치가, 상기 샘플 커버리지 데이터 세트 및 상기 참조 패널을 정규화하는 단계;
    상기 컴퓨팅 장치가, 상기 복수의 게놈 영역들 각각에서 예상 커버리지 분포를 생성하기 위해 상기 정규화된 참조 패널을 상기 복수의 게놈 영역들 각각에서 혼합 모델에 피팅(fitting)하는 단계; 및
    상기 컴퓨팅 장치가, 히든 마르코프 모델(Hidden Markov Model, HMM)에 따라, 상기 정규화된 샘플 커버리지 데이터 세트를 상기 혼합 모델의 상기 복수의 게놈 영역들 각각에서 상기 예상 커버리지 분포와 비교함으로써 하나 이상의 카피수 변이체(CNV)를 확인하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 다차원 트리 데이터 구조를 사용하여 상기 참조 커버리지 데이터 세트들의 참조 패널을 선택하는 단계는,
    상기 SSQC 메트릭들과 상기 SQC 메트릭들 사이의 거리 메트릭을 정의하는 단계; 및
    상기 거리 메트릭에 기초하여 상기 참조 커버리지 데이터 세트들의 상기 참조 패널을 선택하는 단계를 포함하는,
    방법.
  3. 제1항에 있어서,
    상기 SQC 메트릭들의 세트들을 그룹화하는 단계는,
    클러스터링 알고리즘, 분류 알고리즘, 또는 이들의 조합의 사용을 포함하는,
    방법.
  4. 제1항에 있어서,
    상기 SQC 메트릭들의 세트들을 그룹화하는 단계는, k-최근접 이웃(knn) 알고리즘의 사용을 포함하되,
    상기 방법은,
    상기 SQC 메트릭들의 세트들을 스케일링하는 단계; 및
    상기 SSQC 메트릭들의 세트들을 스케일링하는 단계를 더 포함하고,
    상기 SQC 메트릭들의 세트들을 유사성에 따라 상기 다차원 트리 데이터 구조로 그룹화하는 단계는,
    상기 스케일링된 SQC 메트릭들의 세트들에 기초하여 k-d 트리를 생성하는 단계; 및
    상기 스케일링된 SSQC 메트릭들을 상기 k-d 트리에 추가하는 단계를 포함하고,
    상기 다차원 트리 데이터 구조를 사용하여 상기 참조 커버리지 데이터 세트들의 상기 참조 패널을 선택하는 단계는, 상기 스케일링된 SSQC 메트릭들에 대해 미리 결정된 수의 최근접 이웃 스케일링된 SQC 메트릭들을 확인하는 단계를 포함하는,
    방법.
  5. 제1항에 있어서,
    상기 샘플 커버리지 데이터 세트의 복수의 게놈 영역들을 하나 이상의 호출 윈도우로 분할하는 단계를 추가로 포함하는,
    방법.
  6. 제5항에 있어서,
    상기 샘플 커버리지 데이터 세트를 정규화하는 단계는,
    호출 윈도우 w에 대한 미가공 커버리지를 결정하는 단계;
    상기 호출 윈도우 w의 GC 분율에 조건부인 상기 하나 이상의 호출 윈도우에 걸쳐 상기 샘플 커버리지 데이터 세트에 대한 중간 커버리지를 결정하는 단계; 및
    상기 미가공 커버리지를 상기 중간 커버리지로 나누어 상기 정규화된 샘플 커버리지 데이터 세트를 생성하는 단계를 포함하는,
    방법.
  7. 제6항에 있어서,
    상기 호출 윈도우 w 의 GC 분율에 조건부인 상기 하나 이상의 호출 윈도우에 걸쳐 상기 샘플 커버리지 데이터 세트에 대한 중간 커버리지를 결정하는 단계는,
    상기 하나 이상의 호출 윈도우를 GC 분율로 비닝(binning)하여 복수의 빈(bin)들을 생성하는 단계;
    상기 복수의 빈들의 각 빈에 대한 중간 커버리지를 결정하는 단계; 및
    상기 호출 윈도우 w에 가장 가까운 2개의 빈들에 대한 상기 중간 커버리지 사이에 선형 보간법을 사용하여 각각의 구별되는 가능한 GC 분율에 대한 정규화 인자를 결정하는 단계를 포함하는,
    방법.
  8. 제5항에 있어서,
    상기 샘플 커버리지 데이터 세트를 필터링하는 단계를 추가로 포함하는,
    방법.
  9. 제8항에 있어서,
    상기 샘플 커버리지 데이터 세트를 필터링하는 단계는,
    복수의 게놈 영역들 중의 게놈 영역의 맵핑 가능성(mappability) 스코어에 기초하여 하나 이상의 호출 윈도우를 필터링하는 단계; 및
    다중 카피 복제 게놈 영역에서의 호출 윈도우의 발생에 기초하여 상기 하나 이상의 호출 윈도우를 필터링하는 단계를 포함하는,
    방법.
  10. 제9항에 있어서,
    상기 맵핑 가능성 스코어에 기초하여 상기 하나 이상의 호출 윈도우를 필터링하는 단계는,
    상기 복수의 게놈 영역들 중의 각 게놈 영역에 대한 맵핑 가능성 스코어를 결정하는 단계; 및
    상기 복수의 게놈 영역들 중의 상기 게놈 영역의 맵핑 가능성 스코어가 미리 결정된 임계값 미만인 경우, 상기 하나 이상의 호출 윈도우 중에서, 상기 복수의 게놈 영역들 중의 상기 게놈 영역을 포함하는 호출 윈도우를 제외시키는 단계를 포함하는,
    방법.
  11. 제9항에 있어서,
    다중 카피 복제 게놈 영역에서의 호출 윈도우의 발생에 기초하여 상기 하나 이상의 호출 윈도우를 필터링하는 단계는,
    상기 하나 이상의 호출 윈도우 중의 호출 윈도우가 다중 카피 복제가 존재하는 것으로 알려진 영역 내에서 발생하는 경우, 상기 하나 이상의 호출 윈도우 중의 상기 호출 윈도우를 제외시키는 단계를 포함하는,
    방법.
  12. 삭제
  13. 제1항에 있어서,
    상기 참조 패널을 상기 혼합 모델에 피팅하는 단계는,
    하나 하나가 상기 복수의 게놈 영역 각각에 대한 것인 복수의 혼합 모델을 결정하는 단계 - 상기 복수의 혼합 모델의 각각의 구성 요소는 특정 카피수에 조건부인 예상 정규화 커버리지를 나타내는 확률 분포를 포함함 -; 및
    상기 하나 이상의 호출 윈도우 각각에서의 각 카피수에 대한 가능도를 결정하기 위해, 기대값-최대화 알고리즘을 사용하여 상기 복수의 혼합 모델에 대해 상기 정규화된 참조 패널을 피팅하는 단계 - 상기 정규화된 참조 패널은 상기 기대값-최대화 알고리즘에 입력됨 -;를 포함하는,
    방법.
  14. 제13항에 있어서,
    상기 컴퓨팅 장치가, 히든 마르코프 모델(Hidden Markov Model, HMM)에 따라, 상기 정규화된 샘플 커버리지 데이터 세트를 상기 혼합 모델의 상기 복수의 게놈 영역들 각각에서 상기 예상 커버리지 분포와 비교함으로써 하나 이상의 카피수 변이체(CNV)를 확인하는 단계는,
    상기 하나 이상의 호출 윈도우의 각각의 호출 윈도우에 대한 상기 정규화된 샘플 커버리지 데이터 세트를 상기 HMM에 입력하는 단계;
    상기 혼합 모델에 기초하여 상기 HMM의 하나 이상의 방출 확률을 결정하는 단계; 및
    상기 하나 이상의 호출 윈도우 중의 호출 윈도우의 최대 가능도 상태 서열이 비-이배체인 경우에 상기 호출 윈도우를 CNV로서 확인하는 단계를 포함하는,
    방법.
  15. 제14항에 있어서,
    상기 혼합 모델에 기초하여 상기 HMM의 하나 이상의 방출 확률을 결정하는 단계는,
    HMM 상태 s를 고려하여, 상태 s에 대응하는 w 에 대한 상기 혼합 모델의 구성 요소에 기초하여, 상기 하나 이상의 호출 윈도우 중의 호출 윈도우 w 에서, 정규화된 커버리지 값 x를 관찰할 확률을 결정하는 단계를 포함하는,
    방법.
  16. 제14항에 있어서,
    상기 하나 이상의 호출 윈도우 중의 호출 윈도우의 최대 가능도 상태 서열이 비-이배체인 경우에 상기 호출 윈도우를 CNV로서 확인하는 단계는,
    상기 복수의 게놈 영역들 중의 게놈 영역 상에서 5'에서 3' 방향으로 비터비 알고리즘(Viterbi algorithm)을 수행하는 단계;
    상기 복수의 게놈 영역들 중의 상기 게놈 영역 상에서 3'에서 5' 방향으로 비터비 알고리즘을 수행하는 단계; 및
    상기 호출 윈도우와 관련된 상기 복수의 게놈 영역들 중의 게놈 영역이, 상기 5'에서 3' 방향으로 그리고 상기 3'에서 5' 방향으로 가능성이 가장 높은 비-이배체 상태를 갖는 경우, 상기 하나 이상의 호출 윈도우 중의 상기 호출 윈도우를 CNV로서 확인하는 단계를 포함하는,
    방법.
  17. 컴퓨팅 장치가, 객체의 핵산 샘플들의 시퀀싱으로부터 획득되는 복수의 게놈 서열들 및 샘플 시퀀싱 품질 관리(sample sequencing quality control; SSQC) 메트릭들을 포함하는, 샘플 커버리지 데이터(sample coverage data) 세트를 제공하는 단계;
    참조 패널의 표시를 수신하는 단계 - 상기 참조 패널은: 상기 컴퓨팅 장치가, 시퀀싱 품질 관리(sequencing quality control; SQC) 메트릭들의 세트들을 유사성에 따라 다차원 트리 데이터 구조로 그룹화하는 단계(각각의 SQC 메트릭들의 세트는 복수의 게놈 영역들 및 리드 깊이들을 포함하는 참조 커버리지 데이터 세트들 각각과 연관됨); 및 상기 다차원 트리 데이터 구조를 사용하여 상기 참조 커버리지 데이터 세트들의 참조 패널을 선택하는 단계(상기 선택된 참조 패널은 상기 SSQC 메트릭들과 유사한 SQC 메트릭들을 가짐)를 수행함으로써 선택됨 -;
    상기 샘플 커버리지 데이터 세트 및 상기 참조 패널을 정규화하기 위해 상기 샘플 커버리지 데이터 세트 및 상기 참조 패널에 적용할 하나 이상의 필터를 선택하는 단계;
    상기 복수의 게놈 영역들 각각에서 예상 커버리지 분포를 생성하기 위해 상기 복수의 게놈 영역들 각각에서 혼합 모델에 대한 상기 정규화된 참조 패널의 피팅(fitting)을 요청하는 단계;
    상기 컴퓨팅 장치가, 히든 마르코프 모델(Hidden Markov Model, HMM)에 따라, 상기 정규화된 샘플 커버리지 데이터 세트를 상기 혼합 모델의 상기 복수의 게놈 영역들 각각에서 상기 예상 커버리지 분포와 비교함으로써 하나 이상의 카피수 변이체(CNV)를 확인할 것을 요청하는 단계; 및
    상기 하나 이상의 카피수 변이체의 표시를 수신하는 단계
    를 포함하는, 방법.
  18. 제17항에 있어서,
    상기 정규화된 참조 패널을 상기 혼합 모델에 피팅하는 단계는,
    하나 하나가 상기 복수의 게놈 영역들 각각에 대한 것인 복수의 혼합 모델을 결정하는 단계 - 상기 복수의 혼합 모델의 각각의 구성 요소는 특정 카피수에 조건부인 예상 정규화 커버리지를 나타내는 확률 분포를 포함함 -; 및
    하나 이상의 호출 윈도우 각각에서의 각 카피수에 대한 가능도를 결정하기 위해, 기대값-최대화 알고리즘을 사용하여 상기 복수의 혼합 모델에 대해 상기 정규화된 참조 패널을 피팅하는 단계 - 상기 정규화된 참조 패널은 상기 기대값-최대화 알고리즘에 입력됨 -;를 포함하는,
    방법.
  19. 제18항에 있어서,
    상기 컴퓨팅 장치가, 히든 마르코프 모델(Hidden Markov Model, HMM)에 따라, 상기 정규화된 샘플 커버리지 데이터 세트를 상기 혼합 모델의 상기 복수의 게놈 영역들 각각에서 상기 예상 커버리지 분포와 비교함으로써 하나 이상의 카피수 변이체(CNV)를 확인하는 단계는,
    상기 하나 이상의 호출 윈도우의 각각의 호출 윈도우에 대한 상기 정규화된 샘플 커버리지 데이터 세트를 상기 HMM에 입력하는 단계;
    상기 혼합 모델에 기초하여 상기 HMM의 하나 이상의 방출 확률을 결정하는 단계; 및
    상기 하나 이상의 호출 윈도우 중의 호출 윈도우의 최대 가능도 상태 서열이 비-이배체인 경우에 상기 호출 윈도우를 CNV로서 확인하는 단계를 포함하는,
    방법.
  20. 제1항의 방법을 수행하는 장치.
  21. 제17항의 방법을 수행하는 장치.
  22. 삭제
KR1020177036068A 2015-05-18 2016-05-13 카피수 변이체 검출을 위한 방법 및 시스템 KR102307872B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/714,949 2015-05-18
US14/714,949 US10395759B2 (en) 2015-05-18 2015-05-18 Methods and systems for copy number variant detection
PCT/US2016/032484 WO2016187051A1 (en) 2015-05-18 2016-05-13 Methods and systems for copy number variant detection

Publications (2)

Publication Number Publication Date
KR20180008651A KR20180008651A (ko) 2018-01-24
KR102307872B1 true KR102307872B1 (ko) 2021-10-05

Family

ID=56081611

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177036068A KR102307872B1 (ko) 2015-05-18 2016-05-13 카피수 변이체 검출을 위한 방법 및 시스템

Country Status (16)

Country Link
US (2) US10395759B2 (ko)
EP (1) EP3298523B1 (ko)
JP (1) JP6718885B2 (ko)
KR (1) KR102307872B1 (ko)
CN (1) CN107810502B (ko)
AU (1) AU2016263192B2 (ko)
BR (1) BR112017024742A2 (ko)
CA (1) CA2986117C (ko)
HK (1) HK1252103A1 (ko)
IL (1) IL255458B (ko)
MX (1) MX2017014659A (ko)
NZ (1) NZ737005A (ko)
RU (1) RU2746477C2 (ko)
SG (1) SG11201708787TA (ko)
WO (1) WO2016187051A1 (ko)
ZA (1) ZA201707665B (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015148776A1 (en) * 2014-03-27 2015-10-01 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US10650012B1 (en) * 2016-07-13 2020-05-12 United States Of America As Represented By Secretary Of The Navy Multi-dimensional range-index searching using search box approximation and splitting
CN106651031B (zh) * 2016-12-21 2019-10-22 山东大学 基于历史信息的雷击闪络预警方法及系统
WO2018144228A1 (en) * 2017-01-31 2018-08-09 Counsyl, Inc. Systems and methods for quantitatively determining gene copy number
CN106920240A (zh) * 2017-03-09 2017-07-04 国家电网公司 一种基于红外图像的绝缘子识别和故障诊断方法
US20210110885A1 (en) * 2017-03-20 2021-04-15 Celula China Med-Technology Co., Ltd. Method of correcting amplification bias in amplicon sequencing
CN107808209B (zh) * 2017-09-11 2021-09-14 重庆大学 基于加权kNN距离的风电场异常数据辨识方法
WO2019079455A1 (en) * 2017-10-17 2019-04-25 Affymetrix, Inc. VITERBI DECODER FOR PROCESSING MICROARRAY SIGNAL
US20200303036A1 (en) * 2017-10-17 2020-09-24 The Broad Institute, Inc. Methods and systems for detection of somatic structural variants
ES2711163B2 (es) * 2017-10-23 2021-04-14 Health In Code S L Sistema y método de detección de variantes genéticas estructurales.
US11728007B2 (en) * 2017-11-30 2023-08-15 Grail, Llc Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly
WO2019236420A1 (en) * 2018-06-06 2019-12-12 Myriad Women's Health, Inc. Copy number variant caller
CN111755066B (zh) * 2019-03-27 2022-10-18 欧蒙医学诊断(中国)有限公司 一种拷贝数变异的检测方法和实施该方法的设备
CN110106063B (zh) * 2019-05-06 2022-07-08 臻和精准医学检验实验室无锡有限公司 基于二代测序的用于神经胶质瘤1p/19q联合缺失检测的系统
GB201910478D0 (en) * 2019-07-22 2019-09-04 Congenica Ltd System and method for copy number variant error correction
CN110737696A (zh) * 2019-10-12 2020-01-31 北京百度网讯科技有限公司 数据抽样方法、装置、电子设备及存储介质
CN111276184B (zh) * 2020-01-07 2023-12-26 深圳市早知道科技有限公司 一种检测已知拷贝数变异的方法及检测装置
CN113496761B (zh) * 2020-04-03 2023-09-19 深圳华大生命科学研究院 确定核酸样本中cnv的方法、装置及应用
CN111968701B (zh) * 2020-08-27 2022-10-04 北京吉因加科技有限公司 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN113257087A (zh) * 2021-04-22 2021-08-13 吉林师范大学 一种应用数学的概率统计装置
WO2024010809A2 (en) * 2022-07-07 2024-01-11 Illumina Software, Inc. Methods and systems for detecting recombination events

Family Cites Families (422)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5840484A (en) 1992-07-17 1998-11-24 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
US8078407B1 (en) 1997-03-28 2011-12-13 Health Hero Network, Inc. System and method for identifying disease-influencing genes
EP0976070A1 (en) 1997-04-17 2000-02-02 Glaxo Group Limited Statistical deconvoluting of mixtures
US7734656B2 (en) 1998-02-24 2010-06-08 Luc Bessette System and method for electronically managing medical data files in order to facilitate genetic research
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US6703228B1 (en) 1998-09-25 2004-03-09 Massachusetts Institute Of Technology Methods and products related to genotyping and DNA analysis
AR021833A1 (es) * 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US20010034023A1 (en) 1999-04-26 2001-10-25 Stanton Vincent P. Gene sequence variations with utility in determining the treatment of disease, in genes relating to drug processing
DE1233366T1 (de) 1999-06-25 2003-03-20 Genaissance Pharmaceuticals Verfahren zur herstellung und verwendung von Haplotype Daten
US20030190644A1 (en) 1999-10-13 2003-10-09 Andreas Braun Methods for generating databases and databases for identifying polymorphic genetic markers
WO2001035316A2 (en) 1999-11-10 2001-05-17 Structural Bioinformatics, Inc. Computationally derived protein structures in pharmacogenomics
US6658396B1 (en) 1999-11-29 2003-12-02 Tang Sharon S Neural network drug dosage estimation
US20030208454A1 (en) 2000-03-16 2003-11-06 Rienhoff Hugh Y. Method and system for populating a database for further medical characterization
US6532467B1 (en) 2000-04-10 2003-03-11 Sas Institute Inc. Method for selecting node variables in a binary decision tree structure
US20030195707A1 (en) 2000-05-25 2003-10-16 Schork Nicholas J Methods of dna marker-based genetic analysis using estimated haplotype frequencies and uses thereof
WO2001092576A1 (en) 2000-05-26 2001-12-06 Duke University Methods of screening for parkinson's disease
US20040053251A1 (en) 2000-06-30 2004-03-18 Pericak-Vance Margaret A. Methods of screening for alzheimer's disease
WO2002017207A2 (en) 2000-08-23 2002-02-28 Arexis Ab System and method of storing genetic information
AU2001275020A1 (en) 2000-09-21 2002-04-02 Theradoc.Com, Inc. Systems and methods for manipulating medical data via a decision support system
US7105348B2 (en) 2000-10-31 2006-09-12 Regeneron Pharmaceuticals, Inc. Methods of modifying eukaryotic cells
US6596541B2 (en) 2000-10-31 2003-07-22 Regeneron Pharmaceuticals, Inc. Methods of modifying eukaryotic cells
US6586251B2 (en) 2000-10-31 2003-07-01 Regeneron Pharmaceuticals, Inc. Methods of modifying eukaryotic cells
US8010295B1 (en) 2000-11-06 2011-08-30 IB Security Holders LLC System and method for selectively classifying a population
US20030195706A1 (en) 2000-11-20 2003-10-16 Michael Korenberg Method for classifying genetic data
US20030104470A1 (en) 2001-08-14 2003-06-05 Third Wave Technologies, Inc. Electronic medical record, library of electronic medical records having polymorphism data, and computer systems and methods for use thereof
FR2817559B1 (fr) 2000-12-06 2003-12-12 Genodyssee Procede de determination d'un ou plusieurs polymorphisme(s) fontionnel(s) dans la sequence nucleique d'un gene "candidat" fonctionnel preselectionne et ses applications
US20020119451A1 (en) 2000-12-15 2002-08-29 Usuka Jonathan A. System and method for predicting chromosomal regions that control phenotypic traits
US20020082869A1 (en) 2000-12-27 2002-06-27 Gateway, Inc. Method and system for providing and updating customized health care information based on an individual's genome
AU785425B2 (en) 2001-03-30 2007-05-17 Genetic Technologies Limited Methods of genomic analysis
US7957907B2 (en) 2001-03-30 2011-06-07 Sorenson Molecular Genealogy Foundation Method for molecular genealogical research
US20020187483A1 (en) 2001-04-20 2002-12-12 Cerner Corporation Computer system for providing information about the risk of an atypical clinical event based upon genetic information
US20020197632A1 (en) 2001-05-03 2002-12-26 Genomed, Llc Method to find disease-associated SNPs and genes
US7065451B2 (en) 2001-05-24 2006-06-20 Board Of Regents, The University Of Texas System Computer-based method for creating collections of sequences from a dataset of sequence identifiers corresponding to natural complex biopolymer sequences and linked to corresponding annotations
CA2872499C (en) 2001-05-25 2016-07-05 Hitachi, Ltd. Information processing system using nucleotide sequence related information
US6909971B2 (en) 2001-06-08 2005-06-21 Licentia Oy Method for gene mapping from chromosome and phenotype data
FI114551B (fi) 2001-06-13 2004-11-15 Licentia Oy Menetelmä, muistiväline ja tietokonejärjestelmä geenipaikannuksen kromosomi- ja fenotyyppidatasta
WO2003009210A1 (en) 2001-07-18 2003-01-30 Gene Logic, Inc. Methods of providing customized gene annotation reports
US20030101000A1 (en) 2001-07-24 2003-05-29 Bader Joel S. Family based tests of association using pooled DNA and SNP markers
WO2003014879A2 (en) 2001-08-08 2003-02-20 Curagen Corporation System and method for identifying a genetic risk factor for a disease or pathology
US7529685B2 (en) 2001-08-28 2009-05-05 Md Datacor, Inc. System, method, and apparatus for storing, retrieving, and integrating clinical, diagnostic, genomic, and therapeutic data
US7461006B2 (en) 2001-08-29 2008-12-02 Victor Gogolak Method and system for the analysis and association of patient-specific and population-based genomic data with drug safety adverse event data
US20040142325A1 (en) 2001-09-14 2004-07-22 Liat Mintz Methods and systems for annotating biomolecular sequences
US20030211504A1 (en) 2001-10-09 2003-11-13 Kim Fechtel Methods for identifying nucleic acid polymorphisms
US20130246079A1 (en) 2012-03-14 2013-09-19 Mark A. Hoffman Determining a potential for atypical clinical events when selecting clinical agents
US20040086888A1 (en) 2001-10-18 2004-05-06 Kornblith Paul L Method for tandem genomic/proteomic analysis of proliferating cells
WO2003039234A2 (en) 2001-11-06 2003-05-15 David Pickar Pharmacogenomics-based system for clinical applications
US20030138778A1 (en) 2001-11-30 2003-07-24 Garner Harold R. Prediction of disease-causing alleles from sequence context
US7107155B2 (en) 2001-12-03 2006-09-12 Dnaprint Genomics, Inc. Methods for the identification of genetic features for complex genetics classifiers
EP1451755A2 (en) 2001-12-03 2004-09-01 DNAprint Genomics, Inc. Methods and apparatus for complex genetics classification based on correspondence analysis and linear/quadratic analysis
US20050256649A1 (en) 2001-12-21 2005-11-17 Roses Allen D High throughput correlation of polymorphic forms with multiple phenotypes within clinical populations
US20040267458A1 (en) 2001-12-21 2004-12-30 Judson Richard S. Methods for obtaining and using haplotype data
US7383134B2 (en) 2002-01-15 2008-06-03 Piper James R Method and/or system for analyzing biological samples using a computer system
EP3633680A1 (en) 2002-02-04 2020-04-08 QIAGEN Redwood City, Inc. Drug discovery methods
US7324928B2 (en) 2002-03-06 2008-01-29 Kitchen Scott G Method and system for determining phenotype from genotype
US8725418B2 (en) 2002-03-25 2014-05-13 Janssen Pharmaceutica, N.V. Data mining of SNP databases for the selection of intragenic SNPs
US7135286B2 (en) 2002-03-26 2006-11-14 Perlegen Sciences, Inc. Pharmaceutical and diagnostic business systems and methods
FI116468B (fi) 2002-04-04 2005-11-30 Licentia Oy Geenikartoitusmenetelmä genotyyppi- ja fenotyyppidatasta sekä muistiväline ja tietokonejärjestelmä menetelmän suorittamiseksi
US20040175700A1 (en) 2002-05-15 2004-09-09 Elixir Pharmaceuticals, Inc. Method for cohort selection
US20040115701A1 (en) 2002-08-30 2004-06-17 Comings David E Method for risk assessment for polygenic disorders
US20040219567A1 (en) 2002-11-05 2004-11-04 Andrea Califano Methods for global pattern discovery of genetic association in mapping genetic traits
US20090012928A1 (en) 2002-11-06 2009-01-08 Lussier Yves A System And Method For Generating An Amalgamated Database
US10229244B2 (en) * 2002-11-11 2019-03-12 Affymetrix, Inc. Methods for identifying DNA copy number changes using hidden markov model based estimations
US7822555B2 (en) 2002-11-11 2010-10-26 Affymetrix, Inc. Methods for identifying DNA copy number changes
US20040161779A1 (en) 2002-11-12 2004-08-19 Affymetrix, Inc. Methods, compositions and computer software products for interrogating sequence variations in functional genomic regions
CN1774511B (zh) 2002-11-27 2013-08-21 斯昆诺有限公司 用于序列变异检测和发现的基于断裂的方法和系统
US20040146870A1 (en) 2003-01-27 2004-07-29 Guochun Liao Systems and methods for predicting specific genetic loci that affect phenotypic traits
JP5348840B2 (ja) 2003-02-20 2013-11-20 メイヨ・ファウンデーション・フォー・メディカル・エデュケーション・アンド・リサーチ 薬物を選択する方法
US20050026173A1 (en) 2003-02-27 2005-02-03 Methexis Genomics, N.V. Genetic diagnosis using multiple sequence variant analysis combined with mass spectrometry
US20050019787A1 (en) 2003-04-03 2005-01-27 Perlegen Sciences, Inc., A Delaware Corporation Apparatus and methods for analyzing and characterizing nucleic acid sequences
WO2004092333A2 (en) 2003-04-09 2004-10-28 Omicia Inc. Methods of selection, reporting and analysis of genetic markers using broad based genetic profiling applications
US20040249677A1 (en) 2003-05-19 2004-12-09 Debarshi Datta Comprehensive searchable medical record system supporting healthcare delivery and experiment
WO2005020788A2 (en) 2003-08-01 2005-03-10 The General Hospital Corporation Cognition analysis
US20050086035A1 (en) 2003-09-02 2005-04-21 Pioneer Hi-Bred International, Inc. Computer systems and methods for genotype to phenotype mapping using molecular network models
US20050176031A1 (en) 2003-10-30 2005-08-11 Sears Christopher P. Kinship analysis program for missing persons and mass disaster
US20090011407A1 (en) 2003-11-26 2009-01-08 The Ohio State University Research Foundation Polymorphic Cd24 Genotypes that are Predictive of Multiple Sclerosis Risk and Progression
US20050209787A1 (en) 2003-12-12 2005-09-22 Waggener Thomas B Sequencing data analysis
US20050272057A1 (en) 2004-01-23 2005-12-08 Abrahamsen Mitchell S Small segments of DNA determine animal identity and source
EP1607898A3 (en) 2004-05-18 2006-03-29 Neal E. Solomon A bioinformatics system for functional proteomics modelling
US8335652B2 (en) 2004-06-23 2012-12-18 Yougene Corp. Self-improving identification method
US7622271B2 (en) 2004-07-26 2009-11-24 University Of Washington Identification of aging genes through large-scale analysis
US7937225B2 (en) 2004-09-03 2011-05-03 New York University Systems, methods and software arrangements for detection of genome copy number variation
US7424371B2 (en) 2004-12-21 2008-09-09 Helicos Biosciences Corporation Nucleic acid analysis
US20080091358A1 (en) 2004-12-21 2008-04-17 Applied Research Systems Ars Holcing, N.V. Method And System For Identifying Gene-Trait Linkages
RU2007124523A (ru) 2004-12-30 2009-02-10 ПРОВЕНТИС, Инк., (US) Способы, системы и компьютерные программные продукты для разработки и использования прогнозных моделей для прогнозирования большинства медицинских случаев, оценки стратегий вмешательства и для одновременной оценки нерегулярности биологических маркеров
US20060286566A1 (en) 2005-02-03 2006-12-21 Helicos Biosciences Corporation Detecting apparent mutations in nucleic acid sequences
US20080311574A1 (en) 2005-03-11 2008-12-18 Upender Manne Novel Missense Mutations and Single Nucleotide Polymorphisms in the Rabphillin-3A-Like Gene and Uses Thereof
US7603325B2 (en) 2005-04-07 2009-10-13 Jacobson David L Concurrent two-phase completion genetic algorithm system and methods
US20060269476A1 (en) 2005-05-31 2006-11-30 Kuo Michael D Method for integrating large scale biological data with imaging
US20070027636A1 (en) 2005-07-29 2007-02-01 Matthew Rabinowitz System and method for using genetic, phentoypic and clinical data to make predictions for clinical or lifestyle decisions
US8515679B2 (en) 2005-12-06 2013-08-20 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US7630947B2 (en) 2005-08-25 2009-12-08 Siemens Medical Solutions Usa, Inc. Medical ontologies for computer assisted clinical decision support
US20070122824A1 (en) 2005-09-09 2007-05-31 Tucker Mark R Method and Kit for Assessing a Patient's Genetic Information, Lifestyle and Environment Conditions, and Providing a Tailored Therapeutic Regime
JP2007102709A (ja) 2005-10-07 2007-04-19 Toshiba Corp 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム
CA2911569C (en) 2005-11-29 2019-11-26 Children's Hospital Medical Center Optimization and individualization of medication selection and dosing
CN101542476A (zh) 2005-12-01 2009-09-23 比奥阿茨研究公司 用于动物基因的在线商城
CA2633339C (en) 2005-12-14 2019-03-19 Cold Spring Harbor Laboratory Methods for assessing probabilistic measures of clinical outcome using genomic profiling
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
US9141913B2 (en) 2005-12-16 2015-09-22 Nextbio Categorization and filtering of scientific data
CA2634146A1 (en) 2005-12-19 2007-06-28 Genizon Biosciences Inc. Genemap of the human genes associated with crohn's disease
EP1975255A2 (en) 2006-01-11 2008-10-01 Neocodex, S.L. Method and apparatus for the determination of genetic associations
US20070196850A1 (en) 2006-01-27 2007-08-23 University Of Washington Identification of aging genes through large-scale analysis
US8340950B2 (en) 2006-02-10 2012-12-25 Affymetrix, Inc. Direct to consumer genotype-based products and services
US7702468B2 (en) 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
WO2007133506A2 (en) 2006-05-09 2007-11-22 University Of Louisville Research Foundation , Inc. Personalized medicine management software
US8372584B2 (en) 2006-06-14 2013-02-12 The General Hospital Corporation Rare cell analysis using sample splitting and DNA tags
US8579811B2 (en) 2006-09-19 2013-11-12 3M Innovative Properties Company Medical diagnosis derived from patient drug history data
WO2008011046A2 (en) 2006-07-17 2008-01-24 The H.Lee Moffitt Cancer And Research Institute, Inc. Computer systems and methods for selecting subjects for clinical trials
US8122073B2 (en) 2006-09-29 2012-02-21 The Invention Science Fund I Computational systems for biomedical data
US7809660B2 (en) 2006-10-03 2010-10-05 International Business Machines Corporation System and method to optimize control cohorts using clustering algorithms
US20090137402A1 (en) 2006-10-11 2009-05-28 San Ming Wang Ditag genome scanning technology
EP1918837A1 (en) 2006-10-31 2008-05-07 F. Hoffmann-La Roche AG Method for processing a chronological sequence of measurements of a time dependent parameter
US20080131887A1 (en) 2006-11-30 2008-06-05 Stephan Dietrich A Genetic Analysis Systems and Methods
US20110014607A1 (en) 2006-12-06 2011-01-20 Jirtle Randy L Imprinted genes and disease
CA2674788A1 (en) 2007-01-08 2008-07-17 Government Of The Usa, As Represented By The Secretary, Department Of He Alth And Human Services Slco1b3 genotype
US8050870B2 (en) 2007-01-12 2011-11-01 Microsoft Corporation Identifying associations using graphical models
US8099298B2 (en) 2007-02-14 2012-01-17 Genelex, Inc Genetic data analysis and database tools
EP2128275A4 (en) 2007-02-23 2010-12-08 Progenika Biopharma Sa "IN VITRO" GENOTYPING METHOD AND PRODUCT HAVING ANTI-AGING MEDICINE APPLICATIONS
EP2126129A4 (en) 2007-03-02 2010-12-22 Univ Ohio State Res Found APOPTOSIS-ASSOCIATED PROTEIN KINASE 1 (DAPK1) AND USES THEREOF FOR THE TREATMENT OF CHRONIC LYMPHOCYTIC LEUKEMIA
US20080228700A1 (en) 2007-03-16 2008-09-18 Expanse Networks, Inc. Attribute Combination Discovery
US8140270B2 (en) 2007-03-22 2012-03-20 National Center For Genome Resources Methods and systems for medical sequencing analysis
US20100143921A1 (en) 2007-04-30 2010-06-10 The Ohio State University Research Foundation Polymorphisms in Genes Affecting Dopamine Transporter Disorders and Uses Thereof
US20080281818A1 (en) 2007-05-10 2008-11-13 The Research Foundation Of State University Of New York Segmented storage and retrieval of nucleotide sequence information
US20090035279A1 (en) 2007-06-13 2009-02-05 Decode Genetics Efh Genetic variants on chr 15q24 as markers for use in diagnosis, prognosis and treatment of exfoliation syndrome and glaucoma
CA3176319A1 (en) 2007-07-23 2009-01-29 The Chinese University Of Hong Kong Analyzing tumor dna in a cell-free sample
US7979215B2 (en) 2007-07-30 2011-07-12 Agilent Technologies, Inc. Methods and systems for evaluating CGH candidate probe nucleic acid sequences
CA2702169A1 (en) 2007-10-12 2009-04-16 Decode Genetics Ehf Sequence variants for inferring human pigmentation patterns
EP2210226A4 (en) 2007-10-12 2013-11-06 Patientslikeme Inc SELF-IMPROVED METHOD OF USING ONLINE COMMUNITIES TO PREDICT CLINICAL RESULTS
US8589437B1 (en) 2007-10-15 2013-11-19 23Andme, Inc. De-identification and sharing of genetic data
US8510057B1 (en) 2007-10-15 2013-08-13 23Andme, Inc. Summarizing an aggregate contribution to a characteristic for an individual
US20110004616A1 (en) 2007-10-31 2011-01-06 National Institute Of Agrobiological Sciences Base sequence determination program, base sequence determination device, and base sequence determination method
ES2381457T3 (es) 2007-12-28 2012-05-28 Pioneer Hi-Bred International Inc. Uso de una variación estructural para analizar diferencias genómicas para la predicción de heterosis
US20090198519A1 (en) 2008-01-31 2009-08-06 Mcnamar Richard Timothy System for gene testing and gene research while ensuring privacy
NZ587903A (en) 2008-02-14 2013-05-31 Decode Genetics Ehf Susceptibility for lung cancer using the polymorphic marker rs1051730
US8301393B2 (en) 2008-02-19 2012-10-30 The Regents Of The University Of California Methods and systems for genome-scale kinetic modeling
US20110087693A1 (en) 2008-02-29 2011-04-14 John Boyce Methods and Systems for Social Networking Based on Nucleic Acid Sequences
WO2009117122A2 (en) 2008-03-19 2009-09-24 Existence Genetics Llc Genetic analysis
US20090240441A1 (en) 2008-03-20 2009-09-24 Helicos Biosciences Corporation System and method for analysis and presentation of genomic data
US8731956B2 (en) 2008-03-21 2014-05-20 Signature Genomic Laboratories Web-based genetics analysis
WO2009146460A2 (en) 2008-05-30 2009-12-03 Ordway Research Institute, Inc. Methods for disease therapy
US8639446B1 (en) 2008-06-24 2014-01-28 Trigeminal Solutions, Inc. Technique for identifying association variables
EP2313520B1 (en) 2008-07-04 2014-08-27 Decode Genetics EHF Copy number variations predictive of risk of schizophrenia
JP2011527565A (ja) 2008-07-07 2011-11-04 ディコーデ ジェネテクス イーエイチエフ 乳癌のリスクアセスメントのための遺伝的変異
EP2313523A2 (en) 2008-07-07 2011-04-27 Decode Genetics EHF Genetic variants predictive of cancer risk in humans
EP2334820A1 (en) 2008-08-12 2011-06-22 Decode Genetics EHF Genetic variants useful for risk assessment of thyroid cancer
EP2329037B1 (en) 2008-08-15 2015-01-28 Decode Genetics EHF Genetic variants predictive of cancer risk
US8428886B2 (en) 2008-08-26 2013-04-23 23Andme, Inc. Genotype calling
US7917438B2 (en) 2008-09-10 2011-03-29 Expanse Networks, Inc. System for secure mobile healthcare selection
US20140200824A1 (en) 2008-09-19 2014-07-17 University Of Pittsburgh Of The Commonwealth System Of Higher Education K-partite graph based formalism for characterization of complex phenotypes in clinical data analyses and disease outcome prognosis
EP2334812B1 (en) 2008-09-20 2016-12-21 The Board of Trustees of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing
CA2740414A1 (en) 2008-10-14 2010-04-22 Bioaccel System and method for inferring str allelic genotype from snps
NZ572036A (en) 2008-10-15 2010-03-26 Nikola Kirilov Kasabov Data analysis and predictive systems and related methodologies
US8954337B2 (en) 2008-11-10 2015-02-10 Signature Genomic Interactive genome browser
US20110287946A1 (en) 2008-11-26 2011-11-24 Decode Genetics Ehf. Genetic Variants Useful for Risk Assessment of Thyroid Cancer
WO2010067381A1 (en) 2008-12-12 2010-06-17 Decode Genetics Ehf Genetic variants as markers for use in diagnosis, prognosis and treatment of eosinophilia, asthma, and myocardial infarction
US8463554B2 (en) 2008-12-31 2013-06-11 23Andme, Inc. Finding relatives in a database
EP2414543B1 (en) 2009-04-03 2016-10-12 Decode Genetics EHF Genetic markers for risk management of atrial fibrillation and stroke
US20130035954A1 (en) 2009-05-07 2013-02-07 Pathway Genomics Genomics-based alerting systems
NZ596070A (en) 2009-05-08 2013-10-25 Decode Genetics Ehf Genetic variants contributing to risk of prostate cancer
AU2010269841A1 (en) 2009-07-10 2012-02-23 Decode Genetics Ehf Genetic markers associated with risk of diabetes mellitus
US20110202486A1 (en) 2009-07-21 2011-08-18 Glenn Fung Healthcare Information Technology System for Predicting Development of Cardiovascular Conditions
US8639639B2 (en) 2009-08-31 2014-01-28 Bhagwan Mahavir Medical Research Centre Predicting possible outcomes in multi-factored diseases
US8315957B2 (en) 2009-09-01 2012-11-20 Microsoft Corporation Predicting phenotypes using a probabilistic predictor
WO2011027218A1 (en) 2009-09-04 2011-03-10 Progenika Biopharma, S.A. High throughput detection of genomic copy number variations
WO2011050076A1 (en) 2009-10-20 2011-04-28 Genepeeks, Inc. Methods and systems for pre-conceptual prediction of progeny attributes
US20110098193A1 (en) 2009-10-22 2011-04-28 Kingsmore Stephen F Methods and Systems for Medical Sequencing Analysis
WO2011050981A2 (en) 2009-10-30 2011-05-05 Roche Diagnostics Gmbh Method for detecting balanced chromosomal aberrations in a genome
EP2328126A1 (en) 2009-11-27 2011-06-01 Technical University of Denmark Genome-wide association study identifying determinants of facial characteristics for facial image generation
US9798855B2 (en) 2010-01-07 2017-10-24 Affymetrix, Inc. Differential filtering of genetic data
CA2797645C (en) 2010-05-25 2020-09-22 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
US20130224739A1 (en) 2010-06-22 2013-08-29 Decode Genetics Ehf. Genetic markers for risk management of vascular disease
US20120016594A1 (en) 2010-07-02 2012-01-19 Coriell Institute For Medical Research, Inc. Method for translating genetic information for use in pharmacogenomic molecular diagnostics and personalized medicine research
US20120046877A1 (en) 2010-07-06 2012-02-23 Life Technologies Corporation Systems and methods to detect copy number variation
EP3360975B1 (en) * 2010-07-09 2022-03-30 Cergentis B.V. 3-d genomic region of interest sequencing strategies
DK2601609T3 (en) 2010-08-02 2017-06-06 Population Bio Inc COMPOSITIONS AND METHODS FOR DISCOVERING MUTATIONS CAUSING GENETIC DISORDERS
JP5930266B2 (ja) 2010-08-26 2016-06-08 国立研究開発法人医薬基盤・健康・栄養研究所 遺伝子絞り込み装置、遺伝子絞り込み方法、及びコンピュータプログラム
CN103080338A (zh) * 2010-08-27 2013-05-01 弗·哈夫曼-拉罗切有限公司 核酸捕获和测序方法
WO2012030967A1 (en) 2010-08-31 2012-03-08 Knome, Inc. Personal genome indexer
US9177101B2 (en) 2010-08-31 2015-11-03 Annai Systems Inc. Method and systems for processing polymeric sequence data and related information
EP3822975A1 (en) 2010-09-09 2021-05-19 Fabric Genomics, Inc. Variant annotation, analysis and selection tool
US20130316915A1 (en) * 2010-10-13 2013-11-28 Aaron Halpern Methods for determining absolute genome-wide copy number variations of complex tumors
US8725422B2 (en) * 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations
EP2630489B1 (en) 2010-10-21 2017-03-22 Mayo Foundation For Medical Education And Research Methods for selecting medications for treating patients having attention-deficit hyperactivity disorder
US20120102054A1 (en) 2010-10-25 2012-04-26 Life Technologies Corporation Systems and Methods for Annotating Biomolecule Data
US8700337B2 (en) 2010-10-25 2014-04-15 The Board Of Trustees Of The Leland Stanford Junior University Method and system for computing and integrating genetic and environmental health risks for a personal genome
KR101325736B1 (ko) 2010-10-27 2013-11-08 삼성에스디에스 주식회사 바이오 마커 추출 장치 및 방법
US20120110013A1 (en) 2010-10-28 2012-05-03 Jorge Conde Flexibly Filterable Visual Overlay Of Individual Genome Sequence Data Onto Biological Relational Networks
US20130226621A1 (en) 2010-11-01 2013-08-29 Koninklijke Philips Electronics N.V. In vitro diagnostic testing including automated brokering of royalty payments for proprietary tests
EP2640857A4 (en) 2010-11-18 2014-04-30 Decode Genetics Ehf GENETIC RISK FACTORS OF SINUS NODE SYNDROME
CN103477318B (zh) 2010-11-25 2019-01-29 便携基因组公司 基因组数据在电子装置上的组织、可视化及利用
US20130273543A1 (en) 2010-12-21 2013-10-17 Decode Genetics Ehf. Genetic variants useful for risk assessment of thyroid cancer
JP6066924B2 (ja) 2010-12-29 2017-01-25 ダウ アグロサイエンシィズ エルエルシー Dna配列のデータ解析法
US9534256B2 (en) 2011-01-06 2017-01-03 Wake Forest University Health Sciences Methods and compositions for correlating genetic markers with risk of aggressive prostate cancer
EP2663656B1 (en) 2011-01-13 2016-08-24 Decode Genetics EHF Genetic variants as markers for use in urinary bladder cancer risk assessment
JP6420543B2 (ja) * 2011-01-19 2018-11-07 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ゲノムデータ処理方法
US20120191366A1 (en) 2011-01-20 2012-07-26 Nathaniel Pearson Methods and Apparatus for Assigning a Meaningful Numeric Value to Genomic Variants, and Searching and Assessing Same
US20140040264A1 (en) 2011-02-04 2014-02-06 Hgh Tech Campus Method for estimation of information flow in biological networks
US20140044668A1 (en) 2011-02-15 2014-02-13 The Ohio State University Methods for Predicting Cardiovascular Risks and Responsiveness to Statin Therapy Using SNPs
US20120215463A1 (en) 2011-02-23 2012-08-23 The Mitre Corporation Rapid Genomic Sequence Homology Assessment Scheme Based on Combinatorial-Analytic Concepts
US9215162B2 (en) 2011-03-09 2015-12-15 Annai Systems Inc. Biological data networks and methods therefor
US20140087961A1 (en) 2011-03-17 2014-03-27 Illumina Inc. Genetic variants useful for risk assessment of thyroid cancer
US20150370959A9 (en) 2011-04-13 2015-12-24 The Board Of Trustees Of The Leland Stanford Junior University Phased Whole Genome Genetic Risk In A Family Quartet
US20120310539A1 (en) 2011-05-12 2012-12-06 University Of Utah Predicting gene variant pathogenicity
WO2012158897A1 (en) 2011-05-17 2012-11-22 National Ict Australia Limited Computer-implemented method and system for detecting interacting dna loci
US20150169828A1 (en) 2011-05-19 2015-06-18 Donald Spector Method and system for collecting medical data
US20130297221A1 (en) 2011-06-01 2013-11-07 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Accurate Construction Of Long Range Haplotype
CN103797486A (zh) 2011-06-06 2014-05-14 皇家飞利浦有限公司 用于组装核酸序列数据的方法
US20120330559A1 (en) 2011-06-21 2012-12-27 Life Technologies Corporation Systems and methods for hybrid assembly of nucleic acid sequences
US8718950B2 (en) 2011-07-08 2014-05-06 The Medical College Of Wisconsin, Inc. Methods and apparatus for identification of disease associated mutations
EP2546674B1 (en) 2011-07-15 2014-12-31 Airbus DS GmbH Plarform relative navigation using range measurements
US9898687B2 (en) 2011-08-03 2018-02-20 Trigeminal Solutions, Inc. Technique for identifying association variables
EP2740026A4 (en) 2011-08-03 2015-06-24 Ingenuity Systems Inc METHOD AND SYSTEMS FOR BIOLOGICAL DATA ANALYSIS
WO2013023220A2 (en) 2011-08-11 2013-02-14 Life Technologies Corporation Systems and methods for nucleic acid-based identification
CN102952854B (zh) 2011-08-25 2015-01-14 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
CN102952855B (zh) 2011-08-26 2015-05-20 深圳华大基因科技服务有限公司 遗传图谱构建方法和装置、单体型分析方法和装置
US8793245B2 (en) 2011-09-22 2014-07-29 Patrick Kwete Personalized medical treatment provision software
WO2013044354A1 (en) 2011-09-26 2013-04-04 Trakadis John Method and system for genetic trait search based on the phenotype and the genome of a human subject
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130091126A1 (en) 2011-10-11 2013-04-11 Life Technologies Corporation Systems and methods for analysis and interpretation of nucleic acid sequence data
CA2852665A1 (en) 2011-10-17 2013-04-25 Good Start Genetics, Inc. Analysis methods
CN104136628A (zh) 2011-10-28 2014-11-05 深圳华大基因医学有限公司 一种检测染色体微缺失和微重复的方法
US9773091B2 (en) 2011-10-31 2017-09-26 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US20140359422A1 (en) 2011-11-07 2014-12-04 Ingenuity Systems, Inc. Methods and Systems for Identification of Causal Genomic Variants
EP2613278A2 (en) 2011-12-05 2013-07-10 Koninklijke Philips Electronics N.V. Retroactive extraction of clinically relevant information from patient sequencing data for clinical decision support
KR101922129B1 (ko) 2011-12-05 2018-11-26 삼성전자주식회사 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
US9734283B2 (en) 2011-12-30 2017-08-15 Washington State University Genomic features associated with epigenetic control regions and transgenerational inheritance of epimutations
US20130184999A1 (en) 2012-01-05 2013-07-18 Yan Ding Systems and methods for cancer-specific drug targets and biomarkers discovery
CN103198236B (zh) 2012-01-06 2017-02-15 深圳华大基因股份有限公司 Cyp450基因型别数据库及基因分型、酶活性鉴定方法
US20130212125A1 (en) 2012-01-24 2013-08-15 The Board Of Regents Of The University Of Oklahoma Bioinformatics search tool system for retrieving and summarizing genotypic and phenotypic data for diagnosing patients
US20140046926A1 (en) 2012-02-06 2014-02-13 Mycare, Llc Systems and methods for searching genomic databases
US20160253770A1 (en) 2012-02-11 2016-09-01 Yougene Corp Systems and methods for genetic testing algorithms
US20130246033A1 (en) 2012-03-14 2013-09-19 Microsoft Corporation Predicting phenotypes of a living being in real-time
US20130245958A1 (en) 2012-03-15 2013-09-19 Siemens Aktiengesellschaft Accurate comparison and validation of single nucleotide variants
US9552458B2 (en) 2012-03-16 2017-01-24 The Research Institute At Nationwide Children's Hospital Comprehensive analysis pipeline for discovery of human genetic variation
US20130261984A1 (en) 2012-03-30 2013-10-03 Illumina, Inc. Methods and systems for determining fetal chromosomal abnormalities
KR20200105524A (ko) 2012-04-02 2020-09-07 버그 엘엘씨 조사적 세포 기반 분석 및 이의 사용
US20130268290A1 (en) 2012-04-02 2013-10-10 David Jackson Systems and methods for disease knowledge modeling
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
CN104221022B (zh) 2012-04-05 2017-11-21 深圳华大基因股份有限公司 一种拷贝数变异检测方法和系统
US20130267425A1 (en) 2012-04-06 2013-10-10 The Chinese University Of Hong Kong Noninvasive prenatal diagnosis of fetal trisomy by allelic ratio analysis using targeted massively parallel sequencing
US8812422B2 (en) 2012-04-09 2014-08-19 Good Start Genetics, Inc. Variant database
CN108485940B (zh) * 2012-04-12 2022-01-28 维里纳塔健康公司 拷贝数变异的检测和分类
CN104428425A (zh) * 2012-05-04 2015-03-18 考利达基因组股份有限公司 测定复杂肿瘤全基因组绝对拷贝数变异的方法
KR101987477B1 (ko) 2012-05-07 2019-06-10 엘지전자 주식회사 바이오마커 발굴 방법
US20130345066A1 (en) 2012-05-09 2013-12-26 Life Technologies Corporation Systems and methods for identifying sequence variation
US8812243B2 (en) 2012-05-09 2014-08-19 International Business Machines Corporation Transmission and compression of genetic data
US8855938B2 (en) 2012-05-18 2014-10-07 International Business Machines Corporation Minimization of surprisal data through application of hierarchy of reference genomes
US20150105267A1 (en) 2012-05-24 2015-04-16 University Of Washington Through Its Center For Commercialization Whole genome sequencing of a human fetus
US9201916B2 (en) 2012-06-13 2015-12-01 Infosys Limited Method, system, and computer-readable medium for providing a scalable bio-informatics sequence search on cloud
WO2014008434A2 (en) 2012-07-06 2014-01-09 Nant Holdings Ip, Llc Healthcare analysis stream management
US9092401B2 (en) 2012-10-31 2015-07-28 Counsyl, Inc. System and methods for detecting genetic variation
CN111667885A (zh) 2012-08-07 2020-09-15 皇家飞利浦有限公司 使用基于树的空间数据结构对基因数据集的群体分类
WO2014026152A2 (en) 2012-08-10 2014-02-13 Assurerx Health, Inc. Systems and methods for pharmacogenomic decision support in psychiatry
US20150197785A1 (en) 2012-08-10 2015-07-16 The Broad Institute, Inc. Methods and apparatus for analyzing and quantifying dna alterations in cancer
WO2014036167A1 (en) 2012-08-28 2014-03-06 The Broad Institute, Inc. Detecting variants in sequencing data and benchmarking
US9449143B2 (en) 2012-08-28 2016-09-20 Inova Health System Ancestral-specific reference genomes and uses thereof
US9165253B2 (en) 2012-08-31 2015-10-20 Real Time Genomics Limited Method of evaluating genomic sequences
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
IL305303A (en) * 2012-09-04 2023-10-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
WO2014039729A1 (en) 2012-09-05 2014-03-13 Stamatoyannopoulos John A Methods and compositions related to regulation of nucleic acids
US20140067355A1 (en) 2012-09-06 2014-03-06 Ancestry.Com Dna, Llc Using Haplotypes to Infer Ancestral Origins for Recently Admixed Individuals
US20140089009A1 (en) 2012-09-27 2014-03-27 Wobblebase, Inc. Method for Personal Genome Data Management
US20140088942A1 (en) 2012-09-27 2014-03-27 Ambry Genetics Molecular genetic diagnostic system
CA2885834A1 (en) 2012-09-27 2014-04-03 The Children's Mercy Hospital System for genome analysis and genetic disease diagnosis
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
GB201217888D0 (en) 2012-10-05 2012-11-21 Univ Leuven Kath High-throughput genotyping by sequencing of single cell
CA2885058A1 (en) 2012-10-08 2014-04-17 Spiral Genetics Inc. Methods and systems for identifying, from read symbol sequences, variations with respect to a reference symbol sequence
KR101419753B1 (ko) 2012-10-16 2014-07-17 안형준 개인 단일 염기 다형성에 기반한 개인별 부작용 최소화 약물 검색 시스템 및 그 방법
US9916416B2 (en) 2012-10-18 2018-03-13 Virginia Tech Intellectual Properties, Inc. System and method for genotyping using informed error profiles
CN104871164B (zh) 2012-10-24 2019-02-05 南托米克斯有限责任公司 处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统
HUP1200622A2 (en) 2012-10-30 2014-05-28 Budapesti Mueszaki Es Gazdasagtudomanyi Egyetem Method and computer program product for genotype classification
US9977708B1 (en) 2012-11-08 2018-05-22 23Andme, Inc. Error correction in ancestry classification
US20140143188A1 (en) 2012-11-16 2014-05-22 Genformatic, Llc Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy
JP6268184B2 (ja) 2012-11-26 2018-01-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 患患者固有の関連性評価を用いた変異と疾患の関連付けを使用する診断的遺伝子分析
EP2923293B1 (en) 2012-11-26 2021-05-26 Illumina, Inc. Efficient comparison of polynucleotide sequences
US9218450B2 (en) 2012-11-29 2015-12-22 Roche Molecular Systems, Inc. Accurate and fast mapping of reads to genome
EP2929070A4 (en) 2012-12-05 2016-06-01 Genepeeks Inc SYSTEM AND METHOD FOR COMPUTERIZED PREDICTION OF THE EXPRESSION OF MONOGENIC PHENOTYPES
US9836577B2 (en) 2012-12-14 2017-12-05 Celmatix, Inc. Methods and devices for assessing risk of female infertility
US20140235456A1 (en) 2012-12-17 2014-08-21 Virginia Tech Intellectual Properties, Inc. Methods and Compositions for Identifying Global Microsatellite Instability and for Characterizing Informative Microsatellite Loci
US20150046191A1 (en) 2013-01-05 2015-02-12 Foundation Medicine, Inc. System and method for managing genomic information
US20150356243A1 (en) 2013-01-11 2015-12-10 Oslo Universitetssykehus Hf Systems and methods for identifying polymorphisms
US20140222349A1 (en) 2013-01-16 2014-08-07 Assurerx Health, Inc. System and Methods for Pharmacogenomic Classification
WO2014113204A1 (en) 2013-01-17 2014-07-24 Personalis, Inc. Methods and systems for genetic analysis
GB2523495A (en) 2013-01-17 2015-08-26 Edico Genome Corp Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20160153032A9 (en) 2013-01-25 2016-06-02 Signature Diagnostics Ag Method for predicting a manifestation of an outcome measure of a cancer patient
US10381106B2 (en) 2013-01-28 2019-08-13 Hasso-Plattner-Institut Fuer Softwaresystemtechnik Gmbh Efficient genomic read alignment in an in-memory database
US11031097B2 (en) 2013-01-28 2021-06-08 Hasso-Plattner Institut fuer Softwaresystemtechnik GmbH System for genomic data processing with an in-memory database system and real-time analysis
WO2014121128A1 (en) 2013-02-01 2014-08-07 Life Technologies Corporation Methods, systems, and computer readable media for exchanging genomic and/or patient information
KR101770962B1 (ko) 2013-02-01 2017-08-24 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
US20140244556A1 (en) 2013-02-27 2014-08-28 Abdul Saleh Methods for and apparatus generating automated pharmaco genetics correlation
US10192028B2 (en) 2013-02-28 2019-01-29 Hitachi High-Technologies Corporation Data analysis device and method therefor
WO2014134615A1 (en) 2013-03-01 2014-09-04 Actx, Inc. Cloud-like medical-information service
CN105378793B (zh) 2013-03-13 2019-05-21 Fdna公司 用于在对象可能受医学状况影响时进行鉴别的系统、方法和计算机可读介质
US20160024591A1 (en) 2013-03-14 2016-01-28 Wake Forest University Health Sciences Methods and compositions for correlating genetic markers with risk of aggressive prostate cancer
EP2973059A4 (en) 2013-03-14 2016-10-12 Ontomics Inc TOOLS AND METHOD FOR PERSONALIZED CLINICAL DECISION SUPPORT
US9418203B2 (en) 2013-03-15 2016-08-16 Cypher Genomics, Inc. Systems and methods for genomic variant annotation
US10385394B2 (en) 2013-03-15 2019-08-20 The Translational Genomics Research Institute Processes of identifying and characterizing X-linked disorders
WO2014145280A1 (en) 2013-03-15 2014-09-18 Ancestry.Com Dna, Llc Family networks
US20140278461A1 (en) 2013-03-15 2014-09-18 Memorial Sloan-Kettering Cancer Center System and method for integrating a medical sequencing apparatus and laboratory system into a medical facility
WO2014145503A2 (en) 2013-03-15 2014-09-18 Lieber Institute For Brain Development Sequence alignment using divide and conquer maximum oligonucleotide mapping (dcmom), apparatus, system and method related thereto
WO2014145234A2 (en) 2013-03-15 2014-09-18 Vigenetech, Inc. Systems and apparatus for integrated and comprehensive biomedical annotation of bioassay data
US20140278133A1 (en) 2013-03-15 2014-09-18 Advanced Throughput, Inc. Systems and methods for disease associated human genomic variant analysis and reporting
US20140303901A1 (en) 2013-04-08 2014-10-09 Ilan Sadeh Method and system for predicting a disease
CA2942106C (en) 2013-04-17 2021-06-29 Andrew Ka-Ching Wong Aligning and clustering sequence patterns to reveal classificatory functionality of sequences
WO2014190230A1 (en) 2013-05-23 2014-11-27 Iphenotype Llc Phenotypic integrated social search database and method
CN103336916B (zh) 2013-07-05 2016-04-06 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
US20160154928A1 (en) 2013-07-12 2016-06-02 Immuneering Corporation Systems, methods, and environment for automated review of genomic data to identify downregulated and/or upregulated gene expression indicative of a disease or condition
WO2015013191A1 (en) 2013-07-21 2015-01-29 Dana-Farber Cancer Institute, Inc. Methods, systems, apparatus and their optimization for effective clinical analysis and conveying results thereof
EP3025156A4 (en) 2013-07-25 2017-06-14 KBioBox Inc. Method and system for rapid searching of genomic data and uses thereof
US20150073724A1 (en) 2013-07-29 2015-03-12 Agilent Technologies, Inc Method for finding variants from targeted sequencing panels
EP3036359B1 (en) 2013-08-19 2019-10-23 Abbott Molecular Inc. Next-generation sequencing libraries
CN105940114B (zh) 2013-08-19 2020-08-28 塞弗欧米公司 药物选择的计算机可读介质及系统
EP3036712A4 (en) 2013-08-20 2017-04-19 The Ohio State Innovation Foundation Methods for predicting prognosis
US9116866B2 (en) 2013-08-21 2015-08-25 Seven Bridges Genomics Inc. Methods and systems for detecting sequence variants
US10460830B2 (en) 2013-08-22 2019-10-29 Genomoncology, Llc Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein
EP3965111A1 (en) 2013-08-30 2022-03-09 Personalis, Inc. Methods and systems for genomic analysis
US10395758B2 (en) 2013-08-30 2019-08-27 10X Genomics, Inc. Sequencing methods
US20150066381A1 (en) 2013-09-03 2015-03-05 Seven Bridges Genomics Inc. Genomic pipeline editor with tool localization
KR101493982B1 (ko) 2013-09-26 2015-02-23 대한민국 품종인식 코드화 시스템 및 이를 이용한 코드화 방법
EP2854059A3 (en) 2013-09-27 2015-07-29 Orbicule BVBA Method for storage and communication of personal genomic or medical information
GB2535066A (en) 2013-10-03 2016-08-10 Personalis Inc Methods for analyzing genotypes
IL304949A (en) 2013-10-04 2023-10-01 Sequenom Inc Methods and processes for non-invasive evaluation of genetic variations
US20150105270A1 (en) 2013-10-10 2015-04-16 Severe Adverse Event (Sae) Consortium Biomarkers for increased risk of drug-induced liver injury from exome sequencing studies
SG11201602903XA (en) 2013-10-18 2016-05-30 Seven Bridges Genomics Inc Methods and systems for genotyping genetic samples
WO2015058120A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
US10832797B2 (en) 2013-10-18 2020-11-10 Seven Bridges Genomics Inc. Method and system for quantifying sequence alignment
WO2015061422A1 (en) 2013-10-22 2015-04-30 Athena Diagnostics, Inc. Pathogenicity scoring system for human clinical genetics
WO2015066338A1 (en) 2013-10-30 2015-05-07 St. Petersburg State University Visualization, sharing and analysis of large data sets
US20150154375A1 (en) 2013-11-27 2015-06-04 Companion Dx Reference Lab, Llc. Systems and methods for optimizing drug therapies
US11725237B2 (en) 2013-12-05 2023-08-15 The Broad Institute Inc. Polymorphic gene typing and somatic change detection using sequencing data
WO2015105771A1 (en) 2014-01-07 2015-07-16 The Regents Of The University Of Michigan Systems and methods for genomic variant analysis
CA2935941C (en) 2014-01-10 2022-05-17 Seven Bridges Genomics Inc. Systems and methods for use of known alleles in read mapping
US20150254397A1 (en) 2014-01-11 2015-09-10 Cytognomix Inc Method of Validating mRNA Splciing Mutations in Complete Transcriptomes
EP4156194A1 (en) 2014-01-14 2023-03-29 Fabric Genomics, Inc. Methods and systems for genome analysis
US20160333411A1 (en) 2014-01-17 2016-11-17 Ruthie Harper Methods of weight analysis and uses thereof
US20160340722A1 (en) 2014-01-22 2016-11-24 Adam Platt Methods And Systems For Detecting Genetic Mutations
US9670530B2 (en) 2014-01-30 2017-06-06 Illumina, Inc. Haplotype resolved genome sequencing
US20150228041A1 (en) 2014-02-10 2015-08-13 Cure Forward Corp. Clinical trial recruitment platform driven by molecular profile
WO2015123600A1 (en) 2014-02-13 2015-08-20 The Childrens's Mercy Hospital Method and process for whole genome sequencing for genetic disease diagnosis
CN106462337B (zh) 2014-02-13 2019-11-01 Illumina公司 综合式消费者基因组服务
GB201402996D0 (en) 2014-02-20 2014-04-09 Vela Operations Pte Ltd Variant analysis in high-throughput sequencing applications
JP6576957B2 (ja) 2014-02-26 2019-09-18 ナントミクス,エルエルシー 安全な携帯ゲノムブラウジングデバイスおよびその方法
US20150248522A1 (en) 2014-02-28 2015-09-03 The Board of Trustees of the Leland Stanford Junior, University Method and System for Identification of Disease Causing Variants
US10662475B2 (en) 2014-02-28 2020-05-26 Centre For Addiction And Mental Health Compositions and methods for the treatment and prevention of antipsychotic medication-induced weight gain
US20150261913A1 (en) 2014-03-11 2015-09-17 The Board of Trustees of the Leland Stanford, Junior, University Method and System for Identifying Clinical Phenotypes in Whole Genome DNA Sequence Data
WO2015140794A1 (en) 2014-03-20 2015-09-24 Ramot At Tel-Aviv University Ltd. Methods and systems for genome comparison
EP3125143A4 (en) 2014-03-24 2018-03-14 Kabushiki Kaisha Toshiba Method, device and program for generating reference genome data, method, device and program for generating differential genome data, and method, device and program for restoring data
WO2015148776A1 (en) 2014-03-27 2015-10-01 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
JP6198659B2 (ja) 2014-04-03 2017-09-20 株式会社日立ハイテクノロジーズ 配列データ解析装置、dna解析システムおよび配列データ解析方法
CN106460070B (zh) 2014-04-21 2021-10-08 纳特拉公司 检测染色体片段中的突变和倍性
US10528758B2 (en) 2014-05-02 2020-01-07 Koninklijke Philips N.V. Genomic informatics service
WO2015171457A1 (en) 2014-05-03 2015-11-12 The Regents Of The University Of California Methods of identifying biomarkers associated with or causative of the progression of disease, in particular for use in prognosticating primary open angle glaucoma
WO2015171660A1 (en) 2014-05-05 2015-11-12 Board Of Regents, The University Of Texas System Variant annotation, analysis and selection tool
EP3143537B1 (en) 2014-05-12 2023-03-01 Roche Diagnostics GmbH Rare variant calls in ultra-deep sequencing
GB201408687D0 (en) 2014-05-16 2014-07-02 Univ Leuven Kath Method for predicting a phenotype from a genotype
EP3598452B1 (en) 2014-05-30 2023-07-26 Sequenom, Inc. Chromosome representation determinations
CA2950596C (en) 2014-05-30 2023-10-31 Verinata Health, Inc. Detecting fetal sub-chromosomal aneuploidies and copy number variations
US20170098053A1 (en) 2014-06-09 2017-04-06 Georgetown University Telegenetics
WO2015191562A1 (en) 2014-06-09 2015-12-17 Revon Systems, Llc Systems and methods for health tracking and management
US20160098519A1 (en) 2014-06-11 2016-04-07 Jorge S. Zwir Systems and methods for scalable unsupervised multisource analysis
US20160314245A1 (en) 2014-06-17 2016-10-27 Genepeeks, Inc. Device, system and method for assessing risk of variant-specific gene dysfunction
US10046177B2 (en) 2014-06-18 2018-08-14 Elekta Ab System and method for automatic treatment planning
WO2015200869A1 (en) 2014-06-26 2015-12-30 10X Genomics, Inc. Analysis of nucleic acid sequences
US10665328B2 (en) 2014-06-30 2020-05-26 QIAGEN Redwood City, Inc. Methods and systems for interpretation and reporting of sequence-based genetic tests
WO2016011414A1 (en) 2014-07-18 2016-01-21 Illumina, Inc. Non-invasive prenatal diagnosis of fetal genetic condition using cellular dna and cell free dna
KR20160010277A (ko) 2014-07-18 2016-01-27 에스케이텔레콤 주식회사 산모의 무세포 dna의 차세대 서열분석을 통한 태아의 단일유전자 유전변이의 예측방법
US20160048608A1 (en) 2014-08-15 2016-02-18 Good Start Genetics, Inc. Systems and methods for genetic analysis
EP3189457A4 (en) 2014-09-05 2018-04-11 Nantomics, LLC Systems and methods for determination of provenance
EP4092680A1 (en) 2014-09-12 2022-11-23 Illumina Cambridge Limited Detecting repeat expansions with short read sequencing data
CN104232777B (zh) * 2014-09-19 2016-08-24 天津华大基因科技有限公司 同时确定胎儿核酸含量和染色体非整倍性的方法及装置
CA2963868A1 (en) 2014-10-10 2016-04-14 Invitae Corporation Methods, systems and processes of de novo assembly of sequencing reads
CN107076729A (zh) 2014-10-16 2017-08-18 康希尔公司 变异体调用器
NZ731820A (en) 2014-10-17 2017-05-26 Ancestry Com Dna Llc Haplotype phasing models
WO2016062713A1 (en) 2014-10-21 2016-04-28 Barcelona Supercomputing Center - Centro Nacional De Supercomputación A computational method for the identification of variants in nucleic acid sequences
JP6707081B2 (ja) 2014-10-22 2020-06-10 ベイラー カレッジ オブ メディスンBaylor College Of Medicine 正の選択下で遺伝子を同定する方法
JP6788587B2 (ja) 2014-11-25 2020-11-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ゲノムデータの安全な転送
AU2016206706B2 (en) 2015-01-13 2021-10-07 10X Genomics, Inc. Systems and methods for visualizing structural variation and phasing information
NL2014199B1 (en) 2015-01-27 2017-01-06 Genalice B V A computer implemented method for generating a variant call file.
US20160224730A1 (en) 2015-01-30 2016-08-04 RGA International Corporation Devices and methods for diagnostics based on analysis of nucleic acids
EP3051450A1 (en) 2015-02-02 2016-08-03 Applied Maths Method of typing nucleic acid or amino acid sequences based on sequence analysis
MX2017010142A (es) 2015-02-09 2017-12-11 10X Genomics Inc Sistemas y metodos para determinar variacion estructural y ajuste de fases con datos de recuperacion de variantes.
US20160239603A1 (en) 2015-02-18 2016-08-18 Michael James Brown Computer-implemented associations of nucleic and amino acid sequence polymorphisms with phenotypes.
WO2016139534A2 (en) 2015-03-02 2016-09-09 Strand Life Sciences Private Limited Apparatuses and methods for determining a patient's response to multiple cancer drugs
CN107980162A (zh) 2015-03-03 2018-05-01 南托米克斯有限责任公司 基于组合的研究建议系统和方法
JP2018514187A (ja) 2015-03-04 2018-06-07 ベラサイト インコーポレイテッド 発現レベルおよび配列変種情報を用いて疾患の発症または再発のリスクを評価するための方法
US10192026B2 (en) 2015-03-05 2019-01-29 Seven Bridges Genomics Inc. Systems and methods for genomic pattern analysis
US20160273049A1 (en) 2015-03-16 2016-09-22 Personal Genome Diagnostics, Inc. Systems and methods for analyzing nucleic acid
WO2016154254A1 (en) 2015-03-23 2016-09-29 Private Access, Inc. System, method and apparatus to enhance privacy and enable broad sharing of bioinformatic data
US20160281166A1 (en) 2015-03-23 2016-09-29 Parabase Genomics, Inc. Methods and systems for screening diseases in subjects
EP3329491A2 (en) 2015-03-23 2018-06-06 Edico Genome Corporation Method and system for genomic visualization
BR112017020363A2 (pt) 2015-03-26 2018-06-05 Quest Diagnostics Invest Inc método para determinar a presença de uma variante em um ou mais genes em um indivíduo, sistema, e, meio legível por computador não transitório
US20160300013A1 (en) 2015-04-10 2016-10-13 Agilent Technologies, Inc. METHOD FOR SIMULTANEOUS DETECTION OF GENOME-WIDE COPY NUMBER CHANGES, cnLOH, INDELS, AND GENE MUTATIONS
US20180294051A1 (en) 2015-04-29 2018-10-11 The University Of British Columbia Clinical support system and method
AU2016258914A1 (en) 2015-05-01 2017-11-09 Guardant Health, Inc. Diagnostic methods
CA2891830A1 (en) 2015-05-15 2016-11-15 Centre For Addiction And Mental Health Genetic markers for suicide risk and related methods
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US10229519B2 (en) 2015-05-22 2019-03-12 The University Of British Columbia Methods for the graphical representation of genomic sequence data
US10275567B2 (en) 2015-05-22 2019-04-30 Seven Bridges Genomics Inc. Systems and methods for haplotyping
US10185803B2 (en) 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
EP3311317A1 (en) 2015-06-19 2018-04-25 Koninklijke Philips N.V. Efficient clinical trial matching
WO2016209999A1 (en) 2015-06-22 2016-12-29 Counsyl, Inc. Methods of predicting pathogenicity of genetic sequence variants
AU2016293025A1 (en) 2015-07-13 2017-11-02 Agilent Technologies Belgium Nv System and methodology for the analysis of genomic data obtained from a subject
EP3323067B1 (en) 2015-07-13 2022-07-06 Ancestry.com DNA, LLC Local genetic ethnicity determination system
WO2017017611A1 (en) 2015-07-29 2017-02-02 Koninklijke Philips N.V. Systems and methods for prioritizing variants of unknown significance
JP6946292B2 (ja) 2015-08-06 2021-10-06 エイアールシー バイオ リミテッド ライアビリティ カンパニー ゲノム分析のためのシステムおよび方法
WO2017042831A2 (en) 2015-09-07 2017-03-16 Isense Solution Private Limited A system and method of measuring productivity and longevity of human beings based on analysis of their genes in a biological and functional context
WO2017042396A1 (en) 2015-09-10 2017-03-16 F. Hoffmann-La Roche Ag Informatics platform for integrated clinical care
WO2017049214A1 (en) 2015-09-18 2017-03-23 Omicia, Inc. Predicting disease burden from genome variants
GB2557818A (en) 2015-09-25 2018-06-27 Veracyte Inc Methods and compositions that utilize transciptome sequencing data in machine learning-based classification
US20170091382A1 (en) 2015-09-29 2017-03-30 Yotta Biomed, Llc. System and method for automating data generation and data management for a next generation sequencer
GB2543273A (en) 2015-10-12 2017-04-19 Leica Microsystems Cambridge Ltd Obtaining biological information and storing and searching biological information in a database
US20170116379A1 (en) 2015-10-26 2017-04-27 Aetna Inc. Systems and methods for dynamically generated genomic decision support for individualized medical treatment
US20170132362A1 (en) 2015-11-09 2017-05-11 Washington State University Novel machine learning approach for the identification of genomic features associated with epigenetic control regions and transgenerational inheritance of epimutations
US20170132357A1 (en) 2015-11-10 2017-05-11 Human Longevity, Inc. Platform for visual synthesis of genomic, microbiome, and metabolome data
JP2019505934A (ja) 2015-12-12 2019-02-28 サイフェローム・インコーポレーテッド コンピューターにより実施される集団に対する薬物安全性の評価
KR101693504B1 (ko) 2015-12-28 2017-01-17 (주)신테카바이오 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
US20200265920A1 (en) 2016-01-07 2020-08-20 The Children's Mercy Hospital A system for determining diplotypes
US20170199960A1 (en) 2016-01-07 2017-07-13 Seven Bridges Genomics Inc. Systems and methods for adaptive local alignment for graph genomes
US20170213127A1 (en) 2016-01-24 2017-07-27 Matthew Charles Duncan Method and System for Discovering Ancestors using Genomic and Genealogic Data
US10460829B2 (en) 2016-01-26 2019-10-29 Seven Bridges Genomics Inc. Systems and methods for encoding genetic variation for a population
AU2017218149B2 (en) 2016-02-12 2020-09-03 Regeneron Pharmaceuticals, Inc. Methods and systems for detection of abnormal karyotypes
WO2017172958A1 (en) 2016-03-29 2017-10-05 Regeneron Pharmaceuticals, Inc. Genetic variant-phenotype analysis system and methods of use

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Heng Wang 외, Copy number variation detection using next generation sequencing read counts, BMC Bioinformatics, 2014.04.14., Vol.15, No.109*
Menachem Fromer 외, Discovery and statistical genotyping of copy-number variation from whole-exome sequenceing depth,The American Journal of Human Genetics, 2012.10.05., Vol.91, pp597-607*

Also Published As

Publication number Publication date
JP2018523198A (ja) 2018-08-16
CN107810502B (zh) 2022-02-11
AU2016263192A1 (en) 2017-11-30
SG11201708787TA (en) 2017-12-28
US10395759B2 (en) 2019-08-27
EP3298523A1 (en) 2018-03-28
BR112017024742A2 (pt) 2018-11-13
RU2746477C2 (ru) 2021-04-14
IL255458A (en) 2018-01-31
HK1252103A1 (zh) 2019-05-17
US20160342733A1 (en) 2016-11-24
US20200035326A1 (en) 2020-01-30
ZA201707665B (en) 2020-05-27
MX2017014659A (es) 2018-03-07
IL255458B (en) 2022-04-01
EP3298523B1 (en) 2020-08-26
AU2016263192B2 (en) 2019-07-25
WO2016187051A1 (en) 2016-11-24
RU2017143983A3 (ko) 2020-02-03
CA2986117C (en) 2020-02-25
KR20180008651A (ko) 2018-01-24
US11568957B2 (en) 2023-01-31
RU2017143983A (ru) 2019-06-18
NZ737005A (en) 2020-03-27
CA2986117A1 (en) 2016-11-24
JP6718885B2 (ja) 2020-07-08
CN107810502A (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
KR102307872B1 (ko) 카피수 변이체 검출을 위한 방법 및 시스템
Nielsen et al. SNP calling, genotype calling, and sample allele frequency estimation from new-generation sequencing data
Cooke et al. A unified haplotype-based method for accurate and comprehensive variant calling
Valdar et al. Mapping in structured populations by resample model averaging
Gaudillo et al. Machine learning approach to single nucleotide polymorphism-based asthma prediction
KR102465122B1 (ko) 비정상적인 핵형을 검출하기 위한 방법 및 시스템
US20220130488A1 (en) Methods for detecting copy-number variations in next-generation sequencing
Chan et al. Evaluating imputation algorithms for low-depth genotyping-by-sequencing (GBS) data
Hutchinson et al. Improving the coverage of credible sets in Bayesian genetic fine-mapping
KR20220069943A (ko) 단일 세포 rna-seq 데이터 처리
De Marino et al. A comparative analysis of current phasing and imputation software
Emily A survey of statistical methods for gene-gene interaction in case-control genome-wide association studies
Linder et al. Predicting RNA-seq coverage from DNA sequence as a unifying model of gene regulation
Celeux et al. Handbook of mixture analysis
CN111210873B (zh) 基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质
Niehus et al. PopDel identifies medium-size deletions jointly in tens of thousands of genomes
Fan et al. Methods for Copy Number Aberration Detection from Single-cell DNA Sequencing Data
Ji et al. Statistical models for DNA copy number variation detection using read‐depth data from next generation sequencing experiments
Robin et al. Applications in genomics
Chan EVALUATING AND CREATING GENOMIC TOOLS FOR CASSAVA BREEDING
CN117953968A (zh) 遗传变异位点的危害性排序方法及装置
Sinoquet et al. Forests of latent tree models to decipher genotype-phenotype associations
Iliadis Haplotype Inference through Sequential Monte Carlo

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant