KR102381477B1 - 심층 신경망에 기반한 변이체 분류자 - Google Patents
심층 신경망에 기반한 변이체 분류자 Download PDFInfo
- Publication number
- KR102381477B1 KR102381477B1 KR1020197038076A KR20197038076A KR102381477B1 KR 102381477 B1 KR102381477 B1 KR 102381477B1 KR 1020197038076 A KR1020197038076 A KR 1020197038076A KR 20197038076 A KR20197038076 A KR 20197038076A KR 102381477 B1 KR102381477 B1 KR 102381477B1
- Authority
- KR
- South Korea
- Prior art keywords
- variant
- neural network
- convolutional
- variants
- metadata
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 claims abstract description 73
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 63
- 210000004602 germ cell Anatomy 0.000 claims abstract description 32
- 238000013507 mapping Methods 0.000 claims abstract description 32
- 230000035772 mutation Effects 0.000 claims abstract description 31
- 230000000392 somatic effect Effects 0.000 claims abstract description 30
- 239000002773 nucleotide Substances 0.000 claims description 72
- 108700028369 Alleles Proteins 0.000 claims description 52
- 206010028980 Neoplasm Diseases 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 21
- 201000011510 cancer Diseases 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 19
- 108090000623 proteins and genes Proteins 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 16
- 238000012217 deletion Methods 0.000 claims description 14
- 238000003780 insertion Methods 0.000 claims description 13
- 238000010200 validation analysis Methods 0.000 claims description 13
- 150000001413 amino acids Chemical class 0.000 claims description 12
- 230000037430 deletion Effects 0.000 claims description 12
- 230000035945 sensitivity Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 230000037431 insertion Effects 0.000 claims description 11
- 238000006467 substitution reaction Methods 0.000 claims description 11
- 108020004705 Codon Proteins 0.000 claims description 10
- 102000004169 proteins and genes Human genes 0.000 claims description 9
- 239000003814 drug Substances 0.000 claims description 8
- 229940079593 drug Drugs 0.000 claims description 8
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 230000007012 clinical effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 27
- 230000002596 correlated effect Effects 0.000 abstract description 20
- 108091028043 Nucleic acid sequence Proteins 0.000 abstract description 18
- 230000008901 benefit Effects 0.000 abstract description 8
- 238000013526 transfer learning Methods 0.000 abstract description 7
- 239000000523 sample Substances 0.000 description 141
- 125000003729 nucleotide group Chemical group 0.000 description 75
- 238000012163 sequencing technique Methods 0.000 description 63
- 150000007523 nucleic acids Chemical group 0.000 description 34
- 108020004707 nucleic acids Proteins 0.000 description 26
- 102000039446 nucleic acids Human genes 0.000 description 26
- 108020004414 DNA Proteins 0.000 description 21
- 210000004027 cell Anatomy 0.000 description 21
- 210000000349 chromosome Anatomy 0.000 description 21
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 16
- 210000002569 neuron Anatomy 0.000 description 15
- 239000003153 chemical reaction reagent Substances 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 11
- 108091026890 Coding region Proteins 0.000 description 10
- 241000995070 Nirvana Species 0.000 description 10
- 238000010606 normalization Methods 0.000 description 9
- 206010069754 Acquired gene mutation Diseases 0.000 description 8
- 230000002068 genetic effect Effects 0.000 description 8
- 235000018102 proteins Nutrition 0.000 description 8
- 210000001082 somatic cell Anatomy 0.000 description 8
- 230000037439 somatic mutation Effects 0.000 description 8
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 230000003321 amplification Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 241000894007 species Species 0.000 description 7
- 230000000153 supplemental effect Effects 0.000 description 7
- 230000002759 chromosomal effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- PHIYHIOQVWTXII-UHFFFAOYSA-N 3-amino-1-phenylpropan-1-ol Chemical compound NCCC(O)C1=CC=CC=C1 PHIYHIOQVWTXII-UHFFFAOYSA-N 0.000 description 5
- 108700024394 Exon Proteins 0.000 description 5
- 238000003776 cleavage reaction Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 102000054765 polymorphisms of proteins Human genes 0.000 description 5
- 230000007017 scission Effects 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 238000011144 upstream manufacturing Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 239000012530 fluid Substances 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 4
- 108091093088 Amplicon Proteins 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 150000002500 ions Chemical class 0.000 description 3
- 230000000869 mutational effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000001717 pathogenic effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 108091092195 Intron Proteins 0.000 description 2
- 108091092878 Microsatellite Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 102000054766 genetic haplotypes Human genes 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 210000003917 human chromosome Anatomy 0.000 description 2
- 201000005249 lung adenocarcinoma Diseases 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013188 needle biopsy Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007841 sequencing by ligation Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 240000001436 Antirrhinum majus Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 108091028732 Concatemer Proteins 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 108010042407 Endonucleases Proteins 0.000 description 1
- 102000004533 Endonucleases Human genes 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241000535824 Mastacembelocleidus bam Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108700005081 Overlapping Genes Proteins 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 241000238102 Scylla Species 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000003567 ascitic fluid Anatomy 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 239000013060 biological fluid Substances 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000002619 cancer immunotherapy Methods 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 230000009615 deamination Effects 0.000 description 1
- 238000006481 deamination reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 150000002009 diols Chemical class 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000004108 freeze drying Methods 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 230000002538 fungal effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000005257 nucleotidylation Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- KHIWWQKSHDUIBK-UHFFFAOYSA-N periodic acid Chemical compound OI(=O)(=O)=O KHIWWQKSHDUIBK-UHFFFAOYSA-N 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000001963 scanning near-field photolithography Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000003685 thermal hair damage Effects 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G06K9/6267—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G06N3/0454—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G06N3/0481—
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Image Analysis (AREA)
Abstract
본 발명에서는, 주어진 변이체가 체세포인지 생식세포인지를 예측하도록 트레이닝된 심층 신경망을 사용하는 변이체 분류자를 도입한다. 본 발명의 모델은, 두 개의 심층 신경망인, 컨볼루션 신경망(CNN) 및 완전 연결 신경망(FCNN), 그리고 두 개의 입력인, 변이체를 갖는 DNA 서열 및 변이체에 상관된 메타데이터 피처들의 세트를 갖는다. 메타데이터 피처는 변이체의 돌연변이 특성, 리드 맵핑 통계, 및 발생 빈도를 나타낸다. CNN은 DNA 서열을 처리하고 컨볼루션된 중간 피처를 생성한다. 피처 서열은 메타데이터 피처를 컨볼루션된 중간 피처와 연쇄화함으로써 유도된다. FCNN은, 피처 서열을 처리하고, 변이체가 체세포, 생식세포 또는 노이즈일 확률을 생성한다. 전이 학습 전략은 두 개의 돌연변이 데이터세트에 대하여 모델을 트레이닝하는데 사용된다. 결과는 기존의 분류자에 비해 본 발명의 모델의 장점과 우수성을 확립한다.
Description
우선권
본 출원은 하기 출원들의 우선권 또는 이점을 주장한다:
"VARIANT CLASSIFIER BASED ON DEEP NEURAL NETWORKS"라는 명칭으로 2018년 4월 12일자로 출원된 미국 가특허 출원 제62/656,741호(대리인 정리번호 ILLM 1007-1/IP-1681-PRV); 및
"VARIANT CLASSIFIER BASED ON DEEP NEURAL NETWORKS"라는 명칭으로 2018년 5월 2일자로 출원된 네덜란드 출원 제2020861호(대리인 정리번호 ILLM 1007-4/IP-1681-NL).
우선권들은 모든 면에서 본 명세서에 참고로 원용된다.
개시된 기술분야
개시된 기술은, 불확실성이 있는 추론을 위한 시스템(예를 들어, 퍼지 로직 시스템), 적응형 시스템, 기계 학습 시스템, 및 인공 신경망을 포함하여, 인텔리전스(즉, 지식 기반 시스템, 추론 시스템, 및 지식 획득 시스템)의 에뮬레이션을 위한 인공 지능형 컴퓨터 및 디지털 데이터 처리 시스템 및 대응하는 데이터 처리 방법 및 제품에 관한 것이다. 특히, 개시된 기술은, 데이터를 분석하기 위한 컨볼루션 신경망(CNN)과 완전 연결 신경망(fully-connected neural network: FCNN) 등의 심층 신경망의 사용에 관한 것이다.
이 부문에서 논의되는 주제는 단지 이 부문에서의 언급 결과로서 종래 기술인 것으로 상정해서는 안 된다. 유사하게, 이 부문에서 언급되거나 배경으로서 제공된 주제에 연관된 문제점은 종래 기술에서 이전에 인식된 것으로 상정해서는 안 된다. 이 부문의 주제는, 상이한 방안들을 나타낼 뿐이며, 이들 방안은 또한 그 자체로 청구된 기술의 구현에 상응할 수 있다.
차세대 시퀀싱, 즉, 서열분석(sequencing)은 변이체 분류를 위해 대량의 서열분석된 데이터를 이용할 수 있게 하였다. 서열분석된 데이터는, 상관성이 높고, 상호의존성이 복잡하여, 지지 벡터 기계와 같은 기존의 분류자(classifier)를 변이체 분류 작업에 적용하는 것을 방해하였다. 따라서, 서열분석된 데이터로부터 고수준 피처(high-level feature)를 추출할 수 있는 고급 분류자가 필요하다.
심층 신경망은, 다수의 비선형 및 복잡한 변환 층들을 사용하여 고수준 피처를 연속적으로 모델링하고 역전파를 통해 피드백을 제공하는 유형의 인공 신경망이다. 심층 신경망은, 많은 트레이닝 데이터세트의 가용성, 병렬 및 분산형 연산 능력, 및 정교한 트레이닝 알고리즘으로 진화하였다. 심층 신경망은, 컴퓨터 비전, 음성 인식, 및 자연어 처리와 같은 다양한 영역에서 주요 발전을 촉진하였다.
컨볼루션 신경망과 반복 신경망은 심층 신경망의 구성요소들이다. 컨볼루션 신경망은, 컨볼루션층(convolution layer), 비선형 층 및 풀링층(pooling layer)을 포함하는 아키텍처로 이미지를 인식하는 데 특히 성공하였다. 반복 신경망은, 퍼셉트론, 장단기 메모리 유닛, 및 게이트형 반복 유닛과 같이 빌딩 블록들 간의 주기적 연결을 통해 입력 데이터의 순차적 정보를 이용하도록 설계된 것이다. 또한, 심층 시공간 신경망, 다차원 반복 신경망 및 컨볼루션 자동 인코더 등의 제한된 컨텍스트에 대해 다른 많은 창발적(emergent) 심층 신경망이 제안되었다.
심층 신경망 학습의 목표는 각 층의 가중치 파라미터를 최적화하는 것이며, 이것은 데이터로부터 가장 적합한 계층적 표현을 학습할 수 있도록 간단한 피처들을 복잡한 피처들로 점진적으로 결합하는 것이다. 최적화 프로세스의 단일 사이클은 다음과 같이 구성된다. 먼저, 트레이닝 데이터세트가 주어지면, 순방향 패스는 각 층의 출력을 순차적으로 연산하고 기능 신호를 네트워크를 통해 전파한다. 최종 출력 층에서, 객체 손실 함수는 추론된 출력과 주어진 표지 간의 에러를 측정한다. 트레이닝 에러를 최소화하기 위해, 역방향 패스는, 체인 규칙을 사용하여 에러 신호를 역전파하고 신경망 전체에 걸쳐 모든 가중치에 대한 그라디언트를 연산한다. 마지막으로 가중치 파라미터는, 확률적 그라디언트 하강에 기반한 최적화 알고리즘을 사용하여 업데이트된다. 일괄 그라디언트 하강은 각각의 완전한 데이터세트에 대한 파라미터 업데이트를 수행하는 반면, 확률적 그라디언트 하강은 데이터 예들의 작은 세트 각각에 대하여 업데이트를 수행함으로써 확률적 근사화를 제공한다. 여러 최적화 알고리즘은 확률적 그라디언트 하강에서 비롯된다. 예를 들어, 아다그라드(Adagrad) 및 아담(Adam) 트레이닝 알고리즘들은, 확률적 그라디언트 하강을 수행하면서 각 파라미터에 대한 그라디언트의 업데이트 빈도 및 모멘트를 기반으로 학습률을 각각 적응적으로 수정한다.
심층 신경망의 트레이닝에서의 다른 핵심 요소는 규제화인데, 이는 과적합을 피하여 우수한 일반화 성능을 달성하기 위한 전략을 가리킨다. 예를 들어, 가중치 감소는, 가중치 파라미터가 더 작은 절대값으로 수렴하도록 객체 손실 함수에 페널티 항을 추가한다. 드롭아웃은, 트레이닝 중에 신경망으로부터 은닉된 유닛을 랜덤하게 제거하며, 가능한 서브네트워크들의 앙상블로 간주될 수 있다. 드롭아웃 기능을 향상시키기 위해, rnnDrop이라는 반복 신경망에 대한 드롭아웃의 변이체 및 새로운 활성화 기능인 maxout이 제안되었다. 또한, 일괄 정규화는, 파라미터들로서의 평균과 분산의 학습 및 미니-일괄 내의 각 활성화에 대한 스칼라 피처의 정규화를 통해 새로운 규제화 방법을 제공한다.
서열분석된 데이터가 다차원 및 고차원인 것을 고려하면, 심층 신경망은, 이들의 광범위한 적용성 및 향상된 예측력으로 인해 생물 정보학 연구에 큰 가능성을 갖고 있다. 컨볼루션 신경망은, 모티프 발견, 병원성 변이체 식별, 및 유전자 발현 추론과 같이 게놈에서의 서열 기반 문제를 해결하도록 구성되었다. 컨볼루션 신경망의 특징은 컨볼루션 필터의 사용이다. 정교하게 설계되고 수동으로 제작된 피처들을 기반으로 하는 기존의 분류 방안과는 달리, 컨볼루션 필터는 원시 입력 데이터를 지식의 정보 표현에 맵핑하는 프로세스와 유사한 피처들의 적응형 학습을 수행한다. 이 경우, 컨볼루션 필터는, 이러한 필터들의 세트가 입력에서 관련 패턴을 인식할 수 있고 트레이닝 과정 중에 스스로 업데이트할 수 있으므로, 일련의 모티프 스캐너로서 기능한다. 반복 신경망은, 단백질 또는 DNA 서열과 같이 다양한 길이의 서열 데이터에서 장거리 의존성을 포착할 수 있다.
따라서, 변이체 분류를 위해 심층 신경망을 사용할 기회가 발생한다.
도면에서, 유사한 참조 문자는 상이한 도면 전체에 걸쳐 유사한 부분을 가리킨다. 또한, 도면은, 반드시 축척대로 도시된 것은 아니며, 대신 일반적으로 개시된 기술의 원리를 예시하고자 강조된 것이다. 다음의 설명에서, 개시된 기술의 다양한 구현예들을 이하의 도면을 참조하여 설명한다.
도 1은 변이체 분류자가 일 구현예에 따라 동작하는 환경을 도시한다.
도 2는 상류 염기 및 하류 염기가 옆에 있는 변이체를 갖는 예시적인 입력 서열을 도시한다.
도 3은 입력 서열을 인코딩하는 데 사용되는 원-핫 인코딩 기법(one-hot encoding scheme)을 도시한다.
도 4는 분류되지 않은 변이체를 돌연변이 특성 값, 리드(read) 맵핑 통계, 및 발생 빈도와 각각 상관짓는 메타데이터 상관기의 일 구현예를 도시한다.
도 5a는 변이체에 상관된 컨텍스트 메타데이터 피처의 일부 예를 강조한다.
도 5b는 변이체에 상관된 서열분석 메타데이터 피처의 일부 예를 강조한다.
도 5c는 변이체에 상관된 기능적 메타데이터 피처의 일부 예를 강조한다.
도 5d는 변이체에 상관된 모집단 메타데이터 피처의 일부 예를 강조한다.
도 5e는 변이체에 상관된 인종 메타데이터 피처의 일례를 강조한다.
도 6은 변이체 분류자에 의해 수행되는 변이체 분류의 아키텍처의 일례를 도시한다.
도 7은 변이체 분류자에 의해 수행되는 변이체 분류의 알고리즘의 일례를 도시한다.
도 8은 전이 학습 전략에 따라 변이체 분류자를 트레이닝한 후 트레이닝된 변이체 분류자의 평가 및 테스트를 구현하는 일 구현예를 도시한다.
도 9는 엑손 데이터에 대한 변이체 콜러(variant caller)(본 명세서에서 소저너(Sojourner)라고도 함)의 성능 결과를 도시한다. 민감도와 특이도에 의해 정량화된 이들 결과는 심층 신경망 분류자에 비해 소저너의 장점과 우월성을 확립한다.
도 10은 엑손에 대한 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 위양성률의 개선을 도시한다.
도 11은 엑손에 대한 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 평균 절대 종양 돌연변이 부담(TMB) 에러를 도시한다.
도 12는 엑손에 대한 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 평균 절대 TMB 에러의 개선을 도시한다.
도 13은 코딩 DNA 서열(CDS) 데이터에 대한 소저너의 성능 결과를 도시한다. 민감도와 특이도에 의해 정량화된 이들 결과는 비심층 신경망 분류자에 비해 소저너의 장점과 우월성을 확립한다.
도 14는 코딩 영역에 걸쳐 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 유사한 위양성률을 도시한다.
도 15는 코딩 영역에 걸쳐 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 평균 절대 TMB 에러를 도시한다.
도 16은 엑손에 대한 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 유사한 평균 절대 TMB 오류를 도시한다.
도 17은 변이체 분류자를 구현하는 데 사용될 수 있는 컴퓨터 시스템을 도시한다.
도 1은 변이체 분류자가 일 구현예에 따라 동작하는 환경을 도시한다.
도 2는 상류 염기 및 하류 염기가 옆에 있는 변이체를 갖는 예시적인 입력 서열을 도시한다.
도 3은 입력 서열을 인코딩하는 데 사용되는 원-핫 인코딩 기법(one-hot encoding scheme)을 도시한다.
도 4는 분류되지 않은 변이체를 돌연변이 특성 값, 리드(read) 맵핑 통계, 및 발생 빈도와 각각 상관짓는 메타데이터 상관기의 일 구현예를 도시한다.
도 5a는 변이체에 상관된 컨텍스트 메타데이터 피처의 일부 예를 강조한다.
도 5b는 변이체에 상관된 서열분석 메타데이터 피처의 일부 예를 강조한다.
도 5c는 변이체에 상관된 기능적 메타데이터 피처의 일부 예를 강조한다.
도 5d는 변이체에 상관된 모집단 메타데이터 피처의 일부 예를 강조한다.
도 5e는 변이체에 상관된 인종 메타데이터 피처의 일례를 강조한다.
도 6은 변이체 분류자에 의해 수행되는 변이체 분류의 아키텍처의 일례를 도시한다.
도 7은 변이체 분류자에 의해 수행되는 변이체 분류의 알고리즘의 일례를 도시한다.
도 8은 전이 학습 전략에 따라 변이체 분류자를 트레이닝한 후 트레이닝된 변이체 분류자의 평가 및 테스트를 구현하는 일 구현예를 도시한다.
도 9는 엑손 데이터에 대한 변이체 콜러(variant caller)(본 명세서에서 소저너(Sojourner)라고도 함)의 성능 결과를 도시한다. 민감도와 특이도에 의해 정량화된 이들 결과는 심층 신경망 분류자에 비해 소저너의 장점과 우월성을 확립한다.
도 10은 엑손에 대한 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 위양성률의 개선을 도시한다.
도 11은 엑손에 대한 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 평균 절대 종양 돌연변이 부담(TMB) 에러를 도시한다.
도 12는 엑손에 대한 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 평균 절대 TMB 에러의 개선을 도시한다.
도 13은 코딩 DNA 서열(CDS) 데이터에 대한 소저너의 성능 결과를 도시한다. 민감도와 특이도에 의해 정량화된 이들 결과는 비심층 신경망 분류자에 비해 소저너의 장점과 우월성을 확립한다.
도 14는 코딩 영역에 걸쳐 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 유사한 위양성률을 도시한다.
도 15는 코딩 영역에 걸쳐 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 평균 절대 TMB 에러를 도시한다.
도 16은 엑손에 대한 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 유사한 평균 절대 TMB 오류를 도시한다.
도 17은 변이체 분류자를 구현하는 데 사용될 수 있는 컴퓨터 시스템을 도시한다.
하기 설명은, 통상의 기술자가 개시된 기술을 제조 및 사용할 수 있도록 제시된 것이며, 특정 응용분야 및 그 요건과 관련하여 제공된 것이다. 개시된 구현예에 대한 다양한 변형은 통상의 기술자에게 명백할 것이며, 본 명세서에서 정의된 일반적인 원리는 개시된 기술의 사상 및 범위를 벗어나지 않고 다른 구현예와 응용분야에 적용될 수 있다. 따라서, 개시된 기술은, 도시된 구현예들로 제한되도록 의도된 것이 아니라, 본 명세서에 개시된 원리 및 특징과 일치하는 가장 넓은 범위를 따른 것이다.
설명은 다음과 같이 구성되어 있다. 우선, 다양한 구현예에 의해 다루어진 기술적 문제점들 중 일부를 기술하는 도입부가 제시되고, 이어서 변이체 분류자의 개요 및 설명 전반에 걸쳐 사용된 용어의 설명이 제시된다. 다음에, 변이체 분류자가 동작하는 예시적인 환경이 서열분석 프로세스 및 변이체 주석/콜 애플리케이션과 함께 고수준에서 논의된다. 이어서, 변이체 분류자에 대한 입력으로서 공급되는 다양한 데이터 구조가 데이터 상관 모델 및 일부 메타데이터 샘플과 함께 논의된다. 다음에, 변이체 분류자에 의해 수행되는 변이체 분류의 아키텍처 예가 제시된 후, 이에 대한 알고리즘 예가 제시된다. 그런 다음, 변이체 분류자를 트레이닝하는 데 사용되는 전이 학습 전략이, 변이체 분류자를 평가하고 테스트하기 위한 전략과 함께 논의된다. 다음에, 심층 신경망 분류자에 비해 변이체 분류자의 장점 및 우수성을 확립하는 성능 결과가 제시된다. 마지막으로, 다양한 특정 구현예가 설명된다.
도입부
정상 세포의 암 세포로의 변환은, 체세포 돌연변이라 불리는 일련의 이산적 유전자 사건을 통해 일어난다. 종양 돌연변이 부담(TMB)은, 서열분석된 DNA의 메가베이스당 체세포 돌연변이의 수의 측정이고, 암 면역요법에 대한 반응을 예측하기 위한 정량적 지표로서 사용된다. 생식세포 변이체 필터링은, 체세포 변이체만이 TMB를 계산하는 데 사용되고 생식세포 변이체는 체세포 변이체보다 훨씬 일반적이기 때문에(100-1000×), 정확한 TMB 평가를 취득하기 위한 중요한 전처리 단계이다.
본 명세서에서는, 주어진 변이체가 체세포인지 또는 생식세포인지를 예측하도록 트레이닝된 심층 신경망을 사용하는 변이체 분류자를 소개한다. 본 발명의 모델은, 컨볼루션 신경망(CNN)과 완전 연결 신경망(FCNN)인 두 개의 심층 신경망을 갖는다. 본 발명의 모델은, 두 개의 입력, 즉, 변이체를 갖는 DNA 서열 및 변이체에 상관된 메타데이터 피처들의 세트를 수신한다.
모델에 대한 제1 입력은 DNA 서열이다. 본 명세서에서는, DNA 서열을 4가지 유형의 뉴클레오타이드 염기인 A, C, G 및 T를 수치적으로 인코딩하는 다중 채널을 갖는 이미지로서 간주한다. 변이체를 잇는 DNA 서열은, 서열에서 각각의 개별 염기의 위치-특이적 정보를 보존하도록 원-핫 인코딩된다.
컨볼루션 신경망은, 서열 내의 공간적 국소성 관계를 보존할 수 있기 때문에 원-핫 인코딩된 DNA 서열을 수신한다. 컨볼루션 신경망은, 다수의 컨볼루션층을 통해 DNA 서열을 처리하고 컨볼루션된 하나 이상의 중간 피처를 생성한다. 컨볼루션층은 컨볼루션 필터를 이용하여 DNA 서열 내의 피처를 검출한다. 컨볼루션 필터는, 저수준 모티프 피처에 대한 DNA 서열을 스캔하고 기본 서열 패턴에 따라 상이한 강도의 신호를 생성하는 모티프 검출기로서 기능한다. 컨볼루션 필터는, 체세포 변이체 및 생식세포 변이체에 대한 수천 및 수백만의 트레이닝 예를 학습한 후 자동으로 학습된다.
모델에 대한 제2 입력은 변이체에 상관된 메타데이터 피처들의 세트이다. 메타데이터 피처는, 변이체의 돌연변이 특성, 리드 맵핑 통계, 및 발생 빈도를 나타낸다. 돌연변이 특성의 예는, 변이체 유형, 아미노산 충격, 진화 보존, 및 임상적 유의성이다. 리드 맵핑 통계의 예는 변이체 대립유전자 빈도, 리드 깊이, 및 염기 콜 품질 점수이다. 발생 빈도의 예는 서열분석된 모집단과 인종 하위 집단의 대립 유전자 빈도이다. 메타데이터 피처들 중 일부는 원-핫 또는 불린 값과 같은 카테고리형 데이터를 사용하여 인코딩되는 한편, 다른 일부는 백분율 및 확률 값과 같은 연속 데이터를 사용하여 인코딩된다. 메타데이터 피처는, 변이체하고만 상관되기 때문에 국소성 관계가 없다. 이것은 메타데이터 피처를 완전 연결 신경망에 의한 처리에 적합하게 한다.
먼저, 피처 서열은 메타데이터 피처들을 컨볼루션된 중간 피처들과 연쇄화(concatenate)함으로써 유도된다. 이어서, 완전 연결 신경망은 피처 서열을 다수의 완전 연결층을 통해 처리한다. 완전 연결층들이 밀도 높게 연결된 뉴런들은 피처 서열에 인코딩된 고수준 피처들을 검출한다. 마지막으로, 완전 연결 신경망의 분류 층은 체세포, 생식세포, 또는 노이즈인 변이체에 대한 확률을 출력한다. 노이즈 카테고리를 갖춤으로써, 체세포 및 생식세포 카테고리에 따른 분류를 개선한다.
일괄 정규화와 정류된 선형 유닛 비선형성의 쌍들은, 컨볼루션층과 완전 연결층 사이에 산재되어, 학습률을 향상시키고 과적합을 감소시킨다. 이 모델은, 암 게놈 아틀라스(TCGA) 데이터세트로부터의 체세포 변이체 및 생식세포 변이체에 대해 미리 트레이닝된 후, 전이 학습 전략에 따라 트루사이트 종양(TST) 데이터세트에서 미세 조정된다. 그 결과는, TST 데이터세트로부터 보류된 유효성확인 데이터에 대한 본 발명의 모델의 효과와 효율성을 입증한다. 민감도와 특이도에 의해 정량화된 이들 결과는 기존 분류자에 비해 본 발명의 모델의 장점과 우수성을 확립한다.
용어
특허, 특허출원, 기사, 서적, 논문, 및 웹페이지를 포함하지만 이에 제한되지 않는 본원에 인용된 모든 문헌 및 유사 자료의 전문은, 이러한 문헌 및 유사 자료의 형식에 관계없이, 본 명세서에 참고로 원용된다. 통합된 문헌과 유사 자료 중 하나 이상이 정의 용어, 용어 사용, 설명된 기술 등을 포함하지만 이에 제한되지 않는 본 출원과 상이하거나 상반되는 경우에는, 본 출원이 우선한다.
본 명세서에서 사용되는 바와 같이, 하기 용어들은 지시된 의미를 갖는다.
본원의 일부 부분, 특히, 도면은, 변이체 분류자를 "소저너"로서 지칭한다.
염기는 뉴클레오타이드 염기 또는 뉴클레오타이드, A(아데닌), C(사이토신), T(티민),또는 G(구아닌)를 가리킨다.
"염색체"라는 용어는, DNA 및 단백질 성분(특히 히스톤)을 포함하는 염색질 가닥으로부터 유도된 살아있는 세포의 유전-보유 유전자 운반체를 지칭한다. 종래의 국제적으로 인정되는 개별 인간 게놈 염색체 넘버링 시스템이 본 명세서에서 사용된다.
"사이트"라는 용어는, 참조 게놈 상의 고유한 위치(예를 들어, 염색체 ID, 염색체 위치, 및 배향)를 지칭한다. 일부 구현예에서, 사이트는 잔기, 서열 태그, 또는 서열 상의 세그먼트의 위치일 수 있다. "(유전자) 좌위"(locus)라는 용어는 참조 염색체 상의 핵산 서열 또는 다형성의 특정 위치를 지칭하는 데 사용될 수 있다.
본 명세서에서 "샘플"이라는 용어는, 통상적으로 핵산을 함유하는 생물학적 유체, 세포, 조직, 기관, 또는 유기체, 혹은 서열분석될 및/또는 상처리(phase)될 적어도 하나의 핵산 서열을 함유하는 핵산들의 혼합물로부터 유도된 샘플을 지칭한다. 이러한 샘플은, 객담/경구 액, 양수, 혈액, 혈액 분획물, 미세 침 생검 샘플(예를 들어, 외과적 생검, 미세 침 생검 등),소변, 복막액, 흉막액, 조직 외식편, 기관 배양물, 및 다른 임의의 조직 또는 세포 제제, 또는 이들의 분획물이나 유도체 또는 이들로부터 분리된 분획물이나 유도체를 포함하지만 이에 제한되지는 않는다. 샘플은 종종 인간 대상(예를 들어, 환자)으로부터 채취되지만, 샘플은, 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하지만 이에 제한되지 않는 염색체를 갖는 임의의 유기체로부터 채취될 수 있다. 샘플은, 생물학적 공급원으로부터 취득되었을 때 그대로 또는 샘플의 특성을 변경하도록 전처리에 이어서 사용될 수 있다. 예를 들어, 이러한 전처리는, 혈액으로부터 혈장을 제조하고 점성 유체 등을 희석하는 것을 포함할 수 있다. 전처리 방법은, 또한, 여과, 침전, 희석, 증류, 혼합, 원심분리, 동결, 동결건조, 농축, 증폭, 핵산 단편화, 간섭 성분의 비활성화, 시약의 첨가, 용해 등을 포함할 수 있지만, 이에 제한되지는 않는다.
"서열"이라는 용어는 서로 연결된 뉴클레오타이드들의 가닥을 포함하거나 나타낸다. 뉴클레오타이드는 DNA 또는 RNA에 기초할 수 있다. 하나의 서열은 다수의 부서열(sub-sequence)을 포함할 수 있음을 이해해야 한다. 예를 들어, (예를 들어, PCR 앰플리콘의) 단일 서열은 350개의 뉴클레오타이드를 가질 수 있다. 샘플 리드(read)는 이들 350개 뉴클레오타이드 내에 다수의 부서열을 포함할 수 있다. 예를 들어, 샘플 리드는, 예를 들어, 20개 내지 50개의 뉴클레오타이드를 갖는 제1 및 제2 플랭킹 서열을 포함할 수 있다. 제1 및 제2 플랭킹 부서열은, 상응하는 부서열(예를 들어, 40개 내지 100개의 뉴클레오타이드)를 갖는 반복 세그먼트의 어느 일측에 위치할 수 있다. 플랭킹 부서열의 각각은 프라이머 부서열(예를 들어, 10개 내지 30개의 뉴클레오타이드)을 포함(또는 프라이머 부서열의 일부를 포함)할 수 있다. 용이한 판독을 위해, "서열"이라는 용어는, "서열"로 지칭될 것이나, 두 개의 서열이 반드시 공통 가닥 상에서 서로 분리될 필요는 없음을 이해할 수 있다. 본원에 기재된 다양한 서열을 구별하기 위해, 서열에는 상이한 표지(예를 들어, 목표 서열, 프라이머 서열, 측면 서열, 참조 서열 등)가 제공될 수 있다. "대립유전자"와 같은 다른 용어에는 유사한 대상들을 구별하도록 다른 표지가 부여될 수 있다.
"페어드-엔드 서열분석"라는 용어는 목표 분획물의 양측 말단을 서열분석하는 서열분석 방법을 지칭한다. 페어드 엔드 서열분석은, 유전자 융합 및 신규한 전사뿐만 아니라 게놈 재배열 및 반복 세그먼트의 검출을 용이하게 할 수 있다. 페어드-엔드 서열분석 방법은, PCT 공보 WO07010252, PCT 출원 일련번호 PCTGB2007/003798, 및 미국 특허출원 공개공보 US 2009/0088327에 기재되어 있으며, 이들 각각은 본 명세서에 참고로 원용된다. 일례로, 일련의 동작들을 다음과 같이 수행할 수 있는데, 즉, (a) 핵산들의 클러스터를 생성하고; (b) 핵산들을 선형화하고; (c) 제1 서열분석 프라이머를 혼성화하고 상기한 바와 같이 확장, 스캐닝, 및 디블록킹의 반복 사이클을 수행하고, (d) 상보적 사본을 합성함으로써 유동 세포면 상의 목표 핵산을 "반전"시키고, (e) 재합성된 가닥을 선형화하고, (f) 제2 서열분석 프라이머를 혼성화하고 상기한 바와 같이 확장, 스캐닝, 및 디블록킹의 반복 사이클을 수행한다. 단일 사이클의 브리지 증폭에 대해 전술한 바와 같은 시약을 전달하여 반전 작업을 수행할 수 있다.
"참조 게놈" 또는 "참조 서열"이라는 용어는, 대상으로부터 확인된 서열을 참조하는 데 사용될 수 있는, 부분적인지 완전한지에 상관없이 임의의 유기체의 임의의 특정한 알려진 게놈 서열을 지칭한다. 예를 들어, 인간 대상 및 다른 많은 유기체에 사용되는 참조 게놈은 ncbi.nlm.nih.gov의 국립 생명공학 정보 센터에서 찾을 수 있다. "게놈"은, 핵산 서열로 발현된 유기체 또는 바이러스의 완전한 유전자 정보를 지칭한다. 게놈에는 유전자와 DNA의 비암호화 서열이 모두 포함된다. 참조 서열은 이러한 서열에 정렬된 리드보다 클 수 있다. 예를 들어, 참조 서열은, 약 100배 이상, 또는 약 1000배 이상, 또는 약 10,000배 이상, 또는 약 105배 이상, 또는 약 106배 이상, 또는 약 107배 이상 일 수 있다. 일례로, 참조 게놈 서열은 전장 인간 게놈의 서열이다. 다른 일례에서, 참조 게놈 서열은 염색체 13과 같은 특정 인간 염색체로 제한된다. 일부 구현예에서, 참조 염색체는 인간 게놈 버전 hg19로부터의 염색체 서열이다. 참조 게놈이라는 용어는 이러한 서열을 커버하도록 의도되었지만, 이러한 서열은 염색체 기준 서열이라고 칭할 수 있다. 참조 서열의 다른 예는, 임의의 종의 염색체, (가닥과 같은) 부염색체 영역 등뿐만 아니라 다른 종의 게놈도 포함한다. 다양한 구현예에서, 참조 게놈은 컨센서스 서열 또는 다수의 개체로부터 유도된 다른 조합이다. 그러나, 소정의 응용분야에서, 참조 서열은 특정 개체로부터 취해질 수 있다.
"리드"라는 용어는, 뉴클레오타이드 샘플 또는 참조의 분획물을 기술하는 서열 데이터의 수집을 지칭한다. "리드"이라는 용어는 샘플 리드 및/또는 참조 리드를 지칭할 수 있다. 통상적으로, 반드시 그런 것은 아니지만, 리드는 샘플 또는 참조에서의 연속 염기쌍들의 짧은 서열을 나타낸다. 리드는 샘플 또는 참조 분획물의 (ATCG로 된) 염기쌍 서열에 의해 상징적으로 표현될 수 있다. 리드는, 리드가 참조 서열과 일치하는지 또는 다른 기준을 충족하는지를 결정하도록 메모리 장치에 저장될 수 있고 적절하게 처리될 수 있다. 리드는, 서열분석 장치로부터 직접 또는 샘플에 관한 저장된 서열 정보로부터 간접적으로 취득될 수 있다. 일부 경우에, 리드는, 더 큰 서열 또는 영역을 확인하도록 사용될 수 있는, 예를 들어, 염색체 또는 게놈 영역 또는 유전자에 정렬되고 특정하게 할당될 수 있는 충분한 길이(예를 들어, 약 25bp 이상)의 DNA 서열이다.
차세대 서열분석 방법은, 예를 들어, 합성 기술(일루미나사(Illumina))에 의한 서열분석, 파이로시퀀싱(454), 이온 반도체 기술(이온 토렌트(Ion Torrent) 서열분석), 단일-분자 실시간 서열분석(퍼시픽 바이오사이언스(Pacific Biosciences)), 및 결찰(SOLiD 서열분석)에 의한 시퀀싱을 포함한다. 서열분석 방법에 따라, 각 리드의 길이는 약 30bp 내지 10,000bp를 초과하도록 가변될 수 있다. 예를 들어, SOLiD 서열분석기를 이용한 일루미나 서열분석 방법은 약 50bp의 핵산 리드를 생성한다. 다른 예에서, 이온 토런트 서열분석은 최대 400bp의 핵산 리드를 생성하고, 454 파이로시퀀싱은 약 700bp의 핵산 리드를 생성한다. 또 다른 예에서, 단일-분자 실시간 서열분석 방법은 10,000bp 내지 15,000bp의 리드를 생성할 수 있다. 따라서, 소정의 구현예에서, 핵산 서열 리드의 길이는 30bp 내지 100bp, 50bp 내지 200bp, 또는 50np 내지 400bp의 길이를 갖는다.
"샘플 리드", "샘플 서열", 또는 "샘플 분획물"이라는 용어들은 샘플로부터의 관심 게놈 서열에 대한 서열 데이터를 지칭한다. 예를 들어, 샘플 리드는, 순방향 및 역방향 프라이머 서열을 갖는 PCR 앰플리콘으로부터의 서열 데이터를 포함한다. 서열 데이터는 임의의 선택 서열 방법으로부터 취득될 수 있다. 샘플 리드는, 예를 들어, 합성에 의한 서열분석(sequencing-by-synthesis: SBS) 반응, 결찰에 의한 서열분석 반응, 또는 다른 임의의 적합한 서열분석 방법으로부터 발생하는 것일 수 있으며, 이를 위해 반복 요소의 길이 및/또는 동일성을 결정하는 것이 필요하다. 샘플 리드는, 다수의 샘플 리드로부터 유도된 컨센서스(예를 들어, 평균 또는 가중) 서열일 수 있다. 소정의 구현예에서, 참조 서열을 제공하는 것은, PCR 앰플리콘의 프라이머 서열에 기초하여 관심 좌위를 식별하는 것을 포함한다.
"원시 분획물"이라는 용어는, 샘플 리드 또는 샘플 분획물 내의 관심 있는 지정된 위치 또는 이차 위치와 적어도 부분적으로 중복되는 관심 게놈 서열의 일부에 대한 서열 데이터를 지칭한다. 원시 분획물의 비제한적인 예로는, 이중 스티치 분획물, 단일 스티치 분획물, 이중 언스티치 분획물, 및 단일 언스티치 분획물을 포함한다. "원시"라는 용어는, 원시 분획물이 샘플 리드의 잠재적 변이체에 대응하고 이러한 잠재적 변이체를 인증 또는 확인하는 변이체를 나타내는지 여부에 관계없이, 원시 분획물이 샘플 리드에서 서열 데이터와 일부 관계가 있는 서열 데이터를 포함한다는 것을 나타내는 데 사용된다. "원시 분획물"이라는 용어는, 분획물이 반드시 샘플 리드에서 변이체 콜을 유효성 확인하는 지지 변이체를 포함한다는 것을 나타내지는 않는다. 예를 들어, 제1 변이체를 나타내기 위해 변이체 콜 애플리케이션에 의해 샘플 리드가 결정될 때, 변이체 콜 애플리케이션은, 하나 이상의 원시 분획물이 다른 경우엔 샘플 리드의 변이체가 주어지는 경우 발생할 것으로 예상될 수 있는 대응 유형의 "지지" 변이체를 갖지 않는다고 결정할 수 있다.
"맵핑", "정렬된", "정렬", 또는 "정렬하는"이라는 용어들은, 리드 또는 태그를 참조 서열과 비교하여 참조 서열이 리드 서열을 포함하는지를 결정하는 프로세스를 지칭한다. 참조 서열이 리드를 포함하는 경우, 리드는, 참조 서열에 맵핑될 수 있고, 또는 특정 구현예에서 참조 서열의 특정 위치에 맵핑될 수 있다. 일부 경우에, 정렬은, 리드가 특정 참조 서열의 구성원인지 여부(즉, 리드가 참조 서열에 존재하는지 또는 부재하는지)를 단순히 알려준다. 예를 들어, 인간 염색체 13에 대한 참조 서열에 대한 리드의 정렬은, 염색체 13에 대한 참조 서열에 리드가 존재하는지 여부를 알려줄 것이다. 이 정보를 제공하는 도구를 세트 멤버쉽 테스터라고 한다. 일부 경우에, 정렬은, 리드 태그가 맵핑되는 참조 서열의 위치를 추가로 나타낸다. 예를 들어, 참조 서열이 전체 인간 게놈 서열인 경우, 정렬은, 리드가 염색체 13에 존재함을 나타내고, 리드가 특정 가닥 및/또는 염색체 13의 사이트에 있음을 추가로 나타낼 수 있다.
"인델"(indel)이라는 용어는, 유기체의 DNA에서의 염기의 삽입 및/또는 삭제를 지칭한다. 마이크로-인델은, 1개 내지 50개 뉴클레오타이드의 순 변화를 초래하는 인델을 나타낸다. 게놈의 코딩 영역에서, 인델의 길이가 3의 배수가 아닌 한, 이것은 프레임시프트 돌연변이를 생성할 것이다. 인델은 점 돌연변이와 대조될 수 있다. 인델은 뉴클레오타이드를 삽입하고 서열로부터 삭제하는 반면, 점 돌연변이는 DNA의 전체 수를 변경하지 않고 뉴클레오타이드들 중 하나를 대체하는 치환 형태이다. 인델은, 또한, 인접한 뉴클레오타이드에서의 치환으로서 정의될 수 있는 탠덤 염기 돌연변이(Tandem Base Mutation: TBM)와 대조될 수 있다 (주로 2개의 인접한 뉴클레오타이드에서의 치환에 해당하지만, 3개의 인접한 뉴클레오타이드에서의 치환이 관찰되었다).
"변이체"라는 용어는, 핵산 참조와는 다른 핵산 서열을 지칭한다. 통상적인 핵산 서열 변이체는, 단일 염기 다형성, 즉, 단일 뉴클레오타이드 다형성(single nucleotide polymorphism: SNP), 짧은 삭제 및 삽입 다형성(Indel), 카피 수 변이(copy number variation: CNV), 마이크로위성 마커, 또는 짧은 탠덤 반복 및 구조적 변이를 제한 없이 포함한다. 체세포 변이체 콜링은, DNA 샘플에서 낮은 빈도로 존재하는 변이체를 식별하기 위한 노력이다. 체세포 변이체 콜링은 암 치료의 맥락에서 중요하다. 암은, DNA에 돌연변이가 축적되어 발생하는 것이다. 종양으로부터의 DNA 샘플은, 일반적으로 일부 정상 세포, (돌연변이가 적은) 암 진행의 초기 단계의 일부 세포, 및 (돌연변이가 많은) 일부 후기 단계 세포를 포함하여 이종성이다. 이러한 이종성 때문에, (예를 들어, FFPE 샘플로부터) 종양을 서열분석할 때, 체세포 돌연변이는 종종 낮은 빈도로 나타난다. 예를 들어, SNV는 주어진 염기를 커버하는 리드의 10%에서만 보일 수 있다. 변이체 분류자에 의해 체세포 또는 생식세포로서 분류되는 변이체도, 본 명세서에서 "테스트 중인 변이체"라고 지칭된다.
"노이즈"라는 용어는, 서열분석 프로세스 및/또는 변이체 콜 애플리케이션에서의 하나 이상의 에러로 인한 잘못된 변이체 콜을 지칭한다.
"변이체 빈도"라는 용어는, 모집단의 특정 좌위에서의 대립유전자(유전자의 변이체)의 상대 빈도를 분획률 또는 백분율로서 표현한 것을 나타낸다. 예를 들어, 분획률 또는 백분율은 해당 대립유전자를 보유하는 모집단에서의 모든 염색체의 분획률일 수 있다. 예를 들어, 샘플 변이체 빈도는, 개인으로부터 관심 게놈 서열에 대하여 취득된 샘플 및/또는 리드의 수에 상응하는 "모집단"에 대한 관심 게놈 서열을 따른 특정 좌위/위치에서의 대립유전자/변이체의 상대 빈도를 나타낸다. 다른 일례로, 베이스라인 변이체 빈도는, 하나 이상의 베이스라인 게놈 서열을 따른 특정 좌위/위치에서의 대립 유전자/변이체의 상대 빈도를 나타내며, 여기서 "모집단"은, 정상적인 개인들의 모집단으로부터 하나 이상의 베이스라인 게놈 서열에 대하여 취득된 샘플 및/또는 리드의 수에 상응한다.
용어 "변이체 대립유전자 빈도"(VAF)는, 변이체를 목표 위치에서의 전체 커버리지로 나눈 값과 일치하는 것으로 관찰된 서열분석된 리드의 백분율을 지칭한다. VAF는 변이체를 전달하는 서열분석된 리드의 비율을 측정한 것이다.
"위치", "지정된 위치", 및 "좌위"라는 용어들은, 뉴클레오타이드들의 서열 내에서의 하나 이상의 뉴클레오타이드의 위치 또는 좌표를 지칭한다. "위치", "지정된 위치", 및 "좌위"라는 용어들은, 또한, 뉴클레오타이드들의 서열에서의 하나 이상의 염기 쌍의 위치 또는 좌표를 지칭한다.
"일배체형"이라는 용어는 함께 유전되는 염색체 상의 인접 사이트들에 있는 대립유전자들의 조합을 지칭한다. 일배체형은, 좌위의 주어진 세트가 발생하였다면, 이러한 세트 간에 발생한 재조합 이벤트들의 수에 따라 하나의 좌위, 여러 개의 좌위, 또는 전체 염색체일 수 있다.
본 명세서에서 "임계값"이라는 용어는, 샘플, 핵산, 또는 그 일부(예를 들어, 리드)를 특성화하도록 컷오프로서 사용되는 숫자 또는 비숫자 값을 지칭한다. 임계값은 경험적 분석에 기초하여 가변될 수 있다. 임계값은, 이러한 값을 발생시키는 소스가 특정 방식으로 분류되어야 하는지 여부를 결정하도록 측정된 값 또는 계산된 값과 비교될 수 있다. 임계값은 경험적으로 또는 분석적으로 식별될 수 있다. 임계값의 선택은, 사용자가 분류를 원하는 신뢰 수준에 의존한다. 임계값은, 특정 목적을 위해(예를 들어, 감도 및 선택성의 균형을 맞추기 위해) 선택될 수 있다. 본 명세서에서 사용되는 바와 같이, "임계값"이라는 용어는, 분석 과정이 변경될 수 있는 지점 및/또는 동작이 트리거될 수 있는 지점을 나타낸다. 임계값은 미리 정해진 수일 필요가 없다. 대신, 임계값은, 예를 들어, 복수의 인자에 기초한 함수일 수 있다. 임계값은 상황에 적응적일 수 있다. 또한, 임계값은 상한값, 하한값, 또는 한계값들 사이의 범위를 나타낼 수 있다.
일부 구현예에서는, 서열분석 데이터에 기초한 메트릭 또는 점수가 임계값과 비교될 수 있다. 본 명세서에서 사용되는 바와 같이, "메트릭" 또는 "점수"라는 용어는, 서열분석 데이터로부터 결정된 값 또는 결과를 포함할 수 있다. 임계값과 마찬가지로, 메트릭 또는 점수는 상황에 따라 적응적일 수 있다. 예를 들어, 메트릭 또는 점수는 정규화된 값일 수 있다. 점수 또는 메트릭의 예로서, 하나 이상의 구현예는 데이터를 분석할 때 카운트 점수를 사용할 수 있다. 카운트 점수는 샘플 리드의 수에 기초할 수 있다. 샘플 리드는, 샘플 리드가 하나 이상의 공통 특성 또는 품질을 갖도록 하나 이상의 필터링 단계를 겪을 수 있다. 예를 들어, 카운트 점수를 결정하기 위해 사용되는 각각의 샘플 리드는 참조 서열과 정렬되었을 수 있고 또는 잠재적 대립유전자로서 할당될 수 있다. 공통 특성을 갖는 샘플 리드의 수는 리드 카운트를 결정하기 위해 계수될 수 있다. 카운트 점수는 리드 카운트에 기초할 수 있다. 일부 구현예에서, 카운트 점수는 리드 카운트와 동일한 값일 수 있다. 다른 구현예에서, 카운트 점수는 리드 카운트 및 다른 정보에 기초할 수 있다. 예를 들어, 카운트 점수는, 유전자 좌위의 특정 대립유전자에 대한 리드 수 및 유전자 좌위에 대한 총 리드 수에 기초할 수 있다. 일부 구현예에서, 카운트 점수는 유전자 좌위에 대한 리드 카운트 및 이전에 취득된 데이터에 기초할 수 있다. 일부 구현예에서, 카운트 점수들은 미리 결정된 값들 간에 정규화된 점수들일 수 있다. 카운트 점수는, 또한, 샘플의 다른 좌위로부터의 리드 카운트의 함수 또는 관심 샘플과 동시에 실행된 다른 샘플로부터의 리드 카운트의 함수일 수 있다. 예를 들어, 카운트 점수는, 특정 대립유전자의 리드 카운트 및 샘플 내의 다른 좌위의 리드 카운트 및/또는 다른 샘플로부터의 리드 카운트의 함수일 수 있다. 일례로, 다른 좌위로부터의 리드 카운트 및/또는 다른 샘플로부터의 리드 카운트는 특정 대립유전자에 대한 카운트 점수를 정규화하는 데 사용될 수 있다.
"커버리지" 또는 "분획물 커버리지"라는 용어는, 서열의 동일한 분획물에 대한 다수의 샘플 리드의 카운트 또는 다른 측정값을 지칭한다. 리드 카운트는 대응하는 분획물을 커버하는 리드 수의 카운트를 나타낼 수 있다. 대안으로, 커버리지는, 이력 지식, 샘플의 지식, 좌위의 지식 등에 기초하는 지정된 계수에 리드 카운트를 곱함으로써 결정될 수 있다.
"리드 깊이"(통상적으로 "×"가 후속하는 수)라는 용어는 목표 위치에서 중복되는 정렬을 갖는 서열분석된 리드의 수를 지칭한다. 이는 종종 간격들의 세트(예를 들어, 엑손, 유전자 또는 패널)에 걸쳐 컷오프를 초과하는 평균 또는 백분율로서 표현된다. 예를 들어, 임상 보고서에 따르면, 패널 평균 커버리지가 1,105×이고 목표 염기의 98%가 >100×를 커버한다고 말할 수 있다.
"염기 콜 품질 점수" 또는 "Q 점수"라는 용어는, 단일 서열분석된 염기가 정확한 확률에 반비례하여 0 내지 20 범위의 PHRED-스케일 확률을 지칭한다. 예를 들어, Q가 20인 T 염기 콜은, 신뢰도 P-값이 0.01인 경우 올바른 것으로 간주될 수 있다. Q<20인 모든 염기 콜은 품질이 낮은 것으로 간주되어야 하며, 변이체를 지지하는 서열분석된 리드의 상당 부분이 품질이 낮은 것으로 식별된 임의의 변이체는 잠재적 위양성으로 간주되어야 한다.
"변이체 리드" 또는 "변이체 리드 수"라는 용어는 변이체의 존재를 지지하는 서열분석된 리드의 수를 지칭한다.
환경
소위 소저너 변이체 분류자를 사용하는 변이체 분류를 위한 시스템 및 다양한 구현예를 설명한다. 시스템 및 프로세스는 도 1을 참조하여 설명된다. 도 1은 아키텍처 도면이기 때문에, 설명의 명확성을 개선하도록 소정의 세부 사항은 의도적으로 생략되어 있다. 도 1의 설명은 다음과 같이 구성되어 있다. 먼저, 도면의 모듈들을 소개하고, 이들의 상호연결이 후속한다. 그런 다음, 모듈 사용에 대해 자세히 설명한다.
도 1은 일 구현예에 따라 변이체 분류자(104)가 동작하는 환경(100)을 도시한다. 환경(100)은, 하기 처리 엔진들, 즉, 변이체 분류자(104), 연쇄화기(112), 및 메타데이터 상관기(116)를 포함한다. 환경(100)은, 또한, 하기 데이터베이스들, 즉, 분류되지 않은 변이체(124), 입력 서열(102), 메타데이터 피처(126), 및 피처 서열(122)을 포함한다.
모듈들로서 지정된 도 1의 처리 엔진 및 데이터베이스는, 하드웨어 또는 소프트웨어로 구현될 수 있으며, 도 1에 도시된 것과 정확하게 동일한 블록들로 분할될 필요는 없다. 일부 모듈은, 또한, 다른 프로세서, 컴퓨터, 또는 서버에서 구현될 수 있고, 또는 다수의 다른 프로세서, 컴퓨터, 또는 서버에 걸쳐 분산될 수 있다. 또한, 일부 모듈은 달성되는 기능에 영향을 끼치지 않고 도 1에 도시된 것과 병렬로 또는 다른 순서로 결합 및 동작될 수 있음을 이해할 것이다. 도 1의 모듈들은, 또한, 방법의 흐름도 단계들로서 간주될 수 있다. 또한. 모듈은 반드시 자신의 모든 코드를 메모리에 연속적으로 배치할 필요가 없으며, 코드의 일부 부분은, 다른 모듈들로부터의 코드 또는 다른 기능이 사이에 배치되면서 해당 코드의 다른 부분들로부터 분리될 수 있다.
이제, 환경(100)의 모듈들의 상호연결을 설명한다. 네트워크(들)(114)는 처리 엔진과 데이터베이스를 결합하며, 이들 모두는 서로 통신한다(실선 이중 화살표로 표시됨). 실제 통신 경로는 공중 및/또는 개인 네트워크를 통한 점대점일 수 있다. 통신은, 예를 들어, 개인 네트워크, VPN, MPLS 회로, 또는 인터넷과 같은 다양한 네트워크에서 발생할 수 있으며, 적절한 애플리케이션 프로그래밍 인터페이스(API) 및 데이터 상호교환 포맷, 예를 들어, 표현 상태 변경(REST), 자바스크립트 오브젝트 노테이션(JSON), 확장성 마크업 언어(XML), 심플 오브젝트 액세스 프로토콜(SOAP), 자바 메시지 서비스(JMS), 및/또는 자바 플랫폼 모듈 시스템을 사용할 수 있다. 모든 통신은 암호화될 수 있다. 통신은, 일반적으로 근거리통신망(LAN), 광역통신망(WAN), 전화 네트워크(공중 교환 전화망(PSTN)), 세션 개시 프로토콜(SIP), 무선 네트워크, 점대점 네트워크, 스타 네트워크, 토큰 링 네트워크, 허브 네트워크, EDGE, 3G, 4G LTE, Wi-Fi, WiMAX 등의 프로토콜을 통한 모바일 인터넷을 포함한 인터넷 등의 네트워크를 통한 것이다. 또한, 다양한 인가 및 인증 기술들, 예컨대, 사용자명/패스워드, 개방 인가(OAuth), 커버로스, 시큐어ID, 디지털 인증서 등을 이용하여 통신을 보안화할 수 있다.
서열분석 프로세스
본 명세서에 설명된 구현예들은, 서열 변이를 식별하기 위해 핵산 서열을 분석하는 데 적용될 수 있다. 구현예들은, 유전자 위치/좌위의 잠재적 변이체/대립유전자를 분석하고 유전자 좌위의 유전자형을 결정하거나 다시 말하면 좌위를 위한 유전자형 콜을 제공하는 데 사용될 수 있다. 예를 들어, 핵산 서열은 미국 특허출원 공개번호 제2016/0085910호 및 미국 특허출원 공개번호 제2013/0296175호에 기술된 방법 및 시스템에 따라 분석될 수 있으며, 이들 문헌의 완전한 주제 전문은 본 명세서에서 원용된다.
일 구현예에서, 서열분석 프로세스는 DNA와 같은 핵산을 포함하거나 포함하는 것으로 의심되는 샘플을 수신하는 단계를 포함한다. 샘플은, 동물(예를 들어, 인간), 식물, 박테리아 또는 진균과 같이 공지된 또는 미지의 공급원으로부터 유래될 수 있다. 샘플은 공급원으로부터 직접 취해질 수 있다. 예를 들어, 혈액 또는 타액은 개인으로부터 직접 취해질 수 있다. 대안으로, 샘플은 공급원으로부터 직접 취득되지 않을 수 있다. 이어서, 하나 이상의 프로세서는 서열분석을 위해 샘플을 준비하도록 시스템에 지시한다. 준비는 외부 물질을 제거 및/또는 소정의 물질(예를 들어, DNA)을 격리하는 것을 포함할 수 있다. 생물학적 샘플은 특정 분석에 대한 피처를 포함하도록 준비될 수 있다. 예를 들어, 생물학적 샘플은 합성에 의한 서열분석(SBS)를 위해 준비될 수 있다. 소정의 구현예에서, 준비는 게놈의 소정의 영역의 증폭을 포함할 수 있다. 예를 들어, 준비는 STR 및/또는 SNP를 포함하는 것으로 알려진 미리 결정된 유전자 좌위를 증폭시키는 것을 포함할 수 있다. 유전자 좌위는 미리 결정된 프라이머 서열을 사용하여 증폭될 수 있다.
다음에, 하나 이상의 프로세서는 시스템이 샘플을 서열분석하도록 지시한다. 서열분석은 공지된 다양한 서열분석 프로토콜을 통해 수행될 수 있다. 특정 구현예에서, 서열분석은 SBS를 포함한다. SBS에서, 복수의 형광-표지된 뉴클레오타이드는, 광학 기판의 표면(예를 들어, 유동 세포의 채널을 적어도 부분적으로 정의하는 표면)에 존재하는 증폭된 DNA의 복수의 클러스터(수백만의 클러스터일 수 있음)를 서열분석하는 데 사용된다. 유동 세포들은, 유동 세포가 적절한 유동 세포 홀더 내에 배치되는 서열분석을 위한 핵산 샘플들을 포함할 수 있다.
핵산은, 핵산이 미지의 목표 서열에 인접한 공지된 프라이머 서열을 포함하도록 준비될 수 있다. 제1 SBS 서열분석 사이클을 개시하기 위해, 하나 이상의 상이하게 표지된 뉴클레오타이드, 및 DNA 폴리머라제 등이 유체 흐름 서브시스템에 의해 유동 세포 내로/유동 세포를 통해 흐를 수 있다. 단일 유형의 뉴클레오타이드가 한 번에 추가될 수 있거나, 서열분석 절차에 사용되는 뉴클레오타이드는 가역적 종결 특성을 갖도록 특별히 설계될 수 있으며, 따라서 서열분석 반응의 각 사이클이 여러 유형의 표지된 뉴클레오타이드(예를 들어, A, C, T, G)가 존재하는 가운데 동시에 일어날 수 있게 한다. 뉴클레오타이드는 형광단과 같은 검출가능한 표지 모이어티를 포함할 수 있다. 4개의 뉴클레오타이드가 함께 혼합되는 경우, 폴리머라제는 혼입할 정확한 염기를 선택할 수 있고, 각 서열은 단일 염기에 의해 확장된다. 비혼합 뉴클레오타이드는 유동 세포를 통해 세척액을 흐르게 함으로써 세척될 수 있다. 하나 이상의 레이저가 핵산을 자극하고 형광을 유발할 수 있다. 핵산으로부터 방출되는 형광은 혼입된 염기의 형광단에 기초하고, 상이한 형광단들은 상이한 파장의 방출 광을 방출할 수 있다. 디블로킹 시약을 유동 세포에 첨가하여 확장 및 검출된 DNA 가닥으로부터 가역적 종결자 그룹을 제거할 수 있다. 이어서, 디블로킹 시약은 유동 세포를 통해 세척 용액을 흐르게 함으로써 세척될 수 있다. 이어서, 유동 세포는, 상기 기재된 바와 같이 표지된 뉴클레오타이드의 도입으로 시작하여 서열분석의 추가 사이클에 대하여 준비된다. 서열분석 실행을 완료하기 위해 유체 및 검출 동작들을 여러 번 반복할 수 있다. 서열분석 방법의 예는, 예를 들어, Bentley 등의 Nature 456:53-59 (2008); 국제출원공개번호 WO 04/018497; 미국 특허번호 7,057,026; 국제출원공개번호 WO 91/06678; 국제출원공개번호 WO 07/123744; 미국 특허번호 7,329,492; 미국 특허번호 7,211,414; 미국 특허번호 7,315,019; 미국 특허번호 7,405,281; 및 미국 특허출원 공개번호 2008/0108082에 개시되어 있으며, 이들 문헌의 각각은 본 명세서에 참고로 원용된다.
일부 구현예에서, 핵산은, 표면에 부착될 수 있고 서열분석 전에 또는 서열분석 동안 증폭될 수 있다. 예를 들어, 증폭은, 브리지 증폭을 이용하여 수행되어 표면 상에 핵산 클러스터를 형성할 수 있다. 유용한 브리지 증폭 방법은, 예를 들어, 미국 특허번호 5,641,658; 미국 특허출원 공개번호 2002/0055100; 미국 특허 제7,115,400호; 미국 특허출원 공개번호 2004/0096853; 미국 특허출원 공개번호 2004/0002090; 미국 특허출원 공개번호 2007/0128624; 및 미국 특허출원 공개번호 2008/0009420에 개시되어 있으며, 이들 문헌 각각의 전문은 본 명세서에 참고로 원용된다. 표면 상의 핵산을 증폭시키는 또 다른 유용한 방법은, 예를 들어, Lizardi 등의 Nat. Genet. 19:225-232 (1998) 및 미국 특허출원 공개번호 2007/0099208 A1에 개시된 바와 같은 롤링 서클 증폭(RCA)이며, 이들 문헌 각각은 본 명세서에 참고로 원용된다.
SBS 프로토콜의 일례는, 예를 들어, 국제공개번호 WO 04/018497, 미국 특허출원 공개번호 2007/0166705A1, 및 미국 특허 제7,057,026호에 기재된 바와 같이, 제거 가능한 3' 블록을 갖는 변형된 뉴클레오타이드를 이용하며, 이들 문헌 각각은 본 명세서에 참고로 원용된다. 예를 들어, SBS 시약의 반복 사이클은, 예를 들어, 브리지 증폭 프로토콜의 결과로 목표 핵산이 부착된 유동 세포로 전달될 수 있다. 핵산 클러스터는 선형화 용액을 사용하여 단일 가닥 형태로 전환될 수 있다. 선형화 용액은, 예를 들어, 각 클러스터의 하나의 가닥을 절단할 수 있는 제한 엔도뉴클레아제를 함유할 수 있다. 다른 절단 방법은, 특히, 화학적 절단(예를 들어, 과옥소산염에 의한 다이올 연결의 절단), 엔도뉴클레아제에 의한 절단에 의한 염기성 사이트의 절단(예를 들어, 미국 매사추세츠 입스위치에 소재하는 NEB에 의해 공급되는 바와 같은 'USER', 부품 번호 M5505S), 열이나 알칼리에 대한 노출, 데옥시리보뉴클레오타이드로 달리 구성된 증폭 산물로 혼입된 리보뉴클레오타이드의 절단, 광화학적 절단, 또는 펩티드 링커의 절단을 포함하여, 효소 또는 닉킹 효소를 제한하기 위한 대체 방법으로서 사용될 수 있다. 선형화 동작 후에, 서열분석 프라이머를 서열분석될 목표 핵산에 혼성하기 위한 조건 하에서 서열분석 프라이머를 유동 세포로 전달할 수 있다.
이어서, 유동 세포를, 단일 뉴클레오타이드 첨가에 의해 각각의 목표 핵산에 혼성화된 프라이머를 확장시키는 조건 하에서 제거 가능한 3' 블록 및 형광 표지를 갖는 변형된 뉴클레오타이드를 갖는 SBS 확장 시약과 접촉시킬 수 있다. 일단 변형된 뉴클레오타이드가 서열분석되는 템플릿의 영역에 상보적인 성장하는 폴리뉴클레오타이드 쇄에 혼합되었다면, 추가 서열 확장을 지시하기 위해 이용 가능한 유리 3'-OH기가 없기 때문에, 단일 뉴클레오타이드만이 각 프라이머에 첨가되고, 따라서, 중합효소가 추가 뉴클레오타이드를 추가할 수 없다. SBS 확장 시약은, 제거될 수 있고 방사선으로 여기 상태에서 샘플을 보호하는 성분들을 포함하는 스캔 시약으로 교체될 수 있다. 스캔 시약을 위한 예시적인 성분들은 미국 특허출원 공개 제2008/0280773 A1호 및 미국 특허 출원 제13/018,255호에 기재되어 있으며, 이들 문헌 각각은 본 명세서에 참고로 원용된다. 이어서, 확장된 핵산은 스캔 시약의 존재 하에서 형광 검출될 수 있다. 일단 형광이 검출되었다면, 사용된 블록킹 그룹에 적합한 디블로킹 시약을 사용하여 3' 블록을 제거할 수 있다. 각 블록킹 그룹에 유용한 예시적인 디블로킹 시약은 WO0044018497, US 2007/0166705 A1, 및 미국 특허번호 7,057,026에 기재되어 있으며, 이들 문헌 각각은 본 명세서에 참고로 원용된다. 디블로킹 시약을 세척하여, 목표 핵산을, 이제 추가 뉴클레오타이드의 첨가가 가능한 성분인 3'-OH기를 갖는 확장된 프라이머에 혼성화되게 한다. 따라서, 하나 이상의 동작 사이에서의 선택적 세척에 의해 확장 시약, 스캔 시약, 및 디블로킹 시약을 첨가하는 주기는, 원하는 서열이 취득될 때까지 반복될 수 있다. 상기 사이클들은, 각각의 변형된 뉴클레오타이드 각각이 특정 염기에 상응하는 것으로 공지된 상이한 표지로 부착될 때 사이클당 단일 확장 시약 전달 동작을 사용하여 수행될 수 있다. 상이한 표지들은, 각각의 혼입 동작 동안 첨가되는 뉴클레오타이드들의 구별을 용이하게 한다. 대안으로, 각 사이클은, 확장 시약 전달의 개별 동작 및 후속하는 시약 전달 및 검출의 개별 동작을 포함할 수 있으며, 이 경우, 2개 이상의 뉴클레오타이드가 동일한 표지를 가질 수 있고 공지된 전달 순서에 기초하여 구별될 수 있다.
서열분석 동작을 특정 SBS 프로토콜과 관련하여 전술하였지만, 임의의 다양한 다른 분자 분석 중 임의의 것을 서열분석하기 위한 다른 프로토콜이 필요에 따라 수행될 수 있음을 이해할 것이다.
이어서, 시스템의 하나 이상의 프로세서는 후속 분석을 위해 서열분석 데이터를 수신한다. 서열분석 데이터는 .BAM 파일과 같이 다양한 방식으로 포맷화될 수 있다. 서열분석 데이터는 예를 들어 다수의 샘플 리드를 포함할 수 있다. 서열분석 데이터는 뉴클레오타이드의 상응하는 샘플 서열을 갖는 복수의 샘플 리드를 포함할 수 있다. 하나의 샘플 리드만이 설명되고 있지만, 서열분석 데이터는 예를 들어 수백, 수천, 수십만 또는 수백만개의 샘플 리드를 포함할 수 있음을 이해해야 한다. 상이한 샘플 리드는 상이한 수의 뉴클레오타이드를 가질 수 있다. 예를 들어, 샘플 리드는 10개의 뉴클레오타이드 내지 약 500개의 뉴클레오타이드 이상의 범위에 있을 수 있다. 샘플 리드들은 공급원(들)의 전체 게놈에 걸쳐 이어질 수 있다. 일례로, 샘플 리드 값은, STR이 의심되거나 SNP가 의심되는 그러한 유전자 좌위와 같은 미리 정해진 유전자 좌위에 관한 것이다.
각각의 샘플 리드는, 샘플 서열, 샘플 분획물, 또는 표적 서열이라고 칭할 수 있는 뉴클레오타이드들의 서열을 포함할 수 있다. 샘플 서열은, 예를 들어, 프라이머 서열, 측면 서열, 및 표적 서열을 포함할 수 있다. 샘플 서열 내의 뉴클레오타이드의 수는 30, 40, 50, 60, 70, 80, 90, 100 이상을 포함할 수 있다. 일부 구현예에서, 하나 이상의 샘플 리드(또는 샘플 서열)는, 적어도 150개의 뉴클레오타이드, 200개의 뉴클레오타이드, 300개의 뉴클레오타이드, 400개의 뉴클레오타이드, 500개의 뉴클레오타이드 이상을 포함한다. 일부 구현예에서, 샘플 리드는 1000개를 초과하는 뉴클레오타이드, 2000개 이상의 뉴클레오타이드를 포함할 수 있다. 샘플 리드(또는 샘플 서열)는 한쪽 또는 양쪽 말단에 프라이머 서열을 포함할 수 있다.
다음에, 하나 이상의 프로세서는 서열분석 데이터를 분석하여 잠재적 변이체 콜(들) 및 샘플 변이체 콜(들)의 샘플 변이체 빈도를 취득한다. 상기 동작은, 또한, 변이체 콜 애플리케이션 또는 변이체 콜러라고 칭할 수 있다. 따라서, 변이체 콜러는 변이체를 식별 또는 검출하고, 변이체 분류자는 검출된 변이체를 체세포 또는 생식세포로서 분류한다, 대안의 변이체 콜러는 본원의 구현예에 따라 이용될 수 있고, 여기서 상이한 변이체 콜러들은, 관심 샘플의 피처 등에 기초하여 수행되는 서열분석 동작의 유형에 기초하여 사용될 수 있다. 변이체 콜 애플리케이션의 비제한적인 일례는, https://github.com/Illumina/Pisces에 호스팅되고 문헌[Dunn, Tamsen & Berry, Gwenn & Emig-Agius, Dorothea & Jiang, Yu & Iyer, Anita & Udar, Nitin & Strφmberg, Michael. (2017). Pisces: An Accurate and Versatile Single Sample Somatic and Germline Variant Caller. 595-595. 10.1145/3107411.3108203]에 개시된 일루미나사(캘리포니아주 샌디에이고 소재)에 의한 Pisees™이 있으며, 이 문헌의 완전한 주제 전문은 명백하게 본 명세서에 참고로 원용된다.
이러한 변이체 콜 애플리케이션은 다음과 같이 4개의 순차적으로 실행되는 모듈을 포함할 수 있다.
(1) 파이시즈 리드 스티치(Pisces Read Stitcher): BAM(동일한 분자의 리드 1과 리드 2)의 페어드 리드들을 컨센서스 리드로 스티칭함으로써 노이즈를 감소시킨다. 출력은 스티칭된 BAM이다.
(2) 파이시즈 변이체 콜러(Pisces Variant Caller): 작은 SNV, 삽입, 및 삭제를 콜링한다. 파이시즈는, 리드 경계, 기본 필터링 알고리즘, 및 간단한 푸아송 기반 변이체 신뢰도 점수매김 알고리즘에 의해 분해된 변이체들을 병합하는 변이체 허탈 알고리즘을 포함한다. 출력은 VCF이다.
(3) 파이시즈 변이체 품질 재교정기(Pisces Variant Quality Recalibrator; VQR): 변이체 콜이 열적 손상 또는 FFPE 탈아민에 연관된 패턴을 압도적으로 추종하는 경우, VQR 단계는 의심되는 변이체 콜의 변이체 Q 점수를 다운그레이드한다. 출력은 조정된 VCF이다.
(4) 파이시즈 변이체 위상기(Pisces Variant Phase)(Scylla): 리드-백 그리디(read-backed greedy) 클러스터링 방법을 사용하여 작은 변이체들을 클론 하위모집단의 복잡한 대립유전자들로 조립한다. 이를 통해 하향 툴에 의한 기능적 결과를 더욱 정확하게 결정할 수 있다. 출력은 조정된 VCF이다.
부가적으로 또는 대안적으로, 동작은, https://github.com/Illumina/strelka에 호스팅되고 문헌[T Saunders, Christopher & Wong, Wendy & Swamy, Sajani & Becq, Jennifer & J Murray, Lisa & Cheetham, Keira. (2012). Strelka: Accurate somatic small-variant calling from sequenced tumor-normal sample pairs. Bioinformatics (Oxford, England). 28. 1811-7. 10.1093/bioinformatics/bts271]에 개시된 일루미나사에 의한 변이체 콜 애플리케이션 StrelkaTM을 이용할 수 있으며, 이러한 문헌의 주제 전문은, 명백하게 본 명세서에 참고로 원용된다. 게다가, 부가적으로 또는 대안적으로, 동작은, https://github.com/Illumina/strelka에 호스팅되고 문헌[Kim, S., Scheffler, K., Halpern, A.L., Bekritsky, M.A., Noh, E.,, M., Chen, X., Beyter, D., Krusche, P., and Saunders, C.T. (2017). Strelka2: Fast and accurate variant calling for clinical sequencing applications]에 개시된 일루미나사에 의한 변이체 콜 애플리케이션 Strelka2™을 이용할 수 있으며, 이러한 문헌의 주제 전문은, 명백하게 본 명세서에 참고로 원용된다. 게다가, 부가적으로 또는 대안적으로, 동작은, https://github.com/Illumina/Nirvana/wiki에 호스팅되고 문헌[Stromberg, Michael & Roy, Rajat & Lajugie, Julien & Jiang, Yu & Li, Haochen & Margulies, Elliott. (2017). Nirvana: Clinical Grade Variant Annotator. 596-596. 10.1145/3107411.3108204]에 개시된 일루미나사에 의한 변이체 주석/콜 툴 NirvanaTM을 이용할 수 있으며, 이러한 문헌의 주제 전문은, 명백하게 본 명세서에 참고로 원용된다.
이러한 변이체 주석/콜 툴은, 아래와 같이 Nirvana에 개시된 알고리즘 기술 등의 상이한 알고리즘 기술을 적용할 수 있다.
a. 간격 어레이를 사용하여 중복되는 모든 전사를 식별: 기능적 주석의 경우, 변이체와 중복되는 모든 전사를 식별할 수 있고 간격 트리를 사용할 수 있다. 그러나, 일련의 간격은 정적일 수 있으므로, 이를 간격 어레이에 추가로 최적화할 수 있었다. 간격 트리는 O(min(n, k lg n)) 시간으로 모든 중복되는 전사를 리턴하며, 여기서, n은 트리의 간격의 수이고, k는 중복되는 간격의 수이다. 실제로, k는 대부분의 변이체에 대한 n에 비해 실제로 작기 때문에, 간격 트리의 유효 런타임은 O(k lg n)이다. 제1 중복 간격만 찾으면 되고 이어서 남아 있는 (k-1)개를 통해 열거 처리하도록 모든 간격이 정렬된 어레이로 저장되는 간격 어레이를 생성함으로써 O(lg n + k)으로 개선하였다.
b. CNV/SV (Yu): 카피 수 변이 및 구조 변이체에 대한 주석을 제공할 수 있다. 작은 변이체의 주석과 유사하게, sv 및 또한 이전에 보고된 구조 변이체와 중복되는 전사체는 온라인 데이터베이스에서 주석 표시될 수 있다. 작은 변이체와는 달리, 너무 많은 전사체가 큰 sv와 중복되므로 모든 중복되는 전사체에 주석을 달 필요는 없다. 대신, 부분 중첩 유전자에 속하는 모든 중복되는 전사체에 주석을 달 수 있다. 구체적으로, 이들 전사체에 대해, 영향을 받은 인트론, 엑손, 및 구조 변이체에 의해 야기된 결과가 보고될 수 있다. 모든 중복 전사체를 출력할 수 있는 옵션을 사용할 수 있지만, 유전자 심볼, 전사체와 정규적으로 중복되는지 또는 부분적으로 중복되는지의 플래그 등의 이러한 전사체에 대한 기본 정보를 보고할 수 있다. 각각의 SV/CNV에 대해, 이들 변이체 및 해당 빈도가 다른 모집단에서 연구되었는지를 아는 것도 중요하다. 따라서, 1000개의 게놈, DGV, 및 ClinGen과 같이 외부 데이터베이스에서 중복되는 sv를 보고하였다. 어떤 sv가 중복되는지를 결정하도록 임의의 컷오프를 사용하는 것을 피하기 위해, 대신에 모든 중복되는 전사체를 사용할 수 있고 상호 중복을 계산할 수 있으며, 즉, 중복되는 길이를 이들 두 개의 sv의 길이의 최소값으로 나눌 수 있다.
c. 보충 주석 보고: 보충 주석은 소형 및 구조 변이체(SV)의 두 가지 유형이 있다. SV는, 간격으로서 모델링될 수 있으며, 전술한 간격 어레이를 사용하여 중복되는 SV를 식별할 수 있다. 소형 변이체는 점으로서 모델링되며 위치 및 (선택적으로) 대립유전자에 의해 일치된다. 이처럼, 이들은 이진-검색-유사 알고리즘을 사용하여 검색된다. 보충 주석 데이터베이스는 상당히 클 수 있으므로, 염색체 위치를 보충 주석이 상주하는 파일 위치에 맵핑하기 위해 훨씬 작은 인덱스가 생성된다. 인덱스는, 위치를 사용하여 이진 검색될 수 있는 (염색체 위치와 파일 위치로 구성된) 객체들의 정렬된 어레이이다. 인덱스 크기를 작게 유지하기 위해, (최대 특정 개수의) 다수의 위치가, 제1 위치에 대한 값과 후속 위치에 대한 델타만을 저장하는 하나의 객체로 압축된다. 이진 검색을 사용하므로, 런타임은 O(lg n)이며, 여기서 n은 데이터베이스의 항목 수이다.
d. VEP 캐시 파일
e. 전사 데이터베이스: 전사 캐시(캐시) 및 보충 데이터베이스(SAdb) 파일은 전사 및 보충 주석과 같은 데이터 객체들의 직렬화된 덤프이다. Ensembl VEP 캐시를 캐시를 위한 데이터소스로서 사용한다. 캐시를 생성하기 위해, 모든 전사체가 간격 어레이에 삽입되고, 어레이의 최종 상태가 캐시 파일에 저장된다. 따라서, 주석 표시 중에는, 미리 연산된 간격 어레이를 로딩하고 이에 대한 검색을 수행하면 된다. (전술한 바와 같이) 캐시가 메모리에 로딩되고 검색이 매우 빠르므로, Nirvana에서 중복되는 전사체를 찾는 것이 매우 빠르다(총 런타임의 1% 미만으로 프로파일되었는가?).
f. 보충 데이터베이스: SAdb용 데이터 공급원들은 보충 자료에서 열거되어 있다. 소형 변이체에 대한 SAdb는, (참조명과 위치에 의해 식별되는) 데이터베이스의 각 객체가 모든 관련된 보충 주석을 보유하도록 모든 데이터 공급원의 k-way 병합에 의해 생성된다. 데이터 소스 파일을 구문 분석하는 동안 발생하는 문제는 Nirvana의 홈페이지에 자세히 설명되어 있다. 메모리 사용을 제한하기 위해, SA 인덱스만이 메모리에 로딩된다. 이 인덱스에 의해, 보충 주석에 대한 파일 위치를 빠르게 찾을 수 있다. 그러나, 데이터를 디스크에서 가져와야 하므로, 보충 주석 추가는 Nirvana의 최대 병목 현상(전체 런타임의 ~30%로 프로파일링됨)으로서 식별되었다.
g. 결과 및 서열 온톨로지: Nirvana의 기능 주석(제공된 경우)은 서열 온톨로지(SO)(http://www.sequenceontology.org/) 지침을 따른다. 경우에 따라, 현재 SO에서 문제를 식별하고 SO 팀과 협력하여 주석 상태를 개선할 수 있는 기회가 있었다.
이러한 변이체 주석 툴은 전처리를 포함할 수 있다. 예를 들어, Nirvana에는, ExAC, EVS, 1000 게놈 프로젝트, dbSNP, ClinVar, Cosmic, DGV, 및 ClinGen과 같은 외부 데이터 공급원의 많은 주석이 포함되었다. 이러한 데이터베이스를 최대한 활용하려면, 데이터베이스로부터 정보를 삭제해야 한다. 상이한 데이터 공급원들로부터 발생하는 상이한 충돌들을 처리하기 위해 상이한 전략을 구현하였다. 예를 들어, 동일한 위치와 대체 대립유전자에 대해 다수의 dbSNP 엔트리가 있는 경우, 모든 ID를 쉼표로 구분된 ID 목록에 입력하고, 동일한 대립유전자에 대해 상이한 CAF 값들을 가진 다수의 엔트리가 있는 경우, 제1 CAF 값을 사용한다. ExAC 엔트리와 EVS 엔트리가 충돌하는 경우, 샘플 카운트의 수를 고려하고, 샘플 카운트가 높은 엔트리를 사용한다. 1000개의 게놈 프로젝트에서, 충돌 대립유전자의 대립유전자 빈도를 제거하였다. 또 다른 문제는 부정확한 정보이다. 주로 1000개의 게놈 프로젝트로부터 대립 유전자 빈도 정보를 추출했지만, GRCh38의 경우, 정보 필드에 보고된 대립유전자 빈도가 유전자형을 사용할 수 없는 샘플을 배제하지 않아서, 모든 샘플에 대하여 사용할 수 없는 변이체의 빈도가 감소된다는 점에 주목하였다. 주석의 정확성을 보장하기 위해, 모든 개별 수준 유전자형을 사용하여 실제 대립유전자 빈도를 연산한다. 알려져 있듯이, 동일한 변이체들은 상이한 정렬들에 기초하여 상이한 표현들을 가질 수 있다. 이미 식별된 변이체에 대한 정보를 정확하게 보고할 수 있으려면, 다른 자원들로부터의 변이체를 전처리하여 일관성 있는 표현을 유지해야 한다. 모든 외부 데이터 공급원에 대해, 대립유전자를 트리밍하여 참조 대립유전자와 대체 대립유전자 모두에서 중복된 뉴클레오타이드를 제거하였다. ClinVar의 경우, 모든 변이체에 대해 5-프라임 정렬을 수행한 xml 파일을 직접 구문 분석하였으며, 이는 종종 vcf 파일에서 사용된다. 다른 데이터베이스에는 정보의 동일한 세트가 포함될 수 있다. 불필요한 중복을 피하기 위해, 일부 중복된 정보를 제거하였다. 예를 들어, 1000개의 게놈에서의 DGV의 변이체가 더욱 자세한 정보와 함께 이미 보고되었으므로, 데이터 공급원을 1000개의 게놈 프로젝트로서 갖는 이러한 변이체를 제거하였다.
적어도 일부 구현예에 따르면, 변이체 콜 애플리케이션은 저 빈도 변이체, 생식세포 콜링 등에 대한 콜을 제공한다. 비제한적인 예로서, 변이체 콜 애플리케이션은 종양 전용 샘플 및/또는 종양-정상 쌍을 이룬 샘플에서 실행될 수 있다. 변이체 콜 애플리케이션은, 단일 뉴클레오타이드 변이(SNV), 다중 뉴클레오타이드 변이(MNV), 인델 등을 검색할 수 있다. 변이체 콜 애플리케이션은, 변이체를 식별하면서 서열분석 또는 샘플 준비 오류로 인한 불일치를 필터링한다. 각각의 변이체에 대해, 변이체 콜러는, 참조 서열, 변이체의 위치 및 잠재적 변이체 서열)(들)(예를 들어, A에서 C SNV로, 또는 AG에서 A 삭제로)을 식별한다. 변이체 콜 애플리케이션은, 샘플 서열(또는 샘플 분획물), 참조 서열/분획물, 및 변이체 콜을 변이체가 존재함을 나타내는 표시로서 식별한다. 변이체 콜 애플리케이션은, 원시 분획물을 식별할 수 있고, 원시 분획물의 지정, 잠재적 변이체 콜을 검증하는 원시 분획물의 수, 지지 변이체가 발생한 원시 분획물 내의 위치, 및 기타 관련 정보를 출력할 수 있다. 원시 분획물의 비제한적인 예로는, 이중 스티치 분획물, 단일 스티치 분획물, 이중 언스티치 분획물, 및 단순한 언스티치 분획물을 포함한다.
변이체 콜 애플리케이션은, .VCF 또는 .GVCF 파일과 같은 다양한 형식으로 콜을 출력할 수 있다. 단지 예로서, 변이체 콜 애플리케이션은 (예를 들어, MiSeq174; 서열분석기 기기 상에 구현될 때) MiSeqReporter 파이프라인에 포함될 수 있다. 선택적으로, 이 애플리케이션은 다양한 워크플로우로 구현될 수 있다. 분석은, 원하는 정보를 취득하도록 지정된 방식으로 샘플 리드를 분석하는 단일 프로토콜 또는 프로토콜들의 조합을 포함할 수 있다.
이어서, 하나 이상의 프로세서는 잠재적 변이체 콜과 관련하여 유효성확인 동작을 수행한다. 유효성확인 동작은 이하에 설명되는 바와 같이 품질 점수 및/또는 계층적 테스트의 층에 기초할 수 있다. 유효성확인 동작이 잠재적 변이체 콜을 인증하거나 검증하면, 유효성확인 동작은 (변이체 콜 애플리케이션으로부터) 변이체 콜 정보를 샘플 보고서 생성기에 전달한다. 대안으로, 유효성확인 동작이 잠재적 변이체 콜을 무효화 또는 실격화하는 경우, 유효성확인 동작은, 대응하는 표시(예를 들어, 음성 표시기, 무 콜 표시기, 무효 콜 표시기)를 샘플 보고서 생성기에 전달한다. 유효성확인 동작은, 또한, 변이체 콜이 정확하거나 무효 콜 지정이 정확하다는 신뢰도와 관련된 신뢰도 점수를 전달할 수 있다.
다음에, 하나 이상의 프로세서는 샘플 보고서를 생성하고 저장한다. 샘플 보고서는, 예를 들어, 샘플에 대한 복수의 유전자 좌위에 관한 정보를 포함할 수 있다. 예를 들어, 미리 결정된 유전자 좌위의 세트의 각각의 유전자 좌위에 대해, 샘플 보고서는, 유전자형 콜을 제공하는 것, 유전자형 콜을 할 수 없음을 나타내는 것, 유전자형 콜의 확실성에 대한 신뢰 점수를 제공하는 것, 또는 하나 이상의 유전자 좌위에 관한 분석법의 잠재적 문제를 나타내는 것 중 적어도 하나일 수 있다. 샘플 보고서는, 또한, 샘플을 제공한 개인의 성별을 나타낼 수 있고 및/또는 샘플이 다수의 공급원을 포함함을 나타낼 수 있다. 본 명세서에서 사용되는 바와 같이, "샘플 보고서"는, 유전자 좌위의 디지털 데이터(예를 들어, 데이터 파일) 또는 유전자 좌위의 미리 결정된 세트 및/또는 유전자 좌위 또는 유전자 좌위의 세트의 인쇄된 보고서를 나타낼 수 있다. 따라서, 생성 또는 제공은, 데이터 파일의 생성 및/또는 샘플 보고서의 인쇄, 또는 샘플 보고서의 표시를 포함할 수 있다.
샘플 보고서는, 변이체 콜이 결정되었지만 유효성확인되지 않았음을 나타낼 수 있다. 변이체 콜이 무효한 것으로 결정되면, 샘플 보고서는 변이체 콜을 유효성확인하지 않는 결정의 근거에 관한 추가 정보를 나타낼 수 있다. 예를 들어, 보고서의 추가 정보는, 원시 분획물의 설명 및 원시 분획물이 변이체 콜을 지지하거나 반박하는 정도(예를 들어, 카운트)를 포함할 수 있다. 부가적으로 또는 대안적으로, 보고서의 추가 정보는 본 명세서에서 설명되는 구현예에 따라 취득된 품질 점수를 포함할 수 있다.
변이체 콜 애플리케이션
본 명세서에 개시된 구현예들은 잠재적 변이체 콜을 식별하기 위해 서열분석 데이터를 분석하는 것을 포함한다. 변이체 콜링은 이전에 수행된 서열분석 동작을 위해 저장된 데이터에 대해 수행될 수 있다. 부가적으로 또는 대안적으로, 이것은 서열분석 동작이 수행되는 동안 실시간으로 수행될 수 있다. 각각의 샘플 리드 값은 상응하는 유전자 좌위에 할당된다. 샘플 리드는, 샘플 리드의 뉴클레오타이드의 서열, 즉, 샘플 리드 내의 뉴클레오타이드의 서열(예를 들어, A, C, G, T)에 기초하여 대응하는 유전자 좌위에 할당될 수 있다. 이 분석에 기초하여, 샘플 리드는, 특정 유전자 좌위의 가능한 변이체/대립유전자를 포함하는 것으로서 지정될 수 있다. 샘플 리드는, 유전자 좌위의 가능한 변이체/대립유전자를 포함하는 것으로서 지정된 다른 샘플 리드와 함께 수집(또는 집계 또는 비닝)될 수 있다. 할당 동작은, 또한, 샘플 리드가 특정 유전자 위치/좌위에 연관될 수 있는 것으로서 식별되는 콜링 동작이라고 칭할 수 있다. 샘플 리드는, 샘플 리드를 다른 샘플 리드로부터 구별하는 뉴클레오타이드의 하나 이상의 식별 서열(예를 들어, 프라이머 서열)을 위치시키기 위해 분석될 수 있다. 보다 구체적으로, 식별 서열(들)은 다른 샘플 리드로부터의 샘플 리드를 특정 유전자 좌위에 연관된 것으로서 식별할 수 있다.
할당 동작은, 식별 서열의 일련의 n개의 뉴클레오타이드를 분석하여 식별 서열의 일련의 n개의 뉴클레오타이드가 하나 이상의 선택 서열과 효과적으로 일치하는지를 결정하는 것을 포함할 수 있다. 특정 구현예에서, 할당 동작은, 샘플 서열의 제1 n개의 뉴클레오타이드를 분석하여 샘플 서열의 제1 n개의 뉴클레오타이드가 하나 이상의 선택 서열과 효과적으로 일치하는지를 결정하는 것을 포함할 수 있다. 수 n은, 다양한 값을 가질 수 있으며, 프로토콜로 프로그래밍될 수 있거나 사용자에 의해 입력될 수 있다. 예를 들어, 수 n은 데이터베이스 내에서 가장 짧은 선택 서열의 뉴클레오타이드의 수로서 정의될 수 있다. 수 n은 미리 결정된 수일 수 있다. 미리 결정된 수는, 예를 들어, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 또는 30개의 뉴클레오타이드일 수 있다. 그러나, 다른 구현예에서는 더 적거나 더 많은 뉴클레오타이드가 사용될 수 있다. 수 n은, 또한, 시스템의 사용자와 같은 개인에 의해 선택될 수 있다. 수 n은 하나 이상의 조건에 기초할 수 있다. 예를 들어, 수 n은 데이터베이스 내에서 가장 짧은 프라이머 서열의 뉴클레오타이드의 수 또는 지정된 수 중 작은 수로서 정의될 수 있다. 일부 구현예에서, 15개 미만의 임의의 프라이머 서열이 예외로 지정될 수 있도록, 15와 같은 n에 대한 최소값이 사용될 수 있다.
일부 경우에, 식별 서열의 일련의 n개의 뉴클레오타이드는 선택 서열의 뉴클레오타이드와 정확하게 일치하지 않을 수 있다. 그럼에도 불구하고, 식별 서열이 선택 서열과 거의 동일한 경우 식별 서열이 선택 서열과 효과적으로 일치될 수 있다. 예를 들어, 식별 서열의 일련의 n개의 뉴클레오타이드(예를 들어, 제1 n개의 뉴클레오타이드)가 불일치의 지정된 수(예를 들어, 3) 이하 및/또는 시프트의 지정된 수(예를 들어, 2)를 갖는 선택 서열과 일치하는 경우, 유전자 좌위에 대하여 샘플 리드가 콜링될 수 있다. 각각의 불일치 또는 시프트가 샘플 리드와 프라이머 서열 간의 차로서 계수될 수 있도록 규칙이 확립될 수 있다. 차의 수가 지정된 수보다 작으면, 상응하는 유전자 좌위(즉, 상응하는 유전자 좌위에 할당됨)에 대해 샘플 리드가 콜링될 수 있다. 일부 구현예에서, 샘플 리드의 식별 서열과 유전 로커에 연관된 선택 서열 간의 차의 수에 기초하여 일치 점수가 결정될 수 있다. 일치 점수가 지정된 일치 임계값을 통과하면, 선택 서열에 대응하는 유전자 좌위가 샘플 리드를 위한 잠재적 좌위로서 지정될 수 있다. 일부 구현예에서는, 샘플 리드가 유전자 좌위에 대해 콜되는지를 결정하기 위해 후속 분석이 수행될 수 있다.
샘플 리드가 데이터베이스에서의 선택 서열들 중 하나와 효과적으로 일치하는 경우(즉, 전술한 바와 같이 정확히 일치하거나 거의 일치하는 경우), 샘플 리드는 선택 서열과 상관되는 유전자 좌위에 할당되거나 지정된다. 이것은 유전자 좌위 콜링 또는 잠정적-좌위 콜링이라고 칭할 수 있으며, 여기서 샘플 리드는 선택 서열과 상관되는 유전자 좌위에 대하여 콜링된다. 그러나, 전술한 바와 같이, 샘플 리드는 하나보다 많은 유전자 좌위에 대하여 콜링될 수 있다. 이러한 구현예에서, 잠재적 유전자 좌위들 중 하나에 대해서만 샘플 리드를 콜하거나 할당하도록 추가 분석이 수행될 수 있다. 일부 구현예에서, 참조 서열들의 데이터베이스와 비교되는 샘플 리드는 페어드-엔드 서열분석으로부터의 제1 리드이다. 페어드-엔드 서열분석을 수행할 때, 샘플 리드와 상관되는 제2 리드(원시 분획물을 나타냄)가 취득된다. 할당 후, 할당된 리드로 수행되는 후속 분석은, 할당된 리드를 위해 콜된 유전자 좌위의 유형에 기초할 수 있다.
다음에, 잠재적 변이체 콜을 식별하도록 샘플 리드가 분석된다. 무엇보다도, 분석 결과는, 잠재적 변이체 콜, 샘플 변이체 빈도, 참조 서열, 및 변이체가 발생한 게놈 서열 내의 위치를 식별한다. 예를 들어, 유전자 좌위가 SNP를 포함하는 것으로 알려진 경우, 유전자 좌위를 콜된 할당된 리드는 할당된 리드의 SNP를 식별하도록 분석을 거칠 수 있다. 유전자 좌위가 다형성 반복 DNA 요소를 포함하는 것으로 알려진 경우, 할당된 리드는 샘플 리드 내의 다형성 반복 DNA 요소를 식별하거나 특성화하도록 분석될 수 있다. 일부 구현예에서, 할당된 리드가 STR 좌위 및 SNP 좌위와 효과적으로 일치하면, 경고 또는 플래그가 샘플 리드에 할당될 수 있다. 샘플 리드는 STR 유전자 좌위와 SNP 좌위 모두로서 지정될 수 있다. 분석은, 할당된 리드의 서열 및/또는 길이를 결정하기 위해 정렬 프로토콜에 따라 할당된 리드들을 정렬하는 것을 포함할 수 있다. 정렬 프로토콜은, 2013년 3월 15일자로 출원된 국제 특허 출원 번호 PCT/US2013/030867(공개번호 WO 2014/142831)에 기술된 방법을 포함할 수 있으며, 이 문헌의 전문은 본 명세서에 참고로 원용된다.
이어서, 하나 이상의 프로세서는, 원시 분획물을 분석하여 원시 분획물 내의 해당 위치에 지지 변이체가 존재하는지를 결정한다. 다양한 종류의 원시 분획물이 식별될 수 있다. 예를 들어, 변이체 콜러는, 초기 변이체 콜러를 유효성확인하는 변이체를 나타내는 원시 분획물의 유형을 식별할 수 있다. 예를 들어, 원시 분획물의 유형은, 이중 스티치 분획물, 단일 스티치 분획물, 이중 언스티치 분획물, 또는 단일 언스티치 분획물 나타낼 수 있다. 선택적으로, 전술한 예 대신 또는 추가로 다른 원시 분획물을 식별할 수 있다. 각 원시 분획물의 유형을 식별하는 것과 관련하여, 변이체 콜러는, 또한, 지지 변이체를 나타낸 원시 분획물 수의 카운트뿐만 아니라 지지 변이체가 발생한 원시 분획물 내의 위치도 식별한다. 예를 들어, 변이체 콜러는, 특정 위치 X에서 지지 변이체를 갖는 이중 스티치 분획물을 나타내도록 10개의 원시 분획물이 식별되었다는 표시를 출력할 수 있다. 변이체 콜러는, 또한, 특정 위치 Y에서 지지 변이체를 갖는 단일 언스티치 분획물을 나타내도록 원시 분획물의 5개 리드가 식별되었음을 출력할 수 있다. 변이체 콜러는, 또한, 참조 서열에 대응한 많은 원시 분획물을 출력할 수 있으므로, 다른 경우엔 관심 게놈 서열에서 잠재적 변이체 콜을 유효성확인하는 증거를 제공하는 지지 변이체를 포함하지 않았다.
이어서, 지지 변이체가 발생한 위치뿐만 아니라 지지 변이체를 포함하는 원시 분획물의 카운트를 유지한다. 부가적으로 또는 대안적으로, (샘플 리드 또는 샘플 분획물의 잠재적 변이체 콜의 위치에 관한) 관심 위치에서 지지 변이체를 포함하지 않은 원시 분획물의 카운트를 유지할 수 있다. 부가적으로 또는 대안적으로, 참조 서열에 대응하고 잠재적 변이체 콜을 인증 또는 확인하지 않는 원시 분획물의 카운트를 유지할 수 있다. 결정된 정보는, 잠재적 변이체 콜을 지지하는 원시 분획물의 카운트와 유형, 원시 분획물의 지지 분산의 위치, 잠재적 변이체 콜을 지지하지 않는 원시 분획물의 수 등을 포함하여 변이체 콜 유효성확인 애플리케이션으로 출력된다.
잠재적 변이체 콜이 식별되면, 프로세스는 잠재적 변이체 콜, 변이체 서열, 변이체 위치, 및 이에 연관된 참조 서열을 나타내는 표시를 출력한다. 변이체 콜은, 에러로 인해 콜 프로세스가 거짓 변이체를 식별할 수 있으므로 "잠재적" 변이체를 나타내도록 지정된다. 본원의 구현예에 따라, 잠재적 변이체 콜을 분석하여 거짓 변이체 또는 위양성을 감소 및 제거한다. 부가적으로 또는 대안적으로, 이 프로세스는, 샘플 리드에 연관된 하나 이상의 원시 분획물을 분석하고 원시 분획물에 연관된 해당 변이체 콜을 출력한다.
데이터 구조
데이터베이스(124)는 체세포 또는 생식세포로 아직 분류되지 않은 변이체들을 포함한다. 이러한 변이체는, 서열분석 프로세스 및 전술한 변이체 주석/콜 애플리케이션에 의해 검출된다. 변이체들을 잇는 DNA 세그먼트는 종양 샘플 또는 종양-정상 쌍 샘플로부터 유도될 수 있다. 변이체는 단일 뉴클레오타이드 다형성(SNP), 삽입, 또는 결손일 수 있다. 변이체는, 또한, 암 게놈 아틀라스(The Cancer Genome Atlas: TCGA), 국제 암 게놈 컨소시엄(International Cancer Genome Consortium: ICGC), 짧은 유전자 변이체들의 데이터베이스(database of short genetic variants: dbSNP), 암의 체세포 돌연변이의 카탈로그(Catalog of Somatic Mutations in Cancer: COSMIC), 1000 게놈 프로젝트(1000 Genomes Project: 1000Genomes), 엑솜 어그리게이션 컨소시엄(Exome Aggregation Consortium: ExAC), 엑솜 변이체 서버(Exome Variant Server: EVS)와 같이 공개적으로 이용 가능한 데이터베이스로부터 크롤링(crawl)될 수 있다. 변이체는, 데이터베이스(124)에 추가되기 전에, 암 연관성, 암 유형(예를 들어, 폐 선암(LUAD), 변이체 대립유전자 빈도(VAF), 및 코딩 영역(엑손/인트론)) 등의 기준에 기초하여 필터링될 수 있다.
데이터베이스(102)는 변이체를 포함하는 DNA 세그먼트의 원-핫 인코딩인 입력 서열을 포함한다. 도 2는, 표적 위치에서 상류(왼쪽) 염기와 하류(오른쪽) 염기가 측접된 변이체를 갖는 예시적인 입력 서열(200)을 도시한다. 도 3은 입력 서열을 인코딩하는 데 사용되는 원-핫 인코딩 기법(300)을 도시한다. 하기 것은, DNA 세그먼트를 인코딩하는 데 사용되는 원-핫 인코딩 기법(A, G, C, T, N)의 일례이다(A = (1 0 0 0 0), G = (0 1 0 0 0), C = (0 0 1 0 0), T = (0 0 0 1 0), 및 N = (0 0 0 0 1)). 각각의 입력 서열은, 바람직하게 서열의 중심(표적 위치)에 위치하는 적어도 하나의 변이체를 포함한다. 입력 서열은, 10개의 하류 및 상류 염기가 측접된 변이체를 갖는 21개의 염기 길이일 수 있고, 또는, 20개의 하류 및 상류 염기가 측접된 변이체를 갖는 41개의 염기 길이일 수도 있다. 다양한 길이의 입력 서열이 구성될 수 있다는 점을 이해할 것이다. 자연 발생 DNA에 기초하는 것과는 대조적으로, 입력 서열은, 데이터베이스(124)로부터 변이체를 선택하고 이러한 변이체의 양측에 랜덤하게 생성된 하류 및 상류 염기들을 배치함으로써 시뮬레이션될 수 있다.
데이터 상관 모델
도 4는, 데이터베이스(124) 내의 각각의 분류되지 않은 변이체를 각각의 돌연변이 특성 값, 리드 맵핑 통계, 및 발생 빈도와 상관짓는 메타데이터 상관기(116)의 일 구현예를 도시한다. 구현 시, 메타데이터 상관기(116)는, 하나 이상의 인종 검출 애플리케이션과 함께 전술한 Nirvana™ 임상급 변이체 주석 애플리케이션을 포함한다. 메타데이터 상관기(116)는 데이터베이스(126)에 저장된 소위 메타데이터 피처의 상관을 인코딩한다. 상관(400)은, 변이체 단위로 수행되며, 데이터베이스(402, 412 및 422)에서의 특정 변이체의 속성을 식별하고 발견된 속성을 변이체와 연관짓거나/링크하거나/첨부하는 것을 포함한다.
데이터베이스(402)는, 변이체의 돌연변이 특성을 포함하는데, 예컨대, 변이체가 SNP, 삽입, 또는 결손인지; 변이체가 비동의성(nonsynonymous)인지 아닌지; 변이체가 돌연변이시킨 참조 서열의 염기(들)가 무엇인지; 임상 테스트(예를 들어, 임상 효과, 약물 민감성, 및 조직적합성)으로부터 결정된 바와 같이 변이체의 임상적 유의성이 무엇인지; 다수의 종(예를 들어, 포유류, 조류)에 걸친 변이체 위치의 진화 보존; 변이체에 연관된 종양 샘플을 제공한 개체의 인종적 메이크업이 무엇인지; 및 생성되는 단백질에 대한 변이체의 기능적 영향이 무엇인지를 포함한다. 데이터베이스(402)는, ClinVar, 다형성 표현형(Polymorphism Phenotyping; PolyPhen), Sorting Intolerant from Tolerant(SIFT), 및 phylop과 같은 하나 이상의 공개적으로 이용 가능한 데이터베이스와 도구를 나타낸다. 데이터베이스(402)는, 또한, 서열분석 프로세스 및 전술한 변이체 주석/콜 애플리케이션(예를 들어, .BAM 파일, .VCF 또는 .GVCF 파일, 샘플 보고서, 및/또는 카운트)로부터의 데이터에 의해 채워질 수 있다. 예를 들어, 변이체가 SNP인지, 삽입 또는 결손인지 및 변이체가 비동의성인지 아닌지는, 일 구현예에 따라 .VCF 파일로부터 결정된다.
데이터베이스(412)는, 변이체 대립유전자 빈도(VAF), 리드 깊이, 염기 콜 품질 점수(Q 점수), 변이체 리드(변이체 리드 수), 변이체 품질 점수(QUAL), 맵핑 품질 점수(mapping quality score), 피셔 가닥 편향 등의 변이체의 리드 맵핑 통계를 포함한다. 데이터베이스(412)는, 서열분석 프로세스 및 전술한 변이체 주석/콜 애플리케이션(예를 들어, .BAM 파일, .VCF 또는 .GVCF 파일, 샘플 보고서, 및/또는 카운트)으로부터의 데이터에 의해 채워진다.
데이터베이스(422)는, 서열분석된 모집단에서 변이체의 대립유전자 빈도, 서열분석된 모집단으로부터 계층화된 인종 하위 집단에서의 변이체의 대립유전자 빈도, 변이체 서열분석된 암성 종양의 빈도 등의 변이체의 발생 빈도를 포함한다. 데이터베이스(422)는, 짧은 유전자 변이체들의 데이터베이스(dbSNP), 1000 게놈 프로젝트(1000Genomes), 엑솜 응집 컨소시엄(ExAC), 엑솜 변이체 서버(EVS), 게놈 응집 데이터베이스(gnomAD), 및 암의 체세포 돌연변이들의 카탈로그(COSMIC)와 같이 공개적으로 이용 가능한 하나 이상의 데이터베이스를 나타낸다. 데이터베이스(422)는, 또한, 서열분석 프로세스 및 전술한 변이체 주석/콜 애플리케이션(예를 들어, .BAM 파일, .VCF 또는 .GVCF 파일, 샘플 보고서, 및/또는 카운트)으로부터의 데이터에 의해 채워질 수 있다.
메타데이터 샘플
하기 것은 메타데이터 상관기(116)에 의해 생성된 메타데이터 피처들 A 내지 Q의 2개의 샘플이다. 전술한 바와 같이, 일부 메타데이터 피처는 원-핫 또는 불린 값과 같은 카테고리형 데이터를 사용하여 인코딩되는 반면, 다른 메타데이터는 백분율 및 확률 값과 같은 연속 데이터를 사용하여 인코딩된다. 구현 시, 메타데이터 피처들의 서브세트만이 변이체 콜러에 대한 입력으로서 제공된다. 예를 들어, 일부 구현예에서, 염색체 피처, 참조 서열 피처, 및 좌표 위치 피처는, 입력으로서 제공되는 메타데이터 피처에 포함되지 않는다.
제1 샘플
A. 명칭: 염색체 피처
설명: 변이체를 잇는 DNA 세그먼트가 발생하는 염색체를 특정한다.
유형: 돌연변이 특성
1. chr chr1
B. 명칭: 참조 서열 피처
설명: 변이체에 의해 돌연변이된 참조 서열을 특정한다.
유형: 돌연변이 특성
1. ref C
C. 명칭: 좌표 위치 피처
설명: 염색체 상의 변이체의 좌표 위치를 특정한다.
유형: 돌연변이 특성
1. pos 11205058
D. 명칭: 대체 대립유전자 피처
설명: 참조 서열의 표적 위치에 있는 변이체에 의해 돌연변이된 적어도 하나의 염기를 특정한다.
유형: 돌연변이 특성
1. alt_A -1.0
2. alt_C -1.0
3. alt_G -1.0
4. alt_T 1.0
5. alt_Other -1.0
E. 명칭: 변이체 대립유전자 빈도 피처
설명: 변이체의 변이체 대립유전자 빈도(VAF)를 특정한다.
유형: 리드 맵핑 통계
1. VAF 1.0
F. 명칭: 리드 깊이 피처
설명: 변이체의 리드 깊이를 특정한다.
유형: 리드 맵핑 통계
1. dp 1.07
G. 명칭: 돌연변이형 피처
설명: 변이체가 단일 뉴클레오타이드 변이체(SNV), 삽입, 또는 결손인지를 특정한다.
유형: 돌연변이 특성
1. type_snv 1.0
2. type_insertion -1.0
3. type_deletion -1.0
H. 명칭: 모집단 빈도 피처
설명: 짧은 유전자 변이체들의 데이터베이스(dbSNP), 1000 게놈 프로젝트(1000Genomes), 엑솜 응집 컨소시엄(ExAC), 엑솜 변이체 서버(EVS) 등의 서열분석된 모집단의 변이체의 대립유전자 빈도를 특정한다.
유형: 발생 빈도
1. dbsnp 0.4525
2. oneKg 0.547524
3. exac 0
4. evs 0
I. 명칭: 아미노산 충격 피처
설명: 변이체가 상이한 아미노산을 코딩하는 새로운 코돈을 생성하도록 코돈을 변경하는 비동의 변이체(nonsynonymous variant)인지를 특정한다.
유형: 돌연변이 특성
1. nonsyn_true -1.0
2. nonsyn_false 1.0
J. 명칭: 진화 보존 피처
설명: phylop으로부터 결정되는 바와 같이 다수의 종에 걸친 변이체 위치의 보존성을 특정한다.
유형: 돌연변이 특성
1. phylop 0.078
K. 명칭: 진화 보존 데이터 가용성 피처
설명: 임의의 phylop 데이터가 이용 가능한지를 특정한다.
유형: 돌연변이 특성
1. phylop_NA 1
L. 명칭: 임상 유의성 피처
설명: ClinVar에 제출된 임상 테스트 결과 로부터의 결정되는 바와 같이 변이체의 임상 효과, 약물 민감성, 및 조직적합성을 특정한다.
유형: 돌연변이 특성
1. clinvarSig_drug response -1.0
2. clinvarSig_uncertain significance -1.0
3. clinvarSig_likely pathogenic -1.0
4. clinvarSig_pathogenic -1.0
5. clinvarSig_not provided -1.0
6. clinvarSig_nan 1.0
7. clinvarSig_likely benign -1.0
8. clinvarSig_benign -1.0
9. clinvarSig_other -1.0
M. 명칭: 기능적 충격 피처
설명: 다형성 표현형(PolyPhen)으로부터 결정되는 바와 같이 변이체에 의해 야기된 아미노산 치환으로부터 발생하는 단백질의 기능에 대한 변이체의 충격을 특정한다.
유형: 돌연변이 특성
1. polyPhen_benign -1.0
2. polyPhen_possibly damaging -1.0
3. polyPhen_nan 1.0
4. polyPhen_probably damaging -1.0
5. polyPhen_unknown -1.0
N. 명칭: 기능적 충격 피처
설명: Sorting Intolerant from Tolerant(SIFT)로부터 결정되는 바와 같이 변이체에 의해 야기되는 아미노산 치환으로부터 발생하는 단백질의 기능에 대한 변이체의 충격을 특정한다.
유형: 돌연변이 특성
1. sift_tolerated -1.0
2. sift_deleterious - low confidence -1.0
3. sift_nan 1.0
4. sift_deleterious -1.0
5. sift_tolerated - low confidence -1.0
O. 명칭: 종양 빈도 피처
설명: 암의 체세포 돌연변이의 카탈로그(COSMIC)로부터 결정되는 바와 같이 서열분석된 암성 종양의 변이체의 빈도를 특정한다.
유형: 발생 빈도
1. CNT 2.09217
P. 명칭: 하위 집단 빈도 피처
설명: 게놈 응집 데이터베이스(gnomAD) 데이터베이스로부터 결정되는 바와 같이 서열분석된 모집단으로부터 계층화된 인종 하위 집단의 변이체의 대립유전자 빈도를 특정한다.
유형: 발생 빈도
1. gnomadExomeAf 0.04
2. gnomadExome_afrAf 0.686792
3. gnomadExome_asmrAf 0.14098000000000002
4. gnomadExome_easAf 00.8134640000000001
5. gnomadExome_finAf 0.7214389999999999
6. gnomadExome_nfeAf 0.7409239999999999
7. gnomadExome_asjAf 0.5827749999999999
8. gnomadExome_sasAf 0.654254
9. gnomadExome_othAf 0.684902
10. gnomadAf 0.5688719999999999
11. gnomad_afrAf 0.15348399999999998
12. gnomad_asmrAf 0
13. gnomad_easAf 0.8003709999999999
14. gnomad_finAf 0.709336
15. gnomad_nfeAf 0.737876
16. gnomad_asjAf 0.55298
17. gnomad_sasAf 0
18. gnomad_othAf 0.673469
Q. 명칭: 인종 예측 피처
설명: 변이체에 연관된 종양 샘플을 제공한 개체의 인종 메이크업(ethnic makeup)을 식별하는 가능성을 특정한다.
유형: 발생 빈도
1. ethno_P_AFR 4.137788205335579e-49
2. ethno_P_AMR 0.00484825490847577
3. ethno_P_EAS 2.4537058155646697e-55
4. ethno_P_EUR 0.9951517345697741
5. ethno_P_SAS 1.0521763446561e-08
제2 샘플
A. 명칭: 염색체 피처
설명: 변이체를 잇는 DNA 세그먼트가 발생하는 염색체를 특정한다.
유형: 돌연변이 특성
1. chr chr1
B. 명칭: 참조 서열 피처
설명: 변이체에 의해 돌연변이된 참조 서열을 특정한다.
유형: 돌연변이 특성
1. ref A
C. 명칭: 좌표 위치 피처
설명: 염색체 상의 변이체의 좌표 위치를 특정한다.
유형: 돌연변이 특성
1. pos 2488153
D. 명칭: 대체 대립유전자 피처
설명: 참조 서열의 표적 위치에 있는 변이체에 의해 돌연변이된 적어도 하나의 염기를 특정한다.
유형: 돌연변이 특성
1. alt_A -1.0
2. alt_C -1.0
3. alt_G 1.0
4. alt_T -1.0
5. alt_Other -1.0
E. 명칭: 변이체 대립유전자 빈도 피처
설명: 변이체의 변이체 대립유전자 빈도(VAF)를 특정한다.
유형: 리드 맵핑 통계
1. VAF 0.9974
F. 명칭: 리드 깊이 피처
설명: 변이체의 리드 깊이를 특정한다.
유형: 리드 맵핑 통계
1. dp 3.82
G. 명칭: 돌연변이형 피처
설명: 변이체가 단일 뉴클레오타이드 변이체(SNV), 삽입, 또는 결손인지를 특정한다.
유형: 돌연변이 특성
1. type_snv 1.0
2. type_insertion -1.0
3. type_deletion -1.0
H. 명칭: 모집단 빈도 피처
설명: 짧은 유전자 변이체들의 데이터베이스(dbSNP), 1000 게놈 프로젝트(1000Genomes), 엑솜 응집 컨소시엄(ExAC), 엑솜 변이체 서버(EVS) 등의 서열분석된 모집단의 변이체의 대립유전자 빈도를 특정한다.
유형: 발생 빈도
1. dbsnp 0.3852
2. oneKg 0.6148159999999999
3. exac 0
4. evs 0
I. 명칭: 아미노산 충격 피처
설명: 변이체가 상이한 아미노산을 코딩하는 새로운 코돈을 생성하도록 코돈을 변경하는 비동의 변이체인지를 특정한다.
유형: 돌연변이 특성
1 nonsyn_true 1.0
2. nonsyn_false -1.0
J. 명칭: 진화 보존 피처
설명: phylop으로부터 결정되는 바와 같이 다수의 종에 걸친 변이체 위치의 보존성을 특정한다.
유형: 돌연변이 특성
1. phylop -0.17600000000000002
K. 명칭: 진화 보존 데이터 가용성 피처
설명: 임의의 phylop 데이터가 이용 가능한지를 특정한다.
유형: 돌연변이 특성
1. phylop_NA 1
L. 명칭: 임상 유의성 피처
설명: ClinVar에 제출된 임상 테스트 결과로부터 결정되는 바와 같이 변이체의 임상 효과, 약물 민감성, 및 조직적합성을 특정한다.
유형: 돌연변이 특성
1. clinvarSig_drug response -1.0
2. clinvarSig_uncertain significance -1.0
3. clinvarSig_likely pathogenic -1.0
4. clinvarSig_pathogenic -1.0
5. clinvarSig_not provided -1.0
6. clinvarSig_nan 1.0
7. clinvarSig_likely benign -1.0
8. clinvarSig_benign -1.0
9. clinvarSig_other -1.0
M. 명칭: 기능적 충격 피처
설명: 다형성 표현형(PolyPhen)으로부터 결정되는 바와 같이 변이체에 의해 야기된 아미노산 치환으로부터 발생하는 단백질의 기능에 대한 변이체의 충격을 특정한다.
유형: 돌연변이 특성
1. polyPhen_benign 1.0
2. polyPhen_possibly damaging -1.0
3. polyPhen_nan -1.0
4. polyPhen_probably damaging -1.0
5. polyPhen_unknown -1.0
N. 명칭: 기능적 충격 피처
설명: Sorting Intolerant from Tolerant(SIFT)로부터 결정되는 바와 같이 변이체에 의해 야기되는 아미노산 치환으로부터 발생하는 단백질의 기능에 대한 변이체의 충격을 특정한다.
유형: 돌연변이 특성
1. sift_tolerated 1.0
2. sift_deleterious - low confidence -1.0
3. sift_nan -1.0
4. sift_deleterious -1.0
5. sift_tolerated - low confidence -1.0
O. 명칭: 종양 빈도 피처
설명: 암의 체세포 돌연변이의 카탈로그(COSMIC)로부터 결정되는 바와 같이 서열분석된 암성 종양의 변이체의 빈도를 특정한다.
유형: 발생 빈도
1. CNT 3.46492
P. 명칭: 하위 집단 빈도 피처
설명: 게놈 응집 데이터베이스(gnomAD) 데이터베이스로부터 결정되는 바와 같이 서열분석된 모집단으로부터 계층화된 인종 하위 집단의 변이체의 대립유전자 빈도를 특정한다.
유형: 발생 빈도
1 gnomadExomeAf 0.04
2. gnomadExome_afrAf 0.512886
3. gnomadExome_asmrAf 0.727304
4. gnomadExome_easAf 00.48744
5. gnomadExome_finAf 0.48818900000000004
6. gnomadExome_nfeAf 0.466213
7. gnomadExome_asjAf 0.443545
8. gnomadExome_sasAf 0.633193
9. gnomadExome_othAf 0.499022
10. gnomadAf 0.5445989999999999
11. gnomad_afrAf 0.7156319999999999
12. gnomad_asmrAf 0
13. gnomad_easAf 0.46091800000000005
14. gnomad_finAf 0.48421400000000003
15. gnomad_nfeAf 0.473486
16. gnomad_asjAf 0.446667
17. gnomad_sasAf 0
18. gnomad_othAf 0.515369
Q. 명칭: 인종 예측 피처
설명: 변이체에 연관된 종양 샘플을 제공한 개체의 인종 메이크업을 식별하는 가능성을 특정한다.
유형: 발생 빈도
1. ethno_P_AFR 4.137788205335579e-49
2. ethno_P_AMR 0.00484825490847577
3. ethno_P_EAS 2.4537058155646697e-55
4. ethno_P_EUR 0.9951517345697741
5. ethno_P_SAS 1.0521763446561e-08
도 5a는 변이체에 상관된 컨텍스트 메타데이터 피처(500A)의 일부 예를 강조한다. 컨텍스트 메타데이터 피처(500A)는, 전술한 대체 대립유전자 피처 및 돌연변이형 피처를 총괄적으로 나타낸다.
도 5b는 변이체에 상관된 메타데이터 피처(500B)를 서열분석하는 일부 예를 강조한다. 서열분석 메타데이터 피처(500B)는, 전술한 변이체 대립유전자 빈도 피처 및 리드 깊이 피처를 총괄적으로 나타낸다.
도 5c는 변이체에 상관된 기능적 메타데이터 피처(500C)의 일부 예를 강조한다. 기능적 메타데이터 피처(500C)는, 전술한 아미노산 충격 피처, 진화 보존 피처, 진화 보존 데이터 가용성 피처, 임상 유의성 피처, 기능적 충격 피처, 및 종양 빈도 피처를 총괄적으로 나타낸다.
도 5d는 변이체에 상관된 모집단 메타데이터 피처(500D)의 일부 예를 강조한다. 모집단 메타데이터 피처(500D)는 전술한 모집단 빈도 피처 및 하위 집단 빈도 피처를 총괄적으로 나타낸다.
도 5e는 변이체에 상관된 인종 메타데이터 피처(500E)의 일례를 강조한다. 인종 메타데이터 피처(500E)는 전술한 인종 예측 피처를 나타낸다.
변이체
분류
변이체 분류자(104)의 임무는 데이터베이스(124)의 각 변이체를 체세포 또는 생식세포로 분류하는 것이다. 도 6은 변이체 분류자(104)에 의해 수행되는 변이체 분류의 아키텍처 예(600)를 도시한다. 표적 위치에서의 적어도 10개의 염기가 양 측면에 측접된 변이체를 갖는 입력 서열(602)은 컨볼루션 신경망(CNN)(612)에 입력으로서 공급된다. 컨볼루션 신경망(612)은, 트레이닝 동안 많은 그라디언트 업데이트 반복을 통해 학습되는 컨볼루션 필터(가중치 행렬)와 입력 간의 컨볼루션 동작을 수행하는 컨볼루션층들을 포함한다.
m을 필터 크기로 하고 W를 가중치 행렬로 하는 경우, 컨볼루션층은, 내적 를 계산함으로써 입력 X를 이용한 W의 컨볼루션을 수행하며, 여기서 x는 X의 인스턴스이고, b는 편향이다. 컨볼루션 필터가 입력을 가로질러 슬라이딩하는 단계 크기를 보폭이라고 하며, 필터 폭 m은 수용장이라고 한다. 동일한 컨볼루션 필터가 입력의 상이한 위치들에 적용되며, 이는 학습된 가중치의 수를 감소시킨다. 또한, 이것은 위치 불변 학습을 가능하게 하며, 즉, 중요한 패턴이 입력에 존재하면, 컨볼루션 필터들은, 그 패턴이 서열의 어떠한 위치에 있는지에 관계없이 패턴을 학습한다. 컨볼루션 신경망(612)에 대한 추가 세부 사항은, I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio, "CONVOLUTIONAL NETWORKS," Deep Learning, MIT Press, 2016; J. Wu, "INTRODUCTION TO CONVOLUTIONAL NEURAL NETWORKS," Nanjing University, 2017; and N. ten DIJKE, "Convolutional Neural Networks for Regulatory Genomics," Master's Thesis, Universiteit Leiden Opleiding Informatica, 17 June 2017에서 찾을 수 있으며, 이 문헌의 전체 주제는 전체적으로 본 명세서에 참고로 원용된다.
입력 서열(602)을 처리한 후, 컨볼루션 신경망(612)은 컨볼루션된 중간 피처(622)를 출력으로서 생성한다. 연쇄화기(112)는, 컨볼루션된 중간 피처(622)를 전술한 하나 이상의 메타데이터 피처(626)와 연쇄화한다. 연쇄화는 행 차원 또는 열 차원에 걸쳐 발생할 수 있다. 연쇄화의 결과는 피처 서열(634)이며, 이는 데이터베이스(122)에 저장된다.
피처 서열(634)은, 완전 연결 신경망(FCNN)(674)에 입력으로서 공급된다. 완전 연결 신경망(674)은 완전 연결층들을 포함하며, 각 뉴런은 모든 이전 층의 뉴런으로부터 입력을 수신하고 그 출력을 다음 층의 모든 뉴런으로 전송한다. 이는, 뉴런이 자신의 출력을 다음 층의 일부 뉴런에만 전송하는 컨볼루션층의 동작 방식과 대조된다. 완전 연결층의 뉴런들은 트레이닝 중에 많은 그라디언트 업데이트 반복에 걸쳐 최적화된다. 완전 연결 신경망(674)에 대한 추가 세부 사항은, I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio, "CONVOLUTIONAL NETWORKS," Deep Learning, MIT Press, 2016; J. Wu, "INTRODUCTION TO CONVOLUTIONAL NEURAL NETWORKS," Nanjing University, 2017; and N. ten DIJKE, "Convolutional Neural Networks for Regulatory Genomics," Master's Thesis, Universiteit Leiden Opleiding Informatica, 17 June 2017에서 찾을 수 있으며, 이 문헌의 전체 주제는, 명백하게 전체적으로 본 명세서에 참고로 원용된다.
완전 연결 신경망(674)의 분류 층(684)은, 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수(694)를 출력한다. 분류 층(684)은 소프트맥스 층 또는 시그모이드 층일 수 있다. 구현예에 따라 클래스의 수와 해당 유형을 수정할 수 있다. 전술한 바와 같이, 노이즈 카테고리를 갖춤으로써, 체세포 및 생식세포 카테고리를 따른 분류를 개선한다.
다른 구현예에서, 메타데이터 피처(626)는, 컨볼루션 신경망(612)에 직접 공급될 수 있고 입력 서열(602) 내로 인코딩되거나 개별적으로 공급될 수 있지만, 입력 서열(602)과 동시에 또는 별도로 공급될 수 있지만 입력 서열(602) 이전/이후에 공급될 수 있다.
도 7은 변이체 분류자(104)에 의해 수행되는 변이체 분류의 알고리즘 예(700)를 도시한다. 예시된 구현예에서, 컨볼루션 신경망(CNN)(612)은 2개의 컨볼루션층을 갖고, 완전 연결 신경망(FCNN)(674)은 3개의 완전 연결층을 갖는다. 다른 구현예에서, 변이체 분류자(104), 및 변이체 분류자의 컨볼루션 신경망(612) 및 완전 연결 신경망(674)은, 파라미터 및 하이퍼파라미터를, 추가로, 적게, 또는 상이하게 가질 수 있다. 파라미터의 일부 예는, 컨볼루션층의 수, 일괄 정규화 및 ReLU 층의 수, 완전 연결층의 수, 각 컨볼루션층의 컨볼루션 필터의 수, 각각의 완전 연결층의 뉴런의 수, 및 최종 분류 층에 의해 생성되는 출력의 수, 및 잔여 연결이다. 하이퍼파라미터의 일부 예는 컨볼루션 필터의 윈도우 크기, 컨볼루션 필터의 보폭 길이, 패딩, 및 팽창이다. 이하 설명에서, "층"이라는 용어는 소프트웨어 로직 또는 모듈로서 코드로 구현된 알고리즘을 가리킨다. 층의 일부 예는, KerasTM 설명서에서 찾을 수 있으며, 그 전체 주제는 명백하게 본 명세서에 참고로 원용된다.
원-핫 인코딩된 입력 서열(702)은 컨볼루션 신경망(CNN)(612)의 제1 컨볼루션층(704)에 공급된다. 입력 서열(702)의 차원은 41,5이며, 여기서 41은 20개의 염기가 각 측면에 측접된 중심 표적 위치에서의 특정 변이체를 갖는 입력 서열(702)의 41개의 염기를 나타내고, 5는 도 3에 예시되어 있으며 입력 서열(702)을 인코딩하는 데 사용되는 5개의 채널 A, T, C, G, N을 나타낸다.
제1 컨볼루션층(704)은 25개의 필터를 가지며, 각 필터는, 윈도우 크기가 7이고 보폭 길이가 1인 입력 서열(702)에 대하여 컨볼루션한다. 컨볼루션 다음에는 일괄 정규화 및 ReLU 비선형성 층(712)이 이어진다. 그 결과는 차원 25,35의 출력(피처 맵)(714)이다. 출력(714)은 컨볼루션된 제1 중간 피처로 간주될 수 있다.
출력(714)은 컨볼루션 신경망(612)의 제2 컨볼루션층(722)에 입력으로서 공급된다. 제2 컨볼루션층(722)은 15개의 필터를 갖고, 각 필터는, 윈도우 크기가 5이고 보폭 길이가 1인 출력(714)에 대하여 컨볼루션한다. 컨볼루션 다음에는 일괄 정규화 및 ReLU 비선형성 층(724)이 이어진다. 그 결과는 차원 15,31의 출력(피처 맵)(732)이다. 출력(732)은 컨볼루션 신경망(612)의 컨볼루션된 제2 중간 피처로 간주될 수 있고 또한 최종 출력으로 간주될 수 있다.
출력(732)을 메타데이터 피처(742)와 연쇄화하고 또한 완전 연결 신경망(FCNN)(674)에 의한 하류 처리를 허용하기 위해, 출력(732)은 평탄화 층(734)에 의해 평탄화된다. 평탄화는 하나의 행 또는 하나의 열을 갖도록 출력(732)을 벡터화하는 것을 포함한다. 즉, 예를 들어, 차원 15,31의 출력(732)을 차원 1,465(1행 및 15×31 = 465열)의 평탄화된 벡터로 변환한다.
특정 변이체에 상관된 메타데이터 피처(742)는 49, 1의 차원을 갖는다. 연쇄화 층(744)은, 메타데이터 피처(742)를 출력(732)으로부터 유도된 평탄화된 벡터와 연쇄화한다. 그 결과는 차원 1,49의 출력(752)이다. 출력(752)은 피처 서열로 간주될 수 있다.
이어서, 출력(752)은 완전 연결 신경망(FCNN)(674)에 입력으로서 공급된다. 완전 연결 신경망(674)은 3개의 완전 연결층(754, 764, 774)을 갖고, 각각의 완전 연결층에는 일괄 정규화 및 ReLU 비선형성 층의 쌍(762, 772 및 782)이 후속한다. 제1 완전 연결층(754)은 512개의 뉴런을 갖고, 이는 제2 완전 연결층(764)에서 512개의 뉴런에 완전히 연결된다. 제2 완전 연결층(764)의 512개 뉴런은 제3 완전 연결층(774)의 256개 뉴런에 완전히 연결된다.
분류 층(784)(예를 들어, 소프트맥스)은, 체세포, 생식세포, 또는 노이즈인 특정 변이체에 대한 3개의 분류 점수 또는 확률(792)을 출력하는 3개의 뉴런을 갖는다.
다른 구현예에서, 메타데이터 피처들(742)은, 컨볼루션 신경망(612)에 직접 공급될 수 있고, 입력 서열(702) 내로 인코딩되거나 개별적으로 공급될 수 있지만, 입력 서열(702)과 동시에 또는 별도로 공급될 수 있지만, 입력 서열(702)의 이전/이후에 해당할 수 있다.
전이 학습
도 8은, 전이 학습 전략(800)에 따라 변이체 분류자(104)를 트레이닝한 후 트레이닝된 변이체 분류자(104)를 평가 및 테스트하는 일 구현예를 도시한다. 전이 학습 전략(800)은, 염기 데이터세트(812)(예를 들어, TCGA) 및 태스크(변이체 분류)에 대한 변이체 분류자(104)를 사전 트레이닝(802)한 후, 작업(변이체 분류) 및 표적 데이터세트(832)에 대한 트레이닝(822)을 위한 컨볼루션 신경망(CNN)(612)과 완전 연결 신경망(674)의 학습된 가중치(필터, 뉴런)를 용도 변경하거나 전이하는 것을 포함한다. 이 프로세스는, TCGA 데이터세트(812)와 TST 데이터세트(832)가 공통 피처를 공유하기 때문에 잘 동작한다.
평가(842)는, TST 데이터세트(862)로부터 보류된 유효성확인 데이터(852)에 대한 변이체 분류자(104)의 변이체 분류 성능을 반복적으로 체크하는 것을 포함한다. 수렴 조건(예를 들어, F-측정과 같은 소정의 벤치마크 충족 또는 임계값 미만의 에러 최소화)이 충족된 후. 트레이닝된 변이체 분류자(104)는 추론 또는 테스트(862)를 위해 배치된다. 배치(856)는, 연구 커뮤니티에 의해 사용하도록 일루미나의 BaseSpace™와 같은 클라우드 기반 환경에서 트레이닝된 변이체 분류자(104)를 호스팅하고, 트레이닝된 분류자(104)를 모바일 연산 장치에 통합하도록 메모리 칩 또는 GPU에서 실행 가능하게 하고, 변이체 분류자(104)를 웹으로부터 다운로드하여 이용할 수 있게 하는 것을 포함할 수 있다. 추론(862) 동안, 트레이닝된 변이체 분류자(104)는, 입력 서열을 추론 데이터(872)의 형태로 수신할 수 있고, 전술한 바와 같이 변이체 분류를 수행할 수 있다.
성능 결과
도 9는, 엑손 데이터에 대한 변이체 콜러(여기서는 소저너라고도 함)의 성능 결과(900)를 도시한다. 민감도와 특이도에 의해 정량화된 이들 결과는 심층 신경망 분류자에 비해 소저너의 장점과 우월성을 확립한다.
도 10은 엑손에 대한 변이체를 분류할 때 심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 위양성률(1000)의 개선을 도시한다.
도 11은 엑손에 대한 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 평균 절대 종양 돌연변이 부담(TMB) 에러(1100)를 도시한다.
도 12는 엑손에 대한 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 평균 절대 TMB 에러(1200)의 개선을 도시한다.
도 13은 코딩 DNA 서열(CDS) 데이터에 대한 소저너의 성능 결과(1300)를 도시한다. 민감도와 특이도에 의해 정량화된 이들 결과는 비심층 신경망 분류자에 비해 소저너의 장점과 우월성을 확립한다.
도 14는 코딩 영역에 걸쳐 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 유사한 위양성률(1400)을 도시한다.
도 15는 코딩 영역에 걸쳐 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 평균 절대 TMB 에러(1500)를 도시한다.
도 16은 엑손에 대한 변이체를 분류할 때 비심층 신경망 분류자를 사용하는 것 대 소저너를 사용하는 유사한 평균 절대 TMB 오류(1600)를 도시한다.
컴퓨터 시스템
도 17은 변이체 분류자(104)를 구현하는 데 사용될 수 있는 컴퓨터 시스템(1700)을 도시한다. 컴퓨터 시스템(1700)은, 버스 서브시스템(1755)을 통해 다수의 주변 장치와 통신하는 적어도 하나의 중앙 처리 유닛(CPU)(1772)을 포함한다. 이들 주변 장치는, 예를 들어, 메모리 장치 및 파일 저장 서브시스템(1736), 사용자 인터페이스 입력 장치(17317), 사용자 인터페이스 출력 장치(1776), 및 네트워크 인터페이스 서브시스템(1774)을 포함하는 저장 서브시스템(1710)을 포함할 수 있다. 입력 및 출력 장치는 컴퓨터 시스템(1700)과의 사용자 상호작용을 허용한다. 네트워크 인터페이스 서브시스템(1774)은, 다른 컴퓨터 시스템에서의 대응하는 인터페이스 장치에 대한 인터페이스를 포함하여, 외부 네트워크에 대한 인터페이스를 제공한다.
일 구현예에서, 변이체 분류자(104)는, 저장 서브시스템(1710) 및 사용자 인터페이스 입력 장치(1738)에 통신 가능하게 링크된다.
사용자 인터페이스 입력 장치(1738)는, 키보드; 마우스, 트랙볼, 터 패드 또는 그래픽 태블릿과 같은 포인팅 장치; 스캐너; 디스플레이에 통합된 터치 스크린; 음성 인식 시스템 및 마이크와 같은 오디오 입력 장치; 및 다른 유형의 입력 장치를 포함할 수 있다. 일반적으로, "입력 장치"라는 용어의 사용은, 컴퓨터 시스템(1700)에 정보를 입력하는 방식과 장치의 모든 가능한 유형을 포함하고자 하는 것이다.
사용자 인터페이스 출력 장치(1776)는, 디스플레이 서브시스템, 프린터, 팩스기, 또는 오디오 출력 장치와 같은 비시각적 디스플레이를 포함할 수 있다. 디스플레이 서브시스템은, LED 디스플레이, 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평판 장치, 투영 장치, 또는 가시 이미지를 생성하기 위한 다른 메커니즘을 포함할 수 있다. 디스플레이 서브시스템은, 또한, 오디오 출력 장치와 같은 비시각적 디스플레이를 제공할 수 있다. 일반적으로, "출력 장치"라는 용어의 사용은, 컴퓨터 시스템(1700)으로부터 사용자 또는 다른 기계 또는 컴퓨터 시스템으로 정보를 출력하는 방식 및 장치의 모든 가능한 유형을 포함하고자 하는 것이다.
저장 서브시스템(1710)은, 본 명세서에 설명된 모듈과 방법 중 일부 또는 전부의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 이들 소프트웨어 모듈은 일반적으로 심층 학습 프로세서(1778)에 의해 실행된다.
심층 학습 프로세서(1778)는 그래픽 처리 유닛(GPU) 또는 필드-프래그래머블 게이트 어레이(FPGA)일 수 있다. 심층 학습 프로세서(1778)는, Google Cloud PlatformTM, XilinxTM, CirrascaleTM 등의 심층 학습 클라우드 플랫폼에 의해 호스팅될 수 있다. 심층 학습 프로세서(1778)의 예로는, Google의 Tensor Processing Unit(TPU)TM, GX4 Rackmount SeriesTM, GX17 Rackmount SeriesTM와 같은 랙마운트 솔루션, NVIDIA DGX-1TM, Microsoft의 Stratix V FPGATM, Graphcore의 Intelligent Processor Unit(IPU)TM, Qualcomm의 Snapdragon processorsTM를 갖는 Zeroth PlatformTM, NVIDIA의 VoltaTM, NVIDIA의 DRIVE PXTM, NVIDIA의 JETSON TX1/TX2 MODULETM, Intel의 NirvanaTM, Movidius VPUTM, Fujitsu DPITM, ARM의 DynamicIQTM, IBM TrueNorthTM, 및 기타가 있다.
저장 서브시스템(1710)에 사용되는 메모리 서브시스템(1722)은, 프로그램 실행 동안 명령어와 데이터의 저장을 위한 메인 랜덤 액세스 메모리(RAM)(1732) 및 고정된 명령어가 저장된 판독 전용 메모리(ROM)(1734)를 포함하는 다수의 메모리를 포함할 수 있다. 파일 저장 서브시스템(1736)은, 프로그램 및 데이터 파일을 위한 영구 저장 장치를 제공할 수 있으며, 하드 디스크 드라이브, 연관된 탈착식 매체를 갖는 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브, 또는 탈착식 매체 카트리지를 포함할 수 있다. 소정의 구현예의 기능을 구현하는 모듈들은, 저장 서브시스템(1710) 내의 파일 저장 서브시스템(1736)에 의해 저장될 수 있고 또는 프로세서에 의해 액세스가능한 다른 기계에 저장될 수 있다.
버스 서브시스템(1755)은, 컴퓨터 시스템(1700)의 다양한 구성요소와 서브시스템이 의도된 대로 서로 통신하게 하는 메커니즘을 제공한다. 버스 서브시스템(1755)은 단일 버스로서 개략적으로 도시되어 있지만, 버스 서브시스템의 대체 구현예에서는 다수의 버스를 사용할 수 있다.
컴퓨터 시스템(1700) 자체는, 개인용 컴퓨터, 휴대용 컴퓨터, 워크스테이션, 컴퓨터 터미널, 네트워크 컴퓨터, 텔레비전, 메인프레임, 서버 팜, 느슨하게 네트워크화된 컴퓨터들의 널리 분포된 세트, 또는 다른 임의의 데이터 처리 시스템 또는 사용자 장치를 포함하는 다양한 유형일 수 있다. 컴퓨터 및 네트워크의 계속 변화하는 특성으로 인해, 도 17에 도시된 컴퓨터 시스템(1700)의 설명은, 본 발명의 바람직한 실시예들을 예시하기 위한 특정 예로서만 의도된 것이다. 컴퓨터 시스템(1700)의 다른 많은 구성은, 도 17에 도시된 컴퓨터 시스템보다 많거나 적은 구성요소들을 가질 수 있다.
구체적인
구현예
주어진 변이체가 체세포인지 생식세포인지를 예측하기 위해 트레이닝된 심층 신경망을 사용하는 변이체 분류자의 시스템과 다양한 구현예를 설명한다. 구현예의 하나 이상의 피처를 염기 구현예와 결합할 수 있다. 상호 배타적이지 않은 구현예들은 결합 가능하도록 교시된다. 구현예의 하나 이상의 피처를 다른 구현예와 결합할 수 있다. 본 개시 내용은 이러한 옵션들을 사용자에게 주기적으로 상기시킨다. 이러한 옵션들을 반복하는 설명의 일부 구현예에서 누락된 부분은, 이전 부문에서 교시된 설명한 결합을 제한하는 것으로 간주하여서는 안 되며, 이러한 설명은 본 명세서에서 하기 각 구현예에 참조로 통합된다.
일 구현예에서, 개시된 기술은 신경망 구현 시스템을 제시한다. 이 시스템은, 병렬로 동작하고 메모리에 연결된 하나 이상의 프로세서상에서 실행되는 변이체 분류자를 포함한다.
변이체 분류자는 (i) 컨볼루션 신경망 및 (ii) 완전 연결 신경망을 갖는다. 컨볼루션 신경망은 적어도 5개의 컨볼루션층을 갖고, 각 컨볼루션층은, (a) 표적 위치에서 적어도 10개의 염기가 각 측면에 측접된 변이체를 갖는 입력 서열을 처리하고 (b) 컨볼루션된 중간 피처를 생성하도록 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖는다. 일부 구현예에서, 각 컨볼루션층은 적어도 6개의 컨볼루션 필터를 갖는다.
메타데이터 상관기는, (i) 변이체의 돌연변이 특성, (ii) 변이체의 리드 맵핑 통계, 및 (iii) 변이체의 발생 빈도를 나타내는 메타데이터 피처들의 세트를 변이체와 상관짓는다.
완전 연결 신경망은, (a) 컨볼루션된 중간 피처와 메타데이터 피처들의 조합으로부터 유도된 피처 서열을 처리하고 (b) 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하도록 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖는다.
개시된 본 시스템 구현예 및 다른 시스템은 하기 피처들 중 하나 이상을 선택적으로 포함한다. 시스템은, 또한, 개시된 방법과 관련하여 설명된 피처들을 포함할 수 있다. 간결성을 위해, 시스템 피처들의 대체 조합들은 개별적으로 열거되지 않는다. 시스템, 방법, 및 제조 물품에 적용되는 피처들은 염기 피처들의 각각의 법정 클래스 세트에 대해 반복되지 않는다. 독자는, 이 부문에서 식별된 피처들을 다른 법정 클래스의 염기 피처들과 쉽게 결합할 수 있는 방법을 이해할 것이다.
메타데이터 상관기는, 또한, 변이체가 상이한 아미노산을 코딩하는 새로운 코돈을 생성하도록 코돈을 변경하는 비동의 변이체인지를 특정하는 아미노산 충격 피처를 변이체와 상관짓도록 구성될 수 있다.
메타데이터 상관기는, 또한, 변이체가 단일 뉴클레오타이드 다형성, 삽입, 또는 결손인지를 특정하는 변이체 유형 피처를 변이체와 상관짓도록 구성될 수 있다.
메타데이터 상관기는, 또한, 변이체를 식별한 리드 맵핑의 품질 파라미터를 특정하는 리드 맵핑 통계 피처를 변이체와 상관짓도록 구성될 수 있다.
메타데이터 상관기는, 또한, 서열분석된 모집단에서의 변이체의 대립유전자 빈도를 특정하는 모집단 빈도 특성을 변이체와 상관짓도록 구성될 수 있다.
메타데이터 상관기는, 또한, 서열분석된 모집단으로부터 계층화된 인종 하위 집단에서의 변이체의 대립유전자 빈도를 특정하는 하위 집단 빈도 피처를 변이체와 상관짓도록 구성될 수 있다.
메타데이터 상관기는, 또한, 다수의 종에 걸쳐 표적 위치의 보존성을 특정하는 진화 보존 피처를 변이체와 상관짓도록 구성될 수 있다.
메타데이터 상관기는, 또한, 임상 테스트로부터 결정된 바와 같이 변이체의 임상 효과, 약물 민감도, 및 조직적합성을 특정하는 임상적 유의성 피처를 변이체와 상관짓도록 구성될 수 있다.
메타데이터 상관기는, 또한, 변이체에 의해 야기된 아미노산 치환으로 인한 단백질의 기능에 대한 변이체의 충격을 특정하는 기능적 충격 피처를 변이체와 상관짓도록 구성될 수 있다.
메타데이터 상관기는, 또한, 변이체에 연관된 종양 샘플을 제공한 개체의 인종 메이크업을 식별하는 가능성을 특정하는 인종 예측 피처를 변이체와 상관짓도록 구성될 수 있다.
메타데이터 상관기는, 또한, 서열분석된 암성 종양에서의 변이체의 빈도를 특정하는 종양 빈도 피처를 변이체와 상관짓도록 구성될 수 있다.
메타데이터 상관기는, 또한, 참조 서열에서의 표적 위치에 있는 변이체에 의해 돌연변이된 적어도 하나의 염기를 특정하는 대체 대립유전자 피처를 변이체와 상관짓도록 구성될 수 있다.
변이체 분류자의 컨볼루션 신경망 및 완전 연결 신경망은, 암 유발 돌연변이의 제1 데이터세트로부터의 50만개의 트레이닝 예에 대하여 엔드-투-엔드(end-to-end) 방식으로 함께 트레이닝될 수 있고 이어서 암 유발 돌연변이의 제2 데이터세트로부터의 5만개의 트레이닝 예에 대하여 트레이닝될 수 있다.
변이체 분류자의 컨볼루션 신경망 및 완전 연결 신경망은, 제2 데이터세트로부터만 보류된 유효성확인 데이터에 대해 엔드-투-엔드 방식으로 함께 테스트될 수 있다.
컨볼루션층들과 완전 연결층들의 각각에는 적어도 1개의 정류된 선형 유닛 층이 뒤따를 수 있다. 컨볼루션층들과 완전 연결층들의 각각에는 적어도 하나의 일괄 정규화 층이 뒤따를 수 있다.
변이체에는 각 측면에 적어도 19개의 염기가 측접될 수 있다. 다른 구현예에서, 변이체는 각 측면에 적어도 20개의 염기가 측접될 수 있다.
시스템은, 또한, 중간 피처를 메타데이터 피처와 연쇄화함으로써 피처 서열을 유도하는 연쇄화기를 포함하도록 구성될 수 있다.
메타데이터 피처들은 1차원 어레이로 인코딩될 수 있다. 입력 서열은, n≥2인 n차원 어레이로 인코딩될 수 있다.
구현예들은, 전술한 시스템의 동작을 수행하도록 프로세서에 의해 실행가능한 명령어를 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 다른 구현예를 위해 특정 구현 부문에서 논의된 각 피처는 이 구현예에 동일하게 적용된다. 전술한 바와 같이, 다른 모든 피처들은 여기서 반복되지 않으며 참조로 반복되는 것으로 간주되어야 한다.
다른 구현예에서, 개시된 기술은 변이체 분류의 신경망 구현 방법을 제시한다.
이 방법은, 입력 서열을 컨볼루션 신경망을 통해 처리하여 컨볼루션된 중간 피처를 생성하는 단계를 포함한다. 컨볼루션 신경망은 적어도 2개의 컨볼루션층을 갖고, 각각의 컨볼루션층은, 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖는다. 일부 구현예에서, 각각의 컨볼루션층은 적어도 6개의 컨볼루션 필터를 갖는다.
입력 서열은, 표적 위치에서 적어도 10개의 염기가 각 측면에 측접된 변이체를 갖는다.
이 방법은, (i) 변이체의 돌연변이 특성, (ii) 변이체의 리드 맵핑 통계, 및 (iii) 변이체의 발생 빈도를 나타내는 메타데이터 피처들의 세트를 변이체와 상관짓는 단계를 포함한다.
방법은, 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하도록 완전 연결 신경망을 통해 피처 서열을 처리하는 단계를 포함한다. 완전 연결 신경망은, 천 개 내지 수백만개의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖는다. 피처 서열은 컨볼루션된 중간 피처와 메타데이터 피처들의 조합으로부터 유도된다.
구현예는, 전술한 방법을 수행하도록 프로세서에 의해 실행가능한 명령어를 저장하는 비일시적 컴퓨터 판독가능 저장 매체(CRM)를 포함할 수 있다. 또 다른 구현예는, 메모리, 및 메모리에 저장된 명령어를 실행하여 전술한 방법을 수행하도록 동작 가능한 하나 이상의 프로세서를 포함하는 시스템을 포함할 수 있다. 다른 구현예를 위해 특정 구현 부문에서 논의된 각 피처는 이 구현예에 동일하게 적용된다. 전술한 바와 같이, 다른 모든 피처들은 여기서 반복되지 않으며 참조로 반복되는 것으로 간주되어야 한다.
또 다른 구현예에서, 개시된 기술은 신경망 구현 시스템을 제시한다. 이 시스템은, 병렬로 동작하고 메모리에 연결된 하나 이상의 프로세서상에서 실행되는 변이체 분류자를 포함한다.
변이체 분류자는 (i) 컨볼루션 신경망 및 (ii) 완전 연결 신경망을 갖는다. 컨볼루션 신경망은 입력 서열을 처리하고 컨볼루션된 중간 피처를 생성하도록 트레이닝된다. 컨볼루션 신경망은 적어도 2개의 컨볼루션층을 갖고, 각각의 컨볼루션층은, 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖는다. 일부 구현예에서, 각각의 컨볼루션층은 적어도 6개의 컨볼루션 필터를 갖는다.
입력 서열은, 10개 이상의 염기가 각 측면에 측접된 변이체를 표적 위치에서 갖고, 변이체에 상관된 메타데이터 피처들의 세트를 갖는다.
메타데이터 피처들은, (i) 변이체의 돌연변이 특성, (ii) 변이체의 리드 맵핑 통계, 및 (iii) 변이체의 발생 빈도를 나타낸다.
완전 연결 신경망은, 컨볼루션된 중간 변이체를 처리하고 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하도록 트레이닝된다. 완전 연결 신경망은, 천 개 내지 수백만개의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖는다.
시스템은, 또한, 변이체를 메타데이터 피처들과 상관짓는 메타데이터 상관기를 포함하도록 구성될 수 있다.
다른 구현예는, 전술한 시스템의 동작을 수행하도록 프로세서에 의해 실행가능한 명령어를 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 다른 구현을 위해 특정 구현 부문에서 논의된 각 피처는 이 구현에 동일하게 적용된다. 전술한 바와 같이, 다른 모든 피처는 여기서 반복되지 않으며 참조로 반복되는 것으로 간주되어야 한다.
또 다른 구현예에서, 개시된 기술은 변이체 분류의 신경망 구현 방법을 제시한다.
이 방법은, 컨볼루션 신경망을 통해 입력 서열을 처리하여 컨볼루션된 중간 피처를 생성하는 단계를 포함한다. 컨볼루션 신경망은 적어도 2개의 컨볼루션층을 갖고, 각각의 컨볼루션층은, 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖는다.
입력 서열은, 표적 위치에서 각 측면에 적어도 10개의 염기가 측접된 변이체를 갖고, 변이체에 상관된 메타데이터 피처들의 세트를 갖는다.
메타데이터 피처들은, (i) 변이체의 돌연변이 특성, (ii) 변이체의 리드 맵핑 통계, 및 (iii) 변이체의 발생 빈도를 나타낸다.
이 방법은, 컨볼루션된 중간 피처를 완전 연결 신경망을 통해 처리하여 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하는 단계를 포함한다. 완전 연결 신경은, 천 개 내지 수백만개의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖는다.
다른 구현예는, 전술한 방법을 수행하도록 프로세서에 의해 실행가능한 명령어를 저장하는 비일시적 컴퓨터 판독가능 저장 매체(CRM)를 포함할 수 있다. 또 다른 구현예는, 메모리 및 메모리에 저장된 명령어를 실행하여 전술한 방법을 수행하도록 동작 가능한 하나 이상의 프로세서를 포함하는 시스템을 포함할 수 있다. 다른 구현을 위해 특정 구현 부문에서 논의된 각 피처는 이 구현에 동일하게 적용된다. 전술한 바와 같이, 다른 모든 피처들은 여기서 반복되지 않으며 참조로 반복되는 것으로 간주되어야 한다.
개시된 기술은 전술한 바람직한 실시예 및 예를 참조하여 개시되지만, 이들 예는 제한적인 의미가 아니라 예시적인 것으로 의도된다는 것을 이해해야 한다. 변형 및 조합은 통상의 기술자에게 용이하게 일어날 것이며, 이러한 변형 및 조합은 하기 청구범위의 범주 및 획기적인 사상 내에 있을 것이다.
본 개시 내용은, 또한, 하기 조항들을 포함한다:
1. 신경망 구현 시스템으로서,
메모리에 연결되어 병렬로 동작하는 하나 이상의 프로세서상에서 실행되는 변이체 분류자;
메타데이터 상관기; 및
완전 연결 신경망을 포함하되,
상기 변이체 분류자는 적어도 2개의 컨볼루션층을 갖는 컨볼루션 신경망을 갖고,
상기 컨볼루션층의 각각은,
표적 위치에서 적어도 10개의 염기가 각 측면에 측접된 변이체를 갖는 입력 서열을 처리하고,
컨볼루션된 중간 피처를 생성하도록
일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖고,
상기 메타데이터 상관기는 상기 변이체를 메타데이터 피처들의 세트와 상관짓고,
상기 메타데이터 피처는, 상기 변이체의 돌연변이 특성, 상기 변이체의 리드 맵핑 통계, 및 상기 변이체의 발생 빈도를 나타내고,
상기 완전 연결 신경망은,
상기 컨볼루션된 중간 피처와 상기 메타데이터 피처들의 조합으로부터 유도된 피처 서열을 처리하고,
상기 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하도록
상기 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖는, 신경망 구현 시스템.
2. 제1 조항에 있어서, 상기 메타데이터 상관기는, 상기 변이체가 상이한 아미노산을 코딩하는 새로운 코돈을 생성하게끔 코돈을 변경하는 비동의 변이체인지를 특정하는 아미노산 충격 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
3. 제1절 또는 제2 조항에 있어서, 상기 메타데이터 상관기는, 상기 변이체가 단일 뉴클레오타이드 다형성, 삽입, 또는 결손인지의 유형을 특정하는 변이체 유형 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
4. 제1 조항 내지 제3 조항 중 어느 한 조항에 있어서, 상기 메타데이터 상관기는, 상기 변이체를 식별한 리드 맵핑의 품질 파라미터를 특정하는 리드 맵핑 통계 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
5. 제1 조항 내지 제4 조항 중 어느 한 조항에 있어서, 상기 메타데이터 상관기는, 서열분석된 모집단에서의 상기 변이체의 대립유전자 빈도를 특정하는 모집단 빈도 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
6. 제1 조항 내지 제5 조항 중 어느 한 조항에 있어서, 상기 메타데이터 상관기는, 서열분석된 모집단으로부터 계층화된 인종 하위 집단에서의 상기 변이체의 대립유전자 빈도를 특정하는 하위 집단 빈도 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
7. 제1 조항 내지 제6 조항 중 어느 한 조항에 있어서, 상기 메타데이터 상관기는, 다수의 종에 걸쳐 상기 표적 위치의 보전성을 특정하는 진화 보존 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
8. 제1 조항 내지 제7 조항 중 어느 한 조항에 있어서, 상기 메타데이터 상관기는, 임상 테스트로부터 결정되는 바와 같이 상기 변이체의 임상 효과, 약물 감도, 및 조직 적합성을 특정하는 임상적 유의성 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
9. 제1 조항 내지 제8 조항 중 어느 한 조항에 있어서, 상기 메타데이터 상관기는, 상기 변이체에 의한 아미노산 치환으로부터 발생하는 단백질의 기능성에 대한 상기 변이체의 영향을 특정하는 기능적 충격 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
10. 제1 조항 내지 제9 조항 중 어느 한 조항에 있어서, 상기 메타데이터 상관기는, 상기 변이체에 연관된 종양 샘플을 제공한 개체의 인종 메이크업을 식별하는 가능성을 특정하는 인종 예측 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
11. 제1 조항 내지 제10 조항 중 어느 한 조항에 있어서, 상기 메타데이터 상관기는, 서열분석된 암성 종양에서의 상기 변이체의 빈도를 특정하는 종양 빈도 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
12. 제1 조항 내지 제11 조항 중 어느 한 조항에 있어서, 상기 메타데이터 상관기는, 참조 서열의 상기 표적 위치에서 상기 변이체에 의해 돌연변이된 적어도 하나의 염기를 특정하는 대체 대립유전자 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
13. 제1 조항 내지 제12 조항 중 어느 한 조항에 있어서, 상기 변이체 분류자의 상기 컨볼루션 신경망과 상기 완전 연결 신경망은, 암 유발 돌연변이의 제1 데이터세트로부터의 50만개의 트레이닝 예에 대하여 엔드-투-엔드(end-to-end) 방식으로 함께 트레이닝되고 이어서 암 유발 돌연변이의 제2 데이터세트로부터의 5만개의 트레이닝 예에 대하여 트레이닝되는, 신경망 구현 시스템.
14. 제1 조항 내지 제13 조항 중 어느 한 조항에 있어서, 상기 변이체 분류자의 상기 컨볼루션 신경망과 상기 완전 연결 신경망은, 상기 제2 데이터세트로부터만 보류된 유효성확인 데이터에 대하여 엔드-투-엔드 방식으로 함께 테스트되는, 신경망 구현 시스템.
15. 제1 조항 내지 제14 조항 중 어느 한 조항에 있어서, 상기 컨볼루션층과 상기 완전 연결층의 각각에는 적어도 1개의 정류된 선형 유닛층이 후속하는, 신경망 구현 시스템.
16. 제1 조항 내지 제15 조항 중 어느 한 조항에 있어서, 상기 컨볼루션층과 상기 완전 연결층의 각각에는 적어도 1개의 일괄 정규화층이 후속하는, 신경망 구현 시스템.
17. 제1 조항 내지 제16 조항 중 어느 한 조항에 있어서, 상기 변이체에는 각 측면에 적어도 19개의 염기가 측접되는, 신경망 구현 시스템.
18. 제1 조항 내지 제17 조항 중 어느 한 조항에 있어서, 상기 중간 피처를 상기 메타데이터 피처들과 연쇄화함으로써 피처 서열을 유도하는 연쇄화기를 포함하도록 더 구성된, 신경망 구현 시스템.
19. 제1 조항 내지 제18 조항 중 어느 한 조항에 있어서, 상기 메타데이터 피처는 1차원 어레이로 인코딩되는, 신경망 구현 시스템.
20. 제1 조항 내지 제19 조항 중 어느 한 조항에 있어서, 상기 입력 서열은 n차원 어레이로 인코딩되되, n≥2인, 신경망 구현 시스템.
21. 제1 조항 내지 제20 조항 중 어느 한 조항에 있어서, 상기 컨볼루션층의 각각은 적어도 6개의 컨볼루션 필터를 갖는, 신경망 구현 시스템.
22. 변이체 분류의 신경망 구현 방법으로서,
입력 서열을 컨볼루션 신경망을 통해 처리하여 컨볼루션된 중간 피처를 생성하는 단계로서,
상기 컨볼루션 신경망은 적어도 2개의 컨볼루션층을 갖고, 상기 컨볼루션층의 각각은 일천 내지 수백만의 그라다언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖고,
상기 입력 서열은 표적 위치에서 각 측면에 적어도 10개의 염기가 측접된 변이체를 갖는, 상기 컨볼루션된 중간 피처를 생성하는 단계;
상기 변이체를 메타데이터 피처들의 세트와 상관짓는 단계로서,
상기 메타데이터 피처는 상기 변이체의 돌연변이 특성, 상기 변이체의 리드 맵핑 통계, 및 상기 변이체의 발생 빈도를 나타내는, 상기 상관짓는 단계; 및
피처 서열을 완전 연결 신경망을 통해 처리하여, 상기 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하는 단계를 포함하되,
상기 완전 연결 신경망은, 상기 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖고,
상기 피처 서열은, 상기 컨볼루션된 중간 피처와 상기 메타데이터 피처들의 조합으로부터 유도되는, 신경망 구현 방법.
23. 제22 조항에 있어서, 최종적으로 제1절을 인용하는 절들 각각을 구현하는, 신경망 구현 방법.
24. 변이체들을 분류하기 위한 컴퓨터 프로그램 명령어가 저장된 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령어는, 프로세서상에서 실행될 경우,
입력 서열을 컨볼루션 신경망을 통해 처리하여 컨볼루션된 중간 피처를 생성하는 단계로서,
상기 컨볼루션 신경망은 적어도 2개의 컨볼루션층을 갖고, 상기 컨볼루션층의 각각은 일천 내지 수백만의 그라다언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖고,
상기 입력 서열은 표적 위치에서 각 측면에 적어도 10개의 염기가 측접된 변이체를 갖는, 상기 컨볼루션된 중간 피처를 생성하는 단계;
상기 변이체를 메타데이터 피처들의 세트와 상관짓는 단계로서, 상기 메타데이터 피처는 상기 변이체의 돌연변이 특성, 상기 변이체의 리드 맵핑 통계, 및 상기 변이체의 발생 빈도를 나타내는, 상기 상관짓는 단계; 및
피처 서열을 완전 연결 신경망을 통해 처리하여, 상기 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하는 단계
를 포함하는 방법을 구현하고,
상기 완전 연결 신경망은, 상기 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖고,
상기 피처 서열은, 상기 컨볼루션된 중간 피처와 상기 메타데이터 피처들의 조합으로부터 유도되는, 비일시적 컴퓨터 판독가능 저장 매체.
25. 제24 조항에 있어서, 최종적으로 제1항을 인용하는 청구항들 각각을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
26. 신경망 구현 시스템으로서,
메모리에 연결되고 병렬로 동작하는 하나 이상의 프로세서상에서 실행되는 변이체 분류자를 포함하되, 상기 변이체 분류자는,
입력 서열을 처리하고 컨볼루션된 중간 피처를 생성하도록 트레이닝된 컨볼루션 신경망; 및
완전 연결 신경망을 포함하고,
상기 컨볼루션 신경망은 적어도 2개의 컨볼루션층을 갖고, 상기 컨볼루션층의 각각은 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖고,
상기 입력 서열은, 표적 위치에서 적어도 10개의 염기가 각 측면에 측접된 변이체를 갖고, 상기 변이체에 상관된 메타데이터 피처들의 세트를 갖고,
상기 메타데이터 피처는, 상기 변이체의 돌연변이 특성, 상기 변이체의 리드 맵핑 통계, 및 상기 변이체의 발생 빈도를 나타내고,
상기 완전 연결 신경망은, 상기 컨볼루션된 중간 피처를 처리하고 상기 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하도록 트레이닝되고,
상기 완전 연결 신경망은, 상기 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖는, 신경망 구현 시스템.
27. 제26 조항에 있어서, 또한, 상기 변이체를 상기 메타데이터 피처들과 상관짓는 메타데이터 상관기를 포함하도록 구성된, 신경망 구현 시스템.
28. 제26절 또는 제27 조항에 있어서, 제1 조항 내지 제17절의 각각을 구현하는, 신경망 구현 시스템.
29. 변이체 분류의 신경망 구현 방법으로서,
입력 서열을 컨볼루션 신경망을 통해 처리하여 컨볼루션된 중간 피처를 생성하는 단계로서,
상기 컨볼루션 신경망은 적어도 2개의 컨볼루션층을 갖고, 상기 컨볼루션층의 각각은 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖고,
상기 입력 서열은, 표적 위치에서 각 측면에 적어도 10개의 염기가 측접된 변이체를 갖고, 상기 변이체에 상관된 메타데이터 피처들의 세트를 갖고,
상기 메타데이터 피처는 상기 변이체의 돌연변이 특성, 상기 변이체의 리드 맵핑 통계, 및 상기 변이체의 발생 빈도를 나타내는, 상기 컨볼루션된 중간 피처를 생성하는 단계; 및
상기 컨볼루션된 중간 피처를 완전 연결 신경망을 통해 처리하여 상기 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하는 단계를 포함하되,
상기 완전 연결 신경망은, 상기 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖는, 신경망 구현 방법.
30. 제29 조항에 있어서, 제22절과 제23절의 각각을 구현하는, 신경망 구현 방법.
31. 변이체들을 분류하기 위한 컴퓨터 프로그램 명령어가 저장된 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령어는, 프로세서상에서 실행될 경우,
입력 서열을 컨볼루션 신경망을 통해 처리하여 컨볼루션된 중간 피처를 생성하는 단계로서,
상기 컨볼루션 신경망은 적어도 2개의 컨볼루션층을 갖고, 상기 컨볼루션층의 각각은 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖고,
상기 입력 서열은, 표적 위치에서 각 측면에 적어도 10개의 염기가 측접된 변이체를 갖고, 상기 변이체에 상관된 메타데이터 피처들의 세트를 갖고,
상기 메타데이터 피처는 상기 변이체의 돌연변이 특성, 상기 변이체의 리드 맵핑 통계, 및 상기 변이체의 발생 빈도를 나타내는, 상기 컨볼루션된 중간 피처를 생성하는 단계; 및
상기 컨볼루션된 중간 피처를 완전 연결 신경망을 통해 처리하여 상기 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하는 단계
를 포함하는 방법을 구현하고,
상기 완전 연결 신경망은, 상기 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖는, 비일시적 컴퓨터 판독가능 저장 매체.
32. 제31 조항에 있어서, 제22절, 제23절, 제29 조항 내지 제30절 중 하나 이상에 따른 방법을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
Claims (32)
- 신경망 구현 시스템으로서,
메모리에 연결되어 병렬로 동작하는 하나 이상의 프로세서상에서 실행되는 변이체 분류자(variant classifier);
메타데이터 상관기; 및
완전 연결 신경망(fully-connected neural network)을 포함하되,
상기 변이체 분류자는 적어도 2개의 컨볼루션층을 갖는 컨볼루션 신경망(convolutional neural network)을 갖고,
상기 컨볼루션층의 각각은,
표적 위치에서 각 측면에 적어도 10개의 염기가 측접된 변이체를 갖는 입력 서열을 처리하고,
컨볼루션된 중간 피처(intermediate convolved feature)를 생성하도록
일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖고,
상기 메타데이터 상관기는 상기 변이체를 메타데이터 피처들의 세트와 상관짓고,
상기 메타데이터 피처는, 상기 변이체의 돌연변이 특성, 상기 변이체의 리드 맵핑 통계(read mapping statistics) 및 상기 변이체의 발생 빈도를 나타내고,
상기 완전 연결 신경망은,
상기 컨볼루션된 중간 피처와 상기 메타데이터 피처들의 조합으로부터 유도된 피처 서열을 처리하고,
상기 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하도록
상기 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖는, 신경망 구현 시스템. - 제1항에 있어서, 상기 메타데이터 상관기는, 상기 변이체가 상이한 아미노산을 코딩하는 새로운 코돈을 생성하게끔 코돈을 변경하는 비동의 변이체(nonsynonymous variant)인지를 특정하는 아미노산 충격 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
- 제1항 또는 제2항에 있어서, 상기 메타데이터 상관기는, 상기 변이체가 단일 뉴클레오타이드 다형성(single-nucleotide polymorphism), 삽입 또는 결손인지의 유형을 특정하는 변이체 유형 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
- 제1항에 있어서, 상기 메타데이터 상관기는, 상기 변이체를 식별한 리드 맵핑의 품질 파라미터를 특정하는 리드 맵핑 통계 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
- 제1항에 있어서, 상기 메타데이터 상관기는, 서열분석된 모집단에서의 상기 변이체의 대립유전자 빈도를 특정하는 모집단 빈도 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
- 제1항에 있어서, 상기 메타데이터 상관기는, 서열분석된 모집단으로부터 계층화된 인종 하위 집단에서의 상기 변이체의 대립유전자 빈도를 특정하는 하위 집단 빈도 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
- 제1항에 있어서, 상기 메타데이터 상관기는, 다수의 종에 걸쳐 상기 표적 위치의 보전성을 특정하는 진화 보존 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
- 제1항에 있어서, 상기 메타데이터 상관기는, 임상 테스트로부터 결정되는 바와 같이 상기 변이체의 임상 효과, 약물 감도, 및 조직 적합성을 특정하는 임상적 유의성 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
- 제1항에 있어서, 상기 메타데이터 상관기는, 상기 변이체에 의한 아미노산 치환으로부터 발생하는 단백질의 기능성에 대한 상기 변이체의 영향을 특정하는 기능적 충격 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
- 제1항에 있어서, 상기 메타데이터 상관기는, 상기 변이체에 연관된 종양 샘플을 제공한 개체의 인종 메이크업(ethnic makeup)을 식별하는 가능성을 특정하는 인종 예측 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
- 제1항에 있어서, 상기 메타데이터 상관기는, 서열분석된 암성 종양에서의 상기 변이체의 빈도를 특정하는 종양 빈도 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
- 제1항에 있어서, 상기 메타데이터 상관기는, 참조 서열의 상기 표적 위치에서 상기 변이체에 의해 돌연변이된 적어도 하나의 염기를 특정하는 대체 대립유전자 피처를 상기 변이체와 상관짓도록 더 구성된, 신경망 구현 시스템.
- 제1항에 있어서, 상기 변이체 분류자의 상기 컨볼루션 신경망과 상기 완전 연결 신경망은, 암 유발 돌연변이의 제1 데이터세트로부터의 50만개의 트레이닝 예에 대하여 엔드-투-엔드(end-to-end) 방식으로 함께 트레이닝되고 이어서 암 유발 돌연변이의 제2 데이터세트로부터의 5만개의 트레이닝 예에 대하여 트레이닝되는, 신경망 구현 시스템.
- 제13항에 있어서, 상기 변이체 분류자의 상기 컨볼루션 신경망과 상기 완전 연결 신경망은, 상기 제2 데이터세트로부터만 보류된 유효성확인 데이터에 대하여 엔드-투-엔드 방식으로 함께 테스트되는, 신경망 구현 시스템.
- 제1항에 있어서, 상기 컨볼루션층과 상기 완전 연결층의 각각에는 적어도 1개의 정류된 선형 유닛층이 후속하는, 신경망 구현 시스템.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 변이체 분류의 신경망 구현 방법으로서,
입력 서열을 컨볼루션 신경망을 통해 처리하여 컨볼루션된 중간 피처를 생성하는 단계로서,
상기 컨볼루션 신경망은 적어도 2개의 컨볼루션층을 갖고, 상기 컨볼루션층의 각각은 일천 내지 수백만의 그라다언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖고,
상기 입력 서열은 표적 위치에서 각 측면에 적어도 10개의 염기가 측접된 변이체를 갖는, 상기 컨볼루션된 중간 피처를 생성하는 단계;
상기 변이체를 메타데이터 피처들의 세트와 상관짓는 단계로서, 상기 메타데이터 피처는
상기 변이체의 돌연변이 특성, 상기 변이체의 리드 맵핑 통계, 및 상기 변이체의 발생 빈도를 나타내는, 상기 상관짓는 단계; 및
피처 서열을 완전 연결 신경망을 통해 처리하여, 상기 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하는 단계를 포함하되,
상기 완전 연결 신경망은, 상기 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖고,
상기 피처 서열은, 상기 컨볼루션된 중간 피처와 상기 메타데이터 피처들의 조합으로부터 유도되는, 신경망 구현 방법. - 삭제
- 변이체들을 분류하기 위한 컴퓨터 프로그램 명령어가 저장된 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령어는, 프로세서상에서 실행될 경우,
입력 서열을 컨볼루션 신경망을 통해 처리하여 컨볼루션된 중간 피처를 생성하는 단계로서,
상기 컨볼루션 신경망은 적어도 2개의 컨볼루션층을 갖고, 상기 컨볼루션층의 각각은 일천 내지 수백만의 그라다언트 업데이트 반복에 걸쳐 트레이닝된 적어도 5개의 컨볼루션 필터를 갖고,
상기 입력 서열은 표적 위치에서 각 측면에 적어도 10개의 염기가 측접된 변이체를 갖는, 상기 컨볼루션된 중간 피처를 생성하는 단계;
상기 변이체를 메타데이터 피처들의 세트와 상관짓는 단계로서, 상기 메타데이터 피처는
상기 변이체의 돌연변이 특성, 상기 변이체의 리드 맵핑 통계, 및 상기 변이체의 발생 빈도를 나타내는, 상기 상관짓는 단계; 및
피처 서열을 완전 연결 신경망을 통해 처리하여, 상기 변이체가 체세포 변이체, 생식세포 변이체, 또는 노이즈일 가능성에 대한 분류 점수를 출력하는 단계
를 포함하는 방법을 구현하고,
상기 완전 연결 신경망은, 상기 일천 내지 수백만의 그라디언트 업데이트 반복에 걸쳐 트레이닝된 적어도 2개의 완전 연결층을 갖고,
상기 피처 서열은, 상기 컨볼루션된 중간 피처와 상기 메타데이터 피처들의 조합으로부터 유도되는, 비일시적 컴퓨터 판독가능 저장 매체. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020227010332A KR102448484B1 (ko) | 2018-04-12 | 2019-04-12 | 심층 신경망에 기반한 변이체 분류자 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862656741P | 2018-04-12 | 2018-04-12 | |
US62/656,741 | 2018-04-12 | ||
NL2020861 | 2018-05-02 | ||
NL2020861A NL2020861B1 (en) | 2018-04-12 | 2018-05-02 | Variant classifier based on deep neural networks |
PCT/US2019/027362 WO2019200338A1 (en) | 2018-04-12 | 2019-04-12 | Variant classifier based on deep neural networks |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227010332A Division KR102448484B1 (ko) | 2018-04-12 | 2019-04-12 | 심층 신경망에 기반한 변이체 분류자 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200011471A KR20200011471A (ko) | 2020-02-03 |
KR102381477B1 true KR102381477B1 (ko) | 2022-03-31 |
Family
ID=62218283
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197038076A KR102381477B1 (ko) | 2018-04-12 | 2019-04-12 | 심층 신경망에 기반한 변이체 분류자 |
KR1020227010332A KR102448484B1 (ko) | 2018-04-12 | 2019-04-12 | 심층 신경망에 기반한 변이체 분류자 |
KR1020227033229A KR102562419B1 (ko) | 2018-04-12 | 2019-04-12 | 심층 신경망에 기반한 변이체 분류자 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227010332A KR102448484B1 (ko) | 2018-04-12 | 2019-04-12 | 심층 신경망에 기반한 변이체 분류자 |
KR1020227033229A KR102562419B1 (ko) | 2018-04-12 | 2019-04-12 | 심층 신경망에 기반한 변이체 분류자 |
Country Status (10)
Country | Link |
---|---|
EP (1) | EP3622524A1 (ko) |
JP (3) | JP6907344B2 (ko) |
KR (3) | KR102381477B1 (ko) |
CN (1) | CN110832597A (ko) |
AU (3) | AU2019253021A1 (ko) |
CA (1) | CA3065784A1 (ko) |
IL (1) | IL271092A (ko) |
NL (1) | NL2020861B1 (ko) |
NZ (1) | NZ759881A (ko) |
SG (1) | SG11201913009RA (ko) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402951B (zh) * | 2020-03-17 | 2022-07-12 | 至本医疗科技(上海)有限公司 | 拷贝数变异预测方法、装置、计算机设备和存储介质 |
CN111584002B (zh) * | 2020-05-22 | 2022-04-29 | 至本医疗科技(上海)有限公司 | 用于检测肿瘤突变负荷的方法、计算设备和计算机存储介质 |
CN111755065B (zh) * | 2020-06-15 | 2024-05-17 | 重庆邮电大学 | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 |
CN111933217B (zh) * | 2020-06-17 | 2024-04-05 | 西安电子科技大学 | 一种基于深度学习的dna模体长度预测方法及预测系统 |
CN112580288B (zh) * | 2020-12-03 | 2022-04-12 | 复旦大学 | 基于多梯度神经网络的半导体器件特性建模方法和系统 |
CN112528650B (zh) * | 2020-12-18 | 2024-04-02 | 恩亿科(北京)数据科技有限公司 | 一种Bert模型预训练方法、系统及计算机设备 |
CN113055393B (zh) * | 2021-03-26 | 2022-08-26 | 支付宝(杭州)信息技术有限公司 | 一种安全服务化方法、装置以及设备 |
CN113517021B (zh) * | 2021-06-09 | 2022-09-06 | 海南精准医疗科技有限公司 | 一种癌症驱动基因预测方法 |
CN113658641B (zh) * | 2021-07-20 | 2024-07-26 | 北京大学 | 一种噬菌体分类方法、装置、设备及存储介质 |
CN113781551B (zh) * | 2021-09-06 | 2023-10-31 | 中南民族大学 | 基于视觉感知的茶园植物状态监测管理系统及其方法 |
CN113876437B (zh) * | 2021-09-13 | 2024-02-23 | 上海微创医疗机器人(集团)股份有限公司 | 存储介质、机器人系统以及计算机设备 |
WO2023087277A1 (zh) * | 2021-11-19 | 2023-05-25 | 深圳华大基因股份有限公司 | 序列变异分析方法、系统以及存储介质 |
KR102544002B1 (ko) * | 2022-03-10 | 2023-06-16 | 주식회사 아이엠비디엑스 | 체세포 변이 및 생식세포 변이를 구별하는 방법 |
US20230360733A1 (en) * | 2022-05-05 | 2023-11-09 | Life Technologies Corporation | Methods for deep artificial neural networks for signal error correction |
CN115221871B (zh) * | 2022-06-24 | 2024-02-20 | 毕开龙 | 多特征融合的英文科技文献关键词提取方法 |
CN115019305B (zh) * | 2022-08-08 | 2022-11-11 | 成都西交智汇大数据科技有限公司 | 一种根尖细胞的识别方法、装置、设备及可读存储介质 |
WO2024072164A1 (en) * | 2022-09-30 | 2024-04-04 | Seegene, Inc. | Methods and devices for predicting dimerization in nucleic acid amplification reaction |
WO2024086143A1 (en) * | 2022-10-17 | 2024-04-25 | Proteinea Inc. | Native expansion of a sparse training dataset into a dense training dataset for supervised training of a synonymous variant sequence generator |
CN115662520B (zh) * | 2022-10-27 | 2023-04-14 | 黑龙江金域医学检验实验室有限公司 | Bcr/abl1融合基因的检测方法及相关设备 |
CN116720123B (zh) * | 2023-08-10 | 2023-11-28 | 中南大学 | 一种账户识别方法、装置、终端设备及介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE9702008D0 (sv) * | 1997-05-28 | 1997-05-28 | Pharmacia Biotech Ab | A method and a system for nucleic acid seouence analysis |
CN105980578B (zh) * | 2013-12-16 | 2020-02-14 | 深圳华大智造科技有限公司 | 用于使用机器学习进行dna测序的碱基判定器 |
WO2016172464A1 (en) * | 2015-04-22 | 2016-10-27 | Genepeeks, Inc. | Device, system and method for assessing risk of variant-specific gene dysfunction |
US10185803B2 (en) | 2015-06-15 | 2019-01-22 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
CA2894317C (en) * | 2015-06-15 | 2023-08-15 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
WO2017114810A1 (en) * | 2015-12-31 | 2017-07-06 | Vito Nv | Methods, controllers and systems for the control of distribution systems using a neural network arhcitecture |
JP2019515369A (ja) * | 2016-03-29 | 2019-06-06 | リジェネロン・ファーマシューティカルズ・インコーポレイテッドRegeneron Pharmaceuticals, Inc. | 遺伝的バリアント−表現型解析システムおよび使用方法 |
WO2018006152A1 (en) * | 2016-07-04 | 2018-01-11 | Deep Genomics Incorporated | Systems and methods for generating and training convolutional neural networks using biological sequences and relevance scores derived from structural, biochemical, population and evolutionary data |
US20180060482A1 (en) * | 2016-08-31 | 2018-03-01 | Intermountain Invention Management, Llc | Interpreting genomic results and providing targeted treatment options in cancer patients |
-
2018
- 2018-05-02 NL NL2020861A patent/NL2020861B1/en active
-
2019
- 2019-04-12 EP EP19721182.4A patent/EP3622524A1/en active Pending
- 2019-04-12 SG SG11201913009RA patent/SG11201913009RA/en unknown
- 2019-04-12 AU AU2019253021A patent/AU2019253021A1/en not_active Abandoned
- 2019-04-12 CN CN201980003278.5A patent/CN110832597A/zh active Pending
- 2019-04-12 JP JP2019567521A patent/JP6907344B2/ja active Active
- 2019-04-12 KR KR1020197038076A patent/KR102381477B1/ko active IP Right Grant
- 2019-04-12 CA CA3065784A patent/CA3065784A1/en active Pending
- 2019-04-12 KR KR1020227010332A patent/KR102448484B1/ko active IP Right Grant
- 2019-04-12 NZ NZ759881A patent/NZ759881A/en unknown
- 2019-04-12 KR KR1020227033229A patent/KR102562419B1/ko active IP Right Grant
- 2019-12-02 IL IL271092A patent/IL271092A/en unknown
-
2021
- 2021-06-30 JP JP2021108694A patent/JP7143486B2/ja active Active
- 2021-10-26 AU AU2021257920A patent/AU2021257920A1/en not_active Abandoned
-
2022
- 2022-09-14 JP JP2022146121A patent/JP7302081B2/ja active Active
-
2023
- 2023-12-14 AU AU2023282274A patent/AU2023282274A1/en active Pending
Non-Patent Citations (2)
Title |
---|
Steven T. Kothen-Hill 외, DEEP LEARNING MUTATION PREDICTION ENABLES EARLY STAGE LUNG CANCER DETECTION IN LIQUID BIOPSY, ICLR 2018 Conference, 2018.02.16., pp1-13.* |
국제공개공보 WO2018/006152(2018.01.11.) 1부.* |
Also Published As
Publication number | Publication date |
---|---|
KR102448484B1 (ko) | 2022-09-28 |
JP7302081B2 (ja) | 2023-07-03 |
AU2019253021A1 (en) | 2019-12-19 |
AU2023282274A1 (en) | 2024-01-18 |
NL2020861B1 (en) | 2019-10-22 |
KR20220137142A (ko) | 2022-10-11 |
KR20200011471A (ko) | 2020-02-03 |
JP2021170350A (ja) | 2021-10-28 |
SG11201913009RA (en) | 2020-01-30 |
JP2020525886A (ja) | 2020-08-27 |
IL271092A (en) | 2020-01-30 |
JP7143486B2 (ja) | 2022-09-28 |
CN110832597A (zh) | 2020-02-21 |
KR102562419B1 (ko) | 2023-08-01 |
JP2022184947A (ja) | 2022-12-13 |
KR20220043252A (ko) | 2022-04-05 |
AU2021257920A1 (en) | 2021-11-18 |
NZ759881A (en) | 2022-09-30 |
JP6907344B2 (ja) | 2021-07-21 |
EP3622524A1 (en) | 2020-03-18 |
CA3065784A1 (en) | 2019-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102381477B1 (ko) | 심층 신경망에 기반한 변이체 분류자 | |
US20190318806A1 (en) | Variant Classifier Based on Deep Neural Networks | |
US12073922B2 (en) | Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs) | |
KR102273717B1 (ko) | 심층 학습 기반 변이체 분류자 | |
KR102314219B1 (ko) | 심층 컨볼루션 신경망의 앙상블을 트레이닝하기 위한 반감독 학습 | |
KR102371706B1 (ko) | 서열-특정 오류(sse)를 유발시키는 서열 패턴을 식별하기 위한 심층 학습-기반 프레임워크 | |
NL2021473B1 (en) | DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs) | |
NZ791625A (en) | Variant classifier based on deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent | ||
GRNT | Written decision to grant |