RU2813655C2 - Способы и композиции для обнаружения соматического варианта - Google Patents
Способы и композиции для обнаружения соматического варианта Download PDFInfo
- Publication number
- RU2813655C2 RU2813655C2 RU2020140876A RU2020140876A RU2813655C2 RU 2813655 C2 RU2813655 C2 RU 2813655C2 RU 2020140876 A RU2020140876 A RU 2020140876A RU 2020140876 A RU2020140876 A RU 2020140876A RU 2813655 C2 RU2813655 C2 RU 2813655C2
- Authority
- RU
- Russia
- Prior art keywords
- variants
- germline
- variant
- database
- paragraphs
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 230000000392 somatic effect Effects 0.000 title description 54
- 239000000203 mixture Substances 0.000 title 1
- 210000004602 germ cell Anatomy 0.000 claims abstract description 201
- 108700028369 Alleles Proteins 0.000 claims abstract description 164
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 98
- 239000012472 biological sample Substances 0.000 claims abstract description 28
- 230000000869 mutational effect Effects 0.000 claims abstract description 28
- 210000004881 tumor cell Anatomy 0.000 claims abstract description 19
- 206010069754 Acquired gene mutation Diseases 0.000 claims abstract description 17
- 230000037439 somatic mutation Effects 0.000 claims abstract description 17
- 239000000523 sample Substances 0.000 claims description 72
- 230000002759 chromosomal effect Effects 0.000 claims description 26
- 210000000349 chromosome Anatomy 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 15
- 210000004369 blood Anatomy 0.000 claims description 7
- 239000008280 blood Substances 0.000 claims description 7
- 210000002966 serum Anatomy 0.000 claims description 6
- 239000000126 substance Substances 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract 1
- 238000012163 sequencing technique Methods 0.000 description 17
- 210000004027 cell Anatomy 0.000 description 16
- 238000001914 filtration Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000007482 whole exome sequencing Methods 0.000 description 8
- 229940076838 Immune checkpoint inhibitor Drugs 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 239000012274 immune-checkpoint protein inhibitor Substances 0.000 description 7
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 241000270322 Lepidosauria Species 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 229940124597 therapeutic agent Drugs 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 241000995070 Nirvana Species 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 230000007614 genetic variation Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 201000001441 melanoma Diseases 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 150000007523 nucleic acids Chemical class 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 241000272517 Anseriformes Species 0.000 description 2
- 208000003174 Brain Neoplasms Diseases 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 239000012275 CTLA-4 inhibitor Substances 0.000 description 2
- 229940045513 CTLA4 antagonist Drugs 0.000 description 2
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 2
- 206010061968 Gastric neoplasm Diseases 0.000 description 2
- 208000008839 Kidney Neoplasms Diseases 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 2
- 239000012270 PD-1 inhibitor Substances 0.000 description 2
- 239000012668 PD-1-inhibitor Substances 0.000 description 2
- 239000012271 PD-L1 inhibitor Substances 0.000 description 2
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 2
- 241000270666 Testudines Species 0.000 description 2
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 2
- 229960003852 atezolizumab Drugs 0.000 description 2
- 229950002916 avelumab Drugs 0.000 description 2
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 229950009791 durvalumab Drugs 0.000 description 2
- 208000023965 endometrium neoplasm Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000019688 fish Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 229960005386 ipilimumab Drugs 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 208000037841 lung tumor Diseases 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 229960003301 nivolumab Drugs 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 201000002528 pancreatic cancer Diseases 0.000 description 2
- 229940121655 pd-1 inhibitor Drugs 0.000 description 2
- 229940121656 pd-l1 inhibitor Drugs 0.000 description 2
- 229960002621 pembrolizumab Drugs 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 229950007213 spartalizumab Drugs 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000025421 tumor of uterus Diseases 0.000 description 2
- 206010046766 uterine cancer Diseases 0.000 description 2
- 241000270728 Alligator Species 0.000 description 1
- 241000252073 Anguilliformes Species 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 241000252229 Carassius auratus Species 0.000 description 1
- 241000269333 Caudata Species 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241000251730 Chondrichthyes Species 0.000 description 1
- 241000272194 Ciconiiformes Species 0.000 description 1
- 241001481833 Coryphaena hippurus Species 0.000 description 1
- 241000270722 Crocodylidae Species 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241001137350 Fratercula Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 241000270349 Iguana Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000282577 Pan troglodytes Species 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 241000282405 Pongo abelii Species 0.000 description 1
- 241000283984 Rodentia Species 0.000 description 1
- 241000270295 Serpentes Species 0.000 description 1
- 102220497176 Small vasohibin-binding protein_T47D_mutation Human genes 0.000 description 1
- 241001415849 Strigiformes Species 0.000 description 1
- 241000271567 Struthioniformes Species 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- 241000269959 Xiphias gladius Species 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 241001233037 catfish Species 0.000 description 1
- 235000013330 chicken meat Nutrition 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 229940127089 cytotoxic agent Drugs 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- LNNWVNGFPYWNQE-GMIGKAJZSA-N desomorphine Chemical compound C1C2=CC=C(O)C3=C2[C@]24CCN(C)[C@H]1[C@@H]2CCC[C@@H]4O3 LNNWVNGFPYWNQE-GMIGKAJZSA-N 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000004696 endometrium Anatomy 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011275 oncology therapy Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000002381 plasma Anatomy 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 235000021335 sword fish Nutrition 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 210000004291 uterus Anatomy 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
Images
Abstract
Изобретение относится к биотехнологии. Описан способ идентификации соматических мутаций во множестве вариантов, включающий: получение множества вариантов, содержащего соматические мутации и варианты зародышевой линии; применение фильтра базы данных к указанному множеству вариантов. При этом осуществляют: определение первых вариантов зародышевой линии в указанном множестве вариантов, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей. Далее применяют фильтр близости к указанному множеству вариантов, включая: группировку вариантов из указанного множества вариантов на множество групп, причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу, определение вариантов из базы данных в указанном множестве вариантов, причем вариант из базы данных присутствует во втором референсном наборе вариантов, и определение вторых вариантов зародышевой линии в указанном множестве вариантов, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и указанный второй вариант зародышевой линии. Затем определяют соматические мутации в указанном множестве вариантов путем удаления указанных идентифицированных первого и второго вариантов зародышевой линии из указанного множества вариантов. Также раскрыт способ определения мутационной нагрузки опухоли для опухоли, включающий: получение данных о последовательности из биологического образца, содержащего опухолевую клетку; определение множества вариантов на основании указанных данных о последовательности; и определение количества соматических мутаций в указанном множестве вариантов в соответствии с указанным выше способом, причем указанное количество соматических мутаций представляет собой мутационную нагрузку опухоли для опухоли. Также описан компьютеризованный способ идентификации соматических мутаций во множестве вариантов. Изобретение расширяет арсенал средств диагностики опухоли. 4 н. и 38 з.п. ф-лы, 11 ил., 3 табл., 5 пр.
Description
ОБЛАСТЬ ТЕХНИКИ
[0001] Некоторые варианты реализации способов и систем, предложенных в настоящей заявке, относятся к определению варианта на основании данных о последовательности, полученных из одного образца. Согласно некоторым вариантам реализации настоящего изобретения соматический вариант можно отличить от варианта зародышевой линии на основании частоты вариантного аллеля варианта в образце и его расположения в геноме.
УРОВЕНЬ ТЕХНИКИ
[0002] Мутация ДНК является причиной рака и на ней сосредоточено внимание при исследованиях и лечении рака. Секвенирование следующего поколения (NGS) представляет собой перспективную технологию обнаружения мутаций de novo благодаря огромному числу считываний (reads), которые могут выдавать современные секвенаторы. Теоретически, все мутации или варианты в геномном образце, независимо от частоты вариантного аллеля (VAF) или области генома, можно наблюдать при достаточной глубине считывания. Однако достоверное определение вариантов является непростой задачей из-за шума в считываниях. Было разработано несколько инструментов биоинформатики для выявления вариантов из считываний при секвенировании, и такие процедуры, как правило, состоят из трех компонентов: обработки считывания, картирования и выравнивания, а также определения варианта.
[0003] Для обработки считывания основания с низким качеством сигнала, обычно рядом с 3'-концом считываний, и экзогенные последовательности, такие как адаптеры секвенирования, удаляют из инструментов обработки считываний образца ДНК. Во-вторых, очищенные считывания картируют с использованием инструментов картирования и выравнивания, чтобы определить, откуда могут происходить варианты в референсном геноме, а затем выравнивают по парам оснований. На третьем этапе способ определения варианта применяют для отделения фактических вариантов от артефактов, возникающих в результате подготовки библиотеки, обогащения образцов, секвенирования и картирования/выравнивания. Все еще существует потребность в улучшенных способах определения варианта на основании данных о последовательности.
КРАТКОЕ ОПИСАНИЕ
[0004] Некоторые варианты реализации настоящего изобретения включают способ идентификации соматических вариантов во множестве вариантов, включающий: (а) получение множества вариантов, содержащего соматические варианты и варианты зародышевой линии; (b) применение фильтра базы данных к множеству вариантов, включающее: определение первых вариантов зародышевой линии во множестве вариантов, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей; (c) применение фильтра близости к множеству вариантов, включающее: (i) группировку (binning) вариантов из множества вариантов на множество групп (bins), причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу, (ii) определение вариантов из базы данных во множестве вариантов, причем вариант из базы данных присутствует во втором референсном наборе вариантов, и (iii) определение вторых вариантов зародышевой линии во множестве вариантов, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и второй вариант зародышевой линии; и (d) определение соматических вариантов во множестве вариантов путем удаления идентифицированных первого и второго вариантов зародышевой линии из множества вариантов.
[0005] Согласно некоторым вариантам реализации настоящего изобретения (b) и (c) выполняют последовательно.
[0006] Согласно некоторым вариантам реализации настоящего изобретения (c) выполняют перед (b).
[0007] Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 5. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 10.
[0008] Согласно некоторым вариантам реализации настоящего изобретения первый и второй референсный набор вариантов представляет собой один и тот же референсный набор.
[0009] Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит базу данных вариантов для множества индивидуумов. Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит по меньшей мере одну базу данных, выбранную из агрегированной базы данных генома (gnomAD) и базы данных «1000 геномов» (1000 genome database).
[00010] Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одного и того же хромосомного плеча. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах области 10 млн. п. о.
[00011] Согласно некоторым вариантам реализации настоящего изобретения применение фильтра близости также включает идентификацию второго варианта зародышевой линии, имеющего частоту аллеля, которая превышает или равна 0,9.
[00012] Согласно некоторым вариантам реализации настоящего изобретения применение фильтра близости также включает идентификацию второго варианта зародышевой линии во множестве вариантов, причем указанный второй вариант зародышевой линии представляет собой вариант из базы данных, присутствующий во втором референсном наборе вариантов.
[00013] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум 0,05 от частоты аллеля второго варианта зародышевой линии.
[00014] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум два стандартных отклонения от биномиального распределения частоты аллеля второго варианта зародышевой линии и центрированный по частоте аллеля второго варианта зародышевой линии.
[00015] Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере пяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере десяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии.
[00016] Согласно некоторым вариантам реализации настоящего изобретения (а) включает: получение данных о последовательности из биологического образца, содержащего опухолевую клетку. Некоторые варианты реализации настоящего изобретения также включают выравнивание данных о последовательности с референсной последовательностью и идентификацию вариантов в данных о последовательности.
[00017] Согласно некоторым вариантам реализации настоящего изобретения биологический образец, содержащий опухолевую клетку, выбран из образца сыворотки, образца кала, образца крови, образца опухоли. Согласно некоторым вариантам реализации настоящего изобретения образец опухоли зафиксирован.
[00018] Некоторые варианты реализации настоящего изобретения включают способ определения мутационной нагрузки опухоли для опухоли, включающий: получение данных о последовательности из биологического образца, содержащего опухолевую клетку; определение множества вариантов на основании данных о последовательности; и определение количества соматических вариантов во множестве вариантов в соответствии со способом согласно любому из вышеупомянутых вариантов реализации, причем указанное количество соматических вариантов представляет собой мутационную нагрузку опухоли для опухоли.
[00019] Некоторые варианты реализации настоящего изобретения включают способ лечения опухоли, включающий: определение опухоли, имеющей мутационную нагрузку опухоли, которая превышает или равна 10 соматическим вариантам, в соответствии со способом определения мутационной нагрузки опухоли для опухоли; и лечение опухоли путем введения эффективного количества ингибитора контрольной точки.
[00020] Согласно некоторым вариантам реализации настоящего изобретения опухоль выбрана из группы, состоящей из колоректальной опухоли, опухоли легких, опухоли эндометрия, опухоли матки, опухоли желудка, меланомы, опухоли молочной железы, опухоли поджелудочной железы, опухоли почек, опухоли мочевого пузыря и опухоли головного мозга.
[00021] Согласно некоторым вариантам реализации настоящего изобретения ингибитор контрольной точки выбран из группы, состоящей из ингибитора CTLA-4, ингибитора PD-1 и ингибитора PD-L1. Согласно некоторым вариантам реализации настоящего изобретения ингибитор контрольной точки выбран из группы, состоящей из ипилимумаба, ниволумаба, пембролизумаба, спартализумаба, атезолизумаба, авелумаба и дурвалумаба.
[00022] Некоторые варианты реализации настоящего изобретения включают электронную систему для анализа данных о генетической изменчивости, содержащую: модуль информатики, работающий на процессоре и адаптированный для идентификации множества вариантов на основании данных о последовательности из биологического образца, содержащего опухолевую клетку, причем указанное множество вариантов содержит соматические варианты и варианты зародышевой линии; модуль фильтра базы данных, адаптированный для удаления первых вариантов зародышевой линии из множества вариантов, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей; модуль фильтра близости, адаптированный для удаления вторых вариантов зародышевой линии из множества вариантов, причем указанный модуль фильтра близости, содержит: подмодуль группировки, адаптированный для выдачи множества групп, причем каждая группа содержит варианты из множества вариантов, расположенные в одной и той же области генома, подмодуль идентификации, адаптированный для выдачи вариантов из базы данных во множестве вариантов, причем вариант из базы данных присутствует во втором референсном наборе вариантов, и подмодуль удаления, адаптированный для удаления вторых вариантов зародышевой линии из множества вариантов, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и второй вариант зародышевой линии; и модуль отображения, адаптированный для выдачи вариантов, не удаленных из множества вариантов.
[00023] Согласно некоторым вариантам реализации настоящего изобретения модуль информатики содержит инструмент аннотации варианта.
[00024] Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 5. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 10.
[00025] Согласно некоторым вариантам реализации настоящего изобретения первый и второй референсный набор вариантов представляет собой один и тот же референсный набор.
[00026] Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит базу данных вариантов для множества индивидуумов. Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит по меньшей мере одну базу данных, выбранную из агрегированной базы данных генома (gnomAD) и базы данных «1000 геномов».
[00027] Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одного и того же хромосомного плеча. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах области 10 млн. п.о.
[00028] Согласно некоторым вариантам реализации настоящего изобретения подмодуль удаления адаптирован для удаления варианта, имеющего частоту аллеля, которая превышает или равна 0,9, из множества вариантов.
[00029] Согласно некоторым вариантам реализации настоящего изобретения подмодуль удаления адаптирован для удаления варианта из базы данных, присутствующего во втором референсном наборе вариантов, из множества вариантов.
[00030] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум 0,05 от частоты аллеля второго варианта зародышевой линии.
[00031] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум два стандартных отклонения от биномиального распределения частоты аллеля второго варианта зародышевой линии и центрированный по частоте аллеля второго варианта зародышевой линии.
[00032] Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере пяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере десяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии.
[00033] Согласно некоторым вариантам реализации настоящего изобретения биологический образец, содержащий опухолевую клетку, выбран из образца сыворотки, образца кала, образца крови, образца опухоли. Согласно некоторым вариантам реализации настоящего изобретения образец опухоли зафиксирован.
[00034] Некоторые варианты реализации настоящего изобретения включают компьютеризованный способ идентификации соматических вариантов во множестве вариантов, включающий: выполнение способа согласно любому из вышеупомянутых способов.
[00035] Некоторые варианты реализации настоящего изобретения включают компьютеризованный способ идентификации соматических вариантов во множестве вариантов, включающий: (a) получение множества вариантов на основании данных о последовательности из биологического образца, содержащего опухолевую клетку, причем указанное множество вариантов содержит соматические варианты и варианты зародышевой линии; (b) применение фильтра базы данных к множеству вариантов, включающее: получение индекса документов для множества вариантов, поиск в первом референсном наборе вариантов с использованием указанного индекса для идентификации первых вариантов зародышевой линии в указанном индексе, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей, и удаление идентифицированных первых вариантов зародышевой линии из указанного индекса с получением индекса первых отфильтрованных вариантов; (c) применение фильтра близости к индексу первых отфильтрованных вариантов, включающее: (i) получение множества групп для различных областей генома, (ii) группировку вариантов индекса первых отфильтрованных вариантов, причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу, (iii) поиск во втором референсном наборе вариантов с использованием указанного индекса первых отфильтрованных вариантов для идентификации вариантов из базы данных в указанном индексе первых отфильтрованных вариантов, (iii) получение индекса вторых вариантов зародышевой линии из указанного индекса первых отфильтрованных вариантов путем идентификации вторых вариантов зародышевой линии, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и второй вариант зародышевой линии, и (iv) удаление идентифицированных вторых вариантов зародышевой линии из указанного индекса первых отфильтрованных вариантов с получением индекса соматических вариантов, что приводит к идентификации соматических вариантов во множестве вариантов.
[00036] Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 5. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 10.
[00037] Согласно некоторым вариантам реализации настоящего изобретения первый и второй референсный набор вариантов представляет собой один и тот же референсный набор.
[00038] Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит базу данных вариантов для множества индивидуумов. Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит по меньшей мере одну базу данных, выбранную из агрегированной базы данных генома (gnomAD) и базы данных «1000 геномов».
[00039] Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одного и того же хромосомного плеча. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах области 10 млн. п. о.
[00040] Согласно некоторым вариантам реализации настоящего изобретения получение индекса вторых отфильтрованных вариантов также включает идентификацию второго варианта зародышевой линии, имеющего частоту аллеля, которая превышает или равна 0,9.
[00041] Согласно некоторым вариантам реализации настоящего изобретения получение индекса вторых отфильтрованных вариантов также включает идентификацию второго варианта зародышевой линии во множестве вариантов, причем указанный второй вариант зародышевой линии представляет собой вариант из базы данных, присутствующий во втором референсном наборе вариантов.
[00042] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум 0,05 от частоты аллеля второго варианта зародышевой линии.
[00043] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум два стандартных отклонения от биномиального распределения частоты аллеля второго варианта зародышевой линии и центрированный по частоте аллеля второго варианта зародышевой линии.
[00044] Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере пяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере десяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии.
[00045] Согласно некоторым вариантам реализации настоящего изобретения биологический образец, содержащий опухолевую клетку, выбран из образца сыворотки, образца кала, образца крови, образца опухоли. Согласно некоторым вариантам реализации настоящего изобретения образец опухоли зафиксирован.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[00046] ФИГ. 1 изображает примерный вариант реализации рабочего процесса, который включает получение данных о последовательности, таких как файл VCF, идентификацию и аннотирование вариантов в данных, идентификацию и фильтрацию варианта зародышевой линии и выдачу таблицы вариантов, в которой указан статус вариантов.
[00047] ФИГ. 2А представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами (черные круги) и вариантами зародышевой линии (серые круги).
[00048] ФИГ. 2B представляет собой график, показывающий VAF для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги).
[00049] ФИГ. 3 представляет собой график, показывающий VAF для различных вариантов в соответствии с хромосомным расположением для хромосом 1-7 для каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), а также увеличение для вариантов, расположенных на хромосоме 7, в которой был выбран конкретный соматический вариант, определенный с помощью фильтра, и диапазон, полученный из выбранного варианта.
[00050] ФИГ. 4A представляет собой график, показывающий VAF для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), отфильтрованными с применением только фильтра базы данных.
[00051] ФИГ. 4B представляет собой график, показывающий VAF для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), отфильтрованными с применением только фильтра базы данных, а также фильтра близости.
[00052] На ФИГ. 5 изображен обзор примерного варианта реализации рабочего процесса, который включает получение фиксированных формалином и залитых парафином (FFPE) образцов, получение данных о последовательности и анализ данных о последовательности.
[00053] На ФИГ. 6 изображен примерный вариант рабочего процесса, который включает фильтрацию вариантов зародышевой линии из идентифицированных вариантов с использованием фильтра базы данных и фильтра близости и вычисление мутационной нагрузки опухоли.
[00054] ФИГ. 7 представляет собой линейный график, показывающий распределение количества оставшихся вариантов зародышевой линии после фильтрации с использованием только базы данных (пики на графике при примерно 3 остатках зародышевой линии/млн. п. о.) и гибридной стратегии (пики на графике при примерно 0 остатках зародышевой линии/ млн. п. о.).
[00055] ФИГ. 8A представляет собой график, показывающий сравнение мутационной нагрузки опухоли (TMB) между анализами только опухоли и опухоль/нормальный образец.
[00056] ФИГ. 8B представляет собой график, показывающий сравнение мутационной нагрузки опухоли (TMB) между анализами только опухоли и WES опухоль/нормальный образец.
ПОДРОБНОЕ ОПИСАНИЕ
[00057] Некоторые варианты реализации способов и систем, предложенных в настоящей заявке, относятся к определению варианта на основании данных о последовательности, полученных из одного образца. Согласно некоторым вариантам реализации настоящего изобретения соматический вариант можно отличить от варианта зародышевой линии на основании частоты аллеля варианта в образце и расположения варианта в геноме. В настоящей заявке «вариант» может включать полиморфизм в молекуле нуклеиновой кислоты. Полиморфизм может включать вставку, делецию, тандемные повторы вариабельной длины, однонуклеотидную мутацию и структурный вариант, такой как транслокация, вариацию числа копий или их комбинацию. В настоящей заявке «вариант зародышевой линии» может включать вариант, присутствующий в зародышевых клетках и во всех клетках индивидуума. В настоящей заявке «соматический вариант» может включать вариант, присутствующий в опухолевой клетке, но не в других клетках индивидуума.
[00058] Обычно определение варианта среди соматических вариантов и вариантов зародышевой линии основывалось на сравнении данных, полученных из образца опухоли, и данных, полученных из сопоставимого нормального образца. Однако для обычного определения варианта требуется наличие сопоставимого образца и получение двух наборов данных. Варианты реализации, предложенные в настоящей заявке, относятся к определению варианта на основании данных о последовательности, полученных из одного образца от индивидуума. Использование одного образца может снизить потребность в сопоставимом образце и снизить затраты, которые могли бы потребоваться для получения данных о последовательности как для образца опухоли, так и для сопоставимого нормального образца.
[00059] Некоторые варианты реализации относятся к получению данных о последовательности из образца, такого как образец от индивидуума, содержащего опухолевую клетку, сравнению данных о последовательности с референсом для идентификации множества вариантов в данных о последовательности и применению одного или более фильтров к вариантам для идентификации вариантов зародышевой линии и соматических вариантов. Согласно некоторым вариантам реализации настоящего изобретения фильтр может включать фильтр близости. Согласно некоторым вариантам реализации настоящего изобретения фильтр близости включает группировку множества вариантов на множество групп в соответствии с расположением вариантов в геноме. Некоторые из сгруппированных вариантов могут быть идентифицированы как варианты зародышевой линии по наличию соответствующих вариантов в одном или более референсных наборах вариантов. Неохарактеризованный сгруппированный вариант может быть определен как вариант зародышевой линии, если неохарактеризованный сгруппированный вариант имеет частоту аллеля, близкую частоте аллеля одного или более идентифицированных вариантов зародышевой линии в той же группе, что и неохарактеризованный вариант. Некоторые варианты реализации также включают применение фильтра базы данных для идентификации вариантов зародышевой линии. Фильтр базы данных может идентифицировать варианты зародышевой линии в соответствии с количеством аллелей соответствующих вариантов в одном или более референсных наборах вариантов. Согласно некоторым вариантам реализации настоящего изобретения фильтр базы данных и фильтр близости можно применять к множеству вариантов для идентификации вариантов зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения соматические варианты представляют собой варианты, которые идентифицированы как варианты зародышевой линии. Количество соматических вариантов может указывать на мутационную нагрузку опухоли для опухоли.
[00060] Мутационная нагрузка опухоли стала важным биомаркером для выбора терапии рака после того, как недавние исследования показали корреляцию между мутационной нагрузкой опухоли и эффективностью разных видов иммунотерапии ингибиторами контрольных точек. При расчете мутационной нагрузки опухоли приемлемо, когда идентифицируют и отфильтровывают варианты зародышевой линии. Варианты зародышевой линии могут включать варианты, с которыми индивидуум родился (или общие для опухоли и нормальной клетки), но которые обнаруживаются как варианты по сравнению с референсным геномом. Эти варианты не участвуют в установлении отличия опухолевых клеток от нормальных клеток и, соответственно, могут привести к переоценке мутационной нагрузки опухоли, если они не отфильтрованы корректным образом. Варианты реализации включают определение мутационной нагрузки опухоли для опухоли, выбор лечения опухоли в соответствии с мутационной нагрузкой опухоли и введение средства лечения субъекту, нуждающемуся в этом.
Определенные способы
[00061] Некоторые варианты реализации способов и систем, предложенных в настоящей заявке, относятся к способу идентификации соматического варианта во множестве вариантов, содержащем соматические варианты и варианты зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения варианты зародышевой линии можно отфильтровать из множества вариантов с применением одного или более фильтров. Примеры таких фильтров включают фильтр базы данных и фильтр близости.
[00062] Согласно некоторым вариантам реализации настоящего изобретения фильтр базы данных можно применять к множеству вариантов. Фильтр базы данных можно применять для идентификации варианта как варианта зародышевой линии и удаления варианта из множества вариантов. Фильтр базы данных может быть связан с количеством аллелей соответствующего варианта в базе данных для конкретного варианта из множества вариантов.
[00063] Для каждого варианта во множестве вариантов в референсной базе данных может быть проведен поиск соответствующего варианта в базе данных. Референсная база данных может включать базу данных вариантов для множества индивидуумов. Примеры баз данных, которые можно применять с вариантами реализации, предложенными в настоящей заявке, включают агрегированную базу данных генома (gnomAD), включая базы данных экзома gnomAD и генома gnomAD, и базу данных «1000 геномов» (International Genome Sample Resource). См., например, Lek, M., et al., (2016) Nature 536:285-292, которая полностью включена посредством ссылки. Общее количество аллелей для соответствующего варианта можно определить в одной или более референсных базах данных. Количество аллелей может представлять общее количество наблюдений в базе данных, в которых наблюдается вариант. Например, количество аллелей 10 в базе данных для соответствующего варианта означает, что соответствующий вариант наблюдается в по меньшей мере 5 образцах для гомозиготных вариантов или максимум в 10 образцах для гетерозиготных вариантов. Согласно некоторым вариантам реализации настоящего изобретения количество аллелей может представлять собой самое большое количество аллелей, наблюдаемое в более чем одной базе данных. Вариант, имеющий соответствующий вариант с количеством аллелей, которое превышает или равно определенному пороговому количеству аллелей, может быть идентифицирован как вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей может быть больше или равно 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 и 20.
[00064] Согласно некоторым вариантам реализации настоящего изобретения фильтр близости можно применять к множеству вариантов. Фильтр базы данных можно применять для идентификации варианта как варианта зародышевой линии и удаления варианта из множества вариантов. Фильтр близости может быть связан с частотой аллеля определенного варианта из множества вариантов, расположением варианта в области генома и близостью частоты аллеля варианта к частоте аллеля идентифицированных вариантов зародышевой линии в той же области генома. Согласно некоторым вариантам реализации настоящего изобретения варианты из множества вариантов могут быть отсортированы или сгруппированы на множество групп так, что варианты, расположенные в одной и той же области генома, сортируют или группируют в одну и ту же группу. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одной и той же хромосомы, в пределах одного и того же плеча хромосомы, в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одних и тех же непрерывных 100 млн. п. о., 50 млн. п. о., 40 млн. п. о., 30 млн. п. о., 20 млн. п. о., 10 млн. п. о., 5 млн. п. о., 1 млн. п. о. или в пределах любого диапазона между любыми двумя из указанных выше чисел.
[00065] Согласно некоторым вариантам реализации настоящего изобретения фильтр близости также включает определение того, какие сгруппированные варианты легко идентифицируются как варианты зародышевой линии. Например, сгруппированный вариант может иметь соответствующий вариант, присутствующий в одной или более референсных базах данных, и может быть идентифицирован как вариант зародышевой линии.
[00066] Согласно некоторым вариантам реализации настоящего изобретения фильтр близости включает определение того, что варианты, имеющие частоту аллеля, которая превышает или равна пороговой частоте в образце, представляют собой варианты зародышевой линии. В некоторых таких вариантах реализации варианты, имеющие частоту аллеля, которая превышает или равна 0,7, 0,8, 0,9 или 1,0, могут быть идентифицированы как варианты зародышевой линии.
[00067] Согласно некоторым вариантам реализации настоящего изобретения фильтр близости включает определение приближенного диапазона частоты аллеля для варианта, который не был идентифицирован как вариант зародышевой линии. Приближенный диапазон частоты аллеля для варианта может включать диапазон частот аллеля, которые выше и ниже частоты аллеля этого варианта. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум от частоты аллеля варианта 0,01, 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09 или любое число в пределах диапазона между любыми двумя из указанных выше чисел. Например, для варианта, имеющего частоту аллеля 0,2 и приближенный диапазон 0,05, минимум и максимум приближенного диапазона будут представлять собой частоты аллеля 0,15 и 0,25, соответственно.
[00068] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон определяется значением двух (n) стандартных отклонений биномиального распределения, при условии, что подтверждающее свидетельство для конкретного варианта получено с помощью биномиального процесса. Например, для варианта, имеющего частоту аллеля (x), с охватом (y), приближенный диапазон (z) может представлять собой:
z = n*sqrt(y*x*(1-x))/y
[00069] Например, для варианта, имеющего частоту аллеля 0,2, охват/глубину секвенирования 100, приближенный диапазон будет представлять собой 0,08, а минимум и максимум приближенного диапазона будут представлять собой частоты аллеля 0,12 и 0,28, соответственно. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон либо превышает 0,05, либо на два (n) стандартных отклонения от биномиального распределения частоты аллеля варианта выше и ниже частоты аллеля варианта.
[00070] Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона одного или более идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона более чем 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона более чем 5 идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Например, в варианте реализации, в котором вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона более чем 5 идентифицированных вариантов зародышевой линии в той же группе, что и вариант: вариант, имеющий частоту аллеля 0,2, с приближенным диапазоном 0,05, соответственно, имеющий минимальный диапазон 0,15 и максимальный диапазон 0,25 и сгруппированный в группу, представляющую хромосому 7, будет идентифицирован как вариант зародышевой линии, если более чем 5 идентифицированных вариантов зародышевой линии имеют частоты аллеля в пределах приближенного диапазона варианта и сгруппированы в группу, представляющую хромосому 7.
[00071] Согласно некоторым вариантам реализации настоящего изобретения фильтр близости идентифицирует соматические варианты, которые представляют собой варианты, которые не идентифицированы как варианты зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения число соматических вариантов, полученных на основании данных секвенирования из опухоли, представляет собой мутационную нагрузку опухоли для опухоли.
[00072] Согласно некоторым вариантам реализации настоящего изобретения фильтр базы данных или фильтр близости можно применять к множеству вариантов для идентификации и удаления вариантов зародышевой линии из множества вариантов. Согласно некоторым вариантам реализации настоящего изобретения фильтр базы данных и фильтр близости можно применять последовательно. Например, выходные данные фильтра базы данных можно применять в качестве входных данных фильтра близости. И наоборот, выходные данные фильтра близости можно применять в качестве входных данных фильтра базы данных.
Определенные электронные системы и компьютеризованные способы
[00073] Некоторые варианты реализации способов и систем, предложенных в настоящей заявке, включают электронную систему для анализа данных о генетической изменчивости. В некоторых таких вариантах реализации фильтр базы данных, описанный в настоящей заявке, и/или фильтр близости, описанный в настоящей заявке, можно применять к данным о генетической изменчивости для идентификации вариантов зародышевой линии.
[00074] Некоторые варианты реализации могут включать модуль информатики, работающий на процессоре и адаптированный для идентификации множества вариантов на основании данных о последовательности из биологического образца, содержащего опухолевую клетку, в котором множество вариантов содержит соматические варианты и варианты зародышевой линии.
[00075] Некоторые варианты реализации настоящего изобретения включают модуль фильтра базы данных, адаптированный для удаления вариантов зародышевой линии из множества вариантов, причем каждый из указанных вариантов зародышевой линии имеет количество аллелей в референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей может быть больше или равно 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 и 20.
[00076] Некоторые варианты реализации настоящего изобретения включают модуль фильтра близости, адаптированный для удаления вариантов зародышевой линии из множества вариантов. Согласно некоторым вариантам реализации настоящего изобретения модуль фильтра близости может включать подмодуль группировки, адаптированный для выдачи множества групп, причем каждая группа содержит варианты из множества вариантов, расположенные в одной и той же области генома. Согласно некоторым вариантам реализации настоящего изобретения варианты из множества вариантов могут быть отсортированы или сгруппированы на множество групп так, что варианты, расположенные в одной и той же области генома, сортируют или группируют в одну и ту же группу. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одной и той же хромосомы, в пределах одного и того же плеча хромосомы, в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одних и тех же непрерывных 100 млн. п. о., 50 млн. п. о., 40 млн. п. о., 30 млн. п. о., 20 млн. п. о., 10 млн. п. о., 5 млн. п. о., 1 млн. п. о. или в пределах любого диапазона между любыми двумя из указанных выше чисел.
[00077] Согласно некоторым вариантам реализации настоящего изобретения модуль фильтра близости может включать подмодуль идентификации, адаптированный для выдачи вариантов из базы данных во множестве вариантов, причем вариант из базы данных присутствует в референсном наборе вариантов.
[00078] Согласно некоторым вариантам реализации настоящего изобретения модуль фильтра близости может включать подмодуль удаления, адаптированный для удаления вариантов зародышевой линии из множества вариантов, причем каждый из указанных вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения фильтр близости включает определение приближенного диапазона частоты аллеля для варианта, который не был идентифицирован как вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум от частоты аллеля варианта 0,01, 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09 или любое число в пределах диапазона между любыми двумя из указанных выше чисел. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум два стандартных отклонения от биномиального распределения частоты аллеля варианта. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон превышает 0,05 или на два (n) стандартных отклонения от биномиального распределения частоты аллеля варианта выше и ниже частоты аллеля варианта.
[00079] Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона одного или более идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона более чем 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения подмодуль удаления адаптирован для удаления варианта, имеющего частоту аллеля, которая превышает или равна пороговой частоте. В некоторых таких вариантах реализации варианты, имеющие частоту аллеля, которая превышает или равна 0,7, 0,8, 0,9 или 1,0, могут быть идентифицированы как варианты зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения подмодуль удаления адаптирован для удаления варианта из базы данных, присутствующего в референсном наборе вариантов, из множества вариантов.
[00080] Некоторые варианты реализации, предложенные в настоящей заявке, включают компьютеризованные способы идентификации соматических вариантов во множестве вариантов. Некоторые такие варианты реализации могут включать получение множества вариантов на основании данных о последовательности из биологического образца, содержащего опухолевую клетку, причем указанное множество вариантов может включать соматические варианты и варианты зародышевой линии.
[00081] Некоторые варианты реализации настоящего изобретения включают применение фильтра базы данных к множеству вариантов. Некоторые такие варианты реализации включают получение индекса документов для множества вариантов, поиск в референсном наборе вариантов с использованием указанного индекса для идентификации вариантов зародышевой линии в указанном индексе. Согласно некоторым вариантам реализации настоящего изобретения каждый из вариантов зародышевой линии имеет количество аллелей в референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей может быть больше или равно 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 и 20. Некоторые варианты реализации также включают удаление идентифицированных вариантов зародышевой линии из индекса с получением индекса первых отфильтрованных вариантов.
[00082] Некоторые варианты реализации настоящего изобретения включают применение фильтра близости к индексу первых отфильтрованных вариантов. Некоторые такие варианты реализации включают получение множества групп для различных областей генома. Некоторые варианты реализации настоящего изобретения включают группировку вариантов индекса первых отфильтрованных вариантов, причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одной и той же хромосомы, в пределах одного и того же плеча хромосомы, в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одних и тех же непрерывных 100 млн. п. о., 50 млн. п. о., 40 млн. п. о., 30 млн. п. о., 20 млн. п. о., 10 млн. п. о., 5 млн. п. о., 1 млн. п. о. или в пределах любого диапазона между любыми двумя из указанных выше чисел.
[00083] Некоторые варианты реализации настоящего изобретения включают поиск в референсном наборе вариантов с использованием индекса первых отфильтрованных вариантов для идентификации вариантов из базы данных в указанном индексе первых отфильтрованных вариантов.
[00084] Некоторые варианты реализации настоящего изобретения включают получение индекса вариантов зародышевой линии из индекса первых отфильтрованных вариантов путем идентификации вариантов зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения каждый из вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и второй вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум от частоты аллеля варианта 0,01, 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09 или любое число в пределах диапазона между любыми двумя из указанных выше чисел. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум два стандартных отклонения от биномиального распределения частоты аллеля варианта. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон превышает 0,05 или на два (n) стандартных отклонения от биномиального распределения частоты аллеля варианта выше и ниже частоты аллеля варианта.
[00085] Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона одного или более идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона более чем 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения вариант зародышевой линии может быть идентифицирован как вариант, имеющий частоту аллеля, которая превышает или равна пороговой частоте. В некоторых таких вариантах реализации варианты, имеющие частоту аллеля, которая превышает или равна 0,7, 0,8, 0,9 или 1,0, могут быть идентифицированы как варианты зародышевой линии.
[00086] Некоторые варианты реализации настоящего изобретения включают удаление идентифицированных вариантов зародышевой линии из индекса первых отфильтрованных вариантов с получением индекса соматических вариантов, что приводит к идентификации соматических вариантов во множестве вариантов. Согласно некоторым вариантам реализации настоящего изобретения количество соматических вариантов, полученное на основании данных секвенирования из опухоли, представляет собой мутационную нагрузку опухоли для опухоли.
Способы лечения
[00087] Некоторые варианты реализации способов и систем включают способы лечения опухоли. В некоторых таких вариантах реализации количество соматических вариантов, присутствующих в опухоли, можно определить с помощью способов и систем, предложенных в настоящей заявке. Например, данные о последовательности могут быть получены из опухоли, множество вариантов может быть идентифицировано на основании данных о последовательности, а варианты зародышевой линии могут быть идентифицированы и удалены из множества вариантов, что приводит к идентификации соматических вариантов во множестве вариантов. Согласно некоторым вариантам реализации настоящего изобретения варианты зародышевой линии могут быть идентифицированы и удалены из множества вариантов путем применения одного или более из фильтра базы данных и/или фильтра близости, что приводит к идентификации соматических вариантов, которые не удаляются путем применения одного или более из фильтров. Согласно некоторым вариантам реализации настоящего изобретения количество соматических вариантов, полученное на основании данных секвенирования из опухоли, представляет собой мутационную нагрузку опухоли для опухоли. Согласно некоторым вариантам реализации настоящего изобретения мутационную нагрузку опухоли рассчитывают как среднее количество соматических вариантов на геномную область, таких как, например, мутации на 50 тыс. п. о., 100 тыс. п. о., 1 млн. п. о., 10 млн. п. о., 100 млн. п. о. и т.п. Мутационная нагрузка опухоли может быть проанализирована в образце путем секвенирования всего генома или его части. Например, часть генома может быть секвенирована путем обогащения одной или более представляющих интерес геномных областей, таких как панель опухолевых генов, полный экзом, частичный экзом и т. п.
[00088] Некоторые варианты реализации лечения опухоли могут включать определение опухоли, имеющей мутационную нагрузку опухоли, которая превышает или равна порогу мутационной нагрузки опухоли, и приведение опухоли в контакт с эффективным количеством терапевтического агента. Некоторые варианты реализации настоящего изобретения включают лечение субъекта, имеющего опухоль, и могут включать определение опухоли, имеющей мутационную нагрузку опухоли, которая превышает или равна порогу TMB, и введение субъекту эффективного количества терапевтического агента. Согласно некоторым вариантам реализации настоящего изобретения порог мутационной нагрузки опухоли может составлять 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000 или любое число в пределах диапазона между любыми двумя из указанных выше чисел. Примеры терапевтических агентов включают химиотерапевтические агенты. Согласно некоторым вариантам реализации настоящего изобретения терапевтический агент может включать ингибитор контрольной точки. Примеры ингибиторов контрольных точек включают ингибитор CTLA-4, ингибитор PD-1 и ингибитор PD-L1. Согласно некоторым вариантам реализации настоящего изобретения ингибитор контрольной точки может включать ипилимумаб, ниволумаб, пембролизумаб, спартализумаб, атезолизумаб, авелумаб и дурвалумаб. Примеры опухолей включают колоректальную опухоль, опухоль легких, опухоль эндометрия, опухоль матки, опухоль желудка, меланому, опухоль молочной железы, опухоль поджелудочной железы, опухоль почек, опухоль мочевого пузыря и опухоль головного мозга. Больше примеров видов рака, которые можно лечить с применением способов и систем, включенных в настоящий документ, перечислено в U.S. 20180218789, который явным образом полностью включен в настоящую заявку посредством ссылки.
Образцы
[00089] Некоторые варианты реализации настоящего изобретения включают получение данных о последовательности из биологического образца. Согласно некоторым вариантам реализации настоящего изобретения биологический образец может включать опухолевую клетку. Согласно некоторым вариантам реализации настоящего изобретения биологический образец может включать образец сыворотки, образец кала, образец крови и образец опухоли. Согласно некоторым вариантам реализации настоящего изобретения биологический образец зафиксирован.
[00090] Согласно некоторым вариантам реализации настоящего изобретения субъект может предоставить биологический образец. Биологический образец может представлять собой любое вещество, которое продуцируется субъектом. Обычно биологический образец представляет собой любую ткань, взятую у субъекта, или любое вещество, продуцируемое субъектом. Примеры биологических образцов могут включать кровь, плазму, слюну, спинномозговую жидкость (CSF), ткань щеки, мочу, кал, кожу, волосы, ткань органа. Согласно некоторым вариантам реализации настоящего изобретения биологический образец представляет собой солидную опухоль или биопсию солидной опухоли. Согласно некоторым вариантам реализации настоящего изобретения биологический образец представляет собой фиксированный формалином и залитый парафином (FFPE) образец ткани. Биологический образец может представлять собой любой биологический образец, который содержит нуклеиновые кислоты. Биологические образцы могут быть получены от субъекта. Субъект может представлять собой млекопитающее, рептилию, амфибию, птицу или рыбу. Примеры млекопитающих включают человека, человекообразную обезьяну, орангутана, обезьяну, шимпанзе, корову, свинью, лошадь, грызуна, птицу, рептилию, собаку, кошку, дельфина или другое животное. Примеры рептилий включают ящерицу, змею, аллигатора, водную черепаху, крокодила, игуану и сухопутную черепаху. Примеры амфибий включают жабу, лягушку, тритона и саламандру. Примеры птиц включают кур, уток, гусей, пингвинов, страусов, тупиков и сов. Примеры рыб включают сома, угрей, акул, золотую рыбку и рыбу-меч. Согласно некоторым вариантам реализации настоящего изобретения субъект представляет собой человека.
Определенные системы и способы
[00091] Некоторые варианты реализации настоящего изобретения включают системы на основе компьютеров и компьютеризованные способы для выполнения способов, описанных в настоящей заявке. Согласно некоторым вариантам реализации настоящего изобретения системы можно применять для определения и сообщения о наличии или отсутствии вариантов в образце, таких как варианты зародышевой линии и/или соматические варианты. Система может содержать один или более клиентских компонентов. Один или более клиентских компонентов могут содержать пользовательский интерфейс. Система может содержать один или более серверных компонентов. Серверные компоненты могут содержать одну или более ячеек памяти. Одна или более ячеек памяти могут быть сконфигурированы для приема входных данных. Входные данные могут содержать данные секвенирования. Данные секвенирования могут быть получены из образца нуклеиновой кислоты от субъекта. Система может дополнительно содержать один или более компьютерных процессоров. Один или более компьютерных процессоров могут быть функционально связаны с одной или более ячейками памяти. Один или более компьютерных процессоров могут быть запрограммированы для картирования данных секвенирования в референсной последовательности. Один или более компьютерных процессоров могут быть дополнительно запрограммированы для определения наличия или отсутствия множества вариантов на основании данных секвенирования. Один или более компьютерных процессоров могут быть дополнительно запрограммированы для применения по меньшей мере одного фильтра к генетическим вариантам для идентификации вариантов зародышевой линии. Примеры фильтров включают фильтр базы данных и фильтр близости. Один или более компьютерных процессоров могут быть дополнительно запрограммированы для удаления идентифицированных вариантов зародышевой линии из индекса идентифицированных вариантов. Один или более компьютерных процессоров могут быть дополнительно запрограммированы для получения выходных данных для отображения на экране. Выходные данные могут содержать один или более отчетов, идентифицирующих варианты зародышевой линии и/или соматические варианты во множестве вариантов.
[00092] Некоторые варианты реализации способов и систем могут содержать один или более клиентских компонентов. Один или более клиентских компонентов могут содержать один или более программных компонентов, один или более аппаратных компонентов или их комбинацию. Один или более клиентских компонентов могут получать доступ к одной или более службам через один или более серверных компонентов. Один или более клиентских компонентов могут получать доступ к одной или более службам через сеть. В настоящей заявке «службы» используется для обозначения любого продукта, способа, функции или применения системы. Например, пользователь может поместить заказ на генетический тест. Заказ может быть помещен через один или более клиентских компонентов системы, а запрос может быть передан через сеть одному или более серверным компонентам системы. Сеть может представлять собой Интернет, локальную сеть и/или экстранет, или интранет и/или экстранет, которые взаимодействуют с Интернетом. Сеть в некоторых случаях представляет собой телекоммуникационную сеть и/или сеть передачи данных. Сеть может включать один или более компьютерных серверов, которые могут обеспечивать распределенные вычисления, такие как облачные вычисления. Сеть, в некоторых случаях с помощью компьютерной системы, может быть организована как одноранговая сеть, которая может позволить устройствам, подключенным к компьютерной системе, выполнять функцию клиента или сервера.
[00093] Некоторые варианты реализации систем могут содержать одну или более ячеек памяти, таких как оперативная память, постоянная память, флеш-память, электронный блок хранения, такой как жесткий диск; интерфейс связи, такой как сетевой адаптер, для взаимодействия с одной или более другими системами, а также периферийные устройства, такие как кэш, другой тип памяти, адаптеры блока хранения данных и/или электронного дисплея. Память, блок хранения, интерфейс и периферийные устройства связаны с ЦП через коммуникационную шину, такую как материнская плата. Блок хранения может представлять собой блок хранения данных или архив данных для хранения данных. В одном примере одна или более ячеек памяти могут хранить полученные данные секвенирования.
[00094] Некоторые варианты реализации способов и систем могут содержать один или более компьютерных процессоров. Один или более компьютерных процессоров могут быть функционально связаны с одной или более ячейками памяти, например, для доступа к сохраненным данным секвенирования. Один или более компьютерных процессоров могут выполнять машиноисполняемый код для выполнения способов, описанных в настоящей заявке. Например, один или более компьютерных процессоров могут выполнять машиночитаемый код для картирования входных данных секвенирования на референсной последовательности и/или идентификации вариантов зародышевой линии и/или соматических вариантов.
[00095] Некоторые варианты реализации способов и систем, предложенных в настоящей заявке, могут включать машиноисполняемый или машиночитаемый код. В некоторых таких вариантах реализации машиноисполняемый или машиночитаемый код может быть обеспечен в виде программного обеспечения. Во время применения код может выполняться процессором. В некоторых случаях код может быть извлечен из блока хранения и сохранен в памяти для быстрого доступа процессора. Согласно некоторым вариантам реализации настоящего изобретения электронный блок хранения может быть исключен, а машиноисполняемые инструкции хранятся в памяти. Код может быть предварительно скомпилирован и сконфигурирован для использования с помощью машины, имеющей процессор, адаптированный для выполнения кода, может быть скомпилирован во время выполнения или может быть интерпретирован во время выполнения. Код может быть обеспечен на языке программирования, который может быть выбран для обеспечения возможности выполнения кода в предварительно скомпилированном, скомпилированном или интерпретированном виде.
[00096] Некоторые варианты реализации систем и способов, предложенных в настоящей заявке, такие как компьютерная система, могут быть реализованы при программировании. Различные аспекты технологии можно рассматривать как «продукты» или «изделия производства», как правило, в виде исполняемого машиной (или процессором) кода и/или ассоциированных данных, которые переносятся на тип машиночитаемого носителя или реализуются в нем. Машиноисполняемый код может храниться в электронном блоке хранения, таком как память или жесткий диск. Носители «хранящего» типа могут включать любую или все из материальной памяти компьютеров, процессоров и т.п. или их ассоциированных модулей, таких как различные полупроводниковые типы памяти, накопители на магнитной ленте, дисководы и т. п., которые могут обеспечивать энергонезависимое хранение в любое время для программирования программного обеспечения. Время от времени все программное обеспечение или его части могут взаимодействовать через Интернет или другие телекоммуникационные сети. Такие взаимодействия, например, могут позволить загружать программное обеспечение с одного компьютера или процессора в другой, например, с сервера управления или главного компьютера в компьютерную платформу сервера приложений. Таким образом, другой тип носителей, которые могут нести элементы программного обеспечения, включает оптические, электрические и электромагнитные волны, например, используемые в различных физических интерфейсах между локальными устройствами, через проводные и оптические наземные сети и по различным эфирным линиям связи. Физические элементы, переносящие такие волны, такие как проводные или беспроводные линии связи, оптические линии связи и т.п., также могут рассматриваться как носители, несущие программное обеспечение. В настоящей заявке, исключая случаи, когда они ограничиваются энергонезависимыми материальными носителями для «хранения», такие термины как компьютер или «машиночитаемый носитель» относятся к любому носителю, который участвует в обеспечении инструкций процессору для выполнения.
[00097] Некоторые варианты реализации способов и систем, раскрытых в настоящей заявке, могут включать один или более электронных дисплеев или взаимодействовать с ними. Электронный дисплей может быть частью компьютерной системы или может быть связан с компьютерной системой напрямую или через сеть. Компьютерная система может включать пользовательский интерфейс (UI) для обеспечения различных возможностей и функций, раскрытых в настоящей заявке. Примеры UI включают, без ограничения, графические пользовательские интерфейсы (GUI) и пользовательские веб-интерфейсы. UI может обеспечивать интерактивный инструмент, с помощью которого пользователь может применять способы и системы, описанные в настоящей заявке. В качестве примера UI, предусмотренный в настоящей заявке, может представлять собой веб-инструмент, с помощью которого медицинский работник может заказать генетический тест, настроить перечень генетических вариантов, подлежащих тестированию, а также получить и просмотреть биомедицинский отчет.
[00098] Некоторые варианты реализации способов и систем, раскрытых в настоящей заявке, могут включать биомедицинские базы данных, геномные базы данных, биомедицинские отчеты, отчеты о заболеваниях, анализ «случай-контроль» и анализ обнаружения редких вариантов на основании данных и/или информации из одной или более баз данных, одного или более анализов, одного или более набора данных или результатов, одного или более набора выходных данных, основанных или полученных из одного или более анализов, одного или более набора выходных данных, основанных или полученных из одного или более набора данных или результатов, или их комбинацию.
ПРИМЕРЫ
Пример 1 - идентификация соматических вариантов путем сравнения образцов
[00099] Данные о последовательности получали для образца опухоли и нормального образца от индивидуума. Варианты идентифицировали в данных о последовательности. Варианты зародышевой линии в образце опухоли идентифицировали путем сравнения вариантов, присутствующих в образце опухоли, но не в нормальном образце. ФИГ. 2A представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами (черные круги) и вариантами зародышевой линии (серые круги). Для этого способа требовались два образца от индивидуума.
Пример 2 - фильтрация базы данных вариантов
[000100] Данные о последовательности получали только для образца опухоли из примера 1. Идентифицировали варианты в данных о последовательности. В общих чертах, варианты, определенные на основании технологического процесса определения вариантов, аннотировали с использованием инструмента аннотации Nirvana (Illumina, Сан-Диего, США). Nirvana предоставила аннотацию геномных вариантов клинического класса, таких как однонуклеотидные варианты, многонуклеотидные варианты, вставки, удаления, вариации числа копий. Входные данные для Nirvana были в формате определения варианта (VCF), а выходные данные представляли собой структурированное JSON-представление всех аннотаций и информации об образце.
[000101] Для идентифицированных вариантов проанализировали общее количество аллелей для конкретного варианта в агрегированной базе данных генома (gnomAD) для экзома, gnomAD для генома и базе данных «1000 геномов» вместе с частотами вариантных аллелей и охватом. Общее количество аллелей представляло собой общее количество наблюдений в базе данных среди различных субпопуляций. Для каждого варианта максимальное количество аллелей, наблюдаемое во всех трех базах данных, было принято для учета областей, которые не были охвачены в базе данных экзома, при этом использовали ее преимущество, которое заключалось в большем размере выборки по сравнению с базой данных генома. Стратегия фильтрации пометила варианты с максимальным количеством аллелей, которое превышает или равно 10, как потенциальные варианты зародышевой линии. Количество аллелей 10 в базе данных для конкретного варианта означает, что он наблюдался в по меньшей мере 5 образцах, если все они были гомозиготными, или максимум в 10 образцах, если все они были гетерозиготными. ФИГ. 2В представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги). Это свидетельствует о том, что фильтрация только базы данных привела к неправильному определению вариантов.
Пример 3 - фильтрация по близости вариантов
[000102] Данные о последовательности получали только для образца опухоли от индивидуума. Варианты идентифицировали в данных о последовательности. К вариантам применяли фильтр базы данных из примера 2. Фильтр близости использовали для дальнейшего отфильтровывания вариантов, которые не были найдены в базе данных.
[000103] Фильтр близости использовал информацию о вариантах, отфильтрованных в базе данных, в непосредственной позиционной близости. Для конкретного варианта, который не был найден в базе данных и имел частоту аллеля ниже 0,9, варианты на той же хромосоме извлекали в пределах заданного диапазона частот вариантных аллелей нефильтрованного варианта. Варианты с частотой аллеля более 90% помечали как зародышевую линию без какой-либо дополнительной обработки. Диапазон определяли как максимум 0,05 и 2 стандартных отклонения биномиального распределения при условии, что подтверждающее свидетельство для конкретного варианта получено с помощью биномиального процесса. Например, если нефильтрованный вариант имел частоту аллеля 0,2 при охвате 100, диапазон был максимальным между 0,05 и 2*sqrt(100*0,2*(1-0,2))/100 = 0,08, что составило 0,08. Это было преобразовано в диапазон 0,08 в обоих направлениях, и все варианты извлекали из одной и той же хромосомы с частотами аллеля между 0,12 и 0,28. Впоследствии проверяли, что количество извлеченных вариантов превышает фиксированный порог, он был установлен на 5. Если было достигнуто требуемое количество вариантов, мы затем проверяли, отфильтрована ли значительная доля этих вариантов, которая была установлена на 0,95, с помощью фильтра базы данных. Вариант был помечен фильтром близости, если он удовлетворял обоим условиям. Другими словами, если вариант был окружен достаточным количеством вариантов в интервале частот аллелей, которые были обнаружены в базе данных, он также считался вариантом зародышевой линии. Этот фильтр удалял варианты зародышевой линии в нормальных областях с ожидаемыми частотами вариантных аллелей примерно 50% или 100%, а также в областях вариаций числа копий, в которых распределение частот аллелей могло быть смещено.
[000104] ФИГ. 3 (левая панель) представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением для хромосом 1-7 для каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), фильтрованных с использованием только фильтра базы данных. ФИГ. 3 (правая панель) представляет собой увеличение для вариантов, расположенных на хромосоме 7, в которой был выбран конкретный соматический вариант, определенный с помощью фильтра (черный круг), и диапазон, полученный из варианта, который охватывает несколько вариантов зародышевой линии, определенных с помощью фильтра (серый круг). Определение того, что выбранный соматический вариант, определенный с помощью фильтра (черный круг), должен быть определен как вариант зародышевой линии, может быть сделано на основании близости частоты аллеля выбранного варианта к частотам аллелей определенного числа уже идентифицированных вариантов зародышевой линии.
[000105] ФИГ. 4A представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), отфильтрованными с использованием только фильтра базы данных. ФИГ. 4B представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), отфильтрованными с использованием только фильтра базы данных, а также фильтра близости. На ФИГ. 4B показано, что некоторые предполагаемые ложноположительные результаты, показанные как соматические варианты на ФИГ. 4A, идентифицировали как варианты зародышевой линии на ФИГ. 4B. Например, идентифицированные соматические варианты, расположенные на хромосоме 7, имеющие частоты аллелей примерно 0,4 и 0,3 (ФИГ. 4A), идентифицировали как варианты зародышевой линии при применении фильтра близости (ФИГ. 4B).
Пример 4 - измерение мутационной нагрузки опухоли с помощью нацеленного секвенирования
[000106] Этот пример относится к анализу методом нацеленного секвенирования следующего поколения для измерения мутационной нагрузки опухоли (TMB) в образцах опухолей, фиксированных формалином и залитых парафином (FFPE). На ФИГ. 5 показан пример рабочего процесса для анализа. Данные о последовательности получали из образцов опухолей для 523 генов в панели размером 1,94 млн. п. о. с размером экзона 1,33 млн. п. о. Секвенирование выполняли с использованием уникальных молекулярных идентификаторов (UMI) и платформ Illumina NextSeq™ 500/550. Анализ данных выполняли с использованием технологического процесса для обнаружения вариантов при 5% частотах вариантных аллелей (VAF). Для удаления технического шума использовали алгоритм определения варианта, который использовал информацию из UMI, и профили ошибок, специфичные для образца, чтобы гарантировать одинаковую эффективность определения варианта среди образцов с разным качеством FFPE. Чтобы точно удалить варианты зародышевой линии из расчетов TMB, использовали гибридную стратегию, которая объединяла информацию из крупномасштабных общедоступных баз данных с измеренным охватом и частотой вариантного аллеля каждого варианта, и которая была по существу аналогична фильтру базы данных и фильтру близости из предыдущих примеров.
[000107] В общих чертах, получали данные о последовательности, выравнивали с референсом и идентифицировали варианты. Варианты зародышевой линии отфильтровывали из идентифицированных вариантов с использованием фильтра базы данных и фильтра близости, и TMB вычисляли в рабочем процессе, по существу аналогичном технологическому процессу, показанному на ФИГ. 6. В общей сложности проанализировали 170 пар опухоль-нормальный образец для оценки эффективности фильтрации зародышевой линии и TMB (ТАБЛИЦА 1). Подгруппу из 108 пар образцов также проанализировали с помощью секвенирования всего экзома (WES).
ТАБЛИЦА 1
Тип | Количество образцов |
Колоректальный | 74 |
Легкое | 37 |
Эндометрий | 6 |
Матка | 32 |
Гастральный | 10 |
Меланома | 11 |
Всего: | 170 |
[000108] Для удаления технического шума оценивали количество ложноположительных вариантов в выборке нормальных образцов FFPE (N = 176). Наблюдали в среднем 0,63 ложноположительного результата на образец, независимо от качества образца (R2=0,001), при этом 92,6% образцов содержали ≤2 ложноположительных вариантов (VAF<20%). Кроме того, тестировали набор смешанных образцов FFPE и клеточных линий с вариантами, близкими к 5% и достигшими чувствительности 98,7%.
[000109] Эффективность фильтрации зародышевой линии оценивали с использованием 170 пар опухоль/нормальный образец, описанных в ТАБЛИЦЕ 1. При фильтрации вариантов зародышевой линии представляющих собой небольшой вариант (SNV, вставка/удаление) был достигнут общий показатель фильтрации выше 99,7%, в результате чего оставалось в среднем менее 1,3 варианта зародышевой линии на образец. Добавление фильтрации по близости значительно уменьшило количество ложноположительных результатов, оказывая при этом лишь минимальное влияние на соматические мутации. На ФИГ. 7 показано распределение количества оставшихся вариантов зародышевой линии после фильтрации только базы данных (пики графика при примерно 3 остатках зародышевой линии/млн. п. о.) и использования гибридной стратегии (пики графика при примерно 0 остатках зародышевой линии/млн. п. о.).
[000110] Воспроизводимость TMB оценивали в 8 различных образцах, включая 4 клеточные линии и 4 образца FFPE, по 3 операторам. Рассчитывали среднее значение и стандартное отклонение (SD) для каждого образца. В ТАБЛИЦЕ 2 приведена воспроизводимость TMB, оцененная в 4 клеточных линиях и 4 образцах FFPE по 12 повторам для каждого.
ТАБЛИЦА 2
Образец | Тип ДНК | Повторы | Среднее значение TMB | TMB SD |
T47D | Клеточная линия | 12 | 0,9 | 0,7 |
H2228 | Клеточная линия | 12 | 7,5 | 0,8 |
HD799 | Клеточная линия | 12 | 405,0 | 6,8 |
OncoSpan | Клеточная линия | 12 | 389,1 | 8,4 |
1251 | FFPE | 12 | 0,3 | 0,4 |
4116 | FFPE | 11 | 24,9 | 0,7 |
3643 | FFPE | 12 | 7,6 | 1,4 |
4118 | FFPE | 12 | 50,5 | 1,5 |
[000111] В совокупности, измерения TMB, полученные с помощью анализа только опухоли, сильно коррелировали с оценками, полученными из анализа парных образцов опухоль/нормальный образец (R2 = 0,993, N = 169, TMB< только 200 образцов). Оценки TMB в анализе только опухоли показали сильную корреляцию со значениями TMB, полученными также при секвенировании всего экзома (R2 = 0,931, N = 105, WES TMB< только 100 образцов). На ФИГ. 8A показано сравнение TMB между анализами только опухоли и опухоль/нормальный образец. На ФИГ. 8B показано сравнение TMB между анализами только опухоли и WES опухоль-нормальный образец.
[000112] Наконец, при пороге TMB равном 10, была продемонстрирована положительная согласованность (PPA) 94,74% и отрицательная согласованность (NPA) 96,08%. Общая классификационная согласованность составила 95,37% при различении образцов с высоким уровнем TMB и низким уровнем TMB. В ТАБЛИЦЕ 3 приведена эффективность классификации TMB.
ТАБЛИЦА 3
WES T/N TMB с высоким уровнем | WES T/N TMB с низким уровнем | |
TMB с высоким уровнем | 54 | 3 |
TMB с низким уровнем | 2 | 49 |
[000113] Результаты выше продемонстрировали способность анализа только опухоли с использованием фильтра базы данных и фильтра близости надежно измерять TMB в образцах FFPE. Кроме того, оценки TMB показали высокий уровень корреляции с измерениями на основе WES с высокой классификационной согласованностью.
[000114] В настоящей заявке термин «содержащий» является синонимом «включающий», «охватывающий» или «характеризующийся» и является включающим или открытым и не исключает дополнительные, не перечисленные элементы или этапы способа.
[000115] Приведенное выше описание раскрывает несколько способов и материалов согласно настоящему изобретению. Настоящее изобретение допускает модификации в способах и материалах, а также изменения в способах изготовления и оборудовании. Такие модификации будут понятны специалистам в данной области техники после рассмотрения данного раскрытия или реализации изобретения, раскрытого в настоящей заявке. Следовательно, не предполагается, что настоящее изобретение ограничивается конкретными вариантами реализации, раскрытыми в настоящей заявке, однако оно охватывает все модификации и альтернативы в пределах истинного объема и сущности настоящего изобретения.
[000116] Все ссылки, цитированные в настоящей заявке, включая, но не ограничиваясь ими, опубликованные и неопубликованные заявки, патенты и литературные источники, полностью включены в настоящую заявку посредством ссылки и тем самым составляют часть данного описания. В случае если публикации и патенты или патентные заявки, включенные посредством ссылки, противоречат раскрытию, содержащемуся в описании, подразумевается, что данное описание отменяет и/или имеет преимущественную силу над любым таким противоречащим материалом.
Claims (64)
1. Способ идентификации соматических мутаций во множестве вариантов, включающий:
(а) получение множества вариантов, содержащего соматические мутации и варианты зародышевой линии;
(b) применение фильтра базы данных к указанному множеству вариантов, включая:
определение первых вариантов зародышевой линии в указанном множестве вариантов, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей;
(c) применение фильтра близости к указанному множеству вариантов, включая:
(i) группировку вариантов из указанного множества вариантов на множество групп, причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу,
(ii) определение вариантов из базы данных в указанном множестве вариантов, причем вариант из базы данных присутствует во втором референсном наборе вариантов, и
(iii) определение вторых вариантов зародышевой линии в указанном множестве вариантов, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и указанный второй вариант зародышевой линии; и
(d) определение соматических мутаций в указанном множестве вариантов путем удаления указанных идентифицированных первого и второго вариантов зародышевой линии из указанного множества вариантов.
2. Способ по п. 1, отличающийся тем, что (b) и (c) выполняют последовательно.
3. Способ по п. 1, отличающийся тем, что (c) выполняют перед (b).
4. Способ по любому из пп. 1-3, отличающийся тем, что указанное пороговое количество аллелей составляет 5.
5. Способ по п. 4, отличающийся тем, что указанное пороговое количество аллелей составляет 10.
6. Способ по любому из пп. 1-5, отличающийся тем, что указанный первый и второй референсный набор вариантов представляет собой один и тот же референсный набор.
7. Способ по любому из пп. 1-6, отличающийся тем, что указанный первый или второй референсный набор вариантов содержит базу данных вариантов для множества индивидуумов.
8. Способ по любому из пп. 1-7, отличающийся тем, что указанный первый или второй референсный набор вариантов содержит по меньшей мере одну базу данных, выбранную из агрегированной базы данных генома (gnomAD) и базы данных «1000 геномов».
9. Способ по любому из пп. 1-8, отличающийся тем, что указанная одна и та же область генома находится в пределах одной и той же хромосомы.
10. Способ по любому из пп. 1-9, отличающийся тем, что указанная одна и та же область генома находится в пределах одного и того же хромосомного плеча.
11. Способ по любому из пп. 1-10, отличающийся тем, что указанная одна и та же область генома находится в пределах одной и той же хромосомной цитополосы.
12. Способ по любому из пп. 1-11, отличающийся тем, что указанная одна и та же область генома находится в пределах области 10 млн п. о.
13. Способ по любому из пп. 1-12, отличающийся тем, что указанное применение фильтра близости дополнительно включает идентификацию второго варианта зародышевой линии, имеющего частоту аллеля, которая превышает или равна 0,9.
14. Способ по любому из пп. 1-13, отличающийся тем, что указанное применение фильтра близости дополнительно включает идентификацию второго варианта зародышевой линии в указанном множестве вариантов, причем указанный второй вариант зародышевой линии представляет собой вариант из базы данных, присутствующий в указанном втором референсном наборе вариантов.
15. Способ по любому из пп. 1-14, отличающийся тем, что указанный приближенный диапазон представляет собой диапазон, имеющий максимум и минимум, составляющий 0,05 от частоты аллеля второго варианта зародышевой линии.
16. Способ по любому из пп. 1-15, отличающийся тем, что указанный приближенный диапазон представляет собой диапазон, имеющий максимум и минимум, составляющий два стандартных отклонения от биномиального распределения частоты аллеля второго варианта зародышевой линии и центрированный по частоте аллеля второго варианта зародышевой линии.
17. Способ по любому из пп. 1-16, отличающийся тем, что указанные вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере пяти вариантов из базы данных в той же группе, что и указанный второй вариант зародышевой линии.
18. Способ по любому из пп. 1-17, отличающийся тем, что указанные вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере десяти вариантов из базы данных в той же группе, что и указанный второй вариант зародышевой линии.
19. Способ по любому из пп. 1-18, отличающийся тем, что стадия (а) включает: получение данных о последовательности из биологического образца, содержащего опухолевую клетку.
20. Способ по п. 19, дополнительно включающий: выравнивание данных о последовательности с референсной последовательностью и идентификацию вариантов в указанных данных о последовательности.
21. Способ по п. 19 или 20, отличающийся тем, что указанный биологический образец, содержащий опухолевую клетку, выбран из образца сыворотки, образца кала, образца крови, образца опухоли.
22. Способ по п. 21, отличающийся тем, что указанный образец опухоли зафиксирован.
23. Способ определения мутационной нагрузки опухоли для опухоли, включающий:
получение данных о последовательности из биологического образца, содержащего опухолевую клетку;
определение множества вариантов на основании указанных данных о последовательности; и
определение количества соматических мутаций в указанном множестве вариантов в соответствии со способом по любому из пп. 1-22, причем указанное количество соматических мутаций представляет собой мутационную нагрузку опухоли для опухоли.
24. Компьютеризованный способ идентификации соматических мутаций во множестве вариантов, включающий: выполнение способа по любому из пп. 1-22.
25. Компьютеризованный способ идентификации соматических мутаций во множестве вариантов, включающий:
(а) получение множества вариантов на основании данных о последовательности из биологического образца, содержащего опухолевую клетку, причем указанное множество вариантов содержит соматические мутации и варианты зародышевой линии;
(b) применение фильтра базы данных к указанному множеству вариантов, включающее:
получение индекса документов для указанного множества вариантов,
поиск в первом референсном наборе вариантов с использованием указанного индекса для идентификации первых вариантов зародышевой линии в указанном индексе, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в указанном первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей, и
удаление указанных идентифицированных первых вариантов зародышевой линии из указанного индекса с получением индекса первых отфильтрованных вариантов;
(c) применение фильтра близости к указанному индексу первых отфильтрованных вариантов, включающее:
(i) получение множества групп для разных областей генома,
(ii) группировку вариантов указанного индекса первых отфильтрованных вариантов, причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу,
(iii) поиск во втором референсном наборе вариантов с использованием указанного индекса первых отфильтрованных вариантов для идентификации вариантов из базы данных в указанном индексе первых отфильтрованных вариантов,
(iii) получение индекса вторых вариантов зародышевой линии из указанного индекса первых отфильтрованных вариантов путем идентификации вторых вариантов зародышевой линии, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и указанный второй вариант зародышевой линии, и
(iv) удаление указанных идентифицированных вторых вариантов зародышевой линии из указанного индекса первых отфильтрованных вариантов с получением индекса соматических мутаций, что приводит к идентификации соматических мутаций в указанном множестве вариантов.
26. Способ по п. 25, отличающийся тем, что указанное пороговое количество аллелей составляет 5.
27. Способ по п. 26, отличающийся тем, что указанное пороговое количество аллелей составляет 10.
28. Способ по любому из пп. 25-27, отличающийся тем, что указанный первый и второй референсный набор вариантов представляет собой один и тот же референсный набор.
29. Способ по любому из пп. 25-28, отличающийся тем, что указанный первый или второй референсный набор вариантов содержит базу данных вариантов для множества индивидуумов.
30. Способ по любому из пп. 25-29, отличающийся тем, что указанный первый или второй референсный набор вариантов содержит по меньшей мере одну базу данных, выбранную из агрегированной базы данных генома (gnomAD) и базы данных «1000 геномов».
31. Способ по любому из пп. 25-30, отличающийся тем, что указанная одна и та же область генома находится в пределах одной и той же хромосомы.
32. Способ по любому из пп. 25-31, отличающийся тем, что указанная одна и та же область генома находится в пределах одного и того же хромосомного плеча.
33. Способ по любому из пп. 25-32, отличающийся тем, что указанная одна и та же область генома находится в пределах одной и той же хромосомной цитополосы.
34. Способ по любому из пп. 25-33, отличающийся тем, что указанная одна и та же область генома находится в пределах области 10 млн п. о.
35. Способ по любому из пп. 25-34, отличающийся тем, что указанное получение индекса вторых отфильтрованных вариантов также включает идентификацию второго варианта зародышевой линии, имеющего частоту аллеля, которая превышает или равна 0,9.
36. Способ по любому из пп. 25-35, отличающийся тем, что указанное получение индекса вторых отфильтрованных вариантов также включает идентификацию второго варианта зародышевой линии в указанном множестве вариантов, причем указанный второй вариант зародышевой линии представляет собой вариант из базы данных, присутствующий в указанном втором референсном наборе вариантов.
37. Способ по любому из пп. 25-36, отличающийся тем, что указанный приближенный диапазон представляет собой диапазон, имеющий максимум и минимум, составляющий 0,05 от частоты аллеля второго варианта зародышевой линии.
38. Способ по любому из пп. 25-37, отличающийся тем, что указанный приближенный диапазон представляет собой диапазон, имеющий максимум и минимум, составляющий два стандартных отклонения от биномиального распределения частоты аллеля второго варианта зародышевой линии и центрированный по частоте аллеля второго варианта зародышевой линии.
39. Способ по любому из пп. 25-38, отличающийся тем, что указанные вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере пяти вариантов из базы данных в той же группе, что и указанный второй вариант зародышевой линии.
40. Способ по любому из пп. 25-39, отличающийся тем, что указанные вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере десяти вариантов из базы данных в той же группе, что и указанный второй вариант зародышевой линии.
41. Способ по любому из пп. 25-39, отличающийся тем, что указанный биологический образец, содержащий опухолевую клетку, выбран из образца сыворотки, образца кала, образца крови, образца опухоли.
42. Способ по п. 41, отличающийся тем, что указанный образец опухоли зафиксирован.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62/754,094 | 2018-11-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2020140876A RU2020140876A (ru) | 2022-12-01 |
RU2813655C2 true RU2813655C2 (ru) | 2024-02-14 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2442999C1 (ru) * | 2010-10-21 | 2012-02-20 | Общество с ограниченной ответственностью "Сибирская геофизическая научно-производственная компания" | Программно-измерительный комплекс (пик) |
RU2589834C2 (ru) * | 2010-02-04 | 2016-07-10 | Джичи Медикал Юниверсити | Идентификация, оценка и лечение раковых заболеваний с генетической или приобретенной устойчивостью к ингибиторам alk |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2589834C2 (ru) * | 2010-02-04 | 2016-07-10 | Джичи Медикал Юниверсити | Идентификация, оценка и лечение раковых заболеваний с генетической или приобретенной устойчивостью к ингибиторам alk |
RU2442999C1 (ru) * | 2010-10-21 | 2012-02-20 | Общество с ограниченной ответственностью "Сибирская геофизическая научно-производственная компания" | Программно-измерительный комплекс (пик) |
Non-Patent Citations (1)
Title |
---|
Shile Zhang ET AL, "Comprehensive Evaluation of Illumina' s TruSight Tumor 170 Panel to Estimate Tumor Mutational Burden", "AACR 2017", 01 April 2017 (2017-04-01), Illumina, XP055486051, реферат, фиг.1. * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109689891B (zh) | 用于无细胞核酸的片段组谱分析的方法 | |
CN107849612B (zh) | 比对和变体测序分析管线 | |
CN110168648A (zh) | 序列变异识别的验证方法和系统 | |
US20190352695A1 (en) | Methods for fragmentome profiling of cell-free nucleic acids | |
US20230154563A1 (en) | Detection of Human Leukocyte Antigen Loss of Heterozygosity | |
CN112592976B (zh) | 一种检测met基因扩增的方法及装置 | |
AU2020364225B2 (en) | Fragment size characterization of cell-free DNA mutations from clonal hematopoiesis | |
CN115244622A (zh) | 使用甲基化测序数据调用变体的系统和方法 | |
JP7554121B2 (ja) | 体細胞バリアント検出のための方法および組成物 | |
KR20220086458A (ko) | 유전자 데이터 공유를 위한 차세대 염기 서열 분석 방법, 차세대 염기 서열 분석 장치 및 차세데 염기 서열 분석 프로그램 | |
RU2813655C2 (ru) | Способы и композиции для обнаружения соматического варианта | |
JP2022537442A (ja) | ヒト胚におけるコピー数変異を検証するために単一ヌクレオチド変異の密度を使用するシステム、コンピュータプログラム製品及び方法 | |
US20220223227A1 (en) | Machine learning techniques for identifying malignant b- and t-cell populations | |
CN111433855A (zh) | 筛查系统和方法 | |
CA3219608A1 (en) | Detection of human leukocyte antigen loss of heterozygosity | |
EP3635138B1 (en) | Method for analysing cell-free nucleic acids | |
André et al. | The importance of dogs for comparative pathology and genetics: Examples of shared resources and programmes | |
US20220415443A1 (en) | Machine-learning model for generating confidence classifications for genomic coordinates | |
Persson | Comparing Two Algorithms for the Detection of Cross-Contamination in Simulated Tumor Next-Generation Sequencing Data | |
Yang | Statistical Methods for Comapring Next-generation Sequencing Data-Reproducibility, Similarity and Differentiation | |
Sarantidis | Algorithms to Explore the Chromosomal Clustering of Genes |