RU2813655C2 - Способы и композиции для обнаружения соматического варианта - Google Patents

Способы и композиции для обнаружения соматического варианта Download PDF

Info

Publication number
RU2813655C2
RU2813655C2 RU2020140876A RU2020140876A RU2813655C2 RU 2813655 C2 RU2813655 C2 RU 2813655C2 RU 2020140876 A RU2020140876 A RU 2020140876A RU 2020140876 A RU2020140876 A RU 2020140876A RU 2813655 C2 RU2813655 C2 RU 2813655C2
Authority
RU
Russia
Prior art keywords
variants
germline
variant
database
paragraphs
Prior art date
Application number
RU2020140876A
Other languages
English (en)
Other versions
RU2020140876A (ru
Inventor
Цзинь Хён ЦЗЮЙ
Original Assignee
Иллюмина, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Иллюмина, Инк. filed Critical Иллюмина, Инк.
Publication of RU2020140876A publication Critical patent/RU2020140876A/ru
Application granted granted Critical
Publication of RU2813655C2 publication Critical patent/RU2813655C2/ru

Links

Images

Abstract

Изобретение относится к биотехнологии. Описан способ идентификации соматических мутаций во множестве вариантов, включающий: получение множества вариантов, содержащего соматические мутации и варианты зародышевой линии; применение фильтра базы данных к указанному множеству вариантов. При этом осуществляют: определение первых вариантов зародышевой линии в указанном множестве вариантов, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей. Далее применяют фильтр близости к указанному множеству вариантов, включая: группировку вариантов из указанного множества вариантов на множество групп, причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу, определение вариантов из базы данных в указанном множестве вариантов, причем вариант из базы данных присутствует во втором референсном наборе вариантов, и определение вторых вариантов зародышевой линии в указанном множестве вариантов, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и указанный второй вариант зародышевой линии. Затем определяют соматические мутации в указанном множестве вариантов путем удаления указанных идентифицированных первого и второго вариантов зародышевой линии из указанного множества вариантов. Также раскрыт способ определения мутационной нагрузки опухоли для опухоли, включающий: получение данных о последовательности из биологического образца, содержащего опухолевую клетку; определение множества вариантов на основании указанных данных о последовательности; и определение количества соматических мутаций в указанном множестве вариантов в соответствии с указанным выше способом, причем указанное количество соматических мутаций представляет собой мутационную нагрузку опухоли для опухоли. Также описан компьютеризованный способ идентификации соматических мутаций во множестве вариантов. Изобретение расширяет арсенал средств диагностики опухоли. 4 н. и 38 з.п. ф-лы, 11 ил., 3 табл., 5 пр.

Description

ОБЛАСТЬ ТЕХНИКИ
[0001] Некоторые варианты реализации способов и систем, предложенных в настоящей заявке, относятся к определению варианта на основании данных о последовательности, полученных из одного образца. Согласно некоторым вариантам реализации настоящего изобретения соматический вариант можно отличить от варианта зародышевой линии на основании частоты вариантного аллеля варианта в образце и его расположения в геноме.
УРОВЕНЬ ТЕХНИКИ
[0002] Мутация ДНК является причиной рака и на ней сосредоточено внимание при исследованиях и лечении рака. Секвенирование следующего поколения (NGS) представляет собой перспективную технологию обнаружения мутаций de novo благодаря огромному числу считываний (reads), которые могут выдавать современные секвенаторы. Теоретически, все мутации или варианты в геномном образце, независимо от частоты вариантного аллеля (VAF) или области генома, можно наблюдать при достаточной глубине считывания. Однако достоверное определение вариантов является непростой задачей из-за шума в считываниях. Было разработано несколько инструментов биоинформатики для выявления вариантов из считываний при секвенировании, и такие процедуры, как правило, состоят из трех компонентов: обработки считывания, картирования и выравнивания, а также определения варианта.
[0003] Для обработки считывания основания с низким качеством сигнала, обычно рядом с 3'-концом считываний, и экзогенные последовательности, такие как адаптеры секвенирования, удаляют из инструментов обработки считываний образца ДНК. Во-вторых, очищенные считывания картируют с использованием инструментов картирования и выравнивания, чтобы определить, откуда могут происходить варианты в референсном геноме, а затем выравнивают по парам оснований. На третьем этапе способ определения варианта применяют для отделения фактических вариантов от артефактов, возникающих в результате подготовки библиотеки, обогащения образцов, секвенирования и картирования/выравнивания. Все еще существует потребность в улучшенных способах определения варианта на основании данных о последовательности.
КРАТКОЕ ОПИСАНИЕ
[0004] Некоторые варианты реализации настоящего изобретения включают способ идентификации соматических вариантов во множестве вариантов, включающий: (а) получение множества вариантов, содержащего соматические варианты и варианты зародышевой линии; (b) применение фильтра базы данных к множеству вариантов, включающее: определение первых вариантов зародышевой линии во множестве вариантов, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей; (c) применение фильтра близости к множеству вариантов, включающее: (i) группировку (binning) вариантов из множества вариантов на множество групп (bins), причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу, (ii) определение вариантов из базы данных во множестве вариантов, причем вариант из базы данных присутствует во втором референсном наборе вариантов, и (iii) определение вторых вариантов зародышевой линии во множестве вариантов, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и второй вариант зародышевой линии; и (d) определение соматических вариантов во множестве вариантов путем удаления идентифицированных первого и второго вариантов зародышевой линии из множества вариантов.
[0005] Согласно некоторым вариантам реализации настоящего изобретения (b) и (c) выполняют последовательно.
[0006] Согласно некоторым вариантам реализации настоящего изобретения (c) выполняют перед (b).
[0007] Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 5. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 10.
[0008] Согласно некоторым вариантам реализации настоящего изобретения первый и второй референсный набор вариантов представляет собой один и тот же референсный набор.
[0009] Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит базу данных вариантов для множества индивидуумов. Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит по меньшей мере одну базу данных, выбранную из агрегированной базы данных генома (gnomAD) и базы данных «1000 геномов» (1000 genome database).
[00010] Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одного и того же хромосомного плеча. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах области 10 млн. п. о.
[00011] Согласно некоторым вариантам реализации настоящего изобретения применение фильтра близости также включает идентификацию второго варианта зародышевой линии, имеющего частоту аллеля, которая превышает или равна 0,9.
[00012] Согласно некоторым вариантам реализации настоящего изобретения применение фильтра близости также включает идентификацию второго варианта зародышевой линии во множестве вариантов, причем указанный второй вариант зародышевой линии представляет собой вариант из базы данных, присутствующий во втором референсном наборе вариантов.
[00013] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум 0,05 от частоты аллеля второго варианта зародышевой линии.
[00014] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум два стандартных отклонения от биномиального распределения частоты аллеля второго варианта зародышевой линии и центрированный по частоте аллеля второго варианта зародышевой линии.
[00015] Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере пяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере десяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии.
[00016] Согласно некоторым вариантам реализации настоящего изобретения (а) включает: получение данных о последовательности из биологического образца, содержащего опухолевую клетку. Некоторые варианты реализации настоящего изобретения также включают выравнивание данных о последовательности с референсной последовательностью и идентификацию вариантов в данных о последовательности.
[00017] Согласно некоторым вариантам реализации настоящего изобретения биологический образец, содержащий опухолевую клетку, выбран из образца сыворотки, образца кала, образца крови, образца опухоли. Согласно некоторым вариантам реализации настоящего изобретения образец опухоли зафиксирован.
[00018] Некоторые варианты реализации настоящего изобретения включают способ определения мутационной нагрузки опухоли для опухоли, включающий: получение данных о последовательности из биологического образца, содержащего опухолевую клетку; определение множества вариантов на основании данных о последовательности; и определение количества соматических вариантов во множестве вариантов в соответствии со способом согласно любому из вышеупомянутых вариантов реализации, причем указанное количество соматических вариантов представляет собой мутационную нагрузку опухоли для опухоли.
[00019] Некоторые варианты реализации настоящего изобретения включают способ лечения опухоли, включающий: определение опухоли, имеющей мутационную нагрузку опухоли, которая превышает или равна 10 соматическим вариантам, в соответствии со способом определения мутационной нагрузки опухоли для опухоли; и лечение опухоли путем введения эффективного количества ингибитора контрольной точки.
[00020] Согласно некоторым вариантам реализации настоящего изобретения опухоль выбрана из группы, состоящей из колоректальной опухоли, опухоли легких, опухоли эндометрия, опухоли матки, опухоли желудка, меланомы, опухоли молочной железы, опухоли поджелудочной железы, опухоли почек, опухоли мочевого пузыря и опухоли головного мозга.
[00021] Согласно некоторым вариантам реализации настоящего изобретения ингибитор контрольной точки выбран из группы, состоящей из ингибитора CTLA-4, ингибитора PD-1 и ингибитора PD-L1. Согласно некоторым вариантам реализации настоящего изобретения ингибитор контрольной точки выбран из группы, состоящей из ипилимумаба, ниволумаба, пембролизумаба, спартализумаба, атезолизумаба, авелумаба и дурвалумаба.
[00022] Некоторые варианты реализации настоящего изобретения включают электронную систему для анализа данных о генетической изменчивости, содержащую: модуль информатики, работающий на процессоре и адаптированный для идентификации множества вариантов на основании данных о последовательности из биологического образца, содержащего опухолевую клетку, причем указанное множество вариантов содержит соматические варианты и варианты зародышевой линии; модуль фильтра базы данных, адаптированный для удаления первых вариантов зародышевой линии из множества вариантов, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей; модуль фильтра близости, адаптированный для удаления вторых вариантов зародышевой линии из множества вариантов, причем указанный модуль фильтра близости, содержит: подмодуль группировки, адаптированный для выдачи множества групп, причем каждая группа содержит варианты из множества вариантов, расположенные в одной и той же области генома, подмодуль идентификации, адаптированный для выдачи вариантов из базы данных во множестве вариантов, причем вариант из базы данных присутствует во втором референсном наборе вариантов, и подмодуль удаления, адаптированный для удаления вторых вариантов зародышевой линии из множества вариантов, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и второй вариант зародышевой линии; и модуль отображения, адаптированный для выдачи вариантов, не удаленных из множества вариантов.
[00023] Согласно некоторым вариантам реализации настоящего изобретения модуль информатики содержит инструмент аннотации варианта.
[00024] Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 5. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 10.
[00025] Согласно некоторым вариантам реализации настоящего изобретения первый и второй референсный набор вариантов представляет собой один и тот же референсный набор.
[00026] Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит базу данных вариантов для множества индивидуумов. Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит по меньшей мере одну базу данных, выбранную из агрегированной базы данных генома (gnomAD) и базы данных «1000 геномов».
[00027] Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одного и того же хромосомного плеча. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах области 10 млн. п.о.
[00028] Согласно некоторым вариантам реализации настоящего изобретения подмодуль удаления адаптирован для удаления варианта, имеющего частоту аллеля, которая превышает или равна 0,9, из множества вариантов.
[00029] Согласно некоторым вариантам реализации настоящего изобретения подмодуль удаления адаптирован для удаления варианта из базы данных, присутствующего во втором референсном наборе вариантов, из множества вариантов.
[00030] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум 0,05 от частоты аллеля второго варианта зародышевой линии.
[00031] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум два стандартных отклонения от биномиального распределения частоты аллеля второго варианта зародышевой линии и центрированный по частоте аллеля второго варианта зародышевой линии.
[00032] Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере пяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере десяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии.
[00033] Согласно некоторым вариантам реализации настоящего изобретения биологический образец, содержащий опухолевую клетку, выбран из образца сыворотки, образца кала, образца крови, образца опухоли. Согласно некоторым вариантам реализации настоящего изобретения образец опухоли зафиксирован.
[00034] Некоторые варианты реализации настоящего изобретения включают компьютеризованный способ идентификации соматических вариантов во множестве вариантов, включающий: выполнение способа согласно любому из вышеупомянутых способов.
[00035] Некоторые варианты реализации настоящего изобретения включают компьютеризованный способ идентификации соматических вариантов во множестве вариантов, включающий: (a) получение множества вариантов на основании данных о последовательности из биологического образца, содержащего опухолевую клетку, причем указанное множество вариантов содержит соматические варианты и варианты зародышевой линии; (b) применение фильтра базы данных к множеству вариантов, включающее: получение индекса документов для множества вариантов, поиск в первом референсном наборе вариантов с использованием указанного индекса для идентификации первых вариантов зародышевой линии в указанном индексе, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей, и удаление идентифицированных первых вариантов зародышевой линии из указанного индекса с получением индекса первых отфильтрованных вариантов; (c) применение фильтра близости к индексу первых отфильтрованных вариантов, включающее: (i) получение множества групп для различных областей генома, (ii) группировку вариантов индекса первых отфильтрованных вариантов, причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу, (iii) поиск во втором референсном наборе вариантов с использованием указанного индекса первых отфильтрованных вариантов для идентификации вариантов из базы данных в указанном индексе первых отфильтрованных вариантов, (iii) получение индекса вторых вариантов зародышевой линии из указанного индекса первых отфильтрованных вариантов путем идентификации вторых вариантов зародышевой линии, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и второй вариант зародышевой линии, и (iv) удаление идентифицированных вторых вариантов зародышевой линии из указанного индекса первых отфильтрованных вариантов с получением индекса соматических вариантов, что приводит к идентификации соматических вариантов во множестве вариантов.
[00036] Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 5. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей составляет 10.
[00037] Согласно некоторым вариантам реализации настоящего изобретения первый и второй референсный набор вариантов представляет собой один и тот же референсный набор.
[00038] Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит базу данных вариантов для множества индивидуумов. Согласно некоторым вариантам реализации настоящего изобретения первый или второй референсный набор вариантов содержит по меньшей мере одну базу данных, выбранную из агрегированной базы данных генома (gnomAD) и базы данных «1000 геномов».
[00039] Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одного и того же хромосомного плеча. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома находится в пределах области 10 млн. п. о.
[00040] Согласно некоторым вариантам реализации настоящего изобретения получение индекса вторых отфильтрованных вариантов также включает идентификацию второго варианта зародышевой линии, имеющего частоту аллеля, которая превышает или равна 0,9.
[00041] Согласно некоторым вариантам реализации настоящего изобретения получение индекса вторых отфильтрованных вариантов также включает идентификацию второго варианта зародышевой линии во множестве вариантов, причем указанный второй вариант зародышевой линии представляет собой вариант из базы данных, присутствующий во втором референсном наборе вариантов.
[00042] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум 0,05 от частоты аллеля второго варианта зародышевой линии.
[00043] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум два стандартных отклонения от биномиального распределения частоты аллеля второго варианта зародышевой линии и центрированный по частоте аллеля второго варианта зародышевой линии.
[00044] Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере пяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере десяти вариантов из базы данных в той же группе, что и второй вариант зародышевой линии.
[00045] Согласно некоторым вариантам реализации настоящего изобретения биологический образец, содержащий опухолевую клетку, выбран из образца сыворотки, образца кала, образца крови, образца опухоли. Согласно некоторым вариантам реализации настоящего изобретения образец опухоли зафиксирован.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[00046] ФИГ. 1 изображает примерный вариант реализации рабочего процесса, который включает получение данных о последовательности, таких как файл VCF, идентификацию и аннотирование вариантов в данных, идентификацию и фильтрацию варианта зародышевой линии и выдачу таблицы вариантов, в которой указан статус вариантов.
[00047] ФИГ. 2А представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами (черные круги) и вариантами зародышевой линии (серые круги).
[00048] ФИГ. 2B представляет собой график, показывающий VAF для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги).
[00049] ФИГ. 3 представляет собой график, показывающий VAF для различных вариантов в соответствии с хромосомным расположением для хромосом 1-7 для каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), а также увеличение для вариантов, расположенных на хромосоме 7, в которой был выбран конкретный соматический вариант, определенный с помощью фильтра, и диапазон, полученный из выбранного варианта.
[00050] ФИГ. 4A представляет собой график, показывающий VAF для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), отфильтрованными с применением только фильтра базы данных.
[00051] ФИГ. 4B представляет собой график, показывающий VAF для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), отфильтрованными с применением только фильтра базы данных, а также фильтра близости.
[00052] На ФИГ. 5 изображен обзор примерного варианта реализации рабочего процесса, который включает получение фиксированных формалином и залитых парафином (FFPE) образцов, получение данных о последовательности и анализ данных о последовательности.
[00053] На ФИГ. 6 изображен примерный вариант рабочего процесса, который включает фильтрацию вариантов зародышевой линии из идентифицированных вариантов с использованием фильтра базы данных и фильтра близости и вычисление мутационной нагрузки опухоли.
[00054] ФИГ. 7 представляет собой линейный график, показывающий распределение количества оставшихся вариантов зародышевой линии после фильтрации с использованием только базы данных (пики на графике при примерно 3 остатках зародышевой линии/млн. п. о.) и гибридной стратегии (пики на графике при примерно 0 остатках зародышевой линии/ млн. п. о.).
[00055] ФИГ. 8A представляет собой график, показывающий сравнение мутационной нагрузки опухоли (TMB) между анализами только опухоли и опухоль/нормальный образец.
[00056] ФИГ. 8B представляет собой график, показывающий сравнение мутационной нагрузки опухоли (TMB) между анализами только опухоли и WES опухоль/нормальный образец.
ПОДРОБНОЕ ОПИСАНИЕ
[00057] Некоторые варианты реализации способов и систем, предложенных в настоящей заявке, относятся к определению варианта на основании данных о последовательности, полученных из одного образца. Согласно некоторым вариантам реализации настоящего изобретения соматический вариант можно отличить от варианта зародышевой линии на основании частоты аллеля варианта в образце и расположения варианта в геноме. В настоящей заявке «вариант» может включать полиморфизм в молекуле нуклеиновой кислоты. Полиморфизм может включать вставку, делецию, тандемные повторы вариабельной длины, однонуклеотидную мутацию и структурный вариант, такой как транслокация, вариацию числа копий или их комбинацию. В настоящей заявке «вариант зародышевой линии» может включать вариант, присутствующий в зародышевых клетках и во всех клетках индивидуума. В настоящей заявке «соматический вариант» может включать вариант, присутствующий в опухолевой клетке, но не в других клетках индивидуума.
[00058] Обычно определение варианта среди соматических вариантов и вариантов зародышевой линии основывалось на сравнении данных, полученных из образца опухоли, и данных, полученных из сопоставимого нормального образца. Однако для обычного определения варианта требуется наличие сопоставимого образца и получение двух наборов данных. Варианты реализации, предложенные в настоящей заявке, относятся к определению варианта на основании данных о последовательности, полученных из одного образца от индивидуума. Использование одного образца может снизить потребность в сопоставимом образце и снизить затраты, которые могли бы потребоваться для получения данных о последовательности как для образца опухоли, так и для сопоставимого нормального образца.
[00059] Некоторые варианты реализации относятся к получению данных о последовательности из образца, такого как образец от индивидуума, содержащего опухолевую клетку, сравнению данных о последовательности с референсом для идентификации множества вариантов в данных о последовательности и применению одного или более фильтров к вариантам для идентификации вариантов зародышевой линии и соматических вариантов. Согласно некоторым вариантам реализации настоящего изобретения фильтр может включать фильтр близости. Согласно некоторым вариантам реализации настоящего изобретения фильтр близости включает группировку множества вариантов на множество групп в соответствии с расположением вариантов в геноме. Некоторые из сгруппированных вариантов могут быть идентифицированы как варианты зародышевой линии по наличию соответствующих вариантов в одном или более референсных наборах вариантов. Неохарактеризованный сгруппированный вариант может быть определен как вариант зародышевой линии, если неохарактеризованный сгруппированный вариант имеет частоту аллеля, близкую частоте аллеля одного или более идентифицированных вариантов зародышевой линии в той же группе, что и неохарактеризованный вариант. Некоторые варианты реализации также включают применение фильтра базы данных для идентификации вариантов зародышевой линии. Фильтр базы данных может идентифицировать варианты зародышевой линии в соответствии с количеством аллелей соответствующих вариантов в одном или более референсных наборах вариантов. Согласно некоторым вариантам реализации настоящего изобретения фильтр базы данных и фильтр близости можно применять к множеству вариантов для идентификации вариантов зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения соматические варианты представляют собой варианты, которые идентифицированы как варианты зародышевой линии. Количество соматических вариантов может указывать на мутационную нагрузку опухоли для опухоли.
[00060] Мутационная нагрузка опухоли стала важным биомаркером для выбора терапии рака после того, как недавние исследования показали корреляцию между мутационной нагрузкой опухоли и эффективностью разных видов иммунотерапии ингибиторами контрольных точек. При расчете мутационной нагрузки опухоли приемлемо, когда идентифицируют и отфильтровывают варианты зародышевой линии. Варианты зародышевой линии могут включать варианты, с которыми индивидуум родился (или общие для опухоли и нормальной клетки), но которые обнаруживаются как варианты по сравнению с референсным геномом. Эти варианты не участвуют в установлении отличия опухолевых клеток от нормальных клеток и, соответственно, могут привести к переоценке мутационной нагрузки опухоли, если они не отфильтрованы корректным образом. Варианты реализации включают определение мутационной нагрузки опухоли для опухоли, выбор лечения опухоли в соответствии с мутационной нагрузкой опухоли и введение средства лечения субъекту, нуждающемуся в этом.
Определенные способы
[00061] Некоторые варианты реализации способов и систем, предложенных в настоящей заявке, относятся к способу идентификации соматического варианта во множестве вариантов, содержащем соматические варианты и варианты зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения варианты зародышевой линии можно отфильтровать из множества вариантов с применением одного или более фильтров. Примеры таких фильтров включают фильтр базы данных и фильтр близости.
[00062] Согласно некоторым вариантам реализации настоящего изобретения фильтр базы данных можно применять к множеству вариантов. Фильтр базы данных можно применять для идентификации варианта как варианта зародышевой линии и удаления варианта из множества вариантов. Фильтр базы данных может быть связан с количеством аллелей соответствующего варианта в базе данных для конкретного варианта из множества вариантов.
[00063] Для каждого варианта во множестве вариантов в референсной базе данных может быть проведен поиск соответствующего варианта в базе данных. Референсная база данных может включать базу данных вариантов для множества индивидуумов. Примеры баз данных, которые можно применять с вариантами реализации, предложенными в настоящей заявке, включают агрегированную базу данных генома (gnomAD), включая базы данных экзома gnomAD и генома gnomAD, и базу данных «1000 геномов» (International Genome Sample Resource). См., например, Lek, M., et al., (2016) Nature 536:285-292, которая полностью включена посредством ссылки. Общее количество аллелей для соответствующего варианта можно определить в одной или более референсных базах данных. Количество аллелей может представлять общее количество наблюдений в базе данных, в которых наблюдается вариант. Например, количество аллелей 10 в базе данных для соответствующего варианта означает, что соответствующий вариант наблюдается в по меньшей мере 5 образцах для гомозиготных вариантов или максимум в 10 образцах для гетерозиготных вариантов. Согласно некоторым вариантам реализации настоящего изобретения количество аллелей может представлять собой самое большое количество аллелей, наблюдаемое в более чем одной базе данных. Вариант, имеющий соответствующий вариант с количеством аллелей, которое превышает или равно определенному пороговому количеству аллелей, может быть идентифицирован как вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей может быть больше или равно 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 и 20.
[00064] Согласно некоторым вариантам реализации настоящего изобретения фильтр близости можно применять к множеству вариантов. Фильтр базы данных можно применять для идентификации варианта как варианта зародышевой линии и удаления варианта из множества вариантов. Фильтр близости может быть связан с частотой аллеля определенного варианта из множества вариантов, расположением варианта в области генома и близостью частоты аллеля варианта к частоте аллеля идентифицированных вариантов зародышевой линии в той же области генома. Согласно некоторым вариантам реализации настоящего изобретения варианты из множества вариантов могут быть отсортированы или сгруппированы на множество групп так, что варианты, расположенные в одной и той же области генома, сортируют или группируют в одну и ту же группу. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одной и той же хромосомы, в пределах одного и того же плеча хромосомы, в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одних и тех же непрерывных 100 млн. п. о., 50 млн. п. о., 40 млн. п. о., 30 млн. п. о., 20 млн. п. о., 10 млн. п. о., 5 млн. п. о., 1 млн. п. о. или в пределах любого диапазона между любыми двумя из указанных выше чисел.
[00065] Согласно некоторым вариантам реализации настоящего изобретения фильтр близости также включает определение того, какие сгруппированные варианты легко идентифицируются как варианты зародышевой линии. Например, сгруппированный вариант может иметь соответствующий вариант, присутствующий в одной или более референсных базах данных, и может быть идентифицирован как вариант зародышевой линии.
[00066] Согласно некоторым вариантам реализации настоящего изобретения фильтр близости включает определение того, что варианты, имеющие частоту аллеля, которая превышает или равна пороговой частоте в образце, представляют собой варианты зародышевой линии. В некоторых таких вариантах реализации варианты, имеющие частоту аллеля, которая превышает или равна 0,7, 0,8, 0,9 или 1,0, могут быть идентифицированы как варианты зародышевой линии.
[00067] Согласно некоторым вариантам реализации настоящего изобретения фильтр близости включает определение приближенного диапазона частоты аллеля для варианта, который не был идентифицирован как вариант зародышевой линии. Приближенный диапазон частоты аллеля для варианта может включать диапазон частот аллеля, которые выше и ниже частоты аллеля этого варианта. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум от частоты аллеля варианта 0,01, 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09 или любое число в пределах диапазона между любыми двумя из указанных выше чисел. Например, для варианта, имеющего частоту аллеля 0,2 и приближенный диапазон 0,05, минимум и максимум приближенного диапазона будут представлять собой частоты аллеля 0,15 и 0,25, соответственно.
[00068] Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон определяется значением двух (n) стандартных отклонений биномиального распределения, при условии, что подтверждающее свидетельство для конкретного варианта получено с помощью биномиального процесса. Например, для варианта, имеющего частоту аллеля (x), с охватом (y), приближенный диапазон (z) может представлять собой:
z = n*sqrt(y*x*(1-x))/y
[00069] Например, для варианта, имеющего частоту аллеля 0,2, охват/глубину секвенирования 100, приближенный диапазон будет представлять собой 0,08, а минимум и максимум приближенного диапазона будут представлять собой частоты аллеля 0,12 и 0,28, соответственно. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон либо превышает 0,05, либо на два (n) стандартных отклонения от биномиального распределения частоты аллеля варианта выше и ниже частоты аллеля варианта.
[00070] Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона одного или более идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона более чем 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона более чем 5 идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Например, в варианте реализации, в котором вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона более чем 5 идентифицированных вариантов зародышевой линии в той же группе, что и вариант: вариант, имеющий частоту аллеля 0,2, с приближенным диапазоном 0,05, соответственно, имеющий минимальный диапазон 0,15 и максимальный диапазон 0,25 и сгруппированный в группу, представляющую хромосому 7, будет идентифицирован как вариант зародышевой линии, если более чем 5 идентифицированных вариантов зародышевой линии имеют частоты аллеля в пределах приближенного диапазона варианта и сгруппированы в группу, представляющую хромосому 7.
[00071] Согласно некоторым вариантам реализации настоящего изобретения фильтр близости идентифицирует соматические варианты, которые представляют собой варианты, которые не идентифицированы как варианты зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения число соматических вариантов, полученных на основании данных секвенирования из опухоли, представляет собой мутационную нагрузку опухоли для опухоли.
[00072] Согласно некоторым вариантам реализации настоящего изобретения фильтр базы данных или фильтр близости можно применять к множеству вариантов для идентификации и удаления вариантов зародышевой линии из множества вариантов. Согласно некоторым вариантам реализации настоящего изобретения фильтр базы данных и фильтр близости можно применять последовательно. Например, выходные данные фильтра базы данных можно применять в качестве входных данных фильтра близости. И наоборот, выходные данные фильтра близости можно применять в качестве входных данных фильтра базы данных.
Определенные электронные системы и компьютеризованные способы
[00073] Некоторые варианты реализации способов и систем, предложенных в настоящей заявке, включают электронную систему для анализа данных о генетической изменчивости. В некоторых таких вариантах реализации фильтр базы данных, описанный в настоящей заявке, и/или фильтр близости, описанный в настоящей заявке, можно применять к данным о генетической изменчивости для идентификации вариантов зародышевой линии.
[00074] Некоторые варианты реализации могут включать модуль информатики, работающий на процессоре и адаптированный для идентификации множества вариантов на основании данных о последовательности из биологического образца, содержащего опухолевую клетку, в котором множество вариантов содержит соматические варианты и варианты зародышевой линии.
[00075] Некоторые варианты реализации настоящего изобретения включают модуль фильтра базы данных, адаптированный для удаления вариантов зародышевой линии из множества вариантов, причем каждый из указанных вариантов зародышевой линии имеет количество аллелей в референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей может быть больше или равно 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 и 20.
[00076] Некоторые варианты реализации настоящего изобретения включают модуль фильтра близости, адаптированный для удаления вариантов зародышевой линии из множества вариантов. Согласно некоторым вариантам реализации настоящего изобретения модуль фильтра близости может включать подмодуль группировки, адаптированный для выдачи множества групп, причем каждая группа содержит варианты из множества вариантов, расположенные в одной и той же области генома. Согласно некоторым вариантам реализации настоящего изобретения варианты из множества вариантов могут быть отсортированы или сгруппированы на множество групп так, что варианты, расположенные в одной и той же области генома, сортируют или группируют в одну и ту же группу. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одной и той же хромосомы, в пределах одного и того же плеча хромосомы, в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одних и тех же непрерывных 100 млн. п. о., 50 млн. п. о., 40 млн. п. о., 30 млн. п. о., 20 млн. п. о., 10 млн. п. о., 5 млн. п. о., 1 млн. п. о. или в пределах любого диапазона между любыми двумя из указанных выше чисел.
[00077] Согласно некоторым вариантам реализации настоящего изобретения модуль фильтра близости может включать подмодуль идентификации, адаптированный для выдачи вариантов из базы данных во множестве вариантов, причем вариант из базы данных присутствует в референсном наборе вариантов.
[00078] Согласно некоторым вариантам реализации настоящего изобретения модуль фильтра близости может включать подмодуль удаления, адаптированный для удаления вариантов зародышевой линии из множества вариантов, причем каждый из указанных вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения фильтр близости включает определение приближенного диапазона частоты аллеля для варианта, который не был идентифицирован как вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум от частоты аллеля варианта 0,01, 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09 или любое число в пределах диапазона между любыми двумя из указанных выше чисел. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум два стандартных отклонения от биномиального распределения частоты аллеля варианта. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон превышает 0,05 или на два (n) стандартных отклонения от биномиального распределения частоты аллеля варианта выше и ниже частоты аллеля варианта.
[00079] Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона одного или более идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона более чем 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения подмодуль удаления адаптирован для удаления варианта, имеющего частоту аллеля, которая превышает или равна пороговой частоте. В некоторых таких вариантах реализации варианты, имеющие частоту аллеля, которая превышает или равна 0,7, 0,8, 0,9 или 1,0, могут быть идентифицированы как варианты зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения подмодуль удаления адаптирован для удаления варианта из базы данных, присутствующего в референсном наборе вариантов, из множества вариантов.
[00080] Некоторые варианты реализации, предложенные в настоящей заявке, включают компьютеризованные способы идентификации соматических вариантов во множестве вариантов. Некоторые такие варианты реализации могут включать получение множества вариантов на основании данных о последовательности из биологического образца, содержащего опухолевую клетку, причем указанное множество вариантов может включать соматические варианты и варианты зародышевой линии.
[00081] Некоторые варианты реализации настоящего изобретения включают применение фильтра базы данных к множеству вариантов. Некоторые такие варианты реализации включают получение индекса документов для множества вариантов, поиск в референсном наборе вариантов с использованием указанного индекса для идентификации вариантов зародышевой линии в указанном индексе. Согласно некоторым вариантам реализации настоящего изобретения каждый из вариантов зародышевой линии имеет количество аллелей в референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей. Согласно некоторым вариантам реализации настоящего изобретения пороговое количество аллелей может быть больше или равно 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 и 20. Некоторые варианты реализации также включают удаление идентифицированных вариантов зародышевой линии из индекса с получением индекса первых отфильтрованных вариантов.
[00082] Некоторые варианты реализации настоящего изобретения включают применение фильтра близости к индексу первых отфильтрованных вариантов. Некоторые такие варианты реализации включают получение множества групп для различных областей генома. Некоторые варианты реализации настоящего изобретения включают группировку вариантов индекса первых отфильтрованных вариантов, причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одной и той же хромосомы, в пределах одного и того же плеча хромосомы, в пределах одной и той же хромосомной цитополосы. Согласно некоторым вариантам реализации настоящего изобретения одна и та же область генома может находиться в пределах одних и тех же непрерывных 100 млн. п. о., 50 млн. п. о., 40 млн. п. о., 30 млн. п. о., 20 млн. п. о., 10 млн. п. о., 5 млн. п. о., 1 млн. п. о. или в пределах любого диапазона между любыми двумя из указанных выше чисел.
[00083] Некоторые варианты реализации настоящего изобретения включают поиск в референсном наборе вариантов с использованием индекса первых отфильтрованных вариантов для идентификации вариантов из базы данных в указанном индексе первых отфильтрованных вариантов.
[00084] Некоторые варианты реализации настоящего изобретения включают получение индекса вариантов зародышевой линии из индекса первых отфильтрованных вариантов путем идентификации вариантов зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения каждый из вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и второй вариант зародышевой линии. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум от частоты аллеля варианта 0,01, 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09 или любое число в пределах диапазона между любыми двумя из указанных выше чисел. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон представляет собой диапазон, имеющий максимум и минимум два стандартных отклонения от биномиального распределения частоты аллеля варианта. Согласно некоторым вариантам реализации настоящего изобретения приближенный диапазон превышает 0,05 или на два (n) стандартных отклонения от биномиального распределения частоты аллеля варианта выше и ниже частоты аллеля варианта.
[00085] Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона одного или более идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения вариант может быть идентифицирован как вариант зародышевой линии, если вариант имеет частоту аллеля в пределах приближенного диапазона более чем 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 идентифицированных вариантов зародышевой линии в той же группе, что и вариант. Согласно некоторым вариантам реализации настоящего изобретения вариант зародышевой линии может быть идентифицирован как вариант, имеющий частоту аллеля, которая превышает или равна пороговой частоте. В некоторых таких вариантах реализации варианты, имеющие частоту аллеля, которая превышает или равна 0,7, 0,8, 0,9 или 1,0, могут быть идентифицированы как варианты зародышевой линии.
[00086] Некоторые варианты реализации настоящего изобретения включают удаление идентифицированных вариантов зародышевой линии из индекса первых отфильтрованных вариантов с получением индекса соматических вариантов, что приводит к идентификации соматических вариантов во множестве вариантов. Согласно некоторым вариантам реализации настоящего изобретения количество соматических вариантов, полученное на основании данных секвенирования из опухоли, представляет собой мутационную нагрузку опухоли для опухоли.
Способы лечения
[00087] Некоторые варианты реализации способов и систем включают способы лечения опухоли. В некоторых таких вариантах реализации количество соматических вариантов, присутствующих в опухоли, можно определить с помощью способов и систем, предложенных в настоящей заявке. Например, данные о последовательности могут быть получены из опухоли, множество вариантов может быть идентифицировано на основании данных о последовательности, а варианты зародышевой линии могут быть идентифицированы и удалены из множества вариантов, что приводит к идентификации соматических вариантов во множестве вариантов. Согласно некоторым вариантам реализации настоящего изобретения варианты зародышевой линии могут быть идентифицированы и удалены из множества вариантов путем применения одного или более из фильтра базы данных и/или фильтра близости, что приводит к идентификации соматических вариантов, которые не удаляются путем применения одного или более из фильтров. Согласно некоторым вариантам реализации настоящего изобретения количество соматических вариантов, полученное на основании данных секвенирования из опухоли, представляет собой мутационную нагрузку опухоли для опухоли. Согласно некоторым вариантам реализации настоящего изобретения мутационную нагрузку опухоли рассчитывают как среднее количество соматических вариантов на геномную область, таких как, например, мутации на 50 тыс. п. о., 100 тыс. п. о., 1 млн. п. о., 10 млн. п. о., 100 млн. п. о. и т.п. Мутационная нагрузка опухоли может быть проанализирована в образце путем секвенирования всего генома или его части. Например, часть генома может быть секвенирована путем обогащения одной или более представляющих интерес геномных областей, таких как панель опухолевых генов, полный экзом, частичный экзом и т. п.
[00088] Некоторые варианты реализации лечения опухоли могут включать определение опухоли, имеющей мутационную нагрузку опухоли, которая превышает или равна порогу мутационной нагрузки опухоли, и приведение опухоли в контакт с эффективным количеством терапевтического агента. Некоторые варианты реализации настоящего изобретения включают лечение субъекта, имеющего опухоль, и могут включать определение опухоли, имеющей мутационную нагрузку опухоли, которая превышает или равна порогу TMB, и введение субъекту эффективного количества терапевтического агента. Согласно некоторым вариантам реализации настоящего изобретения порог мутационной нагрузки опухоли может составлять 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000 или любое число в пределах диапазона между любыми двумя из указанных выше чисел. Примеры терапевтических агентов включают химиотерапевтические агенты. Согласно некоторым вариантам реализации настоящего изобретения терапевтический агент может включать ингибитор контрольной точки. Примеры ингибиторов контрольных точек включают ингибитор CTLA-4, ингибитор PD-1 и ингибитор PD-L1. Согласно некоторым вариантам реализации настоящего изобретения ингибитор контрольной точки может включать ипилимумаб, ниволумаб, пембролизумаб, спартализумаб, атезолизумаб, авелумаб и дурвалумаб. Примеры опухолей включают колоректальную опухоль, опухоль легких, опухоль эндометрия, опухоль матки, опухоль желудка, меланому, опухоль молочной железы, опухоль поджелудочной железы, опухоль почек, опухоль мочевого пузыря и опухоль головного мозга. Больше примеров видов рака, которые можно лечить с применением способов и систем, включенных в настоящий документ, перечислено в U.S. 20180218789, который явным образом полностью включен в настоящую заявку посредством ссылки.
Образцы
[00089] Некоторые варианты реализации настоящего изобретения включают получение данных о последовательности из биологического образца. Согласно некоторым вариантам реализации настоящего изобретения биологический образец может включать опухолевую клетку. Согласно некоторым вариантам реализации настоящего изобретения биологический образец может включать образец сыворотки, образец кала, образец крови и образец опухоли. Согласно некоторым вариантам реализации настоящего изобретения биологический образец зафиксирован.
[00090] Согласно некоторым вариантам реализации настоящего изобретения субъект может предоставить биологический образец. Биологический образец может представлять собой любое вещество, которое продуцируется субъектом. Обычно биологический образец представляет собой любую ткань, взятую у субъекта, или любое вещество, продуцируемое субъектом. Примеры биологических образцов могут включать кровь, плазму, слюну, спинномозговую жидкость (CSF), ткань щеки, мочу, кал, кожу, волосы, ткань органа. Согласно некоторым вариантам реализации настоящего изобретения биологический образец представляет собой солидную опухоль или биопсию солидной опухоли. Согласно некоторым вариантам реализации настоящего изобретения биологический образец представляет собой фиксированный формалином и залитый парафином (FFPE) образец ткани. Биологический образец может представлять собой любой биологический образец, который содержит нуклеиновые кислоты. Биологические образцы могут быть получены от субъекта. Субъект может представлять собой млекопитающее, рептилию, амфибию, птицу или рыбу. Примеры млекопитающих включают человека, человекообразную обезьяну, орангутана, обезьяну, шимпанзе, корову, свинью, лошадь, грызуна, птицу, рептилию, собаку, кошку, дельфина или другое животное. Примеры рептилий включают ящерицу, змею, аллигатора, водную черепаху, крокодила, игуану и сухопутную черепаху. Примеры амфибий включают жабу, лягушку, тритона и саламандру. Примеры птиц включают кур, уток, гусей, пингвинов, страусов, тупиков и сов. Примеры рыб включают сома, угрей, акул, золотую рыбку и рыбу-меч. Согласно некоторым вариантам реализации настоящего изобретения субъект представляет собой человека.
Определенные системы и способы
[00091] Некоторые варианты реализации настоящего изобретения включают системы на основе компьютеров и компьютеризованные способы для выполнения способов, описанных в настоящей заявке. Согласно некоторым вариантам реализации настоящего изобретения системы можно применять для определения и сообщения о наличии или отсутствии вариантов в образце, таких как варианты зародышевой линии и/или соматические варианты. Система может содержать один или более клиентских компонентов. Один или более клиентских компонентов могут содержать пользовательский интерфейс. Система может содержать один или более серверных компонентов. Серверные компоненты могут содержать одну или более ячеек памяти. Одна или более ячеек памяти могут быть сконфигурированы для приема входных данных. Входные данные могут содержать данные секвенирования. Данные секвенирования могут быть получены из образца нуклеиновой кислоты от субъекта. Система может дополнительно содержать один или более компьютерных процессоров. Один или более компьютерных процессоров могут быть функционально связаны с одной или более ячейками памяти. Один или более компьютерных процессоров могут быть запрограммированы для картирования данных секвенирования в референсной последовательности. Один или более компьютерных процессоров могут быть дополнительно запрограммированы для определения наличия или отсутствия множества вариантов на основании данных секвенирования. Один или более компьютерных процессоров могут быть дополнительно запрограммированы для применения по меньшей мере одного фильтра к генетическим вариантам для идентификации вариантов зародышевой линии. Примеры фильтров включают фильтр базы данных и фильтр близости. Один или более компьютерных процессоров могут быть дополнительно запрограммированы для удаления идентифицированных вариантов зародышевой линии из индекса идентифицированных вариантов. Один или более компьютерных процессоров могут быть дополнительно запрограммированы для получения выходных данных для отображения на экране. Выходные данные могут содержать один или более отчетов, идентифицирующих варианты зародышевой линии и/или соматические варианты во множестве вариантов.
[00092] Некоторые варианты реализации способов и систем могут содержать один или более клиентских компонентов. Один или более клиентских компонентов могут содержать один или более программных компонентов, один или более аппаратных компонентов или их комбинацию. Один или более клиентских компонентов могут получать доступ к одной или более службам через один или более серверных компонентов. Один или более клиентских компонентов могут получать доступ к одной или более службам через сеть. В настоящей заявке «службы» используется для обозначения любого продукта, способа, функции или применения системы. Например, пользователь может поместить заказ на генетический тест. Заказ может быть помещен через один или более клиентских компонентов системы, а запрос может быть передан через сеть одному или более серверным компонентам системы. Сеть может представлять собой Интернет, локальную сеть и/или экстранет, или интранет и/или экстранет, которые взаимодействуют с Интернетом. Сеть в некоторых случаях представляет собой телекоммуникационную сеть и/или сеть передачи данных. Сеть может включать один или более компьютерных серверов, которые могут обеспечивать распределенные вычисления, такие как облачные вычисления. Сеть, в некоторых случаях с помощью компьютерной системы, может быть организована как одноранговая сеть, которая может позволить устройствам, подключенным к компьютерной системе, выполнять функцию клиента или сервера.
[00093] Некоторые варианты реализации систем могут содержать одну или более ячеек памяти, таких как оперативная память, постоянная память, флеш-память, электронный блок хранения, такой как жесткий диск; интерфейс связи, такой как сетевой адаптер, для взаимодействия с одной или более другими системами, а также периферийные устройства, такие как кэш, другой тип памяти, адаптеры блока хранения данных и/или электронного дисплея. Память, блок хранения, интерфейс и периферийные устройства связаны с ЦП через коммуникационную шину, такую как материнская плата. Блок хранения может представлять собой блок хранения данных или архив данных для хранения данных. В одном примере одна или более ячеек памяти могут хранить полученные данные секвенирования.
[00094] Некоторые варианты реализации способов и систем могут содержать один или более компьютерных процессоров. Один или более компьютерных процессоров могут быть функционально связаны с одной или более ячейками памяти, например, для доступа к сохраненным данным секвенирования. Один или более компьютерных процессоров могут выполнять машиноисполняемый код для выполнения способов, описанных в настоящей заявке. Например, один или более компьютерных процессоров могут выполнять машиночитаемый код для картирования входных данных секвенирования на референсной последовательности и/или идентификации вариантов зародышевой линии и/или соматических вариантов.
[00095] Некоторые варианты реализации способов и систем, предложенных в настоящей заявке, могут включать машиноисполняемый или машиночитаемый код. В некоторых таких вариантах реализации машиноисполняемый или машиночитаемый код может быть обеспечен в виде программного обеспечения. Во время применения код может выполняться процессором. В некоторых случаях код может быть извлечен из блока хранения и сохранен в памяти для быстрого доступа процессора. Согласно некоторым вариантам реализации настоящего изобретения электронный блок хранения может быть исключен, а машиноисполняемые инструкции хранятся в памяти. Код может быть предварительно скомпилирован и сконфигурирован для использования с помощью машины, имеющей процессор, адаптированный для выполнения кода, может быть скомпилирован во время выполнения или может быть интерпретирован во время выполнения. Код может быть обеспечен на языке программирования, который может быть выбран для обеспечения возможности выполнения кода в предварительно скомпилированном, скомпилированном или интерпретированном виде.
[00096] Некоторые варианты реализации систем и способов, предложенных в настоящей заявке, такие как компьютерная система, могут быть реализованы при программировании. Различные аспекты технологии можно рассматривать как «продукты» или «изделия производства», как правило, в виде исполняемого машиной (или процессором) кода и/или ассоциированных данных, которые переносятся на тип машиночитаемого носителя или реализуются в нем. Машиноисполняемый код может храниться в электронном блоке хранения, таком как память или жесткий диск. Носители «хранящего» типа могут включать любую или все из материальной памяти компьютеров, процессоров и т.п. или их ассоциированных модулей, таких как различные полупроводниковые типы памяти, накопители на магнитной ленте, дисководы и т. п., которые могут обеспечивать энергонезависимое хранение в любое время для программирования программного обеспечения. Время от времени все программное обеспечение или его части могут взаимодействовать через Интернет или другие телекоммуникационные сети. Такие взаимодействия, например, могут позволить загружать программное обеспечение с одного компьютера или процессора в другой, например, с сервера управления или главного компьютера в компьютерную платформу сервера приложений. Таким образом, другой тип носителей, которые могут нести элементы программного обеспечения, включает оптические, электрические и электромагнитные волны, например, используемые в различных физических интерфейсах между локальными устройствами, через проводные и оптические наземные сети и по различным эфирным линиям связи. Физические элементы, переносящие такие волны, такие как проводные или беспроводные линии связи, оптические линии связи и т.п., также могут рассматриваться как носители, несущие программное обеспечение. В настоящей заявке, исключая случаи, когда они ограничиваются энергонезависимыми материальными носителями для «хранения», такие термины как компьютер или «машиночитаемый носитель» относятся к любому носителю, который участвует в обеспечении инструкций процессору для выполнения.
[00097] Некоторые варианты реализации способов и систем, раскрытых в настоящей заявке, могут включать один или более электронных дисплеев или взаимодействовать с ними. Электронный дисплей может быть частью компьютерной системы или может быть связан с компьютерной системой напрямую или через сеть. Компьютерная система может включать пользовательский интерфейс (UI) для обеспечения различных возможностей и функций, раскрытых в настоящей заявке. Примеры UI включают, без ограничения, графические пользовательские интерфейсы (GUI) и пользовательские веб-интерфейсы. UI может обеспечивать интерактивный инструмент, с помощью которого пользователь может применять способы и системы, описанные в настоящей заявке. В качестве примера UI, предусмотренный в настоящей заявке, может представлять собой веб-инструмент, с помощью которого медицинский работник может заказать генетический тест, настроить перечень генетических вариантов, подлежащих тестированию, а также получить и просмотреть биомедицинский отчет.
[00098] Некоторые варианты реализации способов и систем, раскрытых в настоящей заявке, могут включать биомедицинские базы данных, геномные базы данных, биомедицинские отчеты, отчеты о заболеваниях, анализ «случай-контроль» и анализ обнаружения редких вариантов на основании данных и/или информации из одной или более баз данных, одного или более анализов, одного или более набора данных или результатов, одного или более набора выходных данных, основанных или полученных из одного или более анализов, одного или более набора выходных данных, основанных или полученных из одного или более набора данных или результатов, или их комбинацию.
ПРИМЕРЫ
Пример 1 - идентификация соматических вариантов путем сравнения образцов
[00099] Данные о последовательности получали для образца опухоли и нормального образца от индивидуума. Варианты идентифицировали в данных о последовательности. Варианты зародышевой линии в образце опухоли идентифицировали путем сравнения вариантов, присутствующих в образце опухоли, но не в нормальном образце. ФИГ. 2A представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами (черные круги) и вариантами зародышевой линии (серые круги). Для этого способа требовались два образца от индивидуума.
Пример 2 - фильтрация базы данных вариантов
[000100] Данные о последовательности получали только для образца опухоли из примера 1. Идентифицировали варианты в данных о последовательности. В общих чертах, варианты, определенные на основании технологического процесса определения вариантов, аннотировали с использованием инструмента аннотации Nirvana (Illumina, Сан-Диего, США). Nirvana предоставила аннотацию геномных вариантов клинического класса, таких как однонуклеотидные варианты, многонуклеотидные варианты, вставки, удаления, вариации числа копий. Входные данные для Nirvana были в формате определения варианта (VCF), а выходные данные представляли собой структурированное JSON-представление всех аннотаций и информации об образце.
[000101] Для идентифицированных вариантов проанализировали общее количество аллелей для конкретного варианта в агрегированной базе данных генома (gnomAD) для экзома, gnomAD для генома и базе данных «1000 геномов» вместе с частотами вариантных аллелей и охватом. Общее количество аллелей представляло собой общее количество наблюдений в базе данных среди различных субпопуляций. Для каждого варианта максимальное количество аллелей, наблюдаемое во всех трех базах данных, было принято для учета областей, которые не были охвачены в базе данных экзома, при этом использовали ее преимущество, которое заключалось в большем размере выборки по сравнению с базой данных генома. Стратегия фильтрации пометила варианты с максимальным количеством аллелей, которое превышает или равно 10, как потенциальные варианты зародышевой линии. Количество аллелей 10 в базе данных для конкретного варианта означает, что он наблюдался в по меньшей мере 5 образцах, если все они были гомозиготными, или максимум в 10 образцах, если все они были гетерозиготными. ФИГ. 2В представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги). Это свидетельствует о том, что фильтрация только базы данных привела к неправильному определению вариантов.
Пример 3 - фильтрация по близости вариантов
[000102] Данные о последовательности получали только для образца опухоли от индивидуума. Варианты идентифицировали в данных о последовательности. К вариантам применяли фильтр базы данных из примера 2. Фильтр близости использовали для дальнейшего отфильтровывания вариантов, которые не были найдены в базе данных.
[000103] Фильтр близости использовал информацию о вариантах, отфильтрованных в базе данных, в непосредственной позиционной близости. Для конкретного варианта, который не был найден в базе данных и имел частоту аллеля ниже 0,9, варианты на той же хромосоме извлекали в пределах заданного диапазона частот вариантных аллелей нефильтрованного варианта. Варианты с частотой аллеля более 90% помечали как зародышевую линию без какой-либо дополнительной обработки. Диапазон определяли как максимум 0,05 и 2 стандартных отклонения биномиального распределения при условии, что подтверждающее свидетельство для конкретного варианта получено с помощью биномиального процесса. Например, если нефильтрованный вариант имел частоту аллеля 0,2 при охвате 100, диапазон был максимальным между 0,05 и 2*sqrt(100*0,2*(1-0,2))/100 = 0,08, что составило 0,08. Это было преобразовано в диапазон 0,08 в обоих направлениях, и все варианты извлекали из одной и той же хромосомы с частотами аллеля между 0,12 и 0,28. Впоследствии проверяли, что количество извлеченных вариантов превышает фиксированный порог, он был установлен на 5. Если было достигнуто требуемое количество вариантов, мы затем проверяли, отфильтрована ли значительная доля этих вариантов, которая была установлена на 0,95, с помощью фильтра базы данных. Вариант был помечен фильтром близости, если он удовлетворял обоим условиям. Другими словами, если вариант был окружен достаточным количеством вариантов в интервале частот аллелей, которые были обнаружены в базе данных, он также считался вариантом зародышевой линии. Этот фильтр удалял варианты зародышевой линии в нормальных областях с ожидаемыми частотами вариантных аллелей примерно 50% или 100%, а также в областях вариаций числа копий, в которых распределение частот аллелей могло быть смещено.
[000104] ФИГ. 3 (левая панель) представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением для хромосом 1-7 для каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), фильтрованных с использованием только фильтра базы данных. ФИГ. 3 (правая панель) представляет собой увеличение для вариантов, расположенных на хромосоме 7, в которой был выбран конкретный соматический вариант, определенный с помощью фильтра (черный круг), и диапазон, полученный из варианта, который охватывает несколько вариантов зародышевой линии, определенных с помощью фильтра (серый круг). Определение того, что выбранный соматический вариант, определенный с помощью фильтра (черный круг), должен быть определен как вариант зародышевой линии, может быть сделано на основании близости частоты аллеля выбранного варианта к частотам аллелей определенного числа уже идентифицированных вариантов зародышевой линии.
[000105] ФИГ. 4A представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), отфильтрованными с использованием только фильтра базы данных. ФИГ. 4B представляет собой график, показывающий частоту вариантного аллеля (VAF) для различных вариантов в соответствии с хромосомным расположением каждого варианта с соматическими вариантами, определенными с помощью фильтра (черные круги), и вариантами зародышевой линии, определенными с помощью фильтра (серые круги), отфильтрованными с использованием только фильтра базы данных, а также фильтра близости. На ФИГ. 4B показано, что некоторые предполагаемые ложноположительные результаты, показанные как соматические варианты на ФИГ. 4A, идентифицировали как варианты зародышевой линии на ФИГ. 4B. Например, идентифицированные соматические варианты, расположенные на хромосоме 7, имеющие частоты аллелей примерно 0,4 и 0,3 (ФИГ. 4A), идентифицировали как варианты зародышевой линии при применении фильтра близости (ФИГ. 4B).
Пример 4 - измерение мутационной нагрузки опухоли с помощью нацеленного секвенирования
[000106] Этот пример относится к анализу методом нацеленного секвенирования следующего поколения для измерения мутационной нагрузки опухоли (TMB) в образцах опухолей, фиксированных формалином и залитых парафином (FFPE). На ФИГ. 5 показан пример рабочего процесса для анализа. Данные о последовательности получали из образцов опухолей для 523 генов в панели размером 1,94 млн. п. о. с размером экзона 1,33 млн. п. о. Секвенирование выполняли с использованием уникальных молекулярных идентификаторов (UMI) и платформ Illumina NextSeq™ 500/550. Анализ данных выполняли с использованием технологического процесса для обнаружения вариантов при 5% частотах вариантных аллелей (VAF). Для удаления технического шума использовали алгоритм определения варианта, который использовал информацию из UMI, и профили ошибок, специфичные для образца, чтобы гарантировать одинаковую эффективность определения варианта среди образцов с разным качеством FFPE. Чтобы точно удалить варианты зародышевой линии из расчетов TMB, использовали гибридную стратегию, которая объединяла информацию из крупномасштабных общедоступных баз данных с измеренным охватом и частотой вариантного аллеля каждого варианта, и которая была по существу аналогична фильтру базы данных и фильтру близости из предыдущих примеров.
[000107] В общих чертах, получали данные о последовательности, выравнивали с референсом и идентифицировали варианты. Варианты зародышевой линии отфильтровывали из идентифицированных вариантов с использованием фильтра базы данных и фильтра близости, и TMB вычисляли в рабочем процессе, по существу аналогичном технологическому процессу, показанному на ФИГ. 6. В общей сложности проанализировали 170 пар опухоль-нормальный образец для оценки эффективности фильтрации зародышевой линии и TMB (ТАБЛИЦА 1). Подгруппу из 108 пар образцов также проанализировали с помощью секвенирования всего экзома (WES).
ТАБЛИЦА 1
Тип Количество образцов
Колоректальный 74
Легкое 37
Эндометрий 6
Матка 32
Гастральный 10
Меланома 11
Всего: 170
[000108] Для удаления технического шума оценивали количество ложноположительных вариантов в выборке нормальных образцов FFPE (N = 176). Наблюдали в среднем 0,63 ложноположительного результата на образец, независимо от качества образца (R2=0,001), при этом 92,6% образцов содержали ≤2 ложноположительных вариантов (VAF<20%). Кроме того, тестировали набор смешанных образцов FFPE и клеточных линий с вариантами, близкими к 5% и достигшими чувствительности 98,7%.
[000109] Эффективность фильтрации зародышевой линии оценивали с использованием 170 пар опухоль/нормальный образец, описанных в ТАБЛИЦЕ 1. При фильтрации вариантов зародышевой линии представляющих собой небольшой вариант (SNV, вставка/удаление) был достигнут общий показатель фильтрации выше 99,7%, в результате чего оставалось в среднем менее 1,3 варианта зародышевой линии на образец. Добавление фильтрации по близости значительно уменьшило количество ложноположительных результатов, оказывая при этом лишь минимальное влияние на соматические мутации. На ФИГ. 7 показано распределение количества оставшихся вариантов зародышевой линии после фильтрации только базы данных (пики графика при примерно 3 остатках зародышевой линии/млн. п. о.) и использования гибридной стратегии (пики графика при примерно 0 остатках зародышевой линии/млн. п. о.).
[000110] Воспроизводимость TMB оценивали в 8 различных образцах, включая 4 клеточные линии и 4 образца FFPE, по 3 операторам. Рассчитывали среднее значение и стандартное отклонение (SD) для каждого образца. В ТАБЛИЦЕ 2 приведена воспроизводимость TMB, оцененная в 4 клеточных линиях и 4 образцах FFPE по 12 повторам для каждого.
ТАБЛИЦА 2
Образец Тип ДНК Повторы Среднее значение TMB TMB SD
T47D Клеточная линия 12 0,9 0,7
H2228 Клеточная линия 12 7,5 0,8
HD799 Клеточная линия 12 405,0 6,8
OncoSpan Клеточная линия 12 389,1 8,4
1251 FFPE 12 0,3 0,4
4116 FFPE 11 24,9 0,7
3643 FFPE 12 7,6 1,4
4118 FFPE 12 50,5 1,5
[000111] В совокупности, измерения TMB, полученные с помощью анализа только опухоли, сильно коррелировали с оценками, полученными из анализа парных образцов опухоль/нормальный образец (R2 = 0,993, N = 169, TMB< только 200 образцов). Оценки TMB в анализе только опухоли показали сильную корреляцию со значениями TMB, полученными также при секвенировании всего экзома (R2 = 0,931, N = 105, WES TMB< только 100 образцов). На ФИГ. 8A показано сравнение TMB между анализами только опухоли и опухоль/нормальный образец. На ФИГ. 8B показано сравнение TMB между анализами только опухоли и WES опухоль-нормальный образец.
[000112] Наконец, при пороге TMB равном 10, была продемонстрирована положительная согласованность (PPA) 94,74% и отрицательная согласованность (NPA) 96,08%. Общая классификационная согласованность составила 95,37% при различении образцов с высоким уровнем TMB и низким уровнем TMB. В ТАБЛИЦЕ 3 приведена эффективность классификации TMB.
ТАБЛИЦА 3
WES T/N TMB с высоким уровнем WES T/N TMB с низким уровнем
TMB с высоким уровнем 54 3
TMB с низким уровнем 2 49
[000113] Результаты выше продемонстрировали способность анализа только опухоли с использованием фильтра базы данных и фильтра близости надежно измерять TMB в образцах FFPE. Кроме того, оценки TMB показали высокий уровень корреляции с измерениями на основе WES с высокой классификационной согласованностью.
[000114] В настоящей заявке термин «содержащий» является синонимом «включающий», «охватывающий» или «характеризующийся» и является включающим или открытым и не исключает дополнительные, не перечисленные элементы или этапы способа.
[000115] Приведенное выше описание раскрывает несколько способов и материалов согласно настоящему изобретению. Настоящее изобретение допускает модификации в способах и материалах, а также изменения в способах изготовления и оборудовании. Такие модификации будут понятны специалистам в данной области техники после рассмотрения данного раскрытия или реализации изобретения, раскрытого в настоящей заявке. Следовательно, не предполагается, что настоящее изобретение ограничивается конкретными вариантами реализации, раскрытыми в настоящей заявке, однако оно охватывает все модификации и альтернативы в пределах истинного объема и сущности настоящего изобретения.
[000116] Все ссылки, цитированные в настоящей заявке, включая, но не ограничиваясь ими, опубликованные и неопубликованные заявки, патенты и литературные источники, полностью включены в настоящую заявку посредством ссылки и тем самым составляют часть данного описания. В случае если публикации и патенты или патентные заявки, включенные посредством ссылки, противоречат раскрытию, содержащемуся в описании, подразумевается, что данное описание отменяет и/или имеет преимущественную силу над любым таким противоречащим материалом.

Claims (64)

1. Способ идентификации соматических мутаций во множестве вариантов, включающий:
(а) получение множества вариантов, содержащего соматические мутации и варианты зародышевой линии;
(b) применение фильтра базы данных к указанному множеству вариантов, включая:
определение первых вариантов зародышевой линии в указанном множестве вариантов, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей;
(c) применение фильтра близости к указанному множеству вариантов, включая:
(i) группировку вариантов из указанного множества вариантов на множество групп, причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу,
(ii) определение вариантов из базы данных в указанном множестве вариантов, причем вариант из базы данных присутствует во втором референсном наборе вариантов, и
(iii) определение вторых вариантов зародышевой линии в указанном множестве вариантов, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и указанный второй вариант зародышевой линии; и
(d) определение соматических мутаций в указанном множестве вариантов путем удаления указанных идентифицированных первого и второго вариантов зародышевой линии из указанного множества вариантов.
2. Способ по п. 1, отличающийся тем, что (b) и (c) выполняют последовательно.
3. Способ по п. 1, отличающийся тем, что (c) выполняют перед (b).
4. Способ по любому из пп. 1-3, отличающийся тем, что указанное пороговое количество аллелей составляет 5.
5. Способ по п. 4, отличающийся тем, что указанное пороговое количество аллелей составляет 10.
6. Способ по любому из пп. 1-5, отличающийся тем, что указанный первый и второй референсный набор вариантов представляет собой один и тот же референсный набор.
7. Способ по любому из пп. 1-6, отличающийся тем, что указанный первый или второй референсный набор вариантов содержит базу данных вариантов для множества индивидуумов.
8. Способ по любому из пп. 1-7, отличающийся тем, что указанный первый или второй референсный набор вариантов содержит по меньшей мере одну базу данных, выбранную из агрегированной базы данных генома (gnomAD) и базы данных «1000 геномов».
9. Способ по любому из пп. 1-8, отличающийся тем, что указанная одна и та же область генома находится в пределах одной и той же хромосомы.
10. Способ по любому из пп. 1-9, отличающийся тем, что указанная одна и та же область генома находится в пределах одного и того же хромосомного плеча.
11. Способ по любому из пп. 1-10, отличающийся тем, что указанная одна и та же область генома находится в пределах одной и той же хромосомной цитополосы.
12. Способ по любому из пп. 1-11, отличающийся тем, что указанная одна и та же область генома находится в пределах области 10 млн п. о.
13. Способ по любому из пп. 1-12, отличающийся тем, что указанное применение фильтра близости дополнительно включает идентификацию второго варианта зародышевой линии, имеющего частоту аллеля, которая превышает или равна 0,9.
14. Способ по любому из пп. 1-13, отличающийся тем, что указанное применение фильтра близости дополнительно включает идентификацию второго варианта зародышевой линии в указанном множестве вариантов, причем указанный второй вариант зародышевой линии представляет собой вариант из базы данных, присутствующий в указанном втором референсном наборе вариантов.
15. Способ по любому из пп. 1-14, отличающийся тем, что указанный приближенный диапазон представляет собой диапазон, имеющий максимум и минимум, составляющий 0,05 от частоты аллеля второго варианта зародышевой линии.
16. Способ по любому из пп. 1-15, отличающийся тем, что указанный приближенный диапазон представляет собой диапазон, имеющий максимум и минимум, составляющий два стандартных отклонения от биномиального распределения частоты аллеля второго варианта зародышевой линии и центрированный по частоте аллеля второго варианта зародышевой линии.
17. Способ по любому из пп. 1-16, отличающийся тем, что указанные вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере пяти вариантов из базы данных в той же группе, что и указанный второй вариант зародышевой линии.
18. Способ по любому из пп. 1-17, отличающийся тем, что указанные вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере десяти вариантов из базы данных в той же группе, что и указанный второй вариант зародышевой линии.
19. Способ по любому из пп. 1-18, отличающийся тем, что стадия (а) включает: получение данных о последовательности из биологического образца, содержащего опухолевую клетку.
20. Способ по п. 19, дополнительно включающий: выравнивание данных о последовательности с референсной последовательностью и идентификацию вариантов в указанных данных о последовательности.
21. Способ по п. 19 или 20, отличающийся тем, что указанный биологический образец, содержащий опухолевую клетку, выбран из образца сыворотки, образца кала, образца крови, образца опухоли.
22. Способ по п. 21, отличающийся тем, что указанный образец опухоли зафиксирован.
23. Способ определения мутационной нагрузки опухоли для опухоли, включающий:
получение данных о последовательности из биологического образца, содержащего опухолевую клетку;
определение множества вариантов на основании указанных данных о последовательности; и
определение количества соматических мутаций в указанном множестве вариантов в соответствии со способом по любому из пп. 1-22, причем указанное количество соматических мутаций представляет собой мутационную нагрузку опухоли для опухоли.
24. Компьютеризованный способ идентификации соматических мутаций во множестве вариантов, включающий: выполнение способа по любому из пп. 1-22.
25. Компьютеризованный способ идентификации соматических мутаций во множестве вариантов, включающий:
(а) получение множества вариантов на основании данных о последовательности из биологического образца, содержащего опухолевую клетку, причем указанное множество вариантов содержит соматические мутации и варианты зародышевой линии;
(b) применение фильтра базы данных к указанному множеству вариантов, включающее:
получение индекса документов для указанного множества вариантов,
поиск в первом референсном наборе вариантов с использованием указанного индекса для идентификации первых вариантов зародышевой линии в указанном индексе, причем каждый из указанных первых вариантов зародышевой линии имеет количество аллелей в указанном первом референсном наборе вариантов, которое превышает или равно пороговому количеству аллелей, и
удаление указанных идентифицированных первых вариантов зародышевой линии из указанного индекса с получением индекса первых отфильтрованных вариантов;
(c) применение фильтра близости к указанному индексу первых отфильтрованных вариантов, включающее:
(i) получение множества групп для разных областей генома,
(ii) группировку вариантов указанного индекса первых отфильтрованных вариантов, причем варианты, расположенные в одной и той же области генома, группируют в одну и ту же группу,
(iii) поиск во втором референсном наборе вариантов с использованием указанного индекса первых отфильтрованных вариантов для идентификации вариантов из базы данных в указанном индексе первых отфильтрованных вариантов,
(iii) получение индекса вторых вариантов зародышевой линии из указанного индекса первых отфильтрованных вариантов путем идентификации вторых вариантов зародышевой линии, причем каждый из указанных вторых вариантов зародышевой линии имеет частоту аллеля в пределах приближенного диапазона частоты аллеля по меньшей мере одного варианта из базы данных в той же группе, что и указанный второй вариант зародышевой линии, и
(iv) удаление указанных идентифицированных вторых вариантов зародышевой линии из указанного индекса первых отфильтрованных вариантов с получением индекса соматических мутаций, что приводит к идентификации соматических мутаций в указанном множестве вариантов.
26. Способ по п. 25, отличающийся тем, что указанное пороговое количество аллелей составляет 5.
27. Способ по п. 26, отличающийся тем, что указанное пороговое количество аллелей составляет 10.
28. Способ по любому из пп. 25-27, отличающийся тем, что указанный первый и второй референсный набор вариантов представляет собой один и тот же референсный набор.
29. Способ по любому из пп. 25-28, отличающийся тем, что указанный первый или второй референсный набор вариантов содержит базу данных вариантов для множества индивидуумов.
30. Способ по любому из пп. 25-29, отличающийся тем, что указанный первый или второй референсный набор вариантов содержит по меньшей мере одну базу данных, выбранную из агрегированной базы данных генома (gnomAD) и базы данных «1000 геномов».
31. Способ по любому из пп. 25-30, отличающийся тем, что указанная одна и та же область генома находится в пределах одной и той же хромосомы.
32. Способ по любому из пп. 25-31, отличающийся тем, что указанная одна и та же область генома находится в пределах одного и того же хромосомного плеча.
33. Способ по любому из пп. 25-32, отличающийся тем, что указанная одна и та же область генома находится в пределах одной и той же хромосомной цитополосы.
34. Способ по любому из пп. 25-33, отличающийся тем, что указанная одна и та же область генома находится в пределах области 10 млн п. о.
35. Способ по любому из пп. 25-34, отличающийся тем, что указанное получение индекса вторых отфильтрованных вариантов также включает идентификацию второго варианта зародышевой линии, имеющего частоту аллеля, которая превышает или равна 0,9.
36. Способ по любому из пп. 25-35, отличающийся тем, что указанное получение индекса вторых отфильтрованных вариантов также включает идентификацию второго варианта зародышевой линии в указанном множестве вариантов, причем указанный второй вариант зародышевой линии представляет собой вариант из базы данных, присутствующий в указанном втором референсном наборе вариантов.
37. Способ по любому из пп. 25-36, отличающийся тем, что указанный приближенный диапазон представляет собой диапазон, имеющий максимум и минимум, составляющий 0,05 от частоты аллеля второго варианта зародышевой линии.
38. Способ по любому из пп. 25-37, отличающийся тем, что указанный приближенный диапазон представляет собой диапазон, имеющий максимум и минимум, составляющий два стандартных отклонения от биномиального распределения частоты аллеля второго варианта зародышевой линии и центрированный по частоте аллеля второго варианта зародышевой линии.
39. Способ по любому из пп. 25-38, отличающийся тем, что указанные вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере пяти вариантов из базы данных в той же группе, что и указанный второй вариант зародышевой линии.
40. Способ по любому из пп. 25-39, отличающийся тем, что указанные вторые варианты зародышевой линии имеют частоту аллеля в пределах пороговой близости к частоте аллеля по меньшей мере десяти вариантов из базы данных в той же группе, что и указанный второй вариант зародышевой линии.
41. Способ по любому из пп. 25-39, отличающийся тем, что указанный биологический образец, содержащий опухолевую клетку, выбран из образца сыворотки, образца кала, образца крови, образца опухоли.
42. Способ по п. 41, отличающийся тем, что указанный образец опухоли зафиксирован.
RU2020140876A 2018-11-01 2019-10-30 Способы и композиции для обнаружения соматического варианта RU2813655C2 (ru)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US62/754,094 2018-11-01

Publications (2)

Publication Number Publication Date
RU2020140876A RU2020140876A (ru) 2022-12-01
RU2813655C2 true RU2813655C2 (ru) 2024-02-14

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2442999C1 (ru) * 2010-10-21 2012-02-20 Общество с ограниченной ответственностью "Сибирская геофизическая научно-производственная компания" Программно-измерительный комплекс (пик)
RU2589834C2 (ru) * 2010-02-04 2016-07-10 Джичи Медикал Юниверсити Идентификация, оценка и лечение раковых заболеваний с генетической или приобретенной устойчивостью к ингибиторам alk

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2589834C2 (ru) * 2010-02-04 2016-07-10 Джичи Медикал Юниверсити Идентификация, оценка и лечение раковых заболеваний с генетической или приобретенной устойчивостью к ингибиторам alk
RU2442999C1 (ru) * 2010-10-21 2012-02-20 Общество с ограниченной ответственностью "Сибирская геофизическая научно-производственная компания" Программно-измерительный комплекс (пик)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Shile Zhang ET AL, "Comprehensive Evaluation of Illumina' s TruSight Tumor 170 Panel to Estimate Tumor Mutational Burden", "AACR 2017", 01 April 2017 (2017-04-01), Illumina, XP055486051, реферат, фиг.1. *

Similar Documents

Publication Publication Date Title
CN109689891B (zh) 用于无细胞核酸的片段组谱分析的方法
CN107849612B (zh) 比对和变体测序分析管线
CN110168648A (zh) 序列变异识别的验证方法和系统
US20190352695A1 (en) Methods for fragmentome profiling of cell-free nucleic acids
US20230154563A1 (en) Detection of Human Leukocyte Antigen Loss of Heterozygosity
CN112592976B (zh) 一种检测met基因扩增的方法及装置
AU2020364225B2 (en) Fragment size characterization of cell-free DNA mutations from clonal hematopoiesis
CN115244622A (zh) 使用甲基化测序数据调用变体的系统和方法
JP7554121B2 (ja) 体細胞バリアント検出のための方法および組成物
KR20220086458A (ko) 유전자 데이터 공유를 위한 차세대 염기 서열 분석 방법, 차세대 염기 서열 분석 장치 및 차세데 염기 서열 분석 프로그램
RU2813655C2 (ru) Способы и композиции для обнаружения соматического варианта
JP2022537442A (ja) ヒト胚におけるコピー数変異を検証するために単一ヌクレオチド変異の密度を使用するシステム、コンピュータプログラム製品及び方法
US20220223227A1 (en) Machine learning techniques for identifying malignant b- and t-cell populations
CN111433855A (zh) 筛查系统和方法
CA3219608A1 (en) Detection of human leukocyte antigen loss of heterozygosity
EP3635138B1 (en) Method for analysing cell-free nucleic acids
André et al. The importance of dogs for comparative pathology and genetics: Examples of shared resources and programmes
US20220415443A1 (en) Machine-learning model for generating confidence classifications for genomic coordinates
Persson Comparing Two Algorithms for the Detection of Cross-Contamination in Simulated Tumor Next-Generation Sequencing Data
Yang Statistical Methods for Comapring Next-generation Sequencing Data-Reproducibility, Similarity and Differentiation
Sarantidis Algorithms to Explore the Chromosomal Clustering of Genes