RU2021116398A - Способы и системы для диагностики по данным полногеномного секвенирования - Google Patents

Способы и системы для диагностики по данным полногеномного секвенирования Download PDF

Info

Publication number
RU2021116398A
RU2021116398A RU2021116398A RU2021116398A RU2021116398A RU 2021116398 A RU2021116398 A RU 2021116398A RU 2021116398 A RU2021116398 A RU 2021116398A RU 2021116398 A RU2021116398 A RU 2021116398A RU 2021116398 A RU2021116398 A RU 2021116398A
Authority
RU
Russia
Prior art keywords
gene
cyp2d6
smn1
copies
smn2
Prior art date
Application number
RU2021116398A
Other languages
English (en)
Other versions
RU2807604C2 (ru
Inventor
Майкл А. ЭБЕРЛ
Сяо Чэнь
Original Assignee
Иллюмина, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Иллюмина, Инк. filed Critical Иллюмина, Инк.
Publication of RU2021116398A publication Critical patent/RU2021116398A/ru
Application granted granted Critical
Publication of RU2807604C2 publication Critical patent/RU2807604C2/ru

Links

Claims (153)

1. Способ определения количества копий гена выживания моторных нейронов 1 (SMN1), включающий
под управлением аппаратного процессора:
получение данных секвенирования, содержащих множество прочтений последовательностей, полученных из образца от субъекта, выровненных с геном выживания моторных нейронов 1 (SMN1) или геном выживания моторных нейронов 2 (SMN2);
определение (i) первого количества прочтений последовательности из множества прочтений последовательностей, выровненных по первой области SMN1 или SMN2, содержащей по меньшей мере 1 из первых 6 экзонов гена SMN1 или гена SMN2, соответственно, и (ii) второго количества прочтений последовательности из множества прочтений последовательностей, выровненных по второй области SMN1 или SMN2, содержащей по меньшей мере экзон 7 или экзон 8 гена SMN1 или гена SMN2, соответственно;
определение (i) первого нормализованного количества прочтений последовательности, выровненных по первой области гена SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных по второй области SMN1 или SMN2, с применением (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2, соответственно;
определение (i) числа копий полноразмерных генов выживания моторных нейронов (SMN), каждый из которых является интактным геном SMN1, интактным геном SMN2, укороченным геном SMN1 или укороченным геном SMN2; и (ii) числа копий любых интактных генов SMN, каждый из которых является интактным геном SMN1 или интактным геном SMN2, с использованием модели смеси нормальных распределений, содержащей множество нормальных распределений, каждое из которых представляет разное целое число копий, с учетом (i) первого нормализованного числа прочтений последовательности, выровненных по первой области SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных по второй области SMN1 или SMN2, соответственно;
для одного множества специфичных для гена SMN1 оснований, связанных с интактным геном SMN1, определение наиболее вероятной комбинации из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, которые дают в сумме количество копий любых определенных интактных генов SMN, с учетом (a) количества прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат основание, специфичное для гена SMN1, и (b) количества прочтений последовательностей из множества прочтений последовательности с основаниями, которые содержат специфическое для гена SMN2 основание гена SMN2, соответствующее специфическому для гена SMN1 основанию; и
определение количества копий гена SMN1 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенных для специфичного для гена SMN1 основания.
2. Способ по п. 1, в котором данные секвенирования содержат данные полногеномного секвенирования (WGS) или данные WGS с помощью коротких прочтений.
3. Способ по любому из пп. 1-2, в котором субъект является субъектом-плодом, неонатальным субъектом, субъектом детского возраста, субъектом-подростком или взрослым субъектом.
4. Способ по любому из пп. 1-3, в котором образец содержит клетки или внеклеточную ДНК.
5. Способ по любому из пп. 1-4, в котором образец содержит фетальные клетки или внеклеточную фетальную ДНК.
6. Способ по любому из пп. 1-5, в котором прочтение последовательности из множества прочтений последовательностей, выравнивается с первой областью SMN1 или SMN2 или со второй областью SMN1 или SMN2 с показателем качества выравнивания, равным приблизительно нулю.
7. Способ по любому из пп. 1-6, в котором первая область SMN1 или SMN2 содержит экзон от 1 до 6 гена SMN1 или гена SMN2, соответственно, и имеет длину примерно 22,2 т. п. н., а вторая область SMN1 или SMN2 содержит экзон 7 и экзон 8 гена SMN1 или гена SMN2, соответственно, и имеет длину примерно 6 т. п. н.
8. Способ по любому из пп. 1-7, в котором определение (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью, включает определение (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью SMN1 или SMN2, с применением (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2, соответственно, и (iii) глубины прочтений последовательности области генома субъекта, за исключением генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования.
9. Способ по п. 8, в котором определение (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью SMN1 или SMN2, включает
определение (i) нормализованного по длине области SMN1 или SMN2 количества прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) нормализованного по длине области SMN1 или SMN2 количества прочтений последовательностей, выровненных со второй областью SMN1 или SMN2, с использованием (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2, соответственно; и
определение (i) первой нормализованной глубины прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) второй нормализованной глубины прочтений последовательностей, выровненных со второй областью SMN1 или SMN2, на основе (i) первого нормализованного по длине области SMN1 или SMN2 количества и (ii) второго нормализованного по длине области SMN1 или SMN2 количества, соответственно, при использовании глубины прочтений последовательности области генома субъекта, отличной от генетических локусов, содержащих ген SMN1 и ген SMN2; первое нормализованное количество прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и второе нормализованное количество прочтений последовательностей, выровненных со второй областью SMN1 или SMN2, которые представляют собой первую нормализованную глубину и вторую нормализованную глубину, соответственно.
10. Способ по любому из пп. 1-9, в котором определение (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью, включает определение (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью SMN1 или SMN2, с применением (i) содержания GC в первой области SMN1 или SMN2 и (ii) содержания GC в второй области SMN1 или SMN2, соответственно, и (iii) глубины прочтений последовательности области генома субъекта, отличной от генетических локусов, содержащих ген SMN1 и ген SMN2 по данным секвенирования, и (iv) содержания GC в области генома.
11. Способ по любому из пп. 8-10, в котором глубина прочтений области включает среднюю глубину или медианную глубину прочтений последовательности области генома субъекта, отличных от генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования.
12. Способ по п. 11, в котором область включает примерно 3000 предварительно выбранных областей длиной примерно 2 т. п. н. каждая в геноме субъекта.
13. Способ по любому из пп. 1-12, в котором (i) первое нормализованное количество прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и/или (ii) второе нормализованное количество прочтений последовательности, выровненных со второй областью SMN1 или SMN2, составляет от примерно 30 до примерно 40.
14. Способ по любому из пп. 1-13, в котором модель смеси нормальных распределений включает одномерную модель смеси нормальных распределений.
15. Способ по любому из пп. 1-14, в котором множество нормальных распределений модели смеси нормальных распределений представляет целое число копий от 0 до 10.
16. Способ по любому из пп. 1-15, в котором среднее значение для каждого из множества нормальных распределений представляет собой целое количество копий, представленное нормальным распределением.
17. Способ по любому из пп. 1-16, в котором определение (i) числа копий всех генов SMN и (ii) числа копий любых интактных генов SMN включает определение (i) числа копий всех генов SMN и (ii) числа копий любых интактных генов SMN с использованием модели смеси нормальных распределений, и первого предварительно определенного порога апостериорной вероятности с учетом (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью SMN1 или SMN2, соответственно.
18. Способ по п. 17, в котором первый определенный порог апостериорной вероятности равен 0,95.
19. Способ по любому из пп. 1-18, включающий определение количества копий укороченных генов SMN с использованием (i) определенного количества копий общего количества генов SMN и (ii) определенного количества копий интактных генов SMN.
20. Способ по п. 19, в котором количество копий укороченных генов SMN представляет собой разницу (i) определенного общего количества копий генов SMN и (ii) определенного количества копий интактных генов SMN.
21. Способ по любому из пп. 1-20, в котором специфичное для гена SMN1 основание представляет собой энхансер сплайсинга.
22. Способ по любому из пп. 1-21, в котором специфичное для гена SMN1 основание представляет собой основание в c.840 гена SMN1.
23. Способ по любому из пп. 1-22, в котором наиболее вероятная комбинация возможного количества копий гена SMN1 и возможного количества копий гена SMN2 связана с самой высокой апостериорной вероятностью, по сравнению с другими комбинациями множества комбинаций с заданным (a) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количество прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат соответствующее специфичное для гена SMN2 основание.
24. Способ по любому из пп. 1-23, в котором определение наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2 включает определение наиболее вероятной комбинации, из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, которые дают в сумме определенное количество копий любых интактных генов SMN, с учетом соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN2 основание гена SMN2, соответствующее специфичному для гена SMN1 основанию.
25. Способ по любому из пп. 1-24, в котором определение наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2 включает
определение (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN2 основание гена SMN2, соответствующее специфичному для гена SMN1 основанию;
определение соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN2 основание гена SMN2, соответствующее специфичному для гена SMN1 основанию;
определение наиболее вероятной комбинации, из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, которые дают в сумме определенное количество копий любого интактного гена SMN, на основе соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN2 основание гена SMN2, соответствующее специфичному для гена SMN1 основанию.
26. Способ по любому из пп. 1-25,
в котором определение наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2 включает для каждого из множества специфичных для гена SMN1 оснований, определение наиболее вероятной комбинации из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, которые дают в сумме определенное количество копий любых интактных генов SMN, которая связана с наибольшей апостериорной вероятностью, с учетом (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN2 основание гена SMN2, соответствующее специфичному для гена SMN1 основанию,
в котором определение количества копий гена SMN1 включает в себя: определение количества копий гена SMN1 на основе возможного количества копий гена SMN1 наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенных для каждого из множества специфичных для гена SMN1 оснований.
27. Способ по п. 26, в котором специфичное для гена SMN1 основание имеет соответствие с каждым из множества характерных для конкретного гена SMN1 оснований, отличных от специфичного для гена SMN1 основания, выше заранее определенного порога соответствия.
28. Способ по п. 27, в котором порог соответствия составляет 97%.
29. Способ по любому из пп. 26-28, в котором множество специфичных для гена SMN1 оснований включает 8 специфичных для гена SMN1 оснований.
30. Способ по любому одному из пп. 26-29, в котором каждое из множества специфичных для гена SMN1 оснований находится в интроне 6, экзоне 7, интроне 7 или экзоне 8 гена SMN1.
31. Способ по любому из пп. 26-30, в котором множество оснований, специфичных для гена SMN1, если субъект принадлежит к первой расе, множество оснований, специфичных для гена SMN1, если субъект принадлежит ко второй расе, и множество оснований, специфичных для гена SMN1, если субъект принадлежит к неизвестной расе, различаются.
32. Способ по любому из пп. 26-31, в котором раса субъекта неизвестна, и при этом множество оснований, специфичных для гена SMN1, не является специфичным для расы.
33. Способ по любому из пп. 26-31, в котором раса субъекта известна, и при этом множество оснований, специфичных для гена SMN1, специфично для расы субъекта.
34. Способ по любому из пп. 26-33, дополнительно включающий
получение информации о расе субъекта;
на основе полученной информации о расе выбирают множество оснований, специфичных для гена SMN1, из множества оснований, специфичных для гена SMN1.
35. Способ по любому из пп. 1-34, в котором определение количества копий гена SMN1 включает определение количества копий гена SMN1 и количества копий гена SMN2 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенных для каждого из множества оснований, специфичных для гена SMN1.
36. Способ по любому одному из пп. 1-35, в котором определение количества копий гена SMN1 включает определение количества копий гена SMN1 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенных для основания, специфичного для гена SMN1, и второго предварительно определенного порога апостериорной вероятности для комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2.
37. Способ по п. 36, в котором второй предварительно определенный порог апостериорной вероятности представляет собой 0,6 или 0,8.
38. Способ по любому из пп. 26-37, в котором большинство возможных значений количества копий гена SMN1 согласуется, и причем определенное количество копий гена SMN1 представляет собой согласованное возможное количество копий гена SMN1.
39. Способ по п. 38, включающий
определение возможной комбинации, содержащей возможное количество копий гена SMN1 и возможное количество копий гена SMN2, которые дают в сумме определенное количество копий любого интактного гена SMN, с учетом (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат любое из множества оснований, специфичных для гена SMN1, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат любое из множества соответствующих оснований, специфичных для гена SMN2; и
определение возможного количества копий возможной комбинации представляет собой согласованное возможное количество копий гена SMN1.
40. Способ по любому одному из пп. 1-39, в котором определение количества копий гена SMN1 включает определение количества копий гена SMN1, равного нулю, единице или более единицы.
41. Способ по любому из пп. 1-40, включающий определение статуса спинальной мышечной атрофии (SMA) субъекта на основе количества копий гена SMN1.
42. Способ по п. 41, в котором статус SMA субъекта включает SMA, носитель SMA/отсутствие SMA и не носитель SMA.
43. Способ по любому из пп. 1-42, включающий определение субъекта как молчащего носителя SMA с использованием ряда прочтений последовательности из множества прочтений последовательностей, выровненных с g.27134 гена SMN1, и на основе прочтений последовательностей, выровненных с g.27134 гена SMN1.
44. Способ по любому одному из пп. 1-43, включающий определение рекомендации по лечению для субъекта на основе определенного количества копий гена SMN1.
45. Способ по п. 44, в котором рекомендация по лечению включает в себя введение субъекту Nusinersen и/или Zolgensma.
46. Способ генотипирования гена члена 6 подсемейства D семейства 2 цитохрома P450 (CYP2D6), включающий
под управлением аппаратного процессора:
получение данных секвенирования, содержащих множество прочтений последовательностей, полученных из образца от субъекта, выровненных с геном члена 6 подсемейства D семейства 2 цитохрома P450 (CYP2D6) или геном члена 7 подсемейства D семейства 2 цитохрома P450 (CYP2D7);
определение (i) первого количества прочтений последовательности из множества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7;
определение (i) первого нормализованного количества прочтений последовательности, выровненных с геном CYP2D6 или геном CYP2D7, с применением (i) длины гена CYP2D6 или гена CYP2D7, соответственно;
определение (i) общего количества копий гена CYP2D6 и гена CYP2D7 с помощью модели смеси нормальных распределений, содержащей множество нормальных распределений, каждое из которых представляет другое целое число копий, на основании (i) первого нормализованного числа прочтений последовательности, выровненных с геном CYP2D6 или геном CYP2D7;
для одного из множества оснований, специфичных для гена CYP2D6, определение наиболее вероятной комбинации множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, которые дают в сумме определенное общее количество копий гена CYP2D6 и гена CYP2D7, с учетом (a) числа прочтений из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) числа прочтений из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание, соответствующее основанию, специфичному для гена CYP2D6,
определение аллеля гена CYP2D6, имеющегося у субъекта, с использованием наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенного для основания, специфичного для гена CYP2D6.
47. Способ по п. 46, в котором данные секвенирования включают данные полногеномного секвенирования (WGS) или данные WGS с помощью коротких прочтений.
48. Способ по любому из пп. 46-47, в котором субъект является субъектом-плодом, неонатальным субъектом, субъектом детского возраста, субъектом-подростком или взрослым субъектом.
49. Способ по любому из пп. 46-48, в котором образец содержит клетки или внеклеточную ДНК.
50. Способ по любому из пп. 46-49, в котором образец содержит клетки или внеклеточную ДНК.
51. Способ по любому из пп. 46-50, в котором прочтение последовательности из множества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, при этом показатель качества выравнивания составляет около нуля.
52. Способ по любому из пп. 46-51, в котором определение (i) первого количества прочтений последовательности из множества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, включает определение (i) первого количества прочтений последовательности из множества прочтений последовательностей, выровненных с по меньшей мере одним экзоном или интроном гена CYP2D6 или по меньшей мере одним из экзонов или интронов гена CYP2D7.
53. Способ по любому из пп. 46-52, в котором определение (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, включает определение (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с использованием (i) длины гена CYP2D6 или гена CYP2D7, соответственно, и (iii) глубины прочтений последовательности области генома субъекта, отличной от генетических локусов, содержащих ген CYP2D6 и ген CYP2D7, по данным секвенирования.
54. Способ по п. 53, в котором определение (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, и (ii) второго нормализованного количества прочтений последовательностей, выровненных со второй областью, включает
определение (i) первого нормализованного по длине гена CYP2D6 или CYP2D7 количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с применением (i) длины гена CYP2D6 или гена CYP2D7, соответственно;
определение (i) первой нормализованной глубины прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, из (i) нормализованного по длине гена CYP2D6 или гена CYP2D7 количества, с применением глубины прочтений последовательностей области генома субъекта, отличных от генетических локусов, содержащих ген CYP2D6 и CYP2D7, причем первая нормализованная глубина прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, представляет собой первое нормализованное количество прочтений последовательности, выровненных с геном CYP2D6 или геном CYP2D7, соответственно.
55. Способ по любому из пп. 46-54, в котором определение (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, включает определение (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с применением (i) содержания GC в гене CYP2D6 или гене CYP2D7 и (iii) глубины прочтений последовательности области генома субъекта, отличных от генетических локусов, содержащих ген CYP2D6 и ген CYP2D7, по данным секвенирования, и (iv) содержания GC в области генома.
56. Способ по любому из пп. 53-55, в котором глубина прочтений области представляет собой среднюю глубину или медианную глубину прочтений последовательности области генома субъекта, отличных от генетических локусов, содержащих ген CYP2D6 и ген CYP2D7, по данным секвенирования.
57. Способ по п. 56, в котором область содержит примерно 3000 предварительно выбранных областей длиной примерно 2 т. п. н. каждая в геноме субъекта.
58. Способ по любому из пп. 46-57, в котором (i) первое нормализованное количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, и/или (ii) второе нормализованное количество прочтений последовательностей, выровненных со второй областью, составляет от примерно 30 до примерно 40.
59. Способ по любому из пп. 46-58, в котором модель смеси нормальных распределений включает одномерную модель смеси нормальных распределений.
60. Способ по любому из пп. 46-59, в котором множество нормальных распределений модели смеси нормальных распределений представляет целое число копий от 0 до 10.
61. Способ по любому из пп. 46-60, в котором среднее значение для каждого из множества нормальных распределений представляет собой целое количество копий, представленное нормальным распределением.
62. Способ по любому из пп. 46-61, в котором определение (i) общего количества копий гена CYP2D6 и гена CYP2D7 включает определение (i) общего количества копий гена CYP2D6 и гена CYP2D7 с помощью модели смеси нормальных распределений и первого предварительно заданного порога апостериорной вероятности, на основании (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7.
63. Способ по п. 62, в котором первый определенный порог апостериорной вероятности равен 0,95.
64. Способ по любому из пп. 46-63, в котором наиболее вероятная комбинация возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7 связана с самой высокой апостериорной вероятностью, по сравнению с другими комбинациями множества комбинаций с заданным (a) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат соответствующее специфичное для гена CYP2D7 основание.
65. Способ по любому из пп. 46-64, в котором определение наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7 включает определение наиболее вероятной комбинации, из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, которые дают в сумме определенное общее количество копий гена CYP2D6 и гена CYP2D7, с учетом соотношения (a) количества прочтений последовательности при прочтениях множества последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количества прочтений последовательности при прочтениях множества последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию.
66. Способ по любому из пп. 46-65, в котором определение наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7 включает
определение (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию;
определение соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию;
и определение наиболее вероятной комбинации множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, которые дают в сумме определенное общее количество копий гена CYP2D6 и гена CYP2D7, с учетом соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию.
67. Способ по любому из пп. 46-66, в котором определение аллеля гена CYP2D6 у субъекта включает определение одного или более структурных вариантов гена CYP2D6 у субъекта с использованием наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенных для специфичного для гена CYP2D6 основания.
68. Способ по п. 67,
в котором определение наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7 включает определение наиболее вероятной комбинации для каждого из множества специфичных к гену CYP2D6 оснований, множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, которые дают в сумме определенное общее количество копий гена CYP2D6 и гена CYP2D7, которая связана с наибольшей апостериорной вероятностью, с учетом (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание гена CYP2D7, соответствующее специфичному для гена CYP2D6 основанию, и
в котором определение одного или более структурных вариантов гена CYP2D6 включает определение одного или более структурных вариантов гена CYP2D6 у субъекта с использованием наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенных для каждого из множества оснований, специфичных для гена CYP2D6.
69. Способ по п. 68, в котором определение одного или более структурных вариантов гена CYP2D6 у субъекта включает определение одного или более структурных вариантов гена CYP2D6, у субъекта на основе количества копий гена CYP2D6 наиболее вероятных комбинаций, определенных для двух или более из множества различных оснований, специфичных для гена CYP2D6, и положений двух или более оснований, специфичных для гена CYP2D6.
70. Способ по любому из пп. 68-69, в котором специфичное для гена CYP2D6 основание имеет соответствие с каждым из множества характерных для конкретного гена CYP2D6 оснований, отличных от специфичного для гена CYP2D6 основания, выше заранее определенного порога соответствия.
71. Способ по п. 70, в котором порог соответствия составляет 97%.
72. Способ по любому из пп. 68-71, в котором множество оснований специфичных для гена CYP2D6 включает 118 оснований специфичных для гена CYP2D6.
73. Способ по любому из пп. 68-72, в котором множество оснований, специфичных для гена CYP2D6, если субъект принадлежит к первой расе, множество оснований, специфичных для гена CYP2D6, если субъект принадлежит ко второй расе, и множество оснований, специфичных для гена CYP2D6, если субъект принадлежит к неизвестной расе, различаются.
74. Способ по любому из пп. 68-73, в котором раса субъекта неизвестна, и при этом множество оснований, специфичных для гена CYP2D6, не является специфичным для расы.
75. Способ по любому из пп. 68-73, в котором раса субъекта известна, и при этом множество оснований, специфичных для гена CYP2D6, специфично для расы субъекта.
76. Способ по любому из пп. 68-75, включающий
получение информации о расе субъекта;
на основе полученной информации о расе - выбор множества оснований, специфичных для гена CYP2D6, из множества оснований, специфичных для гена CYP2D6.
77. Способ по любому из пп. 67-76, включающий
определение (ii) второго количества прочтений последовательности из множества прочтений последовательностей, выровненных со спейсерной областью между геном CYP2D7 и повторяющимся элементом REP7 ниже гена CYP2D7;
определение (ii) второго нормализованного количества прочтений последовательности, выровненных со спейсерной областью, с использованием (ii) длины спейсерной области;
определение (ii) количества копий спейсерной области с использованием модели смеси нормальных распределений, заданной (ii) вторым нормализованным количеством прочтений последовательностей, выровненных со спейсерной областью,
в котором определение структурного варианта гена CYP2D6 включает в себя: определение аллеля гена CYP2D6 у субъекта с использованием наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенных для специфичного для гена CYP2D6 основания, и числа копий спейсерной области.
78. Способ по п. 77, в котором один или более структурных вариантов содержат гибридный аллель CYP2D6/CYP2D7 со спейсерной областью и повторяющимся элементом REP7 ниже гибридного аллеля CYP2D6/CYP2D7.
79. Способ по любому из пп. 46-78, включающий: определение одного или более малых вариантов гена CYP2D6, имеющегося у субъекта, с применением полученных данных секвенирования.
80. Способ по п. 79, в котором определение одного или более малых вариантов гена CYP2D6 у субъекта включает для положения малого варианта гена CYP2D6, связанного с малым вариантом аллеля гена CYP2D6, определение наиболее вероятной комбинации возможного количества копий малого варианта аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6, которые дают в сумме количество копий гена CYP2D6 в положении малого варианта, с учетом (a) количества прочтений последовательности с основаниями, которые содержат малый вариант аллеля гена CYP2D6 в положении малого варианта, и (b) количества прочтений последовательности с основаниями, которые содержат эталонный аллель гена CYP2D6 в положении малого варианта, возможное количество копий малого варианта аллеля гена CYP2D6 наиболее вероятной комбинации в малом варианте указывает на один или более малых вариантов гена CYP2D6.
81. Способ по п. 79, в котором определение одного или более малых вариантов гена CYP2D6 включает для каждого из множества положений малых вариантов гена CYP2D6 положение малого варианта связано с малым вариантом аллеля гена CYP2D6, определение наиболее вероятной комбинации возможного количества копий малого варианта аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, которые дают в сумме количество копий гена CYP2D6 в положении малого варианта, с учетом (a) количества прочтений последовательности с основаниями, которые содержат малый вариант аллеля гена CYP2D6 в положении малого варианта, и (b) количества прочтений последовательности с основаниями, которые содержат эталонный аллель гена CYP2D6 в положении малого варианта, возможное количество копий малых вариантов аллелей гена CYP2D6 наиболее вероятной комбинации в множестве положений малых вариантов указывает на один или более малых вариантов гена CYP2D6.
82. Способ по любому из пп. 46-78, включающий
для положения малого варианта гена CYP2D6, связанного с малым вариантом аллеля гена CYP2D6, определение наиболее вероятной комбинации возможного количества копий малого варианта аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, которые дают в сумме количество копий гена CYP2D6 в положении малого варианта, с учетом (a) количества прочтений последовательностей, выровненных с геном CYP2D6, перекрывающимся с положением малого варианта, и с основаниями, которые содержат малый вариант аллеля гена CYP2D6 в положении малого варианта и (b) количества прочтений последовательностей, выровненных с геном CYP2D6, перекрывающимся с положением малого варианта, и с основаниями, которое содержат эталонный аллель гена CYP2D6 в положении малого варианта;
определение одного или более малых вариантов гена CYP2D6 с использованием возможного количества копий малого варианта аллеля гена CYP2D6 наиболее вероятной определенной комбинации
83. Способ по любому из пп. 46-78, включающий
для каждого из множества положений малых вариантов гена CYP2D6 положение малого варианта связано с малым вариантом аллеля гена CYP2D6, определение наиболее вероятной комбинации возможного количества копий малого варианта аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, которые дают в сумме количество копий гена CYP2D6 в положении малого варианта, с учетом (a) количества прочтений последовательностей, выровненных с геном CYP2D6, перекрывающимся с положением малого варианта, и с основаниями, которые содержат малый вариант аллеля гена CYP2D6 в положении малого варианта и (b) количества прочтений последовательностей, выровненных с геном CYP2D6, с положением малого варианта, и с основаниями, которые содержат эталонный аллель гена CYP2D6 в положении малого варианта; и
определение одного или более малых вариантов гена CYP2D6 с использованием возможного количества копий малых вариантов аллеля гена CYP2D6 наиболее вероятных комбинаций во множестве определенных положений малых вариантов.
84. Способ по любому из пп. 68-83, в котором положение малого варианта находится в гомологичной области CYP2D6/CYP2D7, причем определение наиболее вероятной комбинации включает определение наиболее вероятной комбинации возможного количества копий малого варианта аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, которые дают в сумме количество копий гена CYP2D6 в положении малого варианта, с учетом (a) количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с основаниями, которые содержат малый вариант аллеля гена CYP2D6 в положении малого варианта, и/или (b) количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с основаниями, которые содержат эталонный аллель CYP2D6 в положении малого варианта.
85. Способ по любому из пп. 68-83, в котором положение малого варианта не находится в гомологичной области CYP2D6/CYP2D7, причем определение наиболее вероятной комбинации включает определение наиболее вероятной комбинации возможного количества копий малого варианта аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, которые дают в сумме количество копий гена CYP2D6 в положении малого варианта, с учетом (a) количества прочтений последовательностей, выровненных с геном CYP2D6, но не с геном CYP2D7, с основаниями, которые содержат малый аллель варианта гена CYP2D6 в положении малого варианта, и/или (b) количества прочтений последовательностей, выровненных с геном CYP2D6, но не с геном CYP2D7, с основаниями, которое содержат эталонный аллель CYP2D6 в положении малого варианта.
86. Способ по любому из пп. 80-85, включающий определение количества копий гена CYP2D6 в положении малого варианта.
87. Способ по любому из пп. 80-86, в котором количество копий гена CYP2D6 в положении малого варианта представляет собой количество копий гена CYP2D6.
88. Способ по любому из пп. 80-87, в котором количество копий гена CYP2D6 в положении малого варианта включает количество копий гена CYP2D6 из возможных количеств копий гена CYP2D6 наиболее вероятных определенных комбинаций.
89. Способ по любому из пп. 80-88, в котором количество копий гена CYP2D6 в положении малого варианта включает количество копий гена CYP2D6 из возможных количеств копий гена CYP2D6 наиболее вероятных определенных комбинаций и расположены ближе всего к положению малого варианта.
90. Способ по любому из пп. 80-89, в котором количество копий гена CYP2D6 в положении малого варианта включает количество копий гена CYP2D6 в 5’-положении или в 3’-положении от положения малого варианта.
91. Способ по любому из пп. 80-90, включающий: (a) определение количества прочтений последовательностей с основаниями, которые содержат малый вариант аллеля гена CYP2D6; и (b) определение количества прочтений последовательностей с основаниями, которые содержат эталонный аллель гена CYP2D6.
92. Способ по любому из пп. 46-91, в котором определение аллеля гена CYP2D6, у субъекта включает определение аллелей гена CYP2D6, имеющихся у субъекта.
93. Способ по любому из пп. 46-92, в котором определение аллеля гена CYP2D6 у субъекта включает определение звездчатого аллеля и/или гаплотипа гена CYP2D6 у субъекта с использованием одного или нескольких определенных структурных вариантов гена CYP2D6, и/или одного или более малых вариантов гена CYP2D6, при этом необязательно звездчатый аллель связан с известной функцией.
94. Способ по любому из пп. 46-93, включающий: определение уровня ферментативной активности CYP2D6 у субъекта с использованием определенного аллеля гена CYP2D6.
95. Способ по п. 94, в котором ферментативная активность является низкой, средней, нормальной или сверхвысокой.
96. Способ по любому из пп. 46-95, включающий определение рекомендации по дозировке лечения и/или рекомендации по лечению субъекта на основе аллеля гена CYP2D6, имеющегося у субъекта.
97. Система генотипирования паралогов, включающая
энергонезависимую память, выполненную с возможностью хранения исполняемых команд и данных секвенирования, содержащих множество прочтений последовательностей, полученных из образца от субъекта, выровненных с первым паралогом или вторым паралогом; и
аппаратный процессор в соединении с энергонезависимой памятью, причем аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения:
определения количества копий паралогов первого типа с помощью модели смеси нормальных распределений, содержащей множество нормальных распределений, каждое из которых представляет различное целое число копий, заданное (i) первым количеством прочтений последовательностей, выровненных с первой областью;
определения наиболее вероятной комбинации для одного из множества оснований, специфичных для первого паралога, из множества возможных комбинаций, каждая из которых содержит возможное количество копий первого паралога первого типа и возможное количество копий второго паралога первого типа, которые дают в сумме определенное количество копий паралогов первого типа, с учетом (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат основание, специфичное для первого паралога, и (b) количества прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат основание, специфичное для второго паралога, соответствующее основанию, специфичному для первого паралога,
определение количества копий или аллеля первого паралога с использованием наиболее вероятной комбинации возможного количества копий первого паралога и возможного количества копий второго паралога, определенных для основания, специфичного для первого паралога.
98. Система по п. 97, в которой аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения: определения (i) первого количества прочтений последовательности из множества прочтений последовательностей в данных секвенирования, полученных из образца от субъекта, выровненных с первой областью.
99. Система по любому из пп. 97-98, в которой аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения: определения (i) первого нормализованного количества прочтений последовательностей, выровненных с первой областью, с использованием (i) длины первой области, причем определение количества копий паралогов первого типа включает определение количества копий паралогов первого типа с использованием модели смеси нормальных распределений, заданной (i) первым нормализованным количеством прочтений последовательностей, выровненных с первой областью.
100. Система по любому из пп. 97-99, в которой аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения: получения данных секвенирования, содержащих множество прочтений последовательностей, выровненных с первой областью.
101. Система по любому из пп. 97-100, в которой аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения: определения количества прочтений одного или более паралогов второго типа с использованием смеси нормальных распределений, заданной (ii) вторым количеством прочтений последовательностей, выровненных со второй областью.
102. Система по п. 101, в которой определение количества копий или аллеля первого паралога включает определение количества копий или аллеля первого паралога с использованием наиболее вероятной комбинации возможного количества копий первого паралога и возможного количества копий второго паралога, определенных для основания, специфичного для первого паралога, и количества копий одного или более паралогов второго типа.
103. Система по п. 101, в которой аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения: определения количества прочтений паралогов третьего типа по количеству копий паралогов первого типа и количеству копий паралогов второго типа, и при этом определение количества копий или аллеля первого паралога включает в себя: определение количества копий или аллеля первого паралога с использованием наиболее вероятной комбинации возможного количества копий первого паралога и возможного количества копий второго паралога, определенных для основания, специфичного для первого паралога.
104. Система по любому из пп. 97-103, в которой первый паралог представляет собой ген выживания моторных нейронов 1 (SMN1), причем второй паралог представляет собой ген выживания моторных нейронов 2 (SMN2), причем первая область содержит по меньшей мере один из 1-6 экзонов гена SMN1 и по меньшей мере один из 1-6 экзонов гена SMN2, а вторая область содержит по меньшей мере экзон 7 или 8 гена SMN1 и по меньшей мере экзон 7 или 8 гена SMN2, причем паралоги первого типа содержат интактный ген SMN1 и интактный ген SMN2, а один или более паралогов второго типа содержат интактный ген SMN1, интактный ген SMN2, укороченный ген SMN1 или укороченный ген SMN2, а количество копий первого паралога содержит количество копий гена SMN1.
105. Система по любому из пп. 97-103, в которой первый паралог представляет собой ген члена 6 подсемейства D семейства 2 цитохрома P450 (CYP2D6), причем второй паралог представляет собой ген члена 7 подсемейства D семейства 2 цитохрома P450 (CYP2D7), причем первая область содержит ген CYP2D6 и ген CYP2D7, при этом вторая область содержит спейсерную область между геном CYP2D7 и повторяющимся элементом REP7 ниже гена CYP2D7, причем паралоги первого типа содержат ген CYP2D6 и ген CYP2D7, при этом один или более паралогов второго типа содержат гибридный аллель CYP2D6/CYP2D7 со спейсерной областью и повторяющимся элементом REP7 ниже гибридного аллеля CYP2D6/CYP2D7, и при этом аллель первого паралога представляет собой аллель гена CYP2D6, который представляет собой малый вариант или структурный вариант гена CYP2D6.
106. Система по любому из пп. 97-105, в которой первый паралог и второй паралог имеют идентичность последовательности по меньшей мере 90%.
RU2021116398A 2019-09-05 2020-08-26 Способы и системы для диагностики по данным полногеномного секвенирования RU2807604C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US62/896,548 2019-09-05
US62/908,555 2019-09-30
US63/006,651 2020-04-07

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2023129453A Division RU2023129453A (ru) 2019-09-05 2020-08-26 Способы и системы для диагностики по данным полногеномного секвенирования

Publications (2)

Publication Number Publication Date
RU2021116398A true RU2021116398A (ru) 2022-12-07
RU2807604C2 RU2807604C2 (ru) 2023-11-17

Family

ID=

Similar Documents

Publication Publication Date Title
Shimizu et al. Enamel formation genes influence enamel microhardness before and after cariogenic challenge
Yamazaki et al. Interleukin‐10 gene promoter polymorphism in Japanese patients with adult and early‐onset periodontitis
Torgerson et al. Evolutionary processes acting on candidate cis-regulatory regions in humans inferred from patterns of polymorphism and divergence
Williams-Gray et al. The distinct cognitive syndromes of Parkinson's disease: 5 year follow-up of the CamPaIGN cohort
Bénit et al. ERV-L elements: a family of endogenous retrovirus-like elements active throughout the evolution of mammals
Field et al. A polymorphism in the HLA-DPB1 gene is associated with susceptibility to multiple sclerosis
JP2020504709A5 (ru)
Terwilliger et al. Confounding, ascertainment bias, and the blind quest for a genetic ‘fountain of youth’
KR101545258B1 (ko) 운동 민감도 예측용 바이오마커
Groeneveld et al. High diversity at PRDM9 in chimpanzees and bonobos
Borroni et al. Founder effect and estimation of the age of the Progranulin Thr272fs mutation in 14 Italian pedigrees with frontotemporal lobar degeneration
JP2016521548A5 (ru)
Steiper et al. New World monkey phylogeny based on X-linked G6PD DNA sequences
RU2021116398A (ru) Способы и системы для диагностики по данным полногеномного секвенирования
US11970743B2 (en) Gene expression markers for predicting overall survival in subjects treated with sipuleucel-T
Hopper Genetics for population and public health
McCarthy Approaches to determining the genetic basis of non-insulin-dependent diabetes mellitus
Yang et al. Replication of gene polymorphisms associated with periodontitis‐related traits in an elderly cohort: the Washington Heights/Inwood Community Aging Project Ancillary Study of Oral Health
Jaksik et al. Calculation of reliable transcript levels of annotated genes on the basis of multiple probe-sets in Affymetrix microarrays
Kim et al. Biomarker detection for the diagnosis of lymph node metastasis from oral squamous cell carcinoma
RU2023129453A (ru) Способы и системы для диагностики по данным полногеномного секвенирования
WO2017115741A1 (ja) アリル特異的遺伝子発現頻度の推定方法、推定用コンピュータシステム及び推定用プログラム
WO2024077357A1 (en) Methods of assessing risk of developing melanoma
Chandler et al. Single-Cell Transcriptomics Reveals Disrupted Cell Communication in the Glomerular Niche in the Initiation of Childhood WT1 Glomerulopathy: FR-PO310
KR101881817B1 (ko) 운동 반응도 예측용 바이오마커