RU2807604C2 - Methods and systems for diagnostics according to whole genome sequencing data - Google Patents

Methods and systems for diagnostics according to whole genome sequencing data Download PDF

Info

Publication number
RU2807604C2
RU2807604C2 RU2021116398A RU2021116398A RU2807604C2 RU 2807604 C2 RU2807604 C2 RU 2807604C2 RU 2021116398 A RU2021116398 A RU 2021116398A RU 2021116398 A RU2021116398 A RU 2021116398A RU 2807604 C2 RU2807604 C2 RU 2807604C2
Authority
RU
Russia
Prior art keywords
gene
smn1
smn2
sequence reads
region
Prior art date
Application number
RU2021116398A
Other languages
Russian (ru)
Other versions
RU2021116398A (en
Inventor
Майкл А. ЭБЕРЛ
Сяо Чэнь
Original Assignee
Иллюмина, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Иллюмина, Инк. filed Critical Иллюмина, Инк.
Publication of RU2021116398A publication Critical patent/RU2021116398A/en
Application granted granted Critical
Publication of RU2807604C2 publication Critical patent/RU2807604C2/en

Links

Abstract

FIELD: biologic information technology.
SUBSTANCE: method for determining the copy number of the survival motor neuron 1 (SMN1) gene is described. Under the control of a hardware processor, sequencing data containing multiple sequence reads obtained from a sample from a subject aligned to the survival motor neuron gene 1 (SMN1) or survival motor neuron gene 2 (SMN2) is obtained. A first number of sequence reads is determined from a plurality of sequence reads aligned to the first region SMN1 or SMN2 containing at least 1 of the first 6 exons of the SMN1 gene or the SMN2 gene, respectively, and a second number of sequence reads from a plurality of sequence reads aligned to the second region SMN1 or SMN2 containing at least exon 7 or exon 8 of the SMN1 gene or the SMN2 gene. The first normalized number of sequence reads and the second normalized number of sequence reads are determined. The copy number of full-length survival motor neuron (SMN) genes and the copy number of any intact SMN genes are determined. For one set of SMN1 gene-specific bases associated with an intact SMN1 gene, the most likely combination is determined from a plurality of possible combinations, each containing a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene, which add up to the number of copies of any identified intact SMN genes. The number of copies of the SMN1 gene is determined using the most probable combination of the possible number of copies of the SMN1 gene and the possible number of copies of the SMN2 gene, determined for a specific base for the SMN1 gene.
EFFECT: invention makes it possible to determine the number of copies of the SMN1 gene.
45 cl, 32 dwg, 25 tbl, 2 ex

Description

ПЕРЕКРЕСТНЫЕ ССЫЛКИ НА РОДСТВЕННЫЕ ЗАЯВКИCROSS-REFERENCES TO RELATED APPLICATIONS

[0001] Настоящая заявка испрашивает преимущество приоритета по предварительной заявке на патент США № 62/896548, поданной 5 сентября 2019 г., предварительной заявке на патент США № 62/908555, поданной 30 сентября 2019 г., и предварительной заявке на патент США № 63/006651, поданной 7 апреля 2020 г. Содержание каждой из родственных заявок полностью включено в данный документ посредством ссылки. [0001] This application claims the benefit of U.S. Provisional Patent Application No. 62/896548, filed September 5, 2019, U.S. Provisional Patent Application No. 62/908555, filed September 30, 2019, and U.S. Provisional Patent Application No. 63/006651, filed April 7, 2020. The contents of each of the related applications are incorporated herein by reference in their entirety.

Уровень техникиState of the art

Область техникиField of technology

[0002] Настоящее описание относится по существу к области генотипирования паралогов и, в частности, к генотипированию паралогов с использованием данных секвенирования. [0002] The present disclosure relates generally to the field of paralog genotyping and, in particular, to paralog genotyping using sequencing data.

Уровень техникиState of the art

[0003] Генотипирование является сложной задачей. Например, спинальная мышечная атрофия вызвана потерей функциональности гена выживания моторного нейрона 1 (англ.: survival of motor neuron 1-SMN1), но сохранением паралогического гена SMN2. Из-за практически идентичных последовательностей SMN1 и его паралога SMN2 анализ этой области представляет собой сложную задачу. В качестве другого примера, CYP2D6 участвует в метаболизме 25% всех лекарственных средств. Генотипирование CYP2D6 является сложной задачей из-за его высокого полиморфизма, наличия общих структурных вариантов (SV) и высокого сходства последовательностей с паралогом псевдогена CYP2D7. [0003] Genotyping is a complex task. For example, spinal muscular atrophy is caused by loss of functionality of the survival of motor neuron 1 gene ( SMN1 ), but retention of the paralogous gene SMN2 . Due to the nearly identical sequences of SMN1 and its paralog SMN2, analysis of this region is challenging. As another example, CYP2D6 is involved in the metabolism of 25% of all drugs. Genotyping of CYP2D6 is challenging due to its high polymorphism, the presence of common structural variants (SVs), and high sequence similarity to the pseudogene paralogue CYP2D7 .

раскрытие сущности изобретенияdisclosure of the invention

[0004] В данном документе раскрыты способы определения количества копий гена выживания моторного нейрона 1 (SMN1). В некоторых вариантах осуществления способ определения количества копий гена SMN1 контролируется процессором (таким как аппаратный процессор или виртуальный процессор) и включает: получение данных секвенирования, содержащих множество прочтений последовательностей из образца от субъекта, выровненных с геном SMN1 или геном выживания моторных нейронов 2 (SMN2). Способ может включать: определение (i) первого количества прочтений последовательности из множества прочтений последовательностей, выровненных по первому участку гена SMN1 или SMN2, содержащим по меньшей мере один из первых 6 экзонов гена SMN1 или гена SMN2 соответственно, и (ii) второго количества прочтений последовательности из множества прочтений последовательностей, выровненных по второму участку SMN1 или SMN2, содержащим по меньшей мере экзон 7 или экзон 8 гена SMN1 или гена SMN2 соответственно. Способ может включать: определение (i) первого нормализованного количества прочтений последовательности, выровненной по первой области гена SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненной по второй области SMN1 или SMN2, с применением (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2 соответственно. Способ может включать: определение (i) количества копий полноразмерных генов выживания моторных нейронов (SMN), каждый из которых является интактным геном SMN1, интактным геном SMN2, укороченным геном SMN1 или укороченным геном SMN2; и (ii) количества копий любых интактных генов SMN, каждый из которых является интактным геном SMN1 или интактным геном SMN2, с использованием модели смеси нормальных распределений, содержащей множество нормальных распределений, каждое из которых представляет разное целое количество копий, с учетом (i) первого нормализованного количества прочтений последовательности, выровненной по первой области SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненной по второй области SMN1 или SMN2, соответственно. Способ может включать: для одного множества специфичных для гена SMN1 оснований, связанных с интактным геном SMN1, определение наиболее вероятной комбинации из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, суммированное с количеством копий любых определенных интактных генов SMN, учитывая (a) количество прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат основание, специфичное для гена SMN1, и (b) количество прочтений последовательностей из множества прочтений последовательности с основаниями, которые содержат специфическое для гена SMN2 основание гена SMN2, соответствующее специфическому для гена SMN1 основанию. Способ может включать: определение количества копий гена SMN1 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенного для специфического для гена SMN1 основания. [0004] Disclosed herein are methods for determining the copy number of the survival motor neuron 1 ( SMN1 ) gene. In some embodiments, a method for determining the copy number of the SMN1 gene is controlled by a processor (such as a hardware processor or virtual processor) and includes: obtaining sequencing data comprising multiple sequence reads from a sample from a subject aligned to the SMN1 gene or the survival motor neuron 2 ( SMN2 ) gene . The method may include: determining (i) a first number of sequence reads from a plurality of sequence reads aligned to a first region of the SMN1 or SMN2 gene containing at least one of the first 6 exons of the SMN1 gene or the SMN2 gene, respectively, and (ii) a second number of sequence reads from a plurality of sequence reads aligned to a second region of SMN1 or SMN2 containing at least exon 7 or exon 8 of the SMN1 gene or the SMN2 gene, respectively. The method may include: determining (i) a first normalized read count of a sequence aligned to a first region of the SMN1 or SMN2 gene, and (ii) a second normalized read count of a sequence aligned to a second SMN1 or SMN2 region, using (i) the length of the first SMN1 region or SMN2 and (ii) the length of the second region SMN1 or SMN2 , respectively. The method may include: determining (i) the copy number of full-length survival motor neuron (SMN) genes, each of which is an intact SMN1 gene, an intact SMN2 gene, a truncated SMN1 gene, or a truncated SMN2 gene; and (ii) the copy number of any intact SMN genes, each of which is an intact SMN1 gene or an intact SMN2 gene, using a mixture normal distribution model containing a plurality of normal distributions, each representing a different integer copy number, subject to (i) the first a normalized read count of the sequence aligned to the first SMN1 or SMN2 region, and (ii) a second normalized read count of the sequence aligned to the second SMN1 or SMN2 region, respectively. The method may include: for one set of SMN1 gene-specific bases associated with an intact SMN1 gene, determining the most likely combination from a plurality of possible combinations, each of which contains a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene, summed with the number of copies of any determined intact SMN genes, considering (a) the number of sequence reads from a set of sequence reads with bases that contain a base specific to the SMN1 gene, and (b) the number of sequence reads from a set of sequence reads with bases that contain a base specific to the SMN2 gene , corresponding to a base specific to the SMN1 gene. The method may include: determining the copy number of the SMN1 gene using the most likely combination of the possible SMN1 gene copy number and the possible SMN2 gene copy number determined for the SMN1 gene-specific base.

[0005] В некоторых вариантах осуществления данные секвенирования содержат данные секвенирования целого генома (полногеномного секвенирования, whole genome sequencing, WGS) или данные WGS с помощью коротких прочтений. В некоторых вариантах осуществления субъект является субъектом-плодом, неонатальным субъектом, педиатрическим субъектом, субъектом-подростком или взрослым субъектом. Образец может содержать клетки или внеклеточную ДНК. Образец может содержать фетальные клетки или внеклеточную фетальную ДНК. [0005] In some embodiments, the sequencing data comprises whole genome sequencing data (whole genome sequencing, WGS) or short-read WGS data. In some embodiments, the subject is a fetal subject, a neonatal subject, a pediatric subject, an adolescent subject, or an adult subject. The sample may contain cells or extracellular DNA. The sample may contain fetal cells or extracellular fetal DNA.

[0006] В некоторых вариантах осуществления прочтение последовательности из множества прочтений последовательностей, выравнивается с первой областью SMN1 или SMN2 или со второй областью SMN1 или SMN2 с показателем качества выравнивания, равным приблизительно нулю. Первый участок SMN1 или SMN2 может содержать экзон от 1 до 6 гена SMN1 или гена SMN2 соответственно и иметь длину примерно 22,2 т. п. н. Второй участок SMN1 или SMN2 может содержать экзон 7 и экзон 8 гена SMN1 или гена SMN2 соответственно и иметь длину примерно 6 т. п. н. [0006] In some embodiments, a sequence read from a plurality of sequence reads is aligned to a first region SMN1 or SMN2 or a second region SMN1 or SMN2 with an alignment quality score of approximately zero. The first region of SMN1 or SMN2 may contain exon 1 to 6 of the SMN1 gene or the SMN2 gene, respectively, and is approximately 22.2 kb in length. The second region of SMN1 or SMN2 may contain exon 7 and exon 8 of the SMN1 gene or the SMN2 gene, respectively, and be approximately 6 kb in length.

[0007] В некоторых вариантах осуществления определение (i) первого нормализованного количества прочтений последовательности, выровненной с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненной со второй областью, включает: определение (i) первого нормализованного количества прочтений последовательности, выровненной с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненной со второй областью SMN1 или SMN2, с применением (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2, соответственно, и (iii) глубины прочтения последовательности области генома субъекта, за исключением генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования. Определение (i) первого нормализованного количества прочтений последовательности, выровненной с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненной со второй областью SMN1 или SMN2, может включать: определение (i) нормализованного количества прочтений по длине участка SMN1 или SMN2 последовательности, выровненной с первой областью SMN1 или SMN2, и (ii) нормализованного количества прочтений по длине участка SMN1 или SMN2 последовательности, выровненной со второй областью SMN1 или SMN2, с использованием (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2 соответственно. Определение (i) первого нормализованного количества прочтений последовательности, выровненной с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненной со второй областью SMN1 или SMN2, может включать: определение (i) первой нормализованной глубины прочтения последовательности, выровненной с первой областью SMN1 или SMN2, и (ii) второй нормализованной глубины прочтения последовательности, выровненной со второй областью SMN1 или SMN2, на основе (i) первого нормализованного количества прочтений по длине участка SMN1 или SMN2 и (ii) второго нормализованного количества прочтений по длине участка SMN1 или SMN2, соответственно, при использовании интенсивности прочтения последовательности области генома субъекта, отличной от генетических локусов, содержащих ген SMN1 и ген SMN2, первое нормализованное количество прочтений последовательности, выровненной с первой областью SMN1 или SMN2, и второе нормализованное количество прочтений последовательности, выровненной со второй областью SMN1 или SMN2, которые представляют собой первую нормализованную интенсивность и вторую нормализованную интенсивность соответственно. [0007] In some embodiments, determining (i) a first normalized read count of a sequence aligned to a first SMN1 or SMN2 region and (ii) a second normalized read count of a sequence aligned to a second region comprises: determining (i) a first normalized read count sequence aligned to the first SMN1 or SMN2 region, and (ii) a second normalized read count of the sequence aligned to the second SMN1 or SMN2 region, using (i) the length of the first SMN1 or SMN2 region and (ii) the length of the second SMN1 or SMN2 region, respectively, and (iii) the sequence read depth of the subject's genome region, excluding genetic loci containing the SMN1 gene and the SMN2 gene, as determined by sequencing. Determining (i) a first normalized read count of a sequence aligned to a first SMN1 or SMN2 region and (ii) a second normalized read count of a sequence aligned to a second SMN1 or SMN2 region may include: determining (i) a normalized read count over the length of the SMN1 region or SMN2 sequence aligned to the first SMN1 or SMN2 region, and (ii) the normalized read count to the length of the SMN1 or SMN2 region of the sequence aligned to the second SMN1 or SMN2 region, using (i) the length of the first SMN1 or SMN2 region and (ii) the length of the second region SMN1 or SMN2 , respectively. Determining (i) a first normalized read count of a sequence aligned to a first SMN1 or SMN2 region, and (ii) a second normalized read count of a sequence aligned to a second SMN1 or SMN2 region may include: determining (i) a first normalized read depth of a sequence aligned with a first SMN1 or SMN2 region, and (ii) a second normalized read depth of a sequence aligned to a second SMN1 or SMN2 region, based on (i) a first normalized read count along the length of the SMN1 or SMN2 region and (ii) a second normalized read count along the length region of SMN1 or SMN2 , respectively, using the sequence read count of a region of the subject's genome other than the genetic loci containing the SMN1 gene and the SMN2 gene, the first normalized read count of the sequence aligned to the first SMN1 or SMN2 region, and the second normalized read count of the sequence aligned with a second region SMN1 or SMN2 , which represent the first normalized intensity and the second normalized intensity, respectively.

[0008] В некоторых вариантах осуществления определение (i) первого нормализованного количества прочтений последовательности, выровненной с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненной со второй областью, включает: определение (i) первого нормализованного количества прочтений последовательности, выровненной с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненной со второй областью SMN1 или SMN2, с применением (i) содержания GC в первой области SMN1 или SMN2 и (ii) содержания GC в второй области SMN1 или SMN2, соответственно, и (iii) глубины прочтения последовательности области генома субъекта, отличной от генетических локусов, содержащих ген SMN1 и ген SMN2 по данным секвенирования, и (iv) содержания GC в области генома. [0008] In some embodiments, determining (i) a first normalized read count of a sequence aligned to a first SMN1 or SMN2 region and (ii) a second normalized read count of a sequence aligned to a second region comprises: determining (i) a first normalized read count sequence aligned to the first SMN1 or SMN2 region, and (ii) a second normalized read count of the sequence aligned to the second SMN1 or SMN2 region, using (i) the GC content of the first SMN1 or SMN2 region and (ii) the GC content of the second region SMN1 or SMN2 , respectively, and (iii) the sequence read depth of a region of the subject's genome that is distinct from the genetic loci containing the SMN1 gene and the SMN2 gene as determined by sequencing, and (iv) the GC content of the genomic region.

[0009] В некоторых вариантах осуществления глубина прочтения области представляет собой среднюю глубину или медианную глубину прочтений последовательности области генома субъекта, отличной от генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования. Область может содержать примерно 3000 предварительно выбранных областей длиной примерно 2 т. п. н. каждая в геноме субъекта. В некоторых вариантах осуществления (i) первое нормализованное количество прочтений последовательности, выровненной с первой областью SMN1 или SMN2, и/или (ii) второе нормализованное количество прочтений последовательности, выровненной со второй областью SMN1 или SMN2, составляет от примерно 30 до примерно 40. [0009] In some embodiments, the region read depth is the average depth or median sequence read depth of a region of the subject's genome other than the genetic loci containing the SMN1 gene and the SMN2 gene, as determined by sequencing. The region may contain approximately 3000 preselected regions of approximately 2 kb in length. each in the subject's genome. In some embodiments, (i) the first normalized read count of the sequence aligned to the first SMN1 or SMN2 region and/or (ii) the second normalized read count of the sequence aligned to the second SMN1 or SMN2 region is from about 30 to about 40.

[0010] В некоторых вариантах осуществления модель смеси нормальных распределений представляет собой одномерную модель смеси нормальных распределений. Множество распределений модели смеси нормальных распределений могут представлять целые числа копий от 0 до 10. Среднее значение для каждого из множества нормальных распределений может представлять собой целое число копий, представленное нормальными распределениями. [0010] In some embodiments, the mixture normal distribution model is a one-dimensional mixture normal distribution model. The plurality of distributions of a mixture of normal distributions may represent integer copy numbers from 0 to 10. The mean for each of the plurality of normal distributions may represent the integer copy numbers represented by the normal distributions.

[0011] В некоторых вариантах осуществления определение (i) количества копий всех генов SMN и (ii) количества копий любых интактных генов SMN включает определение (i) количества копий всех генов SMN и (ii) количества копий любых интактных генов SMN с использованием модели смеси нормальных распределений, и первый предварительно определенный порог апостериорной вероятности с учетом (i) первого нормализованного количества прочтений последовательности, выровненной с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненной со второй областью SMN1 или SMN2 соответственно. Первый предварительно определенный порог апостериорной вероятности может составлять 0,95. [0011] In some embodiments, determining (i) the copy number of all SMN genes and (ii) the copy number of any intact SMN genes includes determining (i) the copy number of all SMN genes and (ii) the copy number of any intact SMN genes using a mixture model normal distributions, and a first predetermined posterior probability threshold given (i) a first normalized read count of the sequence aligned to the first SMN1 or SMN2 region, and (ii) a second normalized read count of the sequence aligned to the second SMN1 or SMN2 region, respectively. The first predefined posterior probability threshold may be 0.95.

[0012] В некоторых вариантах осуществления способ включает: определение количества копий укороченных генов SMN с использованием (i) определенного количества копий от общего числа генов SMN и (ii) определенного количества копий интактных генов SMN. Количество копий укороченных генов SMN может представлять собой разницу (i) общего количества копий определенных генов SMN и (ii) определенного количества копий интактных генов SMN. [0012] In some embodiments, the method includes: determining the copy number of truncated SMN genes using (i) a certain copy number of the total number of SMN genes and (ii) a certain copy number of intact SMN genes. The copy number of truncated SMN genes may represent the difference of (i) the total copy number of certain SMN genes and (ii) the specific copy number of intact SMN genes.

[0013] В некоторых вариантах осуществления специфичное для гена SMN1 основание представляет собой энхансер сплайсинга. Специфичное для гена SMN1 основание может представлять собой основание в с.840 гена SMN1. В некоторых вариантах осуществления наиболее вероятная комбинация возможного количества копий гена SMN1 и возможного количества копий гена SMN2 связана с самой высокой апостериорной вероятностью, по сравнению с другими комбинациями множества комбинаций с заданным (a) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфическое для гена SMN1 основание, и (b) количество прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат соответствующее специфическое для гена SMN2 основание. [0013] In some embodiments, the SMN1 gene-specific base is a splicing enhancer. The SMN1 gene-specific base may be the base at c.840 of the SMN1 gene. In some embodiments, the most likely combination of a possible SMN1 gene copy number and a possible SMN2 gene copy number is associated with the highest posterior probability, compared to other combinations of the plurality of combinations given (a) the number of sequence reads from the plurality of sequence reads with bases that contain a specific for the SMN1 gene base, and (b) the number of sequence reads from the plurality of sequence reads with bases that contain the corresponding SMN2 gene-specific base.

[0014] В некоторых вариантах осуществления определение наиболее вероятной комбинации возможного количества копий гена SMN1 и возможной комбинации гена SMN2 включает: определение наиболее вероятной комбинации, из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, суммированное с количеством копий любых определенных интактных генов SMN, с учетом соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфическое для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат SMN2 ген-специфическое основание гена SMN2, соответствующее специфичному для гена SMN1 основанию. Определение наиболее вероятной комбинации возможного количества копий гена SMN1 и возможной комбинации гена SMN2 может включать: определение (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат SMN2 ген-специфическое основание гена SMN2 соответствующее специфичному для гена SMN1 основанию; определение соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN2 основание гена SMN2, соответствующее специфичному для гена SMN1 основанию; и определение наиболее вероятной комбинации, из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, суммированное с количеством копий любого интактного гена SMN, определенным на основе соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфическое для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат SMN2 ген-специфическое основание гена SMN2 соответствующее специфичному для гена SMN1 основанию. [0014] In some embodiments, determining the most likely combination of a possible SMN1 gene copy number and a possible SMN2 gene combination includes: determining the most likely combination, from a plurality of possible combinations, each of which contains a possible SMN1 gene copy number and a possible SMN2 gene copy number, summed with the copy number of any defined intact SMN genes, taking into account the ratio of (a) the number of sequence reads from the set of sequence reads with bases that contain the SMN1 gene-specific base, and (b) the number of sequence reads from the set of sequence reads with bases that contain SMN2 a gene-specific base of the SMN2 gene corresponding to a specific base for the SMN1 gene. Determining the most likely combination of a possible SMN1 gene copy number and a possible SMN2 gene combination may involve: determining (a) the number of sequence reads from a plurality of sequence reads with bases that contain a SMN1 gene-specific base, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain the SMN2 gene-specific base of the SMN2 gene corresponding to the SMN1 gene-specific base; determining the ratio of (a) the number of sequence reads from a plurality of sequence reads with bases that contain an SMN1 gene-specific base, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain an SMN2 gene-specific base corresponding to the SMN2 gene-specific SMN1 gene base; and determining the most likely combination, from a plurality of possible combinations, each of which contains a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene, summed with the number of copies of any intact SMN gene determined based on the ratio of (a) the number of sequence reads out of the plurality of sequence reads with bases that contain the SMN1 gene-specific base, and (b) the number of sequence reads from the plurality of sequence reads with bases that contain the SMN2 gene-specific base of the SMN2 gene corresponding to the SMN1 gene-specific base.

[0015] В некоторых вариантах осуществления определение наиболее вероятной комбинации возможного количества копий гена SMN1 и возможной комбинации гена SMN2 включает: для каждого из множества ген-специфических оснований SMN1, определение наиболее вероятной комбинации из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, суммированное с количеством копий любых определенных интактных генов SMN, которая связана с наибольшей апостериорной вероятностью, заданной (a) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат SMN2 ген-специфическое основание гена SMN2 соответствующее специфичному для гена SMN1 основанию. Определение количества копий гена SMN1 может включать: определение количества копий гена SMN1 на основе возможного количества копий гена SMN1 наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенного для каждого из множества специфичных для гена SMN1 оснований. [0015] In some embodiments, determining the most likely combination of a possible number of copies of the SMN1 gene and a possible combination of the SMN2 gene includes: for each of a plurality of gene-specific SMN1 bases, determining the most likely combination from a plurality of possible combinations, each of which contains a possible number of copies of the gene SMN1 and the possible copy number of the SMN2 gene, summed with the copy number of any identified intact SMN genes that is associated with the largest posterior probability given by (a) the number of sequence reads from the set of sequence reads with bases that contain the SMN1 gene-specific base, and (b ) the number of sequence reads from a set of sequence reads with bases that contain the SMN2 gene-specific base of the SMN2 gene corresponding to the SMN1 gene-specific base. Determining the copy number of the SMN1 gene may include: determining the copy number of the SMN1 gene based on the possible copy number of the SMN1 gene, the most likely combination of the possible copy number of the SMN1 gene and the possible copy number of the SMN2 gene, determined for each of a plurality of SMN1 gene-specific bases.

[0016] В некоторых вариантах осуществления специфичное для гена SMN1 основание имеет соответствие с каждым из множества характерных для конкретного гена SMN1 оснований, отличных от специфичного для гена SMN1 основания выше заранее определенного порога соответствия. Порог соответствия может составлять 97%. Множество оснований, специфичных для гена SMN1 может содержать 8 оснований, специфичных для гена SMN1. Каждое из множества оснований, специфичных для гена SMN1 может находиться на интроне 6, экзоне 7, интроне 7 или экзоне 8 гена SMN1. Множество оснований, специфичных для гена SMN1, если субъект принадлежит к первой расе, множество оснований, специфичных для гена SMN1, если субъект принадлежит к второй расе и множество оснований, специфичных для гена SMN1, если субъект принадлежит к неизвестной расе, могут различаться. Раса субъекта может быть неизвестной, а множество оснований, специфичных для гена SMN1 могут быть неспецифичными для расы. Раса субъекта может быть известна, и множество оснований, специфичных для гена SMN1 могут быть специфичными для расы субъекта. В некоторых вариантах осуществления способ включает получение информации о расе субъекта. Способ может включать: выбор множества оснований, специфичных для гена SMN1 из множества оснований, специфичных для гена SMN1 на основе полученной информации о расе. [0016] In some embodiments, the SMN1 gene-specific base has a match with each of a plurality of SMN1 gene-specific bases other than the SMN1 gene-specific base above a predetermined match threshold. The compliance threshold may be 97%. The SMN1 gene-specific base set may contain 8 SMN1 gene-specific bases. Each of a variety of bases specific to the SMN1 gene may be located on intron 6, exon 7, intron 7, or exon 8 of the SMN1 gene. The base set specific to the SMN1 gene if the subject is a first race, the base set specific to the SMN1 gene if the subject is a second race, and the base set specific to the SMN1 gene if the subject is an unknown race may vary. The subject's race may be unknown, and many bases specific to the SMN1 gene may be non-race specific. The race of the subject may be known, and a plurality of bases specific to the SMN1 gene may be specific to the race of the subject. In some embodiments, the method includes obtaining information about the race of the subject. The method may include: selecting a plurality of bases specific for the SMN1 gene from the plurality of bases specific for the SMN1 gene based on the obtained race information.

[0017] В некоторых вариантах осуществления определение количества копий гена SMN1 включает: определение количества копий гена SMN1 и количества копий гена SMN2 с использованием наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенного для каждого из множества оснований, специфичных для гена SMN1. Определение количества копий может включать: определение количества копий гена SMN1 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенного для специфического для гена SMN1 основания и второго предварительно заданного порога апостериорной вероятности для комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2. Второй предварительно определенный порог апостериорной вероятности может составлять 0,6 или 0,8. [0017] In some embodiments, determining the SMN1 gene copy number includes: determining the SMN1 gene copy number and the SMN2 gene copy number using the most likely combination of the possible SMN1 gene copy number and the possible SMN2 gene copy number determined for each of a plurality of bases specific for SMN1 gene. The copy number determination may include: determining the copy number of the SMN1 gene using the most likely combination of the possible SMN1 gene copy number and the possible SMN2 gene copy number determined for an SMN1 gene-specific base and a second prespecified posterior probability threshold for the combination of the possible SMN1 gene copy number and possible number of copies of the SMN2 gene. The second predefined posterior probability threshold can be 0.6 or 0.8.

[0018] В некоторых вариантах осуществления большинство определенных возможных количеств копий гена SMN1 совпадают. Количество копий определенного гена SMN1 может быть согласованным с возможным количеством копий гена SMN1. Способ может включать: определение возможной комбинации, содержащей возможное количество копий гена SMN1 и возможное количество копий гена SMN2, суммированное с количеством копий любого интактного гена SMN, определенных с учетом (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат любое из множества оснований, специфических для гена SMN1, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат любое из множества соответствующих оснований, специфических для гена SMN2. Способ может включать: определение возможного количества копий возможной комбинации представляет собой согласованное возможное количество копий гена SMN1. [0018] In some embodiments, the majority of the determined possible copy numbers of the SMN1 gene are the same. The copy number of a particular SMN1 gene may be consistent with the possible copy number of the SMN1 gene. The method may include: determining a candidate combination containing a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene, summed with the number of copies of any intact SMN gene, determined taking into account (a) the number of sequence reads from a plurality of sequence reads with bases that contain any of a plurality of bases specific to the SMN1 gene; and (b) a number of sequence reads from a plurality of sequence reads with bases that contain any of a plurality of corresponding bases specific to the SMN2 gene. The method may include: determining a possible copy number of a candidate combination that is a consensus possible copy number of the SMN1 gene.

[0019] В некоторых вариантах осуществления определение количества копий гена SMN1 включает: определение количества копий гена SMN1, равного нулю, единице или более единицы. В некоторых вариантах осуществления способ включает: определение статуса спинальной мышечной атрофии ( англ.: spinal muscular atrophy, SMA) у субъекта на основе количества копий гена SMN1. Статус SMA для субъекта может включать в себя SMA, носитель SMA/отсутствие SMA и не носитель SMA. В некоторых вариантах осуществления способ включает определение субъекта как молчащего носителя SMA с использованием ряда прочтений последовательности из множества прочтений последовательностей, выровненных с g.27134 гена SMN1, и на основе прочтений последовательностей, выровненных с g.27134 гена SMN1. [0019] In some embodiments, determining the copy number of the SMN1 gene includes: determining the copy number of the SMN1 gene to be zero, one, or greater than one. In some embodiments, the method includes: determining spinal muscular atrophy (SMA) status in a subject based on the copy number of the SMN1 gene. The SMA status for a subject may include SMA, SMA carrier/no SMA carrier, and non-SMA carrier. In some embodiments, the method includes identifying a subject as a silent carrier of SMA using a set of sequence reads from a plurality of sequence reads aligned to g.27134 of the SMN1 gene, and based on sequence reads aligned to g.27134 of the SMN1 gene.

[0020] В некоторых вариантах осуществления способ включает: определение рекомендации по лечению для субъекта на основании определенного количества копий гена SMN1. Рекомендация по лечению может включать введение субъекту Nusinersen и/или Zolgensma. [0020] In some embodiments, the method includes: determining a treatment recommendation for a subject based on a determined copy number of the SMN1 gene. The treatment recommendation may include administering Nusinersen and/or Zolgensma to the subject.

[0021] В данном документе описаны способы генотипирования гена члена 6 подсемейства D семейства 2 цитохрома P450 (CYP2D6). В некоторых вариантах осуществления способ генотипирования гена CYP2D6 контролируется процессором (таким как аппаратный процессор или виртуальный процессор) и включает: получение данных секвенирования, содержащих множество прочтений последовательностей из образца от субъекта, выровненных с геном CYP2D6 или геном члена 7 подсемейства D семейства 2 цитохрома P450 (CYP2D7). Способ может включать: определение (i) первого количества прочтений последовательности из множества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7. Способ может включать: определение (i) первого нормализованного количества прочтений последовательности, выровненной с геном CYP2D6 или геном CYP2D7, с применением (i) длины гена CYP2D6 или гена CYP2D7 соответственно. Способ может включать: определение (i) общего количества копий гена CYP2D6 и гена CYP2D7 с помощью модели смеси нормальных распределений, содержащей множество нормальных распределений, каждое из которых представляет другое целое количество копий, на основании (i) первого нормализованного количества прочтений последовательности, выровненной с геном CYP2D6 или геном CYP2D7. Способ может включать: для одного из множества оснований, специфичных для гена CYP2D6 определение наиболее вероятной комбинации множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, суммированное до общего количества копий гена CYP2D6 и определенного гена CYP2D7, учитывая (a) прочтение множества последовательностей с основаниями, которые содержат специфическое для гена CYP2D6 основание, и (b) прочтение множества последовательностей с основаниями, которые содержат специфическое для гена CYP2D7 основание, соответствующее основанию, специфичному для гена CYP2D6. Способ может включать: определение аллеля гена CYP2D6, имеющегося у субъекта, с использованием наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенного для основания, специфичного для гена CYP2D6. [0021] Described herein are methods for genotyping the cytochrome P450 family 2 subfamily D member 6 gene ( CYP2D6 ). In some embodiments, a method for genotyping a CYP2D6 gene is controlled by a processor (such as a hardware processor or virtual processor) and includes: obtaining sequencing data comprising multiple sequence reads from a sample from a subject aligned to a CYP2D6 gene or a cytochrome P450 family 2 subfamily D member 7 gene ( CYP2D7 ). The method may include: determining (i) a first number of sequence reads from a plurality of sequence reads aligned to a CYP2D6 gene or a CYP2D7 gene. The method may include: determining (i) the first normalized read count of the sequence aligned to the CYP2D6 gene or the CYP2D7 gene, using (i) the length of the CYP2D6 gene or the CYP2D7 gene, respectively. The method may include: determining (i) the total copy number of the CYP2D6 gene and the CYP2D7 gene using a mixture of normal distributions model containing a plurality of normal distributions, each representing a different integer copy number, based on (i) the first normalized read count of the sequence aligned to CYP2D6 genome or CYP2D7 genome. The method may include: for one of a plurality of bases specific to the CYP2D6 gene, determining the most likely combination of a plurality of possible combinations, each of which contains a possible number of copies of the CYP2D6 gene and a possible number of copies of the CYP2D7 gene, summed to the total number of copies of the CYP2D6 gene and the particular CYP2D7 gene, considering (a) multiple sequence reads with bases that contain a CYP2D6 gene-specific base, and (b) multiple sequence reads with bases that contain a CYP2D7 gene-specific base corresponding to a CYP2D6 gene-specific base. The method may include: determining the allele of the CYP2D6 gene present in the subject using the most likely combination of the possible number of copies of the CYP2D6 gene and the possible number of copies of the CYP2D7 gene determined for the base specific for the CYP2D6 gene.

[0022] В некоторых вариантах осуществления данные секвенирования содержат данные секвенирования целого генома (WGS) или данные WGS с помощью коротких прочтений. Субъект может являться субъектом-плодом, неонатальным субъектом, педиатрическим субъектом, субъектом-подростком или взрослым субъектом. Образец может содержать клетки или внеклеточную ДНК. Образец может содержать клетки или внеклеточную ДНК. [0022] In some embodiments, the sequencing data comprises whole genome sequencing (WGS) data or short-read WGS data. The subject may be a fetal subject, a neonatal subject, a pediatric subject, an adolescent subject, or an adult subject. The sample may contain cells or extracellular DNA. The sample may contain cells or extracellular DNA.

[0023] В некоторых вариантах осуществления прочтение последовательности из множестве прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, при этом показатель качества выравнивания составляет около нуля. В некоторых вариантах осуществления определение (i) первого количества прочтений последовательности из множества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, включает: определение (i) первого количества прочтений последовательности из множества прочтений последовательностей, выровненных с по меньшей мере одним экзоном или интроном гена CYP2D6 или по меньшей мере одним из экзонов или интронов гена CYP2D7. [0023] In some embodiments, a sequence read from a plurality of sequence reads aligned to a CYP2D6 gene or a CYP2D7 gene with an alignment quality score of about zero. In some embodiments, determining (i) a first number of sequence reads from a plurality of sequence reads aligned to a CYP2D6 gene or a CYP2D7 gene comprises: determining (i) a first number of sequence reads from a plurality of sequence reads aligned to at least one exon or intron of the gene CYP2D6 or at least one of the exons or introns of the CYP2D7 gene.

[0024] В некоторых вариантах осуществления определение (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, включает: определение (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с использованием (i) длины гена CYP2D6 или гена CYP2D7, соответственно, и (iii) глубины прочтения последовательности области генома субъекта, отличной от генетических локусов, содержащих ген CYP2D6 и ген CYP2D7 по данным секвенирования. Определение (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, и (ii) второго нормализованного количества прочтений последовательностей, выровненных со второй областью, может включать: определение (i) первого гена CYP2D6 или нормализованного по длине гена CYP2D7 количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с применением (i) длины гена CYP2D6 или гена CYP2D7 соответственно. Определение (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, и (ii) второго нормализованного количества прочтений последовательностей, выровненных со второй областью, может включать: определение (i) первой нормализованной глубины прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, из (i) нормализованного количества по длине гена CYP2D6 или гена CYP2D7, с применением глубины прочтения последовательностей области генома субъекта, отличных от генетических локусов, содержащих ген CYP2D6 и CYP2D7, первая нормализованная глубина прочтения последовательности, выровненной с геном CYP2D6 или геном CYP2D7, представляет собой первое нормализованное количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7 соответственно. [0024] In some embodiments, determining (i) a first normalized count of sequence reads aligned to a CYP2D6 gene or a CYP2D7 gene comprises: determining (i) a first normalized count of sequence reads aligned to a CYP2D6 gene or a CYP2D7 gene using (i) the length of the CYP2D6 gene or the CYP2D7 gene, respectively, and (iii) the sequence read depth of a region of the subject's genome other than the genetic loci containing the CYP2D6 gene and the CYP2D7 gene as determined by sequencing. Determining (i) a first normalized count of sequence reads aligned to a CYP2D6 gene or a CYP2D7 gene, and (ii) a second normalized count of sequence reads aligned to a second region may include: determining (i) a first CYP2D6 gene or a length-normalized count of a CYP2D7 gene sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene, using (i) the length of the CYP2D6 gene or the CYP2D7 gene, respectively. Determining (i) the first normalized depth of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene, and (ii) the second normalized depth of sequence reads aligned to the second region may include: determining (i) the first normalized depth of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene, from (i) the normalized count along the length of the CYP2D6 gene or the CYP2D7 gene, using the sequence read depth of a region of the subject's genome other than the genetic loci containing the CYP2D6 gene and the CYP2D7 gene, the first normalized read depth of the sequence aligned to the CYP2D6 gene or gene CYP2D7 , represents the first normalized number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene, respectively.

[0025] В некоторых вариантах осуществления определение (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, включает: определение (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с применением (i) содержания GC в гене CYP2D6 или гене CYP2D7 и (iii) глубины прочтения последовательности области генома субъекта, отличных от генетических локусов, содержащих ген CYP2D6 и ген CYP2D7, по данным секвенирования и (iv) содержания GC в области генома. Глубина прочтения области может включать среднюю глубину или медианную глубину прочтений последовательности области генома субъекта, отличной от генетических локусов, содержащих ген CYP2D6 и ген CYP2D7, по данным секвенирования. Область может содержать примерно 3000 предварительно выбранных областей длиной примерно 2 т. п. н. каждая в геноме субъекта. В некоторых вариантах осуществления (i) первое нормализованное количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, и/или (ii) второе нормализованное количество прочтений последовательностей, выровненных со второй областью, составляет от примерно 30 до примерно 40. [0025] In some embodiments, determining (i) a first normalized count of sequence reads aligned to a CYP2D6 gene or a CYP2D7 gene comprises: determining (i) a first normalized count of sequence reads aligned to a CYP2D6 gene or a CYP2D7 gene using (i) the GC content of the CYP2D6 gene or the CYP2D7 gene and (iii) the sequence read depth of the subject's genomic region other than the genetic loci containing the CYP2D6 gene and the CYP2D7 gene as determined by sequencing data and (iv) the GC content of the genomic region. The region read depth may include the average depth or median sequence read depth of a region of the subject's genome other than the genetic loci containing the CYP2D6 gene and the CYP2D7 gene as determined by sequencing. The region may contain approximately 3000 preselected regions of approximately 2 kb in length. each in the subject's genome. In some embodiments, (i) the first normalized number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene and/or (ii) the second normalized number of sequence reads aligned to the second region is from about 30 to about 40.

[0026] В некоторых вариантах осуществления модель смеси нормальных распределений представляет собой одномерную модель смеси нормальных распределений. Множество распределений модели смеси нормальных распределений могут представлять целые числа копий от 0 до 10. Среднее значение для каждого из множества нормальных распределений может представлять собой целое число копий, представленное нормальными распределениями. [0026] In some embodiments, the mixture normal distribution model is a one-dimensional mixture normal distribution model. The plurality of distributions of a mixture of normal distributions may represent integer copy numbers from 0 to 10. The mean for each of the plurality of normal distributions may represent the integer copy numbers represented by the normal distributions.

[0027] В некоторых вариантах осуществления определение (i) общего количества копий гена CYP2D6 и гена CYP2D7 включает определение (i) общего количества копий гена CYP2D6 и гена CYP2D7 с помощью модели смеси нормальных распределений и первого предварительно заданного порога апостериорной вероятности, при условии, что (i) первое нормализованное количество прочтений последовательности совпадает с геном CYP2D6 или геном CYP2D7. Первый предварительно определенный порог апостериорной вероятности может составлять 0,95. [0027] In some embodiments, determining (i) the total copy number of the CYP2D6 gene and the CYP2D7 gene includes determining (i) the total copy number of the CYP2D6 gene and the CYP2D7 gene using a mixture of normal distributions model and a first prespecified posterior probability threshold, provided that (i) the first normalized sequence read count matches the CYP2D6 gene or the CYP2D7 gene. The first predefined posterior probability threshold may be 0.95.

[0028] В некоторых вариантах осуществления наиболее вероятная комбинация возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7 связана с самой высокой апостериорной вероятностью, по сравнению с другими комбинациями множества комбинаций с заданным (a) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфическое для гена CYP2D6 основание, и (b) количество прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат соответствующее специфическое для гена CYP2D7 основание. [0028] In some embodiments, the most probable combination of a possible CYP2D6 gene copy number and a possible CYP2D7 gene copy number is associated with the highest posterior probability, compared to other combinations of the plurality of combinations given (a) the number of sequence reads from the plurality of sequence reads with bases, that contain a CYP2D6 gene-specific base, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain the corresponding CYP2D7 gene-specific base.

[0029] В некоторых вариантах осуществления определение наиболее вероятной комбинации, содержащей возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, включает: определение наиболее вероятной комбинации, из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, суммированное с общим количеством копий гена CYP2D6 и определенным геном CYP2D7, учитывая соотношение (a) количества прочтений последовательности при прочтениях множества последовательностей с основаниями, которые содержат специфическое для гена CYP2D6 основание, и (b) количества прочтений последовательности при прочтениях множества последовательностей с основаниями, которые содержат специфическое для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию. Определение наиболее вероятной комбинации, содержащей возможное количество копий гена CYP2D6 и возможное количество копий, может включать: определение (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию; определение соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию; и определение наиболее вероятной комбинации множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, суммированное с общим количеством копий гена CYP2D6 и определенным геном CYP2D7, с учетом соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию. [0029] In some embodiments, determining the most likely combination containing a possible number of copies of the CYP2D6 gene and a possible number of copies of the CYP2D7 gene comprises: determining the most likely combination, from a plurality of possible combinations, each of which contains a possible number of copies of the CYP2D6 gene and a possible number of copies of the CYP2D7 gene, summed with the total copy number of the CYP2D6 gene and the specific CYP2D7 gene, taking into account the ratio of (a) the number of sequence reads from multiple sequence reads with bases that contain a CYP2D6 gene-specific base, and (b) the number of sequence reads from multiple sequence reads with bases that contain a CYP2D7 gene-specific base corresponding to a CYP2D6 gene-specific base. Determining the most likely combination containing the possible copy number of the CYP2D6 gene and the possible copy number may involve: determining (a) the number of sequence reads from a set of sequence reads with bases that contain a CYP2D6 gene-specific base, and (b) the number of sequence reads from a set sequence reads with bases that contain a CYP2D7 gene-specific base corresponding to a CYP2D6 gene-specific base; determining the ratio of (a) the number of sequence reads from a plurality of sequence reads with bases that contain a CYP2D6 gene-specific base, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain a CYP2D7 gene-specific base corresponding to a CYP2D6 gene-specific base basis; and determining the most likely combination of a plurality of possible combinations, each containing a possible number of copies of the CYP2D6 gene and a possible number of copies of the CYP2D7 gene, summed with the total number of copies of the CYP2D6 gene and the particular CYP2D7 gene, taking into account the ratio of (a) the number of sequence reads from the plurality of sequence reads with bases that contain a CYP2D6 gene-specific base, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain a CYP2D7 gene-specific base corresponding to a CYP2D6 gene-specific base.

[0030] В некоторых вариантах осуществления определение аллеля гена CYP2D6, имеющегося у субъекта, включает: определение одного или более структурных вариантов гена CYP2D6 у субъекта с использованием наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенного для специфичного для гена CYP2D6 основания. В некоторых вариантах осуществления определение наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7 включает определение наиболее вероятной комбинации для каждого из множества ген-специфических оснований CYP2D6, множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, суммированное с общим количеством копий определенного гена CYP2D6 и гена CYP2D7, которая связана с наибольшей апостериорной вероятностью, заданной (a) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат CYP2D7 ген-специфическое основание гена CYP2D7 соответствующее специфичному для гена CYP2D6 основанию. Определение одного или более структурных вариантов гена CYP2D6, имеющегося у субъекта, может включать определение одного или более структурных вариантов с использованием наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенного для каждого из множества специфических для гена CYP2D6 оснований. В некоторых вариантах осуществления определение одного или более структурных вариантов гена CYP2D6, имеющегося у субъекта, включает: определение одного или более структурных вариантов гена CYP2D6, у субъекта на основе количества копий гена CYP2D6 наиболее вероятных комбинаций, определенных для двух или более из множества различных оснований, специфичных для гена CYP2D6, и положений двух или более оснований, специфичных для гена CYP2D6. [0030] In some embodiments, determining the allele of the CYP2D6 gene present in a subject includes: determining one or more structural variants of the CYP2D6 gene in the subject using the most likely combination of the possible copy number of the CYP2D6 gene and the possible copy number of the CYP2D7 gene determined for the specific gene CYP2D6 bases. In some embodiments, determining the most likely combination of a possible number of copies of a CYP2D6 gene and a possible number of copies of a CYP2D7 gene includes determining the most likely combination for each of a plurality of CYP2D6 gene-specific bases, a plurality of possible combinations, each of which contains a possible number of copies of a CYP2D6 gene and a possible number of copies of the CYP2D7 gene, summed with the total copy number of a particular CYP2D6 gene and the CYP2D7 gene, which is associated with the largest posterior probability given by (a) the number of sequence reads from the set of sequence reads with bases that contain the CYP2D6 gene-specific base, and (b) the number sequence reads from a plurality of sequence reads with bases that contain a CYP2D7 gene-specific base of the CYP2D7 gene corresponding to a CYP2D6 gene-specific base. Determining one or more structural variants of the CYP2D6 gene present in a subject may involve determining one or more structural variants using the most likely combination of the possible copy number of the CYP2D6 gene and the possible copy number of the CYP2D7 gene, determined for each of a plurality of CYP2D6 gene-specific bases. In some embodiments, determining one or more structural variants of the CYP2D6 gene present in a subject includes: determining one or more structural variants of the CYP2D6 gene in the subject, based on the copy number of the CYP2D6 gene, the most likely combinations determined for two or more of a plurality of different bases, specific for the CYP2D6 gene, and positions of two or more bases specific for the CYP2D6 gene.

[0031] В некоторых вариантах осуществления специфичное для гена CYP2D6 основание имеет соответствие с каждым из множества специфичных для гена CYP2D6 оснований, за исключением специфичного для гена CYP2D6 основания, при превышении заданного порогового значения соответствия. Порог соответствия может составлять 97%. Множество оснований, специфичных для гена CYP2D6 может содержать 118 оснований, специфичных для гена CYP2D6. Множество оснований, специфичных для гена CYP2D6, если субъект принадлежит к первой расе, множество оснований, специфичных для гена CYP2D6, если субъект принадлежит к второй расе, и множество оснований, специфичных для гена CYP2D6, если субъект принадлежит к неизвестной расе, могут различаться. Раса субъекта может быть неизвестной, а множество оснований, специфичных для гена CYP2D6 могут быть неспецифичными для расы. Раса субъекта может быть известна, и множество оснований, специфичных для гена CYP2D6 могут быть специфичными для расы субъекта. В некоторых вариантах осуществления способ включает получение информации о расе субъекта. Способ может включать: выбор множества оснований, специфичных для гена CYP2D6 из множества оснований, специфичных для гена CYP2D6 на основе полученной информации о расе. [0031] In some embodiments, the CYP2D6 gene-specific base has a match with each of a plurality of CYP2D6 gene-specific bases, except for the CYP2D6 gene-specific base, above a predetermined matching threshold. The compliance threshold may be 97%. The CYP2D6 gene-specific base set may contain 118 CYP2D6 gene-specific bases. The base set specific to the CYP2D6 gene if the subject is a first race, the base set specific to the CYP2D6 gene if the subject is a second race, and the base set specific to the CYP2D6 gene if the subject is an unknown race may vary. The subject's race may be unknown, and many bases specific to the CYP2D6 gene may not be race specific. The race of the subject may be known, and many bases specific to the CYP2D6 gene may be specific to the race of the subject. In some embodiments, the method includes obtaining information about the race of the subject. The method may include: selecting a plurality of CYP2D6 gene-specific bases from the plurality of CYP2D6 gene-specific bases based on the obtained race information.

[0032] В некоторых вариантах осуществления способ включает: определение (ii) второго количества прочтений последовательности из множества прочтений последовательностей, выровненных с областью спейсера между геном CYP2D7 и повторяющимся элементом REP7 ниже гена CYP2D7. Способ может включать: определение (ii) второго нормализованного количества прочтений последовательности, выровненной с областью спейсера, с использованием (ii) длины области спейсера. Способ может включать: определение (ii) количества копий области спейсера с использованием модели смеси нормальных распределений, заданной (ii) вторым нормализованным количеством прочтений последовательностей, выровненных с областью спейсера. Определение одного или более структурных вариантов гена CYP2D6, имеющегося у субъекта, может включать: определение одного или более структурных вариантов гена CYP2D6 у субъекта с использованием наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенного для специфичного для гена CYP2D6 основания, и количества копий области спейсера. Один или более структурных вариантов могут содержать слитый аллель CYP2D6/CYP2D7 с спейсерной областью и повторяющимся элементом REP7 ниже слитого аллеля CYP2D6/CYP2D7. [0032] In some embodiments, the method includes: determining (ii) a second number of sequence reads from a plurality of sequence reads aligned to the spacer region between the CYP2D7 gene and the REP7 repeat element downstream of the CYP2D7 gene. The method may include: determining (ii) a second normalized read count of the sequence aligned to the spacer region using (ii) the length of the spacer region. The method may include: determining (ii) the copy number of the spacer region using a mixture normal distribution model defined by (ii) a second normalized number of sequence reads aligned to the spacer region. Determining one or more structural variants of the CYP2D6 gene present in a subject may include: determining one or more structural variants of the CYP2D6 gene in the subject using the most likely combination of possible CYP2D6 gene copy number and possible CYP2D7 gene copy number determined for a CYP2D6 gene-specific base , and the number of copies of the spacer region. One or more structural variants may contain a CYP2D6 / CYP2D7 fusion allele with a spacer region and a REP7 repeat element downstream of the CYP2D6 / CYP2D7 fusion allele.

[0033] В некоторых вариантах осуществления способ включает: определение одного или более малых вариантов гена CYP2D6 у субъекта с применением полученных данных секвенирования. В некоторых вариантах осуществления определение одного или более малых вариантов гена CYP2D6, имеющегося у субъекта, включает: для положения малого варианта гена CYP2D6, связанного с малым вариантом аллеля гена CYP2D6, определение наиболее вероятной комбинации возможного количества копий небольшого варианта аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6, суммированного с количеством копий гена CYP2D6 в положении малого варианта, учитывая (a) количество прочтений последовательности с основаниями, которые содержат малый вариантный аллель гена CYP2D6 в положении малого варианта, и (b) количество прочтений последовательности с основаниями, которые содержат эталонный аллель гена CYP2D6 в положении малого варианта, возможное количество копий малого варианта аллеля гена CYP2D6, наиболее вероятно, комбинации в малом варианте указывает на один или более малых вариантов гена CYP2D6. В некоторых вариантах осуществления определение одного или более малых вариантов гена CYP2D6, имеющегося у субъекта, включает в себя: для каждого из множества положений малых вариантов гена CYP2D6 положение малого варианта связано с малым вариантом аллеля гена CYP2D6, определение наиболее вероятной комбинации возможного количества копий малого аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, суммированного с количеством копий гена CYP2D6 в положении малого варианта, учитывая (a) количество прочтений последовательности с основаниями, которые содержат малый вариантный аллель гена CYP2D6 в положении малого варианта, и (b) количество прочтений последовательности с основаниями, которые содержат эталонный аллель гена CYP2D6 в положении малого варианта, возможное количество копий малых вариантных аллелей гена CYP2D6, наиболее вероятно, комбинации в множестве положений малых вариантов указывает на один или более малых вариантов гена CYP2D6. [0033] In some embodiments, the method includes: identifying one or more small variants of the CYP2D6 gene in a subject using the obtained sequencing data. In some embodiments, determining one or more minor variants of the CYP2D6 gene present in a subject includes: for the minor variant allele position of the CYP2D6 gene associated with the minor variant allele of the CYP2D6 gene, determining the most likely combination of the possible number of copies of the minor variant allele of the CYP2D6 gene at the position of the minor variant and the possible number of copies of the reference allele of the CYP2D6 gene, summed with the number of copies of the CYP2D6 gene at the minor variant position, taking into account (a) the number of sequence reads with bases that contain the small variant allele of the CYP2D6 gene at the minor variant position, and (b) the number of sequence reads with bases that contain the reference allele of the CYP2D6 gene at the position of the minor variant, the possible number of copies of the minor variant allele of the CYP2D6 gene, most likely, combinations in the minor variant indicate one or more minor variants of the CYP2D6 gene. In some embodiments, determining one or more minor variants of the CYP2D6 gene present in a subject includes: for each of a plurality of minor variant positions of the CYP2D6 gene, the minor variant position is associated with a minor variant allele of the CYP2D6 gene, determining the most likely combination of the possible number of copies of the minor allele the CYP2D6 gene at the minor variant position and the possible number of copies of the reference allele of the CYP2D6 gene at the minor variant position, summed with the copy number of the CYP2D6 gene at the minor variant position, taking into account (a) the number of sequence reads with bases that contain the small variant allele of the CYP2D6 gene at the minor position variant, and (b) the number of sequence reads with bases that contain the reference allele of the CYP2D6 gene at the minor variant position, the possible copy number of small variant alleles of the CYP2D6 gene, most likely combinations at multiple minor variant positions indicating one or more minor variants of the CYP2D6 gene .

[0034] В некоторых вариантах осуществления способ включает: для положения малого варианта гена CYP2D6, связанного с малым аллелем варианта гена CYP2D6, определение наиболее вероятной комбинации возможного количества копий малого аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, суммированного с количеством копий гена CYP2D6 в положении малого варианта, учитывая (a) количество прочтений последовательностей, выровненных с геном CYP2D6, перекрывающимся с положением малого варианта, и основания, которое содержит аллель малого варианта гена CYP2D6 в положении малого варианта и (b) количество прочтений последовательностей, выровненных с геном CYP2D6, перекрывающимся с положением малого варианта, и основания, которое содержит эталонный аллель гена CYP2D6 в положении малого варианта; и определение одного или более малых вариантов гена CYP2D6 с использованием возможного количества копий малого варианта аллеля гена CYP2D6 наиболее вероятной определенной комбинации. В некоторых вариантах осуществления способ включает: для каждого из множества положений малых вариантов гена CYP2D6 положение малого варианта связано с малым вариантом аллеля гена CYP2D6, определение наиболее вероятной комбинации возможного количества копий малого аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, суммированного с количеством копий гена CYP2D6 в положении малого варианта, учитывая (a) количество прочтений последовательностей, выровненных с геном CYP2D6, перекрывающимся с положением малого варианта, и основания, которое содержит аллель малого варианта гена CYP2D6 в положении малого варианта и (b) количество прочтений последовательностей, выровненных с геном CYP2D6, с положением малого варианта, и основания, которое содержит эталонный аллель гена CYP2D6 в положении малого варианта; и определение одного или более малых вариантов гена CYP2D6 с использованием возможного количества копий малых вариантов аллеля гена CYP2D6 наиболее вероятных комбинаций во множестве определенных положений малых вариантов. [0034] In some embodiments, the method includes: for a position of a minor variant of the CYP2D6 gene associated with a minor allele of a variant of the CYP2D6 gene, determining the most likely combination of the possible copy number of the small allele of the CYP2D6 gene at the position of the minor variant and the possible number of copies of the reference allele of the CYP2D6 gene at the position minor variant summed with the copy number of the CYP2D6 gene at the minor variant position, taking into account (a) the number of sequence reads aligned to the CYP2D6 gene overlapping with the minor variant position and the base that contains the small variant allele of the CYP2D6 gene at the minor variant position and (b ) number of sequence reads aligned to the CYP2D6 gene overlapping the minor variant position and the base that contains the reference allele of the CYP2D6 gene at the minor variant position; and identifying one or more small variants of the CYP2D6 gene using the possible number of copies of the small variant allele of the CYP2D6 gene of the most likely determined combination. In some embodiments, the method includes: for each of a plurality of minor variant positions of the CYP2D6 gene, the minor variant position is associated with a minor variant allele of the CYP2D6 gene, determining the most likely combination of the possible copy number of the minor allele of the CYP2D6 gene at the position of the minor variant and the possible copy number of the reference allele of the CYP2D6 gene at the minor variant position, summed with the copy number of the CYP2D6 gene at the minor variant position, taking into account (a) the number of sequence reads aligned to the CYP2D6 gene overlapping with the minor variant position, and the base that contains the CYP2D6 gene minor variant allele at the minor variant position, and (b) the number of sequence reads aligned to the CYP2D6 gene at the minor variant position, and the base that contains the reference allele of the CYP2D6 gene at the minor variant position; and identifying one or more small variants of the CYP2D6 gene using the possible copy number of small variant alleles of the CYP2D6 gene of the most likely combinations at a plurality of defined positions of the small variants.

[0035] В некоторых вариантах осуществления положение малого варианта находится в гомологичной области CYP2D6/CYP2D7, определение наиболее вероятной комбинации включает определение наиболее вероятной комбинации возможного количества копий малого варианта аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, суммированное с количеством копий гена CYP2D6 в положении малого варианта, учитывая (а) количество прочтений последовательности, выровненной с геном CYP2D6 или геном CYP2D7 с основанием, которое содержит малый вариант аллеля гена CYP2D6 в положении малого варианта, и/или (b) количество прочтений последовательности, выровненной с геном CYP2D6 или геном CYP2D7, с основанием, которое содержит эталонный аллель CYP2D6 в положении малого варианта. В некоторых вариантах осуществления положение малого варианта не находится в гомологичной области CYP2D6/CYP2D7, определение наиболее вероятной комбинации включает определение наиболее вероятной комбинации возможного количества копий малого варианта аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, суммированного с количеством копий гена CYP2D6 в положении малого варианта, учитывая (a) количество прочтений последовательностей, выровненных с геном CYP2D6, а не с геном CYP2D7, с основанием, которое содержит малый вариант аллеля гена CYP2D6 в положении малого варианта, и/ или (b) количество прочтений последовательностей, выровненных с геном CYP2D6, а не геном CYP2D7, с основанием, которое содержит эталонный аллель CYP2D6 в положении малого варианта. [0035] In some embodiments, the position of the minor variant is in the homologous region of CYP2D6 / CYP2D7 , determining the most likely combination includes determining the most likely combination of the possible copy number of the small variant allele of the CYP2D6 gene at the position of the minor variant and the possible number of copies of the reference allele of the CYP2D6 gene at the position of the small variant summed with the copy number of the CYP2D6 gene at the minor variant position, taking into account (a) the number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene with a base that contains the minor variant allele of the CYP2D6 gene at the minor variant position, and/or (b) the number sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene, with a base that contains the CYP2D6 reference allele at the minor variant position. In some embodiments, the minor variant position is not in the CYP2D6 / CYP2D7 homologous region, determining the most likely combination includes determining the most likely combination of the possible copy number of the minor variant allele of the CYP2D6 gene at the minor variant position and the possible copy number of the reference allele of the CYP2D6 gene at the minor variant position, summed with the number of copies of the CYP2D6 gene at the minor variant position, taking into account (a) the number of sequence reads aligned to the CYP2D6 gene, rather than the CYP2D7 gene, to the base that contains the small variant allele of the CYP2D6 gene at the minor variant position, and/or (b ) number of sequence reads aligned to the CYP2D6 gene rather than the CYP2D7 gene, with a base that contains the CYP2D6 reference allele at the minor variant position.

[0036] В некоторых вариантах осуществления способ включает определение количества копий гена CYP2D6 в положении малого варианта. Количество копий гена CYP2D6 в положении малого варианта может включать количество копий гена CYP2D6. Количество копий гена CYP2D6 в положении малого варианта может включать количество копий гена CYP2D6 из возможных количеств копий гена CYP2D6 наиболее вероятных определенных комбинаций. Количество копий гена CYP2D6 в положении малого варианта может включать количество копий гена CYP2D6 из возможных количеств копий гена CYP2D6 наиболее вероятных определенных комбинаций и расположены ближе всего к положению малого варианта. Количество копий гена CYP2D6 в положении малого варианта может включать количество копий гена CYP2D6 в 5’-положении или в 3’-положении от положения малого варианта. В некоторых вариантах осуществления данного изобретения способ включает: (a) определение количества прочтений последовательностей с основаниями, которые содержат малый вариант аллеля гена CYP2D6; и (b) определение количества прочтений последовательностей с основаниями, которые содержат эталонный аллель гена CYP2D6. [0036] In some embodiments, the method includes determining the copy number of the CYP2D6 gene at the minor variant position. The copy number of the CYP2D6 gene at the minor variant position may include the copy number of the CYP2D6 gene. The CYP2D6 gene copy number at the minor variant position may include the CYP2D6 gene copy number of the possible CYP2D6 gene copy numbers of the most likely specific combinations. The CYP2D6 gene copy number at the minor variant position may include the CYP2D6 gene copy number of the possible CYP2D6 gene copy numbers of the most likely specific combinations and located closest to the minor variant position. The number of copies of the CYP2D6 gene at the minor variant position may include the number of copies of the CYP2D6 gene at the 5' position or at the 3' position of the small variant position. In some embodiments of the present invention, the method includes: (a) determining the number of sequence reads with bases that contain a minor allele variant of the CYP2D6 gene; and (b) determining the number of sequence reads with bases that contain the reference allele of the CYP2D6 gene.

[0037] В некоторых вариантах осуществления определение аллеля гена CYP2D6 у субъекта включает: определение аллелей (например, 2, 3, 4, 5 или более аллелей) гена CYP2D6, имеющихся у субъекта. В некоторых вариантах осуществления определение аллеля гена CYP2D6, имеющегося у субъекта, включает: определение звездчатого аллеля и/или гаплотипа гена CYP2D6 у субъекта с использованием одного или нескольких определенных структурных вариантов гена CYP2D6, и/или один или более малых вариантов гена CYP2D6, при этом необязательно звездчатый аллель связан с известной функцией. [0037] In some embodiments, determining an allele of a CYP2D6 gene in a subject includes: determining alleles (eg, 2, 3, 4, 5 or more alleles) of the CYP2D6 gene present in the subject. In some embodiments, determining the allele of the CYP2D6 gene present in a subject includes: determining the star allele and/or haplotype of the CYP2D6 gene in the subject using one or more specific structural variants of the CYP2D6 gene, and/or one or more minor variants of the CYP2D6 gene, wherein the star allele is not necessarily associated with a known function.

[0038] В некоторых вариантах осуществления способ включает: определение уровня ферментативной активности CYP2D6 у субъекта с использованием определенного аллеля гена CYP2D6. Ферментативная активность может быть низкой, средней, нормальной или сверхбыстрой. В некоторых вариантах осуществления способ включает определение рекомендации по дозировке лечения и/или рекомендации по лечению субъекта на основании аллеля гена CYP2D6, имеющегося у субъекта. [0038] In some embodiments, the method includes: determining the level of CYP2D6 enzymatic activity in a subject using a specific allele of the CYP2D6 gene. Enzyme activity can be low, medium, normal or ultra-fast. In some embodiments, the method includes determining a treatment dosage recommendation and/or treatment recommendation for a subject based on the CYP2D6 gene allele present in the subject.

[0039] В данном документе описаны для генотипирования паралогов. В некоторых вариантах осуществления система генотипирования паралогов содержит: энергонезависимую память, выполненную с возможностью хранения исполняемых команд и данных секвенирования, содержащих множество прочтений последовательностей, полученных из образца от субъекта, выровненных с первым или вторым паралогом. Система может содержать: процессор (такой как аппаратный процессор или виртуальный процессор), обменивающийся данными с энергонезависимой памятью, причем процессор запрограммирован с помощью исполняемых команд для выполнения: определение количества копий паралогов первого типа с помощью модели смеси нормальных распределений, содержащей множество распределений, каждое из которых представляет другое целое количество копий, выраженное (i) первым количеством прочтений последовательностей, выровненных с первой областью. Аппаратный процессор, запрограммированный исполняемыми командами для выполнения: определения наиболее вероятной комбинации для одного из множества оснований, специфичных для паралога, из множества возможных комбинаций, каждая из которых содержит возможное количество копий первого паралога первого типа и возможное количество копий второго паралога первого типа, суммированное с количеством копий определенных паралогов первого типа, при заданном (a) количестве прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат основание специфическое для первого паралога, и (b) количестве прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат основание специфическое для второго паралога, соответствующее основанию специфическому для первого паралога. Аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения: определения количества копий или аллеля первого паралога с использованием наиболее вероятной комбинации возможного количества копий первого паралога и возможного количества копий второго паралога, определенного для основания специфического для первого паралога. В некоторых вариантах осуществления первый паралог и второй паралог имеют идентичность последовательности по меньшей мере 90%. [0039] Paralog genotyping is described herein. In some embodiments, the paralog genotyping system comprises: a non-volatile memory configured to store executable commands and sequencing data containing a plurality of sequence reads obtained from a sample from a subject aligned to a first or second paralog. The system may comprise: a processor (such as a hardware processor or virtual processor) communicating with non-volatile memory, the processor being programmed with executable instructions to perform: determining the number of copies of paralogs of the first type using a mixture of normal distributions model containing a plurality of distributions, each of which represents another integer copy number expressed by (i) the first number of sequence reads aligned to the first region. A hardware processor programmed with executable instructions to: determine the most likely combination for one of a plurality of paralog-specific bases from a plurality of possible combinations, each containing a possible number of copies of a first paralog of the first type and a possible number of copies of a second paralog of the first type, summed with the number of copies of certain paralogs of the first type, given (a) the number of sequence reads from the set of sequence reads with bases that contain a base specific to the first paralog, and (b) the number of sequence reads from the set of sequence reads with bases that contain a base specific to the second paralog corresponding to a base specific to the first paralogue. The hardware processor is programmed through executable instructions to: determine the copy number or allele of the first paralog using the most likely combination of the possible copy number of the first paralog and the possible copy number of the second paralog determined for the base specific to the first paralog. In some embodiments, the first paralog and the second paralog have at least 90% sequence identity.

[0040] В некоторых вариантах осуществления аппаратный процессор с помощью исполняемых команд для выполнения: определения (i) первого количества прочтений последовательности из множества прочтений последовательностей в данных секвенирования, полученных из образца от субъекта, выровненных с первой областью. Способ может включать: определение (i) первого нормализованного количества прочтений последовательностей, выровненных с первой областью, с использованием (i) длины первой области, причем определение количества копий паралогов первого типа включает: определение количества копий паралогов первого типа с использованием модели смеси нормальных распределений, заданной (i) первым нормализованным количеством прочтений последовательностей, выровненных с первой областью. Аппаратный процессор может быть запрограммирован с помощью исполняемых команд для выполнения: может включать: прием данных секвенирования, содержащих множество прочтений последовательностей, выровненных с первой областью. [0040] In some embodiments, a hardware processor, through executable instructions, to: determine (i) a first number of sequence reads from a plurality of sequence reads in sequencing data obtained from a sample from a subject aligned to the first region. The method may include: determining (i) a first normalized number of sequence reads aligned to the first region using (i) the length of the first region, wherein determining the copy number of the first type of paralogs includes: determining the copy number of the first type of paralog using a mixture normal distribution model, given by (i) the first normalized number of sequence reads aligned to the first region. The hardware processor may be programmed using executable instructions to perform: may include: receiving sequencing data containing a plurality of sequence reads aligned to the first region.

[0041] В некоторых вариантах осуществления аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения: определения количества копий одного или более паралогов второго типа с использованием смеси нормальных распределений, заданной (ii) вторым количеством прочтений последовательностей, выровненных со второй областью. Определение количества копий или аллеля первого паралога может включать: определение количества копий или аллеля первого паралога с использованием наиболее вероятной комбинации возможного количества копий первого паралога и возможного количества копий второго паралога, определенного для основания, специфического для первого паралога, и количества копий одного или более паралогов второго типа. Способ может включать: определение количества копий паралогов третьего типа по количеству копий паралогов первого типа и количеству копий паралогов второго типа. Определение количества копий или аллеля первого паралога включает: определение количества копий или аллеля первого паралога с помощью наиболее вероятной комбинации возможного количества копий первого паралога и возможного количества копий второго паралога, определенного для основания, специфического для первого паралога, [0041] In some embodiments, the hardware processor is programmed, through executable instructions, to: determine the copy number of one or more second type paralogs using a mixture of normal distributions defined by (ii) a second number of sequence reads aligned to the second region. Determining the copy number or allele of the first paralog may include: determining the copy number or allele of the first paralog using the most likely combination of the possible copy number of the first paralog and the possible copy number of the second paralog, determined for the base specific to the first paralog, and the copy number of one or more paralogs second type. The method may include: determining the number of copies of the third type of paralogs from the number of copies of the first type of paralogs and the number of copies of the second type of paralogs. Determining the copy number or allele of the first paralog includes: determining the copy number or allele of the first paralog using the most likely combination of the possible copy number of the first paralog and the possible copy number of the second paralog, determined for the base specific to the first paralog,

[0042] В некоторых вариантах осуществления первым паралогом является ген выживания моторных нейронов 1 (SMN1). Вторым паралогом может быть ген выживания моторных нейронов 2 (SMN2). Первая область может содержать по меньшей мере один экзон от 1 до 6 гена SMN1 и по меньшей мере один экзон от 1 до 6 гена SMN2. Вторая область может содержать по меньшей мере экзон 7 или 8 гена SMN1 и по меньшей мере один из экзон 7 или 8 гена SMN2. Паралоги первого типа могут включать интактный ген SMN1 и интактный ген SMN2. Один или более паралогов второго типа могут включать интактный ген SMN1, интактный ген SMN2, укороченный ген SMN1 или укороченный ген SMN2. Количество копий первого паралога может включать количество копий гена SMN1. [0042] In some embodiments, the first paralogue is the survival motor neuron 1 ( SMN1 ) gene. The second paralog may be the survival motor neuron 2 ( SMN2 ) gene. The first region may comprise at least one exon 1 to 6 of the SMN1 gene and at least one exon 1 to 6 of the SMN2 gene. The second region may comprise at least exon 7 or 8 of the SMN1 gene and at least one of exon 7 or 8 of the SMN2 gene. The first type of paralogues may include an intact SMN1 gene and an intact SMN2 gene. One or more type two paralogs may include an intact SMN1 gene, an intact SMN2 gene, a truncated SMN1 gene, or a truncated SMN2 gene. The copy number of the first paralog may include the copy number of the SMN1 gene.

[0043] В некоторых вариантах осуществления первый паралог представляет собой ген члена 6 подсемейства D семейства 2 цитохрома P450 (CYP2D6). Вторым паралогом может быть ген члена 7 подсемейства D семейства 2 цитохрома P450 (CYP2D7). Первая область может содержать ген CYP2D6 и ген CYP2D7. Вторая область может содержать спейсерную область между геном CYP2D7 и повторяющимся элементом REP7 ниже гена CYP2D7. Паралоги первого типа могут содержать ген CYP2D6 и ген CYP2D7. Один или более паралогов второго типа могут содержать слитый аллель CYP2D6/CYP2D7 с спейсерной областью и повторяющимся элементом REP7 ниже слитого аллеля CYP2D6/CYP2D7. Количество копий первого паралога может содержать аллель гена CYP2D6, имеющегося у субъекта, который представляет собой малый вариант или структурный вариант гена CYP2D6. [0043] In some embodiments, the first paralog is a cytochrome P450 family 2 subfamily D member 6 gene ( CYP2D6 ). The second paralog may be the cytochrome P450 family 2 subfamily D member 7 gene ( CYP2D7 ). The first region may contain the CYP2D6 gene and the CYP2D7 gene. The second region may contain a spacer region between the CYP2D7 gene and the REP7 repeat element downstream of the CYP2D7 gene. Paralogues of the first type may contain the CYP2D6 gene and the CYP2D7 gene. One or more type two paralogues may contain a CYP2D6 / CYP2D7 fusion allele with a spacer region and a REP7 repeat element downstream of the CYP2D6/CYP2D7 fusion allele. The copy number of the first paralog may contain an allele of the CYP2D6 gene present in the subject that is a minor variant or structural variant of the CYP2D6 gene.

[0044] В данном документе описаны варианты осуществления системы (например, компьютерной системы), содержащей энергонезависимую память, выполненную с возможностью хранения исполняемых команд; и процессора (например, аппаратный процессор или виртуальный процессор), находящийся в соединении с энергонезависимой памятью, причем аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения любого способа, описанного в данном документе. Описанные в данном документе варианты осуществления устройства (например, электронного устройства), содержащего энергонезависимую память, выполненную с возможностью хранения исполняемых команд; и процессора (например, аппаратный процессор или виртуальный процессор), находящийся в соединении с энергонезависимой памятью, причем аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения любого способа, описанного в данном документе. Описанные в данном документе варианты осуществления машиночитаемого носителя, содержащего исполняемые команды, которые при исполнении процессором (например, аппаратным процессором или виртуальным процессором) системы или устройства приводят к выполнению аппаратным процессором любого способа, описанного в данном документе. [0044] Described herein are embodiments of a system (eg, a computer system) comprising non-volatile memory configured to store executable instructions; and a processor (eg, a hardware processor or a virtual processor) in connection with the non-volatile memory, the hardware processor being programmed by executable instructions to perform any method described herein. Described herein are embodiments of a device (eg, an electronic device) comprising non-volatile memory configured to store executable instructions; and a processor (eg, a hardware processor or a virtual processor) in connection with the non-volatile memory, the hardware processor being programmed by executable instructions to perform any method described herein. Embodiments described herein are computer-readable media comprising executable instructions that, when executed by a processor (e.g., a hardware processor or virtual processor) of a system or device, cause the hardware processor to execute any method described herein.

[0045] Подробное описание одного или более вариантов осуществления представлено в приведенных ниже сопроводительных графических материалах и описании. Прочие признаки, аспекты и преимущества станут очевидными из описания, рисунков и формулы изобретения. Ни это краткое изложение, ни последующее подробное описание не претендуют на определение или ограничение объема изобретения. [0045] A detailed description of one or more embodiments is provided in the accompanying drawings and description below. Other features, aspects and advantages will become apparent from the description, drawings and claims. Neither this summary nor the following detailed description is intended to define or limit the scope of the invention.

Краткое описание графических материаловBrief description of graphic materials

[0046] На ФИГ. 1A-1E представлены пояснения определения количества копий SMA и SMN в соответствии с одним вариантом осуществления способа, описанного в данном документе. [0046] In FIG. 1A-1E provide explanations for determining the copy number of SMA and SMN in accordance with one embodiment of the method described herein.

[0047] На ФИГ. 2A-2C показаны распределения популяции количества копий SMN1/2, определенные с помощью одного варианта осуществления способа, описанного в данном документе. [0047] In FIG. 2A-2C show SMN1/2 copy number population distributions determined using one embodiment of the method described herein.

[0048] На ФИГ. 3 показан показатель SMA, идентифицированный в двух тройках в проекте Next Generation Children и подтвержденный с помощью MLPA. [0048] In FIG. Figure 3 shows the SMA identified in two triplets in the Next Generation Children project and validated using MLPA.

[0049] На ФИГ. 4 показаны частоты популяций, определенные с использованием одного варианта осуществления способа, описанного в данном документе, согласованного с предыдущими исследованиями. [0049] In FIG. 4 shows population frequencies determined using one embodiment of the method described herein, consistent with previous studies.

[0050] На ФИГ. 5 показан неограничивающий пример IGV снимка, показывающий, что CYP2D6 является высокополиморфным и расположен после CYP2D7, псевдогенного паралога CYP2D6. [0050] In FIG. 5 shows a non-limiting example of an IGV snapshot showing that CYP2D6 is highly polymorphic and is located downstream of CYP2D7 , a pseudogenic paralog of CYP2D6 .

[0051] На ФИГ. 6 показан неограничивающий пример схематической иллюстрации делеций, дупликаций и слитых генов CYP2D6/7. [0051] In FIG. 6 shows a non-limiting example of a schematic illustration of deletions, duplications and fusions of the CYP2D6 /7 genes.

[0052] На ФИГ. 7 показан неограничивающий пример графика, показывающего, что аллельные частоты, определенные способом, согласуются с базой данных PharmVar Database Pharmacogene Variation (PharmVar) Consortium. [0052] In FIG. 7 is a non-limiting example of a plot showing that allelic frequencies determined by the method are consistent with the PharmVar Database Pharmacogene Variation (PharmVar) Consortium.

[0053] На ФИГ. 8 представлена блок-схема, показывающая пример способа определения количества копий гена выживания моторных нейронов 1 (SMN1) с использованием данных секвенирования. [0053] In FIG. 8 is a flow diagram showing an example of a method for determining the copy number of the survival motor neuron 1 ( SMN1 ) gene using sequencing data.

[0054] На ФИГ. 9 представлена блок-схема, показывающая пример способа генотипирования гена члена 6 подсемейства D семейства 2 цитохрома P450 (CYP2D6) с использованием данных секвенирования. [0054] In FIG. 9 is a flow diagram showing an example of a method for genotyping the cytochrome P450 family 2 subfamily D member 6 ( CYP2D6 ) gene using sequencing data.

[0055] На ФИГ. 10 представлена блок-схема, показывающая пример способа генотипирования паралога с использованием данных секвенирования. [0055] In FIG. 10 is a flow diagram showing an example of a method for genotyping a paralog using sequencing data.

[0056] На ФИГ. 11 представлена блок-схема иллюстративной вычислительной системы, выполненной с возможностью реализации генотипирования паралога с использованием данных секвенирования. [0056] In FIG. 11 is a block diagram of an exemplary computing system configured to implement paralog genotyping using sequencing data.

[0057] На ФИГ. 12A и 12B показаны неограничивающие примеры графиков, иллюстрирующих общие ВКК, влияющие на локусы SMN1/SMN2. На ФИГ. 12A представлены профили глубины в областях SMN1/SMN2. Образцы с общим количеством копий SMN1+SMN2 2, 3, 4 и 5 показаны точками соответственно. Для каждой категории количества копий суммируют глубину 50 образцов. Каждая точка представляет нормированные значения глубины в окне длиной 100 п. н. Количество прочтений рассчитывали в каждом окне длиной 100 п. н., суммировали показания для SMN1 и SMN2 и нормализовали по глубине образцов дикого типа (CN=4). Экзоны SMN представлены в виде пурпурных прямоугольников. Две оси x показывают координаты в SMN1 (внизу) и SMN2 (вверху). На ФИГ. 12B показаны профили глубины, объединенные из 50 образцов, несущих делецию экзонов 7 и 8, показаны в виде точек. Значения глубины прочтения рассчитывали таким же образом, как показано на ФИГ. 12A. [0057] In FIG. 12A and 12B show non-limiting example graphs illustrating common ICCs affecting the SMN1 / SMN2 loci. In FIG. 12A shows depth profiles in the SMN1/SMN2 regions. Samples with total SMN1 + SMN2 copy numbers of 2, 3, 4, and 5 are shown as dots, respectively. For each copy number category, the depth of 50 samples is summed. Each point represents normalized depth values in a 100-bp window. Read counts were calculated in each 100-bp window, the reads for SMN1 and SMN2 were summed, and normalized to the depth of the wild-type samples (CN=4). SMN exons are represented as magenta boxes. The two x-axes show the coordinates in SMN1 (bottom) and SMN2 (top). In FIG. 12B shows depth profiles pooled from 50 samples carrying deletions of exons 7 and 8, shown as dots. Read depth values were calculated in the same manner as shown in FIG. 12A.

[0058] На ФИГ. 13 показан неограничивающий пример диаграммы рассеяния общего количества копий SMN (SMN1+SMN2) (ось X, обозначает глубину прочтения экзонов 1-6) и количества копий интактного SMN (ось y, обозначает глубину прочтения экзонов 7-8). [0058] In FIG. 13 shows a non-limiting example of a scatterplot of total SMN copy number ( SMN1 + SMN2 ) (x-axis, denotes read depth of exons 1-6) and intact SMN copy number (y-axis, denotes read depth of exons 7-8).

[0059] На ФИГ. 14A-14D показаны распределения количества копий SMN1/SMN2/SMN* в популяции. На ФИГ. 14A представлен неограничивающий пример иллюстративного графика, иллюстрирующий процентную долю образцов, показывающих согласование определения количества копий с c.840C>T по 16 сайтам различия оснований SMN1-SMN2 в африканских и неафриканских популяциях. Сайт 13* представляет собой сплайс-вариантный сайт c.840C>Т. Черной горизонтальной линией обозначено 85% совпадения. На ФИГ. 14B показаны неограничивающие примеры гистограмм распределений количества копий SMN1, SMN2 и SMN* по пяти популяциям в 1kGP и когорте NIHR BioResource (числа приведены в таблице 15). На ФИГ. 14C показан неограничивающий пример графика зависимости количества копий SMN1 от общего количества копий SMN2 (интактный SMN2 + SMN*). На ФИГ. 14D показаны два трио с пробандом SMA, обнаруженным специалистом и ортогонально подтвержденным в когорте NIHR BioResource. Количество копий на аллель SMN1, SMN2 и SMN* фазировано и помечено для каждого члена трио. [0059] In FIG. 14A-14D show the copy number distributions of SMN1 / SMN2 / SMN * in the population. In FIG. 14A is a non-limiting example of an illustrative graph illustrating the percentage of samples showing copy number assignment agreement with c.840C>T across 16 SMN1-SMN2 base difference sites in African and non-African populations. Site 13* is a splice variant site c.840C>T. The black horizontal line indicates 85% agreement. In FIG. 14B shows non-limiting examples of histograms of copy number distributions of SMN1 , SMN2 and SMN* across five populations in the 1kGP and NIHR BioResource cohort (numbers given in Table 15). In FIG. 14C shows a non-limiting example of a plot of SMN1 copy number versus total SMN2 copy number (intact SMN2 + SMN* ). In FIG. Figure 14D shows two trios with an SMA proband identified by a specialist and orthogonally confirmed in the NIHR BioResource cohort. The copy numbers per allele of SMN1 , SMN2 , and SMN* are phased and labeled for each member of the trio.

[0060] На ФИГ. 15 показаны неограничивающие примеры графиков, каждый из которых иллюстрирует распределение апостериорной вероятности для моделирования количества копий SMN1 с использованием одного сайта при разных глубинах прочтения и комбинаций количества копий SMN1:SMN2 [0060] In FIG. Figure 15 shows non-limiting example plots, each illustrating the posterior probability distribution for modeling SMN1 copy number using a single site at different read depths and SMN1:SMN2 copy number combinations.

[0061] На ФИГ. 16 показан неограничивающий пример IGV снимка области SMN2 в образце с делецией в экзоне 7-8. Горизонтальные линии соединяют два прочтения в пару на центральной дорожке выравнивания. Результаты BLAT для двух разделенных прочтений, охватывающих точку разрыва, показаны в нижней дорожке, показывая два сегмента одного и того же выравнивания для прочтения с каждой стороны от точки разрыва делеции. [0061] In FIG. 16 shows a non-limiting example of an IGV snapshot of the SMN2 region in a sample with a deletion in exon 7-8. Horizontal lines pair two reads on the central alignment track. BLAT results for two split reads spanning the breakpoint are shown in the bottom track, showing two segments of the same alignment for the read on either side of the deletion breakpoint.

[0062] На ФИГ. 17 показаны неограничивающие примеры графиков, иллюстрирующих корреляцию между необработанными количествами копий SMN1 при 15 различиях оснований вблизи с840.C>T и необработанными количествами копий SMN1 на сайте с840.C>T. Необработанное количество копий SMN1 в каждом сайте рассчитывали как количество копий интактного SMN, умноженное на долю SMN1, поддерживающие количество прочтений SMN1 + SMN2 из количества прочтений. Коэффициенты корреляции приведены в заголовке каждого графика. [0062] In FIG. 17 shows non-limiting examples of graphs illustrating the correlation between raw SMN1 copy numbers at 15 base differences near c840.C>T and raw SMN1 copy numbers at the c840.C>T site. The raw copy number of SMN1 at each site was calculated as the copy number of intact SMN multiplied by the fraction of SMN1 supporting the number of SMN1 + SMN2 reads from the number of reads. Correlation coefficients are given in the header of each graph.

[0063] На ФИГ. 18A и 18B показаны неограничивающие примеры графиков с гаплотипами SMN1/SMN2 в образцах с SMN1: 2 SMN2: 0 и SMN1: 2 SMN2: 1 в 1kGP. По оси y показаны необработанные количества копий SMN1, как показано на ФИГ. 16. По оси X показаны 16 сайтов, индексы которых перечислены и объяснены в таблице 8. Индекс № 13 представляет сайт c840.C>T. Образцы с SMN1:2 SMN2: 0 показаны вместе на верхнем левом графике. Образцы с SMN1:2 SMN2:1 показаны в виде 5 кластеров. ФИГ. 18A Неафриканская популяция ФИГ. 18B Африканская популяция [0063] In FIG. 18A and 18B show non-limiting examples of SMN1 / SMN2 haplotype plots in samples with SMN1 :2 SMN2 :0 and SMN1 :2 SMN2 :1 in 1kGP. The y-axis shows the raw copy numbers of SMN1 as shown in FIG. 16. The X-axis shows the 16 sites, the indexes of which are listed and explained in Table 8. Index #13 represents the site c840.C>T. Samples with SMN1: 2 SMN2 :0 are shown together in the top left graph. Samples with SMN1 :2 SMN2 :1 are shown as 5 clusters. FIG. 18A Non-African Population FIG. 18B African population

[0064] На ФИГ. 19 показан неограничивающий пример IGV снимка, показывающего делецию 1,9 т. п. н. в SMN1 в MB509. [0064] In FIG. 19 shows a non-limiting example of an IGV snapshot showing a 1.9 kb deletion. in SMN1 in MB509.

[0065] На ФИГ. 20 показан неограничивающий иллюстративный график, иллюстрирующий количество копий SMN1/SMN2/SMN* в когортах 1kGP и NIHR. [0065] In FIG. 20 is a non-limiting illustrative graph illustrating SMN1/SMN2 /SMN* copy numbers in the 1kGP and NIHR cohorts.

[0066] На ФИГ. 21A и 21B показаны расхождения и отсутствие определений в проверочных выборках. [0066] In FIG. 21A and 21B show discrepancies and missing determinations in the test samples.

[0067] На ФИГ. 22 представлены определения количества копий, полученные из BWA и Isaac BAM. [0067] In FIG. 22 shows copy number determinations obtained from BWA and Isaac BAM.

[0068] На ФИГ. 23 представлен неограничивающий пример графика, на котором показано качество данных WGS в области CYP2D6/7. Среднее качество картирования для выборок 1kGP нанесено на график для каждого положения в области CYP2D6/7. В окне длиной 200 п. о. применяют медианный фильтр. REP6, REP7 и экзоны 9 CYP2D6/7 показаны в виде прямоугольников слева (CYP2D6) и справа (CYP2D7). Две области повтора длиной 2,8 т. п. н. ниже CYP2D6 (REP6) и CYP2D7 (REP7) идентичны и по существу несовместимы. Пунктирной рамкой обозначена область спейсера между CYP2D7 и REP7. Две основные гомологичные области в генах заштрихованы. [0068] In FIG. 23 is a non-limiting example plot showing the quality of WGS data in the CYP2D6 /7 region. The average mapping quality for the 1kGP samples is plotted for each position in the CYP2D6 /7 region. In a window 200 bp long. a median filter is used. REP6, REP7, and CYP2D6 /7 exons 9 are shown as boxes on the left ( CYP2D6 ) and right ( CYP2D7 ). Two 2.8 kb repeat regions. downstream, CYP2D6 (REP6) and CYP2D7 (REP7) are identical and essentially incompatible. The dotted frame indicates the spacer region between CYP2D7 and REP7. The two major homologous regions in the genes are shaded.

[0069] На ФИГ. 24 показаны структурные варианты, подтвержденные прочтением PacBio CCS. Прочтение PacBio подтверждает делецию (*5), дупликацию и слияние (*36, *68 и *13). Графики получали с использованием sv-viz2 (zotero.org/google-docs/?xAunA6). Для делеций и дупликаций из-за значительной гомологии в регионах REP точное положение точек разрыва в REP недоступно. Точки разрыва в А и В приведены только для иллюстрации. [0069] In FIG. Figure 24 shows structural variants confirmed by PacBio CCS reads. PacBio reads confirm deletion (*5), duplication, and fusion (*36, *68, and *13). Graphs were generated using sv-viz2 (zotero.org/google-docs/?xAunA6). For deletions and duplications, due to significant homology in the REP regions, the exact location of the breakpoints in the REP is not available. The break points in A and B are for illustration purposes only.

[0070] На ФИГ. 25 показан неограничивающий пример графика, на котором показаны частоты аллелей CYP2D6 для пяти этнических популяциях для десяти наиболее распространенных гаплотипов с измененной функцией CYP2D6. Один гаплотип (*2x2) характеризуются повышенной функцией, два гаплотипа (*4 и *4 + *68) - отсутствием функции, а остальные гаплотипы - сниженной функцией. [0070] In FIG. 25 shows a non-limiting example plot showing CYP2D6 allele frequencies for five ethnic populations for the ten most common CYP2D6 altered function haplotypes. One haplotype (*2x2) is characterized by increased function, two haplotypes (*4 and *4 + *68) by lack of function, and the remaining haplotypes by decreased function.

[0071] На ФИГ. 26 показано, что сайты из различием оснований CYP2D6/CYP2D7 отличаются высокой вариабельностью в популяции. На оси y показана частота образцов, в которых CN для основания CYP2D6 определены в 2 из всех образцов, имеющих общее CN CYP2D6 + CYP2D7, равное 4. По оси X показаны координаты генома в hg38. Экзоны CYP2D6 показаны серыми прямоугольниками над графиком. Черной горизонтальной линией обозначено отсечение 98%. [0071] In FIG. 26 shows that sites of CYP2D6 / CYP2D7 base differences are highly variable in the population. The y-axis shows the frequency of samples in which the CN for the CYP2D6 base is identified in 2 of all samples having a total CYP2D6 + CYP2D7 CN of 4. The x-axis shows the genome coordinates in hg38. CYP2D6 exons are shown as gray boxes above the graph. The black horizontal line indicates the 98% cutoff.

[0072] На ФИГ. 27 показаны необработанные CNCYP2D6 в сайтах дифференцировки CYP2D6/7 в примерах с SV. Необработанные CN CYP2D6 рассчитывали как общее CN CYP2D6+CYP2D7, умноженное на соотношение CYP2D6 поддерживающих прочтений из CYP2D6 и CYP2D7 поддерживающих прочтений. Большой ромб обозначает количество копий генов, полученных из CYP2D6 на конце гена (может представлять собой полный ген CYP2D6 или слитый ген, заканчивающийся CYP2D6), вычисленное как общее CN CYP2D6+CYP2D7 минус CN спейсерной области CYP2D7 (см. ФИГ. 23). Для обнаружения SV в каждом сайте определяли CN CYP2D6, и изменение CN CYP2D6 в гене указывало на присутствие SV. Например, в HG01161 CN CYP2D6 изменился с 2 на 1 между экзоном 7 и экзоном 9, что указывает на гибридный ген CYP2D7-CYP2D6. В HG00553 CN CYP2D6 изменилось с 2 на 3 между экзоном 1 и экзоном 2, что указывает на гибридный ген CYP2D6-CYP2D7. [0072] In FIG. Figure 27 shows unprocessed CYP2D6 CNs at CYP2D6/7 differentiation sites in SV examples. Raw CYP2D6 CNs were calculated as the total CYP2D6+CYP2D7 CNs multiplied by the ratio of CYP2D6 supporting reads from CYP2D6 to CYP2D7 supporting reads. The large diamond indicates the number of copies of genes derived from CYP2D6 at the end of the gene (can be a complete CYP2D6 gene or a fusion gene ending with CYP2D6 ), calculated as the total CN of CYP2D6+CYP2 D7 minus the CN of the CYP2D7 spacer region (see FIG. 23). To detect SV, the CN of CYP2D6 was determined at each site, and the change in CN of CYP2D6 in the gene indicated the presence of SV. For example, in HG01161, CN CYP2D6 changed from 2 to 1 between exon 7 and exon 9, indicating a CYP2D7-CYP2D6 hybrid gene. In HG00553, CN CYP2D6 changed from 2 to 3 between exon 1 and exon 2, indicating a CYP2D6-CYP2D7 hybrid gene.

[0073] На ФИГ. 28 показано, что данные PacBio подтверждают слияние *10D в HG00421. Для сравнения показан образец с *36 (HG00612). прочтения PacBio, содержащие слияния, это прочтения с заштрихованными основаниями, основаниями, которые представляют собой программное сшивание, сделанное выравнивателем, и были получены из части слияния CYP2D7. Точки разрыва слияний близки друг к другу, но точка разрыва для *36 расположена выше от различий оснований в экзоне 9 (находящихся внутри черного блока), а точка разрыва для *10D расположена ниже, оставляя ген CYP2D6 интактным. [0073] In FIG. 28 shows that PacBio data support the *10D fusion in HG00421. For comparison, a sample with *36 (HG00612) is shown. PacBio reads containing fusions are reads with shaded bases, bases that represent a software cross-link made by the aligner and were derived from part of the CYP2D7 fusion. The fusion breakpoints are close to each other, but the breakpoint for *36 is located upstream of the base differences in exon 9 (located within the black block), and the breakpoint for *10D is located downstream, leaving the CYP2D6 gene intact.

[0074] На ФИГ. 29 показано, что данные PacBio имели ложный *61 (гибрид CYP2D6/CYP2D7), полученный Aldy в HG02622. Ожидаемый генотип представлял собой *17/*45, но Aldy вызвал *61-подобный/*78 (оба *61 и *78 представляют собой звездчатые аллели с SV). Данные PacBio показали отсутствие структурного варианта в этой области (каждое прочтение полностью выровнено, без каких-либо мягких сшиваний, указывающих на не выровненные части). [0074] In FIG. 29 shows that the PacBio data had a false *61 ( CYP2D6 / CYP2D7 hybrid) produced by Aldy in HG02622. The expected genotype was *17/*45, but Aldy called *61-like/*78 (both *61 and *78 are star alleles with SV). The PacBio data showed no structural variant in this region (each read was fully aligned, with no soft stitches indicating unaligned parts).

[0075] На ФИГ. 30A и 30B показан новый гаплотип *10+*36+*36+*83 в HG00597. ФИГ. 30A График глубины, представленный на ФИГ. 27, показывает, что HG00597 имел три копии *36-подобных слияний, все из которых имели точку разрыва в гомологичной области между экзоном 7 и экзоном 9. ФИГ. 30B снимок экрана IGV с данными PacBio, демонстрирующий все прочтения, содержащие слияния, то есть те, которые выровнены мягким сшиванием. Одна копия слитого гена не имела g.42130692G>A, SNP, который находился в *36, но не в *83, как показано в области, фланкированной двумя черными вертикальными линиями. Эта копия была *83, и в отличие от того, что сообщалось в PharmVar, это был гибридный ген с REP7, а не с REP6, в противном случае количество копий области ниже экзона 9 было бы равно 3 вместо 2 на ФИГ. 30A. [0075] In FIG. 30A and 30B show the new haplotype *10+*36+*36+*83 in HG00597. FIG. 30A The depth chart shown in FIG. 27 shows that HG00597 had three copies of *36-like fusions, all of which had a breakpoint in the homologous region between exon 7 and exon 9. FIG. 30B screenshot of IGV data from PacBio showing all reads containing fusions, i.e. those aligned by soft stitching. One copy of the fusion gene lacked g.42130692G>A, a SNP that was located at *36 but not at *83, as shown in the region flanked by the two black vertical lines. This copy was *83, and unlike what was reported in PharmVar, it was a fusion gene with REP7 rather than REP6, otherwise the copy number of the region downstream of exon 9 would have been 3 instead of 2 in FIG. 30A.

[0076] На ФИГ. 31A и 31B сравнивали частоты 1kGP и pharmGKB. Каждая точка представляет гаплотип с частотой, которая больше или равна 0,5% либо в 1kGP, либо в pharmGKB. Отмечены связанные с SV гаплотипы, включая два гаплотипа с наибольшим отклонением (*10+*36 у жителей Восточной Азии и *4+*68 у европейцев). Другие гаплотипы с отклоненными значениями помечены (*2, *41, *34, *39, *2 и *29). Для каждой панели проводят диагональную линию. Коэффициенты корреляции приведены для каждой популяции (*10+*36 исключено для жителей Восточной Азии и *4+*68 исключено для европейцев для расчета). На ФИГ. 31B показаны значения в нижнем диапазоне значений (<5%). [0076] In FIG. 31A and 31B compared the frequencies of 1kGP and pharmGKB. Each dot represents a haplotype with a frequency that is greater than or equal to 0.5% in either 1kGP or pharmGKB. SV-associated haplotypes were noted, including the two haplotypes with the greatest deviation (*10+*36 in East Asians and *4+*68 in Europeans). Other haplotypes with deviant values are labeled (*2, *41, *34, *39, *2, and *29). A diagonal line is drawn for each panel. Correlation coefficients are given for each population (*10+*36 excluded for East Asians and *4+*68 excluded for Europeans for calculation). In FIG. 31B shows values in the lower range of values (<5%).

[0077] На ФИГ. 32 показан неограничивающий пример снимка IGV, показывающий сборку de novo результатов прочтения PacBio в HG00733, не включающую слияние *68. [0077] In FIG. 32 shows a non-limiting example of an IGV snapshot showing de novo assembly of PacBio reads into HG00733 not including the *68 fusion.

[0078] На всех чертежах ссылочные номера можно использовать повторно для указания соответствия между элементами ссылки. Рисунки представлены для иллюстрации примеров осуществления, описанных в данном документе, и не предназначены для ограничения объема описания. [0078] Throughout the drawings, reference numbers may be reused to indicate correspondence between reference elements. The drawings are presented to illustrate the embodiments described herein and are not intended to limit the scope of the description.

Подробное описание сущности изобретенияDetailed description of the invention

[0079] В приведенном ниже подробном описании содержатся ссылки на соответствующие рисунки, которые являются частью настоящего документа. В графических материалах аналогичные символы, как правило, обозначают аналогичные компоненты, если иное не следует из контекста. Предполагается, что иллюстративные варианты осуществления, описанные в подробном описании, графических материалах и пунктах формулы изобретения, не имеют ограничительного характера. Допускается использовать другие варианты осуществления и вносить другие изменения без отступления от сущности или объема заявленного объекта изобретения, представленного в настоящем документе. Следует понимать, что аспекты данного описания, в общем и целом представленные в данном документе и проиллюстрированные на фигурах, можно перераспределять, заменять, комбинировать, разделять и конструировать в широком спектре различных конфигураций, все из которых явным образом предусмотрены данным описанием и являются частью описания в данном документе. [0079] The following detailed description contains references to related drawings that form a part of this document. In graphic materials, similar symbols generally indicate similar components unless the context otherwise requires. The illustrative embodiments described in the detailed description, drawings and claims are not intended to be limiting. Other embodiments and other changes may be used without departing from the spirit or scope of the claimed subject matter presented herein. It should be understood that aspects of this specification generally set forth herein and illustrated in the figures may be rearranged, substituted, combined, separated, and constructed in a wide variety of different configurations, all of which are expressly contemplated herein and are part of the specification in this document.

[0080] Все патенты, опубликованные заявки на патенты, другие публикации и последовательности из GenBank и других баз данных, упомянутые в данном документе, полностью включены в данный документ посредством ссылки в отношении соответствующей технологии. [0080] All patents, published patent applications, other publications and sequences from GenBank and other databases mentioned herein are incorporated herein by reference in their entirety with respect to the relevant technology.

[0081] В данном документе описаны способы определения количества копий гена выживания моторных нейронов 1 (SMN1) и/или гена выживания моторных нейронов 2 (SMN2). В некоторых вариантах осуществления способ определения количества копий гена SMN1 и/или гена SMN2 контролируется процессором (таким как аппаратный процессор или виртуальный процессор) и включает: получение данных секвенирования, содержащих множество прочтений последовательностей из образца от субъекта, выровненных с геном SMN1 или геном SMN2. Способ может включать: определение (i) первого количества прочтений последовательности из множества прочтений последовательностей, выровненных по первому участку гена SMN1 или SMN2, содержащим по меньшей мере один из первых 6 экзонов гена SMN1 или гена SMN2 соответственно, и (ii) второго количества прочтений последовательности из множества прочтений последовательностей, выровненных по второму участку SMN1 или SMN2, содержащим по меньшей мере экзон 7 или экзон 8 гена SMN1 или гена SMN2 соответственно. Способ может включать: определение (i) первого нормализованного количества прочтений последовательности, выровненной по первой области гена SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненной по второй области SMN1 или SMN2, с применением (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2 соответственно. Способ может включать: определение (i) количества копий полноразмерных генов выживания моторных нейронов (SMN), каждый из которых является интактным геном SMN1, интактным геном SMN2, укороченным геном SMN1 или укороченным геном SMN2; и (ii) количества копий любых интактных генов SMN, каждый из которых является интактным геном SMN1 или интактным геном SMN2, с использованием модели смеси нормальных распределений, содержащей множество нормальных распределений, каждое из которых представляет разное целое количество копий, с учетом (i) первого нормализованного количества прочтений последовательности, выровненной по первой области SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненной по второй области SMN1 или SMN2, соответственно. Способ может включать: для одного множества специфичных для гена SMN1 оснований, связанных с интактным геном SMN1, определение наиболее вероятной комбинации из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, суммированное с количеством копий любых определенных интактных генов SMN, учитывая (a) количество прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат основание, специфичное для гена SMN1, и (b) количество прочтений последовательностей из множества прочтений последовательности с основаниями, которые содержат специфическое для гена SMN2 основание гена SMN2, соответствующее специфическому для гена SMN1 основанию. Способ может включать: определение количества копий гена SMN1 и/или гена SMN2 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенного для специфического для гена SMN1 основания. [0081] Described herein are methods for determining the copy number of the survival motor neuron 1 ( SMN1 ) gene and/or survival motor neuron 2 ( SMN2 ) gene. In some embodiments, a method for determining the copy number of the SMN1 gene and/or the SMN2 gene is controlled by a processor (such as a hardware processor or virtual processor) and includes: obtaining sequencing data comprising a plurality of sequence reads from a sample from a subject aligned to the SMN1 gene or the SMN2 gene. The method may include: determining (i) a first number of sequence reads from a plurality of sequence reads aligned to a first region of the SMN1 or SMN2 gene containing at least one of the first 6 exons of the SMN1 gene or the SMN2 gene, respectively, and (ii) a second number of sequence reads from a plurality of sequence reads aligned to a second region of SMN1 or SMN2 containing at least exon 7 or exon 8 of the SMN1 gene or the SMN2 gene, respectively. The method may include: determining (i) a first normalized read count of a sequence aligned to a first region of the SMN1 or SMN2 gene, and (ii) a second normalized read count of a sequence aligned to a second SMN1 or SMN2 region, using (i) the length of the first SMN1 region or SMN2 and (ii) the length of the second region SMN1 or SMN2 , respectively. The method may include: determining (i) the copy number of full-length survival motor neuron (SMN) genes, each of which is an intact SMN1 gene, an intact SMN2 gene, a truncated SMN1 gene, or a truncated SMN2 gene; and (ii) the copy number of any intact SMN genes, each of which is an intact SMN1 gene or an intact SMN2 gene, using a mixture normal distribution model containing a plurality of normal distributions, each representing a different integer copy number, subject to (i) the first a normalized read count of the sequence aligned to the first SMN1 or SMN2 region, and (ii) a second normalized read count of the sequence aligned to the second SMN1 or SMN2 region, respectively. The method may include: for one set of SMN1 gene-specific bases associated with an intact SMN1 gene, determining the most likely combination from a plurality of possible combinations, each of which contains a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene, summed with the number of copies of any determined intact SMN genes, considering (a) the number of sequence reads from a set of sequence reads with bases that contain a base specific to the SMN1 gene, and (b) the number of sequence reads from a set of sequence reads with bases that contain a base specific to the SMN2 gene , corresponding to a base specific to the SMN1 gene. The method may include: determining the copy number of the SMN1 gene and/or the SMN2 gene using the most likely combination of the possible SMN1 gene copy number and the possible SMN2 gene copy number determined for the SMN1 gene-specific base.

[0082] В данном документе описаны способы генотипирования гена члена 6 подсемейства D семейства 2 цитохрома P450 (CYP2D6). В некоторых вариантах осуществления способ генотипирования гена CYP2D6 контролируется процессором (таким как аппаратный процессор или виртуальный процессор) и включает: получение данных секвенирования, содержащих множество прочтений последовательностей из образца от субъекта, выровненных с геном CYP2D6 или геном члена 7 подсемейства D семейства 2 цитохрома P450 (CYP2D7). Способ может включать: определение (i) первого количества прочтений последовательности из множества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7. Способ может включать: определение (i) первого нормализованного количества прочтений последовательности, выровненной с геном CYP2D6 или геном CYP2D7, с применением (i) длины гена CYP2D6 или гена CYP2D7 соответственно. Способ может включать: определение (i) общего количества копий гена CYP2D6 и гена CYP2D7 с помощью модели смеси нормальных распределений, содержащей множество нормальных распределений, каждое из которых представляет другое целое количество копий, на основании (i) первого нормализованного количества прочтений последовательности, выровненной с геном CYP2D6 или геном CYP2D7. Способ может включать: для одного из множества оснований, специфичных для гена CYP2D6 определение наиболее вероятной комбинации множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, суммированное до общего количества копий гена CYP2D6 и определенного гена CYP2D7, учитывая (a) прочтение множества последовательностей с основаниями, которые содержат специфическое для гена CYP2D6 основание, и (b) прочтение множества последовательностей с основаниями, которые содержат специфическое для гена CYP2D7 основание, соответствующее основанию, специфичному для гена CYP2D6. Способ может включать: определение аллеля гена CYP2D6, имеющегося у субъекта, с использованием наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенного для основания, специфичного для гена CYP2D6. [0082] Described herein are methods for genotyping the cytochrome P450 family 2 subfamily D member 6 gene ( CYP2D6 ). In some embodiments, a method for genotyping a CYP2D6 gene is controlled by a processor (such as a hardware processor or virtual processor) and includes: obtaining sequencing data comprising multiple sequence reads from a sample from a subject aligned to a CYP2D6 gene or a cytochrome P450 family 2 subfamily D member 7 gene ( CYP2D7 ). The method may include: determining (i) a first number of sequence reads from a plurality of sequence reads aligned to a CYP2D6 gene or a CYP2D7 gene. The method may include: determining (i) the first normalized read count of the sequence aligned to the CYP2D6 gene or the CYP2D7 gene, using (i) the length of the CYP2D6 gene or the CYP2D7 gene, respectively. The method may include: determining (i) the total copy number of the CYP2D6 gene and the CYP2D7 gene using a mixture of normal distributions model containing a plurality of normal distributions, each representing a different integer copy number, based on (i) the first normalized read count of the sequence aligned to CYP2D6 genome or CYP2D7 genome. The method may include: for one of a plurality of bases specific to the CYP2D6 gene, determining the most likely combination of a plurality of possible combinations, each of which contains a possible number of copies of the CYP2D6 gene and a possible number of copies of the CYP2D7 gene, summed to the total number of copies of the CYP2D6 gene and the particular CYP2D7 gene, considering (a) multiple sequence reads with bases that contain a CYP2D6 gene-specific base, and (b) multiple sequence reads with bases that contain a CYP2D7 gene-specific base corresponding to a CYP2D6 gene-specific base. The method may include: determining the allele of the CYP2D6 gene present in the subject using the most likely combination of the possible number of copies of the CYP2D6 gene and the possible number of copies of the CYP2D7 gene determined for the base specific for the CYP2D6 gene.

[0083] В данном документе описаны способы генотипирования паралогов. В некоторых вариантах осуществления способ генотипирования паралогов контролируется процессором (таким как аппаратный процессор или виртуальный процессор) и включает: получение данных секвенирования, содержащих множество прочтений последовательностей из образца от субъекта, выровненных с первым паралогом или вторым паралогом. Способ может включать: определение количества копий паралогов первого типа с помощью модели смеси нормальных распределений, содержащей множество распределений, каждое из которых представляет различное целое число копий, заданное (i) первым количеством прочтений последовательностей, выровненных с первой областью. Способ может включать: определения наиболее вероятной комбинации для одного из множества оснований, специфичных для первого паралога, из множества возможных комбинаций, каждая из которых содержит возможное количество копий первого паралога первого типа и возможное количество копий второго паралога первого типа, суммированное с количеством копий определенных паралогов первого типа, при заданном (a) количестве прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат основание специфическое для первого паралога, и (b) количестве прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат основание специфическое для второго паралога, соответствующее основанию специфическому для первого паралога. Способ может включать: определения количества копий или аллеля первого паралога с использованием наиболее вероятной комбинации возможного количества копий первого паралога и возможного количества копий второго паралога, определенного для основания специфического для первого паралога. [0083] Methods for genotyping paralogs are described herein. In some embodiments, a method for genotyping paralogs is controlled by a processor (such as a hardware processor or virtual processor) and includes: obtaining sequencing data comprising a plurality of sequence reads from a sample from a subject aligned to a first paralog or a second paralog. The method may include: determining the copy number of the first type of paralogs using a mixture normal distribution model comprising a plurality of distributions, each of which represents a different integer copy number given by (i) a first number of sequence reads aligned to the first region. The method may include: determining the most likely combination for one of a plurality of bases specific to the first paralog from a plurality of possible combinations, each of which contains a possible number of copies of the first paralog of the first type and a possible number of copies of the second paralog of the first type, summed with the number of copies of the specified paralogs of the first type, given (a) the number of sequence reads from the set of sequence reads with bases that contain a base specific to the first paralog, and (b) the number of sequence reads from the set of sequence reads with bases that contain a base specific to the second paralog corresponding to the base specific to the first paralog. The method may include: determining the copy number or allele of the first paralog using the most likely combination of the possible copy number of the first paralog and the possible copy number of the second paralog determined for a base specific to the first paralog.

[0084] В данном документе описаны варианты осуществления системы (например, компьютерной системы), содержащей энергонезависимую память, выполненную с возможностью хранения исполняемых команд; и процессора (например, аппаратный процессор или виртуальный процессор), находящийся в соединении с энергонезависимой памятью, причем аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения любого способа, описанного в данном документе. Описанные в данном документе варианты осуществления устройства (например, электронного устройства), содержащего энергонезависимую память, выполненную с возможностью хранения исполняемых команд; и процессора (например, аппаратный процессор или виртуальный процессор), находящийся в соединении с энергонезависимой памятью, причем аппаратный процессор запрограммирован с помощью исполняемых команд для выполнения любого способа, описанного в данном документе. Описанные в данном документе варианты осуществления машиночитаемого носителя, содержащего исполняемые команды, которые при исполнении процессором (например, аппаратным процессором или виртуальным процессором) системы или устройства приводят к выполнению аппаратным процессором любого способа, описанного в данном документе. [0084] Described herein are embodiments of a system (eg, a computer system) comprising non-volatile memory configured to store executable instructions; and a processor (eg, a hardware processor or a virtual processor) in connection with the non-volatile memory, the hardware processor being programmed by executable instructions to perform any method described herein. Described herein are embodiments of a device (eg, an electronic device) comprising non-volatile memory configured to store executable instructions; and a processor (eg, a hardware processor or a virtual processor) in connection with the non-volatile memory, the hardware processor being programmed by executable instructions to perform any method described herein. Embodiments described herein are computer-readable media comprising executable instructions that, when executed by a processor (e.g., a hardware processor or virtual processor) of a system or device, cause the hardware processor to execute any method described herein.

Диагностика спинальной мышечной атрофии и исследование на носительство на основе данных секвенирования всего геномаDiagnosis of spinal muscular atrophy and carrier testing based on whole genome sequencing data

[0085] Спинальная мышечная атрофия (SMA) характеризуется ослаблением скелетных мышц и является ведущей генетической причиной смерти в раннем детском возрасте с частотой 1 на 6000-10000 живорождений и частотой носительства 1:40-8012. SMA вызывается мутациями в гене SMN1 (ген выживания моторных нейронов 1) (ФИГ. 1A). Дублированный ген SMN2 отличается от SMN1 всего несколькими парами оснований, одна из которых, вариант сплайсинга c.840C>T в экзоне 7, имеет функциональные последствия. При прерывании энхансера сплайсинга мутация c.840C>T приводит к усилению пропуска экзона 7 и снижению полноразмерных транскриптов в SMN23 (ФИГ. 1B-1D). Геномная область подвержена неравному кроссинговеру и генной конверсии, что приводит к вариабельному количеству копий SMN1 и SMN2 (ФИГ. 1B). Из-за высокой частоты возникновения и тяжести заболевания рекомендуется проводить обширный скрининг на SMA, и ключевым фактором для данного скрининга является определение количества копий SMN1 для диагностики SMA и тестирования на носительство. Кроме того, количество копий SMN2 определяет степень тяжести SMA и важно для клинической классификации и прогноза. [0085] Spinal muscular atrophy (SMA) is characterized by weakening of skeletal muscles and is a leading genetic cause of death in early childhood with an incidence of 1 in 6,000-10,000 live births and a carrier rate of 1:40-8,012. SMA is caused by mutations in the SMN1 (survival motor neuron 1) gene (FIG. 1A). The duplicated SMN2 gene differs from SMN1 by only a few base pairs, one of which, the c.840C>T splice variant in exon 7, has functional consequences. By interrupting the splicing enhancer, the c.840C>T mutation results in increased exon 7 skipping and decreased full-length transcripts in SMN2 3 (FIG. 1B-1D). The genomic region is subject to unequal crossing over and gene conversion, resulting in variable copy numbers of SMN1 and SMN2 (FIG. 1B). Due to the high incidence and severity of the disease, extensive screening for SMA is recommended, and a key factor for this screening is determination of SMN1 copy number for SMA diagnosis and carrier testing. In addition, SMN2 copy number determines the severity of SMA and is important for clinical classification and prognosis.

[0086] В стандартных тестах на носительство SMA используются способы на основе ПЦР, такие как мультиплексная амплификация лигированных зондов (MLPA), количественная ПЦР (кПЦР) и цифровая ПЦР. Эти способы в основном нацелены на сайт c.840C>T. Включение SMA-скрининга в высокопроизводительные тесты на основе NGS, которые могут одновременно профилировать большое количество генов или даже весь геном, может быть полезным. Почти идеальная идентичность последовательностей между SMN1 и SMN2 затрудняет выявление вариантов стандартными способами на основе NGS. [0086] Standard SMA carriage tests use PCR-based methods such as multiplex ligation probe amplification (MLPA), quantitative PCR (qPCR), and digital PCR. These methods mainly target the c.840C>T site. Incorporating SMA screening into high-throughput NGS-based assays that can simultaneously profile large numbers of genes or even the entire genome may be beneficial. The near-perfect sequence identity between SMN1 and SMN2 makes variant detection difficult by standard NGS-based methods.

[0087] В данном документе описан определитель количества копий SMN на основе способа биоинформатики, который определяет количество копий SMN1 и SMN2 с данными полногеномного секвенирования (WGS) (ФИГ. 1E). Способ может включать определение количества копий SMN1 + SMN2 в двух областях, экзонах 1-6 и экзонах 7-8, путем суммирования прочтений в SMN1 и SMN2. Способ может включать дифференцировку SMN1 от SMN2 с использованием количества прочтений при фиксированных различиях оснований. В некоторых вариантах осуществления способ не включает повторное выравнивание выровненных последовательностей по модифицированному эталонному образцу. Способ представляет собой первый инструмент определения количества копий SMN, который может идентифицировать как пациентов с SMA, так и носителей по данным WGS. Некоторые варианты осуществления способа не ограничены экзонами 7 и 8 и не сосредоточены главным образом на c.840C>T. Этот метод использует общегенный подход и обеспечивает наиболее полный набор определений, включая количество копий полноразмерного SMN1 и SMN2, а также укороченную форму SMN с делецией экзонов 7 и 8. Этот способ можно легко применить к любым данным WGS и будет полезным инструментом для диагностики SMA и скрининга носителей для включения в высокопроизводительный скрининг WGS в масштабах всей популяции. [0087] Described herein is an SMN copy number detector based on a bioinformatics method that determines the copy number of SMN1 and SMN2 with whole genome sequencing (WGS) data (FIG. 1E). The method may include determining the copy number of SMN1 + SMN2 in two regions, exons 1-6 and exons 7-8, by summing the reads in SMN1 and SMN2 . The method may include differentiating SMN1 from SMN2 using read counts at fixed base differences. In some embodiments, the method does not include realigning the aligned sequences to a modified reference pattern. The method represents the first SMN copy number tool that can identify both SMA patients and carriers from WGS data. Some embodiments of the method are not limited to exons 7 and 8 and are not primarily focused on c.840C>T. This method uses a gene-wide approach and provides the most comprehensive set of determinations, including copy number of full-length SMN1 and SMN2 , as well as the truncated form of SMN with deletion of exons 7 and 8. This method can be easily applied to any WGS data and will be a useful tool for SMA diagnosis and screening carriers for inclusion in high-throughput population-wide WGS screening.

[0088] На ФИГ. 1A-1E показаны пояснения определения количества копий SMA SMN в соответствии с одним вариантом осуществления способа биоинформатики, описанного в данном документе. В таблице 1 показана дифференцировка SMN1 от SMN2 на основе фиксированного однонуклеотидного полиморфизма (SNP) в соответствии с вариантом осуществления способа. Определение количества копий SMN1 производится в 16 сайтах вблизи c.840C>T. Девять сайтов с высоким процентом совпадения с c.840C> T выбраны для совместного определения количества копий SMN1. На ФИГ. 2A-2C и в таблице 2 показано популяционное распределение определенного количества копий SMN1/2. Большее количество копий SMN1 наблюдали при меньшем количестве копий SMN2, что указывает на генную конверсию как механизм вариабельности количества копий SMN1 и SMN2. В табл. 3 показана проверка количества копий, определенных с использованием способа биоинформатики, в сравнении с количеством копий, определенным методом цифровой ПЦР. Проверка по сравнению с цифровой ПЦР показала 100% совпадение количества копий в SMN1 и 98% в SMN2. На ФИГ. 3 показан показатель SMA, идентифицированный в двух тройках в проекте Next Generation Children и подтвержденный с помощью MLPA. На Фиг. 4 и в таблице 4 показаны частоты в популяциях, определенные с помощью способа биоинформатики, согласующиеся с предыдущими исследованиями. [0088] In FIG. 1A-1E show explanations of the SMA copy number determination of SMN in accordance with one embodiment of the bioinformatics method described herein. Table 1 shows the differentiation of SMN1 from SMN2 based on a fixed single nucleotide polymorphism (SNP) in accordance with an embodiment of the method. SMN1 copy number detection occurs at 16 sites near c.840C>T. Nine sites with high percentage matches to c.840C>T selected to jointly determine SMN1 copy number. In FIG. 2A-2C and Table 2 show the population distribution of specific SMN1/2 copy numbers. More copies of SMN1 were observed with fewer copies of SMN2 , suggesting gene conversion as a mechanism for SMN1 and SMN2 copy number variation. In table 3 shows the verification of the copy number determined using the bioinformatics method in comparison with the copy number determined by the digital PCR method. Validation against digital PCR showed 100% copy number agreement in SMN1 and 98% in SMN2 . In FIG. Figure 3 shows the SMA identified in two triplets in the Next Generation Children project and validated using MLPA. In FIG. 4 and Table 4 show the frequencies in the populations determined using the bioinformatics method, consistent with previous studies.

Таблица 1. Дифференциация SMN1 от SMN2 на основании фиксированного однонуклеотидного полиморфизма (SNP)Table 1. Differentiation of SMN1 from SMN2 based on fixed single nucleotide polymorphism (SNP)

Сайт №Site no. МестоположениеLocation ВыбраноSelected SMN1SMN1 SMN2SMN2 Процент соответствия с c.840 C>TPercentage of compliance with c.840 C>T Положение, hg19Position, hg19 ОснованияGrounds Положение, hg19Position, hg19 ОснованияGrounds 11 Интрон 6Intron 6 7024414270244142 AA 6936871769368717 GG 85,285.2 22 Интрон 6Intron 6 7024587670245876 TT 6937045169370451 CC 85,585.5 33 Интрон 6Intron 6 7024601670246016 GG 6937059169370591 AA 94,894.8 44 Интрон 6Intron 6 7024601970246019 TT 6937059469370594 CC 94,194.1 55 Интрон 6Intron 6 7024615670246156 GG 6937073169370731 AA 93,993.9 66 Интрон 6Intron 6 7024616770246167 TT 6937074269370742 CC 59,859.8 77 Интрон 6Intron 6 7024632070246320 GG 6937089569370895 AA 96,396.3 88 Интрон 6Intron 6 ДаYes 7024679370246793 GG 6937136869371368 AA 9999 99 Интрон 6Intron 6 ДаYes 7024691970246919 AA 6937149969371499 CC 98,298.2 1010 Интрон 6Intron 6 ДаYes 7024721970247219 GG 6937179969371799 AA 98,898.8 11eleven Интрон 6Intron 6 ДаYes 7024729070247290 TT 6937187069371870 CC 9999 1212 Интрон 6Intron 6 ДаYes 7024772470247724 GG 6937230469372304 AA 99,699.6 1313 Экзон 7
(c.840 C>T)
Exon 7
(c.840 C>T)
ДаYes 7024777370247773 CC 6937235369372353 TT 100100
1414 Интрон 7Intron 7 ДаYes 7024792170247921 AA 6937250169372501 GG 99,599.5 1515 Интрон 7Intron 7 ДаYes 7024803670248036 AA 6937261669372616 GG 99,699.6 1616 Экзон 8Exon 8 ДаYes 7024850170248501 GG 6937308169373081 AA 97,997.9

Таблица 2. Распределение в популяциях количества копий SMN1/2 Table 2. Distribution of SMN1/2 copy numbers in populations

Кол-во субъектовNumber of subjects Полноразмерный SMN1Full size SMN1 Полноразмерный SMN2Full size SMN2 N < 2235N < 2235 99 11 11 2424 11 22 1010 11 33 22 11 44 162162 22 00 827827 22 11 10051005 22 22 4545 22 33 11 22 44 1515 33 00 7575 33 11 4141 33 22 77 33 33 11 33 44 55 44 00 33 44 11 33 44 22

Таблица 3. Проверка количества копий, определенных с использованием способа биоинформатики, в сравнении с количеством копий, определенным методом цифровой ПЦРTable 3. Verification of the copy number determined using the bioinformatics method in comparison with the copy number determined by the digital PCR method

ID образцаSample ID Статус SMASMA status Определитель количества копий SMNSMN Copy Number Determinant Цифровая ПЦРDigital PCR СогласуетсяAgreed Полная длинаFull Length Полная длинаFull Length Количество копий SMN*Number of SMN copies* Количество копий SMN1SMN1 copy number Количество копий SMN2SMN2 copy number Количество копий SMN1SMN1 copy number Количество копий SMN2SMN2 copy number NA03813NA03813 ЗатронутоAffected 00 33 00 00 33 ДаYes NA09677NA09677 ЗатронутоAffected 00 33 00 00 33 ДаYes NA23689NA23689 ЗатронутоAffected 00 33 00 00 33 ДаYes NA00232NA00232 ЗатронутоAffected 00 22 00 00 22 ДаYes NA10684NA10684 ЗатронутоAffected 00 22 00 00 22 ДаYes NA23687NA23687 НосительCarrier 11 22 00 11 22 ДаYes NA23688NA23688 НосительCarrier 11 22 00 11 22 ДаYes NA03815NA03815 НосительCarrier 11 11 00 11 11 ДаYes

Таблица 4. Частоты в популяциях, определенные с помощью способа биоинформатики, согласующиеся с предыдущими исследованиямиTable 4. Population frequencies determined using bioinformatics methods, consistent with previous studies

НосительCarrier SMN1SMN1 SMN1SMN1 SMN1SMN1 Частота (%)Frequency (%) CN=1CN=1 CN=2CN=2 CN>=3CN>=3 Представители европеоидной расыRepresentatives of the Caucasian race Данное исследованиеThis study 2,22.2 92,292.2 5,65.6 Hendrickson et al. a Hendrickson et al. a 2,72.7 9191 6,36.3 Sugarman et al.b Sugarman et al. b 2,022.02 90,990.9 7,057.05 Представители негроидной расыRepresentatives of the Negroid race Данное исследованиеThis study 0,440.44 44,844.8 54,854.8 Hendrickson et al.a*Hendrickson et al. a * 1,11.1 52,152.1 46,846.8 Sugarman et al.b*Sugarman et al. b * 0,980.98 51,951.9 47,147.1

aHendrickson et al. Differences in SMN1 allele frequencies among ethnic groups within North America. J Med Genet. 2009;46(9):641-644. doi:10.1136/jmg.2009.066969.aHendrickson et al. Differences in SMN1 allele frequencies among ethnic groups within North America. J Med Genet. 2009;46(9):641-644. doi:10.1136/jmg.2009.066969.

bSugarman et al. Pan-ethnic carrier screening and prenatal diagnosis for spinal muscular atrophy: clinical laboratory analysis of >72 400 specimens. Eur J Hum Genet. 2012; 20(1): 27-32.doi: 10.1038/Ejhg.2011.134.bSugarman et al. Pan-ethnic carrier screening and prenatal diagnosis for spinal muscular atrophy: clinical laboratory analysis of >72,400 specimens. Eur J Hum Genet. 2012; 20(1): 27-32.doi: 10.1038/Ejhg.2011.134.

*Афроамериканцы*African Americans

Характеристика пригодных для медицинского применения вариантов из 2500 общедоступных высокоглубинных геномов различного происхожденияCharacterization of medically applicable variants from 2500 publicly available high-depth genomes of various origins

[0089] Данные о популяционном секвенировании всего генома (WGS) становятся все более доступными. Например, доступны общедоступные данные секвенирования, такие как данные WGS с большой глубиной (>30X) для >2500 образцов из проекта 1000 Genomes (1kGP). Это значительно улучшило клиническую интерпретацию простых однонуклеотидных вариантов (SNV) и вставок/делеций (индексов). Однако многие важные с медицинской точки зрения области и варианты, такие как повторы триплетов и гомологи, не включены в базы данных на основе WGS, поскольку аннотирование этих областей и вариантов требует применения специализированных биоинформатических способов. В связи с этим необходима характеристика известных клинических вариантов на уровне популяции, чтобы максимизировать влияние экспериментов по секвенированию популяции. В некоторых вариантах осуществления способы, описанные в данном документе, устраняют три недостатка процессов стандартного вторичного анализа: 1) обнаружение спинальной мышечной атрофии (SMA) и скрининг носителей, 2) генотипирование CYP2D6 для фармакогеномного применения и 3) обнаружение экспансии повторных триплетов. Способы можно применять для определения количества копий SMN1/2, звездчатых аллелей CYP2D6, экспансии повторов в популяции 1kGP и количественного определения различий между субпопуляциями. В данном документе описаны распределения частот по субпопуляции и перпендикулярная проверка этих способов с использованием подтверждающих данных, сгенерированных из высококачественных длинных прочтений. [0089] Population-based whole genome sequencing (WGS) data is becoming increasingly available. For example, publicly available sequencing data is available, such as high depth (>30X) WGS data for >2500 samples from the 1000 Genomes Project (1kGP). This has significantly improved the clinical interpretation of simple single nucleotide variants (SNVs) and insertions/deletions (indices). However, many medically important regions and variants, such as triplet repeats and homologs, are not included in WGS-based databases because annotation of these regions and variants requires specialized bioinformatics techniques. Characterization of known clinical variants at the population level is therefore necessary to maximize the impact of population sequencing experiments. In some embodiments, the methods described herein address three shortcomings of standard secondary analysis processes: 1) spinal muscular atrophy (SMA) detection and carrier screening, 2) genotyping of CYP2D6 for pharmacogenomic applications, and 3) detection of repeat triplet expansions. The methods can be used to determine SMN1 /2 copy number, CYP2D6 star alleles, repeat expansions in a 1kGP population, and quantify differences between subpopulations. This paper describes subpopulation frequency distributions and perpendicular validation of these methods using supporting data generated from high-quality long reads.

CYP2D6CYP2D6

[0090] CYP2D6 является важным ферментом, метаболизирующим лекарственные средства, который является высокополиморфным (ФИГ. 5). Последовательность CYP2D6 имеет высокое сходство со своим псевдогенным паралогом (CYP2D7). Генотипирование CYP2D6 при помощи WGS является сложной задачей из-за общих конверсий генов между CYP2D6 и CYP2D7 (далее именуемых CYP2D6/7), общих SV (делеции генов, дупликации и гибридные гены CYP2D6/7; См. ФИГ. 6 для иллюстрации), а также сходство последовательностей CYP2D/7, что приводит к неоднозначному выравниванию прочтения для любого из генов (ФИГ. 5). В данном документе описан определитель CYP2D6, основанный на способе биоинформатики, который способен определить (например, точно определить) диплотипы, нацеленные на звездчатые аллели (например, все звездчатые аллели) с известными функциями. В некоторых вариантах осуществления способ включает следующие действия: [0090] CYP2D6 is an important drug metabolizing enzyme that is highly polymorphic (FIG. 5). CYP2D6 has high sequence similarity to its pseudogenic paralogue ( CYP2D7 ). Genotyping CYP2D6 by WGS is challenging due to common gene conversions between CYP2D6 and CYP2D7 (hereafter referred to as CYP2D6 /7), common SVs ( CYP2D6 /7 gene deletions, duplications, and fusion genes; See FIG. 6 for illustration), and also the sequence similarity of CYP2D/7 , which leads to ambiguous read alignment for any of the genes (FIG. 5). This document describes a CYP2D6 detector based on a bioinformatics method that is capable of identifying (eg, pinpointing) diplotypes targeting star alleles (eg, all star alleles) with known functions. In some embodiments, the method includes the following steps:

[0091] 1. Определение общего количества копий CYP2D6+CYP2D7. [0091] 1. Determination of the total copy number of CYP2D6 + CYP2D7 .

[0092] 2. Определение CNV/гибридов на основании определений количества копий на сайтах дифференциации CYP2D6/CYP2D7. [0092] 2. Determination of CNVs/hybrids based on copy number determinations at CYP2D6 / CYP2D7 differentiation sites.

[0093] 3. Определение 56 SNP/индексов из BAM (или другого файла, содержащего прочтение последовательностей). [0093] 3. Determine 56 SNPs/indexes from BAM (or other file containing sequence reads).

- Использование информации о количестве копий. - Use of information about the number of copies.

- прочтение результатов в обоих положениях CYP2D6 и CYP2D7 в гомологичных областях.- reading results in both positions of CYP2D6 and CYP2D7 in homologous regions.

[0094] 4. Определение звездчатых аллелей и диплотипов на основе всех определенных вариантов. [0094] 4. Determination of star alleles and diplotypes based on all identified variants.

[0095] В таблице 5 показаны результаты проверки определений звездчатого аллеля CYP2D6, выполненных этим способом. Определения звездчатого аллеля CYP2D6, полученные способом для 92 из 96 образцов, согласуются с определениями консенсуса GeT-RM из множества платформ. Этот способ превзошел по эффективности такие определители, как Aldy (определение звездчатого аллеля CYP2D6 для 89 из 96 образцов согласуется с консенсусом GeT-RM) и Stargazer (определение звездчатого аллеля CYP2D6 для 83 из 96 образцов согласуется с консенсусом GeT-RM). [0095] Table 5 shows the results of testing the CYP2D6 star allele determinations made by this method. The CYP2D6 star allele definitions obtained by the method for 92 of 96 samples are consistent with the GeT-RM consensus definitions from multiple platforms. This method outperformed identifiers such as Aldy ( CYP2D6 star allele determination for 89 of 96 samples agreed with the GeT-RM consensus) and Stargazer ( CYP2D6 star allele determination for 83 of 96 samples agreed with the GeT-RM consensus).

Таблица 5. Проверка определителя CYP2D6.Table 5. Validation of the CYP2D6 determinant.

ОбразецSample Определение CYP2D6Determination of CYP2D6 Консенсус GeT-RMGeT-RM Consensus AldyAldy StargazerStargazer NA24008NA24008 *1/*4+*68*1/*4+*68 *1/*4*1/*4 *1/*4+*68*1/*4+*68 *1/*4+*68*1/*4+*68 NA21781NA21781 *2x2/*4+*68*2x2/*4+*68 *2x2/*68+*2*2x2/*68+*2 *2x2/*4+*68*2x2/*4+*68 *2x2/*4+*68*2x2/*4+*68 NA23874NA23874 *4/*4+*68*4/*4+*68 *4/*4*4/*4 Не определеноUndefined *4/*4+*68*4/*4+*68 NA18565NA18565 *10/*10+*36*10/*10+*36 *10/*36x2*10/*36x2 *10/*10+*36*10/*10+*36 *10/*10+*36*10/*10+*36

[0096] На ФИГ. 7 показано, аллельные частоты, определенные способом, согласуются с базой данных PharmVar Database Pharmacogene Variation (PharmVar) Consortium. [0096] In FIG. 7 shows that the allelic frequencies determined by the method are consistent with the PharmVar Database Pharmacogene Variation (PharmVar) Consortium.

Определение количества копий гена выживания моторных нейронов 1 с использованием данных секвенированияDetermining motor neuron survival 1 gene copy number using sequencing data

[0097] На ФИГ. 8 представлена блок-схема, показывающая пример способа 800 определения количества копий выживания гена моторных нейронов 1 с использованием данных секвенирования, таких как данные секвенирования целого генома. Способ 800 может быть реализован в виде набора исполняемых программных команд, хранящихся на машиночитаемом носителе, таком как один или более дисководов вычислительной системы. Например, вычислительная система 1100, показанная на ФИГ. 11 и более подробно описанная ниже, может выполнять набор исполняемых программных команд для реализации способа 800. При инициировании способа 800 исполняемые программные команды могут быть загружены в запоминающее устройство, такое как RAM, и выполнены одним или более процессорами вычислительной системы 1100. Хотя способ 800 описан в отношении вычислительной системы 1100, показанной на ФИГ. 11, описание приводится только в качестве иллюстрации и не носит ограничительного характера. В некоторых вариантах осуществления способ 800 или его фрагменты могут быть выполнены последовательно или параллельно множеством вычислительных систем. [0097] In FIG. 8 is a flow diagram showing an example of a method 800 for determining the survival copy number of a motor neuron 1 gene using sequencing data, such as whole genome sequencing data. The method 800 may be implemented as a set of executable program instructions stored on a computer-readable medium, such as one or more computer system disk drives. For example, the computing system 1100 shown in FIG. 11 and described in more detail below, may execute a set of executable program instructions to implement method 800. When method 800 is initiated, the executable program instructions may be loaded into a storage device, such as RAM, and executed by one or more processors of the computing system 1100. Although method 800 is described with respect to the computing system 1100 shown in FIG. 11, the description is provided for illustrative purposes only and is not intended to be limiting. In some embodiments, method 800 or portions thereof may be performed sequentially or in parallel by multiple computing systems.

[0098] После того, как способ 800 начинается на этапе 804, способ 800 переходит к этапу 808, где вычислительная система (такая как вычислительная система 1100, описанная со ссылкой на ФИГ. 11) определяет (i) первое количество прочтений последовательности из множества прочтений последовательностей, выровненных с первой областью гена выживания моторных нейронов 1 (SMN1) или выживания моторных нейронов 2 (SMN2), содержащим по меньшей мере один из 1-6 экзонов гена SMN1 или гена SMN2, соответственно, и (ii) второе количество прочтений последовательности из множества прочтений последовательностей, выровненных со второй областью гена SMN1 или SMN2, содержащим по меньшей мере экзон 7 или экзон 8 гена SMN1 или гена SMN2 соответственно. Первое количество прочтений последовательностей, выровненных с первой областью SMN1 или SMN2 (или второе количество прочтений последовательностей, выровненных со второй областью SMN1 или SMN2), может быть или примерно равно, например, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000 или более. [0098] After method 800 begins at step 804, method 800 proceeds to step 808, where a computing system (such as computing system 1100 described with reference to FIG. 11) determines (i) the first number of reads of the sequence from the plurality of reads sequences aligned to the first region of the survival motor neuron 1 ( SMN1 ) or survival motor neuron 2 ( SMN2 ) gene containing at least one of exons 1-6 of the SMN1 gene or the SMN2 gene, respectively, and (ii) a second number of sequence reads from a plurality of sequence reads aligned to a second region of the SMN1 or SMN2 gene containing at least exon 7 or exon 8 of the SMN1 gene or the SMN2 gene, respectively. The first number of sequence reads aligned to the first SMN1 or SMN2 region (or the second number of sequence reads aligned to the second SMN1 or SMN2 region) may be or approximately equal to, for example, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000 or more.

[0099] По меньшей мере один из экзонов 1-6 гена SMN1 может содержать экзон 1, экзон 2, экзон 3, экзон 4, экзон 5 и/или экзон 6 гена SMN1. По меньшей мере один из экзонов 1-6 гена SMN2 может содержать экзон 1, экзон 2, экзон 3, экзон 4, экзон 5 и/или экзон 6 гена SMN2. Первая область SMN1 или SMN2 может содержать экзон от 1 до 6 гена SMN1 или гена SMN2 соответственно и может иметь длину примерно 22,2 т. п. н. Вторая область SMN1 или SMN2 может содержать экзон 7 и экзон 8 гена SMN1 или гена SMN2 соответственно и может иметь длину примерно 6 т. п. н. [0099] At least one of exons 1-6 of the SMN1 gene may comprise exon 1, exon 2, exon 3, exon 4, exon 5 and/or exon 6 of the SMN1 gene. At least one of exons 1-6 of the SMN2 gene may comprise exon 1, exon 2, exon 3, exon 4, exon 5 and/or exon 6 of the SMN2 gene. The first region of SMN1 or SMN2 may contain exon 1 to 6 of the SMN1 gene or the SMN2 gene, respectively, and may be approximately 22.2 kb in length. The second region of SMN1 or SMN2 may contain exon 7 and exon 8 of the SMN1 gene or the SMN2 gene, respectively, and may be approximately 6 kb in length.

[0100] В некоторых вариантах осуществления вычислительная система получает данные секвенирования, содержащие множество прочтений последовательностей, полученных из образца от субъекта, выровненных с геном SMN1 или геном SMN2. Данные секвенирования могут включать в себя данные секвенирования целого генома (WGS) или данные WGS с помощью коротких прочтений. В некоторых вариантах осуществления субъект является субъектом-плодом, неонатальным субъектом, педиатрическим субъектом, субъектом-подростком или взрослым субъектом. Образец может содержать клетки или внеклеточную ДНК. Образец может содержать фетальные клетки или внеклеточную фетальную ДНК. [0100] In some embodiments, the computing system receives sequencing data containing multiple sequence reads obtained from a sample from a subject aligned to the SMN1 gene or the SMN2 gene. Sequencing data may include whole genome sequencing (WGS) data or short-read WGS data. In some embodiments, the subject is a fetal subject, a neonatal subject, a pediatric subject, an adolescent subject, or an adult subject. The sample may contain cells or extracellular DNA. The sample may contain fetal cells or extracellular fetal DNA.

[0101] В некоторых вариантах осуществления прочтение последовательности из множества прочтений последовательностей, выравнивается с первой областью SMN1 или SMN2 или со второй областью SMN1 или SMN2 с показателем качества выравнивания, равным приблизительно нулю. Качество выравнивания может составлять, например, 0, 0,01, 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09, 0,10 или более (по шкале от 0 до 1 от оценки выравнивания). [0101] In some embodiments, a sequence read from a plurality of sequence reads is aligned to a first region SMN1 or SMN2 or a second region SMN1 or SMN2 with an alignment quality score of approximately zero. The alignment quality may be, for example, 0, 0.01, 0.02, 0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09, 0.10 or more (on a scale of 0 to 1 from the alignment score).

[0102] Способ 800 переходит от этапа 808 к этапу 812, где вычислительная система определяет (i) первое нормализованное количество прочтений последовательности, выровненной с первой областью SMN1 или SMN2, и (ii) второе нормализованное количество прочтений последовательности, выровненной со второй областью SMN1 или SMN2, с применением (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2 соответственно. Первое нормализованное количество прочтений последовательностей, выровненных с первой областью SMN1 или SMN2 (или второе нормализованное количество прочтений последовательностей, выровненных со второй областью SMN1 или SMN2), может быть или примерно равно, например, 1, 2, 3, 4, 5, 6, 7, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. Длина первой области SMN1 или SMN2 может быть или примерно равно, например, 3 т. п. н., 6 т. п. н., 9 т. п. н., 12 т. п. н., 15 т. п. н., 18 т. п. н., 21 т. п. н., 22,2 т. п. н., 24 т. п. н. или более. Длина второй области SMN1 или SMN2 может быть или примерно равно, например, 3 т. п. н., 6 т. п. н. или более. [0102] Method 800 proceeds from step 808 to step 812, where the computing system determines (i) a first normalized read count of the sequence aligned to the first SMN1 or SMN2 region, and (ii) a second normalized read count of the sequence aligned to the second SMN1 or SMN2 region. SMN2 , using (i) the length of the first region SMN1 or SMN2 and (ii) the length of the second region SMN1 or SMN2 , respectively. The first normalized number of sequence reads aligned to the first SMN1 or SMN2 region (or the second normalized number of sequence reads aligned to the second SMN1 or SMN2 region) may be or approximately equal to, for example, 1, 2, 3, 4, 5, 6, 7, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 or more. The length of the first region of SMN1 or SMN2 may be or is approximately equal to, for example, 3 kb, 6 kb, 9 kb, 12 kb, 15 kb n., 18 kb., 21 kb., 22.2 kb., 24 kb. or more. The length of the second region of SMN1 or SMN2 may be or approximately equal to, for example, 3 kb, 6 kb. or more.

[0103] В некоторых вариантах осуществления для определения (i) первого нормализованного количества прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательностей, выровненных со второй областью, вычислительная система может определять (i) первое нормализованное количества прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) второе нормализованное количества прочтений последовательностей, выровненных со второй областью SMN1 или SMN2, с применением (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2, соответственно, и (iii) глубину прочтений последовательности области генома субъекта, за исключением генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования. Глубина прочтения последовательности области генома субъекта, за исключением генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования может быть или примерно равно, например, 3, 4, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. [0103] In some embodiments, to determine (i) a first normalized number of sequence reads aligned to a first SMN1 or SMN2 region, and (ii) a second normalized number of sequence reads aligned to a second region, the computing system may determine (i) a first normalized the number of sequence reads aligned to the first SMN1 or SMN2 region, and (ii) the second normalized number of sequence reads aligned to the second SMN1 or SMN2 region, using (i) the length of the first SMN1 or SMN2 region and (ii) the length of the second SMN1 region or SMN2 , respectively, and (iii) the depth of sequence reads of the subject's genomic region, excluding genetic loci containing the SMN1 gene and the SMN2 gene, as determined by sequencing data. The sequence read depth of the subject's genome region, excluding genetic loci containing the SMN1 gene and the SMN2 gene, as determined by sequencing data may be or approximately equal to, for example, 3, 4, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 or more.

[0104] Для определения (i) первого нормализованного количества прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательностей, выровненных со второй областью SMN1 или SMN2, вычислительная система определяет (i) нормализованное количество прочтений последовательностей по длине первой области SMN1 или SMN2, выровненных с первой областью SMN1 или SMN2, и (ii) нормализованное количество прочтений последовательностей по длине второй области SMN1 или SMN2, выровненных со второй областью SMN1 или SMN2, с применением (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2, соответственно. Вычислительная система может определять (i) первую нормализованную глубину прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) вторую нормализованную глубину прочтений последовательностей, выровненных со второй областью SMN1 или SMN2, на основе (i) нормализованного количества прочтений последовательностей по длине первой области SMN1 или SMN2 и (ii) нормализованного количества прочтений последовательностей по длине второй области SMN1 или SMN2, соответственно, при использовании глубины прочтения последовательности области генома субъекта, за исключением генетических локусов, содержащих ген SMN1 и ген SMN2. Первое нормализованное количество прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и второе нормализованное количество прочтений последовательностей, выровненных со второй областью SMN1 или SMN2, могут представлять собой первую нормализованную глубину и вторую нормализованную глубину соответственно. [0104] To determine (i) a first normalized number of sequence reads aligned to the first region SMN1 or SMN2 , and (ii) a second normalized number of sequence reads aligned to the second region SMN1 or SMN2 , the computing system determines (i) the normalized number of sequence reads along the length of the first SMN1 or SMN2 region aligned to the first SMN1 or SMN2 region, and (ii) the normalized sequence read count along the length of the second SMN1 or SMN2 region aligned to the second SMN1 or SMN2 region, using (i) the length of the first SMN1 region or SMN2 and (ii) the length of the second region SMN1 or SMN2 , respectively. The computing system may determine (i) a first normalized depth of sequence reads aligned to a first SMN1 or SMN2 region, and (ii) a second normalized depth of sequence reads aligned to a second SMN1 or SMN2 region, based on (i) a normalized number of sequence reads by length the first SMN1 or SMN2 region and (ii) the normalized number of sequence reads along the length of the second SMN1 or SMN2 region, respectively, using the sequence read depth of the subject's genomic region excluding genetic loci containing the SMN1 gene and the SMN2 gene. The first normalized number of sequence reads aligned to the first SMN1 or SMN2 region and the second normalized number of sequence reads aligned to the second SMN1 or SMN2 region may represent the first normalized depth and the second normalized depth, respectively.

[0105] В некоторых вариантах осуществления для определения (i) первого нормализованного количества прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательностей, выровненных со второй областью, вычислительная система может определять (i) первое нормализованное количество прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) второе нормализованное количество прочтений последовательностей, выровненных со второй областью SMN1 или SMN2, с применением (i) содержания GC в первой области SMN1 или SMN2 и (ii) содержания GC во второй области SMN1 или SMN2, соответственно, и (iii) глубину прочтения последовательности области генома субъекта, за исключением генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования и (iv) содержание GC в области генома. Содержание GC в первой области SMN1 или SMN2 (или содержание GC во второй области SMN1 или SMN2) может быть или примерно равно, например, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 49%, 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59% или 60%. Глубина прочтения последовательности области генома субъекта, за исключением генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования может быть или примерно равно, например, 3, 4, 5, 10, 20, 30, 40, 50, 100 или более. Содержание GC в области генома субъекта, за исключением генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования может быть или примерно равно, например, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 49%, 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59% или 60%. [0105] In some embodiments, to determine (i) a first normalized number of sequence reads aligned to a first SMN1 or SMN2 region, and (ii) a second normalized number of sequence reads aligned to a second region, the computing system may determine (i) a first normalized the number of sequence reads aligned to the first SMN1 or SMN2 region, and (ii) the second normalized number of sequence reads aligned to the second SMN1 or SMN2 region, using (i) the GC content of the first SMN1 or SMN2 region and (ii) the GC content of the second SMN1 or SMN2 region, respectively, and (iii) the sequence read depth of the subject's genomic region, excluding genetic loci containing the SMN1 gene and the SMN2 gene, as determined by sequencing, and (iv) the GC content of the genomic region. The GC content of the first region of SMN1 or SMN2 (or the GC content of the second region of SMN1 or SMN2 ) may be at or about equal to, for example, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47% , 48%, 49%, 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59% or 60%. The sequence read depth of a region of a subject's genome, excluding genetic loci containing the SMN1 gene and the SMN2 gene, as determined by sequencing may be or approximately equal to, for example, 3, 4, 5, 10, 20, 30, 40, 50, 100, or more. The GC content of a region of a subject's genome, excluding genetic loci containing the SMN1 gene and the SMN2 gene, as determined by sequencing may be or approximately equal to, for example, 40%, 41%, 42%, 43%, 44%, 45%, 46% , 47%, 48%, 49%, 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59% or 60%.

[0106] В некоторых вариантах осуществления глубина области включает среднюю глубину прочтения последовательности области генома субъекта, за исключением генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования. Глубина области может включать в себя медианную глубину прочтения последовательности области генома субъекта, за исключением генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования. Глубина области может быть или примерно равно, например, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. Длина области может содержать примерно 500, 1000, 1500, 2000, 2500, 3000, 3500, 4000 или более предварительно выбранных областей длиной примерно 0,5 т. п. н., 1 т. п. н., 1,5 т. п. н., 2 т. п. н., 2,5 т. п. н. или 3 т. п. н. в каждой по всему геному субъекта. Например, область может содержать примерно 3000 предварительно выбранных областей длиной примерно 2 т. п. н. в каждой по всему геному субъекта. [0106] In some embodiments, the region depth includes the average sequence read depth of a region of the subject's genome, excluding genetic loci containing the SMN1 gene and the SMN2 gene, as determined by sequencing data. The region depth may include the median sequence read depth of a region of the subject's genome, excluding genetic loci containing the SMN1 gene and the SMN2 gene, as determined by sequencing. The depth of the region may be or approximately equal to, for example, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 or more. The region length may comprise approximately 500, 1000, 1500, 2000, 2500, 3000, 3500, 4000 or more preselected regions of approximately 0.5 kb, 1 kb, 1.5 k in length. bp, 2 kb, 2.5 kb or 3 kb. in each throughout the subject's genome. For example, a region may contain approximately 3000 preselected regions of approximately 2 kb in length. in each throughout the subject's genome.

[0107] В некоторых вариантах осуществления первое нормализованное количество прочтений последовательностей, выровненных с первой областью SMN1 или SMN2 (или второе нормализованное количество прочтений последовательностей, выровненных со второй областью SMN1 или SMN2), составляет или составляет примерно 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. Например, (i) первое нормализованное количество прочтений последовательности, выровненной с первой областью SMN1 или SMN2, и/или (ii) второе нормализованное количество прочтений последовательности, выровненной со второй областью SMN1 или SMN2, составляет от примерно 30 до примерно 40. [0107] In some embodiments, the first normalized number of sequence reads aligned to the first SMN1 or SMN2 region (or the second normalized number of sequence reads aligned to the second SMN1 or SMN2 region) is or is about 10, 20, 30, 40, 50 , 60, 70, 80, 90, 100 or more. For example, (i) the first normalized read count of the sequence aligned to the first SMN1 or SMN2 region and/or (ii) the second normalized read count of the sequence aligned to the second SMN1 or SMN2 region is from about 30 to about 40.

[0108] Способ 800 переходит от этапа 812 к этапу 816, где вычислительная система определяет (i) количество копий общих генов выживания моторных нейронов (SMN) и (ii) количество копий любого(-ых) интактного(-ых) гена(-ов) SMN с использованием модели смеси нормальных распределений, содержащей множество распределений, каждое из которых представляет другое целое число копий, заданное (i) первым нормализованным количеством прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) второе нормализованное количество прочтений последовательностей, выровненных со второй областью SMN1 или SMN2 соответственно. Общие гены выживания моторных нейронов могут содержать интактный ген SMN1, интактный ген SMN2, укороченный ген SMN1 и/или укороченный ген SMN2. Любой(-ые) интактный(-ые) ген(-ы) SMN может (могут) содержать интактный ген SMN1 и/или интактный ген SMN2. Количество копий общего (-их) гена(-ов) SMN (или любого(-ых) гена(-ов) данного описания) может составлять или примерно составлять, например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более. Количество копий любого(-ых) интактного(-ых) гена(-ов) SMN (или любого(-ых) гена(-ов) данного описания) может составлять или примерно составлять, например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более. [0108] Method 800 proceeds from step 812 to step 816, where the computing system determines (i) the copy number of common motor neuron survival (SMN) genes and (ii) the copy number of any intact gene(s) ) SMN using a mixture normal distribution model containing a plurality of distributions, each representing a different integer copy number given by (i) a first normalized number of sequence reads aligned to the first SMN1 or SMN2 region, and (ii) a second normalized number of sequence reads, aligned with the second region of SMN1 or SMN2 , respectively. Common motor neuron survival genes may comprise an intact SMN1 gene, an intact SMN2 gene, a truncated SMN1 gene, and/or a truncated SMN2 gene. Any intact SMN gene(s) may contain an intact SMN1 gene and/or an intact SMN2 gene. The copy number of the total SMN gene(s) (or any gene(s) herein) may be or be approximately, for example, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more. The copy number of any intact SMN gene(s) (or any gene(s) herein) may be or be approximately, for example, 1, 2, 3, 4, 5 , 6, 7, 8, 9, 10 or more.

[0109] В некоторых вариантах осуществления модель смеси нормальных распределений представляет собой одномерную модель смеси нормальных распределений. Множество распределений модели смеси нормальных распределений могут представлять целые числа копий, например от 0 до 5, от 0 до 6, от 0 до 7, от 0 до 8, от 0 до 9, от 0 до 10, от 0 до 11, от 0 до 12, от 0 до 13, от 0 до 14 или от 0 до 15. Например, множество распределений модели смеси нормальных распределений могут представлять целые числа копий от 0 до 10. Среднее значение (например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более) каждого из множества распределений может представлять собой целое количество копий, представленное распределением (например, количество копий 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более). Стандартное отклонение распределений может составлять или примерно составлять, например, 0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, 0,9, 1 или более. [0109] In some embodiments, the mixture normal distribution model is a one-dimensional mixture normal distribution model. The set of normal distribution model distributions can represent integer copy numbers, for example, 0 to 5, 0 to 6, 0 to 7, 0 to 8, 0 to 9, 0 to 10, 0 to 11, 0 to 12, 0 to 13, 0 to 14, or 0 to 15. For example, a set of mixture normal distribution model distributions can represent integer copy numbers from 0 to 10. The mean (for example, 1, 2, 3, 4, 5 , 6, 7, 8, 9, 10, or more) of each of the plurality of distributions may be an integer number of copies represented by the distribution (e.g., copy number 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more). The standard deviation of the distributions may be or approximately be, for example, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1 or more .

[0110] В некоторых вариантах осуществления для определения (i) количества копий общего(-ых) гена(-ов) SMN и (ii) количества копий любого(-ых) интактного(-ых) гена(-ов) SMN вычислительная система может определять (i) количество копий общего(-их) гена(-ов) SMN и (ii) количество копий любого(-ых) интактного(-ых) гена(-ов) SMN с использованием модели смеси нормальных распределений, и первый предварительно определенный порог апостериорной вероятности с учетом (i) первого нормализованного количества прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательностей, выровненных со второй областью SMN1 или SMN2 соответственно. Первый заданный порог апостериорной вероятности (или любой заданный порог апостериорной вероятности данного описания) может составлять или примерно составлять, например, 0,80, 0,81, 0,82, 0,83, 0,84, 0,85, 0,86, 0,87, 0,88, 0,89, 0,90, 0,91, 0,92, 0,93, 0,94, 0,95, 0,96, 0,97, 0,98, 0,99 или более. Например, первый предварительно определенный порог апостериорной вероятности может составлять 0,95. [0110] In some embodiments, to determine (i) the copy number of common SMN gene(s) and (ii) the copy number of any intact SMN gene(s), the computing system may determine (i) the copy number of the common SMN gene(s) and (ii) the copy number of any intact SMN gene(s) using a mixture normal distribution model, and the first predetermined a posterior probability threshold considering (i) the first normalized number of sequence reads aligned to the first SMN1 or SMN2 region, and (ii) the second normalized number of sequence reads aligned to the second SMN1 or SMN2 region, respectively. The first predetermined posterior probability threshold (or any given posterior probability threshold of a given description) may be or approximately be, for example, 0.80, 0.81, 0.82, 0.83, 0.84, 0.85, 0.86 , 0.87, 0.88, 0.89, 0.90, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98, 0 .99 or more. For example, the first predetermined posterior probability threshold may be 0.95.

[0111] Способ 800 переходит от этапа 816 к этапу 820, где вычислительная система определяет для одного из множества, оснований, специфичных для гена SMN1 (также называемых в данном документе дифференцирующими основаниями SMN), связанных с интактным геном SMN1, наиболее вероятная комбинация из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, суммированное с количеством копий любого(-ых) интактного(-ых) гена(-ов) SMN, учитывая (a) количество прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей) из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количество прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей) из множества прочтений последовательности с основаниями, которые содержат специфическое для гена SMN2 основание гена SMN2, соответствующее специфическому для гена SMN1 основанию. Возможное количество копий гена SMN1 может составлять или примерно составлять, например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более. Возможное количество копий гена SMN2 может составлять или примерно составлять, например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более. [0111] Method 800 proceeds from step 816 to step 820, where the computing system determines, for one of a plurality of SMN1 gene-specific bases (also referred to herein as SMN differentiating bases) associated with the intact SMN1 gene, the most likely combination of the plurality possible combinations, each containing a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene, summed with the number of copies of any intact SMN gene(s), taking into account (a) the number of sequence reads (e.g. unnormalized or normalized number of sequence reads) from a plurality of sequence reads with bases that contain a SMN1 gene-specific base, and (b) the number of sequence reads (e.g., unnormalized or normalized number of sequence reads) from a plurality of sequence reads with bases that contain a SMN1 gene-specific SMN2 gene base of the SMN2 gene corresponding to a base specific to the SMN1 gene. The possible number of copies of the SMN1 gene may be or approximately be, for example, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more. The possible number of copies of the SMN2 gene may be or approximately be, for example, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more.

[0112] В некоторых вариантах осуществления наиболее вероятная комбинация возможного количества копий гена SMN1 и возможного количества копий гена SMN2 связана с самой высокой апостериорной вероятностью, по сравнению с другими комбинациями множества комбинаций с заданным (a) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфическое для гена SMN1 основание, и (b) количество прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат соответствующее специфическое для гена SMN2 основание. Самая высокая апостериорная вероятность (или любая вероятность данного описания) может составлять или примерно составлять, например, 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% или более. Различие в апостериорной вероятности (или любой вероятности данного описания) может составлять или примерно составлять, например, 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30% или более. [0112] In some embodiments, the most likely combination of a possible SMN1 gene copy number and a possible SMN2 gene copy number is associated with the highest posterior probability, compared to other combinations of the plurality of combinations given (a) the number of sequence reads from the plurality of sequence reads with bases, that contain the SMN1 gene-specific base, and (b) the number of sequence reads from the plurality of sequence reads with bases that contain the corresponding SMN2 gene-specific base. The highest posterior probability (or any probability of a given description) may be or approximately be, for example, 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70 %, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% or more. The difference in posterior probability (or any probability of a given description) may be or approximately be, for example, 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11 %, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30% or more.

[0113] В некоторых вариантах осуществления для определения наиболее вероятной комбинации возможного количества копий гена SMN1 и возможной комбинации гена SMN2 компьютерная система может определять наиболее вероятную комбинацию из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, суммированное с количеством копий любых определенных интактных генов SMN, учитывая соотношение (a) количества прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат специфическое для гена SMN1 основание, и (b) количества прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат SMN2 ген-специфическое основание гена SMN2, соответствующее специфичному для гена SMN1 основанию. Для определения наиболее вероятной комбинации возможного количества копий гена SMN1 и возможной комбинации гена SMN2; вычислительная система может определять (a) количество прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количество прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат SMN2 ген-специфическое основание гена SMN2 соответствующее специфичному для гена SMN1 основанию. Вычислительная система может определять соотношение (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат SMN2 ген-специфическое основание гена SMN2 соответствующее специфичному для гена SMN1 основанию. Вычислительная система может определить наиболее вероятную комбинацию, из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, суммированное с количеством копий любого интактного гена SMN, определенным на основе соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфическое для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат SMN2 ген-специфическое основание гена SMN2 соответствующее специфичному для гена SMN1 основанию. [0113] In some embodiments, to determine the most likely combination of a possible number of copies of the SMN1 gene and a possible combination of the SMN2 gene, the computer system may determine the most likely combination of a plurality of possible combinations, each of which contains a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene. summed with the copy number of any defined intact SMN genes, taking into account the ratio of (a) the number of sequence reads from the set of sequence reads with bases that contain the SMN1 gene-specific base, and (b) the number of sequence reads from the set of sequence reads with bases that contain SMN2 a gene-specific base of the SMN2 gene corresponding to a specific base for the SMN1 gene. To determine the most likely combination of the possible number of copies of the SMN1 gene and the possible combination of the SMN2 gene; the computing system may determine (a) the number of sequence reads from a plurality of sequence reads with bases that contain an SMN1 gene-specific base, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain an SMN2 gene-specific base of the SMN2 gene corresponding to a specific for the SMN1 gene base. The computing system may determine the ratio of (a) the number of sequence reads from the plurality of sequence reads with bases that contain the SMN1 gene-specific base, and (b) the number of sequence reads from the plurality of sequence reads with bases that contain the SMN2 gene-specific base of the SMN2 gene corresponding to a base specific to the SMN1 gene. The computing system may determine the most likely combination, from a plurality of possible combinations, each of which contains a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene, summed with the number of copies of any intact SMN gene, determined based on the ratio of (a) the number of sequence reads from the set sequence reads with bases that contain the SMN1 gene-specific base, and (b) the number of sequence reads from the plurality of sequence reads with bases that contain the SMN2 gene-specific base of the SMN2 gene corresponding to the SMN1 gene-specific base.

[0114] В некоторых вариантах осуществления для определения наиболее вероятной комбинации возможного количества копий гена SMN1 и возможной комбинации гена SMN2 вычислительная система определяет для каждого из множества ген-специфических оснований SMN1: наиболее вероятную комбинацию из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, суммированное с количеством копий любого определенного интактного гена SMN, которая связана с наибольшей апостериорной вероятностью, заданной (a) количество прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количество прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат SMN2 ген-специфическое основание гена SMN2 соответствующее специфичному для гена SMN1 основанию. Количество прочтений последовательностей, выровненных с специфичным для гена SMN1 основанием (или специфичным для гена SMN2 основанием), может составлять или примерно составлять, например, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. Для определения количества копий гена SMN1 вычислительная система может определять количество копий гена SMN1 на основе возможного количества копий гена SMN1 наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенного для каждого из множества оснований, специфических для гена SMN1. [0114] In some embodiments, to determine the most likely combination of a possible number of copies of the SMN1 gene and a possible combination of the SMN2 gene, the computing system determines, for each of the plurality of SMN1 gene-specific bases: the most likely combination of the plurality of possible combinations, each of which contains the possible number of copies the SMN1 gene and the possible copy number of the SMN2 gene, summed with the copy number of any particular intact SMN gene that is associated with the largest posterior probability given by (a) the number of sequence reads from the set of sequence reads with bases that contain the SMN1 gene-specific base, and ( b) the number of sequence reads from a plurality of sequence reads with bases that contain the SMN2 gene-specific base of the SMN2 gene corresponding to the SMN1 gene-specific base. The number of sequence reads aligned to an SMN1 gene-specific base (or an SMN2 gene-specific base) may be or approximately, for example, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 or more. To determine the copy number of the SMN1 gene, the computing system may determine the copy number of the SMN1 gene based on the possible SMN1 gene copy number of the most likely combination of the possible SMN1 gene copy number and the possible SMN2 gene copy number determined for each of a plurality of bases specific to the SMN1 gene.

[0115] В некоторых вариантах осуществления специфичное для гена SMN1 основание представляет собой энхансер сплайсинга. Специфичное для гена SMN1 основание может представлять собой основание в с.840 гена SMN1. В некоторых вариантах осуществления специфичное для гена SMN1 основание имеет соответствие с каждым из множества характерных для конкретного гена SMN1 оснований, отличных от специфичного для гена SMN1 основания выше заранее определенного порога соответствия. Заданное пороговое значение соответствия (или любое пороговое значение данного описания) может составлять или примерно составлять, например, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% или более. Например, пороговое значение соответствия может составлять 97%. Множество оснований, специфичных для гена SMN1 может содержать или примерно содержать 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21 или более специфических для гена SMN1 оснований. Например, множество оснований, специфичных для гена SMN1 может содержать 8 оснований, специфичных для гена SMN1. Каждое из множества оснований, специфичных для гена SMN1 может находиться на интроне 6, экзоне 7, интроне 7 или экзоне 8 гена SMN1. [0115] In some embodiments, the SMN1 gene-specific base is a splicing enhancer. The SMN1 gene-specific base may be the base at c.840 of the SMN1 gene. In some embodiments, the SMN1 gene-specific base has a match with each of a plurality of SMN1 gene-specific bases other than the SMN1 gene-specific base above a predetermined matching threshold. The predetermined compliance threshold (or any threshold value herein) may be or approximately be, for example, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% or more. For example, the matching threshold could be 97%. The plurality of bases specific to the SMN1 gene may contain or approximately contain 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21 or more specific for the SMN1 gene bases. For example, the set of bases specific to the SMN1 gene may contain 8 bases specific to the SMN1 gene. Each of a variety of bases specific to the SMN1 gene may be located on intron 6, exon 7, intron 7, or exon 8 of the SMN1 gene.

[0116] Множество оснований, специфичных для гена SMN1, если субъект принадлежит к первой расе (или этнической принадлежности), множество оснований, специфичных для гена SMN1, если субъект принадлежит к второй расе (или этнической принадлежности), и оснований, специфичных для гена SMN1, если субъект принадлежит к неизвестной расе, могут различаться. Расой может быть, например, европеоид, африканец, афроамериканец, американский индеец, коренной житель Аляски, азиат, южноазиатский житель, восточноазиатский житель, коренной житель Гавайских островов, выходец с островов Тихого океана или их комбинация. Расовая принадлежность (или этническая принадлежность) субъекта может быть неизвестной, а множество оснований, специфичных для гена SMN1, может быть неспецифичным для расы (или этнической принадлежности). Раса (или этническая принадлежность) субъекта может быть известна, и множество оснований, специфичных для гена SMN1, могут быть специфичными для расы (или этнической принадлежности) субъекта. В некоторых вариантах осуществления вычислительная система может принимать информацию о расе (или этнической принадлежности) субъекта. На основе принятой информации о расе (или этнической принадлежности) вычислительная система может выбирать множества оснований, специфичных для гена SMN1 из множества оснований, специфичных для гена SMN1. [0116] A plurality of bases specific to the SMN1 gene if the subject is a first race (or ethnicity), a plurality of bases specific to the SMN1 gene if the subject is a second race (or ethnicity), and a plurality of bases specific to the SMN1 gene , if the subject is of an unknown race, may vary. Race may be, for example, Caucasian, African, African American, American Indian, Alaska Native, Asian, South Asian, East Asian, Native Hawaiian, Pacific Islander, or a combination thereof. The race (or ethnicity) of the subject may be unknown, and the set of bases specific to the SMN1 gene may not be race (or ethnicity) specific. The race (or ethnicity) of the subject may be known, and a plurality of bases specific to the SMN1 gene may be specific to the race (or ethnicity) of the subject. In some embodiments, the computing system may receive information about the race (or ethnicity) of a subject. Based on the received race (or ethnicity) information, the computing system may select sets of bases specific for the SMN1 gene from the plurality of bases specific for the SMN1 gene.

[0117] Способ 800 переходит от этапа 820 к этапу 824, где вычислительная система определяет количество копий гена SMN1 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенного для специфического для гена SMN1 основания. В альтернативном или дополнительном варианте осуществления вычислительная система определяет количество копий гена SMN2 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенного для специфического для гена SMN1 основания. [0117] Method 800 proceeds from step 820 to step 824, where the computing system determines the copy number of the SMN1 gene using the most likely combination of the possible SMN1 gene copy number and the possible SMN2 gene copy number determined for the SMN1 gene-specific base. In an alternative or additional embodiment, the computing system determines the copy number of the SMN2 gene using the most likely combination of the possible SMN1 gene copy number and the possible SMN2 gene copy number determined for the SMN1 gene-specific base.

[0118] В некоторых вариантах осуществления для определения количества копий гена SMN1 компьютерная система может определять количество копий гена SMN1 и количество копий гена SMN2 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенного для каждого из множества оснований, специфичных для гена SMN1. Для определения количества копий вычислительная система может определять количество копий гена SMN1, используя наиболее вероятную комбинацию возможного количества копий гена SMN1 и возможного количества копий определенного гена SMN2 основания, специфичного для гена SMN1 и второго предварительно заданного порога апостериорной вероятности для комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2. Второй предварительно заданный порог апостериорной вероятности (или любой заданный порог апостериорной вероятности данного описания) может составлять или примерно составлять, например, 0,50, 0,51, 0,52, 0,53, 0,54, 0,55, 0,56, 0,57, 0,58, 0,59, 0,60, 0,61, 0,62, 0,63, 0,64, 0,65, 0,66, 0,67, 0,68, 0,69, 0,70, 0,71, 0,72, 0,73, 0,74, 0,75, 0,76, 0,77, 0,78, 0,79, 0,80, 0,81, 0,82, 0,83, 0,84, 0,85, 0,86, 0,87, 0,88, 0,89, 0,90, 0,91, 0,92, 0,93, 0,94, 0,95, 0,96, 0,97, 0,98, 0,99 или более. Например, второй предварительно заданный порог апостериорной вероятности может составлять 0,6 или 0,8. [0118] In some embodiments, to determine the copy number of the SMN1 gene, the computer system may determine the copy number of the SMN1 gene and the copy number of the SMN2 gene using the most likely combination of the possible copy number of the SMN1 gene and the possible copy number of the SMN2 gene determined for each of the plurality of bases, specific for the SMN1 gene. To determine the copy number, the computing system may determine the copy number of the SMN1 gene using the most likely combination of the possible copy number of the SMN1 gene and the possible copy number of a particular SMN2 gene base specific for the SMN1 gene and a second predetermined posterior probability threshold for the combination of the possible copy number of the SMN1 gene and possible number of copies of the SMN2 gene. The second predetermined posterior probability threshold (or any predetermined posterior probability threshold of this description) may be or approximately be, for example, 0.50, 0.51, 0.52, 0.53, 0.54, 0.55, 0. 56, 0.57, 0.58, 0.59, 0.60, 0.61, 0.62, 0.63, 0.64, 0.65, 0.66, 0.67, 0.68, 0.69, 0.70, 0.71, 0.72, 0.73, 0.74, 0.75, 0.76, 0.77, 0.78, 0.79, 0.80, 0, 81, 0.82, 0.83, 0.84, 0.85, 0.86, 0.87, 0.88, 0.89, 0.90, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98, 0.99 or more. For example, the second predefined posterior probability threshold may be 0.6 or 0.8.

[0119] В некоторых вариантах осуществления большинство определенных возможных количеств копий гена SMN1 совпадают. Количество копий определенного гена SMN1 может быть согласованным с возможным количеством копий гена SMN1. Вычислительная система может определить возможную комбинацию, содержащую возможное количество копий гена SMN1 и возможное количество копий гена SMN2, суммированное с количеством копий любого интактного гена SMN, определенных с учетом (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат любое из множества оснований, специфических для гена SMN1, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат любое из множества соответствующих оснований, специфических для гена SMN2. Вычислительная система может определить возможное количество копий возможной комбинации - согласованное возможное количество копий гена SMN1. [0119] In some embodiments, the majority of the determined possible copy numbers of the SMN1 gene are the same. The copy number of a particular SMN1 gene may be consistent with the possible copy number of the SMN1 gene. The computing system may determine a possible combination containing a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene, summed with the number of copies of any intact SMN gene, determined by taking into account (a) the number of sequence reads from a set of sequence reads with bases that contain any of the set bases specific to the SMN1 gene, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain any of a plurality of corresponding bases specific to the SMN2 gene. The computing system can determine the possible number of copies of a possible combination - the agreed upon possible number of copies of the SMN1 gene.

[0120] В некоторых вариантах осуществления для определения количества копий гена SMN1 вычислительная система может определять количество копий гена SMN1, равное нулю, единице или более единицы. В некоторых вариантах осуществления вычислительная система может определить статус спинальной мышечной атрофии (SMA) у субъекта на основе количества копий гена SMN1. Статус SMA для субъекта может включать в себя SMA, носитель SMA/отсутствие SMA и не носитель SMA. В некоторых вариантах осуществления вычислительная система может определить субъекта как молчащего носителя SMA с использованием ряда прочтений последовательности из множества прочтений последовательностей, выровненных с g.27134 гена SMN1, и на основе прочтений последовательностей, выровненных с g.27134 гена SMN1. [0120] In some embodiments, to determine the copy number of the SMN1 gene, the computing system may determine the copy number of the SMN1 gene to be zero, one, or greater than one. In some embodiments, the computing system may determine a subject's spinal muscular atrophy (SMA) status based on the copy number of the SMN1 gene. The SMA status for a subject may include SMA, SMA carrier/no SMA carrier, and non-SMA carrier. In some embodiments, a computing system may determine a subject to be a silent carrier of SMA using a set of sequence reads from a plurality of sequence reads aligned to g.27134 of the SMN1 gene, and based on sequence reads aligned to g.27134 of the SMN1 gene.

[0121] Например, вычислительная система на этапе 820 может определить соотношение количества прочтений SMN1 к SMN2, перекрывающихся местоположений, где гены имеют разные основания последовательности. Для позиций, в которых SMN1 отличается от SMN2, вычислительная система может проводить прочтения, которые перекрываются либо на основании SMN1, либо SMN2. На основе этих прочтений вычислительная система может подсчитывать количество специфичных для SMN1 оснований и количество специфичных для SMN2 оснований. Вычислительная система может определить долю прочтений SMN1 или SMN2. Вычислительная система может вычислить количество копий SMN1 и SMN2 в позициях, в которых SMN1 отличается от SMN2. Вычислительная система может комбинировать количество полноразмерных копий с соотношением SMN1 к SMN2 для определения количества копий SMN1 и SMN2. Вычислительная система на этапе 824 может комбинировать количество копий из множества фиксированных различий между SMN1 и SMN2 для получения точного количества копий SMN1 и SMN2. [0121] For example, the computing system at step 820 may determine the ratio of SMN1 to SMN2 reads of overlapping locations where genes have different sequence bases. For positions at which SMN1 differs from SMN2 , the computing system may produce reads that overlap based on either SMN1 or SMN2 . Based on these reads, the computing system can count the number of SMN1- specific bases and the number of SMN2- specific bases. The computing system can determine the proportion of SMN1 or SMN2 reads. The computing system can calculate the number of copies of SMN1 and SMN2 at positions where SMN1 differs from SMN2 . The computing system may combine the number of full-length copies with the ratio of SMN1 to SMN2 to determine the copy number of SMN1 and SMN2 . The computing system at step 824 may combine the copy number from the plurality of fixed differences between SMN1 and SMN2 to obtain the exact copy number of SMN1 and SMN2 .

[0122] Для определения SMA/отсутствия SMA или носительства/отсутствия носительства. В некоторых вариантах осуществления вычислительная система может определять количество копий укороченного(-ых) гена(-ов) SMN с использованием (i) количества копий общего(-ых) определенного(-ых) гена(-ов) SMN и (ii) количества копий интактного(-ых) гена(-ов) SMN. Количество копий укороченного(-ых) гена(-ов) SMN может представлять собой разницу (i) количества копий общего(-ых) гена(-ов) SMN и (ii) количества копий интактного(-ых) гена(-ов) SMN. [0122] To determine SMA/no SMA or carrier/no carrier . In some embodiments, the computing system may determine the copy number of the truncated SMN gene(s) using (i) the copy number of the total specific SMN gene(s) and (ii) the copy number intact SMN gene(s). The copy number of the truncated SMN gene(s) may be the difference of (i) the copy number of the common SMN gene(s) and (ii) the copy number of the intact SMN gene(s ) .

[0123] Обработка. В некоторых вариантах осуществления вычислительная система может определять рекомендацию по лечению для субъекта на основании определенного количества копий гена SMN1. Рекомендация по лечению может включать введение субъекту Nusinersen и/или Zolgensma. [0123] Processing . In some embodiments, the computing system may determine a treatment recommendation for a subject based on a certain copy number of the SMN1 gene. The treatment recommendation may include administering Nusinersen and/or Zolgensma to the subject.

[0124] Способ 800 заканчивается этапом 828. [0124] Method 800 ends at step 828.

Генотипирование гена члена 6 подсемейства D семейства 2 цитохрома Р450 с использованием данных секвенированияGenotyping of the cytochrome P450 family 2 subfamily D member 6 gene using sequencing data

[0125] На ФИГ. 9 представлена блок-схема, показывающая пример способа 900 генотипирования гена члена 6 подсемейства D семейства 2 цитохрома Р450 с использованием данных секвенирования, таких как данные секвенирования целого генома. Способ 900 может быть реализован в виде набора исполняемых программных команд, хранящихся на машиночитаемом носителе, таком как один или более дисководов вычислительной системы. Например, вычислительная система 1100, показанная на ФИГ. 11 и более подробно описанная ниже, может выполнять набор исполняемых программных команд для реализации способа 900. При инициировании способа 900 исполняемые программные команды могут быть загружены в запоминающее устройство, такое как RAM, и выполнены одним или более процессорами вычислительной системы 1100. Хотя способ 900 описан в отношении вычислительной системы 1100, показанной на ФИГ. 11, описание приводится только в качестве иллюстрации и не носит ограничительного характера. В некоторых вариантах осуществления способ 900 или его фрагменты могут быть выполнены последовательно или параллельно множеством вычислительных систем. [0125] In FIG. 9 is a flow diagram showing an example method 900 of genotyping a cytochrome P450 family 2 subfamily D member 6 gene using sequencing data, such as whole genome sequencing data. Method 900 may be implemented as a set of executable program instructions stored on a computer-readable medium, such as one or more computer system disk drives. For example, the computing system 1100 shown in FIG. 11 and described in more detail below, may execute a set of executable program instructions to implement method 900. When method 900 is initiated, the executable program instructions may be loaded into a storage device, such as RAM, and executed by one or more processors of the computing system 1100. Although method 900 is described with respect to the computing system 1100 shown in FIG. 11, the description is provided for illustrative purposes only and is not intended to be limiting. In some embodiments, method 900 or portions thereof may be performed sequentially or in parallel by multiple computing systems.

[0126] Количество прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей), сопоставленных с геном CYP2D6 или геном CYP2D7, можно использовать для определения общего количества копий (CN) гена CYP2D6 и гена CYP2D7, с использованием модели смеси нормальных распределений. Общее количество копий гена CYP2D6 и гена CYP2D7 можно использовать для определения количества копий CYP2D6 при различных дифференцирующих основаниях CYP2D6/CYP2D7 (в данном документе также называемых основаниями, специфичными для гена CYP2D6) путем повторения всех возможных комбинаций количества копий CYP2D6 и CYP2D7 при дифференцирующих основаниях CYP2D6/CYP2D7. Для обозначения структурных вариантов можно использовать количество копий CYP2D6 при различных дифференцирующих основаниях CYP2D6/CYP2D7. Например, в каждом из дифференцирующих оснований CYP2D6/CYP2D7 (также называемых в данном документе основаниями, специфичными для гена CYP2D6) число хромосом, несущих ген CYP2D6, и число хромосом, несущих ген CYP2D7, можно определять путем комбинирования общего количества копий гена CYP2D6 и гена CYP2D7 с количеством прочтений, поддерживающим основание, специфичное для каждого гена. На основе определенного общего количества копий все возможные комбинации количества копий CYP2D6 и CYP2D7 могут быть повторены, чтобы получить комбинацию, которая дает самую высокую апостериорную вероятность для наблюдаемого количества прочтений CYP2D6 и CYP2D7. Структурные варианты можно определить путем идентификации оснований, в которых изменяется количество копий гена CYP2D6. [0126] The number of sequence reads (eg, unnormalized or normalized number of sequence reads) mapped to a CYP2D6 gene or a CYP2D7 gene can be used to determine the total copy number (CN) of the CYP2D6 gene and the CYP2D7 gene, using a mixture normal distribution model. The total copy number of the CYP2D6 gene and the CYP2D7 gene can be used to determine the copy number of CYP2D6 at different CYP2D6 / CYP2D7 differentiating bases (also referred to herein as CYP2D6 gene-specific bases) by repeating all possible combinations of CYP2D6 and CYP2D7 copy numbers at different CYP2D6/CYP2D7 differentiating bases. CYP2D7 . CYP2D6 copy number at different CYP2D6 / CYP2D7 differentiating bases can be used to designate structural variants. For example, at each of the CYP2D6/CYP2D7 differentiating bases (also referred to herein as CYP2D6 gene-specific bases), the number of chromosomes carrying the CYP2D6 gene and the number of chromosomes carrying the CYP2D7 gene can be determined by combining the total copy number of the CYP2D6 gene and the CYP2D7 gene with the number of reads supporting a base specific to each gene. Based on the determined total copy number, all possible combinations of CYP2D6 and CYP2D7 copy numbers can be repeated to obtain the combination that gives the highest posterior probability for the observed CYP2D6 and CYP2D7 read counts. Structural variants can be identified by identifying the bases at which the copy number of the CYP2D6 gene changes.

[0127] Можно определить один или более малых вариантов. Малые варианты могут быть определены, для каждого положения малого варианта малого варианта путем повторения всех возможных комбинаций количества копий вариантного аллеля и эталонного (невариантного) аллеля, чтобы определить наиболее вероятное количество копий аллеля, используя прочтение последовательности с положением малого варианта в гене CYP2D6 или CYP2D7. Например, при наличии всего трех копий гена CYP2D6 и 10 прочтений вариантного аллеля, и 20 прочтений эталонного аллеля, можно определить, что количество копий вариантного аллеля может быть определено как одно, т. е. существует одна копия гена CYP2D6, несущего малый вариант. Например, можно выполнять поиск малых вариантов, определяющих звездчатые аллели в данных секвенирования (например, в файле BAM). Интересующие малые варианты можно разделить на варианты, которые попадают в гомологичные области CYP2D6/CYP2D7, и варианты, которые не попадают. Для первых, прочтение варианта, выровненного с геном CYP2D6 или геном CYP2D7, перекрывающие каждое положение малого варианта интересующего гена CYP2D6 или соответствующее положение в гене CYP2D7, могут быть найдены. В последнем случае прочтения, выровненные с геном CYP2D6 и перекрывающие положение малого варианта интересующего гена CYP2D6, могут быть найдены. Количество копий определенное в области, также может быть учтено при определении малых вариантов. Определенные структурные варианты и малые варианты могут быть сопоставлены с определением звездчатых аллелей, чтобы определить звездчатые аллели, которые можно дополнительно группировать в гаплотипы. [0127] One or more minor variants may be defined. Minor variants can be determined, for each minor variant minor variant position, by repeating all possible copy number combinations of the variant allele and the reference (non-variant) allele to determine the most likely allele copy number using the sequence read with the minor variant position in the CYP2D6 or CYP2D7 gene. For example, if there are only three copies of the CYP2D6 gene and 10 reads of the variant allele, and 20 reads of the reference allele, the copy number of the variant allele can be determined to be one, i.e., there is one copy of the CYP2D6 gene carrying the minor variant. For example, you can search for small variants that define star alleles in sequencing data (for example, a BAM file). The small variants of interest can be divided into variants that fall within the homologous regions of CYP2D 6/CYP2D7 and variants that do not. For the former, variant reads aligned to the CYP2D6 gene or the CYP2D7 gene, overlapping each position of the small variant of the CYP2D6 gene of interest or the corresponding position in the CYP2D7 gene, can be found. In the latter case, reads aligned to the CYP2D6 gene and overlapping the position of a small variant of the CYP2D6 gene of interest can be found. The number of copies defined in an area can also be taken into account when defining small variants. Specific structural variants and minor variants can be compared to star allele definitions to identify star alleles that can be further grouped into haplotypes.

[0128] После того как способ 900 начинается с этапа 904, способ 900 переходит к этапу 908, где вычислительная система (например, вычислительная система 1100, описанная со ссылкой на ФИГ. 11) определяет (i) первое количество прочтений последовательностей из множества прочтений последовательностей, выровненных с геном члена 6 подсемейства D семейства 2 цитохрома P450 (CYP2D6) или геном члена 7 подсемейства D семейства 2 цитохрома P450 (CYP2D7). Первое количество прочтений последовательностей, выровненных с первым геном CYP2D6 или геном CYP2D7 (или любым геном данного описания), может составлять или примерно составлять, например, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000 или более). [0128] After method 900 begins at step 904, method 900 proceeds to step 908, where a computing system (e.g., computing system 1100 described with reference to FIG. 11) determines (i) a first number of sequence reads from a plurality of sequence reads , aligned with the cytochrome P450 family 2 subfamily D member 6 gene ( CYP2D6 ) or the cytochrome P450 family 2 subfamily D member 7 gene ( CYP2D7 ). The first number of sequence reads aligned to the first CYP2D6 gene or CYP2D7 gene (or any gene herein) may be or approximately 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 , 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000 or more).

[0129] Вычислительная система может принимать данные секвенирования, содержащие множество прочтений последовательностей, полученных от образца от субъекта, выровненных с геном CYP2D6 или геном CYP2D7. В некоторых вариантах осуществления данные секвенирования содержат данные секвенирования целого генома (WGS) или данные WGS с помощью коротких прочтений. Субъект может являться субъектом-плодом, неонатальным субъектом, педиатрическим субъектом, субъектом-подростком или взрослым субъектом. Образец может содержать клетки или внеклеточную ДНК. Образец может содержать клетки или внеклеточную ДНК. [0129] The computing system may receive sequencing data containing multiple sequence reads obtained from a sample from a subject aligned to the CYP2D6 gene or the CYP2D7 gene. In some embodiments, the sequencing data comprises whole genome sequencing (WGS) data or short-read WGS data. The subject may be a fetal subject, a neonatal subject, a pediatric subject, an adolescent subject, or an adult subject. The sample may contain cells or extracellular DNA. The sample may contain cells or extracellular DNA.

[0130] В некоторых вариантах осуществления прочтение последовательности из множестве прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, при этом показатель качества выравнивания составляет около нуля. Качество выравнивания может составлять, например, 0, 0,01, 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09, 0,10 или более (по шкале от 0 до 1 от оценки выравнивания). [0130] In some embodiments, a sequence read from a plurality of sequence reads aligned to a CYP2D6 gene or a CYP2D7 gene with an alignment quality score of about zero. The alignment quality may be, for example, 0, 0.01, 0.02, 0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09, 0.10 or more (on a scale of 0 to 1 from the alignment score).

[0131] В некоторых вариантах осуществления для определения (i) первого количества прочтений последовательностей из множества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, вычислительная система может определять (i) первое количество прочтений последовательностей из множества прочтений последовательностей, выровненных по меньшей мере с одним экзоном или интроном гена CYP2D6 (например, одним из экзонов 1-9 или одним из интронов 1-8 гена CYP2D6) и/или по меньшей мере с одним из экзонов или интронов гена CYP2D7 (например, одним из экзонов 1-9 или одним из интронов 1-8 гена CYP2D7). [0131] In some embodiments, to determine (i) a first number of sequence reads from a plurality of sequence reads aligned to a CYP2D6 gene or a CYP2D7 gene, a computing system may determine (i) a first number of sequence reads from a plurality of sequence reads aligned to at least one exon or intron of the CYP2D6 gene (for example, one of exons 1-9 or one of introns 1-8 of the CYP2D6 gene) and/or at least one of the exons or introns of the CYP2D7 gene (for example, one of exons 1-9 or one from introns 1-8 of the CYP2D7 gene).

[0132] Способ 900 переходит от этапа 908 к этапу 912, где вычислительная система определяет (i) первое нормализованное количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с применением (i) длины гена CYP2D6 или гена CYP2D7 соответственно. Первое нормализованное количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7 (или любым геном данного описания), может составлять или примерно составлять, например, 1, 2, 3, 4, 5, 6, 7, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. Длина гена CYP2D6 может составлять или примерно составлять, например, 4,4 т. п. н. Длина гена CYP2D7 может составлять или примерно составлять, например, 4,9 т. п. н. [0132] Method 900 proceeds from step 908 to step 912, where the computing system determines (i) the first normalized number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene using (i) the length of the CYP2D6 gene or the CYP2D7 gene, respectively. The first normalized number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene (or any gene herein) may be or approximately be, for example, 1, 2, 3, 4, 5, 6, 7, 9, 10, 20, 30 , 40, 50, 60, 70, 80, 90, 100 or more. The length of the CYP2D6 gene may be or approximately 4.4 kb, for example. The length of the CYP2D7 gene may be or approximately 4.9 kb, for example.

[0133] В некоторых вариантах осуществления для определения (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, вычислительная система может определять (i) первое нормализованное количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с использованием (i) длины гена CYP2D6 или гена CYP2D7, соответственно, и (iii) глубину прочтения последовательности области генома субъекта, отличной от генетических локусов, содержащих ген CYP2D6 и ген CYP2D7 по данным секвенирования. Глубина прочтения последовательностей области генома субъекта, за исключением генетических локусов, содержащих ген CYP2D6 и ген CYP2D7 (или любые гены данного описания), в данных секвенирования может составлять или примерно составлять, например, 3, 4, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. [0133] In some embodiments, to determine (i) the first normalized read count of the sequences aligned to the CYP2D6 gene or the CYP2D7 gene, the computing system may determine (i) the first normalized read count of the sequences aligned to the CYP2D6 gene or the CYP2D7 gene using ( i) the length of the CYP2D6 gene or the CYP2D7 gene, respectively, and (iii) the sequence read depth of a region of the subject's genome other than the genetic loci containing the CYP2D6 gene and the CYP2D7 gene as determined by sequencing. The sequence read depth of a region of a subject's genome, excluding genetic loci containing the CYP2D6 gene and the CYP2D7 gene (or any genes herein), in the sequencing data may be or approximately equal to, for example, 3, 4, 5, 10, 20, 30, 40 , 50, 60, 70, 80, 90, 100 or more.

[0134] Для определения (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, и (ii) второго нормализованного количества прочтений последовательностей, выровненных со второй областью, вычислительная система может определять (i) первое нормализованное количество прочтений по длине гена CYP2D6 или гена CYP2D7 последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с применением (i) длины гена CYP2D6 или гена CYP2D7 соответственно. Вычислительная система может определять (i) первую нормализованную глубину прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, из (i) прочтения нормализованного по длине гена CYP2D6 или CYP2D7, с применением глубины прочтения последовательностей области генома субъекта, отличных от генетических локусов, содержащих ген CYP2D6 и CYP2D7. Первая нормализованная глубина прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, может представлять собой первое нормализованное количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7 соответственно. [0134] To determine (i) a first normalized number of sequence reads aligned to the CYP2D6 gene or a CYP2D7 gene, and (ii) a second normalized number of sequence reads aligned to the second region, the computing system may determine (i) a first normalized number of reads by length CYP2D6 gene or CYP2D7 gene sequences aligned to the CYP2D6 gene or CYP2D7 gene, using (i) the length of the CYP2D6 gene or CYP2D7 gene, respectively. The computing system may determine (i) a first normalized read depth of sequences aligned to a CYP2D6 gene or a CYP2D7 gene from (i) a length-normalized read of a CYP2D6 or CYP2D7 gene, using the read depth of sequences of a region of the subject's genome other than the genetic loci containing the gene CYP2D6 and CYP2D7 . The first normalized read depth of sequences aligned to a CYP2D6 gene or a CYP2D7 gene may be the first normalized read depth of sequences aligned to a CYP2D6 gene or a CYP2D7 gene, respectively.

[0135] В некоторых вариантах осуществления для определения (i) первого нормализованного количества прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, вычислительная система может определять (i) первое нормализованное количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с применением(i) содержания GC в гене CYP2D6 или гене CYP2D7 и (iii) глубины прочтения последовательностей в области генома субъекта, за исключением генетических локусов, содержащих ген CYP2D6 и ген CYP2D7, по данным секвенирования, и (iv) содержание GC в области генома. Содержание GC в гене CYP2D6 или гене CYP2D7 (или любом гене данного описания) может составлять или примерно составлять, например, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 49%, 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59% или 60%. Глубина прочтения последовательности области генома субъекта, за исключением генетических локусов, содержащих ген CYP2D6 и ген CYP2D7, по данным секвенирования может быть или примерно равно, например, 3, 4, 5, 10, 20, 30, 40, 50, 100 или более. Содержание GC в области генома субъекта, за исключением генетических локусов, содержащих ген CYP2D6 и ген CYP2D7 (или любые гены данного описания), по данным секвенирования может составлять или примерно составлять, например, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 49%, 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59% или 60%. [0135] In some embodiments, to determine (i) the first normalized number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene, the computing system may determine (i) the first normalized number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene using ( i) the GC content of the CYP2D6 gene or the CYP2D7 gene and (iii) the depth of sequence reads in the subject's genomic region, excluding genetic loci containing the CYP2D6 gene and the CYP2D7 gene, as determined by sequencing, and (iv) the GC content of the genomic region. The GC content of the CYP2D6 gene or the CYP2D7 gene (or any gene herein) may be or approximately be, for example, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 49%, 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59% or 60%. The sequence read depth of a region of a subject's genome, excluding genetic loci containing the CYP2D6 gene and the CYP2D7 gene, as determined by sequencing may be or approximately equal to, for example, 3, 4, 5, 10, 20, 30, 40, 50, 100, or more. The GC content of a region of a subject's genome, excluding genetic loci containing the CYP2D6 gene and the CYP2D7 gene (or any genes herein), as determined by sequencing may be or approximately be, for example, 40%, 41%, 42%, 43%, 44 %, 45%, 46%, 47%, 48%, 49%, 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59% or 60%.

[0136] Глубина области может представлять собой среднюю глубину прочтения последовательностей области генома субъекта, за исключением генетических локусов, содержащих ген CYP2D6 и ген CYP2D7, по данным секвенирования. Глубина области может включать медианную глубину прочтения последовательностей области генома субъекта, за исключением генетических локусов, содержащих ген CYP2D6 и ген CYP2D7, по данным секвенирования. Глубина области может составлять или примерно составлять приблизительно 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. Длина области может содержать примерно 500, 1000, 1500, 2000, 2500, 3000, 3500, 4000 или более предварительно выбранных областей длиной примерно 0,5 т. п. н., 1 т. п. н., 1,5 т. п. н., 2 т. п. н., 2,5 т. п. н. или 3 т. п. н. в каждой по всему геному субъекта. Например, область может содержать примерно 3000 предварительно выбранных областей длиной примерно 2 т. п. н. в каждой по всему геному субъекта. [0136] The region depth may be the average sequence read depth of a region of the subject's genome, excluding the genetic loci containing the CYP2D6 gene and the CYP2D7 gene, as determined by sequencing data. Region depth may include the median sequence read depth of a region of a subject's genome, excluding genetic loci containing the CYP2D6 gene and the CYP2D7 gene, as determined by sequencing data. The depth of the region may be or be approximately 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 or more. The region length may comprise approximately 500, 1000, 1500, 2000, 2500, 3000, 3500, 4000 or more preselected regions of approximately 0.5 kb, 1 kb, 1.5 k in length. bp, 2 kb, 2.5 kb or 3 kb. in each throughout the subject's genome. For example, a region may contain approximately 3000 preselected regions of approximately 2 kb in length. in each throughout the subject's genome.

[0137] В некоторых вариантах осуществления (i) первое нормализованное количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, и/или (ii) второе нормализованное количество прочтений последовательностей, выровненных со второй областью, составляет или составляет примерно 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. Например, (i) первое нормализованное количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, и/или (ii) второе нормализованное количество прочтений последовательностей, выровненных со второй областью, составляет от примерно 30 до примерно 40. [0137] In some embodiments, (i) the first normalized number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene, and/or (ii) the second normalized number of sequence reads aligned to the second region is or is about 10, 20, 30 , 40, 50, 60, 70, 80, 90, 100 or more. For example, (i) the first normalized number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene, and/or (ii) the second normalized number of sequence reads aligned to the second region is from about 30 to about 40.

[0138] Способ 900 переходит от этапа 912 к этапу 916, где вычислительная система определяет (i) общее количество копий гена CYP2D6 и гена CYP2D7 с использованием модели смеси нормальных распределений, содержащей множество распределений, каждое из которых представляет разное целое число копий, учитывая (i) первое нормализованное количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7. Общее количество копий гена CYP2D6 и гена CYP2D7 (или любых генов данного описания) может составлять или составлять примерно 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более. [0138] Method 900 proceeds from step 912 to step 916, where the computing system determines (i) the total copy number of the CYP2D6 gene and the CYP2D7 gene using a mixture normal distribution model containing a plurality of distributions, each representing a different integer copy number, given ( i) the first normalized number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene. The total copy number of the CYP2D6 gene and the CYP2D7 gene (or any genes herein) may be or be about 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more.

[0139] В некоторых вариантах осуществления модель смеси нормальных распределений представляет собой одномерную модель смеси нормальных распределений. Множество распределений модели смеси нормальных распределений могут представлять целые числа копий, например от 0 до 5, от 0 до 6, от 0 до 7, от 0 до 8, от 0 до 9, от 0 до 10, от 0 до 11, от 0 до 12, от 0 до 13, от 0 до 14 или от 0 до 15. Например, множество распределений модели смеси нормальных распределений могут представлять целые числа копий от 0 до 10. Среднее значение (например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более) каждого из множества распределений может представлять собой целое количество копий, представленное распределением (например, количество копий 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более). Стандартное отклонение распределений может составлять или примерно составлять, например, 0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, 0,9, 1 или более. [0139] In some embodiments, the mixture normal distribution model is a one-dimensional mixture normal distribution model. The set of normal distribution model distributions can represent integer copy numbers, for example, 0 to 5, 0 to 6, 0 to 7, 0 to 8, 0 to 9, 0 to 10, 0 to 11, 0 to 12, 0 to 13, 0 to 14, or 0 to 15. For example, a set of mixture normal distribution model distributions can represent integer copy numbers from 0 to 10. The mean (for example, 1, 2, 3, 4, 5 , 6, 7, 8, 9, 10, or more) of each of the plurality of distributions may be an integer number of copies represented by the distribution (e.g., copy number 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more). The standard deviation of the distributions may be or approximately be, for example, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1 or more .

[0140] В некоторых вариантах осуществления для определения (i) общего количества копий гена CYP2D6 и гена CYP2D7 вычислительная система может определять (i) общее количество копий гена CYP2D6 и гена CYP2D7 с помощью модели смеси нормальных распределений и первого предварительно заданного порога апостериорной вероятности, учитывая (i) первое нормализованное количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7. Первый заданный порог апостериорной вероятности (или любой заданный порог апостериорной вероятности данного описания) может составлять или примерно составлять, например, 0,80, 0,81, 0,82, 0,83, 0,84, 0,85, 0,86, 0,87, 0,88, 0,89, 0,90, 0,91, 0,92, 0,93, 0,94, 0,95, 0,96, 0,97, 0,98, 0,99 или более. Например, первый предварительно определенный порог апостериорной вероятности может составлять 0,95. [0140] In some embodiments, to determine (i) the total copy number of the CYP2D6 gene and the CYP2D7 gene, the computing system may determine (i) the total copy number of the CYP2D6 gene and the CYP2D7 gene using a mixture of normal distributions model and a first predefined posterior probability threshold, given (i) the first normalized number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene. The first predetermined posterior probability threshold (or any given posterior probability threshold of a given description) may be or approximately be, for example, 0.80, 0.81, 0.82, 0.83, 0.84, 0.85, 0.86 , 0.87, 0.88, 0.89, 0.90, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98, 0 .99 or more. For example, the first predetermined posterior probability threshold may be 0.95.

[0141] Способ 900 переходит от этапа 916 к этапу 920, где вычислительная система определяет для одного из множества оснований, специфичных для гена CYP2D6 (также называемых в данном документе дифференцирующими основаниями CYP2D6/CYP2D7) наиболее вероятную комбинацию из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, суммированное с общим количеством копий гена CYP2D6 и определенным геном CYP2D7, учитывая (a) количество прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей) из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количество прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей) из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию. Возможное количество копий гена CYP2D6 может составлять или составлять примерно, например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более. Возможное количество копий гена CYP2D7 может составлять или составлять примерно, например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более. [0141] Method 900 proceeds from step 916 to step 920, where the computing system determines, for one of a plurality of CYP2D6 gene-specific bases (also referred to herein as CYP2D6 / CYP2D7 differentiating bases), the most likely combination from a plurality of possible combinations, each of which contains a possible number of copies of a CYP2D6 gene and a possible number of copies of a CYP2D7 gene, summed with the total number of copies of a CYP2D6 gene and a particular CYP2D7 gene, taking into account (a) the number of sequence reads (e.g., unnormalized or normalized number of sequence reads) from the set of sequence reads with bases that contain a CYP2D6 gene-specific base, and (b) the number of sequence reads (eg, non-normalized or normalized number of sequence reads) from the set of sequence reads with bases that contain a CYP2D7 gene-specific base corresponding to a CYP2D6 gene-specific base. The possible number of copies of the CYP2D6 gene may be or be about, for example, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more. The possible number of copies of the CYP2D7 gene may be or be about, for example, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more.

[0142] В некоторых вариантах осуществления наиболее вероятная комбинация возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7 связана с самой высокой апостериорной вероятностью, по сравнению с другими комбинациями множества комбинаций с заданным (a) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфическое для гена CYP2D6 основание, и (b) количество прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат соответствующее специфическое для гена CYP2D7 основание. Самая высокая апостериорная вероятность (или любая вероятность данного описания) может составлять или примерно составлять, например, 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% или более. Различие в апостериорной вероятности (или любой вероятности данного описания) может составлять или примерно составлять, например, 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30% или более. [0142] In some embodiments, the most likely combination of a possible CYP2D6 gene copy number and a possible CYP2D7 gene copy number is associated with the highest posterior probability, compared to other combinations of the plurality of combinations given (a) the number of sequence reads from the plurality of sequence reads with bases, that contain a CYP2D6 gene-specific base, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain the corresponding CYP2D7 gene-specific base. The highest posterior probability (or any probability of a given description) may be or approximately be, for example, 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70 %, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% or more. The difference in posterior probability (or any probability of a given description) may be or approximately equal to, for example, 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11 %, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30% or more.

[0143] В некоторых вариантах осуществления для определения наиболее вероятной комбинации, содержащей возможное количество копий гена CYP2D6 и возможное количество копий, вычислительная система может определять наиболее вероятную комбинацию из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, суммированное с общим количеством копий гена CYP2D6 и определенным геном CYP2D7, учитывая соотношение (a) количества прочтений последовательности при прочтениях множества последовательностей с основаниями, которые содержат специфическое для гена CYP2D6 основание, и (b) количества прочтений последовательности при прочтениях множества последовательностей с основаниями, которые содержат специфическое для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию. Чтобы определить наиболее вероятную комбинацию, включающую возможное количество копий гена CYP2D6 и возможное количество копий, вычислительная система может определить (а) количество прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфическое для гена CYP2D6 основание, и (b) из множества прочтений последовательностей с основаниями, которые содержат специфическое для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию. Вычислительная система может определять соотношение (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию. Вычислительная система может определять наиболее вероятную комбинацию из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, суммированное с общим количеством копий гена CYP2D6 и определенным геном CYP2D7, с учетом соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D7 основание, соответствующее специфичному для гена CYP2D6 основанию. [0143] In some embodiments, to determine the most likely combination containing a possible number of copies of the CYP2D6 gene and a possible number of copies of the CYP2D6 gene, the computing system may determine the most likely combination from a plurality of possible combinations, each of which contains a possible number of copies of the CYP2D6 gene and a possible number of copies of the gene CYP2D7 , summed with the total copy number of the CYP2D6 gene and a specific CYP2D7 gene, taking into account the ratio of (a) the number of sequence reads in multiple sequence reads with bases that contain a CYP2D6 gene-specific base, and (b) the number of sequence reads in multiple sequence reads with bases , which contain a CYP2D7 gene-specific base corresponding to a CYP2D6 gene-specific base. To determine the most likely combination involving the possible copy number of the CYP2D6 gene and the possible copy number, the computing system can determine (a) the number of sequence reads from a set of sequence reads with bases that contain a CYP2D6 gene-specific base, and (b) from a set of sequence reads with bases that contain a CYP2D7 gene-specific base corresponding to a CYP2D6 gene-specific base. The computing system may determine the ratio of (a) the number of sequence reads from a plurality of sequence reads with bases that contain a CYP2D6 gene-specific base, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain a CYP2D7 gene-specific base corresponding to a CYP2D7 gene-specific base. for the CYP2D6 gene base. The computing system may determine the most likely combination from a plurality of possible combinations, each containing a possible number of copies of the CYP2D6 gene and a possible number of copies of the CYP2D7 gene, summed with the total number of copies of the CYP2D6 gene and the particular CYP2D7 gene, taking into account the ratio of (a) the number of sequence reads from a plurality of sequence reads with bases that contain a CYP2D6 gene-specific base, and (b) a number of sequence reads from the plurality of sequence reads with bases that contain a CYP2D7 gene-specific base corresponding to a CYP2D6 gene-specific base.

[0144] В некоторых вариантах осуществления для определения наиболее вероятной комбинации возможного количества копий гена CYP2D6 и возможной комбинации гена CYP2D7 вычислительная система определяет для каждого из множества оснований, специфичных для гена CYP2D6: наиболее вероятная комбинация из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена CYP2D6 и возможное количество копий гена CYP2D7, суммированное с общим количеством копий определенного гена CYP2D6 и гена CYP2D7, которая связана с наибольшей апостериорной вероятностью, заданной (a) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена CYP2D6 основание, и (b) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат CYP2D7 ген-специфическое основание гена CYP2D7 соответствующее специфичному для гена CYP2D6 основанию. Количество прочтений последовательностей, выровненных с специфичным для гена SMN1 основанием (или специфичным для гена SMN2 основанием), может составлять или примерно составлять, например, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. Для определения аллеля гена CYP2D6 у субъекта вычислительная система может определить аллель гена CYP2D6, который у субъекта имеется малый вариант или структурный вариант гена CYP2D6, или ни один из них, используя наиболее вероятную комбинацию возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенного для каждого из множества оснований, специфических для гена CYP2D6. [0144] In some embodiments, to determine the most likely combination of a possible number of copies of a CYP2D6 gene and a possible combination of a CYP2D7 gene, the computing system determines, for each of a plurality of bases specific to the CYP2D6 gene: the most likely combination of a plurality of possible combinations, each of which contains a possible number copies of the CYP2D6 gene and the possible number of copies of the CYP2D7 gene, summed with the total number of copies of a particular CYP2D6 gene and the CYP2D7 gene, which is associated with the largest posterior probability given by (a) the number of sequence reads from the set of sequence reads with bases that contain the CYP2D6 gene-specific base , and (b) the number of sequence reads from a plurality of sequence reads with bases that contain a CYP2D7 gene-specific base of the CYP2D7 gene corresponding to a CYP2D6 gene-specific base. The number of sequence reads aligned to an SMN1 gene-specific base (or an SMN2 gene-specific base) may be or approximately, for example, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 or more. To determine the allele of the CYP2D6 gene in a subject, the computing system may determine the allele of the CYP2D6 gene that the subject has a minor variant, a structural variant of the CYP2D6 gene, or neither, using the most likely combination of the possible copy number of the CYP2D6 gene and the possible copy number of the CYP2D7 gene, determined for each of the many bases specific to the CYP2D6 gene.

[0145] В некоторых вариантах осуществления специфичное для гена CYP2D6 основание имеет соответствие с каждым из множества специфичных для гена CYP2D6 оснований, за исключением специфичного для гена CYP2D6 основания, при превышении заданного порогового значения соответствия. Порог соответствия (или любой порог данного описания) может составлять или составлять примерно, например, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% или более. Например, предварительно заданное пороговое значение соответствия может составлять 97%. Множество оснований, специфичных для гена CYP2D6 может содержать или содержать примерно, например, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 118, 120, 130, 140, 150, 160, 170 или более специфических для гена CYP2D6 оснований. Например, множество оснований, специфичных для гена CYP2D6 может содержать 118 оснований, специфичных для гена CYP2D6. [0145] In some embodiments, the CYP2D6 gene-specific base has a match with each of a plurality of CYP2D6 gene-specific bases, except for the CYP2D6 gene-specific base, above a predetermined match threshold. The compliance threshold (or any threshold of this description) may be or be approximately, for example, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% or more. For example, a predefined compliance threshold could be 97%. The plurality of bases specific to the CYP2D6 gene may contain or contain approximately, for example, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 118, 120, 130, 140, 150, 160, 170 or more specific bases for the CYP2D6 gene. For example, a set of bases specific for the CYP2D6 gene may contain 118 bases specific for the CYP2D6 gene.

[0146] Способ 900 переходит от этапа 920 к этапу 924, в котором вычислительная система определяет один или более структурных вариантов гена CYP2D6, имеющегося у субъекта, используя наиболее вероятную комбинацию возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенного для основания, специфичного для гена CYP2D6. Например, вычислительная система может определить соотношение количества прочтений CYP2D6 к CYP2D7, перекрывающихся местоположений, где гены имеют разные основания последовательности Для позиций, в которых CYP2D6 отличается от CYP2D7, вычислительная система может проводить прочтения, которые перекрываются либо на основании CYP2D6, либо CYP2D7. На основе этих прочтений вычислительная система может подсчитывать количество специфичных для CYP2D6 оснований и количество специфичных для CYP2D7 оснований. Вычислительная система может определять долю прочтений CYP2D6 или CYP2D7. Вычислительная система может вычислить количество копий CYP2D6 и CYP2D7 в позициях, в которых CYP2D6 отличается от CYP2D7. Вычислительная система может комбинировать общее количество копий CYP2D6 и CYP2D7 с соотношением CYP2D6 и CYP2D7, чтобы определить количество копий CYP2D6 и CYP2D7. Вычислительная система может определять малые варианты, используя количество копий CYP2D6 и CYP2D7 при одном или более фиксированных различиях между CYP2D6 и CYP2D7. Вычислительная система может проводить определение структурных вариантов путем комбинирования количества копий CYP2D6 и CYP2D7 при множественных фиксированных различиях между CYP2D6 и CYP2D7, чтобы определить наличие перехода между количеством копий CYP2D6 и CYP2D7, который определяет тип структурного варианта, находящегося в образце. [0146] Method 900 proceeds from step 920 to step 924, in which the computing system determines one or more structural variants of the CYP2D6 gene present in the subject using the most likely combination of the possible copy number of the CYP2D6 gene and the possible copy number of the CYP2D7 gene determined for the base, specific for the CYP2D6 gene. For example, a computing system may determine the ratio of CYP2D6 to CYP2D7 reads overlapping locations where genes have different sequence bases. For positions at which CYP2D6 differs from CYP2D7 , the computing system may generate reads that overlap at either a CYP2D6 or CYP2D7 base. Based on these reads, the computing system can count the number of CYP2D6- specific bases and the number of CYP2D7- specific bases. The computing system can determine the proportion of CYP2D6 or CYP2D7 reads. A computing system can calculate the copy number of CYP2D6 and CYP2D7 at positions where CYP2D6 differs from CYP2D7 . A computing system may combine the total copy number of CYP2D6 and CYP2D7 with the ratio of CYP2D6 to CYP2D7 to determine the copy number of CYP2D6 and CYP2D7 . The computing system may identify minor variants using the copy numbers of CYP2D6 and CYP2D7 with one or more fixed differences between CYP2D6 and CYP2D7 . The computational system may detect structural variants by combining the copy numbers of CYP2D6 and CYP2D7 with multiple fixed differences between CYP2D6 and CYP2D7 to determine whether there is a transition between the copy numbers of CYP2D6 and CYP2D7 that determines the type of structural variant found in the sample.

[0147] REP-содержащие гены слияния. В некоторых вариантах осуществления вычислительная система может определять (ii) второе количество прочтений последовательностей из множества прочтений последовательностей, выровненных с областью спейсера между геном CYP2D7 и повторяющимся элементом REP7 ниже гена CYP2D7. Второе количество прочтений последовательностей из множества прочтений последовательностей, выровненных с областью спейсера между геном CYP2D7 и повторяющимся элементом REP7 ниже гена CYP2D7, может составлять или составлять примерно, например, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000 или более. Вычислительная система может определять (ii) второе нормализованное количество прочтений последовательности, выровненной с областью спейсера, с использованием (ii) длины области спейсера. Второе нормализованное количество прочтений последовательностей, выровненных с областью спейсера, может составлять или составлять примерно, например, 1, 2, 3, 4, 5, 6, 7, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. Длина области спейсера может составлять или составлять примерно, например, 1,5 т. п. н. Вычислительная система может определять (ii) количество копий области спейсера с использованием модели смеси нормальных распределений, заданной (ii) вторым нормализованным количеством прочтений последовательностей, выровненных с областью спейсера. Количество копий области спейсера может составлять или составлять примерно, например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более. Для определения аллеля гена CYP2D6, имеющегося у субъекта, вычислительная система может определить аллель гена CYP2D6, имеющегося у субъекта, малый вариант или структурный вариант гена CYP2D6,или ни один из них, используя комбинацию возможного количества копий гена CYP2D6 и возможного количества копий гена CYP2D7, определенного для основания, специфичного для гена CYP2D6, и количества копий спейсерной области. Структурный вариант может содержать слитый аллель CYP2D6/CYP2D7 с областью спейсера и повторяющимся элементом REP7 ниже слитного аллеля CYP2D6/CYP2D7. [0147] REP-containing fusion genes . In some embodiments, the computing system may determine (ii) a second number of sequence reads from a plurality of sequence reads aligned to the spacer region between the CYP2D7 gene and the REP7 repeat element downstream of the CYP2D7 gene. The second number of sequence reads from the plurality of sequence reads aligned to the spacer region between the CYP2D7 gene and the REP7 repeat element downstream of the CYP2D7 gene may be or be about, for example, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000 or more. The computing system may determine (ii) a second normalized read count of the sequence aligned to the spacer region using (ii) the length of the spacer region. The second normalized number of sequence reads aligned to the spacer region may be or approximately, for example, 1, 2, 3, 4, 5, 6, 7, 9, 10, 20, 30, 40, 50, 60, 70, 80 , 90, 100 or more. The length of the spacer region may be or be about, for example, 1.5 kb. The computing system may determine (ii) the copy number of the spacer region using a mixture normal distribution model defined by (ii) a second normalized number of sequence reads aligned to the spacer region. The number of copies of the spacer region may be or be about, for example, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more. To determine the allele of the CYP2D6 gene present in a subject, the computing system may determine the allele of the CYP2D6 gene present in the subject, a minor variant or a structural variant of the CYP2D6 gene, or neither, using a combination of the possible copy number of the CYP2D6 gene and the possible copy number of the CYP2D7 gene. defined for the base specific for the CYP2D6 gene and the copy number of the spacer region. The structural variant may contain a CYP2D6 / CYP2D7 fusion allele with a spacer region and a REP7 repeat element downstream of the CYP2D6 / CYP2D7 fusion allele.

[0148] Способ 900 переходит от этапа 924 к этапу 928, в котором вычислительная система может для положения малого варианта гена CYP2D6, связанного с малым аллелем варианта гена CYP2D6, определение наиболее вероятной комбинации возможного количества копий малого аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, суммированного с количеством копий гена CYP2D6 в положении малого варианта, учитывая (a) количество прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей), выровненных с геном CYP2D6, перекрывающимся с положением малого варианта, и основания, которое содержит аллель малого варианта гена CYP2D6 в положении малого варианта и (b) количество прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей), выровненных с геном CYP2D6, перекрывающимся с положением малого варианта, и основания, которое содержит эталонный аллель гена CYP2D6 в положении малого варианта. Возможное количество копий малого варианта аллеля гена CYP2D6, наиболее вероятной комбинации в положении малого варианта может указывать на один или более малых вариантов гена CYP2D6. [0148] Method 900 proceeds from step 924 to step 928, in which the computing system may, for the position of the minor variant of the CYP2D6 gene associated with the minor allele of the variant of the CYP2D6 gene, determine the most likely combination of the possible number of copies of the minor allele of the CYP2D6 gene at the position of the minor variant and the possible copy number of the reference allele of the CYP2D6 gene at the minor variant position summed with the copy number of the CYP2D6 gene at the minor variant position, taking into account (a) the number of sequence reads (e.g., unnormalized or normalized number of sequence reads) aligned to the CYP2D6 gene overlapping with the minor variant position , and the base that contains the minor variant allele of the CYP2D6 gene at the position of the minor variant, and (b) the number of sequence reads (e.g., unnormalized or normalized number of sequence reads) aligned to the CYP2D6 gene overlapping with the position of the minor variant, and the base that contains the reference allele of the CYP2D6 gene in the position of the minor variant. The possible copy number of the small variant allele of the CYP2D6 gene, the most likely combination at the position of the small variant may indicate one or more small variants of the CYP2D6 gene.

[0149] Вычислительная система может определять для каждого из множества положений малых вариантов гена CYP2D6 положение малого варианта связано с малым вариантом аллеля гена CYP2D6, определение наиболее вероятной комбинации возможного количества копий малого аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, суммированного с количеством копий гена CYP2D6 в положении малого варианта, учитывая (a) количество прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей), выровненных с геном CYP2D6, перекрывающимся с положением малого варианта, и основания, которое содержит аллель малого варианта гена CYP2D6 в положении малого варианта и (b) количество прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей), выровненных с геном CYP2D6, перекрывающимся с положением малого варианта, и основания, которое содержит эталонный аллель гена CYP2D6 в положении малого варианта. Возможное количество копий малых вариантных аллелей гена CYP2D6, наиболее вероятной комбинаций во множестве положений малых вариантов может указывать на один или более малых вариантов гена CYP2D6. [0149] The computing system may determine, for each of a plurality of minor variant positions of the CYP2D6 gene, the position of the minor variant associated with the minor variant allele of the CYP2D6 gene, determining the most likely combination of the possible copy number of the minor allele of the CYP2D6 gene at the position of the minor variant and the possible copy number of the reference allele of the CYP2D6 gene at the position of the minor variant, summed with the copy number of the CYP2D6 gene at the position of the minor variant, taking into account (a) the number of sequence reads (e.g., unnormalized or normalized number of sequence reads) aligned to the CYP2D6 gene overlapping with the position of the minor variant, and the base that contains the minor variant allele of the CYP2D6 gene at the minor variant position and (b) the number of sequence reads (e.g., non-normalized or normalized number of sequence reads) aligned to the CYP2D6 gene overlapping with the minor variant position and the base that contains the reference allele of the CYP2D6 gene at the minor position option. The possible copy number of small variant alleles of the CYP2D6 gene, the most likely combinations at multiple positions of the small variants may indicate one or more small variants of the CYP2D6 gene.

[0150] В некоторых вариантах осуществления вычислительная система может определять количество копий гена CYP2D6 в положении малого варианта. Количество копий гена CYP2D6 в положении малого варианта может включать количество копий гена CYP2D6. Количество копий гена CYP2D6 в положении малого варианта может включать количество копий гена CYP2D6 из возможных количеств копий гена CYP2D6 наиболее вероятных определенных комбинаций. Количество копий гена CYP2D6 в положении малого варианта может включать количество копий гена CYP2D6 из возможных количеств копий гена CYP2D6 наиболее вероятных определенных комбинаций и расположены ближе всего к положению малого варианта. Количество копий гена CYP2D6 в положении малого варианта может включать количество копий гена CYP2D6 в 5’-положении или в 3’-положении от положения малого варианта. [0150] In some embodiments, the computing system may determine the copy number of the CYP2D6 gene at the minor variant position. The copy number of the CYP2D6 gene at the minor variant position may include the copy number of the CYP2D6 gene. The CYP2D6 gene copy number at the minor variant position may include the CYP2D6 gene copy number of the possible CYP2D6 gene copy numbers of the most likely specific combinations. The CYP2D6 gene copy number at the minor variant position may include the CYP2D6 gene copy number of the possible CYP2D6 gene copy numbers of the most likely specific combinations and located closest to the minor variant position. The number of copies of the CYP2D6 gene at the minor variant position may include the number of copies of the CYP2D6 gene at the 5' position or at the 3' position of the small variant position.

[0151] В некоторых вариантах осуществления вычислительная система может (a) определять количество прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей) с основаниями, которые содержат малый вариантный аллель гена CYP2D6. Вычислительная система может (b) определять количество прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей) с основаниями, которые содержат эталонный аллель гена CYP2D6. [0151] In some embodiments, the computing system may (a) determine the number of sequence reads (eg, unnormalized or normalized number of sequence reads) with bases that contain a small variant allele of the CYP2D6 gene. The computing system may (b) determine the number of sequence reads (eg, unnormalized or normalized number of sequence reads) to bases that contain the reference allele of the CYP2D6 gene.

[0152] Способ 900 переходит от этапа 928 к этапу 932, где вычислительная система определяет один или более малых вариантов гена CYP2D6 с применением возможного количества копий малого варианта аллеля гена CYP2D6 наиболее вероятной определенной комбинации. Вычислительная система может определять один или более малых вариантов гена CYP2D6 с помощью возможного количества копий малых вариантных аллелей гена CYP2D6, наиболее вероятных комбинаций во множестве определенных положений малых вариантов. [0152] The method 900 proceeds from step 928 to step 932, where the computing system determines one or more small variants of the CYP2D6 gene using the possible number of copies of the small variant allele of the CYP2D6 gene of the most likely determined combination. The computing system may determine one or more small variants of the CYP2D6 gene using the possible copy number of small variant alleles of the CYP2D6 gene, the most likely combinations at a plurality of specific positions of the small variants.

[0153] В некоторых вариантах осуществления положение малого варианта находится в гомологичной области CYP2D6/CYP2D7. Для определения наиболее вероятной комбинации вычислительная система может определить наиболее вероятную комбинацию возможного количества копий малого варианта аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, суммированное с количеством копий гена CYP2D6 в положении малого варианта, учитывая (а) количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с основанием, которое содержит малый вариант аллеля гена CYP2D6 в положении малого варианта, и/или (b) количество прочтений последовательностей, выровненных с геном CYP2D6 или геном CYP2D7, с основанием, которое содержит эталонный аллель CYP2D6 в положении малого варианта. В некоторых вариантах осуществления положение малого варианта не находится в гомологичной области CYP2D6/CYP2D7. Для определения наиболее вероятной комбинации вычислительная система может определить наиболее вероятную комбинацию возможного количества копий малого варианта аллеля гена CYP2D6 в положении малого варианта и возможного количества копий эталонного аллеля гена CYP2D6 в положении малого варианта, суммированного с количеством копий гена CYP2D6 в положении малого варианта, учитывая (a) количество прочтений последовательностей, выровненных с геном CYP2D6, а не с геном CYP2D7, с основанием, которое содержит малый вариант аллеля гена CYP2D6 в положении малого варианта, и/ или (b) количество прочтений последовательностей, выровненных с геном CYP2D6, а не геном CYP2D7, с основанием, которое содержит эталонный аллель CYP2D6 в положении малого варианта. [0153] In some embodiments, the position of the minor variant is in the homologous region of CYP2D6 / CYP2D7 . To determine the most likely combination, the computing system may determine the most likely combination of the possible number of copies of the minor variant allele of the CYP2D6 gene at the minor variant position and the possible number of copies of the reference allele of the CYP2D6 gene at the minor variant position, summed with the number of copies of the CYP2D6 gene at the minor variant position, taking into account ( a) the number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene, with a base that contains the minor variant allele of the CYP2D6 gene at the position of the minor variant, and/or (b) the number of sequence reads aligned to the CYP2D6 gene or the CYP2D7 gene, with the base, which contains the CYP2D6 reference allele at the minor variant position. In some embodiments, the position of the minor variant is not in the CYP2D6 / CYP2D7 homologous region. To determine the most likely combination, the computing system may determine the most likely combination of the possible number of copies of the minor variant allele of the CYP2D6 gene at the minor variant position and the possible number of copies of the reference allele of the CYP2D6 gene at the minor variant position, summed with the number of copies of the CYP2D6 gene at the minor variant position, taking into account ( a) the number of sequence reads aligned to the CYP2D6 gene rather than the CYP2D7 gene with a base that contains the minor variant allele of the CYP2D6 gene at the position of the minor variant, and/or (b) the number of sequence reads aligned to the CYP2D6 gene rather than the CYP2D7 gene CYP2D7 , with a base that contains the CYP2D6 reference allele at the minor variant position.

[0154] Например, вычислительная система может сначала определить характер и точки разрыва SV (структурный вариант, например, делецию или дупликацию) на основе количества копий оснований, специфичных для паралога. Дополнительно или в качестве альтернативы вычислительная система может впоследствии идентифицировать заранее определенное множество малых вариантов (это варианты, специфичные для интересующего гена, например, CYP2D6, и они отличаются от дифференцирующих оснований паралогов), на основе выравнивания прочтения, общего количества копий, а также (иногда) характера SV и точек разрыва, определенных на первом этапе. Поскольку выравнивание не всегда является точным, вычислительная система может извлечь интересующие основания из прочтений, которые соответствуют любому паралогу. [0154] For example, the computing system may first determine the nature and breakpoints of the SV (structural variant, e.g., deletion or duplication) based on the copy number of paralog-specific bases. Additionally or alternatively, the computing system can subsequently identify a predefined set of small variants (those are variants specific to a gene of interest, e.g., CYP2D6 , and are different from the differentiating bases of paralogs), based on read alignment, total copy number, and (sometimes ) the nature of the SV and the break points determined in the first stage. Because the alignment is not always precise, the computational system can extract bases of interest from reads that match any paralog.

[0155] Способ 900 переходит от этапа 932 к этапу 936, где вычислительная система может определять звездчатый аллель и/или гаплотип гена CYP2D6, имеющегося у субъекта, используя один или более определенных структурных вариантов гена CYP2D6, и/или один или более малых вариантов гена CYP2D6. Звездчатый аллель может быть связан с известной функцией. Звездчатый аллель и/или гаплотип гена CYP2D6 может включать, например, CYP2D6*1, *2, *3, *4, *5, *6, *7, *9, *10, *11, *13, *14, *15, *17, *21, *22, *28, *29, *31, *33, *34, *35, *36, *37, *38, *39, *40, *41, *43, *45, *46, *47, *49, *52, *54, *56, *57, *59, *64, *65, *68, *71, *72, *82, *84, *86, *94, *95, *99, *100, *101, *106, *108, *111, *112, *113 или их комбинации. [0155] Method 900 proceeds from step 932 to step 936, where the computing system can determine the star allele and/or haplotype of the CYP2D6 gene present in the subject using one or more defined structural variants of the CYP2D6 gene, and/or one or more minor gene variants CYP2D6 . The star allele may be associated with a known function. The star allele and/or haplotype of the CYP2D6 gene may include, for example, CYP2D6 *1, *2, *3, *4, *5, *6, *7, *9, *10, *11, *13, *14, *15, *17, *21, *22, *28, *29, *31, *33, *34, *35, *36, *37, *38, *39, *40, *41, *43 , *45, *46, *47, *49, *52, *54, *56, *57, *59, *64, *65, *68, *71, *72, *82, *84, * 86, *94, *95, *99, *100, *101, *106, *108, *111, *112, *113 or combinations thereof.

[0156] Ферментативная активность. В некоторых вариантах осуществления вычислительная система может определять уровень ферментативной активности CYP2D6 у субъекта, используя определенный аллель гена CYP2D6. Ферментативная активность может быть низкой, средней, нормальной или сверхбыстрой. Вычислительная система может определить рекомендацию по дозировке лечения и/или рекомендацию по лечению для субъекта на основании одного или более малых вариантов и/или одного или более структурных вариантов. [0156] Enzyme activity . In some embodiments, the computing system may determine the level of CYP2D6 enzymatic activity in a subject using a specific allele of the CYP2D6 gene. Enzyme activity can be low, medium, normal or ultra-fast. The computing system may determine a treatment dosage recommendation and/or a treatment recommendation for a subject based on one or more minor variants and/or one or more structural variants.

[0157] Способ 900 заканчивается этапом 940. [0157] Method 900 ends at step 940.

Генотипирование паралогов с использованием данных секвенированияGenotyping paralogs using sequencing data

[0158] На ФИГ. 10 представлена блок-схема, показывающая пример способа 1000 генотипирования паралога с использованием данных секвенирования, таких как данные секвенирования целого генома. Способ 1000 может быть реализован в виде набора исполняемых программных команд, хранящихся на машиночитаемом носителе, таком как один или более дисководов вычислительной системы. Например, вычислительная система 1100, показанная на ФИГ. 11 и более подробно описанная ниже, может выполнять набор исполняемых программных команд для реализации способа 1000. При инициировании способа 1000 исполняемые программные команды могут быть загружены в запоминающее устройство, такое как RAM, и выполнены одним или более процессорами вычислительной системы 1100. Хотя способ 1000 описан в отношении вычислительной системы 1100, показанной на ФИГ. 11, описание приводится только в качестве иллюстрации и не носит ограничительного характера. В некоторых вариантах осуществления способ 1000 или его фрагменты могут быть выполнены последовательно или параллельно множеством вычислительных систем. [0158] In FIG. 10 is a flow diagram showing an example method 1000 for genotyping a paralog using sequencing data, such as whole genome sequencing data. Method 1000 may be implemented as a set of executable program instructions stored on a computer-readable medium, such as one or more computer system disk drives. For example, the computing system 1100 shown in FIG. 11 and described in more detail below, may execute a set of executable program instructions to implement method 1000. When method 1000 is initiated, the executable program instructions may be loaded into a storage device, such as RAM, and executed by one or more processors of the computer system 1100. While method 1000 is described with respect to the computing system 1100 shown in FIG. 11, the description is provided for illustrative purposes only and is not intended to be limiting. In some embodiments, the method 1000 or portions thereof may be performed sequentially or in parallel by multiple computing systems.

[0159] После того как способ 1000 начинается с этапа 1004, способ 1000 переходит к этапу 1008, где вычислительная система (например, вычислительная система 1100, описанная со ссылкой на ФИГ. 11) принимает данные секвенирования, содержащие множество прочтений последовательностей, полученных из образца от субъекта, выровненных с первым паралогом или вторым паралогом. Техники создания прочтений последовательностей включают секвенирование путем синтеза с использованием, например, инструментов секвенирования MINISEQ, MISEQ, NEXTSEQ, HISEQ и NOVASEQ от компании Illumina, Inc. (Сан-Диего, Калифорния). [0159] After method 1000 begins at step 1004, method 1000 proceeds to step 1008, where a computing system (e.g., computing system 1100 described with reference to FIG. 11) receives sequencing data containing a plurality of sequence reads obtained from the sample from the subject aligned with the first paralogue or the second paralogue. Techniques for generating sequence reads include sequencing by synthesis using, for example, the MINISEQ, MISEQ, NEXTSEQ, HISEQ, and NOVASEQ sequencing tools from Illumina, Inc. (San Diego, California).

[0160] Способ 1000 переходит от этапа 1008 к этапу 1012, где вычислительная система определяет количество копий паралогов первого типа с применением модели смеси нормальных распределений, содержащей множество распределений, каждое из которых представляет другое целое количество копий, заданное (i) первым количеством прочтений последовательностей, выровненных с первой областью. Количество копий паралогов первого типа (или любого типа данного описания) может составлять или составлять примерно, например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более. [0160] Method 1000 proceeds from step 1008 to step 1012, where the computing system determines the copy number of the first type of paralogs using a mixture normal distribution model containing a plurality of distributions, each representing a different integer copy number given by (i) the first number of sequence reads , aligned with the first area. The number of copies of paralogues of the first type (or any type of this description) may be or be approximately, for example, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more.

[0161] Множество распределений модели смеси нормальных распределений могут представлять целые числа копий, например от 0 до 5, от 0 до 6, от 0 до 7, от 0 до 8, от 0 до 9, от 0 до 10, от 0 до 11, от 0 до 12, от 0 до 13, от 0 до 14 или от 0 до 15. Например, множество распределений модели смеси нормальных распределений могут представлять целые числа копий от 0 до 10. Среднее значение (например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более) каждого из множества распределений может представлять собой целое количество копий, представленное распределением (например, количество копий 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более). Стандартное отклонение распределений может составлять или примерно составлять, например, 0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, 0,9, 1 или более. [0161] The set of distributions of a mixture of normal distributions model may represent integer copy numbers, such as 0 to 5, 0 to 6, 0 to 7, 0 to 8, 0 to 9, 0 to 10, 0 to 11 , from 0 to 12, from 0 to 13, from 0 to 14, or from 0 to 15. For example, a set of distributions of a mixture normal distribution model can represent integer copy numbers from 0 to 10. The mean value (for example, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, or more) of each of the plurality of distributions may be an integer number of copies represented by the distribution (e.g., copy number 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more). The standard deviation of the distributions may be or approximately be, for example, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1 or more .

[0162] В некоторых вариантах осуществления вычислительная система может определять (i) первое количество прочтений последовательностей из множества прочтений последовательностей в данных секвенирования, полученных из образца от субъекта, выровненных с первой областью. Первое количество прочтений последовательностей из множества прочтений последовательностей в данных секвенирования, полученных из образца от субъекта, выровненных с первой областью (или любой областью данного описания), может составлять или примерно составлять, например, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000 или более. Вычислительная система может определять (i) первое нормализованное количество прочтений последовательностей, выровненных с первой областью, с использованием (i) длины первой области. Первое нормализованное количество прочтений последовательностей, выровненных с первой областью (или любой областью данного описания), может составлять или составлять примерно, например, 1, 2, 3, 4, 5, 6, 7, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 или более. Длина первой области может составлять или составлять примерно, например, 1 т. п. н., 2 т. п. н., 3 т. п. н., 4 т. п. н., 5 т. п. н., 6 т. п. н., 7 т. п. н., 8 т. п. н., 9 т. п. н., 10 т. п. н., 11 т. п. н., 12 т. п. н., 13 т. п. н., 14 т. п. н., 15 т. п. н., 16 т. п. н., 17 т. п. н., 18 т. п. н., 19 т. п. н., 20 т. п. н., 21 т. п. н., 22 т. п. н., 23 т. п. н., 24 т. п. н., 25 т. п. н., 26 т. п. н., 27 т. п. н., 28 т. п. н., 29 т. п. н., 30 т. п. н. или более. Для определения количества копий паралогов первого типа вычислительная система может определять количество копий паралогов первого типа с помощью модели смеси нормальных распределений, заданной (i) первым нормализованным количеством прочтений последовательностей, выровненных с первой областью. [0162] In some embodiments, the computing system may determine (i) a first number of sequence reads from a plurality of sequence reads in sequencing data obtained from a sample from a subject aligned to the first region. The first number of sequence reads of the plurality of sequence reads in the sequencing data obtained from a sample from a subject aligned to the first region (or any region herein) may be or approximately be, for example, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000 or more. The computing system may determine (i) a first normalized number of sequence reads aligned to the first region using (i) the length of the first region. The first normalized number of sequence reads aligned to the first region (or any region herein) may be or be approximately, for example, 1, 2, 3, 4, 5, 6, 7, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 or more. The length of the first region may be or be approximately, for example, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb. , 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 11 kb, 12 kb, 13 kb, 14 kb, 15 kb, 16 kb, 17 kb, 18 t. bp, 19 kbp, 20 kbp, 21 kbp, 22 kbp, 23 kbp, 24 kbp. b., 25 kb., 26 kb., 27 kb., 28 kb., 29 kb., 30 kb. or more. To determine the copy number of the first type of paralogs, the computing system may determine the copy number of the first type of paralog using a mixture normal distribution model defined by (i) the first normalized number of sequence reads aligned to the first region.

[0163] В некоторых вариантах осуществления вычислительная система может определять количество копий одного или более паралогов второго типа с использованием смеси нормальных распределений, заданной (ii) вторым количеством прочтений последовательностей, выровненных со второй областью. Количество копий одного или более паралогов второго типа (или любого типа данного описания) может составлять или составлять примерно, например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более. Для определения количества копий или аллеля первого паралога вычислительная система может определять количество копий или аллель первого паралога с помощью наиболее вероятной комбинации возможного количества копий первого паралога и возможного количества копий второго паралога, определенного для основания, специфического для первого паралога, и количества копий одного или более паралогов второго типа. Вычислительная система может определять количество копий паралогов третьего типа по количеству копий паралогов первого типа и количеству копий паралогов второго типа. Количество копий паралогов третьего типа (или любого типа данного описания) может составлять или составлять примерно, например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более. Для определения количества копий или аллеля первого паралога вычислительная система может определять количество копий или аллель первого паралога с помощью наиболее вероятной комбинации возможного количества копий первого паралога и возможного количества копий второго паралога, определенного для основания, специфического для первого паралога. [0163] In some embodiments, the computing system may determine the copy number of one or more second type paralogues using a mixture of normal distributions defined by (ii) a second number of sequence reads aligned to the second region. The number of copies of one or more paralogs of the second type (or any type of this description) may be or be approximately, for example, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more. To determine the copy number or allele of the first paralog, the computing system may determine the copy number or allele of the first paralog using the most likely combination of the possible copy number of the first paralog and the possible copy number of the second paralog, determined for a base specific to the first paralog, and the copy number of one or more paralogues of the second type. The computing system can determine the number of copies of the third type of paralogs from the number of copies of the first type of paralogs and the number of copies of the second type of paralogs. The number of copies of the third type of paralogues (or any type of this description) may be or be approximately, for example, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more. To determine the copy number or allele of the first paralog, the computing system may determine the copy number or allele of the first paralog using the most likely combination of the possible copy number of the first paralog and the possible copy number of the second paralog, determined for a base specific to the first paralog.

[0164] В способах выравнивания последовательностей с эталонной геномной последовательностью можно использовать такие преобразователи, как преобразователь Барроуза-Уилера (BWA) и iSAAC. Другие способы выравнивания включают BarraCUDA, BFAST, BLASTN, BLAT, Bowtie, CASHX, Cloudburst, CUDA-EC, CUSHAW, CUSHAW2, CUSHAW2-GPU, drFAST, ELAND, ERNE, GNUMAP, GEM, GensearchNGS, GMAP и GSNAP, Geneious Assembler, LAST, MAQ, mrFAST and mrsFAST, MOM, MOSAIK, MPscan, Novoaligh & NovoalignCS, NextGENe, Omixon, PALMapper, Partek, PASS, PerM, PRIMEX, QPalma, RazerS, REAL, cREAL, RMAP, rNA, RT Investigator, Segemehl, SeqMap, Shrec, SHRiMP, SLIDER, SOAP, SOAP2, SOAP3 и SOAP3-dp, SOCS, SSAHA и SSAHA2, Stampy, SToRM, Subread и Subjunc, Taipan, UGENE, VelociMapper, XpressAlign и ZOOM. [0164] Methods for aligning sequences to a reference genomic sequence may use transformers such as the Burrows-Wheeler transformer (BWA) and iSAAC. Other alignment methods include BarraCUDA, BFAST, BLASTN, BLAT, Bowtie, CASHX, Cloudburst, CUDA-EC, CUSHAW, CUSHAW2, CUSHAW2-GPU, drFAST, ELAND, ERNE, GNUMAP, GEM, GensearchNGS, GMAP and GSNAP, Geneious Assembler, LAST , MAQ, mrFAST and mrsFAST, MOM, MOSAIK, MPscan, Novoaligh & NovoalignCS, NextGENe, Omixon, PALMapper, Partek, PASS, PerM, PRIMEX, QPalma, RazerS, REAL, cREAL, RMAP, rNA, RT Investigator, Segemehl, SeqMap, Shrec, SHRiMP, SLIDER, SOAP, SOAP2, SOAP3 and SOAP3-dp, SOCS, SSAHA and SSAHA2, Stampy, SToRM, Subread and Subjunc, Taipan, UGENE, VelociMapper, XpressAlign and ZOOM.

[0165] Способ 1000 переходит от этапа 1012 к этапу 1016, где вычислительная система определяет для одного множества оснований, специфичных для первого паралога, из множества возможных комбинаций, каждая из которых содержит возможное количество копий первого паралога первого типа и возможное количество копий второго паралога первого типа, суммированное с количеством копий определенных паралогов первого типа, при заданном (a) количестве прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей) из множества прочтений последовательностей с основаниями, которые содержат основание специфическое для первого паралога, и (b) количестве прочтений последовательностей (например, ненормализованное или нормализованное количество прочтений последовательностей) из множества прочтений последовательностей с основаниями, которые содержат основание специфическое для второго паралога, соответствующее основанию специфическому для первого паралога. [0165] Method 1000 proceeds from step 1012 to step 1016, where the computing system determines, for one set of bases specific to the first paralog, from a plurality of possible combinations, each of which contains a possible number of copies of the first paralog of the first type and a possible number of copies of the second paralog of the first type, summed with the number of copies of certain paralogs of the first type, given (a) the number of sequence reads (e.g., the unnormalized or normalized number of sequence reads) from the set of sequence reads with bases that contain a base specific to the first paralog, and (b) the number of reads sequence reads (eg, unnormalized or normalized number of sequence reads) from a set of sequence reads with bases that contain a second paralog-specific base corresponding to a first paralog-specific base.

[0166] Способ 1000 переходит от этапа 1016 к этапу 1020, где вычислительная система определяет количество копий или аллель первого паралога с помощью наиболее вероятной комбинации возможного количества копий первого паралога и возможного количества копий второго паралога, определенного для основания, специфичного для первого паралога. [0166] Method 1000 proceeds from step 1016 to step 1020, where the computing system determines the copy number or allele of the first paralog using the most likely combination of the possible copy number of the first paralog and the possible copy number of the second paralog determined for the base specific to the first paralog.

[0167] В некоторых вариантах осуществления первым паралогом является ген выживания моторных нейронов 1 (SMN1). Вторым паралогом может быть ген выживания моторных нейронов 2 (SMN2). Первая область может содержать по меньшей мере один экзон от 1 до 6 гена SMN1 и по меньшей мере один экзон от 1 до 6 гена SMN2. Вторая область может содержать по меньшей мере экзон 7 или 8 гена SMN1 и по меньшей мере один из экзон 7 или 8 гена SMN2. Паралоги первого типа могут включать интактный ген SMN1 и интактный ген SMN2. Один или более паралогов второго типа могут включать интактный ген SMN1, интактный ген SMN2, укороченный ген SMN1 или укороченный ген SMN2. Количество копий первого паралога может включать количество копий гена SMN1. Вычислительная система может определять количество копий гена SMN1, реализуя способ 800 (или его часть), описанный со ссылкой на ФИГ. 8. [0167] In some embodiments, the first paralogue is the survival motor neuron 1 ( SMN1 ) gene. The second paralogue may be the survival motor neuron 2 ( SMN2 ) gene. The first region may comprise at least one exon 1 to 6 of the SMN1 gene and at least one exon 1 to 6 of the SMN2 gene. The second region may comprise at least exon 7 or 8 of the SMN1 gene and at least one of exon 7 or 8 of the SMN2 gene. The first type of paralogues may include an intact SMN1 gene and an intact SMN2 gene. One or more second type paralogs may include an intact SMN1 gene, an intact SMN2 gene, a truncated SMN1 gene, or a truncated SMN2 gene. The copy number of the first paralog may include the copy number of the SMN1 gene. The computing system may determine the copy number of the SMN1 gene by implementing the method 800 (or a portion thereof) described with reference to FIG. 8.

[0168] В некоторых вариантах осуществления первый паралог представляет собой ген члена 6 подсемейства D семейства 2 цитохрома P450 (CYP2D6). Вторым паралогом может быть ген члена 7 подсемейства D семейства 2 цитохрома P450 (CYP2D7). Первая область может содержать ген CYP2D6 и ген CYP2D7. Вторая область может содержать спейсерную область между геном CYP2D7 и повторяющимся элементом REP7 ниже гена CYP2D7. Паралоги первого типа могут содержать ген CYP2D6 и ген CYP2D7. Один или более паралогов второго типа могут содержать слитый аллель CYP2D6/CYP2D7 с спейсерной областью и повторяющимся элементом REP7 ниже слитого аллеля CYP2D6/CYP2D7. Аллель первого паралога может представлять собой аллель гена CYP2D6, имеющегося у субъекта, который представляет собой малый вариант или структурный вариант гена CYP2D6. Вычислительная система может определять аллель гена CYP2D6, реализуя способ 900 (или его часть), описанный со ссылкой на ФИГ. 9. [0168] In some embodiments, the first paralog is a cytochrome P450 family 2 subfamily D member 6 gene ( CYP2D6 ). The second paralog may be the cytochrome P450 family 2 subfamily D member 7 gene ( CYP2D7 ). The first region may contain the CYP2D6 gene and the CYP2D7 gene. The second region may contain a spacer region between the CYP2D7 gene and the REP7 repeat element downstream of the CYP2D7 gene. Paralogues of the first type may contain the CYP2D6 gene and the CYP2D7 gene. One or more type two paralogues may contain a CYP2D6 / CYP2D7 fusion allele with a spacer region and a REP7 repeat element downstream of the CYP2D6/CYP2D7 fusion allele. The first paralog allele may be an allele of the CYP2D6 gene present in the subject that is a minor variant or structural variant of the CYP2D6 gene. The computing system can determine the allele of the CYP2D6 gene by implementing the method 900 (or part thereof) described with reference to FIG. 9.

[0169] В различных вариантах осуществления первый и второй паралоги могут отличаться друг от друга. Примеры первого и второго паралогов включают, без ограничений, ген SMN1 и ген SMN2; Ген CYP2D6 и ген CYP2D7; ген double homeobox 4 (DUX4), ген DUX4c, ген DUX4-подобного белка 2 (DUX4L2), ген DUX4-подобного белка 3 (DUX4L3), ген DUX4-подобного белка 4 (DUX4L4), ген DUX4-подобного белка 5 (DUX4L5), ген DUX4-подобного белка 6 (DUX4L6), ген DUX4-подобного белка 7 (DUX4L7) и ген double homeobox 2 (DUX2); и ген рибосомального белка S17 (RpS17) и ген RpS17-подобного белка (RpS17L). В некоторых вариантах осуществления вычислительная система может определять количество копий или аллель первого паралога, реализуя способ 800 (или его часть), описанный со ссылкой на ФИГ. 8, и/или способ 900 (или его часть), описанный со ссылкой на ФИГ. 9. [0169] In various embodiments, the first and second paralogs may be different from each other. Examples of the first and second paralogs include, but are not limited to, the SMN1 gene and the SMN2 gene; CYP2D6 gene and CYP2D7 gene; double homeobox 4 gene (DUX4), DUX4c gene, DUX4-like protein 2 gene (DUX4L2), DUX4-like protein 3 gene (DUX4L3), DUX4-like protein 4 gene (DUX4L4), DUX4-like protein 5 gene (DUX4L5) , DUX4-like protein 6 (DUX4L6) gene, DUX4-like protein 7 (DUX4L7) gene, and double homeobox 2 (DUX2) gene; and the ribosomal protein S17 gene (RpS17) and the RpS17-like protein gene (RpS17L). In some embodiments, the computing system may determine the copy number or allele of the first paralog by implementing the method 800 (or a portion thereof) described with reference to FIG. 8, and/or the method 900 (or part thereof) described with reference to FIG. 9.

[0170] В некоторых вариантах осуществления первый паралог и второй паралог имеют идентичность последовательности или примерно 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% или более. Например, первый паралог и второй паралог имеют идентичность последовательности по меньшей мере 90%. [0170] In some embodiments, the first paralog and the second paralog have sequence identity of or about 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% or more. For example, the first paralog and the second paralog have at least 90% sequence identity.

[0171] Способ 1000 заканчивается этапом 1024. [0171] Method 1000 ends at step 1024.

Условия выполненияExecution conditions

[0172] На ФИГ. 11 изображена общая архитектура примерного вычислительного устройства 1100, выполненного с возможностью генотипирования паралога. Общая архитектура вычислительного устройства 1100, показанного на ФИГ. 11, включает в себя расположение компьютерных аппаратных и программных компонентов. Вычислительное устройство 1100 может включать в себя намного больше (или меньше) элементов, чем показанные на ФИГ. 11. Однако необязательно чтобы все эти в общем обычные элементы были показаны, чтобы обеспечить описание изобретения. Как проиллюстрировано, вычислительное устройство 1100 включает в себя блок 1110 обработки данных, сетевой интерфейс 1120, привод машиночитаемого носителя 1130, интерфейс устройства ввода/вывода 1140, дисплей 1150 и устройство ввода 1160, все из которых могут обмениваться данными друг с другом посредством шины связи. Сетевой интерфейс 1120 может обеспечивать возможность подключения к одной или более сетям или вычислительным системам. Таким образом, блок 1110 обработки данных может принимать информацию и инструкции от других вычислительных систем или сервисов посредством сети. Блок 1110 обработки данных также может обмениваться данными с памятью 1170 и из нее и дополнительно предоставлять выходную информацию на необязательный дисплей 1150 через интерфейс устройства ввода/вывода 1140. Интерфейс устройства ввода/вывода 1140 может также принимать ввод от необязательного устройства ввода 1160, такого как клавиатура, мышь, цифровая ручка, микрофон, сенсорный экран, система распознавания жестов, система распознавания голоса, геймпад, акселерометр, гироскоп или другое устройство ввода. [0172] In FIG. 11 depicts the general architecture of an exemplary computing device 1100 configured to perform paralog genotyping. The general architecture of the computing device 1100 shown in FIG. 11 includes an arrangement of computer hardware and software components. Computing device 1100 may include many more (or fewer) elements than those shown in FIG. 11. However, it is not necessary that all of these generally conventional elements be shown to provide a description of the invention. As illustrated, computing device 1100 includes a processing unit 1110, a network interface 1120, a computer readable media drive 1130, an input/output device interface 1140, a display 1150, and an input device 1160, all of which can communicate with each other via a communication bus. Network interface 1120 may provide connectivity to one or more networks or computing systems. Thus, the data processing unit 1110 can receive information and instructions from other computing systems or services via the network. The data processing unit 1110 may also communicate to and from memory 1170 and optionally provide output information to an optional display 1150 through an input/output device interface 1140. The input/output device interface 1140 may also receive input from an optional input device 1160, such as a keyboard. , mouse, digital pen, microphone, touch screen, gesture recognition system, voice recognition system, gamepad, accelerometer, gyroscope, or other input device.

[0173] Память 1170 может содержать команды компьютерной программы (сгруппированные как модули или компоненты в некоторых вариантах осуществления), которые выполняет блок 1110 обработки данных для реализации одного или более вариантов осуществления. Память 1170 по существу включает в себя RAM, ROM и/или другие постоянные, вспомогательные или энергонезависимые машиночитаемые носители. В запоминающем устройстве 1170 может храниться операционная система 1172, которая обеспечивает команды компьютерной программы для использования блоком 1110 обработки данных при общем введении и эксплуатации вычислительного устройства 1100. Запоминающее устройство 1170 может дополнительно включать команды компьютерной программы и другую информацию для реализации аспектов данного описания. [0173] Memory 1170 may contain computer program instructions (grouped as modules or components in some embodiments) that processing unit 1110 executes to implement one or more embodiments. Memory 1170 essentially includes RAM, ROM, and/or other read-only, non-transitory, or nonvolatile computer-readable media. Storage device 1170 may store an operating system 1172 that provides computer program instructions for use by processing unit 1110 in general administration and operation of computing device 1100. Storage device 1170 may further include computer program instructions and other information to implement aspects of this disclosure.

[0174] Например, в одном варианте осуществления память 1170 включает в себя модуль генотипирования паралогов 1174 для генотипирования одного или более паралогов с использованием данных секвенирования, таких как способ 1000, описанный со ссылкой на ФИГ. 10. В качестве альтернативы или дополнительно, модуль генотипирования паралогов 1174 может представлять собой или может включать в себя модуль для определения количества копий SMN1 с использованием данных секвенирования, такой как способ 800, описанный со ссылкой на ФИГ. 8. В качестве альтернативы или дополнительно, модуль генотипирования паралогов 1174 может представлять собой или может включать в себя модуль для генотипирования гена CYP2D6 с использованием данных секвенирования, такой как способ 900, описанный со ссылкой на ФИГ. 9. Кроме того, память 1170 может включать в себя или обмениваться данными с хранилищем данных 1190 и/или одним или более другими хранилищами данных, в которых хранятся данные секвенирования и/или результаты генотипирования одного или более паралогов. [0174] For example, in one embodiment, memory 1170 includes a paralog genotyping module 1174 for genotyping one or more paralogs using sequencing data, such as the method 1000 described with reference to FIG. 10. Alternatively or additionally, the paralog genotyping module 1174 may be or may include a module for determining SMN1 copy number using sequencing data, such as the method 800 described with reference to FIG. 8. Alternatively or additionally, paralog genotyping module 1174 may be or may include a module for genotyping the CYP2D6 gene using sequencing data, such as method 900 described with reference to FIG. 9. In addition, memory 1170 may include or communicate with data store 1190 and/or one or more other data stores that store sequencing data and/or genotyping results of one or more paralogs.

ПримерыExamples

[0175] В следующих примерах более подробно описаны некоторые аспекты описанные выше, которые никоим образом не предназначены для ограничения объема данного раскрытия. [0175] The following examples describe in more detail certain aspects described above, which are in no way intended to limit the scope of this disclosure.

Пример 1Example 1

Диагностика спинальной мышечной атрофии и скрининг носителей на основе данных секвенирования целого геномаDiagnosis of spinal muscular atrophy and carrier screening based on whole genome sequencing data

[0176] Спинальная мышечная атрофия (SMA), вызванная потерей функционального гена SMN1, но сохранением паралогического гена SMN2, является основной генетической причиной смерти в раннем детском возрасте. Из-за практически идентичных последовательностей SMN1 и его паралога SMN2 анализ этой области с использованием анализов на основе секвенирования следующего поколения (NGS) является сложной задачей. Американский колледж медицинской генетики рекомендует скрининг потенциальных родителей на SMA до зачатия для определения количества копий (CN) SMN1. [0176] Spinal muscular atrophy (SMA), caused by loss of the functional SMN1 gene but retention of the paralogous SMN2 gene, is a leading genetic cause of death in early childhood. Due to the nearly identical sequences of SMN1 and its paralogue SMN2 , analysis of this region using next-generation sequencing (NGS)-based assays is challenging. The American College of Medical Genetics recommends screening prospective parents for SMA before conception to determine the copy number (CN) of SMN1 .

[0177] В данном примере описан способ биоинформатики, который точно идентифицирует количество копий SMN1 и SMN2 с использованием данных секвенирования целого генома (WGS). Способ рассчитывает количество копий SMN1 и SMN2 с использованием глубины прочтения и восьми информативных эталонных геномных различий между SMN1 и SMN2. [0177] This example describes a bioinformatics method that accurately identifies copy numbers of SMN1 and SMN2 using whole genome sequencing (WGS) data. The method calculates the copy number of SMN1 and SMN2 using read depth and eight informative reference genomic differences between SMN1 and SMN2 .

[0178] Были охарактеризованы статусы SMN1/2 в 12747 короткочитаемых целых геномах, секвенированных на большую глубину (> 30x) в пяти этнических популяциях. По этим образцам определили всего 251 (1317) образцов с полной потерей гена (конверсия) SMN1 и 6241 (374) образцов с потерей гена (конверсия) SMN2. Была рассчитана панэтническая частота носительства в 2%, что согласуется с предыдущими исследованиями. Кроме того, определенные количества копий были подтверждены, и все определения количества копий (48/48) SMN1 и 98% (47/48) SMN2 соответствовали определениям, измеренным с помощью цифровой ПЦР. [0178] The SMN1/2 statuses of 12,747 short-read whole genomes sequenced to great depth (>30x) in five ethnic populations were characterized. From these samples, a total of 251 (1317) samples with complete loss of the SMN1 gene (conversion) and 6241 (374) samples with loss of the SMN2 gene (conversion) were identified. A pan-ethnic carriage rate of 2% was calculated, which is consistent with previous studies. In addition, specific copy numbers were confirmed, and all copy number determinations (48/48) of SMN1 and 98% (47/48) of SMN2 were consistent with those measured by digital PCR.

[0179] Данный способ определения количества копий SMN на основе WGS можно использовать для идентификации определения как носителя, так и подверженного воздействию статуса SMA, что позволяет предлагать тестирование на SMA в качестве комплексного теста в неонатальной диагностике, а также точного инструмента скрининга статуса носителя в крупномасштабных проектах секвенирования WGS. [0179] This WGS-based SMN copy number determination method can be used to identify the determination of both carrier and exposed SMA status, allowing SMA testing to be offered as a comprehensive test in neonatal diagnostics, as well as an accurate screening tool for carrier status in large-scale settings. WGS sequencing projects.

ВведениеIntroduction

[0180] Благодаря последним достижениям в секвенировании следующего поколения (NGS) теперь можно профилировать большое количество генов или даже весь геном с высокой пропускной способностью и в клинически значимые временные рамки. Исходя из этих достижений, во многих странах предпринимаются усилия по широкомасштабному секвенированию популяций, в которых тестирование на редкие генетические нарушения, включая статус носителя, будет одним из основных факторов. Спинальная мышечная атрофия (SMA), аутосомное рецессивное нейромышечное расстройство, характеризующееся потерей альфа-моторных нейронов, вызывает сильную мышечную слабость и атрофию, представляющую собой атрофию, проявляющуюся во время или вскоре после рождения. SMA является основной генетической причиной детской смертности после муковисцидоза. Частота возникновения SMA составляет 1 случай на 6000-10000 живорожденных, а частота носительства составляет 1:40-80 среди различных этнических групп. Четыре клинических типа СМА классифицируются в зависимости от возраста начала и тяжести заболевания: очень слабые младенцы, неспособные сидеть без поддержки (тип I), слабосидящие, но неспособные стоять (тип II), амбулаторные пациенты с более слабыми ногами, чем руки (тип III), и проявление SMA у взрослых пациентов, являющиеся довольно доброкачественным (тип IV). Раннее выявление SMA может иметь решающее значение для долгосрочного качества жизни из-за доступности двух ранних видов лечения, Nusinersen и Zolgensma, которые получили одобрение FDA для облегчения SMA. [0180] With recent advances in next generation sequencing (NGS), it is now possible to profile large numbers of genes or even the entire genome with high throughput and in a clinically relevant time frame. Based on these advances, efforts are underway in many countries to sequence populations on a large scale, in which testing for rare genetic disorders, including carrier status, will be a major factor. Spinal muscular atrophy (SMA), an autosomal recessive neuromuscular disorder characterized by the loss of alpha motor neurons, causes severe muscle weakness and atrophy, which is atrophy that occurs during or shortly after birth. SMA is the leading genetic cause of childhood mortality after cystic fibrosis. The incidence of SMA is 1 in 6000–10000 live births, and the carrier rate is 1:40–80 among various ethnic groups. Four clinical types of SMA are classified according to age of onset and severity of the disease: very weak infants unable to sit without support (type I), weakly sitting but unable to stand (type II), outpatients with weaker legs than arms (type III) , and the presentation of SMA in adult patients is quite benign (type IV). Early detection of SMA may be critical to long-term quality of life due to the availability of two early treatments, Nusinersen and Zolgensma, which have received FDA approval for the relief of SMA.

[0181] Область SMN включает два паралогических гена: SMN1 и SMN2. SMN2 находится на расстоянии 875 т. п. н. от SMN1 на хромосоме 5q и вызван дупликацией предкового гена, уникальной для человеческой линии. Геномная область вокруг SMN1/2 подвергается неравномерному перекрестному сшиванию и генной конверсии, что приводит к вариабельному количеству копий (КК) SMN1 и SMN2. SMN2 имеет более чем 99,9% идентичности последовательности с SMN1, и одно из различий оснований, c.840C> T в экзоне 7, имеет критическое функциональное значение. Путем прерывания энхансера сплайсинга c.840T способствует пропуску экзона 7, в результате чего подавляющее большинство транскриптов, происходящих из SMN2 (70-85%, в зависимости от ткани), являются нестабильными и не полностью функциональными. Приблизительно 95% случаев SMA являются результатом биаллельного отсутствия функционального нуклеотида c.840C, вызванного делецией SMN1 или генной конверсией в SMN2 (c.840T). В остальных 5% случаев пациенты с SMA имеют другие патогенные варианты в SMN1 в транс-конфигурации с отсутствием аллеля c.840C. SMN2 может продуцировать небольшое количество функционального белка, а количество копий SMN2 у индивида изменяет тяжесть заболевания и сильно коррелирует с описанными выше клиническими типами. [0181] The SMN region includes two paralogous genes: SMN1 and SMN2 . SMN2 is located at a distance of 875 kb. from SMN1 on chromosome 5q and is caused by an ancestral gene duplication unique to the human lineage. The genomic region around SMN1/2 undergoes uneven cross-linking and gene conversion, resulting in copy number variation (CV) of SMN1 and SMN2 . SMN2 shares more than 99.9% sequence identity with SMN1 , and one of the base differences, c.840C>T in exon 7, is of critical functional significance. By interrupting the splicing enhancer, c.840T promotes exon 7 skipping, resulting in the vast majority of SMN2- derived transcripts (70-85%, depending on the tissue) being unstable and not fully functional. Approximately 95% of SMA cases result from a biallelic lack of the functional nucleotide c.840C, caused by deletion of SMN1 or gene conversion to SMN2 (c.840T). In the remaining 5% of cases, patients with SMA have other pathogenic variants in SMN1 in trans configuration lacking the c.840C allele. SMN2 can produce small amounts of functional protein, and the copy number of SMN2 in an individual modifies disease severity and is highly correlated with the clinical types described above.

[0182] Из-за высокой частоты возникновения и тяжести заболевания, обширный скрининг на SMA рекомендуется Американским колледжем медицинской генетики. Польза скрининга носителей среди населения была продемонстрирована в пилотных исследованиях. Скрининг на SMA включает: 1) определение количества копий SMN1 для диагностики SMA и тестирования носителя и 2) определение количества копий SMN2 для клинической классификации и прогноза. Традиционно тестирование на SMA и тестирование носителя проводят с использованием анализов на основе полимеразной цепной реакции (ПЦР), таких как количественная ПЦР (кПЦР), мультиплексная амплификация лигированных зондов (MLPA) и цифровая ПЦР. Эти способы в основном определяют количество копий SMN1 на основе сайта c.840C>T, который отличается между SMN1 и SMN2. Этот пример демонстрирует, что WGS может соответствовать или превосходить производительность этих тестов и указывает на то, что как текущие, так и будущие инициативы в области точной медицины могут использовать данные генома для скрининга на уровне населения. [0182] Due to the high incidence and severity of the disease, extensive screening for SMA is recommended by the American College of Medical Genetics. The benefit of carrier screening in the population has been demonstrated in pilot studies. Screening for SMA includes: 1) determination of SMN1 copy number for SMA diagnosis and carrier testing and 2) determination of SMN2 copy number for clinical classification and prognosis. Traditionally, SMA testing and carrier testing are performed using polymerase chain reaction (PCR)-based assays such as quantitative PCR (qPCR), multiplex ligation probe amplification (MLPA), and digital PCR. These methods mainly determine the copy number of SMN1 based on the c.840C>T site, which differs between SMN1 and SMN2 . This example demonstrates that WGS can match or exceed the performance of these tests and indicates that both current and future precision medicine initiatives can use genomic data for population-level screening.

[0183] Воспроизведение текущего режима тестирования на SMA представляет собой проблему для высокопроизводительных WGS из-за почти идеальной идентичности последовательностей между SMN1 и SMN2. Кроме того, считается, что часто встречающаяся генная конверсия между SMN1 и SMN2 приводит к образованию гибридных генов. Эти проблемы требуют применения способа биоинформатики, позволяющего преодолеть трудности в этой области. Представлены два теста на основе NGS для обнаружения носителя SMA. В публикации Larson et al. (Validation of a high resolution NGS method for detecting spinal muscular atrophy carriers among phase 3 participants in the 1000 Genomes Project. BMC Med Genet. 2015;16:100. doi:10.1186/s12881-015-0246-2) использовали байесовскую иерархическую модель для расчета вероятности того, что доля прочтений, полученных из SMN1, равна или меньше 1/3 при трех различиях оснований между SMN1 и SMN2. Способ, описанный в публикации Larson, позволяет проводить тестирование на SMA; хотя, поскольку способ не выполняет определение количества копий, он не является идеальным решением для скрининга носителей. И наоборот, в публикации Feng et al. (The next generation of population-based spinal muscular atrophy carrier screening: comprehensive pan-ethnic SMN1 copy-number and sequence variant analysis by massively parallel sequencing. Genet Med Off J Am Coll Med Genet. 2017; 19(8): 936-944. doi: 10.1038/gim.2016.215) описано определение количества копий как для SMN1, так и для SMN2 на основе данных целевого секвенирования, которые точно имитируют текущий способ кПЦР. Способ Feng разработан для целевого секвенирования и, следовательно, требует специальной нормализации, которая ограничивает способ одним анализом в одном сайте. Способ высчитывает общее количество копий SMN (включая как SMN1, так и SMN2) из покрытия прочтением в экзоне 7 и вычисляет соотношение SMN1: SMN2 на основе количества прочтений, поддерживающих SMN1 и SMN2, на сайте c.840 C>T. При использовании полного покрытия и соотношения SMN1: SMN2 в способе определяют абсолютное количество копий SMN1 и SMN2. Поскольку данный способ основан только на одном локусе, он является ненадежным для данных WGS, где вариабельность глубины для каждого локуса может быть очень высокой. [0183] Reproducing the current SMA testing regime poses a challenge for high-throughput WGS due to the near-perfect sequence identity between SMN1 and SMN2 . In addition, frequent gene conversion between SMN1 and SMN2 is thought to result in the formation of hybrid genes. These problems require the application of a bioinformatics method to overcome the difficulties in this field. Two NGS-based tests for SMA carrier detection are presented. Larson et al. (Validation of a high resolution NGS method for detecting spinal muscular atrophy carriers among phase 3 participants in the 1000 Genomes Project. BMC Med Genet. 2015;16:100. doi:10.1186/s12881-015-0246-2) used a Bayesian hierarchical model to calculate the probability that the proportion of reads derived from SMN1 is equal to or less than 1/3 given three base differences between SMN1 and SMN2 . The method described in Larson's publication allows testing for SMA; although, since the method does not perform copy number determination, it is not an ideal solution for carrier screening. Conversely, Feng et al. (The next generation of population-based spinal muscular atrophy carrier screening: comprehensive pan-ethnic SMN1 copy-number and sequence variant analysis by massively parallel sequencing. Genet Med Off J Am Coll Med Genet. 2017; 19(8): 936-944 doi:10.1038/gim.2016.215) describes copy number determination for both SMN1 and SMN2 based on targeted sequencing data that closely mimics the current qPCR method. The Feng method is designed for targeted sequencing and therefore requires special normalization, which limits the method to a single analysis at a single site. The method calculates the total copy number of SMN (including both SMN1 and SMN2 ) from the read coverage in exon 7 and calculates the SMN1 : SMN2 ratio based on the number of reads supporting SMN1 and SMN2 at the c.840 C>T site. Using full coverage and the SMN1 : SMN2 ratio, the method determines the absolute copy number of SMN1 and SMN2 . Because this method is based on only one locus, it is unreliable for WGS data, where the depth variability for each locus can be very high.

[0184] По сравнению с целевым секвенированием WGS обеспечивает гораздо более равномерное покрытие генома и обеспечивает подход с меньшим смещением для обнаружения количества копий вариантов (ККВ). Кроме того, WGS дает возможность всесторонне профилировать спектр изменчивости популяции в области SMN, понимание которой на уровне последовательностей оставляет желать лучшего. В этом примере описан новый способ, который обнаруживает количество копий как SMN1, так и SMN2 с использованием данных WGS. В то время как большинство традиционных анализов проверяют только отсутствие c.840C в качестве заместителя для «делеции экзона 7», в этом примере описан способ, который может более полно охарактеризовать вариабельность в области, включая: 1) Делеции ДНК, включая полную делецию/дупликацию гена и частичную делецию области, которая включает экзоны 7 и 8; и 2) обнаружение малых вариантов, включая g.27134T>G SNP, которые коррелирует с « молчащими » носителями SMA (две копии SMN1 на одном и том же гаплотипе). Точность этого способа была продемонстрирована путем сравнения определений количества копий с применением цифровой ПЦР с определениями на основе WGS из примера. Было показано соответствие 100% (48/48) для SMN1 и 98% (47/48) для SMN2. Кроме того, данный способ применяли к 2504 неродственным образцам из проекта 1000 Genomes и 10243 неродственным образцам из проекта NIHR BioResource, чтобы сообщить о распределении количества копий SMN1 и SMN2. Несущие частоты для SMA, определенные с использованием способа, описанным в примере, согласуются с данными, полученными в предыдущих исследованиях на основе ПЦР. Помимо демонстрации точности способа количественной оценки вариантов в области SMN, этот пример подчеркивает важность использования этнически разнообразных популяций при разработке новых информационных способов для определения сложных клинически значимых областей генома. [0184] Compared to targeted sequencing, WGS provides much more uniform genome coverage and provides a lower bias approach for detecting copy number variants (CNVs). In addition, WGS provides the opportunity to comprehensively profile the spectrum of population variation in the SMN region, the understanding of which at the sequence level leaves much to be desired. This example describes a new method that detects copy numbers of both SMN1 and SMN2 using WGS data. While most traditional assays only test for the absence of c.840C as a proxy for "exon 7 deletion", this example describes a method that can more fully characterize variability in a region including: 1) DNA deletions, including complete deletion/duplication gene and partial deletion of the region that includes exons 7 and 8; and 2) discovery of small variants, including the g.27134T>G SNP, that correlate with silent SMA carriers (two copies of SMN1 on the same haplotype). The accuracy of this method was demonstrated by comparing copy number determinations using digital PCR with the WGS-based determinations of the example. Concordance was shown to be 100% (48/48) for SMN1 and 98% (47/48) for SMN2 . In addition, the method was applied to 2504 unrelated samples from the 1000 Genomes project and 10243 unrelated samples from the NIHR BioResource project to report the copy number distribution of SMN1 and SMN2 . The carrier frequencies for SMA determined using the method described in the example are consistent with data obtained in previous PCR-based studies. In addition to demonstrating the accuracy of the way to quantify variants in the SMN region, this example highlights the importance of using ethnically diverse populations when developing new information methods to identify complex clinically relevant regions of the genome.

Материалы и способыMaterials and methods

Образцы и обработка данныхSamples and data processing

[0185] Образцы, проверенные с помощью цифровой ПЦР, были получены из коллекции Лаборатории исследования заболеваний двигательных нейронов (Nemours Alfred I. duPont Hospital for Children) и получали из клеточных линий, как описано выше. Данная когорта содержала 29 образцов SMA (14 SMA типа I, 1 SMA типа I/II, 10 SMA типа II, 3 SMA типа III и 1 SMA с неизвестной клинической степенью), шесть образцов с нервно-мышечными заболеваниями, не относящихся к SMA (включая наследственную сенсорную и вегетативную нейропатию 3, миотоническую дистрофию типа I, дистальную наследственную моторную нейропатию типа I и периферическую нейропатию типа I и сенсомоторную нейропатию Шарко-Мари-Тута типа IA), а также 13 нормальных образцов. WGS выполняли с использованием набора для приготовления образцов TruSeq DNA PCR-free sample preparation, используя парные прочтения длиной 150 п. о., секвенированными на приборах HiSeq X компании Illumina (Сан-Диего, Калифорния, США). Для выравнивания прочтения использовали сборку генома GRCh37. [0185] Samples tested by digital PCR were obtained from the collection of the Motor Neurone Disease Research Laboratory (Nemours Alfred I. duPont Hospital for Children) and were obtained from cell lines as described above. This cohort contained 29 SMA samples (14 SMA type I, 1 SMA type I/II, 10 SMA type II, 3 SMA type III and 1 SMA of unknown clinical grade), six samples with non-SMA neuromuscular diseases ( including hereditary sensory and autonomic neuropathy 3, myotonic dystrophy type I, distal hereditary motor neuropathy type I and peripheral neuropathy type I and sensorimotor Charcot-Marie-Tooth neuropathy type IA), as well as 13 normal samples. WGS was performed using the TruSeq DNA PCR-free sample preparation kit using 150-bp paired-end reads sequenced on HiSeq X instruments from Illumina (San Diego, CA, USA). The GRCh37 genome assembly was used for read alignment.

[0186] В рамках популяционных исследований были задействованы 13343 субъекта из проекта NIHR BioResource Rare Diseases (EGAS00001001012), которым выполняли WGS для людей с редкими заболеваниями и их близким родственникам. Также были исследованы дополнительные субъекты (n = 840) из проекта Next Generation Children (EGAD00001004357), которым выполняли диагностическое трио WGS на пациентах и их родителях из неонатальных и педиатрических отделений интенсивной терапии в Великобритании. WGS для этих исследований выполняли с использованием набора для приготовления образцов TruSeq DNA PCR-Free Preparation kit компании Illumina с парными прочтениями 100 или 125 пар оснований, секвенированных на приборе HiSeq 2500 компании Illumina или парных прочтений 150 п. о., секвенированных на приборе HiSeq X. Для выравнивания прочтения использовали сборку генома GRCh37. При проведении популяционного анализа были исключены родственные субъекты и субъекты неизвестного происхождения, в результате чего осталось 10243 неродственных субъектов. [0186] The population-based studies included 13,343 subjects from the NIHR BioResource Rare Diseases project (EGAS00001001012) who performed WGS on people with rare diseases and their close relatives. Additional subjects (n = 840) from the Next Generation Children project (EGAD00001004357) were also studied who performed diagnostic trio WGS on patients and their parents from neonatal and pediatric intensive care units in the UK. WGS for these studies was performed using Illumina's TruSeq DNA PCR-Free Preparation kit with paired-end 100- or 125-bp reads sequenced on an Illumina HiSeq 2500 instrument or paired-end 150-bp reads sequenced on a HiSeq X instrument The GRCh37 genome assembly was used for read alignment. In the population analysis, related subjects and subjects of unknown origin were excluded, leaving 10,243 unrelated subjects.

[0187] Для данных из проекта 1000 Genomes (1kGP) WGS BAM загружали из ncbi.nlm.nih.gov/bioproject/PRJEB31736/. Эти файлы BAM получали путем секвенирования прочтений 2 x 150 п.о. на приборах NovaSeq 6000 компании Illumina из библиотек без проведения ПЦР, секвенированных на среднюю глубину по меньшей мере 30 раз, и выравнивания их с эталоном человека hs38 DH с использованием BWA-MEM v0.7.15 (среднее покрытие генома более 30 раз). [0187] For data from the 1000 Genomes Project (1kGP), WGS BAM was downloaded from ncbi.nlm.nih.gov/bioproject/PRJEB31736/. These BAM files were generated by sequencing 2 x 150 bp reads. on Illumina NovaSeq 6000 instruments from non-PCR libraries sequenced to an average depth of at least 30x and aligned to the human hs38 DH reference using BWA-MEM v0.7.15 (average genome coverage >30x).

Анализ количества копий SMN ортогональными способамиAnalysis of SMN copy number by orthogonal methods

[0188] Для проверочных образцов количество копий SMN1 и SMN2 измеряли с помощью системы цифровой ПЦР QuantStudio 3 D (Life Technologies, Карлсбад, Калифорния) с использованием аллель-специфических зондов экзона 7, как описано выше. Количество копий SMN1 и SMN2 нормировали относительно количества копий RPPH1 (РНКаза P). Обнаруженные образцы SMA в проекте Next Generation Children были подтверждены с использованием стандартной MLPA (SALSA MLPA P060 SMA Carrier Probemix, MRC-Holland). [0188] For validation samples, copy numbers of SMN1 and SMN2 were measured using a QuantStudio 3 D digital PCR system (Life Technologies, Carlsbad, CA) using exon 7 allele-specific probes as described above. SMN1 and SMN2 copy numbers were normalized to RPPH1 ( RNase P ) copy numbers. The detected SMA patterns in the Next Generation Children project were confirmed using standard MLPA (SALSA MLPA P060 SMA Carrier Probemix, MRC-Holland).

Определение количества копий для интактного и укороченного SMN Copy number determination for intact and truncated SMN

[0189] На локусы SMN1 и SMN2 влияют количества копий двух общих вариантов, количества копий вариантов всего генома и частичная делеция экзонов 7 и 8 (см. результаты данного примера). Укороченная форма SMN с частичной делецией экзонов 7 и 8 была названа SMN*. Способ определения количества копий интактных генов SMN1 + SMN2 (далее именуемых SMN) и укороченных генов SMN (SMN*) с использованием следующих этапов. [0189] The SMN1 and SMN2 loci are affected by the copy numbers of two common variants, the copy numbers of genome-wide variants, and partial deletion of exons 7 and 8 (see results of this example). A truncated form of SMN with partial deletion of exons 7 and 8 was named SMN* . A method for determining the copy number of intact SMN1 + SMN2 genes (hereinafter referred to as SMN ) and truncated SMN genes ( SMN *) using the following steps.

[0190] Выявление и подсчет прочтений SMN1 и SMN2 : Количество прочтений рассчитывали непосредственно из файла BAM, выровненного по WGS на основе всех прочтений, сопоставленных с SMN1 или SMN2, включая прочтение с нулевым качеством сопоставления. Часто считываемые данные будут выравниваться с этими областями с нулевым качеством картирования, поскольку последовательность двух областей является идентичной. Эти два гена имеют одинаковую последовательность только друг с другом, а не с другими областями генома. Количество прочтений в области 22,2 т. п. н., включающей от экзоны от 1 до 6, использовали для расчета общего количества копий SMN (SMN1, SMN2 и SMN*), а число прочтений в области 6 т. п. н., включающей экзон 7 и экзон 8, использовали для расчета количества копий интактного SMN (SMN1 и SMN2). [0190] Read detection and counting SMN1 And SMN2 : Read counts were calculated directly from the WGS aligned BAM file based on all reads mapped toSMN1 orSMN2, including reading with zero matching quality. Often the read data will align to these regions with zero mapping quality because the sequence of the two regions is identical. These two genes share sequence only with each other and not with other regions of the genome. The number of reads in the 22.2 kb region, including exons 1 to 6, was used to calculate the total copy numberSMN (SMN1,SMN2 AndSMN*), and the number of reads in the 6 kb region, including exon 7 and exon 8, was used to calculate the number of copies of the intactSMN (SMN1 AndSMN2).

[0191] Расчет нормализованной глубины областей SMN : Количество прочтений двух описанных выше областей было нормализовано по длине области и дополнительно нормализовано путем деления на среднюю глубину 3000 предварительно выбранных областей размером 2 т. п. н. из геному. [0191] Calculation of normalized depth of regions SMN : The read counts of the two regions described above were normalized by region length and further normalized by dividing by the average depth of 3000 preselected 2 kb regions. from the genome.

[0192] Преобразование нормализованной глубины в количество копий: Нормированные значения глубины по популяции моделировали с использованием одномерной смеси 11 распределений, которые сосредоточены вокруг каждого целочисленного значения количества копий, представляющего состояния количества копий в диапазоне от 0 до 10. Количество копий общего SMN и интактного SMN было определено с помощью модели смеси нормальных распределений (GMM) с порогом апостериорной вероятности 0,95. [0192] Convert normalized depth to copy number : Population normalized depth values were modeled using a univariate mixture of 11 distributions that centered around each integer copy number value representing copy number states ranging from 0 to 10. Copy number of total SMN and intact SMN was determined using a normal distribution mixture model (GMM) with a posterior probability threshold of 0.95.

[0193] Расчет количества копий интактного и укороченного SMN : Количество копий интактного SMN определяли как количество копий области 6,3 т. п. н., охватывающей экзоны 7 и 8. Количество копий укороченного SMN (SMN*) получали путем вычитания количества копий интактного SMN из общего количества копий SMN, рассчитанного из области размером 22,2 т.п.н., содержащей экзоны 1-6. [0193] Calculation of the number of copies of intact and shortened SMN : Number of copies of intactSMN was defined as the copy number of the 6.3 kb region spanning exons 7 and 8. The copy number of the truncatedSMN (SMN*) was obtained by subtracting the number of copies of the intactSMN from the total number of copiesSMN, calculated from a 22.2-kb region containing exons 1–6.

Генотипирование количества копий аллелей по отдельных основанияхGenotyping the number of copies of alleles for individual bases

[0194] Количество хромосом, несущих основания SMN1 и SMN2, определяли путем комбинирования общего количества копий SMN с количеством прочтений, поддерживающим каждое из ген-специфических оснований. На основе определения количества копий интактного SMN в каждом положении способ повторял все возможные комбинации количества копий SMN1 и SMN2, выводил комбинацию, которая дает самую высокую апостериорную вероятность для наблюдаемого количества прочтений, поддерживающих SMN1 и SMN2. Помимо определения количества копий оснований, специфичных для SMN1 или SMN2, этот способ можно применять в положениях вариантов для определения количества копий SNP, которые, как известно, являются специфичными для одного из двух генов, например g27134T>G, как описано ниже. [0194] The number of chromosomes carrying the bases SMN1 and SMN2 was determined by combining the total copy number of SMN with the number of reads supporting each of the gene-specific bases. Based on determining the copy number of intact SMN at each position, the method iterated through all possible copy number combinations of SMN1 and SMN2 , outputting the combination that gave the highest posterior probability for the observed number of reads supporting SMN1 and SMN2 . In addition to determining the copy number of bases specific to SMN1 or SMN2 , this method can be used at variant positions to determine the copy number of SNPs that are known to be specific for one of the two genes, for example g27134T>G, as described below.

Количество копий SMN1 и SMN2 Number of copies of SMN1 and SMN2

[0195] Для 16 положений (локализованных от интрона 6 до экзона 8), отличающихся между SMN1 и SMN2 в эталонном геноме, исследовали, действительно ли эти сайты были фиксированными в популяции путем сравнения определенных количеств копий аллелей SMN1 для этих положений с определенным количеством копий сплайс-вариантной формой основания SMN1 c.840C. Восемь положений, включая c.840C>T, где основания SMN1 фиксированы или фиксированию в популяции, были идентифицированы на основе соответствия с сплайс-вариантной формой основания (см. раздел « Результаты » в данном примере, ФИГ. 14A). Остальные сайты могут быть полиморфными в популяции и могут быть ненадежными для использования при определении количества копий. [0195] For the 16 positions (localized from intron 6 to exon 8) that differ between SMN1 and SMN2 in the reference genome, it was examined whether these sites were indeed fixed in the population by comparing the specific copy numbers of the SMN1 alleles for these positions with the specific copy numbers of the splice -variant form of the base SMN1 c.840C. Eight positions, including c.840C>T, where SMN1 bases are fixed or fixed in the population, were identified based on matches to the splice variant form of the base (see Results section in this example, FIG. 14A). The remaining sites may be polymorphic in the population and may not be reliable for use in determining copy number.

[0196] Для получения окончательного определения количества копий этим способом необходимо выполнить следующие действия: 1) определение количества копий SMN1 согласуются по крайней мере на 5 из 8 сайтов при отсечении апостериорной вероятности 0,8 или 2) по меньшей мере на 5 из 8 сайтов (с апостериорной вероятностью > 0,6) согласуются с количеством копий, полученным из перекрывающихся прочтений всех 8 сайтов (с апостериорной вероятностью > 0,9). В противном определение количества копий как для SMN1, так и для SMN2 не проводилось. Образцы SMA идентифицировали как имеющие нулевую копию интактного SMN1, а образцы носителей идентифицировали как имеющие одну копию интактного SMN1. [0196] To obtain a final copy number determination by this method, the following steps must be performed: 1) SMN1 copy number determinations are consistent at least 5 of 8 sites at a posterior probability cutoff of 0.8, or 2) at least 5 of 8 sites ( with a posterior probability >0.6) are consistent with the copy numbers obtained from overlapping reads from all 8 sites (with a posterior probability >0.9). Otherwise, copy number determinations were not performed for either SMN1 or SMN2 . SMA samples were identified as having zero copy of intact SMN1 , and carrier samples were identified as having one copy of intact SMN1 .

[0197] При более высоких значениях количества копий можно ожидать большую вариабельность глубины, прочтения что приведет к менее конфиденциальному определению количества копий (с более низкой апостериорной вероятностью) на отдельных сайтах и большему расхождению между сайтами. В результате вероятность отсутствия определения была выше в выборках с большим количеством копий SMN1/SMN2, т. е. для обоих значений, которые больше или равны двум (см. ФИГ. 15). Однако в таких выборках по-прежнему можно достоверно определить, является ли количество копий SMN1 равно 0 (SMA) или 1 (носитель), что позволило осуществить определение SMA/отсутствие SMA или носитель/не носитель. Если количество копий SMN1 не определялось, если по меньшей мере семь из определений количества копий SMN1 были достоверно больше нуля, то образец обозначали как «отсутствие SMA». Аналогичным образом, если по меньшей мере семь определений количества копий SMN1 были достоверно больше единицы, образец обозначали как «не носитель». Кроме того, если количество копий SMN1 не определялось, непосредственно тестировали отсутствие аллеля c.840C, который указывал бы на SMA. Это было сделано путем проверки того, является ли количество прочтений, поддерживающих основание SMN1 (c.840C), более вероятным при отсутствии SMN1 или его одной копии. [0197] At higher copy number values, greater variability in read depth can be expected, resulting in less sensitive copy number determination (with a lower posterior probability) at individual sites and greater discrepancy between sites. As a result, the probability of missing detection was higher in samples with higher SMN1 / SMN2 copy numbers, i.e., both values greater than or equal to two (see FIG. 15). However, in such samples it is still possible to reliably determine whether the SMN1 copy number is 0 (SMA) or 1 (carrier), allowing for the determination of SMA/no-SMA or carrier/non-carrier. If SMN1 copy number was not determined, if at least seven of the SMN1 copy number determinations were significantly greater than zero, then the sample was designated as “no SMA.” Likewise, if at least seven SMN1 copy number determinations were significantly greater than one, the sample was designated as a “non-carrier.” In addition, if SMN1 copy number was not determined, the absence of the c.840C allele, which would indicate SMA, was directly tested. This was done by testing whether the number of reads supporting the SMN1 base (c.840C) was more likely in the absence of SMN1 or one copy of it.

Результатыresults

Общее количество копий варианта, влияющее на локусы SMN1/SMN2 Total copy number of variant affecting SMN1 / SMN2 loci

[0198] Гены SMN1 и SMN2 находятся в области~ 2 млн п. н. в эталонном геноме с большим количеством сложных сегментных и инвертированных сегментных дупликаций. Хотя существующие способы (например, способы на основе ПЦР) сосредоточены главным образом на сайте c.840C>T, данный пример иллюстрирует подход с определением количества копий, основанный на данных секвенирования для полных генов. Количество копий SMN1 определяли как количество генов SMN, несущих аллель c.840C, а количество копий SMN2 определяли как количество генов SMN с аллелем c.840T. Анализ последовательности проводили с использованием данных WGS высокой глубины (>30X) 2504 образцов из проекта 1000 Genomes (1kGP), а также 10243 неродственных образцов из проекта NIHR BioResource (см. способы данного примера). [0198] The SMN1 and SMN2 genes are located in the ~2 Mb region. in a reference genome with a large number of complex segmental and inverted segmental duplications. Although existing methods (eg, PCR-based methods) focus primarily on the c.840C>T site, this example illustrates a copy number approach based on sequencing data for complete genes. SMN1 copy number was defined as the number of SMN genes carrying the c.840C allele, and SMN2 copy number was defined as the number of SMN genes carrying the c.840T allele. Sequence analysis was performed using high depth (>30X) WGS data from 2,504 samples from the 1000 Genomes Project (1kGP), as well as 10,243 unrelated samples from the NIHR BioResource project (see methods in this example).

[0199] Чтобы сформулировать стратегию определения количества копий сначала были охарактеризованы количества копий двух общих вариантов, которые приводили к делециям ДНК. Первичная оценка количества копий вариантов включает всю область гена SMN1/SMN2. Была исследована глубина прочтения в гомологичной области размером~ 30 т.п.н., содержащей гены SMN1 и SMN2. На ФИГ. 12A показаны нормализованные глубины прочтения в скользящих окнах из 100 п. н. в образцах с различными количествами копий вариантов SMN1+SMN2 в данной области (представляющих как SMN1, так и SMN2). Профиль глубины показывает, что вся область была удалена или дублирована в этих образцах. Ожидалось, что точные точки разрыва данного количества копий вариантов у разных образцов будут различаться из-за обширной гомологии последовательности в пределах и за пределами данной области, и их можно различить только при высоком разрешении с длинным прочтением. Для тестирования на SMA анализ был ограничен (~ 30 т.п.н.) областями, включающими гены SMN (SMN1 или SMN2). [0199] To formulate a copy number determination strategy, the copy numbers of two common variants that resulted in DNA deletions were first characterized. The primary copy number estimate for variants includes the entire SMN1 / SMN2 gene region. The read depth in the ~30 kb homologous region containing the SMN1 and SMN2 genes was examined. In FIG. Figure 12A shows normalized read depths in 100 bp sliding windows. in samples with different copy numbers of SMN1+SMN2 variants in a given region (representing both SMN1 and SMN2 ). The depth profile shows that the entire region has been removed or duplicated in these samples. The exact breakpoints of a given copy number of variants were expected to vary between samples due to extensive sequence homology within and outside a given region, and could only be distinguished at high resolution with long reads. To test for SMA, the analysis was limited (~30 kb) to regions including the SMN genes ( SMN1 or SMN2 ).

[0200] Кроме количества копий вариантов всего гена была обнаружена частичная делеция 6.3 т. п. н. гена, охватывающая оба экзона 7 и 8 (ФИГ. 12B, ФИГ. 16). Последовательности в точке разрыва идентичны между SMN1 и SMN2, поэтому эта делеция происходит в любой из chr5: 70244114 - 70250420 в SMN1 или chr5: 69368689 - 69375000 в SMN2 (ФИГ. 16, hg19). Однако около 500 п. н. ниже точки разрыва, определяющей конец этой делеции, существуют три различия в основаниях между локусами SMN1 и SMN2 (70250881A>69375425C, 70250981A>69375525G, 70250991A>69375535G). Среди образцов, содержащих эту делецию, были выявлены 245 пар прочтений из 237 образцов, где одно прочтение охватывало точку разрыва, а другое охватывало по меньшей мере два из трех дифференцирующих оснований SMN. Анализ этих пар прочтения показал, что 100% соответствовали делеции, происходящей на фоне последовательности SMN2. Такая укороченная форма SMN2 была названа SMN*, и поскольку оба экзона 7 и 8 удалены, SMN*, вероятно, имеет ограниченную биологическую функцию или не имеет ее вовсе. Таким образом, SMN* является важным вариантом, который следует учитывать при любом определении количества копий SMN. [0200] In addition to the copy number variants of the entire gene, a partial deletion of 6.3 kb was detected. gene spanning both exons 7 and 8 (FIG. 12B, FIG. 16). The breakpoint sequences are identical between SMN1 and SMN2 , so this deletion occurs at either chr5:70244114 - 70250420 in SMN1 or chr5:69368689 - 69375000 in SMN2 (FIG. 16, hg19). However, about 500 bp. below the breakpoint defining the end of this deletion, there are three base differences between the SMN1 and SMN2 loci (70250881A>69375425C, 70250981A>69375525G, 70250991A>69375535G). Among the samples containing this deletion, 245 read pairs were identified from 237 samples, where one read spanned the breakpoint and the other spanned at least two of the three SMN differentiating bases. Analysis of these read pairs showed that 100% corresponded to a deletion occurring in the background of the SMN2 sequence. This truncated form of SMN2 has been named SMN* , and since both exons 7 and 8 are deleted, SMN* likely has limited or no biological function. Thus, SMN* is an important variant to consider in any determination of SMN copy number.

[0201] На ФИГ. 12A и 12B показаны неограничивающие примеры графиков, иллюстрирующих общие ВКК, влияющие на локусы SMN1/SMN2. На ФИГ. 12A представлены профили глубины в областях SMN1/SMN2. Образцы с общим количеством копий SMN1+SMN2 2, 3, 4 и 5 показаны точками соответственно. Для каждой категории количества копий суммируют глубину 50 образцов. Каждая точка представляет нормированные значения глубины в окне длиной 100 п. н. Количество прочтений рассчитывали в каждом окне длиной 100 п. н., суммировали показания для SMN1 и SMN2 и нормализовали по глубине образцов дикого типа (CN=4). Экзоны SMN представлены в виде пурпурных прямоугольников. Две оси x показывают координаты в SMN1 (внизу) и SMN2 (вверху). На ФИГ. 12B показаны профили глубины, объединенные из 50 образцов, несущих делецию экзонов 7 и 8, показаны в виде точек. Значения глубины прочтения рассчитывали таким же образом, как показано на ФИГ. 12A. [0201] In FIG. 12A and 12B show non-limiting example graphs illustrating common ICCs affecting the SMN1 / SMN2 loci. In FIG. 12A shows depth profiles in the SMN1/SMN2 regions. Samples with total SMN1 + SMN2 copy numbers of 2, 3, 4, and 5 are shown as dots, respectively. For each copy number category, the depth of 50 samples is summed. Each point represents normalized depth values in a 100-bp window. Read counts were calculated in each 100-bp window, the reads for SMN1 and SMN2 were summed, and normalized to the depth of the wild-type samples (CN=4). SMN exons are represented as magenta boxes. The two x-axes show the coordinates in SMN1 (bottom) and SMN2 (top). In FIG. 12B shows depth profiles pooled from 50 samples carrying deletions of exons 7 and 8, shown as dots. Read depth values were calculated in the same manner as shown in FIG. 12A.

[0202] После поиска аномальных пар прочтения, других общих количеств копий вариантов в области SMN не было обнаружено. Объединив эту информацию вместе, количество копий генов SMN было призвано специально идентифицировать количество интактных и укороченных форм путем разделения генов на две области: область из 6,3 т.п.н., содержащая экзоны 7-8, и область из 22,2 т.п.н., содержащая экзоны 1-6. Количество копий этих двух областей рассчитывали по глубине прочтения, как описано в разделе «Способы» данного примера. Количество копий рассчитанное на основе области экзонов 7-8, обеспечивала количество интактных генов SMN. Образцы с SMN* имели более высокий уровень определения количества копий из области экзона 1-6 по сравнению со определением количества копий из области экзона 7-8, и их различие представляло собой количество копий SMN*. На ФИГ. 13 показаны результаты такого расчета для 12747 образцов когорты, где было определено 2144 экземпляров SMN*, включая 140 образцов с двумя копиями SMN* и один образец с тремя копиями SMN*. [0202] After searching for anomalous read pairs, no other total copy number variants were found in the SMN region. Combining this information together, SMN gene copy numbers were designed to specifically identify the number of intact and truncated forms by dividing the genes into two regions: a 6.3-kb region containing exons 7-8, and a 22.2-kb region .bp containing exons 1-6. The copy number of these two regions was calculated from the read depth as described in the Methods section of this example. The copy number calculated based on the region of exons 7-8 provided the number of intact SMN genes. Samples with SMN* had higher levels of copy number detection from the exon 1-6 region compared to copy number detection from the exon 7-8 region, and their difference was represented by SMN* copy number. In FIG. Figure 13 shows the results of this calculation for 12,747 cohort samples, where 2,144 SMN* instances were identified, including 140 samples with two copies of SMN* and one sample with three copies of SMN* .

[0203] На ФИГ. 13 показан неограничивающий пример диаграммы рассеяния общего количества копий SMN (SMN1+SMN2) (ось X, обозначает глубину прочтения экзонов 1-6) и количества копий интактного SMN (ось y, обозначает глубину прочтения экзонов 7-8). [0203] In FIG. 13 shows a non-limiting example of a scatterplot of total SMN copy number ( SMN1 + SMN2 ) (x-axis, denotes read depth of exons 1-6) and intact SMN copy number (y-axis, denotes read depth of exons 7-8).

Дифференциация количества копий SMN1 от SMN2 Copy number differentiation of SMN1 from SMN2

[0204] После расчета общего количества копий генов SMN SMN1 и SMN2 дифференцировали, как описано ниже. Поскольку c.840C>T является наиболее важным функциональным различием между SMN1 и SMN2, абсолютное количество копий этих двух генов можно теоретически получить при помощи соотношения между количеством прочтений, поддерживающих SMN1 и SMN2 на этом сайте. Однако глубина прочтения в одном диплоидном положении обычно составляет 30 - 40X для набора данных WGS и иногда не обеспечивает достаточной мощности для четкого различения между различными состояниями количества копий (см. ФИГ. 15). Таким образом, при выполнении определения количества копий использовали дополнительные различия оснований вблизи c.840C>T, чтобы информация на этих сайтах могла быть скомбинирована с c.840C>T. Поскольку желательно дифференцировать интактный SMN1 от SMN2, были рассмотрены варианты, которые встречаются в пределах делеции 6,3 т. п. н. SNP в гомополимерах и коротких тандемных повторах (TRs), которые могут быть более подвержены ошибкам, были исключены, что привело к различиям в 16 основаниях между SMN1 и SMN2 (таблица 8). [0204] After calculating the total copy number of the SMN genes, SMN1 and SMN2 were differentiated as described below. Since c.840C>T is the most important functional difference between SMN1 and SMN2 , the absolute copy number of these two genes can theoretically be obtained by the ratio between the number of reads supporting SMN1 and SMN2 at that site. However, read depth at a single diploid position is typically 30 - 40X for a WGS data set and sometimes does not provide sufficient power to clearly distinguish between different copy number states (see FIG. 15). Thus, when performing copy number determinations, additional base differences near c.840C>T were used so that information at these sites could be combined with c.840C>T. Because it is desirable to differentiate intact SMN1 from SMN2 , variants that occur within the 6.3-kb deletion were considered. SNPs in homopolymers and short tandem repeats (TRs), which may be more error-prone, were excluded, resulting in 16 base differences between SMN1 and SMN2 (Table 8).

[0205] Для этих 16 различий оснований независимо определяли количество копий аллелей SMN1 и SMN2 (см. раздел «Способы» данного примера) и сравнивали определения количества копий для каждого положения с определениями количества копий в сплайс-вариантном сайте (ФИГ. 14A, ФИГ. 17). Наблюдалось заметное различие между соответствием определений в африканской и неафриканской популяциях (ФИГ. 14A). Для образцов неафриканцев обнаружено 13 сайтов с большим (>85%) количеством копий в соответствии с сайтом сплайсинга. И наоборот, для образцов африканцев обнаружено только семь участков с большим количеством копий в соответствии с сайтом сплайсинга, а значения соответствия были ниже, чем в неафриканских популяциях. Это согласуется с внутригенными вариациями во многих из этих положений и более высокими частотами для этих неэталонных аллелей в неафриканских популяциях. Вариант сплайсинга и семь позиций, которые были высоко согласованы с вариантом сплайсинга как в африканских, так и в неафриканских популяциях, были выбраны для определения количества копий SMN1 и SMN2. Ограничиваясь двумя состояниями количества копий, которые позволяют легко идентифицировать гибридные аллели (SMN1=CN2 и SMN2=CN0 или SMN1=CN2 и SMN2=CN1), стала возможной оценка частот аллелей этих сайтов в генах SMN1 и SMN2 (таблица 9, ФИГ. 18A и 18B). На основе этого анализа по всем этим восьми позициям было оценено, что до 0,5% генов SMN1 содержат аллель SMN2. И наоборот, по оценкам, до 0,9% генов SMN2 являются носителями аллеля SMN1. Эти наблюдения могут быть результатом генной конверсии или того, что многие из этих восьми сайтов полиморфны в популяции. Большая часть этих гибридных аллелей происходит из африканских популяций (таблица 9). [0205] For these 16 base differences, the copy number of the SMN1 and SMN2 alleles was determined independently (see Methods section of this example) and the copy number determinations for each position were compared with the copy number determinations at the splice variant site (FIG. 14A, FIG. 17). There was a noticeable difference between the agreement of definitions in African and non-African populations (FIG. 14A). For non-African samples, 13 sites with high (>85%) copy number consistent with the splice site were found. Conversely, for African samples, only seven splice site-matched high copy number regions were found, and the match values were lower than in non-African populations. This is consistent with intragenic variation at many of these positions and higher frequencies for these non-reference alleles in non-African populations. The splice variant and seven positions that were highly consistent with the splice variant in both African and non-African populations were selected to determine copy numbers of SMN1 and SMN2 . By limiting ourselves to two copy number states that allow easy identification of hybrid alleles ( SMN1 =CN2 and SMN2 =CN0 or SMN1 =CN2 and SMN2 =CN1), it became possible to estimate the allele frequencies of these sites in the SMN1 and SMN2 genes (Table 9, FIG. 18A and 18B). Based on this analysis across these eight positions, it was estimated that up to 0.5% of SMN1 genes contain the SMN2 allele. Conversely, it is estimated that up to 0.9% of SMN2 genes carry the SMN1 allele. These observations may be the result of gene conversion or the fact that many of these eight sites are polymorphic in the population. Most of these hybrid alleles originate from African populations (Table 9).

[0206] На ФИГ. 14A-14D показаны распределения количества копий SMN1/SMN2/SMN* в популяции. На ФИГ. 14A представлен неограничивающий пример иллюстративного графика, иллюстрирующий процентную долю образцов, показывающих согласование определения количества копий с c.840C>T по 16 сайтам различия оснований SMN1-SMN2 в африканских и неафриканских популяциях. Сайт 13* представляет собой сплайс-вариантный сайт c.840C>Т. Черной горизонтальной линией обозначено 85% совпадения. На ФИГ. 14B показаны неограничивающие примеры гистограмм распределений количества копий SMN1, SMN2 и SMN* по пяти популяциям в 1kGP и когорте NIHR BioResource (числа приведены в таблице 15). На ФИГ. 14C показан неограничивающий пример графика зависимости количества копий SMN1 от общего количества копий SMN2 (интактный SMN2 + SMN*). На ФИГ. 14D показаны два трио с пробандом SMA, обнаруженным специалистом и ортогонально подтвержденным в когорте NIHR BioResource. Количество копий на аллель SMN1, SMN2 и SMN* фазировано и помечено для каждого члена трио. [0206] In FIG. 14A-14D show the copy number distributions of SMN1 / SMN2 / SMN * in the population. In FIG. 14A is a non-limiting example of an illustrative graph illustrating the percentage of samples showing copy number assignment agreement with c.840C>T across 16 SMN1-SMN2 base difference sites in African and non-African populations. Site 13* is a splice variant site c.840C>T. The black horizontal line indicates 85% agreement. In FIG. 14B shows non-limiting examples of histograms of copy number distributions of SMN1 , SMN2 and SMN* across five populations in the 1kGP and NIHR BioResource cohort (numbers given in Table 15). In FIG. 14C shows a non-limiting example of a plot of SMN1 copy number versus total SMN2 copy number (intact SMN2 + SMN* ). In FIG. Figure 14D shows two trios with an SMA proband identified by a specialist and orthogonally confirmed in the NIHR BioResource cohort. The copy numbers per allele of SMN1 , SMN2 , and SMN* are phased and labeled for each member of the trio.

[0207] Введение большего количества различий оснований повышало способность дифференцировать SMN1 от SMN2. Однако поскольку данные сайты действительно не являются инвариантными в соответствующих генах, и определение количества копий в отдельных сайтах может быть вызвано ошибкой, вероятность того, что одно из отдельных определений будет отличаться от истинного состояния количества копий, будет увеличиваться. Чтобы сделать конечное определение было необходимо, чтобы определения количества копий SMN1 согласовывались друг с другом на 5 или более из 8 сайтов (полное описание правил определения количества копий см. в разделе «Способы» данного примера). С отсечением апостериорной вероятности 0,8 большинство образцов имели согласованные определения по меньшей мере в пяти из восьми сайтов, и только 1,4% образцов имели менее 5 согласованных сайтов (таблица 10). В 80% из этих образцов было проведено достоверное определение количества копий на основе второго правила консенсуса (требующего согласования с определением количества копий, сделанным суммированием прочтений на всех 8 сайтах). «Несогласующиеся » сайты чаще не были выявлены из-за низкой апостериорной вероятности, а не из-за несоответственных определений, и только 15,3% из них были достоверными определениями, которые не соответствовали с консенсусом других сайтов. Опять же, значительная часть рассогласований определялась в африканских популяциях (Таблица 10). Использование меньшего количества сайтов для большинства правил позволило получить большее количество неопределений и неверных определений по сравнению с использованием восьми сайтов (таблица 11). [0207] Introducing more base differences increased the ability to differentiate SMN1 from SMN2 . However, since these sites are not truly invariant in the corresponding genes, and copy number determinations at individual sites may be subject to error, the likelihood that one of the individual determinations will differ from the true copy number state will increase. To make the final determination, it was necessary that the SMN1 copy number determinations were consistent with each other at 5 or more of the 8 sites (see the Methods section of this example for a complete description of the copy number determination rules). With a posterior probability cutoff of 0.8, most samples had concordant definitions in at least five of the eight sites, and only 1.4% of samples had fewer than 5 concordant sites (Table 10). In 80% of these samples, a reliable copy number determination was made based on the second consensus rule (requiring agreement with the copy number determination made by summing the reads from all 8 sites). "Discordant" sites were more often not identified due to low posterior probability rather than due to inconsistent definitions, and only 15.3% of these were valid definitions that did not agree with the consensus of other sites. Again, a significant proportion of the discrepancies were identified in African populations (Table 10). Using fewer sites for most rules resulted in more misidentifications and misidentifications compared to using eight sites (Table 11).

Проверка определения количества копий SMN Checking the SMN Copy Number Determination

[0208] Для тестирования данного способа секвенировали 48 образцов с известными количествами копий SMN1 и SMN2, включая 29 пробандов SMA, 6 носителей SMA и 13 образцов с количеством копий SMN1 больше 1. Результаты определения количества копий SMN1 согласуются с результатами цифровой ПЦР для всех 48 случаев, а результаты определения количества копий SMN2 согласуются для 47 (97,9%) из 48 случаев (таблицы 6A и 6B). В этом единственном несоответствующем случае (MB509) способ определили 3 копии SMN2, в то время как цифровая ПЦР показала 2 копии SMN2 (таблица 12). При более точном изучении обнаружили делецию 1884 п. н. в SMN1 (chr5:70247145-70249029, hg19) в этом образце (ФИГ. 19). Делеция невелика (значительно не изменяет глубину в области 6 т. п. н., используемой для определения количества копий интактного SMN) и ранее не сообщалась (и не обнаруживалась в данных популяции), поэтому способ не был предназначен для ее обнаружения. В результате этого данный образец был правильно идентифицирован как SMA, но количество копий SMN2 было завышено на единицу. Делеция согласуется с определениями количества копий, выполненными на 8 сайтах различия SMN1-SMN2, причем первые 2 сайта не находятся в делеции и количество копий SMN1 определялось как CN=1, а следующие 6 сайтов находятся в делеции и количество копий SMN1 определялось как CN=0. [0208] To test this method, 48 samples with known SMN1 and SMN2 copy numbers were sequenced, including 29 SMA probands, 6 SMA carriers, and 13 samples with SMN1 copy numbers greater than 1. SMN1 copy number results were consistent with digital PCR results for all 48 cases , and SMN2 copy number results were consistent for 47 (97.9%) of 48 cases (Tables 6A and 6B). In this single nonmatching case (MB509), the method detected 3 copies of SMN2 , while digital PCR showed 2 copies of SMN2 (Table 12). A more precise study revealed a deletion of 1884 bp. in SMN1 (chr5:70247145-70249029, hg19) in this sample (FIG. 19). The deletion is small (does not significantly change the depth in the 6 kb region used to determine the copy number of intact SMN ) and has not previously been reported (or detected in population data), so the method was not designed to detect it. As a result, this sample was correctly identified as SMA, but the copy number of SMN2 was overestimated by one. The deletion is consistent with copy number determinations made at 8 sites of the SMN1 - SMN2 difference, with the first 2 sites not in the deletion and SMN1 copy number being defined as CN=1, and the next 6 sites being in the deletion and SMN1 copy number being defined as CN=0 .

[0209] Была проанализирована согласованность определений количества копий SMN1/SMN2/SMN* в 258 трио из когорты проекта Next Generation Children (см. раздел «Способы» данного примера). Ни в одном из определений не было менделевской ошибки (таблица 13). [0209] The consistency of SMN1/SMN2 / SMN* copy number determinations in 258 trios from the Next Generation Children cohort was analyzed (see Methods section of this example). There was no Mendelian error in any of the determinations (Table 13).

Таблица 6A. Проверка относительно образцов с известными количествами копий SMN1/SMN2 Table 6A. Validation against samples with known SMN1 / SMN2 copy numbers

Количество копий по цифровой ПЦРNumber of copies by digital PCR ОбщийGeneral СогласованныйAgreed НесогласованныйInconsistent СогласованиеCoordination SMN1SMN1 00 2929 2929 00 100,0%100.0% 11 66 66 00 100,0%100.0% 22 1010 1010 00 100,0%100.0% 33 33 33 00 100,0%100.0% ОбщийGeneral 4848 4848 00 100,0%100.0% SMN2SMN2 00 11 11 00 100,0%100.0% 11 44 44 00 100,0%100.0% 22 2929 2828 11 96,6%96.6% 33 11eleven 11eleven 00 100,0%100.0% 44 33 33 00 100,0%100.0% ОбщийGeneral 4848 4747 11 97,9%97.9%

Таблица 6B. Проверка относительно образцов с известными количествами копий SMN1/SMN2 Table 6B. Validation against samples with known SMN1 / SMN2 copy numbers

Количество копий по ортогональному способуNumber of copies using the orthogonal method ОбщийGeneral СогласованныйAgreed НесогласованныйInconsistent СогласованиеCoordination SMN1SMN1 00 6464 6464 00 100,0%100.0% 11 4545 4444 11 97,8%97.8% 22 897897 897897 00 100,0%100.0% 33 174174 174174 00 100,0%100.0% 44 4343 4343 00 100,0%100.0% 66 11 00 11 0,0%0.0% ОбщийGeneral 12241224 12221222 22 99,8%99.8% SMN2SMN2 00 117117 117117 00 100,0%100.0% 11 466466 465465 11 99,8%99.8% 22 541541 539539 22 99,6%99.6% 33 6060 6060 00 100,0%100.0% 44 99 88 11 88,9%88.9% ОбщийGeneral 11931193 11891189 44 99,7%99.7% SMN2Δ7 - 8SMN2Δ7 - 8 00 10891089 10891089 00 100,0%100.0% 11 8080 8080 00 100,0%100.0% 22 44 44 00 100,0%100.0% ОбщийGeneral 11731173 11731173 00 100,0%100.0%

Количество копий SMN1, SMN2 и SMN* по популяцииCopy numbers of SMN1 , SMN2 and SMN* by population

[0210] Учитывая высокую точность, продемонстрированную проверкой результатов цифровой ПЦР, способ применяли к данным WGS большой глубины (>30X) для 12747 неродственных образцов из 1kGP и NIHR BioResource (таблица 14). Распределение количества копий было проанализировано по популяциям (европейцы, африканцы, выходцы из Восточной Азии, Южной Азии и смешанные американцы, состоящие из колумбийцев, мексиканцев, перуанцев и пуэрториканцев). На ФИГ. 14B показана гистограмма количества индивидуумов с различным количеством копий интактного SMN1, интактного SMN2 и SMN*. Распределения аналогичны между образцами 1kGP и образцами NIHR BioResource (ФИГ. 20). В целом, у индивидов имелось больше копий SMN1, чем SMN2. Наиболее распространенными комбинациями количества копий SMN1/SMN2 были 2/2 (44,9%) и 2/1 (33,4%). За исключением африканцев, которые демонстрировали более высокую вариабельность как количества копий SMN1, так и SMN2, вариабельность количества копий SMN1 была намного ниже, чем количества копий SMN2. И наоборот, 54,7% африканцев имели три или более копий SMN1, что было более чем в два раза выше, чем наблюдалось у любой из четырех других популяциях (ФИГ. 14B, таблица 7). Существует обратная зависимость между количеством копий SMN1 и SMN2, количество копий SMN2 была ниже с увеличением количества копий SMN1 (ФИГ. 14C, коэффициент корреляции -0,344, p-значение < 2.2e-16). Это наблюдение согласуется с механизмом, при котором генная конверсия происходит между SMN1 и SMN2. Наблюдаемое более большое количество копий SMN1 по сравнению с количеством копий SMN2 может быть результатом смещения в сторону конверсии SMN2 в SMN1 или выбора к низкому количеству копий SMN1. У африканцев количество копий SMN2 значительно ниже, чем в других популяциях. [0210] Given the high accuracy demonstrated by validation of digital PCR results, the method was applied to high depth (>30X) WGS data for 12,747 unrelated samples from 1kGP and NIHR BioResource (Table 14). Copy number distribution was analyzed across populations (Europeans, Africans, East Asians, South Asians, and mixed Americans consisting of Colombians, Mexicans, Peruvians, and Puerto Ricans). In FIG. 14B shows a histogram of the number of individuals with different copy numbers of intact SMN1 , intact SMN2, and SMN* . The distributions are similar between the 1kGP and NIHR BioResource samples (FIG. 20). Overall, individuals had more copies of SMN1 than SMN2 . The most common SMN1/SMN2 copy number combinations were 2/2 (44.9%) and 2/1 (33.4%). With the exception of Africans, who showed higher variation in both SMN1 and SMN2 copy numbers, variation in SMN1 copy numbers was much lower than in SMN2 copy numbers. Conversely, 54.7% of Africans had three or more copies of SMN1 , which was more than twice as high as observed in any of the other four populations (FIG. 14B, Table 7). There was an inverse relationship between SMN1 and SMN2 copy number, SMN2 copy number was lower with increasing SMN1 copy number (FIG. 14C, correlation coefficient -0.344, p-value < 2.2e-16). This observation is consistent with a mechanism in which gene conversion occurs between SMN1 and SMN2 . The observed higher copy number of SMN1 compared to that of SMN2 may result from a bias towards conversion of SMN2 to SMN1 or a selection towards low copy number of SMN1 . Africans have significantly lower SMN2 copy numbers than other populations.

[0211] Количество носителей SMA, выявленных в разных популяциях, суммировано в таблице 7 и таблице 15. Из 12683 людей с достоверными определениями количества копий SMN1/SMN2, европейцы имели самую высокую частоту носительства - 2,2%, за ними следовали смешанные американцы (2,05%), выходцы из Восточной Азии (1,35%) и выходцы из Южной Азии (1,67%). Африканцы имели самую низкую частоту носительства (0,44%). Распределения частот количества копий, наблюдаемые в данном примере, согласуются с предыдущими исследованиями распределений количества копий SMN1/SMN2 в общей популяции. Кроме того, определяли частоту делеции в экзоне 7-8 (SMN*) в разных популяциях: 21,2% европейцев и 11,5% смешанных американцев имели хотя бы одну копию SMN*, в то время как частота была ниже у выходцев из Южной Азии (3,35%), африканцев (1,1%) и выходцев из Восточной Азии (0,34%). [0211] The number of SMA carriers identified in different populations is summarized in Table 7 and Table 15. Of the 12,683 individuals with valid SMN1/SMN2 copy number determinations, Europeans had the highest carrier frequency at 2.2%, followed by Mixed Americans ( 2.05%), East Asians (1.35%), and South Asians (1.67%). Africans had the lowest carriage rate (0.44%). The copy number frequency distributions observed in this example are consistent with previous studies of SMN1/SMN2 copy number distributions in the general population. In addition, the frequency of deletion in exon 7-8 ( SMN* ) was determined in different populations: 21.2% of Europeans and 11.5% of mixed Americans had at least one copy of SMN* , while the frequency was lower in people from the South Asian (3.35%), African (1.1%) and East Asian (0.34%).

[0212] В когорте проекта Next Generation Children (см. раздел «Способы» данного примера) идентифицировали SMA у двух неонатальных пробандов из трех анализов, которые были подтверждены независимо. Кроме того, количество копий SMN1, SMN2 и SMN* было фазировано для каждого члена трио (ФИГ. 14D). [0212] In the Next Generation Children cohort (see Methods section of this example), SMA was identified in two neonatal probands from three analyzes that were independently confirmed. In addition, the copy numbers of SMN1 , SMN2 and SMN* were phase-regulated for each member of the trio (FIG. 14D).

Моделирование определения количества копий одного сайтаSimulation of determining the number of copies of one site

[0213] Количество прочтений на одном сайте на медианной глубине выборки 30X, 35X и 40X моделировали на основе распределения Пуассона, а прочтения, поддерживающие SMN1, отбирали на основе биномиальной модели со всеми возможными комбинациями количества копий SMN1 и SMN2, причем общее количество копий SMN составляло от 2 до 6. С учетом количества поддерживающих прочтений SMN1 и SMN2 была получена апостериорная вероятность смоделированного количества копий SMN1 (см. раздел «Способы» в данном примере). Апостериорная вероятность была высокой (больше 0,9), когда по крайней мере одно значение количества копий SMN1 или SMN2 было низким (меньше или равно 1) (ФИГ. 16). Когда оба значения были больше 2, т. е. в комбинациях SMN1:SMN2 2:2, 2:3, 2:4, 3:2, 3:3 и 4:2, апостериорная вероятность часто становилась низкой и опускалась ниже 0,9. Это связано с большей изменчивостью глубины прочтения, когда ожидаемое количество копий выше. Таким образом, в этих сценариях, создающих определения количества копий SMN1 и SMN2 с использованием одного сайта, могут быть менее точными. [0213] The number of reads per site at median sampling depths of 30X, 35X and 40X were modeled based on a Poisson distribution, and reads supporting SMN1 were selected based on a binomial model with all possible combinations of SMN1 and SMN2 copy numbers, with the total SMN copy number being from 2 to 6. Taking into account the number of supporting reads of SMN1 and SMN2 , the posterior probability of the simulated copy number of SMN1 was obtained (see Methods section in this example). The posterior probability was high (greater than 0.9) when at least one copy number value of SMN1 or SMN2 was low (less than or equal to 1) (FIG. 16). When both values were greater than 2, i.e. in the SMN1:SMN2 combinations 2:2, 2:3, 2:4, 3:2, 3:3 and 4:2, the posterior probability often became low and dropped below 0. 9. This is due to greater variability in read depth when the expected copy number is higher. Thus, in these scenarios, generating SMN1 and SMN2 copy number determinations using a single site may be less accurate.

Расхождения в проверочных образцахDiscrepancies in test samples

[0214] Был взят один образец MB509, у которого наблюдалось расхождение между нашим определением количества копий и результатами цифровой ПЦР. При дальнейшем анализе данный образец имел две копии SMN2 и одну копию SMN1 с делецией 1884 п. н. (chr5:70247145-70249029, hg19, ФИГ. 20). Хотя выравнивание прочтения в области SMN1/2 не всегда является точным, тщательный анализ результатов разделенных прочтений показал, что прочтения или их партнеры перекрывали основания, специфичные для SMN1. Не ограничиваясь какой-либо теорией, было выдвинуто предположение, что эта делеция была правильно размещена на SMN1. Делеция невелика (значительно не изменяет глубину в области 6,3 т. п. н., используемой для определения количества копий интактного SMN) и ранее не сообщалась (и не обнаруживалась в образцах 1kGP, что является очень редким вариантом), поэтому способ не был предназначен для обнаружения делеции. В результате этого способ определил общее количество копий SMN1+SMN2 как 3. Делеция согласуется с определениями количества копий, выполненными на 8 сайтах различия SMN1-SMN2, причем первые 2 сайта не находились в делеции и количество копий SMN1 определялось как CN=1, а следующие 6 сайтов находились в делеции и количество копий SMN1 определялось как CN=0 (ФИГ. 21A). На основе большинства правил способ определял количество копий SMN1 как 0, правильно идентифицируя образец как SMA. Количество копий SMN2 рассчитывали как общее количество копий за вычетом количества копий SMN1, поэтому способ определил количество копий SMN2 как 3, завышая его на 1. [0214] There was one sample of MB509 that showed a discrepancy between our copy number determination and digital PCR results. Upon further analysis, this sample had two copies of SMN2 and one copy of SMN1 with a deletion of 1884 bp. (chr5:70247145-70249029, hg19, FIG. 20). Although read alignment in the SMN1 /2 region is not always precise, careful analysis of the split read results revealed that the reads or their partners overlapped SMN1 -specific bases. Without being limited to any theory, it has been hypothesized that this deletion was correctly placed on SMN1 . The deletion is small (does not significantly change the depth in the 6.3 kb region used to determine copy number of intact SMN) and has not previously been reported (nor found in 1kGP samples, which is a very rare variant), so the method was not designed to detect deletion. As a result, the method determined the total copy number of SMN1 + SMN2 to be 3. The deletion is consistent with the copy number determinations made at the 8 SMN1 - SMN2 difference sites, with the first 2 sites not in the deletion and the SMN1 copy number being determined to be CN=1, and the following 6 sites were in the deletion and the copy number of SMN1 was determined to be CN=0 (FIG. 21A). Based on most rules, the method determined the copy number of SMN1 to be 0, correctly identifying the sample as SMA. The SMN2 copy number was calculated as the total copy number minus the SMN1 copy number, so the method determined the SMN2 copy number to be 3, overestimating it by 1.

[0215] Четыре других образца, MB231, MB367, MB383 и LP2101748, имели расхождения между выполненными определениями количества копий и результатами цифровой ПЦР или MLPA. Количество прочтений и нормализованные значения глубины (количество прочтений, разделенное на глубину гаплоидных образцов) на 8 сайтах различия оснований поддерживали наши определения количества копий (ФИГ. 21A), и расхождение, вероятно, было вызвано ошибками в ортогональных способах. В двух образцах определение геномным секвенированием (GS) и определение цифровой ПЦР отличались в два раза (MB231: GS-0,2, PCR-0,4 и MB383: GS-3,1, PCR-6,2). При использовании цифровой ПЦР может возникнуть проблема нормализации, приводящая к завышению количества копий в два раза. [0215] Four other samples, MB231, MB367, MB383 and LP2101748, had discrepancies between the copy number determinations performed and the digital PCR or MLPA results. Read counts and normalized depth values (read counts divided by the depth of haploid samples) at the 8 base difference sites supported our copy number determinations (FIG. 21A), and the discrepancy was likely caused by errors in the orthogonal methods. In two samples, genomic sequencing (GS) detection and digital PCR detection differed by a factor of two (MB231: GS-0.2, PCR-0.4 and MB383: GS-3.1, PCR-6.2). When using digital PCR, a normalization problem may arise, leading to an overestimation of the copy number by a factor of two.

[0216] При сравнении определений количества копий, полученных с помощью MLPA, с 1109 образцов 1kGP был исключен один образец, в котором не было определено SMN2 Δ 7-8 из-за низкой апостериорной вероятности для всего количества копий SMN, а также три образца, где не было определено количество копий SMN1 и SMN2 из-за расхождения в определениях количества копий по 8 выбранным сайтам, которые не соответствовали согласованным правилам (ФИГ. 22B). [0216] When comparing MLPA copy number determinations to 1109 1kGP samples, one sample was excluded that did not detect SMN2Δ 7-8 due to the low posterior probability for the total SMN copy number, as well as three samples where the copy number of SMN1 and SMN2 was not determined due to discrepancies in copy number determinations across 8 selected sites that did not follow consensus rules (FIG. 22B).

Обнаружение «молчащих» носителейDetection of silent media

[0217] g.27134T>G SNP может быть связан со статусом молчащего носителя 2+0 SMA, где одна хромосома несет две копии SMN1 (либо путем дублирования SMN1, либо путем генной конверсии SMN2 в SMN1), а другая хромосома не имеет копий SMN1. Способ данного примера также может определять наличие этого SNP и, таким образом, может быть использован для скрининга потенциальных «молчащих» носителей. Этот SNP наиболее тесно связан с двухкопийными аллелями SMN1 у африканцев, где 84,5% субъектов с тремя копиями SMN1 и 92,6% субъектов с четырьмя копиями SMN1 имеют SNP g.27134T>G (таблица 7). Определение этого SNP значительно увеличил частоту обнаружения носителей у африканцев, поскольку африканцы имеют более высокую частоту аллелей, несущих две копии SMN1 (таблица 17 и таблица 18). Однако 33% субъектов с двумя копиями SMN1 также имели g.27134T>G SNP, что указывает на то, что значительная часть синглетных аллелей SMN1 также несет этот SNP. Рассчитывали оценки максимальной вероятности для процентных долей одно-и двухкопийных аллелей SMN1, несущих g.27134T>G (таблица 17), и остаточных рисков для комбинации определения количества копий и SNP (таблица 18). Рассчитанные оценки аналогичны предыдущим исследованиям, хотя есть значительные различия во всех этих оценках. Эта изменчивость может быть обусловлена вариативностью популяции: например, африканцы (этот пример) по сравнению с афроамериканцами (предыдущие исследования) и северные европейцы (чрезмерно представлены в этом примере) по сравнению с более разнообразной выборкой европеоидов (предыдущие исследования). [0217] g.27134T>G SNP may be associated with 2+0 SMA silent carrier status, where one chromosome carries two copies of SMN1 (either by duplicating SMN1 or by gene conversion of SMN2 to SMN1 ) and the other chromosome has no copies of SMN1 . The method of this example can also detect the presence of this SNP and thus can be used to screen for potential silent carriers. This SNP is most closely associated with two-copy SMN1 alleles in Africans, where 84.5% of subjects with three copies of SMN1 and 92.6% of subjects with four copies of SMN1 have the g.27134T>G SNP (Table 7). Identification of this SNP has significantly increased the frequency of carrier detection in Africans, as Africans have a higher frequency of alleles carrying two copies of SMN1 (Table 17 and Table 18). However, 33% of subjects with two copies of SMN1 also had the g.27134T>G SNP, indicating that a significant proportion of SMN1 singlet alleles also carry this SNP. Maximum likelihood estimates were calculated for the percentages of single- and double-copy SMN1 alleles carrying g.27134T>G (Table 17) and residual risks for the combination of copy number and SNP determinations (Table 18). The calculated estimates are similar to previous studies, although there are significant differences in all of these estimates. This variability may be due to population variation: for example, Africans (this example) versus African Americans (previous studies) and Northern Europeans (overrepresented in this example) versus a more diverse sample of Caucasians (previous studies).

Таблица 7. Количество копий SMN1 и частоты g.27134T>G в зависимости от популяцииTable 7. SMN1 copy number and g.27134T>G frequency depending on the population

Этническая принадлежностьEthnicity ОбщийGeneral SMN1 CN=1SMN1CN=1 SMN1 CN=2SMN1CN=2 SMN1 CN=3SMN1CN=3 SMN1 CN=4SMN1 CN=4 КоличествоQuantity g.27134T
>G+
g.27134T
>G+
КоличествоQuantity g.27134T
>G+
g.27134T
>G+
КоличествоQuantity g.27134T
>G+
g.27134T
>G+
КоличествоQuantity g.27134T
>G+
g.27134T
>G+
Африканская популяцияAfrican population 902902 44 0 (0,0%)0 (0.0%) 404404 134 (33,17%)134 (33.17%) 373373 315 (84,45%)315 (84.45%) 121121 112 (92,56%)112 (92.56%) Европейская популяцияEuropean population 96489648 212212 0 (0,0%)0 (0.0%) 88998899 4 (0,04%)4 (0.04%) 524524 22 (4,2%)22 (4.2%) 1313 2 (15,38%)2 (15.38%) Выходцы из Южной АзииSouth Asians 11991199 2020 0 (0,0%)0 (0.0%) 965965 1 (0,1%)1 (0.1%) 195195 5 (2,56%)5 (2.56%) 1919 1 (5,26%)1 (5.26%) Выходцы из Восточной АзииEast Asians 593593 88 0 (0,0%)0 (0.0%) 552552 1 (0,18%)1 (0.18%) 3333 1 (3,03%)1 (3.03%) 00 0 (нет данных)0 (no data) Смешанные американцыMixed Americans 341341 77 0 (0,0%)0 (0.0%) 296296 7 (2,36%)7 (2.36%) 3636 9 (25,0%)9 (25.0%) 22 1 (50,0%)1 (50.0%)

Сравнение между двумя преобразователями, BWA и IsaacComparison between two converters, BWA and Isaac

[0218] Способ, приведенный в данном примере, чрезмерно проанализировал прочтение как SMN1, так и SMN2, и, следовательно, был нечувствительным к тому, как преобразователь различает эти два гена. Таким образом, использование различных преобразователей должно давать аналогичные результаты. Данные BAM, проанализированные в данном примере, были получены с использованием двух различных преобразователей: BWA для данных 1kGP и различные версии Isaac для остальных. Согласованные распределения количества копий SMN1/2 между образцами 1kGP и NIHR (таблица 19, ФИГ. 20) указывают на то, что наш способ нечувствителен к преобразователю. Кроме того, способ испытывали на согласованность путем выравнивания 117 образцов как с BWA, так и с Isaac, включая 5 образцов SMA и 3 носителей. Все 117 образцов имели совершенно одинаковые определения количества копий (SMN1/SMN2/SMN2Δ7-8) в соответствии со способом из данного примера и нормализованные глубины как для экзонов 1-6, так и для экзонов 7-8 были практически идентичными (r > 0,999, ФИГ. 22). [0218] The method in this example over-analyzed both SMN1 and SMN2 reads, and was therefore insensitive to how the resolver distinguishes between the two genes. Thus, using different converters should produce similar results. The BAM data analyzed in this example was obtained using two different converters: BWA for the 1kGP data and various versions of Isaac for the rest. Consistent SMN1 /2 copy number distributions between 1kGP and NIHR samples (Table 19, FIG. 20) indicate that our method is insensitive to the transformer. In addition, the method was tested for consistency by aligning 117 samples with both BWA and Isaac, including 5 SMA samples and 3 media. All 117 samples had exactly the same copy number determinations ( SMN1 / SMN2 / SMN2Δ 7-8) according to the method in this example, and the normalized depths for both exons 1-6 and exons 7-8 were virtually identical (r > 0.999 , FIGURE 22).

Сравнение между определениями носителя в данном исследовании и Larson et al.Comparison between carrier definitions in this study and Larson et al.

[0219] Определения носителя, полученные в образцах 1kGP в данном примере (N=37), сравнивали с теми, о которых сообщали Larson et al. (N=36) и обнаружили 26 перекрывающихся определений (таблица 15). Предполагается, что определения, полученные способом по данному примеру, являются правильными, Larson et al. сделали 10 ложноположительных (FP) и 11 ложноотрицательных определений (FN). Larson et al. идентифицировали носители путем определения того, была ли доля прочтений, поддерживающих SMN1 меньше или равна 1/3. В этом исследовании использовали данные секвенирования малой глубины, которые, как ожидается, приводят к некоторым ошибкам, но, что более важно, их подход имеет тенденцию к ошибкам без определения общего количества копий. Например, образец с одной копией SMN1 и одной копией SMN2 будет определятся как не носитель (фракция SMN1 1/2), а образец с двумя копиями SMN1 и четырьмя копиями SMN2 будет определятся как носитель (фракция SMN1 1/3) с получением ложноположительных и ложноотрицательных результатов (таблица 16). [0219] The carrier determinations obtained from the 1kGP samples in this example (N=37) were compared to those reported by Larson et al. (N=36) and found 26 overlapping definitions (Table 15). It is assumed that the determinations obtained by the method of this example are correct, Larson et al. made 10 false positive (FP) and 11 false negative (FN) determinations. Larson et al. identified carriers by determining whether the proportion of reads supporting SMN1 was less than or equal to 1/3. This study used shallow-depth sequencing data, which is expected to introduce some errors, but more importantly, their approach is prone to errors without determining the total copy number. For example, a sample with one copy of SMN1 and one copy of SMN2 will be determined to be a non-carrier ( SMN1 1/2 fraction), and a sample with two copies of SMN1 and four copies of SMN2 will be determined to be a carrier ( SMN1 1/3 fraction), resulting in false positives and false negatives. results (Table 16).

Дополнительные фигуры и таблицыAdditional figures and tables

[0220] На ФИГ. 15 показаны неограничивающие примеры графиков, каждый из которых иллюстрирует распределение апостериорной вероятности для моделирования количества копий SMN1 с использованием одного сайта при разных глубинах прочтения и комбинаций количества копий SMN1:SMN2 [0220] In FIG. Figure 15 shows non-limiting example plots, each illustrating the posterior probability distribution for modeling SMN1 copy number using a single site at different read depths and SMN1:SMN2 copy number combinations.

[0221] На Фиг. 16 показан неограничивающий пример IGV снимка области SMN2 в образце с делецией в экзоне 7-8. Горизонтальные линии соединяют два прочтения в пару на центральной дорожке выравнивания. Результаты BLAT для двух разделенных прочтений, охватывающих точку разрыва, показаны в нижней дорожке, показывая два сегмента одного и того же выравнивания для прочтения с каждой стороны от точки разрыва делеции. [0221] In FIG. 16 shows a non-limiting example of an IGV snapshot of the SMN2 region in a sample with a deletion in exon 7-8. Horizontal lines pair two reads on the central alignment track. BLAT results for two split reads spanning the breakpoint are shown in the bottom track, showing two segments of the same alignment for the read on each side of the deletion breakpoint.

[0222] На ФИГ. 17 показаны неограничивающие примеры графиков, иллюстрирующих корреляцию между необработанными количествами копий SMN1 при 15 различиях оснований вблизи с840.C>T и необработанными количествами копий SMN1 на сайте с840.C>T. Необработанное количество копий SMN1 в каждом сайте рассчитывали как количество копий интактного SMN, умноженное на долю SMN1, поддерживающие количество прочтений SMN1 + SMN2 из количества прочтений. Коэффициенты корреляции приведены в заголовке каждого графика. [0222] In FIG. 17 shows non-limiting examples of graphs illustrating the correlation between raw SMN1 copy numbers at 15 base differences near c840.C>T and raw SMN1 copy numbers at the c840.C>T site. The raw copy number of SMN1 at each site was calculated as the copy number of intact SMN multiplied by the fraction of SMN1 supporting the number of SMN1 + SMN2 reads from the number of reads. Correlation coefficients are given in the header of each graph.

[0223] На ФИГ. 18 и 18B показаны неограничивающие примеры графиков с гаплотипами SMN1/SMN2 в образцах с SMN1:2 SMN2:0 и SMN1:2 SMN2:1 в 1kGP. По оси y показаны необработанные количества копий SMN1, как показано на ФИГ. 16. По оси X показаны 16 сайтов, индексы которых перечислены и объяснены в таблице 8. Индекс № 13 представляет сайт c840.C>T. Образцы с SMN1:2 SMN2: 0 показаны вместе на верхнем левом графике. Образцы с SMN1:2 SMN2:1 показаны в виде 5 кластеров. ФИГ. 18A Неафриканская популяция ФИГ. 18B Африканская популяция [0223] In FIG. 18 and 18B show non-limiting examples of SMN1 / SMN2 haplotype plots in samples with SMN1 :2 SMN2 :0 and SMN1 :2 SMN2 :1 in 1kGP. The y-axis shows the raw copy numbers of SMN1 as shown in FIG. 16. The X-axis shows the 16 sites, the indexes of which are listed and explained in Table 8. Index No. 13 represents the site c840.C>T. Samples with SMN1: 2 SMN2 :0 are shown together in the top left graph. Samples with SMN1 :2 SMN2 :1 are shown as 5 clusters. FIG. 18A Non-African Population FIG. 18B African population

[0224] На ФИГ. 19 показан неограничивающий пример IGV снимка, показывающего делецию 1,9 т. п. н. в SMN1 в MB509. [0224] In FIG. 19 shows a non-limiting example of an IGV snapshot showing a 1.9 kb deletion. in SMN1 in MB509.

[0225] На ФИГ. 20 показан неограничивающий иллюстративный график, иллюстрирующий количество копий SMN1/SMN2/SMN* в когортах 1kGP и NIHR. [0225] In FIG. 20 is a non-limiting illustrative graph illustrating SMN1/SMN2 /SMN* copy numbers in the 1kGP and NIHR cohorts.

[0226] На ФИГ. 21A и 21B показаны расхождения и отсутствие определений в проверочных выборках. На фиг. 21 A показаны пять образцов с расхождениями между определениями GS и цифровой ПЦР или MLPA. По оси X показаны 16 сайтов, индексы которых перечислены и объяснены в таблице 8. Индекс № 13 представляет сайт c840.C>T. Левая ось y для столбцов показывает количество прочтений, поддерживающее SMN1 и SMN2. Правая ось y для линий показывает нормализованную глубину прочтения, прокси для количества копий SMN1 и SMN2 (количество прочтений, деленное на глубину гаплоида). В заголовке каждой панели показаны определения с помощью GS и цифровой ПЦР/MLPA для каждого образца для SMN1 и SMN2, разделенные запятой. На ФИГ. 21B представлены три проверочных образца 1kGP, где определитель SMN не определил количество копий SMN1 и SMN2 из-за расхождения между сайтами различий оснований SMN1/SMN2. Для консенсусных правил способа используются восемь сайтов: № 7-8 и № 10-15. По оси y показаны необработанные количества копий SMN1, как показано на ФИГ. 17. [0226] In FIG. 21A and 21B show discrepancies and missing determinations in the test samples. In fig. Figure 21 A shows five samples with discrepancies between GS and digital PCR or MLPA determinations. The x-axis shows 16 sites, the indices of which are listed and explained in Table 8. Index #13 represents site c840.C>T. The left y-axis for the bars shows the number of reads supporting SMN1 and SMN2 . The right y-axis for lines shows normalized read depth, a proxy for SMN1 and SMN2 copy numbers (number of reads divided by haploid depth). The header of each panel shows the GS and digital PCR/MLPA determinations for each sample for SMN1 and SMN2 , separated by a comma. In FIG. 21B shows three 1kGP validation samples where the SMN detector did not detect the copy number of SMN1 and SMN2 due to discrepancy between the SMN1 / SMN2 base difference sites. For the consensus rules of the method, eight sites are used: No. 7-8 and No. 10-15. The y-axis shows the raw copy numbers of SMN1 as shown in FIG. 17.

[0227] На ФИГ. 22 представлены определения количества копий, полученные из BWA и Isaac BAM. [0227] In FIG. 22 shows copy number determinations obtained from BWA and Isaac BAM.

Таблица 8. Геномные координаты различий оснований между SMN1 и SMN2 Table 8. Genomic coordinates of base differences between SMN1 and SMN2

ИндексIndex МестоположениеLocation ВыбраноSelected SMN1SMN1 SMN2SMN2 Положение, hg19Position, hg19 ОснованияGrounds Положение, hg19Position, hg19 ОснованияGrounds 11 Интрон 6Intron 6 7024414270244142 AA 6936871769368717 GG 22 Интрон 6Intron 6 7024587670245876 TT 6937045169370451 CC 33 Интрон 6Intron 6 7024601670246016 GG 6937059169370591 AA 44 Интрон 6Intron 6 7024601970246019 TT 6937059469370594 CC 55 Интрон 6Intron 6 7024615670246156 GG 6937073169370731 AA 66 Интрон 6Intron 6 7024616770246167 TT 6937074269370742 CC 77 Интрон 6Intron 6 ДаYes 7024632070246320 GG 6937089569370895 AA 88 Интрон 6Intron 6 ДаYes 7024679370246793 GG 6937136869371368 AA 99 Интрон 6Intron 6 7024691970246919 AA 6937149969371499 CC 1010 Интрон 6Intron 6 ДаYes 7024721970247219 GG 6937179969371799 AA 11eleven Интрон 6Intron 6 ДаYes 7024729070247290 TT 6937187069371870 CC 1212 Интрон 6Intron 6 ДаYes 7024772470247724 GG 6937230469372304 AA 1313 Экзон 7
(c.840 C>T)
Exon 7
(c.840 C>T)
ДаYes 7024777370247773 CC 6937235369372353 TT
1414 Интрон 7Intron 7 ДаYes 7024792170247921 AA 6937250169372501 GG 1515 Интрон 7Intron 7 ДаYes 7024803670248036 AA 6937261669372616 GG 1616 Экзон 8Exon 8 7024850170248501 GG 6937308169373081 AA

Таблица 9. Частоты гаплотипов SMN1 с аллелем SMN2 и гаплотипов SMN2с аллелем SMN1 в двух простых состояниях количества копий (SMN1=CN2 и SMN2=CN0 или SMN1=CN2 и SMN2=CN1) Table 9. Frequencies of SMN1 haplotypes with the SMN2 allele and SMN2 haplotypes with the SMN1 allele in two simple copy number states ( SMN1 =CN2 and SMN2 =CN0 or SMN1 =CN2 and SMN2 =CN1)

(Цифры в скобках указывают на вклад представителей африканской популяции.)(Numbers in parentheses indicate the contribution of representatives of the African population.)

Индекс сайтаSite index Кол-во гаплотипов SMN1 с достоверным определением количества копийNumber of SMN1 haplotypes with reliable copy number determination Кол-во гаплотипов SMN1 с аллелем SMN2Number of SMN1 haplotypes with SMN2 allele Процентное содержаниеPercentage Кол-во гаплотипов SMN2 с достоверным определением количества копийNumber of SMN2 haplotypes with reliable copy number determination Кол-во гаплотипов SMN2 с аллелем SMN1Number of SMN2 haplotypes with SMN1 allele Процентное содержаниеPercentage 11 1229212292 490 (71)490 (71) 44 50415041 101 (34)101 (34) 22 22 93729372 542 (79)542 (79) 5,85.8 36693669 46 (0)46 (0) 1,31.3 33 1178411784 187 (48)187 (48) 1,6 1.6 47884788 48 (1)48 (1) 11 44 1105611056 205 (51)205 (51) 1,9 1.9 44284428 43 (1)43 (1) 11 55 1021210212 312 (51)312 (51) 3,1 3.1 40874087 34 (1)34 (1) 0,80.8 66 99749974 1787 (111)1787 (111) 17,9 17.9 39463946 28 (1)28 (1) 0,70.7 77 1195611956 58 (0)58 (0) 0,5 0.5 48744874 45 (3)45 (3) 0,9 0.9 88 1221812218 15 (1)15 (1) 0,10.1 50055005 8 (0)8 (0) 0,20.2 99 1187211872 79 (47)79 (47) 0,70.7 48314831 56 (35)56 (35) 1,21.2 1010 1248412484 2 (0)20) 0 0 51375137 39 (29)39 (29) 0,8 0.8 11eleven 1196411964 19 (5)19 (5) 0,2 0.2 48804880 1 (0)10) 0 0 1212 1250612506 1 (1)eleven) 0 0 51485148 0 (0)0 (0) 0 0 1313 1283612836 0 (0)0 (0) 0 0 53135313 0 (0)0 (0) 0 0 1414 1238612386 9 (6)9 (6) 0,1 0.1 50885088 0 (0)0 (0) 00 1515 1254412544 9 (4)9 (4) 0,1 0.1 51675167 33 (24)33 (24) 0,60.6 1616 1233612336 12 (3)12 (3) 0,1 0.1 50635063 76 (41)76 (41) 1,51.5

Таблица 10. Количество образцов с разным количеством согласованных сайтов на 8 сайтах SNP Table 10. Number of samples with different numbers of consensus sites at 8 SNP sites

(Цифры в скобках указывают на вклад представителей африканской популяции.)(Numbers in parentheses indicate the contribution of representatives of the African population.)

Сопоставление SNPSNP mapping SMN1 CN=1SMN1CN=1 CN=2CN=2 CN=3CN=3 CN=4CN=4 CN=нет определенияCN=no definition ОбщийGeneral Доля несогласующихся сайтовProportion of discordant sites 88 163163 63256325 594594 111111 00 7193 (475)7193 (475) 0 (0)0 (0) 77 5252 31413141 285285 2828 00 3506 (199)3506 (199) 11,3 (1,6)11.3 (1.6) 66 2525 11971197 150150 99 00 1381 (137)1381 (137) 16,3 (6)16.3 (6) 55 99 356356 8686 66 11 458 (74)458 (74) 21,1 (10)21.1 (10) <5<5 2*2* 92*92* 44*44* 1*1* 3636 175 (26)175 (26) 19,6 (6,9)19.6 (6.9)

* Определения сделаны в этих образцах на основе второго правила большинства (см. «Способы»).*Determinations are made in these samples based on the second majority rule (see "Methods").

Таблица 11. Количество неопределений, обусловленных несоответствием, и определение несоответствия, сделанное при сокращенном количестве сайтов.Table 11. Number of undeterminations due to nonconformity and nonconformity determinations made with a reduced number of sites.

Кол-во сайтов для правила большинстваNumber of sites for majority rule 8
(Требуется 5 для согласования)
8
(Requires 5 to match)
6
(4)
6
(4)
4
(3)
4
(3)
2
(2)
2
(2)
1 (c.840C)
(1)
1 (c.840C)
(1)
Кол-во неопределений из-за несоответствияNumber of uncertainties due to inconsistency 175175 298298 766766 11491149 700700 Кол-во определений, отличных от определений, полученных с использованием 8 сайтовNumber of definitions different from those obtained using 8 sites 00 00 11 66 4141

Таблица 12. Проверочные образцыTable 12. Test samples

ID образцаSample ID Определитель количества копий SMNSMN Copy Number Determinant Цифровая ПЦРDigital PCR интактные
Количество копий SMN1
intact
SMN1 copy number
интактные
Количество копий SMN2
intact
SMN2 copy number
Количество копий SMN1SMN1 copy number Количество копий SMN2SMN2 copy number
NA03813NA03813 00 33 00 33 NA09677NA09677 00 33 00 33 NA23689NA23689 00 33 00 33 NA00232NA00232 00 22 00 22 NA10684NA10684 00 22 00 22 NA23687NA23687 11 22 11 22 NA23688NA23688 11 22 11 22 NA03815NA03815 11 11 11 11 MB122MB122 22 00 22 00 MB226MB226 22 11 22 11 MB119MB119 33 11 33 11 MB370MB370 33 11 33 11 MB489MB489 00 22 00 22 MB364MB364 00 22 00 22 MB691MB691 00 22 00 22 MB488MB488 00 22 00 22 MB219MB219 00 22 00 22 MB228MB228 00 22 00 22 MB501MB501 00 22 00 22 MB362MB362 00 22 00 22 MB692MB692 00 22 00 22 MB234MB234 00 22 00 22 MB693MB693 00 22 00 22 MB510MB510 00 22 00 22 MB114MB114 00 22 00 22 MB116MB116 11 22 11 22 MB115MB115 11 22 11 22 MB104MB104 22 22 22 22 MB384MB384 22 22 22 22 MB338MB338 22 22 22 22 MB344MB344 22 22 22 22 MB345MB345 22 22 22 22 MB349MB349 22 22 22 22 MB113MB113 22 22 22 22 MB366MB366 22 22 22 22 MB351MB351 33 22 33 22 MB355MB355 00 33 00 33 MB361MB361 00 33 00 33 MB378MB378 00 33 00 33 MB232MB232 00 33 00 33 MB106MB106 00 33 00 33 MB222MB222 00 33 00 33 MB509MB509 00 33 00 22 MB112MB112 00 33 00 33 MB339MB339 11 33 11 33 MB377MB377 00 44 00 44 MB356MB356 00 44 00 44 MB503MB503 00 44 00 44

Таблица 13. Количество копий SMN1, SMN2 и SMN* определяли в 258 трио в когорте проекта Next Generation ChildrenTable 13. Copy numbers of SMN1 , SMN2 and SMN* were determined in 258 trios in the Next Generation Children cohort

SMN1SMN1 SMN2SMN2 SMN*SMN* Количество семейNumber of families ОтецFather МатьMother Пробанд 1Proband 1 Пробанд 2Proband 2 Количество семейNumber of families ОтецFather МатьMother Пробанд 1Proband 1 Пробанд 2Proband 2 Количество семейNumber of families ОтецFather МатьMother Пробанд 1Proband 1 Пробанд 2Proband 2 207207 22 22 22 5353 22 22 22 174174 00 00 00 88 22 22 22 22 2929 22 11 11 2020 00 11 00 88 22 33 33 2727 11 22 22 1515 00 11 11 88 33 22 22 2323 11 22 11 1515 11 00 00 77 33 22 33 2323 22 11 22 99 11 00 11 44 22 33 22 1717 11 11 11 66 00 00 00 00 33 11 22 11 1212 22 00 11 44 11 11 11 33 11 22 22 11eleven 11 11 22 33 11 11 00 22 11 11 00 99 11 11 00 22 00 22 11 22 22 22 11 77 00 11 11 22 11 00 11 00 22 22 33 22 33 66 00 22 11 22 11 00 11 11 22 33 33 33 44 11 00 11 22 22 11 11 11 22 11 11 33 00 00 00 11 00 22 22 11 22 22 33 33 22 22 11 11 11 11 22 22 11 22 11 11 11 22 00 11 22 11 22 22 22 11 33 00 22 22 11 33 11 22 22 11 11 22 22 22 11 33 22 22 22 11 33 22 22 22 22 22 22 22 22 33 22 22 33 33 22 33 22 33 11 00 11 00 11 11 00 00 11 11 33 22 11 11 44 33 11 22 33 22 11 22 44 44 11 33 00 11 11 33 11 22 11 33 22 22 11 33 22 44 11 44 11 22

Таблица 14. Количество образцов по популяции в когортах 1kGP и NIHR BioResourceTable 14. Number of samples by population in the 1kGP and NIHR BioResource cohorts

Этническая принадлежностьEthnicity 1kGP1kGP NIHR BioResource (включая неродственные NGC)NIHR BioResource (including unrelated NGCs) NIHR BioResource (включая NGC, всего)NIHR BioResource (including NGC, total) Африканская популяцияAfrican population 661661 253253 295295 Европейская популяцияEuropean population 503503 91869186 1165211652 Выходцы из Южной АзииSouth Asians 489489 713713 10121012 Выходцы из Восточной АзииEast Asians 504504 9191 9797 Смешанные американцыMixed Americans 347347 00 00 ПрочееOther 00 00 11271127 ОбщийGeneral 25042504 1024310243 1418314183

Таблица 15. Частоты количества копий SMN1, SMN2 и SMN* по популяцияхTable 15. Copy number frequencies of SMN1, SMN2 and SMN* by population

Этническая принадлежностьEthnicity ОбщийGeneral SMN1SMN1 SMN2SMN2 SMN*SMN* 11 22 33 44 00 11 22 33 44 00 11 22 Африканская популяцияAfrican population 902902 4
(0,44%)
4
(0.44%)
404
(44,79%)
404
(44.79%)
373
(41,35%)
373
(41.35%)
121
(13,41%)
121
(13.41%)
226
(25,06%)
226
(25.06%)
449
(49,78%)
449
(49.78%)
214
(23,73%)
214
(23.73%)
13
(1,44%)
13
(1.44%)
0
(0,0%)
0
(0.0%)
892
(98,89%)
892
(98.89%)
9
(1,0%)
9
(1.0%)
1
(0,11%)
1
(0.11%)
Европейская популяцияEuropean population 96489648 212
(2,2%)
212
(2.2%)
8899
(92,24%)
8899
(92.24%)
524
(5,43%)
524
(5.43%)
13
(0,13%)
13
(0.13%)
833
(8,63%)
833
(8.63%)
3850
(39,9%)
3850
(39.9%)
4667
(48,37%)
4667
(48.37%)
279
(2,89%)
279
(2.89%)
19
(0,2%)
19
(0.2%)
7591
(78,74%)
7591
(78.74%)
1912
(19,83%)
1912
(19.83%)
137
(1,42%)
137
(1.42%)
Выходцы из Южной АзииSouth Asians 11991199 20
(1,67%)
20
(1.67%)
965
(80,48%)
965
(80.48%)
195
(16,26%)
195
(16.26%)
19
(1,58%)
19
(1.58%)
78
(6,51%)
78
(6.51%)
400
(33,39%)
400
(33.39%)
686
(57,26%)
686
(57.26%)
29
(2,42%)
29
(2.42%)
5
(0,42%)
5
(0.42%)
1155
(96,65%)
1155
(96.65%)
40
(3,35%)
40
(3.35%)
0
(0,0%)
0
(0.0%)
Выходцы из Восточной АзииEast Asians 593593 8
(1,35%)
8
(1.35%)
552
(93,09%)
552
(93.09%)
33
(5,56%)
33
(5.56%)
0
(0,0%)
0
(0.0%)
28
(4,72%)
28
(4.72%)
211
(35,58%)
211
(35.58%)
340
(57,34%)
340
(57.34%)
12
(2,02%)
12
(2.02%)
2
(0,34%)
2
(0.34%)
591
(99,66%)
591
(99.66%)
2
(0,34%)
2
(0.34%)
0
(0,0%)
0
(0.0%)
Смешанные американцыMixed Americans 341341 7
(2,05%)
7
(2.05%)
296
(86,8%)
296
(86.8%)
36
(10,56%)
36
(10.56%)
2
(0,59%)
2
(0.59%)
30
(8,8%)
thirty
(8.8%)
136
(39,88%)
136
(39.88%)
162
(47,51%)
162
(47.51%)
11
(3,23%)
eleven
(3.23%)
2
(0,59%)
2
(0.59%)
302
(88,56%)
302
(88.56%)
37
(10,85%)
37
(10.85%)
2
(0,59%)
2
(0.59%)

Таблица 16. Сравнение определений носителя, полученных в образцах 1kGP в данном примере и в публикации Larson et al.Table 16. Comparison of carrier determinations obtained in 1kGP samples in this example and in Larson et al.

ID образцаSample ID Этническая принадлежностьEthnicity Количество копий SMN1SMN1 copy number Количество копий SMN2SMN2 copy number Количество копий SMN*Number of SMN copies* Определенные как носитель в публикации Larson et al.Defined as a carrier by Larson et al. Вероятность носительства, скорректированная Larson et al.Carrier probability adjusted by Larson et al. Определение GS, подтвержденное MLPAMLPA Verified GS Definition HG03583HG03583 AFRAFR 11 11 00 ДаYes 0,6450.645 ДаYes HG01205HG01205 AMRAMR 11 11 00 ДаYes 0,7560.756 HG01892HG01892 AMRAMR 11 11 00 ДаYes 0,9020.902 ДаYes HG01801HG01801 EASEAS 11 11 00 ДаYes 0,5410.541 NA11932NA11932 EUREUR 11 11 00 ДаYes 0,7160.716 NA20760NA20760 EUREUR 11 11 00 ДаYes 0,6380.638 ДаYes NA20896NA20896 SASSAS 11 11 00 ДаYes 0,5140.514 ДаYes HG01948HG01948 AMRAMR 11 22 00 ДаYes 0,6780.678 ДаYes HG02265HG02265 AMRAMR 11 22 00 ДаYes 0,9820.982 HG01085HG01085 AMRAMR 11 22 00 ДаYes 11 NA20812NA20812 EUREUR 11 22 00 ДаYes 0,9990.999 ДаYes NA20764NA20764 EUREUR 11 22 00 ДаYes 0,9820.982 ДаYes HG00324HG00324 EUREUR 11 22 00 ДаYes 0,9970.997 ДаYes NA12383NA12383 EUREUR 11 22 00 ДаYes 11 HG03953HG03953 SASSAS 11 22 00 ДаYes 0,9720.972 HG02771HG02771 AFRAFR 11 33 00 ДаYes 0,9970.997 HG01893HG01893 AMRAMR 11 33 00 ДаYes 11 HG02079HG02079 EASEAS 11 33 00 ДаYes 0,9760.976 NA20814NA20814 EUREUR 11 33 00 ДаYes 11 HG00281HG00281 EUREUR 11 33 00 ДаYes 11 ДаYes HG00346HG00346 EUREUR 11 33 00 ДаYes 11 ДаYes HG03740HG03740 SASSAS 11 33 00 ДаYes 0,8740.874 HG02087HG02087 EASEAS 11 44 00 ДаYes 11 HG02134HG02134 EASEAS 11 44 00 ДаYes 11 NA12778NA12778 EUREUR 11 44 00 ДаYes 11 HG01773HG01773 EUREUR 11 44 00 ДаYes 11 ДаYes HG01492HG01492 AMRAMR 22 22 00 ДаYes 0,9140.914 NA19723NA19723 AMRAMR 22 22 00 ДаYes 0,6810.681 NA18542NA18542 EASEAS 22 22 00 ДаYes 0,6330.633 HG00525HG00525 EASEAS 22 22 00 ДаYes 0,7630.763 ДаYes NA20792NA20792 EUREUR 22 22 00 ДаYes 0,6710.671 ДаYes NA11843NA11843 EUREUR 22 22 00 ДаYes 0,5090.509 NA19711NA19711 AFRAFR 22 33 00 ДаYes 0,9430.943 NA19346NA19346 AFRAFR 22 33 00 ДаYes 0,520.52 ДаYes HG01248HG01248 AMRAMR 22 44 00 ДаYes 0,9350.935 HG01094HG01094 AMRAMR 22 44 00 ДаYes 0,7380.738 HG02156HG02156 EASEAS 11 00 00 НетNo 2,36E-332.36E-33 HG02180HG02180 EASEAS 11 11 00 НетNo 7,26E-057.26E-05 NA20790NA20790 EUREUR 11 11 00 НетNo 0,4890.489 ДаYes NA20787NA20787 EUREUR 11 11 11 НетNo 0,3220.322 ДаYes HG01686HG01686 EUREUR 11 11 11 НетNo 0,001190.00119 ДаYes NA19456NA19456 AFRAFR 11 22 00 НетNo 0,2780.278 HG01455HG01455 AMRAMR 11 22 00 НетNo 0,1760.176 HG01863HG01863 EASEAS 11 22 00 НетNo 0,420.42 HG01612HG01612 EUREUR 11 22 00 НетNo 1,20E-071.20E-07 ДаYes NA20845NA20845 SASSAS 11 22 00 НетNo 0,3980.398 HG03928HG03928 SASSAS 11 22 00 НетNo 0,4420.442 ДаYes

Таблица 17. Оценки максимальной вероятности для процентного содержания одно- и двухкопийных аллелей SMN1, несущих g.27134T>GTable 17. Maximum likelihood estimates for the percentage of single- and double-copy SMN1 alleles carrying g.27134T>G

Этническая принадлежностьEthnicity Однокопийный аллель SMN1 Single copy allele SMN1 Двухкопийный аллель SMN1 Double copy allele SMN1 Африканская популяцияAfrican population 18,4%18.4% 78,5%78.5% Европейская популяцияEuropean population 0,02%
* (1kGP Европейцы: 0,11%)
0.02%
* (1kGP Europeans: 0.11%)
4,35%
* (1kGP Европейцы: 10,0%)
4.35%
* (1kGP Europeans: 10.0%)
Выходцы из Южной АзииSouth Asians 0,05%0.05% 2,54%2.54% Выходцы из Восточной АзииEast Asians 0,09%0.09% 2,94%2.94% Смешанные американцыMixed Americans 1,2%1.2% 24,5%24.5%

* Когорта NIHR BioResource, которая занимает большую часть европейской популяции, анализируемой в этом примере из-за большого размера выборки, включает образцы из Северной Европы, которые несут более низкую частоту SNP g.27134T>G, чем более разнообразные европейские выборки из проекта 1000 Genomes. *The NIHR BioResource cohort, which occupies the majority of the European population analyzed in this example due to its large sample size, includes samples from Northern Europe that carry a lower frequency of the g.27134T>G SNP than the more diverse European samples from the 1000 Genomes Project .

Таблица 18. Обнаружение носителя SMA и оценки остаточного риска из этого примераTable 18. SMA carrier detection and residual risk estimates from this example

Этническая принадлежностьEthnicity Частота носительстваа Carriage frequency a Частота обнаружения (количество копий)a Detection rate (copy number) a Остаточный риск (CN=2)Residual risk (CN=2) Частота обнаружения (CN+SNP)Detection rate (CN+SNP) Данный примерThis example Luo et al.c Luo et al. c Feng et al.d Feng et al. d Alias et al.e Alias et al. e Остаточный риск (CN=2, SNP -)Residual risk (CN=2, SNP -) Остаточный риск (CN=2, SNP+)Residual risk (CN=2, SNP+) Остаточный риск (CN=2, SNP -)Residual risk (CN=2, SNP -) Остаточный риск (CN=2, SNP+)Residual risk (CN=2, SNP+) Остаточный риск (CN=2, SNP -)Residual risk (CN=2, SNP -) Остаточный риск (CN=2, SNP+)Residual risk (CN=2, SNP+) Остаточный риск (CN=2, SNP -)Residual risk (CN=2, SNP -) Остаточный риск (CN=2, SNP+)Residual risk (CN=2, SNP+) Африканская популяцияAfrican population 1 из 721 of 72 70,5%70.5% 1 из 1291 of 129 91,8%91.8% 1 из 3461 of 346 1 из 581 of 58 1 из 396
(Афроамериканец)
1 of 396
(African American)
1 из 341 of 34 1 из 375
(Афроамериканец)
1 of 375
(African American)
1 из 391 of 39 нет данныхno data нет данныхno data
Европейская популяцияEuropean population 1 из 471 of 47 94,8%94.8% 1 из 7901 of 790 95,0%95.0% 1 из 814
(1kGP Европейцы
1 из 846
1 of 814
(1kGP Europeans
1 of 846
1 из 12
(1kGP Европейцы 1 из 27)
1 of 12
(1kGP Europeans 1 of 27)
1 из 7701 of 770 1 из 291 of 29 1 из 9211 of 921 1 из 691 of 69 1 из 888
(испанцы)
1 of 888
(Spaniards)
~1~1
Азиатыb Asian b 1 из 591 of 59 93,3%93.3% 1 из 7671 of 767 93,4%93.4% 1 из 7791 of 779 1 из 571 of 57 1 из 7021 of 702 ~1~1 1 из 9071 of 907 1 из 611 of 61 нет данныхno data нет данныхno data Смешанные американцыMixed Americans 1 из 681 of 68 90,0%90.0% 1 из 5591 of 559 91,9%91.9% 1 из 6741 of 674 1 из 711 of 71 1 из 1762
(испанцы)
1 of 1762
(Spaniards)
1 из 1401 of 140 1 из 906
(испанцы)
1 of 906
(Spaniards)
1 из 991 of 99 нет данныхno data нет данныхno data

a Количества и частоты аллелей SMN1 для расчета остаточного риска, взято у Sugarman et al. Панэтнический скрининг носителей и пренатальная диагностика спинальной мышечной атрофии: клинический лабораторный анализ> 72 400 образцов. Eur J Hum Genet. 2012;20(1):27-32. doi:10.1038/ejhg.2011.134;a Numbers and frequencies of SMN1 alleles for residual risk calculations, taken from Sugarman et al. Panethnic carrier screening and prenatal diagnosis of spinal muscular atrophy: clinical laboratory analysis of >72,400 specimens. Eur J Hum Genet. 2012;20(1):27-32. doi:10.1038/ejhg.2011.134;

b Включает выходцев из Южной и Восточной Азии;b Includes people from South and East Asia;

с Luo et al. An Ashkenazi Jewish SMN1 haplotype specific to duplication alleles improves pan-ethnic carrier screening for spinal muscular atrophy. Genet Med Off J Am Coll Med Genet. 2014;16(2):149-156. doi:10.1038/gim.2013.84;with Luo et al. An Ashkenazi Jewish SMN1 haplotype specific to duplication alleles improves pan-ethnic carrier screening for spinal muscular atrophy. Genet Med Off J Am Coll Med Genet. 2014;16(2):149-156. doi:10.1038/gim.2013.84;

d Feng et al. The next generation of population-based spinal muscular atrophy carrier screening: comprehensive pan-ethnic SMN1 copy-number and sequence variant analysis by massively parallel sequencing. Genet Med Off J Am Coll Med Genet. 2017;19(8):936-944. doi:10.1038/gim.2016.215;d Feng et al. The next generation of population-based spinal muscular atrophy carrier screening: comprehensive pan-ethnic SMN1 copy-number and sequence variant analysis by massively parallel sequencing. Genet Med Off J Am Coll Med Genet. 2017;19(8):936-944. doi:10.1038/gim.2016.215;

e Alias et al. Utility of two SMN1 variants to improve spinal muscular atrophy carrier diagnosis and genetic counselling. Eur J Hum Genet. 2018;26(10):1554. doi:10.1038/s41431-018-0193-4.e Alias et al. Utility of two SMN1 variants to improve spinal muscular atrophy carrier diagnosis and genetic counseling. Eur J Hum Genet. 2018;26(10):1554. doi:10.1038/s41431-018-0193-4.

Таблица 19. Количество копий SMN1/SMN2/SMN2 Δ 7-8 в когортах 1kGP и NIHRTable 19. SMN1/SMN2/SMN2 Δ 7-8 copy numbers in 1kGP and NIHR cohorts

1kGP1kGP NIHRNIHR Критерий Колмогорова - СмирноваKolmogorov-Smirnov criterion ОбщийGeneral SMN CN=1SMN CN=1 22 33 44 ОбщийGeneral SMN1 CN=1SMN1CN=1 22 33 44 EUREUR 503503 1515 463463 2525 00 91459145 197197 84368436 499499 1313 11 2,98%2.98% 92,05%92.05% 4,97%4.97% 0,00%0.00% 2,15%2.15% 92,25%92.25% 5,46%5.46% 0,14%0.14% EASEAS 502502 77 470470 2525 00 9191 11 8282 88 00 0,99990.9999 1,39%1.39% 93,63%93.63% 4,98%4.98% 0,00%0.00% 1,10%1.10% 90,11%90.11% 8,79%8.79% 0,00%0.00% AFRAFR 653653 33 293293 261261 9696 249249 11 111111 112112 2525 0,82840.8284 0,46%0.46% 44,87%44.87% 39,97%39.97% 14,70%14.70% 0,40%0.40% 44,58%44.58% 44,98%44.98% 10,04%10.04% SASSAS 489489 55 397397 7777 1010 710710 1515 568568 118118 99 11 1,02%1.02% 81,19%81.19% 15,75%15.75% 2,04%2.04% 2,11%2.11% 80,00%80.00% 16,62%16.62% 1,27%1.27%

ОбсуждениеDiscussion

[0228] Из-за высокой гомологии последовательностей между SMN1 и SMN2 область SMN трудно определить путем как короткого, так и длинного прочтения секвенирования, и до сих пор эта важная область была исключена из стандартного анализа WGS. В данном примере продемонстрирован способ, который позволяет независимо определить количество копий SMN1 и SMN2, используя данные WGS с коротким прочтением, заполняя важный пробел в диагностике SMA и скрининге носителей для инициатив в области точной медицины. Точное измерение количества копий SMN1 и SMN2 важно не только для диагностики SMA, но также является прогностическим индикатором и основой терапевтических вариантов. Количество копий SMN2 применяли в качестве критерия для многих клинических испытаний SMA, включая Nusinersen и Zolgensma. [0228] Due to the high sequence homology between SMN1 and SMN2 , the SMN region is difficult to determine by both short and long read sequencing, and until now this important region has been excluded from standard WGS analysis. This example demonstrates a method that can independently determine the copy number of SMN1 and SMN2 using short-read WGS data, filling an important gap in SMA diagnosis and carrier screening for precision medicine initiatives. Accurate measurement of SMN1 and SMN2 copy numbers is not only important for the diagnosis of SMA, but is also a prognostic indicator and the basis of therapeutic options. SMN2 copy number has been used as a criterion in many clinical trials of SMA, including Nusinersen and Zolgensma.

[0229] Для демонстрации данного способа определяли количество копий SMN1 и SMN2 с использованием данных секвенирования 12747 образцов, охватывающих пять различных субпопуляций. Были идентифицировано следующее: 251 образцов с потерей целого гена (менее двух копий) и 1317 с приростом целого гена (более двух копий) SMN1; 6241 образцов с потерей целого гена и 1274 с приростом целого гена SMN2; 2144 образцов, несущих одну или более копий укороченной формы SMN*. Невозможно точно определить роль, которую выполняют делеции, дупликации или генная конверсия, приводящая к изменениям количества копий в данной области. Доказательства, подтверждающие все три механизма, включают: 1) 3853 образцов с общим количеством копий (SMN1+SMN2) CN<4 (делеции), 2) 670 образцов с общим количеством CN>4 (дубликатов) и 3) сильная обратная корреляция между количеством копий SMN1 и SMN2 (генная конверсия, ФИГ. 14C). Кроме того, была определена частота носительства от 1:42 до 1:101, в зависимости от предковой популяции (таблица 7). Частоты количества копий по популяции сильно различались, и результаты по популяции в этом примере согласуются с предыдущими популяционными исследованиями. Хотя согласование дает качественную поддержку точности способа, точность способа непосредственно оценивали путем сравнения определений количества копий, полученных способом, с результатами цифровой ПЦР. При таком прямом сравнении все определения количества копий (48/48) SMN1 и 98% (47/48) SMN2 согласуются с результатами на основе цифровой ПЦР. Одно из расхождений было связано с удалением 2 т. п. н., на которое не был нацелен способ, и, что важно, способ правильно идентифицировал статус SMA этого образца. [0229] To demonstrate this method, the copy number of SMN1 and SMN2 was determined using sequencing data from 12,747 samples covering five different subpopulations. The following were identified: 251 samples with loss of the entire gene (less than two copies) and 1317 with gain of the entire gene (more than two copies) SMN1 ; 6241 samples with loss of the entire gene and 1274 with gain of the entire SMN2 gene; 2144 samples carrying one or more copies of the truncated form SMN* . It is not possible to determine precisely the role played by deletions, duplications, or gene conversion leading to copy number changes in a given region. Evidence supporting all three mechanisms includes: 1) 3853 samples with a total copy number of ( SMN1 + SMN2 ) CN<4 (deletions), 2) 670 samples with a total CN>4 (duplicates), and 3) a strong inverse correlation between the number copies of SMN1 and SMN2 (gene conversion, FIG. 14C). In addition, a carrier frequency of 1:42 to 1:101 was determined, depending on the ancestral population (Table 7). Copy number frequencies varied widely across the population, and the population results in this example are consistent with previous population-based studies. Although the alignment provides qualitative support for the accuracy of the method, the accuracy of the method was directly assessed by comparing copy number determinations obtained by the method with digital PCR results. In this direct comparison, all copy number determinations (48/48) of SMN1 and 98% (47/48) of SMN2 were consistent with the digital PCR-based results. One of the discrepancies was due to a 2 kb deletion that was not targeted by the method, and importantly, the method correctly identified the SMA status of this sample.

[0230] В данном примере определение количества копий было оптимизировано для людей любого происхождения и, таким образом, ограничил дифференциацию SMN1/2 до функционально значимого варианта сплайсинга и семи сайтов высокой степени соответствия варианту сплайсинга во всех популяциях (ФИГ. 14A). Путем количественного определения соответствия между всеми эталонными различиями и вариантом сплайсинга способ позволял выявить вариации этих фиксированных различий, которые, если они не учитывались надлежащим образом (например, удалены из нашего анализа) могли бы привести к ошибкам в наших определениях количества копий. Отсутствие фиксированных различий было бы особенно проблематичным при анализе африканцев, поскольку они обладают более разнообразными гаплотипами. Популяционные генетические исследования, например, в том числе с использованием длинного секвенирования, могут помочь более прямо профилировать гаплотипическое разнообразие в популяциях и идентифицировать новые варианты сайтов, которые могут дополнительно повысить точность дифференциации SMN1/SMN2. [0230] In this example, copy number determination was optimized for individuals of all backgrounds and thus limited differentiation of SMN1/2 to a functionally significant splice variant and seven high-match splice variant sites in all populations (FIG. 14A). By quantifying the correspondence between all reference differences and the splice variant, the method allowed us to identify variations in these fixed differences that, if not adequately accounted for (e.g., removed from our analysis), could lead to errors in our copy number determinations. The lack of fixed differences would be particularly problematic when analyzing Africans, since they have more diverse haplotypes. Population genetic studies, for example, including those using long-length sequencing, can help more directly profile haplotype diversity in populations and identify new site variants that can further improve the accuracy of SMN1 / SMN2 differentiation.

[0231] Один тип «молчащего» носителя возникает, когда субъект имеет две копии гена SMN1, но они обе принадлежат к одному и тому же гаплотипу. SNP (g.24134T>G) использовали для идентификации субъектов, которые подвержены повышенному риску стать носителями, если значение количества копий SMN1 равно двум, но риск, связанный с этим SNP, может сильно различаться в разных исследованиях и популяциях (таблица 17). Если у субъекта имеется только одна копия SMN1, то субъект можно определенно идентифицировать как носитель, но этот вариант указывает только на вероятность того, что 2-8% быть носителем, если количество копий SMN1 равно двум. Благодаря WGS возможны различные варианты, которые встречаются с различными комбинациями количества копий SMN1 и SMN2, и идентификация дополнительных маркеров, которые могут быть использованы для улучшения нашей способности идентифицировать эти «молчащие» носители. Кроме того, потеря варианта сплайсинга c.840C>T в настоящее время объясняет примерно 95% случаев SMA, а остальные случаи включают другие патогенные варианты. Эти другие патогенные варианты представляют собой другой тип «молчащего» носителя. Способ может непосредственно генотипировать эти другие патогенные варианты как часть процесса тестирования, дополнительно улучшая возможность выявления носителей и случаев SMA. [0231] One type of silent carrier occurs when a subject has two copies of the SMN1 gene, but they both belong to the same haplotype. The SNP (g.24134T>G) was used to identify subjects who are at increased risk of becoming carriers if the SMN1 copy number value is two, but the risk associated with this SNP can vary widely between studies and populations (Table 17). If a subject has only one copy of SMN1 , then the subject can be definitely identified as a carrier, but this variant only indicates a 2-8% chance of being a carrier if the copy number of SMN1 is two. Thanks to WGS, there are multiple variants that occur with different combinations of SMN1 and SMN2 copy numbers, and the identification of additional markers that can be used to improve our ability to identify these silent carriers. Additionally, loss of the c.840C>T splice variant currently explains approximately 95% of SMA cases, with the remaining cases involving other pathogenic variants. These other pathogenic variants represent another type of silent carrier. The method can directly genotype these other pathogenic variants as part of the testing process, further improving the ability to identify SMA carriers and cases.

[0232] Хотя в геноме существуют сложные области, в которых нормальные конвейеры WGS не определяют варианты, этот пример демонстрирует возможность применения WGS в комбинации целевым биоинформатическим подходом для определения одной такой сложной области. Эту нацеленную стратегию (WGS + специализированную биоинформатику) можно применять к ряду сложных вариантов, таких как экспансия повторов и CYP2D6, описанные в данном документе. Традиционно проведение всех известных генетических тестов и скрининг носителей для каждого отдельного человека было экономически эффективным, поэтому кандидаты на конкретный генетический тест были идентифицированы с использованием такой информации, как частота носительства и семейный анамнез. Однако этот процесс означает, что многие люди без семейного анамнеза, которые могли бы получить пользу от знания о статусе SMA, не имели доступа к этим данным в обычном порядке. Как только анализ WGS сможет точно обнаружить все SNV и CNV во всех клинически значимых генах, тогда станет возможной более общая и популяционная стратегия генетического тестирования с помощью одного теста. Улучшение WGS в качестве замены одного существующего генетического теста поможет упростить интеграцию большего количества генетических тестов и скрининговых тестов в WGS, обеспечивая более общий доступ к генетическому тестированию в масштабах всей популяции. WGS обеспечивает ценную возможность оценки всего генома на предмет генетической вариации, и дальнейшая разработка более целенаправленных биоинформатических решений для сложных областей с данными WGS поможет приблизить перспективу персонализированной медицины на один шаг к реальности. [0232] Although there are complex regions of the genome in which normal WGS pipelines do not identify variants, this example demonstrates the ability to use WGS in combination with a targeted bioinformatics approach to identify one such complex region. This targeted strategy (WGS + custom bioinformatics) can be applied to a number of complex variants, such as repeat expansions and CYP2D6 , described herein. Traditionally, performing all known genetic tests and carrier screening on each individual has been cost-effective, so candidates for a particular genetic test have been identified using information such as carrier frequency and family history. However, this process meant that many people without a family history who might benefit from knowledge of SMA status did not have access to this data routinely. Once WGS analysis can accurately detect all SNVs and CNVs in all clinically relevant genes, then a more general and population-based genetic testing strategy with a single test will be possible. Improving WGS as a replacement for a single existing genetic test will help facilitate the integration of more genetic tests and screening tests into WGS, providing more general population-wide access to genetic testing. WGS provides a valuable opportunity to evaluate the entire genome for genetic variation, and continued development of more targeted bioinformatics solutions for complex areas with WGS data will help bring the promise of personalized medicine one step closer to reality.

Пример 2Example 2

Точное генотипирование CYP2D6 с использованием данных секвенирования целого генаPrecise genotyping of CYP2D6 using whole gene sequencing data

[0233] В данном примере и приложении A описано генотипирование CYP2D6 с использованием данных секвенирования целого генома. Содержание приложения А полностью включено в данный документ посредством ссылки. [0233] This example and Appendix A describe genotyping of CYP2D6 using whole genome sequencing data. The contents of Appendix A are incorporated herein by reference in their entirety.

[0234] CYP2D6 участвует в метаболизме 25% всех лекарственных средств и является ключевой мишенью для персонализированной медицины. Генотипирование CYP2D6 является сложной задачей из-за его высокого полиморфизма, наличия общих структурных вариантов (SV) и высокого сходства последовательностей с паралогом псевдогена CYP2D7. В данном документе описан биоинформатический способ, также называемый в данном документе Cyrius, который может точно генотипировать CYP2D6, используя данные секвенирования целого генома (WGS). Этот способ показал превосходные характеристики (97,9% соответствия истине) по сравнению с другими способами (85,6-88,8%) в 138 образцах с консенсусными определениями с помощью GeT-RM и в 50 дополнительных образцах с помощью Pacific Biosciences, California, Inc. (Менло-Парк, Калифорния), также известный как PacBio, данные секвенирования. Конкретным отличительным признаком способа является способность определить структурные варианты звездчатых аллелей. Способ правильно идентифицировал 97,2% (70/72) структурных вариантов звездчатых аллелей по сравнению с 77,8-88,9% (56/72 и 64/72) для других способов. При применении способа к 2504 образцам из проекта 1000 Genomes (1kGP) было установлено, что звездчатые аллели CYP2D6, включающие SV, встречаются на 32,2% чаще, чем сообщалось ранее, для некоторых популяций. В этом примере представлены сравнительного анализа с самым большим набором данных проверки. В некоторых вариантах осуществления способ представляет собой полезный инструмент для фармакогеномного применения с WGS. Способ может помочь приблизить перспективу точной медицины на шаг ближе к реальности. [0234] CYP2D6 is involved in the metabolism of 25% of all drugs and is a key target for personalized medicine. Genotyping of CYP2D6 is challenging due to its high polymorphism, the presence of common structural variants (SVs), and high sequence similarity to the pseudogene paralog CYP2D7 . Described herein is a bioinformatics method, also referred to herein as Cyrius, that can accurately genotype CYP2D6 using whole genome sequencing (WGS) data. This method showed superior performance (97.9% true) compared to other methods (85.6-88.8%) in 138 samples with consensus determinations by GeT-RM and in 50 additional samples by Pacific Biosciences, California , Inc. (Menlo Park, California), also known as PacBio, sequencing data. A specific distinguishing feature of the method is the ability to determine structural variants of star alleles. The method correctly identified 97.2% (70/72) of structural variants of star alleles compared to 77.8-88.9% (56/72 and 64/72) for other methods. When applying the method to 2504 samples from the 1000 Genomes Project (1kGP), CYP2D6 star alleles involving SV were found to be 32.2% more common than previously reported for some populations. This example presents a benchmarking analysis with the largest validation data set. In some embodiments, the method is a useful tool for pharmacogenomic applications with WGS. The method could help bring the promise of precision medicine a step closer to reality.

ВведениеIntroduction

[0235] Существуют значительные вариации в реакции субъектов большое количество назначенных в клинике лекарственных средств. Существенным фактором, влияющим на этот дифференцированный ответ на лекарства, является генетический состав генов, метаболизирующих лекарственные средства. Для точной медицины требуется генотипирование фармакогенов, чтобы сделать возможным индивидуальное лечение. Цитохром P450 2D6 (CYP2D6) является одним из наиболее важных генов, метаболизирующих лекарственное средство, и он участвует в метаболизме 25% лекарственных средств. Ген CYP2D6 является высокополиморфным, 106 звездчатыми аллелями, определенными Pharmacogene Variation (PharmVar) Consortium (pharmvar.org/gene/CYP2D6). Звездчатые аллели CYP2D6 представляют собой копии гена CYP2D6, определяемые комбинацией малых вариантов (таких как однонуклеотидные варианты (SNV) и вставок/делеций (инделы)) и структурных вариантов (SV), и соответствуют разным уровням ферментативной активности CYP2D6, таким как слабый, промежуточный, нормальный или сверхбыстрый метаболизм. [0235] There is significant variation in the response of subjects to large numbers of clinically prescribed medications. A significant factor influencing this differential response to drugs is the genetic composition of drug-metabolizing genes. Precision medicine requires genotyping of pharmacogenes to enable personalized treatment. Cytochrome P450 2D6 ( CYP2D6 ) is one of the most important drug metabolizing genes and is involved in the metabolism of 25% of drugs. The CYP2D6 gene is highly polymorphic, with 106 star alleles defined by the Pharmacogene Variation (PharmVar) Consortium ( pharmvar.org/gene/CYP2D6 ). CYP2D6 star alleles are copies of the CYP2D6 gene, defined by a combination of small variants (such as single nucleotide variants (SNVs) and insertions/deletions (indels)) and structural variants (SV), and correspond to different levels of CYP2D6 enzymatic activity, such as weak, intermediate, normal or ultra-fast metabolism.

[0236] Генотипирование CYP2D6 осложняется наличием нефункционального паралога CYP2D7, который расположен выше CYP2D6 и имеет 94% сходства последовательностей с несколькими почти идентичными областями. Распространены делеции и дупликации CYP2D6 и слияния CYP2D6 с его псевдогенным паралогом CYP2D7. Традиционно генотипирование CYP2D6 проводили с помощью чипов или способов, основанных на полимеразной цепной реакции (ПЦР), таких как анализы TaqMan, цифровая капельная ПЦР (ddPCR) и ПЦР длинных фрагментов. Данные анализы отличаются количеством звездчатых аллелей (вариантов), на которые они нацелены, что приводит к вариабельности результатов генотипирования в разных анализах. Общим ограничением этих способов является: 1) аллель дикого типа *1 часто определяется по умолчанию, когда ни один из целевых вариантов не обнаружен, или 2) родительский аллель, такой как *2, определяющий истинный звездчатый аллель, не тестируется. Данные анализы имеют низкую пропускную способность и часто затрудняют обнаружение структурных вариантов. [0236] Genotyping of CYP2D6 is complicated by the presence of a non-functional paralogue, CYP2D7 , which is located upstream of CYP2D6 and shares 94% sequence similarity with several nearly identical regions. Deletions and duplications of CYP2D6 and fusions of CYP2D6 with its pseudogenic paralog CYP2D7 are common. Traditionally, CYP2D6 genotyping has been performed using chips or polymerase chain reaction (PCR)-based methods such as TaqMan assays, digital droplet PCR (ddPCR), and long-fragment PCR. These assays differ in the number of star alleles (variants) they target, resulting in variability in genotyping results across assays. A common limitation of these methods is that 1) the wild-type allele *1 is often determined by default when none of the target variants are found, or 2) a parental allele such as *2, which determines the true star allele, is not tested. These assays have low throughput and often make it difficult to detect structural variants.

[0237] Профилирование всего генома с высокой пропускной способностью и в клинически значимый временной интервал возможно при секвенировании следующего поколения (NGS). Предпринимаются широкомасштабные усилия по секвенированию популяции, и желательной целью может быть фармакогеномическое тестирование. Генотипирование CYP2D6 с помощью NGS особенно сложно из-за общих конверсий генов между CYP2D6 и CYP2D7 (далее именуемых CYP2D6/7), общих SV (делеции генов, дупликации и слитные гены CYP2D6/7), а также из-за сходства последовательностей CYP2D/7, что приводит к неоднозначному выравниванию прочтения для любого из генов. Некоторые существующие определители не могут обнаруживать сложные структурные варианты, и было показано, что они имеют низкую эффективность. Другие существующие определители, такие как Aldy (Numanagic et al. Allelic decomposition and exact genotyping of highly polymorphic and structurally variant genes. Nat Commun. 2018;9(1):1-11. Doi:10.1038/s41467-018-03273-1) и Stargazer (Lee et al. Stargazer: a software tool for calling star alleles from next-generation sequencing data using CYP2D6 as a model. Genet Med. 2019;21(2):361. Doi: 10.1038/s41436-018-0054-0), основывается на точном выравнивании прочтения при прочтении последовательностей CYP2D6 для обнаружения SV на основе глубины и получения конфигураций гаплотипов на основе наблюдаемых малых вариантов и SV. Однако точное прочтение последовательностей CYP2D6 часто невозможно во многих положениях во всем гене, поскольку последовательность очень похожа на CYP2D7 или даже неотличима из-за генной конверсии. В результате этого шаблоны глубины могут быть неоднозначными, и определители могут определить ложноположительные/отрицательные малые варианты. Некоторые определители не поддерживают hg38, поэтому многие исследования потребуют повторного выравнивания до hg37, чтобы использовать эти инструменты. [0237] Whole genome profiling at high throughput and in a clinically relevant time frame is possible with next generation sequencing (NGS). Large-scale population sequencing efforts are underway, and pharmacogenomic testing may be a desirable goal. Genotyping of CYP2D6 by NGS is particularly challenging due to common gene conversions between CYP2D6 and CYP2D7 (hereafter referred to as CYP2D6 /7), common SVs (gene deletions, duplications, and CYP2D6 /7 fusions), and the sequence similarity of CYP2D/7 , resulting in ambiguous read alignment for any of the genes. Some existing detectors cannot detect complex structural variants and have been shown to have low performance. Other existing determinants, such as Aldy (Numanagic et al. Allelic decomposition and exact genotyping of highly polymorphic and structurally variant genes. Nat Commun. 2018;9(1):1-11. Doi:10.1038/s41467-018-03273-1 ) and Stargazer (Lee et al. Stargazer: a software tool for calling star alleles from next-generation sequencing data using CYP2D6 as a model. Genet Med. 2019;21(2):361. Doi: 10.1038/s41436-018-0054 -0), relies on precise read alignment of CYP2D6 sequence reads to detect depth-based SVs and derive haplotype configurations based on observed minor variants and SVs. However, accurate reading of CYP2D6 sequences is often not possible at many positions throughout the gene because the sequence is very similar to CYP2D7 or even indistinguishable due to gene conversion. As a result, depth patterns may be ambiguous and determiners may identify false positive/negative minor variants. Some definers do not support hg38, so many studies will require realignment to hg37 to use these tools.

[0238] Доступность панели эталонных образцов по программе CDC Genetic Testing Reference Material Program (GeT-RM; Gaedigk et al. Characterization of Reference Materials for Genetic Testing of CYP2D6 Alleles: A GeT-RM Collaborative Project. J Mol Diagn JMD. August 2019. Doi: 10.1016/j.jmoldx.2019.06.007), где консенсусные генотипы основных фармакогенетических генов получены с использованием множества платформ генотипирования, позволили оценить точность генотипирования для вновь разработанных способов. GeT-RM охватывает 43 из 106 звездчатых аллелей CYP2D6. Кроме того, многие из способов, используемых для этих консенсусных генотипов, могут быть склонны к ошибке, что приводит к конфликтам между способами. Доступность высококачественных длинных прочтений позволяет получить полную картину CYP2D6 для лучшей проверки сложных вариантов и гаплотипов. В данном документе описан Cyrius, способ генотипирования CYP2D6 на основе WGS, позволяющий преодолеть проблемы с CYP2D6 и CYP2D7 (в данном документе именуемые CYP2D6/7). Cyrius обладает превосходной точностью генотипирования по сравнению с Aldy и Stargazer в 138 эталонных образцах GeT-RM и 50 образцах с данными секвенирования целого генома PacBio, охватывая 41 из 106 известных звездчатых аллелей. Способ применяли к данным секвенирования с большой глубиной для 2504 неродственных образцов из проекта 1000 Genomes (1kGP), чтобы сообщить о распределении звездчатых аллелей в пяти этнических популяциях. Данный анализ демонстрирует различия с частотами в PharmGKB, подчеркивая потенциальные ошибки, связанные с объединением ограниченных определений звездчатых аллелей, созданных с использованием различных технологий, разработанных для идентификации конкретных подмножеств известных звездчатых аллелей. Данный анализ расширяет текущее понимание генетического разнообразия CYP2D6, особенно сложных звездчатых аллелей с SV. [0238] Availability of a panel of reference samples through the CDC Genetic Testing Reference Material Program (GeT-RM; Gaedigk et al. Characterization of Reference Materials for Genetic Testing of CYP2D6 Alleles: A GeT-RM Collaborative Project. J Mol Diagn JMD. August 2019. Doi: 10.1016/j.jmoldx.2019.06.007), where consensus genotypes of major pharmacogenetic genes were obtained using multiple genotyping platforms, allowed assessment of genotyping accuracy for newly developed methods. GeT-RM covers 43 of the 106 star alleles of CYP2D6 . In addition, many of the methods used for these consensus genotypes may be prone to error, leading to conflicts between methods. The availability of high-quality long reads allows a complete picture of CYP2D6 to be obtained for better screening of complex variants and haplotypes. This paper describes Cyrius, a WGS-based genotyping method for CYP2D6 that overcomes problems with CYP2D6 and CYP2D7 (herein referred to as CYP2D6/7 ). Cyrius has superior genotyping accuracy compared to Aldy and Stargazer in 138 GeT-RM reference samples and 50 samples with PacBio whole genome sequencing data, covering 41 of the 106 known star alleles. The method was applied to high-depth sequencing data for 2504 unrelated samples from the 1000 Genomes Project (1kGP) to report the distribution of star alleles in five ethnic populations. This analysis demonstrates differences with PharmGKB frequencies, highlighting the potential pitfalls associated with combining limited star allele definitions generated using different technologies designed to identify specific subsets of known star alleles. This analysis expands the current understanding of the genetic diversity of CYP2D6 , especially complex star alleles with SV.

Материалы и способыMaterials and methods

ОбразцыSamples

[0239] Было проанализировано следующее: Данные WGS для 138 эталонных образцов GeT-Rm, включая 96 образцов, которые были генотипированы в начальном исследовании GeT-RM и обновлены в последней версии GeT-RM, а также 42 дополнительных образца, которые были недавно добавлены в последней версии GeT-RM. Для первой партии из 96 образцов выполняли WGS с использованием набора TruSeq DNA PCR-free sample preparation, используя парные прочтения длиной 150 п. о., секвенированными на приборах HiSeq X компании Illumina, Inc.(Сан-Диего, Калифорния, США). Для выравнивания прочтения использовали сборку генома GRCh37. Данные секвенирования для 70 этих образцов загружали из ebi.ac.uk/ena/data/view/PRJEB19931. Данные WGS для второй партии из 42 образцов загружали из NYGC в рамках проекта 1000 Genomes (см. ниже). [0239] The following were analyzed: WGS data for 138 GeT-Rm reference samples, including 96 samples that were genotyped in the initial GeT-RM study and updated in the latest version of GeT-RM, as well as 42 additional samples that were recently added to latest version of GeT-RM. For the first batch of 96 samples, WGS was performed using the TruSeq DNA PCR-free sample preparation kit using 150 bp paired-end reads sequenced on HiSeq X instruments from Illumina, Inc. (San Diego, CA, USA). The GRCh37 genome assembly was used for read alignment. Sequencing data for 70 of these samples was downloaded from ebi.ac.uk/ena/data/view/PRJEB19931. WGS data for a second batch of 42 samples was downloaded from the NYGC as part of the 1000 Genomes Project (see below).

[0240] Для популяционных исследований использовали данные из проекта 1000 Genomes (1kGP), для которых WGS BAM для 2504 образцов были загружены с ncbi.nlm.nih.gov/bioproject/PRJEB31736/. Данные файлы BAM получали путем секвенирования прочтений 2 x 150 п.о. на приборах NovaSeq 6000 компании Illumina из библиотек без проведения ПЦР и их выравнивания с человеческим эталонным образцом hs38DH. Данные WGS для 70 образцов GeT-RM были загружены из ebi.ac.uk/ena/data/view/PRJEB19931. [0240] For the population studies, data from the 1000 Genomes Project (1kGP) was used, for which WGS BAMs for 2504 samples were downloaded from ncbi.nlm.nih.gov/bioproject/PRJEB31736/. These BAM files were obtained by sequencing 2 x 150 bp reads. on Illumina NovaSeq 6000 instruments from libraries without PCR and alignment with the human reference sample hs38DH. WGS data for 70 GeT-RM samples were downloaded from ebi.ac.uk/ena/data/view/PRJEB19931.

Секвенирование PacBioPacBio sequencing

[0241] Образцы гДНК были приобретены в Coriell Institute for Medical Research (Кориeл, Нью-Джерси, США). Качество образцов гДНК оценивали с помощью Nanodrop (ThermoFisher, MA, США). Соотношение A280/A260 должно находиться в диапазоне от 1,8 до 2,0, а соотношение A260/230 составляет ≥ 2,0. Молекулярную массу гДНК оценивали с помощью системы Femto Pulse (Agilent CA, США). Размер большинства фрагментов ДНК должен составлять > 40 т. п. н. Если качество образца гДНК из Coriell ниже, чем требование к протоколу, свежую ДНК экстрагировали из B-лимфоцитов (Кориeл, Нью-Джерси, США) при помощи набора для экстракции ДНК Qiagen (Qiagen, Калифорния, США). [0241] gDNA samples were purchased from the Coriell Institute for Medical Research (Coryell, NJ, USA). The quality of gDNA samples was assessed using Nanodrop (ThermoFisher, MA, USA). The A280/A260 ratio should be between 1.8 and 2.0, and the A260/230 ratio should be ≥ 2.0. The molecular weight of gDNA was assessed using the Femto Pulse system (Agilent CA, USA). Most DNA fragments should be >40 kb in size. If the quality of the gDNA sample from Coriell was lower than the protocol requirement, fresh DNA was extracted from B cells (Coryell, NJ, USA) using a Qiagen DNA extraction kit (Qiagen, CA, USA).

[0242] Фрагментировали 10 мкг гДНК до 15 т. п. н. с использованием г-пробирок Covaris в соответствии с инструкциями производителя (Covaris, Массачусетс, США). ДНК очищали с использованием 0,45x гранул AMPure XP (Beckman Coulter, IN, США) в соответствии с инструкциями производителя. Размер разрезанной ДНК подтверждали с помощью Femto Pulse System (Agilent, Калифорния, США). [0242] 10 μg of gDNA was fragmented to 15 kb. using Covaris g-tubes according to the manufacturer's instructions (Covaris, MA, USA). DNA was purified using 0.45x AMPure XP beads (Beckman Coulter, IN, USA) according to the manufacturer's instructions. The size of the cut DNA was confirmed using the Femto Pulse System (Agilent, California, USA).

[0243] Библиотеки конструировали в соответствии с протоколом PacBio «Preparing HiFi SMRTbell® Libraries using SMRTbell Template Prep Kit 1.0» или «HiFi SMRTbell® Libraries using SMRTbell Express Template Prep Kit 2.0» (PacBio, Калифорния, США). Размер библиотеки выбирали для 15~ 20 т. п. н. с использованием прибора Sage Elf с 0,75% агарозой (Sage Science, MA, США). Контроль качества всех библиотек выполняли с помощью Qubit (Life Technologies, Калифорния, США) и Femto Pulse (Agilent, Калифорния, США). [0243] Libraries were constructed in accordance with the PacBio protocol “Preparing HiFi SMRTbell® Libraries using SMRTbell Template Prep Kit 1.0” or “HiFi SMRTbell® Libraries using SMRTbell Express Template Prep Kit 2.0” (PacBio, California, USA). The library size was chosen to be 15~20 kb. using a Sage Elf instrument with 0.75% agarose (Sage Science, MA, USA). Quality control of all libraries was performed using Qubit (Life Technologies, CA, USA) and Femto Pulse (Agilent, CA, USA).

Для секвенирования использовали платформу для секвенирования PacBio Sequel II. Данные WGS с 20-кратным покрытием по существу получены из 2 ~ 3 клеток SMRT (Pacific Biosciences, Калифорния, США). Способ генотипирования CYP2D6 The PacBio Sequel II sequencing platform was used for sequencing. WGS data with 20× coverage are essentially obtained from 2~3 SMRT cells (Pacific Biosciences, CA, USA). CYP2D6 genotyping method

[0244] Способ, описанный в данном примере Cyrius, сначала определяет сумму количества копий (CN) CYP2D6/7, в соответствии со способом, аналогичным описанному в примере 1. Количество прочтений рассчитывали непосредственно из файла BAM, выровненного по WGS на основе всех прочтений, сопоставленных с CYP2D6 или CYP2D7, включая прочтение с нулевым качеством картирования, чтобы учесть области с высокой гомологией последовательности. Суммарное количество прочтений нормализовали по длине области. Затем выполняли коррекцию GC против 3000 предварительно выбранных по всему геному областей размером 2 т. п. н. Эти 3000 областей нормализации были случайным образом выбраны из генома для стабильного покрытия образцов популяции для выявления глубины секвенирования и фиксирования систематической ошибки GC. Нормированные значения глубины по популяции моделировали с использованием одномерной смеси 11 распределений, которые сосредоточены вокруг каждого целочисленного значения количества копий, представляющего состояния количества копий в диапазоне от 0 до 10. ЦНС CYP2D6+CYP2D7 было определено с помощью модели смеси нормальных распределений (GMM) с порогом апостериорной вероятности 0,95. Тот же подход использовали для определения количества копий спейсерной области размером 1,5 т. п. н. между повтором REP7 и CYP2D7, чтобы выявить количество копий слитых генов, содержащих REP7 (ФИГ. 23). [0244] The method described in this example by Cyrius first determines the sum of the copy number (CN) of CYP2D6 /7, according to a method similar to that described in example 1. The number of reads was calculated directly from the BAM file, aligned to WGS based on all reads, mapped to CYP2D6 or CYP2D7 , including reads with zero mapping quality to account for regions of high sequence homology. The total number of reads was normalized by region length. GC correction was then performed against 3000 genome-wide preselected 2-kb regions. These 3000 normalization regions were randomly selected from the genome to provide stable coverage of population samples to reveal sequencing depth and capture GC bias. Population normalized depth values were modeled using a univariate mixture of 11 distributions that are centered around each integer copy number value representing copy number states ranging from 0 to 10. CYP2D6 + CYP2D7 CNS was defined using a normal distribution mixture model (GMM) with a threshold posterior probability 0.95. The same approach was used to determine the copy number of the 1.5-kb spacer region. between the REP7 repeat and CYP2D7 to reveal the copy number of fusion genes containing REP7 (FIG. 23).

[0245] На ФИГ. 23 представлен неограничивающий пример графика, на котором показано качество данных WGS в области CYP2D6/7. Среднее качество картирования для выборок 1kGP нанесено на график для каждого положения в области CYP2D6/7. В окне длиной 200 п. о. применяют медианный фильтр. REP6, REP7 и экзоны 9 CYP2D6/7 показаны в виде прямоугольников слева (CYP2D6) и справа (CYP2D7). Две области повтора длиной 2,8 т. п. н. ниже CYP2D6 (REP6) и CYP2D7 (REP7) идентичны и по существу несовместимы. Пунктирной рамкой обозначена область спейсера между CYP2D7 и REP7. Две основные гомологичные области в генах заштрихованы. [0245] In FIG. 23 is a non-limiting example plot showing the quality of WGS data in the CYP2D6 /7 region. The average mapping quality for the 1kGP samples is plotted for each position in the CYP2D6 /7 region. In a window 200 bp long. a median filter is used. REP6, REP7 and CYP2D6 /7 exons 9 are shown as boxes on the left ( CYP2D6 ) and right ( CYP2D7 ). Two 2.8 kb repeat regions. downstream, CYP2D6 (REP6) and CYP2D7 (REP7) are identical and essentially incompatible. The dotted frame indicates the spacer region between CYP2D7 and REP7. The two major homologous regions in the genes are shaded.

[0246] С помощью способа идентифицировано 118 дифференцирующих оснований CYP2D6/CYP2D7(см. дополнительную информацию к этому примеру, ФИГ. 26). В каждом из этих положений дифференцирующихся оснований Cyrius определял количество хромосом, несущих CYP2D6, и количество, несущих CYP2D7, путем комбинирования общего количества копий CYP2D6+CYP2D7 с количеством прочтений, поддерживающих каждое из ген-специфических оснований. На основе определенного общего количества копий Cyrius перебрал все возможные комбинации количества копий CYP2D6 и CYP2D7 и получил комбинацию, которая дает самую высокую апостериорную вероятность для наблюдаемого количества прочтений CYP2D6 и CYP2D7. Слияние генов определяли путем идентификации оснований, когда количество копий CYP2D6 менялось (ФИГ. 27). [0246] The method identified 118 differentiating bases of CYP2D6 / CYP2D7 (see supporting information for this example, FIG. 26). At each of these differentiating base positions, Cyrius determined the number of chromosomes carrying CYP2D6 and the number carrying CYP2D7 by combining the total copy number of CYP2D6 + CYP2D7 with the number of reads supporting each of the gene-specific bases. Based on the determined total copy number, Cyrius iterated through all possible combinations of CYP2D6 and CYP2D7 copy numbers and obtained the combination that gave the highest posterior probability for the observed number of CYP2D6 and CYP2D7 reads. Gene fusions were determined by identifying bases when the copy number of CYP2D6 changed (FIG. 27).

[0247] Cyrius анализировал выравнивания для прочтения для выявления малых вариантов, которые определяют звездчатые аллели. Представляющие интерес варианты были разделены на те, которые попадали в гомологичные области CYP2D6/CYP2D7 (т. е. области низкого качества картирования на ФИГ. 23) и варианты, которые встречаются в уникальных областях CYP2D6. Для первого варианта Cyrius искал вариант прочтения CYP2D6 и соответствующий ему сайт CYP2D7. В последнем случае Cyrius использовал прочтения, выровненные с CYP2D6. Количество копий определенное в области, также было учтено при определении малых вариантов. Например, где было идентифицировано слияние дупликаций * 68, один гаплотип должен иметь интактную копию CYP2D6 плюс копию* 68, а другой гаплотип должен иметь интактную копию CYP2D6 и, следовательно, количество копий CYP2D6 должно располагаться на 3 выше от экзона 2 и на 2 ниже от экзона 2. [0247] Cyrius analyzed read alignments to identify small variants that define star alleles. Variants of interest were divided into those that fell within homologous regions of CYP2D6 / CYP2D7 (i.e., low-quality mapping regions in FIG. 23) and variants that occurred in unique regions of CYP2D6 . For the first variant, Cyrius looked for the CYP2D6 read variant and its corresponding CYP2D7 site. In the latter case, Cyrius used reads aligned to CYP2D6 . The number of copies determined in the area was also taken into account when determining small variants. For example, where a duplication fusion *68 has been identified, one haplotype should have an intact copy of CYP2D6 plus a copy of *68, and the other haplotype should have an intact copy of CYP2D6 and therefore the CYP2D6 copy number should be 3 upstream of exon 2 and 2 downstream of exon 2. exon 2.

[0248] Наконец, Cyrius сопоставил определенные структурные варианты и малые варианты в соответствии с определением звездчатых аллелей (загружено и проанализировано с PharmVar, pharmvar.org/gene/CYP2D6, последний доступ в марте 2019 г.) для обозначения звездчатых аллелей, которые дополнительно группировали в гаплотипы, когда, например, было более двух копий CYP2D6. Для этого была включена предварительная информация для определения точных гаплотипов, например, *68 был в том же гаплотипе, что и *4, а *36 был в том же гаплотипе, что и *10). Эти предварительные значения были созданы на основе шаблонов тандемного расположения, описанных в PharmVar, и также подтверждаются нашими достоверными данными (12/12 для *68 и 25/25 для *36). Была доступна опция для сопоставления только определенных структурных вариантов и малых вариантов с звездчатыми аллелями с известными функциями. [0248] Finally, Cyrius mapped specific structural variants and minor variants according to the definition of star alleles (downloaded and analyzed from PharmVar, pharmvar.org/gene/ CYP2D6 , last accessed March 2019) to designate star alleles, which further grouped into haplotypes when, for example, there were more than two copies of CYP2D6. To do this, preliminary information was included to determine the exact haplotypes, for example *68 was in the same haplotype as *4, and *36 was in the same haplotype as *10). These preliminary values were generated from the tandem arrangement patterns described in PharmVar and are also supported by our hard data (12/12 for *68 and 25/25 for *36). An option was available to map only certain structural variants and minor variants to star alleles with known functions.

[0249] Из 131 звездчатых аллелей, определенных в PharmVar (последний доступ в марте 2020 г.), 25 все еще ожидают отверждения, поэтому в примере они исключены и внимание сосредоточено на 106 отобранных аллелях (в Cyrius есть еще один вариант для включения этих неотверждаемых аллелей). Из этих 106 звездчатых аллелей четыре из нашего перечня мишеней были удалены, ни один из которых не находился в GeT-RM. Удаленные звездчатые аллели включают *61 и *63 (оба с неизвестными функциями), которые представляют собой гибридные гены CYP2D6/7, очень похожие на *36, с точкой разрыва слияния немного выше. Поскольку было невозможно различить область экзона 7-экзона 8 между CYP2D6/7 (ФИГ. 26), эти два звездчатые аллеля нельзя отличить от *36, и они будут обозначаться Cyrius как *36. Кроме того, удаляли *27 (нормальная функция) и *32 (неизвестная функция); *27 и *32 имеют общие g.42126938C>T, вариант генной конверсии в высокогомологичной области (идеально считанный вариант будет выровнен с CYP2D7. При подсчете результатов прочтения, поддерживающих CYP2D6 и CYP2D7, на одном сайте, может быть сложно точно отличить 1 копию CYP2D6 и 3 копии CYP2D7 от 2 копий каждая по 20. Таким образом,*27 будет называться *1, а *32 будет называться *41. [0249] Of the 131 star alleles identified in PharmVar (last accessed March 2020), 25 are still awaiting curing, so the example excludes them and focuses on the 106 selected alleles (Cyrius has another option to include these uncured ones alleles). Of these 106 star alleles, four were removed from our target list, none of which were in GeT-RM. Deleted star alleles include *61 and *63 (both of unknown function), which are CYP2D6 /7 fusion genes very similar to *36, with the fusion breakpoint slightly higher. Since it was not possible to distinguish the exon 7-exon 8 region between CYP2D6 /7 (FIG. 26), these two star alleles cannot be distinguished from *36 and will be designated by Cyrius as *36. In addition, *27 (normal function) and *32 (unknown function) were removed; *27 and *32 share g.42126938C>T, a gene conversion variant in a highly homologous region (ideally the read would align with CYP2D7 . When counting reads supporting CYP2D6 and CYP2D7 at the same site, it may be difficult to accurately distinguish 1 copy of CYP2D6 and 3 copies of CYP2D7 from 2 copies each of 20. Thus, *27 would be called *1, and *32 would be called *41.

Проверка истинности результатов GeT-RM и долгому прочтенииChecking the validity of GeT-RM results and long reading

[0250] При сравнении определений CYP2D6, сделанных Cyrius, Aldy и Stargazer, с согласованными генотипами, предоставленными GeT-RM, генотип считался совпадающим при условии, что присутствуют все звездчатые аллели в истинном генотипе, назначение гаплотипа было другим. Пример этого происходит в нескольких образцах, перечисленных в GeT-RM как *1/*10+*36+*36, но именуемых Aldy как *1+*36/*10+*36. [0250] When comparing the CYP2D6 definitions made by Cyrius, Aldy and Stargazer with the consensus genotypes provided by GeT-RM, the genotype was considered a match provided that all star alleles in the true genotype were present, the haplotype assignment was different. An example of this occurs in several samples listed in GeT-RM as *1/*10+*36+*36, but referred to by Aldy as *1+*36/*10+*36.

[0251] При проверке определений генотипа по данным PacBio анализировали прочтения PacBio, охватывающие весь ген CYP2D6, для выявления малых вариантов, которые, как известно, определяют звездчатые аллели. Длинные (~ 10 т. п. н.) прочтения позволяют полностью поэтапно преобразовать данные варианты в гаплотипы, и данные гаплотипы сопоставляются с таблицей звездчатых аллелей, чтобы определить, какой из звездчатых аллелей считан каждый раз. прочтения, несущие структурные вариации, определяли путем сопоставления прочтений с набором контрольных контигов, которые были сконструированы для представления известных структурных вариантов (*5/*13/*36/*68/дубликации). [0251] When validating genotype definitions from PacBio, PacBio reads covering the entire CYP2D6 gene were analyzed to identify small variants known to define star alleles. Long (~10 kb) reads allow given variants to be fully stepwise converted into haplotypes, and these haplotypes are compared to a star allele table to determine which star allele is read each time. reads carrying structural variations were identified by aligning reads to a set of control contigs that were constructed to represent known structural variants (*5/*13/*36/*68/duplications).

Применение Aldy и StargazerApplication of Aldy and Stargazer

[0252] Aldy v2.2.5 запускали с использованием команды « aldy genotype -p lumina -g CYP2D6 ». [0252] Aldy v2.2.5 was run using the command " aldy genotype -p lumina -g CYP2D6 ".

[0253] Stargazer v1.0.7 был проведен для генотипа CYP2D6, используя VDR в качестве контрольного гена, с файлами GDF и VCF в качестве входных данных. [0253] Stargazer v1.0.7 was run on the CYP2D6 genotype using VDR as the reference gene, with GDF and VCF files as input.

[0254] Поскольку Aldy and Stargazer поддерживают только GRCh37, с помощью Isaac были изначально выровнены образцы 1kGP с hs38DH, а с помощью Isaac была выполнена переориентация относительно GRCh37. [0254] Since Aldy and Stargazer only support GRCh37, 1kGP samples were initially aligned to hs38DH using Isaac, and reorientation relative to GRCh37 was performed using Isaac.

Результатыresults

Проверка и сравнение характеристикChecking and comparing characteristics

[0255] Определения CYP2D6, сделанные Cyrius, Aldy и Stargazer, по 188 образцам, по которым была получена достоверная высококачественная информация. Сравнивали результаты полногеномного секвенирования этих 188 образцов, включая 138 образцов GeT-RM и 50 образцов с достоверностью PacBio (таблица 20, таблица 21). Данные PacBio CCS позволили обнаружить и визуализировать точки разрыва общих и редких структурных вариантов в области (ФИГ. 24) и, таким образом, служили ценным ресурсом для изучения сложных звездчатых аллелей и подтвердили фазирование вариантов звездчатых аллелей. При коротких прочтениях эти образцы с SV демонстрировали различные сигналы глубины, которые точно позволяли определять SV (ФИГ. 27). [0255] CYP2D6 determinations by Cyrius, Aldy and Stargazer, based on 188 samples for which reliable, high-quality information was obtained. Whole-genome sequencing results of these 188 samples were compared, including 138 GeT-RM samples and 50 PacBio-confidence samples (Table 20, Table 21). PacBio CCS data allowed the detection and visualization of breakpoints of common and rare structural variants in the region (FIG. 24) and thus served as a valuable resource for the study of complex star alleles and confirmed the phasing of star allele variants. On short reads, these SV samples exhibited different depth signals that allowed accurate SV detection (FIG. 27).

Таблица 20. Сводные данные по результатам сравнения с достоверностьюTable 20. Summary of reliability comparison results

ОпределительDeterminant Общее кол-во GeTRMTotal number of GeTRMs Общее кол-во PacBioTotal number of PacBio ОбщийGeneral Полное согласование Full approval ЧувствительностьSensitivity Делеция
N=18
Deletion
N=18
Дупликация
N=14
Duplication
N=14
Слияние
N=40
Merger
N=40
Нет SV
N=116
No SV
N=116
Чувствительность, образцы с SVSensitivity, samples with SV Чувствительность, образцы без SVSensitivity, samples without SV
CyriusCyrius 138138 5050 188188 184*184* 97,9%97.9% 1717 1414 3939 114114 97,2%97.2% 98,3%98.3% AldyAldy 167167 88,8%88.8% 1616 1212 3636 103103 88,9%88.9% 88,8%88.8% StargazerStargazer 161161 85,6%85.6% 1717 11eleven 2828 105105 77,8%77.8% 90,5%90.5%

* После поиска трех расходящихся образцов были сделаны усовершенствования Cyrius, и Cyrius мог точно определить 187 из 188 этих образцов.* After searching for three divergent samples, improvements were made to Cyrius, and Cyrius was able to accurately identify 187 of these 188 samples.

Таблица 21. Результаты Cyrius/Aldy/Stargazer в отношении достоверности данных GeT-RM и PacBioTable 21. Cyrius/Aldy/Stargazer results regarding the reliability of GeT-RM and PacBio data

ID образцаSample ID ДостоверностьCredibility CyriusCyrius AldyAldy StargazerStargazer Достоверный источникReliable source 1kGP1kGP ТипType HG00276HG00276 *4/*5*4/*5 *4/*5*4/*5 *4/*5*4/*5 *4/*5*4/*5 GeT-RMGeT-RM ДелецияDeletion NA10831NA10831 *4/*5*4/*5 *4/*5*4/*5 *4/*5*4/*5 *4/*5*4/*5 GeT-RMGeT-RM ДелецияDeletion NA12873NA12873 *1/*5*1/*5 *1/*5*1/*5 выход с ошибкойexit with error *1/*5*1/*5 GeT-RMGeT-RM ДелецияDeletion NA17235NA17235 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 GeT-RMGeT-RM ДелецияDeletion NA18855NA18855 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 GeT-RMGeT-RM ДелецияDeletion NA18868NA18868 *2/*5*2/*5 *2/*5*2/*5 *2/*5*2/*5 *2/*5*2/*5 GeT-RMGeT-RM ДелецияDeletion HG01706HG01706 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 PacBioPacBio ДелецияDeletion HG00615HG00615 *2/*5*2/*5 *2/*5*2/*5 *2/*5*2/*5 *2/*5*2/*5 PacBioPacBio ДелецияDeletion HG02523HG02523 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 PacBioPacBio ДелецияDeletion NA18992NA18992 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 GeT-RMGeT-RM ДелецияDeletion NA18861NA18861 *5/*29*5/*29 *29/*5*29/*5 *29/*5*29/*5 *5/*29*5/*29 GeT-RMGeT-RM ДелецияDeletion NA19035NA19035 *2/*5*2/*5 *2/*5*2/*5 *2/*5*2/*5 *2/*5*2/*5 GeT-RMGeT-RM 1kGP1kGP ДелецияDeletion NA18945NA18945 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 *1/*5*1/*5 GeT-RMGeT-RM 1kGP1kGP ДелецияDeletion HG03225HG03225 *5/*56*5/*56 *10/*5
(обновлено до *56/*5)
*10/*5
(updated to *56/*5)
*5/*56*5/*56 *5/*56*5/*56 GeT-RMGeT-RM 1kGP1kGP ДелецияDeletion
HG03259HG03259 *5/*106*5/*106 *106/*5*106/*5 *106/*5*106/*5 *5/*106*5/*106 GeT-RMGeT-RM 1kGP1kGP ДелецияDeletion HG03246HG03246 *5/*43*5/*43 *43/*5*43/*5 выход с ошибкойexit with error *5/*43*5/*43 GeT-RMGeT-RM 1kGP1kGP ДелецияDeletion NA19317NA19317 *5/*5*5/*5 *5/*5*5/*5 *5/*5*5/*5 *2/*2*2/*2 GeT-RMGeT-RM 1kGP1kGP ДелецияDeletion NA18873NA18873 *5/*17*5/*17 *17/*5*17/*5 *17/*5*17/*5 *5/*17*5/*17 GeT-RMGeT-RM 1kGP1kGP ДелецияDeletion HG00436HG00436 *2x2/*71*2x2/*71 *2x2/*71*2x2/*71 *2+*2/*71*2+*2/*71 *2x2/*71*2x2/*71 GeT-RMGeT-RM дупликацияduplication NA07439NA07439 *4x2/*41*4x2/*41 *41/*4x2*41/*4x2 *4+*4/*41*4+*4/*41 *4x2/*41*4x2/*41 GeT-RMGeT-RM дупликацияduplication NA17244NA17244 *2x2/*4x2
(+гибрид)
*2x2/*4x2
(+hybrid)
*2x2/*4x2*2x2/*4x2 *4+*4/*63+*78
+*2
*4+*4/*63+*78
+*2
*2x2/*4x2*2x2/*4x2 GeT-RMGeT-RM дупликацияduplication
NA19226NA19226 *2/*2x2*2/*2x2 *2/*2x2*2/*2x2 *2/*2+*2*2/*2+*2 *2/*2x2*2/*2x2 GeT-RMGeT-RM дупликацияduplication NA24027NA24027 *2x2/*6*2x2/*6 *2x2/*6*2x2/*6 *2+*2/*6*2+*2/*6 *1x2/*6*1x2/*6 GeT-RMGeT-RM дупликацияduplication NA19920NA19920 *1/*4x2*1/*4x2 *1/*4x2*1/*4x2 *1/*4+*4*1/*4+*4 *1/*4x2*1/*4x2 GeT-RMGeT-RM дупликацияduplication NA19819NA19819 *2/*4x2*2/*4x2 *2/*4x2*2/*4x2 *2/*4+*4*2/*4+*4 *2/*4x2*2/*4x2 GeT-RMGeT-RM дупликацияduplication NA19207NA19207 *2x2/*10*2x2/*10 *10/*2x2*10/*2x2 *10/*2+*2*10/*2+*2 *2Dx2/*10*2Dx2/*10 GeT-RMGeT-RM дупликацияduplication NA17454NA17454 *1x2/*2x2*1x2/*2x2 *1x2/*2x2*1x2/*2x2 *1+*34/*2+*2*1+*34/*2+*2 *1x2/*2x2*1x2/*2x2 GeT-RMGeT-RM дупликацияduplication NA19109NA19109 *2x2/*29*2x2/*29 *2x2/*29*2x2/*29 *2+*2/*29*2+*2/*29 *2x2/*29*2x2/*29 GeT-RMGeT-RM дупликацияduplication NA15245NA15245 *4x2/*4*4x2/*4 *4/*4x2*4/*4x2 *4/*4+*4*4/*4+*4 *4/*4x2*4/*4x2 GeT-RMGeT-RM дупликацияduplication HG00337HG00337 *2x2/*22*2x2/*22 *2x2/*22*2x2/*22 *2+*2/*22*2+*2/*22 *1/*2x2*1/*2x2 GeT-RMGeT-RM 1kGP1kGP дупликацияduplication HG01622HG01622 *1/*2x2*1/*2x2 *1/*2x2*1/*2x2 *1/*2+*2*1/*2+*2 *1/*34x2*1/*34x2 PacBioPacBio дупликацияduplication HG03131HG03131 *17/*2x2*17/*2x2 *17/*2x2*17/*2x2 *17/*2+*2*17/*2+*2 *2Dx2/*17*2Dx2/*17 PacBioPacBio дупликацияduplication HG01190HG01190 *68+*4/*5*68+*4/*5 *5/*4+*68*5/*4+*68 *4/*68*4/*68 *5/*68+*4*5/*68+*4 GeT-RMGeT-RM слияниеmerger NA12878NA12878 *3/*4+*68*3/*4+*68 *3/*4+*68*3/*4+*68 *3/*4+*68*3/*4+*68 *3/*4+*68*3/*4+*68 PacBioPacBio слияниеmerger NA12877NA12877 *4/*4+*68*4/*4+*68 *4/*4+*68*4/*4+*68 *4/*4+*68*4/*4+*68 *4/*4+*68*4/*4+*68 PacBioPacBio слияниеmerger NA21781NA21781 *2x2/*68+*4*2x2/*68+*4 *2x2/*4+*68*2x2/*4+*68 *2+*2/*68+*4*2+*2/*68+*4 *2x2/*68+*4*2x2/*68+*4 GeT-RMGeT-RM слияниеmerger HG01772HG01772 *4+*68/*4+*68*4+*68/*4+*68 *4+*68/*4+*68*4+*68/*4+*68 *68+*4/*68+*4*68+*4/*68+*4 негенотипированныйungenotyped PacBioPacBio слияниеmerger NA11832NA11832 *1/(*68)+*4*1/(*68)+*4 *1/*4+*68*1/*4+*68 *1/*68+*4*1/*68+*4 *1/*68+*4*1/*68+*4 GeT-RMGeT-RM слияниеmerger NA12878NA12878 *3/(*68)+*4*3/(*68)+*4 *3/*4+*68*3/*4+*68 *3/*68+*4*3/*68+*4 *3/*68+*4*3/*68+*4 GeT-RMGeT-RM 1kGP1kGP слияниеmerger NA12154NA12154 (*68)+*4/*33(*68)+*4/*33 *33/*4+*68*33/*4+*68 *33/*68+*4*33/*68+*4 *33x2/*68+*4*33x2/*68+*4 GeT-RMGeT-RM 1kGP1kGP слияниеmerger HG00731HG00731 *4/*4+*68*4/*4+*68 *4/*4+*68*4/*4+*68 *4/*68+*4*4/*68+*4 *4/*68+*4*4/*68+*4 PacBioPacBio 1kGP1kGP слияниеmerger HG00553HG00553 *29/*4+*68*29/*4+*68 *29/*4+*68*29/*4+*68 *29/*68+*4*29/*68+*4 *29/*68+*4*29/*68+*4 PacBioPacBio 1kGP1kGP слияниеmerger NA23874NA23874 *4/*4*4/*4 *4/*4+*68*4/*4+*68 *4/*68+*4*4/*68+*4 *4/*68+*4*4/*68+*4 GeT-RMGeT-RM слияниеmerger NA24008NA24008 *1/*4*1/*4 *1/*4+*68*1/*4+*68 *1/*68+*4*1/*68+*4 *1/*68+*4*1/*68+*4 GeT-RMGeT-RM слияниеmerger NA18524NA18524 *1/*36x2+*10*1/*36x2+*10 *1/*10+*36
+*36
*1/*10+*36
+*36
*1+*36/*36
+*10
*1+*36/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
GeT-RMGeT-RM слияниеmerger
NA18526NA18526 *1/*36x2+*10*1/*36x2+*10 *1/*10+*36
+*36
*1/*10+*36
+*36
*1+*36/*36
+*10
*1+*36/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
GeT-RMGeT-RM слияниеmerger
NA18540NA18540 (*36+)10/*41(*36+)10/*41 *41/*10+*36
+*36
*41/*10+*36
+*36
*36+*10/*61
+*69
*36+*10/*61
+*69
*36+*10/*36
+*10
*36+*10/*36
+*10
GeT-RMGeT-RM слияниеmerger
NA18564NA18564 *2A/*36+*10*2A/*36+*10 *2/*10+*36*2/*10+*36 *2/*36+*10*2/*36+*10 *2/*36+*10*2/*36+*10 GeT-RMGeT-RM слияниеmerger NA18565NA18565 *10/*36x2*10/*36x2 *10/*10+*36*10/*10+*36 *10/*36+*10*10/*36+*10 *10/*36+*10*10/*36+*10 GeT-RMGeT-RM слияниеmerger NA18617NA18617 *36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
GeT-RMGeT-RM слияниеmerger
NA18959NA18959 *2/*36+*10*2/*36+*10 *2/*10+*36*2/*10+*36 *2/*36+*10*2/*36+*10 *2/*36+*10*2/*36+*10 GeT-RMGeT-RM слияниеmerger NA23246NA23246 *10x2/*36
+*10
*10x2/*36
+*10
*10x2/*10
+*36
*10x2/*10
+*36
*10+*10/*36
+*10
*10+*10/*36
+*10
*10x2/*36+*10*10x2/*36+*10 GeT-RMGeT-RM слияниеmerger
NA18980NA18980 *2/*36+*10*2/*36+*10 *2/*10+*36*2/*10+*36 *2/*36+*10*2/*36+*10 *2/*36+*10*2/*36+*10 GeT-RMGeT-RM слияниеmerger NA18642NA18642 *36+*10/*1
+*90
*36+*10/*1
+*90
*36+*10/*1
+*90
*36+*10/*1
+*90
*1+*90/*36
+*10
*1+*90/*36
+*10
*1x2/*36+*10*1x2/*36+*10 GeT-RMGeT-RM 1kGP1kGP слияниеmerger
HG00463HG00463 *36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
GeT-RMGeT-RM 1kGP1kGP слияниеmerger
HG02373HG02373 *14/*36+*10*14/*36+*10 *14/*10+*36*14/*10+*36 *14/*36+*10*14/*36+*10 *14/*36+*10*14/*36+*10 GeT-RMGeT-RM 1kGP1kGP слияниеmerger NA18572NA18572 *36+*10/*41*36+*10/*41 *41/*10+*36*41/*10+*36 *10+*83/*69*10+*83/*69 *36+*10/*41*36+*10/*41 GeT-RMGeT-RM 1kGP1kGP слияниеmerger NA18632NA18632 *36x2+*10/
*52
*36x2+*10/
*52
*52/*10+*36
+*36
*52/*10+*36
+*36
*36+*10/*36
+*52
*36+*10/*36
+*52
*36+*10/*36
+*10
*36+*10/*36
+*10
GeT-RMGeT-RM 1kGP1kGP слияниеmerger
NA18563NA18563 *1/*36+*10*1/*36+*10 *1/*10+*36*1/*10+*36 *1/*36+*10*1/*36+*10 *1/*36+*10*1/*36+*10 GeT-RMGeT-RM 1kGP1kGP слияниеmerger NA18545NA18545 *5/*36x2
+*10x2
*5/*36x2
+*10x2
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
GeT-RMGeT-RM 1kGP1kGP слияниеmerger
HG02068HG02068 *10/*10+*36*10/*10+*36 *10/*10+*36*10/*10+*36 *10/*36+*10*10/*36+*10 *10/*36+*10*10/*36+*10 PacBioPacBio слияниеmerger HG00612HG00612 *10/*10+*36*10/*10+*36 *10/*10+*36*10/*10+*36 *10/*36+*10*10/*36+*10 *10/*36+*10*10/*36+*10 PacBioPacBio слияниеmerger HG00597HG00597 *49/*10+*36
+*36+*83
*49/*10+*36
+*36+*83
*49/*10+*36
+*36+*83
*49/*10+*36
+*36+*83
*36+*10+*49
/*36+*39
*36+*10+*49
/*36+*39
*36+*10/*39x3*36+*10/*39x3 PacBioPacBio слияниеmerger
HG02015HG02015 *10/*10+*36*10/*10+*36 *10/*10+*36*10/*10+*36 *10/*36+*10*10/*36+*10 *10/*36+*10*10/*36+*10 PacBioPacBio слияниеmerger HG02071HG02071 *2/*10+*36*2/*10+*36 *2/*10+*36*2/*10+*36 *2/*36+*10*2/*36+*10 *2/*36+*10*2/*36+*10 PacBioPacBio слияниеmerger HG02129HG02129 *1/*10+*36*1/*10+*36 *1/*10+*36*1/*10+*36 *1/*36+*10*1/*36+*10 *1/*36+*10*1/*36+*10 PacBioPacBio слияниеmerger HG02074HG02074 *10+*36/*10
+*36
*10+*36/*10
+*36
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
PacBioPacBio слияниеmerger
HG00844HG00844 *10+*36/*10
+*36
*10+*36/*10
+*36
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
*36+*10/*36
+*10
PacBioPacBio 1kGP1kGP слияниеmerger
HG005
(NA24631)
HG005
(NA24631)
*49/*10+*36*49/*10+*36 *49/*10+*36*49/*10+*36 *49/*10+*36*49/*10+*36 *10/*36+*10*10/*36+*10 PacBioPacBio слияниеmerger
NA19785NA19785 *1/*13+*2*1/*13+*2 *2+*13/*1*2+*13/*1 *1/*79+*2*1/*79+*2 негенотипированныйungenotyped GeT-RMGeT-RM 1kGP1kGP слияниеmerger HG00290HG00290 *2+*13/*1*2+*13/*1 *2+*13/*1*2+*13/*1 *1/*79+*2*1/*79+*2 негенотипированныйungenotyped PacBioPacBio 1kGP1kGP слияниеmerger HG00421HG00421 *2/*10x2*2/*10x2 *10+*36/*2
(обновлено до
*10x2/*2)
*10+*36/*2
(updated to
*10x2/*2)
*2/*36+*10*2/*36+*10 *2/*36+*10*2/*36+*10 GeT-RM, PacBioGeT-RM, PacBio 1kGP1kGP слияние,* 10D представляет собой слияние, см. ФИГ. 27fusion,* 10D represents fusion, see FIG. 27
HG00589HG00589 *1/*21*1/*21 *1/*21*1/*21 *1/*21*1/*21 *1/*21*1/*21 GeT-RMGeT-RM Нет SVNo SV NA06991NA06991 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 GeT-RMGeT-RM Нет SVNo SV NA07000NA07000 *2 (*35)/*9*2 (*35)/*9 *35/*9*35/*9 *35/*9*35/*9 *9/*35*9/*35 GeT-RMGeT-RM Нет SVNo SV NA07019NA07019 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 GeT-RMGeT-RM Нет SVNo SV NA07029NA07029 *1/*35*1/*35 *1/*35*1/*35 *1/*35*1/*35 *1/*35*1/*35 GeT-RMGeT-RM Нет SVNo SV NA07055NA07055 *4/*4*4/*4 *4/*4*4/*4 *4/*4*4/*4 *4/*4*4/*4 GeT-RMGeT-RM Нет SVNo SV NA07056NA07056 *2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 GeT-RMGeT-RM Нет SVNo SV NA07348NA07348 *1/*6*1/*6 *1/*6*1/*6 *1/*6*1/*6 *1/*6*1/*6 GeT-RMGeT-RM Нет SVNo SV NA07357NA07357 *1/*6*1/*6 *1/*6*1/*6 *1/*6*1/*6 *1/*6*1/*6 GeT-RMGeT-RM Нет SVNo SV NA10847NA10847 *1/*41*1/*41 *1/*41*1/*41 *1/*41*1/*41 *1/*41*1/*41 GeT-RMGeT-RM Нет SVNo SV NA10851NA10851 *1/*4*1/*4 *1/*4*1/*4 *39/*4*39/*4 *1/*4*1/*4 GeT-RMGeT-RM Нет SVNo SV NA10854NA10854 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 GeT-RMGeT-RM Нет SVNo SV NA11839NA11839 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 GeT-RMGeT-RM Нет SVNo SV NA11993NA11993 *1/*9*1/*9 *1/*9*1/*9 *1/*9*1/*9 *1/*9*1/*9 GeT-RMGeT-RM Нет SVNo SV NA12003NA12003 *4/*35*4/*35 *35/*4*35/*4 *35/*4*35/*4 *4/*35*4/*35 GeT-RMGeT-RM Нет SVNo SV NA12006NA12006 *4/*41*4/*41 *41/*4*41/*4 *4/*41*4/*41 *4/*41*4/*41 GeT-RMGeT-RM Нет SVNo SV NA12145NA12145 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 GeT-RMGeT-RM Нет SVNo SV NA12156NA12156 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 GeT-RMGeT-RM Нет SVNo SV NA12236NA12236 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 GeT-RMGeT-RM Нет SVNo SV NA12717NA12717 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 GeT-RMGeT-RM Нет SVNo SV NA12813NA12813 *2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 GeT-RMGeT-RM Нет SVNo SV NA17074NA17074 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 GeT-RMGeT-RM Нет SVNo SV NA17102NA17102 *1/*40*1/*40 *1/*40*1/*40 *1/*40*1/*40 *1/*40*1/*40 GeT-RMGeT-RM Нет SVNo SV NA17204NA17204 *1/*35*1/*35 *1/*35*1/*35 *1/*35*1/*35 *1/*35*1/*35 GeT-RMGeT-RM Нет SVNo SV NA17227NA17227 *1/*9*1/*9 *1/*9*1/*9 *1/*9*1/*9 *1/*9*1/*9 GeT-RMGeT-RM Нет SVNo SV NA17234NA17234 *1/*41*1/*41 *1/*41*1/*41 *1/*41*1/*41 *1/*41*1/*41 GeT-RMGeT-RM Нет SVNo SV NA17448NA17448 *1/*28*1/*28 *1/*28*1/*28 *1/*28*1/*28 *1/*28*1/*28 GeT-RMGeT-RM Нет SVNo SV NA17641NA17641 *2/*35*2/*35 *2/*35*2/*35 *2/*35*2/*35 *2/*35*2/*35 GeT-RMGeT-RM Нет SVNo SV NA17642NA17642 *1/*1*1/*1 *1/*1*1/*1 *1/*61*1/*61 *1/*1*1/*1 GeT-RMGeT-RM Нет SVNo SV NA17657NA17657 *4/*9*4/*9 *4/*9*4/*9 *4/*9*4/*9 *4/*9*4/*9 GeT-RMGeT-RM Нет SVNo SV NA17658NA17658 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 GeT-RMGeT-RM Нет SVNo SV NA17660NA17660 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 GeT-RMGeT-RM Нет SVNo SV NA17673NA17673 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 GeT-RMGeT-RM Нет SVNo SV NA17679NA17679 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 GeT-RMGeT-RM Нет SVNo SV NA17702NA17702 *1/*35*1/*35 *1/*35*1/*35 *1/*35*1/*35 *1/*35*1/*35 GeT-RMGeT-RM Нет SVNo SV NA18484NA18484 *1/*17*1/*17 *1/*17*1/*17 *61-подобный/*78*61-like/*78 *1/*17*1/*17 GeT-RMGeT-RM Нет SVNo SV NA18509NA18509 *2/*17*2/*17 *17/*2*17/*2 *17/*2*17/*2 *2/*17*2/*17 GeT-RMGeT-RM Нет SVNo SV NA18518NA18518 *17/*29*17/*29 *17/*29*17/*29 *17/*29*17/*29 *17/*29*17/*29 GeT-RMGeT-RM Нет SVNo SV NA18519NA18519 *1/*29*1/*29 *106/*29*106/*29 *106/*29*106/*29 *29/*106*29/*106 GeT-RMGeT-RM Нет SVNo SV NA18544NA18544 *10/*41*10/*41 *10/*41*10/*41 *10/*41*10/*41 *10/*41*10/*41 GeT-RMGeT-RM Нет SVNo SV NA18552NA18552 *1/*14*1/*14 *1/*14*1/*14 *1/*14*1/*14 *1/*14*1/*14 GeT-RMGeT-RM Нет SVNo SV NA18942NA18942 *2/*2*2/*2 *2/*2*2/*2 *2/*2*2/*2 *2/*2*2/*2 GeT-RMGeT-RM Нет SVNo SV NA18952NA18952 *2/*2*2/*2 *2/*2*2/*2 *2/*2*2/*2 *2/*2*2/*2 GeT-RMGeT-RM Нет SVNo SV NA18966NA18966 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 GeT-RMGeT-RM Нет SVNo SV NA18973NA18973 *1/*21*1/*21 *1/*21*1/*21 *1/*21*1/*21 *2D/*21*2D/*21 GeT-RMGeT-RM Нет SVNo SV NA19003NA19003 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 GeT-RMGeT-RM Нет SVNo SV NA19007NA19007 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 GeT-RMGeT-RM Нет SVNo SV NA19095NA19095 *1/*29*1/*29 *1/*29*1/*29 *1/*29*1/*29 *1/*29*1/*29 GeT-RMGeT-RM Нет SVNo SV NA19122NA19122 *2/*17*2/*17 *17/*2*17/*2 *17/*2*17/*2 *2/*17*2/*17 GeT-RMGeT-RM Нет SVNo SV NA19143NA19143 *2 (*45)/*10*2 (*45)/*10 *10/*45*10/*45 *10/*45*10/*45 *2/*10*2/*10 GeT-RMGeT-RM Нет SVNo SV NA19147NA19147 *17/*29*17/*29 *17/*29*17/*29 *17/*29*17/*29 *17/*29*17/*29 GeT-RMGeT-RM Нет SVNo SV NA19174NA19174 *4/*40*4/*40 *40/*4*40/*4 *4/*40*4/*40 *4/*40*4/*40 GeT-RMGeT-RM Нет SVNo SV NA19176NA19176 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 GeT-RMGeT-RM Нет SVNo SV NA19178NA19178 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 GeT-RMGeT-RM Нет SVNo SV NA19213NA19213 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 GeT-RMGeT-RM Нет SVNo SV NA19239NA19239 *15/*17*15/*17 *15/*17*15/*17 *15/*17*15/*17 *2/*15*2/*15 GeT-RMGeT-RM Нет SVNo SV NA19789NA19789 *1/*1*1/*1 *1/*1*1/*1 *1/*61*1/*61 *1/*1*1/*1 GeT-RMGeT-RM Нет SVNo SV NA19908NA19908 *1/*46*1/*46 *1/*46;*43/*45*1/*46;*43/*45 *43/*45*43/*45 *1/*46*1/*46 GeT-RMGeT-RM Нет SVNo SV NA19917NA19917 *1/*40*1/*40 *1/*40*1/*40 *1/*40*1/*40 *1/*40*1/*40 GeT-RMGeT-RM Нет SVNo SV NA20296NA20296 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 *1/*2D*1/*2D GeT-RMGeT-RM Нет SVNo SV NA20509NA20509 *4/*35*4/*35 *35/*4*35/*4 *35/*4*35/*4 *4/*35*4/*35 GeT-RMGeT-RM Нет SVNo SV NA23275NA23275 *1/*40*1/*40 *1/*17
(обновлено до *1/*40)
*1/*17
(updated to *1/*40)
*1/*40*1/*40 *1/*40*1/*40 GeT-RMGeT-RM Нет SVNo SV
NA23348NA23348 *7/*35*7/*35 *35/*7*35/*7 *35/*7*35/*7 *7/*35*7/*35 GeT-RMGeT-RM Нет SVNo SV HG03882HG03882 *1/*112*1/*112 *1/*112*1/*112 *1/ 1-подобный+*61*1/ 1-like+*61 *1/*1*1/*1 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG03780HG03780 *1/*112*1/*112 *1/*112*1/*112 *1/*1-подобный*1/*1-like *1/*1*1/*1 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV NA19238NA19238 *1/*17*1/*17 *1/*17*1/*17 *1/*17*1/*17 *1/*17*1/*17 GeT-RM, PacBioGeT-RM, PacBio 1kGP1kGP Нет SVNo SV NA20803NA20803 *2/*22*2/*22 *2/*22*2/*22 *2/*22*2/*22 *1/*2*1/*2 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG04206HG04206 *2/*113*2/*113 *113/*2*113/*2 *1/*2*1/*2 *2/*113*2/*113 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG01108HG01108 *2/*106*2/*106 *106/*2*106/*2 *106/*2*106/*2 *2/*106*2/*106 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV NA20875NA20875 *1/*111*1/*111 *1/*111*1/*111 *111/*2*111/*2 *1/*2*1/*2 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG01094HG01094 *1/*31*1/*31 *1/*31*1/*31 *1/*31*1/*31 *1/*31*1/*31 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG01086HG01086 *1/*31*1/*31 *1/*31*1/*31 *1/*31*1/*31 *1/*31*1/*31 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV NA07048NA07048 *1/*4*1/*4 *1/*4*1/*4 *10/*74-подобный*10/*74-like *1/*4*1/*4 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG03703HG03703 *1/*99*1/*99 *1/*99*1/*99 *1/*10*1/*10 *1/*99*1/*99 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV NA20289NA20289 *6/*11*6/*11 *11/*6*11/*6 *11/*6*11/*6 *6/*11*6/*11 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV NA19700NA19700 *4/*29*4/*29 *29/*4*29/*4 *29/*4*29/*4 *4/*29*4/*29 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG00373HG00373 *2/*2*2/*2 *2/*2*2/*2 *2/*2*2/*2 *2/*2*2/*2 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV NA21105NA21105 *3/*111*3/*111 *111/*3*111/*3 *2/*3-подобный*2/*3-like *2/*3*2/*3 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV NA11881NA11881 *2/*3*2/*3 *2/*3*2/*3 *2/*3*2/*3 *2/*3*2/*3 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV NA12815NA12815 *2/*41*2/*41 *2/*41*2/*41 *2/*41*2/*41 *2/*41*2/*41 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG01680HG01680 *28/*59*28/*59 *28/*59*28/*59 *28/*59*28/*59 *28/*59*28/*59 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG03643HG03643 *2/*7*2/*7 *2/*7*2/*7 *2/*7*2/*7 *2/*7*2/*7 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG03781HG03781 *2/*99*2/*99 *2/*99*2/*99 *10/*2*10/*2 *2/*99*2/*99 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG00111HG00111 *3/*3*3/*3 *3/*3*3/*3 *3/*3*3/*3 *3/*3*3/*3 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV NA06989NA06989 *9/*9*9/*9 *9/*9*9/*9 *9/*9-подобный*9/*9-like *9/*9*9/*9 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV NA19777NA19777 *1/*82*1/*82 *1/*82*1/*82 *1/*82*1/*82 *1/*1*1/*1 GeT-RMGeT-RM 1kGP1kGP Нет SVNo SV HG02723HG02723 *17/*2*17/*2 *17/*2*17/*2 *17/*2*17/*2 *2/*17*2/*17 PacBioPacBio Нет SVNo SV HG03522HG03522 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 PacBioPacBio Нет SVNo SV HG00450HG00450 *10/*41*10/*41 *10/*41*10/*41 *10/*41*10/*41 *10/*41*10/*41 PacBioPacBio Нет SVNo SV HG03453HG03453 *1/*29*1/*29 *1/*29*1/*29 *1/*29*1/*29 *1/*29*1/*29 PacBioPacBio Нет SVNo SV HG01687HG01687 *1/*6*1/*6 *1/*6*1/*6 *1/*6*1/*6 *1/*6*1/*6 PacBioPacBio Нет SVNo SV HG02984HG02984 *2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 PacBioPacBio Нет SVNo SV HG01763HG01763 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 *1/*1*1/*1 PacBioPacBio Нет SVNo SV HG03098HG03098 *2/*29*2/*29 *2/*29*2/*29 *2/*29*2/*29 *2/*29*2/*29 PacBioPacBio Нет SVNo SV HG03041HG03041 *17/*29*17/*29 *17/*29*17/*29 *17/*29*17/*29 *17/*29*17/*29 PacBioPacBio Нет SVNo SV HG02622HG02622 *17/*46*17/*46 *17/*46*17/*46 *61-подобный/*78*61-like/*78 *17/*46*17/*46 PacBioPacBio Нет SVNo SV HG01621HG01621 *2/*33*2/*33 *2/*33*2/*33 *2/*33*2/*33 *2/*33*2/*33 PacBioPacBio Нет SVNo SV HG03579HG03579 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 *1/*2*1/*2 PacBioPacBio Нет SVNo SV HG02975HG02975 *17/*29*17/*29 *17/*29*17/*29 *17/*29*17/*29 *17/*29*17/*29 PacBioPacBio Нет SVNo SV HG03101HG03101 *1/*17*1/*17 *1/*17*1/*17 *1/*17*1/*17 *1/*17*1/*17 PacBioPacBio Нет SVNo SV HG03065HG03065 *106/*29*106/*29 *106/*29*106/*29 *106/*29*106/*29 *29/*106*29/*106 PacBioPacBio Нет SVNo SV HG03486HG03486 *1/*17*1/*17 *1/*17*1/*17 *1/*17*1/*17 *1/*17*1/*17 PacBioPacBio Нет SVNo SV HG03308HG03308 *1/*29*1/*29 *1/*29*1/*29 *1/*29*1/*29 *1/*29*1/*29 PacBioPacBio Нет SVNo SV HG00513HG00513 *10/*10*10/*10 *10/*10*10/*10 *10/*10*10/*10 *10/*10*10/*10 PacBioPacBio 1kGP1kGP Нет SVNo SV HG00143HG00143 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 PacBioPacBio 1kGP1kGP Нет SVNo SV NA20527NA20527 *2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 PacBioPacBio 1kGP1kGP Нет SVNo SV HG00732HG00732 *41/*9*41/*9 *41/*9*41/*9 *41/*9*41/*9 *9/*41*9/*41 PacBioPacBio 1kGP1kGP Нет SVNo SV HG01119HG01119 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 *1/*4*1/*4 PacBioPacBio 1kGP1kGP Нет SVNo SV HG00554HG00554 *4/*4*4/*4 *4/*4*4/*4 *4/*4*4/*4 *4/*4*4/*4 PacBioPacBio 1kGP1kGP Нет SVNo SV HG01254HG01254 *2/*41*2/*41 *2/*41*2/*41 *2/*41*2/*41 *2/*41*2/*41 PacBioPacBio 1kGP1kGP Нет SVNo SV HG00186HG00186 *2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 PacBioPacBio 1kGP1kGP Нет SVNo SV HG00263HG00263 *1/*35*1/*35 *1/*35*1/*35 *1/*35*1/*35 *1/*2*1/*2 PacBioPacBio 1kGP1kGP Нет SVNo SV NA19239NA19239 *15/*17*15/*17 *15/*17*15/*17 *15/*17*15/*17 *1/*15*1/*15 PacBioPacBio 1kGP1kGP Нет SVNo SV NA19437NA19437 *17/*2*17/*2 *17/*2*17/*2 *17/*2*17/*2 *2/*17*2/*17 PacBioPacBio 1kGP1kGP Нет SVNo SV NA19449NA19449 *1/*17*1/*17 *1/*17*1/*17 *1/*17*1/*17 *1/*17*1/*17 PacBioPacBio 1kGP1kGP Нет SVNo SV HG002
(NA24385)
HG002
(NA24385)
*2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 *2/*4*2/*4 PacBioPacBio Нет SVNo SV

[0256] Путем сравнения с образцами GeT-RM были обнаружены три образца, в которых определения всех трех определителей согласуются, но не согласуются с консенсусом GeT-RM. Секвенирование целого генома PacBio подтвердило, что три определения были правильными и необходимо обновить консенсус GeT-RM (ФИГ. 24). [0256] Through comparison with GeT-RM samples, three samples were found in which the definitions of all three determinants were consistent, but not consistent with the GeT-RM consensus. PacBio whole genome sequencing confirmed that the three definitions were correct and the GeT-RM consensus needed to be updated (FIG. 24).

[0257] На ФИГ. 24 показаны структурные варианты, подтвержденные прочтением PacBio CCS. прочтение PacBio подтверждает делецию (*5), дупликацию и слияние (*36, *68 и *13). Графики получали с использованием SV-VIZ2 (zotero.org/google-docs/?xAunA6). В случае делеций и дупликаций из-за идентичной последовательности в областях REP6/7 точные положения точек разрыва в пределах REP6/7 были недоступны. Точки разрыва в А и В приведены только для иллюстрации. Генотипами образцов в панели A-E являются *2/*5, *17/*2x2, *10/*10+*36, *29/*4+*68 and *1/*2+*13 соответственно. [0257] In FIG. Figure 24 shows structural variants confirmed by PacBio CCS reads. PacBio read confirms deletion (*5), duplication, and fusion (*36, *68, and *13). Graphs were generated using SV-VIZ2 (zotero.org/google-docs/?xAunA6 ) . In the case of deletions and duplications, due to identical sequence in the REP6/7 regions, the exact positions of the breakpoints within REP6/7 were not available. The break points in A and B are for illustration purposes only. The genotypes of the samples in panel AE are *2/*5, *17/*2x2, *10/*10+*36, *29/*4+*68 and *1/*2+*13, respectively.

[0258] Cyrius первоначально сделал четыре определения, расходящихся от достоверного GeT-RM, показывающих чувствительность 97,9%. Среди этих расхождений был включен образец NA19908 (GeT-RM определен *1/*46), в котором Cyrius определил 1/*46 и *43/*45 в качестве двух возможных диплотипов. Обе эти две комбинации звездчатых аллелей звезды дают один и тот же набор вариантов. Ни анализ фаз прочтения, ни частотный анализ популяции не могут исключить любую комбинацию генотипов. Результаты генотипирования в результате различных анализов, которые позволили получить консенсус GeT-RM для данного образца, также показали расхождение между *1/*46 и* *43/*45, что указывает на сложность этих комбинаций (таблица 22). Будущее секвенирование большего количества образцов любого из диплотипов может помочь идентифицировать новые варианты, которые их различают. [0258] Cyrius initially made four determinations diverging from the GeT-RM confidence, showing a sensitivity of 97.9%. Included among these discrepancies was specimen NA19908 (GeT-RM defined *1/*46), in which Cyrius identified 1/*46 and *43/*45 as two possible diplotypes. Both of these two star allele combinations produce the same set of options. Neither read phase analysis nor population frequency analysis can rule out any combination of genotypes. The genotyping results from the various analyzes that produced the GeT-RM consensus for this sample also showed a discrepancy between *1/*46 and* *43/*45, indicating the complexity of these combinations (Table 22). Future sequencing of more samples of either diplotype may help identify new variants that differentiate them.

Таблица 22. Результаты GeT-RM для образца NA19908Table 22. GeT-RM results for sample NA19908

Консенсусный генотипConsensus genotype TaqMan
+CNV
+XL-ПЦР
TaqMan
+CNV
+XL-PCR
PharmacoScan
v.r6
PharmacoScan
v.r6
PharmacoScan
пользовательская
v.r6+20180103
PharmacoScan
custom
v.r6+20180103
iPLEX
CYP2D6 V1.1
iPLEX
CYP2D6 V1.1
iPLEX
CYP2D6
V1.1
+индивидуальная панель и VeriDose
iPLEX
CYP2D6
V1.1
+individual panel and VeriDose
Секвенирование Sanger, NGS или SMRTSanger, NGS or SMRT sequencing
*1/*46*1/*46 *1/*45*1/*45 *1/*2*1/*2 *1/*46, *43/*45*1/*46, *43/*45 *1/*46*1/*46 Н/ДN/A *46 (ASXL-PCR) Sanger; NGS*46 (ASXL-PCR) Sanger; NGS

[0259] В оставшихся трех образцах, в которых Cyrius не соответствовал достоверности, были выявлены ошибки, а Cyrius был улучшен для определения правильных генотипов. Во-первых, в NA23275 (*1/*40) вставку из 18 п. н., определяющую *40, первоначально пропустили, поскольку прочтение, содержащие вставку, часто выравнивались не как имеющие вставку, а как мягкие сшивания. Определитель было улучшено для учета мягких сшиваний при поиске варианта. Во-вторых, в HG03225 (*5/*56) прочтения, полученные из CYP2D7, выравнивали с CYP2D6, предотвращая определение определяющего варианта* 56. Определитель был улучшен, чтобы он был более чувствительным к прочтениям вариантов в данной области. Наконец, в HG00421 (*10x2/*2) слияние было ошибочно обозначено как *36, как и двумя другими определителями. Более тщательное исследование этого образца по данным PacBio показало другое слияние, *10D, причем точка разрыва слияния находилась ниже экзона 9 (ФИГ. 28). Данное слияние выполняет ту же функцию, что и *10 (сниженная функция), а *36 не функционирует благодаря экзону 9, полученному из CYP2D7. Определитель был улучшен для возможности определения *10D. Хотя в данном примере эти три образца были обработаны как ошибочные определения, улучшения, внесенные в Cyrius после поиска этих трех образцов, позволили точно указать 187 из 188 образцов, что подчеркивает, как большее количество достоверных данных и большее количество данных по популяциям может выявить ограничения, которые могут обеспечить усовершенствования определителя для последующих образцов. [0259] In the remaining three samples where Cyrius was inconsistent, errors were identified and Cyrius was improved to identify the correct genotypes. First, in NA23275 (*1/*40), the 18-bp insertion defining *40 was initially missed because reads containing the insertion were often aligned not as having the insertion, but as soft stitches. The qualifier has been improved to take into account soft crosslinks when searching for a variant. Second, in HG03225 (*5/*56), reads derived from CYP2D7 were aligned to CYP2D6 , preventing detection of the defining variant*56. The determinant was improved to be more sensitive to variant reads in a given region. Finally, in HG00421 (*10x2/*2), the merge was erroneously designated as *36, as were the other two qualifiers. Closer examination of this sample using PacBio data revealed a different fusion, *10D, with the fusion breakpoint located downstream of exon 9 (FIG. 28). This fusion performs the same function as *10 (reduced function), while *36 is nonfunctional due to exon 9 derived from CYP2D7 . The determinant has been improved to be able to determine *10D. Although these three samples were treated as misidentifications in this example, improvements made to Cyrius following the search for these three samples allowed 187 of the 188 samples to be accurately identified, highlighting how more hard data and more population data can reveal limitations. which can provide improvements to the determinant for subsequent samples.

[0260] Напротив, оба других определителя CYP2D6 имели чувствительность менее 90% по сравнению с этими образцами. Aldy имел чувствительность 88,8%. В частности, он переопределил слияния CYP2D6/CYP2D7, такие как *61, *63, *78 и *83 (определили 8 из 21 расходящихся образцов, таблица 21). Слияние определенное Aldy может быть опровергнуто данными PacBio на ФИГ. 29. Stargazer имел чувствительность 85,6% и был наиболее подвержен ошибкам в присутствии SV. Чувствительность образцов с SV составляла только 77,8%, и 16 из 27 расходящихся определений находились в образцах со структурными вариантами. Следует отметить, что он ошибочно определили NA19317 (*5/*5) как *2/*2, при этом двойная делеция полностью отсутствует. Stargazer не смог генотипировать два образца с помощью слияния *13 (Таблица 21). Кроме того, Stargazer показал высокий уровень ошибок при слиянии *36 (7 неверных определений из 25 всех образцов со *36). В частности, Stargazer неправильно определил все 5 образцов, в которых в одном гаплотипе имеется более одной копии *36. [0260] On the contrary, both other determinantsCYP2D6 had a sensitivity of less than 90% compared to these samples. Aldy had a sensitivity of 88.8%. Specifically, it redefined mergesCYP2D6/CYP2D7, such as *61, *63, *78 and *83 (identified 8 of 21 divergent samples, Table 21). The fusion identified by Aldy may be refuted by the PacBio data in FIG. 29. Stargazer had a sensitivity of 85.6% and was most error prone in the presence of SV. The sensitivity of samples with SV was only 77.8%, and 16 of the 27 divergent determinations were in samples with structural variants. It should be noted that he incorrectly identified NA19317 (*5/*5) as *2/*2, while the double deletion was completely absent. Stargazer was unable to genotype two samples using the *13 fusion (Table 21). In addition, Stargazer showed a high error rate when merging *36 (7 incorrect identifications out of 25 of all samples with *36). Specifically, Stargazer incorrectly identified all 5 samples that had more than one copy of *36 in the same haplotype.

[0261] В совокупности 188 проверочных образцов, использованных в данном примере, подтвердили точность определения Cyrius CYP2D6 в 48 различных гаплотипах (таблица 23), включая 41 звездчатых аллелей, а также несколько общих и редких структур SV, таких как дупликации, *2+*13, *4+*68, *10+*36, *10+*36+*36 and *10+*36+*36+*83 (новый гаплотип, о котором ранее не сообщалось, см. ФИГ. 30A и 30B). Эти 41 звездчатые аллели, которые были протестированы при проверке данных, представляют 38,7% от 106 курируемых звездчатых аллелей, которые в настоящее время перечислены в PharmVar, и 53,4% (31 из 58) от тех, которые имеют известную функцию. Они перекрывают 96,4% гаплотипов определенных Cyrius в образцах 1kGP (таблица 23, также см. следующий раздел). [0261] Collectively, the 188 validation samples used in this example confirmed the accuracy of Cyrius CYP2D6 detection in 48 different haplotypes (Table 23), including 41 star alleles, as well as several common and rare SV structures such as duplications, *2+* 13, *4+*68, *10+*36, *10+*36+*36 and *10+*36+*36+*83 (new haplotype not previously reported, see FIG. 30A and 30B). These 41 star alleles that were tested in data screening represent 38.7% of the 106 curated star alleles currently listed in PharmVar and 53.4% (31 of 58) of those with known function. They overlap 96.4% of the haplotypes identified by Cyrius in the 1kGP samples (Table 23, also see next section).

Таблица 23. Гаплотипы, подтвержденные в данном примере, и их частота в 1kGPTable 23. Haplotypes confirmed in this example and their frequency in 1kGP

ГаплотипHaplotype Пан-
этническая принадлежность
Pan-
ethnicity
Европейская популяцияEuropean population Смешанные американцыMixed Americans Выходцы из
Восточной Азии
People from
East Asia
Африканская популяцияAfrican population Выходцы из Южной АзииSouth Asians Подтверждено в данном примереConfirmed in this example В полном наборе GeT-RMIn the complete GeT-RM set ФункцияFunction
*1*1 33,4333.43 35,7935.79 45,9745.97 26,1926.19 26,2526.25 39,2639.26 xx xx НормальнаяNormal *2*2 14,8614.86 16,216.2 18,4418.44 7,747.74 13,2413.24 20,4520.45 xx xx НормальнаяNormal *3*3 0,540.54 1,791.79 0,580.58 00 0,230.23 0,20.2 xx xx НетNo *4*4 5,835.83 11,8311.83 8,798.79 0,20.2 2,342.34 8,088.08 xx xx НетNo *5*5 3,493.49 2,392.39 2,022.02 3,473.47 5,825.82 2,562.56 xx xx НетNo *6*6 0,50.5 2,092.09 0,290.29 00 0,080.08 0,10.1 xx xx НетNo *7*7 0,180.18 00 00 00 00 0,920.92 xx xx НетNo *9*9 0,70.7 2,492.49 1,31.3 00 0,080.08 00 xx xx СниженоReduced *10*10 5,415.41 1,391.39 1,441.44 15,0815.08 4,394.39 3,783.78 xx xx СниженоReduced *11*eleven 0,020.02 00 00 00 0,080.08 00 xx xx НетNo *13*13 0,10.1 0,20.2 0,140.14 00 0,080.08 0,10.1 xx xx НетNo *14*14 0,180.18 00 00 0,890.89 00 00 xx xx СниженоReduced *15*15 0,060.06 00 00 00 0,230.23 00 xx xx НетNo *17*17 5,255.25 0,20.2 0,860.86 00 19,2919.29 00 xx xx СниженоReduced *21*21 0,10.1 00 00 0,50.5 00 00 xx xx НетNo *22*22 0,060.06 0,30.3 00 00 00 00 xx xx НеизвестноUnknown *28*28 0,120.12 0,50.5 0,140.14 00 00 00 xx xx НеизвестноUnknown *29*29 2,642.64 00 0,290.29 00 9,839.83 00 xx xx СниженоReduced *31*31 0,120.12 0,20.2 0,580.58 00 00 00 xx xx НетNo *33*33 0,180.18 0,60.6 0,290.29 00 00 0,10.1 xx xx НормальнаяNormal *34*34 0,020.02 00 00 00 0,080.08 00 НормальнаяNormal *35*35 1,481.48 4,774.77 2,452.45 00 0,230.23 0,610.61 xx xx НормальнаяNormal *36*36 0,10.1 00 00 0,10.1 0,30.3 00 НетNo *39*39 0,080.08 00 0,140.14 00 0,080.08 0,20.2 xx НормальнаяNormal *40*40 0,240.24 00 00 00 0,910.91 00 xx xx НетNo *41*41 6,156.15 9,059.05 6,056.05 3,773.77 1,591.59 11,8611.86 xx xx СниженоReduced *43*43 0,50.5 0,10.1 00 00 1,061.06 1,021.02 xx xx НеизвестноUnknown *45*45 0,880.88 00 0,290.29 00 3,183.18 00 xx xx НормальнаяNormal *46*46 0,140.14 00 0,140.14 00 0,450.45 00 xx xx НормальнаяNormal *49*49 0,10.1 00 00 0,50.5 00 00 xx СниженоReduced *52*52 0,020.02 00 00 0,10.1 00 00 xx xx НеизвестноUnknown *56*56 0,020.02 00 00 00 0,080.08 00 xx xx НетNo *59*59 0,060.06 0,20.2 0,140.14 00 00 00 xx xx СниженоReduced *71*71 0,120.12 00 00 0,60.6 00 00 xx xx НеизвестноUnknown *82*82 0,060.06 00 0,430.43 00 00 00 xx xx НеизвестноUnknown *84*84 0,020.02 00 00 00 0,080.08 00 СниженоReduced *86*86 0,440.44 00 00 00 00 2,252.25 НеизвестноUnknown *99*99 0,040.04 00 00 00 00 0,20.2 xx xx НетNo *106*106 0,320.32 00 0,140.14 00 1,131.13 00 xx xx НеизвестноUnknown *108*108 0,060.06 0,30.3 00 00 00 00 xx НеизвестноUnknown *111*111 0,160.16 00 00 00 00 0,820.82 xx xx НеизвестноUnknown *112*112 0,040.04 00 00 00 00 0,20.2 xx xx НеизвестноUnknown *113*113 0,160.16 00 00 00 00 0,820.82 xx xx НеизвестноUnknown *1x2*1x2 0,50.5 0,50.5 1,151.15 0,10.1 0,450.45 0,510.51 xx xx ПовышеноIncreased *1x3*1x3 0,020.02 00 00 00 0,080.08 00 ПовышеноIncreased *2x2*2x2 1,141.14 1,491.49 0,580.58 0,60.6 2,122.12 0,410.41 xx xx ПовышеноIncreased *2x3*2x3 0,040.04 0,10.1 00 00 0,080.08 00 ПовышеноIncreased *4x2*4x2 0,840.84 0,30.3 0,140.14 00 2,872.87 00 xx xx НетNo *4x3*4x3 0,040.04 00 00 00 0,150.15 00 НетNo *9x2*9x2 0,020.02 0,10.1 00 00 00 00 НормальнаяNormal *10x2*10x2 0,060.06 00 00 0,30.3 00 00 xx xx СниженоReduced *17x2*17x2 0,020.02 00 00 00 0,080.08 00 xx НормальнаяNormal *29x2*29x2 0,10.1 00 00 00 0,380.38 00 НормальнаяNormal *35x2*35x2 0,020.02 00 0,140.14 00 00 00 ПовышеноIncreased *43x2*43x2 0,040.04 00 0,140.14 00 0,080.08 00 НеизвестноUnknown *45x3*45x3 0,020.02 00 00 00 0,080.08 00 ПовышеноIncreased *10+*36*10+*36 7,237.23 00 0,140.14 34,6234.62 0,080.08 1,121.12 xx xx СниженоReduced *4+*68*4+*68 1,941.94 5,575.57 2,452.45 00 0,230.23 2,152.15 xx xx НетNo *4+*68+*68*4+*68+*68 0,080.08 0,10.1 0,430.43 00 00 00 НетNo *10+*36+*36*10+*36+*36 0,320.32 00 00 1,591.59 00 00 xx xx СниженоReduced *10+*36+*36+*36*10+*36+*36+*36 0,020.02 00 00 0,10.1 00 00 xx xx СниженоReduced *2+*13*2+*13 0,060.06 0,20.2 0,140.14 00 00 00 xx xx НормальнаяNormal *4+*4N*4+*4N 0,140.14 0,70.7 00 00 00 00 xx НетNo *1+*90*1+*90 0,020.02 00 00 0,10.1 00 00 xx xx НеизвестноUnknown *10+*36+*36+*83*10+*36+*36+*83 0,020.02 00 00 0,10.1 00 00 xx СниженоReduced НеизвестноUnknown 2,362.36 0,60.6 3,753.75 3,373.37 2,272.27 2,252.25 % гаплотипов, перекрывающих набор проверки% of haplotypes overlapping the validation set 96,496.4 98,198.1 95,495.4 96,596.5 96,396.3 95,395.3

Частота гаплотипов CYP2D6 в пяти этнических популяцияхFrequency of CYP2D6 haplotypes in five ethnic populations

[0262] Учитывая высокую точность, приведенную в предыдущем разделе, для исследования CYP2D6 в общей популяции использовали Cyrius за пределами проверочных выборок. Анализировали распределение гаплотипов по популяциям (европейцы, африканцы, выходцы из Восточной Азии, Южной Азии и смешанные американцы, состоящие из колумбийцев, мексиканцев, перуанцев и пуэрториканцев) в 2504 образцах 1kGP (ФИГ. 25, таблица 23). Cyrius окончательно определил диплотипы в 2445 (97,6%) из 2504 образцов, включая 46 отдельных звездчатых аллелей, при этом 41 звездчатых аллелей перекрывались с теми, которые были включены в данные проверки. Эти 41 подтвержденных ранее звездчатых аллелей представляют 96,5% от всех звездчатых аллелей, которые определялись в образцах 1kGP (таблица 23). [0262] Given the high accuracy reported in the previous section, Cyrius was used outside of the validation sets to study CYP2D6 in the general population. The distribution of haplotypes by population (European, African, East Asian, South Asian and mixed American consisting of Colombian, Mexican, Peruvian and Puerto Rican) in 2504 1kGP samples was analyzed (FIG. 25, Table 23). Cyrius finally identified diplotypes in 2445 (97.6%) of 2504 samples, including 46 distinct star alleles, with 41 star alleles overlapping with those included in the validation data. These 41 previously confirmed star alleles represent 96.5% of all star alleles that were detected in the 1kGP samples (Table 23).

[0263] На ФИГ. 25 показан неограничивающий пример графика, на котором показаны частоты аллелей CYP2D6 для пяти этнических популяциях для десяти наиболее распространенных гаплотипов с измененной функцией CYP2D6. Один гаплотип (*2x2) характеризуются повышенной функцией, два гаплотипа (*4 и *4 + *68) - отсутствием функции, а остальные гаплотипы - сниженной функцией. [0263] In FIG. 25 shows a non-limiting example plot showing CYP2D6 allele frequencies for five ethnic populations for the ten most common CYP2D6 altered function haplotypes. One haplotype (*2x2) is characterized by increased function, two haplotypes (*4 and *4 + *68) by lack of function, and the remaining haplotypes by decreased function.

[0264] В 59 образцах, где Cyrius не сделал окончательного определения диплотипа, 10 образцов имели неокончательное определение SV, 30 образцов имели варианты определения, не соответствующие ни одному из известных звездчатых аллелей, четыре образца имели одинаковую неоднозначность между *1/*46 и *43/*45, как описано выше для проверочного образца NA19908, и 15 образцов имели окончательные определения звездчатых аллелей, которые Cyrius не мог однозначно преобразовать в диплотипы. [0264] In the 59 samples where Cyrius did not make a definitive diplotype determination, 10 samples had an inconclusive SV determination, 30 samples had variant determinations that did not match any known star allele, four samples had the same ambiguity between *1/*46 and * 43/*45 as described above for validation sample NA19908, and 15 samples had final star allele determinations that Cyrius could not unambiguously convert to diplotypes.

[0265] В большинстве случаев частоты гаплотипа согласуются с pharmGKB (ФИГ. 31A и 31B, таблица 24). Например, африканцы имеют высокую частоту *17 (~20%) и *29 (~ 10%), выходцы из Южной Азии имеют высокую частоту *41 (~ 12%), европейцы имеют высокую частоту *4 (18-20%, включая *4+*68), а выходцы из Восточной Азиии имеют высокую частоту *10 (40-50%, включая *10+*36). Повышенная чувствительность Cyrius к структурным вариантам позволяет получить более полную картину частот структурных вариантов в популяциях. Среди них гаплотип, содержащий слияние *10 + *36, очень распространен у выходцев из Восточной Азии (> 30% по сравнению с 1-2%, о которых сообщается в PharmGKB, ФИГ. 31A и 31B), а также другой гаплотип, содержащий слияние *4 +. *68 также довольно часто встречается у европейцев (> 5%, данные отсутствуют в PharmGKB, ФИГ. 31A и 31B). В совокупности частота гаплотипов с учетом SV была на 32,2%, 5,57%, 1,47%, 1,34% и 0,45% больше, чем сообщается в PharmGKB у выходцев из Восточной Азии, Европы, Америки, Африки и Южной Азии, соответственно (общая частота в PharmGKB составляет 7,48%, 5,33%, 5,17%, 9,9% и 6,19% соответственно). [0265] In most cases, the haplotype frequencies are consistent with pharmGKB (FIGS. 31A and 31B, Table 24). For example, Africans have a high frequency of *17 (~20%) and *29 (~10%), South Asians have a high frequency of *41 (~12%), Europeans have a high frequency of *4 (18-20%, including *4+*68), and East Asians have a high frequency of *10 (40-50%, including *10+*36). The increased sensitivity of Cyrius to structural variants provides a more complete picture of the frequencies of structural variants in populations. Among these, a haplotype containing the *10 + *36 fusion is very common in East Asians (>30% compared to 1-2% reported in PharmGKB, FIGS. 31A and 31B), as well as another haplotype containing merge *4 +. *68 is also quite common in Europeans (>5%, data not available in PharmGKB, FIGS. 31A and 31B). Taken together, SV-adjusted haplotype frequencies were 32.2%, 5.57%, 1.47%, 1.34%, and 0.45% greater than those reported in PharmGKB in East Asians, Europeans, Americans, and Africans and South Asia, respectively (overall frequencies in PharmGKB are 7.48%, 5.33%, 5.17%, 9.9% and 6.19%, respectively).

[0266] Существует несколько других гаплотипов, для которых была отмечена более низкая частота, чем в PharmGKB (ФИГ. 31A и 31B), подчеркивая сложность объединения данных из множества исследований с использованием различных технологий. Они включают в себя *2 у выходцев из Африки и Южной Азии. Поскольку * 2 является присвоением по умолчанию, если некоторые другие звездчатые аллели не тестируются, его частота может быть завышена в PharmGKB. Определена более низкая частота *41 у африканцев. В соответствии с PharmGKB, *41 не всегда последовательно определялся с помощью определяющего SNP в исследованиях, что привело к переоценке частоты *41, особенно у лиц африканского происхождения. Гораздо более высокая частота *29 у выходцев из Южной Азии в PharmGKB (6% против 0%, оцененных в этом примере) была вызвана ошибкой в PharmGKB: 0,2% в публикации Sistonen et al. (CYP2D6 worldwide genetic variation shows high frequency of altered activity variants and no continental structure. Pharmacogenet Genomics. 2007;17(2):93-101. doi:10.1097/01.fc.0000239974.69464.f2) был ошибочно включен в PharmGKB в виде 20%. У европейцев частота *34 и *39 была гораздо ниже. *34 и *39 определяются одним из двух вариантов, которые определяют 2, поэтому оба этих двух варианта должны были быть протестированы в любом исследовании, в котором описывается CYP2D6. *34 и *39 представлены на уровне> 1% только в 3 из 91 исследования европейцев в PharmGKB, среди которых Wesmiller et al.(The Association of CYP2D6 Genotype and Postoperative Nausea and Vomiting in Orthopedic Trauma Patients. Biol Res Nurs. 2013; 15(4): 382-389. doi: 10.1177/1099800412449181), которые сообщили только о *39 и имели ограниченный размер выборки (N=112), Kapedanovska Nestorovska (Distribution of the most Common Genetic Variants Associated with a Variable Drug Response in the Population of the Republic of Macedonia. Balk J Med Genet BJMG. 2014; 17(2): 5-14. doi: 10,2478/BJMG-2014-0069) сообщали о обоих *34 и *39 и относились к конкретной стране Македонии, а также имели небольшой размер выборки (N=184) и Del Tredici et al. (Frequency of CYP2D6 Alleles Including Structural Variants in the United States. Front Pharmacol. 2018; 9. doi: 10.3389/far.2018.00305), не сообщали о *34 или *39, но PharmGKB, возможно, ошибочно принял частоту, указанную для *35, за частоту *34. [0266] There are several other haplotypes for which lower frequencies were observed than in PharmGKB (FIGS. 31A and 31B), highlighting the difficulty of combining data from multiple studies using different technologies. These include *2 in Africans and South Asians. Since *2 is the default assignment, if some other star alleles are not tested, its frequency may be overestimated in PharmGKB. A lower frequency of *41 was found in Africans. According to PharmGKB, *41 has not always been consistently identified by the detector SNP across studies, leading to an overestimation of the frequency of *41, especially in individuals of African descent. The much higher frequency of *29 in South Asians in PharmGKB (6% versus 0% estimated in this example) was due to an error in PharmGKB: 0.2% in the publication of Sistonen et al. ( CYP2D6 worldwide genetic variation shows high frequency of altered activity variants and no continental structure. Pharmacogenet Genomics. 2007;17(2):93-101. doi:10.1097/01.fc.0000239974.69464.f2) was erroneously included in PharmGKB as 20%. Among Europeans, the frequency of *34 and *39 was much lower. *34 and *39 are defined by one of two variants that define 2, so both of these two variants had to be tested in any study describing CYP2D6 . *34 and *39 are present at levels >1% in only 3 of 91 studies of Europeans in PharmGKB, among which Wesmiller et al. (The Association of CYP2D6 Genotype and Postoperative Nausea and Vomiting in Orthopedic Trauma Patients. Biol Res Nurs. 2013; 15 (4): 382-389. doi: 10.1177/1099800412449181), who reported only *39 and had a limited sample size (N=112), Kapedanovska Nestorovska (Distribution of the most Common Genetic Variants Associated with a Variable Drug Response in the Population of the Republic of Macedonia. Balk J Med Genet BJMG. 2014; 17(2): 5-14. doi: 10.2478/BJMG-2014-0069) reported both *34 and *39 and were specific to the country of Macedonia , and also had a small sample size (N=184) and Del Tredici et al. (Frequency of CYP2D6 Alleles Including Structural Variants in the United States. Front Pharmacol. 2018; 9. doi: 10.3389/far.2018.00305), did not report *34 or *39, but PharmGKB may have mistakenly assumed the frequency reported for * 35, for frequency *34.

Анализ дифференцирующих оснований CYP2D6/CYP2D7 CYP2D6 / CYP2D7 Differentiating Base Analysis

[0267] Всего из эталонного генома было извлечено 208 однонуклеотидных различий между CYP2D6/7. В образцах 1kGP, где общее количество копий CYP2D6+CYP2D7 равно 4, т.е. не было выявлено никаких структурных изменений, было запрошено процентное содержание образцов, в которых количество копий основания CYP2D6 определено как 2 на 208 сайтах (ФИГ. 26). Во многих сайтах наблюдался небольшой процент образцов с двумя копиями основания CYP2D6, что свидетельствует о том, что разница оснований CYP2D6/CYP2D7 не фиксируется в популяции, поэтому различия в основаниях нельзя использовать для различения двух генов. Использование выравнивания прочтения сайтов при прочтении может привести к значительному шуму при дифференцировке двух генов. Всего выбрали 118 высокостабильных сайтов, где >98% образцов показали две копии оснований CYP2D6 для дифференцировки CYP2D6/CYP2D7, что позволило получить чистый сигнал для определения SV. [0267] A total of 208 single nucleotide differences between CYP2D6 /7 were extracted from the reference genome. In 1kGP samples, where the total copy number of CYP2D6 + CYP2D7 is 4, i.e. no structural changes were detected, the percentage of samples in which the CYP2D6 base copy number was determined to be 2 at 208 sites was queried (FIG. 26). A small percentage of samples with two copies of the CYP2D6 base were observed at many sites, suggesting that the CYP2D6 / CYP2D7 base difference is not fixed in the population, so base differences cannot be used to distinguish between the two genes. Using site-by-site read alignment can introduce significant noise when differentiating two genes. A total of 118 highly stable sites were selected where >98% of samples showed two copies of CYP2D6 bases for CYP2D6 / CYP2D7 differentiation, resulting in a clean signal for SV detection.

Дополнительные фигуры и таблицыAdditional figures and tables

[0268] На ФИГ. 26 показано, что сайты из различием оснований CYP2D6/CYP2D7 отличаются высокой вариабельностью в популяции. На оси y показана частота образцов, в которых CN для основания CYP2D6 определены в 2 из всех образцов, имеющих общее CN CYP2D6 + CYP2D7, равное 4. По оси X показаны координаты генома в hg38. Экзоны CYP2D6 показаны серыми прямоугольниками над графиком. Черной горизонтальной линией обозначено отсечение 98%. [0268] In FIG. 26 shows that sites of CYP2D6 / CYP2D7 base differences are highly variable in the population. The y-axis shows the frequency of samples in which the CN for the CYP2D6 base is identified in 2 of all samples having a total CYP2D6 + CYP2D7 CN of 4. The x-axis shows the genome coordinates in hg38. CYP2D6 exons are shown as gray boxes above the graph. The black horizontal line indicates the 98% cutoff.

[0269] На ФИГ. 27 показаны необработанные CNCYP2D6 в сайтах дифференцировки CYP2D6/7 в примерах с SV. Необработанные CN CYP2D6 рассчитывали как общее CN CYP2D6+CYP2D7, умноженное на соотношение CYP2D6 поддерживающих прочтений из CYP2D6 и CYP2D7 поддерживающих прочтений. Большой ромб обозначает количество копий генов, полученных из CYP2D6 на конце гена (может представлять собой полный ген CYP2D6 или слитый ген, заканчивающийся CYP2D6), вычисленное как общее CN CYP2D6+CYP2D7 минус CN спейсерной области CYP2D7 (см. ФИГ. 23). Для обнаружения SV в каждом сайте определяли CN CYP2D6, и изменение CN CYP2D6 в гене указывало на присутствие SV. Например, в HG01161 CN CYP2D6 изменился с 2 на 1 между экзоном 7 и экзоном 9, что указывает на гибридный ген CYP2D7-CYP2D6. В HG00553 CN CYP2D6 изменилось с 2 на 3 между экзоном 1 и экзоном 2, что указывает на гибридный ген CYP2D6-CYP2D7. [0269] In FIG. Figure 27 shows unprocessed CYP2D6 CNs at CYP2D6/7 differentiation sites in SV examples. Raw CYP2D6 CNs were calculated as the total CYP2D6+CYP2D7 CNs multiplied by the ratio of CYP2D6 supporting reads from CYP2D6 to CYP2D7 supporting reads. The large diamond indicates the copy number of genes derived from CYP2D6 at the end of the gene (can be a complete CYP2D6 gene or a fusion gene ending with CYP2D6 ), calculated as the total CN of CYP2D6+CYP2 D7 minus the CN of the CYP2D7 spacer region (see FIG. 23). To detect SV, the CN of CYP2D6 was determined at each site, and a change in the CN of CYP2D6 in the gene indicated the presence of SV. For example, in HG01161, CN CYP2D6 changed from 2 to 1 between exon 7 and exon 9, indicating a CYP2D7-CYP2D6 hybrid gene. In HG00553, CN CYP2D6 changed from 2 to 3 between exon 1 and exon 2, indicating a CYP2D6-CYP2D7 hybrid gene.

[0270] На ФИГ. 28 показано, что данные PacBio подтверждают слияние *10D в HG00421. Для сравнения показан образец с *36 (HG00612). Прочтения PacBio, содержащие слияния, это прочтения с заштрихованными основаниями, основаниями, которые представляют собой программное сшивание, сделанное выравнивателем, и были получены из части слияния CYP2D7. Точки разрыва слияний близки друг к другу, но точка разрыва для *36 расположена выше от различий оснований в экзоне 9 (находящихся внутри черного блока), а точка разрыва для *10D расположена ниже, оставляя ген CYP2D6 интактным. [0270] In FIG. 28 shows that PacBio data support the *10D fusion in HG00421. For comparison, a sample with *36 (HG00612) is shown. PacBio reads containing fusions are reads with shaded bases, bases that represent a software stitch made by the aligner and were derived from part of the CYP2D7 fusion. The breakpoints of the fusions are close to each other, but the breakpoint for *36 is located upstream of the base differences in exon 9 (located within the black block), and the breakpoint for *10D is located downstream, leaving the CYP2D6 gene intact.

[0271] На ФИГ. 29 показано, что данные PacBio имели ложный *61 (гибрид CYP2D6/CYP2D7), полученный Aldy в HG02622. Ожидаемый генотип представлял собой *17/*45, но Aldy вызвал *61-подобный/*78 (оба *61 и *78 представляют собой звездчатые аллели с SV). Данные PacBio показали отсутствие структурного варианта в этой области (каждое прочтение полностью выровнено, без каких-либо мягких сшиваний, указывающих на не выровненные части). [0271] In FIG. 29 shows that the PacBio data had a false *61 ( CYP2D6 / CYP2D7 hybrid) produced by Aldy in HG02622. The expected genotype was *17/*45, but Aldy called *61-like/*78 (both *61 and *78 are star alleles with SV). The PacBio data showed no structural variant in this region (each read was fully aligned, with no soft stitches indicating unaligned parts).

[0272] На ФИГ. 30A и 30B показан новый гаплотип *10+*36+*36+*83 в HG00597. ФИГ. 30A График глубины, представленный на ФИГ. 27, показывает, что HG00597 имел три копии *36-подобных слияний, все из которых имели точку разрыва в гомологичной области между экзоном 7 и экзоном 9. ФИГ. 30B Снимок экрана IGV с данными PacBio,, демонстрирующий все прочтения, содержащие слияния, то есть те, которые выровнены мягким сшиванием. Одна копия слитого гена не имела g.42130692G>A, SNP, который находился в *36, но не в *83, как показано в области, фланкированной двумя черными вертикальными линиями. Эта копия была *83, и в отличие от того, что сообщалось в PharmVar, это был гибридный ген с REP7, а не с REP6, в противном случае количество копий области ниже экзона 9 было бы равно 3 вместо 2 на ФИГ. 30A. [0272] In FIG. 30A and 30B show the new haplotype *10+*36+*36+*83 in HG00597. FIG. 30A The depth chart shown in FIG. 27 shows that HG00597 had three copies of *36-like fusions, all of which had a breakpoint in the homologous region between exon 7 and exon 9. FIG. 30B Screenshot of IGV data from PacBio, showing all reads containing fusions, that is, those aligned by soft stitching. One copy of the fusion gene lacked g.42130692G>A, a SNP that was located at *36 but not at *83, as shown in the region flanked by the two black vertical lines. This copy was *83, and unlike what was reported in PharmVar, it was a fusion gene with REP7 rather than REP6, otherwise the copy number of the region downstream of exon 9 would have been 3 instead of 2 in FIG. 30A.

[0273] На ФИГ. 31A и 31B сравнивали частоты 1kGP и pharmGKB. Каждая точка представляет гаплотип с частотой >=0,5% для 1kGP или pharmGKB. Отмечены связанные с SV гаплотипы, включая два гаплотипа с наибольшим отклонением (*10+*36 у жителей Восточной Азии и *4+*68 у европейцев). Другие гаплотипы с отклоненными значениями помечены (*2, *41, *34, *39, *2 и *29). Для каждой панели проводят диагональную линию. Коэффициенты корреляции приведены для каждой популяции (*10+*36 исключено для жителей Восточной Азии и *4+*68 исключено для европейцев для расчета). На ФИГ. 31B показаны значения в нижнем диапазоне значений (<5%). [0273] In FIG. 31A and 31B compared the frequencies of 1kGP and pharmGKB. Each dot represents a haplotype with a frequency >=0.5% for 1kGP or pharmGKB. SV-associated haplotypes were noted, including the two haplotypes with the greatest deviation (*10+*36 in East Asians and *4+*68 in Europeans). Other haplotypes with deviated values are labeled (*2, *41, *34, *39, *2, and *29). A diagonal line is drawn for each panel. Correlation coefficients are given for each population (*10+*36 excluded for East Asians and *4+*68 excluded for Europeans for calculation). In FIG. 31B shows values in the lower range of values (<5%).

[0274] На ФИГ. 32 показан неограничивающий пример снимка IGV, показывающий сборку de novo результатов прочтения PacBio в HG00733, не включающую слияние *68. [0274] In FIG. 32 shows a non-limiting example of an IGV snapshot showing de novo assembly of PacBio reads into HG00733 not including the *68 fusion.

Таблица 24. Сравнение так частот гаплотипа определенных Cyrius и частот pharmGKBTable 24. Comparison of the haplotype frequencies of certain Cyrius and the frequencies of pharmGKB

ГаплотипHaplotype Этническая принадлежностьEthnicity pharmGKBpharmGKB 1kGP1kGP ФункцияFunction *1*1 Африканская популяцияAfrican population 9,539.53 26,78626,786 Нормальная функцияNormal function *2*2 Африканская популяцияAfrican population 18,8118.81 13,50913,509 Нормальная функцияNormal function *3*3 Африканская популяцияAfrican population 0,150.15 0,2330.233 Нет функцииNo function *4*4 Африканская популяцияAfrican population 3,333.33 2,4072,407 Нет функцииNo function *6*6 Африканская популяцияAfrican population 00 0,0780.078 Нет функцииNo function *9*9 Африканская популяцияAfrican population 00 0,0780.078 Снижение функцииDecreased function *10*10 Африканская популяцияAfrican population 6,716.71 4,8144,814 Снижение функцииDecreased function *15*15 Африканская популяцияAfrican population 0,570.57 0,2330.233 Нет функцииNo function *17*17 Африканская популяцияAfrican population 19,5819.58 19,79819,798 Снижение функцииDecreased function *29*29 Африканская популяцияAfrican population 10,7310.73 10,09310,093 Снижение функцииDecreased function *35*35 Африканская популяцияAfrican population 00 0,2330.233 Нормальная функцияNormal function *39*39 Африканская популяцияAfrican population 00 0,0780.078 Нормальная функцияNormal function *40*40 Африканская популяцияAfrican population 1,311.31 0,9320.932 Нет функцииNo function *41*41 Африканская популяцияAfrican population 11,4711.47 1,5531.553 Снижение функцииDecreased function *43*43 Африканская популяцияAfrican population 0,960.96 1,0871,087 Неопределенная функцияUndefined function *45*45 Африканская популяцияAfrican population 5,775.77 3,2613.261 Нормальная функцияNormal function *46*46 Африканская популяцияAfrican population 00 0,4660.466 Нормальная функцияNormal function *1x2*1x2 Африканская популяцияAfrican population 1,121.12 0,4660.466 Повышенная функцияEnhanced function *2x2*2x2 Африканская популяцияAfrican population 1,731.73 2,1742,174 Повышенная функцияEnhanced function *4x2*4x2 Африканская популяцияAfrican population 1,531.53 2,952.95 Нет функцииNo function *5*5 Африканская популяцияAfrican population 5,525.52 5,9785,978 Нет функцииNo function *106*106 Африканская популяцияAfrican population 00 1,1651.165 Неопределенная функцияUndefined function *1*1 АмериканцыAmericans 51,0551.05 47,59847,598 Нормальная функцияNormal function *2*2 АмериканцыAmericans 22,0922.09 19,21919,219 Нормальная функцияNormal function *3*3 АмериканцыAmericans 0,020.02 0,6010.601 Нет функцииNo function *4*4 АмериканцыAmericans 10,2510.25 9,1599.159 Нет функцииNo function *6*6 АмериканцыAmericans 0,250.25 0,30.3 Нет функцииNo function *7*7 АмериканцыAmericans 0,50.5 00 Нет функцииNo function *9*9 АмериканцыAmericans 0,450.45 1,3511.351 Снижение функцииDecreased function *10*10 АмериканцыAmericans 1,441.44 1,5021,502 Снижение функцииDecreased function *12*12 АмериканцыAmericans 1,71.7 00 Нет функцииNo function *17*17 АмериканцыAmericans 0,480.48 0,9010.901 Снижение функцииDecreased function *28*28 АмериканцыAmericans 0,090.09 0,150.15 Неопределенная функцияUndefined function *29*29 АмериканцыAmericans 0,190.19 0,30.3 Снижение функцииDecreased function *33*33 АмериканцыAmericans 0,170.17 0,30.3 Нормальная функцияNormal function *35*35 АмериканцыAmericans 0,970.97 2,5532,553 Нормальная функцияNormal function *41*41 АмериканцыAmericans 2,332.33 6,3066,306 Снижение функцииDecreased function *82*82 АмериканцыAmericans 2,52.5 0,450.45 Неизвестная функцияUnknown function *1x2*1x2 АмериканцыAmericans 2,862.86 1,2011.201 Повышенная функцияEnhanced function *2x2*2x2 АмериканцыAmericans 0,610.61 0,6010.601 Повышенная функцияEnhanced function *4x2*4x2 АмериканцыAmericans 0,110.11 0,150.15 Нет функцииNo function *35x2*35x2 АмериканцыAmericans 00 0,150.15 Повышенная функцияEnhanced function *5*5 АмериканцыAmericans 1,591.59 2,1022.102 Нет функцииNo function *4+*68*4+*68 АмериканцыAmericans 00 2,5532,553 Нет функцииNo function *1*1 Выходцы из Восточной АзииEast Asians 24,7424.74 27,21627,216 Нормальная функцияNormal function *2*2 Выходцы из Восточной АзииEast Asians 12,0912.09 8,0418,041 Нормальная функцияNormal function *4*4 Выходцы из Восточной АзииEast Asians 0,540.54 0,2060.206 Нет функцииNo function *10*10 Выходцы из Восточной АзииEast Asians 43,5643.56 15,46415,464 Снижение функцииDecreased function *14*14 Выходцы из Восточной АзииEast Asians 0,290.29 0,9280.928 Снижение функцииDecreased function *21*21 Выходцы из Восточной АзииEast Asians 0,350.35 0,5150.515 Нет функцииNo function *34*34 Выходцы из Восточной АзииEast Asians 1,021.02 00 Нормальная функцияNormal function *39*39 Выходцы из Восточной АзииEast Asians 0,590.59 00 Нормальная функцияNormal function *41*41 Выходцы из Восточной АзииEast Asians 2,272.27 3,9183,918 Снижение функцииDecreased function *49*49 Выходцы из Восточной АзииEast Asians 1,051.05 0,5150.515 Снижение функцииDecreased function *52*52 Выходцы из Восточной АзииEast Asians 0,180.18 0,1030.103 Неопределенная функцияUndefined function *65*65 Выходцы из Восточной АзииEast Asians 2,952.95 00 Неопределенная функцияUndefined function *69*69 Выходцы из Восточной АзииEast Asians 1,171.17 00 Нет функцииNo function *71*71 Выходцы из Восточной АзииEast Asians 0,120.12 0,6190.619 Неопределенная функцияUndefined function *1x2*1x2 Выходцы из Восточной АзииEast Asians 0,340.34 0,1030.103 Повышенная функцияEnhanced function *2x2*2x2 Выходцы из Восточной АзииEast Asians 0,450.45 0,6190.619 Повышенная функцияEnhanced function *10x2*10x2 Выходцы из Восточной АзииEast Asians 0,610.61 0,3090.309 Снижение функцииDecreased function *5*5 Выходцы из Восточной АзииEast Asians 4,844.84 3,6083,608 Нет функцииNo function *10+*36*10+*36 Выходцы из Восточной АзииEast Asians 1,241.24 35,97935,979 Снижение функцииDecreased function *10+*36+*36*10+*36+*36 Выходцы из Восточной АзииEast Asians 0,450.45 1,6491,649 Снижение функцииDecreased function *1*1 Европейская популяцияEuropean population 23,7923.79 36,59336,593 Нормальная функцияNormal function *2*2 Европейская популяцияEuropean population 18,5218.52 16,2316.23 Нормальная функцияNormal function *3*3 Европейская популяцияEuropean population 1,581.58 1,7141,714 Нет функцииNo function *4*4 Европейская популяцияEuropean population 18,5618.56 11,89511,895 Нет функцииNo function *6*6 Европейская популяцияEuropean population 1,111.11 1,9151.915 Нет функцииNo function *9*9 Европейская популяцияEuropean population 2,752.75 2,522.52 Снижение функцииDecreased function *10*10 Европейская популяцияEuropean population 1,581.58 1,4111.411 Снижение функцииDecreased function *17*17 Европейская популяцияEuropean population 0,360.36 0,2020.202 Снижение функцииDecreased function *28*28 Европейская популяцияEuropean population 00 0,5040.504 Неопределенная функцияUndefined function *31*31 Европейская популяцияEuropean population 0,120.12 0,2020.202 Нет функцииNo function *33*33 Европейская популяцияEuropean population 1,91.9 0,6050.605 Нормальная функцияNormal function *34*34 Европейская популяцияEuropean population 5,545.54 00 Нормальная функцияNormal function *35*35 Европейская популяцияEuropean population 4,644.64 4,8394.839 Нормальная функцияNormal function *39*39 Европейская популяцияEuropean population 3,163.16 00 Нормальная функцияNormal function *41*41 Европейская популяцияEuropean population 9,239.23 9,1739.173 Снижение функцииDecreased function *43*43 Европейская популяцияEuropean population 00 0,1010.101 Неопределенная функцияUndefined function *59*59 Европейская популяцияEuropean population 0,650.65 0,2020.202 Снижение функцииDecreased function *1x2*1x2 Европейская популяцияEuropean population 0,830.83 0,5040.504 Повышенная функцияEnhanced function *2x2*2x2 Европейская популяцияEuropean population 0,840.84 1,5121.512 Повышенная функцияEnhanced function *4x2*4x2 Европейская популяцияEuropean population 0,660.66 0,3020.302 Нет функцииNo function *9x2*9x2 Европейская популяцияEuropean population 0,010.01 0,1010.101 Нормальная функцияNormal function *5*5 Европейская популяцияEuropean population 2,992.99 2,4192,419 Нет функцииNo function *4+*68*4+*68 Европейская популяцияEuropean population 00 5,4445,444 Нет функцииNo function *4+*4N*4+*4N Европейская популяцияEuropean population 00 0,7060.706 Нет функцииNo function *1*1 Выходцы из Южной АзииSouth Asians 24,924.9 40,14740.147 Нормальная функцияNormal function *2*2 Выходцы из Южной АзииSouth Asians 29,329.3 20,96420,964 Нормальная функцияNormal function *3*3 Выходцы из Южной АзииSouth Asians 0,110.11 0,210.21 Нет функцииNo function *4*4 Выходцы из Южной АзииSouth Asians 9,139.13 8,2818,281 Нет функцииNo function *6*6 Выходцы из Южной АзииSouth Asians 00 0,1050.105 Нет функцииNo function *7*7 Выходцы из Южной АзииSouth Asians 0,410.41 0,9430.943 Нет функцииNo function *10*10 Выходцы из Южной АзииSouth Asians 8,848.84 3,8783.878 Снижение функцииDecreased function *29*29 Выходцы из Южной АзииSouth Asians 6,086.08 00 Снижение функцииDecreased function *35*35 Выходцы из Южной АзииSouth Asians 1,11.1 0,6290.629 Нормальная функцияNormal function *39*39 Выходцы из Южной АзииSouth Asians 0,20.2 0,210.21 Нормальная функцияNormal function *41*41 Выходцы из Южной АзииSouth Asians 12,2912.29 12,15912,159 Снижение функцииDecreased function *1x2*1x2 Выходцы из Южной АзииSouth Asians 0,560.56 0,4190.419 Повышенная функцияEnhanced function *2x2*2x2 Выходцы из Южной АзииSouth Asians 0,950.95 0,4190.419 Повышенная функцияEnhanced function *5*5 Выходцы из Южной АзииSouth Asians 4,684.68 2,6212.621 Нет функцииNo function *10+*36*10+*36 Выходцы из Южной АзииSouth Asians 00 1,1531.153 Снижение функцииDecreased function *4+*68*4+*68 Выходцы из Южной АзииSouth Asians 00 2,2012,201 Нет функцииNo function *86*86 Выходцы из Южной АзииSouth Asians 00 2,3062,306 Неизвестная функцияUnknown function *111*111 Выходцы из Южной АзииSouth Asians 00 0,8390.839 Неизвестная функцияUnknown function *113*113 Выходцы из Южной АзииSouth Asians 00 0,8390.839 Неизвестная функцияUnknown function

ОбсуждениеDiscussion

[0275] Этот пример описывает Cyrius, способ, позволяющий точно диплотипировать сложную область CYP2D6. Уникальная особенность данного примера состоит в том, что для подтверждения как гаплотипов, так и SV использовали долгое прочтение данных. Длинные прочтения дают уникальную возможность подтвердить области точек разрыва общих SV (делеции и дупликации CYP2D6, а также слитые гены CYP2D6/7) и подтвердить фазирование гена CYP2D6. При использовании 188 образцов, включая 50 с данными проверки долгого прочтения, в качестве набора ортогональных данных проверки, было показано что Cyrius превосходит другие генотипы CYP2D6, достигая 97,9% точности по сравнению с 88,8% для Aldy и 85,6% для Stargazer. В частности, по сравнению с этими существующими определителями CYP2D6Cyrius позволил провести прочтение в областях, где CYP2D6/7 имеют высокое сходство. Неоднозначные выравнивания прочтения в данных областях могут привести к неправильной оценке количества копий и ошибкам при определении малых вариантов. За счет учета возможных невыровненных прочтений и выбора набора надежных сайтов дифференциации CYP2D6/7 Cyrius может намного лучше определять звездчатые аллели с помощью SV, достигая точности 97,2% по сравнению с 88,9% для Aldy и 77,8% для Stargazer. [0275] This example describes Cyrius, a method that allows the complex region of CYP2D6 to be accurately diplotyped. A unique feature of this example is that long reads of the data were used to confirm both haplotypes and SVs. Long reads provide a unique opportunity to confirm breakpoint regions of common SVs ( CYP2D6 deletions and duplications, and CYP2D6 /7 fusion genes) and confirm CYP2D6 gene phasing. Using 188 samples, including 50 with long-read validation data, as an orthogonal validation data set, Cyrius was shown to outperform other CYP2D6 genotypes, achieving 97.9% accuracy compared to 88.8% for Aldy and 85.6% for Stargazer. In particular, compared to these existing CYP2D6 identifiers, Cyrius enabled reads in regions where CYP2D6/7 have high similarity. Ambiguous read alignments in these regions can lead to incorrect copy number estimates and errors in identifying small variants. By accounting for possible unaligned reads and selecting a set of robust CYP2D6 /7 differentiation sites, Cyrius is able to detect star alleles much better using SV, achieving 97.2% accuracy compared to 88.9% for Aldy and 77.8% for Stargazer.

[0276] Во всех 188 проверочных образцах было подтверждено всего 41 разных звездчатых аллелей, которые представляли (38,7%) всех звездчатых аллелей, перечисленных в PharmGKB, включая 53,4% аллелей с известным функциональным статусом. Хотя на основе анализа образцов 1kGP в данном примере, набор для проверки включал только 38,7% всех известных звездчатых аллелей, по оценкам, они представляли 96,5% звездчатых аллелей в пангеномной популяции. Как правило, частоты аллелей, рассчитанные для 2504 образцов 1kGP из пяти этнических популяций, согласовывались с предыдущими исследованиями простых звездчатых аллелей. И наоборот, для некоторых звездчатых аллелей, которые определялись наличием SV, были выявлены совершенно разные частоты, вероятно, потому что многие из звездчатых аллелей, подвергнутых SV-воздействию, сложно определить с помощью обычных анализов. Это подчеркивает неотъемлемые ошибки объединения результатов исследований, в которых использовали множество различных анализов CYP2D6, некоторые из которых могут быть разработаны для простого определения подмножества звездчатых аллелей. Например, из 5 анализов, использованных для создания консенсусных генотипов GeT-RM, индивидуальная точность варьировала от 47,1% до 75,2% по сравнению с консенсусом (таблица 25). Единый способ, позволяющий определить все известные звездчатые алели одним анализом, является лучший выбор для создания базы данных популяционного уровня. [0276] A total of 41 different star alleles were confirmed across all 188 validation samples, which represented (38.7%) of all star alleles listed in PharmGKB, including 53.4% of alleles with known functional status. Although based on analysis of the 1kGP samples in this example, the validation set included only 38.7% of all known star alleles, they were estimated to represent 96.5% of star alleles in the pangenomic population. Generally, allele frequencies calculated for 2504 1kGP samples from five ethnic populations were consistent with previous studies of simple star alleles. Conversely, some star alleles that were driven by the presence of SV showed very different frequencies, likely because many of the star alleles affected by SV are difficult to detect using conventional assays. This highlights the inherent pitfalls of pooling results from studies that have used many different CYP2D6 assays, some of which may be designed to simply detect a subset of star alleles. For example, of the 5 assays used to generate consensus GeT-RM genotypes, individual accuracies ranged from 47.1% to 75.2% relative to consensus (Table 25). A single method that can identify all known star alleles in a single analysis is the best choice for creating a population-level database.

Таблица 25. Точность отдельных анализов GeT-RMTable 25: Accuracy of individual GeT-RM assays

TaqMan
+CNV
+XL-ПЦР
TaqMan
+CNV
+XL-PCR
PharmacoScan
v.r6
PharmacoScan
v.r6
PharmacoScan
пользовательская
v.r6+20180103
PharmacoScan
custom
v.r6+20180103
iPLEX
CYP2D6 V1.1
iPLEX
CYP2D6 V1.1
iPLEX
CYP2D6
V1.1
+индивидуальная панель и VeriDose
iPLEX
CYP2D6
V1.1
+individual panel and VeriDose
Образцы, не перечисленные как н/дSamples not listed as n/a 60,9%60.9% 78,2%78.2% 78,2%78.2% 100,0%100.0% 29,1%29.1% ТочностьAccuracy 75,2%75.2% 47,1%47.1% 60,7%60.7% 59,8%59.8% 69,2%69.2%

[0277] Кроме того, для анализа 2504 образцов 1kGP из пяти этнических популяций использовали Cyrius для определения частот звездчатых аллелей. Вычисленные частоты аллелей согласуются с предыдущими исследованиями простых звездчатых аллелей, а Cyrius значительно улучшил оценки частоты звездчатых аллелей с вовлечением структурных вариантов, обнаружение которых может быть затруднено обычными способами. [0277] Additionally, Cyrius was used to analyze 2504 1kGP samples from five ethnic populations to determine star allele frequencies. The calculated allele frequencies are consistent with previous studies of simple star alleles, and Cyrius has significantly improved estimates of star allele frequencies involving structural variants that may be difficult to detect using conventional methods.

[0278] Некоторые существующие способы основаны на точном выравнивании прочтений для различения CYP2D6 и CYP2D7, которые могут быть склонны к ошибкам из-за нескольких областей с высоким сходством последовательностей между двумя генами, в частности между интроном 1-экзоном 2 и экзоном 7-экзоном 9. Неоднозначное выравнивание может приводить к шуму в профилях глубины, что приводит к ложным определениям CNV. Кроме того, ошибочные выравнивания при прочтении могут приводить к ложноположительным или ложноотрицательным определениям вариантов. Напротив, Cyrius впервые определили общее количество копий CYP2D6+CYP2D7 путем подсчета всех прочтений, которые совпадают с любым из генов, а общее количество копий, не равное 4, четко указывает на наличие SV. Для определения точного положения SV использовали не все отличия на основе эталонного генома. Многие различия оснований CYP2D6/CYP2D7 не фиксированы, поэтому не все эти положения можно использовать для надежного отличия CYP2D6 от CYP2D7 (ФИГ. 26). Cyrius использовал 118 позиций дифференциации CYP2D6/CYP2D7, выбранных для определения точного положения SV. Определив сначала общее количество копий, а затем дифференцируя их с помощью подмножества подходящих дифференцирующих оснований, Cyrius смог достичь более точных определений SV. Для определения малых вариантов Cyrius преодолевает зависимость от однозначного выравнивания, ища варианты прочтения как в положении CYP2D6, так и в соответствующем положении CYP2D7, таким образом получая наиболее точные определения малых вариантов. [0278] Some existing methods rely on precise read alignment to distinguish between CYP2D6 and CYP2D7 , which may be error-prone due to several regions of high sequence similarity between the two genes, particularly between intron 1-exon 2 and exon 7-exon 9 ,Ambiguous alignment can introduce noise in depth profiles, ,leading to false CNV detections. Additionally, erroneous read alignments can lead to false positive or false negative variant determinations. In contrast, Cyrius first determined the total copy number of CYP2D6 + CYP2D7 by counting all reads that match either gene, and a total copy number of less than 4 clearly indicates the presence of SV. Not all differences based on the reference genome were used to determine the exact position of the SV. Many CYP2D6 / CYP2D7 base differences are not fixed, so not all of these positions can be used to reliably distinguish CYP2D6 from CYP2D7 (FIG. 26). Cyrius used 118 CYP2D6 / CYP2D7 differentiation positions selected to determine the exact position of the SV. By first determining the total copy number and then differentiating them using a subset of suitable differentiating bases, Cyrius was able to achieve more accurate SV determinations. To identify small variants, Cyrius overcomes the dependence on single-unit alignments by searching for variant reads at both the CYP2D6 position and the corresponding CYP2D7 position, thereby obtaining the most accurate small variant definitions.

[0279] В примере для подтверждения как гаплотипов, так и определений SV использовали долгое прочтение данных. Данные PacBio в этом примере обеспечивают четкую картину области CYP2D6 - CYP2D7 с высоким качеством длинных прочтений (10 - 20 т. п. н.). В частности, данные PacBio позволяют определить области точек разрыва для общих структурных вариантов (делеции и дупликации CYP2D6, а также слитые гены CYP2D6-CYP2D7). Даже при прочтениях PacBio генотипирование CYP2D6 может быть непростым и может потребовать проведения направленного анализа, особенно при структурных вариантах, включающих дублирование (CYP2D6 и дублирование CYP2D6-CYP2D7), где дублированная область содержит >10 т. п. н. Например, подход сборки de novo не смог уловить слияние * 68 в образце HG00733 (Фиг. 31A и 31B). Кроме того, прочтения PacBio являются недостаточно длинными, чтобы покрыть более одной копии дублированной последовательности, а прочтения PacBio являются слишком длинными для определения количества копий при подсчете количества прочтений (для коротких прочтений), поэтому расчет количества копий затруднен. Секвенирование всего генома с короткими прочтениями обеспечивает наиболее точное решение для генотипирования CYP2D6. [0279] In the example, long reads of the data were used to confirm both haplotypes and SV definitions. The PacBio data in this example provide a clear picture of the CYP2D6 - CYP2D7 region with high quality long reads (10 - 20 kb). In particular, PacBio data allows the identification of breakpoint regions for common structural variants ( CYP2D6 deletions and duplications, and CYP2D6 - CYP2D7 fusion genes). Even with PacBio reads, genotyping CYP2D6 can be challenging and may require targeted analysis, especially for structural variants involving duplication ( CYP2D6 and CYP2D6 - CYP2D7 duplication ) where the duplicated region contains >10 kb. For example, the de novo assembly approach failed to capture the *68 fusion in sample HG00733 (Figures 31A and 31B). Additionally, PacBio reads are not long enough to cover more than one copy of the duplicated sequence, and PacBio reads are too long to detect copy number in read counting (for short reads), so copy number calculation is difficult. Whole genome short-read sequencing provides the most accurate solution for CYP2D6 genotyping.

[0280] При анализе образцов 1kGP Cyrius смог определить окончательный генотип более 97,6% образцов. В некоторых вариантах осуществления Cyrius смог определить оставшиеся 2,4% образцов. Например, в образцах, где возможны множественные конфигурации гаплотипов, может оказаться полезным использование вероятностного подхода для получения наиболее вероятного генотипа с учетом наблюдаемых вариантов. Кроме того, продолжение секвенирования и тестирования большего количества образцов поможет подтвердить способность генотипировать редкие звездчатые аллели, а также выявить новые варианты, которые можно использовать для различения неоднозначных диплотипов. Этот процесс был продемонстрирован в данном примере, где были внесены усовершенствования для лучшего определения трех звездчатых аллелей, которые первоначально неправильно определялись в 188 проверочных образцах. Улучшения были полезны для генотипирования на уровне популяции, поскольку три звездчатые аллеля обнаружены почти в 1% (23 из 2504) образцов 1kGP. [0280] When analyzing 1kGP samples, Cyrius was able to determine the final genotype of over 97.6% of samples. In some embodiments, Cyrius was able to detect the remaining 2.4% of samples. For example, in samples where multiple haplotype configurations are possible, it may be useful to use a probabilistic approach to obtain the most likely genotype given the observed variations. In addition, continued sequencing and testing of more samples will help confirm the ability to genotype rare star alleles, as well as identify new variants that can be used to distinguish ambiguous diplotypes. This process was demonstrated in this example, where improvements were made to better identify three star alleles that were initially misidentified in 188 validation samples. The improvements were useful for genotyping at the population level, as three star alleles were found in almost 1% (23 of 2504) of 1kGP samples.

[0281] По мере выявления новых звездчатых аллелей новые звездчатые аллели могут быть добавлены в базу данных Cyrius. Одним из соображений при добавлении новых звездчатых аллелей, которые определяются новыми вариантами, является то, что данные варианты вряд ли будут рассмотрены в предыдущих определениях звездчатых аллелей. В результате могут существовать новые комбинации новых и существующих вариантов, которые не могут соответствовать ни одной из известных комбинаций, что приводит к отсутствию определений. Например, Cyrius включает возможность генотипирования по 25 новым звездчатым аллелям, добавленным в PharmVar v4 (не включенным в GeT-RM, Aldy или Stargazer). Однако пять (*119, *122, *135, *136, *139) из 25 новых звездчатых аллелей имеют новые варианты, которые при включении привели к отсутствию определений в образцах, которые могли бы быть определены ранее, что указывает на существование общих новых звездчатых аллелей с комбинацией вариантов, не отраженных в PharmVar. В результате эти пять звездчатых аллелей были удалены вместе с двумя другими (*127, с вариантом генной конверсии в гомологичной области и *131 вариантом в сайте с помехами) с сохранением оставшихся 18. Новые звездчатые аллели могут быть возможны по мере выявления новых вариантов/звездчатых аллелей. Общедоступные наборы данных WGS, такие как 2504 образцов 1kGP, проанализированные в данном документе, могут быть важным компонентом интеграции новых вариантов в определения звездчатых аллелей, поскольку эти данные позволяют быстро оценивать варианты во многих образцах с различными генотипами. [0281] As new star alleles are identified, new star alleles may be added to the Cyrius database. One consideration when adding new star alleles that are defined by new variants is that the variants are unlikely to be considered in previous star allele definitions. As a result, there may be novel combinations of new and existing variants that cannot match any known combination, resulting in a lack of definitions. For example, Cyrius includes the ability to genotype for 25 new star alleles added in PharmVar v4 (not included in GeT-RM, Aldy or Stargazer). However, five (*119, *122, *135, *136, *139) of the 25 new star alleles have new variants that, when included, resulted in missing definitions in samples that could have been previously defined, indicating the existence of common new star alleles with a combination of variants not reflected in PharmVar. As a result, these five star alleles were removed along with two others (*127, with a gene conversion variant in the homologous region and *131 variants at the interference site) leaving the remaining 18. New star alleles may be possible as new variants/stars are identified alleles. Publicly available WGS datasets, such as the 2504 1kGP samples analyzed here, can be an important component of integrating new variants into star allele definitions, as these data allow for the rapid assessment of variants in many samples with different genotypes.

[0282] WGS предоставляет ценную возможность профилировать все генетические вариации всего генома, но многие из клинически важных областей/вариантов находятся за пределами возможностей большинства конвейеров вторичного анализа. CYP2D6 относится к сложным областям генома, которые одновременно являются клинически важными и также требуют целевых биоинформатических решений в дополнение к нормальным конвейерам WGS. Такие нацеленные способы уже успешно применяются к некоторым сложным областям, таким как ген SMN1, ответственный за спинальную мышечную атрофию, как показано в примере 1. Более целевые способы, такие как Cyrius, могут ускорить развитие фармакогеномики и сделать возможным персонализированную медицину. [0282] WGS provides a valuable opportunity to profile all genetic variations throughout the genome, but many of the clinically important regions/variants are beyond the capabilities of most secondary analysis pipelines. CYP2D6 is among complex genomic regions that are both clinically important and also require targeted bioinformatics solutions in addition to normal WGS pipelines. Such targeted methods have already been successfully applied to some challenging areas, such as the SMN1 gene responsible for spinal muscular atrophy, as shown in Example 1. More targeted methods, such as Cyrius, can accelerate the development of pharmacogenomics and enable personalized medicine.

Дополнительные соображенияAdditional Considerations

[0283] По меньшей мере в некоторых из ранее описанных вариантов осуществления один или более элементов, используемых в варианте осуществления, можно взаимозаменяемо использовать в другом варианте осуществления, если такая замена технически не осуществима. Специалистам в данной области будет понятно, что в описанные выше способы и структуры могут быть внесены различные другие опущения, добавления и модификации без отступления от объема заявленного объекта изобретения. Предполагается, что все такие модификации и изменения включены в объем объекта изобретения, как определено в прилагаемой формуле изобретения. [0283] In at least some of the previously described embodiments, one or more elements used in an embodiment may be used interchangeably in another embodiment if such replacement is not technically feasible. Those skilled in the art will appreciate that various other omissions, additions and modifications may be made to the methods and structures described above without departing from the scope of the claimed subject matter. All such modifications and changes are intended to be included within the scope of the invention as defined in the appended claims.

[0284] Специалисту в данной области будет понятно, что для этого и других процессов и способов, описанных в данном документе, функции, выполняемые в процессах и способах, могут быть реализованы в другом порядке. Кроме того, описанные этапы и операции приведены только в качестве примеров, и некоторые этапы и операции могут быть необязательными, объединены в меньшее число этапов и операций или могут быть расширены в дополнительные этапы и операции без ущерба для сущности описанных вариантов осуществления. [0284] One skilled in the art will appreciate that for this and other processes and methods described herein, the functions performed in the processes and methods may be implemented in a different order. In addition, the described steps and operations are provided as examples only, and some steps and operations may be optional, combined into fewer steps and operations, or expanded into additional steps and operations without detracting from the spirit of the described embodiments.

[0285] В отношении применения по существу любых множественных и/или единственных терминов в данном документе специалисты в данной области могут изменять множественное число на единственное и/или единственное число на множественное в соответствии с требованиями контекста и/или сферой применения. В данном документе различные комбинации единственного/множественного числа для ясности могут быть указаны явным образом. Применяемые в данном описании и приложенной формуле изобретения формы единственного числа включают упоминания форм множественного числа, если в контексте явно не указано иное. Соответственно, предполагается, что такие фразы, как «устройство, выполненное для», включают в себя одно или более упомянутых устройств. Такое одно или более упомянутых устройств также могут быть в совокупности выполнены с возможностью осуществления упомянутых выше перечислений. Например, «процессор, выполненный с возможностью выполнения изложений A, B и C, может включать в себя первый процессор, выполненный с возможностью выполнения изложения A, работающий совместно со вторым процессором, выполненным с возможностью выполнения изложений B и C. Любая ссылка на «или» в данном документе подразумевает включение «и/или», если не указано иное. [0285] With respect to the application of substantially any plural and/or singular terms herein, those skilled in the art may change plural to singular and/or singular to plural as the context and/or scope of application requires. Throughout this document, various singular/plural combinations may be explicitly stated for clarity. As used in this specification and the appended claims, the singular forms include references to the plural unless the context clearly indicates otherwise. Accordingly, phrases such as “device configured for” are intended to include one or more of the aforementioned devices. Such one or more of the above-mentioned devices may also be collectively configured to perform the above-mentioned enumerations. For example, "a processor configured to perform statements A, B, and C may include a first processor configured to perform statements A operating in conjunction with a second processor configured to perform statements B and C. Any reference to "or ” as used herein implies the inclusion of “and/or” unless otherwise noted.

[0286] Специалистам в данной области будет понятно, что в целом термины, используемые в данном документе, и в особенности в прилагаемой формуле изобретения (например, основной части прилагаемой формулы изобретения), по существу считаются «неограничивающими» терминами (например, термин «включающий» следует интерпретировать как «включающий без ограничений», термин « имеющий » следует интерпретировать как «имеющий по меньшей мере», термин «включает» следует интерпретировать как « включает без ограничений» и т. д.). Кроме того, специалистам в данной области техники будет понятно, что если в конкретной мере подразумевается использование ссылки на представленный пункт формулы изобретения, то такое намерение будет явно указано в пункте формулы изобретения, а в отсутствии такой ссылки такое намерение отсутствует. Например, для облегчения понимания нижеследующая прилагаемая формула изобретения может содержать вводные фразы «по меньшей мере один» и «один или более» для введения перечисления пунктов формулы изобретения. Однако, использование таких фраз не должно подразумевать, что введение перечисления в пункте формулы изобретения с использованием формы единственного числа ограничивает любой конкретный пункт формулы изобретения, содержащий такое введенное перечисление в пункте формулы изобретения вариантами осуществления, содержащими только одно такое перечисление, даже если та же формула изобретения включает вводные фразы «один или более» или «по меньшей мере один» и неопределенные артикли, такие как «некоторый » (например, форму единственного числа следует интерпретировать как «по меньшей мере один» или «один или более»); то же самое справедливо в отношении использования определенных артиклей, используемых для введения перечислений формулы изобретения. Кроме того, даже если определенное количество представленного изложения пункта формулы изобретения указано явным образом, специалистам в данной области техники будет понятно, что такое перечисление следует интерпретировать как означающее, по меньшей мере, указанное количество (например, простое цитирование фразы «два изложения » без других модификаторов означает, по меньшей мере, два изложения или два или более изложений). Кроме того, в случаях использования правила, аналогичного правилу «по меньшей мере одно из A, B, C и т. д. », в общем случае такая конструкция предназначена для специалиста в данной области для понимания правила (e.g., «Система, содержащая по меньшей мере один из A, B и C» будет включать в себя, без ограничений, системы, которые имеют только A, только B, только C, одновременно A и B, одновременно A и C, одновременно B и C и/или одновременно A, B и C и т. д.). В случаях использования правила, аналогичного правилу «по меньшей мере одно из A, B, C и т. д.», в общем случае такая конструкция предназначена для специалиста в данной области техники для понимания правила (например, «Система, содержащая по меньшей мере одно из A, B или C» будет включать в себя, без ограничений, системы, которые имеют только A, только B, только C, одновременно A и B, одновременно A и C, одновременно B и C и/или одновременно A, B и C и т. д.). Кроме того, специалистам в данной области будет понятно, что практически любое разделительное слово и/или фраза, представляющие два или более альтернативных терминов, будь то в описании, формуле изобретения или на чертежах, следует понимать как предполагающую возможность включения одного из терминов, любого из терминов или обоих терминов. Например, фразу «A или B» следует понимать как включающую возможности «A», или «B», или «A и B». [0286] Those skilled in the art will appreciate that, in general, terms used herein, and particularly in the appended claims (e.g., the body of the appended claims), are essentially considered to be "non-limiting" terms ( e.g. , the term "including " should be interpreted as "including without limitation", the term "having" should be interpreted as "having at least", the term "includes" should be interpreted as "includes without limitation", etc.). In addition, those skilled in the art will appreciate that if reference to a presented claim is specifically intended, then such intent will be clearly stated in the claim, and in the absence of such reference, there is no such intent. For example, to facilitate understanding, the following appended claims may contain the introductory phrases “at least one” and “one or more” to introduce the enumeration of claims. However, the use of such phrases should not imply that the introduction of an enumeration in a claim using the singular form limits any particular claim containing such introduced enumeration in the claim to embodiments containing only one such enumeration, even if the same claim the invention includes the introductory phrases "one or more" or "at least one" and indefinite articles such as "some" ( for example , the singular form should be interpreted as "at least one" or "one or more"); the same is true with respect to the use of definite articles used to introduce the enumeration of the claims. Moreover, even if a specific number of claims presented is explicitly stated, those skilled in the art will understand that such listing should be interpreted to mean at least the stated amount ( for example, simply quoting the phrase "two statements" without other modifiers means at least two statements or two or more statements). In addition, in cases where a rule similar to the rule "at least one of A, B, C, etc." is used, such a construction is generally intended for one skilled in the art to understand the rule ( eg , "A system containing at least one of A, B, and C" will include, without limitation, systems that have only A, only B, only C, both A and B, both A and C, both B and C, and/or both A , B and C, etc.). In cases where a rule similar to "at least one of A, B, C, etc." is used, such a construction is generally intended for one skilled in the art to understand the rule ( e.g. , "A system containing at least one of A, B or C" will include, without limitation, systems that have only A, only B, only C, both A and B, both A and C, both B and C, and/or both A, B and C, etc.). In addition, those skilled in the art will appreciate that virtually any dividing word and/or phrase presenting two or more alternative terms, whether in the description, claims, or drawings, should be understood to imply the possibility of including one of the terms, any of terms or both terms. For example, the phrase "A or B" should be understood to include the possibilities "A" or "B" or "A and B."

[0287] Кроме того, если признаки или аспекты раскрытия описаны в терминах групп Маркуша, специалистам в данной области будет понятно, что описание, таким образом, также описано в терминах любого отдельного члена или подгруппы членов группы Маркуша. [0287] Moreover, if features or aspects of the disclosure are described in terms of Markush groups, those skilled in the art will appreciate that the description is thus also described in terms of any individual member or subset of members of the Markush group.

[0288] Как будет понятно специалисту в данной области, для любых и всех целей, например с точки зрения обеспечения письменного описания, все диапазоны, описанные в данном документе, также охватывают все их возможные поддиапазоны и комбинации поддиапазонов. Любой перечисленный диапазон можно легко распознать как достаточно описывающий и позволяющий разбить один и тот же диапазон, по крайней мере, на равные половины, трети, четверти, пятые, десятые и т.д. в качестве неограничивающего примера каждый диапазон, описанный в данном документе, можно легко разбить на нижнюю треть, среднюю треть и верхнюю треть и т.д. Как также будет понятно специалисту в данной области техники, все выражения, такие как «до», «по меньшей мере», «больше чем», «меньше чем» и т.п., включают в себя перечисленное число и относятся к диапазонам, которые могут быть впоследствии разбиты на поддиапазоны, как обсуждалось выше. Наконец, как будет понятно специалисту в данной области, диапазон включает в себя каждый отдельный элемент. Таким образом, например, группа, имеющая 1-3 пункта, относится к группам, имеющим 1, 2 или 3 пункта. Аналогично группа, содержащая 1-5 пунктов, относится к группам, содержащим 1, 2, 3, 4 или 5 пунктов, и т.п. [0288] As one skilled in the art will appreciate, for any and all purposes, such as in terms of providing a written description, all ranges described herein also include all possible sub-ranges and combinations of sub-bands thereof. Any range listed can easily be recognized as sufficiently descriptive to allow the same range to be broken down into at least equal halves, thirds, quarters, fifths, tenths, etc. By way of non-limiting example, each range described herein can be easily broken down into a lower third, a middle third, and an upper third, etc. As will also be appreciated by one skilled in the art, all expressions such as “up to”, “at least”, “greater than”, “less than”, etc. include the number listed and refer to ranges, which can subsequently be broken down into sub-bands as discussed above. Finally, as one skilled in the art will appreciate, the range includes each individual element. Thus, for example, a group having 1-3 points refers to groups having 1, 2 or 3 points. Similarly, a group containing 1-5 items refers to groups containing 1, 2, 3, 4 or 5 items, etc.

[0289] Следует понимать, что в данном документе описаны различные варианты осуществления данного описания для целей иллюстрации и что различные модификации могут быть внесены без отступления от объема и сущности данного описания. Соответственно, различные варианты осуществления, описанные в данном документе, не имеют ограничительного характера, и объем и сущность представлены в следующих пунктах формулы изобретения. [0289] It should be understood that various embodiments of this specification are described herein for purposes of illustration and that various modifications may be made without departing from the scope and spirit of this specification. Accordingly, the various embodiments described herein are not intended to be limiting, and the scope and spirit are set forth in the following claims.

[0290] Следует понимать, что не обязательно все объекты или преимущества могут быть достигнуты в соответствии с любым конкретным вариантом осуществления, описанным в данном документе. Таким образом, например, специалистам в данной области будет понятно, что некоторые варианты осуществления могут быть выполнены с возможностью функционирования таким образом, чтобы обеспечить или оптимизировать одно преимущество или группу преимуществ, описанных в данном документе, без необходимости достижения других объектов или преимуществ, которые могут быть описаны или предложены в данном документе. [0290] It should be understood that not all objects or benefits may be achieved in accordance with any specific embodiment described herein. Thus, for example, those skilled in the art will appreciate that certain embodiments may be configured to operate in a manner that provides or optimizes one benefit or group of benefits described herein without the need to achieve other objects or benefits that may be described or suggested in this document.

[0291] Все процессы, описанные в данном документе, могут быть реализованы и полностью автоматизированы с помощью модулей программного кода, исполняемых компьютерной системой, которая включает один или более компьютеров или процессоров. Программные модули могут храниться на энергонезависимом машиночитаемом носителе любого типа или другом компьютерном устройстве хранения данных. Некоторые или все способы могут быть реализованы на специализированном компьютерном оборудовании. [0291] All processes described herein can be implemented and fully automated using program code modules executed by a computer system that includes one or more computers or processors. The program modules may be stored on any type of non-volatile computer readable medium or other computer storage device. Some or all of the methods can be implemented on specialized computer hardware.

[0292] Из данного описания будут очевидны многие другие варианты, отличные от описанных в данном документе. Например, в зависимости от варианта осуществления определенные действия, события или функции любого из алгоритмов, описанных в данном документе, могут выполняться в другой последовательности, могут быть добавлены, объединены или удалены вообще (например, не все описанные действия или события необходимы для практической реализации алгоритмов). Более того, в определенных вариантах осуществления действия или события могут выполняться одновременно, например, посредством многопоточной обработки, прерывания обработки, или нескольких процессоров, или ядер процессоров, или с другими параллельными архитектурами, а не последовательно. Кроме того, разные задачи или процессы могут выполняться разными машинами и/или вычислительными системами, которые могут функционировать вместе. [0292] Many other variations than those described herein will be apparent from this description. For example, depending on the embodiment, certain actions, events, or functions of any of the algorithms described herein may be performed in a different order, may be added, combined, or removed altogether (for example, not all actions or events described are necessary for the practical implementation of the algorithms ). Moreover, in certain embodiments, actions or events may be performed simultaneously, for example, through multi-threaded processing, interrupt processing, or multiple processors or processor cores, or other parallel architectures, rather than sequentially. In addition, different tasks or processes may be performed by different machines and/or computing systems that may operate together.

[0293] Различные иллюстративные логические блоки и модули, описанные в связи с раскрытыми в данном документе вариантами осуществления, могут быть реализованы или выполнены машиной, такой как блок обработки данных или процессор для цифровой обработки сигналов (DSP), заказная специализированная интегральная схема (ASIC), программируемая пользователем матрица логических элементов (FPGA) или другое программируемое логическое устройство, логический элемент на дискретных компонентах или транзисторные логические схемы, дискретные аппаратные компоненты или любая их комбинация, предназначенная для выполнения функций описанных в данном документе. Процессор может представлять собой микропроцессор, но в альтернативном варианте осуществления процессор может представлять собой контроллер, микроконтроллер или машину состояний, их комбинации и т.п. Процессор может включать в себя электрическую схему, выполненную с возможностью обработки исполняемых компьютером команд. В другом варианте осуществления процессор включает в себя FPGA или другое программируемое устройство, которое выполняет логические операции без обработки исполняемых компьютером команд. Процессор также может быть реализован в виде комбинации вычислительных устройств, например, комбинации DSP и микропроцессора, множества микропроцессоров, одного или более микропроцессоров, связанных с ядром DSP, или любой другой такой конфигурации. Хотя в данном документе описано главным образом в отношении цифровой технологии, процессор может также включать в себя главным образом аналоговые компоненты. Например, некоторые или все алгоритмы обработки сигналов, описанные в данном документе, могут быть реализованы в аналоговой схеме или в смешанной аналоговой и цифровой схеме. Вычислительная среда может включать в себя компьютерную систему любого типа, включая, без ограничений, компьютерную систему, основанную на микропроцессоре, системном компьютере, процессоре цифровой обработки сигналов, портативном вычислительном устройстве, контроллере устройства или вычислительном двигателе внутри прибора и многие другие. [0293] Various illustrative logic blocks and modules described in connection with the embodiments disclosed herein may be implemented or executed by a machine, such as a data processing unit or digital signal processor (DSP), application specific integrated circuit (ASIC) , field programmable gate array (FPGA) or other programmable logic device, discrete logic gate or transistor logic circuit, discrete hardware component, or any combination thereof, designed to perform the functions described in this document. The processor may be a microprocessor, but in an alternative embodiment, the processor may be a controller, microcontroller, or state machine, combinations thereof, or the like. The processor may include electrical circuitry configured to process computer-executable instructions. In another embodiment, the processor includes an FPGA or other programmable device that performs logical operations without processing computer-executable instructions. The processor may also be implemented as a combination of computing devices, such as a combination of a DSP and a microprocessor, a plurality of microprocessors, one or more microprocessors coupled to a DSP core, or any other such configuration. Although described herein primarily in terms of digital technology, the processor may also include primarily analog components. For example, some or all of the signal processing algorithms described herein may be implemented in analog circuitry or in mixed analog and digital circuitry. The computing environment may include any type of computer system, including, without limitation, a computer system based on a microprocessor, a system computer, a digital signal processor, a portable computing device, a device controller, or an in-device computing engine, and many others.

[0294] Любые описания процессов, элементы или блоки в блок-схемах, описанных в данном документе и/или показанных на прилагаемых фигурах, следует понимать как потенциально представляющие модули, сегменты или части кода, которые включают одну или более исполняемых команд для реализации конкретных логических функций или элементов в процессе. Альтернативные варианты осуществления включены в объем вариантов осуществления, описанных в данном документе, в которых элементы или функции можно удалить, выполнить в порядке, отличном от показанных или описанных, включая по существу одновременно или в обратном порядке, в зависимости от задействованных функциональных возможностей, как будет понятно специалистам в данной области. [0294] Any process descriptions, elements, or blocks in the flowcharts described herein and/or shown in the accompanying figures should be understood to potentially represent modules, segments, or portions of code that include one or more executable instructions for implementing specific logic functions or elements in a process. Alternative embodiments are included within the scope of the embodiments described herein, in which elements or functions may be removed, performed in an order different from those shown or described, including substantially simultaneously or in reverse order, depending on the functionality involved, as will understandable to those skilled in the art.

[0295] Следует подчеркнуть, что в описанные выше варианты осуществления можно вносить множество вариаций и модификаций, элементы которых следует понимать как относящиеся к другим приемлемым примерам. Предполагается, что все такие модификации и вариации включены в объем данного описания и защищены следующей формулой изобретения. [0295] It should be emphasized that many variations and modifications can be made to the embodiments described above, elements of which should be understood to refer to other suitable examples. All such modifications and variations are intended to be included within the scope of this specification and are protected by the following claims.

Claims (63)

1. Способ определения количества копий гена выживания моторных нейронов 1 (SMN1), включающий1. A method for determining the copy number of the survival motor neuron 1 ( SMN1 ) gene, comprising: под управлением аппаратного процессора:controlled by hardware processor: получение данных секвенирования, содержащих множество прочтений последовательностей, полученных из образца от субъекта, выровненных с геном выживания моторных нейронов 1 (SMN1) или геном выживания моторных нейронов 2 (SMN2);obtaining sequencing data containing multiple sequence reads obtained from a sample from a subject aligned to the survival motor neuron gene 1 ( SMN1 ) or survival motor neuron gene 2 ( SMN2 ); определение (i) первого количества прочтений последовательности из множества прочтений последовательностей, выровненных по первой области SMN1 или SMN2, содержащей по меньшей мере 1 из первых 6 экзонов гена SMN1 или гена SMN2 соответственно, и (ii) второго количества прочтений последовательности из множества прочтений последовательностей, выровненных по второй области SMN1 или SMN2, содержащей по меньшей мере экзон 7 или экзон 8 гена SMN1 или гена SMN2 соответственно;determining (i) a first number of sequence reads from the plurality of sequence reads aligned to a first region of SMN1 or SMN2 containing at least 1 of the first 6 exons of the SMN1 gene or the SMN2 gene, respectively, and (ii) a second number of sequence reads from the plurality of sequence reads, aligned to a second region of SMN1 or SMN2 containing at least exon 7 or exon 8 of the SMN1 gene or the SMN2 gene, respectively; определение (i) первого нормализованного количества прочтений последовательности, выровненных по первой области гена SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных по второй области SMN1 или SMN2, с применением (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2 соответственно;determining (i) a first normalized number of sequence reads aligned to a first region of the SMN1 or SMN2 gene, and (ii) a second normalized number of sequence reads aligned to a second region of SMN1 or SMN2 , using (i) the length of the first SMN1 or SMN2 region and ( ii) the length of the second region SMN1 or SMN2 , respectively; определение (i) числа копий общего количества генов выживания моторных нейронов (SMN), каждый из которых является интактным геном SMN1, интактным геном SMN2, укороченным геном SMN1 или укороченным геном SMN2; и (ii) числа копий любых интактных генов SMN, каждый из которых является интактным геном SMN1 или интактным геном SMN2, с использованием модели смеси нормальных распределений, содержащей множество нормальных распределений, каждое из которых представляет разное целое число копий с учетом (i) первого нормализованного числа прочтений последовательности, выровненных по первой области SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных по второй области SMN1 или SMN2 соответственно;determining (i) the copy number of the total number of survival motor neuron (SMN) genes, each of which is an intact SMN1 gene, an intact SMN2 gene, a truncated SMN1 gene, or a truncated SMN2 gene; and (ii) the copy number of any intact SMN genes, each of which is an intact SMN1 gene or an intact SMN2 gene, using a mixture normal distribution model containing a plurality of normal distributions, each representing a different integer copy number, given (i) the first normalized the number of sequence reads aligned to the first SMN1 or SMN2 region, and (ii) the second normalized number of sequence reads aligned to the second SMN1 or SMN2 region, respectively; для одного множества специфичных для гена SMN1 оснований, связанных с интактным геном SMN1, определение наиболее вероятной комбинации из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, которые дают в сумме количество копий любых определенных интактных генов SMN с учетом (a) количества прочтений последовательностей из множества прочтений последовательностей с основаниями, которые содержат основание, специфичное для гена SMN1, и (b) количества прочтений последовательностей из множества прочтений последовательности с основаниями, которые содержат специфическое для гена SMN2 основание гена SMN2, соответствующее специфическому для гена SMN1 основанию; иfor one set of SMN1 gene-specific bases associated with an intact SMN1 gene, determining the most likely combination from a set of possible combinations, each containing a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene, which add up to the number of copies of any specific intact genes SMN taking into account (a) the number of sequence reads from the set of sequence reads with bases that contain a base specific to the SMN1 gene, and (b) the number of sequence reads from the set of sequence reads with bases that contain the SMN2 gene-specific base of the SMN2 gene corresponding a base specific to the SMN1 gene; And определение количества копий гена SMN1 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенных для специфичного для гена SMN1 основания.determining the copy number of the SMN1 gene using the most likely combination of the possible copy number of the SMN1 gene and the possible number of copies of the SMN2 gene, determined for a specific base for the SMN1 gene. 2. Способ по п. 1, в котором данные секвенирования содержат данные полногеномного секвенирования (WGS) или данные WGS с помощью коротких прочтений.2. The method of claim 1, wherein the sequencing data comprises whole genome sequencing (WGS) data or short-read WGS data. 3. Способ по пп. 1, 2, в котором субъект является субъектом-плодом, неонатальным субъектом, субъектом детского возраста, субъектом-подростком или взрослым субъектом.3. Method according to paragraphs. 1, 2, wherein the subject is a fetal subject, a neonatal subject, a pediatric subject, an adolescent subject, or an adult subject. 4. Способ по любому из пп. 1-3, в котором образец содержит клетки или внеклеточную ДНК.4. Method according to any one of paragraphs. 1-3, in which the sample contains cells or extracellular DNA. 5. Способ по любому из пп. 1-4, в котором образец содержит фетальные клетки или внеклеточную фетальную ДНК.5. Method according to any one of paragraphs. 1-4, in which the sample contains fetal cells or extracellular fetal DNA. 6. Способ по любому из пп. 1-5, в котором прочтение последовательности из множества прочтений последовательностей выравнивается с первой областью SMN1 или SMN2 или со второй областью SMN1 или SMN2 с показателем качества выравнивания, равным приблизительно нулю.6. Method according to any one of paragraphs. 1-5, wherein a sequence read from a plurality of sequence reads is aligned to a first SMN1 or SMN2 region or a second SMN1 or SMN2 region with an alignment quality score of approximately zero. 7. Способ по любому из пп. 1-6, в котором первая область SMN1 или SMN2 содержит экзон от 1 до 6 гена SMN1 или гена SMN2 соответственно и имеет длину примерно 22,2 т. п. н., а вторая область SMN1 или SMN2 содержит экзон 7 и экзон 8 гена SMN1 или гена SMN2 соответственно и имеет длину примерно 6 т. п. н.7. Method according to any one of paragraphs. 1-6, in which the first region SMN1 or SMN2 contains exon 1 to 6 of the SMN1 gene or the SMN2 gene, respectively, and has a length of approximately 22.2 kb, and the second region SMN1 or SMN2 contains exon 7 and exon 8 of the gene SMN1 or SMN2 gene, respectively, and is approximately 6 kb in length. 8. Способ по любому из пп. 1-7, в котором определение (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью, включает: определение (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью SMN1 или SMN2, с применением (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2 соответственно и (iii) глубины прочтений последовательности области генома субъекта, за исключением генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования.8. Method according to any one of paragraphs. 1-7, wherein determining (i) a first normalized number of sequence reads aligned to a first region SMN1 or SMN2 and (ii) a second normalized number of sequence reads aligned to a second region comprises: determining (i) a first normalized number of sequence reads , aligned to the first SMN1 or SMN2 region, and (ii) a second normalized number of sequence reads aligned to the second SMN1 or SMN2 region, using (i) the length of the first SMN1 or SMN2 region and (ii) the length of the second SMN1 or SMN2 region, respectively, and (iii) sequence read depths of the subject's genome region, excluding genetic loci containing the SMN1 gene and the SMN2 gene, as determined by sequencing data. 9. Способ по п. 8, в котором определение (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью SMN1 или SMN2, включает:9. The method of claim 8, wherein determining (i) a first normalized number of sequence reads aligned to the first SMN1 or SMN2 region, and (ii) a second normalized number of sequence reads aligned to the second SMN1 or SMN2 region, comprises: определение (i) нормализованного по длине области SMN1 или SMN2 количества прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) нормализованного по длине области SMN1 или SMN2 количества прочтений последовательностей, выровненных со второй областью SMN1 или SMN2, с использованием (i) длины первой области SMN1 или SMN2 и (ii) длины второй области SMN1 или SMN2 соответственно; иdetermining (i) the length-normalized number of sequence reads aligned to the first SMN1 or SMN2 region, and (ii ) the length-normalized number of sequence reads aligned to the second SMN1 or SMN2 region, using ( i ) the length of the first region SMN1 or SMN2 and (ii) the length of the second region SMN1 or SMN2 , respectively; And определение (i) первой нормализованной глубины прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и (ii) второй нормализованной глубины прочтений последовательностей, выровненных со второй областью SMN1 или SMN2, на основе (i) первого нормализованного по длине области SMN1 или SMN2 количества и (ii) второго нормализованного по длине области SMN1 или SMN2 количества соответственно, при использовании глубины прочтений последовательности области генома субъекта, отличной от генетических локусов, содержащих ген SMN1 и ген SMN2; первое нормализованное количество прочтений последовательностей, выровненных с первой областью SMN1 или SMN2, и второе нормализованное количество прочтений последовательностей, выровненных со второй областью SMN1 или SMN2, которые представляют собой первую нормализованную глубину и вторую нормализованную глубину соответственно.determining (i) a first normalized read depth of sequences aligned to the first SMN1 or SMN2 region, and (ii) a second normalized read depth of sequences aligned to a second SMN1 or SMN2 region, based on (i) a first length-normalized count of the SMN1 or SMN2 region and (ii) a second length-normalized count of the SMN1 or SMN2 region, respectively, using the depth of sequence reads of a region of the subject's genome other than the genetic loci containing the SMN1 gene and the SMN2 gene; a first normalized number of sequence reads aligned to the first SMN1 or SMN2 region, and a second normalized number of sequence reads aligned to the second SMN1 or SMN2 region, which represent the first normalized depth and the second normalized depth, respectively. 10. Способ по любому из пп. 1-9, в котором определение (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью, включает: определение (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью SMN1 или SMN2, с применением (i) содержания GC в первой области SMN1 или SMN2 и (ii) содержания GC во второй области SMN1 или SMN2 соответственно, и (iii) глубины прочтений последовательности области генома субъекта, отличной от генетических локусов, содержащих ген SMN1 и ген SMN2 по данным секвенирования и (iv) содержания GC в области генома.10. Method according to any one of paragraphs. 1-9, wherein determining (i) a first normalized number of sequence reads aligned to a first region SMN1 or SMN2 and (ii) a second normalized number of sequence reads aligned to a second region comprises: determining (i) a first normalized number of sequence reads , aligned to the first SMN1 or SMN2 region, and (ii) a second normalized number of sequence reads aligned to the second SMN1 or SMN2 region, using (i) the GC content of the first SMN1 or SMN2 region and (ii) the GC content of the second SMN1 region or SMN2 , respectively, and (iii) the depth of sequence reads of a region of the subject's genome other than the genetic loci containing the SMN1 gene and the SMN2 gene as determined by sequencing and (iv) the GC content of the genomic region. 11. Способ по любому из пп. 8-10, в котором глубина прочтений области включает среднюю глубину или медианную глубину прочтений последовательности области генома субъекта, отличной от генетических локусов, содержащих ген SMN1 и ген SMN2, по данным секвенирования.11. Method according to any one of paragraphs. 8 - 10, wherein the read depth of the region includes the average depth or median read depth of the sequence of a region of the subject's genome other than the genetic loci containing the SMN1 gene and the SMN2 gene, as determined by sequencing. 12. Способ по п. 11, в котором область включает примерно 3000 предварительно выбранных областей длиной примерно 2 т. п. н. каждая в геноме субъекта.12. The method of claim 11, wherein the region includes approximately 3000 preselected regions of approximately 2 kb in length. each in the subject's genome. 13. Способ по любому из пп. 1-12, в котором (i) первое нормализованное количество прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и/или (ii) второе нормализованное количество прочтений последовательности, выровненных со второй областью SMN1 или SMN2, составляет от примерно 30 до примерно 40.13. Method according to any one of paragraphs. 1-12, wherein (i) the first normalized number of sequence reads aligned to the first SMN1 or SMN2 region, and/or (ii) the second normalized number of sequence reads aligned to the second SMN1 or SMN2 region is from about 30 to about 40 . 14. Способ по любому из пп. 1-13, в котором модель смеси нормальных распределений включает одномерную модель смеси нормальных распределений.14. Method according to any one of paragraphs. 1-13, in which the normal distribution model includes a one-dimensional normal distribution model. 15. Способ по любому из пп. 1-14, в котором множество нормальных распределений модели смеси нормальных распределений представляет целое число копий от 0 до 10.15. Method according to any one of paragraphs. 1-14, in which the set of normal distributions of the mixture of normal distributions model represents an integer number of copies from 0 to 10. 16. Способ по любому из пп. 1-15, в котором среднее значение для каждого из множества нормальных распределений представляет собой целое количество копий, представленное нормальным распределением.16. Method according to any one of paragraphs. 1-15, wherein the mean for each of a plurality of normal distributions is the integer number of copies represented by the normal distribution. 17. Способ по любому из пп. 1-16, в котором определение (i) числа копий всех генов SMN и (ii) числа копий любых интактных генов SMN включает определение (i) числа копий всех генов SMN и (ii) числа копий любых интактных генов SMN с использованием модели смеси нормальных распределений, и первого предварительно определенного порога апостериорной вероятности с учетом (i) первого нормализованного количества прочтений последовательности, выровненных с первой областью SMN1 или SMN2, и (ii) второго нормализованного количества прочтений последовательности, выровненных со второй областью SMN1 или SMN2 соответственно.17. Method according to any one of paragraphs. 1-16, wherein determining (i) the copy number of all SMN genes and (ii) the copy number of any intact SMN genes includes determining (i) the copy number of all SMN genes and (ii) the copy number of any intact SMN genes using a normal mixture model distributions, and a first predetermined posterior probability threshold given (i) a first normalized number of sequence reads aligned to the first SMN1 or SMN2 region, and (ii) a second normalized number of sequence reads aligned to the second SMN1 or SMN2 region, respectively. 18. Способ по п. 17, в котором первый определенный порог апостериорной вероятности равен 0,95.18. The method of claim 17, wherein the first determined posterior probability threshold is 0.95. 19. Способ по любому из пп. 1-18, включающий определение количества копий укороченных генов SMN с использованием (i) определенного количества копий общего количества генов SMN и (ii) определенного количества копий интактных генов SMN.19. Method according to any one of paragraphs. 1-18, comprising determining the copy number of truncated SMN genes using (i) a certain copy number of total SMN genes and (ii) a certain copy number of intact SMN genes. 20. Способ по п. 19, в котором количество копий укороченных генов SMN представляет собой разницу (i) определенного общего количества копий генов SMN и (ii) определенного количества копий интактных генов SMN.20. The method of claim 19, wherein the copy number of the truncated SMN genes is the difference between (i) the determined total copy number of the SMN genes and (ii) the determined copy number of the intact SMN genes. 21. Способ по любому из пп. 1-20, в котором специфичное для гена SMN1 основание представляет собой энхансер сплайсинга.21. Method according to any one of paragraphs. 1-20, in which the SMN1 gene-specific base is a splicing enhancer. 22. Способ по любому из пп. 1-21, в котором специфичное для гена SMN1 основание представляет собой основание в c.840 гена SMN1.22. Method according to any one of paragraphs. 1-21, wherein the SMN1 gene-specific base is the base at c.840 of the SMN1 gene. 23. Способ по любому из пп. 1-22, в котором наиболее вероятная комбинация возможного количества копий гена SMN1 и возможного количества копий гена SMN2 связана с самой высокой апостериорной вероятностью, по сравнению с другими комбинациями множества комбинаций с заданным (a) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количеством прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат соответствующее специфичное для гена SMN2 основание.23. Method according to any one of paragraphs. 1-22, in which the most likely combination of a possible SMN1 gene copy number and a possible SMN2 gene copy number is associated with the highest posterior probability, compared to other combinations of a plurality of combinations given (a) the number of sequence reads from the plurality of sequence reads with bases that contain an SMN1 gene-specific base, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain the corresponding SMN2 gene-specific base. 24. Способ по любому из пп. 1-23, в котором определение наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2 включает: определение наиболее вероятной комбинации из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, которые дают в сумме определенное количество копий любых интактных генов SMN с учетом соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN2 основание гена SMN2, соответствующее специфичному для гена SMN1 основанию.24. Method according to any one of paragraphs. 1-23, in which determining the most likely combination of a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene includes: determining the most likely combination from a plurality of possible combinations, each of which contains a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene, which give in total, a certain number of copies of any intact SMN genes, taking into account the ratio of (a) the number of sequence reads from the set of sequence reads with bases that contain the SMN1 gene-specific base, and (b) the number of sequence reads from the set of sequence reads with bases that contain the specific for the SMN2 gene, the base of the SMN2 gene corresponding to the base specific for the SMN1 gene. 25. Способ по любому из пп. 1-24, в котором определение наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2 включает:25. Method according to any one of paragraphs. 1-24, in which determining the most likely combination of a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene includes: определение (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN2 основание гена SMN2, соответствующее специфичному для гена SMN1 основанию;determining (a) the number of sequence reads from the plurality of sequence reads with bases that contain the SMN1 gene-specific base, and (b) the number of sequence reads from the plurality of sequence reads with bases that contain the SMN2 gene-specific base corresponding to the gene-specific SMN1 base; определение соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN2 основание гена SMN2, соответствующее специфичному для гена SMN1 основанию; иdetermining the ratio of (a) the number of sequence reads from a plurality of sequence reads with bases that contain an SMN1 gene-specific base, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain an SMN2 gene-specific base corresponding to the SMN2 gene-specific SMN1 gene base; And определение наиболее вероятной комбинации из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, которые дают в сумме определенное количество копий любого интактного гена SMN на основе соотношения (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN2 основание гена SMN2, соответствующее специфичному для гена SMN1 основанию.determining the most likely combination from a set of possible combinations, each containing a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene, which add up to a certain number of copies of any intact SMN gene based on the ratio of (a) the number of sequence reads from the set of sequence reads with bases that contain the SMN1 gene-specific base, and (b) the number of sequence reads from the plurality of sequence reads with bases that contain the SMN2 gene-specific base of the SMN2 gene corresponding to the SMN1 gene-specific base. 26. Способ по любому из пп. 1-25,26. Method according to any one of paragraphs. 1-25, в котором определение наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2 включает: для каждого из множества специфичных для гена SMN1 оснований, определение наиболее вероятной комбинации из множества возможных комбинаций, каждая из которых содержит возможное количество копий гена SMN1 и возможное количество копий гена SMN2, которые дают в сумме определенное количество копий любых интактных генов SMN, которая связана с наибольшей апостериорной вероятностью с учетом (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN1 основание, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат специфичное для гена SMN2 основание гена SMN2, соответствующее специфичному для гена SMN1 основанию, иwherein determining the most likely combination of a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene includes: for each of a plurality of SMN1 gene-specific bases, determining the most likely combination from a plurality of possible combinations, each of which contains a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene that add up to a certain number of copies of any intact SMN genes that is associated with the largest posterior probability given (a) the number of sequence reads from the set of sequence reads with bases that contain the SMN1 gene-specific base, and (b) the number sequence reads from a plurality of sequence reads with bases that contain an SMN2 gene-specific SMN2 gene base corresponding to an SMN1 gene-specific base, and в котором определение количества копий гена SMN1 включает в себя: определение количества копий гена SMN1 на основе возможного количества копий гена SMN1 наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенных для каждого из множества специфичных для гена SMN1 оснований.wherein determining the copy number of the SMN1 gene includes: determining the copy number of the SMN1 gene based on the possible copy number of the SMN1 gene, the most likely combination of the possible copy number of the SMN1 gene and the possible copy number of the SMN2 gene, determined for each of a plurality of SMN1 gene-specific bases. 27. Способ по п. 26, в котором специфичное для гена SMN1 основание имеет соответствие с каждым из множества характерных для конкретного гена SMN1 оснований, отличных от специфичного для гена SMN1 основания, выше заранее определенного порога соответствия.27. The method of claim 26, wherein the SMN1 gene-specific base has a match with each of the plurality of SMN1 gene-specific bases other than the SMN1 gene-specific base above a predetermined match threshold. 28. Способ по п. 27, в котором порог соответствия составляет 97%.28. The method according to claim 27, in which the compliance threshold is 97%. 29. Способ по любому из пп. 26-28, в котором множество специфичных для гена SMN1 оснований включает 8 специфичных для гена SMN1 оснований.29. Method according to any one of paragraphs. 26-28, in which the plurality of SMN1 gene-specific bases includes 8 SMN1 gene-specific bases. 30. Способ по любому одному из пп. 26-29, в котором каждое из множества специфичных для гена SMN1 оснований находится в интроне 6, экзоне 7, интроне 7 или экзоне 8 гена SMN1.30. Method according to any one of paragraphs. 26-29, wherein each of a plurality of SMN1 gene-specific bases is located in intron 6, exon 7, intron 7, or exon 8 of the SMN1 gene. 31. Способ по любому из пп. 26-30, в котором множество оснований, специфичных для гена SMN1, если субъект принадлежит к первой расе, множество оснований, специфичных для гена SMN1, если субъект принадлежит ко второй расе, и множество оснований, специфичных для гена SMN1, если субъект принадлежит к неизвестной расе, различаются.31. Method according to any one of paragraphs. 26-30, wherein a plurality of bases specific to the SMN1 gene if the subject belongs to a first race, a plurality of bases specific to the SMN1 gene if the subject belongs to a second race, and a plurality of bases specific to the SMN1 gene if the subject belongs to an unknown race, differ. 32. Способ по любому из пп. 26-31, в котором раса субъекта неизвестна, и при этом множество оснований, специфичных для гена SMN1, не является специфичным для расы.32. Method according to any one of paragraphs. 26-31, in which the race of the subject is unknown and yet many bases specific to the SMN1 gene are not race specific. 33. Способ по любому из пп. 26-31, в котором раса субъекта известна, и при этом множество оснований, специфичных для гена SMN1, специфично для расы субъекта.33. Method according to any one of paragraphs. 26-31, wherein the race of the subject is known and wherein a plurality of bases specific to the SMN1 gene are specific to the race of the subject. 34. Способ по любому из пп. 26-33, дополнительно включающий:34. Method according to any one of paragraphs. 26-33, additionally including: получение информации о расе субъекта; иobtaining information about the subject's race; And на основе полученной информации о расе выбирают множество оснований, специфичных для гена SMN1, из множества оснований, специфичных для гена SMN1.based on the obtained race information, a plurality of bases specific for the SMN1 gene are selected from the plurality of bases specific for the SMN1 gene. 35. Способ по любому из пп. 1-34, в котором определение количества копий гена SMN1 включает: определение количества копий гена SMN1 и количества копий гена SMN2 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенных для каждого из множества оснований, специфичных для гена SMN1.35. Method according to any one of paragraphs. 1-34, in which determining the copy number of the SMN1 gene includes: determining the copy number of the SMN1 gene and the copy number of the SMN2 gene using the most likely combination of the possible number of copies of the SMN1 gene and the possible number of copies of the SMN2 gene determined for each of a plurality of bases specific for the gene SMN1 . 36. Способ по любому одному из пп. 1-35, в котором определение количества копий гена SMN1 включает: определение количества копий гена SMN1 с помощью наиболее вероятной комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2, определенных для основания, специфичного для гена SMN1, и второго предварительно определенного порога апостериорной вероятности для комбинации возможного количества копий гена SMN1 и возможного количества копий гена SMN2.36. Method according to any one of paragraphs. 1-35, wherein determining the SMN1 gene copy number includes: determining the SMN1 gene copy number using the most likely combination of a possible SMN1 gene copy number and a possible SMN2 gene copy number determined for a base specific to the SMN1 gene, and a second predetermined posterior threshold probabilities for the combination of the possible number of copies of the SMN1 gene and the possible number of copies of the SMN2 gene. 37. Способ по п. 36, в котором второй предварительно определенный порог апостериорной вероятности представляет собой 0,6 или 0,8.37. The method of claim 36, wherein the second predetermined posterior probability threshold is 0.6 or 0.8. 38. Способ по любому из пп. 26-37, в котором большинство возможных значений количества копий гена SMN1 согласуется, и причем определенное количество копий гена SMN1 представляет собой согласованное возможное количество копий гена SMN1.38. Method according to any one of paragraphs. 26-37, in which the majority of possible SMN1 gene copy number values are agreed upon, and wherein the determined SMN1 gene copy number represents the agreed upon possible SMN1 gene copy number. 39. Способ по п. 38, включающий:39. The method according to claim 38, including: определение возможной комбинации, содержащей возможное количество копий гена SMN1 и возможное количество копий гена SMN2, которые дают в сумме определенное количество копий любого интактного гена SMN с учетом (a) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат любое из множества оснований, специфичных для гена SMN1, и (b) количества прочтений последовательности из множества прочтений последовательностей с основаниями, которые содержат любое из множества соответствующих оснований, специфичных для гена SMN2; иdetermining a possible combination containing a possible number of copies of the SMN1 gene and a possible number of copies of the SMN2 gene that add up to a certain number of copies of any intact SMN gene, taking into account (a) the number of sequence reads from a plurality of sequence reads with bases that contain any of the plurality of bases, specific for the SMN1 gene, and (b) the number of sequence reads from a plurality of sequence reads with bases that contain any of a plurality of corresponding bases specific for the SMN2 gene; And определение возможного количества копий возможной комбинации представляет собой согласованное возможное количество копий гена SMN1.determining the possible copy number of a possible combination is the consensus possible copy number of the SMN1 gene. 40. Способ по любому одному из пп. 1-39, в котором определение количества копий гена SMN1 включает определение количества копий гена SMN1, равного нулю, единице или более единицы.40. Method according to any one of paragraphs. 1-39, wherein determining the copy number of the SMN1 gene includes determining the copy number of the SMN1 gene to be zero, one, or greater than one. 41. Способ по любому из пп. 1-40, включающий определение статуса спинальной мышечной атрофии (SMA) субъекта на основе количества копий гена SMN1.41. Method according to any one of paragraphs. 1-40, including determining the spinal muscular atrophy (SMA) status of a subject based on the copy number of the SMN1 gene. 42. Способ по п. 41, в котором статус SMA субъекта включает SMA, носитель SMA/отсутствие SMA и не носитель SMA.42. The method of claim 41, wherein the subject's SMA status includes SMA, SMA carrier/non-SMA carrier, and non-SMA carrier. 43. Способ по любому из пп. 1-42, включающий определение субъекта как молчащего носителя SMA с использованием ряда прочтений последовательности из множества прочтений последовательностей, выровненных с g.27134 гена SMN1, и оснований прочтений последовательностей, выровненных с g.27134 гена SMN1.43. Method according to any one of paragraphs. 1-42, comprising identifying a subject as a silent carrier of SMA using a set of sequence reads from a plurality of sequence reads aligned to g.27134 of the SMN1 gene and base sequence reads aligned to g.27134 of the SMN1 gene. 44. Способ по одному из пп. 1-43, включающий определение рекомендации по лечению для субъекта на основе определенного количества копий гена SMN1.44. Method according to one of paragraphs. 1-43, including determining a treatment recommendation for a subject based on a certain number of copies of the SMN1 gene. 45. Способ по п. 44, в котором рекомендация по лечению включает в себя введение субъекту Nusinersen и/или Zolgensma.45. The method of claim 44, wherein the treatment recommendation includes administering Nusinersen and/or Zolgensma to the subject.
RU2021116398A 2019-09-05 2020-08-26 Methods and systems for diagnostics according to whole genome sequencing data RU2807604C2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US62/896,548 2019-09-05
US62/908,555 2019-09-30
US63/006,651 2020-04-07

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2023129453A Division RU2023129453A (en) 2019-09-05 2020-08-26 METHODS AND SYSTEMS FOR DIAGNOSTICS ACCORDING TO WHOLE GENOME SEQUENCING DATA

Publications (2)

Publication Number Publication Date
RU2021116398A RU2021116398A (en) 2022-12-07
RU2807604C2 true RU2807604C2 (en) 2023-11-17

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017136059A1 (en) * 2016-02-03 2017-08-10 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
RU2671156C1 (en) * 2017-08-21 2018-10-29 Общество с ограниченной ответственностью "Центр Генетики и Репродуктивной Медицины "ГЕНЕТИКО" Method of preimplantation genetic diagnostics of type 1 spinal muscular atrophy

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017136059A1 (en) * 2016-02-03 2017-08-10 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
RU2671156C1 (en) * 2017-08-21 2018-10-29 Общество с ограниченной ответственностью "Центр Генетики и Репродуктивной Медицины "ГЕНЕТИКО" Method of preimplantation genetic diagnostics of type 1 spinal muscular atrophy

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANMING FENG et al., "The next generation of population-based spinal muscular atrophy carrier screening: comprehensive pan-ethnic SMN1 copy-number and sequence variant analysis by massively parallel sequencing", GENETICS IN MEDICINE,Vol. 19, No. 8, 26 January 2017 (2017-01-26), page 936-944. *

Similar Documents

Publication Publication Date Title
US20210166781A1 (en) Methods and systems for diagnosing from whole genome sequencing data
KR102638152B1 (en) Verification method and system for sequence variant calling
US10734117B2 (en) Apparatuses and methods for determining a patient&#39;s response to multiple cancer drugs
Macalalad et al. Highly sensitive and specific detection of rare variants in mixed viral populations from massively parallel sequence data
WO2018144782A1 (en) Methods of detecting somatic and germline variants in impure tumors
US20160319347A1 (en) Systems and methods for detection of genomic variants
AU2014346680A1 (en) Targeted screening for mutations
WO2020132151A1 (en) Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples
WO2018075332A1 (en) Pharmacogenomics of intergenic single-nucleotide polymorphisms and in silico modeling for precision therapy
Russell et al. Variant discovery using next-generation sequencing and its future role in pharmacogenetics
JP2021101629A (en) System and method for genome analysis and gene analysis
JP2024524869A (en) Methods and systems for identifying recombinant mutants
JP2021101629A5 (en)
Cao et al. NGS4THAL, a one-stop molecular diagnosis and carrier screening tool for thalassemia and other hemoglobinopathies by next-generation sequencing
WO2018090991A1 (en) Universal haplotype-based noninvasive prenatal testing for single gene diseases
RU2807604C2 (en) Methods and systems for diagnostics according to whole genome sequencing data
EP3588506B1 (en) Systems and methods for genomic and genetic analysis
CN113053460A (en) Systems and methods for genomic and genetic analysis
Sorrentino et al. PacMAGI: A pipeline including accurate indel detection for the analysis of PacBio sequencing data applied to RPE65
US20210202037A1 (en) Systems and methods for genomic and genetic analysis
Peng et al. Overcoming the pitfalls of next-generation sequencing–based molecular diagnosis of Shwachman-Diamond Syndrome
Karakoyun et al. Challenges in clinical interpretation of next-generation sequencing data: Advantages and Pitfalls
WO2017120556A1 (en) A system for determining diplotypes
US20230326549A1 (en) Copy number variant calling for lpa kiv-2 repeat
Stephens Sensitive detection of complex and repetitive structural variation with long read sequencing data