RU2777072C1 - Method for identifying fetal aneuploidy in a blood sample of the pregnant woman - Google Patents

Method for identifying fetal aneuploidy in a blood sample of the pregnant woman Download PDF

Info

Publication number
RU2777072C1
RU2777072C1 RU2021117323A RU2021117323A RU2777072C1 RU 2777072 C1 RU2777072 C1 RU 2777072C1 RU 2021117323 A RU2021117323 A RU 2021117323A RU 2021117323 A RU2021117323 A RU 2021117323A RU 2777072 C1 RU2777072 C1 RU 2777072C1
Authority
RU
Russia
Prior art keywords
cfdna
samples
readings
fetal
pregnant
Prior art date
Application number
RU2021117323A
Other languages
Russian (ru)
Inventor
Егор Борисович Прохорчук
Александр Михайлович Мазур
Ольга Николаевна Васюткина
Original Assignee
Общество с ограниченной ответственностью «Хроматест»
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью «Хроматест» filed Critical Общество с ограниченной ответственностью «Хроматест»
Application granted granted Critical
Publication of RU2777072C1 publication Critical patent/RU2777072C1/en

Links

Abstract

FIELD: medicine.
SUBSTANCE: invention relates to the field of medicine, namely, to non-invasive prenatal diagnosis of fetal aneuploidies by extracellular DNA of the mother's blood, and can be used to identify genetic fetal anomalies, aneuploidies, including monosomies and trisomies, during the first trimester of pregnancy by non-invasive methods, safe both for the child and for the mother. Method for prenatal diagnosis of aneuploidies by fetal cfDNA in the blood of the mother includes preparing genomic libraries, determining the nucleotide sequence of fragments of the genomic library, consisting in conducting digital analysis of the cfDNA by sequencing. The resulting short reads of the DNA sequences undergo statistical analysis including the stage of removing PCR duplicates, followed by determining the probabilities of belonging of the studied sample to the group with fetal euploidy and to the group with fetal aneuploidy. The method includes an improved stage associated with the selection of target genomic regions from candidate regions and a stage related to the analysis of the studied sample of the cfDNA of the pregnant woman simultaneously with the analysis of the cfDNA samples of other pregnant women, providing a possibility of correcting the systematic deviations in the laboratory preparation of the studied cfDNA samples and thereby increasing the accuracy of diagnosis of fetal aneuploidy.
EFFECT: possibility of increasing the accuracy of diagnosis of fetal aneuploidy by non-invasive prenatal diagnosis.
7 cl, 2 tbl, 2 ex

Description

Область техникиTechnical field

Изобретение относится к области медицины, а именно неинвазивной пренатальной диагностике анеуплоидий плода по внеклеточной ДНК крови матери, и может быть использовано для определения генетических аномалий плода (анеуплоидий, в том числе моносомий и трисомий) на первом триместре беременности безопасными как для ребенка, так и для матери неинвазивными методами.The invention relates to the field of medicine, namely, non-invasive prenatal diagnosis of fetal aneuploidies by extracellular DNA of the mother's blood, and can be used to determine fetal genetic abnormalities (aneuploidies, including monosomies and trisomies) in the first trimester of pregnancy, safe for both the child and for mothers by non-invasive means.

Уровень техникиState of the art

Анеуплоидия является следствием изменений кариотипа, при котором число хромосом в клетках плода не кратно гаплоидному набору (в отличие от нормального состояния кариотипа, эуплоидии, при котором число хромосом равно двум гаплоидным наборам). Примерами анеуплоидии, которая может быть выявлена с использованием заявленного способа, являются моносомия и трисомия, а также частичная трисомия или частичная моносомия (соответственно, приобретение дополнительных копий или делеция крупных участков хромосом, как правило, одного из хромосомных плеч). Частными примерами являются трисомия по хромосоме 21 (синдром Дауна), трисомия по хромосоме 13 (синдром Патау), трисомия по хромосоме 18 (синдром Эдвардса), моносомия по хромосоме Х (синдром Шерешевского-Тернера), наличие более чем двух половых хромосом, например, синдром Клайнфельтера (XXY) и т.д. Перечень связанных с анеуплоидиями заболеваний, которые могут быть диагностированы заявленным способом, не ограничен каким-либо специальным образом. Ввиду тяжести заболеваний, связанных с анеуплоидией, постановка соответствующего диагноза может являться основанием для проведения аборта, в связи с чем имеют большое значение скорость проведения такой диагностики, точность постановки результата и возможность проведения исследований в более ранние сроки беременности методами, безопасными как для ребенка, так и для матери.Aneuploidy is a consequence of changes in the karyotype, in which the number of chromosomes in the cells of the fetus is not a multiple of the haploid set (in contrast to the normal state of the karyotype, euploidy, in which the number of chromosomes is equal to two haploid sets). Examples of aneuploidy that can be detected using the claimed method are monosomy and trisomy, as well as partial trisomy or partial monosomy (respectively, the acquisition of additional copies or deletion of large sections of chromosomes, usually one of the chromosome arms). Particular examples are trisomy on chromosome 21 (Down syndrome), trisomy on chromosome 13 (Patau syndrome), trisomy on chromosome 18 (Edwards syndrome), monosomy on chromosome X (Shereshevsky-Turner syndrome), the presence of more than two sex chromosomes, for example, Klinefelter syndrome (XXY), etc. The list of aneuploidy-related diseases that can be diagnosed by the claimed method is not limited in any particular way. Due to the severity of diseases associated with aneuploidy, the establishment of an appropriate diagnosis may be the basis for an abortion, and therefore the speed of such a diagnosis, the accuracy of the result and the possibility of conducting studies at an earlier stage of pregnancy using methods that are safe for both the child and and for the mother.

В настоящее время для обнаружения анеуплоидии плода у беременной женщины используют плановый УЗИ в сочетании с биохимическим анализом крови (тройной тест с использованием альфафетопротеина (АФП), хорионического гонадотропина (ХГЧ) и неконъюгированного эстриола (НЭ) (патенты US5324667, US5622176). Это позволяет выявить более 90% случаев возникновения наиболее распространенных анеуплоидий плода, к которым относятся: трисомия по хромосоме 21 (синдром Дауна), трисомия по хромосоме 18 (синдром Эдвардса), трисомия по хромосоме 13 (синдром Патау). В случае, если по результатам проведенного исследования выявлена анеуплоидия плода, у беременной женщины может быть проведен забор генетического материала плода методами амниоцентеза или биопсии ворсин хориона. Эти процедуры являются инвазивными и обладают рисками спонтанного выкидыша до 1% или инфицирования плода.Currently, to detect fetal aneuploidy in a pregnant woman, routine ultrasound is used in combination with a biochemical blood test (triple test using alpha-fetoprotein (AFP), human chorionic gonadotropin (hCG) and unconjugated estriol (NE) (US5324667, US5622176 patents). This allows you to identify more than 90% of cases of the most common fetal aneuploidies, which include: trisomy on chromosome 21 (Down syndrome), trisomy on chromosome 18 (Edwards syndrome), trisomy on chromosome 13 (Patau syndrome). fetal aneuploidy, a pregnant woman may have fetal genetic material harvested by amniocentesis or chorionic villus biopsy, these procedures are invasive and carry risks of spontaneous miscarriage of up to 1% or infection of the fetus.

Последнее время для диагностики анеуплоидий плода наиболее активно используются неинвазивные способы пренатального скрининга, основанные на анализе генетического материала плода - внеклеточной ДНК (вкДНК) плода в крови беременной женщины. В норме вкДНК плода составляет от 3% общей вкДНК будущей матери [LoYM, CorbettaN, ChamberlainPF, RaiV, SargentIL, RedmanCW, WainscoatJS. Presence of fetal DNA in maternal plasma and serum. Lancet. 1997 Aug 16; 350 (9076): 485-7]. Recently, for the diagnosis of fetal aneuploidies, non-invasive methods of prenatal screening based on the analysis of the genetic material of the fetus - extracellular DNA (cfDNA) of the fetus in the blood of a pregnant woman are most actively used. Normally, fetal cfDNA accounts for 3% of the total cfDNA of the expectant mother [LoYM, CorbettaN, ChamberlainPF, RaiV, SargentIL, RedmanCW, WainscoatJS. Presence of fetal DNA in maternal plasma and serum. Lancet. 1997 Aug 16; 350 (9076): 485-7].

Из уровня техники известны способы неинвазивного пренатального скрининга, основанные на прочтении всех фрагментов вкДНК в образце крови или плазмы беременной женщины. Полученные чтения представляют собой смесь фрагментов полного генома из клеток как матери, так и плаценты (клеток плода). В частности, известен способ определения анеуплоидии плода методом секвенирования (патент RU2529784C2), согласно которому определяют количество чтений на каждой хромосоме в геноме человека, вычисляют среднее число чтений на каждой хромосоме, по которому делают вывод о наличии или отсутствии анеуплоидии плода. The prior art provides non-invasive prenatal screening methods based on reading all cfDNA fragments in a blood or plasma sample from a pregnant woman. The resulting reads are a mixture of whole genome fragments from both maternal and placental (fetal cells) cells. In particular, a method for determining fetal aneuploidy by sequencing is known (patent RU2529784C2), according to which the number of readings on each chromosome in the human genome is determined, the average number of readings on each chromosome is calculated, by which a conclusion is made about the presence or absence of fetal aneuploidy.

Однако чтобы обнаруженные различия в количестве чтений с разных хромосом были статистически значимы, необходимо получить не менее 10 миллионов чтений на образец крови или плазмы беременной женщины. Получение такого большого количества данных требует значительного времени и использования дорогостоящего оборудования (секвенаторов нового поколения), что не позволяет внедрить данную технологию в повседневную практику. Поэтому актуальной является разработка нового способа неинвазивного пренатального скрининга, позволяющего уменьшить время на проведение теста и снизить стоимость исследования при сохранении достоверности получаемого результата.However, for the detected differences in the number of readings from different chromosomes to be statistically significant, it is necessary to obtain at least 10 million readings per blood or plasma sample of a pregnant woman. Obtaining such a large amount of data requires considerable time and the use of expensive equipment (new generation sequencers), which does not allow the introduction of this technology into everyday practice. Therefore, it is relevant to develop a new method of non-invasive prenatal screening, which allows to reduce the time for the test and reduce the cost of the study while maintaining the reliability of the result.

Из уровня техники известен способ неинвазивной пренатальной диагностики трисомии по хромосоме 21, основанный на цифровой ПЦР (патент RU2734484C1). Данный подход подразумевает разделение выделенной вкДНК из плазмы крови беременной женщины на две аликвоты и проведение независимого анализа каждой аликвоты. В первой аликвоте проводят количественную оценку двух генов: гена PRDM15 с хромосомы 21 и гена EIF2C1 с хромосомы 1. По соотношению количества этих генов делают вывод о соотношении хромосом 21 и 1 в образце. В норме такое соотношение должно быть равно 1, при трисомии плода по 21 хромосоме соотношение больше 1. Помимо этого, если соотношение количества генов больше 1, определяют долю вкДНК плода. Вторую аликвоту сначала обрабатывают эндонуклеазой рестрикции, чувствительной к метилированию. Полноту протекания рестрикции проверяют при помощи ПЦР в реальном времени по гену АСТВ, содержащему сайт рестрикции. При наличии сигнала от гена АСТВ делают вывод о неполном протекании процедуры рестрикции, в этом случае процедуру повторяют. Затем долю вкДНК плода определяют с помощью подсчета количества двух генов: гиперметилированного у плода гена RASSF1A, который представлен только в вкДНК плода (при условии полного протекания реакции рестрикции), и гена EIF2C1, который представлен в вкДНК матери и плода. Результат анализа считают достоверным, если две оценки доли вкДНК отличаются не более чем на 10%. The prior art method for non-invasive prenatal diagnosis of trisomy on chromosome 21, based on digital PCR (patent RU2734484C1). This approach involves dividing the isolated cfDNA from the blood plasma of a pregnant woman into two aliquots and conducting an independent analysis of each aliquot. In the first aliquot, two genes are quantified: the PRDM15 gene from chromosome 21 and the EIF2C1 gene from chromosome 1. Based on the ratio of the number of these genes, a conclusion is made about the ratio of chromosomes 21 and 1 in the sample. Normally, this ratio should be equal to 1, with fetal trisomy on chromosome 21, the ratio is greater than 1. In addition, if the ratio of the number of genes is greater than 1, the proportion of fetal cfDNA is determined. The second aliquot is first treated with a methylation sensitive restriction endonuclease. The completeness of the restriction is checked by real-time PCR on the ACTV gene containing the restriction site. If there is a signal from the ACTV gene, it is concluded that the restriction procedure has not been completed completely; in this case, the procedure is repeated. The proportion of fetal cfDNA is then determined by counting the number of two genes: the hypermethylated RASSF1A gene in the fetus, which is present only in the fetal cfDNA (assuming the restriction reaction is complete), and the EIF2C1 gene, which is present in the maternal and fetal cfDNA. The result of the analysis is considered reliable if the two estimates of the proportion of cfDNA differ by no more than 10%.

В данном способе не требуется анализировать всю выделенную вкДНК, что существенно снижает трудоемкость и себестоимость метода относительно полногеномного секвенирования. Основным недостатком данного способа является возможность его использования для выявления трисомии только по хромосоме 21. Для того чтобы расширить анализ либо на другие анеуплоидии (например, на трисомию по хромосомам 13 или 18), либо на частичные трисомии по хромосоме 21 (например, отсутствие короткого плеча хромосомы 21), необходимо провести дополнительное независимое исследование: выбор новых референсных генов, проверку анализа на точность. Более того, в данном способе хромосома 21 представлена одним геном и одной парой праймеров. Замена, делеция или дупликация нуклеотидов в области генома, где отжигаются праймеры, может привести к отсутствию сигнала от всей хромосомы. В таком случае провести анализ на наличие анеуплоидии по этой хромосоме будет невозможно. С учетом вышеперечисленных факторов, важной задачей является поиск нового, более универсального способа, который позволит выявлять любую анеуплоидию плода в образце вкДНК при наличии референсной выборки образцов с данной анеуплоидией.In this method, it is not required to analyze the entire isolated cfDNA, which significantly reduces the complexity and cost of the method relative to whole genome sequencing. The main disadvantage of this method is that it can be used to detect trisomy only on chromosome 21. In order to expand the analysis either to other aneuploidies (for example, to trisomy on chromosomes 13 or 18) or to partial trisomy on chromosome 21 (for example, the absence of a short arm chromosome 21), it is necessary to conduct an additional independent study: the choice of new reference genes, checking the analysis for accuracy. Moreover, in this method, chromosome 21 is represented by one gene and one pair of primers. Substitution, deletion or duplication of nucleotides in the region of the genome where primers are annealed can lead to the absence of a signal from the entire chromosome. In this case, it will be impossible to analyze for the presence of aneuploidy on this chromosome. Taking into account the above factors, an important task is to find a new, more universal method that will allow the detection of any fetal aneuploidy in a cfDNA sample in the presence of a reference sample of samples with this aneuploidy.

Известен способ диагностики анеуплоидий плода по вкДНК плода в крови матери с использованием дифференциального метилирования ДНК матери и плода (Заявка на изобретение RU 2012119187). Данный способ позволяет сократить время проведения анализа за счет выборочного секвенирования только тех фрагментов генома, которые дифференциально метилированы у плода и у матери. Для этого проводят амплификацию специально отобранных дифференциально метилированных регионов (ДМР), после чего проводят бисульфитную конвертацию полученных фрагментов ДНК и определяют последовательность конвертированных фрагментов. Благодаря бисульфитной конвертации возможно точно отделить чтения плода от чтений матери и достоверно определить наличие трисомии с гораздо меньшим, по сравнению с полногеномным методом, набором данных.A known method for diagnosing fetal aneuploidy by fetal cfDNA in maternal blood using differential methylation of maternal and fetal DNA (Application for invention RU 2012119187). This method allows to reduce the analysis time due to selective sequencing of only those genome fragments that are differentially methylated in the fetus and mother. To do this, amplification of specially selected differentially methylated regions (DMR) is carried out, after which bisulfite conversion of the obtained DNA fragments is carried out and the sequence of the converted fragments is determined. Thanks to bisulfite conversion, it is possible to accurately separate fetal readings from maternal readings and reliably determine the presence of trisomy with a much smaller data set compared to the whole genome method.

Однако профиль метилирования обладает индивидуальными особенностями у каждого человека, что может приводить к снижению точности тестирования и увеличивать минимальное необходимое количество данных, а значит, и стоимость теста. Поэтому важной задачей является поиск нового селективного подхода, основанного на отличиях в свойствах вкДНК матери и плода.However, the methylation profile is individual for each person, which can lead to a decrease in the accuracy of testing and increase the minimum required amount of data, and hence the cost of the test. Therefore, an important task is to find a new selective approach based on differences in the properties of maternal and fetal cfDNA.

Наиболее близким к заявляемому решению является способ неинвазивной пренатальной диагностики анеуплоидий плода, основанный на определении числа чтений в заранее выбранных регионах генома человека (Патент RU2627673 C2). Кандидатные регионы генома отбирают с использованием критерия, основанного на различии в открытости хроматина между плацентой и клетками крови матери не менее чем на 20%. Для выбора итоговых регионов используют референсную выборку образцов, содержащих как образцы беременных женщин без анеуплоидий плода, так и образцы беременных женщин с анеуплоидией плода по конкретной хромосоме. В каждом образце определяют число чтений в каждом регионе, проводят удаление дубликатов чтений, полученных в ходе амплификации, затем полученное число чтений корректируют на общее покрытие образца. Решение о наличии анеуплоидии у плода принимают по результатам сравнения скорректированного покрытия в каждом регионе генома с распределением покрытия в референсной выборке образцов, с последующим вычислением вероятности наличия и отсутствия анеуплоидии, при этом обе вероятности сравнивают с пороговыми значениями.Closest to the claimed solution is a method for non-invasive prenatal diagnosis of fetal aneuploidies, based on determining the number of readings in pre-selected regions of the human genome (Patent RU2627673 C2). Candidate regions of the genome are selected using a criterion based on a difference in chromatin openness between the placenta and maternal blood cells of at least 20%. To select the final regions, a reference set of samples containing both samples of pregnant women without fetal aneuploidy and samples of pregnant women with fetal aneuploidy for a particular chromosome is used. In each sample, the number of readings in each region is determined, duplicate readings obtained during amplification are removed, then the resulting number of readings is corrected for the total coverage of the sample. The decision on the presence of aneuploidy in the fetus is made by comparing the adjusted coverage in each region of the genome with the coverage distribution in the reference sample sample, followed by calculating the probability of the presence and absence of aneuploidy, while both probabilities are compared with threshold values.

В изобретении RU2627673 предлагается новый подход к определению анеуплоидий плода с помощью секвенирования целевых регионов генома, основанный на отличии открытости хроматина между клетками крови матери и плаценты плода с использованием этапа, связанного с добавлением вырожденных меток до этапа приготовления геномных библиотек, на основании которых производят удаление ПЦР-дупликатов, которые вносят сдвиг в распределение покрытий регионов. Однако данный способ существенно зависит от качества и количества референсных образцов. Чем больше образцов доступно, тем больше между ними систематических отклонений, которые связаны с воспроизводимостью отдельных этапов процесса лабораторной подготовки образцов из-за: использования различного лабораторного оборудования с различающейся погрешностью (многоканальные пипетки, плашки, центрифуги, печи, различные пробирки, амплификаторы), необходимости секвенирования образцов отдельными партиями и на разных платформах, различий в применяемых технологиях проведения исследований в различных лабораториях и т.д. В известном способе RU2627673 C2 данный фактор не учитывается, что накладывает существенные ограничения на возможность его масштабирования с обеспечением высокой точности получаемого результата (анализ должен проводиться в максимально похожих условиях, лучше всего в одной лаборатории на одном приборе и одним и тем же лаборантом). Кроме того, в процессе обработки данных секвенирования проводят процедуру нормализации на общее покрытие, что понижает точность результата диагностики. Помимо этого, классификация образца основана на предположении о независимости количества чтений в разных регионах, которое в случае анализа нескольких регионов с одной хромосомы может привести к неправильной трактовке полученных результатов. Таким образом, данный способ классификации образцов накладывает определенные ограничения на максимально возможное количество регионов при проведении исследовании.Invention RU2627673 proposes a new approach to the determination of fetal aneuploidies using sequencing of target regions of the genome, based on the difference in the openness of chromatin between maternal and fetal placental blood cells using the step associated with the addition of degenerate marks to the step of preparing genomic libraries, on the basis of which PCR is removed -duplicates, which introduce a shift in the distribution of coverages of regions. However, this method significantly depends on the quality and quantity of reference samples. The more samples are available, the more systematic deviations between them are associated with the reproducibility of individual stages of the laboratory sample preparation process due to: the use of various laboratory equipment with varying errors (multichannel pipettes, plates, centrifuges, ovens, various test tubes, cyclers), the need sequencing of samples in separate batches and on different platforms, differences in research technologies used in different laboratories, etc. In the well-known method RU2627673 C2, this factor is not taken into account, which imposes significant restrictions on the possibility of its scaling with high accuracy of the result obtained (the analysis should be carried out under the most similar conditions, preferably in the same laboratory on the same device and by the same laboratory assistant). In addition, during the processing of sequencing data, a normalization procedure for the total coverage is carried out, which reduces the accuracy of the diagnostic result. In addition, the classification of the sample is based on the assumption that the number of readings in different regions is independent, which, in the case of analyzing several regions from one chromosome, can lead to an incorrect interpretation of the results. Thus, this method of classifying samples imposes certain restrictions on the maximum possible number of regions during the study.

Технической проблемой, решаемой заявляемым изобретением, является разработка способа неинвазивной пренатальной диагностики анеуплоидии плода по вкДНК плода в крови матери, лишенного всех вышеперечисленных недостатков, характеризующегося повышением чувствительности и точности диагностики.The technical problem solved by the claimed invention is the development of a method for non-invasive prenatal diagnosis of fetal aneuploidy by fetal cfDNA in the mother's blood, devoid of all of the above disadvantages, characterized by increased sensitivity and accuracy of diagnosis.

Раскрытие изобретенияDisclosure of invention

Техническим результатом является повышение точности пренатальной диагностики анеуплоидий плода на ранних этапах беременности.The technical result is to increase the accuracy of prenatal diagnosis of fetal aneuploidy in the early stages of pregnancy.

Заявляемый способ позволяет одновременно выявлять анеуплоидию плода по хромосомам 13, 18, 21 и X.The claimed method allows simultaneous detection of fetal aneuploidy on chromosomes 13, 18, 21 and X.

Технический результат достигается при использовании способа неинвазивной пренатальной диагностики анеуплоидий плода по образцу вкДНК из крови беременной женщины, включающего:The technical result is achieved by using a method for non-invasive prenatal diagnosis of fetal aneuploidy based on a sample of cfDNA from the blood of a pregnant woman, including:

выбор целевых регионов генома из кандидатных регионов, в качестве которых используют сайты гиперчувствительности к ДНКазе I в геноме человека, посредством отбора сайтов, характеризующихся открытым состоянием хроматина в клетках-источниках вкДНК у взрослого человека и закрытым состоянием хроматина в клетках-источниках вкДНК плода, с последующим определением среднего нормализованного покрытия кандидатных регионов в группах беременных и небеременных женщин по результатам полногеномного секвенирования вкДНК, выделенной из образцов крови беременных и небеременных женщин, при этом в качестве целевых регионов используют регионы, характеризующиеся наибольшей разницей в среднем нормализованном покрытии между группами беременных и небеременных женщин;selection of target regions of the genome from candidate regions, which are sites of hypersensitivity to DNase I in the human genome, by selecting sites characterized by an open chromatin state in adult cfDNA source cells and a closed chromatin state in fetal cfDNA source cells, followed by determination of the average normalized coverage of candidate regions in groups of pregnant and non-pregnant women based on the results of whole genome sequencing of cfDNA isolated from blood samples of pregnant and non-pregnant women, while regions with the largest difference in average normalized coverage between groups of pregnant and non-pregnant women are used as target regions;

выделение исследуемого образца вкДНК из крови беременной женщины;isolation of the test sample of cfDNA from the blood of a pregnant woman;

внесение к фрагментам вкДНК молекулярных меток, каждая из которых содержит: случайную последовательность нуклеотидов, универсальную последовательность и специфичную последовательность, комплементарную целевым регионам генома; introducing molecular labels to the cfDNA fragments, each of which contains: a random nucleotide sequence, a universal sequence and a specific sequence complementary to the target regions of the genome;

амплификацию целевых регионов выделенной вкДНК, с использованием праймеров к универсальной и к специфичной последовательностям в молекулярных метках;amplification of the target regions of the isolated cfDNA using primers to the universal and specific sequences in molecular tags;

приготовление геномных библиотек из полученных ампликонов;preparation of genomic libraries from the obtained amplicons;

секвенирование геномных библиотек;sequencing of genomic libraries;

картирование полученных последовательностей на референсный геном или отдельные его части;mapping the obtained sequences to the reference genome or its separate parts;

определение групп чтений дубликатов — чтений, картированных на одну и ту же координату референсного генома и содержащих одну и ту же случайную последовательность в молекулярных метках; determination of groups of duplicate readings - readings mapped to the same coordinate of the reference genome and containing the same random sequence in molecular labels;

удаление в каждой группе чтений дубликатов всех чтений, кроме одной копии, которая представляет собой исходную молекулу вкДНК, существовавшую до амплификации;removal in each group of readings of duplicates of all readings, except for one copy, which is the original cfDNA molecule that existed before amplification;

определение количества исходных молекул вкДНК в каждом из целевых регионов (наблюдаемого количества молекул); с последующим сравнением с аналогичными значениями, полученными для обучающей выборки образцов вкДНК беременных женщин с эуплоидией и анеуплоидией плода;determination of the number of initial cfDNA molecules in each of the target regions (the observed number of molecules); with subsequent comparison with similar values obtained for the training sample of cfDNA samples of pregnant women with euploidy and aneuploidy of the fetus;

определение вероятностей принадлежности исследуемого образца к группе с эуплоидией плода и к группе с анеуплоидией плода, по которым делают вывод о наличии анеуплоидии у плода;determination of the probabilities of belonging of the test sample to the group with fetal euploidy and to the group with fetal aneuploidy, according to which a conclusion is made about the presence of aneuploidy in the fetus;

при выборе целевых регионов из кандидатных регионов удаляют те из них, геномные координаты которых пересекаются с координатами известных повторов в геноме человека, а наибольшую разницу в среднем нормализованном покрытии между двумя группами беременных и небеременных женщин для выбора целевых регионов из кандидатных регионов определяют исходя из наибольшего значения разности площадей, ограниченных графиками среднего нормализованного покрытия в группах беременных и небеременных женщин, в окне фиксированной длины;when selecting target regions from candidate regions, those whose genomic coordinates intersect with the coordinates of known repeats in the human genome are removed, and the largest difference in the average normalized coverage between two groups of pregnant and non-pregnant women for selecting target regions from candidate regions is determined based on the largest value differences in areas bounded by mean normalized coverage plots in groups of pregnant and non-pregnant women in a fixed length window;

исследуемый образец вкДНК анализируют в партии вместе с другими образцами вкДНК беременных женщин, содержащей, по меньшей мере, 8 анализируемых образцов, при этом количество исходных молекул вкДНК в каждом из целевых регионов (наблюдаемого количества молекул) определяют для всех образцов партии посредством определения параметра, представляющего собой отношение числа всех чтений всех образцов партии во всех целевых регионах к числу чтений после удаления чтений дубликатов во всех целевых регионах всех образцов партии (далее параметр батч-коррекции), после чего проводят коррекцию всех образцов в партии с использованием параметра батч-коррекции: для каждого образца в каждом целевом регионе определяют ожидаемое количество молекул путем деления числа чтений в целевом регионе образца на значение параметра батч-коррекции; дополнительно определяют в каждом образце разность между наблюдаемым и ожидаемым значениями количества молекул для каждого целевого региона, которую используют для сравнения количеств молекул с аналогичными значениями, полученными для обучающей выборки образцов вкДНК беременных женщин с эуплоидией и анеуплоидией плода. the test sample of cfDNA is analyzed in a batch together with other samples of cfDNA of pregnant women containing at least 8 analyzed samples, while the number of original cfDNA molecules in each of the target regions (observed number of molecules) is determined for all samples of the batch by determining a parameter representing is the ratio of the number of all readings of all batch samples in all target regions to the number of readings after deleting duplicate readings in all target regions of all batch samples (hereinafter referred to as the batch correction parameter), after which all samples in the batch are corrected using the batch correction parameter: for each sample in each target region determine the expected number of molecules by dividing the number of readings in the target region of the sample by the value of the batch correction parameter; additionally, the difference between the observed and expected values of the number of molecules for each target region is determined in each sample, which is used to compare the number of molecules with similar values obtained for the training sample of cfDNA samples of pregnant women with euploidy and aneuploidy of the fetus.

Для отбора сайтов с открытым состоянием хроматина в качестве клеток-источников вкДНК у взрослого человека используют эндотелиальные и гематопоэтические клеточные линии; для отбора сайтов с закрытым состоянием хроматина в качестве клеток-источников вкДНК у плода используют клетки внешних оболочек плода (хориона).Endothelial and hematopoietic cell lines are used to select sites with an open chromatin state as cfDNA source cells in an adult; for the selection of sites with a closed state of chromatin, cells of the outer membranes of the fetus (chorion) are used as cfDNA source cells in the fetus.

Для формирования кандидатных регионов из БД сайтов гиперчувствительности к ДНКазе I в геноме человека отбирают сайты длиной не менее 100 нуклеотидов с последующим приведением (расширением) к одинаковой для всех длине 1000 нуклеотидов.To form candidate regions from the database of hypersensitivity sites to DNase I in the human genome, sites with a length of at least 100 nucleotides are selected, followed by reduction (expansion) to the same length of 1000 nucleotides for all.

Для формирования результатов полногеномного секвенирования вкДНК используют, по меньшей мере, по 50 образцов беременных и небеременных женщин.To form the results of whole genome sequencing of cfDNA, at least 50 samples of pregnant and non-pregnant women are used.

Для выявления отклонений по хромосомам 13, 18, 21, X выбирают, по меньшей мере, 5 целевых регионов, характеризующихся наибольшей разницей в среднем нормализованном покрытии, при этом для определения базового уровня числа чтений выбирают по меньшей мере 2 целевых региона на других хромосомах из следующего перечня хромосом:1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 16, 17, 20, 22.To detect abnormalities on chromosomes 13, 18, 21, X, at least 5 target regions are selected that have the largest difference in the average normalized coverage, while at least 2 target regions on other chromosomes from the following are selected to determine the base level of the number of readings list of chromosomes: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 16, 17, 20, 22.

Диагностируют анеуплоидию у плода в случае, если вероятность эуплоидии не превышает 0,1, а вероятность анеуплоидии не ниже, чем 0,9.Aneuploidy in the fetus is diagnosed if the probability of euploidy does not exceed 0.1, and the probability of aneuploidy is not lower than 0.9.

Для определения вероятностей принадлежности исследуемого образца к группе с эуплоидией плода и к группе с анеуплоидией плода используют, по меньшей мере, одну классификационную модель, в качестве которой используют математическую модель логистического регрессионного анализа.To determine the probabilities of belonging of the test sample to the group with fetal euploidy and to the group with fetal aneuploidy, at least one classification model is used, which is used as a mathematical model of logistic regression analysis.

На основании результатов проведенной диагностики возможно формирование группы риска беременных женщин.Based on the results of the diagnostics, it is possible to form a risk group for pregnant women.

Технический результат достигается при использовании совокупности признаков, включая усовершенствованный этап, связанный с выбором целевых регионов генома из кандидатных регионов, направленный на повышение точности пренатальной диагностики анеуплоидий плода, и этап, касающийся проведения анализа исследуемого образца вкДНК беременной женщины одновременно с анализом образцов вкДНК других беременных женщин (не менее 8 анализируемых образцов в партии, один из которых является целевым для исследования для постановки диагноза), что позволяет скорректировать систематические отклонения при лабораторной подготовке исследуемых образцов вкДНК и тем самым также повысить точность диагностики анеуплоидий плода. Увеличение точности диагностики достигается и благодаря использованию классификационной модели, так как это позволяет избавиться от дополнительных этапов обработки данных, таких как нормализация числа чтений на общее число чтений в образце. Кроме того, в заявляемом способе нет ограничений на максимальное количество целевых регионов, используемых при анализе, а точность классификационной модели тем выше, чем больше целевых регионов (при наличии достаточного числа образцов в референсной выборке).The technical result is achieved by using a combination of features, including an improved stage associated with the selection of target regions of the genome from candidate regions, aimed at improving the accuracy of prenatal diagnosis of fetal aneuploidy, and the stage regarding the analysis of the test sample of cfDNA of a pregnant woman simultaneously with the analysis of cfDNA samples of other pregnant women (at least 8 analyzed samples in a batch, one of which is the target for research for diagnosis), which allows you to correct systematic deviations in the laboratory preparation of the studied cfDNA samples and thereby also increase the accuracy of diagnosing fetal aneuploidy. An increase in the accuracy of diagnostics is also achieved through the use of a classification model, since this allows you to get rid of additional data processing steps, such as normalizing the number of readings by the total number of readings in the sample. In addition, in the proposed method there are no restrictions on the maximum number of target regions used in the analysis, and the accuracy of the classification model is the higher, the more target regions (if there is a sufficient number of samples in the reference sample).

Осуществление изобретенияImplementation of the invention

В настоящем изобретении использованы следующие термины и определения.The following terms and definitions are used in the present invention.

Референсный геном человека – электронная база данных нуклеотидных последовательностей, которая представляет собой эталонный образец генома человека: последовательности, соответствующие гаплоидному набору хромосом (всех хромосом генома в единственной копии).The reference human genome is an electronic database of nucleotide sequences, which is a reference sample of the human genome: sequences corresponding to the haploid set of chromosomes (all chromosomes of the genome in a single copy).

Чтение – нуклеотидная последовательность одного из фрагментов геномной библиотеки, определенная с помощью секвенирования.Reading is the nucleotide sequence of one of the fragments of the genomic library, determined by sequencing.

Картирование чтений – определение координат (хромосомы и позиции на ней) чтений в референсном геноме.Mapping of readings - determination of the coordinates (chromosome and position on it) of readings in the reference genome.

Регион генома – определённый участок референсного генома, задаваемый геномными координатами (хромосомой и позициями начала и конца участка). Например, обозначение chr21:32925263-32925495 означает, что участок расположен на хромосоме 21, начинается с 32925263 нуклеотида этой хромосомы и заканчивается на 32925495 нуклеотиде.A genome region is a specific region of the reference genome, defined by genomic coordinates (chromosome and positions of the beginning and end of the region). For example, the designation chr21:32925263-32925495 means that the region is located on chromosome 21, starts at nucleotide 32925263 of this chromosome and ends at nucleotide 32925495.

Геномная библиотека – приготовленный особым образом образец ДНК, доступный для чтения на секвенаторе. Процедура приготовления геномных библиотек включает в себя следующие операции с молекулами ДНК: достройку концов, лигирование адаптеров, отбор по длине, и ПЦР-амплификацию. A genomic library is a DNA sample prepared in a special way, available for reading on a sequencer. The procedure for preparing genomic libraries includes the following operations with DNA molecules: terminating, adapter ligation, length selection, and PCR amplification.

Батч-коррекция – коррекция чисел чтений, полученных от нескольких образцов в одном запуске секвенирования.Batch correction - correction of the number of reads obtained from several samples in one sequencing run.

Покрытие региона – число чтений, которое приходится на каждую геномную координату, входящую в регион.Region coverage is the number of reads per genomic coordinate included in the region.

Способ пренатальной диагностики анеуплоидий по вкДНК плода в крови матери включает исследование сыворотки крови матери. Для исследования кровь забирают в вакуумную пробирку, центрифугируют для отделения плазмы от клеточной массы. Из плазмы крови выделяют вкДНК на колонках, после чего к фрагментам вкДНК вносят вырожденные молекулярные метки и приготавливают геномные библиотеки. Далее определяют нуклеотидную последовательность фрагментов геномной библиотеки, которая заключается в цифровом анализе внеклеточной ДНК посредством секвенирования. Полученные короткие чтения последовательностей ДНК подвергают статистическому анализу (который может быть реализован программным путем), который включает этап удаления ПЦР-дубликатов с последующим определением вероятностей принадлежности исследуемого образца к группе с эуплоидией плода и к группе с анеуплоидией плода. О наличии анеуплоидии плода судят, если вероятность принадлежности группе анеуплоидии превышает пороговое значение.A method for prenatal diagnosis of aneuploidy by fetal cfDNA in maternal blood includes a study of maternal blood serum. For research, blood is taken into a vacuum tube, centrifuged to separate the plasma from the cell mass. cfDNA is isolated from blood plasma on columns, after which degenerate molecular labels are added to the cfDNA fragments and genomic libraries are prepared. Next, the nucleotide sequence of fragments of the genomic library is determined, which consists in the digital analysis of extracellular DNA by sequencing. The obtained short readings of DNA sequences are subjected to statistical analysis (which can be implemented by software), which includes the step of removing PCR duplicates, followed by determining the probabilities of belonging of the test sample to the group with fetal euploidy and to the group with fetal aneuploidy. The presence of fetal aneuploidy is judged if the probability of belonging to the aneuploidy group exceeds the threshold value.

Далее представлено более детальное описание заявляемого изобретения.The following is a more detailed description of the claimed invention.

1. Формирование данных о кандидатных регионов, характеризующихся открытым хроматином в клетках-источниках вкДНК матери и закрытым хроматином в клетках-источниках вкДНК плода.1. Formation of data on candidate regions characterized by open chromatin in maternal cfDNA source cells and closed chromatin in fetal cfDNA source cells.

Из открытой базы данных регуляторных элементов генома человека [см. например, N.C. Sheffield, R.E. Thurman, L. Song, A. Safi, J.A. Stamatoyannopoulos, B. Lenhard, G.E. Crawford, T.S. Furey, Pattern s of regulatory activity across diverse human cell types predict tissue identity, transcription factor binding, and long-range interactions, Genome Res., 23 (2013) 777–788] отбирают сайты гиперчувствительности к ДНКазе I, для которых известно открытое состояние хроматина в эндотелиальных и гематопоэтических клеточных линиях, и закрытое состояние хроматина в клетках внешних оболочек плода (хориона). Всего в указанной базе обнаружено 13637 таких сайтов, из которых 149 сайтов находятся на 21 хромосоме. Сайты в базе имеют длину 100 нуклеотидов, для последующего анализа для выявления локальных изменений покрытия выбранные сайты расширяют до размера 1000 нуклеотидов посредством отсчета одинакового количества нуклеотидов в обе стороны последовательности. В результате было получено 13637 кандидатных регионов со всех хромосом генома человека, кроме Y (в связи с отсутствием в открытой базе данных сведений по этой хромосоме).From an open database of regulatory elements of the human genome [see. e.g. N.C. Sheffield, R.E. Thurman, L. Song, A. Safi, J.A. Stamatoyannopoulos, B. Lenhard, G.E. Crawford, T.S. Furey, Patterns of regulatory activity across diverse human cell types predict tissue identity, transcription factor binding, and long-range interactions, Genome Res., 23 (2013) 777–788] select DNase I hypersensitivity sites for which the open state is known chromatin in endothelial and hematopoietic cell lines, and the closed state of chromatin in the cells of the outer membranes of the fetus (chorion). In total, 13637 such sites were found in this database, of which 149 sites are located on chromosome 21. The sites in the database are 100 nucleotides long; for subsequent analysis to detect local changes in coverage, the selected sites are expanded to a size of 1000 nucleotides by counting the same number of nucleotides in both directions of the sequence. As a result, 13637 candidate regions were obtained from all chromosomes of the human genome, except for Y (due to the lack of information on this chromosome in the open database).

Далее отфильтровывают регионы, которые пересекаются с повторяющимися элементами генома человека. Для этого могут быть использованы геномные координаты повторов, полученные с помощью программы RepeatMasker (http://www.repeatmasker.org), которая основана на базе данных повторяющихся элементов в геноме человека Repbase [J. Jurka, RepbaseUpdate: a database and an electronic journal of repetitive elements, Trends Genet., 16 (2000) 418–420]. В результате указанной обработки были отобраны не пересекающиеся с повторяющимися элементами генома человека10610 кандидатных регионов, из них 118 на 21 хромосоме.Next, regions are filtered out that intersect with repeating elements of the human genome. For this, genomic coordinates of repeats obtained using the RepeatMasker program (http://www.repeatmasker.org), which is based on the database of repeating elements in the human genome Repbase [J. Jurka, RepbaseUpdate: a database and an electronic journal of repetitive elements, Trends Genet., 16 (2000) 418–420]. As a result of this processing, 10,610 candidate regions were selected that do not intersect with repeating elements of the human genome, of which 118 are on chromosome 21.

2. Формирование данных результатов полногеномного секвенирования вкДНК, выделенной из образцов крови беременных и небеременных женщин.2. Formation of data on the results of whole genome sequencing of cfDNA isolated from blood samples of pregnant and non-pregnant women.

Для формирования базы данных используют чтения образцов беременных и небеременных женщин, не менее 50 образцов в каждой группе. Чтения образцов беременных женщин отбирают из заранее полученных чтений полногеномного секвенирования вкДНК для проведения неинвазивного пренатального скрининга, для получения чтений образцов небеременных применяют тот же лабораторный протокол. В каждом образце определяют покрытие каждого кандидатного региона. Используют только образцы, в которых покрытие кандидатных регионов генома не ниже 0,3x (покрывается чтениями не менее 30% всех нуклеотидов всех кандидатных регионов генома).To form a database, readings of samples of pregnant and non-pregnant women are used, at least 50 samples in each group. Pregnant woman sample reads are selected from pre-obtained cfDNA whole genome sequencing reads for non-invasive prenatal screening, and the same laboratory protocol is used to obtain non-pregnant sample reads. In each sample, the coverage of each candidate region is determined. Only samples are used in which the coverage of candidate genome regions is at least 0.3x (covered by reads of at least 30% of all nucleotides of all candidate genome regions).

3. Определение среднего нормализованного покрытия кандидатных регионов в группах беременных и небеременных женщин.3. Determination of the average normalized coverage of candidate regions in groups of pregnant and non-pregnant women.

Для устранения различий в исходном количестве чтений в образцах беременных и небеременных женщин применяют следующий вид нормализации: определяют один образецбеременной или небеременной женщины, в котором число картированных чтений (с качеством не ниже 20 по шкале PHRED) меньше, чем во всех остальных образцах. Затем для каждого образца вычисляют коэффициент нормализации, равный отношению числа чтений в образце к минимальному числу чтений. Далее в каждом образце покрытие регионов делят на коэффициент нормализации: например, если минимальное число чтений во всех образцах составляет 2 миллиона, а в анализируемом образце 6 миллионов чтений, то покрытие в каждом регионе в анализируемом образце следует поделить на 3 (данное число получено делением 6 миллионов чтений на 2 миллиона чтений). Для удобства визуализации в каждом образце проводят процедуру сглаживания, а именно для каждой геномной координаты применяют суммирование покрытия в скользящем окне размером 10 нуклеотидов. После этого в каждом регионе определяют среднее покрытие в двух группах образцов: беременных и небеременных женщин.To eliminate differences in the initial number of readings in samples of pregnant and non-pregnant women, the following type of normalization is used: one sample of a pregnant or non-pregnant woman is determined in which the number of mapped readings (with a quality of at least 20 on the PHRED scale) is less than in all other samples. Then, for each sample, a normalization factor is calculated equal to the ratio of the number of readings in the sample to the minimum number of readings. Next, in each sample, the region coverage is divided by the normalization factor: for example, if the minimum number of readings in all samples is 2 million, and in the analyzed sample there are 6 million readings, then the coverage in each region in the analyzed sample should be divided by 3 (this number is obtained by dividing 6 million readings per 2 million readings). For convenience of visualization, a smoothing procedure is carried out in each sample, namely, coverage summation in a sliding window of 10 nucleotides in size is used for each genomic coordinate. After that, in each region, the average coverage is determined in two groups of samples: pregnant and non-pregnant women.

4. Выбор целевых регионов из БД кандидатных регионов для анализа основных трисомий плода.4. Selection of target regions from the database of candidate regions for the analysis of major fetal trisomies.

Для каждой хромосомы в отдельности вычисляют оценку каждого региона: в регионе длиной 1000 нуклеотидов проводят поиск максимальной разности площадей под двумя графиками среднего нормализованного покрытия (для групп беременных и небеременных) в окне с фиксированной длиной 100 нуклеотидов. Наиболее подходящими для анализа считают регионы с максимальным значением данной метрики. Полученные значения сортируют по убыванию, получая таким образом ранжированный список регионов для каждой хромосомы. For each chromosome separately, an estimate of each region is calculated: in a region of 1000 nucleotides in length, a search is made for the maximum area difference under two graphs of the average normalized coverage (for pregnant and non-pregnant groups) in a window with a fixed length of 100 nucleotides. The regions with the maximum value of this metric are considered the most suitable for analysis. The resulting values are sorted in descending order, thus obtaining a ranked list of regions for each chromosome.

Для анализа основных анеуплоидий плода и отклонений в числе хромосом X выбирают целевые регионы из начала ранжированного списка. Для анализа основных трисомий выбирают не менее 5 регионов с каждой из хромосом 13, 18, 21, X. Кроме того, выбирают не менее 2 регионов с каждой из остальных хромосом, кроме хромосомы 19. 19 хромосома генома человека обладает рядом особенностей: например, среднее количество оснований G и C в ней отличается от среднего по всему геному, поэтому использование регионов с 19 хромосомы при анализе основных анеуплоидий плода способно снизить точность метода. To analyze the main fetal aneuploidies and deviations in the number of X chromosomes, target regions are selected from the beginning of the ranked list. To analyze the main trisomies, at least 5 regions are selected from each of chromosomes 13, 18, 21, X. In addition, at least 2 regions are selected from each of the other chromosomes, except for chromosome 19. Chromosome 19 of the human genome has a number of features: for example, the average the number of G and C bases in it differs from the average throughout the genome, so the use of regions from chromosome 19 in the analysis of the main fetal aneuploidies can reduce the accuracy of the method.

5. Выделение внеклеточной ДНК из крови беременной женщины.5. Isolation of extracellular DNA from the blood of a pregnant woman.

Материалом для исследований служит венозная кровь беременной женщины, что позволяет исключить риск инфекции плода или провоцирования выкидыша, который присутствует при проведении теста стандартными инвазивными методиками, такими как биопсия хориона или амниоцентез. Периферическую кровь матери собирают, например, в две пробирки по 9 мл, содержащие ЭДТА для предотвращения коагуляции. После забора крови содержимое пробирок перемешивают переворачиванием пробирки вверх-вниз, например, 10 раз. Далее пробирки незамедлительно перевозят в лабораторию для заготовки плазмы. Перевозка пробирок должна проходить при +4°C для предотвращения разрушения клеток крови матери и увеличения фракции геномной ДНК матери, содержащейся во вкДНК плазмы крови. Заготовка плазмы должна проводиться не позже, чем через 4 часа после забора крови, это необходимо для предотвращения обогащения фракции вкДНК геномной ДНК матери из разрушающихся клеток крови матери.The material for research is the venous blood of a pregnant woman, which eliminates the risk of infection of the fetus or provoking a miscarriage, which is present during the test by standard invasive techniques, such as chorionic biopsy or amniocentesis. Maternal peripheral blood is collected, for example, in two 9 ml tubes containing EDTA to prevent coagulation. After blood sampling, the contents of the tubes are mixed by turning the tubes up and down, for example, 10 times. Next, the tubes are immediately transported to the laboratory for plasma harvesting. Tubes should be transported at +4°C to prevent destruction of maternal blood cells and increase the fraction of maternal genomic DNA contained in plasma cfDNA. Plasma harvesting should be carried out no later than 4 hours after blood sampling, this is necessary to prevent enrichment of the cfDNA fraction of the mother's genomic DNA from degrading maternal blood cells.

Заготовка плазмы может быть реализована известным способом. В частности, для заготовки плазмы необходимо провести первое центрифугирование (9 мл) при 1600g, 10 минут, при +4°C для отделения фракции плазмы, богатой клетками. После проведения центрифугирования верхнюю фазу (верхнюю часть) переносят в несколько охлажденных во льду пробирок по 2 мл, не затрагивая интерфазу, в ней могут находиться клетки крови матери. Пробирки подписывают в соответствии с маркировкой первоначального образца. Далее проводят второе центрифугирование (2 мл) при 16000g, 10 минут, при +4°C для отделения оставшихся в плазме фрагментов клеток. Супернатант переносят в охлажденные 2 мл LoBind пробирки (DNA LoBindTube 2,0 ml (Eppendorf AG)). Супернатант необходимо отбирать аккуратно, не задевая небольшой осадок клеток. Пробирки подписывают в соответствии с маркировкой первоначального образца.The plasma preparation can be realized in a known manner. In particular, for plasma harvesting, it is necessary to carry out the first centrifugation (9 ml) at 1600g, 10 minutes, at +4°C to separate the cell-rich plasma fraction. After centrifugation, the upper phase (upper part) is transferred into several 2 ml tubes cooled in ice, without affecting the interphase, it may contain maternal blood cells. The tubes are signed in accordance with the labeling of the original sample. Next, a second centrifugation (2 ml) is carried out at 16000g, 10 minutes, at +4°C to separate the cell fragments remaining in the plasma. The supernatant is transferred to chilled 2 ml LoBind tubes (DNA LoBindTube 2.0 ml (Eppendorf AG)). The supernatant must be carefully removed without touching the small cell sediment. The tubes are signed in accordance with the labeling of the original sample.

Выделение вкДНК из плазмы проводят с помощью набора реагентов QIAamp CirculatingNucleic Acid Kit (Qiagen) по протоколу производителя.Isolation of cfDNA from plasma was performed using the QIAamp CirculatingNucleic Acid Kit (Qiagen) according to the manufacturer's protocol.

6. Внесение к фрагментам вкДНК молекулярной метки для определения чтений, происходящих из одной исходной молекулы ДНК, и амплификация целевых регионов выделенной вкДНК.6. Introduction of a molecular label to the cfDNA fragments to determine the reads originating from one original DNA molecule, and amplification of the target regions of the isolated cfDNA.

Внесение к фрагментам вкДНК молекулярной метки может быть реализовано по известному протоколу [Q. Peng, C. Xu, D. Kim, M. Lewis, J. DiCarlo, Y. Wang, TargetedSinglePrimerEnrichmentSequencingwithSingleEndDuplex-UMI, Sci. Rep., 9 (2019).], который отличается высокой эффективностью захвата целевых молекул ДНК относительно других методов секвенирования с молекулярной меткой, а также дает информацию о том, с какой цепи исходной молекулы ДНК произошла амплификация. Молекулярная метка, содержащая случайную последовательность нуклеотидов, пришивается в составе двухцепочечного адаптера непосредственно к двухцепочечному исходному фрагменту ДНК. На одном конце двухцепочечного адаптера имеются нуклеотиды с основаниями 5’-InvddT-iisodG-iisodG-3’. Основание InvddT (тимидин дидезоксирибонуклеотид) присоединен к цепочке нуклеотидов по связи 5’-5’, в то время как сам он не может образовывать 3’-связь, что позволяет предотвратить дальнейшее присоединение других молекул ДНК с 5’-конца дуплексного адаптера. Благодаря этому исключается ситуация, когда к одной молекуле ДНК прикрепляется несколько адаптеров с разными молекулярными метками. Помимо этого, данный протокол позволяет использовать одиночные чтения при секвенировании, что дешевле, чем использование парно-концевых чтений, необходимое в других протоколах внесения молекулярной метки. Кроме того, выполнение протокола занимает около 8 часов, то есть 1 рабочий день, и это существенно меньше, чем при выполнении других подобных методов (например, дуплексного секвенирования с последующей гибридизацией ДНК-проб, где требуется 2-3 дня и большее количество этапов лабораторного протокола).Introduction to fragments of cfDNA molecular label can be implemented according to the known protocol [Q. Peng, C. Xu, D. Kim, M. Lewis, J. DiCarlo, Y. Wang, TargetedSinglePrimerEnrichmentSequencingwithSingleEndDuplex-UMI, Sci. Rep., 9 (2019).], which has a high capture efficiency of target DNA molecules relative to other molecular label sequencing methods, and also provides information on which strand of the original DNA molecule was amplified. A molecular label containing a random sequence of nucleotides is sewn as part of a double-stranded adapter directly to the double-stranded original DNA fragment. At one end of the double-stranded adapter there are nucleotides with bases 5'-InvddT-iisodG-iisodG-3'. The InvddT base (thymidine dideoxyribonucleotide) is attached to the chain of nucleotides through a 5'-5' bond, while it itself cannot form a 3'-bond, which prevents further attachment of other DNA molecules from the 5'-end of the duplex adapter. This eliminates the situation when several adapters with different molecular labels are attached to one DNA molecule. In addition, this protocol allows the use of single reads in sequencing, which is cheaper than the use of paired-end reads required in other molecular labeling protocols. In addition, the protocol takes about 8 hours, that is, 1 working day, and this is significantly less than when performing other similar methods (for example, duplex sequencing followed by DNA probe hybridization, which requires 2-3 days and more laboratory steps). protocol).

Для приготовления геномных библиотек берут по 5 нг внеклеточной ДНК, выделенной из плазмы крови беременной женщины, в конечном объеме 30 мкл. Лигирование адаптеров с молекулярной меткой проводят с помощью набора реагентов NEB II Ultra (New England Biolabs) по протоколу производителя с концентрацией адаптеров 40 нг/мкл, инкубируют 60 минут при 20°С. Далее смесь очищают от свободных адаптеров, для этого добавляют 87 мкл магнитных частиц AMPure (AMPure ХР Bead (Agencourt)) по протоколу производителя. Далее для обогащения смеси фрагментами вкДНК, происходящими из отобранных целевых регионов генома человека, проводят ПЦР. При этом используют 10 мкл PCR master mix (Q5 high fidelity 2x master mix (New England Biolabs)), 2 мкл универсального праймера с концентрацией 10 мкМ, 8 мкл смеси специфичных праймеров с концентрацией каждого праймера 20 нM, 16 мкл очищенной смеси фрагментов вкДНК. Амплификацию проводят по программе: предварительная денатурация 98°C 2 минуты, и 10 циклов: денатурация 98°C 30 секунд, отжиг праймеров 69°C 30 секунд, достройка цепи 72°C 30 секунд, и на последнем этапе окончательная достройка цепи 72°C 5 минут, после чего смесь хранят при 4°C. For the preparation of genomic libraries, 5 ng of extracellular DNA isolated from the blood plasma of a pregnant woman is taken in a final volume of 30 μl. Molecularly labeled adapters were ligated with the NEB II Ultra Reagent Kit (New England Biolabs) according to the manufacturer's protocol with 40 ng/µl adapters, incubated for 60 minutes at 20°C. Next, the mixture is purified from free adapters by adding 87 μl of AMPure magnetic particles (AMPure XP Bead (Agencourt)) according to the manufacturer's protocol. Next, PCR is performed to enrich the mixture with cfDNA fragments originating from selected target regions of the human genome. In this case, 10 µl of PCR master mix (Q5 high fidelity 2x master mix (New England Biolabs)), 2 µl of a universal primer at a concentration of 10 µM, 8 µl of a mixture of specific primers with a concentration of each primer of 20 nM, 16 µl of a purified mixture of cfDNA fragments are used. Amplification is carried out according to the program: pre-denaturation 98°C 2 minutes, and 10 cycles: denaturation 98°C 30 seconds, primer annealing 69°C 30 seconds, chain completion 72°C 30 seconds, and at the last stage final chain completion 72°C 5 minutes, after which the mixture is stored at 4°C.

Затем ампликоны чистят с помощью AMPure, используя 45 мкл магнитных частиц по протоколу производителя, и отбирают 23 мкл очищенной смеси для второго ПЦР, предназначенного для внесения к фрагментам ДНК индексов для секвенирования. При этом используют 10 мкл PCR master mix (Q5 high fidelity 2x master mix (New England Biolabs)), 1 мкл праймера Fw с концентрацией 10 мкМ, 10 мкл индексного праймера In, отдельного для каждого образца, с концентрацией 10 нM, 23 мкл смеси ампликонов. Амплификацию проводят по следующему протоколу: предварительная денатурация при температуре 98°C в течение 2 минут, всего 20 циклов: денатурация при температуре 98°C в течение 30 секунд, отжиг праймеров при температуре 69°C в течение 30 секунд, достройка цепи при температуре 72°C в течение 30 секунд, и на последнем этапе - окончательная достройка цепи при температуре 72°C в течение 5 минут, после чего смесь охлаждают до 4°C и чистят с помощью AMPure, используя 45 мкл шариков по протоколу производителя.The amplicons are then purified with AMPure using 45 µl of magnetic beads according to the manufacturer's protocol and 23 µl of the purified mixture is selected for a second PCR to index the DNA fragments for sequencing. 10 µl of PCR master mix (Q5 high fidelity 2x master mix (New England Biolabs)), 1 µl of Fw primer at 10 µM, 10 µl of In index primer, separate for each sample, at 10 nM, 23 µl of the mixture amplicons. Amplification is carried out according to the following protocol: pre-denaturation at 98°C for 2 minutes, 20 cycles in total: denaturation at 98°C for 30 seconds, primer annealing at 69°C for 30 seconds, chain completion at 72 °C for 30 seconds, and the last step is a final circuit completion at 72°C for 5 minutes, after which the mixture is cooled to 4°C and cleaned with AMPure using 45 µl beads according to the manufacturer's protocol.

8. Приготовление и секвенирование геномных библиотек.8. Preparation and sequencing of genomic libraries.

Приготовление геномной библиотеки проводят с помощью наборов реактивов, совместимых с платформой Illumina: NEBNext DNA library prep reagents et for Illumina и NEBNext multiplex oligos for Illumina (North England Biolabs) по протоколам производителя. Концентрацию полученной библиотеки проверяют с помощью флюориметра Qubit 2.0 (Life Technologies). Определение размера и качества приготовления библиотеки проводят с помощью прибора Bioanalyzer 2100 (Agilent), длина фрагментов ДНК должна находиться в диапазоне 350±10 п.н. The preparation of the genomic library is carried out using reagent kits compatible with the Illumina platform: NEBNext DNA library prep reagents et for Illumina and NEBNext multiplex oligos for Illumina (North England Biolabs) according to the manufacturer's protocols. The concentration of the resulting library is checked using a Qubit 2.0 fluorimeter (Life Technologies). The determination of the size and quality of library preparation is carried out using the Bioanalyzer 2100 instrument (Agilent), the length of DNA fragments should be in the range of 350 ± 10 bp.

Выше описан процесс получения геномной библиотеки для одного образца. Для однократного запуска секвенирования набирают партию, которая содержит не менее чем 8 образцов, включая исследуемый образец.The process of obtaining a genomic library for a single sample is described above. For a single run of sequencing, a batch is drawn that contains at least 8 samples, including the test sample.

Далее полученные геномные библиотеки подвергают секвенированию. Секвенирование проводят на секвенаторах нового поколения, которые дают возможность определять нуклеотидную последовательность большого количества (от сотен до сотен миллионов) чтений за 1 запуск прибора. Частными примерами технологий (приборов), которые могут быть использованы, являются: секвенирование синтезом на молекулярных колониях (HiSeq, MiSeq, NextSeq, NovaSeq (Illumina)), секвенирование через нанопоры (*ION (Oxford Nanopore Technologies)), мономолекулярное секвенирование в реальном времени (RS, Sequel (PacBio)) лигазное секвенирование с использованием эмульсионного ПЦР (SOLiD4, 5500-series (Thermo Fisher Scientific)), полупроводниковое секвенирование (Ion Torrent, Ion Proton (Thermo Fisher Scientific)), пиросеквенирование (454 (Roche)), и т.д. Заявляемый способ не ограничивается перечисленными технологиями (приборами) секвенирования. Результатом секвенирования геномных библиотек является получение нуклеотидной последовательности всех фрагментов, составляющих секвенируемую геномную библиотеку.The resulting genomic libraries are then subjected to sequencing. Sequencing is carried out on new generation sequencers, which make it possible to determine the nucleotide sequence of a large number (from hundreds to hundreds of millions) of readings per 1 run of the device. Particular examples of technologies (instruments) that can be used are: molecular colony synthesis sequencing (HiSeq, MiSeq, NextSeq, NovaSeq (Illumina)), nanopore sequencing (*ION (Oxford Nanopore Technologies)), real-time monomolecular sequencing (RS, Sequel (PacBio)) ligase sequencing using emulsion PCR (SOLiD4, 5500-series (Thermo Fisher Scientific)), semiconductor sequencing (Ion Torrent, Ion Proton (Thermo Fisher Scientific)), pyrosequencing (454 (Roche)), etc. The claimed method is not limited to the listed sequencing technologies (devices). The result of sequencing genomic libraries is to obtain the nucleotide sequence of all fragments that make up the sequencing genomic library.

9. Картирование чтений на референсный геном.9. Mapping of reads to the reference genome.

Картирование полученных чтений выполняют с использованием любого подходящего программного обеспечения (например, можно использовать программы BWA, Bowtie). Чтение с определенными геномными координатами называется картированным чтением. Образцы, в которых доля картированных чтений составляет менее 10%, не должны использоваться в анализе, для них следует повторно провести приготовление и секвенирование геномных библиотек.Mapping of received readings is performed using any suitable software (eg BWA, Bowtie software can be used). Reading with specific genomic coordinates is called mapped reading. Samples with less than 10% mapped reads should not be used in the analysis and should be re-prepared and sequencing genomic libraries.

10. Выделение групп чтений дубликатов, определение количества исходных молекул вкДНК, существовавших до амплификации, батч-коррекция, определение вероятностей эуплоидии и анеуплоидии в образце. 10. Selection of groups of duplicate readings, determination of the number of initial cfDNA molecules that existed before amplification, batch correction, determination of the probabilities of euploidy and aneuploidy in the sample.

Определяют группы чтений дубликатов, приходящихся на каждый регион (чтений, имеющих одинаковую молекулярную метку (с возможностью несовпадения 1 буквы) и картированных с одними и теми же координатами). В каждой группе чтений дубликатов удаляют все чтения, кроме одной копии. Подсчитывают число чтений до и после удаления чтений дубликатов. Для партии образцов определяют значение параметра батч-коррекции: отношения числа всех чтений всех образцов партии во всех целевых регионах к числу чтений после удаления чтений-дубликатов во всех целевых регионах всех образцов партии. Groups of duplicate readings are determined for each region (readings having the same molecular label (with the possibility of 1 letter mismatch) and mapped with the same coordinates). In each group of duplicate reads, all but one copy is deleted. Count the number of readings before and after removing duplicate readings. For a batch of samples, the value of the batch correction parameter is determined: the ratio of the number of all readings of all samples of the batch in all target regions to the number of readings after deleting duplicate readings in all target regions of all samples of the batch.

Для каждого образца определяют ожидаемое число чтений в каждом регионе: отношение числа картированных чтений в образце, приходящихся на каждый целевой регион, на параметр батч-коррекции в партии. Далее в каждом образце определяют разности между наблюдаемым и ожидаемым количеством молекул для каждого целевого региона. Разности между наблюдаемым и ожидаемым значениями количества молекул в каждом из целевых регионов используют для сравнения количеств молекул в классификационной модели для определения вероятностей эуплоидии и анеуплоидии в образце. У плода диагностируют анеуплоидию в случае, если вероятность эуплоидии не превышает 0,1, а вероятность анеуплоидии не ниже, чем 0,9.For each sample, the expected number of reads in each region is determined: the ratio of the number of mapped reads in the sample per target region to the batch correction parameter in the batch. Next, in each sample, the differences between the observed and expected number of molecules for each target region are determined. The differences between the observed and expected values of the number of molecules in each of the target regions are used to compare the number of molecules in the classification model to determine the probabilities of euploidy and aneuploidy in the sample. The fetus is diagnosed with aneuploidy if the probability of euploidy does not exceed 0.1, and the probability of aneuploidy is not lower than 0.9.

Частными примерами классификационных моделей, пригодных для использования в заявляемом способе, являются: логистический регрессионный анализ, метод опорных векторов, случайный лес, градиентный бустинг, нейронные сети. Выбор классификационной модели зависит от количества доступных образцов с эуплоидией и анеуплоидией плода в обучающей выборке. Если обучающая выборка содержит менее 1000 образцов, следует использовать модель логистического регрессионного анализа. В результате работы классификационной модели для вектора разности между наблюдаемым и ожидаемым значениями количества молекул в одном образце определяются вероятности принадлежности исследуемого образца к группе с эуплоидией плода и к группе с определенной анеуплоидией плода, по которым делают вывод о наличии у плода анеуплоидии данного типа. Алгоритм вычисления вероятностей определяется функцией потерь над преобразованными данными, способ преобразования является известным для каждой классификационной модели. Particular examples of classification models suitable for use in the proposed method are: logistic regression analysis, support vector machine, random forest, gradient boosting, neural networks. The choice of a classification model depends on the number of available euploid and aneuploid fetal specimens in the training set. If the training set contains less than 1000 samples, a logistic regression model should be used. As a result of the work of the classification model for the vector of the difference between the observed and expected values of the number of molecules in one sample, the probabilities of belonging of the test sample to the group with fetal euploidy and to the group with a certain fetal aneuploidy are determined, by which it is concluded that the fetus has this type of aneuploidy. The probability calculation algorithm is determined by the loss function over the transformed data, the transformation method is known for each classification model.

Пример 1Example 1

Пациентка С., 36 лет, срок беременности на момент забора крови 13 недель. У пациентки провели забор венозной крови в две пробирки по 9 мл, содержащие ЭДТА. Содержимое пробирок перемешали 10 раз и сразу после этого отправили в лабораторию при +4°C. Через 2 часа была проведена заготовка плазмы. Выделение вкДНК из плазмы крови провели согласно протоколу QIAamp Circulating Nucleic Acid Kit. Для полученного образца вкДНК провели приготовление геномных библиотек и секвенирование в составе партии из 18 образцов, в соответствии с методикой, описанной в настоящем документе.Patient S., 36 years old, gestational age at the time of blood sampling 13 weeks. The patient had a venous blood sampling in two 9 ml tubes containing EDTA. The contents of the tubes were mixed 10 times and immediately after that sent to the laboratory at +4°C. After 2 hours, the plasma preparation was carried out. Isolation of cfDNA from blood plasma was carried out according to the QIAamp Circulating Nucleic Acid Kit protocol. For the obtained cfDNA sample, genomic libraries were prepared and sequenced in a batch of 18 samples, in accordance with the methodology described in this document.

Для 18 образцов были получены чтения в формате FASTQ, в среднем 809220 чтений с качеством не ниже 20 по шкале PHRED на образец. В исследуемом образце получили 839937 чтений. Из чтений были извлечены последовательности, содержащие молекулярные метки, затем оставшиеся фрагменты чтений были картированы на референсный геном человека версии GRCh38 программой bowtie2, после этого подсчитывалось число чтений, приходящихся на каждый целевой регион. Отфильтровали образцы, в которых доля картированных чтений составила менее 10%, после этого в партии осталось 16 образцов для дальнейшего анализа, включая образец пациентки С. Для двух образцов, не прошедших фильтр, провели повторное секвенирование в составе следующей партии образцов. For 18 samples, FASTQ reads were obtained, with an average of 809,220 readings with a quality of at least 20 on the PHRED scale per sample. In the test sample, 839937 readings were obtained. Sequences containing molecular labels were extracted from the reads, then the remaining fragments of the reads were mapped to the reference human genome of the GRCh38 version with the bowtie2 program, after which the number of reads per target region was counted. Samples with less than 10% mapped reads were filtered out, leaving 16 samples in the batch for further analysis, including Patient C's sample. The two samples that failed the filter were resequenced in the next batch of samples.

Определили группы чтений дубликатов, приходящихся на каждый регион (чтений, имеющих одинаковую молекулярную метку (с возможностью несовпадения 1 буквы) и картированных с одними и теми же координатами), с помощью программы dedup из программного пакета umi-tools. В каждой группе чтений дубликатов удалили все чтения, кроме одной копии. Во всех образцах партии подсчитывалось число чтений до и после удаления чтений дубликатов. Для партии образцов определили значение параметра батч-коррекции, оно составило 6,8. Groups of duplicate readings per region (readings having the same molecular label (with the possibility of 1 letter mismatch) and mapped with the same coordinates) were determined using the dedup program from the umi-tools software package. In each group of duplicate readings, all readings were deleted except for one copy. In all samples of the lot, the number of readings before and after the removal of duplicate readings was counted. For a batch of samples, the value of the batch correction parameter was determined, it was 6.8.

Для каждого образца определили ожидаемое число чтений в каждом регионе: число картированных чтений поделили на параметр батч-коррекции в партии; затем получили разности между реальным и ожидаемым количеством молекул для каждого целевого региона. Из полученных разностей был составлен вектор чисел, упорядоченный по порядковому номеру региона. Ниже представлен фрагмент таблицы с результатами для исследуемого образца вкДНК пациентки С.For each sample, the expected number of readings in each region was determined: the number of mapped readings was divided by the batch correction parameter in the batch; then received the difference between the actual and expected number of molecules for each target region. From the obtained differences, a vector of numbers was compiled, ordered by the ordinal number of the region. Below is a fragment of the table with the results for the studied cfDNA sample of patient S.

Таблица 1. Результаты подсчета чтений в 10 целевых регионах генома человека для исследуемого образца (пациентка С.). Входные данные для классификатора находятся в столбце “Разность между наблюдаемым и ожидаемым числом чтений”.Table 1. Results of counting reads in 10 target regions of the human genome for the test sample (patient S.). The input data for the classifier is in the column “Difference between observed and expected number of readings”.

РегионRegion Число чтенийNumber of readings Число чтений без учета дубликатовNumber of reads excluding duplicates Параметр батч-коррекции для регионаBatch correction parameter for the region Ожидаемое число чтений без дубликатовExpected number of reads without duplicates Разность между наблюдаемым и ожидаемым числом чтенийDifference between observed and expected number of reads DHS1DHS1 21852185 494494 4,424.42 321321 173173 DHS2DHS2 42784278 530530 8,078.07 629629 -99-99 DHS3DHS3 37583758 511511 7,357.35 553553 -42-42 DHS4DHS4 35323532 490490 7,217.21 519519 -29-29 DHS5DHS5 932932 276276 3,383.38 137137 139139 DHS6DHS6 31683168 432432 7,337.33 466466 -34-34 DHS7DHS7 266266 104104 2,562.56 3939 6565 DHS8DHS8 536536 190190 2,822.82 7979 111111 DHS9DHS9 14541454 329329 4,424.42 214214 115115 DHS10DHS10 751751 227227 3,313.31 110110 117117

Вектор чисел был подан на вход классификатору LogisticRegression из библиотеки для машинного обучения scikit-learn, обученному на заранее исследованных образцах беременных женщин с эуплоидией или трисомией плода по хромосоме 21 (на аналогично полученных векторах разностей для тех же целевых регионов). По результатам проведенного вычисления было определено, что вероятности принадлежности образца к классу образцов с эуплоидией и с трисомией плода по хромосоме 21 составляют 7% и 93%, соответственно. Вероятность трисомии плода в образце превышает пороговое значение, равное 90%. Принято решение о наличии трисомии по хромосоме 21 у плода в исследуемом образце. The vector of numbers was input to the LogisticRegression classifier from the scikit-learn machine learning library, trained on previously studied samples of pregnant women with euploidy or trisomy of the fetus on chromosome 21 (on similarly obtained difference vectors for the same target regions). According to the results of the calculation, it was determined that the probabilities of belonging to the class of samples with euploidy and trisomy of the fetus on chromosome 21 are 7% and 93%, respectively. The probability of fetal trisomy in the sample exceeds the threshold of 90%. A decision was made on the presence of trisomy on chromosome 21 in the fetus in the test sample.

На основании результатов планового УЗИ в сочетании с биохимическим анализом крови в I триместре беременности, пациентка С. была направлена на инвазивную диагностику трисомии по хромосоме 21 методом биопсии ворсин хориона с последующим кариотипированием. По результатам инвазивной диагностики у плода пациентки С. была выявлена трисомия по хромосоме 21, что совпадает с результатом неинвазивного определения трисомии по хромосоме 21 с использованием заявляемой технологии.Based on the results of a planned ultrasound in combination with a biochemical blood test in the first trimester of pregnancy, patient S. was referred for an invasive diagnosis of trisomy on chromosome 21 by chorionic villus biopsy followed by karyotyping. According to the results of invasive diagnostics, the fetus of patient S. was found to have trisomy on chromosome 21, which coincides with the result of non-invasive determination of trisomy on chromosome 21 using the proposed technology.

Пример 2Example 2

Пациентка М., 39 лет. Срок беременности на момент забора крови 16 недель. У пациентки провели забор венозной крови в две пробирки, содержащие ЭДТА, по 9 мл, затем выделили вкДНК, провели приготовление геномных библиотек и секвенирование в составе партии из 8 образцов, в соответствии с методикой, описанной в настоящем документе.Patient M., 39 years old. The gestational age at the time of blood sampling was 16 weeks. Venous blood was taken from the patient in two tubes containing EDTA, 9 ml each, then cfDNA was isolated, genomic libraries were prepared and sequencing was carried out in a batch of 8 samples, in accordance with the method described in this document.

Для 8 образцов были получены чтения в формате FASTQ, в среднем 786565 чтений с качеством не ниже 20 по шкале PHRED на образец. В исследуемом образце получили 623198 чтений. Из чтений были извлечены последовательности, содержащие молекулярные метки, затем оставшиеся фрагменты чтений были картированы на референсный геном человека версии GRCh38 программой bowtie2, после этого подсчитывалось число чтений, приходящихся на каждый целевой регион. Во всех образцах доля картированных чтений оказалась не менее 10%, в среднем она составила 15%, в исследуемом образце 14%. For 8 samples, FASTQ reads were obtained, with an average of 786,565 readings with a quality of at least 20 on the PHRED scale per sample. In the test sample, 623198 readings were obtained. Sequences containing molecular labels were extracted from the reads, then the remaining fragments of the reads were mapped to the reference human genome of the GRCh38 version with the bowtie2 program, after which the number of reads per target region was counted. In all samples, the proportion of mapped readings was at least 10%, on average it was 15%, in the studied sample 14%.

Определили группы чтений дубликатов, приходящихся на каждый регион (чтений, имеющих одинаковую молекулярную метку (с возможностью несовпадения 1 буквы) и картированных с одними и теми же координатами), с помощью программы dedup из программного пакета umi-tools. В каждой группе чтений дубликатов удалили все чтения, кроме одной копии. Во всех образцах партии подсчитывалось число чтений до и после удаления чтений дубликатов. Для партии образцов определили значение параметра батч-коррекции, оно составило 3,4.Groups of duplicate readings per region (readings having the same molecular label (with the possibility of 1 letter mismatch) and mapped with the same coordinates) were determined using the dedup program from the umi-tools software package. In each group of duplicate readings, all but one copy was deleted. In all samples of the batch, the number of readings before and after the removal of duplicate readings was counted. For a batch of samples, the value of the batch correction parameter was determined, it was 3.4.

Для каждого образца определили ожидаемое число чтений в каждом регионе: число картированных чтений поделили на параметр батч-коррекции в партии; затем получили разности между реальным и ожидаемым количеством молекул для каждого целевого региона. Из полученных разностей был составлен вектор чисел, упорядоченный по порядковому номеру региона. Ниже представлен фрагмент таблицы с результатами для исследуемого образца вкДНК пациентки М.For each sample, the expected number of readings in each region was determined: the number of mapped readings was divided by the batch correction parameter in the batch; then received the difference between the actual and expected number of molecules for each target region. From the obtained differences, a vector of numbers was compiled, ordered by the ordinal number of the region. Below is a fragment of the table with the results for the studied cfDNA sample of patient M.

Таблица 2. Результаты подсчета чтений в 10 целевых регионах генома человека для исследуемого образца (пациентка М.). Входные данные для классификатора находятся в столбце “Разность между наблюдаемым и ожидаемым числом чтений”.Table 2. Results of counting reads in 10 target regions of the human genome for the test sample (patient M.). The input to the classifier is in the "Difference Between Observed and Expected Number of Reads" column.

РегионRegion Число чтенийNumber of readings Число чтений без учета дубликатовNumber of reads excluding duplicates Параметр батч-коррекции для регионаBatch correction parameter for the region Ожидаемое число чтений без дубликатовExpected number of reads without duplicates Разность между наблюдаемым и ожидаемым числом чтенийDifference between observed and expected number of reads DHS227DHS227 1,6921.692 413413 4.104.10 498498 -85-85 DHS228DHS228 841841 296296 2.842.84 247247 4949 DHS229DHS229 1,1921.192 320320 3.733.73 351351 -31-31 DHS230DHS230 1,4771.477 350350 4.224.22 434434 -84-84 DHS231DHS231 349349 153153 2.282.28 103103 50fifty DHS232DHS232 148148 5454 2.742.74 4444 10ten DHS233DHS233 2,7022.702 539539 5.015.01 795795 -256-256 DHS234DHS234 662662 246246 2.692.69 195195 5151 DHS235DHS235 425425 175175 2.432.43 125125 50fifty DHS236DHS236 1,1061.106 334334 3.313.31 325325 99

Вектор чисел был подан на вход классификатору LogisticRegression из библиотеки для машинного обучения scikit-learn, обученному на заранее исследованных образцах беременных женщин с эуплоидией или трисомией плода по хромосоме 18 (на аналогично полученных векторах разностей для тех же целевых регионов). По результатам проведенного вычисления было определено, что вероятности принадлежности образца к классу образцов с эуплоидией и с трисомией плода по хромосоме 18 составляют 94% и 6%, соответственно. Принято решение об отсутствии трисомии по хромосоме 18 у плода в исследуемом образце. The vector of numbers was input to the LogisticRegression classifier from the scikit-learn machine learning library, trained on previously studied samples of pregnant women with euploidy or trisomy of the fetus on chromosome 18 (on similarly obtained difference vectors for the same target regions). Based on the results of the calculation, it was determined that the probabilities of belonging to the class of samples with euploidy and trisomy of the fetus on chromosome 18 are 94% and 6%, respectively. A decision was made that there was no trisomy for chromosome 18 in the fetus in the test sample.

На основе результатов биохимического анализа крови I триместра беременности, пациентка М. была направлена на инвазивную диагностику трисомии по хромосоме 18 при помощи амниоцентеза с последующим кариотипированием. По результатам инвазивной диагностики у пациентки М. не была выявлена трисомия по хромосоме 18 плода, что совпадает с результатом неинвазивного определения трисомии по хромосоме 18 с использованием заявляемой технологии.Based on the results of a biochemical blood test in the first trimester of pregnancy, patient M. was referred for an invasive diagnosis of trisomy 18 using amniocentesis followed by karyotyping. According to the results of invasive diagnostics in patient M., trisomy on chromosome 18 of the fetus was not detected, which coincides with the result of non-invasive determination of trisomy on chromosome 18 using the claimed technology.

Claims (21)

1. Способ неинвазивной пренатальной диагностики анеуплоидий плода по образцу вкДНК из крови беременной женщины, включающий1. A method for non-invasive prenatal diagnosis of fetal aneuploidy based on a sample of cfDNA from the blood of a pregnant woman, including выбор целевых регионов генома из кандидатных регионов, в качестве которых используют сайты гиперчувствительности к ДНКазе I в геноме человека, посредством отбора сайтов, характеризующихся открытым состоянием хроматина в клетках-источниках вкДНК у взрослого человека и закрытым состоянием хроматина в клетках-источниках вкДНК плода, с последующим определением среднего нормализованного покрытия кандидатных регионов в группах беременных и небеременных женщин по результатам полногеномного секвенирования вкДНК, выделенной из образцов крови беременных и небеременных женщин, при этом в качестве целевых регионов используют регионы, характеризующиеся наибольшей разницей в среднем нормализованном покрытии между группами беременных и небеременных женщин;selection of target regions of the genome from candidate regions, which are sites of hypersensitivity to DNase I in the human genome, by selecting sites characterized by an open chromatin state in adult cfDNA source cells and a closed chromatin state in fetal cfDNA source cells, followed by determination of the average normalized coverage of candidate regions in groups of pregnant and non-pregnant women based on the results of whole genome sequencing of cfDNA isolated from blood samples of pregnant and non-pregnant women, while regions with the largest difference in average normalized coverage between groups of pregnant and non-pregnant women are used as target regions; выделение исследуемого образца вкДНК из крови беременной женщины;isolation of the test sample of cfDNA from the blood of a pregnant woman; внесение к фрагментам вкДНК молекулярных меток, каждая из которых содержит: случайную последовательность нуклеотидов, универсальную последовательность и специфичную последовательность, комплементарную целевым регионам генома; introducing molecular labels to the cfDNA fragments, each of which contains: a random nucleotide sequence, a universal sequence and a specific sequence complementary to the target regions of the genome; амплификацию целевых регионов выделенной вкДНК, с использованием праймеров к универсальной и к специфичной последовательностям в молекулярных метках;amplification of the target regions of the isolated cfDNA using primers to the universal and specific sequences in molecular tags; приготовление геномных библиотек из полученных ампликонов;preparation of genomic libraries from the obtained amplicons; секвенирование геномных библиотек;sequencing of genomic libraries; картирование полученных последовательностей на референсный геном или отдельные его части;mapping the obtained sequences to the reference genome or its separate parts; определение групп чтений дубликатов - чтений, картированных на одну и ту же координату референсного генома и содержащих одну и ту же случайную последовательность в молекулярных метках; determination of groups of readings of duplicates - readings mapped to the same coordinate of the reference genome and containing the same random sequence in molecular marks; удаление в каждой группе чтений дубликатов всех чтений, кроме одной копии, которая представляет собой исходную молекулу вкДНК, существовавшую до амплификации;removal in each group of readings of duplicates of all readings, except for one copy, which is the original cfDNA molecule that existed before amplification; определение количества исходных молекул вкДНК в каждом из целевых регионов с последующим сравнением с аналогичными значениями, полученными для обучающей выборки образцов вкДНК беременных женщин с эуплоидией и анеуплоидией плода;determination of the number of initial cfDNA molecules in each of the target regions with subsequent comparison with similar values obtained for the training set of cfDNA samples of pregnant women with fetal euploidy and aneuploidy; определение вероятностей принадлежности исследуемого образца к группе с эуплоидией плода и к группе с анеуплоидией плода, по которым делают вывод о наличии анеуплоидии у плода;determination of the probabilities of belonging of the test sample to the group with fetal euploidy and to the group with fetal aneuploidy, according to which a conclusion is made about the presence of aneuploidy in the fetus; отличающийся тем, что characterized in that при выборе целевых регионов из кандидатных регионов удаляют те из них, геномные координаты которых пересекаются с координатами известных повторов в геноме человека, а наибольшую разницу в среднем нормализованном покрытии между двумя группами беременных и небеременных женщин для выбора целевых регионов из кандидатных регионов определяют исходя из наибольшего значения разности площадей, ограниченных графиками среднего нормализованного покрытия в группах беременных и небеременных женщин, в окне фиксированной длины;when selecting target regions, those from the candidate regions are removed whose genomic coordinates intersect with the coordinates of known repeats in the human genome, and the largest difference in the average normalized coverage between the two groups of pregnant and non-pregnant women for selecting target regions from the candidate regions is determined based on the largest value differences in areas bounded by average normalized coverage plots in groups of pregnant and non-pregnant women in a fixed length window; исследуемый образец вкДНК анализируют в партии вместе с другими образцами вкДНК беременных женщин, содержащей, по меньшей мере, 8 анализируемых образцов, при этом количество исходных молекул вкДНК в каждом из целевых регионов определяют для всех образцов партии посредством определения параметра, представляющего собой отношение числа всех чтений всех образцов партии во всех целевых регионах к числу чтений после удаления чтений дубликатов во всех целевых регионах всех образцов партии, после чего проводят коррекцию всех образцов в партии с использованием данного параметра: для каждого образца в каждом целевом регионе определяют ожидаемое количество молекул путем деления числа чтений в целевом регионе образца на значение упомянутого параметра; дополнительно определяют в каждом образце разность между наблюдаемым и ожидаемым значениями количества молекул для каждого целевого региона, которую используют для сравнения количеств молекул с аналогичными значениями, полученными для обучающей выборки образцов вкДНК беременных женщин с эуплоидией и анеуплоидией плода.the test sample of cfDNA is analyzed in a batch together with other samples of cfDNA of pregnant women containing at least 8 analyzed samples, while the number of initial cfDNA molecules in each of the target regions is determined for all samples of the batch by determining the parameter, which is the ratio of the number of all readings of all samples of the lot in all target regions to the number of readings after removing duplicate readings in all target regions of all samples of the lot, after which all samples in the lot are corrected using this parameter: for each sample in each target region, determine the expected number of molecules by dividing the number of readings in the target region of the sample on the value of the mentioned parameter; additionally, the difference between the observed and expected values of the number of molecules for each target region is determined in each sample, which is used to compare the number of molecules with similar values obtained for the training sample of cfDNA samples of pregnant women with euploidy and aneuploidy of the fetus. 2. Способ по п.1, отличающийся тем, что для отбора сайтов с открытым состоянием хроматина в качестве клеток-источников вкДНК у взрослого человека используют эндотелиальные и гематопоэтические клеточные линии; для отбора сайтов с закрытым состоянием хроматина в качестве клеток-источников вкДНК у плода используют клетки внешних оболочек плода.2. The method according to claim 1, characterized in that endothelial and hematopoietic cell lines are used to select sites with an open state of chromatin as cfDNA source cells in an adult; For the selection of sites with a closed state of chromatin, cells of the outer membranes of the fetus are used as cfDNA source cells in the fetus. 3. Способ по п.1, отличающийся тем, что для формирования кандидатных регионов из БД сайтов гиперчувствительности к ДНКазе I в геноме человека отбирают сайты длиной не менее 100 нуклеотидов с последующим приведением к одинаковой для всех длине 1000 нуклеотидов.3. The method according to claim 1, characterized in that for the formation of candidate regions from a database of hypersensitivity sites to DNase I in the human genome, sites with a length of at least 100 nucleotides are selected, followed by reduction to the same length of 1000 nucleotides for all. 4. Способ по п.1, отличающийся тем, что для формирования результатов полногеномного секвенирования вкДНК используют, по меньшей мере, по 50 образцов беременных и небеременных женщин.4. The method according to claim 1, characterized in that at least 50 samples of pregnant and non-pregnant women are used to generate the results of whole genome sequencing of cfDNA. 5. Способ по п.1, отличающийся тем, что для выявления отклонений по хромосомам 13, 18, 21, X выбирают, по меньшей мере, 5 целевых регионов, характеризующихся наибольшей разницей в среднем нормализованном покрытии, при этом для определения базового уровня числа чтений выбирают, по меньшей мере, 2 целевых региона на других хромосомах из следующего перечня хромосом: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 16, 17, 20, 22.5. The method according to claim 1, characterized in that to detect deviations on chromosomes 13, 18, 21, X, at least 5 target regions are selected, characterized by the largest difference in the average normalized coverage, while to determine the base level of the number of readings select at least 2 target regions on other chromosomes from the following list of chromosomes: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 16, 17, 20 , 22. 6. Способ по п.1, характеризующийся тем, что диагностируют анеуплоидию у плода в случае, если вероятность эуплоидии не превышает 0,1, а вероятность анеуплоидии не ниже, чем 0,9.6. The method according to claim 1, characterized in that aneuploidy is diagnosed in the fetus if the probability of euploidy does not exceed 0.1, and the probability of aneuploidy is not lower than 0.9. 7. Способ по п.1, характеризующийся тем, что для определения вероятностей принадлежности исследуемого образца к группе с эуплоидией плода и к группе с анеуплоидией плода используют, по меньшей мере, одну классификационную модель, в качестве которой используют математическую модель логистического регрессионного анализа.7. The method according to claim 1, characterized in that at least one classification model is used, which is used as a mathematical model of logistic regression analysis.
RU2021117323A 2021-06-15 Method for identifying fetal aneuploidy in a blood sample of the pregnant woman RU2777072C1 (en)

Publications (1)

Publication Number Publication Date
RU2777072C1 true RU2777072C1 (en) 2022-08-01

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5714325A (en) * 1993-09-24 1998-02-03 New England Medical Center Hospitals Prenatal diagnosis by isolation of fetal granulocytes from maternal blood
CN103074416A (en) * 2012-06-20 2013-05-01 海尔施生物医药股份有限公司 Method for detecting abnormal numbers of five chromosomes
RU2583830C2 (en) * 2014-04-21 2016-05-10 Закрытое акционерное общество "Геноаналитика" Non-invasive prenatal diagnosis of foetal aneuploidy
RU2627673C2 (en) * 2015-12-22 2017-08-09 Закрытое акционерное общество "Геноаналитика" Method for noninvasive prenatal diagnostics of fetal aneuploidy
EP3575399A1 (en) * 2017-01-24 2019-12-04 BGI Shenzhen Exosomal dna-based method for performing non-invasive prenatal diagnosis and application thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5714325A (en) * 1993-09-24 1998-02-03 New England Medical Center Hospitals Prenatal diagnosis by isolation of fetal granulocytes from maternal blood
CN103074416A (en) * 2012-06-20 2013-05-01 海尔施生物医药股份有限公司 Method for detecting abnormal numbers of five chromosomes
RU2583830C2 (en) * 2014-04-21 2016-05-10 Закрытое акционерное общество "Геноаналитика" Non-invasive prenatal diagnosis of foetal aneuploidy
RU2627673C2 (en) * 2015-12-22 2017-08-09 Закрытое акционерное общество "Геноаналитика" Method for noninvasive prenatal diagnostics of fetal aneuploidy
EP3575399A1 (en) * 2017-01-24 2019-12-04 BGI Shenzhen Exosomal dna-based method for performing non-invasive prenatal diagnosis and application thereof

Similar Documents

Publication Publication Date Title
JP6161607B2 (en) How to determine the presence or absence of different aneuploidies in a sample
CN107771221A (en) The abrupt climatic change analyzed for screening for cancer and fetus
CN108604258B (en) Chromosome abnormality determination method
JP2018524993A (en) Nucleic acids and methods for detecting chromosomal abnormalities
CN103946394A (en) Fetal chromosomal aneuploidy diagnosis
JP7498793B2 (en) Cancer Classification with Synthetic Training Samples
US20140336075A1 (en) Method and system for determinining whether genome is abnormal
CN107949845A (en) The new method of sex of foetus and fetus sex chromosomal abnormality can be distinguished on multiple platforms
WO2022182878A1 (en) Methods for detection of donor-derived cell-free dna in transplant recipients of multiple organs
EP3662479A1 (en) A method for non-invasive prenatal detection of fetal sex chromosomal abnormalities and fetal sex determination for singleton and twin pregnancies
EP3797418B1 (en) Method for determining the probability of the risk of chromosomal and genetic disorders from free dna of fetal origin
CN116246704B (en) System for noninvasive prenatal detection of fetuses
CN108611408A (en) The method and apparatus for detecting fetal chromosomal aneuploidy
WO2023246949A1 (en) Non-invasive method for determining parentage before birth by using microhaplotypes
RU2777072C1 (en) Method for identifying fetal aneuploidy in a blood sample of the pregnant woman
RU2543155C1 (en) Non-invasive diagnostic technique for foetal aneuploidy by sequence analysis
CN111321210B (en) Method for non-invasive prenatal detection of whether fetus suffers from genetic disease
JP2014530629A (en) Method for detecting chromosomal microdeletions and microduplications
JPWO2017145738A1 (en) Chromosome number quantification method
RU2583830C2 (en) Non-invasive prenatal diagnosis of foetal aneuploidy
RU2627673C2 (en) Method for noninvasive prenatal diagnostics of fetal aneuploidy
CN115485389A (en) Pickering amount DNA whole genome sequencing method
KR102519739B1 (en) Non-invasive prenatal testing method and devices based on double Z-score
WO2016052405A1 (en) Noninvasive method and system for determining fetal chromosomal aneuploidy
US20240194295A1 (en) Cellular heterogeneity-adjusted clonal methylation (chalm): a methylation quantification method