RU2650790C2 - Highly multiplex pcr methods and compositions - Google Patents

Highly multiplex pcr methods and compositions Download PDF

Info

Publication number
RU2650790C2
RU2650790C2 RU2014152883A RU2014152883A RU2650790C2 RU 2650790 C2 RU2650790 C2 RU 2650790C2 RU 2014152883 A RU2014152883 A RU 2014152883A RU 2014152883 A RU2014152883 A RU 2014152883A RU 2650790 C2 RU2650790 C2 RU 2650790C2
Authority
RU
Russia
Prior art keywords
target
dna
primers
primer
loci
Prior art date
Application number
RU2014152883A
Other languages
Russian (ru)
Other versions
RU2014152883A (en
Inventor
Бернхард Циммерманн
Мэттью М. ХИЛЛ
Филипп Гилберт ЛАКРОУТ
Майкл ДОДД
Original Assignee
Натера, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Натера, Инк. filed Critical Натера, Инк.
Priority claimed from US13/683,604 external-priority patent/US20130123120A1/en
Publication of RU2014152883A publication Critical patent/RU2014152883A/en
Application granted granted Critical
Publication of RU2650790C2 publication Critical patent/RU2650790C2/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

FIELD: chemistry.
SUBSTANCE: method for amplifying and sequencing target loci in a nucleic acid sample is provided. Method comprises (a) bringing a nucleic acid sample containing the target loci into contact with a library of test primers containing at least 1,000 different test primers, wherein the concentration of each test primer is less than 20 nM; (b) amplifying the reaction mixture by polymerase chain reaction (PCR), wherein the PCR comprises an annealing step with a duration of more than 10 minutes; while simultaneously amplifying at least 1,000 different target loci and wherein (i) less than 20% of the amplified products are represented by dimers of the test primers, (ii) at least 80% of the amplified products are represented by target amplicons and (iii) at least 80% of the target loci are amplified; and (c) sequencing the amplified products.
EFFECT: invention improves efficiency of analysis while increasing its sensitivity and specificity.
18 cl, 53 dwg, 5 tbl

Description

Настоящая заявка испрашивает преимущество и приоритет по заявке на выдачу патента США на изобретение с серийным №13/683604, которая была подана 21 ноября 2012 г., и предварительной заявки на выдачу патента США №61/675020, которая была подана 24 июля 2012 г. Заявка на выдачу патента США на изобретение с серийным №13/683604 представляет собой частичное продолжение заявки на выдачу патента США на изобретение с серийным №13/300235, которая была подана 18 ноября 2011 г., представляет собой частичное продолжение заявки на выдачу патента США на изобретение с серийным №13/110685, которая была подана 18 мая 2011 г., и испрашивает приоритет по предварительной заявке на выдачу патента США №61/675020, которая была подана 24 июля 2012 г. Заявка на выдачу патента США на изобретение с серийным №13/110685 испрашивает приоритет по предварительной заявке на выдачу патента США №61/395 850, которая была подана 18 мая 2010 г.; предварительной заявке на выдачу патента США №61/398 159, которая была подана 21 июня 2010 г.; предварительной заявке на выдачу патента США №61/462972, которая была подана 9 февраля 2011 г.; предварительной заявке на выдачу патента США №61/448547, которая была подана 2 марта 2011 г.; и предварительной заявке на выдачу патента США №61/516996, которая была подана 12 апреля 2011 г. Заявка на выдачу патента США на изобретение с серийным №13/300235 испрашивает приоритет по предварительной заявке на выдачу патента США №61/571248, которая была подана 23 июня 2011 г.Содержание всех указанных заявок полностью включено в настоящий документ посредством ссылки.This application claims benefit and priority in the application for the grant of a US patent for an invention with serial No. 13/683604, which was filed November 21, 2012, and the provisional application for the grant of US patent No. 61/675020, which was filed July 24, 2012. The application for the grant of a US patent for an invention with serial No. 13/683604 represents a partial continuation of the application for the grant of a US patent with serial No. 13/300235, which was filed November 18, 2011, is a partial continuation of the application for a US patent for invention with serial No. 13/1 10685, which was filed May 18, 2011, and claims priority on provisional application for the grant of US patent No. 61/675020, which was filed July 24, 2012. Application for the grant of a US patent for invention with serial No. 13/110685 claims priority for provisional application for the grant of US patent No. 61/395 850, which was filed May 18, 2010; provisional application for the grant of US patent No. 61/398 159, which was filed June 21, 2010; provisional application for the grant of US patent No. 61/462972, which was filed February 9, 2011; provisional application for the grant of US patent No. 61/448547, which was filed March 2, 2011; and provisional application for the grant of US patent No. 61/516996, which was filed April 12, 2011. Application for the grant of a US patent for an invention with serial No. 13/300235 claims priority on provisional application for the grant of US patent No. 61/571248, which was filed June 23, 2011 The contents of all these applications are hereby incorporated by reference in their entirety.

ЗАЯВЛЕНИЕ О СПОНСИРУЕМЫХ ПРАВИТЕЛЬСТВОМ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИХ РАЗРАБОТКАХSTATEMENT ON SCIENTIFIC RESEARCH DEVELOPED BY THE GOVERNMENT

Настоящая работа была поддержана грантом №5R44HD60423-3, выданным Национальными институтами здоровья (National Institutes of Health). Правительство США может обладать правами по любому выданному на основании настоящей заявки патенту.This work was supported by grant No. 5R44HD60423-3 issued by the National Institutes of Health. The US government may be entitled to any patent granted on the basis of this application.

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕFIELD OF THE INVENTION

Настоящее изобретение в целом относится к способам и композициям для одновременной амплификации множественных представляющих интерес областей нуклеиновых кислот в одном реакционном объеме.The present invention generally relates to methods and compositions for the simultaneous amplification of multiple regions of interest of nucleic acids in a single reaction volume.

УРОВЕНЬ ТЕХНИКИBACKGROUND

Для повышения производительности анализа и обеспечения наиболее эффективного использования образцов нуклеиновых кислот может проводиться одновременная амплификация множества целевых нуклеиновых кислот в представляющем интерес образце путем объединения множества олигонуклеотидных праймеров с образцом и последующего помещения образца в условия полимеразной цепной реакции (ПНР) в ходе процесса, известного в данной области техники как «мультиплексная ПЦР». Применение мультиплексной ПЦР может значительно упростить процедуры тестирования и сократить время, необходимое для анализа и обнаружения нуклеиновых кислот. Однако при добавлении множественных пар в одну ПЦР-реакцию могут образовываться нецелевые продукты амплификации, такие как амплифицированные димеры праймеров. Риск образования таких продуктов возрастает с увеличением числа праймеров. Указанные нецелевые ампликоны значительно ограничивают применение амплифицированных продуктов для дальнейшего анализа и/или испытаний. Соответственно, существует потребность в усовершенствованных способах для уменьшения образования нецелевых ампликонов при мультиплексной ПЦР.To increase the productivity of the analysis and ensure the most efficient use of nucleic acid samples, simultaneous amplification of many target nucleic acids in a sample of interest can be carried out by combining multiple oligonucleotide primers with a sample and then placing the sample in a polymerase chain reaction (NDP) during the process known in this areas of technology as "multiplex PCR". The use of multiplex PCR can greatly simplify testing procedures and reduce the time required for analysis and detection of nucleic acids. However, when multiple pairs are added to a single PCR reaction, non-targeted amplification products, such as amplified primer dimers, may form. The risk of forming such products increases with an increase in the number of primers. These non-target amplicons significantly limit the use of amplified products for further analysis and / or testing. Accordingly, there is a need for improved methods for reducing the formation of non-target amplicons in multiplex PCR.

Улучшенные способы мультиплексной ПЦР могут подходить для разнообразных приложений, например, для неинвазивной пренатальной генетической диагностики (NPD). В частности, современные способы пренатальной диагностики могут предупреждать врачей и родителей о патологиях у растущего плода. Без пренатальной диагностики один ребенок из 50 рождается с серьезным физическим или умственным дефектом, а один из 30 будет страдать некоторой формой врожденного порока развития. К сожалению, стандартные способы либо обладают недостаточной точностью, либо предусматривают инвазивную процедуру, которая сопровождается риском самопроизвольного аборта. Способы на основе содержания гормонов в материнской крови или ультразвуковых измерений являются неинвазивными, однако, они также характеризуются низкой точностью. Такие способы, как амниоцентез, биопсия ворсин хориона и забор образцов плодной крови характеризуются высокой точностью, но являются инвазивными и влекут за собой значительный риск. Амниоцентез выполнялся приблизительно при 3% всех беременностей в США, хотя за последние 15 лет частота его применения снизилась.Improved methods of multiplex PCR can be suitable for a variety of applications, for example, for non-invasive prenatal genetic diagnosis (NPD). In particular, modern methods of prenatal diagnosis can warn doctors and parents about pathologies in a growing fetus. Without prenatal diagnosis, one in 50 children is born with a serious physical or mental defect, and one in 30 will suffer some form of congenital malformation. Unfortunately, standard methods either have insufficient accuracy or provide for an invasive procedure, which is accompanied by the risk of spontaneous abortion. Methods based on hormone levels in maternal blood or ultrasound measurements are non-invasive, however, they are also characterized by low accuracy. Methods such as amniocentesis, chorionic villus sampling, and fetal blood sampling are highly accurate, but invasive and involve significant risk. Amniocentesis was performed at approximately 3% of all pregnancies in the United States, although over the past 15 years its frequency of use has decreased.

В норме у людей в каждой здоровой диплоидной клетке имеется два набора из 23 хромосом, по одной копии от каждого родителя. Считается, что анеуплоидия, состояние ядерной клетки, при котором клетка содержит слишком много и/или слишком мало хромосом, отвечает за значительный процент неудачных имплантаций, самопроизвольных абортов и генетических заболеваний. Выявление хромосомных аномалий может идентифицировать индивидуумов или эмбрионы с такими состояниями, как синдром Дауна, синдром Клайнфельтера и синдром Тернера, наряду с прочими, помимо повышения шансов на успешную беременность. Важность тестирования на хромосомные аномалии, в частности, возрастает с увеличением возраста матери: подсчитано, что у матерей в возрасте 35-40 лет по меньшей мере 40% эмбрионов являются анормальными, а у матерей в возрасте более 40 лет анормальными являются более половины эмбрионов.Normally, people in each healthy diploid cell have two sets of 23 chromosomes, one copy from each parent. Aneuploidy, the condition of a nuclear cell in which the cell contains too many and / or too few chromosomes, is believed to be responsible for a significant percentage of failed implantations, spontaneous abortions, and genetic diseases. Identification of chromosomal abnormalities can identify individuals or embryos with conditions such as Down Syndrome, Klinefelter Syndrome and Turner Syndrome, among others, in addition to increasing the chances of a successful pregnancy. The importance of testing for chromosomal abnormalities, in particular, increases with increasing age of the mother: it is estimated that for mothers aged 35-40 years, at least 40% of the embryos are abnormal, and for mothers over 40 years old, more than half of the embryos are abnormal.

Недавно было обнаружено, что бесклеточная плодная ДНК и интактные плодные клетки могут попадать в кровоток матери. Следовательно, анализ этого генетического материала может обеспечить раннюю неинвазивную пренатальную генетическую диагностику (NPD). Существует потребность в усовершенствованных способах для повышения чувствительности и специфичности, уменьшения временных затрат и стоимости NPD.It has recently been discovered that acellular fetal DNA and intact fetal cells can enter the mother’s bloodstream. Therefore, analysis of this genetic material can provide early non-invasive prenatal genetic diagnosis (NPD). There is a need for improved methods for increasing sensitivity and specificity, reducing time and cost of NPD.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Согласно одному аспекту в настоящем изобретении предложены способы амплификации целевых локусов в образце нуклеиновой кислоты. Согласно некоторым вариантам осуществления указанный способ включает (i) приведение указанного образца нуклеиновой кислоты в контакт с библиотекой тестовых праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь; и (ii) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые включают целевые ампликоны. Согласно некоторым вариантам осуществления указанный способ также включает определение присутствия или отсутствия по меньшей мере одного целевого ампликона (например, по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых ампликонов). Согласно некоторым вариантам осуществления указанный способ также включает определение последовательности по меньшей мере одного целевого ампликона (например, по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых ампликонов).In one aspect, the present invention provides methods for amplifying target loci in a nucleic acid sample. In some embodiments, said method comprises (i) bringing said nucleic acid sample into contact with a library of test primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 40,000; 50,000; 75,000; or 100,000 different target loci, resulting in a reaction mixture; and (ii) placing the reaction mixture under the conditions of the primer extension reaction, resulting in amplified products that include the target amplicons. In some embodiments, the method also includes determining the presence or absence of at least one target amplicon (e.g., at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target amplicons ) In some embodiments, the method also includes sequencing at least one target amplicon (for example, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target amplicons).

Согласно различным вариантам осуществления любых аспектов настоящего изобретения амплифицируют по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 разных целевых локусов. Согласно некоторым вариантам осуществления по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% амплифицированных продуктов представлено целевыми ампликонами. Согласно некоторым вариантам осуществления амплифицируют по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов. Согласно различным вариантам осуществления менее чем 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1 или 0,05% амплифицированных продуктов представлено димерами праймеров. Согласно некоторым вариантам осуществления библиотека тестовых праймеров включает по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 пар тестовых праймеров, при этом каждая пара праймеров включает прямой тестовый праймер и обратный тестовый праймер, которые гибридизуются с одним и тем же целевым локусом. Согласно некоторым вариантам осуществления библиотека тестовых праймеров включает по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 индивидуальных тестовых праймеров, которые гибридизуются с разными целевыми локусами, при этом указанные индивидуальные праймеры не входят в состав пар праймеров.In various embodiments of any aspect of the present invention, at least 1000 are amplified; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 40,000; 50,000; 75,000; or 100,000 different target loci. In some embodiments, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the amplified products are target amplicons. In some embodiments, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target loci are amplified. In various embodiments, less than 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0.5, 0.25, 0.1, or 0.05% of amplified products are primer dimers. In some embodiments, the test primer library includes at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 40,000; 50,000; 75,000; or 100,000 pairs of test primers, with each pair of primers including a direct test primer and a reverse test primer that hybridize with the same target locus. In some embodiments, the test primer library includes at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 40,000; 50,000; 75,000; or 100,000 individual test primers that hybridize with different target loci, and these individual primers are not included in the primer pairs.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения концентрация каждого тестового праймера составляет менее 100, 75, 50, 25, 10, 5, 2 или 1 нМ. Согласно различным вариантам осуществления содержание GC в тестовых праймерах составляет от 30 до 80%, например, от 40 до 70% или от 50 до 60% включительно. Согласно некоторым вариантам осуществления диапазон содержания GC (например, разность максимального содержания GC и минимального содержания GC, например, 80%-60% = диапазон, составляющий 20%) тестовых праймеров составляет менее 30, 20, 10 или 5%. Согласно некоторым вариантам осуществления температура плавления (Тm) тестовых праймеров составляет от 40 до 80°C, например, от 50 до 70°C, от 55 до 65°C, или от 57 до 60,5°C включительно. Согласно некоторым вариантам осуществления диапазон температур плавления тестовых праймеров составляет менее 20, 15, 10, 5, 3 или 1°C. Согласно некоторым вариантам осуществления длина тестовых праймеров составляет от 15 до 100 нуклеотидов, например, от 15 до 75 нуклеотидов, от 15 до 40 нуклеотидов, от 17 до 35 нуклеотидов, от 18 до 30 нуклеотидов, от 20 до 65 нуклеотидов включительно. Согласно некоторым вариантам осуществления тестовые праймеры содержат маркер, не являющийся специфичным по отношению к цели, например, маркер, образующий внутреннюю петлевую структуру. Согласно некоторым вариантам осуществления указанный маркер расположен между двумя ДНК-связывающими областями. Согласно различным вариантам осуществления тестовые праймеры содержат 5'-область, являющуюся специфической в отношении целевого локуса, внутреннюю область, не являющуюся специфической в отношении целевого локуса и образующую петлевую структуру, и 3'-область, являющуюся специфической в отношении целевого локуса. Согласно различным вариантам осуществления длина 3'-области составляет по меньшей мере 7 нуклеотидов. Согласно некоторым вариантам осуществления длина 3'-области составляет от 7 до 20 нуклеотидов, например, от 7 до 15 нуклеотидов, или от 7 до 10 нуклеотидов включительно. Согласно различным вариантам осуществления тестовые праймеры содержат 5'-область, не являющуюся специфической в отношении целевого локуса (такую как маркер или сайт связывания универсального праймера), за которой следует область, являющаяся специфической в отношении целевого локуса, внутренняя область, не являющаяся специфической в отношении целевого локуса и образующая петлевую структуру, и 3'-область, являющаяся специфической в отношении целевого локуса. Согласно некоторым вариантам осуществления диапазон длин тестовых праймеров составляет менее 50, 40, 30, 20, 10 или 5 нуклеотидов. Согласно некоторым вариантам осуществления длина целевых ампликонов составляет от 50 до 100 нуклеотидов, например, от 60 до 80 нуклеотидов, или от 60 до 75 нуклеотидов включительно. Согласно некоторым вариантам осуществления диапазон длин целевых ампликонов составляет менее 50, 25, 15, 10 или 5 нуклеотидов.In various embodiments of any aspect of the present invention, the concentration of each test primer is less than 100, 75, 50, 25, 10, 5, 2, or 1 nM. According to various embodiments, the GC content in the test primers is from 30 to 80%, for example, from 40 to 70% or from 50 to 60% inclusive. According to some embodiments, the range of GC content (for example, the difference between the maximum GC content and the minimum GC content, for example, 80% -60% = range of 20%) of the test primers is less than 30, 20, 10 or 5%. In some embodiments, the melting temperature (T m ) of the test primers is from 40 to 80 ° C, for example, from 50 to 70 ° C, from 55 to 65 ° C, or from 57 to 60.5 ° C inclusive. In some embodiments, the melting range of the test primers is less than 20, 15, 10, 5, 3, or 1 ° C. According to some embodiments, the length of the test primers is from 15 to 100 nucleotides, for example, from 15 to 75 nucleotides, from 15 to 40 nucleotides, from 17 to 35 nucleotides, from 18 to 30 nucleotides, from 20 to 65 nucleotides, inclusive. In some embodiments, the test primers comprise a marker that is not specific to the target, for example, a marker forming an internal loop structure. In some embodiments, said marker is located between two DNA binding regions. In various embodiments, the test primers comprise a 5'-region that is specific for the target locus, an inner region that is not specific to the target locus and forming a loop structure, and a 3'-region that is specific for the target locus. In various embodiments, the length of the 3 ′ region is at least 7 nucleotides. According to some embodiments, the length of the 3'-region is from 7 to 20 nucleotides, for example, from 7 to 15 nucleotides, or from 7 to 10 nucleotides, inclusive. In various embodiments, the test primers comprise a 5'-region that is not specific for the target locus (such as a marker or universal primer binding site), followed by a region that is specific for the target locus, an inner region that is not specific for of the target locus and forming a loop structure, and a 3'-region that is specific for the target locus. In some embodiments, the length range of the test primers is less than 50, 40, 30, 20, 10, or 5 nucleotides. According to some embodiments, the length of the target amplicons is from 50 to 100 nucleotides, for example, from 60 to 80 nucleotides, or from 60 to 75 nucleotides, inclusive. In some embodiments, the range of target amplicon lengths is less than 50, 25, 15, 10, or 5 nucleotides.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения условия реакции удлинения праймеров представляют собой условия полимеразной цепной реакции (ПЦР). Согласно различным вариантам осуществления продолжительность этапа отжига составляет более 3, 5, 8, 10 или 15 минут. Согласно различным вариантам осуществления продолжительность этапа удлинения составляет более 3, 5, 8, 10 или 15 минут.In various embodiments of any aspect of the present invention, the primer extension reaction conditions are polymerase chain reaction (PCR) conditions. In various embodiments, the duration of the annealing step is more than 3, 5, 8, 10, or 15 minutes. In various embodiments, the extension step is longer than 3, 5, 8, 10, or 15 minutes.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце, который содержит материнскую ДНК от беременной матери плода и плодную ДНК, для определения присутствия или отсутствия хромосомных аномалий плода. Согласно различным вариантам осуществления указанный способ включает лигирование сайта связывания универсального праймера с молекулами ДНК в указанном образце; амплификация лигированных молекул ДНК с применением по меньшей мере 1000 специфических праймеров и универсального праймера, в результате чего получают первый набор амплифицированных продуктов; и амплификация первого набора амплифицированных продуктов с применением по меньшей мере 1000 пар специфических праймеров, в результате чего получают второй набор амплифицированных продуктов. Согласно различным вариантам осуществления применяют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4 000; 50000; 75000; или 100000 разных пар праймеров.In various embodiments of any aspect of the present invention, test primers are used to simultaneously amplify at least 1000 different target loci in a sample that contains maternal DNA from the pregnant mother of the fetus and fetal DNA to determine the presence or absence of fetal chromosomal abnormalities. In various embodiments, said method comprises ligating a universal primer binding site to DNA molecules in said sample; amplification of ligated DNA molecules using at least 1000 specific primers and a universal primer, resulting in a first set of amplified products; and amplifying a first set of amplified products using at least 1000 pairs of specific primers, resulting in a second set of amplified products. In various embodiments, at least 2000 are used; 5000; 7500; 10000; 20,000; 25,000; 30000; 4,000; 50,000; 75,000; or 100,000 different pairs of primers.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце, который содержит ДНК от предполагаемого отца плода, и одновременной амплификации целевых локусов в образце, который содержит материнскую ДНК от беременной матери указанного плода и плодную ДНК, для определения, является ли предполагаемый отец биологическим отцом указанного плода.In various embodiments of any aspects of the present invention, test primers are used to simultaneously amplify at least 1000 different target loci in a sample that contains DNA from the alleged father of the fetus, and simultaneously amplify the target loci in a sample that contains maternal DNA from the pregnant mother of the fetus. fetal DNA, to determine if the alleged father is the biological father of the fetus.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в одной клетке или множестве клеток эмбриона для определения присутствия или отсутствия хромосомных аномалий. Согласно различным вариантам осуществления исследуют клетки из группы, включающей два или более эмбрионов, и один эмбрион отбирают для оплодотворения in vitro.In various embodiments of any aspect of the present invention, test primers are used to simultaneously amplify at least 1000 different target loci in a single cell or multiple cells of an embryo to determine the presence or absence of chromosomal abnormalities. In various embodiments, cells from the group of two or more embryos are examined, and one embryo is selected for in vitro fertilization.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце нуклеиновой кислоты для судебно-технической экспертизы. Согласно различным вариантам осуществления продолжительность этапа отжига составляет более 3, 5, 8, 10 или 15 минут.In various embodiments of any aspects of the present invention, test primers are used to simultaneously amplify at least 1000 different target loci in a forensic nucleic acid sample. In various embodiments, the duration of the annealing step is more than 3, 5, 8, 10, or 15 minutes.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения способ включает применение тестовых праймеров для одновременной амплификации по меньшей мере 1000 разных целевых локусов в контрольном образце нуклеиновой кислоты, в результате чего получают первый набор целевых ампликонов, и для одновременной амплификации указанных целевых локусов в тестируемом образце нуклеиновой кислоты, в результате чего получают второй набор целевых ампликонов; и сравнение первого и второго наборов целевых ампликонов для определения того, присутствует ли целевой локус в одном образце, отсутствуя при этом в другом, или того, присутствует ли целевой локус с разными титрами в контрольном образце и в тестируемом образце. Согласно различным вариантам осуществления указанный тестируемый образец получен от индивидуума, у которого предположительно имеется представляющее интерес заболевание или фенотип (например, раковое заболевание) или повышенный риск представляющего интерес заболевания или фенотипа; и при этом один или большее число целевых локусов содержат последовательность (например, полиморфизм или другую мутацию), связанную с повышенным риском представляющего интерес заболевания или фенотипа, или связанную с представляющим интерес заболеванием или фенотипом. Согласно различным вариантам осуществления указанный способ включает применение тестовых праймеров для одновременной амплификации 1000 разных целевых локусов в контрольном образце, который содержит РНК, в результате чего получают первый набор целевых ампликонов, и для одновременной амплификации указанных целевых локусов в тестируемом образце, который содержит РНК, в результате чего получают второй набор целевых ампликонов; и сравнение первого и второго наборов целевых ампликонов для определения присутствия или отсутствия разницы в уровнях экспрессии РНК между контрольным образцом и тестируемым образцом. Согласно различным вариантам осуществления указанная РНК представляет собой мРНК. Согласно различным вариантам осуществления тестируемый образец получен от индивидуума, у которого предположительно имеется представляющее интерес заболевание или фенотип (например, раковое заболевание) или повышенный риск представляющего интерес заболевания или фенотипа (например, ракового заболевания); и при этом один или большее число целевых локусов содержат последовательность (например, полиморфизм или другую мутацию), связанную с повышенным риском представляющего интерес заболевания или фенотипа, или связанную с представляющим интерес заболеванием или фенотипом. Согласно некоторым вариантам осуществления тестируемый образец получен от индивидуума, у которого диагностировано представляющее интерес заболевание или фенотип (например, раковое заболевание); и при этом различие уровня экспрессии РНК между контрольным образцом и тестируемым образцом указывает на то, что целевой локус содержит последовательность (например, полиморфизм или другую мутацию), связанную с повышенным или пониженным риском представляющего интерес заболевания или фенотипа.In various embodiments of any aspect of the present invention, the method comprises using test primers to simultaneously amplify at least 1000 different target loci in a control nucleic acid sample, resulting in a first set of target amplicons, and to simultaneously amplify these target loci in a test nucleic acid sample , resulting in a second set of target amplicons; and comparing the first and second sets of target amplicons to determine if the target locus is present in one sample while not present in another, or whether the target locus with different titers is present in the control sample and in the test sample. In various embodiments, said test sample is obtained from an individual who is suspected to have a disease or phenotype of interest (eg, cancer) or an increased risk of a disease or phenotype of interest; and wherein one or more target loci comprise a sequence (eg, polymorphism or other mutation) associated with an increased risk of a disease or phenotype of interest, or associated with a disease or phenotype of interest. In various embodiments, the method comprises using test primers to simultaneously amplify 1000 different target loci in a control sample that contains RNA, resulting in a first set of target amplicons, and to simultaneously amplify these target loci in a test sample that contains RNA, resulting in a second set of target amplicons; and comparing the first and second sets of target amplicons to determine the presence or absence of a difference in the levels of RNA expression between the control sample and the test sample. In various embodiments, said RNA is mRNA. In various embodiments, a test sample is obtained from an individual who is suspected to have a disease or phenotype of interest (eg, cancer) or an increased risk of a disease or phenotype of interest (eg, cancer); and wherein one or more target loci comprise a sequence (eg, polymorphism or other mutation) associated with an increased risk of a disease or phenotype of interest, or associated with a disease or phenotype of interest. In some embodiments, a test sample is obtained from an individual who has been diagnosed with a disease or phenotype of interest (eg, cancer); and the difference in the level of RNA expression between the control sample and the test sample indicates that the target locus contains a sequence (for example, polymorphism or other mutation) associated with an increased or decreased risk of a disease or phenotype of interest.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения тестовые праймеры выбирают из библиотеки кандидатных праймеров на основании одного или нескольких параметров, например, проводят отбор праймеров с применением любых способов согласно настоящему изобретению. Согласно некоторым вариантам осуществления тестовые праймеры выбирают из библиотеки кандидатных праймеров по меньшей мере отчасти на основании способности указанных кандидатных праймеров образовывать димеры праймеров.In some embodiments of any aspect of the present invention, test primers are selected from a candidate primer library based on one or more parameters, for example, primers are selected using any of the methods of the present invention. In some embodiments, the test primers are selected from the candidate primer library at least in part based on the ability of said candidate primers to form primer dimers.

Согласно одному аспекту в настоящем изобретении предложены способы отбора тестовых праймеров из библиотеки кандидатных праймеров. Согласно различным вариантам осуществления указанный отбор включает (i) вычисление на компьютере балла нежелательности для большей части или для всех возможных комбинаций двух кандидатных праймеров из библиотеки, при этом каждый балл нежелательности основан по меньшей мере отчасти на вероятности образования димеров между двумя кандидатными праймерами; (ii) удаление кандидатного праймера с максимальным баллом нежелательности из библиотеки кандидатных праймеров; и (iii), в том случае, если кандидатный праймер, удаленный на этапе (ii), представляет собой член пары праймеров, удаление другого члена указанной пары праймеров из библиотеки кандидатных праймеров; и (iv) необязательно повторение этапов (ii) и (iii), что обеспечивает отбор библиотеки тестовых праймеров. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все баллы нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются с минимальным порогом или не опустятся ниже минимального порога. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока количество кандидатных праймеров, остающихся в библиотеке, не снизится до требуемого количества. Согласно различным вариантам осуществления балл нежелательности рассчитывают по меньшей мере для 80, 90, 95, 98, 99 или 99,5% возможных комбинаций кандидатных праймеров в библиотеке. Согласно различным вариантам осуществления кандидатные праймеры, остающиеся в библиотеке, способны одновременно амплифицировать по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов. Согласно различным вариантам осуществления указанный способ также включает (v) приведение образца нуклеиновой кислоты, который содержит целевые локусы, в контакт с кандидатными праймерами, остающимися в библиотеке, в результате чего получают реакционную смесь; и (vi) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые включают целевые ампликоны.According to one aspect, the present invention provides methods for selecting test primers from a candidate primer library. In various embodiments, said selection includes (i) calculating a computer’s unwanted score for most or all possible combinations of the two candidate primers from the library, with each unwanted score based at least in part on the likelihood of dimers forming between the two candidate primers; (ii) removal of the candidate primer with a maximum undesirability score from the candidate primer library; and (iii) if the candidate primer removed in step (ii) is a member of a pair of primers, removing another member of the indicated pair of primers from the candidate primer library; and (iv) optionally repeating steps (ii) and (iii), which allows selection of a library of test primers. In some embodiments, the selection method is used until all undesirable scores for candidate primer combinations remaining in the library are equal to or lower than the minimum threshold. According to some embodiments, said selection method is used until the number of candidate primers remaining in the library is reduced to the required number. In various embodiments, a junk score is calculated for at least 80, 90, 95, 98, 99, or 99.5% of possible candidate primer combinations in the library. In various embodiments, candidate primers remaining in the library are capable of simultaneously amplifying at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci. In various embodiments, the method also includes (v) bringing the nucleic acid sample that contains the target loci into contact with candidate primers remaining in the library, resulting in a reaction mixture; and (vi) placing the reaction mixture under the conditions of the extension of the primers, resulting in amplified products that include the target amplicons.

Согласно одному аспекту в настоящем изобретении предложены способы отбора тестовых праймеров из библиотеки кандидатных праймеров. Согласно различным вариантам осуществления указанный выбор тестовых праймеров из библиотеки кандидатных праймеров включает (i) вычисление на компьютере балла нежелательности для большей части или для всех возможных комбинаций двух кандидатных праймеров из библиотеки, при этом каждый балл нежелательности основан по меньшей мере отчасти на вероятности образования димеров между двумя кандидатными праймерами; (ii) удаление из библиотеки кандидатных праймеров кандидатного праймера, который входит в состав наибольшего числа комбинаций двух кандидатных праймеров с баллом нежелательности выше первого минимального порога; (iii) в том случае, если кандидатный праймер, удаленный на этапе (ii), представляет собой член пары праймеров, удаление другого члена указанной пары праймеров из библиотеки кандидатных праймеров; и (iv) необязательно повторение этапов (ii) и (iii), что обеспечивает отбор библиотеки тестовых праймеров. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все баллы нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются с первым минимальным порогом или не опустятся ниже первого минимального порога. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока количество кандидатных праймеров, остающихся в библиотеке, не снизится до требуемого количества. Согласно различным вариантам осуществления балл нежелательности рассчитывают по меньшей мере для 80, 90, 95, 98, 99 или 99,5% возможных комбинаций кандидатных праймеров в библиотеке. Согласно различным вариантам осуществления кандидатные праймеры, остающиеся в библиотеке, способны одновременно амплифицировать по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов. Согласно различным вариантам осуществления указанный способ также включает (v) приведение образца нуклеиновой кислоты, который содержит целевые локусы, в контакт с кандидатными праймерами, остающимися в библиотеке, в результате чего получают реакционную смесь; и (vi) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые включают целевые ампликоны.According to one aspect, the present invention provides methods for selecting test primers from a candidate primer library. According to various embodiments, said selection of test primers from the candidate primer library includes (i) computing on the computer an undesirable score for most or all of the possible combinations of the two candidate primers from the library, with each undesired score based at least in part on the probability of formation of dimers between two candidate primers; (ii) removing from the library of candidate primers a candidate primer that is part of the largest number of combinations of two candidate primers with an undesirable score above the first minimum threshold; (iii) if the candidate primer removed in step (ii) is a member of a pair of primers, removing another member of the specified pair of primers from the library of candidate primers; and (iv) optionally repeating steps (ii) and (iii), which allows selection of a library of test primers. In some embodiments, the selection method is used until all undesirable scores for candidate primer combinations remaining in the library are equal to or lower than the first minimum threshold. According to some embodiments, said selection method is used until the number of candidate primers remaining in the library is reduced to the required number. In various embodiments, a junk score is calculated for at least 80, 90, 95, 98, 99, or 99.5% of possible candidate primer combinations in the library. In various embodiments, candidate primers remaining in the library are capable of simultaneously amplifying at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci. In various embodiments, the method also includes (v) bringing the nucleic acid sample that contains the target loci into contact with candidate primers remaining in the library, resulting in a reaction mixture; and (vi) placing the reaction mixture under the conditions of the extension of the primers, resulting in amplified products that include the target amplicons.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения указанный способ отбора включает дополнительное снижение числа кандидатных праймеров, остающихся в библиотеке, путем снижения первого минимального порога, используемого на этапе (ii), до более низкого второго минимального порога и, необязательно, повторение этапов (ii) и (iii). Согласно некоторым вариантам осуществления указанный способ отбора включает повышение первого минимального порога, используемого на этапе (ii), до более высокого второго минимального порога и, необязательно, повторение этапов (ii) и (iii). Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все баллы нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются со вторым минимальным порогом или не опустятся ниже второго минимального порога, или до тех пор, пока количество кандидатных праймеров, остающихся в библиотеке, не снизится до требуемого количества.In various embodiments of any aspect of the present invention, said screening method further reduces the number of candidate primers remaining in the library by lowering the first minimum threshold used in step (ii) to a lower second minimum threshold and optionally repeating steps (ii) and (iii). In some embodiments, said selection method comprises raising the first minimum threshold used in step (ii) to a higher second minimum threshold and optionally repeating steps (ii) and (iii). In some embodiments, the selection method is used until all undesirable scores for candidate primer combinations remaining in the library are equal to the second minimum threshold or drop below the second minimum threshold, or until the number of candidate primers remaining in the library, will not drop to the required amount.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения указанный способ включает, до этапа (i), идентификацию или отбор праймеров, которые гибридизуются с целевыми локусами. Согласно некоторым вариантам осуществления множество праймеров (или пар праймеров) гибридизуются с одним и тем же целевым локусом, и указанный способ отбора используют для выбора одного праймера (или одной пары праймеров) для указанного целевого локуса на основании одного или нескольких параметров. Согласно различным вариантам осуществления указанный способ включает, до этапа (ii), удаление из библиотеки пары праймеров, дающей целевой ампликон, который перекрывается с целевым ампликоном, получаемым с помощью другой пары праймеров. Согласно различным вариантам осуществления кандидатный праймер выбирают из группы двух или более кандидатных праймеров с равными баллами нежелательности для удаления из библиотеки кандидатных праймеров на основании одного или нескольких других параметров. Согласно некоторым вариантам осуществления кандидатные праймеры, остающиеся в библиотеке, используют в качестве библиотеки тестовых праймеров в любых способах согласно настоящему изобретению. Согласно некоторым вариантам осуществления полученная библиотека тестовых праймеров включает любые из библиотек праймеров согласно настоящему изобретению.In various embodiments of any aspect of the present invention, said method comprises, prior to step (i), identifying or selecting primers that hybridize to target loci. In some embodiments, a plurality of primers (or primer pairs) hybridize to the same target locus, and the selection method is used to select one primer (or one pair of primers) for the specified target locus based on one or more parameters. In various embodiments, the method comprises, prior to step (ii), removing from the library a pair of primers giving a target amplicon that overlaps with the target amplicon obtained with another pair of primers. In various embodiments, a candidate primer is selected from a group of two or more candidate primers with equal undesirable scores to be removed from the library of candidate primers based on one or more other parameters. In some embodiments, candidate primers remaining in the library are used as a library of test primers in any of the methods of the present invention. In some embodiments, the resulting test primer library includes any of the primer libraries of the present invention.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, распространенности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, пенетрантности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, специфичности кандидатного праймера в отношении целевого локуса, размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона.In various embodiments of any aspect of the present invention, the unwanted scores are based at least in part on one or more parameters selected from the group consisting of the degree of heterozygosity of the target locus, the prevalence of the disease associated with the sequence (e.g. polymorphism) at the target locus, the penetrance of the disease, associated with the sequence (e.g., polymorphism) at the target locus, the specificity of the candidate primer with respect to the target locus, size ka didatnogo primer target amplicon melting temperature, GC content of the target amplicon, the amplification efficiency of the target amplicon and the target amplicon size.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, специфичности кандидатного праймера в отношении целевого локуса; размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце, который содержит материнскую ДНК от беременной матери плода и плодную ДНК, для определения присутствия или отсутствия хромосомных аномалий плода. Согласно различным вариантам осуществления указанный способ включает лигирование сайта связывания универсального праймера с молекулами ДНК в указанном образце; амплификацию лигированных молекул ДНК с применением по меньшей мере 1000 специфических праймеров и универсального праймера, в результате чего получают первый набор амплифицированных продуктов; и амплификацию первого набора амплифицированных продуктов с применением по меньшей мере 1000 пар специфических праймеров, в результате чего получают второй набор амплифицированных продуктов. Согласно различным вариантам осуществления применяют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных пар праймеров. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4 000; 50000; 75000; или 100000 разных целевых локусов.In various embodiments of any aspects of the present invention, the undesirable scores are based at least in part on one or more parameters selected from the group consisting of the degree of heterozygosity of the target locus, the specificity of the candidate primer with respect to the target locus; the size of the candidate primer, the melting point of the target amplicon, the GC content of the target amplicon, the amplification efficiency of the target amplicon, and the size of the target amplicon; and test primers are used to simultaneously amplify at least 1000 different target loci in a sample that contains maternal DNA from the pregnant mother of the fetus and fetal DNA to determine the presence or absence of fetal chromosomal abnormalities. In various embodiments, said method comprises ligating a universal primer binding site to DNA molecules in said sample; amplification of ligated DNA molecules using at least 1000 specific primers and a universal primer, resulting in a first set of amplified products; and amplifying a first set of amplified products using at least 1000 pairs of specific primers, resulting in a second set of amplified products. In various embodiments, at least 2000 are used; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different pairs of primers. In various embodiments, at least 2000 are amplified; 5000; 7500; 10000; 20,000; 25,000; 30000; 4,000; 50,000; 75,000; or 100,000 different target loci.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, специфичности кандидатного праймера в отношении целевого локуса; размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце, который содержит ДНК от предполагаемого отца плода, и для одновременной амплификации указанных целевых локусов в образце, который содержит материнскую ДНК от беременной матери плода и плодную ДНК, для определения, является ли предполагаемый отец биологическим отцом указанного плода. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов.In various embodiments of any aspects of the present invention, the undesirable scores are based at least in part on one or more parameters selected from the group consisting of the degree of heterozygosity of the target locus, the specificity of the candidate primer with respect to the target locus; the size of the candidate primer, the melting point of the target amplicon, the GC content of the target amplicon, the amplification efficiency of the target amplicon, and the size of the target amplicon; and test primers are used to simultaneously amplify at least 1000 different target loci in a sample that contains DNA from the alleged father of the fetus, and to simultaneously amplify these target loci in a sample that contains maternal DNA from the pregnant mother of the fetus and fetal DNA, to determine whether the alleged father is the biological father of the fetus. In various embodiments, at least 2000 are amplified; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, специфичности кандидатного праймера в отношении целевого локуса; размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в одной клетке или множестве клеток эмбриона для определения присутствия или отсутствия хромосомных аномалий. Согласно различным вариантам осуществления исследуют клетки из группы, включающей два или более эмбриона, и один эмбрион отбирают для оплодотворения in vitro. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов.In various embodiments of any aspects of the present invention, the undesirable scores are based at least in part on one or more parameters selected from the group consisting of the degree of heterozygosity of the target locus, the specificity of the candidate primer with respect to the target locus; the size of the candidate primer, the melting point of the target amplicon, the GC content of the target amplicon, the amplification efficiency of the target amplicon, and the size of the target amplicon; and test primers are used to simultaneously amplify at least 1000 different target loci in one cell or multiple embryo cells to determine the presence or absence of chromosomal abnormalities. In various embodiments, cells from the group of two or more embryos are examined, and one embryo is selected for in vitro fertilization. In various embodiments, at least 2000 are amplified; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, специфичности кандидатного праймера в отношении целевого локуса; размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце нуклеиновой кислоты для судебно-технической экспертизы. Согласно различным вариантам осуществления продолжительность этапа отжига составляет более 3, 5, 8, 10 или 15 минут. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 разных целевых локусов.In various embodiments of any aspects of the present invention, the undesirable scores are based at least in part on one or more parameters selected from the group consisting of the degree of heterozygosity of the target locus, the specificity of the candidate primer with respect to the target locus; the size of the candidate primer, the melting point of the target amplicon, the GC content of the target amplicon, the amplification efficiency of the target amplicon, and the size of the target amplicon; and test primers are used to simultaneously amplify at least 1000 different target loci in a nucleic acid sample for forensic examination. In various embodiments, the duration of the annealing step is more than 3, 5, 8, 10, or 15 minutes. In various embodiments, at least 2000 are amplified; 5000; 7500; 10000; 20,000; 25,000; 30000; 40,000; 50,000; 75,000; or 100,000 different target loci.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, распространенности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, пенетрантности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, специфичностью кандидатного праймера в отношении целевого локуса, размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и указанный способ включает применение тестовых праймеров для одновременной амплификации по меньшей мере 1000 разных целевых локусов в контрольном образце нуклеиновой кислоты, в результате чего получают первый набор целевых ампликонов, и для одновременной амплификации указанных целевых локусов в тестируемом образце нуклеиновой кислоты, в результате чего получают второй набор целевых ампликонов; и сравнение первого и второго наборов целевых ампликонов для определения того, присутствует ли целевой локус в одном образце, отсутствуя при этом в другом, или того, присутствует ли целевой локус в контрольном образце и в тестируемом образце с разными титрами. Согласно различным вариантам осуществления указанный тестируемый образец получен от индивидуума, у которого предположительно имеется представляющее интерес заболевание или фенотип, или повышенный риск представляющего интерес заболевания или фенотипа; и при этом один или большее число целевых локусов содержат последовательность (например, полиморфизм) в целевом локусе, связанную с повышенным риском представляющего интерес заболевания или фенотипа, или связанную с представляющим интерес заболеванием или фенотипом. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов.In various embodiments of any aspect of the present invention, the unwanted scores are based at least in part on one or more parameters selected from the group consisting of the degree of heterozygosity of the target locus, the prevalence of the disease associated with the sequence (e.g. polymorphism) at the target locus, the penetrance of the disease, associated with the sequence (eg, polymorphism) at the target locus, the specificity of the candidate primer with respect to the target locus, size ndidatnogo primer target amplicon melting temperature, GC content of the target amplicon, the amplification efficiency of the target amplicon and the target amplicon size; and said method includes the use of test primers for the simultaneous amplification of at least 1000 different target loci in a control nucleic acid sample, resulting in a first set of target amplicons, and for the simultaneous amplification of said target loci in a test nucleic acid sample, resulting in a second a set of target amplicons; and comparing the first and second sets of target amplicons to determine whether the target locus is present in one sample while not present in another, or whether the target locus is present in the control sample and in the test sample with different titers. In various embodiments, said test sample is obtained from an individual who is suspected to have a disease or phenotype of interest, or an increased risk of a disease or phenotype of interest; and wherein one or more target loci comprise a sequence (eg, polymorphism) at the target locus associated with an increased risk of a disease or phenotype of interest, or associated with a disease or phenotype of interest. In various embodiments, at least 2000 are amplified; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, распространенности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, пенетрантности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, специфичности кандидатного праймера в отношении целевого локуса, размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и указанный способ включает применение тестовых праймеров для одновременной амплификации 1000 разных целевых локусов в контрольном образце, который содержит РНК, в результате чего получают первый набор целевых ампликонов, и для одновременной амплификации указанных целевых локусов в тестируемом образце, который содержит РНК, в результате чего получают второй набор целевых ампликонов; и сравнение первого и второго наборов целевых ампликонов для определения присутствия или отсутствия разницы в уровнях экспрессии РНК между контрольным образцом и тестируемым образцом. Согласно различным вариантам осуществления указанная РНК представляет собой мРНК. Согласно различным вариантам осуществления указанный тестируемый образец получен от индивидуума, у которого предположительно имеется представляющее интерес заболевание или фенотип (например, раковое заболевание) или повышенный риск представляющего интерес заболевания или фенотипа (например, ракового заболевания); и при этом один или большее число целевых локусов содержат последовательность (например, полиморфизм или другую мутацию), связанную с повышенным риском представляющего интерес заболевания или фенотипа, или связанную с представляющим интерес заболеванием или фенотипом. Согласно некоторым вариантам осуществления указанный тестируемый образец получен от индивидуума, у которого диагностировано представляющее интерес заболевание или фенотип (например, раковое заболевание); и при этом различие уровня экспрессии РНК между контрольным образцом и тестируемым образцом указывает на то, что целевой локус включает последовательность (например, полиморфизм или другую мутацию), связанную с повышенным или пониженным риском представляющего интерес заболевания или фенотипа. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов.In various embodiments of any aspect of the present invention, the unwanted scores are based at least in part on one or more parameters selected from the group consisting of the degree of heterozygosity of the target locus, the prevalence of the disease associated with the sequence (e.g. polymorphism) at the target locus, the penetrance of the disease, associated with the sequence (e.g., polymorphism) at the target locus, the specificity of the candidate primer with respect to the target locus, size ka didatnogo primer target amplicon melting temperature, GC content of the target amplicon, the amplification efficiency of the target amplicon and the target amplicon size; and the method includes the use of test primers for the simultaneous amplification of 1000 different target loci in a control sample that contains RNA, resulting in a first set of target amplicons, and for the simultaneous amplification of these target loci in a test sample that contains RNA, resulting in a second set of target amplicons; and comparing the first and second sets of target amplicons to determine the presence or absence of a difference in the levels of RNA expression between the control sample and the test sample. In various embodiments, said RNA is mRNA. In various embodiments, said test sample is obtained from an individual who is suspected to have a disease or phenotype of interest (eg, cancer) or an increased risk of a disease or phenotype of interest (eg, cancer); and wherein one or more target loci comprise a sequence (eg, polymorphism or other mutation) associated with an increased risk of a disease or phenotype of interest, or associated with a disease or phenotype of interest. In some embodiments, said test sample is obtained from an individual who has been diagnosed with a disease or phenotype of interest (eg, cancer); and the difference in the level of RNA expression between the control sample and the test sample indicates that the target locus includes a sequence (for example, polymorphism or other mutation) associated with an increased or decreased risk of a disease or phenotype of interest. In various embodiments, at least 2000 are amplified; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci.

Согласно одному аспекту в настоящем изобретении предложены библиотеки праймеров. Согласно некоторым вариантам осуществления указанные праймеры выбирают из библиотеки кандидатных праймеров с применением любых способов согласно настоящему изобретению. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов таким образом, что менее чем 60; 40; 30; 20; 10; 5; 4; 3; 2; 1; 0,5; 0,25; 0,1; или 0,05% амплифицированных продуктов представлено димерами праймеров. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов таким образом, что по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% амплифицированных продуктов представлено целевыми ампликонами. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют целевые локусы таким образом, что амплифицируется по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов из 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов. Согласно некоторым вариантам осуществления библиотека праймеров содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 пар праймеров, при этом каждая пара праймеров включает прямой тестовый праймер и обратный тестовый праймер, при этом каждая пара тестовых праймеров гибридизуется с целевым локусом. Согласно некоторым вариантам осуществления библиотека праймеров содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 индивидуальных праймеров, каждый из который гибридизуется с отличным целевым локусом, при этом указанные индивидуальные праймеры не входят в состав пар праймеров.According to one aspect, the present invention provides primer libraries. In some embodiments, said primers are selected from a candidate primer library using any of the methods of the present invention. In some embodiments, the library contains primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci. In some embodiments, the library comprises primers that simultaneously amplify at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci. In some embodiments, the library comprises primers that simultaneously amplify at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci in such a way that less than 60; 40; thirty; twenty; 10; 5; four; 3; 2; one; 0.5; 0.25; 0.1; or 0.05% of the amplified products are represented by primer dimers. In some embodiments, the library contains primers that simultaneously amplify 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci in such a way that at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the amplified products are target amplicons. In some embodiments, the library contains primers that simultaneously amplify target loci in such a way that at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target loci from 1000 are amplified; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci. In some embodiments, the primer library comprises at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 pairs of primers, with each pair of primers including a direct test primer and a reverse test primer, with each pair of test primers hybridizing with the target locus. In some embodiments, the primer library comprises at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 individual primers, each of which hybridizes to a different target locus, wherein said individual primers are not part of the primer pairs.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения концентрация каждого праймера составляет менее 100, 75, 50, 25, 10, 5, 2 или 1 нМ. Согласно различным вариантам осуществления содержание GC в праймерах составляет от 30 до 80%, например, от 40 до 70% или от 50 до 60% включительно. Согласно некоторым вариантам осуществления диапазон содержания GC в праймерах составляет менее 30, 20, 10, или 5%. Согласно некоторым вариантам осуществления температура плавления праймеров составляет от 40 до 80°C, например, от 50 до 70°C, от 55 до 65°C, или от 57 до 60,5°C включительно. Согласно некоторым вариантам осуществления диапазон температур плавления праймеров составляет менее 15, 10, 5, 3 или 1°C. Согласно некоторым вариантам осуществления длина праймеров составляет от 15 до 100 нуклеотидов, например, от 15 до 75 нуклеотидов, от 15 до 40 нуклеотидов, от 17 до 35 нуклеотидов, от 18 до 30 нуклеотидов, или от 20 до 65 нуклеотидов включительно. Согласно некоторым вариантам осуществления праймеры содержат маркер, не являющийся специфичным по отношению к цели, например, маркер, который образует внутреннюю петлевую структуру. Согласно некоторым вариантам осуществления указанный маркер расположен между двумя ДНК-связывающими областями. Согласно различным вариантам осуществления праймеры содержат 5'-область, являющуюся специфической в отношении целевого локуса, внутреннюю область, не являющуюся специфической в отношении целевого локуса и образующую петлевую структуру, и 3'-область, являющуюся специфической в отношении целевого локуса. Согласно различным вариантам осуществления длина 3'-области составляет по меньшей мере 7 нуклеотидов. Согласно некоторым вариантам осуществления длина 3'-области составляет от 7 до 20 нуклеотидов, например, от 7 до 15 нуклеотидов, или от 7 до 10 нуклеотидов включительно. Согласно различным вариантам осуществления праймеры содержат 5'-область, не являющуюся специфической в отношении целевого локуса (например, другой маркер или сайт связывания универсального праймера), за которой следует область, являющаяся специфической в отношении целевого локуса, внутренняя область, не являющаяся специфической в отношении целевого локуса и образующая петлевую структуру, и 3'-область, являющаяся специфической в отношении целевого локуса. Согласно некоторым вариантам осуществления диапазон длин праймеров составляет менее 50, 40, 30, 20, 10 или 5 нуклеотидов. Согласно некоторым вариантам осуществления длина целевых ампликонов составляет от 50 до 100 нуклеотидов, например, от 60 до 80 нуклеотидов, или от 60 до 75 нуклеотидов включительно. Согласно некоторым вариантам осуществления диапазон длин целевых ампликонов составляет менее 50, 25, 15, 10 или 5 нуклеотидов.In various embodiments of any aspect of the present invention, the concentration of each primer is less than 100, 75, 50, 25, 10, 5, 2, or 1 nM. According to various embodiments, the content of GC in the primers is from 30 to 80%, for example, from 40 to 70% or from 50 to 60%, inclusive. In some embodiments, the range of GC content in the primers is less than 30, 20, 10, or 5%. In some embodiments, the primer has a melting point of from 40 to 80 ° C, for example, from 50 to 70 ° C, from 55 to 65 ° C, or from 57 to 60.5 ° C inclusive. In some embodiments, the primer melting range is less than 15, 10, 5, 3, or 1 ° C. In some embodiments, the length of the primers is from 15 to 100 nucleotides, for example, from 15 to 75 nucleotides, from 15 to 40 nucleotides, from 17 to 35 nucleotides, from 18 to 30 nucleotides, or from 20 to 65 nucleotides, inclusive. In some embodiments, the primers comprise a marker that is not specific to the target, for example, a marker that forms an internal loop structure. In some embodiments, said marker is located between two DNA binding regions. According to various embodiments, the primers comprise a 5'-region that is specific for the target locus, an inner region that is not specific to the target locus and forming a loop structure, and a 3'-region that is specific for the target locus. In various embodiments, the length of the 3 ′ region is at least 7 nucleotides. According to some embodiments, the length of the 3'-region is from 7 to 20 nucleotides, for example, from 7 to 15 nucleotides, or from 7 to 10 nucleotides, inclusive. In various embodiments, the primers comprise a 5'-region that is not specific for the target locus (for example, a different marker or universal primer binding site), followed by a region that is specific for the target locus, an inner region that is not specific for of the target locus and forming a loop structure, and a 3'-region that is specific for the target locus. In some embodiments, the primer length range is less than 50, 40, 30, 20, 10, or 5 nucleotides. According to some embodiments, the length of the target amplicons is from 50 to 100 nucleotides, for example, from 60 to 80 nucleotides, or from 60 to 75 nucleotides, inclusive. In some embodiments, the range of target amplicon lengths is less than 50, 25, 15, 10, or 5 nucleotides.

Согласно одному аспекту в настоящем изобретении предложены наборы, которые включают любые из библиотек праймеров согласно настоящему изобретению, для амплификации целевых локусов в образце нуклеиновой кислоты. Согласно некоторым вариантам осуществления указанный набор включает инструкции по применению библиотеки для амплификации целевых локусов.In one aspect, the present invention provides kits that include any of the primer libraries of the present invention for amplifying target loci in a nucleic acid sample. In some embodiments, the kit includes instructions for using the library to amplify target loci.

Согласно одному аспекту в настоящем изобретении предложены способы определения статуса плоидности хромосомы у вынашиваемого плода. Согласно некоторым вариантам осуществления указанный способ включает приведение образца нуклеиновой кислоты в контакт с библиотекой праймеров, которые одновременно гибридизуются с по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов в результате чего получают реакционную смесь; при этом указанный образец нуклеиновой кислоты содержит материнскую ДНК от матери плода и плодную ДНК от плода. Согласно некоторым вариантам осуществления реакционную смесь подвергают воздействию условий реакции удлинения праймеров, в результате чего получают продукты амплификации; указанные амплифицированные продукты измеряют с использованием высокопроизводительного секвенатора для получения данных секвенирования; число аллелей в полиморфных локусах рассчитывают на компьютере на основе данных секвенирования; создают на компьютере множество гипотез плоидности, каждая из которых касается отличного возможного состояния плоидности хромосомы; строят на компьютере модель совместного распределения для значений ожидаемого числа аллелей в полиморфных локусах на хромосоме для каждой гипотезы плоидности; относительную вероятность каждой из гипотез плоидности определяют на компьютере с применением модели совместного распределения и числа аллелей; и определяют состояние плоидности указанного плода путем отбора состояния плоидности, соответствующего гипотезе, имеющей наибольшую вероятность.According to one aspect, the present invention provides methods for determining the ploidy status of a chromosome in a gestating fetus. In some embodiments, said method comprises contacting a nucleic acid sample with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different polymorphic loci resulting in a reaction mixture; wherein said nucleic acid sample contains maternal DNA from the mother of the fetus and fetal DNA from the fetus. In some embodiments, the reaction mixture is subjected to primer extension reaction conditions, resulting in amplification products; said amplified products are measured using a high throughput sequencer to obtain sequencing data; the number of alleles at polymorphic loci is calculated on a computer based on sequencing data; create a plurality of ploidy hypotheses on the computer, each of which concerns the excellent possible ploidy state of the chromosome; constructing a joint distribution model on a computer for the values of the expected number of alleles at polymorphic loci on the chromosome for each ploidy hypothesis; the relative probability of each of the ploidy hypotheses is determined on a computer using the model of the joint distribution and the number of alleles; and determine the ploidy state of the fetus by selecting the ploidy state corresponding to the hypothesis having the greatest probability.

Согласно одному аспекту в настоящем изобретении предложены способы определения статуса плоидности хромосомы у вынашиваемого плода. Согласно варианту осуществления способ определения статуса плоидности хромосомы у вынашиваемого плода включает получение первого образца ДНК, который содержит материнскую ДНК от матери плода и плодную ДНК от плода, подготовку первого образца путем выделения ДНК с получением подготовленного образца, измерение ДНК в подготовленном образце во множестве полиморфных локусов в хромосоме, вычисление на компьютере числа аллелей во множестве полиморфных локусов по измерениям ДНК, выполненным в подготовленном образце, создание на компьютере множества гипотез плоидности, каждая из которых относится к разному возможному состоянию плоидности хромосомы, построение на компьютере модели совместного распределения для значений ожидаемого числа аллелей во множестве полиморфных локусов на хромосоме для каждой гипотезы плоидности, определение на компьютере относительной вероятности каждой из гипотез плоидности с использованием модели совместного распределения и числа аллелей, измеренных в подготовленном образце, и прогнозирование состояния плоидности плода путем отбора состояния плоидности, соответствующего гипотезе с наибольшей вероятностью.According to one aspect, the present invention provides methods for determining the ploidy status of a chromosome in a gestating fetus. According to an embodiment, the method for determining the ploidy status of a chromosome in a bearing fetus comprises obtaining a first DNA sample that contains maternal DNA from the fetal mother and fetal DNA from the fetus, preparing the first sample by isolating DNA to obtain the prepared sample, measuring the DNA in the prepared sample at a variety of polymorphic loci on the chromosome, calculating on the computer the number of alleles in a variety of polymorphic loci from DNA measurements made in the prepared sample, creating on the computer many ploidy hypotheses, each of which relates to a different possible ploidy state of the chromosome, building a joint distribution model for the expected number of alleles in the set of polymorphic loci on the chromosome for each ploidy hypothesis, determining the relative probability of each ploidy hypothesis on the computer using the joint ploidy model distribution and number of alleles measured in the prepared sample, and predicting the state of fetal ploidy by selecting Nia ploidy, consistent with the hypothesis with the highest probability.

Согласно одному аспекту в настоящем изобретении предложены способы тестирования на анормальное распределение хромосомы в образце, который содержит смесь материнской и плодной ДНК. Согласно некоторым вариантам осуществления указанный способ включает (i) приведение в контакт указанного образца с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь; при этом указанные целевые локусы выбраны из совокупности разных хромосом; и при этом указанная совокупность разных хромосом включает по меньшей мере одну первую хромосому, предположительно имеющую анормальное распределение в указанном образце, и по меньшей мере одну вторую хромосому, предположительно имеющую нормальное распределение в указанном образце; (ii) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают продукты амплификации; (iii) секвенирование амплифицированных продуктов, в результате которого получают набор маркеров последовательности, выравнивающихся с целевыми локусами; при этом указанные маркеры последовательности имеют достаточную длину, чтобы можно было приписать их к конкретному целевому локусу; (iv) определение на компьютере соответствия совокупности маркеров последовательности соответствующим им целевым локусам; (v) определение на компьютере числа маркеров последовательности, выравнивающихся с целевыми локусами первой хромосомы, и числа маркеров последовательности, выравнивающихся с целевыми локусами второй хромосомы; и (vi) сравнение на компьютере значений, полученных на этапе (v), для определения наличия или отсутствия анормального распределения первой хромосомы.According to one aspect, the present invention provides methods for testing for abnormal chromosome distribution in a sample that contains a mixture of maternal and fetal DNA. In some embodiments, said method comprises (i) contacting said sample with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci, resulting in a reaction mixture; while these target loci are selected from a set of different chromosomes; and wherein said set of different chromosomes includes at least one first chromosome, presumably having an abnormal distribution in said sample, and at least one second chromosome, presumably having a normal distribution in said sample; (ii) placing the reaction mixture under the conditions of the extension of the primers, resulting in amplification products; (iii) sequencing of amplified products, resulting in a set of sequence markers aligned with the target loci; however, these sequence markers are of sufficient length so that you can assign them to a specific target locus; (iv) determining on a computer whether the set of sequence markers corresponds to their corresponding target loci; (v) determining on a computer the number of sequence markers aligned with the target loci of the first chromosome and the number of sequence markers aligned with the target loci of the second chromosome; and (vi) comparing on a computer the values obtained in step (v) to determine the presence or absence of an abnormal distribution of the first chromosome.

Согласно одному аспекту в настоящем изобретении предложены способы обнаружения наличия или отсутствия анеуплоидии плода. Согласно некоторым вариантам осуществления указанный способ включает (i) приведение образца, который включает смесь материнской и плодной ДНК, в контакт с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных неполиморфных целевых локусов, в результате чего получают реакционную смесь; при этом указанные целевые локусы взяты из совокупности разных хромосом; (ii) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые включают целевые ампликоны; (iii) количественное определение на компьютере относительной частоты целевых ампликонов из первой и второй представляющих интерес хромосом; (iv) сравнение на компьютере относительной частоты целевых ампликонов из первой и второй представляющих интерес хромосом; и (v) идентификацию наличия или отсутствия анеуплоидии на основании сравниваемых относительных частот первой и второй представляющих интерес хромосом. Согласно некоторым вариантам осуществления первая хромосома представляет собой хромосому, предположительно являющуюся эуплоидной. Согласно некоторым вариантам осуществления вторая хромосома представляет собой хромосому, предположительно являющуюся анеуплоидной.According to one aspect, the present invention provides methods for detecting the presence or absence of fetal aneuploidy. In some embodiments, said method comprises (i) bringing a sample, which includes a mixture of maternal and fetal DNA, into contact with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different non-polymorphic target loci, resulting in a reaction mixture; while these target loci are taken from a set of different chromosomes; (ii) placing the reaction mixture under the conditions of the extension of the primers, resulting in amplified products that include the target amplicons; (iii) quantifying on a computer the relative frequency of the target amplicons from the first and second chromosomes of interest; (iv) comparing on a computer the relative frequency of the target amplicons from the first and second chromosomes of interest; and (v) identifying the presence or absence of aneuploidy based on the relative frequencies of the first and second chromosomes of interest. In some embodiments, the first chromosome is a chromosome presumably euploid. In some embodiments, the second chromosome is a chromosome, presumably aneuploid.

Согласно одному аспекту раскрывается способ определения наличия или отсутствия анеуплоидии плода в образце материнской ткани, содержащем плодную и материнскую геномную ДНК, включающий (а) получение смеси плодной и материнской геномной ДНК из указанного образца материнской ткани, (b) выполнение массивного параллельного ДНК-секвенирования фрагментов ДНК, случайно выбранных из смеси плодной и материнской геномной ДНК этапа (а), для определения последовательности указанных фрагментов ДНК, (с) идентификацию хромосом, которым принадлежат полученные на этапе (b) последовательности, (d) использование данных этапа (с) для определения количества по меньшей мере одной первой хромосомы в указанной смеси материнской и плодной геномной ДНК, при этом предполагается, что указанная по меньшей мере одна первая хромосома является эуплоидной у плода, (е) использование данных этапа (с) для определения количества второй хромосомы в указанной смеси материнской и плодной геномной ДНК, при этом предполагается, что указанная вторая хромосома является анеуплоидной у плода, (f) вычисление доли плодной ДНК в смеси плодной и материнской ДНК, (g) вычисление ожидаемого распределения количества второй целевой хромосомы, если вторая целевая хромосома является эуплоидной, с использованием количества, полученного на этапе (d), (h) вычисление ожидаемого распределения количества второй целевой хромосомы, если вторая целевая хромосома является анеуплоидной, с использованием первого количества, полученного на этапе (d), и рассчитанной доли плодной ДНК в смеси плодной и материнской ДНК на этапе (f) и (i) использование метода максимального правдоподобия или метода оценки апостериорного максимума для определения, является ли количество второй хромосомы, определенное на этапе (е), с большей вероятностью частью распределения, рассчитанного на этапе (g), или распределения, рассчитанного на этапе (h); в результате чего определяют наличие или отсутствие анеуплоидии у плода.According to one aspect, a method is disclosed for determining the presence or absence of fetal aneuploidy in a maternal tissue sample containing fetal and maternal genomic DNA, comprising (a) obtaining a mixture of fetal and maternal genomic DNA from said maternal tissue sample, (b) performing massive parallel DNA sequencing of the fragments DNA randomly selected from a mixture of fetal and maternal genomic DNA of step (a) to determine the sequence of these DNA fragments, (c) identification of chromosomes that belong to the scientists in step (b) of the sequence, (d) using the data of step (c) to determine the amount of at least one first chromosome in said mixture of maternal and fetal genomic DNA, it being assumed that said at least one first chromosome is euploid in the fetus, (e) using the data from step (c) to determine the amount of the second chromosome in the indicated mixture of maternal and fetal genomic DNA, it is assumed that the specified second chromosome is aneuploid in the fetus, (f) calculating the fetal fraction st DNA in a mixture of fetal and maternal DNA, (g) calculating the expected distribution of the amount of the second target chromosome, if the second target chromosome is euploid, using the amount obtained in step (d), (h) calculating the expected distribution of the amount of the second target chromosome, if the second target chromosome is aneuploid, using the first amount obtained in step (d) and the calculated fraction of fetal DNA in the mixture of fetal and maternal DNA in step (f) and (i) using the maximum likelihood method a method or method for estimating the posterior maximum to determine whether the amount of the second chromosome determined in step (e) is more likely to be part of the distribution calculated in step (g) or the distribution calculated in step (h); as a result, the presence or absence of aneuploidy in the fetus is determined.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения указанный способ также включает получение генотипических данных от одного или обоих родителей плода. Согласно некоторым вариантам осуществления получение генотипических данных от одного или обоих родителей указанного плода включает подготовку ДНК от указанных родителей, причем указанная подготовка включает преимущественное обогащение ДНК по множеству полиморфных локусов для получения подготовленной родительской ДНК, необязательно амплификацию подготовленной родительской ДНК и измерение родительской ДНК в подготовленном образце во множестве полиморфных локусов.According to various embodiments of any aspects of the present invention, said method also includes obtaining genotypic data from one or both of the fetal parents. In some embodiments, obtaining genotypic data from one or both parents of said fetus involves preparing DNA from said parents, said preparation comprising predominantly enriching DNA at a variety of polymorphic loci to produce prepared parent DNA, optionally amplifying the prepared parent DNA and measuring the parent DNA in the prepared sample in many polymorphic loci.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения построение модели совместного распределения вероятностей ожидаемого числа аллелей для множества полиморфных локусов на хромосоме выполняют с применением полученных генетических данных от одного или обоих родителей. Согласно некоторым вариантам осуществления образец (например, первый образец) был выделен из материнской плазмы, и при этом получение генотипических данных от матери выполняют путем оценки материнских генотипических данных по измерениям ДНК, выполненным в подготовленном образце.According to various embodiments of any aspects of the present invention, the construction of a model for the joint probability distribution of the expected number of alleles for multiple polymorphic loci on the chromosome is performed using the obtained genetic data from one or both parents. In some embodiments, a sample (e.g., a first sample) has been isolated from maternal plasma, and obtaining genotypic data from the mother is performed by evaluating maternal genotypic data from DNA measurements made in the prepared sample.

Согласно одному аспекту раскрыт диагностический бокс для содействия в определении статуса плоидности хромосомы у вынашиваемого плода, при этом указанный диагностический бокс позволяет выполнять этапы подготовки и измерения в любых способах согласно настоящему изобретению.According to one aspect, a diagnostic box is disclosed to assist in determining the ploidy status of a chromosome in a gestating fetus, said diagnostic box allowing the preparation and measurement steps to be performed in any methods of the present invention.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения значения числа аллелей являются вероятностными, а не бинарными. Согласно некоторым вариантам осуществления измерения ДНК в подготовленном образце во множестве полиморфных локусов также используются для определения того, унаследовал ли плод один или несколько связанных с заболеванием гаплотипов.In various embodiments of any aspect of the present invention, the allele number values are probabilistic rather than binary. In some embodiments, measuring DNA in a prepared sample at a variety of polymorphic loci is also used to determine if the fetus has inherited one or more disease-related haplotypes.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения построение модели совместного распределения для вероятностей числа аллелей выполняют с применением данных относительно вероятности хромосомного кроссинговера в различных локализациях в хромосоме для моделирования зависимости между полиморфными аллелями на хромосоме. Согласно некоторым вариантам осуществления построение модели совместного распределения для числа аллелей и этап определения относительной вероятности каждой гипотезы осуществляют с применением способа, не требующего использования эталонной хромосомы.According to various embodiments of any aspects of the present invention, the construction of a shared distribution model for the probabilities of the number of alleles is performed using data on the probability of chromosome crossing over at different locations on the chromosome to model the relationship between polymorphic alleles on the chromosome. According to some embodiments, the construction of a joint distribution model for the number of alleles and the step of determining the relative probability of each hypothesis is carried out using a method that does not require the use of a reference chromosome.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения при определении относительной вероятности каждой гипотезы применяется установленная доля плодной ДНК в подготовленном образце. Согласно некоторым вариантам осуществления измерения ДНК из подготовленного образца, используемого при вычислении вероятностей числа аллелей и определении относительной вероятности каждой гипотезы, включают первичные генетические данные. Согласно некоторым вариантам осуществления выбор состояния плоидности, соответствующего гипотезе, имеющей наибольшую вероятность, реализуют с использованием оценок максимального правдоподобия или оценок апостериорного максимума.In various embodiments of any aspect of the present invention, a determined fraction of fetal DNA in a prepared sample is used to determine the relative probability of each hypothesis. In some embodiments, measuring DNA from a prepared sample used in calculating the probabilities of the number of alleles and determining the relative probability of each hypothesis includes primary genetic data. According to some embodiments, the choice of the ploidy state corresponding to the hypothesis having the greatest probability is realized using maximum likelihood estimates or a posteriori maximum estimates.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения определение состояния плоидности указанного плода также включает комбинирование относительных вероятностей каждой из гипотез плоидности, определенных с применением модели совместного распределения, и вероятностей числа аллелей с относительными вероятностями каждой из гипотез плоидности, которые рассчитывают с применением статистических методов, взятых из группы, состоящей из анализа количества считываний, сравнения степеней гетерозиготности, статистики, доступной только при использовании родительской генетической информации, вероятности нормализованных сигналов генотипа для определенных родительских контекстов, статистики, рассчитываемой с использованием оцениваемой доли плода в образце (например, первом образце) или подготовленном образце, и их комбинаций.According to various embodiments of any aspect of the present invention, determining the ploidy state of said fetus also includes combining the relative probabilities of each of the ploidy hypotheses determined using the co-distribution model and the probabilities of the number of alleles with the relative probabilities of each of the ploidy hypotheses, which are calculated using statistical methods taken from the group consisting of an analysis of the number of readings, a comparison of the degrees of heterozygosity, stat sticks, accessible only when the parental genetic information, normalized probability signals for certain genotype of parental contexts, statistics, calculated using the estimated fraction of the fetus in the sample (e.g., the first sample) or a prepared sample, and combinations thereof.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения для определяемого состояния плоидности оценивают уровень достоверности. Согласно некоторым вариантам осуществления указанный способ также включает осуществление клинического действия на основании устанавливаемого состояния плоидности указанного плода, при этом указанное клиническое действие выбрано из прерывания беременности или сохранения беременности.In various embodiments of any aspect of the present invention, a confidence level is evaluated for the ploidy state being determined. In some embodiments, said method also includes administering a clinical action based on an established ploidy state of said fetus, wherein said clinical effect is selected from terminating the pregnancy or maintaining the pregnancy.

Согласно некоторым вариантам осуществления указанный способ может быть реализован для плодов на 4-5 неделях гестации; на 5-6 неделях гестации; на 6-7 неделях гестации; на 7-8 неделях гестации; на 8-9 неделях гестации; на 9-10 неделях гестации; на 10-12 неделях гестации; на 12-14 неделях гестации; на 14-20 неделях гестации; на 20-40 неделях гестации; в первом триместре; во втором триместре; в третьем триместре; или для их комбинаций.In some embodiments, said method can be implemented for fetuses at 4-5 weeks of gestation; at 5-6 weeks of gestation; at 6-7 weeks of gestation; at 7-8 weeks of gestation; at 8-9 weeks of gestation; at 9-10 weeks of gestation; at 10-12 weeks of gestation; at 12-14 weeks of gestation; at 14-20 weeks of gestation; at 20-40 weeks of gestation; in the first trimester; in the second trimester; in the third trimester; or for combinations thereof.

Согласно различным вариантам осуществления любых аспектов настоящего изобретения с использованием указанного способа составляют отчет, отражающий установленный статус плоидности хромосомы у вынашиваемого плода. Согласно некоторым вариантам осуществления раскрыт набор для определения статуса плоидности целевой хромосомы у вынашиваемого плода, разработанный для применения с любыми способами согласно настоящему изобретению; указанный набор включает множество внутренних прямых праймеров и необязательно множество внутренних обратных праймеров, при этом каждый из праймеров сконструирован так, чтобы гибридизоваться с областью ДНК, расположенной непосредственно выше (в 5' направлении) и/или ниже (в 3' направлении) от одного из полиморфных сайтов на целевой хромосоме, и необязательно дополнительных хромосомах, при этом область гибридизации отделена от указанного полиморфного сайта небольшим количеством оснований, причем указанное небольшое количество выбрано из группы, состоящей из 1, 2, 3, 4, 5, 6-10, 11-15, 16-20, 21-25, 26-30, 31-60 и их комбинаций.According to various embodiments of any aspects of the present invention, using this method, a report is generated reflecting the established ploidy status of the chromosome in the gestating fetus. In some embodiments, a kit is disclosed for determining the ploidy status of a target chromosome in a bearing fetus designed for use with any methods of the present invention; said kit includes a plurality of internal forward primers and optionally a plurality of internal reverse primers, each of the primers being designed to hybridize to a region of DNA located directly above (in the 5 'direction) and / or below (in the 3' direction) from one of polymorphic sites on the target chromosome, and optionally additional chromosomes, while the hybridization region is separated from the specified polymorphic site by a small number of bases, with the specified small number selected h group consisting of 1, 2, 3, 4, 5, 6-10, 11-15, 16-20, 21-25, 26-30, 31-60 and their combinations.

Согласно одному аспекту в настоящем изобретении предложены способы определения, является ли предполагаемый отец биологическим отцом плода, вынашиваемого беременной матерью. Согласно некоторым вариантам осуществления указанный способ включает: (i) одновременную амплификацию множества полиморфных локусов, включающего по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов из генетического материала предполагаемого отца,, в результате чего получают первый набор амплифицированных продуктов; (ii) одновременную амплификацию соответствующего множества полиморфных локусов в смешанном образце ДНК, происходящем из образца крови беременной матери, в результате чего получают второй набор амплифицированных продуктов; при этом указанный смешанный образец ДНК содержит плодную ДНК и материнскую ДНК; (iii) определение на компьютере вероятности того, что предполагаемый отец является биологическим отцом указанного плода, с применением генотипических измерений на основе первого и второго наборов амплифицированных продуктов; и (iv) определение, является ли предполагаемый отец биологическим отцом указанного плода, с использованием определенной вероятности того, что предполагаемый отец является биологическим отцом указанного плода. Согласно различным вариантам осуществления указанный способ также включает одновременную амплификацию соответствующего множества полиморфных локусов из генетического материала матери для получения третьего набора амплифицированных продуктов; при этом вероятность того, что предполагаемый отец является биологическим отцом указанного плода, определяют с применением генотипических измерений на основе первого, второго и третьего наборов амплифицированных продуктов.According to one aspect, the present invention provides methods for determining whether the alleged father is the biological father of the fetus of the pregnant mother. In some embodiments, said method comprises: (i) simultaneously amplifying a plurality of polymorphic loci, comprising at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different polymorphic loci from the genetic material of the alleged father, resulting in the first set of amplified products; (ii) simultaneously amplifying a plurality of polymorphic loci in a mixed DNA sample originating from a pregnant mother’s blood sample, resulting in a second set of amplified products; wherein said mixed DNA sample contains fetal DNA and maternal DNA; (iii) determining on a computer the probability that the alleged father is the biological father of the fetus, using genotypic measurements based on the first and second sets of amplified products; and (iv) determining whether the alleged father is the biological father of the specified fetus, using the specific probability that the alleged father is the biological father of the specified fetus. In various embodiments, said method also includes simultaneously amplifying a plurality of polymorphic loci from the mother’s genetic material to produce a third set of amplified products; the probability that the alleged father is the biological father of the specified fetus is determined using genotypic measurements based on the first, second and third sets of amplified products.

Согласно одному аспекту в настоящем изобретении предложены способы установления относительных вероятностей того, что каждый эмбрион из группы эмбрионов будет развиваться желаемым образом. Согласно некоторым вариантам осуществления указанный способ включает приведение образца от каждого эмбриона в контакт с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь для каждого эмбриона, причем каждый из указанных образцов получен из одной или нескольких клеток эмбриона. Согласно некоторым вариантам осуществления каждую реакционную смесь подвергают воздействию условий реакции удлинения праймеров, в результате чего получают продукты амплификации. Согласно некоторым вариантам осуществления указанный способ включает определение на компьютере одной или нескольких характеристик по меньшей мере одной клетки из каждого эмбриона на основании амплифицированных продуктов; и установление на компьютере относительных вероятностей того, что каждый эмбрион будет развиваться желаемым образом, на основании указанных одной или нескольких характеристик по меньшей мере одной клетки для каждого эмбриона.According to one aspect, the present invention provides methods for establishing the relative probabilities that each embryo in a group of embryos will develop in a desired manner. In some embodiments, said method comprises bringing a sample from each embryo into contact with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci, resulting in a reaction mixture for each embryo, each of these samples obtained from one or more cells of the embryo. In some embodiments, each reaction mixture is subjected to primer extension reaction conditions, resulting in amplification products. In some embodiments, said method comprises determining on a computer one or more characteristics of at least one cell from each embryo based on amplified products; and establishing on a computer the relative probabilities that each embryo will develop in the desired manner based on the indicated one or more characteristics of at least one cell for each embryo.

Согласно одному аспекту в настоящем изобретении предложены способы измерения количества двух или более целевых локусов в образце нуклеиновой кислоты. Согласно некоторым вариантам осуществления указанный способ включает (i) применение ПЦР для амплификации образца нуклеиновой кислоты, который содержит первый стандартный локус, второй стандартный локус, первый целевой локус и второй целевой локус, с образованием амплифицированных продуктов; при этом указанный первый стандартный локус и указанный первый целевой локус содержат одинаковое число нуклеотидов, но имеют последовательность, отличающуюся одним или несколькими нуклеотидами; и при этом указанные второй стандартный локус и второй целевой локус содержат одинаковое число нуклеотидов, но имеют последовательность, отличающуюся одним или несколькими нуклеотидами; (ii) секвенирование амплифицированных продуктов для определения стандартного отношения, отражающего относительное количество амплифицированного первого стандартного локуса по сравнению с количеством амплифицированного второго стандартного локуса; при этом указанное стандартное отношение отражает различия в эффективности ПЦР для амплификации указанного первого стандартного локуса и указанного второго стандартного локуса; (iii) определение целевого соотношения, отражающего относительное количество амплифицированного первого целевого локуса по сравнению с количеством амплифицированного второго целевого локуса; и (iv) коррекция указанного целевого соотношения, определенного на этапе (iii), с учетом стандартного отношения, определенного на этапе (ii), для определения относительного количества первого целевого локуса и второго целевого локуса в указанном образце. Согласно различным вариантам осуществления указанный способ включает определение абсолютного количества первого целевого локуса и второго целевого локуса в указанном образце. Согласно различным вариантам осуществления указанный способ также включает определение присутствия или отсутствия целевого локуса (например, по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов) в указанном образце. Согласно различным вариантам осуществления указанный способ включает применение любых библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления указанный способ включает одновременную амплификацию 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов.According to one aspect, the present invention provides methods for measuring the number of two or more target loci in a nucleic acid sample. In some embodiments, said method comprises (i) using PCR to amplify a nucleic acid sample that contains a first standard locus, a second standard locus, a first target locus, and a second target locus to form amplified products; wherein said first standard locus and said first target locus contain the same number of nucleotides, but have a sequence differing in one or more nucleotides; and wherein said second standard locus and second target locus contain the same number of nucleotides, but have a sequence differing in one or more nucleotides; (ii) sequencing amplified products to determine a standard ratio reflecting the relative amount of amplified first standard locus compared to the amount of amplified second standard locus; wherein said standard ratio reflects differences in PCR efficiency for amplification of said first standard locus and said second standard locus; (iii) determining a target ratio reflecting the relative amount of the amplified first target locus compared to the amount of the amplified second target locus; and (iv) correcting said target ratio determined in step (iii), taking into account the standard ratio determined in step (ii), to determine the relative amount of the first target locus and the second target locus in said sample. In various embodiments, said method comprises determining an absolute amount of a first target locus and a second target locus in said sample. In various embodiments, the method also includes determining the presence or absence of a target locus (e.g., at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30,000; 4,000; 50,000; 75,000; or 100,000 different target loci) in the specified sample. In various embodiments, said method comprises the use of any primer libraries of the present invention. In various embodiments, said method comprises simultaneously amplifying 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci.

Согласно одному аспекту в настоящем изобретении предложены способы количественного определения множества генетических целей в образце для анализа. Согласно некоторым вариантам осуществления указанный способ включает (i) смешивание генетического материала, полученного из указанного образца для анализа, с множеством специфичных по отношению к цели реагентов для амплификации, и множеством стандартных последовательностей, соответствующих целям указанных специфичных по отношению к цели реагентам для амплификации; (ii) амплификация целевых областей генетического материала и стандартных последовательностей для получения целевых ампликонов и ампликонов стандартных последовательностей; и (iii) измерение полученного количества целевых ампликонов и ампликонов стандартных последовательностей. Согласно некоторым вариантам осуществления указанный генетический материал присутствует в генетической библиотеке. Согласно некоторым вариантам осуществления генетические цели представляют собой полиморфные локусы (такие как SNP). Согласно некоторым вариантам осуществления измерение количества достигается путем подсчета последовательностей. Согласно некоторым вариантам осуществления указанный способ также включает определение расчетного числа копий по меньшей мере одной хромосомы в образце, из которого была получена генетическая библиотека, причем указанное определение включает сравнение числа считываний последовательностей целевого ампликона с числом считываний последовательностей стандартного ампликона. Согласно некоторым вариантам осуществления стандартные последовательности и генетическая библиотека содержат универсальные сайты праймирования, которые могут быть праймированы одним и тем же праймером. Согласно некоторым вариантам осуществления этап смешивания включает по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных специфичных по отношению к цели реагентов для амплификации и по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 стандартных последовательностей. Согласно различным вариантам осуществления указанный способ включает применение любых библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления указанный способ включает одновременную амплификацию 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых областей. Согласно некоторым вариантам осуществления известны относительные количества каждой из стандартных последовательностей. Согласно некоторым вариантам осуществления относительные количества каждой из последовательностей были откалиброваны относительно эталонного генома. Согласно некоторым вариантам осуществления образец для анализа содержит смесь плодного и материнского геномов. Согласно некоторым вариантам осуществления образец для анализа получен из крови беременной женщины или получен из плазмы крови. Согласно некоторым вариантам осуществления эталонный геном содержит по меньшей мере одну анеуплоидию, например, анеуплоидию по хромосоме 13, 18, 21, X или Y. Согласно некоторым вариантам осуществления эталонный геном является диплоидным.According to one aspect, the present invention provides methods for quantifying a plurality of genetic targets in a sample for analysis. In some embodiments, said method comprises (i) mixing genetic material obtained from said assay sample with a variety of target specific amplification reagents and a plurality of standard sequences corresponding to the goals of said target specific amplification reagents; (ii) amplification of target regions of genetic material and standard sequences to obtain target amplicons and amplicons of standard sequences; and (iii) measuring the amount of target amplicons and amplicons of standard sequences obtained. In some embodiments, said genetic material is present in the genetic library. In some embodiments, the genetic targets are polymorphic loci (such as SNPs). In some embodiments, quantity measurement is achieved by counting sequences. In some embodiments, the method also includes determining the estimated number of copies of the at least one chromosome in the sample from which the genetic library was obtained, the definition comprising comparing the number of readings of the sequences of the target amplicon with the number of readings of the sequences of the standard amplicon. In some embodiments, standard sequences and a genetic library comprise universal priming sites that can be primed with the same primer. In some embodiments, the mixing step includes at least 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target-specific amplification reagents and at least 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 standard sequences. In various embodiments, said method comprises the use of any primer libraries of the present invention. In various embodiments, said method comprises simultaneously amplifying 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target areas. In some embodiments, relative amounts of each of the standard sequences are known. In some embodiments, the relative amounts of each of the sequences have been calibrated against the reference genome. In some embodiments, the analysis sample comprises a mixture of the fetal and maternal genomes. In some embodiments, a sample for analysis is obtained from the blood of a pregnant woman or obtained from blood plasma. In some embodiments, the reference genome contains at least one aneuploidy, for example, aneuploidy on chromosome 13, 18, 21, X, or Y. In some embodiments, the reference genome is diploid.

Согласно одному аспекту в настоящем изобретении предложена смесь, которая содержит множество генетических стандартных последовательностей, при этом относительное количество каждой генетической стандартной последовательности в указанной смеси было определено путем калибровки по эталонному геному. Согласно различным вариантам осуществления указанная смесь содержит по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 генетических стандартных последовательностей. Согласно различным вариантам осуществления указанные генетические стандартные последовательности содержат первый универсальный сайт праймирования, второй универсальный сайт праймирования, первый специфичный по отношению к цели сайт праймирования, второй специфичный по отношению к цели сайт праймирования и маркерную последовательность, расположенную между указанными первым и вторым специфичными по отношению к цели сайтами праймирования, при этом первый специфичный по отношению к цели сайт и второй специфичный по отношению к цели сайт праймирования расположены между указанными первым и вторым универсальными сайтами праймирования. Согласно различным вариантам осуществления калибровка включает применение любых библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления калибровка включает одновременную амплификацию 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых областей. Согласно некоторым вариантам осуществления эталонный геном содержит по меньшей мере одну анеуплоидию, например, анеуплоидию по хромосоме 13, 18, 21, X или Y. Согласно некоторым вариантам осуществления эталонный геном является диплоидным.According to one aspect, the present invention provides a mixture that comprises a plurality of genetic standard sequences, wherein the relative amount of each genetic standard sequence in said mixture has been determined by calibration against a reference genome. In various embodiments, said mixture comprises at least 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 genetic standard sequences. In various embodiments, said genetic standard sequences comprise a first universal prime site, a second universal prime site, a first target specific site, a second target specific site, and a marker sequence located between the first and second specific targets by prime sites, with the first target-specific site and the second target-specific site with Prime sites are located between the first and second universal prime sites indicated. In various embodiments, calibration includes the use of any primer libraries of the present invention. In various embodiments, calibration includes simultaneous amplification of 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target areas. In some embodiments, the reference genome contains at least one aneuploidy, for example, aneuploidy on chromosome 13, 18, 21, X, or Y. In some embodiments, the reference genome is diploid.

Согласно одному аспекту в настоящем изобретении предложены способы получения набора калиброванных генетических стандартных последовательностей. Согласно некоторым вариантам осуществления указанный способ включает (i) образование реакционной смеси для амплификации, которая содержит генетическую библиотеку, полученную из эталонного генома, наборы реагентов с множеством специфичных в отношении цели праймеров для амплификации и множество генетических стандартных последовательностей, соответствующих указанным наборам специфичных по отношению к цели реагентов для амплификации, (ii) амплификацию генетической библиотеки и генетических стандартных последовательностей для получения ампликонов из целевых последовательностей и ампликонов из генетических стандартных последовательностей, (iii) измерение количества ампликонов из целевых последовательностей и ампликонов из генетических стандартных последовательностей, и (iv) определение взаимного относительного количества каждой из генетических стандартных последовательностей, с калибровкой таким образом множества генетических стандартных последовательностей. Согласно различным вариантам осуществления используют по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 генетических стандартных последовательностей. Согласно различным вариантам осуществления указанный способ включает применение любых библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления указанный способ включает одновременную амплификацию 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных последовательностей. Согласно некоторым вариантам осуществления эталонный геном содержит по меньшей мере одну анеуплоидию, например, анеуплоидию по хромосоме 13, 18, 21, X, или Y. Согласно некоторым вариантам осуществления эталонный геном является диплоидным.According to one aspect, the present invention provides methods for producing a set of calibrated genetic standard sequences. In some embodiments, said method comprises (i) generating an amplification reaction mixture that comprises a genetic library derived from a reference genome, reagent kits with a variety of target-specific amplification primers, and a plurality of genetic standard sequences corresponding to said sets specific for amplification reagent targets, (ii) amplification of the genetic library and genetic standard sequences for i amplicons from the target sequences and amplicons from the genetic standard sequences, (iii) measuring the number of amplicons from the target sequences and amplicons from the genetic standard sequences, and (iv) determining the relative relative quantity of each of the genetic standard sequences, thus calibrating the set of genetic standard sequences . In various embodiments, at least 10 are used; 100, 500; 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 genetic standard sequences. In various embodiments, said method comprises the use of any primer libraries of the present invention. In various embodiments, said method comprises simultaneously amplifying 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different sequences. In some embodiments, the reference genome contains at least one aneuploidy, for example, aneuploidy on chromosome 13, 18, 21, X, or Y. In some embodiments, the reference genome is diploid.

Согласно одному аспекту в настоящем изобретении предложен набор генетических стандартных последовательностей, которые были откалиброваны в соответствии с любыми способами согласно настоящему изобретению. Согласно одному аспекту в настоящем изобретении предложен набор генетических стандартных последовательностей, которые могут быть откалиброваны до, во время или после реализации указанного способа.According to one aspect, the present invention provides a set of genetic standard sequences that have been calibrated in accordance with any methods of the present invention. According to one aspect, the present invention provides a set of genetic standard sequences that can be calibrated before, during or after the implementation of this method.

Согласно одному аспекту в настоящем изобретении предложены способы измерения числа копий представляющего интерес гена, включающего по меньшей мере один аллель, содержащий делецию. Согласно некоторым вариантам осуществления указанный способ включает (i) смешивание генетического материала, полученного из образца для анализа, с реагентом для амплификации, специфическим в отношении указанного представляющего интерес гена, и не способным значительно амплифицировать содержащий делецию аллель указанного представляющего интерес гена, стандартной последовательностью, соответствующей представляющему интерес гену, реагента для амплификации, специфического в отношении эталонной последовательности, и стандартной последовательности, соответствующей указанной эталонной последовательности; (ii) амплификация представляющей интерес генной последовательности, стандартной последовательности, соответствующей представляющему интерес гену, эталонной последовательности и стандартной последовательности, соответствующей указанной эталонной последовательности, для получения ампликонов представляющего интерес гена, ампликонов эталонной последовательности и ампликонов стандартных последовательностей; и (iii) измерение полученного количества целевых ампликонов и ампликонов стандартных последовательностей. Согласно некоторым вариантам осуществления указанное измерение количества достигается путем подсчета считываний последовательностей. Согласно некоторым вариантам осуществления указанный способ также включает определение расчетного числа копий по меньшей мере одной хромосомы в образце, из которого была получена генетическая библиотека, причем указанное определение включает сравнение числа последовательностей целевых ампликонов с числом последовательностей стандартных ампликонов. Согласно некоторым вариантам осуществления стандартные последовательности и генетическая библиотека содержат универсальные сайты праймирования, которые могут быть праймированы одним и тем же праймером. Согласно некоторым вариантам осуществления относительные количества каждой из последовательностей были откалиброваны относительно эталонного генома. Согласно различным вариантам осуществления используют по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 генетических стандартных последовательностей. Согласно различным вариантам осуществления указанный способ включает применение любых библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления указанный способ включает одновременную амплификацию 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых областей. Согласно некоторым вариантам осуществления эталонный геном является диплоидным. Согласно некоторым вариантам осуществления образец для анализа получен из крови.According to one aspect, the present invention provides methods for measuring the number of copies of a gene of interest comprising at least one deletion allele. In some embodiments, said method comprises (i) mixing genetic material obtained from an analysis sample with an amplification reagent specific for said gene of interest and not capable of significantly amplifying a deletion allele of said gene of interest with a standard sequence corresponding to gene of interest, reagent for amplification specific for the reference sequence and standard sequence sequence corresponding to said reference sequence; (ii) amplifying the gene sequence of interest, the standard sequence corresponding to the gene of interest, the reference sequence and the standard sequence corresponding to the specified reference sequence to obtain amplicons of the gene of interest, amplicons of the reference sequence and amplicons of standard sequences; and (iii) measuring the amount of target amplicons and amplicons of standard sequences obtained. In some embodiments, said quantity measurement is achieved by counting sequence readings. In some embodiments, the method also includes determining the estimated number of copies of the at least one chromosome in the sample from which the genetic library was obtained, the definition comprising comparing the number of sequences of the target amplicons with the number of sequences of standard amplicons. In some embodiments, standard sequences and a genetic library comprise universal priming sites that can be primed with the same primer. In some embodiments, the relative amounts of each of the sequences have been calibrated against the reference genome. In various embodiments, at least 10 are used; 100, 500; 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 genetic standard sequences. In various embodiments, said method comprises the use of any primer libraries of the present invention. In various embodiments, said method comprises simultaneously amplifying 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target areas. In some embodiments, the reference genome is diploid. In some embodiments, a sample for analysis is obtained from blood.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения преимущественное обогащение ДНК в указанном образце (например, первого образца) в целевых локусах (например, множестве полиморфных локусов) включает получение множества пре-циркуляризованных зондов, при этом каждый зонд нацелен на один из указанных локусов (например, полиморфных локусов), при этом 3'- и 5'-конец указанных зондов предпочтительно сконструированы таким образом, чтобы гибридизоваться с областью ДНК, которая отделена от полиморфного сайта локуса небольшим количеством оснований, причем указанное небольшое количество составляет 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21-25, 26-30, 31-60 или их комбинацию, гибридизацию пре-циркуляризованных зондов с ДНК из образца (например, первого образца), заполнение гэпа между концами гибридизованного зонда с применением ДНК-полимеразы, циркуляризацию пре-циркуляризованного зонда и амплификацию циркуляризованного зонда.In some embodiments of any aspect of the present invention, preferentially enriching the DNA in said sample (e.g., the first sample) at target loci (e.g., a plurality of polymorphic loci) involves producing a plurality of pre-circularized probes, with each probe targeting one of said loci (e.g. polymorphic loci), while the 3'- and 5'-end of these probes are preferably constructed in such a way as to hybridize with a region of DNA that is separated from the polymorphic site of the locus a small number of bases, and the specified small amount is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21 -25, 26-30, 31-60, or a combination thereof, hybridization of the pre-circularized probes with DNA from the sample (e.g., the first sample), filling the gap between the ends of the hybridized probe using DNA polymerase, circulating the pre-circularized probe and amplifying the circularized a probe.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения преимущественное обогащение ДНК в целевых локусах (например, множестве полиморфных локусов) включает получение множества зондов для опосредованной лигированием ПЦР, при этом каждый ПЦР-зонд нацелен на один из целевых локусов (например, полиморфных локусов), и прямые (3'→5') и обратные (5'→3') ПЦР-зонды сконструированы так, чтобы гибридизоваться с областью ДНК на цепи ДНК, которая предпочтительно отделена от полиморфного сайта локуса небольшим количеством оснований, причем указанное небольшое количество составляет 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21-25, 26-30, 31-60 или их комбинацию, гибридизацию зондов для опосредованной лигированием ПЦР в ДНК из образца (например, первого образца), заполнение гэпа между концами зондов для опосредованной лигированием ПЦР с применением ДНК-полимеразы, лигирование зондов для опосредованной лигированием ПЦР и амплификация лигированных зондов для опосредованной лигированием ПЦР.In some embodiments of any aspect of the present invention, preferential enrichment of DNA at target loci (e.g., a plurality of polymorphic loci) involves the preparation of multiple probes for ligation-mediated PCR, with each PCR probe targeting one of the target loci (e.g., polymorphic loci), and direct (3 '→ 5') and reverse (5 '→ 3') PCR probes are designed to hybridize with the DNA region on the DNA chain, which is preferably separated from the polymorphic site of the locus by a small amount of vans, and the specified small amount is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21-25 , 26-30, 31-60, or a combination thereof, hybridization of probes for mediated ligation of PCR into DNA from a sample (for example, the first sample), filling a gap between the ends of probes for mediated ligation of PCR using DNA polymerase, ligation of probes for mediated ligation of PCR and amplification of ligation probes for ligation mediated PCR.

Согласно некоторым вариантам осуществления различных аспектов настоящего изобретения преимущественное обогащение ДНК в целевых локусах (например, множестве полиморфных локусов) включает получение множества зондов гибридного захвата, нацеленных на указанные локусы (например, полиморфные локусы), гибридизацию зондов гибридного захвата с ДНК в указанном образце (например, первого образца) и физическое удаление некоторой или всей из негибридизированной ДНК из образца (например, первого образца) ДНК.According to some embodiments of various aspects of the present invention, preferential enrichment of DNA at target loci (e.g., a plurality of polymorphic loci) includes obtaining a plurality of hybrid capture probes targeting said loci (e.g., polymorphic loci), hybridizing the hybrid capture probes with DNA in said sample (e.g. , the first sample) and the physical removal of some or all of the non-hybridized DNA from the sample (eg, the first sample) of DNA.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения зонды гибридного захвата сконструированы так, чтобы гибридизоваться с областью, которая фланкирует, но не перекрывает полиморфный сайт. Согласно некоторым вариантам осуществления зонды гибридного захвата сконструированы так, чтобы гибридизоваться с областью, которая фланкирует, но не перекрывает полиморфный сайт, и при этом длина фланкирующего зонда захвата может быть выбрана из группы, состоящей из менее чем приблизительно 120 оснований, менее чем приблизительно 110 оснований, менее чем приблизительно 100 оснований, менее чем приблизительно 90 оснований, менее чем приблизительно 80 оснований, менее чем приблизительно 70 оснований, менее чем приблизительно 60 оснований, менее чем приблизительно 50 оснований, менее чем приблизительно 40 оснований, менее чем приблизительно 30 оснований и менее чем приблизительно 25 оснований. Согласно некоторым вариантам осуществления зонды гибридного захвата сконструированы так, чтобы гибридизоваться с областью, которая перекрывает полиморфный сайт, и при этом множество зондов гибридного захвата содержит по меньшей мере два зонда гибридного захвата для каждого полиморфного локуса, и все зонды гибридного захвата сконструированы так, чтобы быть комплементарными разным аллелям в указанном полиморфном локусе.In some embodiments of any aspect of the present invention, the hybrid capture probes are designed to hybridize to a region that flanks but does not overlap the polymorphic site. In some embodiments, the hybrid capture probes are designed to hybridize to a region that flanks but does not overlap the polymorphic site, and the length of the flanking capture probe can be selected from the group consisting of less than about 120 bases, less than about 110 bases less than about 100 bases, less than about 90 bases, less than about 80 bases, less than about 70 bases, less than about 60 bases, less I eat about 50 bases, less than about 40 bases, less than about 30 bases and less than about 25 bases. In some embodiments, the hybrid capture probes are designed to hybridize to a region that overlaps the polymorphic site, and the plurality of hybrid capture probes comprise at least two hybrid capture probes for each polymorphic locus, and all hybrid capture probes are designed to be complementary to different alleles at the indicated polymorphic locus.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения преимущественное обогащение ДНК во множестве полиморфных локусов включает получение множества внутренних прямых праймеров, при этом каждый праймер нацелен на один из полиморфных локусов, и при этом 3'-конец внутренних прямых праймеров сконструирован для гибридизации с областью ДНК, расположенной выше (в 5' направлении) от полиморфного сайта и отделенной от полиморфного сайта небольшим количеством оснований, причем указанное небольшое количество выбрано из группы, состоящей из 1, 2, 3, 4, 5, 6-10, 11-15, 16-20, 21-25, 26-30 или 31-60 пар оснований, необязательно получение множества внутренних обратных праймеров, при этом каждый праймер нацелен на один из полиморфных локусов, и при этом 3'-конец внутренних обратных праймеров сконструирован для гибридизации с областью ДНК выше (в 5' направлении) от полиморфного сайта и отделенной от полиморфного сайта небольшим количеством оснований, причем указанное небольшое количество выбрано из группы, состоящей из 1, 2, 3, 4, 5, 6-10, 11-15, 16-20, 21-25, 26-30 или 31-60 пар оснований, гибридизацию внутренних праймеров с ДНК и амплификацию ДНК с использованием полимеразной цепной реакции для образования ампликонов.In some embodiments of any aspect of the present invention, preferential DNA enrichment at a plurality of polymorphic loci involves the preparation of a plurality of internal direct primers, each primer targeting one of the polymorphic loci, and the 3'-end of the internal direct primers designed to hybridize to the DNA region, located above (in the 5 'direction) from the polymorphic site and separated from the polymorphic site by a small number of bases, with the specified small amount selected from the group consisting of 1, 2, 3, 4, 5, 6-10, 11-15, 16-20, 21-25, 26-30 or 31-60 base pairs, it is not necessary to obtain multiple internal reverse primers, while each primer is aimed at one of the polymorphic loci, and the 3'-end of the internal reverse primers is designed to hybridize with the DNA region above (in the 5 'direction) from the polymorphic site and separated from the polymorphic site by a small number of bases, said small amount selected from a group consisting of 1, 2, 3, 4, 5, 6-10, 11-15, 16-20, 21-25, 26-30 or 31-60 base pairs, hybridization internal DNA primers and DNA amplification using polymerase chain reaction to form amplicons.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения указанный способ также включает получение множества внешних прямых праймеров, при этом каждый праймер нацелен на одну из целей (например, полиморфных локусов), и при этом указанные внешние прямые праймеры сконструированы так, чтобы гибридизоваться с областью ДНК, расположенной выше (в 5' направлении) указанного внутреннего прямого праймера; необязательно получение множества внешних обратных праймеров, при этом каждый праймер нацелен на один из целевых локусов (например, полиморфных локусов), и при этом указанные внешние обратные праймеры сконструированы так, чтобы гибридизоваться с областью ДНК, расположенной непосредственно за указанным внутренним обратным праймером в 3' направлении; гибридизацию первых праймеров с ДНК и амплификацию ДНК с использованием полимеразной цепной реакции.According to some embodiments of any aspects of the present invention, the method also includes preparing a plurality of external direct primers, each primer targeting one of the targets (e.g. polymorphic loci), and wherein said external direct primers are designed to hybridize with the DNA region, located above (in the 5 'direction) of the specified internal direct primer; it is not necessary to obtain a plurality of external reverse primers, with each primer targeting one of the target loci (e.g., polymorphic loci), and wherein said external reverse primers are designed to hybridize with the DNA region immediately adjacent to said internal reverse primer at 3 ' direction; hybridization of the first primers with DNA and amplification of DNA using polymerase chain reaction.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения указанный способ также включает получение множества внешних обратных праймеров, при этом каждый праймер нацелен на один из полиморфных локусов, и при этом указанные внешние обратные праймеры сконструированы так, чтобы гибридизоваться с областью ДНК, расположенной непосредственно после указанного внутреннего обратного праймера в 3' направлении; необязательно получение множества внешних прямых праймеров, при этом каждый праймер нацелен на один из целевых локусов (например, полиморфных локусов), и при этом указанные внешние прямые праймеры сконструированы так, чтобы гибридизоваться с областью ДНК, расположенной выше (в 5' направлении) от указанного внутреннего прямого праймера; гибридизацию первых праймеров с ДНК и амплификацию ДНК с использованием полимеразной цепной реакции.In some embodiments of any aspect of the present invention, the method also comprises producing a plurality of external reverse primers, each primer targeting one of the polymorphic loci, and wherein said external reverse primers are designed to hybridize with a region of DNA located immediately after said internal reverse primer in 3 'direction; it is not necessary to obtain multiple external direct primers, each primer targeting one of the target loci (for example, polymorphic loci), and these external direct primers are designed to hybridize with the DNA region located above (in the 5 'direction) from the specified internal direct primer; hybridization of the first primers with DNA and amplification of DNA using polymerase chain reaction.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения подготовка образца (например, первого образца) также включает добавление универсальных адаптеров в ДНК в образце (например, в первом образце) и амплификацию указанной ДНК в указанном образце (например, первом образце) с использованием полимеразной цепной реакции. Согласно некоторым вариантам осуществления по меньшей мере часть ампликонов, которые амплифицируются, содержит менее чем 100 п.о., менее чем 90 п.о., менее чем 80 п.о., менее чем 70 п.о., менее чем 65 п.о., менее чем 60 п.о., менее чем 55 п.о., менее чем 50 п.о. или менее чем 45 п.о., и при этом указанная часть составляет 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% или 99%.In some embodiments of any aspect of the present invention, preparing a sample (e.g., a first sample) also includes adding universal adapters to the DNA in the sample (e.g., in the first sample) and amplifying said DNA in said sample (e.g., first sample) using a polymerase chain reaction . In some embodiments, at least a portion of the amplificons that are amplified contains less than 100 bp, less than 90 bp, less than 80 bp, less than 70 bp, less than 65 p p., less than 60 bp, less than 55 bp, less than 50 bp or less than 45 bp, and wherein said portion is 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% or 99%.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения амплификацию ДНК выполняют в одном или нескольких индивидуальных реакционных объемах, и при этом каждый отдельный реакционный объем содержит более чем 100 разных пар прямых и обратных праймеров, более чем 200 разных пар прямых и обратных праймеров, более чем 500 разных пар прямых и обратных праймеров, более чем 1000 разных пар прямых и обратных праймеров, более чем 2000 разных пар прямых и обратных праймеров, более чем 5000 разных пар прямых и обратных праймеров, более чем 10000 разных пар прямых и обратных праймеров, более чем 20000 разных пар прямых и обратных праймеров, более чем 50000 разных пар прямых и обратных праймеров или более чем 100000 разных пар прямых и обратных праймеров.In some embodiments of any aspect of the present invention, DNA amplification is performed in one or more individual reaction volumes, and each individual reaction volume contains more than 100 different pairs of forward and reverse primers, more than 200 different pairs of forward and reverse primers, more than 500 different pairs of forward and reverse primers, more than 1000 different pairs of forward and reverse primers, more than 2000 different pairs of forward and reverse primers, more than 5000 different pairs of forward and reverse primers, more than 10,000 different pairs of forward and reverse primers, more than 20,000 different pairs of forward and reverse primers, more than 50,000 different pairs of forward and reverse primers, or more than 100,000 different pairs of forward and reverse primers.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения подготовка образца (например, первого образца) также включает разделение образца (например, первого образца) на множество частей, и при этом ДНК в каждой части преимущественно обогащают в подмножестве целевых локусов (например, множестве полиморфных локусов). Согласно некоторым вариантам осуществления внутренние праймеры выбирают путем идентификации пар праймеров, предположительно образующих нежелательные дуплексы праймеров, и удаление из множества праймеров по меньшей мере одной из пар праймеров, идентифицированной как способная образовывать нежелательные дуплексы праймеров. Согласно некоторым вариантам осуществления внутренние праймеры содержат область, сконструированную для гибридизации либо выше (в 5'-направлении), либо ниже (в 3'-направлении) целевого локуса (например, полиморфного локуса), и необязательно содержат универсальную последовательность праймирования, сконструированную для обеспечения ПЦР-амплификации. Согласно некоторым вариантам осуществления по меньшей мере некоторые праймеры дополнительно содержат случайную область, которая отличается в каждой отдельной молекуле праймера. Согласно некоторым вариантам осуществления по меньшей мере некоторые праймеры дополнительно содержат молекулярный штрихкод.In some embodiments of any aspect of the present invention, preparing a sample (e.g., a first sample) also involves dividing the sample (e.g., the first sample) into multiple parts, and the DNA in each part is preferably enriched in a subset of target loci (e.g., many polymorphic loci) . In some embodiments, internal primers are selected by identifying primer pairs that are thought to form undesired primer duplexes, and removing from at least one of the primer pairs identified as capable of forming undesired primer duplexes. In some embodiments, the internal primers comprise a region designed to hybridize either above (in the 5'-direction) or below (3'-direction) of the target locus (e.g., a polymorphic locus), and optionally comprise a universal priming sequence designed to provide PCR amplification. In some embodiments, at least some of the primers further comprise a random region that differs in each individual primer molecule. In some embodiments, at least some of the primers further comprise a molecular barcode.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения преимущественное обогащение приводит к средней степени смещения числа аллелей между подготовленным образцом и образцом (например, первым образцом) с фактором, выбранным из группы, состоящей из фактора не более чем 2, фактора не более чем 1,5, фактора не более чем 1,2, фактора не более чем 1,1, фактора не более чем 1,05, фактора не более чем 1,02, фактора не более чем 1,01, фактора не более чем 1,005, фактора не более чем 1,002, фактора не более чем 1,001 и фактора не более чем 1,0001. Согласно некоторым вариантам осуществления множество полиморфных локусов представлено SNP. Согласно некоторым вариантам осуществления измерение ДНК в подготовленном образце выполняют посредством секвенирования.In some embodiments of any aspect of the present invention, preferential enrichment results in an average degree of allele shift between the prepared sample and the sample (e.g., the first sample) with a factor selected from the group consisting of a factor of not more than 2, a factor of not more than 1.5 , a factor of not more than 1.2, a factor of not more than 1.1, a factor of not more than 1.05, a factor of not more than 1.02, a factor of not more than 1.01, a factor of not more than 1.005, a factor of not more than than 1.002, a factor of not more than 1.001, and a factor of not more than 1.0001. In some embodiments, a plurality of polymorphic loci are represented by SNPs. In some embodiments, the measurement of DNA in a prepared sample is performed by sequencing.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения целевые локусы присутствуют на одной и той же представляющей интерес нуклеиновой кислоте (например, одной и той же хромосоме или одной и той же области хромосомы). Согласно некоторым вариантам осуществления по меньшей мере некоторые из целевых локусов присутствуют на разных представляющих интерес нуклеиновых кислотах (например, на разных хромосомах). Согласно некоторым вариантам осуществления указанный образец нуклеиновой кислоты содержит фрагментированные или расщепленные нуклеиновые кислоты. Согласно некоторым вариантам осуществления указанный образец нуклеиновой кислоты содержит геномную ДНК, кДНК или мРНК. Согласно некоторым вариантам осуществления указанный образец нуклеиновой кислоты содержит ДНК из одной клетки. Согласно некоторым вариантам осуществления указанный образец нуклеиновой кислоты представляет собой образец крови или плазмы, по существу не содержащий клеток. Согласно некоторым вариантам осуществления указанный образец нуклеиновой кислоты содержит или получен из крови, плазмы, слюны, семенной жидкости, спермы, супернатанта культуры клеток, слизистого секрета, зубного налета, ткани желудочно-кишечного тракта, кала, мочи, волос, кости, жидкостей организма, слез, ткани, кожи, ногтей, бластомеров, эмбрионов, амниотической жидкости, образцов ворсин хориона, желчи, лимфы, цервикальной слизи или образца для судебно-технической экспертизы. Согласно некоторым вариантам осуществления целевые локусы представляют собой сегменты нуклеиновых кислот человека. Согласно некоторым вариантам осуществления целевые локусы содержат однонуклеотидные полиморфизмы (SNP) или состоят из SNP. Согласно некоторым вариантам осуществления праймеры представляют собой молекулы ДНК.In some embodiments of any aspect of the present invention, the target loci are present on the same nucleic acid of interest (for example, the same chromosome or the same region of the chromosome). In some embodiments, at least some of the target loci are present on different nucleic acids of interest (e.g., on different chromosomes). In some embodiments, said nucleic acid sample comprises fragmented or cleaved nucleic acids. In some embodiments, said nucleic acid sample comprises genomic DNA, cDNA, or mRNA. In some embodiments, said nucleic acid sample contains DNA from a single cell. In some embodiments, said nucleic acid sample is a blood or plasma sample essentially free of cells. In some embodiments, said nucleic acid sample contains or is obtained from blood, plasma, saliva, seminal fluid, sperm, cell culture supernatant, mucous secretions, plaque, tissue of the gastrointestinal tract, feces, urine, hair, bone, body fluids, tears, tissue, skin, nails, blastomeres, embryos, amniotic fluid, samples of chorionic villi, bile, lymph, cervical mucus or a forensic sample. In some embodiments, the target loci are human nucleic acid segments. In some embodiments, target loci contain single nucleotide polymorphisms (SNPs) or are composed of SNPs. In some embodiments, the primers are DNA molecules.

Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения ДНК в указанном образце (например, первом образце) происходит из материнской плазмы. Согласно некоторым вариантам осуществления подготовка образца (например, первого образца) также включает амплификацию ДНК. Согласно некоторым вариантам осуществления подготовка образца (например, первого образца) также включает преимущественное обогащение ДНК в указанном образце (например, первого образца) в целевых локусах (например, множестве полиморфных локусов).In some embodiments of any aspect of the present invention, the DNA in said sample (e.g., the first sample) comes from mother plasma. In some embodiments, sample preparation (eg, the first sample) also includes amplification of the DNA. In some embodiments, preparing a sample (e.g., a first sample) also includes preferentially enriching the DNA in the sample (e.g., the first sample) at target loci (e.g., a plurality of polymorphic loci).

Согласно различным вариантам осуществления реакция удлинения праймера или полимеразная цепная реакция включает добавление одного или нескольких нуклеотидов полимеразой. Согласно различным вариантам осуществления реакция удлинения праймера или полимеразная цепная реакция не включает опосредованную лигированием ПЦР. Согласно различным вариантам осуществления реакция удлинения праймера или полимеразная цепная реакция не включает соединение двух праймеров лигазой. Согласно различным вариантам осуществления праймеры не содержат связанные инвертированные зонды (LIP), которые также могут называться пре-циркуляризованными зондами, зондами предварительной циркуляризации или зондами циркуляризации, зондами типа «висячий замок» (Padlock-зонды) или молекулярными инверсионными зондами (MIP).In various embodiments, the primer extension reaction or polymerase chain reaction involves the addition of one or more nucleotides by polymerase. In various embodiments, the primer extension reaction or polymerase chain reaction does not include ligation-mediated PCR. In various embodiments, the primer extension reaction or the polymerase chain reaction does not include the connection of the two primers with a ligase. In various embodiments, the primers do not contain coupled inverted probes (LIPs), which may also be called pre-circularized probes, pre-circular or circular probes, padlock probes or molecular inversion probes (MIPs).

Понятно, что аспекты и варианты осуществления настоящего изобретения, описанные в настоящем документе, включают аспекты и варианты осуществления «содержащий», «состоящий из» и «состоящий по существу из».It is understood that aspects and embodiments of the present invention described herein include aspects and embodiments of “comprising”, “consisting of”, and “consisting essentially of”.

ОпределенияDefinitions

«Однонуклеотидный полиморфизм (SNP)» относится к отдельному нуклеотиду, который может отличаться в геномах двух членов одного и того же вида. Использование термина не должно подразумевать какое-либо ограничение частоты, с которой встречается каждый вариант.“Single nucleotide polymorphism (SNP)” refers to a single nucleotide that may differ in the genomes of two members of the same species. The use of the term should not imply any limitation on the frequency with which each variant occurs.

«Последовательность» относится к последовательности ДНК или генетической последовательности. Она может относиться к первичной физической структуре молекулы или цепи ДНК у индивидуума. Она может относиться к последовательности нуклеотидов, присутствующих в этой молекуле ДНК, или к цепи, комплементарной к молекуле ДНК. Она может относиться к информации, которая содержится в молекуле ДНК, представленной in silico."Sequence" refers to a DNA sequence or genetic sequence. It may refer to the primary physical structure of a molecule or DNA chain in an individual. It can refer to a sequence of nucleotides present in this DNA molecule, or to a chain complementary to a DNA molecule. It may refer to information contained in a DNA molecule provided in silico.

«Локус» относится к конкретной представляющей интерес области на ДНК индивидуума, которая может относиться к SNP, сайту возможной инсерции или делеции или сайту некоторой другой соответствующей генетической вариации. Связанные с заболеванием SNP также могут относиться к связанным с заболеванием локусам.A “locus” refers to a particular region of interest on an individual’s DNA, which may refer to an SNP, a possible insertion or deletion site, or a site of some other appropriate genetic variation. Disease-related SNPs may also refer to disease-related loci.

«Полиморфный аллель», также «полиморфный локус», относится к аллелю или локусу, по которому генотип варьирует у индивидуумов данного вида. Некоторые примеры полиморфных аллелей включают однонуклеотидные полиморфизмы, короткие тандемные повторы, делеции, дупликации и инверсии.A "polymorphic allele," also a "polymorphic locus," refers to an allele or locus by which the genotype varies in individuals of a given species. Some examples of polymorphic alleles include single nucleotide polymorphisms, short tandem repeats, deletions, duplications, and inversions.

«Полиморфный сайт» относится к специфичным нуклеотидам, присутствующим в варьирующей у индивидуумов полиморфной области.A "polymorphic site" refers to specific nucleotides present in a polymorphic region that varies in individuals.

«Аллель» относится к генам, которые занимают конкретный локус."Allele" refers to genes that occupy a particular locus.

«Генетические данные», также «генотипические данные», относится к данным, описывающим аспекты генома одного или нескольких индивидуумов. Они могут относиться к одному или нескольким локусам, частичным или полным последовательностям, частичным или полным хромосомам или полному геному. Они могут относиться к идентичности одного или нескольких нуклеотидов; они могут относиться к набору последовательных нуклеотидов или нуклеотидов из различных локализаций в геноме или к их комбинации. Генотипические данные представлены, как правило, in silico, однако можно также рассматривать физические нуклеотиды в последовательности как химически кодированные генетические данные. Могут быть описаны генотипические данные «в» индивидууме(ах), «для» индивидуума(ов), «на» индивидууме(ах), «от» индивидуума(ов) или «по» индивидууму(ам). Генотипические данные могут относиться к выходным измерениям, полученным с помощью платформы генотипирования, если указанные измерения выполняются на генетическом материале.“Genetic data”, also “genotypic data”, refers to data describing aspects of the genome of one or more individuals. They can refer to one or more loci, partial or complete sequences, partial or full chromosomes, or the entire genome. They may relate to the identity of one or more nucleotides; they can relate to a set of consecutive nucleotides or nucleotides from various locations in the genome, or a combination thereof. Genotypic data are usually presented in silico, but physical nucleotides in a sequence can also be considered as chemically encoded genetic data. Genotypic data “in” the individual (s), “for” the individual (s), “on” the individual (s), “from” the individual (s) or “according to” the individual (s) can be described. Genotypic data may relate to output measurements obtained using the genotyping platform, if these measurements are performed on genetic material.

«Генетический материал», также «генетический образец», относится к физическому материалу, такому как ткань или кровь, содержащему ДНК или РНК, полученному от одного или нескольких индивидуумов“Genetic material”, also “genetic sample”, refers to physical material, such as tissue or blood, containing DNA or RNA, obtained from one or more individuals

«Искаженные генетические данные» относится к генетическим данным, содержащим что-либо из следующего: выпадения аллелей, ненадежные измерения пар оснований, некорректные измерения пар оснований, отсутствующие измерения пар оснований, недостоверные измерения инсерций или делеций, недостоверные измерения чисел копий хромосомных сегментов, ложные сигналы, отсутствующие измерения, другие погрешности или их комбинации.“Distorted genetic data” refers to genetic data that contains any of the following: alleles falling out, unreliable measurements of base pairs, incorrect measurements of base pairs, missing measurements of base pairs, false measurements of insertions or deletions, false measurements of copy numbers of chromosome segments, false signals , missing measurements, other errors, or combinations thereof.

«Достоверность» относится к статистической вероятности того, что названный SNP, аллель, набор аллелей, признак плоидности или определенное число копий хромосомных сегментов корректно представляет реальный генетический статус индивидуума.“Reliability” refers to the statistical likelihood that the named SNP, allele, set of alleles, ploidy trait, or a certain number of copies of chromosome segments correctly represents the individual’s real genetic status.

«Определение признака плоидности», также «прогнозирование числа копий хромосомы» или «прогнозирование числа копий» (CNC), может относиться к действию по определению количества и/или хромосомной идентичности одной или нескольких хромосом, присутствующих в клетке.“Ploidy trait determination,” also “chromosome copy number prediction” or “copy number prediction” (CNC), may refer to the action of determining the number and / or chromosome identity of one or more chromosomes present in a cell.

«Анеуплоидии» относится к состоянию, при котором в клетке присутствует неправильное число хромосом (например, неправильное число целых хромосом или неправильное число сегментов хромосом, например, наличие делеций или дупликаций сегмента хромосомы). В случае соматической клетки человека она может относиться к случаю, при котором клетка не содержит 22 пары аутосомных хромосом и одну пару половых хромосом. В случае гаметы человека она может относиться к явлению, когда клетка не содержит одну из каждой из 23 хромосом. В случае одного типа хромосом она может относиться к случаю, когда имеется больше или меньше чем две гомологичных, но неидентичных копии хромосомы, или когда присутствуют две копии хромосомы, происходящие от одного и того же родителя. Согласно некоторым вариантам осуществления делеция сегмента хромосомы представляет собой микроделецию.“Aneuploidy” refers to a condition in which the cell contains the wrong number of chromosomes (for example, the wrong number of whole chromosomes or the wrong number of chromosome segments, for example, the presence of deletions or duplications of a chromosome segment). In the case of a somatic human cell, it may refer to the case in which the cell does not contain 22 pairs of autosomal chromosomes and one pair of sex chromosomes. In the case of a human gamete, it may refer to the phenomenon when the cell does not contain one of each of the 23 chromosomes. In the case of one type of chromosome, it may refer to the case when there are more or less than two homologous but non-identical copies of the chromosome, or when there are two copies of the chromosome originating from the same parent. In some embodiments, a deletion of a chromosome segment is microdeletion.

«Состояние плоидности» относится к количеству и/или хромосомной идентичности одного или нескольких типов хромосом в клетке.A “ploidy state” refers to the number and / or chromosome identity of one or more types of chromosomes in a cell.

«Хромосома» может относиться к одной копии хромосомы, т.е. к одной молекуле ДНК, которых в нормальной соматической клетке содержится 46; примером является «хромосома 18 материнского происхождения». Хромосома также может относиться к типу хромосом, которых содержится 23 в нормальной соматической клетке человека; примером является «хромосома 18».A "chromosome" may refer to one copy of a chromosome, i.e. to one DNA molecule, which contains 46 in a normal somatic cell; an example is chromosome 18 of maternal origin. A chromosome can also be a type of chromosome that contains 23 in a normal somatic human cell; an example is chromosome 18.

«Хромосомная идентичность» может относиться к референтному числу хромосом, т.е. к типу хромосом. В норме у людей имеется 22 типа пронумерованных типов аутосомных хромосом и два типа половых хромосом. Она также может относиться к хромосоме родительского происхождения. Она также может относиться к конкретной хромосоме, унаследованной от родителя. Она также может относиться к другим признакам, идентифицирующим хромосомы."Chromosomal identity" may refer to a reference number of chromosomes, i.e. to the type of chromosomes. Normally, humans have 22 types of numbered types of autosomal chromosomes and two types of sex chromosomes. It can also belong to the chromosome of parental origin. It may also refer to a particular chromosome inherited from a parent. It may also relate to other traits that identify chromosomes.

«Статус генетического материала» или просто «генетический статус» может относиться к идентичности набора SNP в ДНК, к фазированным гаплотипам генетического материала или к последовательности ДНК, включая инсерции, делеции, повторы и мутации. Он также может относиться к состоянию плоидности одной или нескольких хромосом, хромосомных сегментов или наборов хромосомных сегментов.“Status of genetic material” or simply “genetic status” may refer to the identity of an SNP set in DNA, to phased haplotypes of genetic material, or to a DNA sequence, including insertions, deletions, repeats, and mutations. It may also refer to the ploidy state of one or more chromosomes, chromosome segments, or sets of chromosome segments.

«Аллельные данные» относится к набору генотипических данных, касающихся набора из одного или нескольких аллелей. Они могут относиться к фазированным гаплотипическим данным. Они могут относиться к идентичностям SNP, а также могут относиться к данным последовательностей ДНК, в том числе инсерций, делеций, повторов и мутаций. Они могут включать родительское происхождение каждого аллеля.“Allelic data” refers to a set of genotypic data relating to a set of one or more alleles. They may refer to phased haplotype data. They can refer to SNP identities, and can also relate to DNA sequence data, including insertions, deletions, repeats, and mutations. These may include the parental origin of each allele.

«Аллельное состояние» относится к фактическому состоянию генов в наборе из одного или нескольких аллелей. Оно может относиться к фактическому состоянию генов, описанных аллельными данными.“Allelic state” refers to the actual state of genes in a set of one or more alleles. It may relate to the actual state of genes described by allelic data.

«Аллельное отношение» или «отношение аллелей» относится к соотношению количеств каждого из аллелей в локусе, который присутствует в образце или у индивидуума. Если образец измеряют с помощью секвенирования, аллельное отношение может означать соотношение количества считанных последовательностей, которые картируются с каждым аллелем в локусе. Если образец измеряют с помощью способа измерения интенсивности, аллельное отношение может означать соотношение количеств каждого аллеля, присутствующего в локусе, определенных с помощью способа измерения.“Allelic ratio” or “allele ratio” refers to the ratio of the amounts of each of the alleles at a locus that is present in a sample or in an individual. If the sample is measured by sequencing, the allelic ratio may mean the ratio of the number of read sequences that map with each allele at the locus. If a sample is measured using an intensity measuring method, the allelic ratio may mean the ratio of the amounts of each allele present at the locus determined using the measuring method.

«Подсчет числа аллелей» или «число аллелей» относится к числу последовательностей, которые картируются с конкретным локусом, и, если этот локус является полиморфным, к числу последовательностей, которые картируются с каждым из аллелей. Если каждый аллель подсчитывают бинарным образом, то число аллелей будет представлено целым числом. Если аллели подсчитывают в вероятностном смысле, число аллелей может быть представлено дробным числом.“Counting the number of alleles” or “number of alleles” refers to the number of sequences that map to a particular locus, and if this locus is polymorphic, to the number of sequences that map to each of the alleles. If each allele is counted in a binary manner, then the number of alleles will be an integer. If alleles are counted in a probabilistic sense, the number of alleles can be represented by a fractional number.

«Вероятность числа аллелей» относится к числу последовательностей, которые предположительно картируются с конкретным локусом или набором аллелей в полиморфном локусе, в комбинации с вероятностью указанного картирования. Отметим, что подсчитанное число аллелей эквивалентно вероятности числа аллелей, если вероятность картирования для каждой подсчитанной последовательности является бинарной (0 или 1). Согласно некоторым вариантам осуществления вероятности числа аллелей могут быть бинарными. Согласно некоторым вариантам осуществления вероятности числа аллелей могут приниматься за равные измерениям ДНК."Probability of the number of alleles" refers to the number of sequences that are supposedly mapped to a particular locus or set of alleles at a polymorphic locus, in combination with the probability of this mapping. Note that the counted number of alleles is equivalent to the probability of the number of alleles if the mapping probability for each counted sequence is binary (0 or 1). In some embodiments, the probabilities of the number of alleles may be binary. In some embodiments, the probabilities of the number of alleles can be taken as equal to the DNA measurements.

«Аллельное распределение» или «распределение числа аллелей» относится к относительному количеству каждого аллеля, присутствующего в каждом локусе из набора локусов. Аллельное распределение может относиться к индивидууму, к образцу или к набору измерений, выполненных в образце. В контексте секвенирования аллельное распределение относится к числу считанных последовательностей или вероятному числу считанных последовательностей, которые картируются с конкретным аллелем для каждого аллеля в наборе полиморфных локусов. Измерения аллелей могут быть обработаны вероятностным образом, т.е. вероятность того, что данный аллель присутствует в данном считывании последовательности, представляет собой значение от 0 до 1; или они могут быть обработаны бинарным способом, т.е. предполагается, что любое заданное считывание включает 0 или 1 копию конкретного аллеля."Allelic distribution" or "distribution of the number of alleles" refers to the relative amount of each allele present in each locus from a set of loci. Allelic distribution may refer to an individual, to a sample, or to a set of measurements made in a sample. In the context of sequencing, an allelic distribution refers to the number of read sequences or the probable number of read sequences that map to a particular allele for each allele in a set of polymorphic loci. Allele measurements can be processed in a probabilistic manner, i.e. the probability that a given allele is present in a given sequence reading is a value from 0 to 1; or they can be processed in a binary way, i.e. it is assumed that any given reading includes 0 or 1 copy of a particular allele.

«Паттерн отельного распределения» относится к набору различных распределений аллелей для различных родительских контекстов. Определенные паттерны распределения аллелей могут указывать на определенные состояния плоидности.A “hotel distribution pattern” refers to a set of different allele distributions for different parental contexts. Certain allele distribution patterns may indicate certain ploidy states.

«Смещение числа аллелей» относится к степени, с которой измеренное отношение аллелей в гетерозиготном локусе отличается от отношения, которое наблюдалось в исходном образце ДНК. Степень смещения числа аллелей в конкретном локусе равняется наблюдаемому измеренному аллельному отношению в этом локусе, разделенному на отношение аллелей в исходном образце ДНК в этом локусе. Смещение числа аллелей может быть определено как превышающая единицу, таким образом, если расчет степени смещения числа аллелей дает значение х, составляющее менее 1, степень смещения числа аллелей может быть пересчитана как 1/х. Смещение числа аллелей может быть обусловлено смещением при амплификации, смещением при очистке или каким-либо другим явлением, которое по-разному влияет на разные аллели.“Allele shift” refers to the extent to which the measured ratio of alleles at the heterozygous locus differs from the ratio observed in the original DNA sample. The degree of shift in the number of alleles at a particular locus is equal to the observed measured allelic ratio at that locus, divided by the ratio of alleles in the original DNA sample at that locus. The shift in the number of alleles can be determined to be greater than one, so if calculating the degree of shift in the number of alleles gives an x value of less than 1, the degree of shift in the number of alleles can be converted to 1 / x. The shift in the number of alleles can be due to a shift during amplification, a shift during purification, or some other phenomenon that affects different alleles differently.

«Праймер», также «зонд ПЦР», относится к отдельной молекуле ДНК (олигомеру ДНК) или коллекции молекул ДНК (олигомеров ДНК), в которой молекулы ДНК идентичны или почти идентичны, и при этом праймер содержит область, которая сконструирована для гибридизации с целевым локусом (например, с целевым полиморфным локусом или неполиморфным локусом), и может содержать последовательность праймирования, сконструированную для обеспечения ПЦР-амплификации. Праймер также может содержать молекулярный штрихкод. Праймер может содержать случайную область, которая отличается для каждой индивидуальной молекулы. Термины «тестовый праймер» и «кандидатный праймер» не предназначены для ограничения и могут относиться к любым раскрытым в настоящем описании праймерам.“Primer,” also “PCR probe,” refers to a single DNA molecule (DNA oligomer) or a collection of DNA molecules (DNA oligomers), in which the DNA molecules are identical or nearly identical, and the primer contains a region that is designed for hybridization with the target locus (for example, with the target polymorphic locus or non-polymorphic locus), and may contain a priming sequence designed to allow for PCR amplification. The primer may also contain a molecular barcode. The primer may contain a random region that is different for each individual molecule. The terms “test primer” and “candidate primer” are not intended to be limiting and may refer to any primers disclosed herein.

Библиотека праймеров относится к группе из двух или более праймеров. Согласно различным вариантам осуществления библиотека содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных праймеров. Согласно различным вариантам осуществления библиотека содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных пар праймеров, при этом каждая пара праймеров включает прямой тестовый праймер и обратный тестовый праймер, при этом каждая пара тестовых праймеров гибридизуется с целевым локусом. Согласно некоторым вариантам осуществления библиотека праймеров содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных индивидуальных праймеров, каждый из которых гибридизуется с отличным целевым локусом, при этом указанные индивидуальные праймеры не входят в состав пар праймеров. Согласно некоторым вариантам осуществления библиотека содержит как (i) пары праймеров, так и (ii) индивидуальные праймеры (например, универсальные праймеры), которые не входят в состав пар праймеров.A primer library refers to a group of two or more primers. In various embodiments, the library comprises at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different primers. In various embodiments, the library comprises at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different pairs of primers, with each pair of primers including a direct test primer and a reverse test primer, with each pair of test primers hybridizing to the target locus. In some embodiments, the primer library comprises at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different individual primers, each of which hybridizes with an excellent target locus, while these individual primers are not included in the primer pairs. In some embodiments, a library contains both (i) primer pairs and (ii) individual primers (e.g., universal primers) that are not part of the primer pairs.

«Зонд гибридного захвата» относится к любой последовательности нуклеиновой кислоты, возможно, модифицированной, которая получена различными способами, такими как ПЦР или прямой синтез, и должна быть комплементарна одной цепи конкретной целевой последовательности ДНК в образце. Экзогенные зонды гибридного захвата могут быть добавлены в подготовленный образец и гибридизированы посредством процесса денатурации и повторного отжига с образованием дуплексов экзогенно-эндогенных фрагментов. Затем указанные дуплексы можно физически отделить от образца различными способами.A "hybrid capture probe" refers to any nucleic acid sequence, possibly modified, that has been obtained by various methods, such as PCR or direct synthesis, and should be complementary to one strand of the specific target DNA sequence in the sample. Exogenous hybrid capture probes can be added to the prepared sample and hybridized by a denaturation and re-annealing process to form duplexes of exogenously endogenous fragments. Then these duplexes can be physically separated from the sample in various ways.

«Считывание последовательности» относится к данным, представляющим последовательности нуклеотидных оснований, которые были измерены с использованием способа клонального секвенирования. С помощью клонального секвенирования можно получать данные последовательности, представляющие одну молекулу ДНК, или клоны, или кластеры одной исходной молекулы ДНК. Считывание последовательности также может быть связано с оценкой качества в каждом положении основания последовательности, отражающей вероятность того, что нуклеотид был определен корректно.“Sequence reading” refers to data representing nucleotide base sequences that have been measured using the clonal sequencing method. Using clonal sequencing, one can obtain sequence data representing a single DNA molecule, or clones, or clusters of the same original DNA molecule. Reading the sequence can also be associated with a quality assessment at each position of the base of the sequence, reflecting the probability that the nucleotide was determined correctly.

«Картирование считывания последовательности» представляет собой процесс определения локализации источника считываний последовательности в геномной последовательности конкретного организма. Локализация источника считываний последовательности основана на подобии последовательности нуклеотидов при считывании и геномной последовательности нуклеотидов.“Sequence reading mapping” is the process of determining the localization of the source of sequence readings in the genomic sequence of a particular organism. The location of the source of the readings of the sequence is based on the similarity of the nucleotide sequence during reading and the genomic sequence of nucleotides.

«Ошибка совпадающих копий», также «анеуплоидия совпадающих хромосом» (МСА), относится к состоянию анеуплоидии, при котором одна клетка содержит две идентичных или почти идентичных хромосомы. Этот тип анеуплоидии может возникать в ходе формирования гамет в мейозе и может быть назван ошибкой мейотического нерасхождения. Этот тип ошибки может возникать в митозе. Совпадающая трисомия может относиться к случаю, при котором у индивидуума имеется три копии данной хромосомы, и две из указанных копий являются идентичными.“Matching copy error”, also “matching chromosome aneuploidy” (MCA), refers to an aneuploidy condition in which one cell contains two identical or almost identical chromosomes. This type of aneuploidy can occur during the formation of gametes in meiosis and may be called the error of meiotic nondisjunction. This type of error can occur in mitosis. Coinciding trisomy may refer to a case in which an individual has three copies of a given chromosome and two of these copies are identical.

«Ошибка несовпадающих копий», также «анеуплоидия уникальной хромосомы» (UCA), относится к состоянию анеуплоидии, при котором одна клетка содержит две хромосомы, которые происходят от одного и того же родителя и могут быть гомологичными, но не являются идентичными. Этот тип анеуплоидии может возникать в мейозе, и может быть назван мейотической ошибкой. Несовпадающая трисомия может относиться к случаю, при котором у индивидуума имеются три копии данной хромосомы, и две из указанных копий происходят от одного и того же родителя и являются гомологичными, но не идентичными. Отметим, что несовпадающая трисомия может относиться к случаю, при котором присутствуют две гомологичных хромосомы от одного родителя, и при котором некоторые сегменты хромосом являются идентичными, тогда как другие сегменты являются только гомологичными.“Mismatched copy error”, also “unique chromosome aneuploidy” (UCA), refers to an aneuploidy condition in which one cell contains two chromosomes that originate from the same parent and can be homologous but not identical. This type of aneuploidy can occur in meiosis, and can be called a meiotic error. Mismatching trisomy may refer to the case in which an individual has three copies of a given chromosome, and two of these copies come from the same parent and are homologous, but not identical. Note that mismatched trisomy may relate to the case in which there are two homologous chromosomes from one parent, and in which some segments of the chromosomes are identical, while other segments are only homologous.

«Гомологичные хромосомы» относятся к копиям хромосом, которые содержат один и тот же набор генов, которые в норме образуют пары в ходе мейоза.“Homologous chromosomes” refer to copies of chromosomes that contain the same set of genes that normally form pairs during meiosis.

«Идентичные хромосомы» относятся к копиям хромосом, которые содержат один и тот же набор генов, и для каждого гена в них содержится один и тот же набор аллелей, которые являются идентичными или почти идентичными.“Identical chromosomes” refer to copies of chromosomes that contain the same set of genes, and for each gene they contain the same set of alleles that are identical or almost identical.

«Выпадение аллеля (ADO)» относится к ситуации, когда по меньшей мере одна пара оснований в наборе пар оснований из гомологичных хромосом в данном аллеле не обнаруживается.“Allele Dropout (ADO)” refers to a situation where at least one base pair in a set of base pairs from homologous chromosomes is not detected in a given allele.

«Выпадение локуса (LDO)» относится к ситуации, при которой обе пары оснований в наборе пар оснований из гомологичных хромосом в данном аллеле не обнаруживаются.“Locus loss (LDO)” refers to a situation in which both base pairs in a set of base pairs from homologous chromosomes are not detected in this allele.

«Гомозиготный» относится к содержанию аналогичных аллелей в соответствующих хромосомных локусах.“Homozygous” refers to the content of similar alleles at the corresponding chromosomal loci.

«Гетерозиготный» относится к содержанию несходных аллелей в соответствующих хромосомных локусах.“Heterozygous” refers to the content of dissimilar alleles at the corresponding chromosomal loci.

«Степень гетерозиготности» относится к уровню в популяции индивидуумов, имеющих гетерозиготные аллели в заданном локусе. Степень гетерозиготности также может относиться к ожидаемому или измеренному отношению аллелей в заданном локусе у индивидуума или в образце ДНК.“Degree of heterozygosity” refers to the level in a population of individuals having heterozygous alleles at a given locus. The degree of heterozygosity may also relate to the expected or measured ratio of alleles at a given locus in an individual or in a DNA sample.

«Высокоинформативный однонуклеотидный полиморфизм (HISNP)» относится к SNP, если у плода имеется аллель, которая не присутствует в генотипе матери."Highly informative single nucleotide polymorphism (HISNP)" refers to SNP if the fetus has an allele that is not present in the mother's genotype.

«Хромосомная область» относится к сегменту хромосомы или к полной хромосоме."Chromosomal region" refers to a segment of a chromosome or to a full chromosome.

«Сегмент хромосомы» относится к участку хромосомы, размер которого может варьировать от одной пары оснований до всей хромосомы.A “chromosome segment” refers to a region of a chromosome whose size may vary from one base pair to the entire chromosome.

«Хромосома» относится либо к полной хромосоме, либо к сегменту или участку хромосомы."Chromosome" refers to either the full chromosome, or to a segment or region of a chromosome.

«Копии» относится к числу копий хромосомного сегмента. Они могут относиться к идентичным копиям или к неидентичным гомологичным копиям хромосомного сегмента, при этом различные копии хромосомного сегмента содержат по существу аналогичный набор локусов, где один или несколько аллелей различаются. Отметим, что в некоторых случаях анеуплоидии, таких как ошибка копирования М2, возможно наличие некоторых копий данного хромосомного сегмента, которые являются идентичными, а также некоторых копий одного и того же хромосомного сегмента, которые не являются идентичными.“Copies” refers to the number of copies of the chromosome segment. They can refer to identical copies or to non-identical homologous copies of the chromosome segment, with different copies of the chromosome segment containing essentially the same set of loci, where one or more alleles differ. Note that in some cases of aneuploidy, such as an M2 copy error, there may be some copies of this chromosome segment that are identical, as well as some copies of the same chromosome segment that are not identical.

«Гаплотип» относится к комбинации аллелей в нескольких локусах, которые, как правило, наследуются вместе в одной и той же хромосоме. Гаплотип может относиться всего к двум локусам или к целой хромосоме в зависимости от количества событий рекомбинации, произошедших между данным набором локусов. Гаплотип также может относиться к набору однонуклеотидных полиморфизмов (SNP) на одной хроматиде, которые статистически связаны.“Haplotype” refers to a combination of alleles at several loci that are usually inherited together on the same chromosome. The haplotype can refer to only two loci or to the whole chromosome depending on the number of recombination events that occurred between this set of loci. A haplotype can also refer to a set of single nucleotide polymorphisms (SNPs) on one chromatid that are statistically related.

«Гаплотипические данные», также «фазированные данные» или «упорядоченные генетические данные», относится к данным для одной хромосомы в диплоидном или полиплоидном геноме, т.е. к изолированной материнской либо отцовской копии хромосомы в диплоидном геноме.“Haplotype data”, also “phased data” or “ordered genetic data”, refers to data for a single chromosome in a diploid or polyploid genome, i.e. to an isolated maternal or paternal copy of the chromosome in the diploid genome.

«Фазирование» относится к действию по определению гаплотипических генетических данных при наличии неупорядоченных диплоидных (или полиплоидных) генетических данных индивидуума. Оно может относиться к действию по определению, какой из двух генов в аллеле, для набора аллелей, присутствующего в одной хромосоме, связан с каждой из двух гомологичных хромосом у индивидуума.“Phasing” refers to the act of determining haplotype genetic data in the presence of disordered diploid (or polyploid) genetic data from an individual. It may relate to the act of determining which of the two genes in an allele, for a set of alleles present on one chromosome, is associated with each of two homologous chromosomes in an individual.

«Фазированные данные» относятся к генетическим данным, для которых определен один или несколько гаплотипов.“Phased data” refers to genetic data for which one or more haplotypes are defined.

«Гипотеза» относится к возможному состоянию плоидности в данном наборе хромосом или к совокупности возможных аллельных состояний в данном наборе локусов. Совокупность вероятностей может включать один или несколько элементов.A “hypothesis” refers to a possible ploidy state in a given set of chromosomes or to a set of possible allelic states in a given set of loci. A set of probabilities may include one or more elements.

«Гипотеза числа копий», также «гипотеза состояния плоидности», относится к гипотезе, касающейся числа копий хромосомы у индивидуума. Она также может относиться к гипотезе, касающейся идентичности каждой из хромосом, в том числе касающейся информации о том, от какого родителя происходит каждая из хромосом, а также о том, какие из двух хромосом родителей присутствуют у индивидуума. Она также может относиться к гипотезе, касающейся того, какие хромосомы или хромосомные сегменты от родственного индивидуума, если они имеются, генетически соответствуют заданной хромосоме индивидуума.The “copy number hypothesis”, also the “ploidy state hypothesis”, refers to the hypothesis regarding the number of copies of a chromosome in an individual. It may also refer to the hypothesis regarding the identity of each chromosome, including information about which parent each chromosome comes from, as well as which of the two chromosomes of the parents are present in the individual. It may also refer to a hypothesis regarding which chromosomes or chromosome segments from a related individual, if any, genetically correspond to a given chromosome of the individual.

«Целевой индивидуум» относится к индивидууму, чей генетический статус подлежит определению. Согласно некоторым вариантам осуществления доступно только ограниченное количество ДНК целевого индивидуума. Согласно некоторым вариантам осуществления целевым индивидуумом является плод. Согласно некоторым вариантам осуществления может иметься более чем один целевой индивидуум. Согласно некоторым вариантам осуществления каждый плод, происходящий от пары родителей, может считаться целевым индивидуумом. Согласно некоторым вариантам осуществления определяемые генетические данные представлены одним аллельным признаком или набором аллельных признаков. Согласно некоторым вариантам осуществления генетического данные, подлежащие определению, представляют собой признак плоидности.“Target individual” refers to an individual whose genetic status is to be determined. In some embodiments, only a limited amount of the DNA of the target individual is available. In some embodiments, the target individual is a fetus. In some embodiments, there may be more than one target individual. In some embodiments, each fetus originating from a pair of parents can be considered a target individual. In some embodiments, the determined genetic data is represented by a single allelic trait or a set of allelic traits. In some embodiments, the genetic data to be determined is a sign of ploidy.

«Родственный индивидуум» относится к любому индивидууму, который является генетически родственным целевому индивидууму и, таким образом, обладает общими с целевым индивидуумом гаплотипическими блоками. В одном контексте родственным индивидуумом может быть генетический родитель целевого индивидуума или какой-либо генетический материал от родителя, такой как сперма, полярное тельце, эмбрион, плод или ребенок. Он также может относиться к сиблингу, родителю или к родителям родителей.A “related individual” refers to any individual that is genetically related to the target individual and thus has haplotype blocks common to the target individual. In one context, the related individual may be the genetic parent of the target individual or any genetic material from the parent, such as sperm, polar body, embryo, fetus, or child. It may also refer to sibling, the parent or parents of the parents.

«Сиблинг» относится к какому-либо индивидууму, чьи генетические родители являются также родителями рассматриваемого индивидуума. Согласно некоторым вариантам осуществления он может относиться к рожденному ребенку, эмбриону или плоду, или одной или нескольким клеткам, происходящим от рожденного ребенка, эмбриона или плода. Сиблинг также может относиться к гаплоидному индивидууму, который происходит от одного из родителей, например, к сперме, полярному тельцу или какому-либо другому набору гаплотипического генетического материала. Индивидуум может считаться собственным сиблингом.“Sibling” refers to an individual whose genetic parents are also the parents of the individual in question. In some embodiments, it may refer to a born child, embryo, or fetus, or one or more cells derived from a born child, embryo, or fetus. Sibling can also refer to a haploid individual that originates from one of the parents, for example, sperm, polar body, or some other set of haplotype genetic material. An individual can be considered his own sibling.

«Плодный» означает «принадлежащий плоду» или «принадлежащий области плаценты, генетически аналогичной плоду». У беременной женщины некоторая часть плаценты генетически аналогичная плоду, и свободноплавающая плодная ДНК, присутствующая в материнской крови, может происходить из части плаценты, генотип которой совпадает с генотипом плода. Отметим, что генетическая информация в половине хромосом плода наследуется от матери плода. Согласно некоторым вариантам осуществления ДНК указанных унаследованных от матери хромосом, происходящая из плодной клетки, считается имеющей «плодное происхождение», а не «материнское происхождение».“Fetal” means “belonging to the fetus” or “belonging to the region of the placenta genetically similar to the fetus”. In a pregnant woman, some part of the placenta is genetically similar to the fetus, and the free-floating fetal DNA present in maternal blood can come from the part of the placenta, the genotype of which coincides with the genotype of the fetus. Note that genetic information in half of the fetal chromosomes is inherited from the fetal mother. In some embodiments, the DNA of said chromosome inherited from the mother originating from the fetal cell is considered to be of “fetal origin” and not of “maternal origin”.

«ДНК плодного происхождения» относится к ДНК, изначально входившей в состав клетки, генотип которой по существу эквивалентен генотипу плода.“Fetal DNA” refers to DNA that was originally part of a cell whose genotype is essentially equivalent to the genotype of the fetus.

«ДНК материнского происхождения» относится к ДНК, изначально входившей в состав клетки, генотип которой по существу эквивалентен генотипу матери.“Maternal DNA” refers to DNA that was originally part of a cell whose genotype is essentially equivalent to the mother’s genotype.

«Ребенок» может относиться к эмбриону, бластомеру или плоду. Отметим, что в раскрытых в настоящем документе вариантах осуществления описанные концепции в равной степени применяются к индивидуумам, которые представляют собой рожденного ребенка, плод, эмбрион или совокупность их клеток. Применение термина «ребенок» может означать, в буквальном смысле, что называемый ребенком индивидуум является генетическим потомком родителей.“Baby” may refer to an embryo, blastomere or fetus. Note that in the embodiments disclosed herein, the concepts described apply equally to individuals who are a born child, fetus, embryo, or a combination of their cells. The use of the term “child” can literally mean that the individual called by the child is a genetic descendant of the parents.

«Родитель» относится к генетическим матери или отцу индивидуума. У индивидуума, как правило, имеется два родителя, мать и отец, хотя это необязательно, как, например, в случае генетического или хромосомного химеризма. Родитель может рассматриваться как индивидуум.“Parent” refers to the genetic mother or father of an individual. An individual usually has two parents, a mother and a father, although this is not necessary, as, for example, in the case of genetic or chromosomal chimerism. A parent can be considered an individual.

«Родительский контекст» относится к генетическому статусу заданного SNP в каждой из двух соответствующих хромосом для одного или обоих родителей цели.“Parental context” refers to the genetic status of a given SNP on each of the two corresponding chromosomes for one or both parents of the target.

«Развиваться требуемым образом», также «нормально развиваться» относится к имплантированию в матку жизнеспособного эмбриона, приводящему к беременности, и/или к продолжению беременности, что приводит к рождению живого ребенка, и/или к рождению ребенка без хромосомных аномалий, и/или к рождению ребенка, у которого отсутствуют другие нежелательные генетические состояния, таких как связанные с заболеванием гены. Предполагается, что термин «развиваться требуемым образом» охватывает все, что является желательным для родителей или специалистов в области здравоохранения. В некоторых случаях «развиваться требуемым образом» может относиться к нежизнеспособному или жизнеспособному эмбриону, который применяется для медицинского исследования или для других целей.“Develop in the required manner”, also “normally develop” refers to the implantation of a viable embryo into the uterus leading to pregnancy and / or to the continuation of pregnancy, which leads to the birth of a living child and / or to the birth of a child without chromosomal abnormalities, and / or to the birth of a child who does not have other undesirable genetic conditions, such as disease-related genes. The term “evolving as required” is intended to encompass everything that is desirable for parents or healthcare professionals. In some cases, “develop as required” may refer to a non-viable or viable embryo that is used for medical research or other purposes.

«Введение в матку» относится к процессу переноса эмбриона в полость матки в контексте in vitro оплодотворения."Introduction to the uterus" refers to the process of transferring an embryo into the uterine cavity in the context of in vitro fertilization.

«Материнская плазма» относится к порции плазмы крови беременной женщины.“Maternal plasma” refers to a portion of the blood plasma of a pregnant woman.

«Клиническое решение» относится к любому решению относительно осуществления действия или воздержания от действия, результат которого влияет на здоровье или выживаемость индивидуума. В контексте пренатальной диагностики клиническое решение может относиться к решению о прерывании или о продолжении беременности. Клиническое решение также может относиться к решению о проведении дополнительного тестирования, к осуществлению действий по минимизации нежелательного фенотипа или к осуществлению действий по подготовке к рождению ребенка с аномалиями.A “clinical decision” refers to any decision to take an action or to abstain from an action that results in an individual’s health or survival. In the context of prenatal diagnosis, a clinical decision may relate to a decision to terminate or continue the pregnancy. A clinical decision may also relate to the decision to conduct additional testing, to take actions to minimize the undesirable phenotype, or to take steps to prepare for the birth of a child with anomalies.

«Диагностический бокс» относится к одному устройству или к комбинации устройств, разработанному(ых) для выполнения одного или множества аспектов раскрытых в настоящем документе способов. Согласно варианту осуществления диагностический бокс может быть размещен в пункте наблюдения за пациентом. Согласно варианту осуществления с помощью диагностического бокса может выполняться целевая амплификация с последующим секвенированием. Согласно варианту осуществления диагностический бокс может функционировать самостоятельно или может управляться специалистом."Diagnostic box" refers to a single device or combination of devices designed (s) to perform one or many aspects of the methods disclosed herein. According to an embodiment, a diagnostic box may be located at a patient observation site. According to an embodiment, a target amplification followed by sequencing can be performed using a diagnostic box. According to an embodiment, the diagnostic box may function independently or may be controlled by a specialist.

«Основанный на информатике способ» относится к способу, который в значительной мере опирается на статистику для интерпретации значительного объема данных. В контексте пренатальной диагностики он относится к способу, разработанному для определения состояния плоидности одной или нескольких хромосом или аллельного состояния в одном или нескольких аллелях с помощью статистического заключения о наиболее возможном состоянии, а не с помощью непосредственного физического измерения состояния, при большом количестве генетических данных, например, данных молекулярной матрицы или секвенирования. Согласно варианту осуществления настоящего раскрытия основанная на информатике методика может быть методикой, раскрытой в настоящем изобретении. Согласно варианту осуществления настоящего раскрытия это может быть PARENTAL SUPPORTтм.A “computer-based method” refers to a method that relies heavily on statistics to interpret a significant amount of data. In the context of prenatal diagnosis, it refers to a method developed to determine the ploidy state of one or more chromosomes or an allelic state in one or more alleles using a statistical conclusion about the most possible condition, and not using direct physical measurement of the condition, with a large amount of genetic data, for example, molecular matrix data or sequencing. According to an embodiment of the present disclosure, an informatics-based technique may be the technique disclosed in the present invention. According to an embodiment of the present disclosure, this may be PARENTAL SUPPORT tm .

«Первичные генетические данные» относятся к аналоговым интенсивностным сигналам, которые производит платформа генотипирования. В контексте матриц SNP первичные генетические данные относится к интенсивностным сигналам до проведения какого-либо определения генотипа. В контексте секвенирования первичные генетические данные относятся к аналоговым измерениям, аналогичным хроматограмме, которые выходят из секвенатора до определения идентичности какой-либо пары оснований и до картирования последовательности с геномом.“Primary genetic data” refers to the analog intensity signals that the genotyping platform produces. In the context of SNP matrices, primary genetic data refers to intensity signals prior to any genotype determination being performed. In the context of sequencing, primary genetic data refers to analog measurements, similar to a chromatogram, that exit a sequencer before determining the identity of any base pair and before mapping the sequence to the genome.

«Вторичные генетические данные» относятся к обработанным генетическим данным, которые производятся платформой генотипирования. В контексте матриц SNP вторичные генетические данные относятся к аллельным признакам, полученным программным обеспечением, ассоциированным с устройством считывания матриц SNP, при этом программное обеспечение определяет наличие признака того, присутствует или не присутствует данная аллель в образце. В контексте секвенирования вторичные генетические данные относятся к идентичности пары оснований последовательностей, которые были определены, и возможно также к последовательностям, которые были картированы с геномом.“Secondary genetic data” refers to processed genetic data produced by the genotyping platform. In the context of SNP matrices, secondary genetic data refers to allelic traits obtained by the software associated with the SNP matrix reader, and the software determines whether this allele is present or not present in the sample. In the context of sequencing, secondary genetic data refers to the identity of the base pair of sequences that have been determined, and possibly also to sequences that have been mapped to the genome.

Неинвазивная пренатальная диагностика (NPD), или также «неинвазивный пренатальный скрининг» (NPS), относится к способу определения генетического статуса плода, вынашиваемого матерью, с применением генетического материала, присутствующего в материнской крови, при этом указанный генетический материал получают путем взятия у матери крови из вены.Non-invasive prenatal diagnosis (NPD), or also “non-invasive prenatal screening” (NPS), refers to a method for determining the genetic status of a fetus carried by a mother using genetic material present in maternal blood, wherein said genetic material is obtained by taking blood from the mother from a vein.

«Преимущественное обогащение» ДНК, которая соответствует локусу, или преимущественное обогащение ДНК в локусе относится к любому способу, который обеспечивает более высокое процентное содержание соответствующих локусам молекул ДНК в смеси ДНК после обогащения, по сравнению с процентным содержанием соответствующих указанным локусам молекул ДНК в смеси ДНК до обогащения. Указанный способ может включать селективную амплификацию молекул ДНК, которые соответствуют локусам. Указанный способ может включать удаление молекул ДНК, которые не соответствуют локусам. Указанный способ может включать комбинацию способов. Степень обогащения определяется как процентное содержание молекул ДНК, которые соответствуют локусу, в смеси после обогащения, поделенное на процентное содержание молекул ДНК, которые соответствуют локусу, в смеси до обогащения. Преимущественное обогащение может быть выполнено по множеству локусов. Согласно некоторым вариантам осуществления настоящего раскрытия степень обогащения превышает 20. Согласно некоторым вариантам осуществления настоящего раскрытия степень обогащения превышает 200. Согласно некоторым вариантам осуществления настоящего раскрытия степень обогащения превышает 2000. Если преимущественное обогащение выполняется по множеству локусов, степень обогащения может относиться к средней степени обогащения всех локусов в наборе локусов.A “preferential enrichment” of DNA that corresponds to a locus, or a preferential enrichment of DNA at a locus, refers to any method that provides a higher percentage of locally corresponding DNA molecules in a DNA mixture after enrichment compared to the percentage of corresponding DNA loci in a DNA mixture before enrichment. The method may include selective amplification of DNA molecules that correspond to loci. The method may include the removal of DNA molecules that do not match the loci. The specified method may include a combination of methods. The degree of enrichment is defined as the percentage of DNA molecules that correspond to the locus in the mixture after enrichment divided by the percentage of DNA molecules that correspond to the locus in the mixture before enrichment. Preferential enrichment can be performed at a variety of loci. According to some embodiments of the present disclosure, the degree of enrichment is greater than 20. According to some embodiments of the present disclosure, the degree of enrichment is greater than 200. According to some embodiments of the present disclosure, the degree of enrichment is greater than 2000. If the preferential enrichment is performed at a plurality of loci, the degree of enrichment may refer to the average degree of enrichment of all loci in a set of loci.

«Амплификация» относится к способу, который увеличивает число копий молекулы ДНК. «Селективная амплификация» может относиться к способу, который увеличивает число копий конкретной молекулы ДНК или молекул ДНК, которые соответствуют конкретной области ДНК. Она также может относиться к способу, который увеличивает число копий конкретной целевой молекулы ДНК или целевой области ДНК в большей степени, чем число копий нецелевых молекул или областей ДНК. Селективная амплификация может быть способом преимущественного обогащения."Amplification" refers to a method that increases the number of copies of a DNA molecule. "Selective amplification" may refer to a method that increases the number of copies of a particular DNA molecule or DNA molecules that correspond to a specific region of DNA. It may also relate to a method that increases the number of copies of a specific target DNA molecule or target region of DNA to a greater extent than the number of copies of non-target molecules or regions of DNA. Selective amplification may be a method of preferential enrichment.

«Универсальная последовательность праймирования» относится к последовательности ДНК, которая может быть добавлена к популяции целевых молекул ДНК, например, путем лигирования, ПЦР или опосредованной лигированием ПЦР. При добавлении к популяции целевых молекул праймеры, специфичные к универсальным последовательностям праймирования, могут быть использованы для амплификации целевой популяции с применением одной пары амплификационных праймеров. Универсальные последовательности праймирования, как правило, не являются родственными целевым последовательностям.A “universal priming sequence” refers to a DNA sequence that can be added to a population of target DNA molecules, for example, by ligation, PCR or mediated ligation of PCR. When target molecules are added to a population, primers specific for universal priming sequences can be used to amplify the target population using one pair of amplification primers. Universal priming sequences are generally not related to the target sequences.

«Универсальные адаптеры», или «адаптеры лигирования», или «маркеры библиотеки» представляют собой молекулы ДНК, содержащие универсальную последовательность праймирования, которая может быть ковалентно связана с 5'-концом и 3'-концом в популяции целевых двуцепочечных молекул ДНК. Добавление адаптеров обеспечивает универсальные последовательности праймирования на 5'-конце и 3'-конце целевой популяции, с которых может начинаться ПЦР-амплификация, с амплификацией всех молекул целевой популяции с применением одной пары праймеров для амплификации.“Universal adapters”, or “ligation adapters”, or “library markers” are DNA molecules containing a universal priming sequence that can be covalently linked to the 5'-end and 3'-end in a population of target double-stranded DNA molecules. Adding adapters provides universal priming sequences at the 5'-end and 3'-end of the target population, from which PCR amplification can begin, with amplification of all molecules of the target population using one pair of amplification primers.

«Нацеливание» относится к способу, используемому для селективной амплификации или другого преимущественного обогащения по тем молекулам ДНК, которые соответствуют набору локусов, в смеси ДНК.“Targeting” refers to a method used for selective amplification or other preferential enrichment for those DNA molecules that correspond to a set of loci in a mixture of DNA.

«Модель совместного распределения» относится к модели, которая определяет вероятность событий, определенных как несколько случайных переменных, с условием, что множество случайных переменных определено в одном и том же пространстве вероятностей, при этом вероятности переменной связаны. Согласно некоторым вариантам осуществления может быть использован вырожденный случай, когда вероятности переменных не связаны.A “shared distribution model” refers to a model that determines the probability of events defined as several random variables, with the condition that the set of random variables is defined in the same probability space, and the probabilities of the variable are related. In some embodiments, a degenerate case can be used where the probabilities of the variables are not related.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

Раскрытые в настоящем документе варианты осуществления далее будут объяснены с использованием ссылок на приложенные графические материалы, в которых аналогичные структуры обозначены аналогичными символами при рассмотрении с разных точек зрения. Представленные графические материалы необязательно выполнены в масштабе, вместо этого акцент сделан на иллюстрацию принципов раскрытых в настоящем документе вариантов осуществления.The embodiments disclosed herein will hereinafter be explained using references to the attached graphic materials in which similar structures are denoted by similar symbols when viewed from different perspectives. Presented graphics are not necessarily scaled, but instead focused on illustrating the principles of the embodiments disclosed herein.

На фиг. 1 графически представлен способ прямой мультиплексной мини-ПЦР.In FIG. 1 graphically illustrates a direct multiplex mini-PCR method.

На фиг. 2 графически представлен способ полувложенной мини-ПЦР.In FIG. 2 graphically illustrates a semi-nested mini-PCR method.

На фиг. 3 графически представлен способ полной вложенной мини-ПЦР.In FIG. 3 graphically illustrates a method of complete nested mini-PCR.

На фиг. 4 графически представлен способ гемивложенной мини-ПЦР.In FIG. 4 is a graphical representation of a hemi-nested mini-PCR method.

На фиг. 5 графически представлен способ тройной гемивложенной мини-ПЦР.In FIG. 5 is a graphical representation of a triple hemi-nested mini-PCR method.

На фиг. 6 графически представлен способ односторонней вложенной мини-ПЦР.In FIG. 6 graphically shows a method of one-sided nested mini-PCR.

На фиг. 7 графически представлен способ односторонней мини-ПЦР.In FIG. 7 is a graphical representation of a one-way mini-PCR method.

На фиг. 8 графически представлен способ обратной полувложенной мини-ПЦР.In FIG. 8 is a graphical representation of a reverse semi-nested mini-PCR method.

На фиг. 9 представлены некоторые возможные технологические процессы для полувложенных способов.In FIG. Figure 9 shows some of the possible processes for semi-enclosed methods.

На фиг. 10 графически представлены петлевые адаптеры лигирования.In FIG. 10 graphically illustrates loop ligation adapters.

На фиг. 11 графически представлены внутренне маркированные праймеры.In FIG. 11 graphically shows internally labeled primers.

На фиг. 12 представлен пример некоторых праймеров с внутренними маркерами.In FIG. 12 is an example of some primers with internal markers.

На фиг. 13 графически представлен способ, в котором используются праймеры с областью связывания адаптера лигирования.In FIG. 13 graphically illustrates a method in which primers with a binding region of a ligation adapter are used.

На фиг. 14 представлены показатели точности смоделированных признаков плоидности для способа подсчета с применением двух различных методик анализа.In FIG. Figure 14 shows the accuracy indicators of the simulated ploidy features for a counting method using two different analysis techniques.

На фиг. 15 представлено отношение двух аллелей для множества SNP в линии клеток в эксперименте 4.In FIG. 15 shows the ratio of two alleles for a plurality of SNPs in a cell line in experiment 4.

На фиг. 16 представлено отношение двух аллелей для множества SNP в линии клеток в эксперименте 4, отсортированное по хромосоме.In FIG. Figure 16 shows the ratio of two alleles for a plurality of SNPs in a cell line in experiment 4, sorted by chromosome.

На фиг. 17A-D представлено отношение двух аллелей для множества SNP в четырех образцах плазмы беременных женщин, отсортированное по хромосоме.In FIG. 17A-D show the ratio of two alleles for multiple SNPs in four plasma samples of pregnant women, sorted by chromosome.

На фиг. 18 представлена та часть данных, которая может быть объяснена дисперсией биномиального распределения до и после коррекции данных.In FIG. Figure 18 shows that part of the data that can be explained by the variance of the binomial distribution before and after data correction.

На фиг. 19 представлен график, показывающий относительное обогащение плодной ДНК в образцах после короткого протокола приготовления библиотеки.In FIG. 19 is a graph showing the relative enrichment of fetal DNA in samples after a short library preparation protocol.

На фиг. 20 представлен график глубины секвенирования для сравнения способов прямой ПНР и полувложенной ПЦР.In FIG. 20 shows a graph of the depth of sequencing for comparing the methods of direct PNR and half-nested PCR.

На фиг. 21 представлено сравнение глубины секвенирования для прямой ПЦР трех геномных образцов.In FIG. Figure 21 shows a comparison of sequencing depths for direct PCR of three genomic samples.

На фиг. 22 представлено сравнение глубины секвенирования для полувложенной мини-ПЦР трех геномных образцов.In FIG. Figure 22 presents a comparison of the sequencing depth for the semi-nested mini-PCR of the three genomic samples.

На фиг. 23 представлено сравнение глубины секвенирования для 1200-плексной и 9600-плексной реакций.In FIG. 23 shows a comparison of the depth of sequencing for 1200 plex and 9600 plex reactions.

На фиг. 24 представлены отношения числа считанных последовательностей для шести клеток по трем хромосомам.In FIG. 24 presents the ratio of the number of read sequences for six cells across three chromosomes.

На фиг. 25 представлены аллельные отношения для двух реакций с тремя клетками и третьей реакции в 1 нг геномной ДНК по трем хромосомам.In FIG. 25 shows allelic relationships for two reactions with three cells and a third reaction in 1 ng of genomic DNA across three chromosomes.

На фиг. 26 представлены аллельные отношения для двух реакций с единичной клеткой по трем хромосомам.In FIG. Figure 26 shows the allelic relationships for two reactions with a single cell on three chromosomes.

На фиг. 27 представлено сравнение двух библиотек праймеров, представляющее число локусов с частотами конкретных минорных аллелей, на которые нацелена каждая библиотека праймеров.In FIG. 27 presents a comparison of two primer libraries, representing the number of loci with the frequencies of specific minor alleles that each primer library targets.

На фиг. 28А представлено графическое представление электрофореза продуктов ПЦР. На фиг. 28 В-28М представлены электрофореграммы для полос 1-12, соответственно, фиг. 28А.In FIG. 28A is a graphical representation of the electrophoresis of PCR products. In FIG. 28 B-28M shows electrophoregrams for bands 1-12, respectively, FIG. 28A.

На фиг. 29А-29Е: Схематическое изображение способа определения плодной анеуплоидии согласно настоящему изобретению (фиг. 29А). Используют данные генотипа матери и отца (из крови или буккальных мазков) и данные частот кроссинговера из базы данных НарМар для получения (фиг. 29В) множества независимых гипотез для каждого потенциального состояния плоидности плода in silico (фиг. 29С). Каждую из указанных гипотез расширяют, включая в нее субгипотезы, учитывающие разные возможные точки кроссинговера. Указанная модель данных предсказывает, как предположительным образом будут выглядеть данные секвенирования (ожидаемые аллельные распределения) при каждом из гипотетических плодных генотипов и при разных долях плодной cfDNA (бесклеточной ДНК); результаты сравнивают с фактическими данными секвенирования; вероятность для каждой гипотезы определяют с применением байесовской статистики. В указанном гипотетическом примере определяют гипотезы с максимальным правдоподобием (эуплоидность) (фиг. 29D). Индивидуальные показатели правдоподобия с фиг. 29С суммируют для каждого семейства гипотез числа копий (моносомии, дисомии или триплоидии). Гипотеза с максимальным правдоподобием прогнозирует состояние плоидности, указывает на долю плода и представляет расчетную точность для конкретного образца (фиг. 29Е).In FIG. 29A-29E: Schematic illustration of a method for determining fetal aneuploidy according to the present invention (FIG. 29A). Use the mother and father genotype data (from blood or buccal smears) and the data of crossing-over frequencies from the NarMar database to obtain (Fig. 29B) many independent hypotheses for each potential ploidy state of the fetus in silico (Fig. 29C). Each of these hypotheses is expanded to include subhypotheses that take into account different possible crossing-over points. This data model predicts what sequencing data (expected allelic distributions) will look like for each of the hypothetical fetal genotypes and for different fractions of fetal cfDNA (cell-free DNA); results are compared with actual sequencing data; the probability for each hypothesis is determined using Bayesian statistics. In this hypothetical example, hypotheses with maximum likelihood (euploidy) are determined (FIG. 29D). The individual likelihood indicators of FIG. 29C summarize for each family of hypotheses the number of copies (monosomy, dysomy, or triploidy). The maximum likelihood hypothesis predicts a ploidy state, indicates the fetal fraction, and represents the calculated accuracy for a particular sample (Fig. 29E).

Фиг. 30А-30Н: Типичные графические представления эуплоидности (фиг. 30А-30С), моносомии (фиг. 30D) и трисомии (фиг. 30Е-30Н). На всех графиках ось X отображает линейное расположение индивидуальных полиморфных локусов вдоль каждой хромосомы (согласно подписям под графиками) и ось У отображает число считываний аллеля А в виде доли от общих считываний аллелей (А+В). Материнский и плодный генотипы, а также положение на оси У, вокруг которого сосредоточены полосы, указаны на графиках справа. Если требуется облегчить визуализацию, графики могут быть маркированы цветом в соответствии с материнским генотипом, таким образом, что красный указывает на материнский генотип АА, голубой указывает на материнский генотип ВВ, и зеленый указывает на материнский генотип АВ. Если требуется, вклады материнских аллелей могут быть маркированы цветом в колонке «плодный генотип». Вклады аллелей маркированы как материнские|плодные таким образом, что аллели, по которым мать является АА и плод является АВ, маркированы «АА|АВ». Фиг. 30А: Графики, полученные для случаев, когда присутствуют две хромосомы и доля плодной cfDNA составляет 0%. Указанный график относится к небеременной женщине, и, соответственно, представляет паттерн, соответствующий полностью материнскому генотипу. Кластеры аллелей, соответственно, сосредоточены вокруг 1 (аллели АА), 0,5 (аллели АВ) и 0 (аллели ВВ). Фиг. 30В: График, полученный для случая, когда присутствуют две хромосомы и доля плода составляет 12%. Вклад плодных аллелей в долю считываний аллеля А сдвигает расположение некоторых аллельных зон вверх или вниз вдоль оси У, таким образом, что полосы сосредоточены вокруг 1 (аллели АА|АА), 0,94 (аллели АА|АВ), 0,56 (аллели АВ|АА), 0,50 (аллели АВ|АВ), 0,44 (аллели АВ|ВВ), 0,06 (аллели ВВ|АВ), и 0 (аллели ВВ|ВВ). фиг. 30С. График, полученный для случая, когда присутствуют две хромосомы и доля плода составляет 26%. Паттерн, включающий две красные и две голубые периферические полосы и трио центральных зеленых полос, очевидно выражен (цвет не показан). Полосы сосредоточены вокруг 1 (аллели АА|АА), 0,87 (аллели АА|АВ), 0,63 (аллели АВ|АА), 0,50 (аллели АВ|АВ), 0,37 (аллели АВ|ВВ), 0,13 (аллели ВВ|АВ), и 0 (аллели ВВ|ВВ). Фиг. 30D: График, полученный для случая, когда присутствует одна хромосома и доля плода составляет 26%. Отличительный паттерн из одной внешней красной и одной внешней голубой периферических полос, а также двух центральных зеленых полос указывает на унаследованную от матери моносомию (цвет не показан). Поскольку вклад плода в считывания аллелей представлен единственным аллелем (А или В), внутренние периферические красные и голубые полосы отсутствуют, а центральное трио полос конденсируется в две полосы (цвет не показан). Полосы сосредоточены вокруг 1 (аллели АА|А), 0,57 (аллели АВ|А), 0,43 (аллели АВ|В), и 0 (аллели ВВ|В). Фиг. 30Е: График, полученный для случая, когда присутствуют три хромосомы и доля плода составляет 27%. Указанный паттерн из двух красных и двух голубых периферических полос, а также двух центральных зеленых полос указывает на унаследованную от матери мейотическую трисомию (цвет не показан). Полосы сосредоточены вокруг 1 (аллели АА|ААА), 0,88 (аллели АА|ААВ), 0,56 (аллели АВ|ААВ), 0,44 (аллели АВ|АВВ), 0,12 (ВВ|АВВ аллели) и 0 (аллели ВВ|ВВВ). Фиг. 30F: График, полученный для случая, когда присутствуют три хромосомы и доля плода составляет 14%. Указанный паттерн из трех красных и трех голубых периферических полос, а также двух центральных зеленых полос, указывает на унаследованную от отца мейотическую трисомию (цвет не показан). Полосы сосредоточены вокруг 1 (аллели АА|ААА), 0,93 (аллели АА|ААВ), 0,87 (аллели АА|АВВ), 0,60 (аллели АВ|ААА), 0,53 (аллели АВ|ААВ), 0,47 (аллели АВ|АВВ), 0,40 (аллели АВ|ВВВ), 0,13 (аллели ВВ|ААВ), 0,07 (аллели ВВ|АВВ) и 0 (аллели ВВ|ВВВ). Фиг. 30G: График, полученный для случая, когда присутствуют три хромосомы и доля плода составляет 35%. Указанный паттерн из двух красных и двух голубых периферических полос и 4 центральных зеленых полос указывает на унаследованную от матери митотическую трисомию (цвет не показан). Полосы сосредоточены вокруг 1 (аллели АА|ААА), 0,85 (аллели АА|ААВ), 0,72 (аллели АВ|ААА), 0,57 (аллели АВ|ААВ), 0,43 (аллели АВ|АВВ), 0,28 (аллели АВ|ВВВ), 0,15 (аллели ВВ|АВВ) и 0 (аллели ВВ|ВВВ). Фиг. 30Н: График, полученный для случая, когда присутствуют три хромосомы и доля плода составляет 25%. Указанный паттерн из двух красных и двух голубых периферических полос, а также 4 центральных зеленых полос указывает на унаследованную от отца митотическую трисомию (цвет не показан). Указанный паттерн можно отличить от паттерна унаследованной от матери митотической трисомии (как на фиг. 30G) по положению внутренних периферических полос. В частности, полосы сосредоточены вокруг 1 (аллели АА|ААА), 0,78 (аллели АА|АВВ), 0,67 (аллели АВ|ААА), 0,56 (аллели АВ|ААВ), 0,44 (аллели АВ|АВВ), 0,33 (аллели АВ|ВВВ), 0,22 (аллели ВВ|ААВ) и 0 (аллели ВВ|ВВВ).FIG. 30A-30H: Typical graphical representations of euploidy (Fig. 30A-30C), monosomy (Fig. 30D) and trisomy (Fig. 30E-30H). On all plots, the X axis represents the linear arrangement of individual polymorphic loci along each chromosome (according to the captions under the plots) and the Y axis displays the number of allele readings A as a fraction of the total allele readings (A + B). The maternal and fetal genotypes, as well as the position on the Y axis, around which the bands are concentrated, are indicated in the graphs on the right. If visualization is to be facilitated, graphs can be color coded according to the maternal genotype, so that red indicates the maternal genotype AA, blue indicates the maternal genotype BB, and green indicates the maternal genotype AB. If required, contributions from maternal alleles can be color coded in the “fetal genotype” column. The contributions of the alleles are marked as maternal | fetal in such a way that the alleles by which the mother is AA and the fetus is AB are labeled “AA | AB”. FIG. 30A: Graphs obtained for cases where two chromosomes are present and the proportion of fetal cfDNA is 0%. This graph refers to a non-pregnant woman, and, accordingly, represents a pattern that corresponds to the fully maternal genotype. Clusters of alleles, respectively, are concentrated around 1 (alleles AA), 0.5 (alleles AB) and 0 (alleles BB). FIG. 30B: Graph obtained for the case when there are two chromosomes and the proportion of the fetus is 12%. The contribution of fetal alleles to the share of allele A readings shifts the location of some allele zones up or down along the Y axis, so that the bands are concentrated around 1 (alleles AA | AA), 0.94 (alleles AA | AB), 0.56 (alleles AB | AA), 0.50 (alleles AB | AB), 0.44 (alleles AB | BB), 0.06 (alleles BB | AB), and 0 (alleles BB | BB). FIG. 30C. The graph obtained for the case when there are two chromosomes and the proportion of the fetus is 26%. The pattern, including two red and two blue peripheral stripes and a trio of central green stripes, is clearly expressed (color not shown). The bands are concentrated around 1 (alleles AA | AA), 0.87 (alleles AA | AB), 0.63 (alleles AB | AA), 0.50 (alleles AB | AB), 0.37 (alleles AB | BB) , 0.13 (alleles BB | AB), and 0 (alleles BB | BB). FIG. 30D: Graph obtained for the case when there is one chromosome and the proportion of the fetus is 26%. A distinctive pattern of one outer red and one outer blue peripheral stripes, as well as two central green stripes, indicates a monosomy inherited from the mother (color not shown). Since the contribution of the fetus to the reading of alleles is represented by a single allele (A or B), the inner peripheral red and blue bands are absent, and the central trio of bands is condensed into two bands (color not shown). The bands are centered around 1 (alleles AA | A), 0.57 (alleles AB | A), 0.43 (alleles AB | B), and 0 (alleles BB | B). FIG. 30E: Graph obtained for the case when there are three chromosomes and the proportion of the fetus is 27%. The indicated pattern of two red and two blue peripheral bands, as well as two central green bands indicates a meiotic trisomy inherited from the mother (color not shown). The bands are centered around 1 (alleles AA | AAA), 0.88 (alleles AA | AAB), 0.56 (alleles AB | AAB), 0.44 (alleles AB | ABB), 0.12 (BB | ABB alleles) and 0 (alleles BB | BBB). FIG. 30F: Graph obtained when three chromosomes are present and the fetal fraction is 14%. The indicated pattern of three red and three blue peripheral bands, as well as two central green bands, indicates a meiotic trisomy inherited from the father (color not shown). The bands are centered around 1 (alleles AA | AAA), 0.93 (alleles AA | AAB), 0.87 (alleles AA | ABB), 0.60 (alleles AB | AAA), 0.53 (alleles AB | AAA) , 0.47 (alleles AB | ABB), 0.40 (alleles AB | BBB), 0.13 (alleles BB | AAB), 0.07 (alleles BB | ABB) and 0 (alleles BB | BBB). FIG. 30G: Graph obtained for the case when there are three chromosomes and the proportion of the fetus is 35%. The indicated pattern of two red and two blue peripheral bands and 4 central green bands indicates mitotic trisomy inherited from the mother (color not shown). The bands are centered around 1 (alleles AA | AAA), 0.85 (alleles AA | AAA), 0.72 (alleles AB | AAA), 0.57 (alleles AB | AAA), 0.43 (alleles AB | ABA) , 0.28 (alleles AB | BBB), 0.15 (alleles BB | ABB) and 0 (alleles BB | BBB). FIG. 30H: Graph obtained for the case when there are three chromosomes and the proportion of the fetus is 25%. The indicated pattern of two red and two blue peripheral bands, as well as 4 central green bands indicates a mitotic trisomy inherited from the father (color not shown). The indicated pattern can be distinguished from the pattern of mitotic trisomy inherited from the mother (as in FIG. 30G) according to the position of the inner peripheral bands. In particular, the bands are concentrated around 1 (alleles AA | AAA), 0.78 (alleles AA | ABB), 0.67 (alleles AB | AAA), 0.56 (alleles AB | AAA), 0.44 (alleles AB | ABB), 0.33 (alleles AB | BBB), 0.22 (alleles BB | AAB) and 0 (alleles BB | BBB).

На фиг. 31 графически представлены тестируемые образцы: (фиг. 31А) эуплоидный, (фиг. 31В) Т13, (фиг. 31С) Т18, (фиг. 31D) Т21, (фиг. 31Е) 45,Х и (фиг. 31F) 47, XXY, в соответствии с указанным. Каждая хромосома указана в верхней части графика, плодный и материнский генотипы указаны на графиках справа, ось X отражает линейное расположение SNP вдоль каждой хромосомы, ось У отражает число считываний аллеля А в виде доли от общего числа считываний. Отметим изменяющееся расположение кластеров в зависимости от доли плода, согласно описанию в настоящем документе. Каждая зона представляет один SNP локус. Плодный и материнский генотипы указаны на графике справа, и идентичности хромосом указаны на графиках сверху.In FIG. 31 test samples are graphically presented: (FIG. 31A) Euploid, (FIG. 31B) T13, (FIG. 31C) T18, (FIG. 31D) T21, (FIG. 31E) 45, X and (FIG. 31F) 47, XXY, as indicated. Each chromosome is indicated at the top of the graph, the fetal and maternal genotypes are shown on the graphs to the right, the X axis reflects the linear arrangement of SNP along each chromosome, the Y axis represents the number of readings of allele A as a fraction of the total number of readings. Note the changing arrangement of the clusters depending on the proportion of the fetus, as described in this document. Each zone represents one SNP locus. Fetal and maternal genotypes are indicated in the graph on the right, and chromosome identities are indicated in the graphs above.

Фиг. 32: Общая распространенность при рождении анеуплоидии половых хромосом превышает распространенность аутосомных анеуплоидий.FIG. 32: The overall prevalence at birth of sex chromosome aneuploidy exceeds the prevalence of autosomal aneuploidy.

Несмотря на то, что вышеописанные графические материалы поясняют раскрытые в настоящем документе варианты осуществления, также предполагаются другие варианты осуществления, отмеченные в обсуждении. В настоящем раскрытии пояснительные варианты осуществления представлены с целью иллюстрации, а не для ограничения. Специалистами в данной области может быть разработан обширный ряд других модификаций и вариантов осуществления без отступления от объема и сути принципов, лежащих в основе раскрытых в настоящем документе вариантов осуществления.Although the above-described graphic materials explain the embodiments disclosed herein, other embodiments noted in the discussion are also contemplated. In the present disclosure, explanatory embodiments are provided for purposes of illustration and not limitation. A wide variety of other modifications and embodiments may be devised by those skilled in the art without departing from the scope and spirit of the principles underlying the embodiments disclosed herein.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

Настоящее изобретение основано отчасти на неожиданно обнаруженном факте, заключающемся в том, что только относительно небольшое число праймеров в библиотеке праймеров отвечают за существенное количество амплифицированных димеров праймеров, которые образуются в реакциях мультиплексной ПЦР. Были разработаны способы отбора наиболее нежелательных праймеров для их удаления из библиотеки кандидатных праймеров. Снижение количества димеров праймеров до пренебрежимо малого количества (-0,1% продуктов ПЦР) в указанных способах позволяет получить библиотеки праймеров для одновременной амплификации значительного числа целевых локусов в одной реакции мультиплексной ПЦР. Поскольку праймеры гибридизуются с целевыми локусами и амплифицируют их, а не гибридизуются с другими праймерами с образованием амплифицированных димеров праймеров, число разных целевых локусов, которые могут быть амплифицированы, возрастает. Было также обнаружено, что применение более низких концентраций праймеров и значительно более продолжительный период отжига по сравнению с обычным повышает вероятность того, что праймеры гибридизуются с целевыми локусами, а не друг с другом с образованием димеров праймеров.The present invention is based in part on an unexpectedly discovered fact that only a relatively small number of primers in the primer library are responsible for a significant number of amplified primer dimers that are generated in multiplex PCR reactions. Ways have been developed to select the most undesirable primers to remove them from the library of candidate primers. Reducing the number of primer dimers to an negligible amount (-0.1% of PCR products) in these methods allows you to get a library of primers for the simultaneous amplification of a significant number of target loci in a single multiplex PCR reaction. Since primers hybridize to and amplify target loci rather than hybridize to other primers to form amplified primer dimers, the number of different target loci that can be amplified increases. It was also found that the use of lower concentrations of primers and a significantly longer annealing period than usual increases the likelihood that the primers hybridize with the target loci and not with each other to form primer dimers.

Во время ПЦР-амплификации и секвенирования 19488 целевых локусов в геномном образце, 99,4-99,7% считываний последовательностей картировались с геномом, из которых 99,99% картировались с целевыми локусами. Для образцов плазмы с 10 млн считываний последовательностей, как правило, амплифицировались и секвенировались по меньшей мере 19350 из 19488 целевых локусов (99,3%). Возможность одновременной амплификации такого значительного числа целевых локусов за один прием значительно снижает необходимые для анализа тысяч целевых локусов время и количество ДНК. Например, ДНК из одной клетки достаточно для одновременного анализа тысяч целевых локусов, что важно для вариантов применения, при которых количество ДНК невелико, таких как генетическое тестирование единственной клетки из эмбриона перед in vitro оплодотворением или генетическое тестирование образца для судебно-технической экспертизы с незначительным количеством ДНК. Кроме того, возможность анализировать целевые локусы в одном реакционном объеме (например, в одной камере или лунке), без разделения указанного образца на множество разных реакций, снижает вариабельность, которая может возникать между реакциями. Кроме того, были разработаны способы применения эталонных стандартов для поправки на смещение амплификации, которая может возникать для разных целевых локусов. Например, различия в эффективности амплификации между целевыми локусами из-за таких факторов, как содержание GC, могут приводить к тому, что будут образовываться различные количества продуктов ПЦР для целевых локусов, которые на самом деле присутствуют в равных количествах. Применение эталонных стандартов, аналогичных целевым локусам, позволяет обнаружить такое смещение амплификации, таким образом, она может быть скорректирована во время количественного определения целевых локусов.During PCR amplification and sequencing of 19488 target loci in the genomic sample, 99.4-99.7% of the sequence readings were mapped to the genome, of which 99.99% were mapped to the target loci. For plasma samples with 10 million readings of the sequences, at least 19350 out of 19488 target loci were amplified and sequenced (99.3%). The ability to simultaneously amplify such a significant number of target loci in one go significantly reduces the time and amount of DNA needed to analyze thousands of target loci. For example, DNA from a single cell is sufficient for the simultaneous analysis of thousands of target loci, which is important for applications where the amount of DNA is small, such as genetic testing of a single cell from an embryo before in vitro fertilization or genetic testing of a sample for forensic examination with a small amount DNA In addition, the ability to analyze target loci in a single reaction volume (for example, in one chamber or well), without dividing the specified sample into many different reactions, reduces the variability that can occur between reactions. In addition, methods have been developed for applying reference standards to correct for amplification bias that may occur at different target loci. For example, differences in amplification efficiency between target loci due to factors such as GC content can lead to the formation of different amounts of PCR products for the target loci, which are actually present in equal amounts. The application of reference standards similar to the target loci allows one to detect such a shift in amplification, so it can be adjusted during the quantification of the target loci.

Во время секвенирования продуктов ПЦР выявляются такие артефакты, как димеры праймеров, которые, соответственно, подавляют обнаружение целевых ампликонов. Из-за указанного ограничения для обнаружения часто используют микроматрицы с зондами гибридизации, поскольку микроматрицы менее чувствительны к помехам, обусловленным димерами праймеров. Высокий уровень мультиплексирования с минимумом нецелевых ампликонов, достигнутый к настоящему моменту, позволяет использовать ПЦР с последующим секвенированием в качестве альтернативы микроматрицам.During sequencing of PCR products, artifacts such as primer dimers are detected that, respectively, inhibit the detection of target amplicons. Due to this limitation, microarrays with hybridization probes are often used for detection, since microarrays are less sensitive to interference caused by primer dimers. The high level of multiplexing with a minimum of non-target amplicons, achieved to date, allows the use of PCR followed by sequencing as an alternative to microarrays.

Способы мультиплексной ПЦР согласно настоящему изобретению могут находить разнообразное применение, например, при генотипировании, обнаружении хромосомных аномалий (например, анеуплоидии плодных хромосом), анализе генных мутаций и полиморфизмов (таких как однонуклеотидные полиморфизмы, SNP), анализе генных делеций, тестировании на отцовство, анализе генетических различий в популяциях, судебно-технической экспертизе, измерении предрасположенности к заболеванию, количественном анализе мРНК и обнаружении и идентификации инфекционных агентов (таких как бактерии, паразиты и вирусы). Указанные способы мультиплексной ПЦР также могут использоваться для неинвазивного пренатального тестирования, например, тестирования на отцовство или обнаружения аномалий плодных хромосом. Примеры способов конструирования праймеровThe multiplex PCR methods of the present invention can find various applications, for example, in genotyping, detection of chromosomal abnormalities (for example, aneuploidy of the fetal chromosomes), analysis of gene mutations and polymorphisms (such as single nucleotide polymorphisms, SNPs), analysis of gene deletions, paternity testing, analysis of paternity genetic differences in populations, forensic examination, measurement of susceptibility to disease, quantitative analysis of mRNA and the detection and identification of infectious ENTOV (such as bacteria, parasites, and viruses). These multiplex PCR methods can also be used for non-invasive prenatal testing, for example, paternity testing or detection of fetal chromosome abnormalities. Examples of methods for designing primers

Высокомультиплексная ПЦР часто может приводить к синтезу очень значительной доли продуктов ДНК, образующихся в результате непродуктивных побочных реакций, таких как формирование димеров праймеров. Согласно варианту осуществления праймеры, которые с наибольшей вероятностью вызывают непродуктивные побочные реакции, могут быть удалены из библиотеки праймеров, в результате чего будет получена библиотека праймеров с большим содержанием амплифицированной ДНК, картирующейся с геномом. Этап удаления проблемных праймеров, т.е. тех праймеров, которые с повышенной вероятностью формируют димеры, неожиданным образом позволил проводить ПЦР с исключительно высокими уровнями мультиплексирования для последующего анализа секвенированием. В таких системах, как системы секвенирования, производительность которых существенно ухудшается при наличии димеров праймеров и/или других вредных продуктов, было достигнуто более чем 10-кратное, более чем 50-кратное и более чем 100-кратное мультиплексирование относительно других описанных вариантов мультиплексирования. Отметим отличие от способов обнаружения на основе зондов, например, микроматриц, TAQMAN, ПЦР и т.д., в которых избыток димеров праймеров не оказывает значимого влияния на результат. Также отметим, что в целом на существующем уровне техники считается, что мультиплексирование ПЦР для секвенирования ограничивается приблизительно 100 анализируемыми фрагментами в одной и той же лунке. Fluidigm и Rain Dance предлагают платформы для ПЦР-анализа 48 или 1000 фрагментов из одного образца в параллельных реакциях.High multiplex PCR can often lead to the synthesis of a very significant proportion of DNA products resulting from unproductive side reactions, such as the formation of primer dimers. According to an embodiment, the primers that are most likely to cause unproductive side reactions can be removed from the primer library, resulting in a primer library with a high content of amplified DNA mapped to the genome. The step of removing the problematic primers, i.e. those primers that are more likely to form dimers, unexpectedly allowed for PCR with exceptionally high levels of multiplexing for subsequent analysis by sequencing. In systems such as sequencing systems, the performance of which is substantially impaired by the presence of primer dimers and / or other harmful products, more than 10-fold, more than 50-fold and more than 100-fold multiplexing was achieved relative to the other described multiplexing options. Note the difference from the methods of detection based on probes, for example, microarrays, TAQMAN, PCR, etc., in which an excess of primer dimers does not significantly affect the result. Also note that in general, it is believed in the state of the art that PCR multiplexing for sequencing is limited to approximately 100 analyzed fragments in the same well. Fluidigm and Rain Dance offer platforms for PCR analysis of 48 or 1000 fragments from one sample in parallel reactions.

Существует ряд способов выбора праймеров для библиотеки, при которых количество некартирующихся димеров праймеров или других вредных продуктов праймеров сводится к минимуму. Эмпирические данные указывают на то, что за большое количество побочных реакций с участием некартирующихся димеров праймеров ответственно небольшое количество «плохих» праймеров. Удаление этих «плохих» праймеров может повысить процент считываний последовательностей, которые картируются с целевыми локусами. Одним из способов идентификации «плохих» праймеров является просмотр данных секвенирования ДНК, амплифицированной в ходе целевой амплификации; димеры праймеров, наблюдающиеся с наибольшей частотой, могут быть удалены с получением библиотеки праймеров, которая со значительно меньшей вероятностью вызовет образование побочных продуктов ДНК, которые не картируются с геномом. Существуют также общедоступные программы, которые могут рассчитать энергию связывания различных комбинаций праймеров, и удаление праймеров с самой высокой энергией связывания также даст библиотеку праймеров, которая со значительно меньшей вероятностью вызовет образование побочных продуктов ДНК, которые не картируются с геномом.There are a number of ways to select primers for a library in which the number of non-mappable primer dimers or other harmful primer products is minimized. Empirical evidence indicates that a large number of adverse reactions involving non-mappable primer dimers are responsible for a small number of “bad” primers. Removing these “bad” primers can increase the percentage of sequence reads that map to target loci. One way to identify “bad” primers is to view DNA sequencing data amplified during the target amplification; primer dimers observed with the greatest frequency can be removed to obtain a primer library that is much less likely to cause the formation of DNA by-products that are not mapped to the genome. There are also publicly available programs that can calculate the binding energy of different combinations of primers, and removing primers with the highest binding energy will also give a primer library that is much less likely to cause the formation of DNA by-products that are not mapped to the genome.

Согласно некоторым вариантам осуществления отбора праймеров исходную библиотеку кандидатных праймеров создают путем конструирования одного или нескольких праймеров или пар праймеров для кандидатных целевых локусов. Набор кандидатных целевых локусов (таких как SNP) может быть выбран на основании общедоступной информации относительно нужных параметров целевых локусов, таких как частота встречаемости SNP в целевой популяции или степень гетерозиготности по указанным SNP. Согласно одному варианту осуществления праймеры для ПЦР могут быть сконструированы с применением программы Primer3 (доступна в сети Интернет по адресу: primer3.sourceforge.net; libprimer3, версия 2.2.3, и полностью включена в настоящий документ посредством ссылки). Если требуется, праймеры могут быть сконструированы для отжига в конкретном диапазоне температур отжига, иметь конкретный диапазон содержания GC, конкретный диапазон размеров, давать целевые ампликоны с размерами в конкретном диапазоне и/или иметь другие характеристические параметры. Наличие в исходный момент множества праймеров или пар праймеров на кандидатный целевой локус увеличивает вероятность того, что в библиотеке останется праймер или пара праймеров для большей части или для всех целевых локусов. Согласно одному варианту осуществления критерии отбора могут быть такими, чтобы в библиотеке оставалась по меньшей мере одна пара праймеров на целевой локус. Таким образом большая часть целевых локусов или все целевые локусы будут амплифицированы при применении конечной библиотеки праймеров. Это желательно для таких вариантов применения, как скрининг делеций или дупликаций по многим локализациям в геноме или скрининг значительного числа последовательностей (таких как полиморфизмы или другие мутации), связанных с заболеванием или повышенным риском заболевания. Если пара праймеров из библиотеки дает целевой ампликон, который перекрывается с целевым ампликоном, получаемым с помощью другой пары праймеров, одна из указанных пар праймеров может быть удалена из библиотеки для предотвращения взаимных помех.In some primer selection embodiments, an initial candidate primer library is created by constructing one or more primers or primer pairs for candidate target loci. A set of candidate target loci (such as SNPs) can be selected based on publicly available information regarding the desired parameters of the target loci, such as the frequency of occurrence of SNPs in the target population or the degree of heterozygosity for these SNPs. In one embodiment, PCR primers can be designed using Primer3 (available on the Internet at primer3.sourceforge.net; libprimer3, version 2.2.3, and is incorporated herein by reference in its entirety). If desired, primers can be designed to anneal in a specific range of annealing temperatures, have a specific range of GC content, a specific size range, give target amplicons with dimensions in a specific range, and / or have other characteristic parameters. The presence of multiple primers or primer pairs per candidate target locus at the initial time increases the likelihood that a primer or a pair of primers will remain in the library for most or all of the target loci. According to one embodiment, the selection criteria may be such that at least one pair of primers remains at the target locus in the library. Thus, most of the target loci or all of the target loci will be amplified using the final primer library. This is desirable for applications such as screening for deletions or duplications at many locations in the genome or screening a significant number of sequences (such as polymorphisms or other mutations) associated with a disease or an increased risk of disease. If a pair of primers from a library gives a target amplicon that overlaps with a target amplicon obtained using another pair of primers, one of these primer pairs can be removed from the library to prevent mutual interference.

Согласно некоторым вариантам осуществления рассчитывают «балл нежелательности» (более высокую оценку для наименьшей желательности) (например, с применением расчета на компьютере) для большей части или для всех возможных комбинаций двух праймеров из библиотеки кандидатных праймеров. Согласно различным вариантам осуществления балл нежелательности рассчитывают по меньшей мере для 80, 90, 95, 98, 99 или 99,5% возможных комбинаций кандидатных праймеров в библиотеке. Каждый балл нежелательности основан по меньшей мере отчасти на вероятности образования димеров между двумя кандидатными праймерами. Если требуется, балл нежелательности может также основываться на одном или нескольких других параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, распространенности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, пенетрантности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, специфичности кандидатного праймера в отношении целевого локуса, размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона. В том случае, если рассматривается несколько факторов, балл нежелательности может быть рассчитана на основании средневзвешенных значений различных параметров. Указанным параметрам может быть присвоен разный вес на основании их важности для конкретного применения, предусмотренного для праймеров. Согласно некоторым вариантам осуществления праймер с максимальным баллом нежелательности удаляют из библиотеки. Если удаленный праймер представляет собой член пары праймеров, которая гибридизуется с одним целевым локусом, тогда другой член указанной пары праймеров может быть удален из библиотеки. Процесс удаления праймеров может быть при необходимости повторен. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все балла нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются с минимальным порогом или не опустятся ниже минимального порога. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока количество кандидатных праймеров, остающихся в библиотеке, не снизится до требуемого количества.In some embodiments, a “junk score” (higher score for least desirability) is calculated (for example, using a computer calculation) for most or all possible combinations of two primers from the candidate primer library. In various embodiments, a junk score is calculated for at least 80, 90, 95, 98, 99, or 99.5% of possible candidate primer combinations in the library. Each undesirability score is based at least in part on the likelihood of dimers forming between the two candidate primers. If desired, the junk score may also be based on one or more other parameters selected from the group consisting of the degree of heterozygosity of the target locus, the prevalence of the disease associated with the sequence (e.g. polymorphism) at the target locus, and the penetrance of the disease associated with the sequence (e.g. polymorphism) at the target locus, the specificity of the candidate primer with respect to the target locus, the size of the candidate primer, the melting point of the target amplicon, content anija GC in the target amplicon, the amplification efficiency of the target amplicon and the target amplicon size. In the event that several factors are considered, the objectionability score can be calculated on the basis of the weighted average values of various parameters. The indicated parameters can be assigned different weights based on their importance for the particular application provided for the primers. In some embodiments, a primer with a maximum undesirability score is removed from the library. If the deleted primer is a member of a primer pair that hybridizes to one target locus, then another member of the indicated primer pair can be deleted from the library. The process of removing primers can be repeated if necessary. In some embodiments, the selection method is used until all undesirability scores for candidate primer combinations remaining in the library are equal to or lower than the minimum threshold. According to some embodiments, said selection method is used until the number of candidate primers remaining in the library is reduced to the required number.

Согласно различным вариантам осуществления после вычисления степеней нежелательности кандидатный праймер, являющийся частью максимального количества комбинаций двух кандидатных праймеров с баллом нежелательности выше первого минимального порога, удаляют из библиотеки. Указанный этап не учитывает взаимодействия на уровне первого минимального порога или ниже, поскольку указанные взаимодействия менее значимы. Если удаленный праймер представляет собой член пары праймеров, которая гибридизуется с одним целевым локусом, тогда другой член указанной пары праймеров может быть удален из библиотеки. Процесс удаления праймеров может быть при необходимости повторен. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все балла нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются с первым минимальным порогом или не опустятся ниже первого минимального порога. Если число кандидатных праймеров, остающихся в библиотеке, выше, чем требуется, число праймеров может быть снижено путем уменьшения первого минимального порога до более низкого второго минимального порога и повторения процесса удаления праймеров. Если число кандидатных праймеров, остающихся в библиотеке ниже, чем требуется, реализация способа может быть продолжена путем повышения первого минимального порога до более высокого второго минимального порога и повторения процесса удаления праймеров с применением исходной библиотеки кандидатных праймеров, что позволяет оставить в библиотеке большее количество кандидатных праймеров. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все балла нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются с вторым минимальным порогом или не опустятся ниже второго минимального порога, или до тех пор, пока количество кандидатных праймеров, остающихся в библиотеке, не снизится до требуемого количества.In various embodiments, after calculating the degrees of unwantedness, the candidate primer that is part of the maximum number of combinations of two candidate primers with an unwanted score above the first minimum threshold is deleted from the library. This step does not take into account interactions at the level of the first minimum threshold or lower, since these interactions are less significant. If the deleted primer is a member of a primer pair that hybridizes to one target locus, then another member of the indicated primer pair can be deleted from the library. The process of removing primers can be repeated if necessary. In some embodiments, the selection method is used until all undesired scores for candidate primer combinations remaining in the library are equal to or lower than the first minimum threshold. If the number of candidate primers remaining in the library is higher than required, the number of primers can be reduced by lowering the first minimum threshold to a lower second minimum threshold and repeating the process of removing primers. If the number of candidate primers remaining in the library is lower than required, the implementation of the method can be continued by raising the first minimum threshold to a higher second minimum threshold and repeating the process of removing primers using the original library of candidate primers, which allows you to leave more candidate primers in the library . In some embodiments, the selection method is used until all undesirable scores for candidate primer combinations remaining in the library are equal to the second minimum threshold or drop below the second minimum threshold, or until the number of candidate primers remaining in the library, will not drop to the required amount.

Если требуется, пары праймеров, дающие целевой ампликон, который перекрывается с целевым ампликоном, получаемым с помощью другой пары праймеров, могут быть разделены на отдельные реакции амплификации. Множественные реакции ПЦР-амплификации могут быть желательными для вариантов применения, когда желательно проанализировать все кандидатные целевые локусы (а не исключать кандидатные целевые локусы из анализа из-за перекрывающихся целевых ампликонов).If desired, pairs of primers giving the target amplicon, which overlaps with the target amplicon obtained using another pair of primers, can be divided into separate amplification reactions. Multiple PCR amplification reactions may be desirable for applications where it is desirable to analyze all candidate target loci (rather than excluding candidate target loci from the analysis due to overlapping target amplicons).

Указанные способы отбора минимизируют число кандидатных праймеров, которые должны быть удалены из библиотеки для достижения требуемого уменьшения уровня димеров праймеров. Удаление меньшего числа кандидатных праймеров из библиотеки позволяет амплифицировать больше целевых локусов (или все целевые локусы) с применением полученной библиотеки праймеров.These selection methods minimize the number of candidate primers that must be removed from the library to achieve the desired reduction in primer dimer level. Removing a smaller number of candidate primers from the library allows amplification of more target loci (or all target loci) using the resulting primer library.

Мультиплексирование больших количеств праймеров налагает значительные ограничения на анализы, которые могут быть включены в исследование. Анализы, в которых происходят непредусмотренные взаимодействия, приводят к образованию побочных продуктов амплификации. Ограничения размера для мини-ПЦР могут привести к дальнейшим ограничениям. Согласно варианту осуществления можно начать с очень большого числа потенциальных целевых SNP (от приблизительно 500 до более 1 миллиона) и попытаться сконструировать праймеры для амплификации каждого SNP. Если праймеры могут быть сконструированы, можно попытаться идентифицировать пары праймеров, которые с большой вероятностью будут способствовать формированию побочных продуктов, путем оценки вероятности формирования побочных дуплексов праймеров между всеми возможными парами праймеров с использованием опубликованных термодинамических параметров образования дуплексов ДНК. Взаимодействия праймеров можно ранжировать функцией оценивания, связанной с взаимодействием, и праймеры с наихудшими индексами взаимодействия элиминируют до тех пор, пока не будет получено требуемое число праймеров. В случаях, когда SNP, предположительно гетерозиготные, подходят лучше всего, возможно также ранжирование перечня анализируемых фрагментов и отбор наиболее гетерозиготных из совместимых анализируемых фрагментов. Эксперименты подтвердили, что праймеры с высокими индексами взаимодействия с наибольшей вероятностью будут формировать димеры праймеров. При высоком уровне мультиплексирования невозможно устранить все побочные взаимодействия, однако важно удалить праймеры или пары праймеров с наиболее высокими индексами взаимодействия in silico, поскольку они могут доминировать во всей реакции, в значительной степени ограничивая амплификацию намеченных целей. Такая процедура выполнялась авторами для создания мультиплексных наборов праймеров, содержащих до 10000 праймеров и, в некоторых случаях, более чем 10000 праймеров. Благодаря указанной процедуре достигается значительное улучшение, позволяющее амплифицировать более 80%, более 90%, более 95%, более 98% и даже более 99% целевых продуктов, как было установлено путем секвенирования всех продуктов ПЦР, по сравнению с 10% после реакции, из которой не были удалены наихудшие праймеры. При комбинации с описанным ранее частичным полувложенным подходом более 90% и даже более 95% ампликонов могут быть картированы с целевыми последовательностями.Multiplexing large numbers of primers imposes significant limitations on the assays that may be included in the study. Assays in which unintended interactions occur result in amplification by-products. Size limits for mini-PCR can lead to further restrictions. In an embodiment, one can start with a very large number of potential target SNPs (from about 500 to over 1 million) and try to design primers to amplify each SNP. If primers can be designed, you can try to identify pairs of primers that are likely to contribute to the formation of by-products by assessing the likelihood of side-duplexing of primers between all possible primer pairs using published thermodynamic parameters for the formation of DNA duplexes. Primer interactions can be ranked by an evaluation function related to the interaction, and primers with the worst interaction indices are eliminated until the desired number of primers is obtained. In cases where SNPs, presumably heterozygous, are best suited, it is also possible to rank the list of analyzed fragments and select the most heterozygous from compatible analyzed fragments. Experiments have confirmed that primers with high interaction indices are most likely to form primer dimers. With a high level of multiplexing, it is impossible to eliminate all side interactions, however, it is important to remove primers or pairs of primers with the highest in silico interaction indices, since they can dominate the entire reaction, significantly limiting the amplification of the intended targets. This procedure was performed by the authors to create multiplex sets of primers containing up to 10,000 primers and, in some cases, more than 10,000 primers. Thanks to this procedure, a significant improvement is achieved, allowing amplification of more than 80%, more than 90%, more than 95%, more than 98% and even more than 99% of the target products, as was established by sequencing all PCR products, compared to 10% after the reaction, from which the worst primers have not been removed. When combined with the previously described partial semi-nested approach, more than 90% and even more than 95% of the amplicons can be mapped with the target sequences.

Отметим, что существуют другие способы определения того, какие зонды ПЦР предположительно будут формировать димеры. Согласно варианту осуществления анализ пула ДНК, которая была амплифицирована с использованием неоптимизированного набора праймеров, может быть достаточным для выявления проблемных праймеров. Например, анализ может быть выполнен с использованием секвенирования, и те праймеры, димеры которых присутствуют в наибольших количествах, считают праймерами, которые с большой вероятностью будут формировать димеры и которые подлежат удалению.Note that there are other ways to determine which PCR probes are expected to form dimers. In an embodiment, analysis of a pool of DNA that has been amplified using an unoptimized primer set may be sufficient to identify problem primers. For example, an analysis can be performed using sequencing, and those primers whose dimers are present in the largest quantities are considered primers that are more likely to form dimers and which are to be removed.

Указанный способ имеет ряд потенциальных применений, например, для генотипирования SNP, выявления степени гетерозиготности, измерения числа копий и других применений целевого секвенирования. Согласно варианту осуществления этот способ конструирования праймеров может быть использован в комбинации со способом мини-ПЦР, описанным в других разделах настоящего документа. Согласно некоторым вариантам осуществления этот способ конструирования праймеров может быть использован как часть способа массивно-мультиплексной ПЦР.This method has a number of potential applications, for example, for genotyping SNP, detecting the degree of heterozygosity, measuring the number of copies, and other applications of target sequencing. According to an embodiment, this primer construction method can be used in combination with the mini-PCR method described in other sections of this document. In some embodiments, this primer design method can be used as part of a mass-multiplex PCR method.

Использование маркеров в праймерах может снизить амплификацию и секвенирование продуктов димеров праймеров. Согласно некоторым вариантам осуществления праймер содержит внутреннюю область, которая образует петлевую структуру с маркером. Согласно конкретным вариантам осуществления праймеры содержат 5'-область, специфическую в отношении целевого локуса, внутреннюю область, не являющуюся специфической в отношении целевого локуса и образующую петлевую структуру, и 3'-область, специфическую в отношении целевого локуса. Согласно некоторым вариантам осуществления область петли может располагаться между двумя связывающими областями, при этом указанные две связывающие области сконструированы таким образом, чтобы связываться с непрерывными или смежными областями матричной ДНК. Согласно различным вариантам осуществления длина 3'-области составляет по меньшей мере 7 нуклеотидов. Согласно некоторым вариантам осуществления длина 3'-области составляет от 7 и 20 нуклеотидов, например, от 7 до 15 нуклеотидов, или от 7 до 10 нуклеотидов включительно. Согласно различным вариантам осуществления праймеры содержат 5'-область, не являющуюся специфической в отношении целевого локуса (такой как маркер или сайт связывания универсального праймера), за которой следует область, являющаяся специфической в отношении целевого локуса, внутренняя область, не являющаяся специфической в отношении целевого локуса и образующая петлевую структуру, и 3'-область, являющаяся специфической в отношении целевого локуса. Маркированные праймеры могут быть использованы для укорачивания необходимой специфичной по отношению к цели последовательности до менее чем 20, менее чем 15, менее чем 12 и даже менее чем 10 пар оснований. При конструировании стандартных праймеров может случайно оказаться так, что целевая последовательность фрагментируется внутри сайта связывания праймера, или она может быть заложена в конструкцию праймера. Преимущества этого способа включают повышение числа анализируемых фрагментов, которые могут быть сконструированы для ампликона определенной максимальной длины, и сокращение «неинформативного» секвенирования последовательностей праймеров. Он также может быть использован в комбинации с внутренним маркированием (см. другие разделы настоящего документа).The use of markers in primers can reduce the amplification and sequencing of primer dimer products. In some embodiments, the primer comprises an inner region that forms a loop structure with a marker. According to particular embodiments, the primers comprise a 5'-region specific for the target locus, an internal region that is not specific for the target locus and forming a loop structure, and a 3'-region specific for the target locus. In some embodiments, a loop region may be located between two binding regions, wherein said two binding regions are designed to bind to continuous or adjacent regions of the template DNA. In various embodiments, the length of the 3 ′ region is at least 7 nucleotides. According to some variants of implementation, the length of the 3'-region is from 7 and 20 nucleotides, for example, from 7 to 15 nucleotides, or from 7 to 10 nucleotides inclusive. In various embodiments, the primers comprise a 5'-region that is not specific for the target locus (such as a marker or universal primer binding site), followed by a region that is specific for the target locus, an inner region that is not specific for the target locus and forming a loop structure, and a 3'-region that is specific for the target locus. Labeled primers can be used to shorten the desired target-specific sequence to less than 20, less than 15, less than 12, and even less than 10 base pairs. When designing standard primers, it may happen by chance that the target sequence is fragmented inside the primer binding site, or it can be incorporated into the primer design. Advantages of this method include increasing the number of analyzed fragments that can be designed for an amplicon of a certain maximum length, and reducing “uninformative” sequencing of primer sequences. It can also be used in combination with internal marking (see other sections of this document).

Согласно варианту осуществления относительное количество непродуктивных продуктов мультиплексной целевой ПЦР-амплификации может быть снижено путем повышения температуры отжига. В тех случаях, когда амплифицируются библиотеки с тем же маркером, что и в специфичных по отношению к целям праймерах, температуру отжига можно повысить по сравнению с температурой для геномной ДНК, поскольку маркеры будут способствовать связыванию праймеров. Согласно некоторым вариантам осуществления авторы использовали значительно более низкие концентрации праймеров, чем описанные ранее, наряду с более длительным, чем упоминаемое где-либо еще, временем отжига. Согласно некоторым вариантам осуществления время отжига может составлять более 3 минут, более 5 минут, более 8 минут, более 10 минут, более 15 минут, более 20 минут, более 30 минут, более 60 минут, более 120 минут, более 240 минут, более 480 минут и даже более 960 минут. Согласно варианту осуществления используется более длительное время отжига, чем описанное ранее, что позволяет снизить концентрации праймеров. Согласно различным вариантам осуществления используют более длительные по сравнению с обычными периоды удлинения, например, более 3, 5, 8, 10 или 15 минут. Согласно некоторым вариантам осуществления концентрацию праймеров снижают до 50 нМ, 20 нМ, 10 нМ, 5 нМ, 1 нМ и до менее чем 1 мкМ. Неожиданным образом при этом обеспечивается полноценная производительность высокомультиплексных реакций, например, 1000-плексных реакций, 2000-плексных реакций, 5000-плексных реакций, 10000-плексных реакций, 20000-плексных реакций, 50000-плексных реакций и даже 100000-плексных реакций. Согласно варианту осуществления при амплификации используются один, два, три, четыре или пять циклов, проводимых с длительным временем отжига с последующим циклами ПЦР с обычным временем отжига при использовании маркированных праймеров.According to an embodiment, the relative amount of non-productive multiplex target PCR amplification products can be reduced by increasing the annealing temperature. In those cases where libraries with the same marker as in target-specific primers are amplified, the annealing temperature can be increased compared to the temperature for genomic DNA, since markers will facilitate the binding of primers. In some embodiments, the authors used significantly lower concentrations of primers than previously described, along with longer annealing times than elsewhere mentioned. According to some embodiments, the annealing time may be more than 3 minutes, more than 5 minutes, more than 8 minutes, more than 10 minutes, more than 15 minutes, more than 20 minutes, more than 30 minutes, more than 60 minutes, more than 120 minutes, more than 240 minutes, more than 480 minutes and even more than 960 minutes. According to an embodiment, a longer annealing time is used than previously described, thereby reducing primer concentrations. In various embodiments, longer elongation periods are used than conventional ones, for example, longer than 3, 5, 8, 10 or 15 minutes. In some embodiments, the concentration of primers is reduced to 50 nM, 20 nM, 10 nM, 5 nM, 1 nM, and to less than 1 μM. Unexpectedly, this provides the full performance of high-multiplex reactions, for example, 1000-plex reactions, 2000-plex reactions, 5000-plex reactions, 10000-plex reactions, 20,000-plex reactions, 50,000-plex reactions and even 100,000-plex reactions. According to an embodiment, the amplification uses one, two, three, four or five cycles conducted with a long annealing time followed by PCR cycles with the usual annealing time using labeled primers.

Отбор целевых локализаций можно начать с конструирования пула пар кандидатных праймеров и создания термодинамической модели потенциально неблагоприятных взаимодействий между парами праймеров, а затем использовать указанную модель для устранения конструкций, которые несовместимы с другими конструкциями в пуле.The selection of target localizations can be started by constructing a pool of candidate primer pairs and creating a thermodynamic model of potentially unfavorable interactions between primer pairs, and then using this model to eliminate structures that are incompatible with other structures in the pool.

После процесса отбора праймеры, остающиеся в библиотеке, могут использоваться в любых способах согласно настоящему изобретению.After the selection process, the primers remaining in the library can be used in any of the methods of the present invention.

Примеры библиотек праймеровExamples of primer libraries

Согласно одному аспекту в настоящем изобретении предложены библиотеки праймеров, таких как праймеры, выбранные из библиотеки кандидатных праймеров с применением любых способов согласно настоящему изобретению. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно гибридизуют (или способны одновременно гибридизовать) или которые одновременно амплифицируют (или способны одновременно амплифицировать) по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов в одном реакционном объеме. Согласно различным вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют (или способны одновременно амплифицировать) от 1000 до 2000; от 2000 до 5000; от 5000 до 7500; от 7500 до 10000; от 10000 до 20000; от 20000 до 25000; от 25000 до 30000; от 30000 до 40000; от 40000 до 50000; от 50000 до 75000; или от 75000 до 100000 разных целевых локусов в одном реакционном объеме включительно. Согласно различным вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют (или способны одновременно амплифицировать) от 1000 до 100000 разных целевых локусов в одном реакционном объеме, например, от 1000 до 50000; от 1000 до 30000; от 1000 до 20000; от 1000 до 10000; от 2000 до 30000; от 2000 до 20000; от 2000 до 10000; от 5000 до 30000; от 5000 до 20000; или от 5000 до 10000 разных целевых локусов включительно. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют (или способны одновременно амплифицировать) целевые локусы в одном реакционном объеме таким образом, что менее чем 60, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1 или 0,5% амплифицированных продуктов представлено димерами праймеров. Согласно различных вариантах осуществления количество амплифицированных продуктов, которые представляют собой димеры праймеров, составляет от 0,5 до 60%, например, от 0,1 до 40%, от 0,1 до 20%, от 0,25 до 20%, от 0,25 до 10%, от 0,5 до 20%, от 0,5 до 10%, от 1 до 20% или от 1 до 10% включительно. Согласно некоторым вариантам осуществления праймеры одновременно амплифицируют (или способны одновременно амплифицировать) целевые локусы в одном реакционном объеме таким образом, что по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% амплифицированных продуктов представлено целевыми ампликонами. Согласно различным вариантам осуществления количество амплифицированных продуктов, которые представляют собой целевые ампликоны, составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 98%, от 90 до 99,5% или от 95 до 99,5% включительно. Согласно некоторым вариантам осуществления праймеры одновременно амплифицируют (или способны одновременно амплифицировать) целевые локусы в одном реакционном объеме таким образом, что амплифицируется по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов. Согласно различным вариантам осуществления количество целевых локусов, которые амплифицируются, составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 99%, от 90 до 99,5%, от 95 до 99,9% или от 98 до 99,99% включительно. Согласно некоторым вариантам осуществления библиотека праймеров содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 пар праймеров, при этом каждая пара праймеров включает прямой тестовый праймер и обратный тестовый праймер, причем каждая пара тестовых праймеров гибридизуется с целевым локусом. Согласно некоторым вариантам осуществления библиотека праймеров содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 индивидуальных праймеров, каждый из который гибридизуется с отличным целевым локусом, при этом указанные индивидуальные праймеры не входят в состав пар праймеров.According to one aspect, the present invention provides primer libraries, such as primers selected from a candidate primer library, using any of the methods of the present invention. According to some embodiments, the library contains primers that simultaneously hybridize (or are capable of simultaneously hybridizing) or that simultaneously amplify (or are capable of simultaneously amplifying) at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci in one reaction volume. According to various embodiments, the library contains primers that simultaneously amplify (or are capable of simultaneously amplifying) from 1000 to 2000; from 2000 to 5000; from 5000 to 7500; from 7500 to 10000; from 10,000 to 20,000; from 20,000 to 25,000; from 25,000 to 30,000; from 30,000 to 40,000; from 40,000 to 50,000; from 50,000 to 75,000; or from 75,000 to 100,000 different target loci in the same reaction volume, inclusive. According to various embodiments, the library contains primers that simultaneously amplify (or are capable of simultaneously amplifying) from 1000 to 100000 different target loci in one reaction volume, for example, from 1000 to 50,000; from 1000 to 30000; from 1000 to 20,000; from 1000 to 10000; from 2000 to 30000; from 2000 to 20,000; from 2000 to 10000; from 5,000 to 30,000; from 5,000 to 20,000; or from 5,000 to 10,000 different target loci, inclusive. According to some embodiments, the library contains primers that simultaneously amplify (or are capable of simultaneously amplifying) target loci in one reaction volume in such a way that less than 60, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0 5, 0.25, 0.1, or 0.5% of amplified products are represented by primer dimers. According to various embodiments, the amount of amplified products, which are primer dimers, is from 0.5 to 60%, for example, from 0.1 to 40%, from 0.1 to 20%, from 0.25 to 20%, from 0.25 to 10%, from 0.5 to 20%, from 0.5 to 10%, from 1 to 20%, or from 1 to 10% inclusive. In some embodiments, the primers simultaneously amplify (or are capable of simultaneously amplifying) target loci in a single reaction volume such that at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% amplified products are represented by target amplicons. According to various embodiments, the amount of amplified products, which are the target amplicons, is from 50 to 99.5%, for example, from 60 to 99%, from 70 to 98%, from 80 to 98%, from 90 to 99.5% or from 95 to 99.5% inclusive. In some embodiments, the primers simultaneously amplify (or are capable of simultaneously amplifying) target loci in a single reaction volume in such a way that at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5 are amplified. % of target loci. According to various embodiments, the number of target loci that are amplified is from 50 to 99.5%, for example, from 60 to 99%, from 70 to 98%, from 80 to 99%, from 90 to 99.5%, from 95 up to 99.9% or from 98 to 99.99% inclusive. In some embodiments, the primer library comprises at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 pairs of primers, with each pair of primers including a direct test primer and a reverse test primer, each pair of test primers hybridizing with the target locus. In some embodiments, the primer library comprises at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 individual primers, each of which hybridizes to a different target locus, wherein said individual primers are not part of the primer pairs.

Согласно различным вариантам осуществления концентрация каждого праймера составляет менее 100, 75, 50, 25, 20, 10, 5, 2 или 1 нМ, или менее чем 500, 100, 10, или 1 мкМ. Согласно различным вариантам осуществления концентрация каждого праймера составляет от 1 мкМ до 100 нМ, например, от 1 мкМ до 1 нМ, от 1 до 75 нМ, от 2 до 50 нМ или от 5 до 50 нМ включительно. Согласно различным вариантам осуществления содержание GC в праймерах составляет от 30 до 80%, например, от 40 до 70%, или 50 до 60% включительно. Согласно некоторым вариантам осуществления диапазон содержания GC в праймерах составляет менее 30, 20, 10 или 5%. Согласно некоторым вариантам осуществления диапазон содержания GC в праймерах составляет от 5 до 30%, такой как 5 до 20% или 5 до 10% включительно. Согласно некоторым вариантам осуществления температура плавления (Тm) тестовых праймеров составляет от 40 до 80°C, например, от 50 до 70°C, от 55 до 65°C, или от 57 до 60,5°C включительно. Согласно некоторым вариантам осуществления Тm рассчитывают с применением программы Primer3 (Hbprimer3, версия 2.2.3) с применением встроенных параметров SantaLucia (интернет-адрес: primer3.sourceforge.net). Согласно некоторым вариантам осуществления диапазон температур плавления праймеров составляет менее 15, 10, 5, 3 или 1°C. Согласно некоторым вариантам осуществления диапазон температур плавления праймеров составляет от 1 до 15°C, например, от 1 до 10°C, от 1 до 5°C, или от 1 до 3°C включительно. Согласно некоторым вариантам осуществления длина праймеров составляет от 15 до 100 нуклеотидов, например, от 15 до 75 нуклеотидов, от 15 до 40 нуклеотидов, от 17 до 35 нуклеотидов, от 18 до 30 нуклеотидов, от 20 до 65 нуклеотидов включительно. Согласно некоторым вариантам осуществления диапазон длин праймеров составляет менее 50, 40, 30, 20, 10 или 5 нуклеотидов. Согласно некоторым вариантам осуществления диапазон длин праймеров составляет от 5 до 50 нуклеотидов, например, от 5 до 40 нуклеотидов, от 5 до 20 нуклеотидов, или от 5 до 10 нуклеотидов включительно. Согласно некоторым вариантам осуществления длина целевых ампликонов составляет от 50 и 100 нуклеотидов, например, от 60 до 80 нуклеотидов, или от 60 до 75 нуклеотидов включительно. Согласно некоторым вариантам осуществления диапазон длин целевых ампликонов составляет менее 50, 25, 15, 10 или 5 нуклеотидов. Согласно некоторым вариантам осуществления диапазон длин целевых ампликонов составляет от 5 до 50 нуклеотидов, например, от 5 до 25 нуклеотидов, от 5 до 15 нуклеотидов или от 5 до 10 нуклеотидов включительно.In various embodiments, the concentration of each primer is less than 100, 75, 50, 25, 20, 10, 5, 2, or 1 nM, or less than 500, 100, 10, or 1 μM. In various embodiments, the concentration of each primer is from 1 μM to 100 nm, for example, from 1 μM to 1 nm, from 1 to 75 nm, from 2 to 50 nm, or from 5 to 50 nm, inclusive. According to various embodiments, the content of GC in the primers is from 30 to 80%, for example, from 40 to 70%, or 50 to 60%, inclusive. In some embodiments, the range of GC content in the primers is less than 30, 20, 10, or 5%. In some embodiments, the range of GC content in the primers is from 5 to 30%, such as 5 to 20% or 5 to 10%, inclusive. In some embodiments, the melting temperature (T m ) of the test primers is from 40 to 80 ° C, for example, from 50 to 70 ° C, from 55 to 65 ° C, or from 57 to 60.5 ° C inclusive. In some embodiments, T m is calculated using Primer3 (Hbprimer3, version 2.2.3) using SantaLucia's built-in parameters (Internet address: primer3.sourceforge.net). In some embodiments, the primer melting range is less than 15, 10, 5, 3, or 1 ° C. In some embodiments, the primer has a melting point range of from 1 to 15 ° C, for example, from 1 to 10 ° C, from 1 to 5 ° C, or from 1 to 3 ° C, inclusive. According to some embodiments, the length of the primers is from 15 to 100 nucleotides, for example, from 15 to 75 nucleotides, from 15 to 40 nucleotides, from 17 to 35 nucleotides, from 18 to 30 nucleotides, from 20 to 65 nucleotides, inclusive. In some embodiments, the primer length range is less than 50, 40, 30, 20, 10, or 5 nucleotides. In some embodiments, the primer length range is from 5 to 50 nucleotides, for example, from 5 to 40 nucleotides, from 5 to 20 nucleotides, or from 5 to 10 nucleotides, inclusive. In some embodiments, the target amplicons are between 50 and 100 nucleotides in length, for example, from 60 to 80 nucleotides, or from 60 to 75 nucleotides, inclusive. In some embodiments, the range of target amplicon lengths is less than 50, 25, 15, 10, or 5 nucleotides. In some embodiments, the range of target amplicon lengths is from 5 to 50 nucleotides, for example, from 5 to 25 nucleotides, from 5 to 15 nucleotides, or from 5 to 10 nucleotides, inclusive.

Указанные библиотеки праймеров могут использоваться в любых способах согласно настоящему изобретению.These primer libraries can be used in any of the methods of the present invention.

Примеры наборов праймеровExamples of primer sets

Согласно одному аспекту в настоящем изобретении предложен набор (например, наборы для амплификации целевых локусов в образце нуклеиновой кислоты), включающий любые из библиотек праймеров согласно настоящему изобретению. Согласно некоторым вариантам осуществления может быть получен состав с набором, который содержит множество праймеров, сконструированных для реализации способов, раскрытых в настоящем описании. Указанные праймеры могут представлять собой внешние прямые и обратные праймеры, внутренние прямые и обратный праймеры согласно описанию в настоящем документе, они могут представлять собой праймеры, которые были сконструированы таким образом, чтобы иметь низкое сродство к связыванию с другими праймерами в наборе согласно описанию в разделе, относящемся к конструированию праймеров, они могут представлять собой зонды гибридного захвата или пре-циркуляризованные зонды согласно описанию в соответствующих разделах, или какую-либо их комбинацию. Согласно варианту осуществления набор могут входить в состав для определения статуса плоидности целевой хромосомы у вынашиваемого плода, разработанный для применения в способах, раскрытых в настоящем документе, при этом указанный набор содержит множество внутренних прямых праймеров и, необязательно, множество внутренних обратных праймеров, и, необязательно, внешние прямые праймеры и внешние обратные праймеры, где каждый праймер сконструирован так, чтобы гибридизоваться с областью ДНК, расположенной непосредственно выше (в 5'-направлении) и/или ниже (в 3'-направлении) одного из целевых сайтов (например, полиморфных сайтов) на целевой хромосоме, и, необязательно, дополнительных хромосомах. Согласно варианту осуществления набор праймеров может использоваться в комбинации с диагностическим боксом, описанным где-либо в настоящем документе. Согласно некоторым вариантам осуществления набор включает инструкции по применению библиотеки для амплификации целевых локусов.According to one aspect, the present invention provides a kit (eg, kits for amplifying target loci in a nucleic acid sample) comprising any of the primer libraries of the present invention. In some embodiments, a kit can be prepared that contains multiple primers designed to implement the methods disclosed herein. These primers can be external forward and reverse primers, internal direct and reverse primers as described herein, they can be primers that have been designed to have a low binding affinity for other primers in the kit as described in the section, relating to the design of primers, they may be hybrid capture probes or pre-circularized probes as described in the relevant sections, or some combination thereof nation. According to an embodiment, the kit may be included in the determination of the ploidy status of the target chromosome of the gestational fetus, developed for use in the methods disclosed herein, wherein the kit contains many internal forward primers and, optionally, many internal reverse primers, and optionally , external forward primers and external reverse primers, where each primer is designed to hybridize with the region of DNA located directly above (in the 5'-direction ii) and / or below (in 3'-direction) of one of the target sites (e.g., polymorphic sites) on the target chromosome, and optionally additional chromosomes. According to an embodiment, the primer set can be used in combination with the diagnostic box described elsewhere in this document. In some embodiments, the kit includes instructions for using the library to amplify target loci.

Примеры способов мультиплексной ПЦРExamples of methods of multiplex PCR

Согласно одному аспекту в настоящем изобретении предложены способы амплификации целевых локусов в образце нуклеиновой кислоты, которые включают (i) приведение указанного образца нуклеиновой кислоты в контакт с библиотекой праймеров, которые одновременно гибридизуются по крайней мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь; и (ii) помещение реакционной смеси в условия реакции удлинения праймеров (такие как условия ПЦР), в результате чего получают продукты амплификации, которые включают целевые ампликоны. Согласно некоторым вариантам осуществления указанный способ также включает определение присутствия или отсутствия по меньшей мере одного целевого ампликона (например, по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых ампликонов). Согласно некоторым вариантам осуществления указанный способ также включает определение последовательности по меньшей мере одного целевого ампликона (например, по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых ампликонов). Согласно некоторым вариантам осуществления амплифицируют по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов. Согласно различным вариантам осуществления менее чем 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1 или 0,05% амплифицированных продуктов представлено димерами праймеров.According to one aspect, the present invention provides methods for amplifying target loci in a nucleic acid sample, which comprise: (i) bringing said nucleic acid sample into contact with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci, resulting in a reaction mixture; and (ii) placing the reaction mixture under the conditions of the primer extension reaction (such as PCR conditions), resulting in amplification products that include the target amplicons. In some embodiments, the method also includes determining the presence or absence of at least one target amplicon (e.g., at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target amplicons ) In some embodiments, the method also includes sequencing at least one target amplicon (for example, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target amplicons). In some embodiments, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target loci are amplified. In various embodiments, less than 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0.5, 0.25, 0.1, or 0.05% of amplified products are primer dimers.

Согласно варианту осуществления в способе, раскрытом в настоящем документе, используется высокоэффективная высокомультиплексная целевая ПЦР для амплификации ДНК с последующим высокопроизводительным секвенированием для определения частот аллелей в каждом целевом локусе. Возможность мультиплексировать более чем приблизительно 50 или 100 ПЦР-праймеров в одном реакционном объеме таким образом, что большинство полученных считываний последовательностей картируются с целевыми локусами, является новой и неочевидной. Одна из техник, которая позволяет проведение высокомультиплексной целевой ПЦР высокоэффективным способом, включает конструирование праймеров, которые предположительно не будут гибридизоваться друг с другом. Зонды ПЦР, как правило, называемые праймерами, отбирают путем создания термодинамической модели потенциально неблагоприятных взаимодействий между по меньшей мере 500; по меньшей мере 1000; по меньшей мере 2000; по меньшей мере 5000; по меньшей мере 7500; по меньшей мере 10000; по меньшей мере 20000; по меньшей мере 25000; по меньшей мере 30000; по меньшей мере 40000; по меньшей мере 50000; по меньшей мере 75000; или по меньшей мере 100000 потенциальными парами праймеров, или непредусмотренных взаимодействий между праймерами и образцом ДНК, с последующим использованием модели для устранения конструкций, которые несовместимы с другими конструкциями в пуле. Другая техника, позволяющая проведение высокомультиплексной целевой ПЦР высокоэффективным способом, заключается в использовании частичного или полного вложенного подхода в целевой ПЦР. Применение одного из указанных подходов или их комбинации обеспечивает мультиплексирование по меньшей мере 300, по меньшей мере 800, по меньшей мере 1200, по меньшей мере 4000 или по меньшей мере 10000 праймеров в одном пуле с получением амплифицированной ДНК, содержащей большую часть молекул ДНК, которые при секвенировании будут картироваться с целевыми локусами. Использование одного из указанных подходов или их комбинации позволяет проводить мультиплексирование значительного числа праймеров в одном пуле с получением амплифицированной ДНК, содержащей более 50%, более 60%, более 67%, более 80%, более 90%, более 95%, более 96%, более 97%, более 98%, более 99% или более 99,5% ДНК молекул, которые картируются с целевыми локусами.According to an embodiment, the method disclosed herein uses high-performance, high-multiplex, target PCR to amplify DNA, followed by high-throughput sequencing to determine allele frequencies at each target locus. The ability to multiplex more than approximately 50 or 100 PCR primers in one reaction volume so that most of the obtained readings of sequences are mapped with target loci is new and not obvious. One technique that allows high multiplex target PCR to be performed in a highly efficient manner involves the design of primers that are not expected to hybridize with each other. PCR probes, usually called primers, are selected by creating a thermodynamic model of potentially adverse interactions between at least 500; at least 1000; at least 2000; at least 5000; at least 7500; at least 10,000; at least 20,000; at least 25,000; at least 30,000; at least 40,000; at least 50,000; at least 75,000; or at least 100,000 potential primer pairs, or unintended interactions between the primers and the DNA sample, followed by using the model to eliminate constructs that are incompatible with other constructs in the pool. Another technique that allows high multiplex target PCR to be performed in a highly efficient way is to use a partial or full nested approach in the target PCR. The use of one of these approaches or a combination thereof provides the multiplexing of at least 300, at least 800, at least 1200, at least 4000 or at least 10,000 primers in one pool to obtain amplified DNA containing most of the DNA molecules that during sequencing, they will be mapped with target loci. Using one of these approaches or a combination thereof allows the multiplication of a significant number of primers in one pool to produce amplified DNA containing more than 50%, more than 60%, more than 67%, more than 80%, more than 90%, more than 95%, more than 96% , more than 97%, more than 98%, more than 99% or more than 99.5% of the DNA of the molecules that map to the target loci.

Согласно некоторым вариантам осуществления обнаружение целевого генетического материала может проводиться с использованием мультиплексного подхода. Число целевых генетических последовательностей, которые могут анализироваться параллельно, может варьировать в диапазоне от 1 до 10, от 10 до 100, от 100 до 1000, от 1000 до 10000, от 10000 до 100000, от 100000 до 1000000 или от 1000000 до 10000000. Ранее попытки проведения мультиплексирования более чем со 100 праймерами на пул приводило к значительным проблемам, связанным с нежелательными побочными реакциями, например, с образованием димеров праймеров. Целевая ПЦР Согласно некоторым вариантам осуществления ПЦР может использоваться для нацеливания на конкретные локализации в геноме. В образцах плазмы исходная ДНК высокофрагментирована (как правило, имеет длину менее чем 500 п.о., в среднем менее чем 200 п.о.). При ПЦР для осуществления амплификации как прямые, так и обратные праймеры должны отжигаться с одним и тем же фрагментом. Таким образом, если фрагменты короткие, при ПЦР-анализах также должны амплифицироваться относительно короткие области. Подобно MIPS, если полиморфные положения находятся слишком близко к сайту связывания полимеразы, это может привести к смещению амплификации для разных аллелей. В настоящее время праймеры ПЦР, целями которых являются полиморфные области, например, содержащие SNP, как правило, сконструированы таким образом, что 3'-конец праймера будет гибридизироваться с основанием, непосредственно примыкающим к полиморфному основанию или основаниям. Согласно раскрытому в настоящем описании варианту осуществления 3' концы как прямых, так и обратных праймеров ПЦР сконструированы так, чтобы гибридизоваться с основаниями, которые расположены на расстоянии одного или нескольких положений от вариантных положений (полиморфных сайтов) целевого аллеля. Число оснований между полиморфным сайтом (SNP или иным) и основанием, для гибридизации с которым сконструирован 3'-конец праймера, может составлять 1 основание, может составлять 2 основания, может составлять 3 основания, может составлять 4 основания, может составлять 5 оснований, может составлять 6 оснований, может составлять от 7 до 10 оснований, может составлять от 11 до 15 оснований или может составлять от 16 до 20 оснований. Прямые и обратные праймеры могут быть сконструированы для гибридизации на разном по числу оснований расстоянии от полиморфного сайта.In some embodiments, the target genetic material can be detected using a multiplex approach. The number of target genetic sequences that can be analyzed in parallel can range from 1 to 10, from 10 to 100, from 100 to 1000, from 1000 to 10,000, from 10,000 to 100,000, from 100,000 to 1,000,000, or from 1,000,000 to 10,000,000. Previously attempts to multiplex with more than 100 primers per pool led to significant problems associated with undesirable side reactions, for example, the formation of primer dimers. Target PCR According to some embodiments, PCR can be used to target specific locations in the genome. In plasma samples, the initial DNA is highly fragmented (as a rule, it has a length of less than 500 bp, on average less than 200 bp). In PCR for amplification, both forward and reverse primers must be annealed with the same fragment. Thus, if the fragments are short, relatively short regions should also be amplified by PCR analysis. Like MIPS, if the polymorphic positions are too close to the polymerase binding site, this can lead to bias amplification for different alleles. Currently, PCR primers whose targets are polymorphic regions, for example, containing SNPs, are typically designed so that the 3'-end of the primer will hybridize to a base directly adjacent to the polymorphic base or bases. According to the embodiment disclosed in the present description, the 3 'ends of both the forward and reverse PCR primers are designed to hybridize with bases that are located at a distance of one or more positions from the variant positions (polymorphic sites) of the target allele. The number of bases between the polymorphic site (SNP or otherwise) and the base for hybridization with which the 3'-end of the primer is designed may be 1 base, may be 2 bases, may be 3 bases, may be 4 bases, may be 5 bases, may be 6 bases, may be from 7 to 10 bases, may be from 11 to 15 bases, or may be from 16 to 20 bases. Forward and reverse primers can be designed for hybridization at a different number of bases distance from the polymorphic site.

ПЦР-анализ может проводиться в большом масштабе, однако взаимодействия между разными ПЦР-анализами затрудняет их мультиплексирование при количестве, превышающем приблизительно сто анализов. Для повышения уровня мультиплексирования могут быть использованы различные комплексные молекулярные подходы, но их применение может быть ограничено числом до 100, возможно, до 200, или, с некоторой вероятностью, до 500 анализов на реакцию. Образцы с большими количествами ДНК могут быть разделены на несколько субреакций, а затем повторно объединены перед секвенированием. В случае образцов, в которых количество либо всего образца, либо субпопуляции молекул ДНК ограничено, расщепление образца будет вносить статистический шум. Согласно варианту осуществления небольшое или ограниченное количество ДНК может относиться к количеству ниже 10 пг, от 10 до 100 пг, от 100 пг до 1 нг, от 1 до 10 нг или от 10 до 100 нг. Отметим, что, хотя Указанный способ подходит, в частности, для небольших количеств ДНК, при которых другие способы, предусматривающие разделение образца на множество пулов, могут вызвать значительные проблемы, связанные с возникновением стохастического шума, он обеспечивает преимущество минимизации стандартной ошибки при применении на образцах с любым количеством ДНК. В таких ситуациях можно использовать этап универсальной преамплификации для увеличения общего количества образца. В идеале такой этап преамплификации не должен значимо изменять аллельные распределения.PCR analysis can be carried out on a large scale, however, the interaction between different PCR analyzes makes it difficult to multiplex them at a quantity exceeding approximately one hundred analyzes. Various complex molecular approaches can be used to increase the level of multiplexing, but their application can be limited to 100, possibly 200, or, with some probability, up to 500 reaction tests. Samples with large amounts of DNA can be divided into several sub-reactions and then re-combined before sequencing. In the case of samples in which the number of either the entire sample or a subpopulation of DNA molecules is limited, the splitting of the sample will introduce statistical noise. In an embodiment, a small or limited amount of DNA may refer to amounts below 10 pg, 10 to 100 pg, 100 pg to 1 ng, 1 to 10 ng, or 10 to 100 ng. Note that although this method is suitable, in particular, for small amounts of DNA, in which other methods involving the separation of the sample into multiple pools can cause significant problems associated with stochastic noise, it provides the advantage of minimizing the standard error when applied to samples with any amount of DNA. In such situations, the universal preamplification step can be used to increase the total amount of the sample. Ideally, this preamplification step should not significantly alter the allelic distributions.

Согласно варианту осуществления способ согласно настоящему раскрытию позволяет получать продукты ПЦР, специфичные в отношении значительного числа целевых локусов, в частности, для 1000-5000 локусов, 5000-10000 локусов или более чем для 10000 локусов, для генотипирования посредством секвенирования или каких-либо других способов генотипирования, из ограниченных образцов, таких как единичные клетки или ДНК жидкостей организма. В настоящее время проведение реакций мультиплексной ПЦР для более чем 5-10 целей сопряжено со значительными проблемами и часто затруднено из-за побочных продуктов праймеров, таких как димеры праймеров, и других артефактов. При обнаружении целевых последовательностей с использованием микроматриц с зондами гибридизации димеры праймеров и другие артефакты можно проигнорировать, поскольку они не выявляются. Однако при использовании секвенирования в качестве способа выявления подавляющее большинство считываний последовательностей будет считывать в образце такие артефакты, а не нужные целевые последовательности. Описанные на существующем уровне техники способы, используемые для мультиплексирования более 50 или 100 реакций в одном реакционном объеме с последующим секвенированием, как правило, дают более 20%, часто более 50%, во многих случаях более 80% и в некоторых случаях более 90% считываний нецелевых последовательностей.According to a variant implementation, the method according to the present disclosure allows to obtain PCR products specific for a significant number of target loci, in particular for 1000-5000 loci, 5000-10000 loci or more than 10000 loci, for genotyping by sequencing or any other methods genotyping from limited samples such as single cells or DNA from body fluids. Currently, conducting multiplex PCR reactions for more than 5-10 purposes is fraught with significant problems and is often difficult due to by-products of primers, such as primer dimers, and other artifacts. When target sequences are detected using microarrays with hybridization probes, primer dimers and other artifacts can be ignored since they are not detected. However, when using sequencing as a detection method, the vast majority of sequence readings will read such artifacts from the sample rather than the desired target sequences. The methods described in the prior art used for multiplexing more than 50 or 100 reactions in one reaction volume followed by sequencing, as a rule, give more than 20%, often more than 50%, in many cases more than 80% and in some cases more than 90% of readings non-target sequences.

В целом, для проведения целевого секвенирования множества (n) целей в образце (более 50, более 100, более 500 или более 1000) образец может быть разделен на ряд параллельных реакций, в которых будет амплифицироваться одна индивидуальная цель. Это было реализовано в многолуночных планшетах для ПЦР; также могут использоваться коммерчески доступные платформы, такие как FLUIDIGM ACCESS ARRAY (48 реакций на образец в микрожидкостных чипах), или метод капельной ПЦР от RAIN DANCE TECHNOLOGY (от сотен до нескольких тысяч целей). К сожалению, такие методы разделения/объединения являются проблематичными для образцов с ограниченным количеством ДНК, поскольку в них часто отсутствует достаточное количество копий генома для обеспечения того, чтобы в каждую лунку попала одна копия каждой области генома. Особенно серьезную проблему это представляет в тех случаях, когда целями являются полиморфные локусы и необходимы данные об относительных пропорциях аллелей в указанных полиморфных локусах, поскольку стохастический шум, возникающий в результате разделения и объединения, приведет к крайне неудовлетворительной точности измерений пропорций аллелей, присутствующих в исходном образце ДНК. В настоящем документе описан способ эффективной и производительной амплификации во множестве реакций ПЦР, который применим для случаев, когда доступно только ограниченное количество ДНК. Согласно варианту осуществления указанный способ может применяться для анализа единичных клеток, жидкостей организма, смесей ДНК, например, свободноплавающей ДНК, присутствующей в материнской плазме, биопсийных образцов, проб окружающей среды и/или образцов для судебно-технической экспертизы.In general, to perform targeted sequencing of a plurality of (n) targets in a sample (more than 50, more than 100, more than 500 or more than 1000), the sample can be divided into a series of parallel reactions in which one individual target will be amplified. This has been implemented in multi-well PCR plates; commercially available platforms, such as FLUIDIGM ACCESS ARRAY (48 reactions per sample in microfluidic chips), or the drop-by-drop PCR method from RAIN DANCE TECHNOLOGY (from hundreds to several thousand targets) can also be used. Unfortunately, such separation / combining methods are problematic for samples with a limited amount of DNA, since they often do not have enough copies of the genome to ensure that each copy contains one copy of each region of the genome. This presents a particularly serious problem in cases where the targets are polymorphic loci and data are needed on the relative proportions of alleles at these polymorphic loci, since stochastic noise resulting from separation and association will lead to extremely unsatisfactory accuracy in measuring the proportions of alleles present in the original sample DNA This document describes a method for efficient and productive amplification in a variety of PCR reactions, which is applicable in cases where only a limited amount of DNA is available. According to an embodiment, the method can be used to analyze single cells, body fluids, DNA mixtures, for example, free-floating DNA present in maternal plasma, biopsy samples, environmental samples and / or forensic samples.

Согласно варианту осуществления целевое секвенирование может включать один, несколько или все из следующих этапов, а) получение и амплификация библиотеки с адаптерными последовательностями на обоих концах фрагментов ДНК. b) разделение на несколько реакций после амплификации библиотеки, с) получение и необязательно амплификация библиотеки с адаптерными последовательностями на обоих концах фрагментов ДНК. d) выполнение 1000-10000-плексной амплификации выбранных целей с применением одного специфичного по отношению к цели «прямого» праймера на цель и одного специфичного по отношению к маркеру праймера. е) выполнение второй амплификации из указанного продукта с применением «обратных» специфичных в отношении цели праймеров и одного (или нескольких) праймера(ов), специфичного(ых) в отношении универсального маркера, который был введен в качестве части специфичных по отношению к цели прямых праймеров в первом раунде, f) выполнение 1000-плексной преамплификации выбранной цели в течение ограниченного числа циклов, g) разделение продукта на множество аликвот и амплификация субпулов целей в индивидуальных реакциях (например, от 50 до 500-плексной, хотя могут быть использованы все, вплоть до одноплексной. h) объединение продуктов реакций в параллельных субпулах, i) Во время указанных амплификаций праймеры могут нести совместимые с секвенированием маркеры (частичные или полноразмерные) так, чтобы продукты могли быть секвенированы.In an embodiment, targeted sequencing may include one, several, or all of the following steps: a) obtaining and amplifying a library with adapter sequences at both ends of the DNA fragments. b) dividing into several reactions after amplification of the library; c) obtaining and optionally amplifying the library with adapter sequences at both ends of the DNA fragments. d) performing 1000-10000-plex amplification of selected targets using one specific “direct” primer per target and one specific marker primer. f) performing a second amplification from said product using “reverse” target-specific primers and one (or several) primer (s) specific for the universal marker that has been introduced as part of the target-specific direct primers in the first round, f) performing 1000-plex preamplification of the selected target for a limited number of cycles, g) dividing the product into multiple aliquots and amplification of target sub-pools in individual reactions (e.g., from 50 to 500 plex, ho I can be used all the way up odnopleksnoy. h) association reaction products subpools in parallel, i) During these primers amplifications may carry compliant sequencing markers (partial or full-length) so that the products can be sequenced.

Высокомультиплексная ПЦРHigh multiplex PCR

В настоящем описании раскрыты способы, позволяющие проводить направленную амплификацию более ста и до десятков тысяч целевых последовательностей (например, локусов SNP) из образца нуклеиновой кислоты, такой как геномная ДНК, полученная из плазмы. Амплифицированный образец может быть относительно свободен от продуктов димеров праймеров и характеризоваться незначительным смещением числа аллелей в целевых локусах. Если во время или после амплификации к продуктам добавить совместимые с секвенированием адаптеры, анализ таких продуктов можно выполнять посредством секвенирования.Methods are disclosed herein that allow targeted amplification of more than one hundred and up to tens of thousands of target sequences (e.g., SNP loci) from a nucleic acid sample, such as genomic DNA, obtained from plasma. The amplified sample can be relatively free from the products of primer dimers and be characterized by a slight shift in the number of alleles at the target loci. If adapters compatible with sequencing are added to the products during or after amplification, analysis of such products can be performed by sequencing.

Проведение высокомультиплексной ПЦР-амплификации с применением способов, известных в данной области техники, приводит к образованию продуктов димеров праймеров, количество которых превышает количества нужных продуктов амплификации, и которые неприемлемы для секвенирования. Это явление можно уменьшить эмпирическим способом, устраняя праймеры, образующие указанные продукты, или путем отбора праймеров in silico. Однако чем выше число анализов, тем сложнее решить указанную проблему.Carrying out high-multiplex PCR amplification using methods known in the art leads to the formation of primer dimer products, the amount of which exceeds the number of desired amplification products, and which are unacceptable for sequencing. This phenomenon can be reduced empirically by eliminating the primers forming these products, or by selecting in silico primers. However, the higher the number of analyzes, the more difficult it is to solve this problem.

Одно из решений заключается в разделении 5000-плексной реакции на несколько менее мультиплексированных реакций амплификации, например, сто 50-плексных или пятьдесят 100-плексных реакций, или в использовании микрофлюидики, или даже в разделении образца для проведения индивидуальных реакций ПЦР. Однако в случае ограниченной доступности образца ДНК, например, плазмы беременной женщины при неинвазивной пренатальной диагностике, разделения образца на несколько реакций следует избегать, так как это приведет к возникновению эффекта «бутылочного горлышка».One solution is to divide the 5000-plex reaction into several less multiplexed amplification reactions, for example, one hundred 50-plex or fifty-100-plex reactions, or to use microfluidics, or even to separate the sample for individual PCR reactions. However, in the case of limited availability of a DNA sample, for example, a pregnant woman’s plasma with non-invasive prenatal diagnosis, separation of the sample into several reactions should be avoided, as this will lead to the appearance of a “bottleneck”.

В настоящем документе описаны способы, предусматривающие сначала проведение глобальной амплификации ДНК плазмы из образца, а затем разделение указанного образца на множество мультиплексных реакций с обогащением по целям с более умеренным количеством целевых последовательностей на реакцию. Согласно варианту осуществления способ согласно настоящему раскрытию может использоваться для преимущественного обогащения смеси ДНК по множеству локусов, при этом указанный способ включает один или несколько из следующих этапов: получение и амплификация библиотеки из смеси ДНК, при этом молекулы в библиотеке содержат адаптерные последовательности, лигированные на обоих концах фрагментов ДНК, разделение амплифицированной библиотеки на множество реакций, проведение первого раунда мультиплексной амплификации выбранных целей с применением одного специфичного по отношению к цели «прямого» праймера на цель и одного или нескольких специфичных в отношении адаптеров универсальных «обратных» праймеров. Согласно варианту осуществления способ согласно настоящему раскрытию также включает проведение второй амплификации с применением «обратных» специфичных в отношении цели праймеров и одного или нескольких праймеров, специфичных в отношении универсального маркера, который был введен в качестве части специфичных по отношению к цели прямых праймеров в первом раунде. Согласно варианту осуществления указанный способ может включать применение полной вложенной, гемивложенной, полувложенной, односторонней полной вложенной, односторонней гемивложенной или односторонней полувложенной ПЦР. Согласно варианту осуществления способ согласно настоящему раскрытию используют для преимущественного обогащения смеси ДНК по множеству локусов, при этом указанный способ включает проведение мультиплексной преамплификации выбранных целей в течение ограниченного числа циклов, разделение продукта на множество аликвот и амплификацию субпулов целей в индивидуальных реакциях, и объединение продуктов реакций в параллельных субпулах. Отметим, что указанный подход может быть использован для проведения целевой амплификации таким образом, что он обеспечит низкие уровни смещения числа аллелей для 50-500 локусов, для 500-5000 локусов, для 5000-50000 локусов, или даже для 50000-500000 локусов. Согласно варианту осуществления праймеры несут совместимые с секвенированием частичные или полноразмерные маркеры.This document describes methods involving first conducting global amplification of plasma DNA from a sample, and then dividing said sample into a plurality of multiplex reactions with enrichment for targets with a more moderate number of target sequences per reaction. According to an embodiment, the method according to the present disclosure can be used to preferentially enrich a DNA mixture at multiple loci, said method comprising one or more of the following steps: obtaining and amplifying the library from the DNA mixture, wherein the molecules in the library contain adapter sequences ligated on both the ends of DNA fragments, dividing the amplified library into many reactions, conducting the first round of multiplex amplification of selected targets with approx neniem one specific for the target of "direct" a primer on the target and one or more specific with regard to the universal adapter "reverse" primer. According to an embodiment, the method according to the present disclosure also includes conducting a second amplification using “reverse” target-specific primers and one or more primers specific for a universal marker that was introduced as part of the target-specific forward primers in the first round . According to an embodiment, the method may include the use of full nested, hemi-nested, semi-nested, one-sided full nested, one-sided hemi-nested or one-sided semi-nested PCR. According to an embodiment, the method according to the present disclosure is used to preferentially enrich a DNA mixture at multiple loci, said method comprising multiplexing preamplification of selected targets for a limited number of cycles, dividing the product into multiple aliquots, and amplifying target sub-pools in individual reactions, and combining the reaction products in parallel subpools. Note that this approach can be used to carry out target amplification in such a way that it provides low levels of allele bias for 50-500 loci, for 500-5000 loci, for 5000-50000 loci, or even for 50,000-500000 loci. In an embodiment, the primers carry sequencing-compatible partial or full-length markers.

Технологический процесс может предусматривать (1) экстракцию ДНК, например, ДНК плазмы, (2) подготовку библиотеки фрагментов с универсальными адаптерами на обоих концах фрагментов, (3) амплификацию указанной библиотеки с применением универсальных праймеров, специфичных в отношении адаптеров, (4) разделение амплифицированной «библиотеки» образца на множество аликвот, (5) выполнение мультиплексных (например, приблизительно 100-плексной, 1000 или 10000-плексной с одним специфичным по отношению к цели праймером на цель и специфичным по отношению к маркеру праймером) амплификаций аликвот, (6) объединение аликвот из одного образца, (7) определение штрихкодов образца, (8) смешивание образцов и коррекция концентрации, (9) секвенирование образца. Технологический процесс может включать множество подэтапов, которые включают один из перечисленных этапов (например, этап (2) подготовки библиотеки может включать три ферментативных этапа (формирования тупых концов, наращивания dA и адаптерного лигирования) и три этапа очистки). Этапы технологического процесса могут быть скомбинированы, разделены или выполнены в другом порядке (например, штрихкодирование и объединение образцов).The technological process may include (1) extraction of DNA, for example, plasma DNA, (2) preparation of a library of fragments with universal adapters at both ends of fragments, (3) amplification of the indicated library using universal primers specific for adapters, (4) separation of amplified "Libraries" of the sample in many aliquots, (5) execution of multiplex (for example, approximately 100 plex, 1000 or 10000 plex with one target-specific primer on the target and specific for ma primer) aliquots of amplifications, (6) combining aliquots from one sample, (7) determining barcodes of a sample, (8) mixing samples and adjusting concentration, (9) sequencing the sample. The technological process can include many sub-steps, which include one of the listed steps (for example, step (2) of the library preparation can include three enzymatic steps (blunt ends formation, dA extension and adapter ligation) and three purification steps). Process steps can be combined, split, or performed in a different order (for example, bar coding and combining samples).

Важно отметить, что амплификация библиотеки может выполняться таким образом, что она будет смещена в сторону более эффективной амплификации коротких фрагментов. Благодаря этому возможна преимущественная амплификация более коротких последовательностей, например, мононуклеосомных фрагментов ДНК, таких как внеклеточная плодная ДНК (плацентарного происхождения), выявляемая в кровотоке беременных женщин. Отметим, что ПЦР-анализы могут содержать маркеры, например, маркеры секвенирования (обычно усеченную форму из 15-25 оснований). После мультиплексирования ПЦР-мультиплексы образца объединяют и затем завершают маркирование (включая штрихкодирование) с помощью маркер-специфичной ПЦР (также может выполняться с помощью лигирования). Также в ту же реакцию мультиплексирования могут быть добавлены полные маркеры секвенирования В первых циклах цели могут быть амплифицированы специфичными к целям праймерами, впоследствии преобладают специфичные по отношению к маркерам праймеры, которые завершают SQ-адаптерную последовательность. Праймеры ПЦР могут не содержать маркеров. Маркеры секвенирования могут быть добавлены к продуктам амплификации путем лигирования.It is important to note that the amplification of the library can be performed in such a way that it will be biased towards more efficient amplification of short fragments. Due to this, preferential amplification of shorter sequences, for example, mononucleosomal DNA fragments, such as extracellular fetal DNA (placental origin), detected in the bloodstream of pregnant women, is possible. Note that PCR assays may contain markers, for example, sequencing markers (usually a truncated form of 15-25 bases). After multiplexing, the PCR multiplexes of the sample are combined and then marking is completed (including bar coding) using marker-specific PCR (can also be performed by ligation). Full sequencing markers can also be added to the same multiplexing reaction. In the first cycles, targets can be amplified with target-specific primers, subsequently marker-specific primers that complete the SQ adapter sequence predominate. PCR primers may not contain markers. Sequencing markers can be added to amplification products by ligation.

Согласно варианту осуществления высокомультиплексная ПЦР с последующей оценкой амплифицированного материала путем секвенирования клонов может быть использована в различных вариантах применения, например, для выявления анеуплоидии плода. В то время как при традиционных мультиплексных ПЦР оценивают до пятидесяти локусов одновременно, описанный в настоящем документе способ может быть использован для оценки более 50 локусов одновременно, более 100 локусов одновременно, более 500 локусов одновременно, более 1000 локусов одновременно, более 5000 локусов одновременно, более 10000 локусов одновременно, более 50000 локусов одновременно и более 100000 локусов одновременно. Эксперименты показали, что до 10000 и больше разных локусов могут оцениваться одновременно в одной реакции с достаточно хорошей эффективностью и специфичностью для проведения неинвазивной пренатальной диагностики анеуплоидии и/или определения признаков числа копий с высокой точностью. Анализы можно комбинировать в одной реакции со всем образцом cfDNA, выделенной из материнской плазмы, с ее фракцией или с процессированными производными cfDNA образца. Образец (например, cfDNA или производные cfDNA) также можно разделить на множество параллельных мультиплексных реакций. Оптимальное расщепление образца и мультиплексирование определяют путем согласования различных технических показателей. Вследствие ограниченного количества материала расщепление образца на множество фракций может внести шумовой сигнал, увеличить время обработки и повысить вероятность ошибки. С другой стороны, более высокая степень мультиплексирования может приводить к большим количествам побочных продуктов амплификации и большим диспропорциям в амплификации, явлениям, которые могут снижать показатели производительности тестирования.In an embodiment, high multiplex PCR followed by evaluation of the amplified material by clone sequencing can be used in various applications, for example, to detect fetal aneuploidy. While traditional multiplex PCRs evaluate up to fifty loci at a time, the method described in this document can be used to evaluate more than 50 loci at a time, more than 100 loci at a time, more than 500 loci at a time, more than 1000 loci at a time, more than 5000 loci at a time, more than 10,000 loci at the same time, more than 50,000 loci at the same time and more than 100,000 loci at the same time. Experiments have shown that up to 10,000 or more different loci can be evaluated simultaneously in one reaction with sufficiently good efficiency and specificity for conducting non-invasive prenatal diagnosis of aneuploidy and / or determining the signs of the number of copies with high accuracy. Assays can be combined in one reaction with the entire cfDNA sample isolated from the mother plasma, with its fraction or with processed derivatives of the cfDNA sample. A sample (for example, cfDNA or derivatives of cfDNA) can also be divided into many parallel multiplex reactions. The optimal sample splitting and multiplexing is determined by coordinating various technical indicators. Due to the limited amount of material, splitting the sample into multiple fractions can introduce a noise signal, increase processing time, and increase the likelihood of error. On the other hand, a higher degree of multiplexing can lead to large amounts of by-products of amplification and large imbalances in amplification, phenomena that can reduce the performance of testing.

Двумя ключевыми взаимосвязанными соображениями при применении описанных в настоящем документе способов являются ограниченное количество исходного образца (например, плазмы) и число исходных молекул в материале, на основе которого определяют частоту аллелей или проводят другие измерения. Если число исходных молекул опускается ниже определенного уровня, случайный шумовой сигнал становится значимым и может повлиять на точность теста. Как правило, данные удовлетворительного качества для осуществления неинвазивной пренатальной диагностики анеуплоидии могут быть получены, если измерения выполняются на образце, содержащем эквивалент 500-1000 исходных молекул на целевой локус. Существует ряд способов увеличения количества отдельных измерений, например, увеличение объема образца. Каждая манипуляция, проводимая с образцом, также потенциально приводит к потере материала. Важно характеризовать потери, происходящие в результате различных манипуляций, и избегать указанных потерь, или, при необходимости, повышать выход при определенных манипуляциях во избежание потерь, которые могут ухудшить производительность теста.Two key interrelated considerations when applying the methods described herein are the limited amount of the starting sample (e.g., plasma) and the number of starting molecules in the material, based on which the frequency of alleles is determined or other measurements are made. If the number of source molecules drops below a certain level, a random noise signal becomes significant and may affect the accuracy of the test. As a rule, data of satisfactory quality for the implementation of non-invasive prenatal diagnosis of aneuploidy can be obtained if measurements are performed on a sample containing the equivalent of 500-1000 source molecules at the target locus. There are a number of ways to increase the number of individual measurements, for example, increasing the volume of a sample. Each manipulation of the sample also potentially leads to loss of material. It is important to characterize the losses resulting from various manipulations, and to avoid the indicated losses, or, if necessary, to increase the yield during certain manipulations in order to avoid losses that can impair the performance of the test.

Согласно варианту осуществления можно снизить потенциальные потери на последовательных этапах за счет амплификации всего образца или части исходного образца (например, образца cfDNA). Доступны различные способы амплификации всего генетического материала в образце с увеличением количества материала, доступного для последующих процедур. Согласно варианту осуществления при опосредованной лигированием ПЦР (LM-PCR, или ОЛ-ПЦР) фрагменты ДНК амплифицируются посредством ПЦР после лигирования или одного отдельного адаптера, или двух отдельных адаптеров, или множества отдельных адаптеров. Согласно варианту осуществления при амплификации с множественным смещением цепей (MDA) используется полимераза phi-29 для амплификации всей ДНК в изотермических условиях. В методе ДОП-ПЦР и его вариантах для амплификации ДНК из исходного материала используется случайный прайминг. Каждый способ имеет определенные характеристики, такие как однородность амплификации по всем представленным областям генома, эффективность захвата и амплификации исходной ДНК, а также производительность амплификации как функция от длины фрагмента.According to an embodiment, it is possible to reduce potential losses in successive stages by amplifying the entire sample or part of the original sample (eg, cfDNA sample). Various methods are available for amplifying all of the genetic material in a sample with an increase in the amount of material available for subsequent procedures. According to an embodiment, in ligation-mediated PCR (LM-PCR, or OL-PCR), DNA fragments are amplified by PCR after ligation of either one separate adapter, or two separate adapters, or multiple separate adapters. In an embodiment, multiple chain shift amplification (MDA) uses phi-29 polymerase to amplify all DNA under isothermal conditions. In the DOP-PCR method and its variants, random priming is used to amplify DNA from the starting material. Each method has certain characteristics, such as amplification uniformity across all presented genome regions, capture and amplification efficiency of the original DNA, and amplification performance as a function of fragment length.

Согласно варианту осуществления может быть использована ОЛ-ПЦР с одним гетеродуплексным адаптером, содержащим на 3'-конце тирозин. Гетеродуплексный адаптер дает возможность использовать единичную молекулу адаптера, которая может быть превращена в две различные последовательности на 5'-конце и 3'-конце исходного фрагмента ДНК во время первого раунда ПЦР. Согласно варианту осуществления можно фракционировать амплифицированную библиотеку по размерам или продуктам, такими способами, как AMPURE, TASS, или другими аналогичными способами. Перед лигированием образец ДНК может быть снабжен тупыми концами с последующим добавлением единичного аденозинового основания на 3'-конце. Перед лигированием ДНК может быть расщеплена с использованием рестрикционного фермента или другого способа расщепления. Во время лигирования 3'-концевой аденозин фрагментов образца и комплементарный 3'-концевой тирозин выступают над адаптером и могут повысить эффективность лигирования. Этап удлинения ПЦР-амплификации может быть ограничен во времени с целью уменьшения амплификации фрагментов, длина которых составляет более приблизительно 200 пар оснований, приблизительно 300 пар оснований, приблизительно 400 пар оснований, приблизительно 500 пар оснований или приблизительно 1000 пар оснований. Поскольку более длинные фрагменты ДНК, выявляемые в материнской плазме, практически полностью являются материнскими, это может привести к обогащению по плодной ДНК на 10-50% и улучшению производительности теста. Ряд реакций проводили с использованием условий, описанных для коммерчески доступных наборов; в результате успешное лигирование достигалось менее чем для 10% молекул ДНК образца. После серии оптимизаций условий реакции по этому параметру лигирование было улучшено до приблизительно 70%. Мини-ПЦР.According to an embodiment, OL-PCR with one heteroduplex adapter containing tyrosine at the 3'-end can be used. The heteroduplex adapter makes it possible to use a single adapter molecule, which can be converted into two different sequences at the 5'-end and 3'-end of the original DNA fragment during the first round of PCR. According to an embodiment, it is possible to fractionate the amplified library by size or product, by methods such as AMPURE, TASS, or other similar methods. Before ligation, the DNA sample can be provided with blunt ends, followed by the addition of a single adenosine base at the 3'-end. Before ligation, the DNA can be cleaved using a restriction enzyme or other cleavage method. During ligation, the 3'-terminal adenosine of the sample fragments and complementary 3'-terminal tyrosine protrude above the adapter and can increase ligation efficiency. The step of lengthening PCR amplification can be limited in time in order to reduce the amplification of fragments whose length is more than about 200 base pairs, about 300 base pairs, about 400 base pairs, or about 500 base pairs or about 1000 base pairs. Since longer DNA fragments detected in maternal plasma are almost completely maternal, this can lead to enrichment of fetal DNA by 10-50% and improve test performance. A number of reactions were carried out using the conditions described for commercially available kits; as a result, successful ligation was achieved for less than 10% of the DNA molecules of the sample. After a series of optimizations of the reaction conditions for this parameter, ligation was improved to about 70%. Mini PCR.

Описанный ниже способ мини-ПЦР целесообразен для образцов, содержащих короткие нуклеиновые кислоты, расщепленные нуклеиновые кислоты или фрагментированные нуклеиновые кислоты, такие как cfDNA. Традиционная схема ПЦР-анализа приводит к значительным потерям отдельных плодных молекул, однако потери могут быть существенно уменьшены путем создания очень коротких ПЦР-анализов, называемых анализами мини-ПЦР. Плодная cfDNA в материнской сыворотке высокофрагментирована, и размеры фрагментов распределены приблизительно согласно распределению Гаусса со средним значением 160 п.о., стандартным отклонением 15 п.о., минимальным размером приблизительно 100 п.о. и максимальным размером приблизительно 220 п.о. Распределение стартовых и концевых положений фрагмента относительно целевых полиморфизмов, не являясь обязательно случайным, значительно варьирует между индивидуальными целями и между всеми целями в совокупности, и полиморфный сайт одного конкретного целевого локуса может занимать любое положение от старта до конца в различных фрагментах, происходящих из этого локуса. Отметим, что термин «мини-ПЦР» может в равной степени относиться к обычной ПЦР без дополнительных условий или ограничений.The mini-PCR method described below is useful for samples containing short nucleic acids, cleaved nucleic acids, or fragmented nucleic acids, such as cfDNA. The traditional scheme of PCR analysis leads to significant losses of individual fetal molecules, however, losses can be significantly reduced by creating very short PCR analyzes, called mini-PCR analyzes. Fetal cfDNA in maternal serum is highly fragmented, and fragment sizes are distributed approximately according to the Gaussian distribution with an average of 160 bp, a standard deviation of 15 bp, and a minimum size of about 100 bp. and a maximum size of approximately 220 bp The distribution of the start and end positions of the fragment relative to the target polymorphisms, while not necessarily random, varies significantly between individual targets and between all goals in the aggregate, and the polymorphic site of one particular target locus can occupy any position from start to end in different fragments originating from this locus . Note that the term “mini-PCR” may equally apply to conventional PCR without additional conditions or restrictions.

Во время ПЦР происходит амплификация только тех матричных фрагментов ДНК, которые содержат сайты как прямых, так и обратных праймеров. Поскольку фрагменты плодной cfDNA являются короткими, вероятность того, что сайты обоих праймеров присутствуют, представлена вероятностью существования плодного фрагмента длиной L, содержащего сайты как прямых, так и обратных праймеров, и равняется отношению длины ампликона к длине фрагмента. При идеальных условиях в анализе, в котором ампликон составляет 45, 50, 55, 60, 65 или 70 пар оснований, будет успешно амплифицироваться 72%, 69%, 66%, 63%, 59% или 56%, соответственно, доступных матричных фрагментов молекул. Длина ампликона - это расстояние между 5-концами сайтов прямого и обратного праймирования. Ампликон с меньшей длиной по сравнению с общеизвестными в данной области техники может обеспечивать более эффективные измерения желаемых полиморфных локусов, требуя считывания только коротких последовательностей. Согласно варианту осуществления размер существенной доли ампликонов должен составляет менее 100 п.о., менее 90 п.о., менее 80 п.о., менее 70 п.о., менее 65 п.о., менее 60 п.о., менее 55 п.о., менее 50 п.о. или менее 45 п.о.During PCR, amplification of only those template DNA fragments that contain sites of both direct and reverse primers occurs. Since fragments of fetal cfDNA are short, the probability that sites of both primers are present is represented by the probability of the existence of a fetal fragment of length L containing both direct and reverse primer sites and is equal to the ratio of the amplicon length to the fragment length. Under ideal conditions, in an analysis in which the amplicon is 45, 50, 55, 60, 65, or 70 base pairs, 72%, 69%, 66%, 63%, 59%, or 56%, respectively, of the available matrix fragments will be successfully amplified. molecules. The amplicon length is the distance between the 5 ends of the forward and reverse priming sites. A shorter amplicon compared to those well known in the art can provide more efficient measurements of the desired polymorphic loci, requiring only short sequences to be read. According to an embodiment, the size of the substantial fraction of amplicons should be less than 100 bp, less than 90 bp, less than 80 bp, less than 70 bp, less than 65 bp, less than 60 bp , less than 55 bp, less than 50 bp or less than 45 bp

Отметим, что в способах, известных в данной области техники, обычно избегают коротких анализов, таких как описанные в настоящем документе, поскольку они не являются необходимыми и накладывают значительные ограничения на конструирование праймеров, ограничивая длину праймера, характеристики отжига и расстояние между прямым и обратным праймерами.Note that short methods such as those described herein are generally avoided in methods known in the art because they are not necessary and impose significant restrictions on the design of the primers, limiting the length of the primer, the annealing characteristics and the distance between the forward and reverse primers .

Также отметим, что существует вероятность смещения амплификации, если 3'-конец любого из праймеров находится приблизительно на расстоянии 1-6 оснований от полиморфного сайта. Такая разница в одном основании в сайте начального связывания полимеразы может привести к предпочтительной амплификации одного аллеля, что может изменить наблюдаемые частоты аллелей и ухудшить производительность. Все эти ограничения делают идентификацию праймеров, которые будут успешно амплифицировать конкретный локус, и, следовательно, конструирование больших наборов праймеров, которые были бы совместимы в одной мультиплексной реакции, крайне проблематичными. Согласно варианту осуществления 3'-конец внутренних прямых и обратных праймеров сконструирован для гибридизации с областью ДНК выше (в 5-направлении) полиморфного сайта, и отделен от полиморфного сайта небольшим количеством оснований. В идеальном варианте число оснований может составлять от 6 до 10 оснований, но с тем же успехом может составлять от 4 до 15 оснований, от трех до 20 оснований, от двух до 30 оснований или от 1 до 60 оснований, с достижением по сути одинакового результата.Also note that there is a chance of amplification bias if the 3'-end of any of the primers is approximately 1-6 bases from the polymorphic site. Such a single base difference at the initial polymerase binding site may lead to preferred amplification of one allele, which may alter the observed allele frequencies and impair performance. All these limitations make the identification of primers that will successfully amplify a particular locus, and therefore the design of large sets of primers that would be compatible in a single multiplex reaction, extremely problematic. In an embodiment, the 3'-end of the internal forward and reverse primers is designed to hybridize to the DNA region above (in the 5-direction) of the polymorphic site, and is separated from the polymorphic site by a small number of bases. Ideally, the number of bases can be from 6 to 10 bases, but with the same success can be from 4 to 15 bases, from three to 20 bases, from two to 30 bases or from 1 to 60 bases, with essentially the same result .

Мультиплексная ПЦР может включать единственный раунд ПЦР, в котором амплифицируют все цели, или может включать один раунд ПЦР с последующим одним или несколькими раундами вложенной ПЦР или определенного варианта вложенной ПЦР. Вложенная ПЦР состоит из последующего раунда или раундов ПЦР-амплификации с использованием одного или нескольких новых праймеров, которые внутренне связываются, с помощью по меньшей мере одной пары оснований, с праймерами, использованными в предыдущем раунде. Вложенная ПЦР снижает число побочных целей амплификации за счет амплификации в последовательных реакциях только тех продуктов предыдущих реакций, которые имеют правильную внутреннюю последовательность. Снижение амплификации побочных целей повышает количество полезных измерений, которые могут быть получены, в частности, при секвенировании. Вложенная ПЦР, как правило, означает конструирование праймеров, полностью внутренних по отношению к сайтам связывания предыдущих праймеров, с увеличением в обязательном порядке минимального размера сегмента ДНК, необходимого для амплификации. Для образцов, таких как cfDNA из материнской плазмы, в которых ДНК высокофрагментирована, больший размер анализируемых фрагментов снижает число отдельных молекул cfDNA, для которых можно получить измерения. Согласно варианту осуществления с целью компенсации этого эффекта можно использовать способ частично вложенной ПЦР, при котором один или оба праймера второго раунда перекрывают первые сайты связывания праймеров первого, захватывая некоторое количество внутренних оснований для достижения дополнительной специфичности наряду с минимальным увеличением общего размера анализируемых фрагментов.Multiplex PCR may include a single round of PCR in which all targets are amplified, or may include one round of PCR followed by one or more rounds of nested PCR or a specific variant of nested PCR. Nested PCR consists of a subsequent round or rounds of PCR amplification using one or more new primers that internally bind, using at least one base pair, to the primers used in the previous round. Nested PCR reduces the number of side amplification targets due to the amplification in sequential reactions of only those products of previous reactions that have the correct internal sequence. Reducing the amplification of secondary targets increases the number of useful measurements that can be obtained, in particular during sequencing. Nested PCR, as a rule, means the design of primers that are completely internal with respect to the binding sites of the previous primers, without fail increasing the minimum size of the DNA segment necessary for amplification. For samples, such as mf plasma cfDNA, in which the DNA is highly fragmented, the larger size of the analyzed fragments reduces the number of individual cfDNA molecules for which measurements can be obtained. According to an embodiment, in order to compensate for this effect, a partially nested PCR method can be used in which one or both primers of the second round overlap the first binding sites of the primers of the first, capturing a certain amount of internal bases to achieve additional specificity along with a minimal increase in the total size of the analyzed fragments.

Согласно варианту осуществления мультиплексный пул ПЦР анализируемых фрагментов сконструирован для амплификации потенциально гетерозиготных SNP или других полиморфных или неполиморфных локусов в одной или нескольких хромосомах, и эти анализируемые фрагменты используются в одной реакции для амплификации ДНК. Количество ПЦР-анализов может составлять от 50 до 200 ПЦР-анализов, от 200 до 1000 ПЦР-анализов, от 1000 до 5000 ПЦР-анализов или от 5000 до 20000 ПЦР-анализов (50-200-плексная, 200-1000-плексная, 1000-5000-плексная, 5000-20000-плексная, более чем 20000-плексная ПЦР, соответственно). Согласно варианту осуществления мультиплексный пул из приблизительно 10000 анализируемых фрагментов ПЦР (10 000-плексная ПЦР) конструируется для амплификации потенциально гетерозиготных SNP локусов в хромосомах X, Y, 13, 18 и 21 и 1 или 2, и эти анализируемые фрагменты используются в одной реакции для амплификации cfDNA, полученной из материала образца плазмы, образцов ворсин хориона, образцов амниоцентеза, единичных клеток или небольшого количества клеток, других жидкостей или тканей организма, раковых новообразований или другого генетического материала. Частоты SNP в каждом локусе могут быть определены с помощью клонального секвенирования или каких-либо других способов секвенирования ампликонов. Статистический анализ распределения частот аллелей или отношений всех проанализированных фрагментов может быть использован для определения того, содержит ли образец трисомию по одной или нескольким хромосомам, включенным в тест. Согласно другому варианту осуществления образцы исходной cfDNA расщепляют на два образца, и выполняют параллельные 5000-плексные анализы. Согласно другому варианту осуществления образцы исходной cfDNA расщепляют на n образцов и выполняют параллельные (~10000/n)-плексные анализы, где n составляет от 2 до 12, или от 12 до 24, или от 24 до 48, или от 48 до 96. Данные собирают и анализируют способом, аналогичным описанному выше. Отметим, что указанный способ в равной степени подходит для обнаружения транслокаций, делеций, дупликаций и других хромосомных аномалий.In an embodiment, the multiplex PCR pool of the analyzed fragments is designed to amplify potentially heterozygous SNPs or other polymorphic or non-polymorphic loci on one or more chromosomes, and these analyzed fragments are used in a single reaction to amplify DNA. The number of PCR analyzes can be from 50 to 200 PCR analyzes, from 200 to 1000 PCR analyzes, from 1000 to 5000 PCR analyzes, or from 5000 to 20,000 PCR analyzes (50-200 plex, 200-1000 plex, 1000-5000 plex, 5000-20000 plex, more than 20,000 plex PCR, respectively). In an embodiment, a multiplex pool of approximately 10,000 PCR fragments to be analyzed (10,000-plex PCR) is designed to amplify potentially heterozygous SNP loci on chromosomes X, Y, 13, 18 and 21 and 1 or 2, and these analyzed fragments are used in a single reaction to amplification of cfDNA obtained from plasma sample material, chorionic villi samples, amniocentesis samples, single cells or a small number of cells, other body fluids or tissues, cancerous tumors or other genetic material iala. SNP frequencies at each locus can be determined using clonal sequencing or any other amplicon sequencing methods. A statistical analysis of the distribution of allele frequencies or the ratios of all analyzed fragments can be used to determine whether a sample contains trisomy on one or more chromosomes included in the test. In another embodiment, the starting cfDNA samples are digested into two samples and parallel 5000-plex assays are performed. According to another embodiment, the starting cfDNA samples are digested into n samples and parallel (~ 10000 / n) -plex analyzes are performed, where n is from 2 to 12, or from 12 to 24, or from 24 to 48, or from 48 to 96. Data is collected and analyzed in a manner similar to that described above. Note that this method is equally suitable for detecting translocations, deletions, duplications, and other chromosomal abnormalities.

Согласно варианту осуществления к 3'-концу или 5'-концу любого из праймеров могут добавляться «хвосты», не имеющие гомологии с целевым геномом. Указанные хвосты облегчают последующие манипуляции, процедуры или измерения. Согласно варианту осуществления хвостовая последовательность может быть одинаковой для прямых и обратных специфичных по отношению к цели праймеров. Согласно варианту осуществления различные хвосты могут использоваться для прямых и обратных специфичных по отношению к цели праймеров. Согласно варианту осуществления множество различных хвостов может быть использовано для различных локусов или наборов локусов. Некоторые хвосты могут быть общими для всех локусов или субнаборов локусов. Например, использование прямых и обратных хвостов, соответствующих прямым и обратным последовательностям, требующимся для любой из применяемых в настоящее время платформ секвенирования, может позволять проведение прямого секвенирования после амплификации. Согласно варианту осуществления указанные хвосты могут использоваться в качестве общих сайтов праймирования для всех амплифицируемых целей, которые могут быть использованы для добавления других подходящих последовательностей. Согласно некоторым вариантам осуществления внутренние праймеры могут содержать область, сконструированную для гибридизации либо выше (в 5'-направлении), либо ниже (в 3'-направлении) от целевого локуса (например, полиморфного локуса). Согласно некоторым вариантам осуществления указанные праймеры могут содержать молекулярный штрихкод. Согласно некоторым вариантам осуществления указанный праймер может содержать универсальную последовательность праймирования, сконструированную для обеспечения ПЦР-амплификации.In an embodiment, tails that do not have homology with the target genome can be added to the 3'-end or 5'-end of any of the primers. These tails facilitate subsequent manipulations, procedures or measurements. In an embodiment, the tail sequence may be the same for forward and reverse target specific primers. According to an embodiment, different tails can be used for forward and reverse target specific primers. According to an embodiment, many different tails can be used for different loci or sets of loci. Some tails may be common to all loci or subsets of loci. For example, the use of forward and reverse tails corresponding to the forward and reverse sequences required for any of the currently used sequencing platforms may allow direct sequencing after amplification. In an embodiment, said tails can be used as common prime sites for all amplifiable targets that can be used to add other suitable sequences. In some embodiments, the internal primers may comprise a region designed for hybridization either above (in the 5'-direction) or below (in the 3'-direction) from the target locus (e.g., polymorphic locus). In some embodiments, said primers may comprise a molecular barcode. In some embodiments, said primer may comprise a universal primer sequence designed to allow for PCR amplification.

Согласно варианту осуществления пул для 10000-плексного ПЦР-анализа получают таким образом, что прямые и обратные праймеры имеют хвосты, соответствующие прямым и обратным последовательностям, необходимым для инструмента высокопроизводительного секвенирования, такого как HISEQ, GAIIX или MYSEQ от ILLUMINA. Кроме того, включенный в хвосты секвенирования 5'-конец представляет собой дополнительную последовательность, которая может быть использована в качестве сайта праймирования в последующей ПЦР для добавления последовательностей нуклеотидов штрихкода к ампликонам, что обеспечивает возможность мультиплексного секвенирования множества образцов на одной дорожке инструмента высокопроизводительного секвенирования.According to an embodiment, a pool for a 10,000-plex PCR analysis is prepared so that the forward and reverse primers have tails corresponding to the forward and reverse sequences required for a high throughput sequencing tool such as ILLUMINA's HISEQ, GAIIX or MYSEQ. In addition, the 5 ′ end included in the sequencing tails is an additional sequence that can be used as a priming site in subsequent PCR to add barcode nucleotide sequences to amplicons, which allows multiplex sequencing of multiple samples on one track of a high-performance sequencing instrument.

Согласно варианту осуществления пул для 10000-плексного ПЦР-анализа создается таким образом, что обратные праймеры имеют хвосты, соответствующие обратным последовательностям, необходимым для инструмента высокопроизводительного секвенирования. После амплификации в первом 10000-плексном анализе может быть выполнена последующая ПЦР-амплификация с использованием другого 10000-плексного пула, содержащего частично вложенные прямые праймеры (например, из 6 вложенных оснований) для всех целей и обратный праймер, соответствующий обратному хвосту секвенирования, включенном в первом раунде. Указанный последующий раунд частично вложенной амплификации только с одним специфичным по отношению к цели праймером и универсальным праймером ограничивает необходимый размер анализируемого фрагмента, снижает шумовой сигнал, а также значительно уменьшает число побочных ампликонов. Маркеры секвенирования могут добавляться к присоединенным адаптерам лигирования и/или как часть зондов ПЦР так, что маркер является частью конечного ампликона.According to an embodiment, the pool for the 10,000-plex PCR analysis is created such that the reverse primers have tails corresponding to the reverse sequences necessary for a high throughput sequencing tool. After amplification in the first 10,000-plex assay, subsequent PCR amplification can be performed using another 10,000-plex pool containing partially nested direct primers (for example, from 6 nested bases) for all purposes and a reverse primer corresponding to the reverse sequencing tail included in the first round. The indicated subsequent round of partially nested amplification with only one target-specific primer and universal primer limits the required size of the analyzed fragment, reduces the noise signal, and also significantly reduces the number of side amplicons. Sequencing markers can be added to attached ligation adapters and / or as part of PCR probes so that the marker is part of the final amplicon.

Доля плода оказывает влияние на производительность теста. Существует ряд способов обогащения ДНК, присутствующей в материнской плазме, плодной фракцией. Доля плода может быть увеличена описанным ранее способом ОЛ-ПЦР, а также целевым удалением длинных материнских фрагментов. Согласно варианту осуществления перед мультиплексной ПЦР-амплификацией целевых локусов может быть проведена дополнительная мультиплексная ПЦР с целью селективного удаления длинных, в основном материнских фрагментов, соответствующих целевым локусам последующей мультиплексной ПЦР. Конструируют дополнительные праймеры для отжига сайта, расположенного на большем расстоянии от полиморфизма, чем ожидается для фрагментов внеклеточной плодной ДНК. Указанные праймеры могут использоваться в одном цикле реакции мультиплексной ПЦР до проведения мультиплексной ПЦР целевых полиморфных локусов. Указанные дистальные праймеры маркируют молекулой или фрагментом, способной(ым) обеспечить селективное распознавание маркированных участков ДНК. Согласно варианту осуществления, указанные молекулы ДНК могут быть ковалентно модифицированы молекулой биотина, которая обеспечивает удаление свежеобразованной двуцепочечной ДНК, содержащей указанные праймеры, после одного цикла ПЦР. Двуцепочечная ДНК, образовавшаяся во время первого раунда, скорее всего по происхождению является материнской. Удаление гибридного материала может быть осуществлено с помощью применения магнитных стрептавидиновых гранул. Существуют другие способы мечения, которые могут работать с тем же успехом. Согласно варианту осуществления могут быть использованы способы отбора по размеру для обогащения образца более короткими цепями ДНК, например, менее чем приблизительно 800 п.о., менее чем приблизительно 500 п.о., или менее чем приблизительно 300 п.о. После этого можно проводить амплификацию коротких фрагментов обычным образом.The proportion of the fetus affects the performance of the test. There are a number of ways to enrich the DNA present in maternal plasma with the fetal fraction. The fetal fraction can be increased by the previously described method of OL-PCR, as well as the targeted removal of long maternal fragments. According to an embodiment, an additional multiplex PCR can be performed before multiplex PCR amplification of the target loci to selectively remove long, mostly maternal fragments corresponding to the target loci of the subsequent multiplex PCR. Additional primers are designed to anneal a site located at a greater distance from the polymorphism than expected for extracellular fetal DNA fragments. These primers can be used in a single reaction cycle of multiplex PCR before conducting multiplex PCR of the target polymorphic loci. These distal primers are labeled with a molecule or fragment capable of providing selective recognition of the labeled DNA regions. According to an embodiment, said DNA molecules can be covalently modified by a biotin molecule, which removes a freshly formed double-stranded DNA containing said primers after one PCR cycle. Double-stranded DNA formed during the first round is most likely maternal in origin. Removal of the hybrid material can be accomplished using magnetic streptavidin granules. There are other tagging methods that may work just as well. According to an embodiment, size selection methods can be used to enrich the sample with shorter DNA chains, for example, less than about 800 bp, less than about 500 bp, or less than about 300 bp After that, amplification of the short fragments can be carried out in the usual way.

Способ мини-ПЦР, раскрытый в настоящем описании, позволяет проводить высокомультиплексную амплификацию и анализ от сотен до тысяч, или даже миллионов локусов в одной реакции, из одного образца. В то же время выявление амплифицированной ДНК может быть мультиплексным; десятки и сотни образцов могут быть мультиплексированы на одной дорожке секвенатора с использованием ПЦР-штрихкодирования. Такое мультиплексное выявление было успешно протестировано на примерах вплоть до 49-плексного, и возможна гораздо более высокая степень мультиплексирования. Фактически, это обеспечивает проведение генотипирования сотен образцов в тысячах SNP в одной серии секвенирования. Для указанных образцов способ позволяет определять генотип и уровень гетерозиготности и одновременно определять число копий; оба показателя могут быть использованы для выявления анеуплоидии. Указанный способ, в частности, подходит для выявления анеуплоидии вынашиваемого плода по свободноплавающей ДНК обнаруживаемой в материнской плазме. Этот способ может быть использован как часть способа установления пола плода и/или прогнозирования отцовства плода. Он может быть использован как часть способа установления дозы мутаций. Указанный способ может использоваться для любого количества ДНК или РНК, и целевые области могут представлять собой SNP, другие полиморфные области, неполиморфные области и их комбинации.The mini-PCR method disclosed in the present description allows for high-multiplex amplification and analysis of hundreds to thousands, or even millions of loci in one reaction, from one sample. At the same time, the detection of amplified DNA can be multiplexed; tens and hundreds of samples can be multiplexed on one track of a sequencer using PCR bar coding. Such multiplex detection has been successfully tested with examples up to 49 plex, and a much higher degree of multiplexing is possible. In fact, this enables genotyping of hundreds of samples in thousands of SNPs in a single sequencing series. For these samples, the method allows to determine the genotype and level of heterozygosity and at the same time determine the number of copies; both indicators can be used to detect aneuploidy. The specified method, in particular, is suitable for detecting aneuploidy of a bearing fetus by free floating DNA found in maternal plasma. This method can be used as part of a method of establishing the sex of the fetus and / or predicting paternity of the fetus. It can be used as part of a method for determining the dose of mutations. This method can be used for any amount of DNA or RNA, and the target region can be SNP, other polymorphic regions, non-polymorphic regions, and combinations thereof.

Согласно некоторым вариантам осуществления может использоваться опосредованная лигированием универсальная ПЦР-амплификация фрагментированной ДНК. Опосредованная лигированием универсальная ПЦР-амплификация может использоваться для амплификации ДНК плазмы, которая затем может быть разделена на множество параллельных реакций. Она может также использоваться для преимущественной амплификации коротких фрагментов и обогащения таким образом плодной фракцией. Согласно некоторым вариантам осуществления добавление маркеров к фрагментам путем лигирования может позволять обнаружение более коротких фрагментов, применение более коротких участков специфичных в отношении целевых последовательностей праймеров и/или отжиг при более высоких температурах, что уменьшает уровень неспецифических реакций.In some embodiments, ligation-mediated universal PCR amplification of fragmented DNA can be used. Ligation-mediated universal PCR amplification can be used to amplify plasma DNA, which can then be divided into many parallel reactions. It can also be used to preferentially amplify short fragments and thus enrich the fetal fraction. In some embodiments, the addition of markers to the fragments by ligation may allow the detection of shorter fragments, the use of shorter regions specific for the target primer sequences and / or annealing at higher temperatures, which reduces the level of non-specific reactions.

Способы, описанные в настоящем документе, могут использоваться в различных целях, в тех случаях, когда имеется целевая множество ДНК, смешанная с некоторым количеством загрязняющей ДНК. Согласно некоторым вариантам осуществления целевая ДНК и загрязняющая ДНК могут происходить от генетически родственных индивидуумов. Например, генетические аномалии плода (цели) могут быть выявлены по материнской плазме, которая содержит плодную (целевую) ДНК, а также материнскую (загрязняющую) ДНК; аномалии включают аномалии целых хромосом (например, анеуплоидию), аномалии части хромосом (например, делеции, дупликации, инверсии, транслокации), полинуклеотидные полиморфизмы (например, STR), однонуклеотидные полиморфизмы и/или другие генетические аномалии или отличия. Согласно некоторым вариантам осуществления целевая и загрязняющая ДНК могут происходить от одного индивидуума, но при этом указанные целевая и загрязняющая ДНК отличаются одной или несколькими мутациями, например, как в случае ракового заболевания, (см., например, Н. Mamon и др. Preferential Amplification of Apoptotic DNA from Plasma: Potential for Enhancing Detection of Minor DNA Alterations in Circulating DNA. Clinical Chemistry 54:9 (2008). Согласно некоторым вариантам осуществления ДНК может быть обнаружена в супернатанте культуры клеток (апоптотических). Согласно некоторым вариантам осуществления можно индуцировать апоптоз в биологических образцах (например, крови) для последующей подготовки библиотеки, амплификации и/или секвенирования. Ряд технологических процессов и протоколов, обеспечивающих выполнение указанных задач, представлены в различных разделах настоящего описания.The methods described herein can be used for various purposes, in cases where there is a target set of DNA mixed with some amount of contaminating DNA. In some embodiments, the target DNA and contaminating DNA may be derived from genetically related individuals. For example, fetal genetic abnormalities (goals) can be detected by maternal plasma, which contains fetal (target) DNA, as well as maternal (polluting) DNA; abnormalities include whole chromosome abnormalities (e.g., aneuploidy), chromosome abnormalities (e.g., deletions, duplications, inversions, translocations), polynucleotide polymorphisms (e.g. STR), single nucleotide polymorphisms and / or other genetic abnormalities or differences. In some embodiments, the target and contaminating DNA can be derived from one individual, but the target and contaminating DNA differ in one or more mutations, for example, as in the case of cancer, (see, for example, N. Mamon et al. Preferential Amplification of Apoptotic DNA from Plasma: Potential for Enhancing Detection of Minor DNA Alterations in Circulating DNA. Clinical Chemistry 54: 9 (2008). In some embodiments, DNA can be detected in the supernatant of a cell culture (apoptotic). In some embodiments, induction apoptosis in biological samples (for example, blood) for subsequent preparation of the library, amplification and / or sequencing.A number of technological processes and protocols that ensure the performance of these tasks are presented in various sections of this description.

Согласно некоторым вариантам осуществления целевая ДНК может происходить из одиночных клеток, из образцов ДНК, состоящих из менее чем одной копии целевого генома, из небольших количеств ДНК, из ДНК смешанного происхождения (например, плазмы при беременности: плацентарной и материнской ДНК; плазмы пациента с раковым заболеванием и опухолей: смеси ДНК здоровых и раковых тканей, трансплантатов и т.п.), из других жидкостей организма, из культур клеток, культуральных супернатантов, из образцов для судебно-технической экспертизы ДНК, из исторических образцов ДНК (например, насекомых, заключенных в янтарь), из других образцов ДНК и их комбинаций.In some embodiments, the target DNA can be derived from single cells, from DNA samples consisting of less than one copy of the target genome, from small amounts of DNA, from DNA of mixed origin (e.g., plasma during pregnancy: placental and maternal DNA; plasma of a patient with cancer disease and tumors: DNA mixtures of healthy and cancerous tissues, transplants, etc.), from other body fluids, from cell cultures, culture supernatants, from forensic DNA samples, from historical Sgiach DNA samples (e.g., insects, enclosed in amber), from other DNA samples and combinations thereof.

Согласно некоторым вариантам осуществления могут использоваться ампликоны небольшого размера. Ампликоны небольшого размера подходят, в частности, для фрагментированной ДНК (см., например, A. Sikora, и др. Detection of increased amounts of cell-free fetal DNA with short PCR amplicons. Clin Chem. 2010 Jan; 56 (1): 136-8.)In some embodiments, small amplicons may be used. Small amplicons are particularly suitable for fragmented DNA (see, e.g., A. Sikora, et al. Detection of increased amounts of cell-free fetal DNA with short PCR amplicons. Clin Chem. 2010 Jan; 56 (1): 136-8.)

Применение ампликонов небольшого размера может обеспечить ряд существенных преимуществ. Ампликоны небольшого размера могут обеспечивать оптимизацию эффективности амплификации. Ампликоны небольшого размера, как правило, дают более короткие продукты, таким образом уменьшается вероятность неспецифического праймирования. Более короткие продукты могут быть сгруппированы плотнее в проточной ячейке для секвенирования, поскольку кластеры будут меньше. Отметим, что способы, описанные в настоящем документе, могут с равным успехом работать и в случае более длинных ПЦР-ампликонов. Длина ампликона может быть при необходимости увеличена, например, для секвенирования более длинных отрезков последовательностей. Эксперименты с 146-плексной направленной амплификацией анализируемых фрагментов размером от 100 п.о. до 200 п.о. в качестве первого этапа протокола вложенной ПЦР проводили с получением положительных результатов на одиночных клетках и на геномной ДНК.The use of small amplicons can provide a number of significant advantages. Small amplicons can optimize amplification efficiency. Small amplicons, as a rule, produce shorter products, thus reducing the likelihood of nonspecific priming. Shorter products can be grouped denser in the flow cell for sequencing, because the clusters will be smaller. Note that the methods described herein can work equally well with longer PCR amplicons. The length of the amplicon can be increased if necessary, for example, for sequencing longer segments of sequences. Experiments with 146-plex directed amplification of the analyzed fragments with a size of 100 bp or more. up to 200 bp as the first step of the protocol, nested PCR was performed to obtain positive results on single cells and on genomic DNA.

Согласно некоторым вариантам осуществления способы, описанные в настоящем документе, могут использоваться для амплификации и/или обнаружения SNP, числа копий, метилирования нуклеотидов, уровней мРНК, уровней экспрессии других типов РНК, других генетических и/или эпигенетических характеристик. Способы мини-ПЦР, описанные в настоящем документе, могут использоваться вместе с секвенированием следующего поколения; он может быть использован совместно с другими последующими способами, такими как микроматрицы, подсчет методом цифровой ПЦР, ПЦР в режиме реального времени, масс-спектрометрический анализ и т.д.In some embodiments, the methods described herein can be used to amplify and / or detect SNP, copy number, nucleotide methylation, mRNA levels, expression levels of other types of RNA, other genetic and / or epigenetic characteristics. The mini-PCR methods described herein can be used in conjunction with next generation sequencing; it can be used in conjunction with other subsequent methods, such as microarrays, digital PCR counting, real-time PCR, mass spectrometric analysis, etc.

Согласно некоторым вариантам осуществления описанные в настоящем документе способы мини-ПЦР амплификации могут быть использованы как часть способа точного количественного определения минорных популяций. Он может быть использован для определения абсолютного количества с использованием калибровочных стандартов с внутренним контролем. Он может быть использован для количественного анализа мутантного/минорного аллеля посредством очень глубокого секвенирования, и может выполняться по высокомультиплексному типу. Он может быть использован для стандартного тестирования для установления отцовства, родства и происхождения у человека, животных, растений или других существ. Он может быть использован для судебно-технической экспертизы. Он может быть использован для быстрого генотипирования и анализа числа копий (CN) на материале любого типа, например, амниотической жидкости и пробах ворсин хориона, сперме, продуктах оплодотворения (РОС). Он может быть использован для анализа единичных клеток, например, генотипирования образцов, полученных с применением биопсии из эмбрионов. Он может быть использован для быстрого анализа эмбрионов (в течение менее одного, одного или двух дней после биопсии) с помощью целевого секвенирования с использованием мини-ПЦР.In some embodiments, the mini-PCR amplification methods described herein can be used as part of a method for accurately quantifying minor populations. It can be used to determine absolute quantities using calibration standards with internal controls. It can be used for the quantitative analysis of the mutant / minor allele through very deep sequencing, and can be performed in a highly multiplex manner. It can be used for standard testing to establish paternity, kinship, and descent in humans, animals, plants, or other creatures. It can be used for forensics. It can be used for rapid genotyping and copy number analysis (CN) on any type of material, such as amniotic fluid and chorionic villi samples, semen, and fertilization products (POC). It can be used to analyze single cells, for example, genotyping samples obtained using biopsy from embryos. It can be used to quickly analyze embryos (within less than one, one, or two days after a biopsy) using targeted sequencing using mini-PCR.

Согласно некоторым вариантам осуществления он может быть использован для анализа опухолей: биоптат опухолей часто представляет собой смесь здоровых и опухолевых клеток. Целевая ПЦР позволяет проводить глубокое секвенирование SNP и локусов практически без фоновых последовательностей. Он может быть использован для анализа числа копий и утраты гетерозиготности на опухолевой ДНК. Указанная опухолевая ДНК может присутствовать во многих жидкостях организма или тканях пациентов с опухолями. Он может быть использован для обнаружения рецидива опухоли и/или для скрининга опухоли. Он может быть использован для контроля качества семян. Он может быть использован в селекции и рыбоводстве. Отметим, что любой из указанных способов может с тем же успехом применяться для нацеливания на неполиморфные локусы для определения плоидности.In some embodiments, it can be used to analyze tumors: a tumor biopsy is often a mixture of healthy and tumor cells. Target PCR allows for deep sequencing of SNPs and loci with virtually no background sequences. It can be used to analyze the number of copies and the loss of heterozygosity on tumor DNA. Said tumor DNA may be present in many body fluids or tissues of patients with tumors. It can be used to detect recurrence of a tumor and / or for screening a tumor. It can be used to control seed quality. It can be used in breeding and fish farming. Note that any of these methods can equally well be used to target non-polymorphic loci to determine ploidy.

Некоторые литературные источники, описывающие некоторые из фундаментальных способов, лежащих в основе раскрытых в настоящем документе способов, включают: (1) Wang HY, Luo М, Tereshchenko IV, Frikker DM, Cui X, Li JY, Hu G, Chu Y, Azaro MA, Lin Y, Shen L, Yang Q, Kambouris ME, Gao R, Shih W, Li H. Genome Res. 2005 Feb; 15 (2): 276-83. Department of Molecular Genetics, Microbiology and Immunology/The Cancer Institute of New Jersey, Robert Wood Johnson Medical School, New Brunswick, New Jersey 08903, USA. (2) Высокопроизводительное генотипирование одиночных нуклеотидных полиморфизмов с высокой чувствительностью: Li Н, Wang HY, Cui X, Luo M, Hu G, Greenawalt DM, Tereshchenko IV, Li JY, Chu Y, Gao R. Methods Mol Biol. 2007; 396 - PubMed PMID: 18025699. (3) Способ, включающий мультиплексирование в среднем с 9 анализами на секвенирование, описан в источнике: Nested Patch PCR enables highly multiplexed mutation discovery in candidate genes. Varley KE, Mitra RD. Genome Res. 2008 Nov; 18 (11): 1844-50. Epub 2008 Oct 10. Отметим, что раскрытые в настоящем документе способы позволяют проводить мультиплексирования более высоких порядков, чем описанные в вышеуказанных источниках.Some literature sources describing some of the fundamental methods underlying the methods disclosed herein include: (1) Wang HY, Luo M, Tereshchenko IV, Frikker DM, Cui X, Li JY, Hu G, Chu Y, Azaro MA , Lin Y, Shen L, Yang Q, Kambouris ME, Gao R, Shih W, Li H. Genome Res. 2005 Feb; 15 (2): 276-83. Department of Molecular Genetics, Microbiology and Immunology / The Cancer Institute of New Jersey, Robert Wood Johnson Medical School, New Brunswick, New Jersey 08903, USA. (2) High-throughput genotyping of single nucleotide polymorphisms with high sensitivity: Li H, Wang HY, Cui X, Luo M, Hu G, Greenawalt DM, Tereshchenko IV, Li JY, Chu Y, Gao R. Methods Mol Biol. 2007; 396 - PubMed PMID: 18025699. (3) A method including an average multiplex with 9 sequencing analyzes is described in the source: Nested Patch PCR enables highly multiplexed mutation discovery in candidate genes. Varley KE, Mitra RD. Genome Res. 2008 Nov; 18 (11): 1844-50. Epub 2008 Oct 10. Note that the methods disclosed herein allow multiplexing of higher orders than those described in the above sources.

Варианты целевой ПЦР - вложенная ПЦРOptions for Target PCR - Nested PCR

Существует множество вариантов технологических процессов для проведения ПЦР; описаны некоторые технологические процессы, типичные для раскрытых в настоящем документе способов. Указанные в настоящем документе этапы не означают исключения других возможных этапов и не подразумевают, что какой-либо из этапов, описанных в настоящем документе, необходим для того, чтобы способ работал соответствующим образом. В литературе известен широкий ряд вариаций параметров или другие модификации, и они могут быть выполнены без изменения сущности настоящего изобретения. Один конкретный обобщенный технологический процесс приведен ниже с последующим рядом возможных вариантов. Варианты, как правило, относятся к возможным вторичным реакциям ПЦР, например, к различным типам вложения, которые могут быть выполнены (этап 3). Важно отметить, что варианты могут быть выполнены в другое время или в другом порядке, чем описанный(ое) в настоящем документе. Если требуется, примеры, в которых для иллюстрации используются полиморфные локусы, могут быть легко адаптированы для амплификации неполиморфных локусов.There are many options for technological processes for PCR; describes some of the processes typical of the methods disclosed herein. The steps indicated herein do not mean the exclusion of other possible steps and do not imply that any of the steps described herein is necessary for the method to work accordingly. A wide variety of parameter variations or other modifications are known in the literature, and they can be made without changing the nature of the present invention. One specific generalized process is given below, followed by a number of options. Options typically relate to possible secondary PCR reactions, for example, to various types of attachments that can be performed (step 3). It is important to note that the options may be executed at a different time or in a different order than described (s) in this document. If required, examples in which polymorphic loci are used for illustration can easily be adapted to amplify non-polymorphic loci.

1. ДНК в образце может содержать адаптеры лигирования, которые часто называют маркерами библиотеки или адаптерными маркерами лигирования (LT), добавляемые в тех случаях, если адаптеры лигирования содержат универсальную последовательность праймирования, для последующей универсальной амплификации. Согласно варианту осуществления это может быть реализовано с использованием стандартного протокола, разработанного для создания библиотек секвенирования после фрагментации. Согласно варианту осуществления образец ДНК может быть снабжен тупыми концами, и затем А может быть добавлен к 3'-концу. Может быть добавлен и лигирован Y-адаптер с выступающим «липким» Т. Согласно некоторым вариантам осуществления могут быть использованы другие липкие концы, отличные от А или выступающего Т. Согласно некоторым вариантам осуществления другие адаптеры могут быть добавлены, например, петлевые адаптеры лигирования. Согласно некоторым вариантам осуществления адаптеры могут содержать маркер, сконструированный для ПЦР-амплификации.1. The DNA in the sample may contain ligation adapters, which are often called library markers or adapter ligation markers (LT), added if the ligation adapters contain a universal priming sequence for subsequent universal amplification. According to an embodiment, this can be implemented using a standard protocol designed to create sequencing libraries after fragmentation. In an embodiment, the DNA sample may be provided with blunt ends, and then A may be added to the 3'-end. A Y-adapter with a protruding “sticky” T can be added and ligated. In some embodiments, other sticky ends other than A or protruding T. can be used. In some embodiments, other adapters can be added, for example, loop ligation adapters. In some embodiments, the adapters may comprise a marker designed for PCR amplification.

2. Специфичная амплификация целей (STA). Преамплификация сотен, тысяч, десятков тысяч и даже сотен тысяч целей может быть мультиплексирована в одном реакционном объеме. STA, как правило, проводится за 10-30 циклов, хотя она может проводиться за 5-40 циклов, за 2-50 циклов и даже за 1-100 циклов. Праймеры могут быть снабжены хвостами, например, для упрощения технологического процесса или чтобы избежать секвенирования больших пропорций димеров. Отметим, что, как правило, димеры обоих праймеров, несущих одинаковый маркер, не будут эффективно амплифицироваться или секвенироваться. Согласно некоторым вариантам осуществления может быть проведено от 1 до 10 циклов ПЦР; согласно некоторым вариантам осуществления может быть проведено от 10 до 20 циклов ПЦР; согласно некоторым вариантам осуществления может быть проведено от 20 до 30 циклов ПЦР; согласно некоторым вариантам осуществления может быть проведено от 30 до 40 циклов ПЦР; согласно некоторым вариантам осуществления может быть проведено более 40 циклов ПЦР. Амплификация может представлять собой линейную амплификацией. Число циклов ПЦР может быть оптимизировано для получения оптимального профиля глубины секвенирования («depth of read», DOR). Для разных целей могут быть целесообразны разные профили DOR. Согласно некоторым вариантам осуществления желательно более равномерное распределение считываний между всеми анализируемыми фрагментами; если DOR слишком мала для некоторых анализируемых фрагментов, стохастический шум может быть слишком высок для того, чтобы данные были полезными, в то же время, если глубина секвенирования слишком высока, предельная полезность каждого дополнительного считывания относительно мала.2. Specific target amplification (STA). Preamplification of hundreds, thousands, tens of thousands and even hundreds of thousands of targets can be multiplexed in one reaction volume. An STA is usually performed in 10-30 cycles, although it can be performed in 5-40 cycles, in 2-50 cycles, and even in 1-100 cycles. Primers can be provided with tails, for example, to simplify the process or to avoid sequencing large proportions of dimers. Note that, as a rule, dimers of both primers carrying the same marker will not be amplified or sequenced efficiently. In some embodiments, 1 to 10 PCR cycles can be performed; in some embodiments, 10 to 20 PCR cycles may be performed; in some embodiments, 20 to 30 PCR cycles may be performed; in some embodiments, 30 to 40 PCR cycles may be performed; in some embodiments, more than 40 PCR cycles can be performed. Amplification may be linear amplification. The number of PCR cycles can be optimized to obtain the optimal depth of read (DOR) profile. For different purposes, different DOR profiles may be appropriate. In some embodiments, a more even distribution of readings between all analyzed fragments is desired; if the DOR is too small for some fragments to be analyzed, the stochastic noise may be too high for the data to be useful, while if the sequencing depth is too high, the marginal utility of each additional reading is relatively small.

Хвосты праймеров могут улучшить выявление фрагментированной ДНК из универсально маркированных библиотек. Если маркер библиотеки и хвосты праймеров содержат гомологичную последовательность, гибридизация может быть улучшена (например, понижением температуры плавления (Тм)), а праймеры можно удлинить, если только часть целевой последовательности праймера находится во фрагменте ДНК образца. Согласно некоторым вариантам осуществления могут быть использованы 13 или больше пар оснований, специфичных по отношению к цели. Согласно некоторым вариантам осуществления могут быть использованы от 10 до 12 пар оснований, специфичных по отношению к цели. Согласно некоторым вариантам осуществления могут быть использованы от 8 до 9 пар оснований, специфичных по отношению к цели. Согласно некоторым вариантам осуществления могут быть использованы от 6 до 7 пар оснований, специфичных по отношению к цели. Согласно некоторым вариантам осуществления STA может быть выполнена на преамплифицированной ДНК, например, MDA, RCA, другие виды полногеномных амплификаций или опосредованная адаптерами универсальная ПЦР. Согласно некоторым вариантам осуществления STA может быть выполнена на образцах и популяциях, обогащенных определенными последовательностями или истощенных по определенным последовательностям, например, путем отбора по размеру, целевого захвата, направленного разрушения.Primer tails can improve the detection of fragmented DNA from universally labeled libraries. If the library marker and primer tails contain a homologous sequence, hybridization can be improved (for example, by lowering the melting point (T m )), and the primers can be extended if only part of the target primer sequence is in the DNA fragment of the sample. In some embodiments, 13 or more base pairs specific to the target may be used. In some embodiments, 10 to 12 base pairs specific to the target may be used. In some embodiments, 8 to 9 base pairs specific to the target may be used. In some embodiments, 6 to 7 base pairs specific to the target may be used. In some embodiments, the STA can be performed on preamplified DNA, for example, MDA, RCA, other types of genome-wide amplifications, or adapter-mediated universal PCR. In some embodiments, an STA can be performed on samples and populations enriched in specific sequences or depleted in specific sequences, for example, by size selection, targeted capture, and targeted destruction.

3. Согласно некоторым вариантам осуществления возможно выполнение вторичных мультиплексных ПЦР или реакций удлинения праймеров для повышения специфичности и снижения количества нежелательных продуктов. Например, полное вложение, полувложение, гемивложение и/или разделение на меньшие пулы анализируемых фрагментов для параллельных реакций являются методиками, которые могут быть использованы для повышения специфичности. Эксперименты показали, что расщепление образца на три 400-плексные реакции приводит к образованию продукта ДНК с большей специфичностью, чем одна 1200-плексная реакция с теми же праймерами. Аналогичным образом, эксперименты показали, что расщепление образца на четыре 2400-плексные реакции приводит к образованию продукта ДНК с большей специфичностью, чем одна 9600-плексная реакция с теми же праймерами. Согласно варианту осуществления возможно использование специфичных по отношению к целям и специфичных по отношению к маркерам праймеров одинаковой и противоположной направленностей.3. In some embodiments, it is possible to perform secondary multiplex PCR or primer extension reactions to increase specificity and reduce the amount of unwanted products. For example, full nesting, half-nesting, hemi-nesting and / or dividing into smaller pools of the analyzed fragments for parallel reactions are techniques that can be used to increase specificity. The experiments showed that splitting the sample into three 400-plex reactions leads to the formation of a DNA product with greater specificity than one 1200-plex reaction with the same primers. Similarly, experiments showed that splitting a sample into four 2400-plex reactions leads to the formation of a DNA product with greater specificity than a single 9600-plex reaction with the same primers. According to an embodiment, it is possible to use target-specific and marker-specific primers of the same and opposite directions.

4. Согласно некоторым вариантам осуществления можно амплифицировать образец ДНК (разведенный, очищенный или иным путем обработанный), полученный реакцией STA, с использованием специфичных по отношению к маркеру праймеров и «универсальной амплификации», т.е. амплифицировать многие или все преамплифицированные и маркированные цели. Праймеры могут содержать дополнительные функциональные последовательности, например, штрихкоды или полную адаптерную последовательность, необходимую для секвенирования на платформе высокопроизводительного секвенирования.4. In some embodiments, a DNA sample (diluted, purified, or otherwise processed) obtained by the STA reaction can be amplified using marker specific primers and “universal amplification”, i.e. amplify many or all of the preamplified and marked targets. Primers may contain additional functional sequences, for example, barcodes or the complete adapter sequence necessary for sequencing on a high throughput sequencing platform.

Указанные способы могут быть использованы для анализа любого образца ДНК и, в частности, подходят для случаев особенно маленьких образцов ДНК или образца ДНК, который содержит ДНК, происходящую от более одного индивидуума, например, в случае материнской плазмы. Указанные способы могут быть использованы на образцах ДНК, таких как ДНК единичных клеток или небольшого количества клеток, геномная ДНК, ДНК плазмы, амплифицированные библиотеки плазмы, амплифицированные библиотеки апоптотического супернатанта, или на других образцах смешанной ДНК. Согласно варианту осуществления эти способы могут быть использованы в случае, если у одного индивидуума присутствуют клетки различной генетической структуры, такие как раковые клетки или клетки трансплантатов.These methods can be used to analyze any DNA sample and, in particular, are suitable for cases of especially small DNA samples or a DNA sample that contains DNA originating from more than one individual, for example, in the case of maternal plasma. These methods can be used on DNA samples, such as single or small cell DNA, genomic DNA, plasma DNA, amplified plasma libraries, amplified apoptotic supernatant libraries, or other mixed DNA samples. According to an embodiment, these methods can be used if one individual has cells of different genetic structures, such as cancer cells or transplant cells.

Варианты протокола (варианты и/или добавления к описанному выше технологическому процессу)Protocol options (options and / or additions to the above process)

Прямая мультиплексная мини-ПЦР. Специфичная целевая амплификация (STA) множества целевых последовательностей с маркированными праймерами показана на фиг. 1. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована гибридизованными праймерами ПЦР. 104 обозначает конечный продукт ПЦР. Согласно некоторым вариантам осуществления STA может быть выполнена на более 100, более 200, более 500, более 1000, более 2000, более 5000, более 10000, более 20000, более 50000, более 100000 или более 200000 целях. В последующей реакции специфичные по отношению к маркеру праймеры амплифицируют все целевые последовательности и удлиняют маркеры для включения всех необходимых последовательностей для секвенирования, включая индексы образцов. Согласно варианту осуществления праймеры могут быть немаркированными, или могут быть маркированы только определенные праймеры. Адаптеры секвенирования могут быть добавлены посредством общепринятого лигирования адаптеров. Согласно варианту осуществления начальные праймеры могут нести маркеры.Direct multiplex mini-PCR. The specific target amplification (STA) of a plurality of target sequences with labeled primers is shown in FIG. 1. 101 denotes double-stranded DNA with a polymorphic locus under study in X. 102 denotes double-stranded DNA with ligation adapters added for universal amplification. 103 denotes single-stranded DNA that has been universally amplified by hybridized PCR primers. 104 denotes the final PCR product. In some embodiments, an STA may be performed for more than 100, more than 200, more than 500, more than 1000, more than 2000, more than 5000, more than 10000, more than 20,000, more than 50,000, more than 100,000 or more than 200,000 purposes. In the subsequent reaction, marker-specific primers amplify all target sequences and extend the markers to include all necessary sequences for sequencing, including sample indices. In an embodiment, the primers may be unlabeled, or only certain primers may be labeled. Sequencing adapters can be added through conventional ligation adapters. In an embodiment, the initial primers may carry markers.

Согласно варианту осуществления праймеры конструируются так, что длина амплифицированной ДНК является неожиданно короткой. На существующем уровне техники рядовые специалисты в данной области, как правило, конструируют ампликоны размером 100 + пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 80 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 70 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 60 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 50 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 45 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 40 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 35 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером от 40 до 65 пар оснований.In an embodiment, the primers are designed so that the length of the amplified DNA is unexpectedly short. At the current level of technology, ordinary specialists in this field, as a rule, design amplicons of size 100 + base pairs. In an embodiment, amplicons of less than 80 bp can be designed. In an embodiment, amplicons of less than 70 base pairs can be designed. In an embodiment, amplicons of less than 60 base pairs can be designed. In an embodiment, amplicons of less than 50 base pairs can be designed. In an embodiment, amplicons of less than 45 bp can be designed. In an embodiment, amplicons of less than 40 bp can be designed. In an embodiment, amplicons of less than 35 base pairs can be designed. In an embodiment, amplicons ranging in size from 40 to 65 base pairs can be constructed.

Согласно данному протоколу был проведен эксперимент с использованием 1200-плексной амплификации. Использовалась как геномная ДНК, так и плазма беременной женщины; приблизительно 70% считываний последовательностей картировались с целевыми последовательностями. Подробности представлены в других разделах настоящего документа. Секвенирование продуктов 1042-плексной амплификации без конструирования и отбора анализируемых фрагментов приводило к тому, что >99% последовательностей являлись продуктами димеров праймеров.According to this protocol, an experiment was conducted using 1200-plex amplification. Both genomic DNA and the plasma of a pregnant woman were used; approximately 70% of sequence readings were mapped with target sequences. Details are provided in other sections of this document. Sequencing of 1042-plex amplification products without design and selection of the analyzed fragments led to the fact that> 99% of the sequences were products of primer dimers.

Последовательная ПЦР. После STA1 множественные аликвоты продукта могут быть параллельно амплифицированы с пулами пониженной сложности и теми же праймерами. Первая амплификация может дать достаточно материала для расщепления. Этот способ, в частности, хорошо походит для небольших образцов, например, в количестве приблизительно 6-100 пг, приблизительно от 100 пг до 1 нг, приблизительно от 1 нг до 10 нг или приблизительно от 10 нг до 100 нг. Протокол 1200-плексной амплификации был разделен на три 400-плексные. Картирование считываний последовательностей возросло от приблизительно 60-70% при 1200-плексной амплификации, выполненной монокомпонентно, до более 95%.Sequential PCR After STA1, multiple aliquots of the product can be amplified in parallel with pools of reduced complexity and the same primers. The first amplification can provide enough material for cleavage. This method is particularly suitable for small samples, for example, in an amount of about 6-100 pg, about 100 pg to 1 ng, about 1 ng to 10 ng, or about 10 ng to 100 ng. The 1200-plex amplification protocol was divided into three 400-plex amplifications. Sequence reading mapping increased from approximately 60-70% with 1200-plex amplification performed in a single component to over 95%.

Полувложенная мини-ПЦР (см. фиг. 2). После STA 1 вторая STA проводится с мультиплексным набором внутренних вложенных прямых праймеров (103В, 105b) и одним (или несколькими) специфичным(и) по отношению к маркеру обратным(и) праймером(ами) (103А). 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована с прямым праймером В и гибридизированным обратным праймером А. 104 обозначает продукт ПЦР из 103. 105 обозначает продукт из 104 с гибридизированным вложенным прямым праймером В и обратного маркера А, который уже является частью молекулы из ПЦР, проведенной между 103 и 104. 106 обозначает конечный продукт ПЦР. При таком технологическом процессе обычно более 95% последовательностей картируются с намеченными целями. Вложенный праймер может перекрываться с последовательностью внешнего прямого праймера, но вводит дополнительные основания на 3'-конце. Согласно некоторым вариантам осуществления на 3'-конце можно использовать от одного до 20 дополнительных оснований. Эксперименты показали, что использование 9 или более дополнительных 3'-концевых оснований в 1200-плексном дизайне работает хорошо.Half-nested mini-PCR (see Fig. 2). After STA 1, the second STA is carried out with a multiplex set of internal nested direct primers (103B, 105b) and one (or several) specific (s) specific marker (s) with reverse primer (s) (103A). 101 denotes double-stranded DNA with a polymorphic locus under study in X. 102 denotes double-stranded DNA with ligation adapters added for universal amplification. 103 denotes a single-stranded DNA that has been universally amplified with forward primer B and hybridized reverse primer A. 104 denotes a PCR product of 103. 105 denotes a product of 104 with a hybridized nested direct primer B and reverse marker A, which is already part of the PCR molecule, carried out between 103 and 104. 106 denotes the final PCR product. With such a process, usually more than 95% of the sequences are mapped with the intended goals. The nested primer may overlap with the sequence of the external forward primer, but introduces additional bases at the 3'-end. In some embodiments, one to 20 additional bases may be used at the 3'-end. Experiments have shown that using 9 or more additional 3'-terminal bases in a 1200-plex design works well.

Полностью вложенная мини-ПЦР (см. фиг. 3). После этапа 1 STA можно провести вторую мультиплексную ПЦР (или параллельные мультиплексные ПЦР пониженной сложности) с двумя вложенными праймерами, несущими маркеры (А, а, В, b). 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована с прямым праймером В и гибридизированным обратным праймером А. 104 обозначает продукт ПЦР из 103. 105 обозначает продукт из 104 с вложенным прямым праймером b и гибридизированным вложенным обратным праймером а. 106 обозначает конечный продукт ПЦР. Согласно некоторым вариантам осуществления можно использовать два полных набора праймеров. Эксперименты с использованием протокола полностью вложенной мини-ПЦР были использованы для проведения 146-плексной амплификации на единичных клетках и трех клетках без этапа 102 добавления универсальных адаптеров лигирования и амплификации.Fully nested mini-PCR (see Fig. 3). After step 1 of the STA, a second multiplex PCR (or parallel multiplex PCR of reduced complexity) with two nested primers carrying markers (A, a, B, b) can be performed. 101 denotes double-stranded DNA with a polymorphic locus under study in X. 102 denotes double-stranded DNA with ligation adapters added for universal amplification. 103 denotes a single-stranded DNA that has been universally amplified with forward primer B and hybridized reverse primer A. 104 denotes a PCR product of 103. 105 denotes a product of 104 with nested forward primer b and hybridized nested primer a. 106 denotes the final PCR product. In some embodiments, two complete sets of primers can be used. Experiments using the fully nested mini-PCR protocol were used to perform 146-plex amplification on single cells and three cells without step 102 adding universal ligation and amplification adapters.

Гемивложенная мини-ПЦР (см. фиг. 4). Можно использовать целевую ДНК, которая имеет адаптеры на концах фрагментов. STA выполняется с применением мультиплексного набора прямых праймеров (В) и одного (или нескольких) специфичного(ых) по отношению к маркеру обратного(ых) праймера(ов) (А). Вторая STA может быть выполнена с использованием универсального специфичного по отношению к маркеру прямого праймера и специфичного по отношению к целями обратного праймера. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована с гибридизированным обратным праймером А. 104 обозначает продукт ПЦР из 103, который был амплифицирован с использованием обратного праймера А и праймера LT - маркера адаптера лигирования. 105 обозначает продукт из 104 с гибридизированным прямым праймером В. 106 обозначает конечный продукт ПЦР. При данном технологическом процессе специфичные по отношению к целям прямой и обратный праймеры используются в отдельных реакциях, что снижает, таким образом, сложность реакции и предотвращает формирование димеров прямого и обратного праймеров. Отметим, что в данном примере праймеры А и В могут рассматриваться как первые праймеры, а праймеры «а» и «b» могут рассматриваться как внутренние праймеры. Этот способ представляет собой большое усовершенствование прямой ПЦР, поскольку подходит так же хорошо, как и прямая ПЦР, но позволяет избежать образования димеров праймеров. После первого раунда гемивложенного протокола, как правило, наблюдается -99% нецелевой ДНК, однако после второго раунда, как правило, происходит значительное улучшение.Hematologic mini-PCR (see Fig. 4). You can use the target DNA, which has adapters at the ends of the fragments. STA is performed using a multiplex set of forward primers (B) and one (or several) specific (s) with respect to the marker of the reverse primer (s) (A). The second STA can be performed using a universal marker-specific forward primer and target-specific reverse primer. 101 denotes double-stranded DNA with a polymorphic locus under study in X. 102 denotes double-stranded DNA with ligation adapters added for universal amplification. 103 denotes single-stranded DNA that has been universally amplified with hybridized reverse primer A. 104 denotes a PCR product of 103 that has been amplified using reverse primer A and LT primer marker ligation adapter. 105 denotes the product of 104 with hybridized direct primer B. 106 denotes the final PCR product. In this process, target-specific direct and reverse primers are used in separate reactions, which therefore reduces the complexity of the reaction and prevents the formation of dimers of direct and reverse primers. Note that in this example, primers A and B can be considered as first primers, and primers “a” and “b” can be considered as internal primers. This method represents a major improvement in direct PCR, as it fits as well as direct PCR, but avoids the formation of primer dimers. After the first round of the heme-attached protocol, as a rule, -99% of non-targeted DNA is observed, however, after the second round, as a rule, a significant improvement occurs.

Тройная гемивложенная мини-ПЦР (см. фиг. 5). Можно использовать целевую ДНК, которая имеет адаптер на концах фрагментов. STA проводят с применением мультиплексного набора прямых праймеров (В) и одного или нескольких специфичных по отношению к маркеру обратных праймеров (А) и (а). Вторая STA может быть проведена с использованием универсального специфичного по отношению к маркеру прямого праймера и специфичного по отношению к целям обратного праймеров. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована с гибридизированным обратным праймером А. 104 обозначает продукт ПЦР из 103, который был амплифицирован с использованием обратного праймера А и праймера LT - маркера адаптера лигирования. 105 обозначает продукт из 104 с гибридизированным прямым праймером В. 106 обозначает продукт ПЦР из 105, который был амплифицирован с использованием обратного праймера А и прямого праймера В. 107 обозначает продукт из 106 с гибридизированным обратным праймером «а». 108 обозначает конечный продукт ПЦР. Отметим, что в данном примере праймеры «а» и В могут рассматриваться как внутренние праймеры, и А может рассматриваться как первый праймер. Необязательно и А, и В могут рассматриваться как первые праймеры, а «а» может рассматриваться как внутренний праймер. Обозначения обратного и прямого праймеров могут меняться местами. При данном технологическом процессе специфичные по отношению к целям прямой и обратный праймеры используются в отдельных реакциях, что снижает, таким образом, сложность реакции и предотвращает формирование димеров прямого и обратного праймеров. Этот способ представляет собой большое усовершенствование прямой ПЦР, поскольку подходит так же хорошо, как прямая ПЦР, но позволяет избежать образования димеров праймеров. После первого раунда гемивложенного протокола, как правило, наблюдается ~99% нецелевой ДНК, однако после второго раунда, как правило, происходит большое улучшение.Triple hemi-nested mini-PCR (see Fig. 5). You can use the target DNA, which has an adapter at the ends of the fragments. STA is carried out using a multiplex set of forward primers (B) and one or more marker specific reverse primers (A) and (a). The second STA can be carried out using a universal marker-specific forward primer and target-specific reverse primers. 101 denotes double-stranded DNA with a polymorphic locus under study in X. 102 denotes double-stranded DNA with ligation adapters added for universal amplification. 103 denotes single-stranded DNA that has been universally amplified with hybridized reverse primer A. 104 denotes a PCR product of 103 that has been amplified using reverse primer A and LT primer marker ligation adapter. 105 denotes a product of 104 with hybridized forward primer B. 106 denotes a PCR product of 105 that was amplified using reverse primer A and forward primer B. 107 denotes a product of 106 with hybridized primer “a”. 108 denotes the final PCR product. Note that in this example, the primers “a” and B can be considered as internal primers, and A can be considered as the first primer. Optionally, both A and B can be considered as first primers, and “a” can be considered as an internal primer. The designations of the reverse and forward primers can be interchanged. In this process, target-specific direct and reverse primers are used in separate reactions, which therefore reduces the complexity of the reaction and prevents the formation of dimers of direct and reverse primers. This method represents a major improvement in direct PCR, since it is as good as direct PCR, but avoids the formation of primer dimers. After the first round of the hemo-attached protocol, as a rule, ~ 99% of non-targeted DNA is observed, however, after the second round, as a rule, a big improvement occurs.

Односторонняя вложенная мини-ПЦР (см. фиг. 6). Можно использовать целевую ДНК с адаптером на концах фрагментов. STA также может быть проведена с мультиплексным набором вложенных прямых праймеров и с использованием маркера адаптера лигирования в качестве обратного праймера. Затем можно провести вторую STA с использованием набора вложенных прямых праймеров и универсального обратного праймера. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована с гибридизированным прямым праймером А. 104 обозначает продукт ПЦР из 103, который был амплифицирован с использованием прямого праймера А и обратного праймера LT - маркера адаптера лигирования. 105 обозначает продукт из 104 с гибридизированным вложенным прямым праймером «а». 106 обозначает конечный продукт ПЦР. Этот способ выявляет более короткие целевые последовательности, чем стандартная ПЦР с использованием перекрывающихся праймеров в первой и второй STA. Способ, как правило, реализуется на образце ДНК, который уже был подвергнут описанному выше этапу 1 STA - добавлению универсальных маркеров и амплификации; два вложенных праймера находятся исключительно на одной стороне, на другой стороне используется маркер библиотеки. Способ реализовали на библиотеках апоптотических супернатантов и плазме беременных женщин. В указанном технологическом процессе приблизительно 60% последовательностей картируются с намеченными целями. Отметим, что считывания, которые содержали последовательность обратного адаптера, не картировались, так что предполагается, что это количество будет выше, если считывания, содержащие последовательность обратного адаптера, будут картироваться.One-sided nested mini-PCR (see Fig. 6). You can use the target DNA with an adapter at the ends of the fragments. An STA can also be performed with a multiplex set of nested forward primers and using a marker of the ligation adapter as a reverse primer. Then a second STA can be carried out using a set of nested forward primers and a universal reverse primer. 101 denotes double-stranded DNA with a polymorphic locus under study in X. 102 denotes double-stranded DNA with ligation adapters added for universal amplification. 103 denotes single-stranded DNA that has been universally amplified with hybridized forward primer A. 104 denotes a PCR product of 103 that has been amplified using forward primer A and the reverse primer LT marker ligation adapter. 105 denotes a product of 104 with hybridized nested direct primer “a”. 106 denotes the final PCR product. This method reveals shorter target sequences than standard PCR using overlapping primers in the first and second STA. The method, as a rule, is implemented on a DNA sample that has already been subjected to the above stage 1 STA - the addition of universal markers and amplification; two nested primers are located exclusively on one side, the library marker is used on the other side. The method was implemented in libraries of apoptotic supernatants and plasma of pregnant women. In this process, approximately 60% of the sequences are mapped with the intended objectives. Note that reads that contained the reverse adapter sequence were not mapped, so it is assumed that this number will be higher if readings containing the reverse adapter sequence are mapped.

Односторонняя мини-ПЦР. Можно использовать целевую ДНК с адаптером на концах фрагментов (см. фиг. 7). STA может быть проведена с мультиплексным набором прямых праймеров и одним (или несколькими) специфичным по отношению к маркеру обратным праймером. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК с гибридизированными прямыми праймерами А. 104 обозначает продукт ПЦР из 103, который был амплифицирован с использованием прямого праймера А и обратного праймера LT - маркера адаптера лигирования, и который является конечным продуктом ПЦР. Этот способ может выявить более короткие целевые последовательности, чем стандартная ПЦР. Однако он может быть относительно неспецифичным, поскольку используется только один специфичный по отношению к цели праймер. Данный протокол наполовину так же эффективен, как односторонняя вложенная мини-ПЦР.One-sided mini-PCR. You can use the target DNA with an adapter at the ends of the fragments (see Fig. 7). An STA can be carried out with a multiplex set of forward primers and one (or several) marker specific reverse primers. 101 denotes double-stranded DNA with a polymorphic locus under study in X. 102 denotes double-stranded DNA with ligation adapters added for universal amplification. 103 denotes single-stranded DNA with hybridized forward primers A. 104 denotes a PCR product of 103 that has been amplified using forward primer A and reverse primer LT, a ligation adapter marker, and which is the final PCR product. This method may reveal shorter target sequences than standard PCR. However, it may be relatively nonspecific since only one target-specific primer is used. This protocol is half as effective as a one-way nested mini-PCR.

Обратная полувложенная мини-ПЦР. Можно использовать целевую ДНК с адаптером на концах фрагментов (см. фиг. 8). STA может быть выполнена с мультиплексным набором прямых праймеров и одним (или несколькими) специфичным по отношению к маркеру обратным праймером. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК с гибридизированным обратным праймером В. 104 обозначает продукт ПЦР из 103, который был амплифицирован с использованием обратного праймера В и прямого праймера LT - маркера адаптера лигирования. 105 обозначает продукт ПЦР из 104 с гибридизированным прямым праймером А и внутренним обратным праймером «b». 106 обозначает продукт ПЦР, который был амплифицирован из 105 с использованием прямого праймера А и обратного праймера «b» и который является конечным продуктом ПЦР. Указанный способ может выявить более короткие целевые последовательности, чем стандартная ПЦР.Reverse semi-nested mini-PCR. You can use the target DNA with an adapter at the ends of the fragments (see Fig. 8). STA can be performed with a multiplex set of forward primers and one (or several) marker-specific reverse primers. 101 denotes double-stranded DNA with a polymorphic locus under study in X. 102 denotes double-stranded DNA with ligation adapters added for universal amplification. 103 denotes single-stranded DNA with a hybridized reverse primer B. 104 denotes a PCR product of 103 that was amplified using reverse primer B and the forward primer LT marker ligation adapter. 105 denotes a PCR product of 104 with hybridized forward primer A and internal reverse primer “b”. 106 denotes a PCR product that has been amplified from 105 using forward primer A and reverse primer “b” and which is the final PCR product. The indicated method can reveal shorter target sequences than standard PCR.

Может также существовать большее количество вариантов, которые по сути являются повторами или комбинациями вышеописанных способов, таких как двойная вложенная ПЦР, в которой используются три набора праймеров. Другой вариант представлен полуторасторонней вложенной мини-ПЦР, при которой STA также может быть выполнена с мультиплексным набором вложенных прямых праймеров и одного специфичного по отношению к маркеру обратного праймера (или нескольких специфичных по отношению к маркеру обратных праймеров).There may also be a larger number of variants, which are essentially repeats or combinations of the above methods, such as double nested PCR, which uses three sets of primers. Another option is one and a half-sided nested mini-PCR, in which the STA can also be performed with a multiplex set of nested forward primers and one marker-specific reverse primer (or several marker-specific reverse primers).

Отметим, что во всех этих вариантах идентичность прямого праймера и обратного праймера может быть взаимозаменяемой. Отметим, что согласно некоторым вариантам осуществления вложенный вариант может быть с тем же успехом проведен без начальной подготовки библиотеки, включающей добавление маркеров адаптера, и этапа универсальной амплификации. Отметим, что согласно некоторым вариантам осуществления могут быть предусмотрены дополнительные раунды ПЦР с дополнительными прямыми и/или обратными праймерами и этапами амплификации; эти дополнительные этапы могут быть особенно полезны, если желательно повысить процент молекул ДНК, соответствующих целевым локусам.Note that in all of these embodiments, the identity of the forward primer and the reverse primer can be used interchangeably. Note that, according to some embodiments, the nested variant could be carried out with the same success without initial preparation of the library, including the addition of adapter markers, and the stage of universal amplification. Note that according to some embodiments, additional PCR rounds may be provided with additional direct and / or reverse primers and amplification steps; these additional steps can be especially useful if it is desired to increase the percentage of DNA molecules corresponding to the target loci.

Вложенные технологические процессыNested Processes

Существует много способов выполнения амплификации с различной степенью вложения и с различной степенью мультиплексирования. На фиг. 9 представлена схема технологических операций с некоторыми возможными технологическими процессами. Отметим, что использование 10000-плексной ПЦР приведено только в качестве примера; такие схемы технологических операций будут работать с тем же успехом для других степеней мультиплексирования.There are many ways to perform amplification with varying degrees of embedding and with varying degrees of multiplexing. In FIG. 9 is a flow diagram of technological operations with some possible technological processes. Note that the use of 10,000-plex PCR is provided as an example only; such process flow diagrams would work just as well for other degrees of multiplexing.

Петлевые адаптеры лигированияLoop ligation adapters

При добавлении универсальных маркированных адаптеров, например, с целью получения библиотеки для секвенирования, существует ряд способов лигирования адаптеров. Один способ заключается в том, чтобы снабдить ДНК образца тупыми концами, присоединить А-хвост и лигировать адаптеры, которые имеют выступающий Т-конец. Существует ряд других способов лигировать адаптеры. Существует также ряд адаптеров, которые могут быть лигированы. Например, может быть использован Y-адаптер; указанный адаптер состоит из двух цепей ДНК, при этом одна цепь содержит двуцепочечную область и область, характеризующуюся областью прямого праймера, и в которых другая цепь, характеризующаяся двуцепочечной областью, которая комплементарна двуцепочечной области первой цепи, и областью с обратным праймером. Двуцепочечные области при отжиге могут содержать выступающий Т-конец для лигирования с двуцепочечной ДНК с выступающим А-концом.When adding universal labeled adapters, for example, in order to obtain a library for sequencing, there are a number of ways to ligate adapters. One way is to equip the sample DNA with blunt ends, attach an A-tail, and ligate adapters that have a protruding T-terminus. There are a number of other ways to ligate adapters. There are also a number of adapters that can be ligated. For example, a Y adapter may be used; said adapter consists of two DNA strands, wherein one strand contains a double-stranded region and a region characterized by a forward primer region, and in which the other chain has a double-stranded region that is complementary to the double-stranded region of the first strand and the region with the reverse primer. Double-stranded regions upon annealing may contain a protruding T-terminus for ligation with double-stranded DNA with a protruding A-terminus.

Согласно варианту осуществления адаптер может представлять собой петлю ДНК, в которой концевые области комплементарны, и где петлевая область содержит маркированную область прямого праймера (LFT), маркированную область обратного праймера (LRT) и сайт расщепления между ними (см. фиг. 10). 101 относится к двуцепочечной целевой ДНК с тупыми концами. 102 относится к целевой ДНК с А-хвостом. 103 относится к петлевому адаптеру лигирования с выступающим Т-концом «Т» и сайтом расщепления «Z». 104 относится к целевой ДНК с добавленными петлевыми адаптерами лигирования. 105 относится к целевой ДНК с добавленными адаптерами лигирования, расщепленной по сайту расщепления. LFT относится к прямому маркеру адаптера лигирования, a LRT относится к обратному маркеру адаптера лигирования. Комплементарная область может заканчиваться на выступающем Т-конце или на других структурах, которые могут использоваться для лигирования с целевой ДНК. Сайт расщепления может быть серией урацилов для расщепления UNG или последовательностью, которая может быть распознана и расщеплена ферментом рестрикции или другим способом расщепления, или просто базовой амплификацией. Такие адаптеры могут быть использованы для приготовления любых библиотек, например, для секвенирования. Эти адаптеры могут быть использованы в комбинации с любыми другими описанными в настоящем документе способами, например, способами амплификации мини-ПЦР.According to an embodiment, the adapter may be a DNA loop in which the end regions are complementary, and where the loop region contains a forward primer marked region (LFT), a reverse primer marked region (LRT) and a cleavage site between them (see FIG. 10). 101 refers to double stranded target DNA with blunt ends. 102 relates to target A-tail DNA. 103 refers to a loop ligation adapter with a protruding T-terminus “T” and a cleavage site “Z”. 104 relates to target DNA with added loop ligation adapters. 105 relates to the target DNA with ligation adapters cleaved at the cleavage site added. LFT refers to the forward marker of the ligation adapter, and LRT refers to the reverse marker of the ligation adapter. The complementary region may terminate at the protruding T-terminus or at other structures that can be used for ligation with the target DNA. The cleavage site may be a series of uracils for UNG cleavage, or a sequence that can be recognized and cleaved by a restriction enzyme or other cleavage method, or simply basic amplification. Such adapters can be used to prepare any libraries, for example, for sequencing. These adapters can be used in combination with any other methods described herein, for example, amplification methods of mini-PCR.

Внутренне маркированные праймерыInternally Labeled Primers

При использовании секвенирования для определения аллеля, присутствующего в заданном полиморфном локусе, считывание последовательности, как правило, начинается выше (в 5'-направлении) сайта связывания праймера (а), а затем продолжается до полиморфного сайта (X). Маркеры, как правило, скомпонованы, как показано на фиг. 11 слева. 101 относится к одноцепочечной целевой ДНК с исследуемым полиморфным локусом в «X» и праймером «а» с добавленным маркером «b». Чтобы избежать неспецифичной гибридизации, сайт связывания праймера (область целевой ДНК, комплементарная «а»), как правило, состоит из 18-30 пар оснований. Длина последовательности маркера «b» составляет, как правило, приблизительно 20 пар оснований; теоретически они могут быть длиннее, чем приблизительно 15 пар оснований, хотя многие пользуются последовательностями праймеров, которые продаются компаниями, выпускающими платформы секвенирования. Расстояние «d» между «а» и «X» может составлять по меньшей мере 2 пары оснований с тем, чтобы избежать смещения числа аллелей. При выполнении мультиплексной ПЦР-амплификации с использованием раскрытых в настоящем документе способов или других способов, когда необходимо тщательное конструирование праймеров для того, чтобы избежать избыточного взаимодействия между праймерами, окно допустимых расстояний «d» между «а» и «X» может достаточно сильно варьировать: от 2 п.о. до 10 п.о., от 2 п.о. до 20 п.о., от 2 п.о. до 30 п.о. или даже от 2 п.о. до более 30 п.о. Следовательно, при использовании конфигурации праймеров, показанной на фиг. 11 слева, считывание последовательностей должно составлять минимум 40 п.о. для получения считываний, достаточно длинных для измерения полиморфного локуса, и в зависимости от длин «а» и «d» может потребоваться увеличение считываний последовательностей до 60 или 75 п.о. Как правило, чем длиннее считывания последовательностей, тем выше стоимость и больше время секвенирования данного числа считываний, следовательно, минимизация необходимой длины считывания может сэкономить и время, и деньги. Кроме того, поскольку, в среднем, основания, которые считываются в начале считывания, считываются точнее, чем основания, которые считываются позже, уменьшение необходимой длины считывания последовательности может также увеличить точность измерений полиморфной области.When using sequencing to determine the allele present in a given polymorphic locus, reading of the sequence usually begins above (in the 5′-direction) of the primer binding site (a) and then continues to the polymorphic site (X). Markers are generally arranged as shown in FIG. 11 left. 101 refers to a single-stranded target DNA with the polymorphic locus under study at “X” and primer “a” with the added marker “b”. To avoid non-specific hybridization, the primer binding site (the region of the target DNA complementary to “a”), as a rule, consists of 18-30 base pairs. The length of the marker sequence “b” is typically about 20 base pairs; in theory, they can be longer than about 15 base pairs, although many use primer sequences sold by companies that produce sequencing platforms. The distance "d" between "a" and "X" may be at least 2 base pairs in order to avoid a shift in the number of alleles. When performing multiplex PCR amplification using the methods disclosed herein or other methods, when careful design of the primers is necessary in order to avoid excessive interaction between the primers, the window of allowable distances “d” between “a” and “X” can vary quite a lot : from 2 bp up to 10 bp, from 2 bp up to 20 bp, from 2 bp up to 30 bp or even from 2 bp up to more than 30 bp Therefore, when using the primer configuration shown in FIG. 11 to the left, reading sequences should be a minimum of 40 bp to obtain readings long enough to measure a polymorphic locus, and depending on the lengths a and d, it may be necessary to increase the readings of the sequences to 60 or 75 bp As a rule, the longer the sequences are read, the higher the cost and the longer the sequencing time for a given number of reads; therefore, minimizing the required read length can save both time and money. In addition, since, on average, bases that are read at the beginning of reading are read more accurately than bases that are read later, reducing the required length of the reading sequence can also increase the accuracy of measurements of the polymorphic region.

Согласно варианту осуществления, называемому «внутренне маркированными праймерами», сайт связывания праймера (а) расщепляют на множество сегментов (а', а'', а'''…), а маркер последовательности (b) локализован в сегменте ДНК, который находится посредине между двумя связывающими сайтами праймера, как показано на фиг. 11, 103. Такая конфигурация позволяет секвенатору выполнять более короткие считывания последовательностей. Согласно варианту осуществления а'+а'' должно составлять по меньшей мере приблизительно 18 пар оснований и может составлять 30, 40, 50, 60, 80, 100 или более 100 пар оснований. Согласно варианту осуществления а'' должен составлять по меньшей мере приблизительно 6 пар оснований и согласно варианту осуществления он составляет от приблизительно 8 до 16 пар оснований. При всех прочих равных факторах использование внутренне маркированных праймеров может сократить необходимую длину считывания последовательностей по меньшей мере на 6 пар оснований, не менее чем на 8 пар оснований, 10 пар оснований, 12 пар оснований, 15 пар оснований и даже на 20 или 30 пар оснований. Это может дать существенный выигрыш в стоимости, времени и точности. Пример внутренне маркированных праймеров представлен на фиг. 12.According to an embodiment called “internally labeled primers”, the primer binding site (a) is cleaved into a plurality of segments (a ', a' ', a' '' ...), and the sequence marker (b) is located in the middle segment of the DNA between two primer binding sites, as shown in FIG. 11, 103. This configuration allows the sequencer to perform shorter sequence reads. In an embodiment, a '+ a' 'should be at least about 18 base pairs and may be 30, 40, 50, 60, 80, 100, or more than 100 base pairs. According to an embodiment, a ″ must be at least about 6 base pairs and according to an embodiment it is from about 8 to 16 base pairs. With all other factors being equal, the use of internally labeled primers can reduce the required sequence reading length by at least 6 base pairs, at least 8 base pairs, 10 base pairs, 12 base pairs, 15 base pairs, and even 20 or 30 base pairs . This can give a substantial gain in cost, time and accuracy. An example of internally labeled primers is shown in FIG. 12.

Праймеры с областью, связывающей адаптеры лигированияPrimers with a region binding ligation adapters

Одна из проблем с фрагментированной ДНК состоит в том, что поскольку фрагменты короткие, вероятность того, что полиморфизм расположен близко к концу цепи ДНК, выше, чем для длинной цепи (например, 101, фиг. 10). Поскольку захват полиморфизма с помощью ПЦР требует наличия сайта связывания праймера приемлемой длины по обе стороны от полиморфизма, значительное число цепей ДНК с целевым полиморфизмом будет пропущено вследствие недостаточного перекрытия между праймером и целевым связывающим сайтом. Согласно варианту осуществления целевая ДНК 101 может содержать присоединенные адаптеры лигирования 102, а целевой праймер 103 может содержать область (cr), комплементарную маркеру адаптера лигирования (It), присоединенному в 5'-направлении от сконструированной для связывания области (а) (см. фиг. 13); таким образом, в случаях, если связывающая область (область 101, которая комплементарна а) короче 18 пар оснований, как правило, требуемых для гибридизации, область (cr) в праймере, которая комплементарна маркеру библиотеки, способна увеличить энергию связывания до значения, при которой ПЦР может продолжаться. Отметим, что любая специфичность, которая утрачивается из-за более короткой связывающей области, может быть достигнута для других праймеров ПЦР с приемлемо длинными целевыми связывающими областями. Отметим, что этот вариант осуществления может быть использован в комбинации с прямой ПЦР или любыми другими описанными в настоящем документе способами, такими как вложенная ПЦР, полувложенная ПЦР, гемивложенная ПЦР, односторонняя вложенная, или полувложенная, гемивложенная ПЦР, или другие протоколы ПЦР.One of the problems with fragmented DNA is that since the fragments are short, the likelihood that the polymorphism is located close to the end of the DNA chain is higher than for the long chain (for example, 101, Fig. 10). Since PCR capture of polymorphism requires a primer binding site of acceptable length on both sides of the polymorphism, a significant number of DNA strands with the target polymorphism will be skipped due to insufficient overlap between the primer and the target binding site. According to an embodiment, the target DNA 101 may comprise attached ligation adapters 102, and the target primer 103 may comprise a region (cr) complementary to the marker of the ligation adapter (It) attached in the 5′-direction from the binding region (a) (see FIG. . 13); thus, in cases where the binding region (region 101, which is complementary to a) is shorter than 18 base pairs, usually required for hybridization, the region (cr) in the primer that is complementary to the library marker can increase the binding energy to a value at which PCR may continue. Note that any specificity that is lost due to the shorter binding region can be achieved for other PCR primers with acceptably long target binding regions. Note that this embodiment can be used in combination with direct PCR or any other methods described herein, such as nested PCR, semi-nested PCR, hemo-nested PCR, single-sided nested, or semi-nested, hemo-nested PCR, or other PCR protocols.

При использовании данных секвенирования для определения плоидности в комбинации с аналитическим способом, который включает сравнение наблюдаемых данных аллелей с ожидаемыми аллельными распределениями для различных гипотез, каждое дополнительное считывание с аллелей с небольшой глубиной секвенирования даст больше информации, чем считывание с аллеля с большой глубиной секвенирования. Следовательно, в идеале, нужно добиваться однородной глубины секвенирования (DOR), когда для всех локусов имеются аналогичные количества репрезентативных считываний последовательности. Следовательно, желательно минимизировать дисперсию DOR. Согласно варианту осуществления можно понизить коэффициент дисперсии DOR (который может быть определен как стандартное отклонение DOR/среднее значение DOR) путем увеличения времени отжига. Согласно некоторым вариантам осуществления время отжига может составлять более 2 минут, более 4 минут, более 10 минут, более 30 минут, более одного часа или даже больше. Поскольку отжиг представляет собой равновесный процесс, не существует предела для улучшения дисперсии DOR путем увеличения времени отжига. Согласно варианту осуществления повышение концентрации праймеров может снизить дисперсию DOR.When using sequencing data to determine ploidy in combination with an analytical method that involves comparing observed allele data with expected allelic distributions for different hypotheses, each additional reading from alleles with a small depth of sequencing will give more information than reading from alleles with a large depth of sequencing. Therefore, ideally, you need to achieve a homogeneous depth of sequencing (DOR), when for all loci there are similar numbers of representative readings of the sequence. Therefore, it is desirable to minimize the dispersion of DOR. According to an embodiment, the dispersion coefficient DOR (which can be defined as the standard deviation DOR / average DOR) can be reduced by increasing the annealing time. In some embodiments, the annealing time may be more than 2 minutes, more than 4 minutes, more than 10 minutes, more than 30 minutes, more than one hour, or even more. Since annealing is an equilibrium process, there is no limit to improving the dispersion of DOR by increasing the annealing time. In an embodiment, increasing the concentration of primers can reduce the dispersion of DOR.

Примеры способов полногеномной амплификацииExamples of genome-wide amplification methods

Согласно некоторым вариантам осуществления способ согласно настоящему раскрытию может включать амплификацию ДНК, например, применение полногеномного метода для амплификации образца нуклеиновой кислоты перед амплификацией исключительно целевых локусов. Амплификация ДНК, процесс преобразования небольшого количества генетического материала в большее количество генетического материала, содержащего аналогичный набор генетических данных, может проводиться с применением разнообразных способов, включая, но не ограничиваясь указанным, полимеразную цепную реакцию (ПЦР). Одним из способов амплификации ДНК является полногеномная амплификация (WGA). Существует ряд доступных методов WGA: опосредованная лигированием ПЦР (ОЛ-ПЦР), ПЦР с использованием вырожденных олигонуклеотидных праймеров (DOP-PCR, или ДОП-ПЦР) и амплификация с множественным смещением цепей (MDA). При ОЛ-ПЦР короткие последовательности ДНК, называемые адаптерами, лигируют по тупым концам ДНК. Указанные адаптеры содержат универсальные амплификационные последовательности, которые применяют для амплификации ДНК посредством ПЦР. При ДОП-ПЦР случайные праймеры, которые также содержат универсальные амплификационные последовательности, применяют в первом раунде отжига и ПЦР. Затем используют второй раунд ПЦР для дальнейшей амплификации последовательностей универсальными праймерными последовательностями. При MDA используется полимераза phi-29, которая представляет собой высокопроцессивный неспецифичный фермент, который реплицирует ДНК и использовался для анализа единичных клеток. Основными ограничениями при амплификации материала из одной клетки являются (1) необходимость использования крайне разбавленных концентраций ДНК или очень небольшого объема реакционной смеси и (2) трудность надежного отделения ДНК от белков всего генома. Тем не менее, полногеномная амплификация единичных клеток успешно использовалась для разнообразных применений на протяжении многих лет. Существуют другие способы амплификации ДНК из образца ДНК. Амплификация ДНК преобразует исходный образец ДНК в образец ДНК, содержащий аналогичный набор последовательностей, но в значительно большем количестве. В некоторых случаях амплификация может не требоваться.In some embodiments, the method of the present disclosure may include DNA amplification, for example, using a genome-wide method to amplify a nucleic acid sample before amplifying exclusively target loci. DNA amplification, the process of converting a small amount of genetic material into a larger amount of genetic material containing a similar set of genetic data, can be carried out using a variety of methods, including, but not limited to, polymerase chain reaction (PCR). One method for amplifying DNA is genome wide amplification (WGA). There are a number of WGA methods available: ligation-mediated PCR (OL-PCR), PCR using degenerate oligonucleotide primers (DOP-PCR, or DOP-PCR) and multiple-shift chain amplification (MDA). In OL-PCR, short DNA sequences called adapters are ligated to the blunt ends of the DNA. These adapters contain universal amplification sequences that are used to amplify DNA by PCR. In DOP-PCR, random primers that also contain universal amplification sequences are used in the first round of annealing and PCR. Then, a second round of PCR is used to further amplify the sequences with universal primer sequences. MDA uses phi-29 polymerase, which is a highly processive non-specific enzyme that replicates DNA and has been used to analyze single cells. The main limitations when amplifying material from a single cell are (1) the need to use extremely diluted concentrations of DNA or a very small volume of the reaction mixture and (2) the difficulty of reliable separation of DNA from proteins of the entire genome. However, the whole genome amplification of single cells has been successfully used for a variety of applications over the years. There are other ways to amplify DNA from a DNA sample. Amplification of DNA converts the original DNA sample into a DNA sample containing a similar set of sequences, but in much larger quantities. In some cases, amplification may not be required.

Согласно некоторым вариантам осуществления ДНК может быть амплифицирована с помощью метода универсальной амплификации, такого как WGA или MDA. Согласно некоторым вариантам осуществления ДНК может быть амплифицирована с помощью целевой амплификации, например, с применением направленной ПЦР или зондов циркуляризации. Согласно некоторым вариантам осуществления ДНК может быть преимущественно обогащена с применением способа целевой амплификации, или способа, который приводит к полному или частичному разделению нужной и ненужной ДНК, например, способов захвата гибридизацией. Согласно некоторым вариантам осуществления ДНК может быть амплифицирована посредством применения комбинации способа универсальной амплификации и способа преимущественного обогащения. Более полные описания некоторых из указанных способов приведены в различных разделах настоящего документа.In some embodiments, the DNA can be amplified using a universal amplification method such as WGA or MDA. In some embodiments, the DNA can be amplified by targeted amplification, for example, using directed PCR or circular probes. In some embodiments, the DNA can be advantageously enriched using a targeted amplification method, or a method that results in complete or partial separation of the desired and unnecessary DNA, for example, hybridization capture methods. In some embodiments, the DNA can be amplified by using a combination of a universal amplification method and a preferential enrichment method. More complete descriptions of some of these methods are given in various sections of this document.

Примеры способов обогащения и секвенированияExamples of enrichment and sequencing methods

Согласно варианту осуществления раскрытый в настоящем документе способ предусматривает технику селективного обогащения, сохраняющую относительные аллельные частоты, которые присутствуют в исходном образце ДНК в каждом из целевых локусов (например, каждом полиморфном локусе) из набора целевых локусов (например, полиморфных локусов). Хотя обогащение целесообразно, в частности, для способов анализа полиморфных локусов, указанные способы обогащения могут быть, если требуется, легко адаптированы для неполиморфных локусов. Согласно некоторым вариантам осуществления техника амплификации и/или селективного обогащения может включать ПЦР, например, опосредованную лигированием ПЦР, захват фрагментов путем гибридизации, молекулярные инверсионные зонды или другие зонды циркуляризации. Согласно некоторым вариантам осуществления способы амплификации или селективного обогащения могут включать применение зондов, отличающееся тем, что при корректной гибридизации с целевой последовательностью 3-конец или 5-конец нуклеотидного зонда отделен от полиморфного сайта аллеля небольшим количеством нуклеотидов. Указанное разделение снижает преимущественную амплификацию одного аллеля, называемую смещением числа аллелей. В этом заключается улучшение по сравнению со способами, которые предусматривают такое применение зондов, при котором 3-конец или 5-конец корректно гибридизованного зонда является непосредственно смежным или расположен очень близко к полиморфному сайту аллеля. Согласно варианту осуществления зонды, в которых область гибридизации может содержать или заведомо содержит полиморфный сайт, исключаются. Полиморфные сайты в сайте гибридизации могут обуславливать неравномерную гибридизацию или в целом ингибировать гибридизацию в некоторых аллелях, что приводит к преимущественной амплификации определенных аллелей. Указанные варианты осуществления являются улучшением по сравнению с другими способами, которые предусматривают целевую амплификацию и/или селективное обогащение, за счет того, что они надежнее сохраняют исходные аллельные частоты образца в каждом полиморфном локусе, и если образец является чистым геномным образцом от одного индивидуума, и если он представляет собой смесь от нескольких индивидуумов.According to an embodiment, the method disclosed herein provides a selective enrichment technique that preserves the relative allelic frequencies that are present in the source DNA sample at each of the target loci (e.g., each polymorphic locus) from a set of target loci (e.g., polymorphic loci). Although enrichment is advisable, in particular, for methods for analyzing polymorphic loci, these enrichment methods can, if required, be easily adapted for non-polymorphic loci. In some embodiments, the amplification and / or selective enrichment technique may include PCR, for example, ligation-mediated PCR, capture of fragments by hybridization, molecular inversion probes, or other circularization probes. In some embodiments, amplification or selective enrichment methods may include the use of probes, characterized in that when correctly hybridized to the target sequence, the 3-end or 5-end of the nucleotide probe is separated from the polymorphic site of the allele by a small number of nucleotides. This separation reduces the preferential amplification of one allele, called the shift in the number of alleles. This is an improvement over methods that involve the use of probes in which the 3-end or 5-end of a correctly hybridized probe is directly adjacent or located very close to the polymorphic site of the allele. In an embodiment, probes in which the hybridization region may or obviously contains a polymorphic site are excluded. Polymorphic sites at the hybridization site may cause uneven hybridization or generally inhibit hybridization in some alleles, resulting in preferential amplification of certain alleles. These embodiments are an improvement over other methods that include targeted amplification and / or selective enrichment, because they more reliably preserve the original allelic frequencies of the sample at each polymorphic locus, and if the sample is a pure genomic sample from one individual, and if it is a mixture of several individuals.

Применение техники обогащения образца ДНК по набору целевых локусов с последующим секвенированием в качестве части способа пренатального неинвазивного определения аллелей или определения плоидности может обеспечивать ряд неожиданных преимуществ. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, указанный способ включает измерение генетических данных для применения с основанным на информатике способом, таким как PARENTAL SUPPORTтм (PS). Конечным результатом некоторых вариантов осуществления является получение дающих основания для принятия определенных мер генетических данных эмбриона или плода. Существует множество способов, которые могут использоваться для измерения генетических данных индивидуума и/или родственных индивидуумов в качестве части осуществляемых способов. Согласно варианту осуществления в настоящем документе раскрывается способ обогащения по концентрации набора целевых аллелей, при этом указанный способ включает один или несколько из следующих этапов: целевая амплификация генетического материала, добавление специфичных в отношении локусов олигонуклеотидных зондов, лигирование определенных цепей ДНК, выделение наборов требуемой ДНК, удаление нежелательных компонентов реакции, обнаружение определенных последовательностей ДНК посредством гибридизации и обнаружение последовательности одной или множества цепей ДНК с применением способов секвенирования ДНК. В некоторых случаях цепи ДНК могут относиться к целевому генетическому материалу, в некоторых случаях они могут относиться к праймерам, в некоторых случаях они могут относиться к синтезированным последовательностям или их комбинациям. Указанные этапы могут проводиться в различном порядке.Using a DNA sample enrichment technique for a set of target loci followed by sequencing as part of the prenatal non-invasive allele determination method or ploidy determination can provide a number of unexpected advantages. In some embodiments disclosed herein, said method comprises measuring genetic data for use with an informatics-based method such as PARENTAL SUPPORT (PS). The end result of some embodiments is to provide a basis for the adoption of certain measures of the genetic data of the embryo or fetus. There are many methods that can be used to measure the genetic data of an individual and / or related individuals as part of the methods being implemented. According to an embodiment, this document discloses a concentration enrichment method for a set of target alleles, the method comprising one or more of the following steps: target amplification of the genetic material, addition of locus-specific oligonucleotide probes, ligation of specific DNA strands, isolation of the desired DNA sets, removal of undesired reaction components, detection of specific DNA sequences through hybridization and detection sequentially whith one or a plurality of DNA strands using DNA sequencing methods. In some cases, DNA strands can relate to the target genetic material, in some cases they can relate to primers, in some cases they can relate to synthesized sequences or their combinations. These steps can be carried out in a different order.

Например, этап универсальной амплификации ДНК перед целевой амплификацией может обеспечивать ряд преимуществ, таких как устранение риска возникновения эффекта «бутылочного горлышка» и уменьшение смещения числа аллелей. ДНК может быть смешана с олигонуклеотидным зондом, способным гибридизироваться с двумя соседними областями целевой последовательности, с одной с каждой стороны. После гибридизации концы зонда могут быть соединены добавлением полимеразы, средства для лигирования, и любых необходимых реагентов, обеспечивающих циркуляризацию зонда. После циркуляризации может быть добавлена экзонуклеаза для расщепления нециркуляризованного генетического материала, с последующим выявлением циркуляризованного зонда. ДНК может быть смешана с ПЦР-праймерами, способными гибридизоваться с двумя соседними областями целевой последовательности, с одной с каждой стороны. После гибридизации концы зонда могут быть соединены добавлением полимеразы, средства для лигирования, и любых необходимых для завершения ПЦР-амплификации реагентов. Амплифицированная или неамплифицированная ДНК может быть целью для зондов гибридного захвата, нацеленных на набор локусов; после гибридизации зонд может быть локализован и выделен из смеси для получения смеси ДНК, обогащенной по целевым последовательностям.For example, the step of universal DNA amplification over targeted amplification can provide a number of advantages, such as eliminating the risk of a “bottleneck” effect and reducing the shift in the number of alleles. DNA can be mixed with an oligonucleotide probe capable of hybridizing with two adjacent regions of the target sequence, one on each side. After hybridization, the ends of the probe can be connected by the addition of polymerase, a ligation agent, and any necessary reagents to circulate the probe. After circularization, an exonuclease may be added to cleave the non-circularized genetic material, followed by detection of the circularized probe. DNA can be mixed with PCR primers capable of hybridizing with two adjacent regions of the target sequence, on one side of each. After hybridization, the ends of the probe can be connected by the addition of polymerase, a means for ligation, and any reagents necessary to complete PCR amplification. Amplified or unamplified DNA may be the target for hybrid capture probes aimed at a set of loci; after hybridization, the probe can be localized and isolated from the mixture to obtain a DNA mixture enriched in the target sequences.

Применение способа нацеливания на определенные локусы с последующим секвенированием в качестве части способа определения аллелей или определения плоидности может обеспечивать ряд неожиданных преимуществ. Некоторые возможные способы нацеливания на ДНК или преимущественного обогащения ДНК включают применение зондов циркуляризации, связанных инвертированных зондов (LIP, MIP), способы захвата гибридизацией, такие как SURESELECT и стратегии целевой ПЦР или амплификации опосредованной лигированием ПЦР.The use of the method of targeting certain loci with subsequent sequencing as part of the method for determining alleles or determining ploidy can provide a number of unexpected advantages. Some possible methods of targeting DNA or preferentially enriching DNA include the use of circularization probes, coupled inverted probes (LIP, MIP), hybridization capture methods such as SURESELECT and target PCR strategies or amplification by ligation-mediated PCR.

Согласно некоторым вариантам осуществления способ согласно настоящему раскрытию включает измерение генетических данных для применения со способом на основе информатики, таким как PARENTAL SUPPORTтм (PS), описанный ниже в настоящем документе. PARENTAL SUPPORTтм представляет собой метод обработки генетических данных на основе информатики, аспекты которого описаны в настоящем документе. Конечным результатом некоторых из вариантов осуществления являются дающие основания для принятия определенных мер генетические данные эмбриона или плода, после получения которых принимается клиническое решение, базирующееся на указанных дающих основания для принятия мер данных. Алгоритмы, лежащие в основе метода PS, учитывают измеренные генетические данные целевого индивидуума, часто - эмбриона или плода, и измеренные генетические данные родственных индивидуумов, и обеспечивают повышенную точность определения генетического статуса целевого индивидуума. Согласно варианту осуществления измеренные генетические данные используются в контексте осуществления определений плоидности при пренатальной генетической диагностике. Согласно варианту осуществления измеренные генетические данные используются в контексте осуществлений определения плоидности или аллельных признаков в эмбрионах при оплодотворении in vitro. Существует множество способов, которые могут быть использованы для измерения генетических данных индивидуума и/или родственных индивидуумов в вышеупомянутых контекстах. Различные способы включают ряд этапов, которые часто задействуют амплификацию генетического материала, добавление олигонуклеотидных зондов, лигирование конкретных цепей ДНК, выделение наборов нужной ДНК, удаление нежелательных компонентов реакции, обнаружение определенных последовательностей ДНК посредством гибридизации, обнаружение последовательности одной или множества цепей ДНК с применением способов секвенирования ДНК. В некоторых случаях цепи ДНК могут относиться к целевому генетическому материалу, в некоторых случаях они могут относиться к праймерам, в некоторых случаях они могут относиться к синтезированным последовательностям или их комбинациям. Указанные этапы могут проводиться в различном порядке.In some embodiments, the method of the present disclosure includes measuring genetic data for use with an informatics-based method such as PARENTAL SUPPORT (PS), described later herein. PARENTAL SUPPORT tm is an informatics-based genetic data processing method, aspects of which are described in this document. The end result of some of the embodiments is the genetic data of the embryo or fetus that give rise to certain measures, after which a clinical decision is made based on the data that gives the basis for the adoption of measures. The algorithms underlying the PS method take into account the measured genetic data of the target individual, often the embryo or fetus, and the measured genetic data of related individuals, and provide increased accuracy in determining the genetic status of the target individual. In an embodiment, the measured genetic data is used in the context of implementing ploidy determinations in prenatal genetic diagnosis. In an embodiment, the measured genetic data is used in the context of realizing the determination of ploidy or allelic traits in embryos during in vitro fertilization. There are many methods that can be used to measure the genetic data of an individual and / or related individuals in the above contexts. Various methods include a series of steps that often involve amplification of genetic material, addition of oligonucleotide probes, ligation of specific DNA strands, isolation of desired DNA sets, removal of undesired reaction components, detection of specific DNA sequences through hybridization, detection of a sequence of one or multiple DNA chains using sequencing methods DNA In some cases, DNA strands can relate to the target genetic material, in some cases they can relate to primers, in some cases they can relate to synthesized sequences or their combinations. These steps can be carried out in a different order.

Отметим, что теоретически возможно нацеливание на любое число локусов в геноме, от 1 локуса до значительно превышающего 1000000 числа локусов. Если образец ДНК подвергается нацеливанию, а затем секвенируется, образец будет обогащен по процентному содержанию аллелей, которые считываются секвенатором, относительно их природной концентрации в указанном образце. Степень обогащения может принимать любые значения от 1% (или даже менее) до 10-кратной, 100-кратной, 1000-кратной или даже характеризоваться многомиллионной кратностью. В геноме человека содержится приблизительно 3 миллиарда пар оснований, и нуклеотиды, включающие приблизительно 75 млн полиморфных локусов. Чем больше число локусов, на которые осуществляют нацеливание, тем меньшая степень обогащения возможна. Чем меньше число локусов, на которые осуществляют нацеливание, тем большая степень обогащения возможна, и тем большая глубина секвенирования может быть достигнута на указанных локусах для заданного числа считываний последовательностей.Note that it is theoretically possible to target any number of loci in the genome, from 1 locus to significantly exceeding 1,000,000 the number of loci. If the DNA sample is targeted and then sequenced, the sample will be enriched in the percentage of alleles that are read by the sequencer, relative to their natural concentration in the specified sample. The degree of enrichment can take on any value from 1% (or even less) to 10-fold, 100-fold, 1000-fold, or even be characterized by multi-million fold. The human genome contains approximately 3 billion base pairs, and nucleotides comprising approximately 75 million polymorphic loci. The larger the number of loci to be targeted, the less enrichment is possible. The smaller the number of loci to be targeted, the greater the degree of enrichment possible, and the greater the depth of sequencing can be achieved at these loci for a given number of sequence readings.

Согласно варианту осуществления, раскрытому в настоящем описании, нацеливание или преимущественное обогащение может быть полностью сфокусировано на SNP. Согласно варианту осуществления нацеливание или преимущественное обогащение может быть сфокусировано на любом полиморфном сайте. Доступен ряд коммерческих продуктов для нацеливания для обогащения экзонов. Неожиданным образом, нацеливание исключительно на SNP или исключительно на полиморфные локусы является, в частности, благоприятным при использовании способа NPD, который основан на распределениях аллелей. Также в опубликованных источниках описаны способы NPD с использованием секвенирования, например, в патенте США №7888017, где задействован анализ числа считываний, при этом подсчет считываний фокусируется на подсчете считываний, которые картируются с определенной хромосомой, при этом анализируемые считывания последовательностей не сфокусированы на областях генома, которые являются полиморфными. В таких методиках, не фокусирующихся на полиморфных аллелях, нацеливание или преимущественное обогащение набора аллелей не будет давать настолько благоприятный эффект.According to an embodiment disclosed herein, targeting or preferential enrichment can be fully focused on SNP. In an embodiment, targeting or preferential enrichment can be focused on any polymorphic site. A number of commercial targeting products are available for exon enrichment. Surprisingly, targeting exclusively to SNPs or exclusively to polymorphic loci is particularly beneficial when using the NPD method, which is based on allele distributions. Also, published sources describe NPD methods using sequencing, for example, in US Pat. No. 7,888,017, where the analysis of the number of readings is involved, while the read count focuses on the count of readings that map with a particular chromosome, while the analyzed readings of the sequences are not focused on genome regions which are polymorphic. In such techniques that do not focus on polymorphic alleles, targeting or preferentially enriching a set of alleles will not produce such a beneficial effect.

Согласно варианту осуществления настоящего раскрытия можно применять способ нацеливания, направленный на SNP, для обогащения генетического образца в полиморфных областях генома. Согласно варианту осуществления возможно сфокусироваться на небольшом количестве SNP, например, от 1 до 100 SNP, или на большем количестве, например, от 100 до 1000, от 1000 до 10000, от 10000 до 100000 или более 100000 SNP. Согласно варианту осуществления возможно сфокусироваться на одной или небольшом количестве хромосом, которые коррелируют с рождениями живых трисомиков, например, на хромосомах 13, 18, 21, X и Y, или некоторой их комбинации. Согласно варианту осуществления возможно обогащение целевых SNP с небольшой кратностью, например, в 1,01-100 раз, или с большей кратностью, например, от 100 раз до 1000000 раз или даже более чем в 1000000 раз. Согласно варианту осуществления, раскрытому в настоящем описании, может быть использован способ нацеливания для создания образца ДНК, который преимущественно обогащают по полиморфным областях генома. Согласно варианту осуществления возможно использовать указанный способ для создания смеси ДНК с любыми из указанных характеристик, при этом смесь ДНК содержит материнскую ДНК, а также свободноплавающую плодную ДНК. Согласно варианту осуществления возможно использовать этот способ для создания смеси ДНК, которая характеризуется любой комбинацией указанных факторов. Например, описанный в настоящем документе способ может быть использован для получения смеси ДНК, которая содержит материнскую ДНК и плодную ДНК, и которая преимущественно обогащается ДНК, соответствующей 200 SNP, все из которых расположены в любой из хромосом 18 или 21, и обогащаются в среднем в 1000 раз. Согласно другому примеру возможно использовать этот способ для создания смеси ДНК, которая преимущественно обогащена по 10000 SNP, все или почти все из которых расположены в хромосомах 13, 18, 21, X и Y, и среднее обогащение локусами превышает 500-кратное. Любые описанные в настоящем документе способы нацеливания могут быть использованы для создания смесей ДНК, преимущественно обогащенных определенными локусами.According to an embodiment of the present disclosure, an SNP targeting method can be used to enrich the genetic sample in polymorphic regions of the genome. According to an embodiment, it is possible to focus on a small amount of SNPs, for example, from 1 to 100 SNPs, or a larger amount, for example, from 100 to 1000, from 1000 to 10000, from 10000 to 100000, or more than 100000 SNPs. According to an embodiment, it is possible to focus on one or a small number of chromosomes that correlate with the births of living trisomics, for example, on chromosomes 13, 18, 21, X and Y, or some combination thereof. According to an embodiment, it is possible to enrich the target SNPs with a small ratio, for example, 1.01-100 times, or with a higher ratio, for example, from 100 times to 1,000,000 times, or even more than 1,000,000 times. According to an embodiment disclosed herein, a targeting method can be used to create a DNA sample that is predominantly enriched in polymorphic regions of the genome. According to an embodiment, it is possible to use this method to create a DNA mixture with any of these characteristics, wherein the DNA mixture contains maternal DNA as well as free floating fetal DNA. In an embodiment, it is possible to use this method to create a DNA mixture that is characterized by any combination of these factors. For example, the method described herein can be used to produce a DNA mixture that contains maternal DNA and fetal DNA, and which is predominantly enriched with DNA corresponding to 200 SNPs, all of which are located on any of chromosomes 18 or 21, and enriched on average in 1000 times. According to another example, it is possible to use this method to create a DNA mixture that is predominantly enriched in 10000 SNPs, all or almost all of which are located on chromosomes 13, 18, 21, X, and Y, and the average enrichment in loci exceeds 500-fold. Any targeting methods described herein can be used to create mixtures of DNA, predominantly enriched in specific loci.

Согласно некоторым вариантам осуществления способ согласно настоящему раскрытию также включает измерение ДНК в смешанной фракции с применением высокопроизводительного секвенатора ДНК, отличающийся тем, что ДНК в указанной смешанной фракции содержит непропорциональное число последовательностей из одной или нескольких хромосомах, при этом указанные одна или несколько хромосом выбраны из группы, включающей хромосому 13, хромосому 18, хромосому 21, хромосому X, хромосому Y и их комбинации.According to some embodiments, the method according to the present disclosure also includes measuring DNA in a mixed fraction using a high throughput DNA sequencer, characterized in that the DNA in said mixed fraction contains a disproportionate number of sequences from one or more chromosomes, wherein said one or more chromosomes are selected from the group including chromosome 13, chromosome 18, chromosome 21, chromosome X, chromosome Y, and combinations thereof.

В настоящем документе описаны три способа: мультиплексная ПЦР, целевой захват гибридизацией и связанные инвертированные зонды (LIP), которые могут применяться для получения и анализа измерений по достаточному числу полиморфных локусов в образце материнской плазмы для обнаружения плодной анеуплоидии; это не подразумевает исключения других способов селективного обогащения целевых локусов. С равным успехом могут использоваться другие способы без отступления от сути способа. В каждом случае анализируемый полиморфизм может включать однонуклеотидные полиморфизмы (SNP), небольшие инсерционно-делеционные полиморфизмы или STR. Предпочтительный способ включает применение SNP. Каждый подход обеспечивает получение данных о частоте аллелей; данные частоты аллелей для каждого целевого локуса и/или совместного распределения частот аллелей для указанных локусов могут быть проанализированы для определения плоидности плода. Каждый способ характеризуется собственными ограничениями из-за ограниченности исходного материал и того факта, что материнская плазма состоит из смеси материнской и плодной ДНК. Указанный способ может быть скомбинирован с другими подходами для достижения более точного определения. Согласно варианту осуществления указанный способ может быть скомбинирован со способом подсчета последовательностей, таким как описанный в патенте США №7888017. Описанные подходы также могут быть использованы для неинвазивного определения отцовства по образцам плазмы матери плода. Кроме того, каждый способ может применяться на других смесях ДНК или чистых образцах ДНК для обнаружения присутствия или отсутствия анеуплоидных хромосом, для генотипирования большого числа SNP в расщепленных образцах ДНК, для выявления вариаций числа копий сегмента (CNV), для обнаружения других представляющих интерес генотипических состояний или некоторой их комбинации.This document describes three methods: multiplex PCR, targeted capture by hybridization, and coupled inverted probes (LIP), which can be used to obtain and analyze measurements from a sufficient number of polymorphic loci in a sample of maternal plasma to detect fetal aneuploidy; this does not imply the exclusion of other methods of selective enrichment of target loci. Other methods can be used with equal success without departing from the essence of the method. In each case, the analyzed polymorphism may include single nucleotide polymorphisms (SNP), small insertion-deletion polymorphisms, or STR. A preferred method involves the use of SNP. Each approach provides data on the frequency of alleles; allele frequency data for each target locus and / or joint distribution of allele frequencies for these loci can be analyzed to determine ploidy of the fetus. Each method is characterized by its own limitations due to the limited source material and the fact that maternal plasma consists of a mixture of maternal and fetal DNA. The specified method can be combined with other approaches to achieve a more accurate determination. According to an embodiment, said method can be combined with a sequence counting method, such as described in US Pat. No. 7,888,017. The described approaches can also be used for non-invasive determination of paternity by plasma samples of the mother of the fetus. In addition, each method can be used on other DNA mixtures or pure DNA samples to detect the presence or absence of aneuploid chromosomes, to genotype a large number of SNPs in split DNA samples, to detect variations in segment copy number (CNV), to detect other genotypic states of interest or some combination thereof.

Точное измерение отельных распределений в образцеAccurate measurement of individual distributions in a sample

Для оценки распределения аллелей в образце могут быть использованы современные методы секвенирования. Один такой способ включает случайный выбор последовательностей из пула ДНК, называемый секвенированием «методом дробовика». Доля конкретного аллеля в данных секвенирования, как правило, очень невелика и может быть определена с применением простой статистики. Геном человека содержит приблизительно 3 миллиарда пар оснований. Таким образом, если при используемом методе секвенирования считывается 100 пар оснований, конкретный аллель будет измерен приблизительно один раз на каждые 30 миллионов считываний последовательностей.To assess the distribution of alleles in the sample, modern sequencing methods can be used. One such method involves randomly selecting sequences from a DNA pool, called “shotgun method” sequencing. The proportion of a particular allele in sequencing data is usually very small and can be determined using simple statistics. The human genome contains approximately 3 billion base pairs. Thus, if 100 base pairs are read with the sequencing method used, a particular allele will be measured approximately once for every 30 million sequence reads.

Согласно варианту осуществления способ согласно настоящему раскрытию используют для определения присутствия или отсутствия двух или более разных гаплотипов, которые содержат одинаковый набор локусов в образце ДНК по измеренным аллельным распределениям локусов указанной хромосомы. Указанные разные гаплотипы могут представлять две разных гомологичных хромосомы одного индивидуума, три разных гомологичных хромосомы трисомного индивидуума, три разных гомологичных гаплотипа матери и плода, при этом один из указанных гаплотипов является общим для матери и плода, 3 или 4 гаплотипа матери и плода, при этом один или два гаплотипа являются общими для матери и плода, или другие комбинации. Аллели, полиморфные при всех гаплотипах, обычно более информативны, хотя любые аллели, по которым мать и отец не оба гомозиготны, позволят получить подходящую информацию путем измерения аллельных распределений, помимо информации, доступной при простом анализе числа считываний.According to an embodiment, the method according to the present disclosure is used to determine the presence or absence of two or more different haplotypes that contain the same set of loci in a DNA sample from the measured allelic distributions of the loci of the specified chromosome. These different haplotypes can represent two different homologous chromosomes of the same individual, three different homologous chromosomes of the trisome individual, three different homologous haplotypes of the mother and the fetus, one of these haplotypes being common for the mother and the fetus, 3 or 4 haplotypes of the mother and the fetus, one or two haplotypes are common to the mother and the fetus, or other combinations. Alleles that are polymorphic for all haplotypes are usually more informative, although any alleles for which mother and father are not both homozygous will provide suitable information by measuring allelic distributions, in addition to information available by simple analysis of the number of readings.

Секвенирование такого образца «методом дробовика», однако, крайне неэффективно, так как дает многочисленные последовательности для областей, не полиморфных для разных гаплотипов в указанном образце, или для хромосом, не представляющих интерес, и, таким образом, не дает информации о доле целевых гаплотипов. В настоящем документе описаны способы, специфично нацеленные на сегменты ДНК в образце, которые, скорее всего, являются полиморфными в геноме, и/или способы преимущественного обогащения такими сегментами ДНК в указанном образце, для увеличения объема информации об аллелях, полученной с применением секвенирования. Отметим, что для того, чтобы измеренные аллельные распределения в обогащенном образце на самом деле отражали фактические количества, присутствующие у целевого индивидуума, критически важно отсутствие или незначительный уровень преимущественного обогащения по одному аллелю относительно другого аллеля в заданных локусах в целевых сегментах. Современные известные в данной области техники способы нацеливания на полиморфные аллели сконструированы таким образом, чтобы обеспечивать надежное обнаружение по меньшей мере некоторых из присутствующих аллелей. Однако указанные способы не предназначены для измерения несмещенных аллельных распределений полиморфных аллелей, присутствующих в исходной смеси. Неочевидно, что какой-либо конкретный способ целевого обогащения обеспечит получение обогащенного образца, в котором измеренные аллельные распределения будут точно представлять аллельные распределения, характерные для исходного неамплифицированного образца, чем любой другой способ. Хотя теоретически можно ожидать, что многие методы обогащения могут обеспечить достижение указанной цели, рядовому специалисту в данной области техники будет понятно, что при современных методах амплификации, нацеливания и других методах преимущественного обогащения присутствует немалый вклад стохастической или детерминистической стандартной ошибки (смещения). Один вариант осуществления описанного в настоящем документе способа позволяет амплифицировать множество аллелей, присутствующих в смеси ДНК, которые соответствуют заданному локусу в геноме, или преимущественно обогащать ими образец таким образом, что степень обогащения каждым из аллелей практически одинакова. Другими словами, указанный способ позволяет в целом увеличить относительные количества аллелей, присутствующих в смеси, с сохранением по существу тех же отношений между аллелями, соответствующими каждому локусу, что и в исходной смеси ДНК. Некоторые описанные способы преимущественного обогащения локусов могут приводить к смещениям числа аллелей, превышающим 1%, превышающим 2%, превышающим 5% и даже превышающим 10%. Такое преимущественное обогащение может быть обусловлено смещением захвата, когда используется захват методом гибридизации, или смещением амплификации, которая может быть незначительной в каждом цикле, но значительно усугубиться за 20, 30 или 40 циклов. Для целей раскрытого изобретения сохранение отношения по существу на том же уровне означает, что отношение аллелей в исходной смеси, поделенное на отношение аллелей в конечной смеси, составляет от 0,95 до 1,05, от 0,98 до 1,02, от 0,99 до 1,01, от 0,995 до 1,005, от 0,998 до 1,002, от 0,999 до 1,001 или от 0,9999 до 1,0001. Отметим, что расчет аллельных отношений, представленный в настоящем документе, не может быть использован для определения состояния плоидности целевого индивидуума, и может служить только метрикой для оценки смещения подсчета аллелей.Sequencing such a sample using the “shotgun method”, however, is extremely inefficient, since it gives numerous sequences for regions that are not polymorphic for different haplotypes in the specified sample, or for chromosomes that are not of interest, and thus does not provide information about the proportion of target haplotypes . This document describes methods that specifically target segments of DNA in a sample that are likely to be polymorphic in the genome, and / or methods of preferentially enriching such segments of DNA in the specified sample to increase the amount of allele information obtained using sequencing. Note that in order for the measured allelic distributions in the enriched sample to actually reflect the actual amounts present in the target individual, it is critically important that there is no or insignificant level of preferential enrichment for one allele relative to the other allele at given loci in the target segments. Current methods of targeting polymorphic alleles known in the art are designed to provide reliable detection of at least some of the alleles present. However, these methods are not intended to measure unbiased allelic distributions of polymorphic alleles present in the initial mixture. It is not obvious that any particular method of targeted enrichment will provide an enriched sample in which the measured allelic distributions will accurately represent the allelic distributions characteristic of the original unamplified sample than any other method. Although it can be theoretically expected that many enrichment methods can achieve this goal, an ordinary specialist in the art will understand that with modern methods of amplification, targeting and other methods of preferential enrichment, there is a considerable contribution of stochastic or deterministic standard error (bias). One embodiment of the method described herein allows amplification of a plurality of alleles present in a DNA mixture that correspond to a given locus in the genome, or advantageously enrich the sample with them in such a way that the degree of enrichment with each of the alleles is almost the same. In other words, this method allows you to generally increase the relative amounts of alleles present in the mixture, while maintaining essentially the same relationships between the alleles corresponding to each locus as in the original DNA mixture. Some of the described methods for the preferential enrichment of loci can lead to shifts in the number of alleles exceeding 1%, exceeding 2%, exceeding 5% and even exceeding 10%. This preferential enrichment may be due to a shift in capture when capture is used by the hybridization method, or a shift in amplification, which may be negligible in each cycle, but significantly exacerbated in 20, 30, or 40 cycles. For the purposes of the disclosed invention, maintaining the ratio at substantially the same level means that the ratio of alleles in the initial mixture, divided by the ratio of alleles in the final mixture, is from 0.95 to 1.05, from 0.98 to 1.02, from 0 , 99 to 1.01, 0.995 to 1.005, 0.998 to 1.002, 0.999 to 1.001, or 0.9999 to 1.0001. Note that the calculation of allelic ratios presented in this document cannot be used to determine the ploidy state of the target individual, and can only serve as a metric for estimating the shift in allele count.

Согласно варианту осуществления, после того как смесь была преимущественно обогащена по набору целевых локусов, она может быть секвенирована с применением любого из инструментов для секвенирования предыдущего, современного или следующего поколения, секвенирующих клональный образец (образец, полученный из одной молекулы; примеры включают ILLUMINA GAIIx, ILLUMINA HiSeq, LIFE ТЕХНОЛОГИЙ SOLiD, 5500XL). Отношения могут оцениваться посредством секвенирования специфичных аллелей в пределах целевой области. Указанные считывания последовательностей могут быть проанализированы и подсчитаны в соответствии с типом аллеля, и, соответственно, могут быть определены отношения разных аллелей. Для вариаций длиной в одно или несколько оснований обнаружение аллелей проводится с помощью секвенирования, и важно, чтобы считывание последовательности перекрывало исследуемый аллель, для оценки аллельного состава захваченной молекулы. Общее число захваченных молекул, анализируемых в генотипе, может быть увеличено посредством увеличения длины считывания последовательности. Полное секвенирование всех молекул гарантирует получение максимального количества данных, доступного в обогащенном пуле. Однако в настоящее время секвенирование является дорогим методом, и способ, позволяющий измерять аллельные распределения с применением меньшего числа считываний последовательностей, представлял бы значительную ценность. Кроме того, существуют технические ограничения для максимальной возможной длины считывания, а также ограничения точности по мере увеличения длины считывания. Длина наиболее подходящих аллелей составляет одно или несколько оснований, однако теоретически может быть использован любой аллель, длина которого меньше длины считывания последовательности. Хотя встречаются разнообразные вариации аллелей, примеры, представленные в настоящем документе, фокусируются на SNP или вариациях, включающих всего несколько соседних пар оснований. Вариации большего размера, такие как вариации числа копий сегмента, во многих случаях могут быть обнаружены по объединениям указанных вариаций меньшего размера, поскольку дуплицируются целые коллекции SNP, внутренних для данного сегмента. Варианты большего размера, чем несколько оснований, такие как STR, требуют отдельного рассмотрения, и некоторые способы нацеливания будут работать, тогда как другие - нет.According to an embodiment, after the mixture has been predominantly enriched in a set of target loci, it can be sequenced using any of the previous, modern or next generation sequencing tools sequencing the clonal sample (single molecule sample; examples include ILLUMINA GAIIx, ILLUMINA HiSeq, LIFE TECHNOLOGY SOLiD, 5500XL). Relationships can be evaluated by sequencing specific alleles within the target region. These sequence readings can be analyzed and counted according to the type of allele, and accordingly, the ratios of different alleles can be determined. For variations with a length of one or more bases, the detection of alleles is carried out by sequencing, and it is important that the reading of the sequence overlaps the studied allele in order to evaluate the allelic composition of the captured molecule. The total number of captured molecules analyzed in the genotype can be increased by increasing the reading length of the sequence. Complete sequencing of all molecules ensures the maximum amount of data available in the enriched pool. However, sequencing is currently an expensive method, and a method for measuring allelic distributions using fewer sequence readings would be of significant value. In addition, there are technical limitations for the maximum possible read length, as well as limitations in accuracy as the read length increases. The length of the most suitable alleles is one or more bases, however, theoretically, any allele with a length less than the length of the reading sequence can be used. Although a variety of allele variations are found, the examples presented herein focus on SNPs or variations involving only a few neighboring base pairs. Variations of a larger size, such as variations in the number of copies of a segment, can in many cases be detected by combining the indicated variations of a smaller size, since entire collections of SNPs internal to that segment are duplicated. Variants larger than a few reasons, such as STR, need to be considered separately, and some targeting methods will work, while others will not.

Существуют многочисленные способы нацеливания, которые могут быть использованы для специфичного выделения и обогащения одним или множеством вариантных положений в геноме. Как правило, они основаны на использовании инвариантной последовательности, фланкирующей вариантную последовательность. Известны источники, где описано нацеливание в контексте секвенирования, при этом субстратом является материнская плазма (см., например, Liao et al., Clin. Chem. 2011; 57 (1): pp. 92-101). Однако в указанных подходах используются зонды для нацеливания на экзоны, и они не фокусируются на нацеливании на полиморфные области генома. Согласно варианту осуществления способ согласно настоящему раскрытию включает применение зондов для нацеливания, которые фокусируются исключительно или почти исключительно на полиморфных областях. Согласно варианту осуществления способ согласно настоящему раскрытию включает применение зондов для нацеливания, которые фокусируются исключительно или почти исключительно на SNP. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, целевые полиморфные сайты состоят по меньшей мере на 10% из SNP, по меньшей мере на 20% из SNP, по меньшей мере на 30% из SNP, по меньшей мере на 40% из SNP, по меньшей мере на 50% из SNP, по меньшей мере на 60% из SNP, по меньшей мере на 70% из SNP, по меньшей мере на 80% из SNP, по меньшей мере на 90% из SNP, по меньшей мере на 95% из SNP, по меньшей мере на 98% из SNP, по меньшей мере на 99% из SNP, по меньшей мере на 99,9% из SNP или только из SNP.There are numerous targeting methods that can be used to specifically isolate and enrich one or many variant positions in the genome. As a rule, they are based on the use of an invariant sequence flanking the variant sequence. Sources are known for targeting in the context of sequencing, wherein the substrate is maternal plasma (see, for example, Liao et al., Clin. Chem. 2011; 57 (1): pp. 92-101). However, these approaches use probes to target exons, and they do not focus on targeting polymorphic regions of the genome. According to an embodiment, the method of the present disclosure includes the use of targeting probes that focus solely or almost exclusively on polymorphic regions. According to an embodiment, the method of the present disclosure includes the use of targeting probes that focus exclusively or almost exclusively on SNPs. According to some embodiments disclosed herein, target polymorphic sites are comprised of at least 10% SNPs, at least 20% SNPs, at least 30% SNPs, at least 40% SNPs, at least 50% of the SNP, at least 60% of the SNP, at least 70% of the SNP, at least 80% of the SNP, at least 90% of the SNP, at least 95 % of SNPs, at least 98% of SNPs, at least 99% of SNPs, at least 99.9% of SNPs, or only SNPs.

Согласно варианту осуществления способ согласно настоящему раскрытию может использоваться для определения генотипов (композиций оснований, составляющих ДНК в конкретных локусах) и относительных долей указанных генотипов в смеси ДНК молекул, которые могут происходить от одного или ряда генетически различных индивидуумов. Согласно варианту осуществления способ согласно настоящему раскрытию может использоваться для определения генотипов набора полиморфных локусов и относительных отношений количеств разных аллелей, присутствующих в этих локусах. Согласно варианту осуществления полиморфные локусы могут состоять полностью из SNP. Согласно варианту осуществления полиморфные локусы могут содержать SNP, единичные тандемные повторы и другие полиморфизмы. Согласно варианту осуществления способ согласно настоящему раскрытию могут использоваться для определения относительных распределений аллелей в наборе полиморфных локусов в смеси ДНК, отличающейся тем, что она содержит ДНК, происходящую от матери, и ДНК, происходящую от плода. Согласно варианту осуществления совокупные аллельные распределения могут быть определены в смеси ДНК, выделенной из крови беременной женщины. Согласно варианту осуществления аллельные распределения в наборе локусов могут использоваться для определения состояния плоидности одной или нескольких хромосом вынашиваемого плода.According to an embodiment, the method according to the present disclosure can be used to determine genotypes (base compositions constituting DNA at specific loci) and relative fractions of said genotypes in a mixture of DNA molecules that can be derived from one or a number of genetically different individuals. According to an embodiment, the method according to the present disclosure can be used to determine the genotypes of a set of polymorphic loci and the relative ratios of the amounts of different alleles present at these loci. In an embodiment, polymorphic loci may consist entirely of SNPs. In an embodiment, polymorphic loci may contain SNPs, single tandem repeats, and other polymorphisms. According to an embodiment, the method according to the present disclosure can be used to determine the relative distributions of alleles in a set of polymorphic loci in a mixture of DNA, characterized in that it contains DNA originating from the mother and DNA originating from the fetus. In an embodiment, cumulative allelic distributions can be determined in a mixture of DNA isolated from a pregnant woman’s blood. In an embodiment, allelic distributions in a set of loci can be used to determine the ploidy state of one or more chromosomes of a bearing fetus.

Согласно варианту осуществления смесь молекул ДНК может быть получена из ДНК, экстрагированной из множества клеток одного индивидуума. Согласно варианту осуществления исходная коллекция клеток, из которых получена ДНК, может содержать смесь диплоидных или гаплоидных клеток с одинаковым генотипом или разными генотипами, если указанный индивидуум является мозаиком (гаметическим или соматическим). Согласно варианту осуществления смесь молекул ДНК также может быть получена из ДНК, экстрагированной из единичных клеток. Согласно варианту осуществления смесь молекул ДНК также может быть получена из ДНК, экстрагированной из смеси двух или более клеток одного и того же индивидуума или разных индивидуумов. Согласно варианту осуществления смесь молекул ДНК может быть получена из ДНК, выделенной из биологического материала, который уже высвобожден из клеток, такого как плазма крови, которая, как известно, содержит бесклеточную ДНК. Согласно варианту осуществления указанный биологический материал может представлять собой смесь ДНК от одного или нескольких индивидуумов, как в случае беременности, когда, как было показано, в указанной смеси присутствует плодная ДНК. Согласно варианту осуществления указанный биологический материал может быть получен из смеси клеток, которые были обнаружены в материнской крови, при этом некоторые из указанных клеток происходят от плода. Согласно варианту осуществления указанный биологический материал может представлять собой клетки крови беременной, которая была обогащена плодными клетками.In an embodiment, a mixture of DNA molecules can be obtained from DNA extracted from multiple cells of one individual. According to an embodiment, the initial collection of cells from which the DNA is derived may comprise a mixture of diploid or haploid cells with the same genotype or different genotypes, if said individual is a mosaic (gametic or somatic). In an embodiment, a mixture of DNA molecules can also be obtained from DNA extracted from single cells. According to an embodiment, the mixture of DNA molecules can also be obtained from DNA extracted from a mixture of two or more cells of the same individual or different individuals. In an embodiment, a mixture of DNA molecules can be obtained from DNA isolated from biological material that has already been released from cells, such as blood plasma, which is known to contain cell-free DNA. According to an embodiment, said biological material may be a mixture of DNA from one or more individuals, as in the case of pregnancy, when, as shown, fetal DNA is present in said mixture. According to an embodiment, said biological material can be obtained from a mixture of cells that have been found in maternal blood, some of these cells being derived from the fetus. In an embodiment, said biological material may be pregnant blood cells that have been enriched in fetal cells.

Зонды циркуляризацииCircularization probes

Некоторые варианты осуществления изобретения согласно настоящему раскрытию включают применение «связанных инвертированных зондов» (LIP), которые ранее были описаны в литературе, для амплификации целевых локусов до или после амплификации с применением праймеров, не являющихся LIP, в способах мультиплексной ПЦР согласно настоящему изобретению. LIP представляет собой общий термин, относящийся к технологиям, которые включают создание кольцевой молекулы ДНК, при этом зонды сконструированы так, чтобы гибридизоваться с целевой областью ДНК по обе стороны целевого аллеля, таким образом, что при добавлении подходящих полимераз и/или лигаз, и при наличии подходящих условий, буферов и других реагентов, комплементарная инвертированная область ДНК всего целевого аллеля дополняется с образованием кольцевой петли ДНК, захватывающей информацию, присутствующую в целевом аллеле. LIP могут также называться пре-циркуляризованными зондами, зондами прециркуляризации или зондами циркуляризации. Зонд LIP может представлять собой линейную молекулу ДНК длиной от 50 до 500 нуклеотидов, и, согласно варианту осуществления, длиной от 70 до 100 нуклеотидов; согласно некоторым вариантам осуществления зонд может быть более длинным или более коротким, чем описанные в настоящем документе. Другие варианты осуществления настоящего раскрытия включают различные варианты осуществления технологии LIP, такие как зонды типа «висячий замок» (Padlock) и молекулярные инверсионные зонды (MIP).Some embodiments of the invention according to the present disclosure include the use of “coupled inverted probes” (LIPs), as previously described in the literature, for amplifying target loci before or after amplification using non-LIP primers in the multiplex PCR methods of the present invention. LIP is a generic term for technologies that include the creation of a circular DNA molecule, the probes being designed to hybridize with the target region of DNA on both sides of the target allele, so that when suitable polymerases and / or ligases are added, and the presence of suitable conditions, buffers and other reagents, the complementary inverted DNA region of the entire target allele is complemented with the formation of a circular loop of DNA that captures the information present in the target allele. LIPs may also be called pre-circularized probes, precircularization probes or circularization probes. The LIP probe may be a linear DNA molecule with a length of from 50 to 500 nucleotides, and, according to a variant implementation, a length of from 70 to 100 nucleotides; in some embodiments, the probe may be longer or shorter than those described herein. Other embodiments of the present disclosure include various embodiments of LIP technology, such as padlock probes and molecular inversion probes (MIP).

Один из способов нацеливания на конкретные локализации для секвенирования заключается в синтезировании зондов, в которых 3'- и 5'-концы отжигаются с целевой ДНК в локализациях, примыкающих к целевой области по обе стороны, инвертированным образом, так, что добавление ДНК-полимеразы и ДНК-лигазы приводит к удлинению от 3'-конца за счет добавления оснований к одноцепочечному зонду, комплементарному целевой молекуле (заполнение гэпа), с последующим лигированием нового 3'-конца с 5'-концом исходного зонда, что приводит к образованию кольцевой молекулы ДНК, которая может быть затем отделена от сопутствующей ДНК. Концы зонда сконструированы так, чтобы фланкировать представляющую интерес целевую область. Один аспект указанного подхода обычно называется MIPS и использовался в сочетании с матричными технологиями для определения природы заполняемой последовательности. Одним из недостатком применения MIP в контексте измерения аллельных отношений является то, что этапы гибридизации, циркуляризации и амплификации происходят с неодинаковой скоростью для разных аллелей в одних и тех же локусах. Это приводит к тому, что измеренные отношения аллелей не являются репрезентативными с отношении фактических отношений аллелей в исходной смеси.One way to target specific locations for sequencing is to synthesize probes in which the 3'- and 5'-ends are annealed from the target DNA at locations adjacent to the target region on both sides, inverted, so that the addition of DNA polymerase and DNA ligase leads to an extension from the 3'-end by adding bases to a single-stranded probe complementary to the target molecule (gap filling), followed by ligation of a new 3'-end with the 5'-end of the original probe, which leads to the formation of a ring mole Kula DNA which can then be separated from the concomitant DNA. The ends of the probe are designed to flank the target region of interest. One aspect of this approach is commonly called MIPS and has been used in conjunction with matrix technologies to determine the nature of the sequence being populated. One of the drawbacks of using MIP in the context of measuring allelic ratios is that the stages of hybridization, circularization and amplification occur at different speeds for different alleles at the same loci. This leads to the fact that the measured allele ratios are not representative of the actual ratios of the alleles in the original mixture.

Согласно варианту осуществления зонды циркуляризации конструируют таким образом, что область зонда, которая сконструирована для гибридизации выше (в 5'-направлении) от целевого полиморфного локуса, и область зонда, которая сконструирована для гибридизации ниже (в 3-направлении) от целевого полиморфного локуса, ковалентно соединены остовом, не являющимся нуклеиновой кислотой. Указанный остов может представлять собой любую биосовместимую молекулу или комбинацию биосовместимых молекул. Некоторые примеры подходящих биосовместимых молекул представлены поли(этиленгликолем), поликарбонатами, полиуретанами, полиэтиленами, полипропиленами, сульфоновыми полимерами, силиконом, целлюлозой, фторполимерами, акриловыми соединениями, блок-сополимерами стирола и другими блок-сополимерами.According to an embodiment, the circularization probes are designed so that the region of the probe that is designed to hybridize above (in the 5'-direction) from the target polymorphic locus, and the region of the probe that is designed to hybridize below (in the 3'-direction) from the target polymorphic locus, covalently linked by a non-nucleic acid backbone. The specified skeleton may be any biocompatible molecule or a combination of biocompatible molecules. Some examples of suitable biocompatible molecules are represented by poly (ethylene glycol), polycarbonates, polyurethanes, polyethylene, polypropylenes, sulfonic polymers, silicone, cellulose, fluoropolymers, acrylic compounds, styrene block copolymers and other block copolymers.

Согласно варианту осуществления, раскрытому в настоящем описании, указанный подход был модифицирован с целью облегчения секвенирования как средства исследования заполняемой последовательности. Для сохранения исходной пропорций аллелей исходного образца необходимо принять во внимание по меньшей мере одно ключевое соображение. Вариабельные положения различных аллелей в области заполнения гэпа не должны быть расположены слишком близко к сайтам связывания зонда, поскольку может происходить смещение инициации ДНК-полимеразой, что приведет к перепаду в содержании вариантов. Другое соображение заключается в том, что в связывающих сайтах зонда могут присутствовать дополнительные вариации, которые коррелируют с вариациями в области заполнения гэпа, что может приводить к неодинаковой амплификации разных аллелей. Согласно варианту осуществления, раскрытому в настоящем описании, 3' концы и 5' концы пре-циркуляризованного зонда сконструированы так, чтобы гибридизоваться с основаниями, расположенными на расстоянии одного или нескольких положений от вариантных положений (полиморфных сайтов) целевого аллеля. Число оснований между полиморфным сайтом (SNP или иным) и основанием, для гибридизации с которым сконструирован 3'-конец и/или 5'-конец пре-циркуляризованного зонда, может составлять одно основание, может составлять 2 основания, может составлять 3 основания, может составлять 4 основания, может составлять 5 основания, может составлять 6 оснований, может составлять от 7 до 10 оснований, может составлять от 11 до 15 оснований, или может составлять от 16 до 20 оснований, от 20 до 30 оснований, или от 30 до 60 оснований. Прямой и обратный праймеры могут быть сконструированы так, чтобы гибридизоваться на расстоянии разного числа оснований от полиморфного сайта. Зонды циркуляризации могут быть синтезированы в больших количествах; благодаря современным технологиям синтеза ДНК возможен синтез и, потенциально, объединение очень больших количеств зондов, что позволяет одновременно исследовать многие локусы. Сообщалось о работе более чем с 300000 зондов. В двух следующих работах описан способ, задействующий зонды циркуляризации, который может использоваться для измерения геномных данных целевого индивидуума: Porreca et al., Nature Methods, 2007 4(11), pp. 931-936.; а также Turner et al., Nature Methods, 2009, 6 (5), pp. 315-316. Способы, описанные в указанных источниках, могут использоваться в комбинации с другими способами, описанными в настоящем документе. Определенные этапы способа согласно двум указанным источникам могут использоваться в комбинации с другими этапами других способов, описанных в настоящем документе.According to an embodiment disclosed herein, this approach has been modified to facilitate sequencing as a means of investigating the sequence to be filled. To maintain the original proportions of the alleles of the original sample, at least one key consideration must be taken into account. The variable positions of the different alleles in the gap filling region should not be too close to the probe binding sites, since DNA polymerase initiation may shift, which will lead to a difference in the content of the variants. Another consideration is that additional variations may be present in the binding sites of the probe that correlate with variations in the gap filling region, which may lead to unequal amplification of different alleles. According to an embodiment disclosed herein, the 3 'ends and 5' ends of the pre-circularized probe are designed to hybridize with bases located at one or more positions from the variant positions (polymorphic sites) of the target allele. The number of bases between the polymorphic site (SNP or otherwise) and the base for hybridization with which the 3'-end and / or 5'-end of the pre-circularized probe is designed may be one base, may be 2 bases, may be 3 bases, may make up 4 bases, can make up 5 bases, can make up 6 bases, can make up from 7 to 10 bases, can make up from 11 to 15 bases, or can make up from 16 to 20 bases, from 20 to 30 bases, or from 30 to 60 grounds. Forward and reverse primers can be designed to hybridize at a different number of bases from a polymorphic site. Circularization probes can be synthesized in large quantities; Thanks to modern DNA synthesis technologies, it is possible to synthesize and, potentially, combine very large numbers of probes, which allows us to simultaneously study many loci. More than 300,000 probes have been reported. The following two papers describe a method involving circularization probes that can be used to measure the genomic data of a target individual: Porreca et al., Nature Methods, 2007 4 (11), pp. 931-936 .; and Turner et al., Nature Methods, 2009, 6 (5), pp. 315-316. The methods described in these sources can be used in combination with other methods described in this document. Certain steps of the method according to the two indicated sources can be used in combination with other steps of other methods described herein.

Согласно некоторым вариантам осуществления описанных в настоящем документе способов генетический материал целевого индивидуума необязательно амплифицируют, с последующей гибридизацией пре-циркуляризованных зондов, заполнением основаниями гэпа между двумя концами гибридизованных зондов, лигированием указанных двух концов с образованием циркуляризованного зонда и амплификацией циркуляризованного зонда, с применением, например, амплификации по типу катящегося кольца. После того, как генетическая информация нужного целевого аллеля захвачена подходящим образом сконструированными олигонуклеотидными зондами циркуляризации, например, в системе LIP, генетическую последовательность циркуляризованных зондов можно измерить для получения данных о нужной последовательности. Согласно варианту осуществления подходящим образом сконструированные олигонуклеотидные зонды могут быть циркуляризованы непосредственно в неамплифицированный генетический материал целевого индивидуума и затем амплифицированы. Отметим, что для амплификации исходного генетического материала или циркуляризованных LIP может быть использован ряд процедур амплификации, в том числе амплификация по типу катящегося кольца, MDA или другие протоколы амплификации. Для измерения генетической информации целевого генома могут быть использованы различные способы, например, использование высокопроизводительного секвенирования, секвенирования по Сэнгеру, других способов секвенирования, захвата гибридизацией, захвата циркуляризацией, мультиплексной ПЦР, других способов гибридизации и их комбинаций.In some embodiments of the methods described herein, the genetic material of the target individual is optionally amplified, followed by hybridization of the pre-circularized probes, filling in the gap bases between the two ends of the hybridized probes, ligating the two ends to form a circularized probe, and amplifying the circularized probe using, for example amplification as a rolling ring. After the genetic information of the desired target allele is captured by suitably designed oligonucleotide circularization probes, for example in the LIP system, the genetic sequence of the circularized probes can be measured to obtain data on the desired sequence. According to an embodiment, suitably designed oligonucleotide probes can be circularized directly into the unamplified genetic material of the target individual and then amplified. Note that a number of amplification procedures can be used to amplify the original genetic material or circularized LIPs, including rolling ring amplification, MDA, or other amplification protocols. Various methods can be used to measure the genetic information of the target genome, for example, using high throughput sequencing, Sanger sequencing, other sequencing methods, hybridization capture, circular capture, multiplex PCR, other hybridization methods, and combinations thereof.

После того, как генетический материал индивидуума измерен с использованием одного из вышеупомянутых способов или их комбинации, для определения состояния плоидности одной или нескольких хромосом индивидуума и/или генетического статуса одного аллеля или набора аллелей, в частности, аллелей, коррелирующих с представляющим интерес заболеванием или генетическим статусом, может быть использован способ, основанный на информатике, такой как PARENTAL SUPPORTтм наряду с приемлемыми генетическими измерениями. Отметим, что было описано применение LIP для мультиплексного захвата генетических последовательностей с последующим генотипированием с секвенированием. Однако данные секвенирования, полученные в результате основанной на LIP стратегии амплификации генетического материала, присутствующего в единичной клетке, небольшом количестве клеток или во внеклеточной ДНК, не использовались в целях определения состояния плоидности целевого индивидуума.After the individual’s genetic material has been measured using one of the above methods, or a combination thereof, to determine the ploidy state of one or more chromosomes of the individual and / or the genetic status of one allele or set of alleles, in particular alleles that correlate with the disease or genetic interest By status, a computer science based method such as PARENTAL SUPPORT can be used along with acceptable genetic measurements. Note that the use of LIP for multiplex capture of genetic sequences has been described, followed by genotyping with sequencing. However, the sequencing data obtained as a result of the LIP-based strategy for amplification of the genetic material present in a single cell, a small number of cells or in extracellular DNA was not used to determine the ploidy state of the target individual.

Применение основанного на информатике способа для определения состояния плоидности индивидуума по генетическим данным, измеренным посредством матриц гибридизации, таких как матрица INFINIUM от ILLUMINA, или генного чипа AFFYMETRIX, было описано в документах, цитируемых в других разделах настоящего документа. Однако описанный в настоящем документе способ демонстрирует улучшения по сравнению с ранее описанными в литературе способами. Например, основанный на LIP подход с последующим высокопроизводительным секвенированием неожиданным образом обеспечивает лучшие данные генотипирования, благодаря подходу, характеризующемуся лучшей способностью к мультиплексированию, лучшей специфичностью захвата, лучшей однородностью и незначительным смещением числа аллелей. Увеличение мультиплексирования позволяет проводить нацеливание на большее количество аллелей, что обеспечивает более точные результаты. Лучшая однородность позволяет измерить большее число целевых аллелей, что обеспечивает более точные результаты. Более низкие частоты смещения числа аллелей приводят к более низким частотам неправильных определений, что обеспечивает более точные результаты. Более точные результаты обеспечивают улучшение клинических исходов и лучшее медицинское обслуживание.The use of an informatics-based method for determining the ploidy state of an individual from genetic data measured by hybridization matrices, such as the INFINIUM matrix from ILLUMINA, or the AFFYMETRIX gene chip, has been described in documents cited in other sections of this document. However, the method described herein demonstrates improvements over methods previously described in the literature. For example, a LIP-based approach followed by high throughput sequencing unexpectedly provides better genotyping data, thanks to an approach characterized by better multiplexing ability, better capture specificity, better uniformity and a slight shift in the number of alleles. An increase in multiplexing allows targeting more alleles, which provides more accurate results. Better uniformity allows you to measure a larger number of target alleles, which provides more accurate results. Lower frequency allele bias results in lower frequencies of incorrect definitions, which provides more accurate results. More accurate results provide improved clinical outcomes and better health care.

Важно отметить, что LIP могут быть использованы в качестве способа нацеливания на конкретные локусы в образце ДНК для генотипирования посредством способов, отличных от секвенирования. Например, LIP могут быть использованы для нацеливания на ДНК для генотипирования с применением матриц SNP или других основанных на ДНК или РНК микроматриц.It is important to note that LIPs can be used as a method of targeting specific loci in a DNA sample for genotyping by methods other than sequencing. For example, LIPs can be used to target DNA for genotyping using SNP matrices or other DNA or RNA based microarrays.

Опосредованная лигированием ПЦРPCR ligation mediated

Опосредованная лигированием ПЦР может использоваться для амплификации целевых локусов до или после ПЦР-амплификации с применением праймеров, которые не лигированы. Опосредованная лигированием ПЦР представляет собой метод ПЦР, используемый для проведения преимущественного обогащения образца ДНК путем амплификации одного или множества локусов в смеси ДНК, предусматривающий получение набора пар праймеров, при этом каждый праймер в паре содержит специфичную по отношению к цели последовательность и нецелевую последовательность, причем указанная специфичная по отношению к цели последовательность предпочтительно сконструирована для отжига с целевой областью, одной в 5'-направлении и одной в 3'-направлении от полиморфного сайта, которые могут быть отделены от полиморфного сайта 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11-20, 21-30, 31-40, 41-50, 51-100 или более чем 100 основаниями; полимеризацию ДНК от 3-конца прямого праймера для заполнения одноцепочечной области между ним и 5-концом обратного праймера нуклеотидами, комплементарными целевой молекуле; лигирование последнего полимеризованного основания прямого праймера со смежным 5-концевым основанием обратного праймера; и амплификацию только полимеризованных и лигированных молекул с применением нецелевых последовательностей, содержащихся на 5-конце прямого праймера и 3-конце обратного праймера. Пары праймеров для распознавания разных целей могут быть смешаны в одной и той же реакции. Нецелевые последовательности служат в качестве универсальных последовательностей, так что все пары праймеров, которые были успешно полимеризованы и лигированы, могут быть амплифицированы с помощью одной пары амплификационных праймеров.Ligation-mediated PCR can be used to amplify target loci before or after PCR amplification using primers that are not ligated. Ligation-mediated PCR is a PCR method used to preferentially enrich a DNA sample by amplifying one or multiple loci in a DNA mixture, which provides a set of primer pairs, each primer in a pair containing a sequence specific to the target and a non-target sequence, the target-specific sequence is preferably designed for annealing with a target region, one in the 5'-direction and one in the 3'-direction polymorphic site, which can be separated from the polymorphic site 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11-20, 21-30, 31-40, 41-50, 51-100 or more than 100 bases; polymerizing DNA from the 3-end of the forward primer to fill the single-stranded region between it and the 5-end of the reverse primer with nucleotides complementary to the target molecule; ligation of the last polymerized base of the forward primer with an adjacent 5-terminal base of the reverse primer; and amplification of only polymerized and ligated molecules using non-target sequences contained at the 5-end of the forward primer and 3-end of the reverse primer. Pairs of primers for recognition of different targets can be mixed in the same reaction. Non-targeted sequences serve as universal sequences, so that all pairs of primers that have been successfully polymerized and ligated can be amplified using one pair of amplification primers.

Захват гибридизациейHybridization Capture

Согласно некоторым вариантам осуществления способ согласно настоящему раскрытию может включать применение любых из следующих способов захвата гибридизацией помимо применения мультиплексной ПЦР для амплификации целевых локусов. Преимущественное обогащение по конкретному набору последовательностей в целевом геноме может быть реализовано несколькими способами. В других разделах настоящего документа приводится описание того, как LIP могут быть использованы для нацеливания на конкретный набор последовательностей, однако во всех указанных вариантах применения с тем же успехом и для тех же целей могут быть использованы другие способы нацеливания и/или преимущественного обогащения. Один из примеров другого способа нацеливания представлен методом захвата гибридизацией. Некоторые примеры коммерческих способов захвата гибридизацией технологий включают SURE SELECT от AGILENT и TruSeq от ILLUMINA. При захвате гибридизацией набору олигонуклеотидов, комплементарных или в основном комплементарных нужным целевым последовательностям, позволяют гибридизоваться со смесью ДНК, а затем физически отделяют от указанной смеси. После того как нужные последовательности гибридизованы с нацеливаемыми олигонуклеотидами, эффект физического извлечения нацеливаемых олигонуклеотидов состоит также в извлечении целевых последовательностей. После того как гибридизованные олигонуклеотиды извлечены, они могут быть нагреты до температуры, превышающей их температуру плавления, и могут быть амплифицированы. Некоторые способы физического извлечения нацеливаемых олигонуклеотидов состоят в ковалентном связывании нацеливаемых олигонуклеотидов на твердой подложке, например, магнитных гранулах или чипе. Другой способ физического извлечения нацеливаемых олигонуклеотидов состоит в ковалентном связывании их с молекулярным фрагментом, обладающим высоким сродством к другому молекулярному фрагменту. Примером такой молекулярной пары являются биотин и стрептавидин, используемые, например, в SURE SELECT. Соответственно, указанные целевые последовательности могут быть ковалентно присоединены к молекуле биотина, и после гибридизации твердая подложка со прикрепленным стрептавидином может использоваться для «опускания» (pull-down) биотинилированных олигонуклеотидов, которые гибридизованы с целевыми последовательностями.In some embodiments, the method of the present disclosure may include using any of the following capture methods by hybridization, in addition to using multiplex PCR to amplify target loci. Preferential enrichment for a particular set of sequences in the target genome can be implemented in several ways. Other sections of this document describe how LIPs can be used to target a particular set of sequences, however, in all of these applications, other methods of targeting and / or enrichment can also be used for the same purpose. One example of another targeting method is represented by capture by hybridization. Some examples of commercial hybridization capture technologies include SURE SELECT from AGILENT and TruSeq from ILLUMINA. When captured by hybridization, a set of oligonucleotides that are complementary or mostly complementary to the desired target sequences is allowed to hybridize with the DNA mixture and then physically separated from the mixture. After the desired sequences are hybridized with the targeted oligonucleotides, the effect of the physical extraction of the targeted oligonucleotides also consists in the extraction of the target sequences. After the hybridized oligonucleotides are recovered, they can be heated to a temperature above their melting point and can be amplified. Some methods for physically extracting targeted oligonucleotides consist in covalently linking the targeted oligonucleotides to a solid support, for example, magnetic beads or a chip. Another way to physically extract target oligonucleotides is to covalently bind them to a molecular fragment having high affinity for another molecular fragment. An example of such a molecular pair is biotin and streptavidin, used, for example, in SURE SELECT. Accordingly, these target sequences can be covalently attached to a biotin molecule, and after hybridization, a solid substrate with attached streptavidin can be used to pull-down biotinylated oligonucleotides that are hybridized with the target sequences.

Гибридный захват включает гибридизацию зондов, комплементарных представляющих интерес целям, с целевыми молекулами. Зонды гибридного захвата изначально разрабатывались для нацеливания и обогащения больших фракций генома при относительной однородности целей. При таком применении было важно, чтобы все цели были амплифицированы с достаточной однородностью, чтобы все области можно было выявить секвенированием, однако сохранению пропорций аллелей исходного образца внимание не уделялось. После захвата присутствующие в образце аллели могут быть определены прямым секвенированием захваченных молекул. Эти данные считываний при секвенировании могут быть проанализированы и количественно оценены в соответствии с типом аллелей. Однако при использовании существующей технологии измеренные аллельные распределения в захваченных последовательностях, как правило, не отражают исходные аллельные распределения.Hybrid capture involves hybridizing probes complementary to the target of interest with the target molecules. Hybrid capture probes were originally developed to target and enrich large fractions of the genome with relative target uniformity. With this application, it was important that all targets were amplified with sufficient uniformity so that all areas could be detected by sequencing, but attention was not paid to maintaining the proportions of the alleles of the original sample. After capture, the alleles present in the sample can be determined by direct sequencing of the captured molecules. These readings during sequencing can be analyzed and quantified according to the type of alleles. However, when using existing technology, the measured allelic distributions in the captured sequences, as a rule, do not reflect the original allelic distributions.

Согласно варианту осуществления обнаружение аллелей проводят посредством секвенирования. Для идентификации аллеля в полиморфном сайте важно, чтобы считывание при секвенировании захватывало требуемый аллель, для оценки аллельного состава указанной захваченной молекулы. Поскольку длина молекул захвата часто варьирует, невозможно гарантировать перекрытие вариантных положений, если не секвенируется вся молекула. Однако по соображениям стоимости, а также ввиду технических ограничений, касающихся максимально возможной длины и точности считываний при секвенировании, секвенирование всей молекулы нецелесообразно. Согласно варианту осуществления длина считываемого фрагмента может быть увеличена от приблизительно 30 до приблизительно 50 или до приблизительно 70 оснований, что может значительно увеличить число считываний, перекрывающих вариантные положения в составе целевых последовательностей.In an embodiment, the detection of alleles is carried out by sequencing. To identify an allele in a polymorphic site, it is important that reading during sequencing captures the desired allele, in order to evaluate the allelic composition of said captured molecule. Since the length of the capture molecules often varies, it is impossible to guarantee the overlap of variant positions if the whole molecule is not sequenced. However, for cost reasons, as well as due to technical limitations regarding the maximum possible length and accuracy of readings during sequencing, sequencing of the entire molecule is impractical. According to an embodiment, the length of the reading fragment can be increased from about 30 to about 50, or to about 70 bases, which can significantly increase the number of readings that overlap variant positions in the composition of the target sequences.

Другой способ повышения числа считываний, исследующих представляющее интерес положение, заключается в уменьшении длины зонда, при условии, что это не приводит к смещению для исходных обогащенных аллелей. Длина синтезированного зонда должна быть достаточной для того, чтобы два зонда, сконструированных таким образом, чтобы гибридизоваться с двумя разными аллелями, присутствующими в одном локусе, гибридизовались практически с равной аффинностью с разными аллелями в исходном образце. В настоящее время для известных в данной области техники способов описаны зонды, длина которых, как правило, составляет более 120 оснований. Согласно настоящему варианту осуществления, если аллель представляет собой одно или несколько оснований, длина зондов захвата может составлять менее чем приблизительно 110 оснований, менее чем приблизительно 100 оснований, менее чем приблизительно 90 оснований, менее чем приблизительно 80 оснований, менее чем приблизительно 70 оснований, менее чем приблизительно 60 оснований, менее чем приблизительно 50 оснований, менее чем приблизительно 40 оснований, менее чем приблизительно 30 оснований и менее чем приблизительно 25 оснований, и указанная длина достаточна для обеспечения равного обогащения всеми аллелями. Если смесь ДНК, которая должна быть обогащена с использованием методики гибридного захвата, представляет собой смесь, содержащую свободноплавающую ДНК, выделенную из крови, например, материнской крови, средняя длина ДНК достаточно мала, составляя, как правило, менее 200 оснований. Использование более коротких зондов повышает вероятность того, что зонды гибридного захвата будут захватывать нужные фрагменты ДНК. Более длинные вариации могут требовать более длинных зондов. Согласно варианту осуществления длина представляющих интерес вариаций составляет одно (SNP) или несколько оснований. Согласно варианту осуществления целевые области в геноме могут быть преимущественно обогащены с применением зондов гибридного захвата, причем длина указанных зондов гибридного захвата составляет менее 90 оснований, и может составлять менее 80 оснований, менее 70 оснований, менее 60 оснований, менее 50 оснований, менее 40 оснований, менее 30 оснований или менее 25 оснований. Согласно варианту осуществления для повышения шанса секвенирования нужного аллеля, длина зонда, сконструированного для того, чтобы гибридизоваться с областями, фланкирующими локализацию полиморфного аллеля, может быть уменьшена от более чем 90 оснований до приблизительно 80 оснований, или до приблизительно 70 оснований, или до приблизительно 60 оснований, или до приблизительно 50 оснований, или до приблизительно 40 оснований, или до приблизительно 30 оснований, или до приблизительно 25 оснований.Another way to increase the number of readings examining the position of interest is to decrease the length of the probe, provided that this does not lead to a bias for the original enriched alleles. The length of the synthesized probe should be sufficient so that two probes, designed in such a way as to hybridize with two different alleles present at the same locus, hybridize with almost equal affinity with different alleles in the original sample. Currently, probes are described for methods known in the art, the length of which, as a rule, is more than 120 bases. According to the present embodiment, if the allele is one or more bases, the length of the capture probes may be less than about 110 bases, less than about 100 bases, less than about 90 bases, less than about 80 bases, less than about 70 bases, less less than about 60 bases, less than about 50 bases, less than about 40 bases, less than about 30 bases and less than about 25 bases, and the specified length and sufficient to ensure equal enrichment of all alleles. If the mixture of DNA to be enriched using the hybrid capture technique is a mixture containing free-floating DNA isolated from blood, for example, maternal blood, the average length of the DNA is quite small, typically less than 200 bases. The use of shorter probes increases the likelihood that hybrid capture probes will capture the desired DNA fragments. Longer variations may require longer probes. According to an embodiment, the length of the variations of interest is one (SNP) or several bases. According to an embodiment, the target regions in the genome can be advantageously enriched using hybrid capture probes, the length of said hybrid capture probes being less than 90 bases, and may be less than 80 bases, less than 70 bases, less than 60 bases, less than 50 bases, less than 40 bases less than 30 bases or less than 25 bases. According to an embodiment, to increase the chance of sequencing the desired allele, the length of the probe designed to hybridize to regions flanking the localization of the polymorphic allele can be reduced from more than 90 bases to about 80 bases, or to about 70 bases, or bases, or up to about 50 bases, or up to about 40 bases, or up to about 30 bases, or up to about 25 bases.

Существует минимальное перекрытие между синтезированным зондом и целевой молекулой, обеспечивающее захват. Такой синтезированный зонд можно сделать настолько коротким, насколько возможно, но все же длиннее, чем указанное минимальное необходимое перекрытие. Эффект использования более короткого зонда для нацеливания на полиморфную область заключается в большем количестве молекул, перекрывающих область целевого аллеля. Состояние фрагментации исходных молекул ДНК также влияет на число считываний, которые будут перекрывать целевые аллели. Некоторые образцы ДНК, такие как образцы плазмы, уже фрагментированы вследствие биологических процессов, протекающих in vivo. Однако образцы с более длинными фрагментами получают преимущество при фрагментировании перед секвенированием препарата библиотеки и обогащением. Если и зонды, и фрагменты короткие (~60-80 пар оснований), максимальная специфичность может быть достигнута только для относительно небольшого количества считываний последовательности, поскольку не удается перекрыть представляющую интерес критическую область.There is minimal overlap between the synthesized probe and the target molecule, providing capture. Such a synthesized probe can be made as short as possible, but still longer than the indicated minimum required overlap. The effect of using a shorter probe to target a polymorphic region is a larger number of molecules that overlap the region of the target allele. The fragmentation state of the source DNA molecules also affects the number of readings that will overlap the target alleles. Some DNA samples, such as plasma samples, are already fragmented due to in vivo biological processes. However, samples with longer fragments benefit from fragmentation over sequencing of the library preparation and enrichment. If the probes and fragments are short (~ 60-80 base pairs), maximum specificity can be achieved only for a relatively small number of readings of the sequence, since it is not possible to overlap the critical region of interest.

Согласно варианту осуществления условия гибридизации могут быть скорректированы для максимальной однородности захвата разных аллелей, присутствующих в исходном образце. Согласно варианту осуществления температуры гибридизации снижают для сведения к минимуму различий смещения гибридизации между аллелями. В способах, известных в данной области техники, избегают использования более низких температур для гибридизации, так как снижение температуры увеличивает вероятность гибридизации зондов с непредусмотренными целями. Тем не менее, если целью является сохранение отношений аллелей с максимальной точностью, подход с использованием более низких температур гибридизации обеспечивает оптимально точные отношения аллелей, несмотря на тот факт, что на современном уровне техники рекомендовано воздерживаться от такого подхода. Температура гибридизации также может быть повышена для достижения большего перекрытия между целью и синтезированным зондом так, что захватываются только цели с существенным перекрытием целевой области. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, температуру гибридизации снижают от нормальной температуры гибридизации до приблизительно 40°C, до приблизительно 45°C, до приблизительно 50°C, до приблизительно 55°C, до приблизительно 60°C, до приблизительно 65 или до приблизительно 70°C.According to an embodiment, the hybridization conditions can be adjusted to maximize the uniformity of capture of different alleles present in the original sample. In an embodiment, hybridization temperatures are reduced to minimize differences in hybridization bias between alleles. In methods known in the art, the use of lower temperatures for hybridization is avoided since lowering the temperature increases the likelihood of hybridization of the probes for unforeseen purposes. Nevertheless, if the goal is to preserve allele ratios with maximum accuracy, the approach using lower hybridization temperatures provides optimally accurate allele ratios, despite the fact that it is recommended to refrain from such an approach at the current level of technology. The hybridization temperature can also be increased to achieve greater overlap between the target and the synthesized probe so that only targets with significant overlap of the target area are captured. In some embodiments disclosed herein, the hybridization temperature is lowered from a normal hybridization temperature to about 40 ° C, to about 45 ° C, to about 50 ° C, to about 55 ° C, to about 60 ° C, to about 65 or up to about 70 ° C.

Согласно варианту осуществления зонды гибридного захвата могут быть сконструированы таким образом, что область зонда захвата с ДНК, которая комплементарна ДНК, присутствующей в областях, фланкирующих полиморфный аллель, не примыкает непосредственно к полиморфному сайту. Вместо этого зонд захвата может быть сконструирован таким образом, что область указанного зонда захвата, сконструированная для гибридизации с ДНК, фланкирующей полиморфный сайт цели, отделена от части зонда захвата, которая будет контактировать с полиморфным сайтом посредством вандерваальсовых взаимодействий, небольшим расстоянием, эквивалентным по длине одному основанию или небольшому числу оснований. Согласно варианту осуществления зонд гибридного захвата сконструирован так, чтобы гибридизоваться с областью, которая фланкирует полиморфный аллель, но не пересекает его; такой зонд может быть назван фланкирующим зондом захвата. Длина фланкирующего зонда захвата может составлять менее чем приблизительно 120 оснований, менее чем приблизительно ПО оснований, менее чем приблизительно 100 оснований, менее чем приблизительно 90 оснований, и может составлять менее чем приблизительно 80 оснований, менее чем приблизительно 70 оснований, менее чем приблизительно 60 оснований, менее чем приблизительно 50 оснований, менее чем приблизительно 40 оснований, менее чем приблизительно 30 оснований или менее чем приблизительно 25 оснований. Область генома, которая является целью фланкирующего зонда захвата, может быть отделена от полиморфного локуса 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11-20 или более чем 20 парами оснований.In an embodiment, hybrid capture probes can be designed such that a region of a DNA capture probe that is complementary to the DNA present in regions flanking the polymorphic allele does not directly adjoin the polymorphic site. Instead, the capture probe can be designed such that a region of the specified capture probe, designed to hybridize with DNA flanking the polymorphic site of the target, is separated from the portion of the capture probe that will contact the polymorphic site through van der Waals interactions, a short distance equivalent in length to one base or a small number of bases. According to an embodiment, the hybrid capture probe is designed to hybridize to a region that flanks the polymorphic allele but does not cross it; such a probe may be called a flanking capture probe. The length of the flanking capture probe can be less than about 120 bases, less than about 10 bases, less than about 100 bases, less than about 90 bases, and can be less than about 80 bases, less than about 70 bases, less than about 60 bases less than about 50 bases, less than about 40 bases, less than about 30 bases, or less than about 25 bases. The genome region, which is the target of the flanking capture probe, can be separated from the polymorphic locus 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11-20 or more than 20 base pairs.

Описано скрининговое тестирование заболеваний, основанное на целевом захвате, с использованием захвата целевых последовательностей. Персонализированный захват целевых последовательностей аналогичен предлагаемому в настоящее время компаниями AGILENT (SURE SELECT), ROCHE-NIMBLEGEN или ILLUMINA. Могут быть сконструированы персонализованные зонды захвата с целью обеспечения захвата различных типов мутаций. Для точковых мутаций достаточно одного или нескольких зондов, перекрывающих точковую мутацию, для захвата и секвенирования мутации.Describes screening testing of diseases based on target capture using capture sequences. Personalized capture of target sequences is similar to that currently offered by AGILENT (SURE SELECT), ROCHE-NIMBLEGEN or ILLUMINA. Personalized capture probes can be designed to capture various types of mutations. For point mutations, one or more probes overlapping the point mutation are sufficient for capture and sequencing of the mutation.

Для небольших инсерций или делеций одного или нескольких зондов, перекрывающих мутацию, может быть достаточно для захвата и секвенирования фрагментов, содержащих указанную мутацию. Гибридизация может быть менее эффективной при разной эффективности захвата, ограниченной зондами, сконструированными, как правило, для эталонной последовательности генома. Для обеспечения захвата фрагментов, содержащих мутацию, можно конструировать два зонда, один из которых соответствует нормальному аллелю, а второй - мутантному аллелю. Более длинный зонд может усиливать гибридизацию. Множественные перекрывающиеся зонды могут усиливать захват. Наконец, помещение зонда в непосредственной близости от мутации, но без ее перекрывания, может дать относительно сходную эффективность захвата нормального и мутантного аллелей.For small insertions or deletions, one or more probes overlapping the mutation may be sufficient to capture and sequencing fragments containing the specified mutation. Hybridization may be less effective with different capture efficiencies limited by probes designed, as a rule, for the reference sequence of the genome. To ensure capture of fragments containing the mutation, two probes can be constructed, one of which corresponds to the normal allele, and the second to the mutant allele. A longer probe can enhance hybridization. Multiple overlapping probes can enhance capture. Finally, placing the probe in the immediate vicinity of the mutation, but without overlapping it, can give a relatively similar capture efficiency for the normal and mutant alleles.

Для простых тандемных повторов (STR) маловероятно, чтобы зонд, перекрывающий указанные высоковариабельные сайты, хорошо захватывал фрагмент. Для усиления захвата зонд можно разместить в непосредственной близости от вариабельного сайта, но без его перекрывания. Фрагмент можно впоследствии секвенировать обычным образом для определения длины и состава STR.For simple tandem repeats (STRs), it is unlikely that a probe blocking these highly variable sites would capture the fragment well. To enhance capture, the probe can be placed in the immediate vicinity of the variable site, but without overlapping it. The fragment can subsequently be sequenced in the usual way to determine the length and composition of STR.

Для крупных делеций может подходить серия перекрывающихся зондов, обычный подход, применяемый в настоящее время в системах захвата экзонов. Однако при этом подходе может быть затруднительным определение того, гетерозиготен индивидуум или нет. Нацеливание на SNP и их оценка в пределах захваченной области потенциально могут отражать утрату гетерозиготности в рамках данной области, что будет свидетельствовать о том, что индивидуум является носителем. Согласно варианту осуществления можно разместить неперекрывающиеся или единичные зонды в пределах потенциально делетированной области и использовать число захваченных фрагментов как меру гетерозиготности. В том случае, если индивидуум является носителем крупной делеции, предполагается, что половина фрагментов будет доступна для захвата по сравнению с неделетированным (диплоидным) эталонным локусом. Следовательно, число считываний, полученных из делетированных областей, должно составлять приблизительно половину числа считываний, полученных из нормального диплоидного локуса. Суммируя и усредняя глубину секвенирования последовательности от нескольких единичных зондов в пределах потенциально делетированной области, можно усилить сигнал и улучшить достоверность диагноза. Два указанных подхода, нацеливание на SNP для идентификации утраты гетерозиготности и использование нескольких единичных зондов с целью измерения количества исходных фрагментов из этого локуса, также могут быть использованы в комбинации. Любая из этих стратегий или они обе могут применяться в комбинации с другими стратегиями для достижения лучшего результата.For large deletions, a series of overlapping probes may be suitable, a common approach currently used in exon capture systems. However, with this approach, it can be difficult to determine whether an individual is heterozygous or not. Targeting and evaluating SNPs within the captured region can potentially reflect a loss of heterozygosity within the given region, which will indicate that the individual is a carrier. According to an embodiment, it is possible to place non-overlapping or single probes within a potentially deleted region and use the number of captured fragments as a measure of heterozygosity. In that case, if the individual is a carrier of a large deletion, it is assumed that half of the fragments will be available for capture in comparison with an undeleted (diploid) reference locus. Therefore, the number of readings obtained from deleted regions should be approximately half the number of readings obtained from the normal diploid locus. By summing and averaging the depth of sequence sequencing from several single probes within a potentially deleted region, the signal can be amplified and the accuracy of the diagnosis can be improved. These two approaches, targeting SNPs to identify the loss of heterozygosity and using several single probes to measure the number of source fragments from this locus, can also be used in combination. Any of these strategies or both of them can be used in combination with other strategies to achieve the best result.

Если во время тестирования cfDNA плода мужского пола, на что указывает присутствие фрагментов Y-хромосомы, захваченных и секвенированных в одном и том же тесте, выявляется Х-сцепленная доминантная мутация, если мать и отец не поражены, или доминантная мутация, если мать не поражена, это будет указывать на повышенный риск для плода. Выявление двух мутантных рецессивных аллелей одного и того же гена у плода от здоровой матери означает, что плод унаследовал один мутантный аллель от отца, и, потенциально, второй мутантный аллель от матери. Во всех случаях при последующем наблюдении может быть назначено тестирование с помощью амниоцентеза или взятия пробы ворсин хориона.If during the cfDNA testing of a male fetus, as indicated by the presence of Y-chromosome fragments captured and sequenced in the same test, an X-linked dominant mutation is detected if the mother and father are not affected, or a dominant mutation if the mother is not affected , this will indicate an increased risk to the fetus. Identification of two mutant recessive alleles of the same gene in a fetus from a healthy mother means that the fetus inherited one mutant allele from the father, and, potentially, the second mutant allele from the mother. In all cases, follow-up may be prescribed testing using amniocentesis or sampling chorionic villi.

Основанный на принципе целевого захвата скрининг заболеваний может быть скомбинирован с основанным на принципе целевого захвата неинвазивным пренатальным диагностическим тестом на анеуплоидию.Disease-based screening for disease screening can be combined with a non-invasive prenatal diagnostic screening test for aneuploidy based on the principle of target capture.

Существует ряд способов уменьшения вариабельности глубины секвенирования (DOR): например, можно увеличить концентрации праймеров, использовать более длинные зонды целевой амплификации, или провести большее число циклов STA (например, более 25, более 30, более 35 или даже более 40)There are a number of ways to reduce the variability of the depth of sequencing (DOR): for example, you can increase the concentration of primers, use longer probes of the target amplification, or spend more STA cycles (for example, more than 25, more than 30, more than 35 or even more than 40)

Примеры способов определения числа молекул ДНК в образце.Examples of methods for determining the number of DNA molecules in a sample.

В настоящем документе описан способ определения числа молекул ДНК в образце путем получения уникально идентифицируемой молекулы для каждой из исходных молекул ДНК в образце во время первого цикла амплификации ДНК. В настоящем документе описана процедура для достижения указанной цели с последующим секвенированием единичной молекулы или клональным секвенированием.This document describes a method for determining the number of DNA molecules in a sample by obtaining a uniquely identifiable molecule for each of the original DNA molecules in the sample during the first DNA amplification cycle. This document describes a procedure to achieve this goal, followed by sequencing of a single molecule or clonal sequencing.

Указанный подход предусматривает нацеливание на один или несколько конкретных локусов и получение маркированной копии оригинальных молекул таким образом, что большинство или все маркированные молекулы из каждого целевого локуса будут содержать уникальный маркер, и их можно будет различать при секвенировании указанного штрихкода с использованием клонального секвенирования или секвенирования единичных молекул. Каждый уникальный секвенированный штрихкод представляет уникальную молекулу в исходном образце. Одновременно данные секвенирования используются для установления локуса, из которого происходит молекула. С использованием этой информации можно определить число уникальных молекул в исходном образце для каждого локуса.This approach involves targeting one or more specific loci and obtaining a labeled copy of the original molecules so that most or all labeled molecules from each target locus will contain a unique marker, and they can be distinguished by sequencing the specified barcode using clonal sequencing or single molecules. Each unique sequenced barcode represents a unique molecule in the original sample. At the same time, sequencing data is used to establish the locus from which the molecule originates. Using this information, one can determine the number of unique molecules in the original sample for each locus.

Указанный способ может использоваться в любых вариантах применения, где требуется количественная оценка числа молекул в исходном образце. Кроме того, число уникальных молекул одной или нескольких целей может быть связано с числом уникальных молекул одной или нескольких других целей для определения относительного числа копий, аллельного распределения или аллельного отношения. Как вариант, число копий, установленное для различных целей, может быть смоделировано по распределению, чтобы идентифицировать наиболее вероятное число копий в исходных целях. Варианты применения включают, не ограничиваясь перечисленными, обнаружение инсерций и делеций, например, присутствующих у носителей мышечной дистрофии Дюшенна; количественное определение делеций или дупликаций сегментов хромосом, таких как наблюдаемые при вариантах числа копий; числа копий хромосом в образцах от рожденных индивидуумов; числа копий хромосомы в образцах от нерожденных индивидуумов, таких как эмбрионы или плоды.The specified method can be used in any application where a quantitative assessment of the number of molecules in the original sample is required. In addition, the number of unique molecules of one or more targets can be related to the number of unique molecules of one or more other goals to determine the relative copy number, allelic distribution, or allelic ratio. Alternatively, the number of copies set for various purposes can be modeled by distribution to identify the most likely number of copies for the original purposes. Use cases include, but are not limited to, detection of insertions and deletions, for example, those present in carriers of Duchenne muscular dystrophy; quantification of deletions or duplications of chromosome segments, such as those observed with copy number variants; copy number of chromosomes in samples from born individuals; copy number of the chromosome in samples from unborn individuals, such as embryos or fruits.

Указанный способ может быть скомбинирован с одновременной оценкой вариаций, содержащихся в целевой последовательности. Он может использоваться для определения числа молекул, представляющих каждый аллель в исходном образце. Указанный способ определения числа копий может быть скомбинирован с оценкой SNP или других вариаций последовательностей для определения числа копий хромосом рожденных и нерожденных индивидуумов; различения и количественного определения копий локусов, которые содержат вариации коротких последовательностей, но в которых ПЦР может амплифицировать множество целевых областей, например, при обнаружении носительства спинальной мышечной атрофии; определение числа копий разных источников молекул из образцов, содержащих смеси материала различных индивидуумов, например, при определении анеуплоидии плода по свободноплавающей ДНК, полученной из материнской плазмы.The specified method can be combined with the simultaneous assessment of the variations contained in the target sequence. It can be used to determine the number of molecules representing each allele in the original sample. The specified method for determining the number of copies can be combined with an estimate of SNP or other sequence variations to determine the number of copies of the chromosomes of born and unborn individuals; distinguishing and quantifying copies of loci that contain variations of short sequences, but in which PCR can amplify many target areas, for example, when detecting carriage of spinal muscular atrophy; determining the number of copies of different sources of molecules from samples containing mixtures of material from various individuals, for example, when determining aneuploidy of a fetus by free-floating DNA obtained from maternal plasma.

Согласно варианту осуществления способ, касающийся единичного целевого локуса, может включать один или несколько следующих этапов: (1) Конструирование стандартной пары олигомеров для ПЦР-амплификации конкретного локуса. (2) Добавление во время синтеза последовательности определенных оснований с минимальной комплементарностью или некомплементарной относительно целевого локуса или генома к 5'-концу одного из специфичных по отношению к цели олигомеров. Указанная последовательность, называемая «хвостом», представляет собой известную последовательность, предназначена для последующей амплификации, и за ней следует последовательность случайных нуклеотидов. Указанные случайные нуклеотиды содержат случайную область. Указанная случайная область содержит образованную случайным образом последовательность нуклеиновых кислот, которые вероятностно различаются у молекулы каждого зонда. Следовательно, после синтеза пул олигомеров с хвостами состоит из коллекции олигомеров, начинающихся с известной последовательности с последующей неизвестной последовательностью, которая отличается у молекул, после которой следует специфичная по отношению к цели последовательность. (3) проведение одного раунда амплификации (денатурация, отжиг, удлинение) с применением только содержащего «хвост» олигомера. (4) добавление экзонуклеазы в реакцию, эффективно останавливающее реакцию ПЦР, и инкубация реакционной смеси при подходящей температуре для удаления прямых одноцепочечных олигонуклеотидов, которые не отжигаются с матрицей и удлиняются с образованием двуцепочечного продукта. (5) Инкубация реакционной смеси при высокой температуре для денатурации экзонуклеазы и элиминации ее активности. (6) Добавление в реакцию нового олигонуклеотида, комплементарного хвосту олигомера, использованного в первой реакции, наряду с другим специфичным по отношению к цели олигомером для обеспечения ПЦР-амплификации продукта, полученного в первом раунде ПЦР. (7) Продолжение амплификации для образования достаточного количества продукта для последующего клонального секвенирования. (8) Измерение амплифицированного продукта ПЦР несколькими способами, например, клональным секвенированием, перед получением достаточного для охвата последовательности числа оснований.According to an embodiment, the method relating to a single target locus may include one or more of the following steps: (1) Construction of a standard pair of oligomers for PCR amplification of a particular locus. (2) Adding during the synthesis of a sequence of certain bases with minimal complementarity or non-complementarity to the target locus or genome to the 5'-end of one of the target-specific oligomers. The specified sequence, called the "tail", is a known sequence, intended for subsequent amplification, and it is followed by a sequence of random nucleotides. These random nucleotides contain a random region. The specified random region contains a randomly generated sequence of nucleic acids, which are probabilistically different in the molecules of each probe. Therefore, after synthesis, a pool of oligomers with tails consists of a collection of oligomers starting with a known sequence followed by an unknown sequence that is different for the molecules, followed by a sequence specific to the target. (3) one round of amplification (denaturation, annealing, elongation) using only the tail-containing oligomer. (4) adding an exonuclease to a reaction that effectively stops the PCR reaction, and incubating the reaction mixture at a suitable temperature to remove direct single-stranded oligonucleotides that do not anneal with the matrix and lengthen to form a double-stranded product. (5) Incubation of the reaction mixture at high temperature to denature the exonuclease and to eliminate its activity. (6) Adding to the reaction a new oligonucleotide complementary to the tail of the oligomer used in the first reaction, along with another target-specific oligomer to ensure PCR amplification of the product obtained in the first round of PCR. (7) Continuing amplification to form a sufficient amount of product for subsequent clonal sequencing. (8) Measurement of the amplified PCR product in several ways, for example, by clonal sequencing, before obtaining a sufficient number of bases to cover the sequence.

Согласно варианту осуществления способ согласно настоящему раскрытию включает нацеливание на множество локусов, параллельно или иным образом. Праймеры для разных целевых локусов могут быть получены независимо и смешаны для получения мультиплексных пулов ПЦР. Согласно варианту осуществления исходные образцы можно разделить на субпулы, и в каждом субпуле проведено нацеливание на различные локусы до рекомбинирования и секвенирования. Согласно варианту осуществления этап маркирования и ряд циклов амплификации могут быть проведены до подразделения пула для обеспечения эффективного нацеливания на все цели перед расщеплением и для улучшения последующей амплификации путем продолжения амплификации с использованием меньших наборов праймеров в разделенных субпулах.According to an embodiment, the method of the present disclosure includes targeting a plurality of loci, in parallel or otherwise. Primers for different target loci can be obtained independently and mixed to obtain multiplex PCR pools. According to an embodiment, the starting samples can be divided into sub-pools, and in each sub-pool, targeting at different loci is carried out before recombination and sequencing. According to an embodiment, the marking step and a series of amplification cycles can be carried out before the pool is divided to ensure that all targets are effectively targeted before cleavage and to improve subsequent amplification by continuing to amplify using smaller sets of primers in divided sub-pools.

Одним примером применения, для которого, в частности, подходит указанная технология, является неинвазивная пренатальная диагностика анеуплоидии, где отношение аллелей в определенном локусе или распределение аллелей в ряде локусов может быть использовано для определения числа копий хромосомы, присутствующих у плода. В указанном контексте желательно амплифицировать ДНК, присутствующую в изначальном образце, с сохранением при этом относительных количеств различных аллелей. В некоторых обстоятельствах, в частности, в тех случаях, когда имеется очень небольшое количество ДНК, например, менее 5000 копий генома, менее 1000 копий генома, менее 500 копий генома и менее 100 копий генома, можно столкнуться с явлением, называемым «эффектом бутылочного горлышка». Указанное явление наблюдается, если в изначальном образце имеется небольшое количество копий любого данного аллеля, и смещение амплификации может привести к тому, что в амплифицированном пуле ДНК отношения этих аллелей значительно отличаются от отношений, характерных для исходной смеси ДНК. Применяя уникальный или почти уникальный набор штрихкодов для каждой цепи ДНК перед стандартной ПЦР-амплификацией, можно исключить n-1 копий ДНК из набора n идентичных молекул секвенированной ДНК, происходящей от одной и той же исходной молекулы.One example of an application for which this technology is particularly suitable is the non-invasive prenatal diagnosis of aneuploidy, where the ratio of alleles at a specific locus or the distribution of alleles at a number of loci can be used to determine the number of copies of a chromosome present in the fetus. In this context, it is desirable to amplify the DNA present in the original sample, while maintaining the relative amounts of different alleles. In some circumstances, in particular when there is a very small amount of DNA, for example, less than 5000 copies of the genome, less than 1000 copies of the genome, less than 500 copies of the genome and less than 100 copies of the genome, you may encounter a phenomenon called the “bottleneck effect” ". This phenomenon is observed if the initial sample contains a small number of copies of any given allele, and the amplification bias can lead to the fact that in the amplified DNA pool the ratios of these alleles are significantly different from the ratios characteristic of the initial DNA mixture. Using a unique or almost unique set of barcodes for each DNA strand before standard PCR amplification, n-1 DNA copies can be excluded from a set of n identical sequenced DNA molecules originating from the same source molecule.

Например, представим гетерозиготный SNP в геноме индивидуума и смесь ДНК указанного индивидуума, при этом в исходном образце ДНК присутствует по десять молекул каждого аллеля. После амплификации может присутствовать 100000 молекул ДНК, соответствующих указанному локусу. Вследствие стохастических процессов отношение ДНК может принимать любое значение от 1:2 до 2:1, однако, поскольку каждая из исходных молекул была маркирована уникальным маркером, можно установить, что ДНК в амплифицированном пуле происходит точно от 10 молекул ДНК каждого аллеля. Указанный способ, следовательно, дает возможность более точно измерить относительные количества каждого аллеля, чем способ, при котором не используется этот подход. Для способов, при которых желательно минимизировать относительное смещение числа аллелей, указанный способ обеспечит получение более точных данных.For example, imagine a heterozygous SNP in the genome of an individual and a mixture of the DNA of the indicated individual, with ten molecules of each allele in the original DNA sample. After amplification, 100,000 DNA molecules corresponding to the specified locus may be present. Due to stochastic processes, the ratio of DNA can take any value from 1: 2 to 2: 1, however, since each of the source molecules was marked with a unique marker, it can be established that the DNA in the amplified pool comes from exactly 10 DNA molecules of each allele. This method, therefore, makes it possible to more accurately measure the relative amounts of each allele than a method in which this approach is not used. For methods in which it is desirable to minimize the relative shift in the number of alleles, this method will provide more accurate data.

Связь секвенированного фрагмента с целевым локусом может обеспечиваться несколькими способами. Согласно варианту осуществления из целевого фрагмента получают последовательность, имеющую достаточную длину для захвата штрихкода молекулы, а также содержащую достаточное число уникальных оснований, соответствующих целевой последовательности, что позволяет однозначно идентифицировать целевой локус. Согласно другому варианту осуществления праймер молекулярного штрихкодирования, который содержит случайно образованный молекулярный штрихкод, может также содержать специфичный в отношении локуса штрихкод (штрихкод локуса), который идентифицирует цель, с которой он должен быть связан. Указанный штрихкод локуса будет идентичен для всех праймеров молекулярного штрихкодирования для каждой индивидуальной цели и, следовательно, для всех полученных в результате ампликонов, но будет отличаться для всех других целей. Согласно варианту осуществления описанный в настоящем документе способ маркирования может комбинироваться с протоколом одностороннего вложения.The connection of the sequenced fragment with the target locus can be provided in several ways. According to an embodiment, a sequence is obtained from the target fragment that is long enough to capture the barcode of the molecule, and also contains a sufficient number of unique bases corresponding to the target sequence, which makes it possible to uniquely identify the target locus. According to another embodiment, a molecular bar coding primer that contains a randomly generated molecular bar code may also contain a locus-specific bar code (locus bar code) that identifies the target with which it should be associated. The specified locus barcode will be identical for all molecular bar coding primers for each individual target and, therefore, for all resulting amplicons, but will be different for all other purposes. According to an embodiment, the marking method described herein may be combined with a one-way attachment protocol.

Согласно варианту осуществления конструирование и получение праймеров молекулярного штрихкодирования может быть на практике сведено к следующему: праймеры молекулярного штрихкодирования могут состоять из последовательности, не комплементарной целевой последовательности, с последующей случайной областью молекулярного штрихкода, за которой следует специфичная по отношению к цели последовательность. Последовательность, расположенная в 5'-направлении от молекулярного штрихкода, может быть использована для последующей ПЦР-амплификации и может содержать последовательности, подходящие для преобразования ампликона в библиотеку для секвенирования. Случайная последовательность молекулярного штрихкода может быть получена несколькими способами. Предпочтительным способом является синтез маркирующего молекулу праймера таким образом, чтобы включить все четыре основания в реакцию во время синтеза области штрихкода. Все или различные комбинации оснований могут быть определены с использованием кодов неопределенности ДНК IUPAC (IUPAC DNA). Таким образом, синтезированная коллекция молекул будет содержать случайную смесь последовательностей в области молекулярного штрихкода. Длина области штрихкода будет определять количество праймеров, содержащих уникальные штрихкоды. Число уникальных последовательностей связано с длиной области штрихкода как NL, где N представляет собой число оснований, как правило, 4, a L представляет собой длину штрихкода. Штрихкод из пяти оснований может дать до 1024 уникальных последовательностей; штрихкод из восьми оснований может дать до 65536 уникальных штрихкодов. Согласно варианту осуществления ДНК может быть измерена способом секвенирования, при котором данные последовательности представляют последовательность единичной молекулы. Могут быть предусмотрены способы, в которых единичные молекулы секвенируют непосредственно, или способы, в которых единичные молекулы амплифицируют с образованием клонов, выявляемых с помощью инструмента секвенирования, но все же представляют единичные молекулы, что называется в настоящем документе клональным секвенированием.According to an embodiment, the design and preparation of molecular bar coding primers can be reduced in practice to the following: molecular bar coding primers can consist of a sequence that is not complementary to the target sequence, followed by a random region of molecular bar code followed by a sequence specific to the target. A sequence located 5 ′ from the molecular barcode can be used for subsequent PCR amplification and may contain sequences suitable for converting the amplicon into a sequencing library. A random molecular barcode sequence can be obtained in several ways. A preferred method is to synthesize a molecule-labeling primer so that all four bases are included in the reaction during the synthesis of the barcode region. All or various combinations of bases can be determined using IUPAC DNA uncertainty codes (IUPAC DNA). Thus, the synthesized collection of molecules will contain a random mixture of sequences in the molecular barcode region. The length of the barcode area will determine the number of primers containing unique barcodes. The number of unique sequences is related to the length of the barcode region as N L , where N represents the number of bases, typically 4, and L represents the length of the barcode. A five-base barcode can give up to 1024 unique sequences; an eight-base barcode can give up to 65,536 unique barcodes. In an embodiment, DNA can be measured by a sequencing method in which these sequences represent the sequence of a single molecule. Methods may be provided in which single molecules are sequenced directly, or methods in which single molecules are amplified to form clones detected by the sequencing tool, but still represent single molecules, which is referred to herein as clonal sequencing.

Примеры способов и реагентов для количественного определения продуктов амплификацииExamples of methods and reagents for the quantification of amplification products

Количественное определение конкретных представляющих интерес последовательностей нуклеиновых кислот, как правило, проводят с помощью техник количественной ПЦР в реальном времени, таких как TAQMAN (LIFE TECHNOLOGIES), зондов INVADER (THIRD WAVE TECHNOLOGIES) и т.п. Такие техники обладают многочисленными недостатками, такими как ограниченная пригодность для одновременного анализа множества последовательностей параллельно (мультиплексирование) и возможность получения точных количественных данных исключительно в узком возможном диапазоне циклов амплификации (например, если зависимость логарифма количества продуктов ПЦР-амплификации от числа циклов находится в линейном диапазоне). Техники секвенирования ДНК, в частности высокопроизводительные техники секвенирования нового поколения (часто называемые техниками массового параллельного секвенирования), такие как используемые в MYSEQ (ILLUMINA), HISEQ (ILLUMINA), ION TORRENT (LIFE TECHNOLOGIES), GENOME ANALYZER ILX (ILLUMINA), GS FLEX + (ROCHE 454) и т.д., могут использоваться для количественного определения числа копий представляющей интерес последовательности, присутствующей в образце, с получением таким образом количественной информации относительно исходных материалов, например, о числе копий или уровнях транскрипции. Высокопроизводительные генетические секвенаторы позволяют использовать штрихкодирование (т.е. маркирование образцов особыми последовательностями нуклеиновых кислот) для идентификации конкретных образцов от индивидуумов, что позволяет проводить одновременный анализ множества образцов за один прогон секвенатора ДНК. Количество секвенирований заданной области генома при подготовке библиотеки (или другого представляющего интерес состава с нуклеиновыми кислотами) (число считываний) пропорционально числу копий указанной последовательности в представляющем интерес геноме (или уровню экспрессии для составов, содержащих кДНК). Однако при подготовке и секвенировании генетических библиотек (и аналогичных полученных из генома составов) могут быть внесены различные стандартные ошибки (смещения), мешающие получению точных количественных показателей для представляющей интерес последовательность нуклеиновой кислоты. Например, разные последовательности нуклеиновых кислот могут амплифицироваться с разной эффективностью во время этапа амплификации нуклеиновых кислот при подготовке генетической библиотеки или подготовке образцов.The quantification of specific nucleic acid sequences of interest is typically performed using real-time quantitative PCR techniques such as TAQMAN (LIFE TECHNOLOGIES), INVADER probes (THIRD WAVE TECHNOLOGIES), and the like. Such techniques have numerous disadvantages, such as the limited suitability for simultaneous analysis of multiple sequences in parallel (multiplexing) and the ability to obtain accurate quantitative data exclusively in the narrowest possible range of amplification cycles (for example, if the logarithm of the number of PCR amplification products on the number of cycles is in the linear range ) DNA sequencing techniques, in particular new generation high-performance sequencing techniques (often referred to as mass parallel sequencing techniques) such as those used in MYSEQ (ILLUMINA), HISEQ (ILLUMINA), ION TORRENT (LIFE TECHNOLOGIES), GENOME ANALYZER ILX (ILLUMINA), GS FLEX + (ROCHE 454), etc., can be used to quantify the number of copies of the sequence of interest present in the sample, thereby obtaining quantitative information regarding the starting materials, for example, about the number of copies or transcript levels options. High-performance genetic sequencers allow the use of bar coding (i.e., labeling of samples with specific nucleic acid sequences) to identify specific samples from individuals, which allows for the simultaneous analysis of multiple samples in a single DNA sequencer run. The number of sequencing of a given region of the genome during the preparation of the library (or other composition of interest with nucleic acids) (the number of readings) is proportional to the number of copies of the specified sequence in the genome of interest (or the expression level for compositions containing cDNA). However, in the preparation and sequencing of genetic libraries (and similar genome-derived compositions), various standard errors (biases) can be introduced that interfere with obtaining accurate quantitative indicators for the nucleic acid sequence of interest. For example, different nucleic acid sequences can be amplified with different efficacy during the nucleic acid amplification step in preparing a genetic library or preparing samples.

Проблема различающейся эффективности амплификации может быть уменьшена за счет применения определенных вариантов осуществления рассматриваемого изобретения. Рассматриваемое изобретение включает различные способы и композиции, относящиеся к применению стандартов для включения в способы амплификации, которые могут использоваться для повышения точности количественного определения. Настоящее изобретение может применяться, помимо других областей, при обнаружении анеуплоидии у плода путем анализа свободноплавающей плодной ДНК в материнской крови, согласно описанию в настоящем документе и описаниям в патенте США №8008018; патенте США №7332277; опубликованной заявке РСТ WO 2012/078792 A2; и опубликованной заявке РСТ WO 2011/146632 A1, помимо прочих источников; каждый из перечисленных источников полностью включен в настоящий документ посредством ссылки. Варианты осуществления настоящего изобретения также подходят для обнаружения анеуплоидии полученных in vitro эмбрионов. Коммерчески значимые анеуплоидии, которые могут быть обнаружены, включают анеуплоидии хромосом человека 13, 18, 21, X и Y.The problem of varying amplification efficiencies can be reduced by using certain embodiments of the subject invention. The subject invention includes various methods and compositions related to the use of standards for inclusion in amplification methods that can be used to increase the accuracy of quantification. The present invention can be applied, in addition to other areas, in the detection of aneuploidy in the fetus by analysis of free-floating fetal DNA in maternal blood, as described in this document and the descriptions in US patent No. 8008018; U.S. Patent No. 7,332,277; PCT published application WO 2012/078792 A2; and PCT published application WO 2011/146632 A1, among other sources; each of these sources is fully incorporated herein by reference. Embodiments of the present invention are also suitable for detecting aneuploidy of in vitro derived embryos. Commercially significant aneuploidies that can be detected include aneuploidy of human chromosomes 13, 18, 21, X, and Y.

Варианты осуществления настоящего изобретения могут использоваться как для нуклеиновых кислот человека, так и для нуклеиновых кислот, не принадлежащих человеку, и могут применяться для нуклеиновых кислот как животного, так и растительного происхождения. Варианты осуществления настоящего изобретения могут также использоваться для обнаружения и/или количественного определения аллелей при других генетических расстройствах, характеризующихся делециями или инсерциями. Аллели, содержащие делеции, могут быть обнаружены у предполагаемых носителей представляющего интерес аллеля.Embodiments of the present invention can be used for both human nucleic acids and non-human nucleic acids, and can be used for nucleic acids of both animal and plant origin. Embodiments of the present invention can also be used to detect and / or quantify alleles in other genetic disorders characterized by deletions or insertions. Alleles containing deletions can be found on the alleged carriers of the allele of interest.

Один из вариантов осуществления рассматриваемого изобретения включает стандарты, которые присутствуют в известном количестве (относительном или абсолютном). Например, рассмотрим генетическую библиотеку, полученную из генетического источника, который является диплоидным по хромосоме 8 (содержащей локус А) и триплоидным по хромосоме 21 (содержащей локус В). Из указанного образца может быть получена генетическая библиотека, которая будет содержать последовательности в количествах, представляющих собой функцию от числа хромосом, присутствующих в указанном образце, например, 200 копий локуса А и 300 копий локуса В. Однако, если локус А амплифицируется значительно более эффективно, чем локус В, после ПЦР могут присутствовать 60000 копий ампликона А и 30000 копий ампликона В, соответственно, что маскирует истинное число копий хромосом исходного геномного образца при анализе с применением высокопроизводительного секвенирования ДНК (или других техник количественного определения нуклеиновых кислот). Для уменьшения указанной проблемы используют стандартную последовательность для локуса А, при этом указанная стандартная последовательность амплифицируется по существу с той же эффективностью, что и локус А. Аналогичным образом, создают стандартную последовательность для локуса В, при этом указанная стандартная последовательность амплифицируется по существу с той же эффективностью, что и локус В. Стандартную последовательность для локуса А и стандартную последовательность для локуса В добавляют в смесь перед использованием ПЦР (или других техник амплификации). Указанные стандартные последовательности присутствуют в известных количествах, относительных или абсолютных. Таким образом, если в смесь в приведенном выше примере добавить 1:1 смесь стандартной последовательности А и стандартной последовательности В (перед амплификацией), будет синтезировано 3000 копий ампликона стандарта А и 1000 копий ампликона стандарта В, что указывает 3-кратно более эффективную амплификацию локуса А по сравнению с амплификацией локуса В при одной и той же совокупности условий.One embodiment of the subject invention includes standards that are present in a known amount (relative or absolute). For example, consider a genetic library obtained from a genetic source that is diploid on chromosome 8 (containing locus A) and triploid on chromosome 21 (containing locus B). A genetic library can be obtained from the indicated sample, which will contain sequences in amounts representing a function of the number of chromosomes present in the indicated sample, for example, 200 copies of locus A and 300 copies of locus B. However, if locus A amplifies much more efficiently, than locus B, after PCR, there may be 60,000 copies of amplicon A and 30,000 copies of amplicon B, respectively, which masks the true number of copies of the chromosomes of the original genomic sample when analyzed using highly itelnogo DNA sequencing (or other techniques quantification of nucleic acids). To reduce this problem, use the standard sequence for locus A, while the specified standard sequence is amplified with essentially the same efficiency as locus A. Similarly, create a standard sequence for locus B, while the specified standard sequence is amplified essentially with the same efficiency as locus B. The standard sequence for locus A and the standard sequence for locus B are added to the mixture before using PCR (or other amplification techniques). These standard sequences are present in known amounts, relative or absolute. Thus, if we add a 1: 1 mixture of standard sequence A and standard sequence B (before amplification) to the mixture in the above example, 3000 copies of the standard A amplicon and 1000 copies of the standard B amplicon will be synthesized, which indicates a 3-fold more efficient amplification of the locus And compared with the amplification of locus B under the same set of conditions.

Согласно различным вариантам осуществления одна или несколько выбранных областей генома, содержащая(ие) представляющий интерес SNP (или другой полиморфизм) может(гут) быть специфически амплифицированы и затем секвенированы. Указанная специфичная по отношению к цели амплификация может проводиться при получении генетической библиотеки для секвенирования. Указанная библиотека может содержать многочисленные целевые области для амплификации. Согласно некоторым вариантам осуществления имеется по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 представляющих интерес областей. Примеры таких библиотек описаны в настоящем документе и могут быть найдены в заявке на патент США №2012/0270212, поданной 18 ноября 2011 г. и включенной в настоящий документ полностью посредством ссылки.In various embodiments, one or more selected regions of the genome containing (s) the SNP of interest (or other polymorphism) can (gut) be specifically amplified and then sequenced. Said target-specific amplification can be carried out upon receipt of a genetic library for sequencing. The specified library may contain numerous target areas for amplification. In some embodiments, there are at least 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 areas of interest. Examples of such libraries are described herein and can be found in US patent application No. 2012/0270212, filed November 18, 2011 and incorporated herein by reference in its entirety.

Многие техники высокопроизводительного секвенирования ДНК секвенирование требуют модификации исходного генетического материала, например, лигирования универсальных сайтов праймирования и/или штрихкодов для получения библиотек для облегчения клональной амплификации небольших фрагментов нуклеиновых кислот перед последующим проведением реакций секвенирования. Согласно некоторым вариантам осуществления одну или несколько стандартных последовательностей добавляют во время получения генетической библиотеки, или добавляют к компоненту-предшественнику генетической библиотеки до амплификации указанной библиотеки. Стандартные последовательности могут быть выбраны таким образом, чтобы имитировать (отличаясь при этом по последовательности нуклеиновых оснований) целевые геномные фрагменты, подготавливаемые для секвенирования с применением высокопроизводительной техники генетического секвенирования. Согласно одному варианту осуществления стандартная последовательность может быть идентична целевому геномному фрагменту за исключением 1, 2, 3, 4-10 или 11-20 нуклеотидов. Согласно некоторым вариантам осуществления, если целевая генетическая последовательность содержит SNP, стандартная последовательность может быть идентична указанному SNP, за исключением нуклеотида в положении полиморфного основания, который может быть выбрано из 4 нуклеотидов, не встречающихся в природе в указанной локализации. Стандартные последовательности могут использоваться при высокомультиплексном анализе множества целевых локусов (таких как полиморфные локусы). Стандартные последовательности могут быть добавлены во время процесса получения библиотеки (до амплификации) в известных количествах (относительных или абсолютных) для получения стандартного показателя для большей точности определения количества представляющей интерес целевой последовательности в указанном образце для анализа. Комбинация информации относительно известных количеств стандартных последовательностей в сочетании с информацией относительно уровня плоидности формируемой библиотеки для секвенирования, полученной из генома с ранее установленным уровнем плоидности, например, по имеющимся данным, диплоидным по всем аутосомным хромосомам, могут использоваться для калибровки характеристик амплификации каждой стандартной последовательности относительно соответствующей целевой последовательности, с учетом вариаций между партиями смесей, содержащих множество стандартных последовательностей. Учитывая, что часто необходим одновременный анализ значительного числа локусов, целесообразно получение смеси, содержащей большой набор стандартных последовательностей. Варианты осуществления настоящего изобретения включают смеси, содержащие несколько стандартных последовательностей. В идеальном варианте количество каждой стандартной последовательности в указанной смеси известное с высокой степенью точности. Тем не менее, добиться указанного идеального варианта крайне сложно, поскольку на практике существует значительное количество вариаций количества каждой стандартной последовательности в смеси, в частности, в смесях, содержащих значительное число разных синтетических олигонуклеотидов. Указанные вариации обусловлены многочисленными причинами, например, вариациями эффективности реакции синтеза олигонуклеотидов in vitro от партии к партии, неточностями при измерении объемов, вариациями при пипеточном дозировании. Кроме того, указанные вариации могут возникать в разных партиях, теоретически содержащих совершенно одинаковый набор стандартных последовательностей в абсолютно равных количествах. Соответственно, целесообразно калибровать каждую партию стандартных последовательностей независимым образом. Партии стандартных последовательностей могут быть откалиброваны относительно эталонных геномов с известным хромосомным составом. Партии стандартных последовательностей могут быть откалиброваны посредством секвенирования партии стандартных последовательностей с включением в протокол секвенирования минимального этапа амплификации или без этапа амплификации. Варианты осуществления настоящего изобретения включают откалиброванные смеси разных стандартных последовательностей. Другие варианты осуществления настоящего изобретения включают способы калибровки смесей разных стандартных последовательностей, и откалиброванные смеси других стандартных последовательностей, полученных с помощью рассматриваемых способов.Many high-throughput DNA sequencing techniques require modification of the original genetic material, for example, ligation of universal priming sites and / or barcodes to obtain libraries to facilitate the clonal amplification of small fragments of nucleic acids before subsequent sequencing reactions. In some embodiments, one or more standard sequences are added during the preparation of the genetic library, or added to the precursor component of the genetic library prior to amplification of the library. Standard sequences can be chosen in such a way as to mimic (while differing in the sequence of nucleic bases) target genomic fragments prepared for sequencing using the high-performance technique of genetic sequencing. In one embodiment, the standard sequence may be identical to the target genomic fragment with the exception of 1, 2, 3, 4-10, or 11-20 nucleotides. In some embodiments, if the target genetic sequence contains SNP, the standard sequence can be identical to the specified SNP, with the exception of the nucleotide at the position of the polymorphic base, which can be selected from 4 nucleotides that are not found naturally in the specified location. Standard sequences can be used in highly multiplex analysis of multiple target loci (such as polymorphic loci). Standard sequences can be added during the library generation process (before amplification) in known quantities (relative or absolute) to obtain a standard indicator for greater accuracy in determining the amount of the target sequence of interest in the specified sample for analysis. A combination of information regarding known amounts of standard sequences in combination with information regarding the ploidy level of the generated sequencing library obtained from a genome with a previously determined ploidy level, for example, from available data diploid across all autosomal chromosomes, can be used to calibrate the amplification characteristics of each standard sequence relative to appropriate target sequence, taking into account variations between batches of mixtures containing x number of standard sequences. Given that it is often necessary to simultaneously analyze a significant number of loci, it is advisable to obtain a mixture containing a large set of standard sequences. Embodiments of the present invention include mixtures containing several standard sequences. Ideally, the amount of each standard sequence in said mixture is known with a high degree of accuracy. Nevertheless, it is extremely difficult to achieve this ideal variant, since in practice there is a significant number of variations in the amount of each standard sequence in a mixture, in particular in mixtures containing a significant number of different synthetic oligonucleotides. These variations are due to numerous reasons, for example, variations in the in vitro oligonucleotide synthesis reaction efficiency from batch to batch, inaccuracies in volume measurement, and variations in pipette dosing. In addition, these variations can occur in different batches, theoretically containing a completely identical set of standard sequences in absolutely equal quantities. Accordingly, it is advisable to calibrate each batch of standard sequences independently. Batches of standard sequences can be calibrated against reference genomes with known chromosome composition. Batch of standard sequences can be calibrated by sequencing a batch of standard sequences with the inclusion of a minimum amplification step in the sequencing protocol or without an amplification step. Embodiments of the present invention include calibrated mixtures of different standard sequences. Other embodiments of the present invention include methods for calibrating mixtures of different standard sequences, and calibrated mixtures of other standard sequences obtained using the methods in question.

Различные варианты осуществления рассматриваемых смесей стандартных последовательностей и способов их применения могут включать по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 или более стандартных последовательностей, а также различные промежуточные количества. Число стандартных последовательностей может быть равно числу целевых последовательностей, отобранных для анализа при получении целевой библиотеки для секвенирования ДНК. При этом согласно некоторым вариантам осуществления может быть целесообразным использовать число стандартных последовательностей меньшее, чем число целевых областей в конструируемой библиотеке. Может быть целесообразным использовать более низкое число для того, чтобы не столкнуться с пределами мощности секвенирования используемого высокопроизводительного секвенатора ДНК. Число стандартных последовательностей может составлять 50% или менее от числа целевых областей, 40% или менее от числа целевых областей, 30% или менее от числа целевых областей, 20% или менее от числа целевых областей, 10% или менее от числа целевых областей, 5% или менее от числа целевых областей, 1% или менее от числа целевых областей, а также различные промежуточные значения. Например, если генетическую библиотеку создают с применением 15000 пар праймеров, нацеленных на конкретный содержащий SNP локусов, подходящая смесь, содержащая 1500 стандартных последовательностей, соответствующих 1500 из 15000 целевых локусов, может быть добавлена перед этапом амплификации при конструировании библиотек.Various embodiments of contemplated mixtures of standard sequences and methods for their use may include at least 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 or more standard sequences, as well as various intermediate amounts. The number of standard sequences may be equal to the number of target sequences selected for analysis upon receipt of the target library for DNA sequencing. Moreover, according to some variants of implementation, it may be appropriate to use the number of standard sequences less than the number of target areas in the library under construction. It may be advisable to use a lower number so as not to run into the limits of the sequencing power of the high-throughput DNA sequencer used. The number of standard sequences can be 50% or less of the number of target areas, 40% or less of the number of target areas, 30% or less of the number of target areas, 20% or less of the number of target areas, 10% or less of the number of target areas, 5% or less of the number of target areas, 1% or less of the number of target areas, as well as various intermediate values. For example, if a genetic library is created using 15,000 primer pairs targeting specific SNP-containing loci, a suitable mixture containing 1,500 standard sequences corresponding to 1,500 of the 15,000 target loci can be added before the amplification step in library construction.

Количество стандартных последовательностей, добавляемых при конструировании библиотек, может значительно варьировать в разных вариантах осуществления. Согласно некоторым вариантам осуществления количество каждой стандартной последовательности может быть приблизительно равно предсказанному количеству целевой последовательности, присутствующей в образце геномного материала, используемого для подготовки библиотеки. Согласно другим вариантам осуществления количество каждой стандартной последовательности может быть больше или меньше, чем предсказанное количество целевой последовательности, присутствующей в образце геномного материала, используемого для подготовки библиотеки. Хотя исходные относительные количества целевой последовательности и стандартной последовательности не являются критически важными для реализации настоящего изобретения, предпочтительно, чтобы указанное количество попадало в диапазон значений от 100-кратно превышающих количество целевой последовательности до 100-кратно меньших, чем количество целевой последовательности, присутствующей в образце геномного материала, используемого для подготовки библиотеки. Избыточные количества стандарта также могут задействовать слишком большой процент мощности секвенирования секвенатора ДНК за определенный прогон аппарата. Использование слишком малого количества стандартных последовательностей дает недостаточно данных, чтобы подходить для анализа вариаций эффективности амплификации.The number of standard sequences added in the construction of libraries can vary significantly in different embodiments. In some embodiments, the amount of each standard sequence may be approximately equal to the predicted amount of the target sequence present in the sample of genomic material used to prepare the library. In other embodiments, the amount of each standard sequence may be greater or less than the predicted amount of the target sequence present in the sample of genomic material used to prepare the library. Although the initial relative amounts of the target sequence and the standard sequence are not critical for the implementation of the present invention, it is preferable that the specified number fall in the range of values from 100 times the amount of the target sequence to 100 times less than the amount of the target sequence present in the genomic sample material used to prepare the library. Excessive amounts of the standard can also use too much percent of the DNA sequencer sequencing power for a specific run of the apparatus. Using too few standard sequences does not provide enough data to be suitable for analyzing variations in amplification efficiency.

Могут быть выбраны стандартные последовательности, в значительной степени сходные по последовательности нуклеиновых оснований амплифицированным представляющим интерес областям; предпочтительно, стандартная последовательность содержит точно такие же связывающие сайты праймеров, что и анализируемая геномная область, т.е. «целевая последовательность». Стандартная последовательность должна быть отличима от соответствующей целевой последовательности по определенному локусу. Для удобства указанная отличимая область стандартной последовательности будет называться «маркерной последовательностью». Согласно некоторым вариантам осуществления область маркерной последовательности целевых последовательностей содержит полиморфную область, например, SNP, и может быть фланкирована с двух сторон связывающими праймеры областями. Стандартная последовательность может быть выбрана так, чтобы в значительной степени соответствовать по содержанию GC соответствующей целевой последовательности. Согласно некоторым вариантам осуществления связывающие праймеры области стандартной последовательности фланкированы универсальными сайтами праймирования. Указанные универсальные сайты праймирования выбирают так, чтобы они соответствовали универсальным сайтам праймирования, используемым в геномной библиотеке для анализа. Согласно другим вариантам осуществления стандартные последовательности не содержат универсальных сайтов праймирования, и универсальные сайты праймирования добавляют во время создания библиотеки. Стандартные последовательности, как правило, представлены в одноцепочечной форме. Определяют стандартную последовательность для соответствующей целевой последовательности и используют специфичные в отношении последовательности реагенты для амплификации целевой последовательности. Согласно некоторым вариантам осуществления целевая последовательность содержит представляющий интерес полиморфизм, например, SNP, делецию или инсерцию, присутствующий в образце нуклеиновой кислоты для анализа. Стандартная последовательность представляет собой синтетический полинуклеотид, аналогичный по последовательности нуклеиновых оснований целевой последовательности, но, тем не менее, отличимая от целевой последовательности за счет по меньшей мере одного другого нуклеинового основания, что обеспечивает механизм различения последовательностей ампликонов, полученных из стандартной последовательности, и последовательностей ампликонов, полученных из целевой последовательности. Стандартные последовательности выбирают так, чтобы они обладали по существу такими же свойствами при амплификации, что и соответствующая целевая последовательность, при амплифицировании с тем же набором реагентов для амплификации, например, праймерами для ПЦР. Согласно некоторым вариантам стандартные последовательности могут содержать те же последовательности сайтов связывания праймеров, что и соответствующие целевые последовательности. Согласно другим вариантам осуществления стандартные последовательности могут содержать последовательности сайтов связывания праймеров, отличные от соответствующих целевых последовательностей. Согласно некоторым вариантам осуществления могут быть выбраны стандартные последовательности для получения ампликонов, которые имеют ту же длину, что и ампликоны, полученные из соответствующих целевых последовательностей. Согласно другим вариантам осуществления могут быть выбраны стандартные последовательности для получения ампликонов, которые имеют немного другие длины по сравнению с длиной ампликонов, полученных из соответствующих целевых последовательностей.Standard sequences can be selected that are substantially similar in sequence to the nucleic bases of the amplified regions of interest; preferably, the standard sequence contains exactly the same primer binding sites as the analyzed genomic region, i.e. "Target sequence." The standard sequence should be distinguishable from the corresponding target sequence at a specific locus. For convenience, this distinguishable region of the standard sequence will be called a “marker sequence". In some embodiments, the marker sequence region of the target sequences comprises a polymorphic region, for example, SNP, and can be flanked on both sides by primer-binding regions. The standard sequence can be chosen so that to a large extent correspond to the content of GC of the corresponding target sequence. In some embodiments, primer binding regions of the standard sequence are flanked by universal priming sites. These universal priming sites are selected so that they correspond to the universal priming sites used in the genomic library for analysis. In other embodiments, standard sequences do not contain universal priming sites, and universal priming sites are added during library creation. Standard sequences are typically presented in single chain form. A standard sequence is determined for the corresponding target sequence and sequence-specific reagents are used to amplify the target sequence. In some embodiments, the target sequence contains a polymorphism of interest, such as SNP, a deletion or insertion present in a nucleic acid sample for analysis. The standard sequence is a synthetic polynucleotide similar in sequence to the nucleic base of the target sequence, but nevertheless distinguishable from the target sequence due to at least one other nucleic base, which provides a mechanism for distinguishing between amplicon sequences derived from the standard sequence and amplicon sequences derived from the target sequence. Standard sequences are chosen so that they have substantially the same amplification properties as the corresponding target sequence when amplified with the same set of amplification reagents, for example, PCR primers. In some embodiments, standard sequences may contain the same sequences of primer binding sites as the corresponding target sequences. In other embodiments, standard sequences may comprise sequences of primer binding sites other than the corresponding target sequences. In some embodiments, standard sequences can be selected to produce amplicons that have the same length as amplicons derived from the corresponding target sequences. In other embodiments, standard sequences can be selected to produce amplicons that have slightly different lengths compared to amplicons obtained from the corresponding target sequences.

После завершения реакций амплификации библиотеку секвенируют на высокопроизводительном секвенаторе ДНК, при этом индивидуальные молекулы клонально амплифицируют и секвенируют. Подсчитывают число считываний последовательностей для каждого аллеля целевой последовательности, также подсчитывают число считываний последовательностей для стандартной последовательности, соответствующей целевой последовательности. Указанный процесс также проводят по меньшей мере для одной другой пары целевых последовательностей и соответствующих стандартных последовательностей. Рассматривая, например, локус А, получают XA1 считываний для аллеля 1 локуса А; получают ХA2 считываний для аллеля 2 локуса А, и ХAC считываний для стандартной последовательности А. Отношение (XA1A2) к ХAC определяют для каждого представляющего интерес локуса. Как уже обсуждалось, процесс может выполняться на эталонном геноме, например, геноме, который, как известно, диплоиден по всем хромосомам. Процесс может повторяться многократно для обеспечения значительного числа считываний для определения среднего числа считываний и стандартного отклонения для числа считываний. Процесс проводят со смесью, содержащей значительное число разных стандартных последовательностей, соответствующих разным локусам. Предположив, что (1) XA1A2 соответствует известному числу хромосом, например, 2 для нормального генома человека женского пола и (2) стандартные последовательности обладают свойствами при амплификации (и детектируемостью), аналогичными соответствующим им природным локусам, могут быть определены относительные количества разных стандартных последовательностей в мультиплексной стандартной смеси. Откалиброванную мультиплексную смесь стандартных последовательностей затем можно использовать для коррекции с учетом вариабельности эффективности амплификации разных локусов в реакции мультиплексной амплификации.After completion of the amplification reactions, the library is sequenced on a high-throughput DNA sequencer, while individual molecules are clonally amplified and sequenced. Count the number of reads of sequences for each allele of the target sequence, also count the number of reads of sequences for the standard sequence corresponding to the target sequence. The specified process is also carried out for at least one other pair of target sequences and corresponding standard sequences. Considering, for example, locus A, get X A1 readings for allele 1 of locus A; get X A2 readings for allele 2 of locus A, and X AC readings for standard sequence A. The ratio of (X A1 + X A2 ) to X AC is determined for each locus of interest. As already discussed, the process can be performed on a reference genome, for example, a genome that is known to be diploid on all chromosomes. The process can be repeated many times to provide a significant number of readings to determine the average number of readings and the standard deviation for the number of readings. The process is carried out with a mixture containing a significant number of different standard sequences corresponding to different loci. Assuming that (1) X A1 + X A2 corresponds to a known number of chromosomes, for example, 2 for the normal female human genome and (2) standard sequences have amplification properties (and detectability) similar to their corresponding natural loci, relative ratios can be determined the number of different standard sequences in a multiplex standard mixture. The calibrated multiplex mixture of standard sequences can then be used for correction, taking into account the variability of the amplification efficiency of different loci in the multiplex amplification reaction.

Другие варианты осуществления настоящего изобретения включают способы и композиции для подсчета числа копий конкретных представляющих интерес генов, включая дупликации и мутантные гены, характеризующиеся обширными делециями, которые будут мешать количественному определению посредством секвенирования. При обнаружении аллелей, содержащих такие делеции, при секвенировании будут возникать проблемы. Для уменьшения указанной проблемы могут использоваться стандартные последовательности, включенные в процесс амплификации.Other embodiments of the present invention include methods and compositions for counting the number of copies of specific genes of interest, including duplications and mutant genes characterized by extensive deletions that will interfere with quantification by sequencing. If alleles containing such deletions are detected, sequencing will cause problems. To reduce this problem, standard sequences included in the amplification process can be used.

Согласно одному из вариантов осуществления настоящего изобретения целевая последовательность для анализа представляет собой ген, у которого имеется форма дикого типа (т.е. функциональная) и мутантная форма, характеризующаяся делецией. Примерами таких генов является SMN1, аллель, содержащий делецию, ответственную за генетическое заболевание, спинальную мышечную атрофию (SMA). Он представляет интерес для выявления индивидуума-носителя мутантной формы указанного гена с помощью техник высокопроизводительного генетического секвенирования. Применение таких техник для обнаружения делеционных мутаций может быть проблематичным, что обусловлено, среди прочих причин, отсутствием наблюдаемых при секвенировании последовательностей, (в отличие от обнаружения одноточечных мутаций, или SNP). Такие варианты осуществления задействуют (1) пару праймеров для амплификации, специфических в отношении представляющего интерес гена, при этом указанные праймеры для амплификации амплифицируют представляющий интерес ген (или его часть) и не амплифицируют в существенной степени мутантный аллель, (2) стандартную последовательность, соответствующую аллелю дикого типа представляющего интерес гена (т.е. целевой последовательности), но отличающуюся по меньшей мере одним детектируемым нуклеиновым основанием, (3) пару праймеров для амплификации, специфических в отношении второй целевой последовательности, которая служит в качестве эталонной последовательности, и (4) стандартную последовательность, соответствующую эталонной последовательности.According to one embodiment of the present invention, the target sequence for analysis is a gene that has a wild-type (i.e. functional) form and a mutant form characterized by a deletion. Examples of such genes are SMN1, an allele containing a deletion responsible for a genetic disease, spinal muscular atrophy (SMA). It is of interest to identify an individual carrier of a mutant form of the indicated gene using high-throughput genetic sequencing techniques. The use of such techniques to detect deletion mutations can be problematic, which is due, among other reasons, to the lack of sequences observed during sequencing (as opposed to the detection of single-point mutations, or SNPs). Such embodiments utilize (1) a pair of amplification primers specific for the gene of interest, wherein said amplification primers amplify the gene of interest (or part thereof) and do not substantially amplify the mutant allele, (2) a standard sequence corresponding to a wild-type allele of a gene of interest (i.e., a target sequence) but differing in at least one detectable nucleic base, (3) a pair of primers for amplification Specific for the second target sequence, that serves as a reference sequence, and (4) the standard sequence corresponding to a reference sequence.

Согласно одному из вариантов осуществления настоящего изобретения предложен способ измерения числа копий представляющего интерес гена, при этом в представляющем интерес гене имеется один значимый аллель, который содержит делецию. Способ может задействовать реагент для амплификации, специфический в отношении представляющего интерес гена, например, ПЦР-праймеры, специфические в отношении представляющего интерес гена, путем амплификации по меньшей мере части указанного представляющего интерес гена, или представляющего интерес гена полностью, или области, смежной с представляющим интерес генов, при этом без амплификации содержащего делецию аллеля представляющего интерес гена. Кроме того, рассматриваемый способ задействует стандартную последовательность, соответствующую представляющему интерес гену, причем указанная стандартная последовательность отличается по меньшей мере одним нуклеотидом от указанного представляющего интерес гена (таким образом, последовательность стандартной последовательности можно легко отличить от встречающегося в природе представляющего интерес гена). Как правило, стандартная последовательность содержит жит те же сайты связывания праймеров, что и представляющий интерес ген, так что любые различия амплификации представляющего интерес гена и стандартной последовательности, соответствующей представляющему интерес гену, минимизированы. Реакция также включает реагенты для амплификации специфической в отношении эталонной последовательности. Эталонная последовательность представляет собой последовательность с известным (или по меньшей мере предположительно известным) числом копий в подлежащем анализу геноме. Реакция также включает стандартную последовательность, соответствующую эталонной последовательности. Как правило, стандартная последовательность, соответствующая эталонной последовательности, содержит те же сайты связывания праймеров, что и эталонной последовательности, так что любые различия амплификации эталонной последовательности и стандартной последовательности, соответствующей эталонной последовательности, минимизированы.According to one embodiment of the present invention, a method for measuring the number of copies of a gene of interest is provided, wherein the gene of interest has one significant allele that contains a deletion. The method may employ an amplification reagent specific for the gene of interest, for example, PCR primers specific for the gene of interest by amplifying at least a portion of the gene of interest, or the gene of interest completely, or a region adjacent to the gene of interest gene interest, without amplification of the deletion-containing allele of the gene of interest. In addition, the method under consideration utilizes a standard sequence corresponding to the gene of interest, wherein said standard sequence differs by at least one nucleotide from the indicated gene of interest (thus, the sequence of the standard sequence can be easily distinguished from the naturally occurring gene of interest). Typically, the standard sequence contains the same primer binding sites as the gene of interest, so that any differences in amplification of the gene of interest and the standard sequence corresponding to the gene of interest are minimized. The reaction also includes reagents for amplification of a specific reference sequence. A reference sequence is a sequence with a known (or at least presumably known) number of copies in the genome to be analyzed. The reaction also includes a standard sequence corresponding to a reference sequence. Typically, the standard sequence corresponding to the reference sequence contains the same primer binding sites as the reference sequence, so that any differences in amplification of the reference sequence and the standard sequence corresponding to the reference sequence are minimized.

Примеры образцов нуклеиновой кислотыExamples of nucleic acid samples

Согласно некоторым вариантам осуществления генетический образец может быть получен, выделен и/или очищен. Существует ряд известных в данной области техники стандартных процедур для выполнения указанных задач. Согласно некоторым вариантам осуществления образец может быть центрифугирован для разделения разных слоев. Согласно некоторым вариантам осуществления ДНК может быть выделена с применением фильтрации. Согласно некоторым вариантам осуществления получение ДНК может включать амплификацию, разделение, очистку хроматографией, разделение жидкостей, выделение, преимущественное обогащение, преимущественную амплификацию, целевую амплификацию, или любую из ряда других техник, либо известных в данной области техники, либо описанных в настоящем документе.In some embodiments, a genetic sample can be obtained, isolated, and / or purified. There are a number of standard procedures known in the art for performing these tasks. In some embodiments, the sample may be centrifuged to separate different layers. In some embodiments, the DNA can be isolated using filtration. In some embodiments, the preparation of DNA may include amplification, separation, purification by chromatography, separation of liquids, isolation, preferential enrichment, preferential amplification, target amplification, or any of a number of other techniques known in the art or described herein.

Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ может быть использован в ситуациях, когда имеется очень небольшое количество ДНК, например, при оплодотворении in vitro, или в ситуациях, требующих судебно-технической экспертизы, когда доступны одна или небольшое количество клеток (как правило менее чем 10 клеток, менее чем 20 клеток или менее чем 40 клеток.) Согласно указанным вариантам осуществления раскрытый в настоящем документе способ служит для определения плоидности по небольшому количеству ДНК, которая не загрязнена другой ДНК, однако при этом определение плоидности сильно затруднено из-за небольшого количества ДНК. Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ может быть использован в ситуациях, когда целевая ДНК загрязнена ДНК другого индивидуума, например, в материнской крови в контексте пренатальной диагностики, при тестировании на отцовство или тестировании продуктов оплодотворения. Некоторые другие ситуации, при которых, в частности, благоприятным будет использование указанных способов, включают тестирование злокачественных заболеваний, при котором имеется только одна или небольшое количество клеток среди большого количества нормальных клеток. Генетические измерения, используемые как часть указанных способов, могут быть выполнены в любом образце, содержащем ДНК или РНК, например, не ограничиваясь перечисленным, в крови, плазме, физиологических жидкостях, моче, волосах, слезе, слюне, ткани, коже, ногтях, бластомерах, эмбрионах, амниотической жидкости, образцах ворсин хориона, кале, желчи, лимфе, цервикальной слизи, сперме или других клетках или материалах, содержащих нуклеиновые кислоты. Согласно варианту осуществления раскрытый в настоящем документе способ может быть реализован со такими способами обнаружения нуклеиновых кислот, как секвенирование, микроматрицы, количественная ПЦР, цифровая ПЦР или другие способы, используемые для измерения нуклеиновых кислот. Если по какой-либо причине это будет сочтено желательным, могут быть рассчитаны отношения вероятностей числа аллелей в локусе, и отношения числа аллелей могут быть использованы для определения состояния плоидности в комбинации с некоторыми из описанных в настоящем документе способов, при условии, что указанные способы совместимы. Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ включает вычисление на компьютере, аллельных отношений во множестве полиморфных локусов по измерениям ДНК, выполненным на обработанных образцах. Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ включает вычисление на компьютере аллельных отношений во множестве полиморфных локусов по измерениям ДНК, выполненным на обработанных образцах, наряду с любой комбинацией других раскрытых в настоящем описании улучшений.In some embodiments, the method disclosed herein can be used in situations where there is a very small amount of DNA, for example, in vitro fertilization, or in situations requiring a forensic examination when one or a small number of cells are available (usually less less than 10 cells, less than 20 cells or less than 40 cells.) According to these embodiments, the method disclosed herein serves to determine ploidy from a small amount of DNA that other DNA is not contaminated, however, the determination of ploidy is very difficult due to the small amount of DNA. In some embodiments, the method disclosed herein can be used in situations where the target DNA is contaminated with another individual’s DNA, for example, in maternal blood in the context of prenatal diagnosis, in paternity testing or in fertilization products. Some other situations in which, in particular, the use of these methods will be beneficial include testing for malignant diseases in which there is only one or a small number of cells among a large number of normal cells. Genetic measurements used as part of these methods can be performed in any sample containing DNA or RNA, for example, but not limited to, in blood, plasma, body fluids, urine, hair, tear, saliva, tissue, skin, nails, blastomeres embryos, amniotic fluid, samples of chorionic villi, feces, bile, lymph, cervical mucus, semen or other cells or materials containing nucleic acids. According to an embodiment, the method disclosed herein may be implemented with methods for detecting nucleic acids such as sequencing, microarrays, quantitative PCR, digital PCR, or other methods used to measure nucleic acids. If for any reason this is deemed desirable, the probability ratios of the number of alleles at the locus can be calculated, and the ratio of the number of alleles can be used to determine the ploidy state in combination with some of the methods described herein, provided that these methods are compatible . In some embodiments, the method disclosed herein includes computing on a computer allelic ratios at a plurality of polymorphic loci from DNA measurements made on treated samples. In some embodiments, a method disclosed herein includes computing computer allelic ratios at a plurality of polymorphic loci from DNA measurements made on treated samples, along with any combination of the other improvements described herein.

Согласно некоторым вариантам осуществления указанный способ может использоваться для генотипирования единичной клетки, небольшого количества клеток, от 2 до 5 клеток, от 6 до 10 клеток, от 10 до 20 клеток, от 20 до 50 клеток, от 50 до 100 клеток, от 100 до 1000 клеток, или небольшого количества внеклеточной ДНК, например, от 1 до 10 пг, от 10 до 100 пг, от 100 пг до 1 нг, от 1 до 10 нг, от 10 до 100 нг или от 100 нг до 1 мкг.In some embodiments, the method can be used to genotype a single cell, a small number of cells, from 2 to 5 cells, from 6 to 10 cells, from 10 to 20 cells, from 20 to 50 cells, from 50 to 100 cells, from 100 to 1000 cells, or a small amount of extracellular DNA, for example, from 1 to 10 pg, from 10 to 100 pg, from 100 pg to 1 ng, from 1 to 10 ng, from 10 to 100 ng, or from 100 ng to 1 μg.

Примеры исследований экспрессии РНКExamples of studies of RNA expression

Способы мультиплексной ПЦР согласно настоящему изобретению могут использоваться для увеличения числа целевых локусов, которые могут оцениваться во время экспериментального профилирования генной экспрессии. Например, может проводиться одновременный мониторинг уровней экспрессии тысяч генов для определения того, присутствует ли у субъекта последовательность (такая как полиморфизм или другая мутация), связанная с заболеванием (например, раковым заболеванием) или повышенным риском заболевания. Указанные способы могут использоваться для идентификации последовательностей (таких как полиморфизмы или другие мутации), связанных с повышенным или пониженным риском заболевания, например, ракового заболевания, путем сравнения генной экспрессии (например, экспрессии мРНК конкретных аллелей) в образцах от пациентов, у которых имеется или отсутствует указанное заболевание. Дополнительно может определяться эффект конкретных вариантов лечения, заболеваний или стадий развития на генную экспрессию. Аналогичным образом, указанные способы могут использоваться для идентификации генов, экспрессия которых изменяется в ответ на патогены или другие организмы путем сравнения генной экспрессии в инфицированных и неинфицированных клетках или тканях. В указанных способах число считываний при секвенировании может быть скорректировано с учетом частот анализируемых полиморфизмов, таким образом, чтобы провести достаточно считываний для обнаружения полиморфизмов в случае их присутствия.Multiplex PCR methods according to the present invention can be used to increase the number of target loci that can be evaluated during experimental profiling of gene expression. For example, expression levels of thousands of genes can be simultaneously monitored to determine if a subject has a sequence (such as polymorphism or another mutation) associated with a disease (e.g., cancer) or an increased risk of disease. These methods can be used to identify sequences (such as polymorphisms or other mutations) associated with an increased or reduced risk of disease, for example, cancer, by comparing gene expression (e.g., mRNA expression of specific alleles) in samples from patients who have or the specified disease is absent. Additionally, the effect of specific treatment options, diseases, or developmental stages on gene expression can be determined. Similarly, these methods can be used to identify genes whose expression changes in response to pathogens or other organisms by comparing gene expression in infected and uninfected cells or tissues. In these methods, the number of readings during sequencing can be adjusted taking into account the frequencies of the analyzed polymorphisms, so as to conduct enough readings to detect polymorphisms if they are present.

Согласно некоторым вариантам осуществления образец, содержащий РНК (такую как мРНК), амплифицируют с применением обратной транскриптазы (RT), и полученную ДНК (такую как кДНК) затем амплифицируют с применением ДЕК-полимеразы (ПЦР). Этапы RT и ПЦР могут проводиться последовательно в одном и том же реакционном объеме, либо отдельно. В указанном способе полимеразной цепной реакции с обратной транскрипцией (ОТ-ПЦР) могут использоваться любые из библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления обратную транскрипцию осуществляют с применением олиго-dT, случайных праймеров, смеси олиго-dT и случайных праймеров, или праймеров, специфичных в отношении целевых локусов. Чтобы избежать амплификации загрязняющей геномной ДНК, праймеры для ОТ-ПЦР могут быть сконструированы таким образом, что часть одного праймера гибридизуется с 3'-концом одного экзона, а другая часть указанного праймера гибридизуется с 5'-концом смежного экзона. Такие праймеры отжигаются с кДНК, синтезированной из сплайсированных мРНК, но не с геномной ДНК. Для обнаружения амплификации загрязняющей ДНК пары праймеров для ОТ-ПЦР могут быть сконструированы таким образом, чтобы фланкировать область, которая содержит по меньшей мере один интрон. Продукты, амплифицированные из кДНК (без интронов) имеют меньший размер, чем амплифицированные из геномной ДНК (содержащей интроны). Разницу в размере продуктов используют для обнаружения присутствия загрязняющей ДНК. Согласно некоторым вариантам осуществления, если известна только последовательность мРНК, выбирают участки для отжига праймеров на расстоянии по меньшей мере 300-400 пар оснований, поскольку существует вероятность, что фрагменты указанного размера эукариотической ДНК содержат точки сплайсинга. Как вариант, образец может быть обработан ДНКазой для разрушения загрязняющей ДНК. Примеры способов тестирования на отцовствоIn some embodiments, a sample containing RNA (such as mRNA) is amplified using reverse transcriptase (RT), and the resulting DNA (such as cDNA) is then amplified using DEC polymerase (PCR). The RT and PCR steps can be carried out sequentially in the same reaction volume, or separately. In said reverse transcription polymerase chain reaction (RT-PCR) method, any of the primer libraries of the present invention can be used. In various embodiments, reverse transcription is performed using oligo-dT, random primers, a mixture of oligo-dT and random primers, or primers specific for the target loci. To avoid amplification of contaminating genomic DNA, RT-PCR primers can be designed such that part of one primer hybridizes to the 3'-end of one exon and the other part of the primer hybridizes to the 5'-end of an adjacent exon. Such primers are annealed with cDNA synthesized from spliced mRNA, but not with genomic DNA. To detect amplification of DNA contaminating DNA, primer pairs for RT-PCR can be designed to flank a region that contains at least one intron. Products amplified from cDNA (without introns) are smaller than those amplified from genomic DNA (containing introns). The difference in product size is used to detect the presence of contaminating DNA. In some embodiments, if only the mRNA sequence is known, select sites for primer annealing at a distance of at least 300-400 base pairs, since it is likely that fragments of the indicated eukaryotic DNA size contain splicing points. Alternatively, the sample may be treated with DNase to destroy contaminating DNA. Examples of paternity testing methods

Способы мультиплексной ПЦР согласно настоящему изобретению могут использоваться для повышения точности тестирования на отцовство, поскольку за один прием может быть проанализировано значительное количество целевых локусов (см., например, публикацию США №2012/0122701, которая была подана 22 декабря 2011 г., полностью включенную в настоящий документ посредством ссылки). Например, указанный способ мультиплексной ПЦР может обеспечить анализ тысяч полиморфных локусов (таких как SNP) для применения в алгоритме PARENTAL SUPPORT, описанном в настоящем документе, для определения того, является ли предполагаемый отец биологическим отцом плода. Согласно некоторым вариантам осуществления указанный способ включает (i) одновременную амплификацию множества полиморфных локусов, включающего по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов из генетического материала от предполагаемого отца,, в результате чего получают первый набор амплифицированных продуктов; (ii) одновременную амплификацию соответствующего множества полиморфных локусов в смешанном образце ДНК, происходящем из образца крови беременной матери, в результате чего получают второй набор амплифицированных продуктов; при этом указанный смешанный образец ДНК содержит плодную ДНК и материнскую ДНК; (iii) определение на компьютере вероятности того, что предполагаемый отец является биологическим отцом указанного плода, с применением генотипических измерений на основе первого и второго наборов амплифицированных продуктов; и (iv) определение того, является ли предполагаемый отец биологическим отцом указанного плода с использованием определенной вероятности того, что предполагаемый отец является биологическим отцом указанного плода. Согласно различным вариантам осуществления указанный способ также включает одновременную амплификацию соответствующего множества полиморфных локусов из генетического материала матери для получения третьего набора амплифицированных продуктов; при этом вероятность того, что предполагаемый отец является биологическим отцом указанного плода, определяют с применением генотипических измерений на основе первого, второго и третьего наборов амплифицированных продуктов.The multiplex PCR methods of the present invention can be used to improve the accuracy of paternity testing, since a significant number of target loci can be analyzed at one time (see, for example, US publication No. 2012/0122701, which was filed December 22, 2011, fully incorporated in this document by reference). For example, this multiplex PCR method can provide an analysis of thousands of polymorphic loci (such as SNPs) for use in the PARENTAL SUPPORT algorithm described herein to determine if the alleged father is the biological father of the fetus. In some embodiments, said method comprises (i) simultaneously amplifying a plurality of polymorphic loci comprising at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different polymorphic loci from genetic material from the alleged father, resulting in the first set of amplified products; (ii) simultaneously amplifying a plurality of polymorphic loci in a mixed DNA sample originating from a pregnant mother’s blood sample, resulting in a second set of amplified products; wherein said mixed DNA sample contains fetal DNA and maternal DNA; (iii) determining on a computer the probability that the alleged father is the biological father of the fetus, using genotypic measurements based on the first and second sets of amplified products; and (iv) determining whether the alleged father is the biological father of the specified fetus using the specific probability that the alleged father is the biological father of the specified fetus. In various embodiments, said method also includes simultaneously amplifying a plurality of polymorphic loci from the mother’s genetic material to produce a third set of amplified products; the probability that the alleged father is the biological father of the specified fetus is determined using genotypic measurements based on the first, second and third sets of amplified products.

Примеры способов определения характеристик и отбора эмбрионовExamples of methods for characterization and selection of embryos

Способы мультиплексной ПЦР согласно настоящему изобретению могут использоваться для улучшения отбора эмбрионов для оплодотворения in vitro за счет обеспечения анализа тысяч целевых локусов за один прием (см., например, публикацию США №2011/0092763, которая была подана 27 мая 2008 г., 22 декабря 2011 г., полностью включенную в настоящий документ посредством ссылки). Например, указанный способ мультиплексной ПЦР может обеспечивать анализ тысяч полиморфных локусов (таких как SNP) для применения в алгоритме PARENTAL SUPPORT, описанном в настоящем документе, для отбора эмбриона из набора эмбрионов для оплодотворения in vitro.Multiplex PCR methods according to the present invention can be used to improve the selection of embryos for in vitro fertilization by providing analysis of thousands of target loci in one go (see, for example, US publication No. 2011/0092763, which was filed May 27, 2008, December 22 2011, incorporated herein by reference in its entirety). For example, this multiplex PCR method can analyze thousands of polymorphic loci (such as SNPs) for use in the PARENTAL SUPPORT algorithm described herein to select an embryo from an in vitro fertilization set of embryos.

Согласно некоторым вариантам осуществления в настоящем изобретении предложены способы установления относительных вероятностей того, что каждый эмбрион из группы эмбрионов будет развиваться желаемым образом. Согласно некоторым вариантам осуществления указанный способ включает приведение в контакт образца от каждого эмбриона с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь для каждого эмбриона, при это каждый из указанных образцов получен из одной или нескольких клеток эмбриона. Согласно некоторым вариантам осуществления каждую реакционную смесь подвергают воздействию условий реакции удлинения праймеров, в результате чего получают продукты амплификации. Согласно некоторым вариантам осуществления указанный способ включает определение на компьютере одной или несколько характеристик по меньшей мере одной клетки из каждого эмбриона на основе амплифицированных продуктов; и установление на компьютере относительных вероятностей того, что каждый эмбрион будет развиваться желаемым образом, на основании указанной одной или нескольких характеристик указанной по меньшей мере одной клетки для каждого эмбриона. Согласно некоторым вариантам осуществления указанный способ включает применение способа на основе информатики для определения по меньшей мере одной характеристики, такого как алгоритм PARENTAL SUPPORT, описанный в настоящем документе. Согласно некоторым вариантам осуществления указанная характеристика включает состояние плоидности. Согласно некоторым вариантам осуществления указанная характеристика выбрана из группы, состоящей из анеуплоидности, эуплоидности, мозаицизма, нуллисомии, моносомии, однородительской дисомии, трисомии, тетрасомии, вида анеуплоидии, трисомии ошибки несовпадающих копий, трисомии ошибки совпадающих копий, анеуплоидии материнского происхождения, анеуплоидии отцовского происхождения, присутствия или отсутствия связанного с заболеванием гена, хромосомной идентичности любой анеуплоидной хромосомы, анормального генетического состояния, делеции или дупликации, вероятности характеристики и их комбинаций. Указанная характеристика может быть связана с хромосомой, взятой из группы, состоящей из хромосомы 1, хромосомы 2, хромосомы 3, хромосомы 4, хромосомы 5, хромосомы 6, хромосомы 7, хромосомы 8, хромосомы 9, хромосомы 10, хромосомы 1, хромосомы 12, хромосомы 13, хромосомы 14, хромосомы 15, хромосомы 16, хромосомы 17, хромосомы 18, хромосомы 19, хромосомы 20, хромосомы 21, хромосомы 22, Х-хромосомы или Y-хромосомы и их комбинаций. Примеры способов пренатальной диагностикиIn some embodiments, the present invention provides methods for establishing the relative probabilities that each embryo in a group of embryos will develop in a desired manner. In some embodiments, said method comprises contacting a sample from each embryo with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci, resulting in a reaction mixture for each embryo, with each of these samples obtained from one or more cells of the embryo. In some embodiments, each reaction mixture is subjected to primer extension reaction conditions, resulting in amplification products. In some embodiments, said method comprises determining on a computer one or more characteristics of at least one cell from each embryo based on amplified products; and establishing on a computer the relative probabilities that each embryo will develop in the desired manner, based on the specified one or more characteristics of the specified at least one cell for each embryo. In some embodiments, said method includes applying an informatics-based method to determine at least one characteristic, such as the PARENTAL SUPPORT algorithm described herein. In some embodiments, said characteristic includes a ploidy state. According to some variants of implementation, this characteristic is selected from the group consisting of aneuploidy, euploidy, mosaicism, nullisomy, monosomy, homogeneous disomy, trisomy, tetrasomy, type of aneuploidy, trisomy errors of mismatched copies, trisomy errors of matching copies, aneuploidy maternal origin, aneuploidia of maternal origin the presence or absence of a disease-related gene, the chromosomal identity of any aneuploid chromosome, an abnormal genetic condition, Elections or duplications, probabilities of a characteristic and their combinations. This characteristic may be associated with a chromosome taken from the group consisting of chromosome 1, chromosome 2, chromosome 3, chromosome 4, chromosome 5, chromosome 6, chromosome 7, chromosome 8, chromosome 9, chromosome 10, chromosome 1, chromosome 12, chromosome 13, chromosome 14, chromosome 15, chromosome 16, chromosome 17, chromosome 18, chromosome 19, chromosome 20, chromosome 21, chromosome 22, X-chromosome or Y-chromosome, and combinations thereof. Examples of prenatal diagnostic methods

Способы мультиплексной ПЦР согласно настоящему изобретению могут использоваться для улучшения способов пренатальной диагностики, таких как определение статуса плоидности плодных хромосом. С учетом значительного числа целевых локусов, которые могут быть амплифицированы одновременно, возможны более точные определения.The multiplex PCR methods of the present invention can be used to improve prenatal diagnostic methods, such as determining the ploidy status of fetal chromosomes. Given the significant number of target loci that can be amplified simultaneously, more precise definitions are possible.

Согласно варианту осуществления в настоящем описании раскрыты способы ex vivo определения статуса плоидности хромосомы у вынашиваемого плода по генотипическим данным, измеренным в смешанном образце ДНК (т.е. ДНК от матери плода и ДНК от плода) и необязательно по генотипическим данным измеренным в образце генетического материала матери и также, возможно, отца, при это указанное определение выполняют с применением модели совместного распределения для создания набора ожидаемых аллельных распределений для разных возможных состояний плоидности плода с учетом родительских генотипических данных, и сравнение ожидаемых аллельных распределений с фактическими аллельными распределениями, измеренными в смешанном образце, и выбор состояния плоидности, для которого ожидаемый паттерн аллельного распределения наиболее точно соответствует наблюдаемому паттерну аллельного распределения. Согласно варианту осуществления указанный смешанный образец получен из материнской крови, или материнской сыворотки или плазмы. Согласно варианту осуществления указанный смешанный образец ДНК может быть преимущественно обогащен по целевым локусам (например, множеству полиморфных локусов). Согласно варианту осуществления указанное преимущественное обогащение выполняют таким способом, чтобы минимизировать смещение числа аллелей. Согласно варианту осуществления настоящее описание относится к содержащей ДНК композиции, которая была преимущественно обогащена по множеству локусов таким образом, что смещение числа аллелей незначительна. Согласно варианту осуществления аллельное(ые) распределение(я) измеряют посредством секвенирования ДНК из смешанного образца. Согласно варианту осуществления модель совместного распределения предполагает, что аллели распределяются в соответствии с биномиальным распределением. Согласно варианту осуществления получают набор ожидаемых совокупных аллельных распределений для генетически связанных локусов с учетом существующих частот рекомбинации из разных источников, например, с применением данных международного консорциума НарМар.According to an embodiment, the present disclosure discloses ex vivo methods for determining the ploidy status of a chromosome in a gestating fetus from genotypic data measured in a mixed DNA sample (i.e., DNA from the mother of the fetus and DNA from the fetus) and optionally from genotypic data measured in the sample of genetic material mother and also, possibly, father, this definition is performed using the joint distribution model to create a set of expected allelic distributions for different possible ploidy states ti fetal considering parental genotypic data, and comparing the expected allelic distributions of actual allelic distributions measured in a mixed sample, and selecting the ploidy state for which the expected allelic distribution pattern most closely matches the observed allele distribution pattern. According to an embodiment, said mixed sample is obtained from maternal blood, or maternal serum or plasma. In an embodiment, said mixed DNA sample can be advantageously enriched at target loci (e.g., a plurality of polymorphic loci). According to an embodiment, said preferential enrichment is performed in such a way as to minimize the shift in the number of alleles. In an embodiment, the present disclosure relates to a DNA-containing composition that has been predominantly enriched at a multitude of loci such that the shift in the number of alleles is negligible. In an embodiment, the allelic distribution (s) are measured by sequencing DNA from a mixed sample. According to an embodiment, the co-distribution model assumes that the alleles are distributed according to the binomial distribution. According to an embodiment, a set of expected cumulative allelic distributions for genetically linked loci is obtained taking into account existing recombination frequencies from different sources, for example, using data from the international NarMar consortium.

Согласно варианту осуществления в настоящем описании предложены способы неинвазивной пренатальной диагностики (NPD), в частности, определения статуса анеуплоидии плода, посредством рассмотрения измерений аллелей во множестве полиморфных локусов в генотипических данных, измеренных для смесей ДНК, при этом определенные измерения аллелей указывают на анеуплоидный плод, тогда как другие измерения аллелей указывают на эуплоидный плод. Согласно варианту осуществления генотипические данные измеряют посредством секвенирования смесей ДНК, полученных из материнской плазмы. Согласно варианту осуществления образец ДНК может быть преимущественно обогащен молекулами ДНК, которые соответствуют множеству локусов, для которых рассчитывают аллельные распределения. Согласно варианту осуществления измеряют образец ДНК, содержащий исключительно или почти исключительно генетический материал матери, и, возможно, также образец ДНК, содержащий исключительно или почти исключительно генетический материал от отца. Согласно варианту осуществления генетические измерения для одного или обоих родителей наряду с оценкой доли плода применяют для создания множества ожидаемых аллельных распределений, соответствующих разным возможным исходным генетическим статусам указанного плода; ожидаемые аллельные распределения могут быть названы гипотезами. Согласно варианту осуществления генетические данные матери не определяют путем измерения генетического материала, который является исключительно или почти исключительно материнскую по своей природе, а устанавливают по генетическим измерениям, выполняемым на материнской плазме, которая содержит смесь материнской и плодной ДНК. Согласно некоторым вариантам осуществления гипотезы могут включать плоидность указанного плода по одной или нескольким хромосомам, информацию о том, от каких родителей были унаследованы какие сегменты каких хромосом плода, и комбинации перечисленного. Согласно некоторым вариантам осуществления состояние плоидности указанного плода определяют путем сравнения наблюдаемых измерений аллелей с другими гипотезами, при этом по меньшей мере некоторые из указанных гипотез соответствуют разным состояниям плоидности, и отбора состояния плоидности, которое соответствует гипотезе, наиболее вероятно истинной с учетом наблюдаемых измерений аллелей. Согласно варианту осуществления указанный способ включает применение данных измерений аллелей для одного или всех измеренных SNP, независимо от того, гомозиготны или гетерозиготны указанные локусы, и таким образом не предполагает использование аллелей в локусах, которые только гетерозиготны. Указанный способ может не подходить для ситуаций, когда генетические данные относятся только к одному полиморфному локусу. Указанный способ целесообразен, в частности, если генетические данные содержат данные для более чем десяти полиморфных локусов на целевую хромосому, или более чем 20 полиморфных локусов. Указанный способ целесообразен, в частности, если генетические данные содержат данные для более чем 50 полиморфных локусов на целевую хромосому, более чем 100 полиморфных локусов или более чем 200 полиморфных локусов на целевую хромосому. Согласно некоторым вариантам осуществления генетические данные могут содержать данные для более чем 500 полиморфных локусов на целевую хромосому, более чем 1000 полиморфных локусов, более чем 2000 полиморфных локусов, или более чем 5000 полиморфных локусов на целевую хромосому.According to an embodiment, the present description provides methods for non-invasive prenatal diagnosis (NPD), in particular, determining the status of fetal aneuploidy by examining allele measurements at a variety of polymorphic loci in genotypic data measured for DNA mixtures, while certain allele measurements indicate an aneuploid fetus while other allele measurements indicate an euploid fetus. In an embodiment, genotypic data is measured by sequencing mixtures of DNA obtained from maternal plasma. According to an embodiment, the DNA sample can be advantageously enriched with DNA molecules that correspond to a plurality of loci for which allelic distributions are calculated. In an embodiment, a DNA sample is measured containing exclusively or almost exclusively genetic material from the mother, and possibly also a DNA sample containing exclusively or almost exclusively genetic material from the father. According to an embodiment, genetic measurements for one or both parents along with an estimate of the fetal fraction are used to create a plurality of expected allelic distributions corresponding to the different possible initial genetic statuses of the fetus; expected allelic distributions may be called hypotheses. In an embodiment, the maternal genetic data is not determined by measuring genetic material that is exclusively or almost exclusively maternal in nature, but is determined by genetic measurements performed on maternal plasma that contains a mixture of maternal and fetal DNA. According to some embodiments, the hypotheses may include the ploidy of the fetus on one or more chromosomes, information about which parents inherited which segments of which chromosomes of the fetus, and combinations of the above. According to some embodiments, the ploidy state of said fetus is determined by comparing the observed allele measurements with other hypotheses, at least some of the indicated hypotheses correspond to different ploidy states, and selecting a ploidy state that corresponds to the hypothesis most likely true given the observed allele measurements. According to an embodiment, said method comprises applying allele measurement data for one or all measured SNPs, regardless of whether the loci are homozygous or heterozygous, and thus does not involve the use of alleles at loci that are only heterozygous. This method may not be suitable for situations where genetic data refer to only one polymorphic locus. The specified method is advisable, in particular, if the genetic data contain data for more than ten polymorphic loci on the target chromosome, or more than 20 polymorphic loci. The specified method is advisable, in particular, if the genetic data contains data for more than 50 polymorphic loci per target chromosome, more than 100 polymorphic loci or more than 200 polymorphic loci per target chromosome. In some embodiments, the genetic data may comprise data for more than 500 polymorphic loci per target chromosome, more than 1000 polymorphic loci, more than 2000 polymorphic loci, or more than 5000 polymorphic loci per target chromosome.

Согласно варианту осуществления раскрытый в настоящем документе способ обеспечивает количественную меру числа независимых наблюдений каждого аллеля в полиморфном локусе. Это отличается от большинства способов, таких как микроматрицы или качественная ПЦР, которые обеспечивают информацию об отношении двух аллелей, но не определяют количество независимых наблюдений каждого аллеля. В способах, которые обеспечивают количественную информацию относительно числа независимых наблюдений, в вычислениях плоидности используется только отношение, при этом сама по себе количественная информация для использования не подходит. Чтобы проиллюстрировать важность сохранения информации о числе независимых наблюдений, рассмотрим модельный локус с двумя аллелями, А и В. В первом эксперименте наблюдаются двадцать аллелей А и двадцать аллелей В, во втором эксперименте наблюдаются 200 аллелей А и 200 аллелей В. В обоих экспериментах отношение (А/(А+В)) равняется 0,5, однако второй эксперимент предоставляет больше информации об определении частоты аллеля А или В, чем первый. Некоторые описанные другими авторами способы включают усреднение или суммирование аллельных отношений (канальных отношений) (т.е. хii) по индивидуальному аллелю и анализ указанного отношения, либо путем сравнения его с эталонной хромосомой, либо с применением с использованием принципа относительно ожидаемого поведения этого отношения в конкретных ситуациях. Взвешивание аллелей не предусмотрено в способах, предполагающих, что можно обеспечить приблизительно одинаковое количество продукта ПЦР для каждого аллеля, и что все аллели должны вести себя одинаковым образом. Такой способ обладает рядом недостатков, и, что более важно, исключает применение ряда улучшений, описанных в настоящем раскрытии.According to an embodiment, the method disclosed herein provides a quantitative measure of the number of independent observations of each allele at a polymorphic locus. This differs from most methods, such as microarrays or qualitative PCR, which provide information on the ratio of two alleles but do not determine the number of independent observations of each allele. In methods that provide quantitative information regarding the number of independent observations, only the ratio is used in ploidy calculations, and quantitative information alone is not suitable for use. To illustrate the importance of maintaining information about the number of independent observations, we consider a model locus with two alleles, A and B. In the first experiment, twenty alleles A and twenty alleles B are observed, in the second experiment, 200 alleles A and 200 alleles B are observed. In both experiments, the ratio ( A / (A + B)) is 0.5, but the second experiment provides more information on determining the frequency of the A or B allele than the first. Some methods described by other authors include averaging or summing allelic ratios (channel ratios) (i.e., x i / y i ) over an individual allele and analyzing the indicated ratio, either by comparing it with a reference chromosome, or using the relatively expected principle the behavior of this relationship in specific situations. Allele weighting is not provided for in methods that suggest that approximately the same amount of PCR product can be provided for each allele, and that all alleles must behave the same way. This method has several disadvantages, and, more importantly, eliminates the use of a number of improvements described in the present disclosure.

Согласно варианту осуществления раскрытый в настоящем документе способ явным образом моделирует распределения частоты аллелей, ожидаемые при дисомии, а также множество распределений частоты аллелей, которые могут ожидаться в случаях трисомии, возникающей в результате нерасхождения в ходе мейоза I, нерасхождения в ходе мейоза II и/или нерасхождения в ходе митоза на ранних стадиях развития плода. Чтобы проиллюстрировать важность этого, представим случай отсутствия кроссинговеров: нерасхождение в ходе мейоза I приводит к трисомии, при которой два разных гомолога унаследованы от одного родителя; наоборот, нерасхождение в ходе мейоза II или в ходе раннего митоза в развитии плода дает в результате две копии одного и того же гомолога от одного родителя. Каждый сценарий приведет в результате к различным ожидаемым частотам аллелей в каждом полиморфном локусе, а также во всех совместно рассматриваемых локусах из-за генетического сцепления. Кроссинговеры, которые приводят к обмену генетическим материалом между гомологами, делают паттерн наследования более сложным; согласно варианту осуществления способ в соответствии с настоящим изобретением предусматривает для этого использование информации о степени рекомбинации, помимо физического расстояния между локусами. Согласно варианту осуществления для обеспечения лучшего различения нерасхождения при мейозе I и нерасхождения при мейозе II или митотического нерасхождения, способ в соответствии с настоящим изобретением предусматривает включение в модель повышения вероятности кроссинговера по мере увеличения расстояния от центромеры. Нерасхождение в мейозе II и митотическое нерасхождение можно отличить за счет того, что митотические нерасхождение, как правило, приводит к возникновению идентичных или почти идентичных копий одного гомолога, тогда как два гомолога, образующихся после нерасхождения в мейозе II, часто различаются из-за одного или нескольких кроссинговеров в ходе гаметогенеза.According to an embodiment, the method disclosed herein explicitly models the allele frequency distributions expected during disomy, as well as the plurality of allele frequency distributions that can be expected in cases of trisomy resulting from non-divergence during meiosis I, non-divergence during meiosis II and / or nondisjunction during mitosis in the early stages of fetal development. To illustrate the importance of this, let us imagine a case of the absence of crossing-over: nondisjunction during meiosis I leads to trisomy, in which two different homologues are inherited from one parent; on the contrary, nondisjunction during meiosis II or during early mitosis in fetal development results in two copies of the same homolog from the same parent. Each scenario will result in different expected allele frequencies at each polymorphic locus, as well as at all the loci considered together due to genetic linkage. Crossover, which leads to the exchange of genetic material between homologues, makes the inheritance pattern more complex; according to an embodiment, the method in accordance with the present invention provides for this to use information about the degree of recombination, in addition to the physical distance between the loci. According to an embodiment, to provide a better distinction between nondisjunction with meiosis I and nondisjunction with meiosis II or mitotic nondisjunction, the method in accordance with the present invention involves including in the model an increase in the probability of crossing over as the distance from the centromere increases. The divergence in meiosis II and mitotic nondisjunction can be distinguished due to the fact that mitotic nondisjunction, as a rule, leads to the appearance of identical or almost identical copies of one homolog, while the two homologs formed after non-divergence in meiosis II often differ due to one or several crossing over during gametogenesis.

Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ включает сравнение наблюдаемых измерений аллелей с теоретической гипотезой, соответствующей возможной генетической анеуплоидии плода, и не включает этап количественного определения отношения аллелей в гетерозиготном локусе. Если число локусов ниже, чем приблизительно 20, определение плоидности, выполненное с применением способа, включающего количественное определение отношения аллелей в гетерозиготном локусе, и определение плоидности, выполненное с применением способа, включающего сравнение наблюдаемых измерений аллелей с теоретическими гипотезами аллельного распределения, соответствующими возможным генетическим статусам плода, может дать аналогичный результат. Однако если число локусов превышает 50, указанные два способа, вероятно, дадут существенно различающиеся результаты; если число локусов превышает 400, превышает 1000 или превышает 2000, указанные два способа с высокой вероятностью дадут результаты, характеризующиеся возрастающими существенными различиями. Указанные различия обусловлены тем, что способ, который включает количественное определение отношения аллелей в гетерозиготном локусе без независимого измерения плотности каждого аллеля и суммирования или усреднения отношений, исключает применение методик, включающих применение модели совместного распределения, проведение анализа сцепления, применение модели биномиального распределения и/или других усовершенствованных статистических методов, тогда как при применении способа, включающего сравнение наблюдаемых измерений аллелей с теоретическими гипотезами аллельного распределения, соответствующими возможным генетическим статусам плода, могут быть задействованы указанные техники, способные существенно повысить точность определения.In some embodiments, the method disclosed herein includes comparing observed allele measurements with a theoretical hypothesis corresponding to possible fetal genetic aneuploidy, and does not include the step of quantifying the ratio of alleles at the heterozygous locus. If the number of loci is lower than approximately 20, a ploidy determination made using a method comprising quantifying the allele ratio at a heterozygous locus and a ploidy determination made using a method involving comparing observed allele measurements with theoretical allelic distribution hypotheses corresponding to possible genetic statuses fetus, can give a similar result. However, if the number of loci exceeds 50, these two methods are likely to give significantly different results; if the number of loci exceeds 400, exceeds 1000, or exceeds 2000, these two methods are highly likely to produce results characterized by increasing significant differences. These differences are due to the fact that a method that includes quantifying the ratio of alleles at a heterozygous locus without independently measuring the density of each allele and summing or averaging the ratios eliminates the use of techniques including the use of a shared distribution model, linkage analysis, the use of a binomial distribution model and / or other advanced statistical methods, whereas when applying a method involving comparing observed allele measurements theoretical distribution of allelic hypotheses corresponding to possible genetic status of the fetus, may be involved these techniques can significantly increase the accuracy of the determination.

Согласно варианту осуществления раскрытый в настоящем документе способ включает определение того, свидетельствует ли распределение наблюдаемых измерений аллелей об эуплоидии или анеуплоидии плода, с применением модели совместного распределения. Применение модели совместного распределения представляет отличие и значительное улучшение от способов, которые определяют степени гетерозиготности путем обработки полиморфных локусов независимо, заключающееся в том, что полученные определения отличаются существенно более высокой точностью. Без связи с какой-либо конкретной теорией считается, что одна из причин более высокой точности заключается в том, что модель совместного распределения учитывает сцепление между SNP и вероятность кроссинговеров, которые происходят в ходе мейоза, дающего начало гаметам, формирующим эмбрион, который развивается в плод. Целью использования концепции сцепления при создании ожидаемого распределения измерений аллелей для одной или нескольких гипотез является получение ожидаемых распределений измерений аллелей, которые соответствуют действительности в значительно больше степени, чем без использования сцепления. Например, представим, что имеется два SNP, 1 и 2, расположенные рядом друг с другом, и мать характеризуется как «А» по SNP 1 и «А» по SNP 2 в гомологе 1, а также как «В» по SNP 1 и «В» по SNP 2 в гомологе 2. Если отец характеризуется как «А» по обоим SNP в обоих гомологах, и В измеряется для плодного SNP 1, это показывает, что гомолог 2 был унаследован плодом, и поэтому существует намного более высокая вероятность того, что В присутствует у плода в SNP 2. Модель, учитывающая сцепление, будет это предсказывать, а не учитывающая сцепление модель - нет. Как вариант, если мать представляет собой АВ в SNP 1 и АВ в расположенном рядом SNP 2, могут быть использованы две гипотезы, соответствующие материнской трисомии в этой локализации: одна предусматривает ошибку совпадающих копий (нерасхождение в мейозе II или митозе на ранней стадии развития плода), а другая предусматривает ошибку несовпадающих копий (нерасхождение в мейозе I). В случае трисомии с ошибкой совпадающих копий, если плод унаследовал плод АА от матери в SNP 1, указанный плод со значительно большей вероятностью унаследует либо АА, либо ВВ от матери в SNP 2, но не АВ. В случае ошибки несовпадающих копий плод унаследует АВ от матери по обоим SNP. Гипотезы аллельного распределения, полученные способом установления плоидности, учитывающим сцепление, могут обеспечить такие прогнозы, и таким образом соответствуют фактическим аллельным измерениям в значительно более высокой степени, чем при способе установления плоидности без учета сцепления. Отметим, что подход с учетом сцепления невозможен при использовании способа, основанного на вычислении аллельных отношений и объединении указанных аллельных отношений.According to an embodiment, the method disclosed herein includes determining whether the distribution of observed allele measurements indicates fetal euploidy or aneuploidy using a co-distribution model. The use of the joint distribution model is a difference and a significant improvement from the methods that determine the degree of heterozygosity by processing polymorphic loci independently, which consists in the fact that the obtained definitions are characterized by significantly higher accuracy. Without being bound by any particular theory, it is believed that one of the reasons for higher accuracy is that the co-distribution model takes into account the linkage between SNPs and the probability of crossing-overs that occur during meiosis, giving rise to the gametes that form the embryo that develops into the fetus . The purpose of using the concept of linkage in creating the expected distribution of allele measurements for one or more hypotheses is to obtain the expected distribution of allele measurements that correspond to reality to a much greater extent than without using linkage. For example, imagine that there are two SNPs, 1 and 2, located next to each other, and the mother is characterized as “A” by SNP 1 and “A” by SNP 2 in homologue 1, as well as “B” by SNP 1 and “B” by SNP 2 in homologue 2. If the father is characterized as “A” by both SNPs in both homologs, and B is measured for fetal SNP 1, this indicates that homolog 2 was inherited by the fetus, and therefore there is a much higher probability of that B is present in the fetus in SNP 2. A model that takes into account adhesion will predict this, but not a model that takes into account adhesion - no. Alternatively, if the mother is AB in SNP 1 and AB in adjacent SNP 2, two hypotheses can be used that correspond to maternal trisomy in this location: one involves the error of matching copies (nondisjunction in meiosis II or mitosis at an early stage of fetal development) , and the other provides for the error of mismatched copies (nondisjunction in meiosis I). In the case of trisomy with an error of matching copies, if the fetus inherited the AA fruit from the mother in SNP 1, the fetus is much more likely to inherit either AA or BB from the mother in SNP 2, but not AB. In the event of a mismatched copy error, the fetus will inherit AB from the mother on both SNPs. Allelic distribution hypotheses obtained by the ploidy method of taking into account adhesion can provide such predictions, and thus correspond to actual allelic measurements to a much higher degree than with the ploidy-free method of determining adhesion. Note that the coupling-based approach is not possible using a method based on calculating allelic ratios and combining these allelic ratios.

Считается, что одна из причин того, что определения плоидности с использованием способа, включающего сравнение наблюдаемых измерений аллелей с теоретическими гипотезами, соответствующими возможным генетическим статусам плода, обладают более высокой точностью, заключается в том, что при использовании секвенирования для измерения аллелей, указанный способ способен собрать больше информации из данных от аллелей, если общее число считываний невелико, чем другие способы; например, способ, основанный на вычислении и объединении аллельных отношений будет давать непропорционально взвешенный стохастический шум. Например, представим ситуацию, включающую измерение аллелей с применением секвенирования, и при этом имеется набор локусов, в котором выявлено только 5 считываний последовательностей для каждого локуса. Согласно варианту осуществления для каждого из указанных аллелей данные можно сравнивать с гипотетическим аллельным распределением и присваивать вес в соответствии с числом считываний последовательностей; таким образом данные указанных измерений будут надлежащим образом взвешены и включены в общее определение. В этом заключается отличие от способа, который предусматривает количественное определение отношения аллелей в гетерозиготном локусе, поскольку указанный способ позволяет рассчитать только отношения 0%, 20%, 40%, 60%, 80% или 100% как возможные аллельные отношения; ни одно из них не может быть близким к ожидаемым аллельным отношениям. В последнем случае вычисленные аллельные отношения должны быть либо отброшены из-за недостаточных считываний, либо они будут характеризоваться непропорциональным взвешиванием и внесением стохастического шума в определение, что снизит точность определения. Согласно варианту осуществления измерения отдельных аллелей могут быть обработаны как независимые измерения, при этом взаимосвязь между измерениями, выполненными в аллелях одного и того же локуса, не отличается от взаимосвязи между измерениями, выполненными в аллелях разных локусов.It is believed that one of the reasons that determining ploidy using a method involving comparing observed allele measurements with theoretical hypotheses corresponding to the possible genetic status of the fetus is more accurate is that when using sequencing to measure alleles, this method is capable of collect more information from data from alleles if the total number of readings is small than other methods; for example, a method based on calculating and combining allelic relations will produce a disproportionately weighted stochastic noise. For example, imagine a situation involving the measurement of alleles using sequencing, and there is a set of loci in which only 5 readings of sequences for each locus are detected. According to an embodiment, for each of said alleles, the data can be compared with a hypothetical allelic distribution and weighted according to the number of sequence readings; thus, the data of these measurements will be properly weighted and included in the general definition. This is the difference from the method, which provides for the quantitative determination of the ratio of alleles in the heterozygous locus, since this method allows you to calculate only the relations 0%, 20%, 40%, 60%, 80% or 100% as possible allelic relations; none of them can be close to the expected allelic relations. In the latter case, the calculated allelic ratios must either be discarded due to insufficient readings, or they will be characterized by disproportionate weighting and the introduction of stochastic noise in the determination, which will reduce the accuracy of the determination. According to an embodiment, the measurements of individual alleles can be processed as independent measurements, while the relationship between measurements made in alleles of the same locus is no different from the relationship between measurements made in alleles of different loci.

Согласно варианту осуществления раскрытый в настоящем документе способ (названный способом RC) включает определение того, указывает ли распределение наблюдаемых измерений аллелей на эуплоидию или анеуплоидию плода, без сравнения каких-либо метрик с наблюдаемыми аллельными измерениями на эталонной хромосоме, которая, как ожидается, является дисомной. Это является значительным улучшением по сравнению с такими способами, как способы с использованием секвенирования «методом дробовика», которые выявляют анеуплоидию путем оценки пропорции случайно секвенированных фрагментов из рассматриваемых хромосом относительно одной или нескольких предполагаемых дисомных эталонных хромосом. Указанный способ RC дает некорректные результаты, если предполагаемая дисомная эталонная хромосома фактически не является дисомной. Это может происходить в случаях, если анеуплоидия является более существенной, чем трисомия одной хромосомы, или если плод является триплоидным, и все аутосомы являются трисомными. В случае триплоидного (69, XXX) плода женского пола дисомные хромосомы фактически вообще отсутствуют. Описанный в настоящем документе способ не требует эталонной хромосомы и может корректно идентифицировать трисомные хромосомы в случае триплоидного плода женского пола. Модель совместного распределения может быть адаптирована для каждой хромосомы, гипотезы, доли ребенка и уровня шума, в отсутствие чего-либо из: данных эталонной хромосомы, оценки общей доли ребенка или заданной эталонной гипотезы.According to an embodiment, the method disclosed herein (referred to as the RC method) includes determining whether the distribution of the observed allele measurements indicates fetal euploidy or aneuploidy, without comparing any metrics with the observed allelic measurements on the reference chromosome, which is expected to be disomic . This is a significant improvement over methods such as shotgun sequencing methods that detect aneuploidy by assessing the proportion of randomly sequenced fragments from the chromosomes under consideration relative to one or more putative disomal reference chromosomes. The specified RC method gives incorrect results if the alleged disomal reference chromosome is actually not disomic. This can occur in cases where aneuploidy is more significant than trisomy of one chromosome, or if the fetus is triploid, and all autosomes are trisomy. In the case of a triploid (69, XXX) female fetus, there are virtually no disomic chromosomes. The method described herein does not require a reference chromosome and can correctly identify trisomic chromosomes in the case of a female triploid fetus. The joint distribution model can be adapted for each chromosome, hypothesis, child’s share, and noise level, in the absence of any of the data from the reference chromosome, an estimate of the total child’s share, or a given reference hypothesis.

Согласно варианту осуществления раскрытый в настоящем документе способ демонстрирует, как наблюдение распределений аллелей в полиморфных локусах может быть использовано для определения состояния плоидности плода с большей точностью, чем в известных в данной области техники способах. Согласно варианту осуществления в указанном способе применяется целевое секвенирование для получения смешанных материнского/плодного генотипов и необязательно генотипов матери и/или отца по множеству SNP с установлением сначала различных ожидаемых распределений частоты аллелей при различных гипотезах, последующим наблюдением количественной информации об аллелях, полученной в материнской/плодной смеси, и оценкой того, какая гипотеза лучше всего подходит к этим данным; при этом генетический статус, соответствующий гипотезе с лучшим соответствием данным, называется корректным генетическим статусом. Согласно варианту осуществления в раскрытом в настоящем документе способе также используется степень соответствия для установления достоверности того, что определенный генетический статус является корректным генетическим статусом. Согласно варианту осуществления раскрытый в настоящем документе способ включает применение алгоритмов анализа распределения аллелей, присутствующих в локусах, которые имеют разные родительские контексты, и сравнение наблюдаемых аллельных распределений с ожидаемыми аллельными распределениями для разных состояний плоидности при разных родительских контекстах (разных паттернах родительских генотипов). В этом заключается отличие и улучшение относительно способов, в которых не применяются методы, позволяющие оценить число независимых случаев присутствия каждого аллеля в каждом локусе в смешанном материнском/плодном образце. Согласно варианту осуществления раскрытый в настоящем документе способ включает определение того, свидетельствует ли распределение наблюдаемых измерений аллелей об эуплоидии или анеуплоидии плода, с использованием наблюдаемых аллельных распределений, измеренных в локусах, где мать гетерозиготна. В этом заключается отличие и улучшение относительно способов, в которых не применяются наблюдаемые аллельные распределения в локусах, по которым мать является гетерозиготной, поскольку в тех случаях, когда ДНК преимущественно не обогащена или преимущественно обогащена локусами, которые не являются высокоинформативными для указанного конкретного целевого индивидуума согласно имеющимся сведениям, это позволяет применять приблизительно в два раза больше данных генетических измерений из набора данных последовательностей при определении плоидности, что приводит к большей точности определения.According to an embodiment, the method disclosed herein demonstrates how observing the distribution of alleles at polymorphic loci can be used to determine the ploidy state of the fetus with greater accuracy than in methods known in the art. According to an embodiment, the method uses targeted sequencing to obtain mixed maternal / fetal genotypes and, optionally, mother and / or father genotypes using multiple SNPs, first establishing different expected frequency distributions of alleles for various hypotheses, followed by observing quantitative information about alleles obtained in maternal / fetal mixture, and an assessment of which hypothesis is best suited to this data; the genetic status corresponding to the hypothesis with the best fit to the data is called the correct genetic status. According to an embodiment, the method disclosed herein also uses a degree of compliance to establish that a particular genetic status is a correct genetic status. According to an embodiment, the method disclosed herein includes applying algorithms for analyzing the distribution of alleles present at loci that have different parental contexts, and comparing the observed allelic distributions with expected allelic distributions for different ploidy states under different parental contexts (different patterns of parental genotypes). This is the difference and improvement with respect to methods that do not use methods that allow us to estimate the number of independent cases of the presence of each allele at each locus in a mixed maternal / fetal sample. According to an embodiment, the method disclosed herein includes determining whether the distribution of the observed allele measurements indicates fetal euploidy or aneuploidy using the observed allelic distributions measured at the loci where the mother is heterozygous. This is the difference and improvement with respect to methods in which the observed allelic distributions at the loci in which the mother is heterozygous are not used, because in those cases when the DNA is predominantly not enriched or predominantly enriched in loci that are not highly informative for the specified specific target individual according available data, this allows you to apply approximately two times more genetic measurement data from a sequence data set when determining ii ploidy, which leads to greater accuracy of determination.

Согласно варианту осуществления в раскрытом в настоящем документе способе применяется модель совместного распределения, которая предполагает, что аллельные частоты в каждом локусе являются полиномиальными (и, соответственно, биномиальными, если SNP биаллельны) по своей природе. Согласно некоторым вариантам осуществления модель совместного распределения использует бета-биномиальные распределения. Если применение техники измерения, такой как секвенирование, обеспечивает количественную меру для каждого аллеля, присутствующего в каждом локусе, биномиальная модель может быть использована для каждого локуса и степени исходных частот аллелей, и достоверность этой частоты может быть проверена. С помощью известных в данной области техники способов получения признаков плоидности по аллельным отношениям или способов, в которых не учитывается количественная информация для аллелей, наблюдаемое отношение не может быть установлено с уверенностью. Предложенный в настоящем описании способ включает отличие и улучшение по сравнению со способами расчета аллельных отношений и объединения указанных отношений для получения признака плоидности, поскольку любой способ, который включает вычисление аллельного отношения в конкретном локусе с последующим объединение указанных отношений, обязательно предполагает, что измеренные интенсивности или подсчеты, указывающие на количество ДНК от любого заданного аллеля или локуса, будут распределяться по Гауссу. Раскрытый в настоящем документе способ не включает вычисление аллельных отношений. Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ может предусматривать включение в модель числа наблюдений каждого аллеля во множестве локусов. Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ может включать вычисление собственно ожидаемых распределений, позволяя применение модели совместного биномиального распределения, которая может быть более точной, чем любая модель, предполагающая распределение измерений аллелей по Гауссу. Вероятность того, что модель биномиального распределения будет существенно более точной, чем распределение по Гауссу, увеличивается по мере возрастания числа локусов. Например, если исследуется менее 20 локусов, вероятность того, что модель биномиального распределения будет подходить значительно лучше, невелика. Однако при применении более чем 100, или, в частности, более чем 400, или, в частности, более чем 1000, или, в частности, более чем 2000 локусов модель биномиального распределения с очень высокой вероятностью будет существенно более точной, чем модель распределения по Гауссу, обеспечивая, таким образом, более точное определение плоидности. Вероятность того, что модель биномиального распределения будет существенно более точной, чем распределение по Гауссу, также повышается с повышением числа наблюдений в каждом локусе. Например, при наблюдении менее 10 отдельных последовательностей в каждом локусе вероятность того, что модель биномиального распределения будет подходить существенно лучше, невелика. Однако, если для каждого локуса используется более 50 считываний последовательности, или, в частности, более чем 100 считываний последовательности, или, в частности, более чем 200 считываний последовательности, или, в частности, более чем 300 считываний последовательности, модель биномиального распределения с очень высокой вероятностью будет существенно более точной, чем модель распределения по Гауссу, обеспечивая, таким образом, более точное определение плоидности.According to an embodiment, the method disclosed herein uses a co-distribution model that assumes that allelic frequencies at each locus are polynomial (and therefore binomial if SNPs are biallelic) in nature. In some embodiments, the co-distribution model uses beta-binomial distributions. If the application of a measurement technique, such as sequencing, provides a quantitative measure for each allele present at each locus, a binomial model can be used for each locus and the degree of the original allele frequencies, and the reliability of this frequency can be verified. Using methods known in the art for deriving ploidy signs from allelic ratios or methods that do not take quantitative information into account for alleles, the observed ratio cannot be established with certainty. The method proposed in the present description includes a difference and improvement compared to methods for calculating allelic ratios and combining these ratios to obtain a ploidy sign, since any method that involves calculating the allelic ratios at a specific locus and then combining these ratios necessarily assumes that the measured intensities or counts indicating the amount of DNA from any given allele or locus will be distributed according to Gauss. The method disclosed herein does not include the calculation of allelic ratios. In some embodiments, the method disclosed herein may include including in the model the number of observations of each allele at a plurality of loci. According to some embodiments, the method disclosed herein may include calculating the actual expected distributions, allowing the use of a shared binomial distribution model that can be more accurate than any model involving a Gaussian allele distribution. The likelihood that the binomial distribution model will be significantly more accurate than the Gaussian distribution increases as the number of loci increases. For example, if less than 20 loci are examined, the likelihood that the binomial distribution model will fit much better is small. However, when using more than 100, or, in particular, more than 400, or, in particular, more than 1000, or, in particular, more than 2000 loci, the binomial distribution model with a very high probability will be significantly more accurate than the distribution model for Gauss, thus providing a more accurate definition of ploidy. The probability that the binomial distribution model will be significantly more accurate than the Gaussian distribution also increases with increasing number of observations at each locus. For example, when observing less than 10 separate sequences at each locus, the probability that the binomial distribution model will be substantially better is small. However, if more than 50 sequence readings are used for each locus, or in particular more than 100 sequence readings, or in particular more than 200 sequence readings, or, in particular, more than 300 sequence readings, a binomial distribution model with very the high probability will be significantly more accurate than the Gaussian distribution model, thus providing a more accurate definition of ploidy.

Согласно варианту осуществления раскрытый в настоящем документе способ включает секвенирование для измерения числа случаев каждого аллеля в каждом локусе в образце ДНК. Каждая считанная последовательность может быть картирована с конкретным локусом и обработан как бинарная считанная последовательность; как вариант, в считанную последовательность может быть включена вероятность идентичности считанной последовательности и/или картирования, что дает вероятностную считанную последовательность, то есть вероятное целое или дробное число считанных последовательностей, которые картируются с заданными локусами. Применение бинарных подсчетов или вероятностных подсчетов позволяет использовать биномиальное распределение для каждого набора измерений, что обеспечивает расчет доверительного интервала по числу подсчетов. Такая возможность применения биномиального распределения позволяет получить более точные оценки плоидности и более точные доверительные интервалы. В этом заключается улучшение и отличие относительно способов, в которых используются интенсивности для измерения количества присутствующего аллеля, например, способов, в которых используются микроматрицы, или способов, в которых осуществляются измерения с использованием устройств для считывания флуоресценции для измерения интенсивности флуоресцентно меченой ДНК в электрофорезных полосах.According to an embodiment, the method disclosed herein comprises sequencing to measure the number of cases of each allele at each locus in a DNA sample. Each read sequence can be mapped to a specific locus and processed as a binary read sequence; alternatively, the probability of the identity of the read sequence and / or mapping can be included in the read sequence, which gives a probabilistic read sequence, that is, the probable integer or fractional number of read sequences that are mapped with given loci. The use of binary calculations or probabilistic calculations allows you to use the binomial distribution for each set of measurements, which provides the calculation of the confidence interval by the number of calculations. This possibility of using the binomial distribution allows us to obtain more accurate estimates of ploidy and more accurate confidence intervals. This is an improvement and difference with respect to methods that use intensities to measure the amount of allele present, for example, methods that use microarrays, or methods that use measurements from fluorescence readers to measure the intensity of fluorescently labeled DNA in electrophoresis bands .

Согласно варианту осуществления в раскрытом в настоящем документе способе используются аспекты представленного набора данных для определения параметров оцениваемого распределения частот аллелей для указанного набора данных. В этом заключается улучшение по сравнению со способами, в которых используется обучающий набор данных или предварительные наборы данных для установления параметров настоящих ожидаемых распределений частот аллелей или возможных ожидаемых аллельных отношений. Это обусловлено тем, что существуют разные наборы условий, связанные с отбором и измерением каждого генетического образца, и, соответственно, способ, где используются данные из текущего набора данных для определения параметров модели совместного распределения, которая будет использована при определении плоидности для данного образца, будет характеризоваться тенденцией к большей точности.According to an embodiment, the method disclosed herein uses aspects of the presented data set to determine the parameters of the estimated allele frequency distribution for the specified data set. This is an improvement over the methods in which the training data set or preliminary data sets are used to establish the parameters of the actual expected distribution of allele frequencies or possible expected allelic relations. This is due to the fact that there are different sets of conditions associated with the selection and measurement of each genetic sample, and, accordingly, a method where data from the current data set are used to determine the parameters of the joint distribution model, which will be used to determine ploidy for this sample, will be characterized by a tendency to greater accuracy.

Согласно варианту осуществления раскрытый в настоящем документе способ включает определение того, свидетельствует ли распределение наблюдаемых аллельных измерений об эуплоидии или анеуплоидии плода, с применением методики максимального правдоподобия. В применении методики максимального правдоподобия заключается существенное улучшение и отличие по сравнению со способами, где используется методика отклонения простой гипотезы, поскольку итоговые определения выполняются со значительно более высокой точностью. Одной из причин является то, что методики отклонения простой гипотезы устанавливают пороги отсечения на основе только одного распределения измерений, а не двух, а это означает, что указанные пороги, как правило, не являются оптимальными. Другой причиной является то, что методика максимального правдоподобия обеспечивает оптимизацию порога отсечения для каждого отдельного образца вместо определения порога отсечения, подлежащего использованию для всех образцов независимо от конкретных характеристик каждого отдельного образца. Другая причина заключается в том, что применение методики максимального правдоподобия позволяет производить расчет достоверности для каждого признака плоидности. Возможность осуществления расчета достоверности для каждого признака позволяет практикующему специалисту выяснить, какие признаки являются точными, а какие с большей вероятностью являются ошибочными. Согласно некоторым вариантам осуществления с методикой оценки максимального правдоподобия могут быть скомбинированы разнообразные способы увеличения точности признаков плоидности. Согласно варианту осуществления методика оценки максимального правдоподобия может использоваться в комбинации со способом, описанным в патенте США №7888017. Согласно варианту осуществления методика оценки максимального правдоподобия может использоваться в комбинации со способом применения целевой ПЦР-амплификации для амплификации ДНК в смешанном образце с последующим секвенированием и анализом с применением способа подсчета числа считываний, например, используемого TANDEM DIAGNOSTICS, который был представлен на Международном конгрессе генетики человека - 2011 (International Congress of Human Genetics 2011) в Монреале в октябре 2011 г. Согласно варианту осуществления раскрытый в настоящем документе способ включает оценку доли плода ДНК в смешанном образце и использование указанной оценки для расчета как признака плоидности, так и достоверности признака плоидности. Отметим, что в этом заключается несходство и отличие от способов, где используется оценка доли плода в качестве скрининга достаточной доли плода, с последующим получением признака плоидности с помощью методики отклонения простой гипотезы, которая не учитывает долю плода, а также не позволяет рассчитать достоверность признака.According to an embodiment, the method disclosed herein includes determining whether the distribution of the observed allelic measurements indicates fetal euploidy or aneuploidy using the maximum likelihood technique. The application of the maximum likelihood technique consists in a significant improvement and difference compared to methods where the simple hypothesis rejection technique is used, since the final determinations are performed with much higher accuracy. One of the reasons is that the techniques for rejecting a simple hypothesis set cutoff thresholds based on only one distribution of measurements, and not two, which means that these thresholds, as a rule, are not optimal. Another reason is that the maximum likelihood technique optimizes the cutoff threshold for each individual sample instead of determining the cutoff threshold to be used for all samples regardless of the specific characteristics of each individual sample. Another reason is that the application of the maximum likelihood technique allows the calculation of reliability for each ploidy trait. The ability to perform a confidence calculation for each feature allows the practitioner to find out which features are accurate and which are more likely to be erroneous. In some embodiments, a variety of methods for increasing the accuracy of ploidy signs can be combined with a maximum likelihood estimation technique. According to an embodiment, the maximum likelihood estimation technique may be used in combination with the method described in US Pat. No. 7,888,017. According to an embodiment, the maximum likelihood estimation technique can be used in combination with the method of applying target PCR amplification to amplify DNA in a mixed sample, followed by sequencing and analysis using a read count method, for example, used by TANDEM DIAGNOSTICS, which was presented at the International Congress of Human Genetics - 2011 (International Congress of Human Genetics 2011) in Montreal in October 2011. According to an embodiment, the method disclosed herein includes evaluating in the proportion of fetal DNA in the mixed sample and using said assessment as an indication to calculate the ploidy and ploidy authenticity feature. Note that this is a dissimilarity and difference from the methods where the fetal fraction assessment is used as a screening of a sufficient fetal fraction, followed by obtaining the ploidy trait using the technique of rejecting a simple hypothesis, which does not take into account the fetal fraction, and also does not allow to calculate the reliability of the trait.

Согласно варианту осуществления раскрытый в настоящем документе способ учитывает тенденцию данных к появлению шума и ошибок, путем включения вероятности в каждое измерение. Применение методик оценки максимального правдоподобия для выбора корректной гипотезы из множества гипотез, которые были получены с использованием данных измерения с включенными оценками вероятности, повышает вероятность того, что некорректные измерения будут игнорироваться, а корректные измерения будут использоваться при расчетах, что приведет к получению признака плоидности. Точнее говоря, указанный способ систематически снижает влияние данных, измеренных некорректно, на определение плоидности. В этом заключается улучшение по сравнению со способами, где все данные считаются одинаково корректным, и или способами, где выбивающиеся данные произвольно исключают из расчетов для определения признака плоидности. Существующие способы, использующие измерения канальных отношений, как заявлено, могут быть расширены для множества SNP за счет усреднения канальных отношений индивидуальных SNP. Отсутствие взвешивания индивидуальных SNP по ожидаемой дисперсии измерений на основании качества SNP и наблюдаемой глубины секвенирования снижает точность итоговых статистических данных, что приводит к существенному снижению точности определения признака плоидности, в частности, в спорных случаях.According to an embodiment, the method disclosed herein takes into account the tendency of the data to generate noise and errors by including the probability in each measurement. The use of maximum likelihood estimation methods to select the correct hypothesis from the set of hypotheses that were obtained using measurement data with probability estimates included increases the likelihood that incorrect measurements will be ignored and correct measurements will be used in the calculations, which will lead to the ploidy sign. More precisely, this method systematically reduces the influence of data measured incorrectly on the determination of ploidy. This is an improvement compared to methods where all data is considered equally correct, and or methods where knocked-out data is arbitrarily excluded from calculations to determine a ploidy sign. Existing methods using channel relationship measurements, as stated, can be extended to multiple SNPs by averaging the channel relationships of individual SNPs. The lack of weighting of individual SNPs based on the expected variance of measurements based on the quality of SNPs and the observed depth of sequencing reduces the accuracy of the final statistical data, which leads to a significant decrease in the accuracy of determining the ploidy trait, in particular, in disputed cases.

Согласно варианту осуществления раскрытый в настоящем документе способ не предполагает знание того, какие SNP или другие полиморфные локусы у плода гетерозиготны. Указанный способ позволяет получить признак плоидности в тех случаях, когда отцовская генотипическая информация недоступна. В этом заключается улучшение по сравнению со способами, где заранее требуется информация о том, какие SNP гетерозиготны, для надлежащего отбора целевых локусов, или для интерпретации генетических измерений, проведенных на образце смешанной плодной/материнской ДНК.According to an embodiment, the method disclosed herein does not imply knowing which SNPs or other polymorphic loci in the fetus are heterozygous. This method allows you to get a sign of ploidy in those cases when the paternal genotypic information is not available. This is an improvement over methods where information on which SNPs are heterozygous is required in advance for the proper selection of target loci, or for the interpretation of genetic measurements made on a sample of mixed fetal / maternal DNA.

Применение описанных в настоящем документе способов, в частности, целесообразно для таких образцов, где доступно небольшое количество ДНК или невысок процент плодной ДНК. Это обусловлено соответствующей более высокой частотой выпадения аллелей в случаях, когда доступно только небольшое количество ДНК и/или соответствующей более высокой частоту выпадения аллеля плода, когда процент плодной ДНК в смешанном образце плодной и материнской ДНК невысок. Высокая частота выпадения аллеля, означающая, что значительный процент аллелей у целевого индивидуума не был измерен, приводит к недостаточно точным расчетам долей плода и недостаточно точному определению плоидности. Поскольку в раскрытых в настоящем документе способах может использоваться модель совместного распределения, которая учитывает сцепления в паттернах наследования между SNP, могут быть выполнены существенно более точные определения плоидности. Описанные в настоящем документе способы позволяют проводить точное определение плоидности при наличии в смеси менее чем 40%, менее чем 30%, менее чем 20%, менее чем 10%, менее чем 8% и даже менее чем 6% молекул плодной ДНК.The use of the methods described herein is particularly useful for samples where a small amount of DNA or a low percentage of fetal DNA is available. This is due to the corresponding higher frequency of allele precipitation in cases when only a small amount of DNA is available and / or the corresponding higher frequency of allele precipitation of the fetus when the percentage of fetal DNA in the mixed sample of fetal and maternal DNA is low. The high frequency of allele deposition, which means that a significant percentage of the alleles of the target individual has not been measured, leads to insufficiently accurate calculations of fetal fractions and insufficiently accurate determination of ploidy. Because the methods disclosed herein can use a shared distribution model that takes into account linkages in inheritance patterns between SNPs, significantly more accurate ploidy determinations can be made. The methods described herein allow for accurate determination of ploidy in the presence of less than 40%, less than 30%, less than 20%, less than 10%, less than 8%, and even less than 6% of fetal DNA molecules.

Согласно варианту осуществления возможно определение состояния плоидности индивидуума на основе измерений, если ДНК этого индивидуума смешана с ДНК родственного индивидуума. Согласно варианту осуществления указанная смесь ДНК представляет собой свободноплавающую ДНК, присутствующую в материнской плазме, которая может включать ДНК от матери с известным кариотипом и известным генотипом, и которая может быть смешана с ДНК плода, с неизвестным кариотипом и неизвестным генотипом. Возможно использование известной генотипической информации от одного или обоих родителей для предсказания множества потенциальных генетических статусов ДНК в смешанном образце для разных состояний плоидности, разных хромосомных вкладов от каждого из родителей у плода, и, необязательно, разных долей плодной ДНК в указанной смеси. Каждый потенциальный состав может быть назван гипотезой. Затем может быть определено состояние плоидности указанного плода путем рассмотрения фактических измерений и определения того, какие из потенциальных составов являются наиболее вероятными с учетом наблюдаемых данных.According to an embodiment, it is possible to determine the ploidy state of an individual based on measurements if the DNA of that individual is mixed with the DNA of a related individual. In an embodiment, said DNA mixture is free floating DNA present in maternal plasma, which may include mother DNA with a known karyotype and known genotype, and which may be mixed with fetal DNA, with an unknown karyotype and unknown genotype. It is possible to use known genotypic information from one or both parents to predict the set of potential DNA genetic statuses in a mixed sample for different ploidy states, different chromosome contributions from each of the parents in the fetus, and, optionally, different fractions of fetal DNA in the mixture. Each potential composition can be called a hypothesis. Then, the ploidy state of the indicated fetus can be determined by considering the actual measurements and determining which of the potential compounds are most likely to take into account the observed data.

Вышеуказанные пункты дополнительно обсуждаются в различных разделах настоящего документа.The above points are further discussed in various sections of this document.

Неинвазивная пренатальная диагностика (NPD)Non-invasive prenatal diagnosis (NPD)

Способ неинвазивной пренатальной диагностики включает ряд этапов. Некоторые из этапов могут включать: (1) получение генетического материала от плода; (2) обогащение генетического материала указанного плода, который может присутствовать в смешанном образце, ex vivo; (3) амплификация генетического материала, ex vivo; (4) преимущественное обогащение конкретными локусами генетического материала, ex vivo; (5) измерение генетического материала, ex vivo; и (6) анализ генотипических данных на компьютере и ех vivo. Способы осуществления указанных шести и других релевантных этапов описаны в настоящем документе. По меньшей мере некоторые из этапов способа не проводятся непосредственно на организме. Согласно варианту осуществления раскрытое в настоящем описании изобретение относится к способам лечения и диагностики, применяемым для тканей и других биологических материалов, извлеченных и отделенных от организма. По меньшей мере некоторые из этапов способа реализуются на компьютере.The non-invasive prenatal diagnostic method includes a number of steps. Some of the steps may include: (1) obtaining genetic material from the fetus; (2) enrichment of the genetic material of said fetus, which may be present in the mixed sample, ex vivo; (3) amplification of genetic material, ex vivo; (4) preferential enrichment with specific loci of genetic material, ex vivo; (5) measurement of genetic material, ex vivo; and (6) analysis of genotypic data on a computer and ex vivo. Methods for implementing these six and other relevant steps are described herein. At least some of the steps of the method are not carried out directly on the body. According to an embodiment, the invention disclosed in the present description relates to methods of treatment and diagnosis used for tissues and other biological materials extracted and separated from the body. At least some of the steps of the method are implemented on a computer.

Некоторые варианты осуществления изобретения согласно настоящему раскрытию позволяют клиническому специалисту определить генетический статус плода, вынашиваемого матерью, неинвазивным образом, так что отсутствует риск для здоровья ребенка, обусловленный отбором генетического материала плода, и не требуется подвергать мать инвазивной процедуре. Кроме того, согласно определенным аспектам раскрываемое изобретение позволяет определять генетический статус плода с высокой точностью, существенно большей, чем, например, точность неинвазивного скрининга на основе анализа компонентов материнской сыворотки, например, тройного теста, широко используемого в пренатальной практике.Some embodiments of the invention according to the present disclosure allow a clinician to determine the genetic status of a fetus that is being hatched by the mother in a non-invasive manner, so that there is no risk to the health of the child due to the selection of the genetic material of the fetus, and the mother does not need to undergo an invasive procedure. In addition, according to certain aspects, the disclosed invention makes it possible to determine the genetic status of a fetus with high accuracy, significantly greater than, for example, the accuracy of non-invasive screening based on analysis of maternal serum components, for example, triple test, widely used in prenatal practice.

Высокая точность описанных в настоящем документе способов является результатом применения описанного в настоящем документе способа анализа генотипических данных на основе информатики. Современные технологические достижения обеспечили возможность измерения больших количеств генетической информации в генетическом образце с использованием таких способов, как высокопроизводительное секвенирование и матрицы генотипирования. Раскрытые в настоящем документе способы позволяют клиническому специалисту в большей степени использовать преимущества больших количеств данных и осуществлять более точную диагностику генетического статуса плода. Подробные описания некоторых вариантов осуществления приведены ниже. Различные варианты осуществления могут включать разные комбинации вышеупомянутых этапов. Различные комбинации разных вариантов осуществления разных этапов могут быть использованы взаимозаменяемо.The high accuracy of the methods described herein is the result of the application of a method for analyzing genotypic data based on computer science described herein. Modern technological advances have made it possible to measure large amounts of genetic information in a genetic sample using methods such as high throughput sequencing and genotyping matrices. The methods disclosed herein allow a clinician to take greater advantage of large amounts of data and more accurately diagnose the fetal genetic status. Detailed descriptions of some embodiments are provided below. Various embodiments may include various combinations of the above steps. Various combinations of different embodiments of the various steps may be used interchangeably.

Согласно варианту осуществления у беременной матери берут образец крови, и свободноплавающая ДНК в плазме крови матери, которая содержит смесь ДНК материнского происхождения и ДНК плодного происхождения, выделяют и используют для определения статуса плоидности плода. Согласно варианту осуществления раскрытый в настоящем документе способ включает преимущественное обогащение последовательностей ДНК в смеси ДНК, которые соответствуют полиморфным аллелям таким образом, что аллельные отношения и/или аллельные распределения остаются в основном постоянными после обогащения. Согласно варианту осуществления раскрытый в настоящем документе способ включает высокоэффективную целевую основанную на ПЦР амплификацию таким образом, что очень высокий процент полученных молекул соответствует целевым локусам. Согласно варианту осуществления раскрытый в настоящем документе способ включает секвенирование смеси ДНК, которая содержит и ДНК материнского происхождения, и ДНК плодного происхождения. Согласно варианту осуществления раскрытый в настоящем документе способ включает применение измеренных аллельных распределений для определения состояния плоидности плода, вынашиваемого матерью. Согласно варианту осуществления раскрытый в настоящем документе способ включает сообщение информации относительно определенного состояния плоидности клиническому специалисту. Согласно варианту осуществления раскрытый в настоящем документе способ включает осуществление клинического действия, например, проведение последующего инвазивного тестирования, такого как биопсия ворсин хориона или амниоцентез, подготовка к рождению ребенка с трисомией или добровольное прерывание беременности трисомным плодом.In an embodiment, a blood sample is taken from the pregnant mother, and free-floating DNA in the mother’s blood plasma, which contains a mixture of maternal DNA and fetal DNA, is isolated and used to determine the fetal ploidy status. According to an embodiment, the method disclosed herein comprises preferentially enriching DNA sequences in a DNA mixture that correspond to polymorphic alleles such that the allelic ratios and / or allelic distributions remain substantially constant after enrichment. According to an embodiment, the method disclosed herein comprises a highly effective target PCR-based amplification such that a very high percentage of the resulting molecules corresponds to the target loci. According to an embodiment, the method disclosed herein comprises sequencing a mixture of DNA that contains both maternal and fetal DNA. According to an embodiment, the method disclosed herein includes applying the measured allelic distributions to determine the ploidy state of the fetus of the mother. According to an embodiment, the method disclosed herein includes communicating information regarding a certain ploidy state to a clinician. According to an embodiment, the method disclosed herein comprises administering a clinical action, for example, subsequent invasive testing, such as a chorionic villus sampling or amniocentesis, preparation for the birth of a baby with trisomy, or voluntary termination of pregnancy with a trisom fetus.

Настоящая заявка ссылается на заявку на выдачу патента США на изобретение с серийным №11/603406, которая была подана 28 ноября 2006 г. (публикацию патентного документа США №20070184467); заявку на выдачу патента США на изобретение с серийным №12/076348, которая была подана 17 марта 2008 г. (публикацию патентного документа США №20080243398); заявку РСТ с серийным №PCT/US09/52730, которая была подана 4 августа 2009 г. (публикацию РСТ №WO/2010/017214); заявку РСТ с серийным №PCT/US10/050824, которая была подана 30 сентября 2010 г. (публикацию РСТ №WO/2011/041485), заявку на выдачу патента США на изобретение с серийным №13/110685, которая была подана 18 мая 2011 г., и заявку РСТ с серийным №РСТ/12/58578, которая была подана 3 октября 2012; каждый из указанных источников полностью включен в настоящий документ посредством ссылки. Некоторые термины, используемые в настоящей заявке, могут иметь предпосылки в этих ссылках. Некоторые из описанных в настоящем документе концепций могут быть более понятны в свете концепций, изложенных в указанных источниках.This application refers to an application for the grant of a US patent for an invention with serial No. 11/603406, which was filed November 28, 2006 (publication of US patent document No. 20070184467); Application for the grant of a US patent for an invention with serial No. 12/076348, which was filed March 17, 2008 (publication of US patent document No. 200880243398); PCT Application Serial No. PCT / US09 / 52730, which was filed on August 4, 2009 (PCT Publication No. WO / 2010/017214); PCT Application Serial No. PCT / US10 / 050824, which was filed September 30, 2010 (PCT Publication No. WO / 2011/041485), an application for the grant of a US patent for an invention with serial No. 13/110685, which was filed May 18, 2011 , and the PCT application with serial number PCT / 12/58578, which was filed on October 3, 2012; each of these sources is fully incorporated herein by reference. Some of the terms used in this application may have the prerequisites in these links. Some of the concepts described herein may be better understood in light of the concepts set forth in these sources.

Скрининг материнской крови, содержащей свободноплавающую плодную ДНКScreening maternal blood containing free floating fetal DNA

Описанные в настоящем документе способы могут использоваться для содействия определению генотипа ребенка, плода или другого целевого индивидуума, если генетический материал цели обнаруживается в присутствии некоторого количества другого генетического материала. Согласно некоторым вариантам осуществления генотип может относиться к состоянию плоидности одной или множества хромосом, может относиться к одному или множеству связанных с заболеванием аллелей или какой-либо их комбинации. В настоящем описании обсуждение сфокусировано на определении генетического статуса плода в случаях, когда плодная ДНК обнаруживается в материнской крови, однако указанный пример не предназначен для ограничения возможных контекстов для возможного применения указанного способа. Кроме того, указанный способ может подходить для применения в тех случаях, когда количество целевой ДНК составляет любую долю от нецелевой ДНК; например, количество целевой ДНК может составлять любое значение в диапазоне от 0,000001 до 99,999999% от присутствующей ДНК. Кроме того, нецелевая ДНК не обязательно должна принадлежать одному индивидууму или не обязательно даже родственному индивидууму, при условии, что известны генетические данные некоторых или всех релевантных нецелевых индивидуумов. Согласно варианту осуществления раскрытый в настоящем документе способ может использоваться для определения генотипических данных плода по материнской крови, которая содержит плодную ДНК. Он может также использоваться в случае, когда в матке беременной женщины находится несколько плодов, или если в образце может присутствовать другая загрязняющая ДНК, например, от других уже рожденных сиблингов.The methods described herein can be used to help determine the genotype of a child, fetus, or other target individual if the genetic material of the target is detected in the presence of a certain amount of other genetic material. In some embodiments, the genotype may relate to a ploidy state of one or a plurality of chromosomes, may relate to one or a plurality of disease-related alleles, or some combination thereof. In the present description, the discussion focuses on determining the genetic status of the fetus in cases where fetal DNA is found in maternal blood, however, this example is not intended to limit the possible contexts for the possible application of this method. In addition, this method may be suitable for use in cases where the amount of the target DNA is any fraction of the non-target DNA; for example, the amount of target DNA may be any value in the range from 0.000001 to 99.999999% of the DNA present. In addition, non-target DNA does not have to belong to one individual or not necessarily even a related individual, provided that the genetic data of some or all of the relevant non-target individuals is known. According to an embodiment, the method disclosed herein can be used to determine fetal genotypic data from maternal blood that contains fetal DNA. It can also be used when there are several fetuses in the uterus of a pregnant woman, or if other contaminating DNA may be present in the sample, for example, from other already born siblings.

Указанная техника может использовать явление, заключающееся в попадании плодных клеток крови в материнский кровоток через ворсины плаценты. Как правило, в материнский кровоток таким путем попадает небольшое количество плодных клеток (недостаточное для получения позитивного результата теста Клейхауэра-Бетке на фетоматеринское кровосмешение). Плодные клетки могут быть отсортированы и проанализированы с помощью разнообразных техник для поиска конкретных последовательностей ДНК, при этом отсутствует риск, неизбежно связанный с инвазивными процедурами. Указанная техника может также использовать явление свободноплавающей плодной ДНК, поступающей в материнский кровоток благодаря высвобождению ДНК при апоптозе плацентарной ткани, если рассматриваемая плацентарная ткань содержит ДНК того же генотипа, что и плод. Было показано, что свободноплавающая ДНК, присутствующая в материнской плазме, содержит до 30-40% плодной ДНК.This technique can use the phenomenon of fetal blood cells entering the maternal bloodstream through the placenta villi. As a rule, a small amount of fetal cells enters the maternal bloodstream in this way (insufficient to obtain a positive Kleichauer-Betke test for fetomaternal incest). Fetal cells can be sorted and analyzed using a variety of techniques to search for specific DNA sequences, with no risk inevitably associated with invasive procedures. This technique can also exploit the phenomenon of free-floating fetal DNA entering the maternal bloodstream due to the release of DNA during apoptosis of placental tissue if the placental tissue in question contains DNA of the same genotype as the fetus. It has been shown that free-floating DNA present in maternal plasma contains up to 30-40% of fetal DNA.

Согласно варианту осуществления от беременной женщины может быть получена кровь. Исследования показали, что материнская кровь может содержать небольшое количество свободноплавающей ДНК плода, помимо свободноплавающей ДНК материнского происхождения. Кроме того, также могут присутствовать безъядерные плодные клетки крови, содержащие ДНК плодного происхождения, помимо многочисленных клеток крови материнского происхождения, которые, как правило, не содержат ядерную ДНК. Существует множество известных в данной области техники способов выделения плодной ДНК или создания фракций, обогащенных плодной ДНК. Например, было продемонстрировано получение с помощью хроматографии определенных фракций, которые обогащены плодной ДНК.In an embodiment, blood may be obtained from the pregnant woman. Studies have shown that maternal blood may contain a small amount of fetal free-floating DNA, in addition to free-floating DNA of maternal origin. In addition, non-nuclear fetal blood cells containing DNA of fetal origin may also be present, in addition to numerous blood cells of maternal origin, which typically do not contain nuclear DNA. There are many methods known in the art for isolating fetal DNA or creating fractions enriched in fetal DNA. For example, the preparation of certain fractions that are enriched in fetal DNA has been demonstrated by chromatography.

После того как образец материнской крови, плазмы или другой жидкости, взятый относительно неинвазивным способом и содержащий некоторое количество плодной ДНК, клеточной или свободноплавающей, обогащенной по плодной ДНК относительно материнской ДНК или содержащей исходные их пропорции, получен, ДНК, присутствующая в указанном образце, может быть генотипирована. Согласно некоторым вариантам осуществления кровь может забираться с использованием иглы для забора крови из вены, например, из подкожной медиальной вены руки. Описанный в настоящем документе способ может использоваться для определения генотипических данных плода. Например, он может использоваться для определения состояния плоидности по одной или нескольких хромосом, он может использоваться для определения идентичности одного или нескольких SNP, включая инсерций, делеции и транслокации. Он может использоваться для определения одного или нескольких гаплотипов, в том числе для определения того, от какого родителя происходят одна или несколько генотипических характеристик.After a sample of maternal blood, plasma or other fluid, taken in a relatively non-invasive way and containing a certain amount of fetal DNA, cellular or free-floating, enriched in fetal DNA relative to maternal DNA or containing their original proportions, the DNA present in the specified sample can be obtained be genotyped. In some embodiments, blood may be drawn using a needle to collect blood from a vein, for example, from a saphenous medial vein of a hand. The method described herein can be used to determine the genotypic data of the fetus. For example, it can be used to determine the ploidy state of one or more chromosomes, it can be used to determine the identity of one or more SNPs, including insertions, deletions, and translocations. It can be used to determine one or more haplotypes, including determining which parent one or more genotypic characteristics come from.

Отметим, что указанный способ будет работать с любыми нуклеиновыми кислотами, которые могут использоваться для любых способов генотипирования и/или секвенирования, таких как платформа INFINIUM ARRAY от ILLUMINA, GENECHIP от AFFYMETRIX, GENOME ANALYZER от ILLUMINA или SOLID SYSTEM от LIFE TECHNOLGIES. Сюда включены экстрагированная свободноплавающая ДНК из плазмы или продукты ее амплификации (например, путем полногеномной амплификации, ПЦР); геномная ДНК из других типов клеток (например, лимфоцитов человека из цельной крови) или продукты ее амплификации. Для подготовки ДНК подходит любой способ экстрагирования или очистки, позволяющий получить геномную ДНК, подходящую для одной из указанных платформ. Указанный способ будет работать с тем же успехом и на образцах РНК. Согласно варианту осуществления хранение образцов может осуществляться таким образом, чтобы минимизировать разложение (например, при температуре ниже температуры замерзания, приблизительно при -20 C, или при более низкой температуре). Parental SupportNote that this method will work with any nucleic acids that can be used for any genotyping and / or sequencing methods, such as the INFINIUM ARRAY platform from ILLUMINA, GENECHIP from AFFYMETRIX, GENOME ANALYZER from ILLUMINA or SOLID SYSTEM from LIFE TECHNOLGIES. This includes extracted free-floating DNA from plasma or products of its amplification (for example, by genome-wide amplification, PCR); genomic DNA from other types of cells (for example, human lymphocytes from whole blood) or its amplification products. For the preparation of DNA, any extraction or purification method suitable for obtaining genomic DNA suitable for one of these platforms is suitable. The specified method will work with the same success on RNA samples. According to an embodiment, the storage of samples can be carried out in such a way as to minimize decomposition (for example, at a temperature below freezing, at about -20 C, or at a lower temperature). Parental support

Некоторые варианты осуществления могут быть использованы в комбинации с методом PARENTAL SUPPORTтм (PS), варианты осуществления которого описаны в заявке на выдачу патента США №11/603406 (публикации патентного документа США №20070184467), заявке на выдачу патента США №12/076348 (публикации патентного документа США №20080243398), заявке на выдачу патента США №13/110685, заявке РСТ PCT/US09/52730 (публикации РСТ №WO/2010/017214) и заявке РСТ №PCT/US10/050824 (публикации РСТ №WO/2011/041485), которые полностью включены в настоящий документ посредством ссылки. PARENTAL SUPPORTтм представляет собой основанный на информатике метод, который может быть использован для анализа генетических данных. Согласно некоторым вариантам осуществления раскрытые в настоящем документе способы могут рассматриваться как часть метода PARENTAL SUPPORтм. Согласно некоторым вариантам осуществления метод PARENTAL SUPPORTтм представляет собой совокупность методов, которые могут быть использованы для определения генетических данных целевого индивидуума с высокой точностью, по одной клетке или небольшому количеству клеток указанного индивидуума, или по смеси ДНК, содержащей ДНК от целевого индивидуума и ДНК от одного или множества других индивидуумов, в частности, для определения связанных с заболеванием аллелей, других представляющих интерес аллелей и/или состояния плоидности одной или нескольких хромосом целевого индивидуума. PARENTAL SUPPORTтм может относиться к любому из этих способов. PARENTAL SUPPORTтм является примером основанного на информатике способа. Примеры вариантов осуществления способа PARENTAL SUPPORTтм проиллюстрированы фиг. 29-31G и описаны в эксперименте 19.Some embodiments may be used in combination with the PARENTAL SUPPORT (PS) method, embodiments of which are described in U.S. Patent Application No. 11/603406 (U.S. Patent Application Publication No. 20070184467), U.S. Patent Application No. 12/076348 ( U.S. Patent Publication No.20080243398), U.S. Patent Application No. 13/110685, PCT Application PCT / US09 / 52730 (PCT Publication No. WO / 2010/017214) and PCT Application No. PCT / US10 / 050824 (PCT Publication No. WO / 2011/041485), which are fully incorporated herein by reference. PARENTAL SUPPORT tm is an informatics-based method that can be used to analyze genetic data. In some embodiments, the methods disclosed herein may be considered as part of the PARENTAL SUPPOR method. In some embodiments, the PARENTAL SUPPORT method is a collection of methods that can be used to determine the genetic data of the target individual with high accuracy, on a single cell or a small number of cells of the specified individual, or on a mixture of DNA containing DNA from the target individual and DNA from one or many other individuals, in particular for determining disease-related alleles, other alleles of interest and / or a ploidy state of one or several FIR target individual chromosomes. PARENTAL SUPPORT may apply to any of these methods. PARENTAL SUPPORT tm is an example of an informatics-based method. Examples of embodiments of the PARENTAL SUPPORT method are illustrated in FIG. 29-31G and are described in experiment 19.

Метод PARENTAL SUPPORTтм позволяет использовать известные родительские генетические данные, т.е. генетические данные гаплотипа и/или диплоидности матери и/или отца, наряду с информацией о механизме мейоза и неполным измерением целевой ДНК, и, возможно, одного или нескольких родственных индивидуумов, вместе с популяционными частотами кроссинговера, для восстановления in silico генотипа на множестве аллелей и/или и/или состояния плоидности эмбриона, или любой целевой клетки(клеток) и целевой ДНК с локализацией ключевых локусов с высокой степенью достоверности. Метод PARENTAL SUPPORTтм позволяет реконструировать не только однонуклеотидные полиморфизмы (SNP), которые были измерены неудовлетворительно, но также инсерций и делеции, и SNP или целые области ДНК, которые вообще не были измерены. Кроме того, метод PARENTAL SUPPORTтм позволяет измерять множественные связанные с заболеванием локусы, а также проводить скрининг анеуплоидии по единичной клетке. Согласно некоторым вариантам осуществления метод PARENTAL SUPPORTтм может использоваться для характеристики одной или нескольких клеток эмбриона, биопсированных в ходе цикла IVF, для определения генетического состояния указанной одной или нескольких клеток.The PARENTAL SUPPORT tm method allows the use of known parental genetic data, i.e. genetic data of the haplotype and / or diploidy of the mother and / or father, along with information on the meiosis mechanism and incomplete measurement of the target DNA, and possibly one or more related individuals, together with population crossing-over frequencies, to restore the in silico genotype on a variety of alleles and / or and / or the ploidy state of the embryo, or any target cell (s) and target DNA with the localization of key loci with a high degree of certainty. The PARENTAL SUPPORT method allows reconstructing not only single nucleotide polymorphisms (SNPs) that were unsatisfactorily measured, but also insertions and deletions, and SNPs or whole regions of DNA that were not measured at all. In addition, the PARENTAL SUPPORT method allows you to measure multiple disease-related loci, as well as screen aneuploidy in a single cell. In some embodiments, the PARENTAL SUPPORT method can be used to characterize one or more embryo cells biopsied during an IVF cycle to determine the genetic state of the specified one or more cells.

Метод PARENTAL SUPPORTтм позволяет очистить генетические данные от шума. Это может быть реализовано путем определения корректных генных аллелей в целевом геноме (эмбрионе) с использованием генотипа родственных индивидуумов (родителей) в качестве эталона. В частности, применение PARENTAL SUPPORTтм может быть целесообразным, если доступно только небольшое количество генетического материала (например, PGD) и прямые измерения генотипов неизбежно искажаются из-за ограниченных количеств генетического материала. В частности, применение PARENTAL SUPPORTтм может быть целесообразным, если только небольшая доля доступного генетического материала происходит от целевого индивидуума (например, NPD), и при этом прямые измерения генотипов неизбежно искажаются из-за сигнала загрязняющей ДНК другого индивидуума. Метод PARENTAL SUPPORTтм позволяет реконструировать высокоточные упорядоченные последовательности диплоидных аллелей эмбриона вместе с числом копий сегментов хромосом, несмотря на то, что обычные неупорядоченные диплоидные измерения могут характеризоваться высокими степенями выпадений аллелей, ложных считываний, вариабельного смещения амплификации и других ошибок. Для метода могут использоваться и базовая генетическая модель, и базовая модель ошибок измерения. Генетическая модель может определять как вероятности аллелей на каждом SNP, так и вероятности кроссинговера между SNP. Вероятности аллелей могут быть смоделированы в каждом SNP на основе данных, полученных от родителей, и модели вероятностей кроссинговера между SNP на основе данных, полученных из базы данных НарМар, разработанной в рамках международного проекта НарМар. При наличии надлежащей базовой генетической модели и модели ошибок измерения может быть использована оценка апостериорного максимума (MAP) с модификациями для вычислительной эффективности, для получения корректных упорядоченных значений аллелей в каждом SNP эмбриона.The PARENTAL SUPPORT TM method allows you to clear genetic data from noise. This can be realized by determining the correct gene alleles in the target genome (embryo) using the genotype of related individuals (parents) as a reference. In particular, the use of PARENTAL SUPPORT may be appropriate if only a small amount of genetic material is available (e.g. PGD) and direct measurements of genotypes are inevitably distorted due to limited amounts of genetic material. In particular, the use of PARENTAL SUPPORT may be appropriate if only a small fraction of the available genetic material comes from the target individual (e.g., NPD), and in this case direct measurements of the genotypes are inevitably distorted due to the signal of the polluting DNA of another individual. The PARENTAL SUPPORT tm method allows reconstructing highly accurate ordered sequences of embryo diploid alleles along with the number of copies of chromosome segments, despite the fact that ordinary disordered diploid measurements can be characterized by high degrees of allele precipitation, false readings, variable amplification bias, and other errors. Both the basic genetic model and the basic model of measurement errors can be used for the method. The genetic model can determine both the probabilities of alleles at each SNP and the probabilities of crossing over between SNPs. Allele probabilities can be modeled in each SNP based on data received from parents and a model of crossing-over probabilities between SNPs based on data obtained from the NarMar database developed as part of the international NarMar project. Given an appropriate basic genetic model and a model of measurement errors, an a posteriori maximum estimate (MAP) with modifications for computational efficiency can be used to obtain the correct ordered allele values in each SNP of the embryo.

Вышеописанные техники в некоторых случаях позволяют определить генотип индивидуума при наличии очень небольшого количества ДНК, происходящей от указанного индивидуума. Это может быть ДНК из одной или небольшого количества клеток, или ДНК из небольшого количества плодной ДНК, присутствующей в материнской крови.The techniques described above in some cases make it possible to determine the genotype of an individual in the presence of a very small amount of DNA originating from the indicated individual. This may be DNA from one or a small number of cells, or DNA from a small amount of fetal DNA present in maternal blood.

ГипотезыHypotheses

В контексте указанного раскрытия гипотеза относится к возможному генетическому статусу. Она может относиться к возможному состоянию плоидности. Она может относиться к возможному аллельному состоянию. Множество гипотез может относиться к совокупности возможных генетических статусов, совокупности возможных аллельных состояний, совокупности возможных состояний плоидности, или их комбинациям. Согласно некоторым вариантам осуществления множество гипотез может быть создано таким образом, что одна гипотеза из указанного множества соответствует фактическому генетическому статусу любого заданного индивидуума. Согласно некоторым вариантам осуществления множество гипотез может быть создано таким образом, что каждый возможный генетический статус может быть описан по меньшей мере одного гипотезой из указанного множества. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, один из аспектов способа заключается в определении того, какая гипотеза соответствует фактическому генетическому статусу рассматриваемого индивидуума.In the context of this disclosure, the hypothesis refers to a possible genetic status. It may refer to a possible ploidy state. It may refer to a possible allelic condition. Many hypotheses may relate to the totality of possible genetic statuses, the totality of possible allelic states, the totality of possible ploidy states, or combinations thereof. According to some embodiments, a plurality of hypotheses can be created in such a way that one hypothesis from said set corresponds to the actual genetic status of any given individual. In some embodiments, a plurality of hypotheses can be created in such a way that each possible genetic status can be described by at least one hypothesis from the plurality. According to some embodiments disclosed herein, one aspect of the method is to determine which hypothesis corresponds to the actual genetic status of the individual in question.

Согласно другому варианту осуществления раскрываемого изобретения один этап включает создание гипотезы. Согласно некоторым вариантам осуществления указанная гипотеза может представлять собой гипотезу числа копий. Согласно некоторым вариантам осуществления она может включать гипотезу относительно того, какие сегменты хромосомы каждого из родственных индивидуумов генетически соответствуют каким сегментам других родственных индивидуумов, если такое соответствие имеется. Создание гипотезы может относиться к установлению границ переменных таким образом, чтобы весь набор возможных рассматриваемых генетических статусов охватывался этими переменными.According to another embodiment of the disclosed invention, one step involves hypothesizing. In some embodiments, said hypothesis may be a copy number hypothesis. In some embodiments, it may include a hypothesis regarding which segments of the chromosome of each of the related individuals genetically correspond to which segments of the other related individuals, if there is such a match. Hypothesis creation may relate to setting the boundaries of variables so that the entire set of possible genetic statuses considered is covered by these variables.

«Гипотеза числа копий», также называемая «гипотезой плоидности» или «гипотезой состояния плоидности», может относиться к гипотезе относительно возможного состояния плоидности для копии определенной хромосомы, типа хромосомы или участка хромосомы у целевого индивидуума. Она может также относиться к состоянию плоидности более чем одного типа хромосом индивидуума. Множество гипотез числа копий может относиться к множеству гипотез, в котором каждая гипотеза соответствует отличному возможному состоянию плоидности индивидуума. Множество гипотез может относиться к совокупности возможных состояний плоидности, совокупности возможных вкладов родительских гаплотипов, а совокупности возможных процентных долей плодной ДНК в смешанном образце, или их комбинациям.The “copy number hypothesis”, also called the “ploidy hypothesis” or the “ploidy state hypothesis”, may refer to the hypothesis of a possible ploidy state for a copy of a particular chromosome, such as a chromosome or chromosome region of a target individual. It may also refer to the ploidy state of more than one type of chromosome of an individual. A plurality of hypotheses of the number of copies may refer to a plurality of hypotheses in which each hypothesis corresponds to an excellent possible ploidy state of an individual. Many hypotheses may relate to the totality of the possible states of ploidy, the totality of the possible contributions of the parent haplotypes, and the totality of the possible percentages of fetal DNA in a mixed sample, or combinations thereof.

В норме у индивидуума имеется по одной хромосоме каждого типа от каждого из родителей. Однако из-за ошибок, происходящих при мейозе и митозе, у индивидуума может присутствовать 0, 1, 2 или более хромосом определенного типа от каждого из родителей. На практике редко встречается более двух определенных хромосом от одного из родителей. Во вариантах осуществления, раскрытых в настоящем описании, рассматривается только возможность гипотез, согласно которым от одного из родителей получены 0, 1 или 2 копии определенной хромосомы; для рассмотрения большего или меньшего возможного количества копий, происходящий от одного родителя, потребуется тривиальное расширение. Согласно некоторым вариантам осуществления для определенной хромосомы существует девять возможных гипотез: три возможные гипотезы, предполагающие наличие 0, 1 или 2 хромосом материнского происхождения, умноженные на три возможные гипотезы, предполагающие наличие 0, 1 или 2 хромосом отцовского происхождения. Пусть (m, f) относятся к гипотезе, где m - количество определенной хромосомы, унаследованное от матери, и f - количество определенной хромосомы, унаследованное от отца. Таким образом, указанные девять гипотез представлены следующими: (0,0), (0,1), (0,2), (1,0), (1,1), (1,2), (2,0), (2,1) и (2,2). Они могут быть также записаны как Н00, H01, Н02, Н10, Н12, Н20, H21 и Н22. Разные гипотезы соответствуют разным состояниям плоидности. Например, (1,1) относится к нормальной дисомной хромосоме; (2,1) относится к материнской трисомии и (0,1) относится к отцовской моносомии. Согласно некоторым вариантам осуществления случай, когда две хромосомы унаследованы от одного родителя и одна хромосома унаследована от другого родителя, могут дополнительно разбиваться на два варианта: первый, при котором указанные две хромосомы идентичны (ошибка совпадающих копий), и второй, при котором указанные две хромосомы гомологичны, но не идентичны (ошибка несовпадающих копий). Согласно указанным вариантам осуществления существует 16 возможных гипотез. Следует понимать, что могут быть использованы другие совокупности гипотез и другие количества гипотез.Normally, an individual has one chromosome of each type from each of the parents. However, due to errors occurring during meiosis and mitosis, an individual may have 0, 1, 2 or more chromosomes of a certain type from each parent. In practice, more than two specific chromosomes from one of the parents are rarely found. In the embodiments disclosed herein, only the possibility of hypotheses is considered, according to which 0, 1, or 2 copies of a particular chromosome are obtained from one of the parents; trivial expansion is required to consider more or less possible copies coming from a single parent. According to some embodiments, there are nine possible hypotheses for a given chromosome: three possible hypotheses suggesting the presence of 0, 1, or 2 chromosomes of maternal origin, multiplied by three possible hypotheses, suggesting the presence of 0, 1, or 2 chromosomes of paternal origin. Let (m, f) relate to the hypothesis, where m is the amount of a particular chromosome inherited from the mother, and f is the amount of a particular chromosome inherited from the father. Thus, these nine hypotheses are represented by the following: (0,0), (0,1), (0,2), (1,0), (1,1), (1,2), (2,0) , (2.1) and (2.2). They can also be written as H 00 , H 01 , H 02 , H 10 , H 12 , H 20 , H 21 and H 22 . Different hypotheses correspond to different states of ploidy. For example, (1,1) refers to the normal disomal chromosome; (2.1) refers to maternal trisomy and (0.1) refers to paternal monosomy. According to some embodiments, the case where two chromosomes are inherited from one parent and one chromosome is inherited from the other parent can be further divided into two options: the first, in which these two chromosomes are identical (error of matching copies), and the second, in which these two chromosomes homologous, but not identical (error of mismatched copies). According to these embodiments, there are 16 possible hypotheses. It should be understood that other sets of hypotheses and other numbers of hypotheses may be used.

Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, гипотеза плоидности относится к гипотезе относительно того, какая хромосома от других родственных индивидуумов соответствует хромосоме, присутствующей в геноме целевого индивидуума. Согласно некоторым вариантам осуществления в основе способа лежит тот факт, что родственные индивидуумы предположительно обладают общими блоками гаплотипа, и, используя измеренные генетические данные родственных индивидуумов в сочетании с информацией о том, какие блоки гаплотипа имеют соответствие между целевым индивидуумом и родственным индивидуумом, можно сделать заключение о корректности генетических данных для целевого индивидуума с большей достоверностью, чем при использовании исключительно генетических измерений целевого индивидуума. Таким образом, согласно некоторым вариантам осуществления гипотеза плоидности может относиться не только к числу хромосом, но и к тому, какие хромосомы у родственных индивидуумов идентичны или практически идентичны одной или нескольким хромосомам целевого индивидуума.In some embodiments disclosed herein, the ploidy hypothesis refers to the hypothesis of which chromosome from other related individuals corresponds to the chromosome present in the genome of the target individual. In some embodiments, the method is based on the fact that related individuals are believed to have common haplotype blocks, and using measured genetic data from related individuals in combination with information about which haplotype blocks correspond between the target individual and the related individual about the correctness of the genetic data for the target individual with greater reliability than using exclusively genetic measurements of the target and individual. Thus, according to some embodiments, the ploidy hypothesis can relate not only to the number of chromosomes, but also to which chromosomes in related individuals are identical or practically identical to one or more chromosomes of the target individual.

После того как определено множество гипотез, обработка входных генетических данных с помощью алгоритмов позволяет вывести определенную статистическую вероятность для каждой из рассматриваемых гипотез. Вероятности различных гипотез могут быть определены путем математического расчета, для каждой из различных гипотез, значения вероятности, согласно одной или нескольким экспертным методикам, алгоритмам и/или способам, описанным в других разделах настоящего документа, с использованием соответствующих генетических данных в качестве входных данных.After many hypotheses are determined, processing the input genetic data using algorithms allows you to derive a certain statistical probability for each of the hypotheses considered. The probabilities of various hypotheses can be determined by mathematical calculation, for each of the various hypotheses, the probability values, according to one or more expert methods, algorithms and / or methods described in other sections of this document, using the corresponding genetic data as input.

После проведения оценки вероятности различных гипотез согласно нескольким техникам, они могут быть скомбинированы. Это может означать, для каждой гипотезы, умножение вероятностей, определенных при помощи каждой из техник. Произведение вероятностей гипотез можно нормализовать. Отметим, что одна гипотеза плоидности относится к одному возможному состоянию плоидности для хромосомы.After assessing the likelihood of various hypotheses according to several techniques, they can be combined. This may mean, for each hypothesis, the multiplication of probabilities determined using each of the techniques. The product of the probabilities of hypotheses can be normalized. Note that one ploidy hypothesis refers to one possible ploidy state for a chromosome.

Процесс «комбинирования вероятностей», также называемый « комбинированием гипотез» или комбинированием результатов применения экспертных техник, представляет собой концепцию, которая должна быть знакома специалистам в области линейной алгебры. Один из возможных способов комбинирования вероятностей заключается в следующем. При применении экспертной техники для оценки множества гипотез для заданного набора генетических данных, конечный продукт способа представляет собой набор вероятностей, связанных, взаимно однозначным образом, с каждой гипотезой указанного множества гипотез. При комбинировании набора вероятностей, определенных с помощью первой экспертной техники, каждая из которых связана с одной из гипотез набора, с набором вероятностей, определенных с помощью второй экспертной методики, каждая из которых связана с тем же самым набором гипотез, два указанных набора вероятностей перемножают. Это означает, что, для каждой гипотезы из множества, две вероятности, связанные с указанной гипотезой, определенные с применением двух два экспертных способов, перемножаются, и соответствующее произведение представляет собой итоговую вероятность. Указанный способ может быть распространен на любое количество экспертных техник. Если используется только одна экспертная техника, итоговые вероятности совпадают с входными вероятностями. Если используется более чем две экспертных техники, соответствующие вероятности могут перемножаться одновременно. Произведения могут быть нормализованы, чтобы сумма вероятностей гипотез во множестве гипотез составляла 100%.The process of “combining probabilities”, also called “combining hypotheses” or combining the results of applying expert techniques, is a concept that should be familiar to experts in the field of linear algebra. One possible way to combine probabilities is as follows. When applying expert technique to evaluate a set of hypotheses for a given set of genetic data, the final product of the method is a set of probabilities related, in a one-to-one way, with each hypothesis of the specified set of hypotheses. When combining a set of probabilities determined using the first expert technique, each of which is associated with one of the set hypotheses, with a set of probabilities determined using the second expert technique, each of which is associated with the same set of hypotheses, these two sets of probabilities are multiplied. This means that, for each hypothesis from the set, the two probabilities associated with the specified hypothesis, determined using two two expert methods, are multiplied, and the corresponding product represents the final probability. The specified method can be extended to any number of expert techniques. If only one expert technique is used, the resulting probabilities coincide with the input probabilities. If more than two expert techniques are used, the corresponding probabilities can be multiplied simultaneously. Works can be normalized so that the sum of the probabilities of hypotheses in the set of hypotheses is 100%.

Согласно некоторым вариантам осуществления, в том случае, если комбинированные вероятности для определенной гипотезы превышают комбинированные вероятности для любой другой гипотезы, может считаться, что указанная гипотеза определена как наиболее вероятная. Согласно некоторым вариантам осуществления гипотеза может быть определена как наиболее вероятная, и состояние плоидности или другой генетический статус может быть установлен, если нормализованная вероятность выше пороговой. Согласно варианту осуществления это может означать, что число и идентичность хромосом, которые связаны с этой гипотезой, могут быть установлены в качестве состояния плоидности. Согласно варианту осуществления, это может означать, что идентичность аллелей, связанная с указанной гипотеза, может быть установлена в качестве аллельного состояния. Согласно некоторым вариантам осуществления порог может находиться в диапазоне от приблизительно 50% до приблизительно 80%. Согласно некоторым вариантам осуществления порог может находиться в диапазоне от приблизительно 80% до приблизительно 90%. Согласно некоторым вариантам осуществления порог может находиться в диапазоне от приблизительно 90% до приблизительно 95%. Согласно некоторым вариантам осуществления порог может находиться в диапазоне от приблизительно 95% до приблизительно 99%. Согласно некоторым вариантам осуществления порог может находиться в диапазоне от приблизительно 99% до приблизительно 99,9%. Согласно некоторым вариантам осуществления пороговое значение может превышать приблизительно 99,9%.According to some embodiments, if the combined probabilities for a particular hypothesis exceed the combined probabilities for any other hypothesis, it can be considered that the hypothesis is defined as the most probable. In some embodiments, a hypothesis can be defined as the most likely, and a ploidy state or other genetic status can be established if the normalized probability is above a threshold probability. In an embodiment, this may mean that the number and identity of the chromosomes that are associated with this hypothesis can be set as a ploidy state. According to an embodiment, this may mean that the identity of the alleles associated with the indicated hypothesis can be established as an allelic state. In some embodiments, the threshold may range from about 50% to about 80%. In some embodiments, the threshold may range from about 80% to about 90%. In some embodiments, the threshold may range from about 90% to about 95%. In some embodiments, the threshold may range from about 95% to about 99%. In some embodiments, the threshold may range from about 99% to about 99.9%. In some embodiments, the threshold value may exceed about 99.9%.

Родительские контекстыParent Contexts

«Родительский контекст» относится к генетическому статусу определенного аллеля на каждой из двух релевантных хромосом для одного или обоих родителей цели. Отметим, что, согласно варианту осуществления, родительский контекст не относится к аллельному состоянию указанной цели, а относится к аллельному состоянию родителей. Родительский контекст для определенного SNP может состоять из 4 пар оснований, двух отцовских и двух материнских; они могут быть одинаковыми или отличаться друг от друга. Он, как правило, записывается как «m1m2|f1f2,» где m1 и m2 представляют генетический статус определенного SNP на двух материнских хромосомах, и f1 и f2 представляют генетический статус определенного SNP на двух отцовских хромосомах. Согласно некоторым вариантам осуществления родительский контекст может быть записан как «f1f2|m1m2.». Отметим, что нижние индексы «1» и «2» относятся к генотипу в заданном аллеле первой и второй хромосом; также отметим, что выбор того, какую хромосому указать как «1», а какую как «2», может быть произвольным.“Parental context” refers to the genetic status of a particular allele on each of two relevant chromosomes for one or both parents of a target. Note that, according to an embodiment, the parent context does not refer to the allelic state of the specified target, but refers to the allelic state of the parents. The parent context for a particular SNP can consist of 4 base pairs, two paternal and two maternal; they may be the same or different from each other. It is usually written as “m 1 m 2 | f 1 f 2 ,” where m 1 and m 2 represent the genetic status of a particular SNP on two maternal chromosomes, and f 1 and f 2 represent the genetic status of a specific SNP on two paternal chromosomes . In some embodiments, the parent context may be written as “f 1 f 2 | m 1 m 2. ”. Note that the subscripts “1” and “2” refer to the genotype in a given allele of the first and second chromosomes; also note that the choice of which chromosome to indicate as “1” and which as “2” can be arbitrary.

Отметим, что в настоящем описании А и В часто используются для общего представления идентичностей пар оснований; А или В могут в равной степени представлять С (цитозин), G (гуанин), А (аденин) или Т (тимин). Например, если в заданном основанном на SNP аллеле генотип матери содержит Т в указанном SNP на одной хромосоме и G в указанном SNP на гомологичной хромосоме, а генотип отца в указанном аллеле содержит G в указанном SNP в обеих гомологичных хромосомах, можно сказать, что аллель целевого индивидуума характеризуется родительским контекстом АВ|ВВ; также можно сказать, что аллель характеризуется родительским контекстом АВ|АА. Отметим, что, теоретически, любой из четырех возможных нуклеотидов может встречаться в заданном аллеле, и, соответственно, возможно, например, что мать имеет генотип AT, и отец имеет генотип GC в заданном аллеле. Однако, эмпирические данные указывают на то, что в большинстве случаев в заданном аллеле наблюдаются только две из четырех возможных пар оснований. Возможно, например, при использовании единичных тандемных повторов наличие более двух родительских, более четырех и даже более десяти контекстов. В настоящем раскрытии обсуждение предполагает, что в заданном аллеле будут наблюдаться только две возможные пары оснований, хотя раскрытые в настоящем документе варианты осуществления могут быть модифицированы с учетом тех случаев, когда эта гипотеза не принимается.Note that, in the present description, A and B are often used to generically represent base pair identities; A or B may equally represent C (cytosine), G (guanine), A (adenine), or T (thymine). For example, if in a given SNP-based allele, the mother genotype contains T in the indicated SNP on one chromosome and G in the indicated SNP on the homologous chromosome, and the father genotype in the indicated allele contains G in the indicated SNP on both homologous chromosomes, we can say that the target allele the individual is characterized by the parental context of AB | BB; it can also be said that the allele is characterized by the parental context of AB | AA. Note that, theoretically, any of the four possible nucleotides can occur in a given allele, and, accordingly, it is possible, for example, that the mother has the AT genotype and the father has the GC genotype in the given allele. However, empirical evidence indicates that in most cases only two out of four possible base pairs are observed in a given allele. Perhaps, for example, when using single tandem repeats, there are more than two parental, more than four, and even more than ten contexts. In the present disclosure, the discussion assumes that only two possible base pairs will be observed in a given allele, although the embodiments disclosed herein may be modified to take into account cases where this hypothesis is not accepted.

«Родительский контекст» может относиться к набору или подгруппе целевых SNP, которые характеризуются одинаковым родительским контекстом. Например, если нужно измерить 1000 аллелей на определенной хромосоме целевого индивидуума, то контекст АА|ВВ может относиться к набору всех аллелей в группе из 1000 аллелей, при этом генотип матери целевого индивидуума гомозиготен, и генотип отца указанной цели гомозиготен, но материнский генотип и отцовский генотип в этом локусе различны. Если родительские данные не фазированы, и, соответственно, АВ=ВА, тогда существует девять возможных родительских контекстов: АА|АА, АА|АВ, АА|ВВ, АВ|АА, АВ|АВ, АВ|ВВ, ВВ|АА, ВВ|АВ, и ВВ|ВВ. Если родительские данные фазированы, и, соответственно, АВ≠ВА, существует 16 разных возможных родительских контекстов: АА|АА, АА|АВ, АА|ВА, АА|ВВ, АВ|АА, АВ|АВ, АВ|ВА, АВ|ВВ, ВА|АА, ВА|АВ, ВА|ВА, ВА|ВВ, ВВ|АА, ВВ|АВ, ВВ|ВА и ВВ|ВВ. Каждый аллель SNP на хромосоме, за исключением некоторых SNP в половых хромосомах, характеризуется одним из этих родительских контекстов. Набор SNP, в котором родительский контекст для одного родителя является гетерозиготным, может называться гетерозиготным контекстом.A “parent context” may refer to a set or subgroup of target SNPs that share the same parent context. For example, if you want to measure 1000 alleles on a particular chromosome of a target individual, then the context AA | BB may refer to the set of all alleles in a group of 1000 alleles, while the genotype of the mother of the target individual is homozygous, and the genotype of the father of the indicated target is homozygous, but the maternal and paternal genotypes the genotype at this locus is different. If the parent data is not phased, and accordingly AB = VA, then there are nine possible parental contexts: AA | AA, AA | AB, AA | BB, AB | AA, AB | AB, AB | BB, BB | AA, BB | AB, and BB | BB. If the parental data is phased, and accordingly AB ≠ VA, there are 16 different possible parental contexts: AA | AA, AA | AB, AA | BA, AA | BB, AB | AA, AB | AB, AB | VA, AB | VV, VA | AA, VA | AB, VA | VA, VA | VV, VV | AA, VV | AB, VV | VA and VV | VV. Each SNP allele on the chromosome, with the exception of some SNPs in the sex chromosomes, is characterized by one of these parental contexts. An SNP set in which the parent context for one parent is heterozygous can be called a heterozygous context.

Применение родительских контекстов в NPDUsing parent contexts in NPD

Неинвазивная пренатальная диагностика является важной техникой, которая может использоваться для определения генетического статуса плода по полученному неинвазивным способом генетическому материалу, например, взятому из крови беременной матери. Кровь может быть разделена, выделена плазма, и затем выделена ДНК плазмы. Для выделения ДНК приемлемой длины может быть использован отбор по размеру. ДНК может быть преимущественно обогащена по набору локусов. Затем указанная ДНК может быть измерена с применением ряда способов, таких как гибридизация с матрицей для генотипирования и измерение флуоресценции, или секвенирование на высокопроизводительном секвенаторе.Non-invasive prenatal diagnosis is an important technique that can be used to determine the genetic status of the fetus using non-invasive method of genetic material obtained, for example, taken from the blood of a pregnant mother. Blood can be separated, plasma is secreted, and then plasma DNA is secreted. Size selection can be used to isolate DNA of an acceptable length. DNA can be predominantly enriched in a set of loci. Then, the DNA can be measured using a number of methods, such as hybridization with a matrix for genotyping and fluorescence measurement, or sequencing on a high throughput sequencer.

Существует ряд способов для применения данных последовательности при использовании секвенирования для определения плоидности плода в контексте неинвазивной пренатальной диагностики. Наиболее распространенный способ может подразумевать использование данных последовательности для простого подсчета числа считываний, которые картируются с определенной хромосомой. Например, представим, что нужно определить состояние плоидности хромосомы 21 у плода. Представим также, что ДНК в образце состоит из 10% ДНК плодного происхождения и 90% ДНК материнского происхождения. В этом случае следует найти среднее число считываний на хромосоме, которая, предположительно, может быть дисомной, например, хромосоме 3, и сравнить его с числом считываний на хромосоме 21, при этом считывания приводятся в соответствие с числом пар оснований в этой хромосоме, которые являются частью уникальной последовательности. Если плод является эуплоидным, можно ожидать, что количество ДНК на единицу генома будет приблизительно равным во всех локализациях (с учетом стохастических вариаций). С другой стороны, если плод является трисомным по хромосоме 21, можно ожидать, что будет присутствовать немного большее количество ДНК на генетическую единицу из хромосомы 21, чем из других локализаций в геноме. В частности, можно ожидать, что в смеси будет присутствовать приблизительно на 5% больше ДНК из хромосомы 21. Если для измерения ДНК используется секвенирование, можно ожидать приблизительно на 5% больше однозначно картирующихся считываний для хромосомы 21 на уникальный сегмент, чем для других хромосом. Можно использовать наблюдаемое количество ДНК из конкретной хромосомы, превышающее определенный порог при приведении к числу последовательностей, однозначно картирующихся с указанной хромосомой, в качестве основы для диагностики анеуплоидии. Другой способ, который может быть использован для выявления анеуплоидии, аналогичен вышеописанному, за исключением того, что могут быть учтены родительские контексты.There are a number of methods for applying sequence data using sequencing to determine fetal ploidy in the context of non-invasive prenatal diagnosis. The most common method may involve using sequence data to simply count the number of readings that map to a particular chromosome. For example, suppose you want to determine the ploidy state of chromosome 21 in the fetus. Let us also imagine that the DNA in the sample consists of 10% DNA of fetal origin and 90% of DNA of maternal origin. In this case, you should find the average number of readings on the chromosome, which, presumably, can be disomic, for example, chromosome 3, and compare it with the number of readings on chromosome 21, while readings are brought into line with the number of base pairs on this chromosome, which are part of a unique sequence. If the fetus is euploid, it can be expected that the amount of DNA per unit of the genome will be approximately equal in all locations (taking into account stochastic variations). On the other hand, if the fetus is trisomic on chromosome 21, it can be expected that there will be a slightly greater amount of DNA per genetic unit from chromosome 21 than from other locations in the genome. In particular, it can be expected that approximately 5% more DNA from chromosome 21 will be present in the mixture. If sequencing is used to measure DNA, approximately 5% more uniquely mapped readings for chromosome 21 per unique segment than for other chromosomes can be expected. You can use the observed amount of DNA from a particular chromosome that exceeds a certain threshold when reduced to the number of sequences that are uniquely mapped to the indicated chromosome, as a basis for the diagnosis of aneuploidy. Another method that can be used to detect aneuploidy is similar to the above, except that parental contexts can be considered.

При рассмотрении аллелей для нацеливания можно учитывать вероятность того, что некоторые родительские контексты, вероятно, будут более информативными, чем другие. Например, АА|ВВ и симметричный контекст ВВ|АА являются наиболее информативными контекстами, поскольку известно, что плод является носителем аллеля, отличного от материнского. По причине симметричности оба контекста, и АА|ВВ, и ВВ|АА, могут называться АА|ВВ. Другим набором информативных родительских контекстов являются АА|АВ и ВВ|АВ, поскольку в указанных случаях плод с 50% вероятностью несет аллель, который отсутствует у матери. Из соображений симметрии оба контекста, и АА|АВ, и ВВ|АВ, могут называться АА|АВ. Третьим набором информативных родительских контекстов является АВ|АА и АВ|ВВ, поскольку в указанных случаях плод несет известный отцовской аллель, и этот аллель также присутствует в материнском геноме. Из соображений симметрии оба контекста, и АВ|АА, и АВ|ВВ, могут называться АВ|АА. Четвертым родительским контекстом является АВ|АВ, при котором аллельное состояние плода неизвестно, и, каким бы ни было аллельное состояние, оно подразумевает, что мать имеет те же аллели. Пятым родительским контекстом является АА|АА, при котором мать и отец гетерозиготны.When considering alleles for targeting, it is possible to consider the likelihood that some parental contexts are likely to be more informative than others. For example, AA | BB and the symmetric context of BB | AA are the most informative contexts, since it is known that the fetus is a carrier of an allele other than the mother. Due to the symmetry, both contexts, and AA | BB, and BB | AA, can be called AA | BB. Another set of informative parental contexts is AA | AB and BB | AB, because in these cases, the fetus is 50% likely to carry an allele that is absent in the mother. For symmetry reasons, both contexts, and AA | AB, and BB | AB, can be called AA | AB. The third set of informative parental contexts is AB | AA and AB | BB, since in these cases the fetus carries the known paternal allele, and this allele is also present in the maternal genome. For symmetry reasons, both contexts, and AB | AA, and AB | BB, may be called AB | AA. The fourth parental context is AB | AB, in which the allelic state of the fetus is unknown, and whatever the allelic state, it implies that the mother has the same alleles. The fifth parental context is AA | AA, in which the mother and father are heterozygous.

Различные воплощения раскрытых в настоящем документе вариантов осуществленияVarious embodiments of embodiments disclosed herein

В настоящем описании раскрыты способы определения состояния плоидности целевого индивидуума. Указанный целевой индивидуум может представлять собой бластомер, эмбрион или плод. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, способ определения состояния плоидности одного или нескольких хромосом у целевого индивидуума может включать любые из описанных в настоящем документе этапов и их комбинации:Methods for determining the ploidy state of a target individual are disclosed herein. The specified target individual may be a blastomere, embryo or fetus. According to some embodiments disclosed herein, a method for determining the ploidy state of one or more chromosomes in a target individual may include any of the steps described herein and combinations thereof:

Согласно некоторым вариантам осуществления источником генетического материала для применения при определении генетического статуса плода могут быть плодные клетки, такие как ядросодержащие плодные эритроциты, выделенные из материнской крови. Указанный способ может включать получение образца крови от беременной матери. Указанный способ может включать выделение плодного эритроцита с применением визуальных техник, основанных на идее, что определенная комбинация цветов уникально связана с ядросодержащим эритроцитом, и аналогичная комбинация цветов не связана с любой другой присутствующей в материнской крови клеткой. Комбинация цветов, связанных с ядросодержащими эритроцитами, может включать красный цвет гемоглобина вокруг ядра, причем указанный цвет можно сделать более выраженным с помощью окрашивания, и цвет ядерного материала, который можно окрасить, например, в голубой цвет. Путем выделения клеток из материнской крови и распределения их по предметному стеклу, и затем идентификации точек, где виден как красный (от гемоглобина), так и голубой (от ядерного материала) цвет, можно идентифицировать расположение ядросодержащих эритроцитов. Затем можно экстрагировать указанные ядросодержащие эритроциты с использованием микроманипулятора, использовать техники генотипирования и/или секвенирования для измерения аспектов генотипа генетического материала в указанных клетках.In some embodiments, the source of genetic material for use in determining the genetic status of the fetus may be fetal cells, such as nucleated fetal red blood cells isolated from maternal blood. The method may include obtaining a blood sample from a pregnant mother. The method may include isolating a fetal red blood cell using visual techniques based on the idea that a particular color combination is uniquely associated with a nucleated red blood cell, and a similar color combination is not associated with any other cell present in maternal blood. The combination of colors associated with nucleated red blood cells may include a red hemoglobin around the nucleus, which color can be made more pronounced by staining, and the color of the nuclear material, which can be stained, for example, in blue. By isolating cells from maternal blood and distributing them over a glass slide, and then identifying points where both red (from hemoglobin) and cyan (from nuclear material) color is visible, the location of nucleated red blood cells can be identified. Then you can extract these nucleated red blood cells using a micromanipulator, use the techniques of genotyping and / or sequencing to measure aspects of the genotype of the genetic material in these cells.

Согласно варианту осуществления ядросодержащий эритроцит может быть окрашен красителем, который флуоресцирует только в присутствии плодного гемоглобина, но не материнского гемоглобина, и таким образом будет устранена неоднозначность происхождения ядросодержащего эритроцита от матери или плода. Некоторые варианты осуществления изобретения согласно настоящему раскрытию могут включать окрашивание или иную маркировку ядерного материала. Некоторые варианты осуществления согласно настоящему раскрытию могут включать специфичную маркировку плодного ядерного материала с использованием специфичных к плодным клеткам антител.According to an embodiment, the nucleated red blood cell can be stained with a dye that fluoresces only in the presence of fetal hemoglobin and not maternal hemoglobin, and thus the ambiguity in the origin of the nucleated red blood cell from the mother or fetus will be eliminated. Some embodiments of the invention according to the present disclosure may include staining or otherwise marking nuclear material. Some embodiments of the present disclosure may include specific labeling of the fetal nuclear material using fetal cell specific antibodies.

Существует множество других способов выделения плодных клеток из материнской крови или плодной ДНК из материнской крови, или обогащения образцов плодного генетического материала в присутствии материнского генетического материала. Некоторые из указанных способов перечислены в настоящем документе, но это не должно расцениваться как исчерпывающий перечень. Для удобства в настоящем документе перечислены некоторые подходящие техники: использование флуоресцентно-меченых или меченых иным образом антител, эксклюзионная хроматография, магнитные или иным образом меченые аффинные метки, эпигенетические различия, такие как дифференциальное метилирование материнских и плодных клеток в конкретных аллелях, центрифугирование в градиенте плотности с последующим истощением по CD45/14 и положительный отбор по CD71 из отрицательных по CD45/14 клеток, одинарные или двойные градиенты Перколла с разной осмоляльностью, или специфичный по отношению к галактозе лектиновый метод.There are many other ways to isolate fetal cells from maternal blood or fetal DNA from maternal blood, or to enrich samples of fetal genetic material in the presence of maternal genetic material. Some of these methods are listed in this document, but this should not be construed as an exhaustive list. For convenience, some suitable techniques are listed in this document: the use of fluorescently or otherwise labeled antibodies, size exclusion chromatography, magnetic or otherwise labeled affinity tags, epigenetic differences, such as differential methylation of maternal and fetal cells in specific alleles, density gradient centrifugation followed by depletion according to CD45 / 14 and positive selection by CD71 from negative for CD45 / 14 cells, single or double Percoll gradients with different osmolal or lectin method specific to galactose.

Согласно варианту осуществления, раскрытому в настоящем описании, целевой индивидуум представляет собой плод, и различные генотипические измерения проводят на множестве образцов ДНК от плода. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, образцы плодной ДНК получены из выделенных плодных клеток, при этом указанные плодные клетки могут быть смешаны с материнскими клетками. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, образцы плодной ДНК получены из свободноплавающей плодной ДНК, при этом указанная плодная ДНК может быть смешана со свободноплавающей материнской ДНК. Согласно некоторым вариантам осуществления образцы плодной ДНК могут быть получены из материнской плазмы или материнской крови, которая содержит смесь материнской ДНК и плодной ДНК. Согласно некоторым вариантам осуществления плодная ДНК может быть смешана с материнской ДНК в соотношении материнской/плодной ДНК, варьирующем в диапазоне от 99,9:0,1% до 99:1%; от 99:1% до 90:10%; от 90:10% до 80:20%; от 80:20% до 70:30%; от 70:30% до 50:50%; от 50:50% до 10:90%; или от 10:90% до 1:99%; от 1:99% до 0,1:99,9%.According to an embodiment disclosed herein, the target individual is a fetus, and various genotypic measurements are carried out on a plurality of fetal DNA samples. In some embodiments disclosed herein, fetal DNA samples are derived from isolated fetal cells, wherein said fetal cells can be mixed with mother cells. In some embodiments disclosed herein, fetal DNA samples are derived from free-floating fetal DNA, wherein said fetal DNA can be mixed with free-floating maternal DNA. In some embodiments, fetal DNA samples can be obtained from maternal plasma or maternal blood, which contains a mixture of maternal DNA and fetal DNA. In some embodiments, the fetal DNA can be mixed with maternal DNA in a maternal / fetal DNA ratio ranging from 99.9: 0.1% to 99: 1%; from 99: 1% to 90: 10%; from 90: 10% to 80: 20%; from 80: 20% to 70: 30%; from 70: 30% to 50: 50%; from 50: 50% to 10: 90%; or from 10: 90% to 1: 99%; from 1: 99% to 0.1: 99.9%.

Генетические данные целевого индивидуума и/или родственного индивидуума могут быть преобразованы из молекулярного состояния в электронное состояние путем измерения подходящего генетического материала с использованием инструментов и/или техник из группы, включающей, не ограничиваясь перечисленным, микроматрицы для генотипирования и высокопроизводительное секвенирование. Некоторые способы высокопроизводительного секвенирования включают секвенирование ДНК по методу Сэнгера, пиросеквенирование, платформу SOLEXA от ILLUMINA, GENOME ANALYZER от ILLUMINA или платформу для секвенирования 454 от APPLIED BIOSYSTEM, платформу TRUE SINGLE MOLECULE SEQUENCING от HELICOS, метод секвенирования с использованием электронного микроскопа от HALCYON MOLECULAR или любой другой способ секвенирования. Все указанные способы физически преобразуют генетические данные, хранящиеся в образце ДНК, в набор генетических данных, которые, как правило, до обработки хранятся в запоминающем устройстве.The genetic data of the target individual and / or related individual can be transformed from a molecular state to an electronic state by measuring suitable genetic material using tools and / or techniques from the group including, but not limited to, microarrays for genotyping and high throughput sequencing. Some high-throughput sequencing methods include Sanger DNA sequencing, pyrosequencing, ILLUMINA SOLEXA platform, ILLUMINA GENOME ANALYZER or APPLIED BIOSYSTEM 454 sequencing platform, TRUE SINGLE MOLECULE SEQUENCING platform using any HELICOLECAL Microscope, or another way of sequencing. All of these methods physically convert the genetic data stored in the DNA sample into a set of genetic data, which, as a rule, is stored in a storage device prior to processing.

Генетические данные соответствующего индивидуума могут быть измерены путем анализа веществ, выбранных из группы, включающей, не ограничиваясь перечисленными, массу диплоидной ткани индивидуума, одну или несколько диплоидных клеток индивидуума, одну или несколько гаплоидных клеток индивидуума, один или несколько бластомеров целевого индивидуума, внеклеточный генетический материал, присутствующий у индивидуума, внеклеточный генетический материал индивидуума, присутствующий в материнской крови, клетки индивидуума, присутствующие в материнской крови, один или несколько эмбрионов, образованных из гамет(ы) родственного индивидуума, один или несколько бластомеров, взятых из такого эмбриона, внеклеточный генетический материал, присутствующий у родственного индивидуума, генетический материал, который, как известно, происходит от родственного индивидуума, и их комбинации.The genetic data of the corresponding individual can be measured by analyzing substances selected from the group including, but not limited to, the mass of the individual diploid tissue, one or more individual diploid cells, one or more individual haploid cells, one or more blastomeres of the target individual, extracellular genetic material present in an individual, extracellular genetic material of an individual present in maternal blood, individual cells present in m atherin blood, one or more embryos derived from the gamete (s) of a related individual, one or more blastomeres taken from such an embryo, extracellular genetic material present in a related individual, genetic material that is known to come from a related individual, and their combinations.

Согласно некоторым вариантам осуществления множество гипотез, включающее по меньшей мере одну гипотезу состояния плоидности, может быть создано для каждого представляющего интерес типа хромосом целевого индивидуума. Каждая из гипотез состояния плоидности может относиться к одному возможному состоянию плоидности хромосомы или сегмента хромосомы целевого индивидуума. Множество гипотез может включать некоторые или все возможные состояния плоидности, которыми предположительно может характеризоваться хромосома целевого индивидуума. Некоторые из возможных состояний плоидности могут включать нуллисомию, моносомию, дисомию, однородительскую дисомию, эуплоидию, трисомию, совпадающую трисомию, несовпадающую трисомию, материнскую трисомию, отцовскую трисомию, тетрасомию, сбалансированную (2:2) тетрасомию, несбалансированную (3:1) тетрасомию, пентасомию, гексасомию, другую анеуплоидию и их комбинации. Любое из указанных состояний анеуплоидии может представлять собой смешанную или частичную анеуплоидию, такую как несбалансированные транслокации, сбалансированные транслокации, Робертсоновские транслокации, рекомбинации, делеции, вставки, кроссинговеры и их комбинации.In some embodiments, a plurality of hypotheses, including at least one ploidy state hypothesis, can be created for each chromosome type of interest of the target individual. Each of the hypotheses of the ploidy state may relate to one possible ploidy state of the chromosome or segment of the chromosome of the target individual. A plurality of hypotheses may include some or all of the possible ploidy states that the chromosome of the target individual can possibly characterize. Some of the possible states of ploidy may include nullisomy, monosomy, disomy, homogeneous disomy, euploidy, trisomy, coincident trisomy, mismatching trisomy, maternal trisomy, paternal trisomy, tetrasomy, balanced (2: 2) tetrasomy, unbalanced (3: 1) pentasomy, hexasomy, other aneuploidy, and combinations thereof. Any of these aneuploidy conditions may be a mixed or partial aneuploidy, such as unbalanced translocations, balanced translocations, Robertson translocations, recombinations, deletions, insertions, crossing-overs, and combinations thereof.

Согласно некоторым вариантам осуществления информация об определенном состоянии плоидности может быть использована для принятия клинического решения. Эта информация, которая, как правило, хранится в виде физической структуры в запоминающем устройстве, затем может быть преобразована в отчет. Затем согласно отчету могут быть приняты соответствующие меры. Например, клиническое решение может заключаться в прерывании беременности; как вариант, клиническое решение может заключаться в продолжении беременности. Согласно некоторым вариантам осуществления клиническое решение может включать вмешательство, предназначенное для уменьшения тяжести фенотипического проявления генетического расстройства, или решение о принятии соответствующих мер для подготовки к рождению ребенка с особыми потребностями.In some embodiments, information about a particular ploidy state can be used to make a clinical decision. This information, which is usually stored as a physical structure in a storage device, can then be converted into a report. Then, according to the report, appropriate measures can be taken. For example, a clinical decision may be to terminate a pregnancy; alternatively, the clinical decision may be to continue the pregnancy. In some embodiments, the clinical decision may include an intervention designed to reduce the severity of the phenotypic manifestation of the genetic disorder, or a decision to take appropriate measures to prepare for the birth of a child with special needs.

Согласно варианту осуществления настоящего раскрытия любой из описанных в настоящем документе способов может быть модифицирован для получения нескольких целей от одного и того же целевого индивидуума, например, получения нескольких образцов крови от одной беременной матери. Это может повышать точность модели, так как многократные генетические измерения могут обеспечить больше данных для определения целевого генотипа. Согласно варианту осуществления один набор целевых генетических данных служил в качестве сообщаемых первичных данных, а другой служил в качестве данных для двойной проверки первичных целевых генетических данных. Согласно варианту осуществления несколько наборов генетических данных, каждый из которых измерен в генетическом материале, взятом от целевого индивидуума, рассматриваются параллельно, и, таким образом, оба набора целевых генетических данных служат для обеспечения определения того, какая часть родительских генетических данных, измеренных с высокой точностью, составляет геном плода.According to an embodiment of the present disclosure, any of the methods described herein may be modified to obtain multiple targets from the same target individual, for example, to obtain multiple blood samples from one pregnant mother. This can increase the accuracy of the model, since multiple genetic measurements can provide more data to determine the target genotype. According to an embodiment, one set of target genetic data served as reported primary data, and another served as data for double-checking the primary target genetic data. According to an embodiment, several sets of genetic data, each of which is measured in genetic material taken from a target individual, are examined in parallel, and thus both sets of target genetic data serve to determine which part of the parental genetic data is measured with high accuracy makes up the genome of the fetus.

Согласно варианту осуществления указанный способ может использоваться с целью тестирования на отцовство. Например, при наличии основанной на SNP генотипической информации матери, а также мужчины, который может быть или может не быть генетическим отцом, и измеренной генотипической информации из смешанного образца возможно определить, действительно ли генотипическая информация мужчины подтверждает, что он фактически является генетическим отцом вынашиваемого плода. Простой способ осуществления указанного способа заключается в простом рассмотрении контекстов, где мать является АА, а вероятный отец является АВ или ВВ. В указанных случаях можно ожидать, что вклад отца будет наблюдаться в половине (АА|АВ) или во всех (АА|ВВ) случаях, соответственно. С учетом указанных ожидаемых выпадений аллелей (ADO) несложно определить, коррелируют ли наблюдаемые SNP плода с SNP вероятного отца.According to an embodiment, said method can be used for the purpose of paternity testing. For example, if there is SNP-based genotypic information of a mother, as well as a man, who may or may not be a genetic father, and measured genotypic information from a mixed sample, it is possible to determine whether the genotypic information of a man confirms that he is actually the genetic father of the bearing fetus . A simple way to implement this method is to simply consider contexts where the mother is AA and the probable father is AB or BB. In these cases, we can expect that the contribution of the father will be observed in half (AA | AB) or in all (AA | BB) cases, respectively. Given the expected expected allele loss (ADO), it is easy to determine whether the observed fetal SNPs correlate with the likely father's SNPs.

Одним из вариантов осуществления настоящего изобретения может быть следующий: беременная женщина хочет знать, поражен ли вынашиваемый плод синдромом Дауна и/или муковисцидозом, и не хочет продолжать беременность в случае, если ребенок поражен каким-либо из указанных состояний. Врач берет у нее образец крови и окрашивает гемоглобин одним маркером, так, что он становится отчетливо красным, и ядерный материал другим маркером так, что он становится отчетливо синим. Так как известно, что материнские эритроциты, как правило, являются безъядерными, тогда как значительная доля плодных клеток содержит ядро, врач может визуально выделить ряд ядросодержащих эритроцитов путем идентификации клеток, где виден и красный, и синий цвет. Врач захватывает указанные клетки с предметного стекла микроманипулятором и отправляет в лабораторию, где амлифицируются и генотипируются десять индивидуальных клеток. Используя генетические измерения, с помощью метода PARENTAL SUPPORTтм возможно определить, что шесть из десяти клеток являются клетками крови матери, и четыре из десяти клеток являются плодными клетками. Если у беременной матери уже есть рожденный ребенок, PARENTAL SUPPORTтм можно также использовать для определения того, что плодные клетки отличаются от клеток рожденного ребенка, путем получения достоверных аллельных признаков в плодных клетках и выявления того, что они несходны с признаками рожденного ребенка. Отметим, что концепция указанного способа аналогична тестированию на отцовство согласно варианту осуществления настоящего изобретения. Генетические данные, измеренные в плодных клетках, могут иметь крайне неудовлетворительное качество из-за сложности генотипирования единичных клеток, в том числе содержать многочисленные выпадения аллелей. Клинический специалист может использовать измеренную плодную ДНК наряду с достоверными измерениями ДНК родителей для выведения заключений относительно аспектов генома плода с высокой точностью с помощью PARENTAL SUPPORTтм, преобразуя таким образом генетические данные, содержащиеся в генетическом материале плода, в предсказанный генетический статус указанного плода, сохраняемый на компьютере. Клинический специалист может определить как состояние плоидности указанного плода, так и присутствие или отсутствие совокупности связанных с заболеванием генов, представляющих интерес. Выясняется, что плод эуплоиден и не является носителем муковисцидоза, и мать принимает решение о продолжении беременности.One of the embodiments of the present invention may be the following: a pregnant woman wants to know whether the bearing fetus is affected by Down syndrome and / or cystic fibrosis, and does not want to continue the pregnancy if the child is affected by any of these conditions. The doctor takes a blood sample from her and stains hemoglobin with one marker so that it becomes distinctly red, and nuclear material with another marker so that it becomes distinctly blue. Since it is known that maternal red blood cells are usually nuclear-free, while a significant proportion of the fetal cells contains the nucleus, the doctor can visually identify a number of nucleated red blood cells by identifying cells where both red and blue are visible. The doctor captures these cells from the slide with a micromanipulator and sends him to the laboratory, where ten individual cells are amplified and genotyped. Using genetic measurements, using the PARENTAL SUPPORT method, it is possible to determine that six out of ten cells are maternal blood cells and four out of ten cells are fetal cells. If the pregnant mother already has a born baby, PARENTAL SUPPORT can also be used to determine that the fetal cells are different from the cells of the born baby, by obtaining reliable allelic traits in the fetal cells and detecting that they are not similar to the signs of a born baby. Note that the concept of this method is similar to paternity testing according to an embodiment of the present invention. Genetic data measured in fetal cells can be of extremely poor quality due to the complexity of genotyping of single cells, including the containment of numerous allele prolapses. A clinician can use the measured fetal DNA along with reliable parental DNA measurements to draw conclusions about fetal genome aspects with high accuracy using PARENTAL SUPPORT , thereby converting the genetic data contained in the fetal genetic material into the predicted genetic status of the fetus stored on a computer. The clinician can determine both the ploidy state of the fetus and the presence or absence of a combination of disease-related genes of interest. It turns out that the fetus is euploid and is not a carrier of cystic fibrosis, and the mother decides to continue the pregnancy.

Согласно варианту осуществления, раскрытому в настоящем описании, беременная мать хочет знать, поражен ли вынашиваемый плод какой-либо аномалией целых хромосом. Она посещает лечащего врача и сдает образец крови, и она и ее супруг сдают образцы ДНК в виде буккальных мазков. Сотрудник лаборатории генотипирует родительскую ДНК с применением протокола MDA для амплификации родительской ДНК, и матриц INFINIUM от ILLUMINA для измерения генетических данных родителей по значительному числу SNP. Затем сотрудник лаборатории осаждает кровь центрифугированием, отбирает плазму и выделяет образец свободноплавающей ДНК с использованием эксклюзионной хроматографии. Как вариант, сотрудник лаборатории использует одно или несколько флуоресцентных антител, например, антитело, специфичное в отношении плодного гемоглобина, для выделения ядросодержащего плодного эритроцита. Затем сотрудник лаборатории берет выделенный или обогащенный плодный генетический материал и амплифицирует его с применением библиотеки 70-мерных олигонуклеотидов, соответствующим образом сконструированных так, что два конца каждого олигонуклеотида соответствуют фланкирующим последовательностям по обеим сторонам целевого аллеля. При добавлении полимеразы, лигазы и подходящих реагентов происходит циркуляризация олигонуклеотидов с заполнением гэпов, захватывающая требуемый аллель. Добавляется экзонуклеаза, инактивируется нагреванием, и продукты используются непосредственно в качестве шаблона для ПЦР-амплификации. Продукты ПЦР секвенируют на ILLUMINA GENOME ANALYZER. Считывания последовательности используют в качестве входных данных для метода PARENTAL SUPPORTтм, с помощью которого затем прогнозируют состояние плоидности плода.According to an embodiment disclosed herein, a pregnant mother wants to know if the bearing fetus is affected by any abnormality of whole chromosomes. She visits the attending physician and gives a blood sample, and she and her husband give DNA samples in the form of buccal swabs. A laboratory employee genotypes parental DNA using the MDA protocol to amplify parental DNA, and ILLUMINA INFINIUM matrices to measure parental genetic data from a significant number of SNPs. Then, a laboratory employee precipitates the blood by centrifugation, takes plasma and samples a free-floating DNA using size exclusion chromatography. Alternatively, a laboratory employee uses one or more fluorescent antibodies, for example, an antibody specific for fetal hemoglobin, to isolate nucleated fetal red blood cells. The laboratory employee then takes the isolated or enriched fetal genetic material and amplifies it using a library of 70-dimensional oligonucleotides, suitably designed so that the two ends of each oligonucleotide correspond to flanking sequences on both sides of the target allele. When polymerase, ligase and suitable reagents are added, oligonucleotides are circulated with gap filling, capturing the desired allele. Exonuclease is added, inactivated by heating, and the products are used directly as a template for PCR amplification. PCR products are sequenced on ILLUMINA GENOME ANALYZER. Readout sequence is used as input data for the method PARENTAL SUPPORT tm, by which then predict the ploidy state of the fetus.

Согласно другому варианту осуществления семейная пара, в которой мать беременна и находится в старшем репродуктивном возрасте, хочет знать, имеется ли у вынашиваемого плода синдром Дауна, синдром Тернера, синдром Прадера-Вилли или какие-то другие аномалии целых хромосом. Акушер-гинеколог берет образцы крови у матери и отца. Кровь отправляют в лабораторию, где технический специалист центрифугирует материнский образец для выделения плазмы и лейкоцитарной пленки. ДНК лейкоцитарной пленки и образец отцовской крови преобразуют путем амплификации, и генетические данные, закодированные в амплифицированном генетическом материале, далее преобразуют из молекулярных генетических данных в электронные генетические данные посредством обработки генетического материала на высокопроизводительном секвенаторе для измерения родительских генотипов. Образец плазмы преимущественно обогащают по набору локусов с применением способа 5000-плексной гемивложенной направленной ПЦР. Из смеси фрагментов ДНК получают библиотеку ДНК, подходящую для секвенирования. Затем ДНК секвенируют с применением способа высокопроизводительного секвенирования, например, с помощью GAIIx GENOME ANALYZER от ILLUMINA. Секвенирование преобразует информацию, которая молекулярно закодирована в ДНК, в информацию, которая закодирована в электронном виде в аппаратных средствах компьютера. Техника на основе информатики, включающая раскрытые в настоящем документе варианты осуществления, такая как PARENTAL SUPPORTтм, может использоваться для определения состояния плоидности плода. Это может включать вычисление на компьютере вероятностей числа аллелей во множестве полиморфных локусов по измерениям ДНК, выполненным в подготовленном образце; создание на компьютере множества гипотез плоидности, каждая из которых относится к отличному возможному состоянию плоидности хромосомы; построение на компьютере модели совместного распределения для ожидаемого числа аллелей во множестве полиморфных локусов в хромосоме для каждой гипотезы плоидности; определение на компьютере относительной вероятности каждой из гипотез плоидности с использованием модели совместного распределения и числа аллелей, измеренных в подготовленном образце; и прогнозирование состояния плоидности плода путем отбора состояния плоидности, соответствующего гипотезе с наибольшей вероятностью. Таким образом определяют, что у плода имеется синдром Дауна. Отчет распечатывают или посылают в электронном виде акушеру-гинекологу беременной женщины, который сообщает диагноз указанной женщине. Женщина, ее супруг и врач встречаются и обсуждают существующие возможности. Пара принимает решение о прерывании беременности на основании информации о том, что плод поражен трисомным состоянием.According to another embodiment, the couple in which the mother is pregnant and at an older reproductive age wants to know whether the bearing fetus has Down syndrome, Turner syndrome, Prader-Willi syndrome or some other anomalies of whole chromosomes. The obstetrician-gynecologist takes blood samples from the mother and father. Blood is sent to the laboratory, where a technician centrifuges the mother sample to isolate the plasma and white blood cell film. The leukocyte film DNA and paternal blood sample are converted by amplification, and the genetic data encoded in the amplified genetic material is then converted from molecular genetic data to electronic genetic data by processing the genetic material on a high-performance sequencer to measure parental genotypes. The plasma sample is predominantly enriched in a set of loci using the method of 5000-plex hemi-nested directed PCR. A DNA library suitable for sequencing is obtained from a mixture of DNA fragments. The DNA is then sequenced using a high throughput sequencing method, for example using GAIIx GENOME ANALYZER from ILLUMINA. Sequencing converts information that is molecularly encoded into DNA into information that is electronically encoded in computer hardware. An informatics based technique including the embodiments disclosed herein, such as PARENTAL SUPPORT , can be used to determine the ploidy state of the fetus. This may include calculating on the computer the probabilities of the number of alleles at a variety of polymorphic loci from DNA measurements made in the prepared sample; creation of a plurality of ploidy hypotheses on a computer, each of which refers to an excellent possible ploidy state of the chromosome; building a computer model of the joint distribution for the expected number of alleles in the set of polymorphic loci in the chromosome for each ploidy hypothesis; determination on the computer of the relative probability of each of the ploidy hypotheses using the model of the joint distribution and the number of alleles measured in the prepared sample; and predicting the ploidy state of the fetus by selecting the ploidy state corresponding to the hypothesis with the greatest probability. Thus, it is determined that the fetus has Down syndrome. The report is printed or sent electronically to the obstetrician-gynecologist of the pregnant woman, who reports the diagnosis to the indicated woman. A woman, her husband and a doctor meet and discuss existing opportunities. The couple decides to terminate the pregnancy on the basis of information that the fetus is affected by a trisom condition.

Согласно варианту осуществления, компания может принять решение о предложении использовать технологию диагностики, разработанную для обнаружения анеуплоидии у вынашиваемого плода по образцу материнской крови. Предлагаемый ими продукт может включать посещение матерью лечащего акушера-гинеколога, который может взять у нее образец крови. Акушер-гинеколог может также взять генетический образец от отца указанного плода. Клинический специалист может выделить плазму из материнской крови и очистить ДНК из плазмы. Клинический специалист может также выделить слой лейкоцитарной пленки из материнской крови и получить из указанной лейкоцитарной пленки ДНК. Клинический специалист может также получить ДНК из отцовского генетического образца. Клинический специалист может использовать техники молекулярной биологии, раскрытые в настоящем описании, для добавления универсальных маркеров амплификации ДНК в ДНК, полученную из образца плазмы. Клинический специалист может амплифицировать универсально маркированную ДНК. Клинический специалист может провести преимущественное обогащение ДНК с применением ряда техник, включая захват гибридизацией и направленную ПЦР. Целевая ПЦР может включать вложенную, гемивложенную или полувложенную, или любой другой способ, который обеспечивает эффективное обогащение полученной из плазмы ДНК. Целевая ПЦР может быть массивно-мультиплексной, например, с 10000 праймеров в одном реакционном объеме, при этом указанные праймеры нацелены на SNP на хромосомах 13, 18, 21, Х и в тех локусах, которые присутствуют и в Х-, и в Y-, и необязательно также в других хромосомах. Селективное обогащение и/или амплификация может включать маркирование каждой индивидуальной молекулы разными маркерами, молекулярными штрихкодами, маркерами для амплификации и/или маркерами для секвенирования. Клинический специалист может затем секвенировать образец плазмы, и также, возможно, провести подготовку материнской и/или отцовской ДНК. Молекулярно- биологические этапы могут быть выполнены либо полностью, либо частично с помощью диагностического бокса. Данные последовательности могут быть загружены в отдельный компьютер или вычислительную платформу другого типа, такую как задействованные в «облачной среде». Указанная вычислительная платформа может рассчитывать число аллелей в целевых полиморфных локусах на основе измерений, выполненных секвенатором. Указанная вычислительная платформа может создавать множество гипотез плоидности, касающихся нуллисомии, моносомии, дисомии, совпадающей трисомии и несовпадающей трисомии для каждой из хромосом 13, 18, 21, X и Y. Указанная вычислительная платформа может построить модель совместного распределения для ожидаемого числа аллелей в целевых локусах на хромосоме для каждой гипотезы плоидности для каждой гипотезы плоидности в каждой из пяти исследуемых хромосом. Указанная вычислительная платформа может определить вероятность того, что каждая из гипотез плоидность истинна, с применением модели совместного распределения и числа аллелей, измеренного на преимущественно обогащенной ДНК, полученной из образца плазмы. Указанная вычислительная платформа может определять признаки состояния плоидности плода для каждой из хромосом 13, 18, 21, X и Y путем выбора состояния плоидности, соответствующего релевантной гипотезе с максимальной вероятностью. Может быть составлен отчет, содержащий информацию о признаках состояний плоидности, и отправлен акушеру-гинекологу в электронном виде, отображаемом на устройстве вывода, или же акушеру-гинекологу может быть передан распечатанный экземпляр указанного отчета. Акушер-гинеколог может информировать пациентку и, необязательно, отца указанного плода, и они могут принять решение о возможном клиническом действии, с выбором наиболее желательного.According to an embodiment, the company may decide on a proposal to use a diagnostic technology developed to detect aneuploidy in the gestating fetus from a sample of maternal blood. The product they offer may include a visit by the mother to the attending obstetrician-gynecologist who can take a blood sample from her. The obstetrician-gynecologist may also take a genetic sample from the father of the specified fetus. A clinician can isolate plasma from maternal blood and purify DNA from plasma. A clinician can also isolate a layer of a white blood cell film from maternal blood and obtain DNA from a white blood cell film. A clinician can also obtain DNA from a paternal genetic sample. A clinician may use the molecular biology techniques disclosed herein to add universal markers of DNA amplification to DNA obtained from a plasma sample. A clinician can amplify universally labeled DNA. A clinician can preferentially enrich DNA using a variety of techniques, including capture by hybridization and directed PCR. Target PCR may include nested, hemi-nested or semi-nested, or any other method that provides effective enrichment of plasma-derived DNA. Target PCR can be massive multiplex, for example, with 10,000 primers in one reaction volume, and these primers target SNPs on chromosomes 13, 18, 21, X and at those loci that are present in both X- and Y- , and optionally also on other chromosomes. Selective enrichment and / or amplification may include labeling of each individual molecule with different markers, molecular barcodes, markers for amplification and / or markers for sequencing. The clinician can then sequence the plasma sample, and also possibly prepare maternal and / or paternal DNA. Molecular biological stages can be performed either completely or partially with the help of a diagnostic box. These sequences can be downloaded to a separate computer or other type of computing platform, such as those used in a “cloud environment." The specified computing platform can calculate the number of alleles in the target polymorphic loci based on measurements made by the sequencer. The specified computing platform can create many ploidy hypotheses regarding nullisomy, monosomy, disomy, matching trisomy, and mismatching trisomy for each of chromosomes 13, 18, 21, X, and Y. The specified computing platform can build a joint distribution model for the expected number of alleles at the target loci on the chromosome for each ploidy hypothesis for each ploidy hypothesis in each of the five studied chromosomes. The specified computing platform can determine the likelihood that each of the ploidy hypotheses is true, using the model of joint distribution and the number of alleles measured on predominantly enriched DNA obtained from a plasma sample. The specified computing platform can determine the signs of the state of fetal ploidy for each of the chromosomes 13, 18, 21, X and Y by selecting the ploidy state corresponding to the relevant hypothesis with maximum probability. A report containing information on the signs of ploidy states can be compiled and sent to the obstetrician-gynecologist in electronic form displayed on the output device, or a printed copy of the report can be transmitted to the obstetrician-gynecologist. The obstetrician-gynecologist can inform the patient and, optionally, the father of the specified fetus, and they can decide on the possible clinical effect, with the choice of the most desirable.

Согласно другому варианту осуществления беременная женщина, далее называемая «матерью», может решить, что ей необходимо знать о наличии или отсутствии у вынашиваемого(их) ею плода(ов) каких-либо генетических аномалий или других состояний. Она может желать подтверждения отсутствия каких-либо значительных аномалий перед принятием решения о продолжении беременности. Она может обратиться к своему акушеру-гинекологу, который может взять у нее образец крови. Он также может взять генетический образец, такой как буккальный мазок с ее щеки. Он также может взять генетический образец у отца плода, такой как буккальный мазок, образец спермы или образец крови. Он может передать указанные образцы клиническому специалисту. Указанный клинический специалист может провести обогащение по фракции свободноплавающей плодной ДНК в образце материнской крови. Клинический специалист может провести обогащение по фракции безъядерных плодных клеток крови в образце материнской крови. Клинический специалист может использовать различные аспекты способов, описанных в настоящем документе, для определения генетических данных плода. Указанные генетические данные могут включать состояние плоидности указанного плода и/или идентичность одного или нескольких связанных с заболеванием аллелей у плода. Может быть составлен отчет, обобщающий результаты пренатальной диагностики. Указанный отчет может быть передан и отправлен по почте врачу, который может сообщить матери о генетическом статусе плода. Мать может принять решение о прерывании беременности на основании факта наличия одной или нескольких хромосомных или генетических аномалий, или нежелательных состояний, у плода. Она также может принять решение о сохранении беременности на основании факта отсутствия у плода каких-либо значительных хромосомных или генетических аномалий, или любых представляющих интерес генетических состояний.According to another embodiment, the pregnant woman, hereinafter referred to as the “mother”, may decide what she needs to know about the presence or absence of any genetic abnormalities or other conditions in the fetus (s) she is carrying. She may wish to confirm the absence of any significant abnormalities before deciding whether to continue the pregnancy. She can contact her obstetrician-gynecologist, who can take a blood sample from her. He can also take a genetic sample, such as a buccal swab from her cheek. He can also take a genetic sample from the father of the fetus, such as a buccal swab, a sperm sample, or a blood sample. He can pass these samples to a clinical specialist. The specified clinical specialist can enrich the fraction of free-floating fetal DNA in a sample of maternal blood. A clinician can enrich the fraction of non-nuclear fetal blood cells in a sample of maternal blood. A clinician may use various aspects of the methods described herein to determine fetal genetic data. Said genetic data may include the ploidy state of said fetus and / or the identity of one or more disease-related alleles in the fetus. A report may be compiled summarizing the results of prenatal diagnosis. This report can be transmitted and mailed to a doctor who can inform the mother about the genetic status of the fetus. The mother may decide to terminate the pregnancy based on the fact of the presence of one or more chromosomal or genetic abnormalities, or unwanted conditions, in the fetus. She may also decide to maintain the pregnancy based on the fact that the fetus does not have any significant chromosomal or genetic abnormalities, or any genetic conditions of interest.

Другой пример может включать беременную женщину, прошедшую процедуру искусственного оплодотворения спермой донора и забеременевшую. Она хочет минимизировать риск того, что у вынашиваемого плода имеется генетическое заболевание. Специалист (флеботомист) берет у нее кровь из вены; описанные в настоящем раскрытии методики используются для выделения трех ядросодержащих плодных красных кровяных клеток; также берут образец ткани матери и генетического отца. Генетический материал плода, матери и отца амплифицируют надлежащим образом и генотипируют с использованием INFINIUM BEADARRAY от ILLUMINA; с помощью описанных в настоящем документе способов родительский и плодный генотип очищают и фазируют с высокой точностью, а также определяют плоидность плода. Плод признается эуплоидным; по реконструированному плодному генотипу прогнозируют фенотипические предрасположенности, составляют отчет и передают лечащему врачу матери для определения возможных наилучших клинических решений.Another example may include a pregnant woman who underwent artificial insemination with donor sperm and became pregnant. She wants to minimize the risk that the bearing fetus has a genetic disease. The specialist (phlebotomist) takes her blood from a vein; the techniques described in this disclosure are used to isolate three nucleated fetal red blood cells; also take a sample of tissue from the mother and genetic father. The genetic material of the fetus, mother and father is amplified appropriately and genotyped using INFINIUM BEADARRAY from ILLUMINA; Using the methods described herein, the parent and fetal genotype are purified and phased with high accuracy, and the ploidy of the fetus is determined. The fetus is recognized as euploid; according to the reconstructed fetal genotype, phenotypic predispositions are predicted, a report is drawn up and the mother is sent to the attending physician to determine the possible best clinical decisions.

Согласно варианту осуществления необработанный генетический материал матери и отца преобразуют путем амплификации в количество ДНК, аналогичной по последовательности, но представленной в большем количестве. Затем путем способа генотипирования генотипические данные, которые закодированы нуклеиновыми кислотами, преобразуются в генетические измерения, которые могут храниться в физическом и/или электронном виде в запоминающем устройстве, таком как описанные выше. Релевантные алгоритмы, входящие в алгоритм PARENTAL SUPPORTтм, соответствующие части которого подробно обсуждаются в настоящем документе, переносят в компьютерную программу с использованием языка программирования. Затем путем выполнения компьютерной программы аппаратными средствами компьютера физически закодированные биты и байты, образующие паттерн, который представляет необработанные данные измерения, преобразуют в паттерн, который представляет высокодостоверное определение плоидности плода. Подробности этого преобразования будут зависеть от самих данных, а также от компьютерного языка и системы аппаратных средств, используемых для реализации описанного в настоящем документе способа. Затем данные, которые физически сконфигурированы для представления высококачественного определения плоидности плода, преобразуют в отчет, который может быть передан практикующему врачу. Такое преобразование может быть выполнено с использованием принтера или компьютерного дисплея. Отчет может представлять собой распечатку на бумаге или ином подходящем носителе, а также быть представлен в электронном виде. В случае электронного отчета он может быть преобразован, может храниться физически в запоминающем устройстве с размещением в компьютере, доступном практикующему врачу; он также может быть отображаться на экране таким образом, чтобы его можно было прочитать. В случае отображения на экране данные могут быть преобразованы в считываемый формат путем физического преобразования пикселей на устройстве отображения. Преобразование может быть выполнено путем физической активизации электронов на фосфоресцентном экране, путем изменения электрического заряда, что физически изменяет прозрачность определенного набора пикселей на экране, который может располагаться перед подложкой, которая испускает или поглощает фотоны. Указанное преобразование может быть выполнено путем изменения наномасштабной ориентации молекул в жидком кристалле, например, от неметической до холестерической или смектической фазы, в определенном наборе пикселей. Указанное преобразование может быть реализовано с помощью электрического тока, стимулирующего испускание фотонов определенным набором пикселей из множества светоизлучающих диодов, образующих информативный паттерн. Указанное преобразование может быть реализовано любым другим способом, используемым для отображения информации, таким как компьютерный экран, или любое другое устройство вывода или способ передачи информации. Затем практикующий врач может действовать согласно отчету таким образом, что данные отчета преобразуются в действие. Указанное действие может заключаться в продолжении или прерывании беременности, в этом случае вынашиваемый плод с генетической аномалией преобразуют в неживой плод. Перечисленные в настоящем документе преобразования могут быть сгруппированы таким образом, чтобы, например, было возможно преобразовать генетический материал беременной матери и отца посредством ряда описанных в настоящем раскрытии этапов в медицинское решение, заключающееся в абортировании плода с генетическими аномалиями или решение, заключающееся в продолжении беременности. Как вариант, возможно преобразовать набор генотипических измерений в отчет, который будет содействовать лечению беременной пациентки лечащим врачом.In an embodiment, the untreated mother and father’s genetic material is converted by amplification into an amount of DNA that is similar in sequence but represented in greater quantity. Then, by a genotyping method, genotypic data that is encoded by nucleic acids is converted into genetic measurements that can be stored in physical and / or electronic form in a storage device such as those described above. The relevant algorithms included in the PARENTAL SUPPORT algorithm, the corresponding parts of which are discussed in detail in this document, are transferred to a computer program using a programming language. Then, by executing a computer program with computer hardware, physically encoded bits and bytes that form a pattern that represents raw measurement data are converted to a pattern that represents a highly reliable determination of fetal ploidy. The details of this conversion will depend on the data itself, as well as on the computer language and hardware system used to implement the method described herein. Then, data that is physically configured to provide a high-quality definition of fetal ploidy is converted into a report that can be passed on to a healthcare practitioner. Such conversion may be performed using a printer or computer display. The report may be a printout on paper or other suitable medium, as well as be submitted in electronic form. In the case of an electronic report, it can be converted, can be stored physically in a storage device, located in a computer accessible to a practitioner; it can also be displayed on the screen so that it can be read. In the case of display on the screen, the data can be converted into a readable format by physically converting pixels on the display device. The conversion can be performed by physically activating electrons on a phosphorescent screen, by changing the electric charge, which physically changes the transparency of a certain set of pixels on the screen, which can be located in front of a substrate that emits or absorbs photons. The specified transformation can be performed by changing the nanoscale orientation of the molecules in the liquid crystal, for example, from non-metallic to cholesteric or smectic phase, in a specific set of pixels. The specified conversion can be implemented using an electric current that stimulates the emission of photons by a specific set of pixels from a plurality of light emitting diodes forming an informative pattern. The specified conversion can be implemented in any other way used to display information, such as a computer screen, or any other output device or method of transmitting information. The practitioner can then act on the report in such a way that the report data is converted into action. The indicated action may consist in the continuation or termination of pregnancy, in which case the bearing fetus with a genetic abnormality is transformed into an inanimate fetus. The transformations listed in this document can be grouped in such a way that, for example, it is possible to convert the genetic material of a pregnant mother and father through a series of steps described in this disclosure into a medical decision consisting in aborting a fetus with genetic abnormalities or a decision in continuing pregnancy. Alternatively, it is possible to convert a set of genotypic measurements into a report that will facilitate the treatment of a pregnant patient by the attending physician.

Согласно варианту осуществления, раскрытому в настоящем документе, способ, описанный в настоящем документе, может использоваться для определения состояния плоидности плода даже в том случае, если мать является суррогатной матерью, т.е. беременной женщиной, не являющейся биологической матерью вынашиваемого плода. Согласно варианту осуществления, раскрытому в настоящем документе, способ, описанный в настоящем документе, может использоваться для определения состояния плоидности плода с применением только образца материнской крови, без необходимости использования отцовского генетического образца.According to an embodiment disclosed herein, the method described herein can be used to determine the ploidy state of the fetus even if the mother is a surrogate mother, i.e. a pregnant woman who is not the biological mother of the bearing fetus. According to an embodiment disclosed herein, the method described herein can be used to determine the ploidy state of a fetus using only a maternal blood sample, without the need for a paternal genetic sample.

Некоторые из математических методов в раскрытых в настоящем документе вариантах осуществления обеспечивают создание гипотезы, касающейся ограниченного числа состояний анеуплоидии. В некоторых случаях предполагается, например, что только 0, 1 или 2 хромосомы происходят от каждого из родителей. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, математические выводы могут быть расширены с учетом других форм анеуплоидии, таких как квадросомия, при которой три хромосомы происходят от одного родителя, пентасомия, гексасомия и т.д., без изменения основных принципов настоящего изобретения. В то же время, можно сосредоточиться на меньшем количестве состояний плоидности, например, только на трисомии и дисомии. Отметим, что определения плоидности, которые указывают на отличное от целого число хромосом, могут указывать на мозаицизм в образце генетического материала.Some of the mathematical methods in the embodiments disclosed herein provide a hypothesis regarding a limited number of aneuploidy conditions. In some cases, it is assumed, for example, that only 0, 1 or 2 chromosomes come from each of the parents. According to some embodiments disclosed herein, the mathematical conclusions can be extended to other forms of aneuploidy, such as quadrosomy, in which three chromosomes come from the same parent, pentasomy, hexasomy, etc., without changing the basic principles of the present invention. At the same time, one can focus on fewer ploidy states, for example, only trisomy and dysomy. Note that ploidy determinations that indicate non-integer chromosome numbers may indicate mosaicism in a sample of genetic material.

Согласно некоторым вариантам осуществления генетическая аномалия представляет собой вид анеуплоидии, например, синдром Дауна (или трисомия 21), синдром Эдвардса (трисомия 18), синдром Патау (трисомия 13), синдром Тернера (45Х), синдром Клайнфельтера (индивидуум мужского пола с 2-мя Х-хромосомами), синдром Прадера-Вилли и синдром Ди-Джорджи (UPD 15). Врожденные расстройства, такие как перечисленные в предыдущем предложении, обычно являются нежелательными, и информация о том, что плод поражен одной или несколькими фенотипическими аномалиями, может составить основу решения о прерывании беременности, о принятии необходимых мер для подготовки к рождению ребенка с особыми потребностями или об использовании определенного терапевтического подхода для уменьшения тяжести хромосомной аномалии.In some embodiments, the genetic anomaly is a form of aneuploidy, for example, Down syndrome (or Trisomy 21), Edwards syndrome (Trisomy 18), Patau syndrome (Trisomy 13), Turner syndrome (45X), Klinefelter syndrome (male with 2- X-chromosomes), Prader-Willi syndrome and Di-Georgie syndrome (UPD 15). Congenital disorders, such as those listed in the previous sentence, are usually undesirable, and information that the fetus is affected by one or more phenotypic abnormalities may form the basis of the decision to terminate the pregnancy, to take the necessary measures to prepare for the birth of a child with special needs, or using a specific therapeutic approach to reduce the severity of the chromosomal abnormality.

Согласно некоторым вариантам осуществления способы, описанные в настоящем документе, могут использоваться на очень раннем гестационном сроке, например, на сроке, составляющем всего четыре недели, на сроке, составляющем всего пять недель, на сроке, составляющем всего шесть недель, на сроке, составляющем всего семь недель, на сроке, составляющем всего восемь недель, на сроке, составляющем всего девять недель, на сроке, составляющем всего десять недель, на сроке, составляющем всего одиннадцать недель, и на сроке, составляющем всего двенадцать недель.In some embodiments, the methods described herein can be used at a very early gestational age, for example, for a period of just four weeks, for a period of only five weeks, for a period of only six weeks, for a period of only seven weeks, for a period of only eight weeks, for a period of only nine weeks, for a period of only ten weeks, for a period of only eleven weeks, and for a period of only twelve weeks.

Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ используется в контексте преимплантационной генетической диагностики (PGD) для отбора эмбриона при оплодотворении in vitro, при этом целевым индивидуумом является эмбрион, и родительские генотипические данные могут быть использованы для осуществления определений плоидности эмбриона по данным секвенирования по биопсии одной или двух клеток от трехдневного эмбриона или по биопсии трофектодермы от пятидневного или шестидневного эмбриона. В условиях PGD измеряют только ДНК ребенка и тестируют только небольшое количество клеток, как правило, от одной до пяти, но также и до десяти, двадцати или пятидесяти. Общее число исходных копий аллелей А и В (в SNP) затем тривиальным образом определяют по генотипу ребенка и числу клеток. При NPD число исходных копий очень велико, и поэтому аллельное отношение после ПЦР, предположительно, будет точно отражать исходное отношение. Тем не менее, малое количество исходных копий при PGD означает, что загрязнение и недостаточная эффективность ПЦР нетривиально влияют на аллельное отношение после ПЦР. Этот эффект может быть более важным, чем глубина секвенирования, для прогнозирования вариаций аллельного отношения, измеренного после секвенирования. Распределение измеренного аллельного отношения с учетом известного генотипа ребенка может быть получено с помощью моделирования процесса ПЦР методом Монте-Карло на основе эффективности зонда ПЦР и вероятности загрязнения. С учетом распределения аллельных отношений для каждого возможного генотипа ребенка могут быть рассчитаны вероятности различных гипотез согласно описанию для NIPD.In some embodiments, the method disclosed herein is used in the context of preimplantation genetic diagnosis (PGD) to select an embryo for in vitro fertilization, the target individual being the embryo, and parental genotypic data can be used to determine the ploidy of the embryo by biopsy sequencing one or two cells from a three-day embryo or by a biopsy of the trophectoderm from a five-day or six-day embryo. Under PGD conditions, only the baby’s DNA is measured and only a small number of cells are tested, usually from one to five, but also to ten, twenty or fifty. The total number of initial copies of the A and B alleles (in SNP) is then trivially determined by the child’s genotype and the number of cells. With NPD, the number of source copies is very large, and therefore the allelic ratio after PCR is expected to accurately reflect the original ratio. However, a small number of initial copies with PGD means that contamination and lack of PCR efficiency non-trivially affect the allelic ratio after PCR. This effect may be more important than the depth of sequencing for predicting variations in the allelic ratio measured after sequencing. The distribution of the measured allelic ratio, taking into account the known genotype of the child, can be obtained by modeling the PCR process by the Monte Carlo method based on the effectiveness of the PCR probe and the likelihood of contamination. Given the distribution of allelic ratios for each possible child genotype, the probabilities of various hypotheses can be calculated as described for NIPD.

Оценка с использованием способа максимального правдоподобияMaximum Credibility Assessment

Большинство известных в данной области техники способов обнаружения присутствия или отсутствия биологического явления или медицинского состояния включают применение теста отклонения одной гипотезы, при котором измеряют показатель, с которым коррелирует состояние, и если показатель находиться по одну сторону от заданного порогового значения, то состояние присутствует, а если показатель попадает по другую сторону от порогового значения, состояние отсутствует.В тесте отклонения одной гипотезы при выборе между нулевой и альтернативной гипотезами учитывается только распределение, соответствующее нулевой гипотезе,. Без учета распределения, соответствующего альтернативной гипотезе, специалист не может оценить вероятность каждой гипотезы, принимая во внимание данные наблюдений, и вследствие этого не может рассчитать достоверность при прогнозировании. Следовательно, тест отклонения одной гипотезы дает ответ «да» или «нет» без знания достоверности, связанной с конкретным случаем.Most methods known in the art for detecting the presence or absence of a biological phenomenon or medical condition include the use of a single hypothesis rejection test, which measures the indicator with which the condition correlates, and if the indicator is on one side of a given threshold value, the condition is present, and if the indicator falls on the other side of the threshold value, the state is absent. In the test, deviations of one hypothesis when choosing between zero and alternative hypotheses take into account only the distribution corresponding to the null hypothesis. Without taking into account the distribution corresponding to the alternative hypothesis, the specialist cannot estimate the probability of each hypothesis, taking into account the observational data, and therefore cannot calculate the reliability in predicting. Consequently, the test for rejecting one hypothesis gives an answer of “yes” or “no” without knowledge of the reliability associated with a particular case.

Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ позволяет выявлять присутствие или отсутствие фенотипа или генотипа, например, хромосомной аномалии, медицинского состояния с использованием способа максимального правдоподобия. Таким образом достигается существенное улучшение по сравнению со способом, где используется метод отклонения одной гипотезы, поскольку пороговое значение для определения отсутствия или присутствия состояния может быть скорректировано надлежащим образом для каждого случая. Это особенно уместно для диагностических методик, целью которых является определение наличия или отсутствия анеуплоидии у вынашиваемого плода, исходя из генетических данных, полученных для смеси ДНК плода и матери, обнаруживаемой в свободноплавающей ДНК, присутствующей в плазме крови матери. Это обусловлено тем, что, поскольку доля ДНК плода в полученной из плазмы крови фракции меняется, изменяется оптимальное пороговое значение для выявления анеуплоидии в противоположность эуплоидии. Поскольку доля ДНК плода падает, распределение данных, которое связано анеуплоидией, становится все более подобным распределению данных, которое связанно с эуплоидией.In some embodiments, a method disclosed herein can detect the presence or absence of a phenotype or genotype, for example, a chromosomal abnormality, of a medical condition using the maximum likelihood method. Thus, a significant improvement is achieved compared to the method where the method of rejecting one hypothesis is used, since the threshold value for determining the absence or presence of a condition can be adjusted appropriately for each case. This is especially relevant for diagnostic methods, the purpose of which is to determine the presence or absence of aneuploidy in the bearing fetus, based on the genetic data obtained for the mixture of fetal DNA and mother found in free-floating DNA present in the mother's blood plasma. This is because, as the proportion of fetal DNA in the fraction obtained from the blood plasma changes, the optimal threshold value for detecting aneuploidy as opposed to euploidy changes. As the fetal DNA fraction decreases, the data distribution that is associated with aneuploidy is becoming more and more similar to the data distribution that is associated with euploidy.

Способ оценки максимального правдоподобия задействует распределения, связанные с каждой гипотезой, для оценки правдоподобия данных с учетом условий для каждой гипотезы. Указанные обусловленные вероятности можно затем преобразовать в прогноз и достоверность гипотезы. Аналогичным образом, в способе оценки с использованием апостериорного максимума применяются те же самые обусловленные вероятности, что и при оценке максимального правдоподобия, но он также включает априорные распределения в популяции при выборе наилучшей гипотезы и определении достоверности.The maximum likelihood estimation method utilizes the distributions associated with each hypothesis to estimate the likelihood of data taking into account the conditions for each hypothesis. The indicated conditional probabilities can then be converted into a forecast and the reliability of the hypothesis. Similarly, in the estimation method using an a posteriori maximum, the same conditional probabilities are used as in the maximum likelihood estimation, but it also includes a priori distributions in the population when choosing the best hypothesis and determining the reliability.

Таким образом, использование методики оценки максимального правдоподобия (MLE) или очень близкой методики апостериорного максимума (MAP) дает два преимущества. Во-первых, она повышает вероятность верного прогнозирования; во-вторых, позволяет рассчитать достоверность для каждого прогноза. Согласно варианту осуществления выбор состояния плоидности, соответствующего гипотезе, имеющей наибольшую вероятность, проводят с использованием оценок, полученных способом максимального правдоподобия или апостериорного максимума. Согласно варианту осуществления раскрыт способ определения состояния плоидности вынашиваемого плода, который включает использование любого способа, известного в настоящее время в данной области техники, в котором используется методика отклонения одной гипотезы, и переформулирование его таким образом, чтобы в нем использовались методики MLE или MAP. Некоторые примеры способов, которые могут быть существенно усовершенствованы за счет применения указанных методик, можно найти в патентах США №8008018, №7888017 или №7332277.Thus, using the maximum likelihood estimation technique (MLE) or the very close a posteriori maximum technique (MAP) provides two advantages. Firstly, it increases the likelihood of correct prediction; secondly, it allows you to calculate the reliability for each forecast. According to an embodiment, the selection of the ploidy state corresponding to the hypothesis having the greatest probability is carried out using estimates obtained by the maximum likelihood method or the posterior maximum. According to an embodiment, a method for determining the ploidy state of a gestating fetus is disclosed, which involves using any method currently known in the art that uses the technique of rejecting one hypothesis and reformulating it to use MLE or MAP techniques. Some examples of methods that can be significantly improved through the application of these methods can be found in US patent No. 8008018, No. 7888017 or No. 7332277.

Согласно варианту осуществления описан способ определения присутствия или отсутствия анеуплоидии плода в образце материнской плазмы, содержащем плодную и материнскую геномную ДНК, включающий получение образца материнской плазмы; измерение фрагментов ДНК, присутствующей в указанном образце плазмы, на высокопроизводительном секвенаторе; картирование последовательностей с хромосомой и определение числа считанных последовательностей, которые картируются с каждой хромосомой; вычисление доли плодной ДНК в образце плазмы; вычисление ожидаемого распределения количества целевой хромосомы, которое, как ожидается, будет присутствовать, если вторая целевая хромосома является эуплоидной, и одного или нескольких ожидаемых распределений, которые будут ожидаться, если указанная хромосома анеуплоидна, с использованием доли плода и числа считанных последовательностей, которые картируются с одной или несколькими эталонными хромосомами, предположительно эуплоидными; и применение MLE или MAP для определения того, какое из распределений наиболее вероятно будет корректным, с определением таким образом наличия или отсутствия анеуплоидии у плода. Согласно варианту осуществления измерение ДНК из плазмы может включать проведение массивно-параллельного секвенирования «методом дробовика». Согласно варианту осуществления измерение ДНК из образца плазмы может включать секвенирование ДНК, которая была преимущественно обогащена, например, посредством целевой амплификации, по множеству полиморфных или неполиморфных локусов. Может быть сконструировано множество локусов для нацеливания на одну или небольшое количество хромосом, предположительно являющихся анеуплоидными, и одну или небольшое количество эталонных хромосом. Цель преимущественного обогащения заключается в повышении количества считанных последовательностей, которые являются информативными для определения плоидности.According to an embodiment, a method is described for determining the presence or absence of fetal aneuploidy in a maternal plasma sample containing fetal and maternal genomic DNA, comprising obtaining a maternal plasma sample; measuring DNA fragments present in said plasma sample on a high throughput sequencer; mapping sequences with a chromosome and determining the number of read sequences that are mapped with each chromosome; calculating the fraction of fetal DNA in a plasma sample; calculating the expected distribution of the number of the target chromosome, which is expected to be present if the second target chromosome is euploid, and one or more expected distributions that will be expected if the specified chromosome is aneuploid, using the proportion of the fetus and the number of read sequences that are mapped to one or more reference chromosomes, presumably euploid; and using MLE or MAP to determine which of the distributions is most likely to be correct, thus determining the presence or absence of aneuploidy in the fetus. In an embodiment, the measurement of DNA from plasma may include massively parallel sequencing using the shotgun method. In an embodiment, the measurement of DNA from a plasma sample may include sequencing DNA that has been predominantly enriched, for example, by targeted amplification, at a variety of polymorphic or non-polymorphic loci. Many loci can be constructed to target one or a small number of chromosomes, presumably being aneuploid, and one or a small number of reference chromosomes. The purpose of preferential enrichment is to increase the number of read sequences that are informative for determining ploidy.

Способы прогнозирования плоидности на основе информатикиInformatics-based ploidy prediction methods

В настоящем документе описан способ определения состояния плоидности плода с учетом определенных данных секвенирования. Согласно некоторым вариантам осуществления эти данные секвенирования получают на секвенаторе с высокой пропускной способностью. Согласно некоторым вариантам осуществления данные секвенирования можно получить с использованием ДНК, которая происходит из свободноплавающей ДНК, выделенной из крови матери, где свободноплавающая ДНК содержит некоторое количество ДНК материнского происхождения и некоторое количество ДНК фетального/плацентарного происхождения. В этом разделе будет описан один вариант осуществления настоящего раскрытия, в котором определяют статус плоидности плода, исходя из предположения, что доля ДНК плода в смеси, которая подвергается анализу, неизвестна и будет оценена на основе данных. Также будет описан вариант осуществления, отличающийся тем, что долю ДНК плода («долю фетальной ДНК») или процент ДНК плода в смеси можно измерить с помощью другого способа, и, как предполагается, она известна при определении статуса плоидности плода. Согласно некоторым вариантам осуществления долю ДНК плода можно рассчитать с использованием только данных генотипирования, полученных с помощью измерений, выполненных на отдельном образце крови матери, который представляет собой смесь ДНК плода и матери. Согласно некоторым вариантам осуществления долю можно также рассчитать с использованием установленного с помощью измерений или известного из другого источника генотипа матери, и/или установленного с помощью измерений или известного из другого источника генотипа отца. Согласно другому варианту осуществления статус плоидности плода можно определить исключительно на основе рассчитанной доли плодной ДНК для исследуемой хромосомы в сравнении с рассчитанной долей ДНК плода для эталонной хромосомы, предположительно дисомной.This document describes a method for determining the ploidy state of a fetus based on certain sequencing data. In some embodiments, this sequencing data is obtained on a high throughput sequencer. In some embodiments, sequencing data can be obtained using DNA that originates from free-floating DNA isolated from mother’s blood, where free-floating DNA contains some maternal DNA and some fetal / placental DNA. In this section, one embodiment of the present disclosure will be described in which the ploidy status of a fetus is determined based on the assumption that the proportion of fetal DNA in the mixture being analyzed is unknown and will be estimated based on the data. An embodiment will also be described, characterized in that the fetal DNA fraction (“fetal DNA fraction”) or fetal DNA percentage in the mixture can be measured using another method, and it is assumed to be known in determining the ploidy status of the fetus. In some embodiments, the fetal DNA fraction can be calculated using only genotyping data obtained from measurements taken on a separate mother blood sample, which is a mixture of fetal and mother DNA. In some embodiments, the fraction can also be calculated using the mother’s genotype established by measurements or known from another source, and / or the father’s genotype established from measurements or known from another source. According to another embodiment, the fetal ploidy status can be determined solely on the basis of the calculated fetal DNA fraction for the chromosome under study compared with the calculated fetal DNA fraction for the reference chromosome, presumably disomine.

В предпочтительном варианте осуществления в качестве примера предположим, что в отношении конкретной хромосомы мы наблюдаем и анализируем N SNP, для которых мы имеем:In a preferred embodiment, as an example, suppose that with respect to a particular chromosome, we observe and analyze N SNPs for which we have:

- Набор данных NR, полученных с помощью измерений при секвенировании свободноплавающей ДНК, S=(si,...,sNR). Поскольку в данном способе используются данные, полученные с помощью измерений SNP, все данные секвенирования, которые соответствуют неполиморфным локусам, можно не принимать во внимание. В упрощенном варианте, где мы имеем число аллелей (А, В) при каждом SNP, где А и В соответствуют двум аллелям, присутствующим в данном локусе, S можно записать в виде S=((a1,b1), …, (aN, bN)), где аi представляет собой число аллеля А при SNP i, bi представляет собой число аллеля В при SNP i, и Σi=1:N(a i+bi)=NR- A set of NR data obtained using measurements during sequencing of free-floating DNA, S = (si, ..., s NR ). Since the data obtained using SNP measurements are used in this method, all sequencing data that correspond to non-polymorphic loci can be ignored. In a simplified embodiment, where we have a number of alleles (A, B) for each SNP, where A and B correspond to the two alleles present at a given locus, S can be written as S = ((a 1, b 1), ..., ( a N , b N )), where a i represents the number of allele A at SNP i, b i represents the number of allele B at SNP i, and Σ i = 1: N ( a i + b i ) = NR

- Данные родителей включают- Parent data includes

- генотипы, полученные с использованием микроматрицы для выявления SNP или другой платформы для генотипирования на основе плотности аллеля: мать M=(m1, …, mN), отец F=(f1, …fN), где mi, fi∈G(AA, AB, ВВ).- genotypes obtained using a microarray to identify SNP or another platform for genotyping based on allele density: mother M = (m 1 , ..., m N ), father F = (f 1 , ... f N ), where m i , f i ∈G (AA, AB, BB).

- И/ИЛИ данные о последовательностях, полученные с помощью измерений: измерения NRM для матери SM=(sm1, …, smnrm), измерения NRF для отца SF=(sf1, …, sfnrf). Аналогично вышеизложенному упрощению, если мы имеем число аллелей (А, В) на каждый SNP, SM=((am1,bm1), …, (amN, bmN)), SF=((af1,bf1), …, (afN, bfN))- AND / OR sequence data obtained by measurements: NRM measurements for mother SM = (sm 1 , ..., sm nrm ), NRF measurements for father SF = (sf 1 , ..., sf nrf ). Similarly to the above simplification, if we have the number of alleles (A, B) for each SNP, SM = ((am 1 , bm 1 ), ..., (am N , bm N )), SF = ((af 1 , bf 1 ) , ..., (af N , bf N ))

В совокупности, данные для ребенка от матери и отца обозначены как D=(M, F, SM, SF, S). Отметим, что данные родителей являются желательными и повышают точность алгоритма, но НЕ являются необходимыми, в особенности, данные отца. Это означает, что даже в отсутствие данных для матери и/или отца возможно получение высокоточного результата в отношении количества копий.In aggregate, the data for the child from the mother and father are indicated as D = (M, F, SM, SF, S). Note that parental data are desirable and increase the accuracy of the algorithm, but are NOT necessary, in particular, father's data. This means that even in the absence of data for the mother and / or father, it is possible to obtain a highly accurate result with respect to the number of copies.

Возможно получение наилучшей оценки количества копий (Н*) путем максимального увеличения логарифмизированной вероятности данных LIK(D|H) при всех рассматриваемых гипотезах (Н). В частности, возможно определение относительной вероятности каждой из гипотез плоидности с использованием модели совместного распределения и числа аллелей в подготовленном образце, и использования этих относительных вероятностей для определения гипотезы, которая наиболее вероятно будет верной, следующим образом:It is possible to obtain the best estimate of the number of copies (H *) by maximizing the logarithmized probability of the LIK data (D | H) for all hypotheses considered (H). In particular, it is possible to determine the relative probability of each of the ploidy hypotheses using the model of the joint distribution and the number of alleles in the prepared sample, and use these relative probabilities to determine the hypothesis that is most likely to be true, as follows:

Figure 00000001
Figure 00000001

Подобным образом, вероятность апостериорной гипотезы с учетом данных можно записать в виде:Similarly, the probability of an a posteriori hypothesis taking into account the data can be written as:

Figure 00000002
Figure 00000002

где priorprob(H) представляет собой априорную вероятность, заданную для каждой гипотезы Н на основании построенной модели и априорных данных.where priorprob (H) is the a priori probability given for each hypothesis H based on the constructed model and a priori data.

Также возможно использование априорных данных для получения оценки апостериорного максимума:It is also possible to use a priori data to obtain an estimate of the posterior maximum:

Figure 00000003
Figure 00000003

Согласно варианту осуществления гипотезы числа копий, которые могут рассматриваться, представлены следующими:According to an embodiment of the hypothesis, the number of copies that can be considered is represented by the following:

- Моносомия:- Monosomy:

- материнская Н10 (одна копия от матери)- maternal H10 (one copy from the mother)

- отцовская Н01 (одна копия от отца)- paternal H01 (one copy from father)

- Дисомия: HI 1 (по одной копии от матери и отца)- Dysomy: HI 1 (one copy from mother and father)

- Простая трисомия, случаи кроссинговера не рассматриваются:- Simple trisomy, cases of crossing-over are not considered:

- материнская: Н21_совпадающая (две идентичные копии от матери, одна копия от отца), Н21_несовпадающая (ОБЕ копии от матери, одна копия от отца)- maternal: H21_coincident (two identical copies from the mother, one copy from the father), H21_coincident (BOTH copies from the mother, one copy from the father)

- отцовская: Н12_ совпадающая (одна копия от матери, две идентичные копии от отца), Н12_несовпадающая (одна копия от матери, обе копии от отца)- paternal: Н12_ coincident (one copy from the mother, two identical copies from the father), Н12_mismatching (one copy from the mother, both copies from the father)

- Сложная трисомия, с учетом случаев кроссинговера (применение модели совместного распределения):- Complex trisomy, taking into account cases of crossing-over (application of the model of joint distribution):

- материнская Н21 (две копии от матери, одна от отца),- maternal H21 (two copies from the mother, one from the father),

- отцовская HI2 (одна копия от матери, две копии от отца)- paternal HI2 (one copy from mother, two copies from father)

Согласно другим вариантам осуществления могут рассматриваться другие состояния плоидности, такие как нуллисомия (Н00), однородительская дисомия (Н20 и Н02) и тетрасомия (Н04, Н13, Н22, Н31 и Н40).In other embodiments, other ploidy conditions can be considered, such as nullisomy (H00), homogeneous disomy (H20 and H02) and tetrasomy (H04, H13, H22, H31 and H40).

При отсутствии кроссинговера каждая трисомия, появившаяся в ходе митоза, мейоза I или мейоза II, будет представлять собой одну из совпадающих или несовпадающих трисомий. Вследствие кроссинговера истинная трисомия обычно является сочетанием двух вышеуказанных. Вначале описан способ получения значений вероятности гипотезы для гипотез простой трисомии. Затем описан способ получения значений вероятности гипотезы для гипотез сложной трисомии, сочетающий значения вероятности для отдельных SNP (однонуклеотидный полиморфизм) со случаями кроссинговера.In the absence of crossing over, each trisomy that occurs during mitosis, meiosis I, or meiosis II will be one of matching or mismatching trisomies. Due to crossing over, true trisomy is usually a combination of the two above. First, a method for obtaining hypothesis probability values for simple trisomy hypotheses is described. Then, a method for obtaining hypothesis probability values for complex trisomy hypotheses is described, combining the probability values for individual SNPs (single nucleotide polymorphism) with crossover cases.

LIK(D\H) для гипотезы простой трисомииLIK (D \ H) for the simple trisomy hypothesis

Согласно варианту осуществления LIK(D|H) для гипотез простой трисомии можно определить следующим образом. Для гипотез простой трисомии Н, LIK(H), логарифм значения вероятности гипотезы Н для целой хромосомы, можно рассчитать в виде суммы логарифмов значений вероятности для отдельных SNP, предполагая известную или выведенную долю ДНК ребенка cf. Согласно варианту осуществления можно вывести cf, исходя из данных.According to an embodiment, LIK (D | H) for simple trisomy hypotheses can be determined as follows. For simple trisomy H hypotheses, LIK (H), the logarithm of the probability value of hypothesis H for the whole chromosome can be calculated as the sum of the logarithms of the probability values for individual SNPs, assuming a known or deduced fraction of the child’s DNA cf. According to an embodiment, cf can be derived from the data.

Figure 00000004
Figure 00000004

Эта гипотеза не предполагает какой-либо связи между SNP и, таким образом, не задействует модель совместного распределения.This hypothesis does not imply any relationship between SNPs and, therefore, does not involve a shared distribution model.

Согласно некоторым вариантам осуществления логарифмизированную вероятность можно определить в расчете на один SNP. При конкретном SNP i, предполагая гипотезу плоидности плода Н и процент ДНК плода cf, логарифмизированная вероятность для наблюдаемых данных D определена как:In some embodiments, the logarithmized probability can be determined per SNP. For a specific SNP i, assuming the fetal ploidy hypothesis H and the percentage of fetal DNA cf, the logarithmic probability for the observed data D is defined as:

Figure 00000005
Figure 00000005

где m представляет собой возможные истинные генотипы матери, f представляет собой возможные истинные генотипы отца, где m,f∈{АА, АВ, ВВ}, и с представляет собой возможные генотипы ребенка с учетом гипотезы Н. В частности, для моносомии с ∈{А, В}, для дисомии с ∈{АА, АВ, ВВ}, для трисомии с ∈{AAA, ААВ, ABB, ВВВ}.where m represents the possible true genotypes of the mother, f represents the possible true genotypes of the father, where m, f∈ {AA, AB, BB}, and c represents the possible genotypes of the child, taking into account the hypothesis N. In particular, for monosomy with ∈ { A, B}, for disomy with ∈ {AA, AB, BB}, for trisomy with ∈ {AAA, AAB, ABB, BBB}.

Априорная частота генотипа: p(m|i) представляет собой общую априорную вероятность генотипа матери m при SNP i, исходя из конкретной частоты в популяции для SNP I, обозначаемой pAi. В частностиA priori frequency of the genotype: p (m | i) is the total a priori probability of the mother genotype m with SNP i, based on the specific frequency in the population for SNP I, denoted by pA i . In particular

р(АА|рАi)=(рАi)2, p(AB|pAi)=2(pAi)*(1-pAi), p(BB|pAi)=(1-pAi)2 p (AA | pA i ) = (pA i ) 2 , p (AB | pA i ) = 2 (pA i ) * (1-pA i ), p (BB | pA i ) = (1-pA i ) 2

Вероятность генотипа отца, p(fji), может быть определена аналогичным образом.The probability of the father's genotype, p (fji), can be determined in a similar way.

Вероятность истинного генотипа ребенка: p(c|m,f,H) представляет собой вероятность получения истинного генотипа ребенка=с с учетом генотипов родителей m, f и предположения гипотезы Н, которую можно легко рассчитать. Например, для совпадающей по H11, Н21 и несовпадающей по Н21 p(c|m, f, H) указаны ниже.The probability of the true genotype of the child: p (c | m, f, H) is the probability of obtaining the true genotype of the child = taking into account the genotypes of the parents m, f and the assumption of hypothesis H, which can be easily calculated. For example, for coinciding in H11, H21 and inconsistent in H21 p (c | m, f, H) are indicated below.

Figure 00000006
Figure 00000006

Вероятность данных: P(D|m,f, с, H, i, cf) представляет собой вероятность заданных данных D при SNP i с учетом истинного генотипа матери m, истинного генотипа отца f, истинного генотипа ребенка с, гипотезы Н и доли ДНК ребенка cf. Ее можно разбить на вероятности для данных матери, отца и ребенка следующим образом:Data probability: P (D | m, f, s, H, i, cf) is the probability of given data D with SNP i taking into account the true genotype of mother m, the true genotype of father f, the true genotype of child c, hypothesis H and the fraction of DNA baby cf. It can be divided into probabilities for the data of the mother, father and child as follows:

P(D|m, f, с, H, cf, i)=P(SM|m, i)P(M|m, i)P(SF|f, i)P(F|f, i)P(S|m, с, H, cf, i)P (D | m, f, s, H, cf, i) = P (SM | m, i) P (M | m, i) P (SF | f, i) P (F | f, i) P (S | m, s, H, cf, i)

Вероятность данных для матриц SNP матери: Вероятность данных для матриц SNP матери генотипа mi при SNP i при сравнении с истинным генотипом т, при предположении, что данные в отношении SNP в генотипах, полученные с помощью микроматриц, являются верными, представляет собой простоData probability for maternal SNP matrices: Data probability for maternal SNP matrices of genotype m i for SNP i when compared with the true genotype m, assuming that the data on SNPs in genotypes obtained using microarrays are correct, is simply

Figure 00000007
Figure 00000007

Вероятность данных последовательностей матери: вероятность данных последовательностей матери при SNP i, в случае числа аллелей с Si=(ami,bmi), без включенных дополнительного шума или ошибки представляет собой биномиальную вероятность выраженную функцией, определенной как P(SM|m,i)=Px|m(ami), где X|m~Binom(pm(A), ami+bmi) с pm(A), определенным какThe probability of these mother sequences: the probability of these mother sequences for SNP i, in the case of the number of alleles with Si = (am i , bm i ), without additional noise or error, is a binomial probability expressed by a function defined as P (SM | m, i ) = P x | m (am i ), where X | m ~ Binom (p m (A), am i + bm i ) with p m (A) defined as

Figure 00000008
Figure 00000008

Вероятность данных отца: аналогичное уравнение применяется для вероятности данных отца.Probability of father data: a similar equation is applied to the probability of father data.

Отметим, что возможно определение генотипа ребенка без данных от родителей, особенно данных от отца. Например, если данные для генотипа отца F недоступны, можно просто использовать P(F|f, i)=1. Если недоступны данные последовательностей отца SF, можно просто использовать P(SF|f, i)=l.Note that it is possible to determine the child’s genotype without data from parents, especially data from the father. For example, if data for the father F genotype are not available, you can simply use P (F | f, i) = 1. If the father sequence data SF is not available, you can simply use P (SF | f, i) = l.

Согласно некоторым вариантам осуществления указанный способ включает построение модели совместного распределения для ожидаемого числа аллелей во множестве полиморфных локусов на хромосоме для каждой гипотезы плоидности; один способ достижения такого результата приведен в данном описании. Вероятность данных для несвязанной ДНК плода: P(S|m, с, Н, cf, i) представляет собой вероятность для данных последовательностей несвязанной ДНК плода при SNP i с учетом истинного генотипа матери т, истинного генотипа ребенка с, гипотезы о количестве копий ДНК ребенка Н и предполагаемой доле ДНК ребенка cf. Фактически, она представляет собой вероятность для данных секвенирования S при SNP i с учетом истинной вероятности содержания А при SNP i μ(m, с, cf, Н)In some embodiments, the method comprises constructing a co-distribution model for the expected number of alleles in a plurality of polymorphic loci on the chromosome for each ploidy hypothesis; One way to achieve such a result is provided herein. Data probability for unbound fetal DNA: P (S | m, s, H, cf, i) is the probability for given sequences of unbound fetal DNA with SNP i, taking into account the true genotype of the mother, the true genotype of the child c, the hypothesis of the number of DNA copies child H and the estimated fraction of the child’s DNA cf. In fact, it represents the probability for the sequencing data S at SNP i taking into account the true probability of the content of A at SNP i μ (m, s, cf, Н)

P(S|m, с, Н, cf, i)=P(S|μ(m, с, cf, Н), i)P (S | m, s, H, cf, i) = P (S | μ (m, s, cf, H), i)

Для числа аллелей, где Si=(ai, bi) без дополнительного шума или ошибки во включенных данных,For the number of alleles, where S i = (a i , b i ) without additional noise or error in the included data,

P(S|μ(m,c,cf,H),i)=Px(ai)P (S | μ (m, c, cf, H), i) = P x (a i )

где X~Binom(p(A), ai+bi) при р(А)=μ(m, c, cf, Н). В более сложном случае, где точное выравнивание и число аллелей (А, В) при SNP неизвестны, P(S|μ(m, с, cf, Н), i) представляет собой сочетание интегрированных биномиальных функций.where X ~ Binom (p (A), a i + b i ) for p (A) = μ (m, c, cf, H). In a more complex case, where the exact alignment and the number of alleles (A, B) for SNP are unknown, P (S | μ (m, s, cf, H), i) is a combination of integrated binomial functions.

Истинная вероятность содержания А: μ(m, с, cf, Н), истинная вероятность содержания А при SNP i в данной смеси ДНК матери/ребенка при предположении, что истинный генотип матери = m, истинный генотип ребенка = с, и суммарная доля ДНК ребенка = cf, определяется какThe true probability of the content of A: μ (m, s, cf, H), the true probability of the content of A with SNP i in this mother / child DNA mixture under the assumption that the true mother genotype = m, the true child genotype = s, and the total fraction of DNA child = cf, defined as

Figure 00000009
Figure 00000009

где #A(g)=количество А в генотипе g, nm=2 представляет сомию матери и nс представляет собой плоидность ребенка при гипотезе Н (1 для моносомии, 2 для дисомии, 3 для трисомии).where #A (g) = the amount of A in the genotype g, n m = 2 represents the somia of the mother and n with represents the ploidy of the child under hypothesis H (1 for monosomy, 2 for disomy, 3 for trisomy).

Использование модели совместного распределения: LIK(D|H) для гипотезы сложной трисомииUsing the co-distribution model: LIK (D | H) for the complex trisomy hypothesis

Согласно некоторым вариантам осуществления указанный способ включает построение модели совместного распределения для ожидаемых чисел аллелей во множестве полиморфных локусов на хромосоме для каждой гипотезы плоидности; один способ достижения такого результата представлен в данном описании. Во многих случаях трисомия обычно не является исключительно совпадающей или несовпадающей, вследствие случаев кроссинговера, так что в данном разделе получены результаты для гипотез сложной трисомии по Н21 (материнской трисомии) и по H12 (отцовской трисомии), которая сочетает совпадающую и несовпадающую трисомию, с учетом возможных случаев кроссинговера.In some embodiments, the method comprises constructing a co-distribution model for the expected numbers of alleles at a plurality of polymorphic loci on the chromosome for each ploidy hypothesis; one way to achieve this result is presented in this description. In many cases, trisomy is usually not exclusively coincident or inconsistent due to crossing-over cases, so in this section the results are obtained for the hypotheses of complex trisomy for H21 (maternal trisomy) and for H12 (paternal trisomy), which combines coincident and inconsistent trisomy, taking into account possible cases of crossing over.

В случае трисомии при отсутствии случаев кроссинговера, трисомия может быть просто совпадающей или несовпадающей трисомией. При совпадающей трисомии ребенок наследует две копии сегмента идентичной хромосомы от одного родителя. При несовпадающей трисомии ребенок наследует одну копию сегмента каждой гомологичной хромосомы от указанного родителя. Вследствие кроссинговера некоторые сегменты хромосомы могут иметь совпадающую трисомию, а другие части могут иметь несовпадающую трисомию. В данном разделе описано построение модели совместного распределения степеней гетерозиготности для набора аллелей, то есть ожидаемых чисел аллелей в ряде локусов при одной или нескольких гипотезах.In the case of trisomy, in the absence of cases of crossing over, trisomy may simply be coincident or inconsistent trisomy. With matching trisomy, the child inherits two copies of a segment of the identical chromosome from one parent. If trisomy does not coincide, the child inherits one copy of the segment of each homologous chromosome from the specified parent. Due to crossing over, some segments of the chromosome may have a matching trisomy, and other parts may have a mismatching trisomy. This section describes the construction of a model for the joint distribution of degrees of heterozygosity for a set of alleles, that is, the expected numbers of alleles in a number of loci with one or more hypotheses.

Предположим, что при SNP i, LIK(D|Hm,i) представляет собой аппроксимацию гипотезы совпадающей трисомии Нm, и LIK(D|Hu,i) представляет собой аппроксимацию гипотезы несовпадающей трисомии Нu и pc(i) = вероятность кроссинговера между SNP i-1 и i. Таким образом, полную вероятность можно рассчитать в виде:Assume that for SNP i, LIK (D | Hm, i) is an approximation of the hypothesis of matching trisomy Н m , and LIK (D | Hu, i) is an approximation of the hypothesis of matching trisomy Н u and pc (i) = the probability of crossing over between SNP i-1 and i. Thus, the total probability can be calculated as:

LIK(D|H)=ΣE LIK(D|E, 1:N)LIK (D | H) = Σ E LIK (D | E, 1: N)

где LIK(D|E, 1:N) представляет собой вероятность принятия гипотезы E для SNP 1:N. Е =гипотеза для последнего SNP, Е ∈(Нm,Нu). Рекурсивно можно вычислить:where LIK (D | E, 1: N) is the probability of accepting hypothesis E for SNP 1: N. E = hypothesis for the last SNP, E ∈ (Нm, Нu). Recursively, you can calculate:

LIK(D|E, 1:i)=LIK(D|E,i) + log (exp(LIK(D|E, 1:i-1)) * (l-pc(i))LIK (D | E, 1: i) = LIK (D | E, i) + log (exp (LIK (D | E, 1: i-1)) * (l-pc (i))

+exp(LIK(D|~E,l:i-l))+ exp (LIK (D | ~ E, l: i-l))

где ~E представляет собой гипотезу, отличную от Е (не Е), где рассматриваемыми гипотезами являются Нm и Нu. В частности, можно рассчитать значение вероятности 1:i SNP, исходя из значений вероятности от 1 до (i-1) SNP либо при той же гипотезе л отсутствии кроссинговера, либо при противоположной гипотезе и кроссинговере, умноженных на значения вероятности SNP i.where ~ E is a hypothesis other than E (not E), where the hypotheses considered are H m and H u . In particular, it is possible to calculate the probability value 1: i SNP based on the probability values from 1 to (i-1) SNP, either with the same hypothesis and no crossing over, or with the opposite hypothesis and crossing over multiplied by the probability values SNP i.

Для SNP 1, i=l, LIK(D|E, 1:1)=LIK(D|E, 1).For SNP 1, i = l, LIK (D | E, 1: 1) = LIK (D | E, 1).

Для SNP 2, i=2, LIK(D|E, 1:2)=LIK(D|E, 2)+log (exp(LIK(D|E, 1)) * (l-pc(2)) + exp(LIK(D|~E, l)) * pc(2)),For SNP 2, i = 2, LIK (D | E, 1: 2) = LIK (D | E, 2) + log (exp (LIK (D | E, 1)) * (l-pc (2)) + exp (LIK (D | ~ E, l)) * pc (2)),

и т.д. для i=3:N.etc. for i = 3: N.

Согласно некоторым вариантам осуществления можно определить долю ребенка. Доля ребенка может относиться к содержанию в смеси ДНК последовательностей, которые происходят от ребенка. В контексте неинвазивной пренатальной диагностики доля ребенка может относиться к содержанию в плазме крови матери последовательностей, которые происходят из плода или части плаценты с генотипом плода. Она может относиться к доле ребенка в образце ДНК, который был получен из плазмы крови матери и может быть обогащен ДНК плода. Одной из целей определения доли ребенка в образце ДНК заключается в использовании этих данных в алгоритме, позволяющем определять признаки плоидности плода, таким образом, доля ребенка может относиться к какому-либо образцу ДНК, анализируемому с помощью секвенирования с целью неинвазивной пренатальной диагностики.In some embodiments, the proportion of a child can be determined. A child’s share may relate to the content in the mixture of DNA sequences that originate from the child. In the context of non-invasive prenatal diagnosis, the proportion of the child may refer to the content in the mother's blood plasma of sequences that originate from the fetus or part of the placenta with the fetus genotype. It can refer to the baby’s share in the DNA sample that was obtained from the mother’s blood plasma and can be enriched in fetal DNA. One of the purposes of determining the proportion of a child in a DNA sample is to use this data in an algorithm that allows you to determine the signs of fetal ploidy, so the proportion of a child can relate to any DNA sample analyzed by sequencing for non-invasive prenatal diagnosis.

Некоторые из алгоритмов, представленных в данном раскрытии и являющихся частью способа неинвазивной пренатальной диагностики анеуплоидии, предполагают наличие известной доли ребенка, что не всегда соответствует действительности. Согласно варианту осуществления можно найти наиболее вероятную долю ребенка путем максимального увеличения значения вероятности для дисомии в выбранных хромосомах при наличии или в отсутствии данных от родителей.Some of the algorithms presented in this disclosure, which are part of a non-invasive prenatal diagnostic method for aneuploidy, suggest the presence of a known proportion of the child, which is not always true. According to an embodiment, it is possible to find the most probable proportion of the child by maximizing the probability of dysomy in the selected chromosomes with or without data from the parents.

В частности, предположим, что LIK(D|H11, cf, chr) = логарифм значения вероятности, которое описано выше, для гипотезы дисомии и для доли ребенка cf в хромосоме chr. Для выбранных хромосом в Cset (набор хромосом) (обычно 1:16), предположительно эуплоидных, суммарное значение вероятности представляет собой:In particular, suppose that LIK (D | H11, cf, chr) = the logarithm of the probability value described above for the hypomy hypothesis and for the proportion of the child cf in the chrom chromosome. For selected chromosomes in a Cset (set of chromosomes) (usually 1:16), presumably euploid, the total probability value is:

Figure 00000010
Figure 00000010

Наиболее вероятное значение доли ребенка (cf*)is derived as cf*=argmaxcf LIK(cf).The most probable value of the child’s share (cf *) is derived as cf * = argmax cf LIK (cf).

Возможно использование любого набора хромосом. Также возможно получение значения доли ребенка без предположения эуплоидии в эталонных хромосомах. С использованием этого способа возможно определение доли ребенка в любых из следующих ситуаций: (1) имеются данные матриц для родителей и данные секвенирования «методом дробовика» для материнской плазмы; (2) имеются данные матриц для родителей и данные целевого секвенирования для материнской плазмы; (3) имеются данные целевого секвенирования для обоих родителей и материнской плазмы; (4) имеются данные целевого секвенирования и для матери, и для фракции материнской плазмы; (5) имеются данные целевого секвенирования для фракции материнской плазмы; (6) другие комбинации измерений долей родителей и ребенка.You can use any set of chromosomes. It is also possible to obtain a child’s share value without suggesting euploidy in the reference chromosomes. Using this method, it is possible to determine the proportion of a child in any of the following situations: (1) there are matrix data for parents and sequencing data using the shotgun method for maternal plasma; (2) matrix data for parents and target sequencing data for maternal plasma are available; (3) target sequencing data are available for both parents and maternal plasma; (4) there is evidence of targeted sequencing for both the mother and the fraction of maternal plasma; (5) target sequencing data are available for the fraction of maternal plasma; (6) other combinations of measures of parent and child shares.

Согласно некоторым вариантам осуществления способ на основе информатики может включать выпадения данных; это может приводить к определений плоидности с более высокой точностью. В других местах в данном документе предполагалось, что вероятность получения А является непосредственной функцией истинного генотипа матери, истинного генотипа ребенка, доли ребенка в смеси и числа копий ДНК ребенка. Также возможно, что аллели матери или ребенка могут выпадать, например, вместо измерения характерного для ребенка истинного АВ в смеси возможен случай, когда измеряются только последовательности, картирующиеся с аллелем А. Можно обозначить частоту выпадения аллеля у родителей с данными, полученными с использованием анализа генома Illumina dpg, выпадения аллеля у родителей для данных последовательностей dps и частоту выпадения аллеля у ребенка для данных последовательностей dcs. Согласно некоторым вариантам осуществления предполагается, что частота выпадения аллеля у матери равна нулю, а частоты выпадения аллея у ребенка являются относительно низкими; в этом случае выпадения не оказывают значительного отрицательного воздействия на результаты. Согласно некоторым вариантам осуществления вероятность выпадений аллеля может быть значительно большей, что окажет значительный эффект на прогнозируемый признак плоидности. Для такого случая выпадения аллелей были включены в алгоритм, представленный ниже:In some embodiments, an informatics based method may include data loss; this can lead to higher accuracy ploidy determinations. Elsewhere in this document, it was assumed that the probability of obtaining A is a direct function of the true genotype of the mother, the true genotype of the child, the proportion of the child in the mixture, and the number of copies of the child’s DNA. It is also possible that the alleles of the mother or child may fall out, for example, instead of measuring the true AB characteristic of the child in the mixture, it is possible that only sequences mapped with the allele A are measured. We can designate the frequency of allele deposition from parents with data obtained using genome analysis Illumina d pg , parental allele deposition for given sequences d ps and child allele deposition rate for given d cs sequences. According to some embodiments, it is assumed that the frequency of the allele in the mother is zero and the frequency of the alley in the child is relatively low; in this case, the fallout does not have a significant negative effect on the results. According to some embodiments, the probability of allele loss can be significantly greater, which will have a significant effect on the predicted sign of ploidy. For such a case, allele deposition was included in the algorithm presented below:

Выпадения для данных матриц SNP родителей: для данных генома матери М предположим, что генотип после выпадения представляет собой та, тогдаDrops for these parent SNP matrices: for mother M’s genome data, suppose that the genotype after loss is one, then

Figure 00000011
Figure 00000011

где

Figure 00000012
как и ранее, и P(md|m) представляет собой вероятность генотипа md после возможного выпадения с учетом истинного генотипа т, определенного ниже, для частоты выпадения d.Where
Figure 00000012
as before, and P (m d | m) represents the probability of the m d genotype after a possible loss, taking into account the true genotype m, defined below, for the frequency of loss of d.

Figure 00000013
Figure 00000013

Аналогичное уравнение применяют к данным матриц SNP отца.A similar equation applies to father SNP matrices.

Выпадения данных для последовательностей родителей: для данных последовательностей матери SM

Figure 00000014
Data Drops for Parent Sequences: for SM Mother Sequence Data
Figure 00000014

где P(md|m) определено как в предыдущем разделе и вероятность P(x|md)(ami), исходя из биномиального распределения, определена так же, как и ранее в разделе о вероятности данных для родителей. Аналогичное уравнение применяют для данных последовательностей отца.where P (m d | m) is defined as in the previous section and the probability P (x | m d ) (am i ), based on the binomial distribution, is determined in the same way as earlier in the section on the probability of data for parents. A similar equation is used for these father sequences.

Выпадения данных последовательностей свободноплавающей ДНК:Dropouts of free floating DNA sequences:

Figure 00000015
Figure 00000015

где P(S|μ(md, cd, cf, H), i) соответствует определению в разделе о вероятности данных для свободноплавающей ДНК.where P (S | μ (m d , c d , cf, H), i) corresponds to the definition in the data probability section for free-floating DNA.

Согласно варианту осуществления р(md|m) представляет собой вероятность наблюдаемого материнского генотипа md, при истинном материнском генотипе m, при предположении о частоте выпадения dps, и p(cd|c) представляет собой вероятность наблюдаемого генотипа ребенка cd, при истинном генотипе ребенка с, при предположении о частоте выпадения dcs. Если nАТ = число аллелей А в истинном генотипе с, nAD = число аллелей А в наблюдаемом генотипе сd, где nАТ≥nAD, и, аналогичным образом, nВТ = число аллелей В в истинном генотипе с, nВD = число аллелей В в наблюдаемом генотипе cd, где nВТ≥nВD и d = частота выпадения, тогдаAccording to an embodiment, p (m d | m) is the probability of the observed maternal genotype m d , with the true maternal genotype m, assuming the frequency of occurrence of d ps , and p (c d | c) is the probability of the observed genotype of the child c d , with the true genotype of the child c , under the assumption of the frequency of occurrence of d cs . If nA T = the number of A alleles in the true genotype c, nA D = the number of A alleles in the observed genotype c , where nA T ≥nA D , and, likewise, nB T = the number of B alleles in the true genotype c, nB D = the number of B alleles in the observed genotype c d , where nВ Т ≥nВ D and d = the frequency of loss, then

Figure 00000016
Figure 00000016

Согласно варианту осуществления способ на основе информатики может включать случайное смещение и стандартное смещение. В идеальных условиях отсутствует смещение выборки или случайный шум (дополнительно к вариации в биномиальном распределении) при подсчете числа последовательностей, в расчете на один SNP. В частности, при SNP i, для материнского генотипа m, истинного генотипа ребенка с и доли ребенка cf, и X = количество А в наборе считанных последовательностей (А+В) для SNP i, X функционирует как X~Binomial(p, А+В), где р=μ(m, с, cf, Н) = истинная вероятность содержания А.According to an embodiment, the informatics-based method may include random bias and standard bias. Under ideal conditions, there is no sampling bias or random noise (in addition to variations in the binomial distribution) when calculating the number of sequences per one SNP. In particular, with SNP i, for the maternal genotype m, the true genotype of the child c and the child’s share cf, and X = the number A in the set of read sequences (A + B) for SNP i, X functions as X ~ Binomial (p, A + B), where p = μ (m, s, cf, H) = the true probability of the content of A.

Согласно варианту осуществления способ на основе информатики может включать случайное смещение. Поскольку это частый случай, предположим, что смещение возникает при измерениях, так что вероятность получения А на указанном SNP равна q, немного отличающемуся от p, определенного выше. То, насколько p отличается от q, зависит от точности способа измерения и ряда других факторов, и может быть количественно определено с помощью расчета стандартных отклонений q от р. Согласно варианту осуществления возможно моделирование q как характеризующегося бета-распределением с параметрами α, β зависящими от среднего значения указанного распределения с центром в р и определенного установленного стандартного отклонения s. В частности, это дает X|q~Bin(q, Di), где q~Beta(α,β). Если допустить, что E(q)=р, V(q)=s2, и параметры α, β можно получить в виде α=pN, β=(1-p)N, где

Figure 00000017
According to an embodiment, the informatics-based method may include random bias. Since this is a frequent case, suppose that bias occurs during measurements, so that the probability of getting A on the indicated SNP is q, slightly different from p defined above. How much p differs from q depends on the accuracy of the measurement method and a number of other factors, and can be quantified by calculating the standard deviations of q from p. According to an embodiment, it is possible to simulate q as being characterized by a beta distribution with parameters α, β depending on the average value of the specified distribution centered on p and a certain established standard deviation s. In particular, this gives X | q ~ Bin (q, D i ), where q ~ Beta (α, β). Assuming that E (q) = p, V (q) = s 2 , and the parameters α, β can be obtained in the form α = pN, β = (1-p) N, where
Figure 00000017

Это определение бета-биномиального распределения, где выборку получают из биномиального распределения с переменным параметром q, при этом q следует бета-распределению со средним значением р. Таким образом, в ситуации с отсутствием смещения по SNP i вероятность данных о последовательностях родителей (SM), при предположении об истинном генотипе матери (т), при числе аллеля А по SNP i для матери (ami) и числе аллеля В по SNP i для матери (bmi) можно рассчитать как:This is the definition of a beta-binomial distribution, where the sample is obtained from a binomial distribution with a variable parameter q, while q follows a beta distribution with an average value of p. Thus, in a situation where there is no bias in SNP i, the probability of data on parental sequences (SM), assuming the true genotype of the mother (t), is the number of allele A for SNP i for the mother (am i ) and the number of allele B for SNP i for mother (bm i ) can be calculated as:

P(SM|m,i)=PX|m(ami), где X|m~Binom(pm(A), ami+bmi)P (SM | m, i) = P X | m (am i ), where X | m ~ Binom (p m (A), am i + bm i )

Далее, при включении случайного смещения со стандартным отклонением s уравнение приобретает вид:Further, when a random bias with a standard deviation s is turned on, the equation takes the form:

X|m~BetaBinom(pm(A), ami+bmi,s)X | m ~ BetaBinom (p m (A), am i + bm i , s)

В случае отсутствия смещения вероятность для данных, полученных с использованием секвенирования ДНК плазмы крови матери, (S), предполагая истинный генотип матери (m), истинный генотип ребенка (с), долю ДНК ребенка (cf), предполагая гипотезу для статуса плоидности ребенка Н, с учетом данных о числе аллеля А, полученных с использованием секвенирования свободноплавающей ДНК, по SNP i (аi) и данных о числе аллеля В, полученных с использованием секвенирования свободноплавающей ДНК, по SNP i (bi) можно рассчитать как:If there is no bias, the probability for the data obtained using DNA sequencing of the mother’s blood plasma, (S), assuming the true genotype of the mother (m), the true genotype of the child (c), the fraction of the child’s DNA (cf), suggesting a hypothesis for the ploidy status of the child N , taking into account data on the number of allele A obtained using sequencing of free-floating DNA, according to SNP i (а i ) and data on the number of allele B obtained using sequencing of free-floating DNA, according to SNP i (b i ) can be calculated as:

P(S|m,c,cf,H,i)=Рхi)P (S | m, c, cf, H, i) = P x (a i )

где X~Binom(p(A), ai+bi) при р(А)=μ(m, с, cf, Н).where X ~ Binom (p (A), a i + b i ) for p (A) = μ (m, s, cf, H).

Согласно варианту осуществления, включающему случайное смещение со стандартным отклонением s, указанное выражение приобретает вид X~BetaBinom(p(A),ai+bi,s), где величину дополнительной вариации определяют с помощью параметра отклонения s или, эквивалентно, N. Чем меньше значение s (или чем больше значение N), тем ближе данное распределение к нормальному биномиальному распределению. Можно оценить величину смещения, то есть оценить вышеуказанное значение N, исходя из однозначных контекстов АА|АА, ВВ|ВВ, АА|ВВ, ВВ|АА, и использовать оценку

Figure 00000018
при расчете вышеуказанной вероятности. В зависимости от характера изменения данных N можно сделать постоянной, не зависящей от глубины секвенирования ai+bi или функцией ai+bi, что уменьшает смещение для более высоких значений глубины секвенирования.According to an embodiment comprising a random bias with a standard deviation s, said expression takes the form X ~ BetaBinom (p (A), a i + b i , s), where the amount of additional variation is determined using the deviation parameter s or, equivalently, N. The smaller the value of s (or the larger the value of N), the closer this distribution is to the normal binomial distribution. You can estimate the magnitude of the offset, that is, evaluate the above value of N, based on the unique contexts AA | AA, BB | BB, AA | BB, BB | AA, and use the estimate
Figure 00000018
when calculating the above probability. Depending on the nature of the change in data, N can be made constant, independent of the depth of sequencing a i + b i or function a i + b i , which reduces the bias for higher values of the depth of sequencing.

Согласно варианту осуществления способ на основе информатики может учитывать смещение из расчета на SNP. Вследствие появления артефактов в процессе секвенирования некоторые SNP могут характеризоваться стабильно более низкими или более высокими значениями числа аллелей вне зависимости от истинной величины содержания аллеля А. Предположим, что SNP i стабильно прибавляет смещение на процент wi к числу аллеля А. Согласно некоторым вариантам осуществления указанное смещение можно оценить, исходя из набора данных режима обучения, полученных при таких же условиях, и прибавить к оценке данных секвенирования для родителей в виде:According to an embodiment, the informatics-based method may take into account the offset based on SNP. Due to the appearance of artifacts during the sequencing process, some SNPs may have consistently lower or higher allele numbers, regardless of the true value of allele A. Suppose that SNP i stably adds an offset of a percentage w i to the number of allele A. According to some embodiments, this the bias can be estimated based on a set of training mode data obtained under the same conditions and added to the assessment of sequencing data for parents in the form of:

P(SM|m,i)=PX|m(ami), где X|m~BetaBinom(pm(A)+wi, ami+bmi,s)P (SM | m, i) = P X | m (am i ), where X | m ~ BetaBinom (p m (A) + w i , am i + bm i , s)

и с оценкой вероятности данных секвенирования свободноплавающей ДНК в виде:and with an estimate of the probability of free-floating DNA sequencing in the form of:

P(S|m, с, cf, Н, i)=Px(ai) где X~BetaBinom(p(A)+wi,ai+bi,s),P (S | m, s, cf, H, i) = P x (a i ) where X ~ BetaBinom (p (A) + w i , a i + b i , s),

Согласно некоторым вариантам осуществления способ можно записать так, чтобы специально учитывать дополнительный шум, различное качество образцов, различное качество SNP и случайные смещения выборки. Пример такой записи приведен в настоящем документе. Указанный способ, как было показано, является особенно полезным применительно к данным, полученным с использованием протокола для массивно-мультиплексной мини-ПЦР, и его использовали в экспериментах 7-13. Способ включает несколько этапов, каждый из которых учитывает отдельный вид шума и/или смещения в конечной модели:According to some embodiments, the method can be written so as to specifically take into account additional noise, different sample quality, different SNP quality, and random sample offsets. An example of such a record is provided herein. This method, as has been shown, is particularly useful in relation to data obtained using the protocol for massively multiplex mini-PCR, and it was used in experiments 7-13. The method includes several stages, each of which takes into account a separate type of noise and / or displacement in the final model:

(1) Предположим, что первый образец, который содержит смесь ДНК матери и плода, содержит исходное количество молекул ДНК с размером = N0, обычно в диапазоне 1000-40000, где р = истинный % от эталонных значений(1) Assume that the first sample, which contains a mixture of maternal and fetal DNA, contains the initial number of DNA molecules with size = N 0 , usually in the range 1000-40000, where p = true% of the reference values

(2) При амплификации с использованием универсальных адаптеров для лигирования предположим, что Ni молекул включены в образец; обычно N1~N0/2 молекул, и учитывается случайное смещение выборки. Амплифицированный образец может содержать количество молекул N2, где N2>>N1. Пусть X1 представляет количество локусов сравнения (в расчете на SNP) без включенных в образец молекул N1 при вариации в p1=X1/N1, что учитывает случайное смещение выборки в остальной части протокола. Это смещение выборки учитывается в модели путем использования бета-биномиального (ВB) распределения вместо использования модели простого биномиального распределения. Параметр N для бета-биномиального распределения может быть оценен позже в расчете на образец, исходя из данных режима обучения после поправки на выброс и смещение при амплификации для SNP с 0<p<1. Выброс представляет собой тенденцию к неверному прочтению SNP.(2) When amplifying using universal ligation adapters, suppose that Ni molecules are included in the sample; usually N 1 ~ N 0/2 molecules, and random sampling bias is taken into account. The amplified sample may contain the number of molecules N 2 where N 2 >> N 1 . Let X 1 represent the number of comparison loci (calculated on SNP) without the N 1 molecules included in the sample with variations in p 1 = X 1 / N 1 , which takes into account the random sample bias in the rest of the protocol. This sample bias is taken into account in the model by using a beta-binomial (BB) distribution instead of using a simple binomial distribution model. The parameter N for the beta-binomial distribution can be estimated later per sample based on the data of the training mode after correction for outlier and bias during amplification for SNP with 0 <p <1. An outlier tends to misread the SNP.

(3) Этап амплификации будет увеличивать любое аллельное смещение, обуславливая появление смещения амплификации вследствие возможной неравномерной амплификации. Предположим, что один аллель в локусе амплифицируется f раз, а другой аллель в данном локусе амплифицируется g раз, где f=geb и где b=0 указывает на отсутствие смещения. Показатель погрешности, b, центрирован в 0 и указывает на то, насколько больше или меньше амплифицируется аллель А в сравнении с аллелем В для конкретного SNP. Показатель b может различаться для разных SNP. Показатель смещения b можно оценить в расчете на SNP, например, исходя из данных обучающего режима.(3) The amplification step will increase any allelic displacement, causing the appearance of an amplification displacement due to possible uneven amplification. Suppose that one allele at the locus is amplified f times, and the other allele at this locus is amplified g times, where f = ge b and where b = 0 indicates the absence of bias. The error score, b, is centered at 0 and indicates how much more or less the A allele is amplified compared to B allele for a particular SNP. Score b may vary for different SNPs. The bias index b can be estimated based on SNP, for example, based on the data of the training mode.

(4) Этап секвенирования включает секвенирование образца амплифицированных молекул. На этом этапе может иметь место выброс, представляющий собой ситуацию, когда SNP считывается неверно. Выброс может происходить из-за ряда проблем, и может приводить в результате к считыванию SNP не как корректного аллеля А, а другого аллеля В, находящегося в данном локусе, или как аллеля С или D, которые обычно не обнаруживаются в указанном локусе. Предположим, что при секвенировании измерены данные последовательностей для ряда молекул ДНК из амплифицированного образца с размером N3, где N3<N2. Согласно некоторым вариантам осуществления N3 может находиться в диапазоне от 20000 до 100000; от 100000 до 500000; от 500000 до 4000000; от 4000000 до 20000000 или от 20000000 до 100000000. Каждая молекула в образце характеризуется вероятностью pg корректного считывания, при котором она будет корректно выявляться как аллель А. Образец будет прочитан некорректно, как аллель, не связанный с исходной молекулой, с вероятностью l-pg, и будет выглядеть, как аллель А с вероятностью рr, как аллель В с вероятностью рm или как аллель С или аллель D с вероятностью рo, где pr+pm+po=l. Параметры pg, pr, рm, рo оценивают в расчете на SNP, исходя из данных обучающего режима.(4) The sequencing step involves sequencing a sample of amplified molecules. At this point, an outlier may occur, which is a situation where the SNP is not read correctly. The ejection can occur due to a number of problems, and can result in the reading of SNPs not as a correct allele A, but as another allele B located in a given locus, or as an allele C or D, which are usually not found at a given locus. Suppose that sequencing measured sequence data for a number of DNA molecules from an amplified sample with a size of N 3 , where N 3 <N 2 . In some embodiments, N 3 may range from 20,000 to 100,000; from 100,000 to 500,000; from 500,000 to 4,000,000; from 4,000,000 to 20,000,000 or from 20,000,000 to 1,000,000,000. Each molecule in the sample is characterized by the probability p g of correct reading, in which it will be correctly detected as the allele A. The sample will be read incorrectly as an allele that is not associated with the original molecule, with a probability lp g , and it will look like allele A with probability p r , like allele B with probability p m or like allele C or allele D with probability p o , where p r + p m + p o = l. The parameters p g , p r , p m , p o are estimated based on SNP, based on the data of the training mode.

Различные протоколы могут включать аналогичные этапы с вариациями на молекулярно-биологических этапах, приводящими в результате к различным уровням случайности выборки, разным уровням амплификации и разному смещению при выбросе. Представленная ниже модель может с равным успехом применяться в каждом из указанных случаев. Модель для количества ДНК в образце из расчета на SNP имеет вид:Different protocols may include similar steps with variations in the molecular biological steps, resulting in different levels of randomness of the sample, different levels of amplification, and different displacement during outlier. The model presented below can equally well be applied in each of the indicated cases. The model for the amount of DNA in the sample based on SNP is:

Х3~BetaBinomial (L(F(p,b),pr,pg), N*H(p,b)X 3 ~ BetaBinomial (L (F (p, b), p r , p g ), N * H (p, b)

где p = истинное количество эталонной ДНК, b = смещение в расчете на SNP, и, как описано выше, pg представляет собой вероятность корректного считывания, рr представляет собой вероятность того, что считываемый фрагмент (считываемая последовательность) прочтен некорректно, но по случайному стечению обстоятельств похож на корректный аллель, в случае неправильного считывания, согласно описанию выше, и:where p = true amount of reference DNA, b = bias per SNP, and as described above, p g is the probability of correct reading, p r is the probability that the reading fragment (reading sequence) is incorrect, but random By coincidence, it is similar to the correct allele, in case of incorrect reading, as described above, and:

F(p,b)=peb/(peb+(l-p)), H(p,b)=(ebp+(l-p))2/eb, L(p,pr,pg)=p*pg+pr*(l-pg).F (p, b) = pe b / (pe b + (lp)), H (p, b) = (e b p + (lp)) 2 / e b , L (p, p r , p g ) = p * p g + p r * (lp g ).

Согласно некоторым вариантам осуществления в способе используется бета-биномиальное распределение вместо простого биномиального распределения; что учитывает случайное смещение выборки. Показатель N бета-биномиального распределения оценивают в расчете на образец при необходимости. Использование поправки на смещение F(p,b), H(p,b), вместо просто p, учитывает смещение при амплификации. Показатель b смещения оценивают в расчете на SNP, исходя из данных режима обучения, полученных заблаговременно.In some embodiments, the method uses a beta-binomial distribution instead of a simple binomial distribution; which takes into account random sampling bias. Indicator N beta-binomial distribution is estimated based on the sample, if necessary. Using offset correction F (p, b), H (p, b), instead of just p, takes into account the offset during amplification. The bias index b is estimated based on the SNP, based on the training mode data obtained in advance.

Согласно некоторым вариантам осуществления в способе используется поправка на выброс L(p,pr,pg) вместо просто p; она учитывает смещение при выбросе, то есть изменение SNP и качества образца. Согласно некоторым вариантам осуществления параметры pg, рr, рo оценивают в расчете на SNP, исходя из данных режима обучения, полученных заблаговременно. Согласно некоторым вариантам осуществления параметры pg, рr, рo можно обновлять при обработке текущего образца без остановки процесса с тем, чтобы учесть изменяющееся качество образца.In some embodiments, the method uses an emission correction L (p, p r , p g ) instead of just p; it takes into account displacement during ejection, that is, a change in SNP and sample quality. According to some embodiments, the parameters p g , p r , p o are estimated based on SNP based on the training mode data obtained in advance. According to some embodiments, the parameters p g , p r , p o can be updated while processing the current sample without stopping the process so as to take into account the changing quality of the sample.

Модель, описанная в настоящем документе, является достаточно общей и может учитывать как различающееся качество образцов, так и различающееся качество SNP. Разные образцы и SNP обрабатывают по-разному, например, согласно некоторым вариантам осуществления используют бета-биномиальные распределения, где среднее значение и дисперсия являются функцией исходного количества ДНК, а также качества образца и SNP. Базовое моделированиеThe model described in this document is quite general and can take into account both the varying quality of the samples and the varying quality of the SNP. Different samples and SNPs are treated differently, for example, according to some embodiments, beta-binomial distributions are used, where the average value and variance are a function of the initial amount of DNA, as well as the quality of the sample and SNP. Basic modeling

Рассмотрим один SNP, где ожидаемое аллельное отношение, присутствующих в плазме крови, представляет собой г (исходя из генотипов матери и плода). Ожидаемое аллельное отношение определено как ожидаемая доля аллелей А в объединенной ДНК матери и плода. Для генотипа матери gm и генотипа ребенка gc ожидаемое аллельное отношение задается уравнением 1 при предположении, что генотипы представлены в той же мере, что и аллельные отношения.Consider one SNP where the expected allelic ratio present in the blood plasma is g (based on the genotypes of the mother and fetus). The expected allelic ratio is defined as the expected proportion of A alleles in the combined DNA of the mother and fetus. For the mother genotype g m and the child genotype g c, the expected allelic ratio is given by equation 1 under the assumption that the genotypes are presented to the same extent as the allelic relations.

Figure 00000019
Figure 00000019

Результат наблюдений по SNP состоит из ряда картируемых считываний, соответствующих каждому присутствующему аллелю, па и пь, сумма которых дает глубину секвенирования d. Предположим, что пороговые значения уже были применены к вероятностям картирования и оценкам phred, таким образом, картирование и наблюдаемые аллели можно рассматривать как достоверные. Оценка phred представляет собой численную меру, которая относится к вероятности того, что конкретное измерение для конкретного основания является ошибочным. Согласно варианту осуществления, если данные для основания получены путем секвенирования, оценку phred можно рассчитать, исходя из отношения интенсивности свечения красителя, соответствующей определяемому основанию и интенсивности свечения красителя для других оснований. Простейшей моделью для определения вероятности результатов наблюдения является биномиальное распределение, которое предполагает, что каждый из d считываний независимо взят из большого пула, который характеризуется аллельным отношением r. Уравнение 2 описывает указанную модель.The SNP observation result consists of a series of mapped readings corresponding to each allele present, pa and pi, the sum of which gives the sequencing depth d. Assume that thresholds have already been applied to mapping probabilities and phred estimates, so mapping and observed alleles can be considered reliable. The phred score is a numerical measure that relates to the likelihood that a particular measurement for a particular base is erroneous. According to an embodiment, if the data for the base is obtained by sequencing, the phred score can be calculated based on the ratio of the luminescence intensity of the dye corresponding to the determined base and the luminescence intensity of the dye for other bases. The simplest model for determining the probability of observation results is a binomial distribution, which assumes that each of the d readings is independently taken from a large pool, which is characterized by the allelic ratio r. Equation 2 describes the specified model.

Figure 00000020
Figure 00000020

Биномиальную модель можно распространить несколькими способами. Если генотипы матери и плода представляют собой либо «все А», либо «все В», ожидаемое аллельное отношение в ДНК плазмы крови будет составлять 0 или 1, и вероятность, выражаемая биномиальной функцией, не будет четко определена. На практике иногда наблюдают неожиданные аллели. Согласно варианту осуществления является возможным использование скорректированного аллельного отношения

Figure 00000021
допускающего небольшое количество непредусмотренных аллелей. Согласно варианту осуществления возможно использование данных обучающего режима для моделирования частоты проявления непредусмотренных аллелей для каждого SNP и использование этой модели для коррекции ожидаемого аллельного отношения. Если ожидаемое аллельное отношение не равно 0 или 1, наблюдаемое аллельное отношение может не сходиться с достаточно высокой глубиной секвенирования с ожидаемым аллельным отношением вследствие смещения амплификации или другого явления. Аллельное отношение в таком случае можно моделировать в виде бета-распределения с центром в точке, соответствующей ожидаемому аллельному отношению, что дает бета-биномиальное распределение для Р(nа, nb|r), которое характеризуется более высокой дисперсией, чем биномиальное.The binomial model can be distributed in several ways. If the maternal and fetal genotypes are either “all A” or “all B”, the expected allelic ratio in the blood plasma DNA will be 0 or 1, and the probability expressed by binomial function will not be clearly defined. In practice, unexpected alleles are sometimes observed. According to an embodiment, it is possible to use a corrected allelic ratio
Figure 00000021
allowing a small number of unintended alleles. According to an embodiment, it is possible to use training mode data to model the frequency of occurrence of unintended alleles for each SNP and use this model to correct the expected allele ratio. If the expected allelic ratio is not 0 or 1, the observed allelic ratio may not converge with a sufficiently high sequencing depth with the expected allelic ratio due to bias amplification or other phenomena. The allelic ratio in this case can be modeled as a beta distribution centered at a point corresponding to the expected allelic ratio, which gives a beta-binomial distribution for P (n a , n b | r), which is characterized by a higher dispersion than binomial.

Базовая модель для ответа по одному SNP будет определяться как F(a, b, gc, gm, f) (3), или вероятность наблюдения na=а и nb=b с учетом генотипов матери и плода, которая также зависит от доли плодной ДНК в соответствии с уравнением 1. Функциональной формой F может быть биномиальное распределение, бета-биномиальное распределение или аналогичные функции, согласно обсуждению выше.The basic model for a response using one SNP will be determined as F (a, b, g c , g m , f) (3), or the probability of observation is n a = a and n b = b, taking into account the genotypes of the mother and fetus, which also depends of the fraction of fetal DNA in accordance with equation 1. The functional form F may be a binomial distribution, beta-binomial distribution or similar functions, as discussed above.

Figure 00000022
Figure 00000022

Согласно варианту осуществления долю ребенка можно определить следующим образом. Оценку максимального правдоподобия для доли плода f при пренатальном тестировании можно получить без использования информации от родителей. Это может быть уместно в тех случаях, когда генетические данные родителей недоступны, например, когда номинальный отец не является фактическим генетическим отцом плода. Долю плода оценивают на основе набора SNP, где генотип матери представлен 0 или 1, что дает набор из всего двух возможных генотипов плода. Определим So как набор SNP с генотипом матери 0, и S1 как набор SNP с генотипом матери 1. Возможные генотипы плода при S0 представлены 0 и 0,5, что дает в результате набор возможных аллельных отношений R0(f)={0,f/2}. Аналогичным образом, R1(f)={l-f/2, 1}. Указанный способ можно тривиальным образом расширить с включением SNP, где материнский генотип представлен 0,5, но эти SNP будут менее информативны вследствие большего набора возможных аллельных отношений.According to an embodiment, the proportion of the child can be determined as follows. An estimate of the maximum likelihood for fetal fraction f during prenatal testing can be obtained without using information from parents. This may be appropriate in cases where the genetic data of the parents are not available, for example, when the nominal father is not the actual genetic father of the fetus. The fetal fraction is estimated on the basis of the SNP set, where the mother's genotype is represented by 0 or 1, which gives a set of only two possible fetal genotypes. We define So as a set of SNPs with a genotype of mother 0, and S 1 as a set of SNPs with a genotype of mother 1. Possible fetal genotypes at S 0 are 0 and 0.5, which results in a set of possible allelic ratios R 0 (f) = {0 , f / 2}. Similarly, R 1 (f) = {lf / 2, 1}. This method can be trivially expanded to include SNP, where the maternal genotype is represented by 0.5, but these SNPs will be less informative due to the larger set of possible allelic relationships.

Определим Na0 и Nb0 как векторы, образованные nas и nbs для SNP s в S0, и аналогичным образом Na1 и Nb1, для S1. Оценка максимального правдоподобия

Figure 00000023
для f определяется уравнением 4.We define N a0 and N b0 as vectors formed by n as and n bs for SNP s in S 0 , and similarly, N a1 and N b1 , for S 1 . Maximum Credibility Assessment
Figure 00000023
for f is defined by equation 4.

Figure 00000024
Figure 00000024

Предположив, что число аллелей для каждого SNP является независимым и основано на аллельном отношении для SNP в ДНК плазмы крови, вероятности можно выразить в виде произведений для SNP в каждом наборе (5).Assuming that the number of alleles for each SNP is independent and based on the allelic ratio for SNP in blood plasma DNA, the probabilities can be expressed as products for SNP in each set (5).

Figure 00000025
Figure 00000025

Зависимость от f укладывается в наборы возможных аллельных отношений R0(f) и R1(f). Вероятность SNP P(nas, nbs|f) можно аппроксимировать, предполагая зависимость генотипа с максимальным правдоподобием от f. При достаточно высокой доле плода и глубине секвенирования выбор генотипа с максимальным правдоподобием будет иметь высокую достоверность. Например, при доле плода 10% и глубине секвенирования 1000 рассмотрим SNP, где генотип матери - 0. Ожидаемые аллельные отношения составляют 0% и 5%, что будет легко различимо при достаточно большой глубине секвенирования. Подстановка оценки генотипа ребенка в уравнении 5 приводит в результате к законченному уравнению (6) для оценки доли плодной ДНКThe dependence on f fits into the sets of possible allelic ratios R 0 (f) and R 1 (f). The probability of SNP P (n as , n bs | f) can be approximated by assuming that the genotype with maximum likelihood is dependent on f. With a sufficiently high proportion of the fetus and the depth of sequencing, the selection of the genotype with maximum likelihood will have high reliability. For example, with a fetal fraction of 10% and a sequencing depth of 1000, consider SNP, where the mother genotype is 0. The expected allelic ratios are 0% and 5%, which will be easily distinguishable with a sufficiently large sequencing depth. Substitution of the assessment of the child’s genotype in equation 5 results in the completed equation (6) for estimating the proportion of fetal DNA

Figure 00000026
Figure 00000026

Доля плода должна находиться в диапазоне [0, 1] и, таким образом, можно легко осуществить оптимизацию с помощью одномерного поиска с заданными ограничениями.The fetal fraction should be in the range [0, 1] and, thus, optimization can be easily carried out using one-dimensional search with the given restrictions.

При малой глубине секвенирования или высоком уровне шума может быть предпочтительным не предполагать генотип с максимальным правдоподобием, что может привести к искусственно завышенным значениям достоверности. Другим способом может быть суммирование по возможным генотипам при каждом SNP, что дает следующее выражение (7) для P(na, nb|f) при SNP в S0. Априорная вероятность Р(r) может считаться постоянной для R0(f), или она может зависеть от частот в популяции. Распространение на группу S1 является тривиальным.For low sequencing depths or high noise levels, it may be preferable not to assume a genotype with maximum likelihood, which can lead to artificially high confidence values. Another way could be a summation over possible genotypes for each SNP, which gives the following expression (7) for P (n a , n b | f) with SNP at S 0 . The a priori probability P (r) can be considered constant for R 0 (f), or it can depend on the frequencies in the population. The extension to the group S 1 is trivial.

Figure 00000027
Figure 00000027

Согласно некоторым вариантам осуществления значения вероятности могут быть получены следующим образом. Достоверность можно рассчитать исходя из вероятности данных двух гипотез Ht и Hf. Вероятность каждой гипотезы получают на основе модели ответа, оцененной доли плодной ДНК, генотипов матери, частоты аллеля в популяции и числа аллелей в плазме крови.In some embodiments, probability values may be obtained as follows. Reliability can be calculated based on the probability of these two hypotheses, H t and H f . The probability of each hypothesis is obtained on the basis of a response model, an estimated fraction of fetal DNA, maternal genotypes, allele frequency in a population, and the number of alleles in blood plasma.

Определим следующие обозначения:We define the following notation:

Gm, Gc G m , G c истинные генотипы матери и ребенкаtrue mother and baby genotypes Gaf, Gtf G af, G tf истинные генотипы предполагаемого отца и истинного отцаtrue genotypes of the alleged father and true father G(gc, gm, gtf)=P(Gc=gc|Gm=gm,Gtf=gtf)G (g c , g m , g tf ) = P (G c = g c | G m = g m , G tf = g tf ) вероятности наследованияprobabilities of inheritance P(g)=P(Gtf=g)P (g) = P (G tf = g) частота в популяции для генотипа g при конкретном SNPfrequency in the population for genotype g for a particular SNP

Предположив, что данные наблюдений для каждого SNP независимы и основаны на аллельном отношении в плазме крови, значение вероятности для гипотезы отцовства представляет собой произведение значений вероятности при SNP. В следующих уравнениях получают значение вероятности для одного SNP. Уравнение 8 представляет собой общее выражение для вероятности любой гипотезы h, которая будет затем разбита на конкретные случаи Ht и Hf Assuming that the observational data for each SNP are independent and based on the allelic ratio in the blood plasma, the probability value for the paternity hypothesis is the product of the probability values for SNP. The following equations give the probability value for one SNP. Equation 8 is a general expression for the probability of any hypothesis h, which will then be broken down into specific cases of H t and H f

Figure 00000028
Figure 00000028

В случае Ht предполагаемый отец является истинным отцом, и генотипы плода наследуются из генотипов матери и генотипов предполагаемого отца в соответствии с уравнением 9In the case of H t, the prospective father is the true father, and the fetal genotypes are inherited from the mother genotypes and the genotypes of the alleged father in accordance with equation 9

*****P(na, nb|Ht,Gm,Gtf,f)=Y.gce(fifi.s,i)F{na.nb.9c.9m.nP(fic=9c\Gm>Gtf,Ht) (9)=SSce(0,0.5,l) ^(na>пЪ>9c 9m>f)G(9c Gm, Gtf)***** P (na, nb | Ht, Gm, Gtf, f) = Y.gce (fifi.s, i) F {na.nb.9c.9m.nP (fic = 9c \ Gm> Gtf, Ht) (9) = SSce (0,0.5, l) ^ (na> n> 9c 9m> f) G (9c Gm, Gtf)

В случае Hf предполагаемый отец не является истинным отцом. Наилучшая оценка для истинных генотипов отца задается частотами в популяции для каждого SNP. Следовательно, значения вероятности для генотипов ребенка определяют по известным генотипам матери и частотам в популяции, как в уравнении 10.In the case of H f, the alleged father is not the true father. The best score for true father genotypes is given by population frequencies for each SNP. Therefore, the probability values for the child’s genotypes are determined by the known mother genotypes and frequencies in the population, as in equation 10.

Figure 00000029
Figure 00000029

Достоверность Ср для правильно установленного отцовства рассчитывают как произведение по SNP двух значений вероятности с использованием правила Байеса (11).Reliability С p for correctly established paternity is calculated as the product according to SNP of two probability values using the Bayes rule (11).

Figure 00000030
Figure 00000030

Модель максимального правдоподобия с использованием доли плодной ДНК в процентахMaximum likelihood model using percentage fetal DNA

Определение статуса плоидности плода путем измерения свободноплавающей ДНК, содержащейся в сыворотке крови матери, или путем измерения генотипического материала в любом смешанном образце, является неординарной задачей. Существует ряд способов, например, проведение анализа количества считываний, где основанием для предположения является то, что если плод является трисомиком по конкретной хромосоме, то общее количество ДНК от этой хромосомы, присутствующей в материнской крови, будет повышено по сравнению с эталонной хромосомой. Одним способом выявления трисомии у таких плодов является нормализация количества ДНК, ожидаемого для каждой хромосомы, например, в соответствии с количеством SNP в анализируемом наборе, которые соответствуют заданной хромосоме, или в соответствии с количеством однозначно картируемых частей хромосомы. После того как данные, полученные с помощью измерений, нормализованы, любые хромосомы, для которых измеренное количество ДНК превышает определенное пороговое значение, определяют как трисомические. Этот подход описан у Fan, и др. PNAS, 2008; 105 (42); pp. 16266-16271, а также у Chiu и др. BMJ 2011; 342: с7401. В статье Chiu и др. нормализацию выполняли путем расчета оценки Z следующим образом:Determining the status of fetal ploidy by measuring the free-floating DNA contained in the mother's blood serum, or by measuring the genotypic material in any mixed sample, is an extraordinary task. There are a number of methods, for example, analysis of the number of readings, where the basis for the assumption is that if the fetus is a trisomic on a particular chromosome, then the total amount of DNA from this chromosome present in the mother’s blood will be increased compared to the reference chromosome. One way to detect trisomy in such fruits is to normalize the amount of DNA expected for each chromosome, for example, according to the number of SNPs in the sample set that correspond to a given chromosome, or according to the number of uniquely mapped parts of the chromosome. After the data obtained by measurements are normalized, any chromosomes for which the measured amount of DNA exceeds a certain threshold value is determined as trisomic. This approach is described by Fan, et al. PNAS, 2008; 105 (42); pp. 16266-16271, as well as Chiu et al. BMJ 2011; 342: s7401. In an article by Chiu et al., Normalization was performed by calculating the Z score as follows:

оценка Z процентного содержания хромосомы 21 в условиях теста = ((процентное содержание хромосомы 21 в условиях теста) - (среднее значение процентного содержания хромосомы 21 в сравниваемых контролях)) / (стандартное отклонение процентного содержания хромосомы 21 в сравниваемых контролях).estimate Z of the percentage of chromosome 21 in the test conditions = ((the percentage of chromosome 21 in the test conditions) - (the average percentage of chromosome 21 in the compared controls)) / (standard deviation of the percentage of chromosome 21 in the compared controls).

В этих способах статус плоидности плода определяют с использованием способа отклонения одной гипотезы. Однако им свойственны определенные существенные недостатки. Поскольку указанные способы определения плоидности плода инвариантны в отношении процентного содержания ДНК плода в образце, в них используется одна точка отсечения; результатом являются неоптимальные показатели точности определения, и случаи, где процентное содержание ДНК плода в смеси относительно невелико, имеют худшие показатели точности.In these methods, the ploidy status of the fetus is determined using the method of rejecting one hypothesis. However, they are characterized by certain significant disadvantages. Since these methods for determining fetal ploidy are invariant with respect to the percentage of fetal DNA in the sample, they use one cut-off point; the result is non-optimal indicators of the accuracy of determination, and cases where the percentage of fetal DNA in the mixture is relatively small, have worse accuracy indicators.

Согласно варианту осуществления способ согласно настоящему раскрытию используют для определения статуса плоидности плода, при этом способ включает учет доли плодной ДНК в образце. Согласно другому варианту осуществления настоящего раскрытия способ включает использование оценок максимального правдоподобия. Согласно варианту осуществления способ согласно настоящему раскрытию включает расчет процента ДНК, которая является фетальной или плацентарной по происхождению, в образце. Согласно варианту осуществления пороговое значение для прогнозирования анеуплоидии адаптивно корректируют, исходя из рассчитанного процента ДНК плода. Согласно некоторым вариантам осуществления способ оценки процентного содержания ДНК фетального происхождения в смеси ДНК включает получение смешанного образца, который содержит генетический материал от матери и генетический материал от плода, получение генетического образца от отца плода, измерение ДНК в смешанном образце, измерение ДНК в образце от отца и расчет процентного содержания ДНК фетального происхождения в смешанном образце с использованием результатов, полученных с помощью измерений ДНК в смешанном образце и в образце от отца.According to an embodiment, the method according to the present disclosure is used to determine the ploidy status of the fetus, the method comprising taking into account the proportion of fetal DNA in the sample. According to another embodiment of the present disclosure, the method includes using maximum likelihood estimates. According to an embodiment, the method of the present disclosure includes calculating the percentage of DNA that is fetal or placental in origin in a sample. In an embodiment, the threshold for predicting aneuploidy is adaptively adjusted based on the calculated percentage of fetal DNA. In some embodiments, a method for estimating the percentage of fetal DNA in a DNA mixture comprises obtaining a mixed sample that contains genetic material from the mother and genetic material from the fetus, obtaining a genetic sample from the fetal father, measuring DNA in the mixed sample, measuring DNA in the sample from the father and calculating the percentage of fetal DNA in the mixed sample using the results obtained by measuring DNA in the mixed sample and in the sample from father’s.

Согласно варианту осуществления настоящего раскрытия долю ДНК плода или процентное содержание плодной ДНК в смеси можно измерить. Согласно некоторым вариантам осуществления указанную долю можно рассчитать, используя только генотипические измерения непосредственно образца плазмы крови матери, который представляет собой смесь плодной и материнской ДНК. Согласно некоторым вариантам осуществления долю можно также рассчитать с использованием установленного с помощью измерений или известного из другого источника генотипа матери и/или установленного с помощью измерений или известного из другого источника генотипа отца. Согласно некоторым вариантам осуществления процент плодной ДНК можно рассчитать, используя измерения, выполненные на смеси плодной и материнской ДНК, в сочетании с информацией о родительских контекстах. Согласно варианту осуществления долю плодной ДНК можно рассчитать с использованием частот в популяции для коррекции модели в отношении вероятности при измерениях конкретного аллеля.According to an embodiment of the present disclosure, the proportion of fetal DNA or the percentage of fetal DNA in the mixture can be measured. According to some embodiments, the indicated fraction can be calculated using only genotypic measurements of a directly maternal blood plasma sample, which is a mixture of fetal and maternal DNA. In some embodiments, the fraction can also be calculated using the mother’s genotype established by measurements or known from another source and / or the father’s genotype established from measurements or known from another source. In some embodiments, the percentage of fetal DNA can be calculated using measurements made with a mixture of fetal and maternal DNA in combination with parental context information. In an embodiment, the fraction of fetal DNA can be calculated using frequencies in the population to correct the model with respect to probability when measuring a particular allele.

Согласно варианту осуществления настоящего раскрытия можно рассчитать достоверность для точности определения состояния плоидности плода. Согласно варианту осуществления достоверность гипотезы с наибольшим правдоподобием (Hmaj0r) может быть рассчитана как (1-Hmajor)/Σ (для всех Н). Можно определить достоверность гипотезы, если известны распределения для всех гипотез. Определение распределения для всех гипотез возможно, если известна информация о генотипах родителей. Возможен расчет достоверности определения плоидности, если известно ожидаемое распределение данных для эуплоидного плода и ожидаемое распределение данных для анеуплоидного плода. Возможен расчет этих ожидаемых распределений, если известны данные генотипов родителей. Согласно варианту осуществления может быть использована информация о распределении тестовых статистических показателей для гипотезы нормальности и гипотезы аномалии, как для определения надежности прогноза, так и для уточнения порогового значения для более надежного получения признака. Это целесообразно, в частности, если количество и/или процент плодной ДНК в смеси невелики. Это поможет избежать ситуации, когда фактически анеуплоидный плод будет считаться эуплоидным, поскольку тестовые статистические показатели, например, для Z, не превышают порогового значения, которое определено на основе порогового значения, оптимизированного для случая более высокого процента плодной ДНК.According to an embodiment of the present disclosure, reliability can be calculated for accurately determining the ploidy state of the fetus. According to an embodiment, the credibility of the hypothesis with the highest likelihood (Hmaj0r) can be calculated as (1-H major ) / Σ (for all H). The reliability of a hypothesis can be determined if the distributions for all hypotheses are known. Determination of the distribution for all hypotheses is possible if information on the genotypes of the parents is known. The reliability of ploidy determination can be calculated if the expected data distribution for the euploid fetus and the expected data distribution for the aneuploid fetus are known. It is possible to calculate these expected distributions if the data of the parental genotypes are known. According to an embodiment, information on the distribution of test statistical indicators can be used for the normality hypothesis and the anomaly hypothesis, both to determine the reliability of the forecast and to refine the threshold value to more reliably obtain the attribute. This is advisable, in particular, if the amount and / or percentage of fetal DNA in the mixture is small. This will help to avoid a situation where an aneuploid fetus will actually be considered euploid, because test statistics, for example, for Z, do not exceed the threshold value, which is determined based on the threshold value optimized for the case of a higher percentage of fetal DNA.

Согласно варианту осуществления способ, раскрытый в настоящем документе, можно применять для определения анеуплоидии у плода путем определения количества копий целевых хромосом матери и ребенка в смеси генетического материала матери и плода. Способ может включать получение ткани матери, содержащей генетический материал как матери, так и плода; согласно некоторым вариантам осуществления этой тканью матери может быть плазма крови матери или ткань, выделенная из крови матери. Указанный способ может также включать получение смеси генетического материала матери и плода из указанной ткани матери путем обработки вышеупомянутой ткани матери. Указанный способ может включать распределение полученного генетического материала на множество реакционных образцов, чтобы в произвольном порядке получить индивидуальные реакционные образцы, которые содержат целевую последовательность из целевой хромосомы, и индивидуальные реакционные образцы, которые не содержат целевую последовательность из целевой хромосомы, например для проведения на образце секвенирования с высокой пропускной способностью. Указанный способ включает анализ целевых последовательностей в генетическом материале, присутствующем или отсутствующем в указанных индивидуальных реакционных образцах, с получением первого ряда бинарных результатов, представляющих наличие или отсутствие предположительно эуплоидной хромосомы плода в реакционных образцах, и второго ряда бинарных результатов, представляющих наличие или отсутствие возможно анеуплоидной хромосомы плода в реакционных образцах. Любой из ряда бинарных результатов можно рассчитать, например, с помощью методики на основе информатики, которая подсчитывает количество считанных последовательностей, которые картируются с конкретной хромосомой, конкретной областью хромосомы, конкретным локусом или набором локусов. Указанный способ может включать нормализацию ряда бинарных событий, исходя из длины хромосомы, длины области хромосомы или количества локусов в наборе. Указанный способ может включать в себя расчет ожидаемого распределения в ряду бинарных результатов для предположительно эуплоидной хромосомы плода в реакционных образцах с использованием первого ряда. Указанный способ может включать в себя расчет ожидаемого распределения в ряду бинарных результатов для предположительно анеуплоидной хромосомы плода в реакционных образцах с использованием первого ряда и оцененной доли плодной ДНК, присутствующей в смеси, например, путем умножения ожидаемого распределения числа считанных последовательностей из ряда бинарных результатов для предположительно эуплоидной хромосомы плода на (1+n/2), где n представляет собой оценку доли плодной ДНК. Согласно некоторым вариантам осуществления считанные последовательности при секвенировании можно рассматривать как вероятностные результаты картирования, а не бинарные результаты; указанный способ будет давать большую точность, но требует больших вычислительных мощностей. Долю ДНК плода можно оценить с помощью множества способов, некоторые из которых описаны в других местах в данном раскрытии. Указанный способ может включать использование метода максимального правдоподобия для определения соответствия второго ряда ситуации, когда возможно анеуплоидная хромосома плода является эуплоидной или является анеуплоидной. Указанный способ может включать прогнозирование статуса плоидности плода как статуса плоидности, который соответствует гипотезе с максимальным правдоподобием корректности с учетом измеренных данных.According to an embodiment, the method disclosed herein can be used to determine aneuploidy in the fetus by determining the number of copies of the target chromosomes of the mother and child in a mixture of the genetic material of the mother and the fetus. The method may include obtaining mother tissue containing genetic material of both the mother and the fetus; in some embodiments, the mother’s tissue may be maternal blood plasma or tissue isolated from maternal blood. The method may also include obtaining a mixture of genetic material of the mother and the fetus from the specified mother tissue by processing the aforementioned mother tissue. The specified method may include the distribution of the obtained genetic material on many reaction samples in order to randomly obtain individual reaction samples that contain the target sequence from the target chromosome, and individual reaction samples that do not contain the target sequence from the target chromosome, for example, for sequencing on the sample with high bandwidth. The method comprises analyzing target sequences in genetic material present or absent in said individual reaction samples to obtain a first row of binary results representing the presence or absence of a presumably fetal euploid chromosome in the reaction samples, and a second row of binary results representing the presence or absence of a possibly aneuploid fetal chromosomes in reaction samples. Any of a number of binary results can be calculated, for example, using an informatics-based technique that counts the number of read sequences that map to a particular chromosome, a specific region of a chromosome, a specific locus, or set of loci. The specified method may include the normalization of a number of binary events, based on the length of the chromosome, the length of the region of the chromosome, or the number of loci in the set. The method may include calculating the expected distribution in a series of binary results for the presumably fetal euploid chromosome in the reaction samples using the first row. The method may include calculating the expected distribution in a series of binary results for a presumably aneuploid fetal chromosome in the reaction samples using the first row and the estimated fraction of fetal DNA present in the mixture, for example, by multiplying the expected distribution of the number of read sequences from a series of binary results for the supposedly fetal euploid chromosome at (1 + n / 2), where n is an estimate of the proportion of fetal DNA. According to some embodiments, the read sequences during sequencing can be considered probabilistic mapping results rather than binary results; this method will give greater accuracy, but requires large computing power. The proportion of fetal DNA can be estimated using a variety of methods, some of which are described elsewhere in this disclosure. The specified method may include the use of the maximum likelihood method to determine the correspondence of the second row of the situation when the fetus aneuploid chromosome is euploid or aneuploid. The specified method may include predicting the status of fetal ploidy as ploidy status, which corresponds to the hypothesis with the maximum likelihood of correctness taking into account the measured data.

Отметим, что модель максимального правдоподобия можно использовать для повышения точности любого способа, с помощью которого определяют статус плоидности плода. Аналогичным образом, можно рассчитать достоверность для любого способа, с помощью которого определяют статус плоидности плода. Использование модели максимального правдоподобия будет приводить к улучшению точности любого способа, в котором определение плоидности выполняют с использованием методики с отклонением одной гипотезы. Модель максимального правдоподобия можно использовать для любого способа, где распределение значений правдоподобия можно рассчитать как для случая, соответствующего норме, так и для случая, соответствующего аномалии. Использование модели максимального правдоподобия подразумевает возможность расчета достоверности для прогноза плоидности.Note that the maximum likelihood model can be used to increase the accuracy of any method by which the ploidy status of the fetus is determined. Similarly, reliability can be calculated for any method by which the ploidy status of the fetus is determined. Using the maximum likelihood model will lead to an improvement in the accuracy of any method in which ploidy determination is performed using a technique with a single hypothesis rejection. The maximum likelihood model can be used for any method where the distribution of the likelihood values can be calculated both for the case corresponding to the norm and for the case corresponding to the anomaly. Using the maximum likelihood model implies the possibility of calculating reliability for predicting ploidy.

Дальнейшее обсуждение способаFurther discussion of the method

Согласно варианту осуществления в способе, раскрытом в настоящем документе, используют количественную меру числа независимых наблюдений для каждого аллеля в полиморфном локусе, причем он не включает расчет соотношения аллелей. Он отличается от таких способов, как некоторые способы на основе микроматриц, с помощью которых получают информацию о соотношении двух аллелей в локусе, но не определяют количественно число независимых наблюдений какого-либо аллеля. Некоторые известные в данной области техники способы могут обеспечить количественную информацию в отношении числа независимых наблюдений, но при расчетах, приводящих к определению плоидности, используют только аллельные отношения и не используют количественную информацию. Чтобы проиллюстрировать важность сохранения информации о числе независимых наблюдений, рассмотрим примерный локус с двумя аллелями, А и В. В первом эксперименте наблюдают двадцать аллелей А и двадцать аллелей В, во втором эксперименте наблюдают 200 аллелей А аллели и 200 аллелей В. В обоих экспериментах соотношение (А/(А+В)) является равным 0,5, однако второй эксперимент дает больше информации о достоверности частоты аллеля А или В, чем первый. В указанном способе вместо использования соотношений аллелей используют количественные данные для более точного моделирования наиболее вероятных частот аллеля в каждом полиморфном локусе.According to an embodiment, the method disclosed herein uses a quantitative measure of the number of independent observations for each allele at a polymorphic locus, and it does not include calculation of the ratio of alleles. It differs from such methods as some methods based on microarrays, by which they obtain information on the ratio of two alleles at a locus, but do not quantify the number of independent observations of any allele. Some methods known in the art can provide quantitative information regarding the number of independent observations, but in calculations leading to the determination of ploidy, only allelic ratios are used and no quantitative information is used. To illustrate the importance of maintaining information about the number of independent observations, consider an exemplary locus with two alleles, A and B. In the first experiment, twenty alleles A and twenty alleles B are observed, in the second experiment, 200 alleles A alleles and 200 alleles B are observed. In both experiments, the ratio (A / (A + B)) is equal to 0.5, however, the second experiment gives more information about the reliability of the frequency of the allele A or B than the first. In this method, instead of using allele ratios, quantitative data are used to more accurately model the most probable allele frequencies at each polymorphic locus.

Согласно варианту осуществления в данных способах создают генетическую модель для объединения данных измерений от многих полиморфных локусов для лучшего различения трисомии от дисомии, а также для определения типа трисомии. Кроме того, в данном способе учитывается информация о генетическом сцеплении для повышения точности способа. Это отличается от некоторых способов, известных в данной области техники, где соотношения аллелей усредняют по всем полиморфным локусам в хромосоме. В способе, раскрытом в настоящем документе, подробно моделируются распределения частоты аллеля, ожидаемые при дисомии, также как и при трисомии, возникающей в результате нерасхождения в ходе мейоза I, нерасхождения в ходе мейоза II и нерасхождения в ходе митоза на ранних стадиях развития плода. Для иллюстрации важности этого, отметим, что при отсутствии кроссинговеров нерасхождение в мейозе I приведет к трисомии, при которой два различных гомолога унаследованы от одного родителя; нерасхождение в мейозе II или в митозе на ранних стадиях развития плода приведет к двум копиям одного и того же гомолога от одного родителя. Каждый сценарий приводит к различным ожидаемым частотам аллелей в каждом полиморфном локусе, а также во всех физически сцепленных локусах (то есть локусах на одной хромосоме), рассматриваемых совместно. Случаи кроссинговера, которые приводят в результате к обмену генетического материала между гомологами, делают характер наследования более сложным, однако указанный способ компенсирует это за счет использования информации о генетическом сцеплении, то есть информации об уровне рекомбинации и физическом расстоянии между локусами. Для лучшего установления различий между нерасхождением в мейозе I и нерасхождением в мейозе II или митозе в указанном способе в модель включена возрастающую вероятность кроссинговера с возрастанием расстояния от центромеры. Нерасхождение в мейозе II и в митозе можно отличить на основании того факта, что нерасхождение в митозе, как правило, приводит в результате к идентичным или почти идентичным копиям одного гомолога, тогда как два гомолога, присутствующие после нерасхождения в мейозе II, часто отличаются вследствие одного или нескольких случаев кроссинговера в ходе гаметогенеза.According to an embodiment, a genetic model is created in these methods for combining measurement data from many polymorphic loci to better distinguish trisomy from disomy, as well as to determine the type of trisomy. In addition, this method takes into account information on genetic linkage to improve the accuracy of the method. This differs from some methods known in the art, where allele ratios are averaged over all polymorphic loci in the chromosome. In the method disclosed herein, the allele frequency distributions expected in case of dysomy are modeled in detail, as well as in trisomy resulting from nondisjunction during meiosis I, nondisjunction during meiosis II and nondisjunction during mitosis in the early stages of fetal development. To illustrate the importance of this, we note that in the absence of crossing-over, nondisjunction in meiosis I will lead to trisomy, in which two different homologues are inherited from one parent; nondisjunction in meiosis II or in mitosis in the early stages of fetal development will lead to two copies of the same homologue from the same parent. Each scenario leads to different expected allele frequencies at each polymorphic locus, as well as at all physically linked loci (i.e., loci on the same chromosome), considered together. Cases of crossing over, which result in the exchange of genetic material between homologs, make the character of inheritance more complicated, however, this method compensates for this by using information on genetic linkage, that is, information on the level of recombination and the physical distance between the loci. To better establish the differences between nondisjunction in meiosis I and nondisjunction in meiosis II or mitosis in the indicated method, the model includes an increasing probability of crossing over with increasing distance from the centromere. The divergence in meiosis II and mitosis can be distinguished on the basis of the fact that nondisjunction in mitosis, as a rule, results in identical or almost identical copies of one homolog, while the two homologs present after nondisjunction in meiosis II often differ due to one or several cases of crossing over during gametogenesis.

Согласно варианту осуществления в способе согласно настоящему раскрытию можно не определять гаплотипы родителей, если предполагается дисомия. Согласно варианту осуществления в случае трисомии указанный способ может включать определение гаплотипов одного или обоих родителей с использованием того факта, что в плазме крови содержатся две копии от одного родителя, и информацию относительно фазы родителя можно получить, отметив, какие две копии были унаследованы от изучаемого родителя. В частности, ребенок может унаследовать либо две одинаковые копии родительской хромосомы (совпадающая трисомия), либо обе копии родительской хромосомы (несовпадающая трисомия). Для каждого SNP специалист в данной области техники может рассчитать вероятность совпадающей трисомии и несовпадающей трисомии. В способе прогнозирования плоидности, в котором не используется модель сцепления, учитывающая случаи кроссинговера, будет рассчитываться общая вероятность трисомии как простое средневзвешенное значение для совпадающей и несовпадающей трисомий по всем хромосомам. Тем не менее, из-за биологических механизмов, которые приводят к ошибке нерасхождения и кроссинговеру, трисомия в хромосоме может меняться с совпадающей на несовпадающую (и наоборот) только в тех случаях, когда имеет место кроссинговер. Представленный способ вероятностно учитывает вероятность кроссинговера, обеспечивая прогнозирование плоидности с большей точностью, чем способы, которые этого не учитывают.According to an embodiment, in the method according to the present disclosure, parental haplotypes may not be determined if disomy is suspected. According to an embodiment, in the case of trisomy, the method may include determining the haplotypes of one or both parents using the fact that the blood plasma contains two copies from one parent and information regarding the phase of the parent can be obtained by noting which two copies were inherited from the parent being studied. . In particular, a child can inherit either two identical copies of the parent chromosome (matching trisomy), or both copies of the parent chromosome (matching trisomy). For each SNP, one of skill in the art can calculate the likelihood of matching trisomy and mismatching trisomy. In a ploidy prediction method that does not use a linkage model that takes into account crossing-over cases, the total probability of trisomy will be calculated as a simple weighted average for matching and mismatching trisomies across all chromosomes. However, due to biological mechanisms that lead to nondisjunction error and crossing over, trisomy in the chromosome can change from coinciding to mismatching (and vice versa) only in cases where crossingover occurs. The presented method probabilistically takes into account the probability of crossing over, providing prediction of ploidy with greater accuracy than methods that do not take this into account.

Согласно варианту осуществления эталонную хромосому используют для определения доли ребенка и величины уровня шума или распределения вероятности. Согласно варианту осуществления долю ребенка, уровень шума и/или распределение вероятности определяют с использованием только генетической информации, доступной для хромосомы, статус плоидности которой определяют.Указанный способ работает без эталонной хромосомы, также как и без установления конкретного значения доли ребенка или уровня шума. Это является существенным улучшением и отличием от способов, известных в данной области техники, где генетические данные для эталонной хромосомы являются необходимыми для калибровки доли ребенка и поведения хромосом.According to an embodiment, the reference chromosome is used to determine the proportion of the child and the magnitude of the noise level or probability distribution. According to an embodiment, the child’s share, noise level and / or probability distribution is determined using only genetic information available for the chromosome whose ploidy status is determined. This method works without a reference chromosome, as well as without establishing a specific value for the child’s share or noise level. This is a significant improvement and difference from methods known in the art, where genetic data for a reference chromosome are necessary to calibrate a child’s share and chromosome behavior.

Согласно варианту осуществления, если эталонная хромосома не является необходимой для определения доли плода, определение гипотезы выполняют следующим образом:According to a variant implementation, if the reference chromosome is not necessary to determine the proportion of the fetus, the definition of the hypothesis is as follows:

Figure 00000031
Figure 00000031

Согласно алгоритму, включающему эталонную хромосому, как правило, предполагается, что эталонная хромосома дисомна, и затем можно либо (а) установить наиболее вероятное значение доли ребенка и произвольный уровень шума N, исходя из данного предположения и данных для эталонной хромосомы:According to an algorithm that includes a reference chromosome, it is usually assumed that the reference chromosome is disomine, and then you can either (a) establish the most probable value of the child’s share and an arbitrary noise level N, based on this assumption and the data for the reference chromosome:

Figure 00000032
Figure 00000032

А затем свести кAnd then reduce to

LIK(D|H)=LIK(D|H,cfr*,N*)LIK (D | H) = LIK (D | H, cfr *, N *)

либо (b) оценить распределение доли ДНК ребенка и уровня шума, исходя из данного предположения и данных для эталонной хромосомы. В частности, не устанавливается всего одно значение для cfr и N, а задается вероятность p(cfr, N) для более широкого диапазона возможных значений cfr, N:or (b) evaluate the distribution of the baby’s DNA fraction and noise level based on this assumption and data for the reference chromosome. In particular, it does not establish just one value for cfr and N, but sets the probability p (cfr, N) for a wider range of possible values of cfr, N:

p(cfr,N)~LIK(D(ref. chrom)|H11,cfr,N) * priorprob(cfr, N)p (cfr, N) ~ LIK (D (ref. chrom) | H11, cfr, N) * priorprob (cfr, N)

где priorprob(cfr, N) представляет собой априорную вероятность для конкретного значения доли ребенка и уровня шума, определенную на основе доступной информации и экспериментов, при необходимости, одинаковую для диапазона cfr, N. Таким образом, можно записать:where priorprob (cfr, N) is the a priori probability for a specific value of the child’s share and noise level, determined on the basis of available information and experiments, if necessary, the same for the cfr, N range. Thus, we can write:

Figure 00000033
Figure 00000033

Оба вышеописанных способа дают хорошие результаты.Both of the above methods give good results.

Отметим, что в некоторых случаях использование эталонной хромосомы не является желательным, возможным или целесообразным. В таком случае можно получить наилучший прогноз плоидности отдельно для каждой хромосомы. В частности:Note that in some cases, the use of a reference chromosome is not desirable, possible or appropriate. In this case, you can get the best prediction of ploidy separately for each chromosome. In particular:

Figure 00000034
Figure 00000034

p(cfr, N|H) может быть определена как указано выше, отдельно для каждой хромосомы, предполагая гипотезу Н, не только дисомию для эталонной хромосомы. Используя указанный способ, возможно установить заданные значения параметров как шума, так и доли ребенка, установить заданное значение для любого из указанных параметров или задавать оба параметра в вероятностной форме, для каждой хромосомы и каждой гипотезы.p (cfr, N | H) can be determined as described above, separately for each chromosome, suggesting hypothesis H, not only disomy for the reference chromosome. Using this method, it is possible to set the specified values of the parameters of both noise and the child’s share, set the set value for any of the specified parameters, or set both parameters in the probabilistic form, for each chromosome and each hypothesis.

Измерения ДНК имеют тенденцию к присутствию шума и/или ошибок, особенно измерения в тех случаях, когда количество ДНК невелико, или если ДНК присутствует в смеси с загрязняющей ДНК. Указанный шум приводит в результате к менее точным генотипическим данным и менее точному прогнозированию плоидности. Согласно некоторым вариантам осуществления базовое моделирование или какой-либо другой способ моделирования шума можно использовать для противодействия неблагоприятным воздействиям шума на определение плоидности. В данном способе используется совместная модель для обоих каналов, которая учитывает случайный шум, обусловленный количеством поступающей ДНК, качеством ДНК и/или качеством протокола.DNA measurements tend to have noise and / or errors, especially when the amount of DNA is small or if the DNA is mixed with contaminating DNA. This noise results in less accurate genotypic data and less accurate prediction of ploidy. In some embodiments, basic modeling or some other noise modeling technique can be used to counteract the adverse effects of noise on ploidy determination. This method uses a joint model for both channels, which takes into account random noise due to the amount of incoming DNA, the quality of the DNA and / or the quality of the protocol.

Это отличается от некоторых способов, известных в данной области техники, где определение плоидности выполняют с использованием отношения плотностей аллеля в локусе. Этот способ заранее исключает точное моделирование шума при SNP. В частности, ошибки при измерениях, как правило, не зависят специфически от измеряемого в канале отношения плотности, что сокращает модель до использования одномерной информации. Точное моделирование шума, качества в канале и взаимодействия каналов требует двумерной совместной модели, которая не может быть создана с использованием аллельных отношений.This differs from some methods known in the art, where ploidy determination is performed using the ratio of allele densities at the locus. This method precludes accurate SNP noise modeling in advance. In particular, measurement errors, as a rule, do not depend specifically on the density ratio measured in the channel, which reduces the model to the use of one-dimensional information. Accurate modeling of noise, channel quality, and channel interaction requires a two-dimensional joint model that cannot be created using allelic ratios.

В частности, перевод информации от двух каналов в отношение г, где f(x,y) представляет собой г=х/у, не подходит для точного моделирования шума и смещения. Шум для конкретного SNP не является функцией отношения, то есть шум (х,у)≠f(x,y), а фактически является совместной функцией обоих каналов. Например, в биномиальной модели шум для измеренного отношения характеризуется дисперсией r(1-r)/(х+у), которая не является функцией исключительно r. В такой модели, куда включены любое(ой) смещение или шум в канале, предположим, что для SNP i наблюдаемое в канале X значение представляет собой x=aiX+bi, где X представляет собой истинное значение для канала, bi представляет дополнительное смещение в канале и случайный шум. Аналогичным образом, предположим, что y=c1Y+di. Наблюдаемое соотношение r=х/у не способно точно предсказать истинное соотношение X/Y или смоделировать остаточный шум, поскольку (aiX+bi)/(ciY+di) не является функцией X/Y.In particular, the translation of information from two channels into the ratio r, where f (x, y) is r = x / y, is not suitable for accurate modeling of noise and bias. Noise for a particular SNP is not a ratio function, that is, noise (x, y) ≠ f (x, y), but in fact is a joint function of both channels. For example, in the binomial model, the noise for the measured ratio is characterized by the variance r (1-r) / (x + y), which is not a function of r exclusively. In such a model, which includes any bias or noise in the channel, suppose that for SNP i, the value observed in channel X is x = a i X + b i , where X represents the true value for the channel, b i represents additional channel offset and random noise. Similarly, suppose that y = c 1 Y + d i . The observed ratio r = x / y is not able to accurately predict the true X / Y ratio or simulate the residual noise, since (aiX + bi) / (ciY + di) is not a function of X / Y.

Способ, раскрытый в данном документе, описывает эффективный метод моделирования шума и смещения с использованием совместных биномиальных распределений для всех каналов измерения по отдельности. Соответствующие уравнения можно найти в настоящем документе в других разделах, где идет речь о смещении в расчете на SNP, показателях P(good) и P(ref|bad), P(mut|bad), которые эффективно корректируют поведение SNP. Согласно варианту осуществления в способе согласно настоящему раскрытию используется бета-биномиальное распределение, при котором избегается ограничение, заключающееся в учете только аллельных отношений; вместо этого моделируется характер изменения на основании подсчитанных значений по обоим каналам.The method disclosed herein describes an efficient method for modeling noise and bias using joint binomial distributions for all measurement channels individually. The corresponding equations can be found in this document in other sections, which deal with bias per SNP, indicators P (good) and P (ref | bad), P (mut | bad), which effectively correct SNP behavior. According to an embodiment, the method according to the present disclosure uses a beta-binomial distribution in which the restriction of only allelic relationships is avoided; instead, the nature of the change is modeled based on the calculated values on both channels.

Согласно варианту осуществления раскрытый в настоящем документе способ позволяет прогнозировать плоидность вынашиваемого плода по генетическим данным, полученным для материнской плазмы с использованием всех доступных измерений. Согласно варианту осуществления раскрытый в настоящем документе способ позволяет прогнозировать плоидность вынашиваемого плода по генетическим данным, полученным для материнской плазмы, путем измерений только для подгруппы родительских контекстов. В некоторых известных в данной области техники способах используются исключительно измеренные генетические данные, где родительский контекст относится к контексту АА|ВВ, то есть когда оба родителя гомозиготны по определенному локусу, но по разным аллелям. Одной из проблем, связанных с этим способом, является то, что из контекста АА|ВВ происходит небольшая доля полиморфных локусов, как правило, менее 10%. Согласно варианту осуществления раскрытого в настоящем описании способа в указанном способе не используется генетические измерения материнской плазмы для локусов с родительским контекстом АА|ВВ. Согласно варианту осуществления в настоящем способе используются измерения для плазмы только для полиморфных локусов с родительским контекстом АА|АВ, АВ|АА и АВ|АВ.According to an embodiment, the method disclosed herein makes it possible to predict the ploidy of a gestating fetus from genetic data obtained for maternal plasma using all available measurements. According to an embodiment, the method disclosed herein makes it possible to predict the ploidy of a bearing fetus from genetic data obtained for maternal plasma by measuring only a subset of parental contexts. Some methods known in the art use exclusively measured genetic data, where the parent context refers to the context of AA | BB, that is, when both parents are homozygous for a specific locus, but for different alleles. One of the problems associated with this method is that a small fraction of polymorphic loci, usually less than 10%, comes from the context of AA | BB. According to an embodiment of the method disclosed herein, the method does not use maternal plasma genetic measurements for loci with a parent context AA | BB. According to an embodiment, the present method uses plasma measurements only for polymorphic loci with a parent context AA | AB, AB | AA and AB | AB.

Некоторые способы, известные в данной области техники, включают усреднение аллельных отношений от SNP в контексте АА|ВВ, при наличии генотипов обоих родителей, и, как заявлено, прогнозируют плоидность, исходя из среднего аллельного отношения для указанных SNP. Указанному способу свойственна существенная неточность вследствие различающегося поведения SNP. Отметим, что указанный способ предполагает, что известны генотипы обоих родителей. Напротив, согласно некоторым вариантам осуществления предложенный в настоящем описании способ задействует модель совместного распределения для каналов, не предполагающую наличия данных от каждого из родителей, и не предполагающую одинакового характера изменения SNP. Согласно некоторым вариантам осуществления предложенный в настоящем описании способ учитывает различное поведение/вес SNP. Согласно некоторым вариантам осуществления предложенный в настоящем описании способ не требует знания генотипов одного или обоих родительских генотипов. Пример того, как предложенный в настоящем описании способ обеспечивает это, приводится ниже.Some methods known in the art include averaging allelic ratios from SNPs in the context of AA | BB, in the presence of genotypes of both parents, and, as stated, predict ploidy based on the average allelic ratio for these SNPs. This method is characterized by significant inaccuracy due to the different behavior of SNPs. Note that this method assumes that the genotypes of both parents are known. In contrast, according to some embodiments, a method as provided herein employs a co-distribution model for channels that does not imply data from each parent and does not imply the same nature of SNP changes. In some embodiments, the method provided herein takes into account the different SNP behavior / weight. In some embodiments, the method provided herein does not require knowledge of the genotypes of one or both parental genotypes. An example of how the method proposed in the present description provides this is given below.

Согласно некоторым вариантам осуществления логарифмизированная вероятность гипотезы может быть определена из расчета на SNP. Для конкретного SNP i при предположении гипотезы плоидности плода Н и процента плодной ДНК cf логарифмизированная вероятность наблюдаемых данных D определена как:In some embodiments, the logarithmic probability of a hypothesis can be determined based on SNP. For a specific SNP i, under the assumption of the hypothesis of fetal ploidy H and percent fetal DNA cf, the logarithmized probability of the observed data D is defined as:

Figure 00000035
Figure 00000035

где m представляет собой возможные истинные генотипы матери, f представляет собой возможные истинные генотипы отца, где m,f∈{АА,АВ,ВВ}, и где с представляет собой возможные генотипы ребенка с учетом гипотезы Н. В частности, для моносомии с {А, В}, для дисомии с G {АА,АВ,ВВ}, для трисомии с ∈{ААА,ААВ,АВВ,ВВВ}. Отметим, что включение данных о генотипе родителей, как правило, приводит в результате к более точным определениям плоидности, однако данные о генотипе родителей не являются необходимыми для того, чтобы Указанный способ работал хорошо.where m represents the possible true genotypes of the mother, f represents the possible true genotypes of the father, where m, f∈ {AA, AB, BB}, and where c represents the possible genotypes of the child, taking into account the hypothesis N. In particular, for monosomy with { A, B}, for disomy with G {AA, AB, BB}, for trisomy with ∈ {AAA, AAB, ABB, BBB}. Note that the inclusion of data on the genotype of parents, as a rule, leads to more accurate determinations of ploidy, however, data on the genotype of parents are not necessary for this method to work well.

Некоторые способы, известные в данной области техники, включают усреднение аллельных отношений для SNP, по которым мать гомозиготна, но другой аллель обнаруживается при измерениях в плазме (контексты либо АА|АВ, либо АА|ВВ) и, как заявлено, определяют признаки плоидности, исходя из среднего соотношения аллелей для этих SNP. Указанный способ предназначен для случаев, когда генотип отца является недоступным. Отметим, что не вполне ясно, насколько точно можно утверждать, что плазма гетерозиготна по конкретному SNP в отсутствие гомозиготного противоположного отцовского контекста ВВ: для случаев с низким значением доли ДНК ребенка видимое присутствие аллеля В может означать просто наличие шума; кроме того, видимое отсутствие аллеля В может представлять собой просто выпадение аллеля при проведении измерений для плода. Даже в том случае, когда действительно можно определить гетерозиготность плазмы, указанный способ не позволяет различать родительские трисомии. В частности, для SNP, где мать соответствует АА, а в плазме крови измерено некоторое количество В, в том случае, если отец соответствует GG, генотип ребенка в результате представляет собой AGG, что дает среднее содержание А 33% (при доле ДНК ребенка = 100%). Однако в том случае, если отец соответствует AG, полученный в результате генотип ребенка может представлять собой AGG при совпадающей трисомии, что дает содержание А 33%, или AAG при несовпадающей трисомии, со сдвигом среднего содержания А до 66%. С учетом того, что многие трисомии имеют место в хромосомах с кроссинговером, хромосома в целом может характеризоваться любым показателем, от отсутствия несовпадающей трисомии до полной несовпадающей трисомии, и указанное содержание может принимать любые значения от 33 до 66%. При простой дисомии доля должна составлять около 50%. Без использования модели сцепления или точной модели ошибки среднего указанный способ будет пропускать много случаев отцовской трисомии. В отличие от этого способ, раскрытый в настоящем документе, назначает вероятности родительского генотипа для каждого кандидатного родительского генотипа, исходя из доступной информации о генотипе и частоты в популяции, и не обязательно требует знания родительских генотипов. Кроме того, способ, раскрытый в настоящем документе, способен обнаруживать трисомию даже при отсутствии генотипических данных родителей, или при наличии генотипических данных родителей и позволяет вводить поправки путем идентификации точек возможного кроссинговера от совпадающей к несовпадающей трисомии с применением модели сцепления.Some methods known in the art include averaging allelic ratios for SNPs by which the mother is homozygous, but another allele is detected by plasma measurements (contexts are either AA | AB or AA | BB) and, as stated, detect ploidy symptoms, based on the average allele ratio for these SNPs. The specified method is intended for cases when the genotype of the father is unavailable. Note that it is not entirely clear how accurately it can be argued that plasma is heterozygous for a specific SNP in the absence of a homozygous opposite paternal BB context: for cases with a low fraction of the baby’s DNA, the apparent presence of B allele may simply mean the presence of noise; in addition, the apparent absence of the B allele may simply be a prolapse of the allele during measurements for the fetus. Even in the case when it is really possible to determine the heterozygosity of the plasma, this method does not allow to distinguish between parental trisomy. In particular, for SNP, where the mother corresponds to AA, and a certain amount of B is measured in the blood plasma, if the father corresponds to GG, the child’s genotype as a result is AGG, which gives an average A content of 33% (with a fraction of the child’s DNA = one hundred%). However, if the father corresponds to AG, the resulting child genotype may be AGG with a matching trisomy, which gives an A content of 33%, or AAG with a mismatching trisomy, with a shift in the average A content to 66%. Taking into account the fact that many trisomies take place on chromosomes with crossing over, the chromosome as a whole can be characterized by any indicator, from the absence of mismatched trisomy to complete mismatched trisomy, and the indicated content can take any values from 33 to 66%. With simple dysomy, the proportion should be about 50%. Without the use of the linkage model or the exact mean error model, this method will miss many cases of paternal trisomy. In contrast, the method disclosed herein assigns parental genotype probabilities for each candidate parental genotype based on available information about the genotype and frequency in the population, and does not necessarily require knowledge of the parental genotypes. In addition, the method disclosed herein is capable of detecting trisomy even in the absence of parental genotypic data, or in the presence of parental genotypic data, and allows corrections to be made by identifying points of possible crossing over from matching to non-matching trisomy using a linkage model.

В некоторых способах, известных в данной области техники, заявлен способ усреднения соотношений аллелей для SNP, если не известен ни генотип отца, ни генотип матери, и определения признаков плоидности, исходя из среднего отношения по этим SNP. Однако способ достижения этих результатов не раскрыт. Способ, раскрытый в настоящем документе, дает возможность точно определять признаки плоидности в такой ситуации; практическое применение раскрыто в других разделах настоящего документа, с использованием метода получения совместной вероятности с максимальным правдоподобием, и необязательно использует модели шума и смещения для SNP, а также модель сцепления.In some methods known in the art, a method is stated for averaging allele ratios for SNPs if neither the genotype of the father nor the genotype of the mother is known, and determining ploidy signs based on the average ratio of these SNPs. However, a method for achieving these results has not been disclosed. The method disclosed herein makes it possible to accurately determine ploidy signs in such a situation; the practical application is disclosed in other sections of this document using the maximum likelihood co-probability method, and does not necessarily use noise and bias models for SNP, as well as the clutch model.

Некоторые способы, известные в данной области техники, включают усреднение аллельных отношений и, как заявлено, определяют признаки плоидности, исходя из среднего аллельного отношения для одного или нескольких SNP. Однако такие способы не используют концепцию сцепления. Способам, раскрытые в настоящем документе, не свойственны указанные недостатки.Some methods known in the art include averaging allelic ratios and, as stated, determine ploidy traits based on the average allelic ratio for one or more SNPs. However, such methods do not use the concept of adhesion. The methods disclosed herein do not have these drawbacks.

Использование длины последовательности в качестве априорного показателя для определения происхождения ДНКUsing sequence length as an a priori indicator to determine the origin of DNA

Сообщалось, что распределение длин последовательностей для материнской и плодной ДНК отличается, причем ДНК плода обычно короче. Согласно варианту осуществления настоящего раскрытия можно использовать имеющуюся информацию в эмпирической форме и построить априорное распределение для ожидаемой длины ДНК как матери (Р(Х| матери), так и плода (Р(Х| плода)). Предположим, что имеется новая, не идентифицированная последовательность ДНК с длиной х; можно задать вероятность того, что данная последовательность ДНК является либо ДНК матери, либо ДНК плода, исходя из априорного значения вероятности х того, что последовательность принадлежит либо матери, либо ребенку. В частности, если Р(х|матери)>Р(х|плода), то последовательность ДНК можно классифицировать как принадлежащую матери, причем Р(х|матери) = Р(х|матери)/[(Р(х|матери) + Р(х| плода)], и если р(х|матери)<р(х|плода), то последовательность ДНК можно классифицировать как принадлежащую плоду, Р(х| плода) = Р(х| плода)/[(Р(х|матери)+Р(х| плода)]. Согласно варианту осуществления настоящего раскрытия можно определить распределения значений длин последовательностей матери и плода, которые являются специфическими для образца, путем рассмотрения последовательностей, которые можно указать как принадлежащие матери или плоду с высокой вероятностью, и тогда такое специфическое для образца распределение можно использовать в качестве ожидаемого распределения размера для такого образца.It was reported that the distribution of sequence lengths for maternal and fetal DNA is different, and fetal DNA is usually shorter. According to an embodiment of the present disclosure, it is possible to use the available information in empirical form and construct an a priori distribution for the expected length of the DNA of both the mother (P (X | mother) and the fetus (P (X | fetus)). Suppose that there is a new, unidentified a DNA sequence with a length of x, you can specify the probability that this DNA sequence is either the DNA of the mother or the DNA of the fetus, based on the a priori probability x that the sequence belongs to either the mother or the child. and if P (x | mother)> P (x | fetus), then the DNA sequence can be classified as belonging to the mother, and P (x | mother) = P (x | mother) / [(P (x | mother) + P (x | fetus)], and if p (x | mother) <p (x | fetus), then the DNA sequence can be classified as belonging to the fetus, P (x | fetus) = P (x | fetus) / [(P (x | mother) + P (x | fetus)]. According to an embodiment of the present disclosure, it is possible to determine the distribution of the lengths of the sequences of the mother and the fetus that are specific for the sample by considering the sequences that can but indicate as belonging to the mother or the fetus with a high probability, and then such a sample-specific distribution can be used as the expected size distribution for such a sample.

Переменная глубина секвенирования для сведения к минимуму затрат на секвенированиеVariable sequencing depth to minimize sequencing costs

Во многих клинических испытаниях, касающихся диагностики, например у Chiu и др. BMJ 2011; 342: с7401, устанавливают протокол с рядом параметров и затем тот же протокол выполняют с теми же параметрами в отношении каждого из пациентов, принимающих участие в испытании. В случае определения статуса плоидности у вынашиваемого матерью плода с использованием секвенирования для проведения измерений на генетическом материале подходящим параметром будет количество считываний. Количество считываний может относиться к количеству фактических считываний, количеству предполагаемых считываний, неполным дорожкам, полным дорожкам или полным проточным ячейкам в секвенаторе. В этих исследованиях количество считываний, как правило, устанавливают на уровне, который будет гарантировать, что для всех или почти всех образцов будет достигнут желаемый уровень точности. В настоящее время секвенирование является дорогостоящей технологией со стоимостью приблизительно 200 долларов за 5 картированных миллионов считанных последовательностей, и, хотя цена падает, любой способ, который позволит проводить диагностику на основе секвенирования с аналогичным уровнем точности, но при меньшем количестве считываний, несомненно, сэкономит значительные средства.In many clinical trials relating to diagnosis, for example Chiu et al. BMJ 2011; 342: c7401, establish a protocol with a number of parameters and then the same protocol is performed with the same parameters for each of the patients participating in the trial. In the case of determining the ploidy status of a mother-bearing fetus using sequencing to measure on genetic material, the number of readings is a suitable parameter. The number of reads may relate to the number of actual reads, the number of expected reads, incomplete tracks, full tracks, or full flow cells in the sequencer. In these studies, the number of readings is usually set at a level that will ensure that the desired level of accuracy is achieved for all or almost all samples. Sequencing is currently an expensive technology with a cost of approximately $ 200 for 5 mapped millions of read sequences, and although the price drops, any method that allows sequencing-based diagnostics with the same level of accuracy, but with fewer readings, will undoubtedly save significant facilities.

Точность определения плоидности, как правило, зависит от ряда факторов, включая количество считываний и долю ДНК плода в смеси. Точность, как правило, является более высокой, когда доля ДНК плода в смеси выше. В то же время, точность, как правило, выше, если количество считываний больше. Можно получить два случая для ситуации, когда статус плоидности определяют со сравнимыми значениями точности, где в первом случае присутствует более низкая доля ДНК плода в смеси, чем во втором, и большее количество считываний получено при секвенировании в первом случае, чем во втором. Можно использовать оцененную долю ДНК плода в смеси в качестве ориентира при определении количества считываний, необходимого для достижения заданного уровня точности.The accuracy of determining ploidy typically depends on a number of factors, including the number of readings and the proportion of fetal DNA in the mixture. Accuracy is generally higher when the proportion of fetal DNA in the mixture is higher. At the same time, accuracy is usually higher if the number of readings is greater. Two cases can be obtained for a situation where the ploidy status is determined with comparable accuracy values, where in the first case there is a lower proportion of fetal DNA in the mixture than in the second, and more readings were obtained by sequencing in the first case than in the second. You can use the estimated proportion of fetal DNA in the mixture as a guide when determining the number of readings required to achieve a given level of accuracy.

Согласно варианту осуществления настоящего раскрытия можно провести анализ набора образцов, в котором разные образцы в наборе секвенируют с различными значениями глубины секвенирования, где количество считываний, проанализированных в каждом из образцов, выбирают с тем, чтобы достичь заданного уровня точности с учетом рассчитанной доли плодной ДНК в каждой смеси. Согласно варианту осуществления настоящего раскрытия это может включать в себя проведение измерения смешанного образца для определения доли плодной ДНК в смеси; эту оценку доли плодной ДНК можно выполнить с использованием секвенирования, ее можно выполнить с использованием технологии TAQMAN, ее можно выполнить с использованием количественной ПЦР (количественной ПЦР), ее можно выполнить с использованием микроматриц для выявления SNP, ее можно выполнить с использованием любого способа, с помощью которого можно установить различия между различными аллелями в заданных локусах. Необходимость оценки доли плодной ДНК можно исключить путем включения гипотез, которые распространяются на все или выбранный набор значений доли плодной ДНК в наборе гипотез, которые рассматривают при сравнении с фактическими данными, полученными с помощью измерений. После определения доли плодной ДНК в смеси можно определить количество прочитанных последовательностей для каждого образца.According to an embodiment of the present disclosure, it is possible to analyze a set of samples in which different samples in the set are sequenced with different values of the depth of sequencing, where the number of readings analyzed in each of the samples is selected in order to achieve a given level of accuracy taking into account the calculated fraction of fetal DNA in each mixture. According to an embodiment of the present disclosure, this may include measuring a mixed sample to determine the proportion of fetal DNA in the mixture; this estimate of the proportion of fetal DNA can be performed using sequencing, it can be performed using TAQMAN technology, it can be performed using quantitative PCR (quantitative PCR), it can be performed using microarrays to detect SNP, it can be performed using any method, with with the help of which it is possible to establish differences between different alleles at given loci. The need to estimate the proportion of fetal DNA can be eliminated by including hypotheses that apply to all or a selected set of values of the proportion of fetal DNA in the set of hypotheses, which are considered when comparing with actual data obtained using measurements. After determining the proportion of fetal DNA in the mixture, you can determine the number of read sequences for each sample.

Согласно варианту осуществления настоящего раскрытия 100 беременных женщин посещают своих лечащих акушеров-гинекологов; у них берут образцы крови в пробирки для забора крови со средством, препятствующим лизису, и/или каким-либо средством для инактивации ДНКазы. Каждая из женщин забирает домой набор для отца вынашиваемого плода; отец сдает образец слюны. Оба набора генетических материалов для всех 100 пар отсылают обратно в лабораторию, где материнскую кровь осаждают центрифугированием и выделяют лейкоцитарную пленку, а также плазму. Плазма содержит смесь ДНК матери, а также происходящую из плаценты ДНК. Лейкоцитарную пленку матери и кровь отца генотипируют с использованием матриц для SNP, и на ДНК в образцах плазмы матери нацеливают зонды гибридизации SURESELECT. Расщепленную ДНК с зондами используют для создания 100 маркированных библиотек, по одной на каждый материнский образец, при этом каждый образец маркирован особым маркером. Часть каждой библиотеки извлекают, все указанные части смешивают и добавляют на две дорожки секвенатора ДНК ILLUMINA HISEQ в мультиплексном режиме; каждая дорожка дает в результате примерно 50 миллионов картируемых считанных последовательностей, дает в результате примерно 100 картируемых считанных последовательностей на 100 мультиплексированных смесей или примерно 1 миллион считываний на образец. Считывания последовательностей использовали для определения доли плодной ДНК в каждой смеси. 50 образцов содержали более 15% ДНК плода в смеси, и 1 миллиона считываний было достаточно для определения статуса плоидности у плодов с достоверностью 99,9%.According to an embodiment of the present disclosure, 100 pregnant women visit their treating obstetrician-gynecologists; blood samples are taken from them in blood collection tubes with an anti-lysis agent and / or some other means for inactivating DNase. Each of the women takes home a set for the father of the bearing fetus; father gives a sample of saliva. Both sets of genetic materials for all 100 pairs are sent back to the laboratory, where maternal blood is precipitated by centrifugation and a white blood cell film and plasma are isolated. Plasma contains a mixture of maternal DNA, as well as DNA originating from the placenta. The mother's white blood cell film and father’s blood are genotyped using matrices for SNP, and SURESELECT hybridization probes are targeted on DNA in the mother’s plasma samples. Split DNA with probes is used to create 100 labeled libraries, one for each maternal sample, with each sample being labeled with a special marker. A part of each library is removed, all indicated parts are mixed and added to two tracks of the ILLUMINA HISEQ DNA sequencer in multiplexed mode; each track results in approximately 50 million mapped read sequences, results in approximately 100 mapped read sequences per 100 multiplexed mixtures, or approximately 1 million reads per sample. Sequence readings were used to determine the proportion of fetal DNA in each mixture. 50 samples contained more than 15% of fetal DNA in the mixture, and 1 million readings were sufficient to determine the ploidy status of the fetus with a confidence of 99.9%.

Из оставшихся смесей 25 содержали от 10% до 15% плодной ДНК; часть каждой из полученных соответствующих библиотек из этих смесей объединяли и прогоняли по одной дорожке на HISEQ, получая дополнительные 2 миллиона считываний для каждого образца. Два набора данных секвенирования для каждой из смесей с 10-15% ДНК плода складывали, и получали в результате 3 миллиона считываний на образец, что было достаточным для определения статуса плоидности у этих плодов с достоверностью 99,9%.Of the remaining mixtures, 25 contained from 10% to 15% fetal DNA; part of each of the corresponding libraries obtained from these mixtures were combined and run one track on HISEQ, receiving an additional 2 million readings for each sample. Two sets of sequencing data for each of the mixtures with 10-15% fetal DNA were added, and 3 million readings per sample were obtained, which was sufficient to determine the ploidy status of these fruits with a confidence of 99.9%.

Из числа оставшихся смесей 13 содержали от 6% до 10% плодной ДНК; часть каждой из полученных соответствующих библиотек из этих смесей объединяли и прогоняли по одной дорожке на HISEQ, получая дополнительные 4 миллиона считываний для каждого образца. Два набора данных секвенирования для каждой из смесей с 6-10% ДНК плода складывали, и получали в сумме 5 миллионов считываний на смесь, что было достаточным для определения статуса плоидности у этих плодов с достоверностью 99,9%.Of the remaining mixtures, 13 contained from 6% to 10% of fetal DNA; part of each of the corresponding libraries obtained from these mixtures were combined and run one track on HISEQ, receiving an additional 4 million readings for each sample. Two sets of sequencing data for each of the mixtures with 6-10% fetal DNA were added, and a total of 5 million readings per mixture was obtained, which was sufficient to determine the ploidy status of these fetuses with a confidence of 99.9%.

Из числа оставшихся смесей 8 содержали от 4% до 6% плодной ДНК; часть каждой из полученных соответствующих библиотек из этих смесей объединяли и прогоняли по одной дорожке на HISEQ, получая дополнительные 6 миллионов считываний для каждого образца. Два набора данных секвенирования для каждой из смесей с 4-6% ДНК плода складывали, и получали в сумме 7 миллионов считываний на смесь, что было достаточным для определения статуса плоидности у этих плодов с достоверностью 99,9%.Of the remaining mixtures, 8 contained from 4% to 6% of fetal DNA; part of each of the corresponding libraries obtained from these mixtures were combined and run one track on HISEQ, receiving an additional 6 million readings for each sample. Two sets of sequencing data for each of the mixtures with 4-6% fetal DNA were added, and a total of 7 million readings per mixture was obtained, which was sufficient to determine the ploidy status of these fetuses with a confidence of 99.9%.

Из оставшихся четырех смесей все содержали от 2% до 4% плодной ДНК; часть каждой из полученных соответствующих библиотек из этих смесей объединяли и прогоняли по одной дорожке на HISEQ, получая дополнительные 12 миллионов считываний для каждого образца. Два набора данных секвенирования для каждой из смесей с 2-4% ДНК плода складывали, и получали в сумме 13 миллионов считываний на смесь, что было достаточным для определения статуса плоидности у этих плодов с достоверностью 99,9%.Of the remaining four mixtures, all contained from 2% to 4% fetal DNA; part of each of the corresponding libraries obtained from these mixtures were combined and run one track on HISEQ, receiving an additional 12 million readings for each sample. Two sets of sequencing data for each of the mixtures with 2-4% fetal DNA were added, and a total of 13 million readings per mixture were obtained, which was sufficient to determine the ploidy status of these fruits with a confidence of 99.9%.

Указанный способ требует шести дорожек для секвенирования на аппарате HISEQ для достижения точности 99,9% на 100 образцах. Если бы такое же количество прогонов было необходимо для каждого образца, для гарантии точности 99,9% каждого определения плоидности потребовалось бы 25 дорожек для секвенирования, и если бы частота отсутствия признака или частота ошибки 4% была допустимой, ее можно было бы достичь с 14 дорожками для секвенирования.This method requires six sequencing tracks on a HISEQ apparatus to achieve 99.9% accuracy on 100 samples. If the same number of runs were necessary for each sample, to ensure the accuracy of 99.9% of each ploidy determination, 25 tracks for sequencing would be required, and if the frequency of the absence of the trait or the error rate of 4% were acceptable, it could be achieved from 14 sequencing tracks.

Использование необработанных данных генотипированияUsing Raw Genotyping Data

Существует ряд способов, с помощью которых можно осуществлять NPD (неинвазивную пренатальную генетическую диагностику) с использованием генетической информации плода, полученной с помощью измерений плодной ДНК, присутствующей в материнской крови. Некоторые из этих способов включают проведение измерений плодной ДНК с использованием матриц для SNP, некоторые способы включают нецелевое секвенирование и некоторые способы включают целевое секвенирование. Целевое секвенирование может быть нацелено на SNP, оно может быть нацелено на STR (короткие концевые повторы), оно может быть нацелено на другие полиморфные локусы, оно может быть нацелено на неполиморфные локусы или на их комбинацию. Некоторые из указанных способов могут включать использование коммерческого или проприетарного идентификатора аллелей, прогнозирующего идентичность аллелей, исходя из данных интенсивности, которые поступают от сенсоров в аппарате, выполняющем измерение. Например, система ILLUMINA INFINiUM или система для микроматричного анализа AFFYMETRIX GENECHIP включает гранулы или микрочипы с присоединенными последовательностями ДНК, которые могут гибридизоваться с комплементарными сегментами ДНК; при гибридизации происходит изменение флуоресцентных свойств сенсорной молекулы, которое можно детектировать. Также существуют способы секвенирования, например геномный секвенатор ILLUMINA SOLEXA GENOME SEQUENCER или геномный секвенатор ABI SOLID GENOME SEQUENCER, в которых секвенируют генетическую последовательность фрагментов ДНК; при удлинении цепи ДНК, комплементарной секвенируемой цепи, идентификационную информацию для продолжаемого нуклеотида, как правило, детектируют через флуоресцентную или радиоизотопную метку, прикрепленную к комплементарному нуклеотиду. Во всех этих способах генотипические данные или данные секвенирования, как правило, определяют на основе флуоресцентных или других сигналов или их отсутствия. Указанные системы, как правило, объединены с пакетами низкоуровневого программного обеспечения, которое прогнозирует наличие конкретных аллелей (вторичные генетические данные), исходя из аналоговых выходных данных устройства детекции флуоресценции или другого детектирующего устройства (первичные генетические данные). Например, для определенного аллеля на матрице для SNP программное обеспечение даст прогноз, например, того, что определенный SNP присутствует или не присутствует, если измеренная интенсивность флуоресценции выше или ниже определенного порогового значения. Аналогичным образом, выходные данные секвенатора представляют собой хроматограмму, которая показывает уровень флуоресценции, выявленный для каждого из красителей, и программное обеспечение будет давать прогноз того, что определенная пара оснований представляет собой А или Т, или С или G. Секвенаторы с высокой пропускной способностью, как правило, выполняют серию таких измерений, называемую «считанной последовательностью», представляющим наиболее вероятную структуру последовательности ДНК, которая была секвенирована. Непосредственный аналог выводимых данных хроматограммы определен в данном описании как первичные генетические данные, а прогнозы для пар оснований/SNP, производимые программным обеспечением, рассмотрены в данном описании как вторичные генетические данные. Согласно варианту осуществления первичные данные относятся к необработанным интенсивностным данным, которые представляют собой выходные данные платформы для генотипирования без обработки, при этом платформа для генотипирования может относиться к матрице для SNP или к платформе для секвенирования. Вторичные генетические данные относятся к обработанным генетическим данным, то есть выполненному прогнозированию аллеля, или представлению данных секвенирования в виде пар оснований и/или картированию с геномом считанных последовательностей, полученных при секвенировании.There are a number of ways in which NPD (non-invasive prenatal genetic diagnosis) can be carried out using fetal genetic information obtained by measuring fetal DNA present in maternal blood. Some of these methods include measuring fetal DNA using SNP matrices, some methods include inappropriate sequencing, and some methods include targeted sequencing. Target sequencing can target SNPs, it can target STRs (short terminal repeats), it can target other polymorphic loci, it can target non-polymorphic loci, or a combination of them. Some of these methods may include the use of a commercial or proprietary allele identifier that predicts allele identity based on intensity data from sensors in the apparatus performing the measurement. For example, the ILLUMINA INFINiUM system or AFFYMETRIX GENECHIP microarray analysis system includes granules or microarrays with attached DNA sequences that can hybridize to complementary DNA segments; during hybridization, a change in the fluorescent properties of the sensor molecule occurs, which can be detected. Sequencing methods also exist, for example, the ILLUMINA SOLEXA GENOME SEQUENCER genomic sequencer or the ABI SOLID GENOME SEQUENCER genomic sequencer, in which the genetic sequence of DNA fragments is sequenced; when lengthening a DNA strand complementary to a sequenced strand, identification information for the continued nucleotide is typically detected through a fluorescent or radioisotope tag attached to the complementary nucleotide. In all of these methods, genotypic data or sequencing data is typically determined based on the absence or absence of fluorescent or other signals. These systems are usually combined with packages of low-level software that predicts the presence of specific alleles (secondary genetic data), based on the analog output of a fluorescence detection device or other detecting device (primary genetic data). For example, for a specific allele on an SNP matrix, the software will predict, for example, that a specific SNP is present or not present if the measured fluorescence intensity is above or below a certain threshold value. Similarly, the sequencer output is a chromatogram that shows the fluorescence level detected for each of the dyes, and the software will predict that a particular base pair is A or T, or C or G. High throughput sequencers, as a rule, a series of such measurements, called a “read sequence,” representing the most likely structure of the DNA sequence that has been sequenced, is performed. A direct analog of the output chromatogram data is defined in this description as primary genetic data, and forecasts for base pairs / SNPs made by the software are considered in this description as secondary genetic data. According to an embodiment, the primary data refers to the raw intensity data, which is the output of the non-processing genotyping platform, wherein the genotyping platform may refer to a matrix for SNP or to a sequencing platform. Secondary genetic data refers to the processed genetic data, that is, the prediction of the allele, or the presentation of sequencing data as base pairs and / or mapping of the read sequences obtained by sequencing with the genome.

Многие более высокоуровневые приложения используют указанные прогнозы для аллелей, прогнозы для SNP и считанные последовательности, то есть вторичные генетические данные, которые производит программное обеспечение для генотипирования. Например, DNA NEXUS, ELAND или MAQ берут полученные при секвенировании считанные последовательности и картируют с геномом. Например, в контексте неинвазивной пренатальной диагностики сложные методы на основе информатики, такие как PARENTAL SUPPORTтм, может максимально использовать большое количество прогнозов для SNP для определения генотипа индивидуума. Также, в контексте преимплантационной генетической диагностики, можно рассмотреть набор считанных последовательностей, картированных с геномом, и взяв нормализованное число считанных последовательностей, которые можно картировать с каждой хромосомой или частью хромосомы, можно определить статус плоидности индивидуума. Применительно к неинвазивной пренатальной диагностике можно взять набор считываний для последовательности, которые были измерены в присутствующей в плазме крови матери ДНК, и картировать их с геномом. Затем можно взять нормализованное число считанных последовательностей, которые картируются с каждой хромосомой или частью хромосомы, и использовать эти данные для определения статуса плоидности индивидуума. Например, можно сделать вывод, что хромосомы, которые характеризуются непропорционально большим числом считываний, являются трисомными у плода, вынашиваемого матерью, у которой брали кровь.Many higher-level applications use these predictions for alleles, predictions for SNPs and read sequences, that is, secondary genetic data that genotyping software produces. For example, DNA NEXUS, ELAND, or MAQ take the read sequences obtained by sequencing and map to the genome. For example, in the context of non-invasive prenatal diagnostics, complex informatics-based methods, such as PARENTAL SUPPORT , can maximize the use of a large number of predictions for SNP to determine an individual’s genotype. Also, in the context of preimplantation genetic diagnostics, one can consider the set of read sequences mapped to the genome, and taking the normalized number of read sequences that can be mapped with each chromosome or part of the chromosome, one can determine the ploidy status of an individual. For non-invasive prenatal diagnostics, you can take a set of readings for the sequence that were measured in the DNA of the mother’s blood plasma and map them with the genome. Then you can take the normalized number of read sequences that are mapped to each chromosome or part of the chromosome, and use this data to determine the ploidy status of an individual. For example, we can conclude that chromosomes, which are characterized by a disproportionately large number of readings, are trisomal in the fetus born by the mother who took the blood.

Однако в реальности исходные выходные данные измерительных приборов представляют собой аналоговый сигнал. Когда определенная пара оснований прогнозируется программным обеспечением, которое связано с программным обеспечением для секвенирования, например, программное обеспечение может указывать пару оснований Т, тогда как в действительности указание представляет собой прогноз, который, как предполагает программное обеспечение, является наиболее вероятным. В некоторых случаях, однако, прогноз может иметь низкую достоверность, например, аналоговый сигнал может указывать, что конкретная пара оснований с вероятностью только 90% представляет собой Т, а с вероятностью 10% представляет собой А. В другом примере прогнозирующее генотип программное обеспечение, которое связано с ридером матриц для SNP, может прогнозировать, что определенный аллель представляет собой G. Однако в действительности исходный аналоговый сигнал может указывать на существование только 70% вероятности того, что аллель представляет собой G, и 30% вероятности того, что аллель представляет собой Т. В указанных случаях, если высокоуровневые приложения используют прогнозы для генотипа и прогнозы для секвенирования, выполняемые низкоуровневым программным обеспечением, они теряют некоторое количество информации. Таким образом, первичные генетические данные, измеренные непосредственно с помощью платформы для генотипирования, могут быть «грязнее» вторичных генетических данных, определенных с помощью прикладных пакетов программного обеспечения, но содержат больше информации. Многие считанные последовательности исключают при картировании с геномом вторичных генетических данных последовательностей, поскольку некоторые основания не прочитываются с достаточной ясностью и/или картирование не является однозначным. При использовании первичных генетических данных для считываний последовательностей все или многие из указанных считываний, которые могли быть исключены при первоначальном преобразовании во вторичные генетические данные для считанной последовательности, могут быть использованы посредством применения к ним вероятностного метода.However, in reality, the initial output of the measuring instruments is an analog signal. When a specific base pair is predicted by software that is associated with sequencing software, for example, the software may indicate the base pair T, whereas in reality the designation is a forecast, which the software suggests is most likely. In some cases, however, the forecast may have a low certainty, for example, an analog signal may indicate that a particular base pair with a probability of only 90% is T, and with a probability of 10% is A. In another example, genotype-prediction software associated with a matrix reader for SNP, it can predict that a particular allele is G. However, in reality, the original analog signal may indicate that there is only a 70% chance that the allele represents It is a G, and 30% probability that the allele is T. In such cases, if the high-level applications use the forecasts and predictions for genotype sequencing performed by low-level software, they lose a certain amount of information. Thus, the primary genetic data, measured directly using the platform for genotyping, may be “dirtier” than the secondary genetic data, determined using application software packages, but contain more information. Many read sequences are excluded when mapping with the genome of secondary genetic data of sequences, since some bases are not read with sufficient clarity and / or mapping is not unambiguous. When using primary genetic data for reading sequences, all or many of the readings that might have been excluded from the initial conversion to secondary genetic data for the reading sequence can be used by applying a probabilistic method to them.

Согласно варианту осуществления настоящего раскрытия высокоуровневое программное обеспечение не использует аллельные признаки, прогнозы для SNP или считанные последовательности, которые выполняются низкоуровневым программным обеспечением. Вместо этого высокоуровневое программное обеспечение основывает свои расчеты на аналоговых сигналах, непосредственно измеряемых платформой для генотипирования. Согласно варианту осуществления настоящего раскрытия способ на основе информатики, такой как PARENTAL SUPPORTтм, модифицируют с тем, чтобы его способность реконструировать генетические данные эмбриона/ плода/ ребенка давала возможность непосредственного использования первичных генетических данных, которые измеряются платформой для генотипирования. Согласно варианту осуществления настоящего раскрытия с помощью способа на основе информатики, такого как PARENTAL SUPPORTтм, можно получать признаки аллелей и/или признаки количества копий хромосомы с использованием первичных генетических данных и без использования вторичных генетических данных. Согласно варианту осуществления настоящего раскрытия все генетические прогнозы, прогнозы для SNP, считанные последовательности, результаты картирования последовательности обрабатывают вероятностным методом, используя необработанные данные интенсивности, измеренные непосредственно платформой для генотипирования, а не путем превращения первичных генетических данных во вторичные генетические прогнозы. Согласно варианту осуществления данные, полученные с помощью измерений ДНК из подготовленного образца, используемые при расчете вероятности числа аллелей и определении относительной вероятности каждой гипотезы, включают первичные генетические данные.According to an embodiment of the present disclosure, high-level software does not use allelic features, predictions for SNPs or read sequences that are performed by low-level software. Instead, high-level software bases its calculations on analog signals directly measured by the genotyping platform. According to an embodiment of the present disclosure, an informatics-based method such as PARENTAL SUPPORT is modified so that its ability to reconstruct the genetic data of the embryo / fetus / child allows direct use of the primary genetic data, which are measured by the genotyping platform. According to an embodiment of the present disclosure, using an informatics-based method such as PARENTAL SUPPORT , it is possible to obtain allele traits and / or chromosome copy number traits using primary genetic data and without using secondary genetic data. According to an embodiment of the present disclosure, all genetic predictions, predictions for SNPs, read sequences, sequence mapping results are processed by the probabilistic method using raw intensity data measured directly by the genotyping platform, and not by converting the primary genetic data into secondary genetic predictions. According to an embodiment, the data obtained using DNA measurements from the prepared sample, used in calculating the probability of the number of alleles and determining the relative probability of each hypothesis, include primary genetic data.

Согласно некоторым вариантам осуществления способ может повышать точность генетических данных целевого индивидуума, включающие генетические данные по меньшей мере одного родственного индивидуума, при это указанный способ включает получение первичных генетических данных, специфических для генома целевого индивидуума, и генетических данных, специфических для генома (геномов) родственного индивидуума (индивидуумов), создание набора из одной или нескольких гипотез, касающихся, потенциально, того, какие сегменты каких хромосом от родственного индивидуума (индивидуумов) соответствуют таким сегментам в геноме целевого индивидуума, определение вероятности каждой из гипотез с учетом первичных генетических данных целевого индивидуума и генетических данных родственного индивидуума (индивидуумов) и использование вероятностей, связанных с каждой гипотезой, для определения наиболее вероятного состояния имеющегося генетического материала целевого индивидуума. Согласно некоторым вариантам осуществления с помощью способа можно определить количество копий сегмента хромосомы в геноме целевого индивидуума, при этом способ включает создание набора гипотез количества копий о том, какое количество копий сегмента хромосомы присутствует в геноме целевого индивидуума, включение первичных генетических данных от целевого индивидуума и генетической информации от одного или нескольких родственных индивидуумов в набор данных, оценка характеристик полученного платформой ответного сигнала, связанного с набором данных, где ответный сигнал, полученный платформой, может изменяться от одного эксперимента к другому, вычисление обусловленных вероятностей гипотезы каждого количества копий с учетом набора данных и характеристик ответного сигнала, полученного платформой, и определение числа копий сегмента хромосомы, исходя из наиболее вероятной гипотезы количества копий. Согласно варианту осуществления с помощью способа согласно настоящему раскрытию можно определить состояние плоидности для по меньшей мере одной хромосомы у целевого индивидуума, при этом способ включает получение первичных генетических данных от целевого индивидуума и от одного или нескольких родственных индивидуумов, создание набора из по меньшей мере одной гипотезы статуса плоидности для каждой из хромосом целевого индивидуума, использование одной или нескольких экспертных методик для определения статистической вероятности каждой гипотезы статуса плоидности в наборе для каждой используемой экспертной методики с учетом полученных генетических данных, объединение статистических вероятностей для каждой гипотезы статуса плоидности, которые определены с помощью одной или нескольких экспертных методик, и определение статуса плоидности для каждой из хромосом у целевого индивидуума, исходя из объединенных статистических вероятностей для каждой гипотезы статуса плоидности. Согласно варианту осуществления с помощью способа согласно настоящему раскрытию можно определить аллельный статус в наборе аллелей у целевого индивидуума, и у одного или обоих родителей целевого индивидуума, и необязательно у одного или нескольких родственных индивидуумов, при этом способ включает получение первичных генетических данных от целевого индивидуума, и от одного или обоих родителей, и от любых родственных индивидуумов, создание набора из по меньшей мере одной гипотезы в отношении аллеля для целевого индивидуума, и для одного или обоих родителей, и необязательно для одного или нескольких родственных индивидуумов, где гипотезы описывают возможные аллельные статусы в наборе аллелей, определение статистической вероятности для каждой гипотезы в отношении аллеля в наборе гипотез с учетом полученных генетических данных и определение аллельного статуса для каждого из аллелей в наборе аллелей целевого индивидуума, и для одного или обоих родителей, и необязательно для одного или нескольких родственных индивидуумов, исходя из статистических вероятностей каждой из гипотез в отношении аллеля.According to some embodiments, the method can increase the accuracy of the genetic data of the target individual, including the genetic data of at least one related individual, the method comprising obtaining primary genetic data specific to the genome of the target individual and genetic data specific to the genome (s) of the related individual (s), creating a set of one or more hypotheses regarding, potentially, which segments of which chromosomes are related of the individual target individual. According to some embodiments, the method can determine the number of copies of a chromosome segment in the genome of a target individual, the method including creating a set of hypotheses of the number of copies of how many copies of a chromosome segment are present in the genome of a target individual, including primary genetic data from the target individual and genetic information from one or more related individuals into a data set, evaluating the characteristics of the platform’s response signal associated with a data set, where the response signal received by the platform can vary from one experiment to another, calculating the conditional probabilities of the hypothesis of each number of copies, taking into account the data set and characteristics of the response signal received by the platform, and determining the number of copies of the chromosome segment based on the most probable number hypothesis copies. According to an embodiment, using the method according to the present disclosure, it is possible to determine the ploidy state for at least one chromosome of the target individual, the method comprising obtaining primary genetic data from the target individual and from one or more related individuals, creating a set of at least one hypothesis ploidy status for each of the chromosomes of the target individual, using one or more expert methods to determine the statistical probability of each hypothesis of the ploidy status hypothesis in the set for each expert technique used, taking into account the obtained genetic data, combining the statistical probabilities for each ploidy status hypothesis, which are determined using one or more expert methods, and determining the ploidy status for each chromosome in the target individual, based on combined statistical probabilities for each ploidy status hypothesis. According to an embodiment, using the method according to the present disclosure, it is possible to determine the allelic status in the set of alleles for the target individual, and for one or both parents of the target individual, and optionally for one or more related individuals, the method comprising obtaining primary genetic data from the target individual, and from one or both parents, and from any related individuals, the creation of a set of at least one hypothesis regarding the allele for the target individual, and for one about or both parents, and optionally for one or more related individuals, where the hypotheses describe possible allelic statuses in the set of alleles, determining the statistical probability for each hypothesis regarding the allele in the set of hypotheses, taking into account the obtained genetic data and determining the allelic status for each of the alleles in the set of alleles of the target individual, and for one or both parents, and not necessarily for one or more related individuals, based on the statistical probabilities of each and h hypotheses regarding the allele.

Согласно некоторым вариантам осуществления генетические данные от смешанного образца могут включать данные секвенирования, при этом данные секвенирования могут не быть однозначно картированы с геномом человека. Согласно некоторым вариантам осуществления генетические данные от смешанного образца могут содержать данные секвенирования, при этом указанные данные секвенирования картируются с множеством локализаций в геноме, где каждый возможный результат картирования связан с вероятностью того, что данное картирование является верным. Согласно некоторым вариантам осуществления не предполагается, что считанные последовательности связаны с конкретным положением в геноме. Согласно некоторым вариантам осуществления считанные последовательности связаны с множеством положений в геноме и связанной вероятностью нахождения в указанном положении. Способ подсчета для определения числа копий хромосомIn some embodiments, the genetic data from the mixed sample may include sequencing data, and the sequencing data may not be unambiguously mapped to the human genome. In some embodiments, the genetic data from the mixed sample may contain sequencing data, wherein said sequencing data is mapped to a plurality of locations in the genome, where each possible mapping result is related to the likelihood that the mapping is correct. In some embodiments, it is not intended that the read sequences be associated with a particular position in the genome. In some embodiments, the read sequences are associated with a plurality of positions in the genome and the associated probability of being in that position. Counting method for determining the number of copies of chromosomes

Согласно одному аспекту в настоящем изобретении предложены способы тестирования на анормальное распределение плодной хромосомы путем сравнения числа маркеров последовательности, выравниваемых по разным хромосомам (см., например, патент США №8296076, поданный 20 апреля 2012 г., полностью включенный в настоящий документ посредством ссылки). Как известно в данной области техники, термин «маркер последовательности» относится к относительно короткой (например, 15-100) последовательности нуклеиновой кислоты, которая может использоваться для идентификации определенной большей последовательности, например, быть картирована с хромосомой, или геномной областью, или геномом. Согласно некоторым вариантам осуществления указанный способ включает (i) приведение в контакт образца, который включает смесь материнской и плодной ДНК, с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь; при этом указанные целевые локусы взяты из множества разных хромосом; и при этом указанное множество разных хромосом содержит по меньшей мере одну первую хромосому, предположительно имеющую анормальное распределение в указанном образце, и по меньшей мере одну вторую хромосому, предположительно имеющую нормальное распределение в указанном образце; (ii) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают продукты амплификации; (iii) секвенирование амплифицированных продуктов для получения множества маркеров последовательности, выравнивающихся с целевыми локусами; при этом указанные маркеры последовательности имеют достаточную длину, чтобы соответствовать конкретному целевому локусу; (iv) определение на компьютере соответствия множества маркеров последовательности соответствующим им целевым локусам; (v) определение на компьютере числа маркеров последовательности, выравнивающихся с целевыми локусами первой хромосомы, и числа маркеров последовательности, выравнивающихся с целевыми локусами второй хромосомы; и (vi) сравнение величин, полученных на этапе (v), для определения наличия или отсутствия анормального распределения первой хромосомы.According to one aspect, the present invention provides methods for testing for abnormal distribution of the fetal chromosome by comparing the number of sequence markers aligned on different chromosomes (see, for example, US patent No. 8296076, filed April 20, 2012, fully incorporated herein by reference) . As is known in the art, the term “sequence marker” refers to a relatively short (eg, 15-100) nucleic acid sequence that can be used to identify a specific larger sequence, for example, be mapped to a chromosome, or genomic region, or genome. In some embodiments, said method comprises (i) contacting a sample that includes a mixture of maternal and fetal DNA with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different target loci, resulting in a reaction mixture; while these target loci are taken from many different chromosomes; and wherein said plurality of different chromosomes contains at least one first chromosome, presumably having an abnormal distribution in said sample, and at least one second chromosome, presumably having a normal distribution in said sample; (ii) placing the reaction mixture under the conditions of the extension of the primers, resulting in amplification products; (iii) sequencing amplified products to obtain multiple sequence markers aligned with the target loci; however, these sequence markers are of sufficient length to correspond to a specific target locus; (iv) determining on a computer the correspondence of a plurality of sequence markers to their corresponding target loci; (v) determining on a computer the number of sequence markers aligned with the target loci of the first chromosome and the number of sequence markers aligned with the target loci of the second chromosome; and (vi) comparing the values obtained in step (v) to determine the presence or absence of an abnormal distribution of the first chromosome.

Согласно одному аспекту в настоящем изобретении предложены способы обнаружения наличия или отсутствия анеуплоидии плода путем сравнения относительной частоты целевых ампликонов между хромосомами (см., например, публикацию РСТ №WO 2012/103031, поданную 23 января 2012 г, полностью включенную в настоящий документ посредством ссылки). Согласно некоторым вариантам осуществления указанный способ включает (i) приведение в контакт образца, который включает смесь материнской и плодной ДНК, с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных неполиморфных целевых локусов, в результате чего получают реакционную смесь; при этом указанные целевые локусы взяты из множества разных хромосом; (ii) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые включают целевые ампликоны; (iii) количественное определение на компьютере относительной частоты целевых ампликонов из первой и второй представляющих интерес хромосом; (iv) сравнение на компьютере относительной частоты целевых ампликонов из первой и второй представляющих интерес хромосом; и (v) идентификацию наличия или отсутствия анеуплоидии на основании сравниваемых относительных частот первой и второй представляющих интерес хромосом. Согласно некоторым вариантам осуществления первая хромосома представляет собой хромосому, предположительно являющуюся эуплоидной. Согласно некоторым вариантам осуществления вторая хромосома представляет собой хромосому, предположительно являющуюся анеуплоиднойAccording to one aspect, the present invention provides methods for detecting the presence or absence of fetal aneuploidy by comparing the relative frequency of target amplicons between chromosomes (see, for example, PCT publication No. WO 2012/103031, filed January 23, 2012, fully incorporated herein by reference) . In some embodiments, said method comprises (i) contacting a sample that includes a mixture of maternal and fetal DNA with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different non-polymorphic target loci, resulting in a reaction mixture; while these target loci are taken from many different chromosomes; (ii) placing the reaction mixture under the conditions of the extension of the primers, resulting in amplified products that include the target amplicons; (iii) quantifying on a computer the relative frequency of the target amplicons from the first and second chromosomes of interest; (iv) comparing on a computer the relative frequency of the target amplicons from the first and second chromosomes of interest; and (v) identifying the presence or absence of aneuploidy based on the relative frequencies of the first and second chromosomes of interest. In some embodiments, the first chromosome is a chromosome presumably euploid. In some embodiments, the second chromosome is a chromosome presumably aneuploid

Комбинирование способов пренатальной диагностикиCombination of prenatal diagnostic methods

Существует множество способов, подходящих для пренатальной диагностики или пренатального скрининга анеуплоидии или других генетических дефектов. В различных разделах настоящего документа, а также в заявке на выдачу патента США на изобретение с серийным №11/603406, которая была подана 28 ноября 2006 г.; заявке на выдачу патента США на изобретение с серийным №12/076348, которая была подана 17 марта 2008 г., и заявке РСТ с серийным №PCT/S09/52730, описан один из таких способов, где использованы генетические данные родственных индивидуумов для повышения точности определения или оценки генетических данных целевого индивидуума, такого как плод. Другие способы, используемые для пренатальной диагностики, включают измерение уровней определенных гормонов в материнской крови, при этом указанные гормоны коррелируют с различными генетическими аномалиями. Пример подобных анализов называется тройным тестом, в котором в материнской крови измеряются уровни нескольких (обычно двух, трех, четырех или пути) разных гормонов. В случае, если для определения вероятности определенного конечного результата применяется несколько способов, причем ни один из указанных способов сам по себе не является исчерпывающим, можно комбинировать информацию, полученную с применением указанных способов, для получения более точного прогноза, чем обеспечиваемый любым из индивидуальных способов. В тройном тесте комбинирование информации по трем разным гормонам позволяет в результате дать более точный прогноз генетических аномалий, чем тот, который можно получить на основании уровней отдельных гормонов.There are many methods suitable for prenatal diagnosis or prenatal screening of aneuploidy or other genetic defects. In various sections of this document, as well as in the application for the grant of a US patent for an invention with serial No. 11/603406, which was filed November 28, 2006; U.S. Patent Application Serial No. 12/076348, filed March 17, 2008, and PCT Serial No. PCT / S09 / 52730, describe one such method that uses genetic data from related individuals to increase accuracy determining or evaluating the genetic data of a target individual, such as a fetus. Other methods used for prenatal diagnosis include measuring the levels of certain hormones in maternal blood, while these hormones correlate with various genetic abnormalities. An example of such tests is called a triple test, in which the levels of several (usually two, three, four or pathways) different hormones are measured in maternal blood. In the event that several methods are used to determine the probability of a particular end result, and none of these methods is exhaustive in itself, you can combine the information obtained using these methods to obtain a more accurate forecast than that provided by any of the individual methods. In the triple test, combining information on three different hormones allows us to give a more accurate forecast of genetic abnormalities than that which can be obtained based on the levels of individual hormones.

В настоящем документе раскрывается способ получения более точных прогнозов относительно генетического статуса плода, в частности, возможности существования у плода генетических аномалий, который включает комбинирование прогнозов генетических аномалий у плода, причем указанные прогнозы получают с использованием ряда способов. «Более точный» способ может относиться к способу диагностики аномалии, дающему меньше ложноотрицательных результатов при определенном уровне ложноположительных результатов. В предпочтительном варианте осуществления согласно настоящему раскрытию один или несколько прогнозов получают на основе генетических данных, известных для плода, при этом генетические сведения были получены с использованием способа PARENTAL SUPPORTтм, то есть с использованием генетических данных родственных плоду индивидуумов для определения генетических данных плода с большей точностью. Согласно некоторым вариантам осуществления генетические данные могут включать состояния плоидности плода. Согласно некоторым вариантам осуществления генетические данные могут относиться к набору признаков аллелей в геноме плода. Согласно некоторым вариантам осуществления некоторые из прогнозов могут быть получены с применением тройного теста. Согласно некоторым вариантам осуществления некоторые из прогнозов могут быть получены с применением измерений уровней других гормонов в материнской крови. Согласно некоторым вариантам осуществления прогнозы, полученные с помощью рассмотренных способов диагностики, можно комбинировать с прогнозами, полученными с помощью рассмотренных способов скрининга. Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней альфа-фетопротеина (AFP). Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней неконъюгированного эстриола (UE3). Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней бета-хорионического гонадотропина человека (beta-hCG). Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней инвазивного трофобластического антигена (ITА). Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней ингибина. Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней ассоциированного с беременностью протеина А плазмы (РАРР-А). Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней других гормонов или сывороточных маркеров. Согласно некоторым вариантам осуществления некоторые из прогнозов могут быть получены с применением других способов. Согласно некоторым вариантам осуществления некоторые из прогнозов могут быть получены с использованием полностью интегрированного теста, например, комбинирующего ультразвуковое исследование, анализ крови на сроке беременности приблизительно 12 недель и второй анализ на сроке приблизительно 16 недель.). Согласно некоторым вариантам осуществления указанный способ включает измерение прозрачности шейной складки (NT) у плода. Согласно некоторым вариантам осуществления указанный способ включает использование измеренных уровней вышеупомянутых гормонов для прогнозирования. Согласно некоторым вариантам осуществления указанный способ включает комбинацию вышеупомянутых способов.This document discloses a method for obtaining more accurate predictions regarding the genetic status of the fetus, in particular, the possibility of the existence of genetic abnormalities in the fetus, which includes combining predictions of genetic abnormalities in the fetus, and these predictions are obtained using a number of methods. A “more accurate” method may relate to a method for diagnosing an anomaly that produces fewer false negative results at a certain level of false positive results. In a preferred embodiment, according to the present disclosure, one or more predictions are obtained based on genetic data known to the fetus, and genetic information was obtained using the PARENTAL SUPPORT method, that is, using genetic data related to the fetal individuals to determine the genetic data of the fetus with greater accuracy. In some embodiments, the genetic data may include ploidy states of the fetus. In some embodiments, the genetic data may relate to a set of allele traits in the fetal genome. In some embodiments, some of the predictions can be obtained using a triple test. In some embodiments, some of the predictions can be made using measurements of other hormones in the mother’s blood. According to some embodiments, the forecasts obtained using the above diagnostic methods can be combined with the forecasts obtained using the considered screening methods. In some embodiments, said method comprises measuring maternal blood levels of alpha-fetoprotein (AFP). In some embodiments, said method comprises measuring maternal blood levels of unconjugated estriol (UE 3 ). In some embodiments, said method comprises measuring maternal blood levels of human beta-chorionic gonadotropin (beta-hCG). In some embodiments, said method comprises measuring maternal blood levels of invasive trophoblastic antigen (ITA). In some embodiments, said method comprises measuring maternal blood levels of inhibin. In some embodiments, said method comprises measuring maternal blood levels of pregnancy-associated plasma protein A (PAPP-A). In some embodiments, said method comprises measuring maternal blood levels of other hormones or serum markers. In some embodiments, some of the predictions may be obtained using other methods. In some embodiments, some of the predictions can be obtained using a fully integrated test, for example, combining ultrasound, a blood test for a gestational age of approximately 12 weeks, and a second analysis for a term of approximately 16 weeks.). In some embodiments, the method includes measuring the transparency of the cervical fold (NT) in the fetus. In some embodiments, said method comprises using measured levels of the aforementioned hormones to predict. In some embodiments, said method comprises a combination of the above methods.

Существует множество способов комбинирования прогнозов, например, можно преобразовать результаты измерений гормонов в кратное медианы (МоМ) и затем в отношения правдоподобия (LR). Аналогичным образом, другие измерения можно трансформировать в LR с применением смешанной модели распределений показателя NT. LR для NT и биохимических маркеров можно умножить на риск, связанный с возрастом и вынашиванием для получения значений риска различных состояний, таких как трисомия 21. Частоты обнаружения (DR) и частоты ложноположительных результатов (FPR) можно рассчитать, взяв соотношения рисков выше заданного порогового значения риска.There are many ways to combine forecasts, for example, you can convert the results of hormone measurements into a multiple of the median (MoM) and then into the likelihood ratio (LR). Similarly, other measurements can be transformed into LR using a mixed NT distribution model. The LR for NT and biochemical markers can be multiplied by the risk associated with age and gestation to obtain risk values for various conditions, such as trisomy 21. Detection frequencies (DR) and false positive rates (FPR) can be calculated by taking risk ratios above a predetermined threshold value risk.

Согласно варианту осуществления способ получения признаков плоидности включает комбинирование относительных вероятностей каждой из гипотез плоидности, определенных с применением модели совместного распределения, и вероятностей числа аллелей с относительными вероятностями каждой из гипотез плоидности, которые рассчитывают с применением статистических методов из других способов определения оценки рисков трисомии плода, включая, но не ограничиваясь перечисленными: анализ числа считываний, сравнение степеней гетерозиготности, статистические показатели, доступные только при использовании родительской генетической информации, вероятность нормализованных сигналов генотипа для определенных родительских контекстов, статистические показатели, которые рассчитывают с применением оцененной доли плода в первом образце или подготовленном образце и их комбинации.According to an embodiment, the method of obtaining ploidy signs includes combining the relative probabilities of each of the ploidy hypotheses determined using the joint distribution model and the probabilities of the number of alleles with the relative probabilities of each of the ploidy hypotheses, which are calculated using statistical methods from other methods for determining the risk assessment of fetal trisomy, including, but not limited to: analysis of the number of readings, comparison of degrees of heterozygosity, stat -terrorist metrics available only when the parental genetic data, the probability of normalized signals for certain genotype of parental contexts, statistical indicators that were calculated using the estimated proportion of the fetus in the first sample or the sample prepared, and combinations thereof.

Другой способ может включать ситуацию с измеряемыми уровнями четырех гормонов, когда известно распределение вероятности для этих гормонов: p(x1, х2, х3, х4|е) для случая эуплоидии и р(х1, х2, х3, х4|а) для случая анеуплоидии. Затем можно измерить распределение вероятности для измерений ДНК, g(y|e) и g(y|a) для случаев эуплоидии и анеуплоидии, соответственно. Предполагая, что они являются независимыми с учетом предположения об эуплоидии/анеуплоидии, можно объединить их в виде p(x1, х2, х3, х4|a)g(y|a) и p(x1, х2, х3, x4|e)g(y|e), и затем умножить каждую на априорные р(а) и р(е) при заданном возрасте матери. Затем можно выбрать максимальное значение.Another method may include a situation with measured levels of four hormones when the probability distribution for these hormones is known: p (x 1 , x 2 , x 3 , x 4 | e) for the case of euploidy and p (x 1 , x 2 , x 3 , x 4 | a) for the case of aneuploidy. You can then measure the probability distribution for DNA measurements, g (y | e) and g (y | a) for euploidy and aneuploidy, respectively. Assuming that they are independent, taking into account the assumption of euploidy / aneuploidy, we can combine them in the form p (x 1 , x 2 , x 3 , x 4 | a) g (y | a) and p (x 1 , x 2 , x 3 , x 4 | e) g (y | e), and then multiply each by a priori p (a) and p (e) for a given age of the mother. Then you can select the maximum value.

Согласно варианту осуществления можно задействовать центральную предельную теорему, чтобы предположить, что распределение в g(y|a или е) является гауссовым, и измерить среднее значение и стандартное отклонение, учитывая множество образцов. Согласно другому варианту осуществления можно предположить, что они не являются независимыми, учитывая результат, и собрать достаточно образцов для оценки совместного распределения p(x1, х2, х3, х4|a или е).According to an embodiment, the central limit theorem can be used to assume that the distribution in g (y | a or e) is Gaussian and measure the mean and standard deviation, given the plurality of samples. According to another embodiment, we can assume that they are not independent, given the result, and collect enough samples to evaluate the joint distribution of p (x 1 , x 2 , x 3 , x 4 | a or e).

Согласно варианту осуществления состояние плоидности целевого индивидуума определяют как состояние плоидности, связанное с гипотезой, вероятность которой максимальна. В некоторых случаях одна гипотеза будет иметь нормализованную, совместную вероятность, превышающую 90%. Каждая гипотеза связана с одним состоянием плоидности или с совокупностью состояний плоидности, и состояние плоидности, связанное с гипотезой, нормализованная совместная вероятность которой превышает 90%, или какую-либо другую пороговую величину, такую как 50%, 80%, 95%, 98%, 99% или 99,9%, может быть выбрано в качестве порогового для признания гипотезы определенным состоянием плоидности.According to an embodiment, the ploidy state of the target individual is defined as the ploidy state associated with a hypothesis with a maximum probability. In some cases, one hypothesis will have a normalized, joint probability exceeding 90%. Each hypothesis is associated with one state of ploidy or with a set of states of ploidy, and a state of ploidy associated with a hypothesis whose normalized joint probability exceeds 90%, or some other threshold value such as 50%, 80%, 95%, 98% , 99% or 99.9%, can be selected as the threshold for recognizing a hypothesis as a certain state of ploidy.

ДНК детей от предыдущих беременностей в материнской кровиDNA of children from previous pregnancies in maternal blood

Одна из трудностей для неинвазивной пренатальной диагностики заключается в том, чтобы отличить плодные клетки от текущей беременности от плодных клеток от предыдущих беременностей. Есть мнение, что генетический материал от предыдущих беременностей спустя какое-то время исчезает, но убедительные доказательства представлены не были. Согласно варианту осуществления, раскрытому в настоящем описании, возможно определение плодной ДНК отцовского происхождения, присутствующей в материнской крови (то есть ДНК, унаследованной плодом от отца) с применением метода PARENTAL SUPPORTтм (PS) и информации об отцовском геноме. Указанный способ может задействовать фазированную родительскую генетическую информацию. Родительский генотип может быть фазирован по нефазированной генотипической информации с использованием генетических данных от родителей (например, измеренных генетических данных спермы деда) или генетических данных других рожденных детей, или образца материала выкидыша. Также возможно фазирование нефазированной генетической информации с применением фазирования на основе НарМар или гаплотипирования отцовских клеток. Было продемонстрировано успешное гаплотипирование путем остановки клеток в фазе митоза, когда хромосомы имеют вид плотных пучков, и перенесения отдельных хромосом в отдельные лунки с применением микрофлюидики. Согласно другому варианту осуществления могут использоваться фазированные данные родительского гаплотипа для обнаружения присутствия более чем одного гомолога от отца, что указывает на присутствие в крови генетического материала более чем одного ребенка. Сфокусировав внимание на хромосомах, предположительно эуплоидных у плода, можно исключить возможность того, что у плода имеется трисомия. Также возможно определение того, что плодная ДНК происходит не от отца вынашиваемого в текущий момент плода, в этом случае можно использовать другие способы, такие как тройной тест, для прогнозирования генетических аномалий.One of the difficulties for non-invasive prenatal diagnosis is to distinguish fetal cells from the current pregnancy from fetal cells from previous pregnancies. It is believed that the genetic material from previous pregnancies disappears after some time, but no convincing evidence was presented. According to an embodiment disclosed herein, may have a paternal origin of fetal DNA present in maternal blood (i.e., a DNA inherited from father fruit) using the method PARENTAL SUPPORT tm (PS) and information on the paternal genome. The method may involve phased parental genetic information. The parental genotype can be phased according to unphased genotypic information using genetic data from the parents (for example, the measured genetic data of the sperm of the grandfather) or the genetic data of other born children, or a sample of miscarriage material. It is also possible phasing unphased genetic information using phasing based on NarMap or haplotyping of paternal cells. Successful haplotyping has been demonstrated by stopping cells in the mitosis phase, when the chromosomes are in the form of dense bundles, and transferring individual chromosomes to separate wells using microfluidics. According to another embodiment, phased parent haplotype data can be used to detect the presence of more than one homolog from the father, indicating the presence of more than one child's genetic material in the blood. By focusing on chromosomes presumably euploid in the fetus, it is possible that the fetus has trisomy. It is also possible to determine that fetal DNA does not originate from the father of the fetus that is currently being hatched, in which case other methods, such as a triple test, can be used to predict genetic abnormalities.

Могут существовать и другие источники плодного генетического материала, получаемого отличными от взятия крови способами. В случае плодного генетического материала, присутствующего в материнской крови, имеется две основных категории: (1) целые плодные клетки, например, ядросодержащие плодные эритроциты или эритробласты, и (2) свободноплавающая плодная ДНК. В случае целых плодных клеток имеются некоторые данные, свидетельствующие, что плодные клетки могут оставаться в материнской крови на протяжении длительного периода времени, таким образом, что возможно получение от беременной женщины клетки, которая содержит ДНК ребенка или плода от предыдущей беременности. Существуют также данные, указывающие на выведение свободноплавающей плодной ДНК из системы в течение нескольких недель. Одной из сложных задач является определение индивидуума, чей генетический материал содержится в клетке, то есть необходимо убедиться, что измеряемый генетический материал не относится к плоду от предыдущей беременности. Согласно варианту осуществления, раскрытому в настоящем описании, информация о материнском генетическом материале может использоваться для подтверждения того, что рассматриваемый генетический материал не является материнским генетическим материалом. Существует ряд способов достижения указанной цели, включая способы на основе информатики, такие как PARENTAL SUPPORTтм, согласно описанию в настоящем документе или в любом из патентов, на которые приведены ссылки в настоящем документе.There may be other sources of fetal genetic material obtained by methods other than blood collection. In the case of fetal genetic material present in maternal blood, there are two main categories: (1) whole fetal cells, for example, nucleated fetal erythrocytes or erythroblasts, and (2) free-floating fetal DNA. In the case of whole fetal cells, there is some evidence that fetal cells can remain in maternal blood for a long period of time, so that it is possible to receive a cell from a pregnant woman that contains the baby or fetal DNA from a previous pregnancy. There is also evidence indicating the elimination of free-floating fetal DNA from the system within a few weeks. One of the difficult tasks is to determine the individual whose genetic material is contained in the cell, that is, you must make sure that the measured genetic material does not apply to the fetus from a previous pregnancy. According to an embodiment disclosed herein, information about the maternal genetic material can be used to confirm that the genetic material in question is not maternal genetic material. There are a number of ways to achieve this goal, including computer-based techniques such as PARENTAL SUPPORT , as described herein or in any of the patents referred to herein.

Согласно варианту осуществления, раскрытому в настоящем описании, кровь, полученная от беременной матери, может быть разделена на фракцию, содержащую свободноплавающую плодную ДНК, и фракцию, содержащую ядросодержащие эритроциты. Свободноплавающая ДНК может необязательно быть обогащенной; для указанной ДНК может быть получена генотипическая информация. Исходя из полученной генотипической информации для свободноплавающей ДНК, можно использовать информацию о материнском генотипе для определения аспектов плодного генотипа. Указанные аспекты могут относиться к состоянию плоидности и/или набору идентификационных характеристик (идентичностей) для аллелей. Затем индивидуальные ядросодержащие эритроциты могут быть генотипированы с применением способов, описанных в различных разделах настоящего документа и в других цитируемых патентах, в частности, упоминаемых в первом разделе настоящего документа. Информация о материнском геноме позволяет определить, является или нет конкретная одиночная клетка крови генетически материнской. Далее, аспекты плодного генотипа, определенные согласно описанию выше, позволят определить, происходит ли указанная одиночная клетка крови генетически от плода, вынашиваемого в настоящее время. В сущности, указанный аспект раскрываемого изобретения позволяет использовать генетическую информацию матери, и, возможно, генетическую информацию других родственных индивидуумов, например, отца, наряду с генетической информацией, полученной из свободноплавающей ДНК, присутствующей в материнской крови, для определения того, является ли выделенная ядросодержащая клетка, присутствующая в материнской крови, (а) генетически материнской, (b) происходящей генетически от плода, вынашиваемого в настоящее время, или (с) происходящей генетически от плода от предыдущей беременности.According to an embodiment disclosed herein, blood obtained from a pregnant mother can be divided into a fraction containing free-floating fetal DNA and a fraction containing nucleated red blood cells. Floating DNA may optionally be enriched; genotypic information can be obtained for said DNA. Based on the obtained genotypic information for free-floating DNA, information on the maternal genotype can be used to determine aspects of the fetal genotype. These aspects may relate to a ploidy state and / or a set of identification characteristics (identities) for alleles. Then, individual nucleated red blood cells can be genotyped using the methods described in various sections of this document and other cited patents, in particular those mentioned in the first section of this document. Information about the maternal genome allows you to determine whether or not a particular single blood cell is genetically maternal. Further, aspects of the fetal genotype defined as described above will determine whether the indicated single blood cell is genetically derived from the fetus that is currently hatched. In fact, this aspect of the disclosed invention allows the use of the genetic information of the mother, and possibly the genetic information of other related individuals, for example, the father, along with the genetic information obtained from free-floating DNA present in maternal blood to determine whether the isolated nucleated a cell present in maternal blood, (a) genetically maternal, (b) originating genetically from the fetus currently hatched, or (c) occurring genetically from the fetus from a previous pregnancy.

Пренатальное определение анеуплоидии половых хромосомPrenatal determination of sex chromosome aneuploidy

В известных в данной области техники способах при попытках определить пол вынашиваемого плода по крови матери использовался тот факт, что в плазме матери присутствует свободноплавающая плодная ДНК (fffDNA). В том случае, если могут быть выявлены Y-специфичные локусы в материнской плазме, это означает, что вынашиваемый плод мужского пола. Тем не менее, при использовании известных в данной области техники способов отсутствие выявленных Y-специфичных локусов в плазме не всегда гарантированно означает, что вынашиваемый плод женского пола, поскольку в некоторых случаях количество fffDNA слишком мало для того, чтобы можно было гарантировать, что в случае плода мужского пола будут выявлены Y-специфичные локусы.In methods known in the art, when trying to determine the sex of the fetus to be born by the mother’s blood, the fact that free floating fetal DNA (fffDNA) is present in the mother’s plasma was used. In the event that Y-specific loci in the maternal plasma can be detected, this means that the bearing fetus is male. However, when using methods known in the art, the absence of detected Y-specific loci in the plasma does not always guarantee that the fetus is female, because in some cases the amount of fffDNA is too small to guarantee that in the case of male fetus, Y-specific loci will be detected.

В настоящем документе представлен новый способ, который не требует измерения Y-специфичных нуклеиновых кислот, т.е. ДНК из локусов исключительно отцовского происхождения. В раскрытом ранее методе PARENTAL SUPPORT для определения состояния плоидности вынашиваемого плода используются данные частоты кроссинговера, родительские генотипические данные и методики информатики. Пол плода - это просто состояние плоидности половых хромосом плода. Ребенок женского пола имеет генотип XX, а ребенок мужского пола - генотип XY. Описанный в настоящем документе способ также дает возможность определить состояние плоидности плода. Отметим, что определение пола является фактически синонимом определения плоидности половых хромосом; в случае определения пола часто формулируется предположение, что ребенок эуплоидный, следовательно, возможных гипотез становится меньше.This document presents a new method that does not require the measurement of Y-specific nucleic acids, i.e. DNA from loci exclusively of paternal origin. In the previously disclosed PARENTAL SUPPORT method, crossover frequency data, parental genotypic data, and computer science techniques are used to determine the ploidy state of the bearing fetus. Sex of the fetus is simply a state of ploidy of the sex chromosomes of the fetus. A female child has genotype XX, and a male child has genotype XY. The method described herein also makes it possible to determine the ploidy state of the fetus. Note that sex determination is actually a synonym for determining the ploidy of sex chromosomes; in the case of sex determination, the assumption is often made that the child is euploid, therefore, there are fewer possible hypotheses.

Раскрытый в настоящем документе способ включает изучение локусов, которые являются общими и для X, и для Y хромосом, для создания базового уровня по показателю ожидаемого количества присутствующей плодной ДНК для плода. Затем области, специфичные только для Х-хромосомы, могут быть изучены для определения того, является ли плод женского или мужского пола. В случае мужского пола ожидается наличие меньшего количества плодной ДНК из локусов, специфичных для Х-хромосомы, чем количество ДНК из локусов, специфичных и для Х-, и для Y-хромосом. Напротив, в случае плодов женского пола ожидается, что количество ДНК для каждой из указанных групп будет одинаковым. Исследуемая ДНК может быть измерена любой методикой, которая количественно определяет количество ДНК, присутствующей в образце, например, количественная ПЦР, матрицы SNP, матрицы генотипирования или секвенирование. Для ДНК, которая принадлежит исключительно одному индивидууму, ожидается увидеть следующее:The method disclosed herein includes examining loci that are common to both the X and Y chromosomes to create a baseline in terms of the expected amount of fetal DNA present for the fetus. Then, regions specific for the X chromosome only can be examined to determine if the fetus is female or male. In the case of the male, a smaller amount of fetal DNA from loci specific for the X chromosome is expected to be less than the amount of DNA from loci specific for both the X and Y chromosomes. In contrast, in the case of female fetuses, the amount of DNA for each of these groups is expected to be the same. Test DNA can be measured by any technique that quantifies the amount of DNA present in a sample, for example, quantitative PCR, SNP matrices, genotyping matrices, or sequencing. For DNA that belongs to only one individual, it is expected to see the following:

Figure 00000036
Figure 00000036

Figure 00000037
Figure 00000037

В случае, если ДНК плода смешана с ДНК матери, и доля плодной ДНК в смеси представляет собой F, а доля материнской ДНК в смеси представляет собой М, так что F+M=100%, ожидается увидеть следующее:If the fetal DNA is mixed with the mother’s DNA, and the fetal DNA fraction in the mixture is F, and the maternal DNA fraction in the mixture is M, so that F + M = 100%, it is expected to see the following:

Figure 00000038
Figure 00000038

В случае, если F и М известны, можно вычислить ожидаемые отношения и наблюдаемые данные можно сравнить с ожидаемыми данными. В случае, если М и F неизвестны, порог может быть выбран на основании накопленных данных. В обоих случаях измеренное количество ДНК в локусах, специфичных и для X, и для Y, может быть использовано в качестве базового уровня, и тест на определение пола плода может быть основан на количестве ДНК, наблюдаемом в локусах, специфичных только для Х-хромосомы. Если указанное количество меньше базового уровня приблизительно на ½ F или на величину, которая уменьшает его до значений ниже предустановленного порога, считают, что плод мужского пола; если указанное количество приблизительно равно базовому уровню или не ниже на величину, уменьшающую его до значений ниже предустановленного порога, считают, что плод женского пола.If F and M are known, the expected relationships can be calculated and the observed data can be compared with the expected data. In the event that M and F are unknown, the threshold can be selected based on the accumulated data. In both cases, the measured amount of DNA at loci specific for both X and Y can be used as a baseline, and the fetal sex test can be based on the amount of DNA observed at loci specific for the X chromosome only. If the indicated amount is less than the base level by approximately ½ F or by a value that reduces it to values below a predetermined threshold, consider the male fetus; if the indicated amount is approximately equal to the base level or not lower by an amount that reduces it to values below a predetermined threshold, consider the fetus to be female.

Согласно другому варианту осуществления можно рассматривать только те локусы, которые являются общими и для Х-, и для Y-хромосом, часто называемые Z-хромосомой. Поднабор локусов в Z-хромосоме всегда обозначается А для Х-хромосомы и В для Y-хромосомы. Если выясняется, что SNP из Z-хромосомы имеют В-генотип, то считается, что плод мужского пола; если выясняется, что SNP из Z-хромосомы имеют только А-генотип, то считается, что плод женского пола. Согласно другому варианту осуществления можно рассматривать локусы, которые обнаруживаются только в Х-хромосоме. Контексты, такие как АА|В являются особенно информативными, поскольку присутствие В указывает на то, что плод получил Х-хромосому от отца. Контексты, такие как АВ|В также информативны, поскольку ожидается увидеть, что В присутствует в количестве в 2 раза меньшем, как часто наблюдается в случае, если плод женского пола, в отличие от плода мужского пола. Согласно другому варианту осуществления можно рассматривать SNP в Z-хромосоме, при этом в Х- и Y-хромосомах присутствуют как аллель А, так и аллель В, и при этом известно, какие SNP происходят из отцовской Y-хромосомы, и какие из отцовской Х-хромосомы.According to another embodiment, only loci that are common to both the X and Y chromosomes, often called the Z chromosome, can be considered. A subset of loci in the Z chromosome is always designated A for the X chromosome and B for the Y chromosome. If it turns out that SNPs from the Z chromosome have a B genotype, then the fetus is considered to be male; if it turns out that SNPs from the Z chromosome have only the A genotype, then the fetus is considered to be female. In another embodiment, loci that are found only on the X chromosome can be considered. Contexts such as AA | B are particularly informative, since the presence of B indicates that the fetus received the X chromosome from the father. Contexts such as AB | B are also informative, as it is expected to see that B is present in an amount 2 times smaller, as is often the case if the fetus is female, unlike the male fetus. According to another embodiment, SNPs can be considered in the Z chromosome, while both the A and B alleles are present on the X and Y chromosomes, and it is known which SNPs originate from the paternal Y chromosome and which paternal X chromosomes.

Согласно варианту осуществления можно амплифицировать однонуклеотидные положения, которые, как известно, варьируют между гомологичными нерекомбинирующимися областями (HNR), общими для Y- и Х-хромосом. Последовательность в пределах такой области HNR в основном идентична между Х- и Y-хромосомами. Внутри этой идентичной области имеются однонуклеотидные положения, которые, будучи инвариантными среди Х-хромосом и среди Y хромосом в популяции, различны у Х- и Y-хромосом. Каждый анализ ПЦР может амплифицировать последовательность из локусов, присутствующих и в Х-, и в Y-хромосомах. В каждой амплифицированной последовательности будет одно основание, которое может быть выявлено с использованием секвенирования или некоторых других способов.In an embodiment, single nucleotide positions that are known to vary between homologous non-recombining regions (HNRs) common to the Y and X chromosomes can be amplified. The sequence within such an HNR region is basically identical between the X and Y chromosomes. Inside this identical region there are single nucleotide positions that, being invariant among the X chromosomes and among the Y chromosomes in the population, are different on the X and Y chromosomes. Each PCR assay can amplify a sequence of loci present in both the X and Y chromosomes. In each amplified sequence there will be one base that can be detected using sequencing or some other methods.

Согласно варианту осуществления пол плода можно установить по плодной свободноплавающей ДНК, присутствующей в материнской плазме, способ включает некоторые или все следующие этапы: 1) конструирование праймеров для ПЦР (для обычной или мини-ПЦР, при необходимости с мультиплексированием), амплифицирующих варианты X/Y однонуклеотидных положений в области HNR, 2) получение материнской плазмы, 3) ПЦР-амплификация целей из материнской плазмы с использованием матриц ПЦР для HNR X/Y, 4) секвенирование ампликонов, 5) проверка данных секвенирования на предмет присутствия Y-аллеля в одной или нескольких амплифицированных последовательностях. Присутствие одного или нескольких таких аллелей будет свидетельствовать о том, что плод мужского пола. Отсутствие всех Y-аллелей во всех ампликонах указывает на то, что плод женского пола.According to an embodiment, the sex of the fetus can be determined by the fetal free-floating DNA present in the maternal plasma, the method includes some or all of the following steps: 1) designing primers for PCR (for conventional or mini-PCR, if necessary with multiplexing), amplifying X / Y variants single nucleotide positions in the HNR region, 2) obtaining maternal plasma, 3) PCR amplification of targets from maternal plasma using PCR matrices for HNR X / Y, 4) amplicon sequencing, 5) checking sequencing data for pre meth Y-allele in the presence of one or more amplified sequences. The presence of one or more of these alleles will indicate that the fetus is male. The absence of all Y alleles in all amplicons indicates that the fetus is female.

Согласно варианту осуществления можно использовать целевое секвенирование для измерения ДНК в материнской плазме и/или родительских генотипов. Согласно варианту осуществления можно игнорировать все последовательности, которые явно происходят из отцовских источников ДНК. Например, в контексте АА|АВ можно подсчитать число А-последовательностей и проигнорировать все В-последовательности. Чтобы определить степень гетерозиготности для вышеупомянутого алгоритма, можно сравнить число наблюдаемых А-последовательностей с ожидаемым числом общих последовательностей для данного зонда. Существует много способов, с помощью которых можно рассчитать ожидаемое число последовательностей для каждого зонда на образец. Согласно варианту осуществления можно использовать накопленные данные для определения доли всех считываний последовательностей, принадлежащей каждому специфичному зонду, а затем использовать эту эмпирическую долю в комбинации с общим числом считываний последовательностей для оценки числа последовательностей по каждому зонду. Другой подход может заключаться в нацеливании на некоторые известные гомозиготные аллели и в последующем использовании накопленных данных для того, чтобы соотнести число считываний по каждому зонду с числом считываний известных гомозиготных аллелей. Для каждого образца затем можно измерить число считываний гомозиготных аллелей, а затем использовать это измерение вместе с эмпирически выведенными взаимосвязями для оценки числа считываний последовательностей по каждому зонду.In an embodiment, targeted sequencing can be used to measure maternal plasma DNA and / or parental genotypes. In an embodiment, all sequences that are clearly derived from paternal DNA sources can be ignored. For example, in the context of AA | AB, you can count the number of A-sequences and ignore all B-sequences. To determine the degree of heterozygosity for the above algorithm, one can compare the number of observed A-sequences with the expected number of common sequences for a given probe. There are many ways in which you can calculate the expected number of sequences for each probe per sample. According to an embodiment, the accumulated data can be used to determine the fraction of all reads of sequences belonging to each specific probe, and then use this empirical fraction in combination with the total number of reads of sequences to estimate the number of sequences for each probe. Another approach may be to target some known homozygous alleles and then use the accumulated data to correlate the number of readings for each probe with the number of readings of known homozygous alleles. For each sample, one can then measure the number of readings of homozygous alleles, and then use this measurement together with empirically derived relationships to estimate the number of readings of sequences for each probe.

Согласно некоторым вариантам осуществления можно определить пол плода путем объединения прогнозов, выполненных несколькими способами. Согласно некоторым вариантам осуществления несколько способов выбраны из описанных в настоящем раскрытии способов. Согласно некоторым вариантам осуществления по меньшей мере один из нескольких способов выбран из описанных в настоящем раскрытии способов.In some embodiments, it is possible to determine the sex of the fetus by combining predictions made in several ways. In some embodiments, several methods are selected from the methods described in the present disclosure. In some embodiments, at least one of several methods is selected from the methods described in the present disclosure.

Согласно некоторым вариантам осуществления описанный в настоящем документе способ может быть использован для определения состояния плоидности вынашиваемого плода. Согласно варианту осуществления в способе получения признаков плоидности используются локусы, специфичные для Х-хромосомы или общие и для Х-, и для Y-хромосом, но не используются какие-либо Y-специфичные локусы. Согласно варианту осуществления в способе получения признаков плоидности используется что-либо одно или более из перечисленного: локусы, специфичные для Х-хромосомы, локусы, общие и для Х-, и для Y-хромосом, и локусы, специфичных для Y-хромосомы. Согласно варианту осуществления, если отношения половых хромосом сходны, например, 45,Х (синдром Тернера), 46,ХХ (нормальная женщина) и 47,ХХХ (трисомия X), установление различий может быть выполнено путем сравнения аллельных распределений с ожидаемыми аллельными распределениями в соответствии с различными гипотезами. Согласно другому варианту осуществления это может быть выполнено путем сравнения относительного числа считываний последовательностей для половых хромосом с одной или множеством эталонных хромосом, которые предположительно эуплоидны. Также отметим, что эти способы могут быть расширены для включения случаев анеуплоидии.According to some embodiments, the method described herein can be used to determine the ploidy state of a gestating fetus. According to an embodiment, the method for obtaining ploidy traits uses loci specific for the X chromosome or common for both the X and Y chromosomes, but no Y-specific loci are used. According to an embodiment, the method for producing ploidy traits uses one or more of the following: loci specific for the X chromosome, loci common to the X and Y chromosomes, and loci specific to the Y chromosome. According to an embodiment, if the sex chromosome relationships are similar, for example, 45, X (Turner syndrome), 46, XX (normal woman) and 47, XX (trisomy X), differences can be made by comparing the allelic distributions with the expected allelic distributions in according to various hypotheses. According to another embodiment, this can be done by comparing the relative number of sex chromosome readings with one or a plurality of reference chromosomes that are supposedly euploid. Also note that these methods can be extended to include cases of aneuploidy.

Скрининг моногенных заболеванийMonogenic disease screening

Согласно варианту осуществления способ определения состояния плоидности плода может быть расширен для обеспечения возможности одновременного тестирования на моногенные заболевания. При диагностике моногенных заболеваний используются те же целевые подходы, что и для тестирования на анеуплоидию, и требуются дополнительные специфичные цели. Согласно варианту осуществления диагностика моногенного NPD осуществляется посредством анализа сцепления. Во многих случаях прямое тестирование образца cfDNA не является надежным, поскольку присутствие материнской ДНК делает практически невозможным определение наследования плодом мутации матери. Выявление уникального аллеля отца менее проблематично, но оно полностью информативно только, если заболевание является доминантным признаком, и отец является носителем, что ограничивает практическую ценность указанного подхода. Согласно варианту осуществления способ включает ПЦР или связанные с ней способы амплификации.According to an embodiment, the method for determining the state of fetal ploidy can be expanded to allow simultaneous testing for monogenic diseases. When diagnosing monogenic diseases, the same target approaches are used as for testing for aneuploidy, and additional specific goals are required. According to an embodiment, the diagnosis of monogenic NPD is carried out by linkage analysis. In many cases, direct testing of the cfDNA sample is not reliable, since the presence of maternal DNA makes it almost impossible to determine the fetal inheritance of the maternal mutation. Identification of the father’s unique allele is less problematic, but it is completely informative only if the disease is a dominant sign and the father is the carrier, which limits the practical value of this approach. According to an embodiment, the method comprises PCR or related amplification methods.

Согласно некоторым вариантам осуществления способ включает фазирование анормального аллеля с окружающими очень тесно сцепленными SNP у родителей с использованием информации о родственниках первой степени родства. Затем может быть использован метод PARENTAL SUPPORT для данных целевого секвенирования, полученных по этим SNP, для определения того, какие гомологи, нормальные или анормальные, плод унаследовал от обоих родителей. При условии, что SNP в достаточной степени сцеплены, наследование генотипа плодом может быть установлено с большой надежностью. Согласно некоторым вариантам осуществления способ включает (а) добавление набора локусов SNP для плотного фланкирования конкретного набора распространенных заболеваний в соответствующий настоящему изобретению мультиплексный пул для тестирования на анеуплоидию; (b) надежное фазирование аллелей из этих добавленных SNP с нормальными и анормальными аллелями на основе генетических данных о разных родственниках и (с) реконструкцию гаплотипа плода или набора фазированных аллелей SNP в унаследованных материнских и отцовских гомологах в области, окружающей локус заболевания, с целью установления генотипа плода. Согласно некоторым вариантам осуществления к набору полиморфных локусов, используемых для тестирования на анеуплоидию, добавляют дополнительные зонды, которые тесно сцеплены со связанным с заболеванием локусом.In some embodiments, the method comprises phasing the abnormal allele with surrounding very closely linked SNPs in parents using first-degree relative information. The PARENTAL SUPPORT method can then be used for the target sequencing data obtained from these SNPs to determine which homologs, normal or abnormal, the fetus inherited from both parents. Provided that the SNPs are sufficiently linked, the inheritance of the genotype by the fetus can be established with great reliability. According to some embodiments, the method includes (a) adding a set of SNP loci for tightly flanking a specific set of common diseases in the multiplex pool for testing aneuploidy according to the present invention; (b) reliable phasing of alleles from these added SNPs with normal and abnormal alleles based on genetic data from different relatives; and (c) reconstruction of the fetal haplotype or a set of phased SNP alleles in the inherited maternal and paternal homologs in the region surrounding the locus of the disease in order to establish genotype of the fetus. In some embodiments, additional probes that are closely linked to the disease-related locus are added to the set of polymorphic loci used to test for aneuploidy.

Реконструкция диплотипа плода затруднительна, потому что образец представляет собой смесь материнской и плодной ДНК. Согласно некоторым вариантам осуществления способ включает относительную информацию для фазирования SNP и аллелей заболевания, затем учитывает физическое расстояние SNP и данные о рекомбинации, исходя из вероятности рекомбинации специфичных локализаций, и данные, наблюдаемые по генетическим измерениям материнской плазмы, для получения наиболее вероятного генотипа плода.Reconstruction of the fetal diplotype is difficult because the sample is a mixture of maternal and fetal DNA. In some embodiments, the method includes relative information for phasing the SNP and disease alleles, then takes into account the physical distance of the SNP and recombination data based on the probability of recombination of specific locations and the data observed from genetic measurements of maternal plasma to obtain the most likely fetal genotype.

Согласно варианту осуществления ряд дополнительных зондов в расчете на связанный с заболеванием локус включают в набор целевых полиморфных локусов; число дополнительных зондов на связанный с заболеванием локус может составлять от 4 до 10, от 11 до 20, от 21 до 40, от 41 до 60, от 61 до 80, или их комбинации.According to an embodiment, a number of additional probes per disease-related locus are included in the set of target polymorphic loci; the number of additional probes per disease-related locus can be from 4 to 10, from 11 to 20, from 21 to 40, from 41 to 60, from 61 to 80, or a combination thereof.

Фазирование диплоидных данных родителей может быть сложным, и существует ряд способов его реализации. Некоторые обсуждаются в настоящем раскрытии, другие описаны подробнее в других раскрытиях (см., например, публикацию РСТ №WO2009105531, которая была подана 9 февраля 2009, и публикацию РСТ №WO2010017214, которая была подана 4 августа 2009 г., каждая из которых включена в настоящий документ посредством ссылки полностью). Согласно одному варианту осуществления родитель может быть фазирован косвенным образом, посредством измерения ткани родителя, которая является гаплоидной, например путем измерения одного или нескольких сперматозоидов или яйцеклеток. Согласно одному варианту реализации родитель может быть фазирован косвенным образом с применением измеренных генотипических данных родственника первой степени родства, например, родителя родителя(ей) или сиблингов. Согласно одному варианту осуществления родитель может быть фазирован с применением разведений, при этом ДНК разводят в одной или нескольких лунках, до состояния, предположительно соответствующего содержанию не более чем приблизительно одной копии каждого гаплотипа в каждой лунке с последующим измерением ДНК в указанной одной или нескольких лунках. Согласно одному варианту осуществления родительский генотип может быть фазирован путем применения компьютерных программ, использующих данные частот гаплотипов в популяциях для определения наиболее вероятной фазы. Согласно одному варианту осуществления родитель может быть фазирован, если известны фазированные данные гаплотипа для другого родителя наряду с нефазированными генетическими данными одного или нескольких генетических потомков указанных родителей. Согласно некоторым вариантам осуществления указанные генетические потомки родителей могут представлять собой один или несколько эмбрионов, плодов и/или рожденных детей. Некоторые из указанных способов и другие способы фазирования одного или обоих родителей подробнее раскрыты, например, в публикации США №2011/0033862, которая была подана 19 августа 2010 г.; публикации США №2011/0178719, которая была подана 3 февраля 2011 г.; публикации США №2007/0184467, которая была подана 22 ноября 2006 г.; публикации США №2008/0243398, которая была подана 17 марта 2008 г., каждая из которых полностью включена в настоящий документ посредством ссылки.Phasing diploid parental data can be difficult, and there are a number of ways to implement it. Some are discussed in this disclosure, others are described in more detail in other disclosures (see, for example, PCT publication No. WO2009105531, which was filed February 9, 2009, and PCT publication No. WO2010017214, which was filed on August 4, 2009, each of which is included in this document by reference in its entirety). In one embodiment, the parent can be phased indirectly by measuring the parent's tissue, which is haploid, for example, by measuring one or more sperm or ova. In one embodiment, the parent can be phased indirectly using measured genotypic data from a first-degree relative, for example, parent of parent (s) or siblings. In one embodiment, the parent can be phased using dilutions, wherein the DNA is diluted in one or more wells to a condition presumably corresponding to not more than approximately one copy of each haplotype in each well, followed by DNA measurement in the specified one or more wells. In one embodiment, the parental genotype can be phased by using computer programs using haplotype frequency data in populations to determine the most likely phase. In one embodiment, the parent can be phased if phased haplotype data for the other parent is known along with the unphased genetic data of one or more genetic descendants of said parents. In some embodiments, said parental genetic descendants may be one or more embryos, fetuses, and / or born children. Some of these methods and other methods of phasing one or both parents are disclosed in more detail, for example, in US publication No. 2011/0033862, which was filed August 19, 2010; US Publication No. 2011/0178719, which was filed February 3, 2011; US Publication No. 2007/0184467, which was filed November 22, 2006; US Publication No. 2008/0243398, which was filed March 17, 2008, each of which is incorporated herein by reference in its entirety.

Реконструкция плодного геномаReconstruction of the fetal genome

Согласно одному аспекту в настоящем изобретении предложены способы определения гаплотипа плода. Согласно различным вариантам осуществления указанный способ позволяет определить, какие полиморфные локусы (например, SNP) были унаследованы плодом, и реконструировать то, какие гомологи (в том числе образованные в результате рекомбинации) присутствуют у указанного плода (и таким образом интерполировать последовательность между полиморфными локусами). Если требуется, может быть реконструирован по существу весь геном указанного плода. Если в геноме указанного плода остается некоторая неоднозначность (например, на отрезках с кроссинговером), указанная неоднозначность может быть минимизирована, если это требуется, путем анализа дополнительных полиморфных локусов. Согласно различным вариантам осуществления выбирают полиморфные локусы, покрывающие одну или несколько хромосом с плотностью, обеспечивающей уменьшение любой неоднозначности до нужного уровня. Указанный способ имеет существенные преимущества при применении для обнаружения полиморфизмов или других представляющих интерес мутаций у плода, поскольку позволяет их обнаружение на основании сцепления (например, присутствия сцепленных полиморфных локусов в геноме плода) а не путем направленного обнаружения полиморфизма или другой представляющей интерес мутации в геноме плода. Например, если родитель является носителем мутации, связанной с муковисцидозом (CF), может быть проанализирован образец нуклеиновой кислоты, который содержит материнскую ДНК от матери плода и плодную ДНК от плода, для определения того, включает ли плодная ДНК гаплотип, содержащий мутацию CF. В частности, могут быть проанализированы полиморфные локусы для определения того, включает ли плодная ДНК гаплотип, содержащий мутацию CF, без необходимости обнаружения самой мутации CF в плодной ДНК.According to one aspect, the present invention provides methods for determining a haplotype of a fetus. According to various embodiments, this method allows you to determine which polymorphic loci (e.g., SNPs) were inherited by the fetus and reconstruct which homologs (including those resulting from recombination) are present in the fetus (and thus interpolate the sequence between polymorphic loci) . If desired, substantially the entire genome of the indicated fetus can be reconstructed. If there is some ambiguity in the genome of the indicated fetus (for example, on segments with crossing over), this ambiguity can be minimized, if necessary, by analysis of additional polymorphic loci. In various embodiments, polymorphic loci are selected that cover one or more chromosomes with a density that reduces any ambiguity to the desired level. This method has significant advantages when used to detect polymorphisms or other mutations of interest in the fetus, because it allows their detection based on linkage (for example, the presence of linked polymorphic loci in the fetal genome) and not by targeted detection of polymorphism or other mutations of interest in the fetal genome . For example, if the parent is a carrier of a cystic fibrosis (CF) mutation, a nucleic acid sample that contains maternal DNA from the mother of the fetus and fetal DNA from the fetus can be analyzed to determine if the fetal DNA includes a haplotype containing a CF mutation. In particular, polymorphic loci can be analyzed to determine whether the fetal DNA includes a haplotype containing a CF mutation, without the need to detect the CF mutation itself in the fetal DNA.

Согласно некоторым вариантам осуществления указанный способ включает определение родительского гаплотипа (например, гаплотипа матери или отца плода). Согласно некоторым вариантам осуществления указанное определение проводят без использования данных родственника матери или отца. Согласно некоторым вариантам осуществления родительский гаплотип определяют с применением метода разведений с последующим генотипированием или секвенированием SNP согласно описанию в настоящем документе и в других источниках (см., например, публикацию США №2011/0033862, которая была подана 19 августа 2010, полностью включенную в настоящий документ посредством ссылки). Поскольку ДНК разводят, маловероятно, что в одной фракции (или пробирке) присутствует более чем один гаплотип. Соответственно, фактически в пробирке может присутствовать одна молекула ДНК, что позволит определить гаплотип по единственной молекуле ДНК. Согласно некоторым вариантам осуществления указанный способ включает разделение образца ДНК на множество фракций таким образом, что по меньшей мере одна из указанных фракций включает одну хромосому или один сегмент хромосомы из пары хромосом, и генотипирование (например, определение присутствия двух или более полиморфных локусов) образца ДНК проводят по меньшей мере в одной из указанных фракций, таким образом определяя родительский гаплотип. Согласно некоторым вариантам осуществления генотипирование включает секвенирование (например, секвенирование «методом дробовика»). Согласно некоторым вариантам осуществления генотипирование включает применение матрицы SNP для обнаружения полиморфных локусов, например, по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов. Согласно некоторым вариантам осуществления генотипирование включает применение мультиплексной ПЦР. Согласно некоторым вариантам осуществления указанный способ включает приведение в контакт указанного образца во фракции с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов (таких как SNP), в результате чего получают реакционную смесь; и помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые измеряют с использованием высокопроизводительного секвенатора, для получения данных секвенирования.In some embodiments, said method comprises determining a parental haplotype (eg, a mother’s or father’s haplotype). In some embodiments, the determination is made without using data from a relative of the mother or father. In some embodiments, the parent haplotype is determined using a dilution method followed by genotyping or sequencing of SNPs as described herein and elsewhere (see, for example, US Publication No. 2011/0033862, which was filed August 19, 2010, which is fully incorporated into this document by reference). Because DNA is bred, it is unlikely that more than one haplotype is present in a single fraction (or tube). Accordingly, in fact, one DNA molecule can be present in the test tube, which allows one to determine the haplotype by a single DNA molecule. In some embodiments, said method comprises dividing a DNA sample into a plurality of fractions such that at least one of said fractions comprises one chromosome or one chromosome segment from a pair of chromosomes, and genotyping (for example, determining the presence of two or more polymorphic loci) of the DNA sample carried out in at least one of these fractions, thereby determining the parental haplotype. In some embodiments, genotyping involves sequencing (eg, shotgun sequencing). In some embodiments, genotyping involves the use of an SNP matrix to detect polymorphic loci, for example at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different polymorphic loci. In some embodiments, genotyping involves the use of multiplex PCR. In some embodiments, said method comprises contacting said sample in fraction with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different polymorphic loci (such as SNP), resulting in a reaction mixture; and placing the reaction mixture under the conditions of the extension of the primers, resulting in amplified products, which are measured using a high-performance sequencer, to obtain sequencing data.

Согласно некоторым вариантам осуществления гаплотип матери определяют с помощью любых из описанных в настоящем документе способов с применением данных родственника матери. Согласно некоторым вариантам осуществления гаплотип отца определяют с помощью любых из описанных в настоящем документе способов с применением данных родственника отца. Согласно некоторым вариантам осуществления гаплотип определяют как для отца, так и для матери. Согласно некоторым вариантам осуществления матрицу SNP используют для определения присутствия по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов в образце ДНК от матери (или отца) и родственника матери (или отца). Согласно некоторым вариантам осуществления указанный способ включает приведение образца ДНК от матери (или отца) и/или родственника матери (или отца) в контакт с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов (таких как SNP), в результате чего получают реакционную смесь; и помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые измеряют с использованием высокопроизводительного секвенатора для получения данных секвенирования. Родительский гаплотип может быть определен на основе матрицы SNP или данных секвенирования. Согласно некоторым вариантам осуществления родительские данные могут быть фазированы с помощью способов, описанных или упоминаемых где-либо в настоящем документе.In some embodiments, a mother’s haplotype is determined using any of the methods described herein using data from a mother’s relative. In some embodiments, the father’s haplotype is determined using any of the methods described herein using data from the father’s relative. In some embodiments, the haplotype is determined for both the father and mother. In some embodiments, an SNP matrix is used to determine the presence of at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different polymorphic loci in the DNA sample from the mother (or father) and relative of the mother (or father). In some embodiments, the method comprises bringing a DNA sample from the mother (or father) and / or relative of the mother (or father) into contact with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different polymorphic loci (such as SNP), resulting in a reaction mixture; and placing the reaction mixture under the conditions of the primer extension reaction, resulting in amplified products that are measured using a high throughput sequencer to obtain sequencing data. A parent haplotype can be determined based on an SNP matrix or sequencing data. In some embodiments, the parent data may be phased using methods described or referred to elsewhere herein.

Указанные данные родительского гаплотипа могут использоваться для определения того, унаследовал ли плод родительский гаплотип. Согласно некоторым вариантам осуществления образец нуклеиновой кислоты, который включает материнскую ДНК от матери плода и плодную ДНК от плода, анализируют с применением матрицы SNP для обнаружения по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов. Согласно некоторым вариантам осуществления образец нуклеиновой кислоты, который включает материнскую ДНК от матери плода и плодную ДНК от плода, анализируют путем приведения указанного образца в контакт с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов (таких как SNP), в результате чего получают реакционную смесь. Согласно некоторым вариантам осуществления указанную реакционную смесь подвергают воздействию условий реакции удлинения праймеров, в результате чего получают продукты амплификации. Согласно некоторым вариантам осуществления указанные амплифицированные продукты измеряют с использованием высокопроизводительного секвенатора для получения данных секвенирования. Согласно различным вариантам осуществления матрицу SNP или данные секвенирования используют для определения родительского гаплотипа с применением данных относительно вероятности кроссинговера хромосом, в различных локализациях в хромосоме (например, с применением данных о рекомбинации, которые можно найти, например, в базе данных НарМар для получения оценки риска рекомбинации для любого интервала) для моделирования зависимости между полиморфными аллелями на хромосоме. Согласно некоторым вариантам подсчет числа аллелей в полиморфных локусах проводят на компьютере на основе данных секвенирования. Согласно некоторым вариантам осуществления множество гипотез плоидности, каждая из которых касается отличного возможного состояния плоидности хромосомы, создают на компьютере; модель (например, модель совместного распределения) для ожидаемого числа аллелей в полиморфных локусах на указанной хромосоме строят на компьютере для каждой гипотезы плоидности; относительную вероятность каждой из гипотез плоидности определяют на компьютере с применением модели совместного распределения и числа аллелей; и состояние плоидности указанного плода определяют путем отбора состояния плоидности, соответствующего гипотезе, имеющей наибольшую вероятность. Согласно некоторым вариантам осуществления построение модели совместного распределения для числа аллелей и этап определения относительной вероятности каждой гипотезы осуществляют с применением способа, не требующего применения эталонной хромосомы.The indicated parental haplotype data can be used to determine if the fetus has inherited the parental haplotype. In some embodiments, a nucleic acid sample that includes maternal DNA from the fetal mother and fetal DNA from the fetus is analyzed using an SNP matrix to detect at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different polymorphic loci. In some embodiments, a nucleic acid sample that includes maternal DNA from the fetal mother and fetal DNA from the fetus is analyzed by contacting said sample with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 4000; 50,000; 75,000; or 100,000 different polymorphic loci (such as SNP), resulting in a reaction mixture. In some embodiments, said reaction mixture is subjected to primer extension reaction conditions, resulting in amplification products. In some embodiments, said amplified products are measured using a high throughput sequencer to obtain sequencing data. According to various embodiments, an SNP matrix or sequencing data is used to determine the parent haplotype using data regarding the probability of chromosome crossing over at different locations on the chromosome (for example, using recombination data that can be found, for example, in the NarMar database to obtain a risk assessment recombination for any interval) to model the relationship between polymorphic alleles on the chromosome. In some embodiments, counting the number of alleles at polymorphic loci is carried out on a computer based on sequencing data. In some embodiments, a plurality of ploidy hypotheses, each of which relates to an excellent potential ploidy state of a chromosome, is created on a computer; a model (for example, a joint distribution model) for the expected number of alleles at polymorphic loci on the indicated chromosome is built on a computer for each ploidy hypothesis; the relative probability of each of the ploidy hypotheses is determined on a computer using the model of the joint distribution and the number of alleles; and the ploidy state of said fetus is determined by selecting the ploidy state corresponding to the hypothesis having the greatest probability. According to some embodiments, the construction of a joint distribution model for the number of alleles and the step of determining the relative probability of each hypothesis is carried out using a method that does not require the use of a reference chromosome.

Согласно некоторым вариантам осуществления плодный гаплотип определяют для одной или нескольких хромосом, взятых из группы, состоящей из хромосом 13, 18, 21, X и Y. Согласно некоторым вариантам осуществления плодный гаплотип определяют для всех плодных хромосом. Согласно различным вариантам осуществления с помощью указанного способа определяют по существу весь геном указанного плода. Согласно некоторым вариантам осуществления гаплотип определяют для по меньшей мере 30, 40, 50, 60, 70, 80, 90 или 95% генома указанного плода. Согласно некоторым вариантам осуществления определение гаплотипа указанного плода включает информацию о том, какой аллель присутствует по меньшей мере в 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 разных полиморфных локусов.In some embodiments, the fetal haplotype is determined for one or more chromosomes taken from the group consisting of chromosomes 13, 18, 21, X, and Y. In some embodiments, the fetal haplotype is determined for all fetal chromosomes. In various embodiments, the whole genome of said fetus is determined using the method. In some embodiments, the haplotype is determined for at least 30, 40, 50, 60, 70, 80, 90, or 95% of the genome of said fetus. In some embodiments, determining the haplotype of said fetus includes information about which allele is present in at least 1000; 2000; 5000; 7500; 10000; 20,000; 25,000; 30000; 40,000; 50,000; 75,000; or 100,000 different polymorphic loci.

Состав ДНКDNA composition

При выполнении основанного на методах информатики анализа полученных для смеси плодной и материнской крови данных секвенирования для выявления геномной информации, принадлежащей плоду, например, состояния плоидности плода, может быть целесообразным измерение аллельных распределений в наборе аллелей. К сожалению, во многих случаях, например, при попытках определения состояния плоидности плода по смеси ДНК, присутствующей в образце плазмы крови матери, количество доступной ДНК недостаточно для непосредственного измерения аллельных распределений в смеси с высокой достоверностью. В таких случаях амплификация смеси ДНК обеспечивает количество молекул ДНК, достаточное для измерения нужных аллельных распределений с высокой достоверностью. Однако современные способы амплификации, как правило, используемые для амплификации ДНК для секвенирования, очень часто дают выраженное смещение, то есть не амплифицируют оба аллеля полиморфного локуса в равной степени. Амплификация со смещением может приводить к тому, что аллельные распределения будут существенно отличаться от аллельных распределений в исходной смеси. Для большинства задач нет необходимости в высокоточных измерениях относительных количеств аллелей, присутствующих в полиморфных локусах. Напротив, согласно варианту осуществления, раскрытому в настоящем описании, предпочтительными являются способы амплификации или обогащения, обеспечивающие специфическое обогащение полиморфными аллелями и сохранение аллельных распределений.When performing an analysis based on computer science methods of sequencing data obtained for a mixture of fetal and maternal blood to identify genomic information belonging to the fetus, for example, the ploidy state of the fetus, it may be appropriate to measure allelic distributions in the set of alleles. Unfortunately, in many cases, for example, when trying to determine the state of fetal ploidy by a mixture of DNA present in the mother’s blood plasma, the amount of DNA available is not enough to directly measure allelic distributions in the mixture with high confidence. In such cases, amplification of the DNA mixture provides a sufficient number of DNA molecules to measure the desired allelic distributions with high reliability. However, modern methods of amplification, usually used for amplification of DNA for sequencing, very often give a pronounced bias, that is, both alleles of the polymorphic locus are not amplified equally. Amplification with bias can lead to the fact that allelic distributions will differ significantly from allelic distributions in the initial mixture. For most tasks, there is no need for high-precision measurements of the relative amounts of alleles present in polymorphic loci. In contrast, according to an embodiment disclosed herein, amplification or enrichment methods that specifically enrich polymorphic alleles and preserve allelic distributions are preferred.

В настоящем документе описан ряд способов, которые могут быть использованы для преимущественного обогащения образца ДНК по множеству локусов таким образом, чтобы минимизировать смещение числа аллелей. В некоторых примерах используются зонды циркуляризации для нацеливания на множество локусов, при этом 3'-концы и 5'-концы пре-циркуляризованных зондов сконструированы так, чтобы гибридизоваться с основаниями, которые расположены на расстоянии одного или нескольких положений от полиморфных сайтов целевого аллеля. Другой пример заключается в использовании зондов ПЦР, в которых 3'-конец зонда ПЦР сконструирован для гибридизации с основаниями, которые расположены на расстоянии одного или нескольких положений от полиморфных сайтов целевого аллеля. Другой пример заключается в использовании подхода расщепления и объединения для создания смесей ДНК, в которых преимущественно обогащенные локусы обогащены с незначительным смещением числа аллелей при отсутствии недостатков прямого мультиплексирования. Другой пример заключается в использовании подхода гибридного захвата, при котором зонды захвата сконструированы так, что область зонда захвата, которая конструируется для гибридизации с ДНК, фланкирующей полиморфный сайт цели, отделена от полиморфного сайта одним основанием или небольшим количеством оснований.This document describes a number of methods that can be used to preferentially enrich a DNA sample at multiple loci in such a way as to minimize the shift in the number of alleles. Some examples use circularization probes to target multiple loci, with the 3'-ends and 5'-ends of the pre-circularized probes being designed to hybridize with bases that are located at one or more positions from the polymorphic sites of the target allele. Another example is the use of PCR probes in which the 3'-end of the PCR probe is designed to hybridize with bases that are located at a distance of one or more positions from the polymorphic sites of the target allele. Another example is the use of the cleavage and combining approach to create DNA mixtures in which predominantly enriched loci are enriched with a slight shift in the number of alleles in the absence of disadvantages of direct multiplexing. Another example is the use of a hybrid capture approach in which capture probes are designed so that the region of the capture probe that is designed to hybridize with DNA flanking the polymorphic site of the target is separated from the polymorphic site by one base or a small number of bases.

В том случае, если измеренные аллельные распределения в наборе полиморфных локусов используют для определения состояния плоидности индивидуума, желательно сохранить относительные количества аллелей в образце ДНК в процессе его подготовки для генетических измерений. Указанная подготовка может включать амплификацию WGA, целевую амплификацию, методики селективного обогащения, методики гибридного захвата, зонды циркуляризации или другие способы, предназначенные для амплификации количества ДНК и/или селективного увеличения числа молекул ДНК, которые соответствуют определенным аллелям.In the event that the measured allelic distributions in a set of polymorphic loci are used to determine the ploidy state of an individual, it is desirable to preserve the relative amounts of alleles in the DNA sample during its preparation for genetic measurements. The preparation may include WGA amplification, target amplification, selective enrichment techniques, hybrid capture techniques, circular probes or other methods designed to amplify the amount of DNA and / or selectively increase the number of DNA molecules that correspond to specific alleles.

Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор ДНК-зондов, сконструированных для нацеливания на локусы, которые имеют максимальные частоты минорных аллелей. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор зондов, которые сконструированы для нацеливания на области, где локусы характеризуются максимальным правдоподобием того, что плод имеет высокоинформативный SNP в указанных локусах. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор зондов, которые сконструированы для нацеливания на локусы, при этом указанные зонды оптимизированы для данной подгруппы популяции. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор зондов, которые сконструированы для нацеливания на локусы, при этом указанные зонды оптимизированы для данной смеси подгрупп популяции. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор зондов, которые сконструированы для нацеливания на локусы, при этом указанные зонды оптимизированы для определенной пары родителей, происходящих из различных подгрупп популяции, которые характеризуются различными профилями частот минорных аллелей. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена циркуляризованная цепь ДНК, которая содержит по меньшей мере одну пару оснований, которая отжигается с фрагментом ДНК плодного происхождения. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена циркуляризованная цепь ДНК, которая содержит по меньшей мере одну пару оснований, которая отжигается с фрагментом ДНК плацентарного происхождения. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена циркуляризованная цепь ДНК, которая циркуляризована при отжиге по меньшей мере некоторых нуклеотидов с ДНК плодного происхождения. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена циркуляризованная цепь ДНК, которая циркуляризована при отжиге по меньшей мере некоторых нуклеотидов с ДНК плацентарного происхождения. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор зондов, при этом некоторые из указанных зондов нацелены на единичные тандемные повторы, и некоторые из указанных зондов нацелены на однонуклеотидные полиморфизмы. Согласно некоторым вариантам осуществления локусы выбирают с целью неинвазивной пренатальной диагностики. Согласно некоторым вариантам осуществления указанные зонды применяют с целью неинвазивной пренатальной диагностики. Согласно некоторым вариантам осуществления нацеливание на локусы осуществляют с применением способа, который может включать зонды циркуляризации, MIP, зонды для захвата гибридизацией, зонды на матрице SNP или их комбинации. Согласно некоторым вариантам осуществления указанные зонды применяют в качестве зондов циркуляризации, MIP, зондов для захвата гибридизацией, зондов на матрице SNP или их комбинаций. Согласно некоторым вариантам осуществления локусы секвенируются с целью неинвазивной пренатальной диагностики.In some embodiments disclosed herein, a set of DNA probes are designed to target loci that have maximum frequencies of minor alleles. In some embodiments disclosed herein, a set of probes is provided that are designed to target areas where the loci are characterized by the maximum likelihood that the fetus has a highly informative SNP at these loci. According to some embodiments disclosed herein, a set of probes is provided that are designed to target loci, wherein said probes are optimized for a given subset of the population. In some embodiments disclosed herein, a set of probes is provided that are designed to target loci, and these probes are optimized for a given mixture of population subgroups. According to some embodiments disclosed herein, a set of probes is provided that are designed to target loci, and these probes are optimized for a specific pair of parents originating from different subgroups of a population that are characterized by different frequency profiles of minor alleles. In some embodiments disclosed herein, a circularized DNA strand is provided that contains at least one base pair that is annealed with a DNA fragment of fetal origin. In some embodiments disclosed herein, a circularized DNA strand is provided that contains at least one base pair that is annealed with a DNA fragment of placental origin. In some embodiments disclosed herein, a circularized DNA strand is provided that is circularized upon annealing at least some nucleotides with fetal DNA. In some embodiments disclosed herein, a circularized DNA strand is provided that is circularized upon annealing of at least some nucleotides with DNA of placental origin. According to some embodiments disclosed herein, a set of probes is provided, some of these probes targeting single tandem repeats, and some of these probes targeting single nucleotide polymorphisms. In some embodiments, loci are selected for noninvasive prenatal diagnosis. In some embodiments, said probes are used for non-invasive prenatal diagnosis. In some embodiments, locus targeting is performed using a method that may include circularization probes, MIPs, hybridization capture probes, probes on an SNP matrix, or combinations thereof. In some embodiments, said probes are used as circularization probes, MIPs, hybridization capture probes, probes on an SNP array, or combinations thereof. In some embodiments, the loci are sequenced for non-invasive prenatal diagnosis.

В том случае, если относительная информативность последовательности выше при комбинировании с соответствующими родительскими контекстами, доведение до максимума числа считываний последовательностей, которые содержат SNP с известным родительским контекстом, может дать максимальную информативность набора считываний последовательностей в смешанном образце. Согласно варианту осуществления число считываний последовательностей, которые содержат SNP с известными родительскими контекстами, может быть увеличено использованием количественной ПЦР для преимущественной амплификации конкретных последовательностей. Согласно варианту осуществления число считываний последовательностей, которые содержат SNP с известными родительскими контекстами, может быть увеличено с использованием зондов циркуляризации (например, MIP) для преимущественной амплификации конкретных последовательностей. Согласно варианту осуществления число считываний последовательностей, которые содержат SNP с известными родительскими контекстами, может быть увеличено методом захвата гибридизацией (например, SURESELECT) для преимущественной амплификации конкретных последовательностей. Для увеличения числа считываний последовательностей, которые содержат SNP с известными родительскими контекстами, могут быть использованы различные способы. Согласно варианту осуществления нацеливание может быть выполнено путем лигирования с удлинением, лигированием без удлинения, захватом гибридизацией или ПЦР.In the event that the relative informational content of the sequence is higher when combined with the corresponding parental contexts, maximizing the number of readings of sequences that contain SNPs with a known parental context can give the maximum informational content of the set of readings of sequences in a mixed sample. According to an embodiment, the number of readings of sequences that contain SNPs with known parental contexts can be increased by using quantitative PCR to preferentially amplify specific sequences. In an embodiment, the number of reads of sequences that contain SNPs with known parental contexts can be increased using circularization probes (e.g., MIP) to preferentially amplify specific sequences. According to an embodiment, the number of readings of sequences that contain SNPs with known parental contexts can be increased by a hybridization capture method (e.g., SURESELECT) to preferentially amplify specific sequences. Various methods can be used to increase the number of reads of sequences that contain SNPs with known parent contexts. In an embodiment, targeting can be accomplished by ligation with extension, ligation without extension, capture by hybridization, or PCR.

В образце фрагментированной геномной ДНК доля последовательностей ДНК уникально картируется с индивидуальными хромосомами; другие последовательности ДНК могут быть обнаружены в различных хромосомах. Отметим, что ДНК, присутствующая в плазме, как материнской, так и плодной по происхождению, как правило, фрагментирована, часто длиной до 500 пар оснований. В типичном геномном образце приблизительно 3,3% картируемых последовательностей будут картироваться с хромосомой 13; 2,2% картируемых последовательностей будут картироваться с хромосомой 18; 1,35% картируемых последовательностей будут картироваться с хромосомой 21; 4,5% картируемых последовательностей будут картироваться с хромосомой X в случае женского пола; 2,25% картируемых последовательностей будут картироваться с хромосомой X (в случае мужского пола); и 0,73% картируемых последовательностей будут картироваться с хромосомой Y (в случае мужского пола). Указанные хромосомы у плода будут анеуплоидными с наибольшей вероятностью. Также, среди коротких последовательностей приблизительно 1 из 20 последовательностей будет содержать SNP, при использовании SNP, содержащихся в dbSNP. С учетом того, что многие SNP еще не открыты, эта пропорция может быть намного выше.In a sample of fragmented genomic DNA, the proportion of DNA sequences is uniquely mapped to individual chromosomes; other DNA sequences can be found on different chromosomes. Note that DNA present in plasma, both maternal and fetal in origin, is usually fragmented, often up to 500 base pairs long. In a typical genomic sample, approximately 3.3% of the mapped sequences will be mapped with chromosome 13; 2.2% of the mapped sequences will be mapped with chromosome 18; 1.35% of the mapped sequences will be mapped with chromosome 21; 4.5% of the mapped sequences will be mapped with chromosome X in the case of a female; 2.25% of the mapped sequences will be mapped with chromosome X (in the case of the male); and 0.73% of the mapped sequences will be mapped with chromosome Y (in the case of the male). These fetal chromosomes will be most aneuploid. Also, among short sequences, approximately 1 out of 20 sequences will contain SNPs when using SNPs contained in dbSNPs. Given that many SNPs are not yet open, this proportion can be much higher.

Согласно варианту осуществления, раскрытому в настоящем описании, способы нацеливания могут быть использованы для увеличения в образце ДНК доли ДНК, которая картируется с данной хромосомой, так, что эта доля значительно превосходит приведенные выше процентные отношения, которые типичны для геномных образцов. Согласно варианту осуществления, раскрытому в настоящем описании, способы нацеливания могут быть использованы для увеличения доли ДНК в образце ДНК таким образом, что процентное отношение последовательностей, которые содержат SNP, значительно больше тех, что могут быть обнаружены в типичных геномных образцах. Согласно варианту осуществления, раскрытому в настоящем описании, способы нацеливания могут быть использованы для нацеливания на ДНК хромосомы или набора SNP в смеси материнской и плодной ДНК в целях пренатальной диагностики.According to an embodiment disclosed herein, targeting methods can be used to increase the fraction of DNA that maps to a given chromosome in a DNA sample so that the percentage significantly exceeds the percentages above that are typical of genomic samples. According to an embodiment disclosed herein, targeting methods can be used to increase the proportion of DNA in a DNA sample such that the percentage of sequences that contain SNPs are significantly greater than those that can be found in typical genomic samples. According to an embodiment disclosed herein, targeting methods can be used to target a chromosome DNA or set of SNPs in a mixture of maternal and fetal DNA for prenatal diagnosis.

Отметим, что был описан способ (патент США №7888017) определения анеуплоидии плода путем подсчета числа считанных последовательностей, которые картируются с исследуемой хромосомой, и сравнения их с числом считанных последовательностей, которые картируются с эталонной хромосомой, и использования предположения о том, что избыточное количество считываний в исследуемой хромосоме соответствует триплоидности плода по указанной хромосоме. В указанных способах пренатальной диагностики не используется нацеливание какого-либо типа, и не описано использование нацеливания для пренатальной диагностики.Note that a method has been described (US Pat. No. 7,888,017) for determining fetal aneuploidy by counting the number of read sequences that map to the test chromosome, and comparing them with the number of read sequences that map to the reference chromosome, and using the assumption that there is an excess readings in the studied chromosome corresponds to the triploidy of the fetus on the specified chromosome. In these methods of prenatal diagnosis, no type of targeting is used, and the use of targeting for prenatal diagnosis is not described.

Применение способов нацеливания при секвенировании смешанного образца позволяет достичь определенного уровня точности с меньшим числом считываний последовательностей. Точность может относиться к чувствительности, может относиться к специфичности или может относиться к их комбинации. Желаемый уровень точности может составлять от 90% до 95%; он может составлять от 95% до 98%; он может составлять от 98% до 99%; он может составлять от 99% до 99,5%; он может составлять от 99,5% до 99,9%; он может составлять от 99,9% до 99,99%; он может составлять от 99,99% до 99,999%, он может составлять от 99,999% до 100%. Уровни точности выше 95% могут считаться высокой точностью.The use of targeting methods for sequencing a mixed sample allows a certain level of accuracy to be achieved with fewer sequence readings. Accuracy may relate to sensitivity, may relate to specificity, or may relate to a combination thereof. The desired level of accuracy can range from 90% to 95%; it can be from 95% to 98%; it can be from 98% to 99%; it can be from 99% to 99.5%; it can be from 99.5% to 99.9%; it can be from 99.9% to 99.99%; it can be from 99.99% to 99.999%, it can be from 99.999% to 100%. Accuracy levels above 95% can be considered high accuracy.

На существующем уровне техники существует ряд опубликованных способов, которые демонстрируют, как можно определить состояние плоидности плода по смешанному образцу материнской и плодной ДНК, например: G.J. W. Liao и др. Clinical Chemistry 2011; 57 (1) pp. 92-101. Указанные способы фокусируются на тысячах локализаций в каждой хромосоме. Количество локализаций в хромосоме, на которые может проводиться нацеливание при сохранении высокой точности определения плоидности плода, для заданного числа считываний последовательностей из смешанного образца ДНК является неожиданно низким. Согласно варианту осуществления, раскрытому в настоящем описании, точное определение плоидности может быть выполнено путем применения целевого секвенирования, с применением любого способа нацеливания, например количественной ПЦР, лиганд-опосредованной ПЦР, других методов ПЦР, захвата гибридизацией или зондов циркуляризации, при этом число локусов для нацеливания в хромосоме может составлять от 5000 до 2000 локусов; может составлять от 2000 до 1000 локусов; может составлять от 1000 до 500 локусов; может составлять от 500 до 300 локусов; может составлять от 300 до 200 локусов; может составлять от 200 до 150 локусов; может составлять от 150 до 100 локусов; может составлять от 100 до 50 локусов; может составлять от 50 и 20 локусов; может составлять от 20 до 10 локусов. В оптимальном варианте оно может составлять от 100 до 500 локусов. Высокий уровень точности может быть достигнут за счет нацеливания на небольшое число локусов и выполнения неожиданно малого числа считываний последовательностей. Число считываний может составлять от 100 млн до 50 млн считываний; число считываний может составлять от 50 млн до 20 млн считываний; число считываний может составлять от 20 млн до 10 млн считываний; число считываний может составлять от 10 млн до 5 млн считываний; число считываний может составлять от 5 млн до 2 млн считываний; число считываний может составлять от 2 млн до 1 млн; число считываний может составлять от 1 млн до 500000; число считываний может составлять от 500000 до 200000; число считываний может составлять от 200000 до 100000; число считываний может составлять от 100000 до 50000; число считываний может составлять от 50000 до 20 000; число считываний может составлять от 20000 до 10000; число считываний может составлять менее 10000. Для больших количеств вводимой ДНК требуется меньшее число считываний.At the current level of technology there are a number of published methods that demonstrate how to determine the state of fetal ploidy by a mixed sample of maternal and fetal DNA, for example: G.J. W. Liao et al. Clinical Chemistry 2011; 57 (1) pp. 92-101. These methods focus on thousands of locations on each chromosome. The number of locations on the chromosome that can be targeted while maintaining high accuracy in determining the ploidy of the fetus is unexpectedly low for a given number of readings of sequences from a mixed DNA sample. According to an embodiment disclosed herein, accurate determination of ploidy can be performed using targeted sequencing using any targeting method, for example, quantitative PCR, ligand-mediated PCR, other PCR methods, capture by hybridization or circular probes, with the number of loci for targeting on the chromosome can range from 5,000 to 2,000 loci; can be from 2000 to 1000 loci; can be from 1000 to 500 loci; can be from 500 to 300 loci; can be from 300 to 200 loci; can be from 200 to 150 loci; can be from 150 to 100 loci; can be from 100 to 50 loci; can be between 50 and 20 loci; can be from 20 to 10 loci. In the best case, it can be from 100 to 500 loci. A high level of accuracy can be achieved by targeting a small number of loci and performing an unexpectedly small number of sequence readings. The number of readings can range from 100 million to 50 million readings; the number of readings can be from 50 million to 20 million readings; the number of readings can be from 20 million to 10 million readings; the number of readings can be from 10 million to 5 million readings; the number of readings can be from 5 million to 2 million readings; the number of readings can be from 2 million to 1 million; the number of readings can be from 1 million to 500,000; the number of readings can be from 500,000 to 200,000; the number of readings can be from 200,000 to 100,000; the number of readings can be from 100,000 to 50,000; the number of readings can be from 50,000 to 20,000; the number of readings can be from 20,000 to 10,000; the number of readings may be less than 10000. For large quantities of introduced DNA, a smaller number of readings is required.

Согласно некоторым вариантам осуществления предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой 13, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15%, превышает 20%, превышает 25% или превышает 30%. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой 18, превышает 3%, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15%, превышает 20%, превышает 25% или превышает 30%. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой 21, превышает 2%, превышает 3%, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15%, превышает 20%, превышает 25% или превышает 30%. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой X, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15%, превышает 20%, превышает 25% или превышает 30%. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой Y превышает 1%, превышает 2%, превышает 3%, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15%, превышает 20%, превышает 25% или превышает 30%.In some embodiments, a composition is provided comprising a mixture of fetal DNA and maternal DNA, the percentage of sequences that are uniquely mapped to chromosome 13 exceeds 4%, exceeds 5%, exceeds 6%, exceeds 7%, exceeds 8%, exceeds 9%, exceeds 10%, exceeds 12%, exceeds 15%, exceeds 20%, exceeds 25% or exceeds 30%. In some embodiments disclosed herein, a composition is provided comprising a mixture of fetal DNA and maternal DNA, with a percentage of sequences that are uniquely mapped to chromosome 18 that exceeds 3%, exceeds 4%, exceeds 5%, exceeds 6% , exceeds 7%, exceeds 8%, exceeds 9%, exceeds 10%, exceeds 12%, exceeds 15%, exceeds 20%, exceeds 25% or exceeds 30%. In some embodiments disclosed herein, a composition is provided comprising a mixture of fetal DNA and maternal DNA, with a percentage of sequences that are uniquely mapped to chromosome 21 that exceeds 2%, exceeds 3%, exceeds 4%, exceeds 5% exceeds 6%, exceeds 7%, exceeds 8%, exceeds 9%, exceeds 10%, exceeds 12%, exceeds 15%, exceeds 20%, exceeds 25% or exceeds 30%. In some embodiments disclosed herein, a composition is provided comprising a mixture of fetal DNA and maternal DNA, wherein the percentage of sequences that are uniquely mapped to chromosome X exceeds 6%, exceeds 7%, exceeds 8%, exceeds 9% , exceeds 10%, exceeds 12%, exceeds 15%, exceeds 20%, exceeds 25% or exceeds 30%. In some embodiments disclosed herein, a composition is provided comprising a mixture of fetal DNA and maternal DNA, the percentage of sequences that are uniquely mapped to Y chromosome exceeds 1%, exceeds 2%, exceeds 3%, exceeds 4%, exceeds 5%, exceeds 6%, exceeds 7%, exceeds 8%, exceeds 9%, exceeds 10%, exceeds 12%, exceeds 15%, exceeds 20%, exceeds 25% or exceeds 30%.

Согласно некоторым вариантам осуществления описана композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой и содержат по меньшей мере один однонуклеотидный полиморфизм, превышает 0,2%, превышает 0,3%, превышает 0,4%, превышает 0,5%, превышает 0,6%, превышает 0,7%, превышает 0,8%, превышает 0,9%, превышает 1%, превышает 1,2%, превышает 1,4%, превышает 1,6%, превышает 1,8%, превышает 2%, превышает 2,5%, превышает 3%, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15% или превышает 20%, и при этом указанную хромосому выбирают из группы 13, 18, 21, X или Y. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой и содержат по меньшей мере один однонуклеотидный полиморфизм из набора однонуклеотидных полиморфизмов, превышает 0,15%, превышает 0,2%, превышает 0,3%, превышает 0,4%, превышает 0,5%, превышает 0,6%, превышает 0,7%, превышает 0,8%, превышает 0,9%, превышает 1%, превышает 1,2%, превышает 1,4%, превышает 1,6%, превышает 1,8%, превышает 2%, превышает 2,5%, превышает 3%, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15% или превышает 20%, при этом указанную хромосому берут из группы хромосом 13, 18, 21, X и Y, и при этом число однонуклеотидных полиморфизмов в наборе однонуклеотидных полиморфизмов составляет от 1 до 10, от 10 до 20, от 20 до 50, от 50 до 100, от 100 до 200, от 200 до 500, от 500 до 1000, от 1000 до 2000, от 2000 до 5000, от 5000 до 10000, от 10000 до 20000, от 20000 до 50000, и от 50000 до 100000.In some embodiments, a composition is described comprising a mixture of fetal DNA and maternal DNA, wherein the percentage of sequences that are uniquely mapped to the chromosome and contain at least one single nucleotide polymorphism exceeds 0.2%, exceeds 0.3%, exceeds 0 , 4%, exceeds 0.5%, exceeds 0.6%, exceeds 0.7%, exceeds 0.8%, exceeds 0.9%, exceeds 1%, exceeds 1.2%, exceeds 1.4%, exceeds 1.6%, exceeds 1.8%, exceeds 2%, exceeds 2.5%, exceeds 3%, exceeds 4%, exceeds 5%, exceeds 6%, etc. exceeds 7%, exceeds 8%, exceeds 9%, exceeds 10%, exceeds 12%, exceeds 15% or exceeds 20%, and said chromosome is selected from the group 13, 18, 21, X or Y. According to some embodiments disclosed in the present description, the proposed composition containing a mixture of DNA of fetal origin and DNA of maternal origin, the percentage of sequences that are uniquely mapped to the chromosome and contain at least one single nucleotide polymorphism from a set of single nucleotide polymorphisms exceeds 0.15%, exceed t 0.2%, exceeds 0.3%, exceeds 0.4%, exceeds 0.5%, exceeds 0.6%, exceeds 0.7%, exceeds 0.8%, exceeds 0.9%, exceeds 1 %, exceeds 1.2%, exceeds 1.4%, exceeds 1.6%, exceeds 1.8%, exceeds 2%, exceeds 2.5%, exceeds 3%, exceeds 4%, exceeds 5%, exceeds 6 %, exceeds 7%, exceeds 8%, exceeds 9%, exceeds 10%, exceeds 12%, exceeds 15% or exceeds 20%, while the indicated chromosome is taken from the group of chromosomes 13, 18, 21, X and Y, and at the number of single nucleotide polymorphisms in the set of single nucleotide polymorphisms is from 1 to 10, from 10 to 20, from 20 to 50, from 50 to 100, from 10 0 to 200, from 200 to 500, from 500 to 1000, from 1000 to 2000, from 2000 to 5000, from 5000 to 10000, from 10000 to 20,000, from 20,000 to 50,000, and from 50,000 to 100,000.

Теоретически, каждый цикл амплификации удваивает количество присутствующей ДНК; однако в реальности степень амплификации несколько ниже двух. Теоретически амплификация, в том числе целевая амплификация, приведет к амплификации смеси ДНК без смещения; в реальности, однако, различные аллели имеют тенденцию амплифицироваться в разной степени. При амплификации ДНК степень смещения числа аллелей, как правило, возрастает с числом этапов амплификации. Согласно некоторым вариантам осуществления описанные в настоящем документе способы предусматривают амплификацию ДНК с низким уровнем смещения числа аллелей. Поскольку смещение числа аллелей усугубляется с каждым дополнительным циклом, можно определить смещение числа аллелей на цикл путем вычисления корня степени n общего смещения, где n представляет собой логарифм по основанию 2 степени обогащения. Согласно некоторым вариантам осуществления предложена композиция, содержащая вторую смесь ДНК, причем указанная вторая смесь ДНК преимущественно обогащена по множеству полиморфных локусов из первой смеси ДНК, и степень обогащения составляет по меньшей мере 10, по меньшей мере 100, по меньшей мере 1000, по меньшей мере 10000, по меньшей мере 100000 или по меньшей мере 1000000, и при этом отношение аллелей во второй смеси ДНК в каждом локусе отличается от отношения аллелей в указанном локусе в первой смеси ДНК, в среднем, менее чем на 1000%, 500%, 200%, 100%, 50%, 20%, 10%, 5%, 2%, 1%, 0,5%, 0,2%, 0,1%, 0,05%, 0,02% или 0,01%. Согласно некоторым вариантам осуществления предложена композиция, содержащая вторую смесь ДНК, причем указанная вторая смесь ДНК была преимущественно обогащена по множеству полиморфных локусов из первой смеси ДНК, при этом смещение числа аллелей на цикл для множества полиморфных локусов составляет, в среднем, менее чем 10%, 5%, 2%, 1%, 0,5%, 0,2%, 0,1%, 0,05% или 0,02%. Согласно некоторым вариантам осуществления множество полиморфных локусов содержит по меньшей мере 10 локусов, по меньшей мере 20 локусов, по меньшей мере 50 локусов, по меньшей мере 100 локусов, по меньшей мере 200 локусов, по меньшей мере 500 локусов, по меньшей мере 1000 локусов, по меньшей мере 2000 локусов, по меньшей мере 5000 локусов, по меньшей мере 10000 локусов, по меньшей мере 20000 локусов, или по меньшей мере 50000 локусов.Theoretically, each amplification cycle doubles the amount of DNA present; however, in reality, the degree of amplification is slightly lower than two. In theory, amplification, including target amplification, will result in amplification of the DNA mixture without bias; in reality, however, various alleles tend to amplify to varying degrees. During DNA amplification, the degree of shift in the number of alleles, as a rule, increases with the number of amplification steps. In some embodiments, the methods described herein comprise amplifying DNA with a low level of allele bias. Since the shift in the number of alleles is compounded with each additional cycle, it is possible to determine the shift in the number of alleles per cycle by calculating the root of degree n of the total bias, where n is the logarithm of base 2 of the degree of enrichment. In some embodiments, a composition is provided comprising a second DNA mixture, said second DNA mixture being advantageously enriched in a plurality of polymorphic loci from the first DNA mixture, and the degree of enrichment is at least 10, at least 100, at least 1000, at least 10,000, at least 100,000, or at least 1,000,000, and the ratio of alleles in the second DNA mixture at each locus is different from the ratio of alleles at the specified locus in the first DNA mixture, on average, by less than 1000%, 500%, 200% , 100%, 50%, 20%, 10%, 5 %, 2%, 1%, 0.5%, 0.2%, 0.1%, 0.05%, 0.02% or 0.01%. In some embodiments, a composition is provided comprising a second DNA mixture, said second DNA mixture being predominantly enriched in a plurality of polymorphic loci from the first DNA mixture, wherein the shift in the number of alleles per cycle for a plurality of polymorphic loci is, on average, less than 10%, 5%, 2%, 1%, 0.5%, 0.2%, 0.1%, 0.05% or 0.02%. In some embodiments, the plurality of polymorphic loci comprises at least 10 loci, at least 20 loci, at least 50 loci, at least 100 loci, at least 200 loci, at least 500 loci, at least 1000 loci, at least 2,000 loci, at least 5,000 loci, at least 10,000 loci, at least 20,000 loci, or at least 50,000 loci.

Некоторые варианты осуществленияSome options for implementation

Согласно некоторым вариантам осуществления раскрывается способ генерирования отчета, раскрывающего установленный статус плоидности хромосомы вынашиваемого плода, включающий: получение первого образца, который содержит ДНК матери плода и ДНК плода; получение генотипических данных одного или обоих родителей плода; подготовку первого образца путем выделения ДНК с тем, чтобы получить подготовленный образец; измерение ДНК в подготовленном образце во множестве полиморфных локусов; вычисление на компьютере числа аллелей или вероятностей подсчета числа аллелей во множестве полиморфных локусов по измерениям ДНК, выполненным в подготовленном образце; создание на компьютере множества гипотез плоидности, касающихся ожидаемых вероятностей числа аллелей во множестве полиморфных локусов в хромосоме для различных возможных состояний плоидности хромосомы; построение на компьютере модели совместного распределения вероятности числа аллелей каждого полиморфного локуса в хромосоме для каждой гипотезы плоидности с использованием генотипических данных одного или обоих родителей плода; определение на компьютере относительной вероятности каждой гипотезы плоидности с использованием модели совместного распределения и вероятностей числа аллелей, вычисленных для подготовленного образца; установления состояния плоидности плода путем отбора состояния плоидности, соответствующего гипотезе с наибольшей вероятностью; и составление отчета, раскрывающего установленный статус плоидности.In some embodiments, a method is disclosed for generating a report disclosing the established ploidy status of a fetal chromosome, including: obtaining a first sample that contains fetal mother DNA and fetal DNA; obtaining genotypic data of one or both parents of the fetus; preparing the first sample by isolating DNA so as to obtain a prepared sample; measuring DNA in a prepared sample at a variety of polymorphic loci; computing on the computer the number of alleles or the probabilities of counting the number of alleles in a variety of polymorphic loci from DNA measurements made in the prepared sample; creation of a plurality of ploidy hypotheses on a computer regarding the expected probabilities of the number of alleles in the set of polymorphic loci in the chromosome for various possible ploidy states of the chromosome; building on a computer a model of the joint probability distribution of the number of alleles of each polymorphic locus in the chromosome for each ploidy hypothesis using genotypic data from one or both parents of the fetus; determination on a computer of the relative probability of each ploidy hypothesis using the joint distribution model and the probabilities of the number of alleles calculated for the prepared sample; establishing the state of fetal ploidy by selecting the ploidy state corresponding to the hypothesis with the greatest probability; and compiling a report disclosing the established ploidy status.

Согласно некоторым вариантам осуществления используется способ определения состояния плоидности множества вынашиваемых плодов у множества соответствующих матерей, дополнительно включающий определение процента ДНК плодного происхождения в каждом из подготовленных образцов; при этом этап измерения ДНК в подготовленном образце осуществляется посредством секвенирования ряда молекул ДНК в каждом из подготовленных образцов, причем секвенируется больше молекул ДНК из подготовленных образцов, которые содержат меньшую долю плодной ДНК, чем из тех подготовленных образцов, которые содержат большую долю плодной ДНК.In some embodiments, a method is used to determine the ploidy state of a plurality of hatched fetuses in a plurality of respective mothers, further comprising determining a percentage of fetal DNA in each of the prepared samples; wherein the step of measuring DNA in a prepared sample is carried out by sequencing a series of DNA molecules in each of the prepared samples, more DNA molecules being prepared from prepared samples that contain a smaller fraction of fetal DNA than from those prepared samples that contain a large fraction of fetal DNA.

Согласно некоторым вариантам осуществления используется способ определения состояния плоидности множества вынашиваемых плодов у множества соответствующих матерей, при котором измерение ДНК в подготовленном образце осуществляется для каждого из плодов путем секвенирования первой фракции подготовленного образца ДНК, в результате чего получают первый набор измерений, дополнительно включающий: осуществление первого определения относительной вероятности для каждой из гипотез плоидности для каждого плода с учетом первого набора измерений ДНК; повторное секвенирование второй фракции подготовленного образца от тех плодов, для которых первое определение относительной вероятности для каждой гипотезы плоидности показывает, что гипотеза плоидности, соответствующая анеуплоидному плоду, характеризуется значимой, но не доказательной вероятностью, в результате чего получают второй набор измерений; осуществление второго определения относительной вероятности для гипотез плоидности плодов с использованием второго набора измерений и необязательно также первого набора измерений и установление состояний плоидности плодов, вторые образцы которых были повторно секвенированы, путем отбора состояния плоидности, соответствующего гипотезе с наибольшей вероятностью, установленной при втором определении относительной вероятности.In some embodiments, a method is used to determine the ploidy state of a plurality of hatched fetuses in a plurality of respective mothers, wherein the DNA in the prepared sample is measured for each fetus by sequencing the first fraction of the prepared DNA sample, resulting in a first set of measurements, further comprising: performing the first determining the relative probability for each of the ploidy hypotheses for each fetus, taking into account the first set of changes eny DNA; repeated sequencing of the second fraction of the prepared sample from those fruits for which the first determination of the relative probability for each ploidy hypothesis shows that the ploidy hypothesis corresponding to the aneuploid fetus is characterized by a significant, but not probative probability, resulting in a second set of measurements; the second determination of the relative probability for fruit ploidy hypotheses using the second set of measurements and optionally also the first set of measurements and the determination of the ploidy states of the fruit, the second samples of which were re-sequenced, by selecting the ploidy state corresponding to the hypothesis with the highest probability established during the second determination of the relative probability .

Согласно некоторым вариантам осуществления раскрывается композиция, в которую входит: образец преимущественно обогащенной ДНК, при этом образец преимущественно обогащенной ДНК преимущественно обогащен множеством полиморфных локусов из первого образца ДНК, при этом первый образец ДНК состоял из смеси материнской ДНК и плодной ДНК, полученной из материнской плазмы, причем коэффициент обогащения равен меньшей мере 2, и при этом смещение числа аллелей между первым образцом и преимущественно обогащенным образцом в среднем выбрано из группы, состоящей из менее чем 2%, менее чем 1%, менее чем 0,5%, менее чем 0,2%, менее чем 0,1%, менее чем 0,05%, менее чем 0,02% и менее чем 0,01%. Согласно некоторым вариантам осуществления раскрывается способ получения образца такой преимущественно обогащенной ДНК.In some embodiments, a composition is disclosed that includes: a predominantly enriched DNA sample, the predominantly enriched DNA sample being predominantly enriched in many polymorphic loci from the first DNA sample, the first DNA sample consisting of a mixture of maternal DNA and fetal DNA obtained from maternal plasma moreover, the enrichment coefficient is equal to at least 2, while the shift in the number of alleles between the first sample and the predominantly enriched sample is selected from an average of s consisting of less than 2%, less than 1%, less than 0.5%, less than 0.2%, less than 0.1%, less than 0.05%, less than 0.02% and less than 0.01%. In some embodiments, a method for producing a sample of such predominantly enriched DNA is disclosed.

В некотором варианте осуществления раскрывается способ определения наличия или отсутствия анеуплоидии плода по образцу материнской ткани, содержащему плодную и материнскую геномную ДНК, включающий: (а) получение смеси плодной и материнской геномной ДНК из указанного образца материнской ткани; (b) селективное обогащение смеси плодной и материнской ДНК множеством полиморфных аллелей; (с) распределение селективно обогащенных фрагментов из смеси плодной и материнской геномной ДНК, полученной на этапе (а) с получением реакционных образцов, содержащих единичную молекулу геномной ДНК, или амплификации продуктов единичной молекулы геномной ДНК; (d) выполнение массивно-параллельного секвенирования ДНК избирательно обогащенных фрагментов геномной ДНК в реакционных образцах этапа (с) для определения последовательности указанных селективно обогащенных фрагментов; (е) идентификацию хромосом, к которым принадлежат полученные на этапе (d) последовательности; (f) анализ данных этапа (d) для определения i) числа фрагментов геномной ДНК этапа (d), принадлежащих по меньшей мере одной первой целевой хромосоме, которая предположительно является диплоидной как у матери, так и у плода, и ii) числа фрагментов геномной ДНК этапа (d), принадлежащих второй целевой хромосоме, при этом предполагается, что указанная вторая хромосома у плода анеуплоидна; (g) вычисление ожидаемого распределения числа фрагментов геномной ДНК из этапа (d) для второй целевой хромосомы, если вторая целевая хромосома эуплоидна, с использованием числа, установленного на этапе (f) в части i); (h) вычисление ожидаемого распределения числа фрагментов геномной ДНК из этапа (d) для второй целевой хромосомы, если вторая целевая хромосома анеуплоидна, с использованием первого числа, установленного на этапе f) в части i), и оценки доли плодной ДНК, присутствующей в смеси этапа (b); и (i) использование метода максимального правдоподобия или метода оценки апостериорного максимума для определения, является ли число фрагментов геномной ДНК, установленное на этапе f) в части ii), с большей вероятностью частью распределения, рассчитанного на этапе g), или распределения, рассчитанного на этапе h); благодаря чему устанавливается присутствие или отсутствие анеуплоидии плода.In some embodiment, a method is disclosed for determining the presence or absence of fetal aneuploidy from a maternal tissue sample containing fetal and maternal genomic DNA, comprising: (a) obtaining a mixture of fetal and maternal genomic DNA from said maternal tissue sample; (b) selective enrichment of the mixture of fetal and maternal DNA with a variety of polymorphic alleles; (c) the distribution of selectively enriched fragments from a mixture of fetal and maternal genomic DNA obtained in step (a) to obtain reaction samples containing a single genomic DNA molecule, or to amplify the products of a single genomic DNA molecule; (d) performing massively parallel DNA sequencing of selectively enriched genomic DNA fragments in the reaction samples of step (c) to determine the sequence of said selectively enriched fragments; (e) identification of the chromosomes to which the sequences obtained in step (d) belong; (f) analyzing the data of step (d) to determine i) the number of genomic DNA fragments of step (d) belonging to at least one first target chromosome, which is supposedly diploid in both the mother and the fetus, and ii) the number of genomic fragments DNA of step (d) belonging to the second target chromosome, it being assumed that said second chromosome in the fetus is aneuploid; (g) calculating the expected distribution of the number of genomic DNA fragments from step (d) for the second target chromosome, if the second target chromosome is euploid, using the number set in step (f) in part i); (h) calculating the expected distribution of the number of genomic DNA fragments from step (d) for the second target chromosome, if the second target chromosome is aneuploid, using the first number set in step f) in part i), and estimating the proportion of fetal DNA present in the mixture step (b); and (i) using the maximum likelihood method or the method of estimating the posterior maximum to determine whether the number of genomic DNA fragments identified in step f) in part ii) is more likely to be part of the distribution calculated in step g) or the distribution calculated for step h); due to which the presence or absence of fetal aneuploidy is established.

Примеры способов диагностики раковых заболеванийExamples of methods for diagnosing cancer

Отметим, что, как было продемонстрировано, ДНК, происходящая из ракового новообразования, которое имеется в организме хозяина, может быть обнаружена в крови хозяина. Таким же образом, что и генетический диагноз по измерению смешанной ДНК, присутствующей в материнской крови, генетический диагноз также хорошо может быть проведен по измерениям смешанной ДНК, присутствующей в крови хозяина. Генетические диагнозы могут включать состояния анеуплоидии или генные мутации. Любые заявленные в настоящем раскрытии притязания, включающие определение состояния плоидности или генетического статуса плода по измерениям, выполненным на крови матери, могут равным образом включать и определение состояния плоидности или генетического статуса ракового новообразования по измерениям, выполненным на крови хозяина.Note that, as has been demonstrated, DNA originating from a cancerous tumor that is present in the host can be detected in the blood of the host. In the same way as a genetic diagnosis for measuring mixed DNA present in maternal blood, a genetic diagnosis can also be well done for measuring mixed DNA present in the blood of the host. Genetic diagnoses may include aneuploidy states or gene mutations. Any claims made in this disclosure that include determining the ploidy state or genetic status of the fetus from measurements made on the mother’s blood may equally include determining the ploidy state or genetic status of the cancer according to measurements made on the host’s blood.

Согласно некоторым вариантам осуществления способ согласно настоящему раскрытию позволяет определять статус плоидности ракового новообразования, при этом указанный способ включает получение смешанного образца, который содержит генетический материал хозяина и генетический материал ракового новообразования; измерение ДНК в указанном смешанном образце; вычисление доли ДНК ракового происхождения в смешанном образце; и определение статуса плоидности ракового новообразования с применением измерений, выполненных на указанном смешанном образце, и рассчитанной доли. Согласно некоторым вариантам осуществления способ может дополнительно предусматривать введение противоракового терапевтического средства на основании определения состояния плоидности ракового новообразования. Согласно некоторым вариантам осуществления способ может дополнительно предусматривать введение противоракового терапевтического средства на основании определения состояния плоидности ракового новообразования, при этом указанное противораковое терапевтическое средство выбрано из группы, включающей фармацевтическое средство, биологическое терапевтическое средство, терапевтическое средство на основе антитела и их комбинацию.According to some embodiments, the method according to the present disclosure makes it possible to determine the ploidy status of a cancerous neoplasm, said method comprising obtaining a mixed sample that contains the host genetic material and the cancerous genetic material; measurement of DNA in the specified mixed sample; calculating the proportion of cancerous DNA in a mixed sample; and determining the ploidy status of the cancer using measurements made on said mixed sample and the calculated fraction. In some embodiments, the method may further comprise administering an anti-cancer therapeutic agent based on determining the ploidy state of the cancerous growth. In some embodiments, the method may further comprise administering an anticancer therapeutic agent based on determining the ploidy state of the cancer, wherein said anticancer therapeutic agent is selected from the group consisting of a pharmaceutical agent, a biological therapeutic agent, an antibody based therapeutic agent, and a combination thereof.

Примеры способов практического примененияExamples of practical applications

Любой из вариантов осуществления, раскрытых в настоящем документе, можно реализовать в цифровой электронной схеме, интегральной схеме, специально сконструированных ASIC (специализированных интегральных микросхемах), компьютерном аппаратном средстве, аппаратно реализованном программном обеспечении, программном обеспечении или в их комбинациях. Аппарат в соответствии с раскрытыми в настоящем документе вариантами осуществления может быть реализован в виде компьютерного программного продукта, материально воплощенного в машиночитаемом устройстве хранения данных для выполнения программируемым процессором; и этапы способа в соответствии с раскрытыми в настоящем документе вариантами осуществления могут быть осуществлены программируемым процессором, выполняющим программу из инструкций с осуществлением функций в соответствии с раскрытыми в настоящем документе вариантами осуществления, обрабатывающим входные данные и генерирующим выходные данные. Раскрытые в настоящем документе варианты осуществления могут быть реализованы предпочтительным образом в одной или нескольких компьютерных программах, выполнимых и/или интерпретируемых программируемой системой, включающей по меньшей мере один программируемый процессор, специализированный или многоцелевой, присоединенный, для получения данных и инструкций и для передачи данных и инструкций, к системе хранения данных; по меньшей мере одному устройству ввода данных; и по меньшей мере одному устройству вывода данных. Каждая компьютерная программа может быть реализована на высокоуровневом процедурном или объектно-ориентированном языке программирования, или на языке ассемблера или машинном языке, если это необходимо; в любом случае язык может быть компилируемым и интерпретируемым языком. Компьютерную программу можно использовать в любом виде, в том числе в виде независимой программы или в виде модуля, компонента, стандартной подпрограммы или другой единицы, подходящей для применения в вычислительной среде. Компьютерная программа может использоваться для выполнения или интерпретации на одном компьютере или на нескольких компьютерах в одном местоположении, или может распространяться по многим местоположениям, взаимосвязанным с помощью коммуникационной сети.Any of the embodiments disclosed herein can be implemented in a digital electronic circuit, an integrated circuit, specially designed ASICs (specialized integrated circuits), computer hardware, hardware implemented software, software, or combinations thereof. The apparatus in accordance with the embodiments disclosed herein may be implemented as a computer program product material embodied in a computer-readable data storage device for execution by a programmable processor; and the steps of the method in accordance with the embodiments disclosed herein may be implemented by a programmable processor executing a program of instructions with functions in accordance with the embodiments disclosed herein that process input data and generate output data. The embodiments disclosed herein may be implemented advantageously in one or more computer programs executable and / or interpreted by a programmable system, including at least one programmable processor, specialized or multi-purpose, connected to receive data and instructions and to transmit data and instructions to the data storage system; at least one data input device; and at least one data output device. Each computer program can be implemented in a high-level procedural or object-oriented programming language, or in assembler or machine language, if necessary; in any case, the language can be a compiled and interpreted language. A computer program can be used in any form, including in the form of an independent program or in the form of a module, component, standard subprogram or other unit suitable for use in a computing environment. A computer program may be used to execute or interpret on one computer or on multiple computers at one location, or may be distributed to many locations interconnected via a communications network.

Машиночитаемая среда хранения информации в настоящем документе относится к физическому или материальному хранению (в противоположность сигналам) и включает без ограничения не сохраняющие информацию при отключении питания и сохраняющие информацию при отключении питания, съемные и несъемные носители, реализуемые в любом способе и технологии материального хранения информации, например, считываемые компьютером инструкции, структуры данных, модули программ или другие данные. Машиночитаемая среда хранения информации включает, не ограничиваясь перечисленными, RAM (запоминающее устройство с произвольным доступом), ROM (постоянное запоминающее устройство), EPROM (перепрограммируемое постоянное запоминающее устройство), EEPROM (электрически стираемое программируемое постоянное запоминающее устройство), флэш-память или другие твердотельные запоминающие устройства, созданные по другой технологии, CD-ROM (постоянное запоминающее устройство на основе компакт-диска), DVD (цифровой многофункциональный диск) или другие оптические устройства хранения данных, магнитные кассеты, магнитную ленту, запоминающее устройство на магнитном диске или другие магнитные запоминающие устройства, или любую другую физическую или материальную среду, которую можно использовать для материального хранения необходимой информации, данных или инструкций, и к которым может иметь доступ компьютер или процессор.The computer-readable medium for storing information in this document refers to physical or material storage (as opposed to signals) and includes, without limitation, information that is not saved when the power is turned off and information that is saved when the power is turned off, removable and non-removable media implemented in any method and technology of material information storage, for example, computer-readable instructions, data structures, program modules, or other data. A computer-readable storage medium includes, but is not limited to, RAM (random access memory), ROM (read-only memory), EPROM (programmable read-only memory), EEPROM (electrically erasable programmable read-only memory), flash memory or other solid state storage devices created using another technology, CD-ROM (read-only memory based on compact disc), DVD (digital multifunction disk) or other optical storage devices, magnetic cassettes, magnetic tape, magnetic disk storage devices or other magnetic memory devices, or any other physical or material medium that can be used to materially store necessary information, data or instructions, and which can be accessed by a computer or processor.

Любой из способов, описанных в настоящем документе, может включать вывод данных в физическом формате, например, на экране компьютера или в распечатанном на бумаге виде. Следует понимать, что способы, описанные в пояснениях к любому из вариантов осуществления в разделах настоящего документа, могут быть скомбинированы с выводом данных, на которые может производиться воздействие, в формате, на который может воздействовать врач. Помимо этого, описанные способы могут быть скомбинированы с фактическим выполнением клинического решения, которое приведет в результате к клиническому лечению, или с выполнением клинического решения не предпринимать каких-либо действий. Некоторые варианты осуществления, описанные в настоящем документе в отношении определения генетических данных, касающихся целевого индивидуума, могут быть скомбинированы с решением о выборе одного или нескольких эмбрионов для переноса в условиях IVF (экстракорпоральное оплодотворение), необязательно в сочетании с процессом переноса эмбриона в матку будущей матери. Некоторые из вариантов осуществления, описанных в настоящем документе в отношении определения генетических данных, касающихся целевого индивидуума, могут быть скомбинированы с уведомлением медицинским работником о возможной хромосомной аномалии или ее отсутствии, необязательно в сочетании с решением о проведении аборта или об отсутствии необходимости проведения аборта в отношении плода, в случае пренатальной диагностики. Некоторые из вариантов осуществления, описанные в настоящем документе, могут быть скомбинированы с выводом данных, на которые может быть произведено воздействие, и выполнением клинического решения, которое приведет к клиническому лечению, или выполнением клинического решения не предпринимать каких-либо действий.Any of the methods described herein may include outputting data in a physical format, for example, on a computer screen or in printed form on paper. It should be understood that the methods described in the explanations for any of the embodiments in the sections of this document can be combined with the output of data that may be affected in a format that the doctor can act on. In addition, the described methods can be combined with the actual implementation of the clinical decision, which will result in clinical treatment, or with the implementation of the clinical decision not to take any action. Some of the embodiments described herein regarding the determination of genetic data regarding a target individual may be combined with the decision to select one or more embryos for IVF transfer (in vitro fertilization), optionally in combination with the process of transferring the embryo into the uterus of the expectant mother . Some of the embodiments described herein regarding the determination of genetic data regarding a target individual may be combined with a notification by the health care provider of a possible chromosomal abnormality or lack thereof, optionally in conjunction with a decision to have an abortion or no need for an abortion in relation to fetus, in case of prenatal diagnosis. Some of the embodiments described herein may be combined with the output of data that may be affected and the execution of a clinical decision that will lead to clinical treatment, or the execution of a clinical decision not to take any action.

Примеры диагностических боксовExamples of diagnostic boxes

Согласно варианту осуществления, в настоящем описании раскрывается диагностический бокс, подходящий для частичного или полного выполнения любых способов раскрытых в настоящем описании. Согласно варианту осуществления указанный диагностический бокс может быть размещен в кабинете врача, в лаборатории больницы или в любом приемлемом месте, разумно близком к пункту наблюдения за пациентом. С помощью бокса весь способ может быть полностью автоматизированы, или указанный бокс может требовать выполнения одного или ряда этапов вручную техническим специалистом. Согласно варианту осуществления бокс может предоставлять возможность анализа по меньшей мере генотипических данных, полученных на материнской плазме. Согласно варианту осуществления бокс может быть связан со средствами передачи измеренных диагностическим боксом генотипических данных во внешний вычислительный центр, который затем может анализировать генотипические данные и, возможно, также создавать отчет. Указанный диагностический бокс может включать роботизированный модуль, который способен перемещать водные или жидкие образцы из одного контейнера в другой. Он может содержать ряд реагентов, как твердых, так и жидких. Он может содержать высокопроизводительный секвенатор. Он может содержать компьютер.According to an embodiment, a diagnostic box is disclosed herein that is suitable for partially or fully performing any of the methods disclosed herein. According to an embodiment, said diagnostic box may be located in a doctor’s office, in a hospital laboratory, or in any suitable place reasonably close to a patient observation point. With the help of boxing, the entire method can be fully automated, or this box may require one or a number of steps to be performed manually by a technical specialist. According to an embodiment, the box may provide an opportunity to analyze at least genotypic data obtained on maternal plasma. According to an embodiment, the box may be associated with means for transmitting the genotypic data measured by the diagnostic box to an external computer center, which can then analyze the genotypic data and possibly also generate a report. The specified diagnostic box may include a robotic module that is capable of moving water or liquid samples from one container to another. It may contain a number of reagents, both solid and liquid. It may contain a high-performance sequencer. It may contain a computer.

Экспериментальный разделExperimental Section

Раскрытые в настоящем документе варианты осуществления иллюстрируются в следующих примерах, которые изложены с целью разъяснения раскрытия и не должны рассматриваться как какое-либо ограничение объема раскрытия, определенного формулой изобретения, которая следует далее. Следующие примеры приведены, чтобы обеспечить специалистам в данной области полное раскрытие и описание с использованием описанных вариантов осуществления, и не предназначены для ограничения объема раскрытия, а также не должны означать, что нижеприведенные эксперименты являются всеми или единственными выполняемыми экспериментами. Были предприняты усилия по обеспечению точности в отношении используемых показателей (например, количеств, температуры и т.д.), но должны быть учтены некоторые экспериментальные погрешности и отклонения. Если не указано иное, под частями понимаются объемные части, а температура выражается в градусах Цельсия. Следует понимать, что вариации в описанных способах могут быть выполнены без изменения фундаментальных аспектов, проиллюстрированных экспериментами.The embodiments disclosed herein are illustrated in the following examples, which are set forth to clarify the disclosure and should not be construed as limiting the scope of the disclosure defined by the claims that follows. The following examples are provided to provide those skilled in the art with full disclosure and description using the described embodiments, and are not intended to limit the scope of the disclosure, nor should they mean that the experiments below are all or the only experiments performed. Efforts have been made to ensure accuracy with respect to the indicators used (e.g., quantities, temperature, etc.), but some experimental errors and deviations should be considered. Unless otherwise indicated, parts are understood as volume parts, and temperature is expressed in degrees Celsius. It should be understood that variations in the described methods can be made without changing the fundamental aspects illustrated by the experiments.

Эксперимент 1Experiment 1

Цель заключалась в демонстрации того, что байесовский алгоритм оценивания максимального правдоподобия (MLE), использующий генотипы родителей для расчета доли плода, улучшает точность неинвазивной пренатальной диагностики трисомии по сравнению с опубликованными способами.The goal was to demonstrate that the Bayesian maximum likelihood estimation (MLE) algorithm, using parental genotypes to calculate the fetal fraction, improves the accuracy of non-invasive prenatal diagnosis of trisomy compared to published methods.

Модельные данные секвенирования для материнской cfDNA получали путем выборочного исследования считываний, полученных для трисомии-21 и соответствующих линий материнских клеток. Частоты корректно определенных признаков дисомии и трисомии определяли на основании 500 моделирований при разной доле плода согласно опубликованному способу (Chiu и др. BMJ 2011; 342:c7401) и в соответствии с основанным на MLE алгоритмом в соответствии с настоящим изобретением. Проверяли моделирования, получив 5 миллионов показаний методом «дробовика» от четырех беременных матерей и соответствующих отцов, собранных согласно протоколу, одобренному IRB. Генотипы родителей получали на матрице 290К SNP (см. фиг. 14).Model sequencing data for maternal cfDNA was obtained by a selective study of readings obtained for trisomy-21 and the corresponding mother cell lines. The frequencies of correctly determined signs of dysomy and trisomy were determined based on 500 simulations with different fetal fractions according to the published method (Chiu et al. BMJ 2011; 342: c7401) and in accordance with the MLE-based algorithm in accordance with the present invention. Simulations were tested, receiving 5 million shotgun readings from four pregnant mothers and their respective fathers, collected according to an IRB approved protocol. Parent genotypes were obtained on a 290K SNP matrix (see FIG. 14).

При моделировании основанный на MLE подход позволял достигнуть 99,0%-ной точности при доле плода, составляющей всего 9%, и зарегистрированных уровней достоверности, хорошо согласующихся с общей точностью. Авторы проверяли указанные результаты с использованием четырех реальных образцов, для которых все признаки были определены корректно с рассчитанной достоверностью, превосходящей 99%. С другой стороны, применение авторами описанного Chiu и др. алгоритма требовало присутствия доли плода 18% для достижения 99,0% точности; при 9% плодной ДНК достигалась точность всего 87,8%.In modeling, the MLE-based approach allowed achieving 99.0% accuracy with a fetal fraction of only 9% and recorded confidence levels that were in good agreement with overall accuracy. The authors checked these results using four real samples, for which all the attributes were determined correctly with a calculated reliability exceeding 99%. On the other hand, the application of the described Chiu and other algorithm by the authors required the presence of a fetal fraction of 18% to achieve 99.0% accuracy; with 9% fetal DNA, an accuracy of only 87.8% was achieved.

Определение доли плода в родительских генотипах с применением основанного на MLE подхода позволяло достичь большей точности, чем с помощью опубликованных алгоритмов, при вероятных в первом триместре и раннем периоде 2-го триместра долях плода. Более того, с помощью раскрытого в настоящем документе способа получали метрику достоверности, которая являлась ключевой в определении надежности результата, особенно при низких долях плода, при котором определять плоидность особенно сложно. В опубликованных методах используются способы с меньшим порогом точности для установления плоидности, основанные на больших наборах подготовительных данных по дисомии, подход, который предопределяет частоту ложных положительных результатов. Кроме того, без метрики достоверности опубликованные методы не исключают риска получения ложноотрицательных результатов, когда для различения признака количество плодной cfDNA недостаточно. Согласно некоторым вариантам осуществления рассчитывается оценка достоверности для установленного состояния плоидности.Determining the fetal fraction in the parental genotypes using the MLE-based approach made it possible to achieve greater accuracy than using published algorithms, with fetal fractions likely in the first trimester and early period of the second trimester. Moreover, using the method disclosed herein, a confidence metric was obtained that was key in determining the reliability of the result, especially at low fetal fractions, in which ploidy is particularly difficult to determine. The published methods use methods with a lower threshold of accuracy for determining ploidy, based on large sets of preparatory data on disomy, an approach that determines the frequency of false positive results. In addition, without a reliability metric, published methods do not exclude the risk of obtaining false negative results when the amount of fetal cfDNA is insufficient to distinguish the trait. In some embodiments, a confidence score is calculated for the established ploidy state.

Эксперимент 2Experiment 2

Целью являлось улучшение неинвазивного определения плодной трисомии 18, 21 и X, в частности, в образцах, содержащих небольшое количество доли плода с использованием подхода целевого секвенирования в комбинации с генотипами родителей и данными НарМар по байесовскому алгоритму оценки максимального правдоподобия (MLE).The goal was to improve the non-invasive determination of fetal trisomy 18, 21 and X, in particular, in samples containing a small amount of the fetal fraction using the target sequencing approach in combination with parental genotypes and NarMar data using the Bayesian maximum likelihood estimation (MLE) algorithm.

Материнские образцы от четырех эуплоидных и двух положительных по трисомии беременностей, и образцы от соответствующих отцов получали согласно протоколу, одобренному IRB, от пациентов с известным кариотипом плода. Материнскую cfDNA экстрагировали из плазмы и получали приблизительно 10 миллионов считываний последовательностей после преимущественного обогащения ДНК целевыми специфичными SNP. Образцы родителей секвенировали аналогичным образом для получения генотипов.Maternal samples from four euploid and two trisomy positive pregnancies, and samples from their respective fathers were obtained according to the protocol approved by the IRB from patients with a known fetal karyotype. Maternal cfDNA was extracted from plasma and approximately 10 million readings of the sequences were obtained after preferential enrichment of DNA with target specific SNPs. Samples of parents were sequenced in the same way to obtain genotypes.

Описанный алгоритм корректно определял признаки дисомии хромосом 18 и 21 во всех эуплоидных образцах и нормальные хромосомы в анеуплоидных образцах. Корректными были установленные признаки трисомии 18 и 21, а также число копий X-хромосомы в плодах мужского и женского пола. Достоверность, полученная при применении этого алгоритма, превышала 98% во всех случаях.The described algorithm correctly determined the signs of dysomy of chromosomes 18 and 21 in all euploid samples and normal chromosomes in aneuploid samples. The established signs of trisomy 18 and 21, as well as the number of copies of the X chromosome in male and female fetuses, were correct. The reliability obtained by applying this algorithm exceeded 98% in all cases.

Описанным способом точно регистрировали плоидность всех протестированных хромосом в шести образцах, включая образцы, содержащие менее 12% плодной ДНК, что соответствует примерно 30% в образцах 1-го и раннего 2-го триместров. Ключевое различие между данным алгоритмом MLE и опубликованными методами заключается в том, что он максимально использует родительские генотипы и данные НарМар для улучшения точности и генерирования метрики достоверности. При низких долях плода все способы становятся менее точными; важно корректно идентифицировать образцы в условиях недостатка плодной cfDNA для надежного определения признака. В других методах использовали специфичные по отношению к Y-хромосоме зонды для оценки доли плода плодов мужского пола, но сопутствующее генотипирование родителей давало возможность оценки доли плода для плодов обоих полов. Другое ограничение, присущее опубликованным методов с использованием нецелевого секвенирования методом «дробовика», состоит в том, что точность определения плоидности варьирует у хромосом вследствие различий в таких факторах, как обогащение по GC. Подход непосредственного целевого секвенирования по большей части не зависит от таких вариаций хромосомного масштаба и дает более устойчивую характеристику у хромосом.The described method accurately recorded the ploidy of all tested chromosomes in six samples, including samples containing less than 12% fetal DNA, which corresponds to about 30% in samples of the 1st and early 2nd trimesters. The key difference between this MLE algorithm and published methods is that it makes the most of parental genotypes and NarMar data to improve accuracy and generate confidence metrics. With low fetal fractions, all methods become less accurate; it is important to correctly identify samples in conditions of lack of fetal cfDNA for reliable identification of the trait. Other methods used probes specific for the Y chromosome to estimate the proportion of the male fetus, but the accompanying genotyping of the parents made it possible to estimate the proportion of the fetus for the fetuses of both sexes. Another limitation inherent in published methods using non-targeted shotgun sequencing is that the accuracy of ploidy determination varies on chromosomes due to differences in factors such as GC enrichment. The direct target sequencing approach for the most part does not depend on such variations of the chromosome scale and gives a more stable characteristic for chromosomes.

Эксперимент 3Experiment 3

Целью являлось определение детектируемости трисомии с высокой достоверностью у триплоидного плода с использованием новых методов информатики для анализа локусов SNP в свободноплавающей плодной ДНК из материнской плазмы.The aim was to determine the detectability of trisomy with high confidence in the triploid fetus using new informatics methods to analyze SNP loci in free-floating fetal DNA from maternal plasma.

После патологических показаний ультразвукового исследования у беременной пациентки брали 20 мл крови. После центрифугирования из лейкоцитарной пленки экстрагировали материнскую ДНК (DNEASY, QIAGEN); бесклеточную ДНК экстрагировали из плазмы (QIAAMP QIAGEN). Целевое секвенирование применяли на локусах SNP в хромосомах 2, 21 и X в обоих образцах ДНК. Байесовским оцениванием максимального правдоподобия выбирали наиболее вероятную гипотезу из набора всех возможных состояний плоидности. Указанный способ определяет долю плодной ДНК, состояние плоидности и явную достоверность определения плоидности. Предположения относительно плоидности эталонной хромосомы не формулировали. В диагностике использовали тестовую статистику, которая не зависит от количества считываний последовательностей, что соответствует существующему уровню техники.After pathological indications of ultrasound, 20 ml of blood was taken from a pregnant patient. After centrifugation, maternal DNA (DNEASY, QIAGEN) was extracted from the WBC film; cell-free DNA was extracted from plasma (QIAAMP QIAGEN). Target sequencing was used at SNP loci on chromosomes 2, 21 and X in both DNA samples. By a Bayesian maximum likelihood assessment, the most probable hypothesis was selected from the set of all possible ploidy states. The specified method determines the proportion of fetal DNA, the state of ploidy and the apparent reliability of the determination of ploidy. Assumptions regarding the ploidy of the reference chromosome were not formulated. Diagnostics used test statistics, which does not depend on the number of readings of sequences, which corresponds to the existing level of technology.

Способ в соответствии с настоящим изобретением позволял точно диагностировать трисомию по хромосомам 2 и 21. Оцененная доля ребенка составляла 11,9% [CI 11,7-12,1]. Считалось, что плод имеет одну материнскую и две отцовские копии хромосом 2 и 21 с эффективной достоверностью 1 (вероятность ошибки <10-30). Указанный результат достигался при 92600 и 258100 считываниях на хромосомах 2 и 21, соответственно.The method in accordance with the present invention made it possible to accurately diagnose trisomy by chromosomes 2 and 21. The estimated proportion of the child was 11.9% [CI 11.7-12.1]. It was believed that the fetus has one maternal and two paternal copies of chromosomes 2 and 21 with an effective confidence of 1 (probability of error <10 -30 ). The indicated result was achieved with 92600 and 258100 readings on chromosomes 2 and 21, respectively.

Это первая демонстрация неинвазивной пренатальной диагностики трисомии хромосом по крови матери при триплоидности плода, подтвержденной исследованием кариотипа в метафазе. Существующие способы неинвазивной диагностики не позволяют определить анеуплоидию в таком образце. Современные способы основаны на увеличении количества считываний последовательностей на трисомной хромосоме по сравнению со считываниями на дисомных эталонных хромосомах; однако для триплоидного плода отсутствует дисомный эталон. Кроме того, существующие способы не позволяют определять плоидность с аналогичной высокой достоверностью при указанной доле плодной ДНК и при указанном количестве считываний последовательностей. Указанный способ несложно расширить для применения на всех 24 хромосомах.This is the first demonstration of non-invasive prenatal diagnosis of trisomy of chromosomes in the blood of the mother with triploid fetus, confirmed by the study of the karyotype in metaphase. Existing non-invasive diagnostic methods do not allow aneuploidy to be detected in such a sample. Modern methods are based on an increase in the number of readings of sequences on the trisome chromosome compared to readings on disomal reference chromosomes; however, there is no disomal standard for the triploid fetus. In addition, existing methods do not allow ploidy to be determined with a similar high reliability for a given fraction of fetal DNA and for a specified number of sequence readings. This method is easy to expand for use on all 24 chromosomes.

Эксперимент 4Experiment 4

Следующий протокол использовали для 800-плексной амплификации ДНК, выделенной из материнской плазмы при эуплоидной беременности, а также геномной ДНК из линии триплоидных по хромосоме 21 клеток с использованием стандартной ПЦР (т.е. вложение не использовалось). Подготовка библиотеки и амплификация включали однопробирочное получение тупых концов с последующим присоединением А-хвоста. Адаптерное лигирование проводили с использованием набора для лигирования, входящего в комплект набора SURESELECT от AGILENT, и ПЦР осуществляли в течение 7 циклов. Затем выполняли 15 циклов STA (95°C в течение 30 секунд; 72°C в течение 1 минуты; 60°C в течение 4 минут; 65°C в течение 1 минуты; 72°C в течение 30 секунд) с использованием 800 пар различных праймеров, целями которых являлись SNP в хромосомах 2, 21 и X. Реакция проводили при концентрации праймеров 12,5 нМ. Затем ДНК секвенировали на секвенсоре IIGAX от ILLUMINA. Выход секвенатора составлял 1,9 миллиона считанных последовательностей, из которых 92% картировалось с геномом; из картирующихся с геномом считанных последовательностей более 99% картировалось с одной из областей, на которые нацеливали целевые праймеры. Указанные показатели по существу совпадали для ДНК плазмы и геномной ДНК. На фиг. 15 показано отношение двух аллелей для ~780 SNP, обнаруживаемых секвенатором в геномной ДНК, взятой из линии клеток с подтвержденной трисомией по хромосоме 21. Отметим, что отношения аллелей в настоящем документе представлены графически для облегчения визуализации, поскольку распределение аллелей сложно непосредственно оценить визуально. Кружками отмечены SNP в дисомных хромосомах, звездочками отмечены SNP в трисомной хромосоме. На фиг. 16 по-другому представлены те же данные, что и на фиг X, на которой по оси Y отложено относительное количество А и В, измеренное для каждого SNP, а по оси X число SNP, при этом SNP сгруппированы по хромосоме. На фиг. 16 SNP от 1 до 312 обнаруживали в хромосоме 2, SNP от 313 до 605 обнаруживали в хромосоме 21, которая является трисомной, и SNP от 606 до 800 обнаруживали в Х-хромосоме. Данные по хромосомам 2 и X показывают, что это дисомные хромосомы, поскольку относительные количества последовательностей группируются по трем кластерам: АА вверху графика, ВВ внизу графика, и АВ в середине графика. Данные по хромосоме 21, которая является трисомной, показывают наличие четырех кластеров: AAA наверху графика, ААВ около линии 0,65 (2/3), ABB около линии 0,35 (1/3), и ВВВ внизу графика.The following protocol was used for 800-plex amplification of DNA isolated from maternal plasma during euploid pregnancy, as well as genomic DNA from a line of triploid chromosome 21 cells using standard PCR (i.e., no attachment was used). The preparation of the library and amplification included a single-tube preparation of blunt ends followed by the attachment of an A-tail. Adapter ligation was performed using the ligation kit included in the kit of the SURESELECT kit from AGILENT, and PCR was performed for 7 cycles. Then 15 STA cycles were performed (95 ° C for 30 seconds; 72 ° C for 1 minute; 60 ° C for 4 minutes; 65 ° C for 1 minute; 72 ° C for 30 seconds) using 800 pairs different primers whose targets were SNPs on chromosomes 2, 21 and X. The reaction was carried out at a concentration of primers of 12.5 nM. DNA was then sequenced on an IIGAX sequencer from ILLUMINA. The sequencer output was 1.9 million read sequences, of which 92% were mapped to the genome; Of the read sequences mapped to the genome, more than 99% were mapped from one of the regions targeted by the primers. These indicators essentially coincided for plasma DNA and genomic DNA. In FIG. Figure 15 shows the ratio of two alleles for ~ 780 SNPs detected by a sequencer in genomic DNA taken from a cell line with confirmed trisomy on chromosome 21. Note that the relationship of alleles in this document is presented graphically to facilitate visualization, since the distribution of alleles is difficult to directly assess visually. Circles indicate SNP in the disomic chromosomes; stars indicate SNP in the trisomic chromosome. In FIG. 16, the same data is presented differently as in FIG. X, in which the relative amounts of A and B, measured for each SNP, are plotted along the Y axis and the number of SNPs along the X axis, with SNPs grouped by chromosome. In FIG. 16 SNPs from 1 to 312 were found on chromosome 2, SNPs from 313 to 605 were found on chromosome 21, which is trisomal, and SNPs from 606 to 800 were found on the X chromosome. Data on chromosomes 2 and X show that these are disomal chromosomes, since the relative numbers of sequences are grouped into three clusters: AA at the top of the graph, BB at the bottom of the graph, and AB in the middle of the graph. Data on chromosome 21, which is trisomal, shows the presence of four clusters: AAA at the top of the graph, AAB near the 0.65 (2/3) line, ABB near the 0.35 (1/3) line, and BBB at the bottom of the graph.

На фиг. 17A-D представлены данные того же 800-плексного протокола, но измеренные на ДНК, которую амплифицировали из четырех образцов плазмы, взятых у беременных женщин. Для этих четырех образцов предполагали увидеть семь кластеров точек: (1) вдоль верхней части графика расположены те локусы, по которым и мать, и плод являются АА, (2) несколько ниже верхней части графика находятся локусы, по которым мать является АА, а плод является АВ, (3) несколько выше линии 0,5 расположены локусы, по которым мать является АВ, а плод является АА, (4) вдоль линии 0,5 находятся локусы, по которым и мать, и плод являются АВ, (5) несколько ниже линии 0,5 находятся локусы, по которым мать является АВ, а плод является ВВ, (6) несколько выше нижней части графика расположены локусы, по которым мать является ВВ, а плод является АВ, (1) по нижней части графика находятся локусы, по которым и мать, и плод являются ВВ. Чем меньше доля плода, тем меньше расхождения между кластерами (1) и (2), между кластерами (3), (4) и (5), а также между кластерами (6) и (7). Расхождение ожидается, если половина ДНК имеет плодное происхождение. Например, если ДНК на 20% плодная и на 80% материнская, прогнозировали, что кластеры от (1) до (7) центрированы на 1,0, 0,9, 0,6, 0,5, 0,4, 0,1 и 0,0, соответственно; см., например, фиг. 17D, POOLl_BC5_ref_rate. Если ДНК на 8% плодная, а на 92% материнская, ожидается, что кластеры от (1) до (7) центрированы на 1,00, 0,96, 0,54, 0,50, 0,46, 0,04 и 0,00, соответственно; см., например, фиг. 17, POOLl_BC2_ref_rate. Если плодная ДНК не обнаружена, ожидается отсутствие кластеров (2), (3), (5) или (6); как вариант, можно сказать, что расхождение нулевое, и, следовательно, кластеры (1) и (2) расположены один поверх другого, как и (3), (4) и (5), а также (6) и (7); см., например, фиг. 17С, POOLl_BC7_ref_rate. Отметим, что доля плода для фиг. 17А, POOLlBClrefrate, составляла приблизительно 25%.In FIG. 17A-D show data from the same 800 plex protocol, but measured on DNA that was amplified from four plasma samples taken from pregnant women. For these four samples, it was supposed to see seven clusters of points: (1) along the upper part of the graph are those loci at which both the mother and the fetus are AA, (2) slightly below the upper part of the graph are loci at which the mother is AA and the fetus is AB, (3) loci are located slightly above the line 0.5, along which the mother is AB, and the fetus is AA, (4) there are loci along the 0.5 line, along which the mother and fetus are AB, (5) slightly below the 0.5 line are the loci along which the mother is AB, and the fetus is BB, (6) slightly above the lower parts of the graph are the loci along which the mother is an explosive and the fetus is AB, (1) the loci along the lower part of the graph are the loci along which both the mother and the fetus are explosives. The smaller the proportion of the fetus, the smaller the discrepancy between clusters (1) and (2), between clusters (3), (4) and (5), as well as between clusters (6) and (7). A discrepancy is expected if half the DNA is of fetal origin. For example, if DNA is 20% fetal and 80% maternal, clusters from (1) to (7) were predicted to be centered at 1.0, 0.9, 0.6, 0.5, 0.4, 0, 1 and 0,0, respectively; see, for example, FIG. 17D, POOLl_BC5_ref_rate. If DNA is 8% fetal and 92% maternal, clusters from (1) to (7) are expected to be centered at 1.00, 0.96, 0.54, 0.50, 0.46, 0.04 and 0.00, respectively; see, for example, FIG. 17, POOLl_BC2_ref_rate. If fetal DNA is not detected, the absence of clusters (2), (3), (5) or (6) is expected; as an option, we can say that the discrepancy is zero, and therefore, clusters (1) and (2) are located one on top of the other, like (3), (4) and (5), as well as (6) and (7) ; see, for example, FIG. 17C, POOLl_BC7_ref_rate. Note that the fetal fraction for FIG. 17A, POOLlBClrefrate, was approximately 25%.

Эксперимент 5Experiment 5

Большинство способов амплификации ДНК и измерений дает некоторое смещение числа аллелей, при этом два аллеля, которые, как правило, присутствуют в локусе, выявляются с плотностью или в количествах, не соответствующих фактическим количествам аллелей в образце ДНК. Например, у одного индивидуума в гетерозиготном локусе ожидается отношение двух аллелей 1:1, что является теоретическим отношением, ожидаемым для гетерозиготного локуса; однако, вследствие смещения числа аллелей, наблюдается соотношение 55:45 или даже 60:40. Также отметим, что в контексте секвенирования, если глубина секвенирования низкая, простой стохастический шум может привести к значительному смещению числа аллелей. Согласно варианту осуществления можно смоделировать поведение каждого SNP, так что если наблюдается смещение для конкретных аллелей, это смещение можно скорректировать. На фиг. 18 представлена часть данных, которую можно объяснить дисперсией биномиального распределения, до и после внесения поправки на смещение. На фиг. 18 звездочками обозначено смещение числа аллелей, наблюдаемое в необработанных данных секвенирования для 800-плексного эксперимента; кружками обозначено смещение числа аллелей после введение поправки на смещение. Отметим, что в отсутствие смещения числа аллелей данные предположительно будут располагаться вдоль линии х=у. Аналогичный набор данных получали при амплификации ДНК с использованием 150-плексной целевой амплификации; после введения поправки на смещение полученные данные располагались очень близко к линии 1:1.Most DNA amplification and measurement methods give some shift in the number of alleles, with two alleles that are usually present at the locus that are detected with a density or in quantities that do not match the actual numbers of alleles in the DNA sample. For example, in one individual at a heterozygous locus, the ratio of two alleles is 1: 1, which is the theoretical ratio expected for a heterozygous locus; however, due to a shift in the number of alleles, a ratio of 55:45 or even 60:40 is observed. Also note that in the context of sequencing, if the sequencing depth is low, simple stochastic noise can lead to a significant shift in the number of alleles. According to an embodiment, the behavior of each SNP can be modeled, so if an offset is observed for specific alleles, this offset can be corrected. In FIG. Figure 18 shows a portion of the data that can be explained by the variance of the binomial distribution, before and after the offset correction. In FIG. 18 asterisks indicate the shift in the number of alleles observed in the raw sequencing data for the 800-plex experiment; circles indicate the shift in the number of alleles after the introduction of a correction for the shift. Note that in the absence of a shift in the number of alleles, the data will presumably be located along the line x = y. A similar data set was obtained by amplification of DNA using 150-plex target amplification; after the introduction of an offset correction, the obtained data were located very close to the 1: 1 line.

Эксперимент бExperiment b

Универсальная амплификация ДНК с использованием лигированных адаптеров с праймерами, специфичными по отношению к маркерам адаптеров, при которой время отжига праймеров и удлинения ограничено несколькими минутами, обладает эффектом обогащения более короткими цепями ДНК. Большинство протоколов библиотек, предназначенных для создания приемлемых для секвенирования библиотек ДНК, предусматривают такой этап, и примеры протоколов опубликованы и хорошо известны специалистам в данной области. Согласно некоторым вариантам осуществления настоящего изобретения адаптеры с универсальным маркером лигировали с ДНК плазмы и амплифицировали с использованием праймеров, специфичных по отношению к маркеру адаптеров. Согласно некоторым вариантам осуществления универсальным маркером может быть тот же маркер, который использовали для секвенирования, он может быть универсальным маркером только для ПЦР-амплификации, или он может представлять собой набор маркеров. Поскольку плодная ДНК, как правило, короткая, в то время как материнская ДНК может быть как короткой, так и длинной, этот способ позволяет обогатить смесь по содержанию плодной ДНК. Свободноплавающая ДНК, предположительно происходящая из апоптотических клеток, которая содержит и плодную, и материнскую ДНК, короткая - чаще всего ее длина составляет менее 200 пар оснований. Клеточная ДНК, высвобождаемая при лизисе клеток, обычном явлении после флеботомии, как правило, почти полностью материнская, а также достаточно длинная - чаще всего ее длина превышает 500 пар оснований. Таким образом, в образцах крови, которые оставляли на период более нескольких минут, содержится смесь короткой (плодной + материнской) и более длинной (материнской) ДНК. Проведение универсальной амплификации с относительно коротким периодом удлинения в образце материнской плазмы с последующей целевой амплификацией обычно увеличивает относительное содержание плодной ДНК по сравнению с содержанием в ДНК плазмы, которую амплифицировали с использованием только целевой амплификации. Это видно на фиг. 19, на которой представлен измеренный процент плодной ДНК при введении ДНК плазмы (вертикальная ось), по сравнению с измеренным процентом плодной ДНК при введении ДНК плазмы из библиотеки, подготовленной в соответствии с протоколом получения библиотек GAIIx от ILLUMINA. Все точки располагаются ниже линии, что указывает на то, что этап приготовления библиотеки включает обогащение ДНК плодного происхождения. Два образца плазмы, которые были красными, что свидетельствует о гемолизе, и, следовательно, предположительно содержавшие повышенное количество длинной материнской ДНК, высвобождаемой в результате лизиса клеток, показали особенно значительное обогащение по плодной ДНК, если целевой амплификации предшествовала подготовка библиотеки. Раскрытый в настоящем документе способ целесообразен, в частности, в случаях гемолиза или в какой-либо другой ситуации, в которой происходит лизис клеток, содержащих относительно длинные цепи загрязняющей ДНК, что обуславливает загрязнение длинной ДНК смешанного образца короткой ДНК. Как правило, относительно короткое время отжига и удлинения составляет от 30 секунд до 2 минут, хотя может быть сокращено до 5 или 10 секунд или менее, или продлено до 5 или 10 минут.Universal amplification of DNA using ligated adapters with primers specific for adapter markers, in which primer annealing and elongation time is limited to a few minutes, has the effect of enrichment with shorter DNA chains. Most library protocols designed to create DNA libraries suitable for sequencing involve such a step, and examples of protocols are published and well known to those skilled in the art. In some embodiments of the present invention, universal marker adapters are ligated to plasma DNA and amplified using primers specific for the adapter marker. In some embodiments, the universal marker may be the same marker used for sequencing, it may be a universal marker only for PCR amplification, or it may be a set of markers. Since fetal DNA is usually short, while maternal DNA can be either short or long, this method allows the mixture to be enriched by the content of fetal DNA. Free-floating DNA, supposedly derived from apoptotic cells, which contains both fetal and maternal DNA, is short - most often its length is less than 200 base pairs. Cellular DNA released during cell lysis, a common occurrence after phlebotomy, is usually almost completely maternal, and also quite long - most often its length exceeds 500 base pairs. Thus, blood samples that were left for more than a few minutes contain a mixture of short (fetal + maternal) and longer (maternal) DNA. Conducting universal amplification with a relatively short elongation period in the maternal plasma sample, followed by target amplification, usually increases the relative content of fetal DNA compared to the plasma DNA that was amplified using only the target amplification. This can be seen in FIG. 19, which shows the measured percentage of fetal DNA with the introduction of plasma DNA (vertical axis), compared with the measured percentage of fetal DNA with the introduction of plasma DNA from a library prepared in accordance with the protocol for obtaining GAIIx libraries from ILLUMINA. All points are located below the line, which indicates that the stage of preparation of the library includes enrichment of DNA of fetal origin. Two plasma samples that were red, indicating hemolysis, and therefore presumably containing an increased amount of long maternal DNA released as a result of cell lysis, showed especially significant enrichment for fetal DNA if target amplification was preceded by preparation of the library. The method disclosed herein is suitable, in particular, in cases of hemolysis or in some other situation in which the lysis of cells containing relatively long chains of contaminating DNA occurs, which causes contamination of long DNA of a mixed sample of short DNA. Typically, a relatively short annealing and elongation time is from 30 seconds to 2 minutes, although it can be reduced to 5 or 10 seconds or less, or extended to 5 or 10 minutes.

Эксперимент 7Experiment 7

Следующий протокол использовали для проведения 1200-плексной амплификации ДНК, выделенной из материнской плазмы при эуплоидной беременности, а также геномной ДНК из линии триплоидных по хромосоме 21 клеток с использованием протокола прямой ПЦР и полувложенного подхода. Подготовка библиотеки и амплификация включала однопробирочное получение тупых концов с последующим присоединением А-хвостов. Адаптерное лигирование проводили с использованием модификации набора для лигирования, входящего в комплект набора SURESELECT от AGILENT, а ПЦР проводили в течение 7 циклов. В пуле целевых праймеров содержалось 550 анализируемых фрагментов для SNP хромосомы 21 и 325 анализируемых фрагментов для SNP каждой из хромосом 1 и X. Оба протокола включали 15 циклов STA (95°C в течение 30 секунд; 72°C в течение 1 минуты; 60°C в течение 4 минут; 65°C в течение 30 секунд; 72°C в течение 30 секунд) при концентрации праймеров 16 нМ. Протокол полувложенной ПЦР включал вторую амплификацию из 15 циклов STA (95°C в течение 30 секунд; 72°C в течение 1 минуты; 60°C в течение 4 минут; 65°C в течение 30 секунд; 72°C в течение 30 секунд) с использованием концентрации внутреннего прямого маркера 29 нМ и концентрации обратного маркера 1 мкМ или 0,1 мкМ. Затем ДНК секвенировали на секвенаторе IIGAX от ILLUMINA. При протоколе прямой ПЦР 73% считанных последовательностей картировались с геномом; при протоколе полувложенной ПЦР 97,2% считанных последовательностей картировались с геномом. Следовательно, полувложенный протокол позволял получить приблизительно на 30% больше информации, предположительно в основном благодаря устранению праймеров, которые с максимальной вероятностью образовали бы димеры праймеров.The following protocol was used to conduct 1200-plex amplification of DNA isolated from maternal plasma during euploid pregnancy, as well as genomic DNA from a line of 21 triploid chromosome cells using the direct PCR protocol and a semi-nested approach. The preparation of the library and amplification included single-tube preparation of blunt ends followed by the attachment of A-tails. Adapter ligation was performed using a modification of the ligation kit included in the kit of the SURESELECT kit from AGILENT, and PCR was performed for 7 cycles. The target primer pool contained 550 analyzed fragments for SNP chromosomes 21 and 325 analyzed fragments for SNPs of each of chromosomes 1 and X. Both protocols included 15 STA cycles (95 ° C for 30 seconds; 72 ° C for 1 minute; 60 ° C for 4 minutes; 65 ° C for 30 seconds; 72 ° C for 30 seconds) at a concentration of primers of 16 nM. The half-PCR protocol included a second amplification of 15 STA cycles (95 ° C for 30 seconds; 72 ° C for 1 minute; 60 ° C for 4 minutes; 65 ° C for 30 seconds; 72 ° C for 30 seconds ) using an internal direct marker concentration of 29 nM and a reverse marker concentration of 1 μM or 0.1 μM. The DNA was then sequenced on an IIGAX sequencer from ILLUMINA. With the direct PCR protocol, 73% of the read sequences were mapped to the genome; with a semi-nested PCR protocol, 97.2% of the read sequences were mapped to the genome. Consequently, the semi-nested protocol allowed us to obtain approximately 30% more information, presumably mainly due to the elimination of primers that would most likely form primer dimers.

Вариабельность глубины секвенирования имеет тенденцию к повышению при использовании полувложенного протокола в сравнении с использованием протоколом прямой ПЦР (см. Фиг. 20), при этом ромбами обозначена глубина секвенирования для локусов, исследованных по полувложенному протоколу; квадратами обозначают глубину секвенирования для локусов, исследованных без вложения. SNP распределены по глубине секвенирования, обозначенной ромбами, так что все ромбы укладываются в кривую, в то время как квадраты распределяются слабо связанным образом; SNP расположены произвольным образом, и на глубину секвенирования указывает высота точки, а не ее расположение по горизонтали.The variability of the depth of sequencing tends to increase when using the semi-nested protocol compared to using the direct PCR protocol (see Fig. 20), while the diamonds indicate the sequencing depth for loci examined by the semi-nested protocol; squares indicate the depth of sequencing for loci examined without attachment. SNPs are distributed over the sequencing depth indicated by rhombuses, so that all rhombuses fit into a curve, while squares are distributed in a loosely coupled manner; SNPs are arranged randomly, and the height of the point, not its horizontal position, indicates the depth of sequencing.

Согласно некоторым вариантам осуществления описанные в настоящем документе способы могут обеспечивать прекрасные показатели дисперсии глубины секвенирования (DOR). Например, в одном варианте данного эксперимента (фиг. 21) с использованием 1200-плексной прямой ПЦР-амплификации геномной ДНК из 1200 анализируемых фрагментов: 1186 анализируемых фрагментов характеризовались DOR более 10; средняя глубина секвенирования составляла 400; 1063 анализируемых фрагмента (88,6%) характеризовались глубиной секвенирования от 200 до 800, идеальным окном, при котором число считываний для каждого аллеля достаточно высоко для получения значимых данных и в то же время не настолько высоко, чтобы предельная полезность указанных считываний была слишком мала. Только 12 аллелей характеризовались более высокой глубиной секвенирования с самым высоким значением при 1035 считываниях. Стандартное отклонение DOR составляло 290, среднее значение DOR составляло 453, коэффициент дисперсии DOR составлял 64%, всего получали 950000 считываний, и 63,1% считанных последовательностей картировалось с геномом. В другом эксперименте (фиг. 22) с использованием 1200-плексного полувложенного протокола DOR была выше. Стандартное отклонение DOR составляло 583, среднее значение DOR составляло 630, коэффициент дисперсии DOR составлял 93%, всего получали 870000 считываний, и 96,3% считанных последовательностей картировалось с геномом. Отметим, что в обоих случаях SNP расположены по глубине секвенирования для матери так, что кривая отражает глубину секвенирования для матери. Дифференциация между ребенком и отцом не является значимой; имеется только тренд, значимый для целей настоящего объяснения.In some embodiments, the methods described herein can provide excellent sequencing depth dispersion (DOR) measures. For example, in one version of this experiment (Fig. 21) using 1200-plex direct PCR amplification of genomic DNA from 1200 analyzed fragments: 1186 analyzed fragments were characterized by DOR of more than 10; the average depth of sequencing was 400; 1063 analyzed fragments (88.6%) had a sequencing depth of 200 to 800, an ideal window in which the number of readings for each allele was high enough to produce meaningful data and at the same time not so high that the marginal utility of these readings was too small . Only 12 alleles were characterized by a higher sequencing depth with the highest value at 1035 readings. The DOR standard deviation was 290, the average DOR was 453, the DOR variance was 64%, a total of 950,000 readings were obtained, and 63.1% of the read sequences were mapped to the genome. In another experiment (FIG. 22) using a 1200-plex semi-nested protocol, the DOR was higher. The standard deviation of the DOR was 583, the average DOR was 630, the dispersion coefficient of the DOR was 93%, a total of 870000 readings were obtained, and 96.3% of the read sequences were mapped to the genome. Note that in both cases, SNPs are located at the sequencing depth for the mother so that the curve reflects the sequencing depth for the mother. The differentiation between the child and the father is not significant; there is only a trend that is significant for the purpose of this explanation.

Эксперимент 8Experiment 8

В эксперименте использовали протокол полувложенной 1200-плексной ПЦР для амплификации ДНК из одной клетки и из трех клеток. Этот эксперимент подходит для пренатального тестирования на анеуплоидию с использованием плодных клеток, выделенных из крови матери, или для преимплантационной генетической диагностики с использованием биопсированных бластомеров или образцов трофэктодермы. По 1 клетке и по 3 клетки от 2 индивидуумов (46 XY и 47 ХХ+21) использовали в 3 повторах для каждого состояния. Анализировали хромосомы 1, 21 и X. Использовали три различных способа лизиса: ARCTURUS, MPERv2 и щелочной лизис. Секвенирование проводили с мультиплексированием 48 образцов на одной дорожке секвенирования. Алгоритм давал корректные признаки плоидности для каждой из трех хромосом и для каждой повторности.In the experiment, a half-nested 1200-plex PCR protocol was used to amplify DNA from one cell and from three cells. This experiment is suitable for prenatal testing for aneuploidy using fetal cells isolated from maternal blood, or for preimplantation genetic diagnosis using biopsy blastomeres or trophectoderm samples. 1 cell and 3 cells from 2 individuals (46 XY and 47 XX + 21) were used in 3 repetitions for each state. Chromosomes 1, 21, and X were analyzed. Three different lysis methods were used: ARCTURUS, MPERv2, and alkaline lysis. Sequencing was performed by multiplexing 48 samples on a single sequencing track. The algorithm gave the correct signs of ploidy for each of the three chromosomes and for each repetition.

Эксперимент 9Experiment 9

В одном эксперименте четыре образца материнской плазмы подготавливали и амплифицировали с использованием полувложенного 9600-плексного протокола. Образцы готовили следующим образом: до 40 мл крови матери центрифугировали с целью выделения лейкоцитарной пленки и плазмы. Геномную ДНК матери получали из лейкоцитарной пленки, а отцовскую ДНК получали из образца крови или образца слюны. Бесклеточную ДНК из материнской плазмы выделяли с использованием набора CIRCULATING NUCLEIC ACID от QIAGEN и элюировали в 45 мкл ТЭ-буфера в соответствии с инструкциями производителя. Универсальные адаптеры лигирования присоединяли к концу каждой молекулы в 35 мкл очищенной ДНК плазмы, и библиотеки амплифицировали в течение 7 циклов с использованием праймеров, специфичных по отношению к адаптерам. Библиотеки очищали с помощью гранул AGENCOURT AMPURE и элюировали в 50 мкл воды.In one experiment, four maternal plasma samples were prepared and amplified using a half-embedded 9600 plex protocol. Samples were prepared as follows: up to 40 ml of maternal blood was centrifuged to isolate the white blood cell film and plasma. Maternal genomic DNA was obtained from a white blood cell film, and paternal DNA was obtained from a blood sample or a saliva sample. Cell-free DNA from maternal plasma was isolated using the QIAGEN CIRCULATING NUCLEIC ACID kit and eluted in 45 μl of TE buffer according to the manufacturer's instructions. Universal ligation adapters were attached to the end of each molecule in 35 μl of purified plasma DNA, and the libraries were amplified for 7 cycles using primers specific to the adapters. Libraries were purified using AGENCOURT AMPURE pellets and eluted in 50 μl of water.

Амплифицировали 3 мкл ДНК в течение 15 циклов STA (95°C в течение 10 минут для начальной активации полимеразы, затем 15 циклов при 95°C в течение 30 секунд; 72°C в течение 10 секунд; 65°C в течение 1 минуты; 60°C в течение 8 минут; 65°C в течение 3 минут и 72°C в течение 30 секунд; и финальное удлинение при 72°C в течение 2 минут) с использованием концентрации 9600 специфичных по отношению к целям маркированных обратных праймеров 14,5 нМ и концентрации одного специфичного к адаптеру библиотеки прямого праймера 500 нМ.3 μl of DNA was amplified over 15 cycles of STA (95 ° C for 10 minutes for initial activation of the polymerase, then 15 cycles at 95 ° C for 30 seconds; 72 ° C for 10 seconds; 65 ° C for 1 minute; 60 ° C for 8 minutes; 65 ° C for 3 minutes and 72 ° C for 30 seconds; and final extension at 72 ° C for 2 minutes) using a concentration of 9600 target-specific labeled reverse primers 14, 5 nM and a concentration of one adapter specific direct primer library of 500 nM.

Протокол полувложенной ПЦР предусматривал вторую амплификацию разведенного продукта первых STA в течение 15 циклов STA (95°C в течение 10 минут для начальной активации полимеразы, затем 15 циклов при 95°C в течение 30 секунд; 65°С в течение 1 минуты; 60°C в течение 5 минут; 65°C в течение 5 минут и 72°C в течение 30 секунд; и финальное удлинение при 72°C в течение 2 минут) с использованием концентрации обратного маркера 1000 нМ и концентрации 16,6 нМ каждого из 9600 специфичных по отношению к целям прямых праймеров.The half-nested PCR protocol provided for a second amplification of the diluted first STA product for 15 STA cycles (95 ° C for 10 minutes for initial polymerase activation, then 15 cycles at 95 ° C for 30 seconds; 65 ° C for 1 minute; 60 ° C for 5 minutes; 65 ° C for 5 minutes and 72 ° C for 30 seconds; and final extension at 72 ° C for 2 minutes) using a 1000 nM back marker concentration and 16.6 nM each of 9600 specific to the goals of direct primers.

Затем аликвоту продуктов STA амплифицировали стандартной ПЦР в течение 10 циклов с 1 мкМ специфичных по отношению к маркеру прямых праймеров и обратных праймеров со штрихкодом для получения библиотек секвенирования со штрихкодом. Аликвоту из каждой библиотеки смешивали с библиотеками различных штрихкодов и очищали с использованием спин-колонки.An aliquot of the STA products was then amplified by standard PCR for 10 cycles with 1 μM marker-specific forward primers and reverse barcode primers to obtain barcode sequencing libraries. An aliquot of each library was mixed with libraries of different barcodes and purified using a spin column.

Таким образом в однолуночных реакциях использовали 9600 праймеров; праймеры были сконструированы для нацеливания на SNP в хромосомах 1, 2, 13, 18, 21, X и Y. Затем ампликоны секвенировали с использованием секвенатора GAIIX от ILLUMINA. Секвенатором генерировали приблизительно 3,9 миллиона считываний на образец, из них 3,7 миллиона считанных последовательностей картировались с геномом (94%), и из них 2,9 миллиона считанных последовательностей (74%) картировались с целевым SNP со средней глубиной секвенирования 344 и медианой глубины секвенирования 255. Доля плода в четырех образцах составляла 9,9%, 18,9%, 16,3% и 21,2%.Thus, 9600 primers were used in single-well reactions; primers were designed to target SNPs on chromosomes 1, 2, 13, 18, 21, X, and Y. The amplicons were then sequenced using a GAIIX sequencer from ILLUMINA. A sequencer generated approximately 3.9 million reads per sample, of which 3.7 million read sequences were mapped to the genome (94%), and of these 2.9 million read sequences (74%) were mapped to the target SNP with an average sequencing depth of 344 and the median depth of sequencing is 255. The proportion of fetus in the four samples was 9.9%, 18.9%, 16.3%, and 21.2%.

Значимые образцы материнской и отцовской геномной ДНК амплифицировали с использованием полувложенного 9600-плексного протокола и секвенировали. Полувложенный протокол отличается тем, что в нем используются 9600 внешних прямых праймеров и маркированных обратных праймеров при концентрации 7,3 нМ в первой STA. Условия термоциклирования и состав второй STA и штрихкодирующей ПЦР были такими же, как и в полувложенном протоколе.Significant maternal and paternal genomic DNA samples were amplified using a half-nested 9600 plex protocol and sequenced. The semi-nested protocol is characterized in that it uses 9600 external forward primers and labeled reverse primers at a concentration of 7.3 nM in the first STA. The thermal cycling conditions and composition of the second STA and bar coding PCR were the same as in the semi-attached protocol.

Данные секвенирования анализировали с использованием раскрытых в настоящем документе методов информатики и определяли состояние плоидности для шести хромосом плода, чья ДНК присутствовала в 4 образцах материнской плазмы. Признаки плоидности для всех 28 хромосом в наборе определялись корректно с достоверностью выше 99,2%, за исключением одной хромосомы, плоидность которой была прогнозирована корректно, но с достоверностью 83%.Sequencing data was analyzed using the computer methods described herein and the ploidy state was determined for six fetal chromosomes whose DNA was present in 4 maternal plasma samples. Signs of ploidy for all 28 chromosomes in the set were determined correctly with a reliability higher than 99.2%, with the exception of one chromosome whose ploidy was predicted correctly, but with a confidence of 83%.

На фиг. 23 показана глубина секвенирования при 9600-плексном полувложенном подходе вместе с глубиной секвенирования при 1200-плексном полувложенном подходе, описанном в эксперименте 7, хотя количество SNP с глубиной секвенирования более 100, более 200 и более 400 было существенно выше, чем при 1200-плексном протоколе. Число считываний при 90-м процентиле может быть разделено на число считываний при 10-м процентиле для получения безразмерной метрики, которая служит показателем однородности глубины секвенирования; чем меньше число, тем более однородна (является более узкой) глубина секвенирования. Среднее отношение 90-го процентиля к 10-ому процентилю составляло 11,5 для способа, использованного в эксперименте 9, и 5, 6 - для способа, использованного в эксперименте 7. Более узкая глубина секвенирования для протокола данной плексности предпочтительнее для эффективности секвенирования, поскольку требуется меньшее число считываний последовательностей, чтобы обеспечить, что определенное процентное отношение считываний находится выше порога числа считываний.In FIG. 23 shows the sequencing depth for the 9600-plex half-nested approach along with the sequencing depth for the 1200-plex half-nested approach described in experiment 7, although the number of SNPs with sequencing depths of more than 100, more than 200 and more than 400 was significantly higher than with the 1200-plex protocol . The number of readings at the 90th percentile can be divided by the number of readings at the 10th percentile to obtain a dimensionless metric that serves as an indicator of the uniformity of the depth of sequencing; the smaller the number, the more uniform (narrower) the sequencing depth is. The average ratio of the 90th percentile to the 10th percentile was 11.5 for the method used in experiment 9, and 5, 6 for the method used in experiment 7. A narrower sequencing depth for the protocol of this plexality is preferable for sequencing efficiency, since fewer sequence reads are required to ensure that a certain percentage of reads is above the readout threshold.

Эксперимент 10Experiment 10

В одном эксперименте четыре образца материнской плазмы готовили и амплифицировали с использованием полувложенного 9600-плексного протокола. Детали эксперимента 10 были очень сходны с экспериментом 9, включая идентичность четырех образцов, за исключением вложенного протокола. Признаки плоидности для всех 28 хромосом набора определялись корректно с достоверностями выше 99,7%. 7,6 миллиона (97%) считанных последовательностей картировались с геномом, а 6,3 миллиона (80%) считанных последовательностей картировались с целевым SNP. Средняя глубина секвенирования составляла 751, а медиана глубины секвенирования составляла 396.In one experiment, four maternal plasma samples were prepared and amplified using a half-embedded 9600 plex protocol. The details of experiment 10 were very similar to experiment 9, including the identity of four samples, with the exception of the attached protocol. Signs of ploidy for all 28 chromosomes of the set were determined correctly with confidence higher than 99.7%. 7.6 million (97%) of the read sequences were mapped with the genome, and 6.3 million (80%) of the read sequences were mapped with the target SNP. The average depth of sequencing was 751, and the median depth of sequencing was 396.

Эксперимент 11Experiment 11

В одном эксперименте три образца материнской плазмы разделяли на пять равных частей, и каждую порцию амплифицировали с использованием 2400 мультиплексных праймеров (четыре части) или 1200 мультиплексных праймеров (одна часть) по полувложенному протоколу с использованием в целом 10800 праймеров. После амплификации части объединяли для секвенирования. Детали эксперимента 11 были очень сходны с экспериментом 9, за исключением протокола вложения и подхода расщепления и объединения. Признаки плоидности для всех 21 хромосом набора определялись корректно с достоверностями выше 99,7%, за исключением одного пропущенного признака, для которого достоверность составляла 83%. 3,4 миллиона считанных последовательностей картировались с целевым SNP, средняя глубина секвенирования составляла 404, и медиана глубины секвенирования составляла 258.In one experiment, three samples of maternal plasma were divided into five equal parts, and each batch was amplified using 2400 multiplex primers (four parts) or 1200 multiplex primers (one part) using a semi-nested protocol using a total of 10800 primers. After amplification, the parts were combined for sequencing. The details of experiment 11 were very similar to experiment 9, with the exception of the nesting protocol and the splitting and combining approach. Signs of ploidy for all 21 chromosomes of the set were determined correctly with confidence higher than 99.7%, with the exception of one missing sign, for which the confidence was 83%. 3.4 million read sequences were mapped to the target SNP, the average depth of sequencing was 404, and the median of the depth of sequencing was 258.

Эксперимент 12Experiment 12

В одном эксперименте четыре образца материнской плазмы разделяли на четыре равные части, и каждую часть амплифицировали с использованием 2400 мультиплексных праймеров и амплифицировали с использованием полувложенного протокола; всего использовали 9600 праймеров. После амплификации части объединяли для секвенирования. Детали эксперимента 12 были очень сходны с экспериментом 9, за исключением протокола вложения и подхода расщепления и объединения. Признаки плоидности для всех 28 хромосом набора определялись корректно, с достоверностями выше 97%, за исключением одного пропущенного признака, для которого достоверность составляла 78%. 4,5 миллиона считанных последовательностей картировались с целевым SNP, средняя глубина секвенирования составляла 535, а медиана глубины секвенирования составляла 412.In one experiment, four maternal plasma samples were divided into four equal parts, and each part was amplified using 2400 multiplex primers and amplified using a half-nested protocol; a total of 9600 primers were used. After amplification, the parts were combined for sequencing. The details of experiment 12 were very similar to experiment 9, with the exception of the nesting protocol and the splitting and combining approach. Signs of ploidy for all 28 chromosomes of the set were determined correctly, with confidence higher than 97%, with the exception of one missing sign, for which the confidence was 78%. 4.5 million read sequences were mapped to the target SNP, the average sequencing depth was 535, and the median sequencing depth was 412.

Эксперимент 13Experiment 13

В одном эксперименте четыре образца материнской плазмы приготовили и амплифицировали с использованием 9600-плексного трижды полувложенного протокола, с общим числом 9600 праймеров. Детали эксперимента 12 были очень сходны с экспериментом 9, за исключением протокола вложения, который предусматривал три раунда амплификации; три раунда предусматривали 15, 10 и 15 циклов STA, соответственно. Признаки плоидности для 27 из 28 хромосом набора определялись корректно с достоверностями выше 99,9%, за исключением одной хромосомы, плоидность которой была прогнозирована корректно с достоверностью 94,6% и одного пропущенного признака, для которого достоверность составляла 80,8%. 3,5 миллиона считанных последовательностей картировались с целевыми SNP, средняя глубина секвенирования составляла 414, а медиана глубины секвенирования составляла 249.In one experiment, four maternal plasma samples were prepared and amplified using a 9600 plex triple half-nested protocol, with a total of 9600 primers. The details of experiment 12 were very similar to experiment 9, with the exception of the nesting protocol, which involved three rounds of amplification; three rounds included 15, 10, and 15 STA cycles, respectively. Signs of ploidy for 27 of the 28 chromosomes of the set were determined correctly with confidence higher than 99.9%, with the exception of one chromosome, the ploidy of which was predicted correctly with a confidence of 94.6% and one missing sign for which the confidence was 80.8%. 3.5 million read sequences were mapped to target SNPs, the average sequencing depth was 414, and the median sequencing depth was 249.

Эксперимент 14Experiment 14

В одном эксперименте 45 наборов клеток амплифицировали с использованием 1200-плексного полувложенного протокола, секвенировали и для трех хромосом определяли плоидность. Отметим, что этот эксперимент был предназначен для моделирования условий выполнения преимплантационной генетической диагностики на одноклеточных биоптатах, полученных от 3-дневных эмбрионов, или биоптатах трофэктодермы, полученных от 5-дневных эмбрионов. Помещали 15 индивидуальных единичных клеток и 30 агрегатов из трех клеток в 45 индивидуальных реакционных пробирок для проведения обшей сложностью 45 реакций, при этом в каждой реакции участвовали клетки только одной клеточной линии, но в разных реакциях участвовали клетки различных клеточных линий. Клетки обрабатывали в 5 мкл отмывочного буфера, лизировали добавлением 5 мкл лизирующего буфера ARCTURUS PICOPURE (от APPLIED BIOSYSTEMS) и инкубировали при 56°C в течение 20 минут и при 95°С в течение 10 минут.In one experiment, 45 sets of cells were amplified using a 1200 plex half-nested protocol, sequenced, and ploidy was determined for three chromosomes. Note that this experiment was intended to simulate the conditions for performing preimplantation genetic diagnostics on unicellular biopsy specimens obtained from 3-day embryos or trophectoderm biopsy specimens obtained from 5-day embryos. Fifteen individual unit cells and 30 aggregates of three cells were placed in 45 individual reaction tubes for a total of 45 reactions, with only one cell line participating in each reaction, but different cell lines participating in different reactions. Cells were treated in 5 μl wash buffer, lysed by adding 5 μl ARCTURUS PICOPURE lysis buffer (from APPLIED BIOSYSTEMS) and incubated at 56 ° C for 20 minutes and at 95 ° C for 10 minutes.

ДНК единичных/трех клеток амплифицировали в течение 25 циклов STA (95°C в течение 10 минут для начальной активации полимеразы, затем 25 циклов при 95°C в течение 30 секунд; 72°C в течение 10 секунд; 65°C в течение 1 минуты; 60°C в течение 8 минут; 65°C в течение 3 минут и 72°C в течение 30 секунд; и финальное удлинение при 72°C в течение 2 минут) с использованием концентрации 1200 специфичных по отношению к целям прямых и маркированных обратных праймеров 50 нМ.Single / three cell DNAs were amplified over 25 cycles of STA (95 ° C for 10 minutes for initial polymerase activation, then 25 cycles at 95 ° C for 30 seconds; 72 ° C for 10 seconds; 65 ° C for 1 minutes; 60 ° C for 8 minutes; 65 ° C for 3 minutes and 72 ° C for 30 seconds; and final extension at 72 ° C for 2 minutes) using a concentration of 1200 target-specific direct and labeled reverse primers 50 nM.

Полувложенный протокол ПЦР предусматривал три параллельные вторые амплификации разведенного продукта первых STA в течение 20 циклов STA (95°C в течение 10 минут для начальной активации полимеразы, затем 15 циклов при 95°C в течение 30 секунд; 65°C в течение 1 минуты; 60°C в течение 5 минут; 65°C в течение 5 минут и 72°C в течение 30 секунд; и финальное удлинение при 72°C в течение в течение 2 минут) с использованием концентрации обратных специфичных по отношению к маркеру праймеров 1000 нМ и концентрации 60 нМ для каждого из 400 специфичных по отношению к целям «вложенных» прямых праймеров. Таким образом, в трех параллельных 400-плексных реакциях амплифицировали всего 1200 целей, амплифицированных в первой STA.The semi-nested PCR protocol involved three parallel second amplifications of the diluted first STA product for 20 STA cycles (95 ° C for 10 minutes for initial polymerase activation, then 15 cycles at 95 ° C for 30 seconds; 65 ° C for 1 minute; 60 ° C for 5 minutes; 65 ° C for 5 minutes and 72 ° C for 30 seconds; and final extension at 72 ° C for 2 minutes) using a marker concentration of 1000 nM reverse-specific marker primers and a concentration of 60 nM for each of the 400 “target specific” GOVERNMENTAL "forward primers. Thus, in three parallel 400-plex reactions, a total of 1200 targets amplified in the first STA were amplified.

Затем аликвоту продуктов STA амплифицировали методом стандартной ПЦР в течение 15 циклов с 1 мкМ специфичных по отношению к маркеру прямых праймеров и обратных праймеров со штрихкодом для получения библиотек со штрихкодом для секвенирования. Аликвоту каждой библиотеки смешивали с библиотеками различных штрихкодов и очищали на спин-колонке.An aliquot of STA products was then amplified by standard PCR for 15 cycles with 1 μM marker-specific forward primers and reverse barcode primers to obtain barcode libraries for sequencing. An aliquot of each library was mixed with libraries of different barcodes and purified on a spin column.

Таким образом, использовали 1200 праймеров в реакциях с участием единичных клеток; праймеры конструировали для нацеливания на SNP хромосом 1, 21 и X. Затем ампликоны секвенировали с использованием секвенатора GAIIX от ILLUMINA. С помощью секвенатора генерировали приблизительно 3,9 миллиона считываний на образец, при этом от 500000 до 800000 миллионов считанных последовательностей картировались с геномом (от 74% до 94% всех считанных последовательностей на образец).Thus, 1200 primers were used in reactions involving single cells; primers were designed to target SNP chromosomes 1, 21, and X. The amplicons were then sequenced using a GAIIX sequencer from ILLUMINA. Using a sequencer, approximately 3.9 million reads per sample were generated, with 500,000 to 800,000 million read sequences mapped to the genome (74% to 94% of all read sequences per sample).

Релевантные образцы материнской и отцовской геномной ДНК из клеточных линий анализировали с использованием того же полувложенного 1200-плексного пула анализируемых фрагментов по аналогичному протоколу с меньшим количеством циклов и 1200-плексной второй STA, и секвенировали.Relevant maternal and paternal genomic DNA samples from cell lines were analyzed using the same half-nested 1200-plex pool of analyzed fragments according to the same protocol with fewer cycles and a 1200-plex second STA, and sequenced.

Данные секвенирования анализировали с использованием раскрытых в настоящем документе методов информатики и для образцов определяли признаки плоидности по трем хромосомам.Sequencing data was analyzed using the methods of computer science disclosed herein, and ploidy signs for three chromosomes were determined for samples.

На фиг. 24 представлены нормализованные отношения глубины секвенирования (вертикальная ось) для шести образцов по трем хромосомам (1 = хромосома 1; 2 = хромосома 21; 3 = хромосома X). Отношения выравнивали по числу считанных последовательностей, картирующихся с данной хромосомой, нормализовали и делили на усредненное по трем лункам число считанных последовательностей, картирующихся с данной хромосомой, при этом в каждой лунке находилось три клетки 46XY. Предполагали, что три набора точек замера, соответствующих клеткам 46XY, имели отношения 1:1. Предполагали, что три набора точек замера, соответствующих клеткам 47ХХ+21, имели отношения 1:1 для хромосомы 1, 1,5:1 для хромосомы 21 и 2:1 для Х-хромосомы.In FIG. Figure 24 shows the normalized ratios of sequencing depth (vertical axis) for six samples across three chromosomes (1 = chromosome 1; 2 = chromosome 21; 3 = chromosome X). Relations were aligned according to the number of read sequences mapped to a given chromosome, normalized and divided by the number of read sequences mapped to a given chromosome, averaged over three wells, with three 46XY cells in each well. It was suggested that three sets of measurement points corresponding to 46XY cells had a 1: 1 ratio. It was suggested that three sets of measurement points corresponding to 47XX + 21 cells had a 1: 1 ratio for chromosome 1, 1.5: 1 for chromosome 21 and 2: 1 for the X chromosome.

На фиг. 25 представлены аллельные отношения в графическом виде для трех хромосом (1, 21, X) по трем реакциям. Область внизу слева показывает реакцию на трех клетках 46XY. Область слева - это аллельные отношения для хромосомы 1, средняя область - это аллельные отношения для хромосомы 21, и правая область - это аллельные отношения для Х-хромосомы. Для клеток 46XY для хромосомы 1 ожидались отношения 1, 0,5 и 0, соответствующие генотипам SNP АА, АВ и ВВ. Для клеток 46XY для хромосомы 21 ожидались отношения 1, 0,5 и 0, соответствующие генотипам SNP АА, АВ и ВВ. Для клеток 46XY для Х-хромосомы ожидались отношения 1 и 0, соответствующие генотипам SNP А и В. Область внизу справа показывает реакцию на трех клетках 47ХХ+21. Аллельные отношения сегрегированы по хромосомам, как в нижней левой части графика. Для клеток 47ХХ+21 для хромосомы 1 ожидались отношения 1, 0,5 и 0, соответствующие генотипам SNP АА, АВ и ВВ. Для клеток 47ХХ+21 для хромосомы 21 ожидались отношения 1, 0,67, 0,33 и 0, соответствующие генотипам SNP AAA, ААВ, ABB и ВВВ. Для клеток 47ХХ+21 для X-хромосомы ожидались отношения 1, 0,5 и 0, соответствующие генотипам SNP АА, АВ, и ВВ. График вверху справа строили на основании данных реакции с 1 нг геномной ДНК из клеточной линии 47ХХ+21. На фиг. 26 представлены те же графики, что и на фиг. 25, но для реакций, проведенных только на одной клетке. На графике слева представлена реакция с клеткой 47ХХ+21; на графике справа представлена реакция с клеткой 46ХХ.In FIG. 25 presents allelic relationships in graphical form for three chromosomes (1, 21, X) for three reactions. The area at the bottom left shows the response on the three 46XY cells. The area on the left is the allelic relationship for chromosome 1, the middle area is the allelic relationship for chromosome 21, and the right area is the allelic relationship for the X chromosome. For 46XY cells for chromosome 1, the ratios 1, 0.5, and 0 were expected, corresponding to the SNP genotypes AA, AB, and BB. For 46XY cells for chromosome 21, ratios 1, 0.5, and 0 were expected, corresponding to the SNP genotypes AA, AB, and BB. For 46XY cells for the X chromosome, ratios 1 and 0 were expected, corresponding to the SNP A and B genotypes. The area at the bottom right shows the reaction on three 47XX + 21 cells. Allelic relations are segregated by chromosomes, as in the lower left part of the graph. For 47XX + 21 cells for chromosome 1, the ratios 1, 0.5, and 0 corresponding to the SNP genotypes AA, AB, and BB were expected. For 47XX + 21 cells for chromosome 21, ratios of 1, 0.67, 0.33, and 0 corresponding to the SNP AAA, AAB, ABB, and BBB genotypes were expected. For 47XX + 21 cells for the X chromosome, the ratios 1, 0.5, and 0 corresponding to the SNP genotypes AA, AB, and BB were expected. The graph at the top right was built on the basis of the reaction data with 1 ng of genomic DNA from the 47XX + 21 cell line. In FIG. 26 shows the same graphs as in FIG. 25, but for reactions carried out on only one cell. The graph on the left shows the reaction with the cell 47XX + 21; the graph on the right shows the reaction with the 46XX cell.

Из графиков, показанных на фиг. 25 и фиг. 26, видно, что имеется два кластера точек для хромосом, в которых ожидается видеть отношения 1 и 0; три кластера точек для хромосом, в которых ожидается видеть отношения 1, 0,5 и 0, а также четырех кластеров точек для хромосом, в которых ожидается видеть отношения 1, 0,67, 0,33 и 0. С помощью алгоритма PARENTAL SUPPORT стало возможным получение корректных признаков по всем трем хромосомам для всех 45 реакций.From the graphs shown in FIG. 25 and FIG. 26, it can be seen that there are two clusters of points for chromosomes in which ratios 1 and 0 are expected; three clusters of points for chromosomes, in which it is expected to see relations 1, 0.5, and 0, as well as four clusters of points for chromosomes, in which it is expected to see relations 1, 0.67, 0.33, and 0. Using the PARENTAL SUPPORT algorithm, it is possible to obtain the correct traits on all three chromosomes for all 45 reactions.

Эксперимент 15Experiment 15

В одном из экспериментов получали образцы материнской плазмы и амплифицировали с применением гемивложенного 19 488-плексного протокола. Указанные образцы получали следующим образом: до 20 мл материнской крови центрифугировали для выделения лейкоцитарной пленки и плазмы. Геномную ДНК в материнском образце получали из лейкоцитарной пленки, а отцовскую ДНК получали из образца крови или слюны. Бесклеточную ДНК материнской плазмы выделяли с применением набора CIRCULATING NUCLEIC ACID от QIAGEN и элюировали в 50 мкл ТЭ-буфера в соответствии с инструкциями производителя. Универсальные адаптеры лигирования добавляли к концу каждой молекулы 40 мкл очищенной ДНК плазмы и библиотеки амплифицировали в течение 9 циклов с применением специфических в отношении адаптеров праймеров. Библиотеки очищали на гранулах AGENCOURT AMPURE и элюировали в 50 мкл буфера для суспендирования ДНК.In one of the experiments, maternal plasma samples were obtained and amplified using the heme-embedded 19,488-plex protocol. These samples were prepared as follows: up to 20 ml of maternal blood was centrifuged to isolate the white blood cell and plasma. Genomic DNA in the maternal sample was obtained from a white blood cell film, and paternal DNA was obtained from a blood or saliva sample. Cell-free maternal plasma DNA was isolated using the QIAGEN CIRCULATING NUCLEIC ACID kit and was eluted in 50 μl of TE buffer according to the manufacturer's instructions. Universal ligation adapters added 40 μl of purified plasma DNA to the end of each molecule and the libraries were amplified for 9 cycles using adapter-specific primers. Libraries were purified on AGENCOURT AMPURE granules and eluted in 50 μl of DNA suspension buffer.

6 мкл ДНК амплифицировали в течение 15 циклов STAR 1 (95°C на протяжении 10 мин для начальной активации полимеразы, с последующими 15 циклами при 96°C на протяжении 30 с; 65°C на протяжении 1 мин; 58°C на протяжении 6 мин; 60°C на протяжении 8 мин; 65°C на протяжении 4 мин и 72°C на протяжении 30 с; и конечное удлинение при 72°C на протяжении 2 мин) с использованием концентрации 7,5 нМ 19 488 специфичных в отношении цели маркированных обратных праймеров и одного специфичного в отношении адаптеров библиотеки прямого праймера в концентрации 500 нМ.6 μl of DNA was amplified over 15 cycles of STAR 1 (95 ° C for 10 min for the initial activation of the polymerase, followed by 15 cycles at 96 ° C for 30 s; 65 ° C for 1 min; 58 ° C for 6 min; 60 ° C for 8 min; 65 ° C for 4 min and 72 ° C for 30 s; and final elongation at 72 ° C for 2 min) using a concentration of 7.5 nM 19 488 specific for targets of labeled reverse primers and one adapter primer specific direct primer library at a concentration of 500 nM.

Протокол гемивложенной ПЦР включал вторую амплификацию разбавленного продукта STAR 1 в течение 15 циклов (STAR 2) (95°C на протяжении 10 мин для начальной активации полимеразы, с последующими 15 циклами при 95°C на протяжении 30 с; 65°C на протяжении 1 мин; 60°C на протяжении 5 мин; 65°C на протяжении 5 мин и 72°C на протяжении 30 с; и конечное удлинение при 72°C на протяжении 2 мин) с использованием концентрации обратного маркера 1000 нМ и концентрации 20 нМ для каждого из 19488 специфичных в отношении цели прямых праймеров.The hemo-nested PCR protocol included the second amplification of the diluted STAR 1 product over 15 cycles (STAR 2) (95 ° C for 10 min for initial polymerase activation, followed by 15 cycles at 95 ° C for 30 s; 65 ° C for 1 min; 60 ° C for 5 min; 65 ° C for 5 min and 72 ° C for 30 s; and final elongation at 72 ° C for 2 min) using a back marker concentration of 1000 nM and a concentration of 20 nM for each of the 19488 target specific direct primers.

Затем аликвоту продуктов STAR 2 амплифицировали посредством 12 циклов стандартной ПЦР с 1 мкМ специфичных в отношении маркеров прямых и штрихкодированных обратных праймеров для получения штрихкодированных библиотек для секвенирования. Аликвоту каждой библиотеки смешивали с библиотеками разных штрихкодов и очищали на спин-колонке.An aliquot of STAR 2 products was then amplified by 12 cycles of standard PCR with 1 μM specific for direct and barcoded reverse primer markers to obtain barcoded libraries for sequencing. An aliquot of each library was mixed with libraries of different barcodes and purified on a spin column.

Указанным образом использовали 19488 праймеров для однолуночных реакций; указанные праймеры были сконструированы для нацеливания на SNP, присутствующие на хромосомах 1, 2, 13, 18, 21, X и Y. Затем ампликоны секвенировали на секвенаторе ILLUMINA GAIIX. Для образцов плазмы на секвенаторе получали приблизительно 10000 000 считываний, при этом 9,4-9,6 млн считанных последовательностей картировались с геномом (94-96%), из которых 99,95% картировались с целевым SNP со средним значением глубины секвенирования 460 и медианой глубины секвенирования 350. Для сравнения, идеально равномерное распределение выглядело бы так: 10 млн считываний / 19488 целей = 513 считываний/цель. Для димеров праймеров 30000 считываний соответствовали секвенированным димерам праймеров (0,3% считываний, полученных на секвенаторе). Для геномных образцов 99,4-99,7% считанных последовательностей картировались с геномом, из них 99,99% картировались с целевым SNP, и 0,1% считываний, полученных на секвенаторе, соответствовали димерам праймеров.In this manner, 19488 primers were used for one-well reactions; these primers were designed to target SNPs present on chromosomes 1, 2, 13, 18, 21, X, and Y. The amplicons were then sequenced on an ILLUMINA GAIIX sequencer. For plasma samples, approximately 10,000,000 readings were obtained on a sequencer, with 9.4–9.6 million read sequences mapped to the genome (94–96%), of which 99.95% mapped to the target SNP with an average value of the sequencing depth of 460 and the median depth of sequencing is 350. For comparison, a perfectly uniform distribution would look like this: 10 million reads / 19488 targets = 513 reads / target. For primer dimers, 30,000 readings corresponded to sequenced primer dimers (0.3% of readings obtained on a sequencer). For genomic samples, 99.4-99.7% of the read sequences were mapped with the genome, of which 99.99% were mapped with the target SNP, and 0.1% of the readings obtained on the sequencer corresponded to primer dimers.

Для образцов плазмы при 10000000 считанных последовательностях, как правило, амплифицируются и секвенируются по меньшей мере 19350 из 19488 целевых SNP (99,3%). Для образцов ДНК с 2 млн считанных последовательностей, как правило, амплифицируются и секвенируются по меньшей мере 19000 целевых SNP (97,5%). Более низкие значения могут быть обусловлены шумовым сигналом, поскольку число считываний ниже и секвенатор пропускает часть амплифицированных продуктов. Если требуется, число считанных последовательностей может быть увеличено для увеличения количества целевых SNP, которые амплифицируются и секвенируются.For plasma samples at 10,000,000 read sequences, at least 19,350 of the 19,488 target SNPs (99.3%) are typically amplified and sequenced. For DNA samples with 2 million read sequences, at least 19,000 target SNPs (97.5%) are typically amplified and sequenced. Lower values may be due to a noise signal, since the number of readings is lower and the sequencer skips part of the amplified products. If required, the number of read sequences can be increased to increase the number of target SNPs that are amplified and sequenced.

Релевантные образцы геномной ДНК матери и отца амплифицировали с применением полувложенных 19 488 внешних прямых праймеров и маркированных обратных праймеров в концентрации 7,5 нМ с использованием STAR 1. Условия термоциклирования, состав STAR 2 и ПЦР штрихкодирования были такими же, как и для гемивложенного протокола.Relevant maternal and father genomic DNA samples were amplified using semi-nested 19,488 external forward primers and labeled reverse primers at a concentration of 7.5 nM using STAR 1. Thermal cycling conditions, the composition of STAR 2, and PCR bar coding were the same as for the hemato-embedded protocol.

Средняя доля плода в 407 образцах была определена как 14,8%. Данные секвенирования анализировали с применением способа на основе информатики, раскрытом в настоящем документе, и прогнозировали состояние плоидности по четырем хромосомах (13, 18, 21, Y) для плодов, ДНК которых присутствовала в 378 из 407 образцов материнской плазмы, и по хромосоме X в 375 из 407 образцов материнской плазмы. Признаки плоидности для всех 1887 хромосом в наборе определялись корректно, с достоверностью выше 90%. 1882 из 1887 прогнозов имели достоверность более 95%; и 1862 из 1887 прогнозов имели достоверность более 99%.The average fetal fraction in 407 samples was defined as 14.8%. Sequencing data was analyzed using the informatics-based method disclosed herein, and the ploidy state was predicted on four chromosomes (13, 18, 21, Y) for fetuses whose DNA was present in 378 of 407 samples of maternal plasma, and on chromosome X in 375 of 407 samples of maternal plasma. Signs of ploidy for all 1887 chromosomes in the set were determined correctly, with a confidence above 90%. 1882 out of 1887 forecasts had a reliability of more than 95%; and 1862 of 1887 forecasts had a confidence of more than 99%.

Проводили аналогичный контрольный эксперимент с применением воды вместо ДНК, экстрагированной из плазмы, в протоколе ПЦР плазмы. На основании шести таких экспериментальных испытаний, 5-6% считанных последовательностей соответствовали димерам праймеров. Другие считанные последовательности объяснялись фоновым шумом. Указанный эксперимент демонстрирует, что даже в отсутствие образца нуклеиновой кислоты с целевыми локусами для гибридизации праймеров (вместо гибридизации с другими праймерами и образования амплифицированных димеров праймеров) образуется незначительное количество димеров праймеров.A similar control experiment was carried out using water instead of DNA extracted from plasma in the plasma PCR protocol. Based on six such experimental tests, 5-6% of the read sequences corresponded to primer dimers. The other read sequences were due to background noise. This experiment demonstrates that even in the absence of a nucleic acid sample with target loci for primer hybridization (instead of hybridization with other primers and the formation of amplified primer dimers), a small number of primer dimers are formed.

Эксперимент 16Experiment 16

Следующий эксперимент иллюстрирует пример способа конструирования и отбора библиотеки праймеров, которая может использоваться в любом из способов мультиплексной ПЦР согласно настоящему изобретению. Цель заключается в отборе праймеров из исходной библиотеки кандидатных праймеров, которые можно использовать для одновременной амплификации значительного числа целевых локусов (или поднабора целевых локусов) в ходе одной реакции. Праймеры для исходного набора кандидатных целевых локусов не нужно конструировать или отбирать для каждого целевого локуса. Предпочтительно, праймеры конструируют и отбирают для значительной части наиболее желательных целевых локусов.The following experiment illustrates an example of a method for designing and selecting a primer library that can be used in any of the multiplex PCR methods of the present invention. The goal is to select primers from the source library of candidate primers that can be used to simultaneously amplify a significant number of target loci (or a subset of target loci) in a single reaction. Primers for the initial set of candidate target loci do not need to be designed or selected for each target locus. Preferably, the primers are designed and selected for a significant portion of the most desirable target loci.

Этап 1Stage 1

Набор кандидатных целевых локусов (таких как SNP) выбирали на основании общедоступной информация о требуемых параметрах целевых локусов, таких как частота SNP в целевой популяции или степень гетерозиготности SNP (интернет-адрес: ncbi.nlm.nih.gov/projects/SNP/; Sherry ST, Ward МН, Kholodov М, и др. dbSNP: the NCBI database of genetic variation. Nucleic Acids Res. 2001 Jan 1; 29 (1): 308-11; каждый из указанных источников включен полностью посредством ссылки). Для каждого кандидатного локуса конструировали один или несколько пар ПЦР-праймеров с применением программы Primer3 (интернет-адрес: primer3.sourceforge.net; Hbprimer3, версия 2.2.3, полностью включенный в настоящий документ посредством ссылки). Если осуществимых вариантов конструкции ПЦР-праймеров для конкретного локуса нет, указанный целевой локус исключали из дальнейшего рассмотрения.A set of candidate target loci (such as SNPs) was selected based on publicly available information about the required parameters of the target loci, such as the SNP frequency in the target population or the degree of heterozygosity of SNP (Internet address: ncbi.nlm.nih.gov/projects/SNP/; Sherry ST, Ward MH, Kholodov M, et al. DbSNP: the NCBI database of genetic variation. Nucleic Acids Res. 2001 Jan 1; 29 (1): 308-11; each of these sources is incorporated by reference in its entirety). For each candidate locus, one or more pairs of PCR primers were constructed using the Primer3 program (Internet address: primer3.sourceforge.net; Hbprimer3, version 2.2.3, fully incorporated herein by reference). If there are no feasible design variants of PCR primers for a particular locus, the indicated target locus was excluded from further consideration.

Если требуется, может быть рассчитана «оценка целевого локуса» (более высокая оценка является более благоприятной) для большей части или для всех целевых локусов, например, оценка целевых локусов, рассчитанная на основании средневзвешенного значения различных требуемых параметров целевых локусов. Указанным параметрам может быть присвоен разный вес на основании их важности для конкретного применения, предусматриваемого для праймеров. Примеры параметров включают степень гетерозиготности целевого локуса, распространенность заболевания, связанную с последовательностью (например, полиморфизмом) в целевом локусе, пенетрантность заболевания, связанную с последовательностью (например, полиморфизмом) в целевом локусе, специфичность кандидатного(ых) праймера(ов), используемого(ых) для амплификации целевого локуса, размер кандидатного(ых) праймера(ов), используемого(ых) для амплификации целевого локуса, и размер целевого ампликона.If required, a “target locus score” can be calculated (a higher score is more favorable) for most or all target loci, for example, a target locus score calculated based on the weighted average of the various required parameters of the target loci. The indicated parameters can be assigned different weights based on their importance for the particular application envisaged for the primers. Examples of parameters include the degree of heterozygosity of the target locus, the prevalence of the disease associated with the sequence (e.g. polymorphism) at the target locus, the penetrance of the disease associated with the sequence (e.g. polymorphism) at the target locus, the specificity of the candidate primer (s) used ( s) for amplification of the target locus, the size of the candidate primer (s) used (s) for amplification of the target locus, and the size of the target amplicon.

Этап 2Stage 2

Рассчитывали показатель термодинамического взаимодействия между всеми праймерами для всех остальных целевых локусов этапа 1 (см., например, источники: Allawi, Н.Т. & SantaLucia, J., Jr. (1998), "Thermodynamics of Internal C-T Mismatches in DNA", Nucleic Acids Res. 26, 2694-2701; Peyret, N., Seneviratne, P.A., Allawi, H.T. & SantaLucia, J., Jr. (1999), "Nearest-Neighbor Thermodynamics and NMR of DNA Sequences with Internal A-A, C-C, G-G, and T-T Mismatches", Biochemistry 38, 3468-3477; Allawi, H. T. & SantaLucia, J., Jr. (1998), "Nearest-Neighbor Thermodynamics of Internal A-C Mismatches in DNA: Sequence Dependence and pH Effects", Biochemistry 37, 9435-9444.; Allawi, H.T. & SantaLucia, J., Jr. (1998), "Nearest Neighbor Thermodynamic Parameters for Internal G-A Mismatches in DNA", Biochemistry 37, 2170-2179;; и Allawi, H.T. & SantaLucia, J., Jr. (1997), "Thermodynamics and NMR of Internal G-T Mismatches in DNA", Biochemistry 36, 10581-10594; MultiPLX 2.1 (Kaplinski L, Andreson R, Puurand T, Remm M. MultiPLX: automatic grouping and evaluation of PCR primers. Bioinformatics. 2005 Apr 15; 21 (8): 1701-2, каждый из которых полностью включен в настоящий документ посредством ссылки). Указанный этап приводит к получению двумерной матрицы показателей взаимодействия. Показатель взаимодействия предсказывает вероятность возникновения димеров праймеров, содержащих два взаимодействующих праймера. Указанный показатель (interactionscore) рассчитывали следующим образом:The indicator of thermodynamic interaction between all primers for all other target loci of stage 1 was calculated (see, for example, sources: Allawi, N.T. & SantaLucia, J., Jr. (1998), "Thermodynamics of Internal CT Mismatches in DNA", Nucleic Acids Res. 26, 2694-2701; Peyret, N., Seneviratne, PA, Allawi, HT & Santa Lucia, J., Jr. (1999), "Nearest-Neighbor Thermodynamics and NMR of DNA Sequences with Internal AA, CC, GG, and TT Mismatches ", Biochemistry 38, 3468-3477; Allawi, HT & SantaLucia, J., Jr. (1998)," Nearest-Neighbor Thermodynamics of Internal AC Mismatches in DNA: Sequence Dependence and pH Effects ", Biochemistry 37 , 9435-9444 .; Allawi, HT & SantaLucia, J., Jr. (1998), "Nearest Neighbor Thermodynamic Parameters for Internal GA Mismatches in DNA", Biochemistry 37, 2170-2179 ;; and Allawi, HT & SantaLucia, J ., Jr. (1997), "The rmodynamics and NMR of Internal G-T Mismatches in DNA ", Biochemistry 36, 10581-10594; MultiPLX 2.1 (Kaplinski L, Andreson R, Puurand T, Remm M. MultiPLX: automatic grouping and evaluation of PCR primers. Bioinformatics. 2005 Apr 15; 21 (8): 1701-2, each of which is fully incorporated herein by reference). The specified stage leads to a two-dimensional matrix of interaction indicators. The interaction index predicts the likelihood of primer dimers containing two interacting primers. The specified indicator (interactionscore) was calculated as follows:

interaction_score = max(- deltaG_2, 0,8*(- deltaG_l))interaction_score = max (- deltaG_2, 0.8 * (- deltaG_l))

гдеWhere

deltaG_2 = энергия Гиббса (энергия, необходимая для разрушения димера) для димера, удлиняемого при ПЦР с обоих концов, т.е. 3' - конец каждого праймера отжигается с другим праймером; иdeltaG_2 = Gibbs energy (energy necessary for the destruction of a dimer) for a dimer extended at PCR from both ends, i.e. 3 '- the end of each primer is annealed with another primer; and

deltaG_l = энергия Гиббса для димера, удлиняемого при ПЦР по меньшей мере с одного конца.deltaG_l = Gibbs energy for a dimer extended by PCR from at least one end.

Этап 3:Stage 3:

Затем для каждого целевого локуса, при существовании более чем одной конструкции пары праймеров, выбирали одну конструкцию с применением следующего способа:Then, for each target locus, if there is more than one design of a pair of primers, one design was selected using the following method:

1. Для каждой конструкции пары праймеров для локуса находили наихудшую (максимальную) оценку взаимодействия для двух праймеров в указанной конструкции и всех праймеров из всех конструкций для всех остальных целевых локусов.1. For each design, a pair of primers for the locus found the worst (maximum) interaction estimate for two primers in the specified design and all primers from all constructs for all other target loci.

2. Выбирали конструкцию с наилучшей (минимальной) из наихудших оценок взаимодействия.2. Selected the design with the best (minimum) of the worst estimates of interaction.

Этап 4Stage 4

Строили граф таким образом, чтобы каждый узел представлял один локус и соответствующую ему конструкцию пары праймеров (например, задача нахождения клики максимального размера). Между каждой парой узлов строили одну грань. Назначали вес для каждой грани, равный наихудшей (максимальной) оценке взаимодействия между праймерами, связанными с двумя узлами, соединенными гранью.The graph was constructed in such a way that each node represented one locus and the corresponding design of a pair of primers (for example, the task of finding a clique of maximum size). One face was built between each pair of nodes. We assigned weight for each facet equal to the worst (maximum) estimate of the interaction between the primers associated with two nodes connected by the facet.

Этап 5Stage 5

При необходимости для каждой пары конструкций для двух разных целевых локусов, где один праймер из одной конструкции и один праймер из другой конструкции отжигаются с перекрывающимися целевыми областями, добавляли дополнительную грань между узлами для указанных двух конструкций. Вес указанных граней приравнивали к максимальному весу, назначенному на этапе 4. Соответственно, Этап 5 предотвращает присутствие в библиотеке праймеров, которые будут отжигаются с перекрывающимися целевыми областями, и, соответственно, мешать друг другу, во время реакции мультиплексной ПЦР.If necessary, for each pair of structures for two different target loci, where one primer from one design and one primer from another design are annealed with overlapping target areas, an additional face between the nodes for the two structures was added. The weight of these faces was equated to the maximum weight assigned in step 4. Accordingly, Step 5 prevents the presence of primers in the library that will be annealed with overlapping target areas and, accordingly, interfere with each other during the multiplex PCR reaction.

Этап 6Stage 6

Стартовый порог для оценки взаимодействия рассчитывали следующим образом: weight_threshold = max(edge weight)-0,05*(max(edge_weight)-min(edge_weight)) гдеThe starting threshold for evaluating the interaction was calculated as follows: weight_threshold = max (edge weight) -0.05 * (max (edge_weight) -min (edge_weight)) where

max(edge_weight) представляет собой максимальный вес грани на графе; иmax (edge_weight) represents the maximum weight of a face on a graph; and

min(edge_weight) представляет собой минимальный вес грани на графе.min (edge_weight) represents the minimum weight of a face on a graph.

Стартовые границы для порога устанавливали следующим образом:Starting boundaries for the threshold were set as follows:

max_weight_threshold = max(edge_weight)max_weight_threshold = max (edge_weight)

min_weight_threshold = min(edge_weight)min_weight_threshold = min (edge_weight)

Этап 7Stage 7

Строили новый граф, состоящий из того же набора узлов, что и граф на этапе 5, включающий только грани, вес который превышал показатель weight_threshold. Соответственно, на этом этапе игнорируются взаимодействия с оценками, равными или меньшими, чем weight_threshold.A new graph was constructed, consisting of the same set of nodes as the graph in step 5, including only faces whose weight exceeded the weight_threshold indicator. Accordingly, at this stage, interactions with estimates equal to or less than weight_threshold are ignored.

Этап 8Stage 8

Узлы (и все грани, соединенные с удаленными узлами) удаляли из графа этапа 7, до удаления всех граней. Узлы удаляли с многократным применением следующей процедуры:The nodes (and all faces connected to the remote nodes) were removed from the graph in step 7 until all faces were deleted. The nodes were removed with repeated use of the following procedure:

1. Находили узел максимального порядка (с максимальным числом граней). При наличии более чем одного такого узла выбор делали произвольно.1. Found a node of maximum order (with a maximum number of faces). In the presence of more than one such node, the choice was made arbitrarily.

2. Определяли набор узлов, состоящий из выбранного описанным выше образом узла и всех узлов, соединенных с ним, но исключая любые узлы, которые имеют меньший порядок, чем узел, выбранный описанным выше образом.2. A set of nodes was determined, consisting of a node selected in the manner described above and all nodes connected to it, but excluding any nodes that are of a lower order than a node selected in the manner described above.

3. Выбирали из набора узел, соответствующий самой низкой оценке для целевых локусов (более низкая оценка соответствует менее желательной) из полученных на этапе 1. Удаляли этот узел из графа.3. A node was selected from the set that corresponded to the lowest score for the target loci (a lower score corresponds to a less desirable one) from those obtained in step 1. This node was removed from the graph.

Этап 9Stage 9

Если число узлов, остающихся на графе, соответствует требуемому числу целевых локусов для пула мультиплексной ПЦР (в пределах приемлемого допуска), реализацию способа продолжали на этапе 10.If the number of nodes remaining on the graph corresponds to the required number of target loci for the pool of multiplex PCR (within an acceptable tolerance), the implementation of the method continued at step 10.

Если на графе оставалось слишком много или слишком мало узлов, выполняли бинарный поиск для определения того, какие пороговые значения будут давать требуемое число узлов, остающихся на графах. Если на графе имелось слишком много узлов, границы порогового веса (weight threshold) корректировали следующим образом:If there were too many or too few nodes on the graph, a binary search was performed to determine which threshold values would yield the required number of nodes remaining on the graphs. If there were too many nodes on the graph, the borders of the weight threshold were adjusted as follows:

max_weight_threshold = weightthresholdmax_weight_threshold = weightthreshold

Или же (если на графе слишком мало узлов) границы порогового веса корректировали следующим образом:Or (if there are too few nodes on the graph), the threshold weight boundaries were adjusted as follows:

minweightthreshold = weightthreshold Затем порог веса корректировали следующим образом: weightthreshold = (maxweightthreshold+min_weight_threshold) / 2 Повторяли этапы 7-9.minweightthreshold = weightthreshold Then the weight threshold was adjusted as follows: weightthreshold = (maxweightthreshold + min_weight_threshold) / 2 Steps 7-9 were repeated.

Этап 10Stage 10

Конструкции пар праймеров, связанных с узлами, остающимися на графе, отбирали для библиотеки праймеров. Указанная библиотека праймеров может использоваться в любых способах согласно настоящему изобретению.Designs of primer pairs associated with the nodes remaining on the graph were selected for the primer library. The specified library of primers can be used in any methods according to the present invention.

Если требуется, указанный способ конструирования и отбора праймеров можно применять для библиотек праймеров, где для амплификации целевого локуса используют только один праймер (а не пары праймеров). В этом случае узел представляет один праймер на один целевой локус (а не пару праймеров).If required, the indicated method for designing and selecting primers can be used for primer libraries where only one primer is used for amplification of the target locus (and not pairs of primers). In this case, the node represents one primer per target locus (rather than a pair of primers).

Эксперимент 17Experiment 17

На фиг. 27 представлено графическое сравнение двух библиотек праймеров, сконструированных с применением способов согласно настоящему изобретению. На указанном графике приведено число локусов с частотами конкретных минорных аллелей, на которые нацелен каждый праймер библиотеки. Во время отбора «нового пула» библиотеки сохранялось больше праймеров. Указанный библиотека позволяет амплифицировать большее число целевые локусы, в частности, целевых локусов с относительно большими частотами минорных аллелей (которые являются более информативными аллелями для некоторых способов согласно настоящему изобретению, таких как обнаружение хромосомных аномалий плода).In FIG. 27 is a graphical comparison of two primer libraries constructed using the methods of the present invention. The graph shows the number of loci with frequencies of specific minor alleles that each library primer is aimed at. During the selection of the “new pool” of the library, more primers were retained. This library allows amplification of a larger number of target loci, in particular, target loci with relatively high frequencies of minor alleles (which are more informative alleles for some methods according to the present invention, such as detection of fetal chromosomal abnormalities).

Указанные библиотеки праймеров использовали в следующем способе мультиплексной ПЦР. Кровь (20-40 мл) от каждого субъекта собирали в две пробирки для ДНК 4 CELL-FREEтм (Streck). Плазму (минимум 7 мл) выделяли из каждого образца с применением протокола двойного центрифугирования при 2000 g на протяжении 20 минут, затем при 3220 g на протяжении 30 минут, с извлечением супернатанта после первого цикла центрифугирования. cfDNA выделяли из 7-20 мл плазмы с применением набора от QIAGEN QIAamp Circulating Nucleic Acid и элюировали в 45 мкл ТЭ-буфере. Чистую материнскую геномную ДНК выделяли из лейкоцитарной пленки, полученной после первого центрифугирования; чистую отцовскую геномную ДНК получали аналогичным образом из образца крови, слюны или буккального соскоба.These primer libraries were used in the following multiplex PCR method. Blood (20-40 ml) from each subject was collected in two 4 CELL-FREE TM DNA tubes (Streck). Plasma (at least 7 ml) was isolated from each sample using a double centrifugation protocol at 2000 g for 20 minutes, then at 3220 g for 30 minutes, with the supernatant removed after the first centrifugation cycle. cfDNA was isolated from 7-20 ml of plasma using a QIAGEN QIAamp Circulating Nucleic Acid kit and eluted in 45 μl of TE buffer. Pure maternal genomic DNA was isolated from a white blood cell film obtained after the first centrifugation; pure paternal genomic DNA was obtained in a similar manner from a blood sample, saliva or buccal scraping.

Образцы материнской cfDNA, материнской геномной ДНК и отцовской геномной ДНК преамплифицировали в течение 15 циклов с применением 11000 специфичных в отношении цели анализов; переносили аликвоту во вторую реакцию ПЦР из 15 циклов с применением вложенных праймеров. Наконец, получали образцы для секвенирования, добавляя штрихкодированные маркеры в третьем включающем 12 циклов раунде ПЦР. Соответственно, амплифицировали 11000 целей в ходе одной реакции; указанные цели включали SNP, присутствующие на хромосомах 13, 18, 21, X и Y. Затем ампликоны секвенировали с применением секвенатора ILLUMINA GAIIx или HISEQ. Родительские генотипы секвенировали с меньшей глубиной секвенирования (-20% от глубины секвенирования cfDNA), чем плодные генотипы.Samples of maternal cfDNA, maternal genomic DNA and paternal genomic DNA were preamplified for 15 cycles using 11,000 target-specific assays; transferred an aliquot to the second PCR reaction of 15 cycles using nested primers. Finally, samples were obtained for sequencing by adding barcoded markers in the third 12-round PCR round. Accordingly, 11,000 targets were amplified in a single reaction; these targets included SNPs present on chromosomes 13, 18, 21, X, and Y. The amplicons were then sequenced using an ILLUMINA GAIIx or HISEQ sequencer. Parent genotypes were sequenced with a lower sequencing depth (-20% of the cfDNA sequencing depth) than the fetal genotypes.

Эксперимент 18Experiment 18

Если требуется, размер и количество продуктов ПЦР могут быть проанализированы с применением стандартных способов, например, на анализаторе Agilent Technologies 2100 Bioanalyzer (фиг. 28А-М). Например, в 2400-плексных (фиг. 28B-28G) и 19 488-плексных экспериментах (фиг. 28Н-28М) использовали способы прямой ПЦР без вложенных реакций, описанные в настоящем документе. Количество праймера составляло 10 нМ для фиг. 28В-28D и 28H-28J. Количество праймера составляло 1 нМ для фиг. 28E-28G и 28К-28М. Количество вводимой ДНК составляло 24 нг для фиг. 28В, 28Е, 28Н и 28К; 80 нг для фиг. 28С, 28F, 281 и 28L; и 250 нг для фиг. 28D, 28G, 28J и 28М. Большее количество вводимой ДНК приводило к большей доле требуемого продукта размером 180 п.о. Пик, соответствующий 140 п.о., представляет собой продукт димеров праймеров.If required, the size and quantity of PCR products can be analyzed using standard methods, for example, an Agilent Technologies 2100 Bioanalyzer analyzer (Fig. 28A-M). For example, in 2400 plex (FIG. 28B-28G) and 19 488 plex experiments (FIG. 28H-28M), direct PCR methods without nested reactions described herein were used. The amount of primer was 10 nM for FIG. 28B-28D and 28H-28J. The amount of primer was 1 nM for FIG. 28E-28G and 28K-28M. The amount of DNA introduced was 24 ng for FIG. 28B, 28E, 28H and 28K; 80 ng for FIG. 28C, 28F, 281 and 28L; and 250 ng for FIG. 28D, 28G, 28J and 28M. A larger amount of DNA introduced resulted in a larger fraction of the desired 180 bp product. The peak corresponding to 140 bp is the product of primer dimers.

Эксперимент 19Experiment 19

Исследование для подтверждения концепции продемонстрировало обнаружение Т13, Т18, Т21, 45,Х и 47,XXY с одинаково высокой точностью во всех хромосомах.A study to confirm the concept demonstrated the detection of T13, T18, T21, 45, X and 47, XXY with equally high accuracy on all chromosomes.

ПациентыThe patients

Ожидающие ребенка пары регистрировались в определенных пренатальных центрах согласно протоколам, одобренным экспертным советом организации в соответствии с местным законодательством. Критерии включения предусматривали: возраст по меньшей мере 18 лет, гестационный срок по меньшей мере девять недель, одноплодную беременность и подписанное информированное согласие. У беременных матерей брали образцы крови; у отцов брали образцы крови или буккальные образцы. Образцы от 2 беременностей с Т13 (синдром Патау), 2 с Т18 (синдром Эдвардса), 2 с Т21 (синдром Дауна), 2 с 45,Х, 2 с 47,XXY, и 90 нормальных беременностей выбирали перед тестированием из когорты -500 женщин для исследования того, какие хромосомные аномалии выявляет способ. Нормальный плодный кариотип подтверждали с помощью молекулярного кариотипирования для тех образцов, для которых была доступна ткань ребенка после рождения. Эуплоидные образцы получали перед инвазивным тестированием от женщин с низкой степенью риска. Анеуплоидные образцы получали по меньшей мере через 7 дней после инвазивного тестирования и анеуплоидию подтверждали с применением цитогенетического кариотипирования или флуоресцентной гибридизации in situ, проводимых независимыми лабораториями.Couples expecting a baby are registered at specific prenatal centers according to protocols approved by the organization’s expert council in accordance with local laws. Inclusion criteria included: at least 18 years of age, a gestational age of at least nine weeks, a singleton pregnancy, and signed informed consent. Blood samples were taken from pregnant mothers; blood samples or buccal samples were taken from fathers. Samples from 2 pregnancies with T13 (Patau syndrome), 2 with T18 (Edwards syndrome), 2 with T21 (Down syndrome), 2 with 45, X, 2 with 47, XXY, and 90 normal pregnancies were selected before testing from the -500 cohort women to study which chromosomal abnormalities the method reveals. Normal fetal karyotype was confirmed by molecular karyotyping for those samples for which baby tissue was available after birth. Euploid samples were obtained before invasive testing from low-risk women. Aneuploid samples were obtained at least 7 days after invasive testing and aneuploidy was confirmed using cytogenetic karyotyping or in situ fluorescence hybridization performed by independent laboratories.

Подготовка образцов и мультиплексная ПЦРSample preparation and multiplex PCR

Для получения данных, представленных на фиг. 30А-Е, 30G, 30Н, и 31A-31G, подготовку образцов и 19488-плексную ПЦР выполняли согласно описанию для эксперимента 15. Для получения данных, представленных на фиг. 30F, подготовку образцов и 11000-плексную ПЦР выполняли согласно описанию для эксперимента 17.To obtain the data presented in FIG. 30A-E, 30G, 30H, and 31A-31G, sample preparation and 19488-plex PCR were performed as described for experiment 15. To obtain the data shown in FIG. 30F, sample preparation and 11000-plex PCR were performed as described for experiment 17.

Методика и анализ данныхMethodology and data analysis

Указанный алгоритм учитывает родительские генотипы и данные о частоте кроссинговеров (например, данные из базы НарМар) для расчета ожидаемых аллельных распределений для 19 488 полиморфных локусов для очень значительного числа возможных состояний плоидности плода, и при различных долях плодной cfDNA (фиг. 29А-29С). В отличие от способов, основанных на аллельных отношениях, он также учитывает дисбаланс сцепления, и использует негауссовы модели данных для описания ожидаемого распределения измерений аллелей в SNP с учетом наблюдаемых характеристик платформы и смещения амплификации. Затем он сравнивает различные предсказанные аллельные распределения с фактическими аллельными распределениями, измеренными в образце cfDNA (фиг. 29С) и вычисляет вероятность каждой гипотезы (моносомии, дисомии или трисомии, для которых имеются многочисленные гипотезы, основанные на различных потенциальных кроссинговерах) на основе данных секвенирования. Указанный алгоритм суммирует вероятности каждой из индивидуальных гипотез моносомии, дисомии или трисомии (фиг. 29D) и прогнозирует состояние плоидности с максимальной общей вероятностью в соответствии с числом копий и долей плода (фиг. 29Е). Хотя кариотипы образцов не маскировали от лабораторных исследователей, алгоритм прогнозировал состояния плоидности без вмешательства человека и по сути был маскирован.This algorithm takes into account parental genotypes and data on the frequency of crossing-over (for example, data from the NarMar database) to calculate the expected allelic distributions for 19,488 polymorphic loci for a very significant number of possible fetal ploidy states, and for different fractions of fetal cfDNA (Fig. 29A-29C) . Unlike methods based on allelic relationships, it also takes into account linkage imbalance, and uses non-Gaussian data models to describe the expected distribution of allele measurements in the SNP, taking into account observed platform characteristics and amplification bias. He then compares the various predicted allelic distributions with the actual allelic distributions measured in the cfDNA sample (Fig. 29C) and calculates the probability of each hypothesis (monosomy, dysomy or trisomy, for which there are numerous hypotheses based on different potential crossovers) based on sequencing data. The specified algorithm summarizes the probabilities of each of the individual hypotheses of monosomy, dysomy or trisomy (Fig. 29D) and predicts the state of ploidy with the maximum overall probability in accordance with the number of copies and fractions of the fetus (Fig. 29E). Although the karyotypes of the samples were not masked by laboratory researchers, the algorithm predicted ploidy states without human intervention and was essentially masked.

Интерпретация данныхData interpretation

Графические представления полученных данныхGraphical representations of received data

Для определения состояния плоидности представляющих интерес хромосом указанный алгоритм учитывает распределение считываний последовательностей из каждых двух возможных аллелей в 3000-4000 SNP на хромосому. Важно отметить, что указанный алгоритм осуществляет прогнозирование плоидности с использованием подхода, который сам по себе не обеспечивает визуализацию. Соответственно, в иллюстративных целях данные представлены в настоящем документе упрощенно, в виде отношений двух наиболее вероятных аллелей, названных А и В, чтобы можно было более легко визуализировать релевантные тренды. Указанное упрощенное представление не учитывает некоторые из особенностей алгоритма. Например, два важных аспекта указанного алгоритма, которые невозможно проиллюстрировать с применением способа визуализации, демонстрирующего аллельные отношения, заключаются в: 1) способности использовать дисбаланс сцепления, т.е. влияние, которое измерение в одном SNP оказывает на вероятную идентичность соседнего SNP, и 2) применение негауссовых моделей данных, описывающих ожидаемое распределение измерений аллелей в SNP с учетом характеристик платформы и смещения амплификации. Также отметим, что указанный алгоритм учитывает только два наиболее распространенных аллеля для каждого SNP, игнорируя другие возможные аллели.To determine the ploidy state of the chromosomes of interest, this algorithm takes into account the distribution of sequence readings from every two possible alleles of 3000-4000 SNP per chromosome. It is important to note that this algorithm predicts ploidy using an approach that by itself does not provide visualization. Accordingly, for illustrative purposes, the data presented in this document is simplified, in the form of the relations of the two most likely alleles, called A and B, so that relevant trends can be more easily visualized. The specified simplified representation does not take into account some of the features of the algorithm. For example, two important aspects of this algorithm, which cannot be illustrated using a visualization method that demonstrates allelic relationships, are: 1) the ability to use linkage imbalance, i.e. the effect that a measurement in one SNP has on the likely identity of a neighboring SNP, and 2) the use of non-Gaussian data models describing the expected distribution of allele measurements in the SNP, taking into account platform characteristics and amplification bias. Also note that this algorithm takes into account only the two most common alleles for each SNP, ignoring the other possible alleles.

Графические представления на фиг. 30А-30Н включают образцы, в которых присутствует 2, 1 или 3 плодных хромосомы. Как правило, это указывает на эуплоидность (фиг. 30А-30С). моносомию (фиг. 30D) и трисомию (фиг. 30Е-30Н), соответственно. На всех графиках каждая зона представляет один SNP, при этом целевые SNP нанесены на график последовательно слева направо для одной хромосомы вдоль горизонтальных осей. Вертикальные оси отображают число считываний аллеля А как доли от общего числа считываний для обоих аллелей А и В для указанного SNP. Отметим, что измерения проводятся на выделенной из материнской крови тотальной cfDNA, и указанная cfDNA включает как материнскую, так и плодную cfDNA; соответственно, каждая зона представляет комбинацию вклада плодной и материнской ДНК для этого SNP. Таким образом, увеличение доли материнской cfDNA от 0% до 100% будет постепенно сдвигать некоторые зоны вверх или вниз на графиках, в зависимости от материнского и плодного генотипов. Это более подробно описывается ниже с использованием соответствующих графиков.The graphical representations of FIG. 30A-30H include samples in which 2, 1 or 3 fetal chromosomes are present. Typically, this indicates euploidy (Fig. 30A-30C). monosomy (Fig. 30D) and trisomy (Fig. 30E-30H), respectively. In all plots, each zone represents one SNP, while the target SNPs are plotted sequentially from left to right for one chromosome along the horizontal axes. The vertical axes represent the number of readings of allele A as a fraction of the total number of readings for both alleles A and B for the indicated SNP. Note that measurements are made on total cfDNA isolated from maternal blood, and the indicated cfDNA includes both maternal and fetal cfDNA; accordingly, each zone represents a combination of the contribution of fetal and maternal DNA for this SNP. Thus, an increase in the proportion of maternal cfDNA from 0% to 100% will gradually shift some zones up or down in the graphs, depending on the maternal and fetal genotypes. This is described in more detail below using appropriate graphs.

Если требуется облегчить визуализацию, зоны могут быть маркированы цветом в соответствии с материнским генотипом, так как материнский генотип вносит больший вклад в локализацию каждой зоны, и большинство трисомий наследуется от матери; указанная маркировка облегчает визуализацию состояний плоидности. В частности, SNP, в которых материнский генотип соответствует АА, могут быть маркированы красным, те, для которых материнский генотип соответствует АВ, могут быть маркированы зеленым, и те, для которых материнский генотип соответствует ВВ, могут быть маркированы голубым.If visualization is to be facilitated, the zones can be color coded according to the maternal genotype, since the maternal genotype contributes more to the localization of each zone, and most trisomies are inherited from the mother; this marking facilitates the visualization of ploidy states. In particular, SNPs in which the maternal genotype corresponds to AA can be marked in red, those for which the maternal genotype corresponds to AB can be marked in green, and those for which the maternal genotype corresponds to BB can be marked in blue.

Во всех случаях обнаруживается, что SNP, которые гомозиготны по аллелю А (АА) и у матери, и у плода, жестко связаны с верхним пределом графиков, так как доля считываний аллеля А значительна ввиду того, что аллели В должны отсутствовать. И напротив, обнаруживается, что SNP, гомозиготные по аллелю В и у матери, и у плода жестко связаны с нижним пределом графиков, так как доля считываний аллеля А невелика ввиду того, что должны присутствовать только аллели В. Зоны, которые жестко не связаны с верхними и нижними пределами графиков, представляют SNP, по которым мать, плод или оба они гетерозиготны; указанные зоны подходят для идентификации плоидности плода, однако также могут быть информативными для определения наследования от отца/матери. Указанные зоны разделяются на основании как материнского и плодного генотипов, так и доли плода, и, таким образом, точное расположение каждой индивидуальной зоны вдоль оси У зависит как от стехиометрии, так и от доли плода. Например, локусы, по которым мать является АА и плод является АВ, предположительно будут характеризоваться разным уровнем считываний для аллеля А, и, соответственно, разным расположением вдоль оси У, в зависимости от доли плода.In all cases, it is found that SNPs that are homozygous for the allele A (AA) in both the mother and the fetus are tightly connected with the upper limit of the graphs, since the proportion of readings of the allele A is significant due to the fact that the B alleles are absent. Conversely, it is found that SNPs that are homozygous for the B allele in both the mother and the fetus are tightly connected with the lower limit of the graphs, since the proportion of readings of the A allele is small due to the fact that only B alleles should be present. Zones that are not strictly connected to the upper and lower limits of the graphs represent SNPs according to which the mother, fetus, or both are heterozygous; these zones are suitable for identifying the ploidy of the fetus, but can also be informative for determining inheritance from the father / mother. These zones are separated on the basis of both the maternal and fetal genotypes and the fetal fraction, and thus the exact location of each individual zone along the Y axis depends on both stoichiometry and the fetal fraction. For example, the loci at which the mother is AA and the fetus is AB are expected to have a different reading level for the A allele, and, accordingly, different locations along the Y axis, depending on the proportion of the fetus.

Присутствует две хромосомыTwo chromosomes are present

На фиг. 30А-30С представлены данные, указывающие на присутствие двух хромосом, если образец полностью материнский (плодная cfDNA отсутствует, фиг. 30А), содержит умеренную долю плодной cfDNA (фиг. 30В) или содержит значительную долю плодной cfDNA (фиг. 30С).In FIG. 30A-30C presents data indicating the presence of two chromosomes if the sample is completely maternal (fetal cfDNA is absent, Fig. 30A), contains a moderate proportion of fetal cfDNA (Fig. 30B) or contains a significant proportion of fetal cfDNA (Fig. 30C).

На фиг. 30А представлены данные, полученные из cfDNA, выделенной из крови женщины, которая не беременна. Если плодная cfDNA отсутствует и образец содержит только материнскую cfDNA, графики представляют исключительно эуплоидный материнский генотип; отличительный паттерн включает «кластеры» зон: красный кластер, жестко связанный с верхней частью графика (SNP, где материнский генотип соответствует АА), голубой кластер, жестко связанный с нижней частью графика (SNP, где материнский генотип соответствует ВВ), и один центральный зеленый кластер (SNP, где материнский генотип соответствует АВ) (цвет не показан).In FIG. 30A presents data obtained from cfDNA isolated from the blood of a woman who is not pregnant. If fetal cfDNA is absent and the sample contains only maternal cfDNA, the plots represent the exclusively euploid maternal genotype; the distinctive pattern includes “clusters” of zones: a red cluster that is rigidly connected to the upper part of the graph (SNP, where the maternal genotype corresponds to AA), a blue cluster, which is rigidly connected to the lower part of the graph (SNP, where the maternal genotype corresponds to BB), and one central green cluster (SNP, where the maternal genotype corresponds to AB) (color not shown).

При наличии плодной cfDNA расположение зон сдвигается таким образом, что кластеры разделяются на разрозненные «полосы». Отметим, что для образцов с долей плода, составляющей 0%, сгруппированные зоны называют «кластерами» (как на фиг. 30А), а для всех образцов с долей плода >0%, сгруппированные зоны называют «полосами» (как на фиг. 30B-30J). Если доля плода достаточно высока, указанные разрозненные полосы хорошо видны. В частности, на фиг. 30В и 30С продемонстрирован характерный паттерн, связанный с двумя плодными хромосомами, присутствующими при умеренной и высокой долях плода, соответственно. Указанный паттерн включает три центральные зеленые полосы, которые соответствуют SNP, гетерозиготным у матери, и две «периферические» полосы, каждая как в верхней (красный), та и в нижней части (голубой) графиков, которые соответствуют SNP, гомозиготным у матери (цвет не показан).In the presence of fetal cfDNA, the arrangement of zones is shifted in such a way that the clusters are divided into disparate “bands”. Note that for samples with a fetal fraction of 0%, grouped zones are called “clusters” (as in FIG. 30A), and for all samples with a fetal fraction of> 0%, grouped zones are called “bands” (as in FIG. 30B -30J). If the proportion of the fetus is high enough, these scattered stripes are clearly visible. In particular, in FIG. 30B and 30C demonstrate a characteristic pattern associated with two fetal chromosomes present at moderate and high fetal lobes, respectively. The indicated pattern includes three central green bands that correspond to maternal SNPs heterozygous, and two “peripheral” bands, each in the upper (red) and lower (blue) plots, which correspond to maternal SNP homozygous (color not shown).

На фиг. 30В представлены данные, полученные из cfDNA, выделенной из образца плазмы от женщины, вынашивающей эуплоидный плод, с долей плодной cfDNA 12%. В этом случае кластеры зон, жестко связанных с верхней частью и нижней частью графика, разделяются на две разрозненные полосы каждая: одну красную и одну голубую внешние периферические полосы, которые остается жестко связанный с верхним или нижним пределом графиков, и одну красную и одну голубую внутренние периферические полосы, которая отделена от пределов графиков (цвет не показан). Указанные внутренние периферические полосы, сосредоточенные вокруг 0,92 и 0,08, представляют SNP, по которым материнский генотип соответствует АА и плодный генотип соответствует АВ (маркированы красным), и SNP, по которым материнский генотип соответствует ВВ и плодный генотип соответствует АВ (маркированы голубым), соответственно. Центральный кластер зеленой зоны расширяется, но при указанной доле плода разделение на отдельные полосы не является легкозаметным.In FIG. 30B presents data obtained from cfDNA isolated from a plasma sample from a woman bearing an euploid fetus with a fetal fraction of cfDNA of 12%. In this case, the clusters of zones rigidly connected with the upper part and the lower part of the graph are divided into two separate strips each: one red and one blue outer peripheral strip, which remains rigidly connected with the upper or lower limit of the graphs, and one red and one blue inner peripheral strip, which is separated from the limits of the graphs (color not shown). The indicated inner peripheral bands centered around 0.92 and 0.08 represent SNPs according to which the maternal genotype corresponds to AA and the fetal genotype corresponds to AB (marked in red), and SNPs according to which the maternal genotype corresponds to BB and the fetal genotype corresponds to AB (marked blue), respectively. The central cluster of the green zone expands, but with a specified proportion of the fetus, separation into separate bands is not easily noticeable.

При высокой доле плодной cfDNA типичный паттерн, который указывает на присутствие двух хромосом (трио зеленых полос, а также две красные и две голубые периферические полосы), очевидно выражен (цвет не показан). На фиг. 30С представлены данные, полученные из образца плазмы женщины, вынашивающей эуплоидный плод, с долей плодной cfDNA, составляющей 26%. В этом случае периферические полосы разделены таким образом, что внутренняя полоса сдвинута к центру графика из-за измененных уровней аллелей В в результате увеличения доли плодной cfDNA. Важно, что при более высоких долях плода разделение центрального зеленого кластера на три отдельных полосы очевидно выражено. Указанное центральное трио полос, в этом случае группирующихся вокруг 0,37, 0,50 и 0,63, соответствует тем SNP, для которых материнский генотип соответствует АВ, а плодный генотип соответствует АА (верхняя часть), АВ (середина) и ВВ (нижняя часть).With a high proportion of fetal cfDNA, a typical pattern that indicates the presence of two chromosomes (a trio of green bands, as well as two red and two blue peripheral bands) is clearly pronounced (color not shown). In FIG. 30C presents data obtained from a plasma sample of a woman bearing an euploid fetus, with a fraction of fetal cfDNA of 26%. In this case, the peripheral bands are divided so that the inner band is shifted to the center of the graph due to altered levels of B alleles as a result of an increase in the proportion of fetal cfDNA. It is important that at higher fetal lobes, the separation of the central green cluster into three separate bands is obviously pronounced. The indicated central trio of bands, in this case grouping around 0.37, 0.50 and 0.63, corresponds to those SNPs for which the maternal genotype corresponds to AB and the fetal genotype corresponds to AA (upper part), AB (middle) and BB ( Bottom part).

Указанные отличительные паттерны, а именно, три зеленых полосы и 4 периферические полосы (две красных и две голубых), указывают на присутствие двух хромосом, как при аутосомной эуплоидности, или Х-хромосомы у плода женского пола (XX).These distinctive patterns, namely, three green bands and 4 peripheral bands (two red and two blue), indicate the presence of two chromosomes, as in autosomal euploidy, or the X chromosome in a female fetus (XX).

Присутствует одна хромосомаOne chromosome is present

Если плод наследует единственную хромосому, и, соответственно, только один аллель, гетерозиготность для указанного плода невозможна. Таким образом, единственно возможная идентичность плодных SNP соответствует А или В. Соответственно, унаследованным от матери моносомным хромосомам свойственен характерный паттерн из двух центральных зеленых полос, которые представляют SNP, по которым мать гетерозиготна, и только по одной периферической красной и голубой полосе, которые представляют SNP, по которым мать гомозиготна, и которые остаются жестко связанными с верхним и нижним пределами графиков (1 и 0), соответственно (фиг. 30D) (цвет не показан). Отметим отсутствие внутренних периферических полос.Указанный паттерн указывает на присутствие одной хромосомы, как при унаследованной от матери аутосомной моносомии, или Х-хромосомы у плода мужского пола (XY).If the fetus inherits a single chromosome, and, accordingly, only one allele, heterozygosity for the indicated fetus is impossible. Thus, the only possible identity of the fetal SNP corresponds to A or B. Accordingly, monosomal chromosomes inherited from the mother have a characteristic pattern of two central green bands, which represent SNPs along which the mother is heterozygous, and only one peripheral red and blue band, which represent SNPs, according to which the mother is homozygous, and which remain rigidly connected with the upper and lower limits of the graphs (1 and 0), respectively (Fig. 30D) (color not shown). Note the absence of internal peripheral bands. The indicated pattern indicates the presence of one chromosome, as in the case of an autosomal monosomy inherited from the mother, or the X chromosome in the male fetus (XY).

Присутствует три хромосомыThree chromosomes are present

Имеется три характерных паттерна трисомных хромосом. Первый паттерн указывает на унаследованную от матери мейотическую трисомию, мейотическую ошибку, при которой плод наследует две гомологичные неидентичные хромосомы от матери (фиг. 30Е); указанный паттерн включает две центральные зеленые полосы и по две периферические красные и голубые полосы (цвет не показан). Второй паттерн указывает на унаследованную от отца мейотическую трисомию, при которой плод наследует две гомологичные неидентичные хромосомы от отца (фиг. 30Р); указанный паттерн включает 4 центральных зеленых полосы и по три периферических красных и голубых полосы (цвет не показан). Третий паттерн указывает либо на унаследованную от матери (фиг. 30С), либо унаследованную от отца (фиг. 30Н) митотическую трисомию, митотическую ошибку, при которой плод наследует две идентичные хромосомы либо от матери, либо от отца; указанный паттерн включает 4 центральные зеленые полосы и по две периферических красных и голубых полосы. Унаследованные от матери и отца митотические трисомии можно различить по расположению фланкирующих красных и голубых полос, так как красная и голубая внутренние периферические полосы (не связанные с пределами графиков) располагаются ближе к центру при унаследованной от отца митотической трисомии (цвет не показан). Это обусловлено отцовским вкладом идентичных хромосом. Отметим, что полученные нами ранее результаты указывают на то, что на стадии бластомера 66,7% унаследованных от матери трисомий являются мейотическими, и только 10,2% трисомий унаследованы от отца.There are three characteristic patterns of trisomal chromosomes. The first pattern indicates a meiotic trisomy inherited from the mother, a meiotic error in which the fetus inherits two homologous non-identical chromosomes from the mother (Fig. 30E); this pattern includes two central green stripes and two peripheral red and blue stripes (color not shown). The second pattern indicates a meiotic trisomy inherited from the father, in which the fetus inherits two homologous non-identical chromosomes from the father (Fig. 30P); this pattern includes 4 central green stripes and three peripheral red and blue stripes (color not shown). The third pattern indicates either a mitotic trisomy inherited from the mother (Fig. 30C) or inherited from the father (Fig. 30H), a mitotic error in which the fetus inherits two identical chromosomes either from the mother or from the father; this pattern includes 4 central green stripes and two peripheral red and blue stripes. Mitotic trisomy inherited from mother and father can be distinguished by the location of the flanking red and blue stripes, since the red and blue inner peripheral stripes (not related to the graph limits) are located closer to the center with mitotic trisomy inherited from the father (color not shown). This is due to the paternal contribution of identical chromosomes. Note that the results we obtained earlier indicate that at the blastomere stage, 66.7% of trisomies inherited from the mother are meiotic, and only 10.2% of trisomies are inherited from the father.

Для Y-хромосомы способ PS предполагает наличие множества разных гипотез: присутствие 0, 1 или 2 хромосом. Так как отсутствует материнский вклад в считывания последовательностей в каждом локусе, и поскольку гетерозиготные локусы невозможны (в случае двух Y-хромосом обязательно присутствуют две идентичные хромосомы), полосы остаются тесно связанными с верхней частью (аллели А) или нижней частью (аллели В) графика (данные не показаны), и анализ сильно упрощается, основываясь на количественных данных о числе аллелей. Отметим, что, поскольку указанный способ исследует SNP, в нем используются гомологичные нерекомбинантные SNP из Y-хромосомы, с получением таким образом данных и для X, и для Y для одной пары зондов.For the Y chromosome, the PS method involves many different hypotheses: the presence of 0, 1, or 2 chromosomes. Since there is no maternal contribution to the reading of sequences at each locus, and since heterozygous loci are impossible (in the case of two Y chromosomes, two identical chromosomes are necessarily present), the bands remain closely connected with the upper part (alleles A) or the lower part (alleles B) of the graph (data not shown), and the analysis is greatly simplified based on quantitative data on the number of alleles. Note that since this method investigates SNPs, it uses homologous non-recombinant SNPs from the Y chromosome, thus obtaining data for both X and Y for one pair of probes.

Идентификация анеуплоидииAneuploidy identification

Идентификация аутосомных анеуплоидий с применением указанного способа визуализации на основе графиков является несложной при условии достаточной доли плода, и требует только идентификации графиков, соответствующих анормальному числу хромосом, согласно описанию выше. Сочетание информации о числе копий Х- и Y-хромосом определяет, присутствуют ли анеуплоидии половых хромосом. В частности, на графиках, представляющих плод с генотипом 47,ХХХ, будет наблюдаться типичный «трех-хромосомный» паттерн, и на графиках, представляющих плод с генотипом 47,XXY, будет наблюдаться типичный «двух-хромосомный» паттерн для Х-хромосомы, кроме того, аллельные считывания будут указывать на присутствие одной Y-хромосомы. Указанный способ позволяет аналогичным образом прогнозировать 47,XYY, когда «однохромосомный» паттерн указывает на присутствие единственной Х-хромосомы, а аллельные считывания указывают на присутствие двух Y-хромосом. Плод с генотипом 45,Х будет иметь типичный «однохромосомный» паттерн для Х-хромосомы, и данные будут указывать на наличие 0 Y-хромосом.Identification of autosomal aneuploidies using the indicated graph-based visualization method is simple provided that a sufficient proportion of the fetus is present and only requires identification of the graphs corresponding to the abnormal number of chromosomes as described above. The combination of information on the number of copies of X- and Y-chromosomes determines whether aneuploidy of sex chromosomes is present. In particular, in the graphs representing the fetus with genotype 47, XXX, a typical “three-chromosome” pattern will be observed, and in the graphs representing the fetus with genotype 47, XXY, a typical “two-chromosome” pattern for the X chromosome will be observed, in addition, allelic readings will indicate the presence of a single Y chromosome. This method allows similar prediction of 47, XYY, when the “monochromosomal” pattern indicates the presence of a single X chromosome, and allelic readings indicate the presence of two Y chromosomes. A fetus with genotype 45, X will have a typical “single chromosome” pattern for the X chromosome, and data will indicate the presence of 0 Y chromosomes.

Эффекты доли плодаEffects of fetal lobe

Как уже обсуждалось выше, число считываний последовательностей плода вносит вклад в точное расположение каждой зоны вдоль оси У на графиках. Так как доля плода влияет на пропорцию считываний от плода и от матери, она также будет влиять на расположение каждой зоны. При высокой доле плодной cfDNA (как правило, более -20%), как на фиг. 30С-30Е и фиг. 30G и 30Н, очевидно выражено, что, хотя кластеризация зон основана в основном на материнском генотипе, присутствие плодной ДНК из аллелей, генотип которых отличается от материнского генотипа, преобразует указанные кластеры во множество отдельных полос. Однако по мере уменьшения доли плода (как на фиг. 30В и 30F), зоны перемещаются обратно в направлении краев и центра графика, что приводит к образованию более плотных кластеров. В частности, набор периферических красных полос, где материнский генотип соответствует АА, перемещается обратно в направлении верхней части графика; набор периферических голубых полос, где материнский генотип соответствует ВВ, перемещается обратно в направлении нижней части; набор центральных зеленых полос, где мать гетерозиготна, конденсируется в единственный кластер в центре графика (ср. фиг. 30В и 30С) (цвет не показан). Хотя анеуплоидия визуально не выражена очевидным образом при использовании указанной техники визуализации для случаев с небольшой долей плода, указанный алгоритм позволяет идентифицировать состояния плоидности при очень незначительной доле плода, например, доле плода, составляющей 3%. Это возможно за счет того, что статистический метод сравнивает наблюдаемые данные с высокоточными моделями данных, которые предсказывают аллельные распределения для определенного набора параметров образца (включая, например, число копий, родительские генотипы и долю плода). Точность модели данных является критически важной в случае низкой доли плода, так как различия между аллельными распределениями для разных состояний плоидности пропорциональны доле плода. Кроме того, указанный алгоритм позволяет определять, что набор данных не содержит достаточно данных для надежного определения плоидности плода.As discussed above, the number of fetal sequence readings contributes to the exact location of each zone along the Y axis in the graphs. Since the proportion of the fetus affects the proportion of readings from the fetus and from the mother, it will also affect the location of each zone. With a high proportion of fetal cfDNA (typically greater than -20%), as in FIG. 30C-30E and FIG. 30G and 30H, it is obviously expressed that, although the clustering of zones is mainly based on the maternal genotype, the presence of fetal DNA from alleles whose genotype differs from the maternal genotype converts these clusters into many separate bands. However, as the proportion of the fetus decreases (as in FIGS. 30B and 30F), the zones move back towards the edges and center of the graph, which leads to the formation of denser clusters. In particular, the set of peripheral red bands, where the maternal genotype corresponds to AA, moves back towards the top of the graph; a set of peripheral blue bands, where the maternal genotype corresponds to BB, moves back towards the bottom; a set of central green bands, where the mother is heterozygous, condenses into a single cluster in the center of the graph (cf. FIGS. 30B and 30C) (color not shown). Although aneuploidy is not visually expressed in an obvious way when using the indicated imaging technique for cases with a small proportion of the fetus, this algorithm allows the identification of ploidy states with a very small proportion of the fetus, for example, a fetal fraction of 3%. This is possible due to the fact that the statistical method compares the observed data with high-precision data models that predict allelic distributions for a specific set of sample parameters (including, for example, the number of copies, parental genotypes, and fetal fraction). The accuracy of the data model is critical in the case of a low fetal fraction, since differences between allelic distributions for different ploidy states are proportional to the fetal fraction. In addition, this algorithm allows you to determine that the data set does not contain enough data to reliably determine the ploidy of the fetus.

Результатыresults

Считанные последовательности, которые картируются с целевыми SNP, считали информативными и использовали для алгоритма. Результаты секвенирования отображали более чем 95% целевых локусов. Графики визуализации основных определений плоидности приведены на фиг. 31A-31G. На фиг. 31А представлен эуплоидный образец. В этом случае хромосомы 13, 18, и 21 демонстрируют типичный «двух-хромосомный» паттерн (согласно описанию в настоящем документе). Он включает трио центральных зеленых полос и две красные и две голубые периферические полосы. В сочетании с двумя центральными зелеными полосами для Х-хромосомы и присутствием полос, соответствующих Y-хромосоме, по периферии графиков, это указывает на эуплоидный генотип XY (цвет не показан).The read sequences that map to the target SNPs were considered informative and used for the algorithm. Sequencing results displayed more than 95% of the target loci. Visualization plots of the basic definitions of ploidy are shown in FIG. 31A-31G. In FIG. 31A shows an euploid sample. In this case, the chromosomes 13, 18, and 21 exhibit a typical “two-chromosome” pattern (as described herein). It includes a trio of central green stripes and two red and two blue peripheral stripes. In combination with the two central green bands for the X chromosome and the presence of bands corresponding to the Y chromosome at the periphery of the graphs, this indicates the XY euploid genotype (color not shown).

Наиболее распространенные аутосомные трисомии, Т13, Т18, и Т21, представлены на графиках на фиг. 31В, 31С, и 31D, соответственно. В частности, на фиг. 31В представлен образец Т13. В этом случае хромосомы 18 и 21 демонстрируют типичный «двух-хромосомный» паттерн, хромосома X демонстрирует типичный «однохромосомный» паттерн и присутствуют считывания с Y-хромосомы. В совокупности это указывает на дисомию на хромосомах 18 и 21, и идентифицирует плодный генотип XY. Однако хромосома 13 демонстрирует типичный «трех-хромосомный» паттерн - характерным образом. Аналогичным образом, на фиг. 31С представлен образец Т18, и на фиг. 31D представлен образец Т21.The most common autosomal trisomies, T13, T18, and T21, are shown in the graphs in FIG. 31B, 31C, and 31D, respectively. In particular, in FIG. 31B shows a sample of T13. In this case, chromosomes 18 and 21 show a typical “two-chromosome” pattern, chromosome X shows a typical “single-chromosome” pattern, and readings from the Y chromosome are present. Together, this indicates disomy on chromosomes 18 and 21, and identifies the fetal genotype XY. However, chromosome 13 shows a typical “three-chromosome” pattern in a characteristic way. Similarly, in FIG. 31C shows sample T18, and in FIG. 31D presents a sample of T21.

Указанный способ позволяет также обнаруживать анеуплоидии половых хромосом, в том числе 45,Х (фиг. 31Е), 47,XXY (фиг. 31F) и 47,XYY (фиг. 31G). Отметим, что указанный способ прогнозирует число копий на хромосомах 13, 18, 21, X и Y; общее число хромосом устанавливают исходя из предположения о дисомии по всем остальным хромосомам. Соответствующие Х-хромосоме области графика, представляющего образец 45,Х, отражают присутствие единственной хромосомы. При этом отсутствие считываний с Y-хромосомы, в сочетании с «двух-хромосомным» паттерном для хромосом 13, 18 и 21, указывает на генотип 45,X. Напротив, образцы 47,XXY дают график, указывающий на присутствие двух Х-хромосом. Данные также указывают на считывания для аллелей Y-хромосомы. В сочетании с присутствием двух копий хромосом 13, 18 и 21 это указывает на генотип 47,XXY. На генотип 47,XYY указывает присутствие «однохромосомного» паттерна для Х-хромосомы и считывания, указывающие на присутствие двух Y-хромосом.The indicated method also makes it possible to detect aneuploidy of sex chromosomes, including 45, X (Fig. 31E), 47, XXY (Fig. 31F) and 47, XYY (Fig. 31G). Note that this method predicts the number of copies on chromosomes 13, 18, 21, X and Y; the total number of chromosomes is determined on the basis of the assumption of dysomy for all other chromosomes. Corresponding to the X chromosome region of the graph representing sample 45, X, reflect the presence of a single chromosome. Moreover, the lack of readings from the Y chromosome, in combination with the “two-chromosome” pattern for chromosomes 13, 18 and 21, indicates genotype 45, X. In contrast, samples 47, XXY give a graph indicating the presence of two X chromosomes. The data also indicate readings for alleles of the Y chromosome. In combination with the presence of two copies of chromosomes 13, 18 and 21, this indicates genotype 47, XXY. Genotype 47, XYY, is indicated by the presence of a “single chromosomal” pattern for the X chromosome and reading, indicating the presence of two Y chromosomes.

ОбсуждениеDiscussion

Указанный способ выявлял Т13, Т18, Т21, 45,Х, 47,XXY, и 47,XYY неинвазивным образом по материнской крови. В указанном способе исследуется cfDNA материнской плазмы посредством целевой мультиплексной ПЦР-амплификации и высокопроизводительного секвенирования 19488 SNP. В сочетании с применяемыми в способе сложными анализами с применением информатики, учитывающими родительскую генотипическую информацию и многочисленные параметры образца, включая долю плода и качества ДНК, это позволяет более надежно обнаруживать плодный сигнал и производит высокоточное прогнозирование плоидности для всех пяти хромосом, связанных с семью наиболее распространенными типами врожденной анеуплоидии (Т13, Т18, Т21, 45,Х, 47,ХХХ, 47,XXY и 47,XYY). Указанный способ обеспечивает ряд клинических преимуществ по сравнению с существующими способами, в том числе существенно больший клинический охват и специфичную в отношении конкретных образцов расчетную точность (аналогичную персонализированной оценке рисков).The specified method revealed T13, T18, T21, 45, X, 47, XXY, and 47, XYY non-invasively in maternal blood. In this method, mf plasma cfDNA is examined by targeted multiplex PCR amplification and high throughput 19488 SNP sequencing. In combination with the complex informatics analyzes used in the method, taking into account the parental genotypic information and numerous sample parameters, including the fetal fraction and DNA quality, this allows more reliable detection of the fetal signal and makes highly accurate ploidy prediction for all five chromosomes associated with the seven most common types of congenital aneuploidy (T13, T18, T21, 45, X, 47, XXX, 47, XXY and 47, XYY). This method provides a number of clinical advantages compared to existing methods, including significantly greater clinical coverage and specific accuracy with respect to specific samples (similar to a personalized risk assessment).

Повышенный клинический охватIncreased clinical coverage

Указанный способ обеспечивает приблизительно 2-кратное улучшение отслеживания анеуплоидии по сравнению с клинически доступными методиками NIPT, учитывая его способность точно обнаруживать аутосомные трисомии и анеуплоидии половых хромосом. Представленный в настоящем документе способ является единственным неинвазивным тестом, который прогнозирует плоидность половых хромосом с высокой точностью. Предварительные эксперименты со смешиванием ДНК и анализ отдельных образцов плазмы в ходе наших тестовых испытаний позволяют предположить, что указанный способ обнаруживает большую группу аномалий половых хромосом, включая 47,ХХХ. Представленный в настоящем документе способ также выявляет анеуплоидии хромосом 13, 18 и 21 с высокой чувствительностью и специфичностью, и, предположительно, при наличии праймеров подходящей конструкции позволит выявлять число копий также и для остальных хромосом.This method provides an approximately 2-fold improvement in tracking aneuploidy compared to clinically available NIPT techniques, given its ability to accurately detect autosomal trisomy and sex chromosome aneuploidy. The method presented herein is the only non-invasive test that predicts ploidy of sex chromosomes with high accuracy. Preliminary experiments with DNA mixing and analysis of individual plasma samples during our test tests suggest that this method detects a large group of sex chromosome abnormalities, including 47, XXX. The method presented herein also detects aneuploidy of chromosomes 13, 18, and 21 with high sensitivity and specificity, and, presumably, with primers of suitable design, it will be possible to identify the number of copies for the remaining chromosomes as well.

Специфичная в отношении конкретного образца расчетная точностьSpecific design specific accuracy

Важно отметить, что в указанном способе рассчитывается точность определения плоидности для конкретного образца на каждой хромосоме в каждом образце. Точности, рассчитанные с применением указанного способа, как ожидается, будут существенно снижать уровни некорректного определения за счет идентификации и маркировки индивидуальных образцов с ДНК неудовлетворительного качества или низкой долей плода, что предположительно приведет к низкой точности результатов теста. Напротив, способы массивно-параллельного секвенирования на основе «метода дробовика» (MPSS) дают положительный или отрицательный прогноз, используя тест отклонения одной гипотезы, и оценка их точности основана на опубликованном исследовании когорты, а не на характеристиках индивидуального образца, для которых предполагается так же точность, что и для когорты. Однако индивидуальные точности для образцов, показатели которых попадают в «хвост» распределения когорты, могут существенно различаться. Это усугубляется при незначительной доле плода, как на раннем гестационном сроке, или в случае образцов с низким качеством ДНК. Указанные образцы, как правило, не идентифицируются и не помечаются для дальнейшего исследования, что может приводить к пропущенным признакам. Настоящий способ, однако, учитывает многие параметры, включая долю плода и ряд качественных показателей ДНК, при определении каждого признака числа копий хромосомы с подсчетом точности определения указанного признака для конкретного образца. Это позволяет с помощью указанного способа идентифицировать индивидуальные образцы с низкой точностью и пометить их для дальнейшего исследования. Ожидается, что это практически полностью устранит пропущенные признаки, в частности, на ранних сроках беременности, когда доля плода, как правило, невелика. Предполагается, что отсутствие признака значительно более предпочтительно, чем пропущенный признак, поскольку отсутствие признака означает просто необходимость повторного взятия образцов и повторного анализа.It is important to note that in this method, the accuracy of determining ploidy is calculated for a particular sample on each chromosome in each sample. The accuracy calculated using this method is expected to significantly reduce the levels of incorrect determination due to the identification and labeling of individual samples with DNA of unsatisfactory quality or a low proportion of the fetus, which is expected to lead to low accuracy of the test results. In contrast, “shotgun method” -massively parallel sequencing methods (MPSS) give a positive or negative prediction using a single-hypothesis rejection test, and their accuracy is based on a published study of the cohort, and not on the characteristics of an individual sample, for which it is also assumed accuracy as for cohort. However, individual accuracy for samples whose indicators fall into the “tail” of the cohort distribution can vary significantly. This is exacerbated with a small proportion of the fetus, as in the early gestational period, or in the case of samples with low quality DNA. These samples, as a rule, are not identified and are not labeled for further research, which may lead to missing signs. The present method, however, takes into account many parameters, including the proportion of the fetus and a number of qualitative indicators of DNA, when determining each trait of the number of copies of the chromosome with the accuracy of determining the specified trait for a particular sample. This allows using the specified method to identify individual samples with low accuracy and mark them for further research. It is expected that this will almost completely eliminate the missed signs, in particular, in the early stages of pregnancy, when the proportion of the fetus is usually small. It is assumed that the absence of a sign is significantly more preferable than a missing sign, since the absence of a sign simply means the need for re-sampling and re-analysis.

Преобразование расчетных точностей в традиционные показатели оценки рисковConvert design accuracy to traditional risk assessment metrics

Указанный способ может обеспечивать корректировку оценки риска анеуплоидии у беременных женщин из групп высокого риска, при это указанная корректировка оценки риска учитывает априорный риск (Benn Р, Cuckle Н, Pergament Е. Non-invasive prenatal diagnosis for Down syndrome: the paradigm will shift, but slowly. Ultrasound Obstet Gynecol 2012; 39: 127-130, полностью включенный в настоящий документ посредством ссылки). Хотя настоящий способ обеспечивает индивидуализированное определение расчетной точности для каждого пациента, для клинического применения указанные точности могут быть преобразованы в традиционные показатели оценки рисков, которые также отражают риск анеуплоидной беременности, но выражены в долях. Традиционные способы оценки рисков учитывают различные параметры, включая связанный с возрастом матери риск и уровни биохимических маркеров в сыворотке, обеспечивая получение показателя оценки рисков, при превышении которого риск считается высоким и матери рекомендуется пройти последующие инвазивные диагностические процедуры. Указанный способ существенно уточняет указанную оценку рисков, соответственно, снижая уровни как ложноположительных, так и ложноотрицательных результатов, и обеспечивая более точную оценку индивидуального материнского риска. Расчетная точность в настоящем документе представляет собой вероятность того, что прогноз плоидности корректен, и выражается в виде процента, однако расчетные точности, использованные в эксперименте 19, не включают связанный с возрастом риск. Поскольку расчет оценки рисков, как правило, включает оценку связанного с возрастом риска, рассчитанные точности и традиционные способы оценки рисков не являются взаимозаменяемыми; они должны быть скомбинированы для преобразования в традиционную оценку рисков. Связанный с возрастом риск и рассчитанную точность комбинируют с помощью следующей формулы:This method can provide an adjustment for assessing the risk of aneuploidy in pregnant women from high-risk groups, while this adjustment of the risk assessment takes into account a priori risk (Benn P, Cuckle H, Pergament E. Non-invasive prenatal diagnosis for Down syndrome: the paradigm will shift, but slowly. Ultrasound Obstet Gynecol 2012; 39: 127-130, incorporated herein by reference in its entirety). Although this method provides an individualized determination of the estimated accuracy for each patient, for clinical use, these accuracy can be converted into traditional risk assessment indicators, which also reflect the risk of aneuploid pregnancy, but expressed in shares. Traditional methods of risk assessment take into account various parameters, including the risk associated with the age of the mother and the levels of serum biochemical markers, providing a risk assessment indicator above which the risk is considered high and it is recommended that the mother undergo subsequent invasive diagnostic procedures. The specified method significantly clarifies the specified risk assessment, respectively, reducing the levels of both false-positive and false-negative results, and providing a more accurate assessment of individual maternal risk. The estimated accuracy in this document is the probability that the ploidy forecast is correct and is expressed as a percentage, but the calculated accuracy used in experiment 19 does not include age-related risk. Since the calculation of risk assessment usually includes an assessment of age-related risk, the calculated accuracy and traditional methods of risk assessment are not interchangeable; they must be combined to translate into a traditional risk assessment. Age-related risk and calculated accuracy are combined using the following formula:

Figure 00000039
Figure 00000039

где R1 представляет собой оценку рисков согласно расчету с применением настоящего способа, и R2 представляет собой оценку рисков согласно расчету с применением скрининга в первом триместре.where R 1 is a risk assessment according to the calculation using the present method, and R 2 is a risk assessment according to the calculation using screening in the first trimester.

Способы, основанные на SNP, устраняют проблемы, связанные с вариациями при амплификацииSNP-based methods eliminate the problems associated with amplification variations

Недостаток, присущий способам подсчета, используемым в некоторых других способах, заключается в том, что они определяют состояние плоидности плода путем измерения отношения числа считанных последовательностей, картирующихся с представляющей интерес хромосомой (например, хромосомой 21) с числом считанных последовательностей, картирующихся с эталонной хромосомой. Хромосомы с высоким или низким содержанием GC, в том числе хромосомы 13, X и Y, амплифицируются с высокой вариабельностью. Это может приводить к вариациям сигнала, сравнимых по интенсивности с интенсивностью сигнала от плодной cfDNA, что может мешать прогнозированию числа копий из-за изменения соотношения числа считываний аллеля с представляющей интерес хромосомы и считываний с эталонной хромосомы. Это может приводить к низкой точности для хромосом 13, X и Y. Важно, что указанная проблема усугубляется при низких долях плодной cfDNA, которые, как правило, наблюдаются на ранних гестационных сроках.A disadvantage inherent in the counting methods used in some other methods is that they determine the fetal ploidy state by measuring the ratio of the number of read sequences mapped to the chromosome of interest (e.g., chromosome 21) with the number of read sequences mapped to the reference chromosome. Chromosomes with a high or low GC content, including chromosomes 13, X, and Y, amplify with high variability. This can lead to signal variations comparable in intensity with the signal intensity from the fetal cfDNA, which may interfere with the prediction of the number of copies due to a change in the ratio of the number of allele readings to the chromosome of interest and readings from the reference chromosome. This can lead to low accuracy for chromosomes 13, X, and Y. It is important that this problem is exacerbated with low fractions of fetal cfDNA, which are usually observed in early gestational periods.

Напротив, способы на основе SNP не полагаются на стабильные уровни амплификации хромосом, и, таким образом, предположительно будут давать одинаково точные результаты во всех хромосомах. Поскольку в настоящем способе рассматриваются, в частности, относительные подсчитанные количества разных аллелей в полиморфных локусах, которые по определению отличаются только одним нуклеотидом, он не требует применения эталонных хромосом, что позволяет избежать проблем, связанных вариациями при амплификации от хромосомы к хромосоме, присущих способам, основанным на количественном определении считываний последовательностей. В отличие от количественных способов, для которых требуются эуплоидные эталонные хромосомы, настоящий способ, как ожидается, позволит обнаруживать триплоидию, а также нейтральные относительно числа копий аномалии, такие как однородительская дисомия.In contrast, SNP-based methods do not rely on stable levels of chromosome amplification, and thus are expected to produce equally accurate results on all chromosomes. Since the present method considers, in particular, the relative calculated amounts of different alleles at polymorphic loci, which by definition differ by only one nucleotide, it does not require the use of reference chromosomes, which avoids the problems associated with variations in amplification from the chromosome to the chromosome inherent in the methods, based on the quantification of sequence readings. Unlike quantitative methods that require euploid reference chromosomes, the present method is expected to detect triploidy, as well as abnormal neutral copy numbers, such as homogeneous disomy.

Важность раннего обнаруженияThe importance of early detection

Важно, что общая распространенность анеуплоидии половых хромосом при рождении выше, чем распространенность наиболее распространенных аутосомных анеуплоидий (фиг. 32). Однако в настоящее время не существует способов рутинного неинвазивного скрининга для надежного обнаружения аномалий половых хромосом. Соответственно, аномалии половых хромосом, как правило, обнаруживают в пренатальном периоде случайно, при рутинном тестировании на синдром Дауна или другие аутосомные анеуплоидии; значительная часть случаев вообще пропускается. Ранее и точное выявление критически важно для многих из указанных расстройств, в случаях, когда терапевтическое вмешательство улучшает клинический исход. Так, синдром Тернера часто не диагностируется до пубертатного возраста, хотя его общая распространенность при рождении составляет 1 случай на 2500 детей женского пола. Терапия гормонами роста, как известно, предотвращает низкорослость, обусловленную указанным расстройством, однако лечение существенно более эффективно, если его начинают до возраста 4-х лет. Кроме того, заместительная терапия эстрогенами может стимулировать развитие вторичных половых признаков у пациентов с синдромом Тернера, но при этом терапию необходимо начинать до наступления пубертатного периода, раньше, чем обычно обнаруживается указанный синдром. В совокупности, все это свидетельствует о недооценке важности раннего рутинного и безопасного выявления анеуплоидии половых хромосом. Указанный способ представляет собой первый подход, который потенциально можно использовать для рутинного скрининга на аномалии половых хромосом.It is important that the overall prevalence of sex chromosome aneuploidy at birth is higher than the prevalence of the most common autosomal aneuploidy (Fig. 32). However, there are currently no routine non-invasive screening methods for reliable detection of sex chromosome abnormalities. Accordingly, sex chromosome abnormalities, as a rule, are detected in the prenatal period by chance, during routine testing for Down syndrome or other autosomal aneuploidies; a significant portion of cases are generally skipped. Earlier and accurate detection is critical for many of these disorders, in cases where therapeutic intervention improves the clinical outcome. So, Turner syndrome is often not diagnosed until adolescence, although its total prevalence at birth is 1 case per 2500 female children. Growth hormone therapy is known to prevent stunting due to this disorder, but treatment is much more effective if it is started before the age of 4 years. In addition, estrogen replacement therapy can stimulate the development of secondary sexual characteristics in patients with Turner syndrome, but therapy should be started before the onset of puberty, earlier than this syndrome is usually detected. Taken together, all this indicates an underestimation of the importance of early routine and safe detection of sex chromosome aneuploidy. This method represents the first approach that could potentially be used for routine screening for sex chromosome abnormalities.

Дополнительные варианты примененияAdditional applications

Поскольку в указанном способе используется направленная амплификация, он уникальным образом подходит для обнаружения субмикроскопических аномалий, таких как микроделеции и микродупликации. Хотя было показано, что нецелевые способы, такие как MPSS, позволяют обнаруживать синдром микроделеций Ди-Джорджи, для этого требуется достаточно высокий уровень охвата генома, так что указанный подход становится нецелесообразным. Это обусловлено тем, что нецелевая амплификации будет на несколько порядков менее эффективной для субмикроскопических областей, так как очень небольшая доля считываний при секвенировании будет информативной. Кроме того, тот факт, что доступные в настоящее время способы не позволяют точно идентифицировать состояния плоидности половых хромосом, подразумевает, что разнообразные проблемы будут возникать также и при их использовании при амплификации более коротких хромосомных сегментов.Since this method uses directional amplification, it is uniquely suited for detecting submicroscopic anomalies, such as microdeletions and microduplications. Although it has been shown that non-targeted methods, such as MPSS, allow the detection of Di-Georgie microdeletion syndrome, this requires a fairly high level of genome coverage, so this approach becomes impractical. This is due to the fact that inappropriate amplification will be several orders of magnitude less effective for submicroscopic regions, since a very small fraction of readings during sequencing will be informative. In addition, the fact that the currently available methods do not accurately identify the ploidy states of sex chromosomes implies that various problems will also arise when they are used in the amplification of shorter chromosome segments.

Аналогичным образом, основанные на SNP способы позволяют выявлять UPD-расстройства, представляющие собой нейтральные относительно числа копий аномалии, которые не поддаются обнаружению ни с помощью современных неинвазивных способов, основанных на подсчетах, ни с помощью традиционных инвазивных способов, таких как амниоцентез и CVS, основанных на цитогенетическом кариотипировании и/или флуоресцентной гибридизации in situ. Это обусловлено тем, что способы на основе SNP позволяют, уникальным образом, различать индивидуальные гаплотипы, тогда как в клинически доступных способах на основе MPSS и направленных способах амплифицируются неполиморфные локусы и, соответственно, с их помощью невозможно определить, например, происходят ли представляющие интерес хромосомы от одного родителя. Это означает, что указанные микроделеции/микродупликации и UPD-синдромы, включая синдромы Прадера-Вилли, Ангельмана и Беквита-Видемана, как правило, не диагностируются пренатально, и часто сначала неправильно диагностируются в постнатальном периоде. Это существенно задерживает терапевтическое вмешательство. Кроме того, поскольку указанный способ нацелен на SNP, он также облегчает реконструкцию родительского гаплотипа, позволяя обнаруживать наследование плодом индивидуальных связанных с заболеванием локусов (Kitzman JO, Snyder MW, Ventura M, и др. Noninvasive whole-genome sequencing of a human fetus. Sci Transl Med 2012; 4: 137ra76, полностью включенный в настоящий документ посредством ссылки).Similarly, SNP-based methods can detect UPD disorders that are copy-neutral anomalies that are not detectable using modern non-invasive counting methods, or using traditional invasive methods such as amniocentesis and CVS based on cytogenetic karyotyping and / or in situ fluorescence hybridization. This is due to the fact that SNP-based methods allow, in a unique way, to distinguish individual haplotypes, while clinically accessible methods based on MPSS and directed methods amplify non-polymorphic loci and, accordingly, it is impossible to determine with their help, for example, whether chromosomes of interest occur from one parent. This means that these microdeletions / micro-duplications and UPD syndromes, including Prader-Willi, Angelman and Beckwith-Wiedemann syndromes, are usually not diagnosed prenatally, and are often initially misdiagnosed in the postnatal period. This significantly delays the therapeutic intervention. In addition, since this method is aimed at SNP, it also facilitates the reconstruction of the parental haplotype, allowing the fetus to detect inheritance of individual disease-related loci (Kitzman JO, Snyder MW, Ventura M, etc. Noninvasive whole-genome sequencing of a human fetus. Sci Transl Med 2012; 4: 137ra76, incorporated herein by reference in its entirety).

Результаты, представленные в настоящем документе, подтверждают расширенную область применения указанного способа для идентификации пренатальной анеуплоидии. В частности, посредством амплификации и секвенирования 19488 SNP с помощью указанного способа возможно определение число копий на хромосомах 13, 18, 21, X, и Y, и как ожидается, уникальным образом, обнаружение других хромосомных аномалий, таких как триплоидия и UPD, не выявляемых какими-либо другими клинически доступными неинвазивными методами. Повышенный клинический охват и высокая специфическая точность расчета для конкретных образцов позволяют предполагать, что указанный способ может обеспечить перспективное дополнение к инвазивному тестированию для обнаружения плодных хромосомных анеуплоидий.The results presented in this document confirm the expanded scope of this method for identifying prenatal aneuploidy. In particular, by amplifying and sequencing the 19488 SNP using this method, it is possible to determine the number of copies on chromosomes 13, 18, 21, X, and Y, and, as expected, in a unique way, the detection of other chromosomal abnormalities, such as triploidy and UPD, not detected any other clinically available non-invasive methods. Increased clinical coverage and high specific calculation accuracy for specific samples suggest that this method can provide a promising addition to invasive testing for the detection of fetal chromosomal aneuploidy.

Все патенты, заявки на выдачу патентов и опубликованные ссылки, цитируемые в настоящем документе, тем самым включены посредством ссылки во всей полноте. Несмотря на то, что способы в настоящем раскрытии описаны применительно к конкретным вариантам его осуществления, следует понимать, что возможна дополнительная модификация. Кроме того, предполагается, что настоящая заявка охватывает любые варианты, применения или переработки способов согласно настоящему раскрытию, в том числе отступления от настоящего раскрытия, которые являются известной или обычной практикой в области техники, к которой принадлежат способы согласно настоящему раскрытию, входящие в объем приложенной формулы изобретения. Например, любые раскрытые в настоящем документе способы для ДНК могут быть легко адаптированы для РНК путем включения этапа обратной транскрипции для преобразования РНК в ДНК. Примеры, в которых используются полиморфные локусы для иллюстрации, могут быть легко, если это потребуется, адаптированы для амплификации неполиморфных локусов.All patents, patent applications, and published references cited herein are hereby incorporated by reference in their entireties. Although the methods in the present disclosure are described with reference to specific options for its implementation, it should be understood that additional modification is possible. In addition, it is intended that this application cover any variations, uses, or processing of the methods of the present disclosure, including departures from the present disclosure, which are known or common practice in the art to which the methods of the present disclosure fall within the scope of the appended claims For example, any of the methods for DNA disclosed herein can be easily adapted for RNA by incorporating a reverse transcription step to convert RNA to DNA. Examples that use polymorphic loci to illustrate can be easily adapted if necessary to amplify non-polymorphic loci.

Claims (22)

1. Способ амплификации и секвенирования целевых локусов в образце нуклеиновой кислоты, включающий:1. A method for amplification and sequencing of target loci in a nucleic acid sample, comprising: (a) приведение образца нуклеиновой кислоты, содержащего целевые локусы, в контакт с библиотекой тестовых праймеров, содержащей по меньшей мере 1000 разных тестовых праймеров, с целью получения реакционной смеси в одном реакционном объеме; при этом концентрация каждого тестового праймера в реакционной смеси составляет менее 20 нМ;(a) bringing the nucleic acid sample containing the target loci into contact with a library of test primers containing at least 1000 different test primers in order to obtain the reaction mixture in one reaction volume; wherein the concentration of each test primer in the reaction mixture is less than 20 nM; (b) амплификация реакционной смеси с помощью полимеразной цепной реакции (ПЦР) с целью получения амплифицированных продуктов, содержащих целевые ампликоны, при этом ПЦР включает этап отжига с продолжительностью более 10 минут; при этом одновременно амплифицируют по меньшей мере 1000 разных целевых локусов и при этом (i) менее 20% амплифицированных продуктов представлено димерами тестовых праймеров, (ii) по меньшей мере 80% амплифицированных продуктов представлено целевыми ампликонами и (iii) амплифицируется по меньшей мере 80% целевых локусов; и(b) amplification of the reaction mixture by polymerase chain reaction (PCR) to obtain amplified products containing target amplicons, the PCR comprising an annealing step with a duration of more than 10 minutes; at the same time, at least 1000 different target loci are amplified and (i) less than 20% of the amplified products are represented by test primer dimers, (ii) at least 80% of the amplified products are represented by target amplicons, and (iii) at least 80% are amplified target loci; and (c) секвенирование амплифицированных продуктов;(c) sequencing amplified products; при этом метод не включает использование микроматрицы.however, the method does not include the use of microarray. 2. Способ по п. 1, отличающийся тем, что амплифицируют по меньшей мере 5000 разных целевых локусов.2. The method according to p. 1, characterized in that amplify at least 5000 different target loci. 3. Способ по п. 1, отличающийся тем, что каждая пара праймеров включает прямой праймер и обратный праймер, которые гибридизуются с одним и тем же целевым локусом; при этом длина целевого ампликона составляет менее 100 нуклеотидов.3. The method according to p. 1, characterized in that each pair of primers includes a forward primer and a reverse primer that hybridize with the same target locus; the length of the target amplicon is less than 100 nucleotides. 4. Способ по п. 1, отличающийся тем, что тестовые праймеры содержат 5'-область, являющуюся специфической в отношении целевого локуса, внутреннюю область, не являющуюся специфической в отношении целевого локуса и образующую петлевую структуру, и 3'-область, являющуюся специфической в отношении того же целевого локуса.4. The method according to p. 1, characterized in that the test primers contain a 5'-region that is specific for the target locus, an internal region that is not specific for the target locus and forming a loop structure, and a 3'-region that is specific in relation to the same target locus. 5. Способ по п. 1, отличающийся тем, что тестовые праймеры выбирают из библиотеки кандидатных праймеров по меньшей мере на основании способности указанных кандидатных праймеров образовывать димеры праймеров.5. The method according to p. 1, characterized in that the test primers are selected from the library of candidate primers at least on the basis of the ability of these candidate primers to form primer dimers. 6. Способ по п. 1, отличающийся тем, что образец содержит материнскую ДНК от беременной матери плода и плодную ДНК; и при этом способ включает определение присутствия или отсутствия хромосомных аномалий плода на основе данных секвенирования.6. The method according to p. 1, characterized in that the sample contains maternal DNA from the pregnant mother of the fetus and fetal DNA; and wherein the method comprises determining the presence or absence of fetal chromosomal abnormalities based on sequencing data. 7. Способ по п. 1, отличающийся тем, что указанные целевые локусы представлены в геноме человека или указанные целевые локусы содержат однонуклеотидные полиморфизмы человека.7. The method according to p. 1, characterized in that said target loci are represented in the human genome or said target loci contain single nucleotide polymorphisms of a person. 8. Способ по п. 1, отличающийся тем, что образец нуклеиновой кислоты содержит ДНК из опухоли, трансплантата или плода.8. The method according to p. 1, characterized in that the nucleic acid sample contains DNA from a tumor, transplant or fetus. 9. Способ по п. 1, отличающийся тем, что образец нуклеиновой кислоты содержит ДНК из одной клетки.9. The method according to p. 1, characterized in that the nucleic acid sample contains DNA from one cell. 10. Способ по п. 1, отличающийся тем, что менее 10% амплифицированных продуктов представлено димерами тестовых праймеров.10. The method according to p. 1, characterized in that less than 10% of the amplified products are represented by dimers of test primers. 11. Способ по п. 1, отличающийся тем, что менее 1% амплифицированных продуктов представлено димерами тестовых праймеров.11. The method according to p. 1, characterized in that less than 1% of the amplified products are represented by dimers of test primers. 12. Способ по п. 1, отличающийся тем, что по меньшей мере 90% амплифицированных продуктов представлено целевыми ампликонами.12. The method according to p. 1, characterized in that at least 90% of the amplified products are target amplicons. 13. Способ по п. 1, отличающийся тем, что по меньшей мере 95% амплифицированных продуктов представлено целевыми ампликонами.13. The method according to p. 1, characterized in that at least 95% of the amplified products are target amplicons. 14. Способ по п. 1, отличающийся тем, что амплифицируется по меньшей мере 90% целевых локусов.14. The method according to p. 1, characterized in that it amplifies at least 90% of the target loci. 15. Способ по п. 1, отличающийся тем, что амплифицируется по меньшей мере 95% целевых локусов.15. The method according to p. 1, characterized in that it amplifies at least 95% of the target loci. 16. Способ по п. 2, отличающийся тем, что амплифицируется по меньшей мере 10000 различных целевых локусов.16. The method according to p. 2, characterized in that it amplifies at least 10,000 different target loci. 17. Способ по п. 2, отличающийся тем, что амплифицируется по меньшей мере 20000 различных целевых локусов.17. The method according to p. 2, characterized in that it amplifies at least 20,000 different target loci. 18. Способ по п. 4, отличающийся тем, что длина целевого ампликона составляет от 50 до 100 нуклеотидов.18. The method according to p. 4, characterized in that the length of the target amplicon is from 50 to 100 nucleotides.
RU2014152883A 2012-07-24 2012-11-21 Highly multiplex pcr methods and compositions RU2650790C2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261675020P 2012-07-24 2012-07-24
US61/675,020 2012-07-24
US13/683,604 2012-11-21
PCT/US2012/066339 WO2014018080A1 (en) 2012-07-24 2012-11-21 Highly multiplex pcr methods and compositions
US13/683,604 US20130123120A1 (en) 2010-05-18 2012-11-21 Highly Multiplex PCR Methods and Compositions

Publications (2)

Publication Number Publication Date
RU2014152883A RU2014152883A (en) 2016-09-10
RU2650790C2 true RU2650790C2 (en) 2018-04-17

Family

ID=49997695

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014152883A RU2650790C2 (en) 2012-07-24 2012-11-21 Highly multiplex pcr methods and compositions

Country Status (10)

Country Link
JP (12) JP6392222B2 (en)
KR (1) KR101890466B1 (en)
CN (1) CN104685064A (en)
AU (1) AU2012385961B9 (en)
CA (1) CA2877493C (en)
HK (1) HK1211058A1 (en)
IL (1) IL236435A0 (en)
RU (1) RU2650790C2 (en)
SG (1) SG11201408813VA (en)
WO (1) WO2014018080A1 (en)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
ES2620431T3 (en) 2008-08-04 2017-06-28 Natera, Inc. Methods for the determination of alleles and ploidy
WO2011041485A1 (en) 2009-09-30 2011-04-07 Gene Security Network, Inc. Methods for non-invasive prenatal ploidy calling
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
EP2854058A3 (en) 2010-05-18 2015-10-28 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
JP6328934B2 (en) 2010-12-22 2018-05-23 ナテラ, インコーポレイテッド Noninvasive prenatal testing
JP6153874B2 (en) 2011-02-09 2017-06-28 ナテラ, インコーポレイテッド Method for non-invasive prenatal ploidy calls
WO2012159089A1 (en) 2011-05-19 2012-11-22 Sequenom, Inc. Products and processes for multiplex nucleic acid identification
RU2650790C2 (en) * 2012-07-24 2018-04-17 Натера, Инк. Highly multiplex pcr methods and compositions
WO2015048535A1 (en) 2013-09-27 2015-04-02 Natera, Inc. Prenatal diagnostic resting standards
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
WO2015164432A1 (en) * 2014-04-21 2015-10-29 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
EP3561075A1 (en) 2014-04-21 2019-10-30 Natera, Inc. Detecting mutations in tumour biopsies and cell-free samples
EA035747B1 (en) * 2014-11-28 2020-08-05 ЮНИКЬЮРЕ АйПи Б.В. Dna impurities in a composition comprising a parvoviral virion
US20170349926A1 (en) * 2014-12-22 2017-12-07 DNAe Group Holdings LTD. Bubble primers
US10233489B2 (en) 2015-04-24 2019-03-19 Agena Bioscience, Inc. Multiplexed method for the identification and quantitation of minor alleles and polymorphisms
EP3294906B1 (en) 2015-05-11 2024-07-10 Natera, Inc. Methods for determining ploidy
GB2539675B (en) 2015-06-23 2017-11-22 Cs Genetics Ltd Libraries of multimeric barcoding reagents and kits thereof for labelling nucleic acids for sequencing
WO2017044843A1 (en) 2015-09-11 2017-03-16 The General Hospital Corporation Full interrogation of nuclease dsbs and sequencing (find-seq)
US10961567B2 (en) 2016-02-25 2021-03-30 Roche Sequencing Solutions, Inc. Elimination of primer-primer interactions during primer extension
CA3016360A1 (en) * 2016-04-15 2017-10-19 Ucl Business Plc Methods for lung cancer detection
CN114672516A (en) * 2016-07-29 2022-06-28 加利福尼亚大学董事会 Adeno-associated virus virions with variant capsids and methods of use thereof
JPWO2018061638A1 (en) * 2016-09-30 2019-07-04 富士フイルム株式会社 Method of determining its origin from human genomic DNA of 100 pg or less, method of identifying an individual, and method of analyzing the degree of engraftment of hematopoietic stem cells
WO2018067517A1 (en) 2016-10-04 2018-04-12 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
EP3585889A1 (en) 2017-02-21 2020-01-01 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
WO2019010456A1 (en) * 2017-07-07 2019-01-10 Stephen Quake Noninvasive prenatal diagnosis of single-gene disorders using droplet digital pcr
KR101977976B1 (en) * 2017-08-10 2019-05-14 주식회사 엔젠바이오 Method for increasing read data analysis accuracy in amplicon based NGS by using primer remover
CA3073448A1 (en) 2017-08-23 2019-02-28 The General Hospital Corporation Engineered crispr-cas9 nucleases with altered pam specificity
WO2019075197A1 (en) * 2017-10-11 2019-04-18 The General Hospital Corporation Methods for detecting site-specific and spurious genomic deamination induced by base editing technologies
JP2021506342A (en) 2017-12-14 2021-02-22 ティーエーアイ ダイアグノスティックス インコーポレイテッドTai Diagnostics,Inc. Evaluation of Graft Conformity for Transplantation
CN108334745B (en) * 2018-03-19 2022-02-08 青岛理工大学 Nonlinear hybrid system modeling method in polymerase chain reaction process
CA3090426A1 (en) 2018-04-14 2019-10-17 Natera, Inc. Methods for cancer detection and monitoring by means of personalized detection of circulating tumor dna
CA3097044A1 (en) 2018-04-17 2019-10-24 The General Hospital Corporation Sensitive in vitro assays for substrate preferences and sites of nucleic acid binding, modifying, and cleaving agents
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
EP3833783A1 (en) * 2018-08-08 2021-06-16 Inivata Ltd. Method of sequencing using variable replicate multiplex pcr
CN112080558B (en) * 2019-06-13 2024-03-12 杭州贝瑞和康基因诊断技术有限公司 Kit and method for simultaneously detecting HBA1/2 and HBB gene mutation
EP4004927A4 (en) * 2019-07-22 2023-08-02 Mission Bio, Inc. Using machine learning to optimize assays for single cell targeted dna sequencing
WO2021122620A1 (en) * 2019-12-16 2021-06-24 Agilent Technologies, Inc. Genomic scarring assays and related methods
JP7320468B2 (en) 2020-03-10 2023-08-03 Ntn株式会社 HUB UNIT WITH STEERING FUNCTION AND VEHICLE INCLUDING THE SAME
CN113979895B (en) * 2020-07-08 2023-03-24 中国科学技术大学 Self-degradable polymer with controllable precise sequence and preparation method and application thereof
WO2022076574A1 (en) * 2020-10-08 2022-04-14 Claret Bioscience, Llc Methods and compositions for analyzing nucleic acid
WO2022196781A1 (en) 2021-03-18 2022-09-22 キヤノン株式会社 Liquid injection method, liquid injection device, and liquid cartridge
JP2024533114A (en) 2021-09-01 2024-09-12 ナテラ, インコーポレイテッド Methods for non-invasive prenatal testing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EA015913B1 (en) * 2007-01-17 2011-12-30 Учреждение Российской Академии Наук Институт Молекулярной Биологии Им. В.А. Энгельгардта Ран (Имб Ран) Method for genetically identifying a person according to the analysis of the single nucleotide polymorphism of a human genome by means of a oligonucleotide biological microchip (biochip)
US20120122701A1 (en) * 2010-05-18 2012-05-17 Gene Security Network, Inc. Methods for Non-Invasive Prenatal Paternity Testing

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US300235A (en) 1884-06-10 Chaeles b
US6479235B1 (en) * 1994-09-30 2002-11-12 Promega Corporation Multiplex amplification of short tandem repeat loci
US6251604B1 (en) * 1999-08-13 2001-06-26 Genopsys, Inc. Random mutagenesis and amplification of nucleic acid
DK1259643T3 (en) * 2000-02-07 2009-02-23 Illumina Inc Method for Detecting Nucleic Acid Using Universal Priming
US7582420B2 (en) * 2001-07-12 2009-09-01 Illumina, Inc. Multiplex nucleic acid reactions
EP1364046B1 (en) * 2000-05-23 2011-11-30 Variagenics, Inc. Methods for genetic analysis of dna to detect sequence variances
US6977162B2 (en) 2002-03-01 2005-12-20 Ravgen, Inc. Rapid analysis of variations in a genome
WO2005003375A2 (en) * 2003-01-29 2005-01-13 454 Corporation Methods of amplifying and sequencing nucleic acids
WO2004099439A1 (en) * 2003-05-09 2004-11-18 Tsinghua University Methods and compositions for optimizing multiplex pcr primers
WO2005071078A1 (en) * 2004-01-12 2005-08-04 Nimblegen Systems Inc. Method of performing pcr amplification on a microarray
US7618777B2 (en) * 2005-03-16 2009-11-17 Agilent Technologies, Inc. Composition and method for array hybridization
US8532930B2 (en) 2005-11-26 2013-09-10 Natera, Inc. Method for determining the number of copies of a chromosome in the genome of a target individual using genetic data from genetically related individuals
US8515679B2 (en) 2005-12-06 2013-08-20 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
ES2739483T3 (en) 2006-02-02 2020-01-31 Univ Leland Stanford Junior Non-invasive fetal genetic detection by digital analysis
WO2007111937A1 (en) * 2006-03-23 2007-10-04 Applera Corporation Directed enrichment of genomic dna for high-throughput sequencing
JP2008125471A (en) 2006-11-22 2008-06-05 Olympus Corp Multiplex method of nucleic acid amplification
WO2008093098A2 (en) * 2007-02-02 2008-08-07 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
US20090023190A1 (en) 2007-06-20 2009-01-22 Kai Qin Lao Sequence amplification with loopable primers
WO2009032779A2 (en) * 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
WO2009036525A2 (en) * 2007-09-21 2009-03-26 Katholieke Universiteit Leuven Tools and methods for genetic tests using next generation sequencing
FR2925480B1 (en) * 2007-12-21 2011-07-01 Gervais Danone Sa PROCESS FOR THE ENRICHMENT OF OXYGEN WATER BY ELECTROLYTIC, OXYGEN-ENRICHED WATER OR DRINK AND USES THEREOF
EP2077337A1 (en) 2007-12-26 2009-07-08 Eppendorf Array Technologies SA Amplification and detection composition, method and kit
US20110033862A1 (en) 2008-02-19 2011-02-10 Gene Security Network, Inc. Methods for cell genotyping
WO2009146335A1 (en) 2008-05-27 2009-12-03 Gene Security Network, Inc. Methods for embryo characterization and comparison
ES2620431T3 (en) 2008-08-04 2017-06-28 Natera, Inc. Methods for the determination of alleles and ploidy
EP2952589B1 (en) 2008-09-20 2018-02-14 The Board of Trustees of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing
AU2010232439C1 (en) * 2009-04-02 2017-07-13 Fluidigm Corporation Multi-primer amplification method for barcoding of target nucleic acids
WO2011041485A1 (en) 2009-09-30 2011-04-07 Gene Security Network, Inc. Methods for non-invasive prenatal ploidy calling
US8703652B2 (en) * 2009-11-06 2014-04-22 The Board Of Trustees Of The Leland Stanford Junior University Non-invasive diagnosis of graft rejection in organ transplant patients
AU2011207544A1 (en) * 2010-01-19 2012-09-06 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing
US20110312503A1 (en) * 2010-01-23 2011-12-22 Artemis Health, Inc. Methods of fetal abnormality detection
US8574832B2 (en) * 2010-02-03 2013-11-05 Massachusetts Institute Of Technology Methods for preparing sequencing libraries
PL2558854T3 (en) * 2010-04-16 2019-04-30 Chronix Biomedical Breast cancer associated circulating nucleic acid biomarkers
WO2013052557A2 (en) 2011-10-03 2013-04-11 Natera, Inc. Methods for preimplantation genetic diagnosis by sequencing
EP2854058A3 (en) 2010-05-18 2015-10-28 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
WO2011146942A1 (en) * 2010-05-21 2011-11-24 The Translational Genomics Research Institute Methods and kits to analyze microrna by nucleic acid sequencing
PL2576837T3 (en) * 2010-06-04 2018-04-30 Chronix Biomedical Prostate cancer associated circulating nucleic acid biomarkers
JP5449060B2 (en) * 2010-06-30 2014-03-19 三菱重工業株式会社 Wind power generator
EP2426217A1 (en) * 2010-09-03 2012-03-07 Centre National de la Recherche Scientifique (CNRS) Analytical methods for cell free nucleic acids and applications
CN103620055A (en) 2010-12-07 2014-03-05 利兰·斯坦福青年大学托管委员会 Non-invasive determination of fetal inheritance of parental haplotypes at the genome-wide scale
CN103370425B (en) * 2010-12-17 2019-03-19 生命技术公司 For the method for nucleic acid amplification, composition, system, instrument and kit
EP2659003A4 (en) * 2010-12-30 2014-05-21 Foundation Medicine Inc Optimization of multigene analysis of tumor samples
US20120190021A1 (en) 2011-01-25 2012-07-26 Aria Diagnostics, Inc. Detection of genetic abnormalities
JP6153874B2 (en) 2011-02-09 2017-06-28 ナテラ, インコーポレイテッド Method for non-invasive prenatal ploidy calls
RU2650790C2 (en) 2012-07-24 2018-04-17 Натера, Инк. Highly multiplex pcr methods and compositions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EA015913B1 (en) * 2007-01-17 2011-12-30 Учреждение Российской Академии Наук Институт Молекулярной Биологии Им. В.А. Энгельгардта Ран (Имб Ран) Method for genetically identifying a person according to the analysis of the single nucleotide polymorphism of a human genome by means of a oligonucleotide biological microchip (biochip)
US20120122701A1 (en) * 2010-05-18 2012-05-17 Gene Security Network, Inc. Methods for Non-Invasive Prenatal Paternity Testing

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PEIDONG SHEN et al., High-quality DNA sequence capture of 524 disease candidate genes, PNAS, April 19, 2011, Vol.108, No.16, 6549-6554. *
PEIDONG SHEN et al., High-quality DNA sequence capture of 524 disease candidate genes, PNAS, April 19, 2011, Vol.108, No.16, 6549-6554. SIMON FREDRIKSSON et al., Multiplex amplification of all coding sequences within 10 cancer genes by Gene-Collector, Nucleic Acids Research, 2007, Vol.35, No.7, e47. *
SIMON FREDRIKSSON et al., Multiplex amplification of all coding sequences within 10 cancer genes by Gene-Collector, Nucleic Acids Research, 2007, Vol.35, No.7, e47. *

Also Published As

Publication number Publication date
KR20150038216A (en) 2015-04-08
JP6997814B2 (en) 2022-02-10
JP2018183189A (en) 2018-11-22
JP2020054401A (en) 2020-04-09
JP2020054400A (en) 2020-04-09
JP7503043B2 (en) 2024-06-19
CN104685064A (en) 2015-06-03
JP2020058388A (en) 2020-04-16
IL236435A0 (en) 2015-02-26
JP2020054402A (en) 2020-04-09
JP2022051949A (en) 2022-04-01
JP7343563B2 (en) 2023-09-12
JP2022027975A (en) 2022-02-14
JP7510913B2 (en) 2024-07-04
AU2012385961B2 (en) 2017-04-13
JP7027468B2 (en) 2022-03-01
HK1211058A1 (en) 2016-05-13
RU2014152883A (en) 2016-09-10
JP2024113133A (en) 2024-08-21
AU2012385961A1 (en) 2015-02-12
JP6392222B2 (en) 2018-09-19
CA2877493C (en) 2020-08-25
CA2877493A1 (en) 2014-01-30
JP6916153B2 (en) 2021-08-11
JP7348330B2 (en) 2023-09-20
JP2015526073A (en) 2015-09-10
JP6997815B2 (en) 2022-02-10
KR101890466B1 (en) 2018-08-21
JP2024111282A (en) 2024-08-16
SG11201408813VA (en) 2015-02-27
JP2022037145A (en) 2022-03-08
AU2012385961B9 (en) 2017-05-18
WO2014018080A1 (en) 2014-01-30
JP6997813B2 (en) 2022-02-10
JP2022027971A (en) 2022-02-14

Similar Documents

Publication Publication Date Title
JP7503043B2 (en) Highly multiplexed PCR methods and compositions
US11390916B2 (en) Methods for simultaneous amplification of target loci
US20200123612A1 (en) Methods for simultaneous amplification of target loci
RU2671980C2 (en) Methods for non-invasive prenatal ploidy calling
US20170051355A1 (en) Highly multiplex pcr methods and compositions
EP2847347B1 (en) Highly multiplex pcr methods and compositions