RU2805952C2 - Phasing correction - Google Patents

Phasing correction Download PDF

Info

Publication number
RU2805952C2
RU2805952C2 RU2022100379A RU2022100379A RU2805952C2 RU 2805952 C2 RU2805952 C2 RU 2805952C2 RU 2022100379 A RU2022100379 A RU 2022100379A RU 2022100379 A RU2022100379 A RU 2022100379A RU 2805952 C2 RU2805952 C2 RU 2805952C2
Authority
RU
Russia
Prior art keywords
color values
phasing
cycle
nucleic acid
sequencer
Prior art date
Application number
RU2022100379A
Other languages
Russian (ru)
Other versions
RU2022100379A (en
Inventor
Роберт ЛАНГЛУА
Пол БЕЛИЦ
Original Assignee
Иллюмина, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Иллюмина, Инк. filed Critical Иллюмина, Инк.
Publication of RU2022100379A publication Critical patent/RU2022100379A/en
Application granted granted Critical
Publication of RU2805952C2 publication Critical patent/RU2805952C2/en

Links

Abstract

FIELD: biotechnology; medicine.
SUBSTANCE: invention is a method of determining corrected color values from image data obtained during a base sensing cycle using a nucleic acid sequencer comprising an image acquisition system, one or more processors, and a storage device, comprising the following: (a) obtaining an image of a substrate containing a plurality of base sensing sites; nucleic acids, the portions having colors representing types of nucleic bases; (b) measuring color values of a plurality of regions from said substrate image; (c) storing the color values in a processor buffer of one or more sequencer processors; (d) retrieving phasing-corrected color values of a plurality of regions where said phasing-corrected color values were stored in the sequencer memory during the immediately preceding base recognition cycle; and (e) determining the corrected color values from the color values in the processor buffer and the phasing corrected color values stored from the immediately preceding cycle.
EFFECT: invention makes it possible to determine corrected color values from image data obtained using a nucleic acid sequencer during a base recognition cycle.
18 cl, 11 dwg

Description

Перекрестные ссылки на родственные заявкиCross references to related applications

[1] Настоящая заявка испрашивает приоритет на основании предварительной заявки на патент США № 62/443,294, поданной 6 января 2017 г. и озаглавленной «PHASING CORRECTION» (КОРРЕКЦИЯ ФАЗИРОВАНИЯ), которая полностью и для любых целей включена в настоящий документ посредством ссылки.[1] This application claims benefit from U.S. Provisional Patent Application No. 62/443,294, filed January 6, 2017, entitled “PHASING CORRECTION,” which is incorporated herein by reference in its entirety and for all purposes.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE ART

[2] Настоящее раскрытие относится к секвенированию нуклеиновых кислот. Более конкретно, настоящее раскрытие относится к системам и способам для секвенирования в реальном времени с коррекцией фазирования.[2] The present disclosure relates to nucleic acid sequencing. More specifically, the present disclosure relates to systems and methods for real-time sequencing with phase correction.

[3] На определенном участке проточной ячейки или другой подложки совместно анализируют множество копий молекулы нуклеиновой кислоты, имеющих одинаковую последовательность (возможно, с ограниченными вариациями, непреднамеренно внесенными при обработке образца). Используют достаточное количество копий, чтобы сгенерировать достаточный сигнал для обеспечения надежного распознавания оснований. Набор молекул нуклеиновой кислоты на участке называют кластером.[3] Multiple copies of a nucleic acid molecule having the same sequence (possibly with limited variations unintentionally introduced during sample processing) are analyzed together at a specific location in a flow cell or other support. Sufficient copies are used to generate sufficient signal to ensure reliable base recognition. A set of nucleic acid molecules in a site is called a cluster.

[4] Фазирование представляет собой нецелевой артефакт, который возникает в результате секвенирования множества молекул нуклеиновых кислот в кластере. Фазирование представляет собой степень, с которой сигналы, такие как, флуоресценция от отдельных молекул в кластере, теряют синхронизацию друг с другом. Часто термин «фазирование» применяют для обозначения помехи от некоторых молекул, которые характеризуются отставанием, а термин «пре-фазирование» (опережающее) используют для обозначения помехи от других молекул, которые характеризуются опережением. Совместно, фазирование и опережающее фазирование определяют, насколько хорошо работает устройство для секвенирования (секвенатор) и выполняется химический анализ.[4] Phasing is an off-target artifact that results from sequencing multiple nucleic acid molecules in a cluster. Phasing is the degree to which signals, such as fluorescence from individual molecules in a cluster, lose synchronization with each other. Often the term “phasing” is used to refer to interference from some molecules that are lagging, and the term “pre-phasing” (advanced) is used to refer to interference from other molecules that are leading. Together, phasing and phasing forward determine how well the sequencing device (sequencer) performs and the chemical analysis is performed.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯBRIEF DESCRIPTION OF THE INVENTION

[5] Некоторые аспекты этого раскрытия относятся к способам определения скорректированных значений цвета по данным изображения, полученным с помощью секвенатора нуклеиновых кислот в ходе осуществления цикла распознавания оснований, причем секвенатор содержит систему получения изображения, один или более процессоров и запоминающее устройство. Такие способы могут характеризоваться следующими операциями: (а) получение изображения подложки (например, части проточной ячейки), содержащей множество участков, на которых считывают нуклеиновые основания; (b) измерение значений цвета множества участков по изображению подложки, (c) сохранение значений цвета в буфере процессора одного или более процессоров секвенатора; (d) получение (возвращение) значений цвета с частичной коррекцией фазирования для множества участков, причем значения цвета с частичной коррекцией фазирования были сохранены в запоминающем устройстве секвенатора в ходе осуществления непосредственно предшествующего цикла распознавания оснований; (е) определение коррекции опережающего фазирования; и (f) определение скорректированных значений цвета. В различных вариантах реализации все указанные операции выполняют в течение одного цикла распознавания оснований. В некоторых вариантах осуществления способы также включают применение скорректированных значений цвета для распознавания оснований для множества участков.[5] Certain aspects of this disclosure relate to methods for determining corrected color values from image data obtained by a nucleic acid sequencer during a base recognition cycle, the sequencer comprising an image acquisition system, one or more processors, and a memory device. Such methods may be characterized by the following steps: (a) obtaining an image of a substrate (eg, part of a flow cell) containing a plurality of nucleobase readout sites; (b) measuring color values of a plurality of regions from the substrate image, (c) storing the color values in a processor buffer of one or more sequencer processors; (d) obtaining (returning) partial phasing corrected color values for a plurality of regions, wherein the partial phasing corrected color values were stored in the sequencer memory during the immediately preceding base recognition cycle; (f) determining the advanced phasing correction; and (f) determining corrected color values. In various embodiments, all of these operations are performed during a single base recognition cycle. In some embodiments, the methods also include applying adjusted color values to discriminate bases for multiple regions.

[6] В процессе секвенирования участки имеют цвета, представляющие типы оснований нуклеиновых кислот. Измеренные и сохраненные значения цвета могут представлять собой значения интенсивности или другие значения величины при определенной длине волны или диапазоне длин волн. В некоторых вариантах реализации значения цвета определяют только по двум каналам секвенатора. В некоторых вариантах реализации значения цвета получают с применением четырех каналов секвенатора. Хотя настоящее раскрытие сфокусировано на коррекции фазирования цветовых сигналов, эти концепции применимы и в отношении сигналов других типов, генерируемых в процессе секвенирования кластеров нуклеиновых кислот, имеющих идентичные последовательности. Примеры таких других сигналов включают излучение вне видимого спектра, концентрирование ионов и т. д.[6] During the sequencing process, regions are colored to represent the types of nucleic acid bases. The measured and stored color values may be intensity values or other magnitude values at a specific wavelength or range of wavelengths. In some embodiments, color values are determined from only two channels of the sequencer. In some embodiments, color values are obtained using four channels of a sequencer. Although the present disclosure focuses on correcting the phasing of color signals, these concepts are also applicable to other types of signals generated during the sequencing of clusters of nucleic acids having identical sequences. Examples of such other signals include radiation outside the visible spectrum, ion concentration, etc.

[7] В некоторых вариантах осуществления для определения скорректированных значений цвета в операции (f) применяют (i) значения цвета в буфере процессора, (ii) значения с частичной коррекцией фазирования, сохраненные в ходе осуществления непосредственно предшествующего цикла, и (iii) коррекцию опережающего фазирования. В некоторых вариантах осуществления для определения коррекции опережающего фазирования в операции (e) применяют (i) значения цвета с частичной коррекцией фазирования, сохраненные в ходе осуществления непосредственно предшествующего цикла распознавания оснований, и (ii) значения цвета, сохраненные в буфере процессора.[7] In some embodiments, step (f) uses (i) color values in a processor buffer, (ii) partially phase-corrected values stored from the immediately preceding loop, and (iii) forward correction to determine corrected color values in step (f). phasing. In some embodiments, step (e) uses (i) partially phase-corrected color values stored during the immediately preceding base detection cycle and (ii) color values stored in a processor buffer to determine the advanced phasing correction in step (e).

[8] В некоторых вариантах осуществления коррекция опережающего фазирования включает весовой коэффициент (вес). В таких вариантах осуществления операция определения скорректированных значений цвета может включать умножение весов на значения цвета множества участков, измеренные по изображению подложки.[8] In some embodiments, the phasing advance correction includes a weighting factor (weight). In such embodiments, the operation of determining the corrected color values may include multiplying the weights by the color values of the plurality of regions measured from the substrate image.

[9] В некоторых вариантах реализации способы также включают определение коррекции фазирования для непосредственно следующего цикла распознавания оснований. В качестве примера, определение коррекции фазирования для непосредственно следующего цикла распознавания оснований включает анализ (i) значений цвета с частичной коррекцией фазирования, хранимых в запоминающем устройстве секвенатора, и (ii) значений цвета, хранимых в буфере процессора. В некоторых вариантах осуществления, включающих определение коррекции фазирования для непосредственно следующего цикла распознавания оснований, способы также включают (i) получение значений цвета с частичной коррекцией фазирования для непосредственно следующего цикла распознавания оснований путем применения коррекции фазирования в отношении значений цвета множества участков, хранимых в запоминающем устройстве секвенатора; и (ii) сохранение значений цвета с частичной коррекцией фазирования для непосредственно следующего цикла распознавания оснований в запоминающем устройстве секвенатора. В некоторых вариантах осуществления получение значений цвета с частичной коррекцией фазирования для непосредственно следующего цикла распознавания оснований также включает суммирование (i) значений цвета со скорректированным фазированием множества участков и (ii) значений цвета множества участков из изображения подложки, измеренной в п. (b). В некоторых вариантах реализации при сохранении значений цвета с частичной коррекцией фазирования для непосредственно следующего цикла распознавания оснований частично скорректированные значения цвета сохраняют в буферах сегмента запоминающего устройства секвенатора.[9] In some embodiments, the methods also include determining a phasing correction for the immediately following base recognition cycle. As an example, determining the phasing correction for the immediately following base discrimination cycle involves analyzing (i) the partially phasing corrected color values stored in the sequencer memory and (ii) the color values stored in the processor buffer. In some embodiments involving determining a phasing correction for the immediately following base recognition cycle, the methods also include (i) obtaining partially phasing corrected color values for the immediately following base recognition cycle by applying the phasing correction to the color values of a plurality of regions stored in a storage device sequencer; and (ii) storing the partially phase-corrected color values for the immediately following base discrimination cycle in the sequencer memory. In some embodiments, obtaining the partial phase-corrected color values for the immediately following base recognition cycle also includes summing (i) the multiple-region phase-corrected color values and (ii) the multiple-region color values from the substrate image measured in (b). In some embodiments, when storing partially phase-corrected color values for the immediately following base recognition cycle, the partially corrected color values are stored in sequencer memory segment buffers.

[10] В некоторых вариантах осуществления способы выполняют в реальном времени в ходе получения считываний последовательностей секвенатором нуклеиновых кислот. В некоторых вариантах осуществления секвенатор нуклеиновых кислот осуществляет секвенирование путем синтеза нуклеиновых кислот на множестве участков. В некоторых вариантах осуществления, в которых подложка содержит проточную ячейку, проточную ячейку логически разделяют на сегменты и каждый сегмент представляет собой область проточной ячейки, содержащую подмножество участков, причем это подмножество фиксируют в одном изображении с помощью системы получения изображения.[10] In some embodiments, the methods are performed in real time while sequence reads are obtained by a nucleic acid sequencer. In some embodiments, the nucleic acid sequencer performs sequencing by synthesizing nucleic acids at multiple sites. In some embodiments in which the substrate contains a flow cell, the flow cell is logically divided into segments and each segment represents a region of the flow cell containing a subset of regions, which subset is captured in a single image by the imaging system.

[11] В некоторых вариантах осуществления с применением таких систем в операции (d) (извлечение значений цвета с частичной коррекцией фазирования для множества участков) значения цвета с частичной коррекцией фазирования были предварительно сохранены в буферах сегмента запоминающего устройства секвенатора, причем буферы сегмента выполнены с возможностью хранения данных, представляющих изображения отдельных сегментов на подложке. В некоторых вариантах осуществления емкость запоминающего устройства составляет около 512 Гигабайт или менее или около 256 Гигабайт или менее. В некоторых вариантах осуществления, например, запоминающее устройство имеет емкость, которая в два раза меньше емкости, необходимой для хранения данных, содержащихся во всех сегментах в двух проточных ячейках. В некоторых вариантах осуществления обработка, описанная в данном документе, позволяет сэкономить по меньшей мере около 50 Гигабайт; а в некоторых вариантах осуществления по меньшей мере около 100 Гигабайт.[11] In some embodiments using such systems, in step (d) (retrieving partial phasing corrected color values for a plurality of regions), the partial phasing corrected color values were previously stored in segment buffers of the sequencer memory, wherein the segment buffers are configured to storing data representing images of individual segments on the substrate. In some embodiments, the storage capacity is about 512 Gigabytes or less, or about 256 Gigabytes or less. In some embodiments, for example, the storage device has a capacity that is half the capacity required to store the data contained in all segments in two flow cells. In some embodiments, the processing described herein saves at least about 50 Gigabytes; and in some embodiments, at least about 100 Gigabytes.

[12] В некоторых вариантах реализации перед выполнением операции (а) (получение изображения подложки) способы также включают помещение (обеспечение наличия) реагентов в проточную ячейку и обеспечение возможности взаимодействия реагентов с участками, в результате чего участки будут иметь цвета, соответствующие типам нуклеиновых оснований, в ходе осуществления цикла распознавания оснований. В таких вариантах реализации способ также может включать после операции (f) (определения скорректированных значений цвета): (i) помещение свежих реагентов в проточную ячейку и обеспечение возможности взаимодействия свежих реагентов с участками, в результате чего участки будут иметь цвета, соответствующие типам нуклеиновых оснований, для следующего цикла распознавания оснований; и (ii) повторное выполнение операций (а)-(е) следующего цикла распознавания оснований. Такие способы также могут включать создание первого потока процессора для выполнения операций (a)-(f) для цикла распознавания оснований и создание второго потока процессора для выполнения операций (a)-(f) для следующего цикла распознавания оснований. В некоторых вариантах осуществления указанные способы также включают выделение буфера процессора и второго буфера процессора, причем второй буфер процессора используют для определения скорректированных значений цвета в п. (f).[12] In some embodiments, before performing step (a) (taking an image of the substrate), the methods also include placing (providing) reagents in the flow cell and allowing the reagents to interact with the sites, resulting in the sites having colors corresponding to the types of nucleic bases , during the base recognition cycle. In such embodiments, the method may also include, after step (f) (determining the corrected color values): (i) placing fresh reagents in the flow cell and allowing the fresh reagents to react with the patches, causing the patches to have colors corresponding to the types of nucleobases , for the next base recognition cycle; and (ii) repeating steps (a)-(e) of the next base recognition cycle. Such methods may also include creating a first processor thread to perform operations (a)-(f) for a base recognition cycle and creating a second processor thread to perform operations (a)-(f) for the next base recognition cycle. In some embodiments, the methods also include allocating a processor buffer and a second processor buffer, wherein the second processor buffer is used to determine the adjusted color values in (f).

[13] Некоторые другие аспекты раскрытия относятся к секвенаторам нуклеиновых кислот, которые могут характеризоваться следующими элементами: системы получения изображения; запоминающего устройства; и одного или более процессоров, выполненных с возможностью или сконфигурированных для: (а) получения данных, представляющих изображение подложки, содержащей множество участков, на которых считывают нуклеиновые основания (на указанных участках проявляются, например, цвета, соответствующие типам нуклеиновых оснований); (b) получения значений цвета для множества участков из изображения подложки; (c) сохранения значений цвета в буфере процессора; (d) извлечения значений цвета с частичной коррекцией фазирования для множества участков для цикла распознавания оснований (значения цвета с частичной коррекцией фазирования были сохранены в запоминающем устройстве секвенатора в ходе осуществления непосредственно предшествующего цикла распознавания оснований); (e) определения коррекции опережающего фазирования; и (f) определения скорректированных значений цвета по, например, (i) значениям цвета в буфере процессора, (ii) значений с частичной коррекцией фазирования, сохраненных в течение непосредственно предшествующего цикла, и (iii) коррекции опережающего фазирования.[13] Certain other aspects of the disclosure relate to nucleic acid sequencers, which may be characterized by the following elements: imaging systems; storage device; and one or more processors configured or configured to: (a) obtain data representing an image of a substrate comprising a plurality of regions at which nucleic acid bases are read (at which regions appear, for example, colors corresponding to types of nucleic acid bases); (b) obtaining color values for a plurality of regions from the substrate image; (c) storing color values in a processor buffer; (d) retrieving partial phasing corrected color values for a plurality of sites for the base recognition cycle (the partial phasing corrected color values were stored in the sequencer memory during the immediately preceding base recognition cycle); (e) determining the advanced phasing correction; and (f) determining corrected color values from, for example, (i) color values in a processor buffer, (ii) partially phasing corrected values stored during the immediately preceding cycle, and (iii) phasing advance correction.

[14] Команды или другая конфигурация (вариант выполнения) для определения коррекции опережающего фазирования могут включать конфигурацию для определения коррекции опережающего фазирования из (i) значений цвета с частичной коррекцией фазирования, сохраненных в ходе осуществления непосредственно предшествующего цикла распознавания оснований, и (ii) значений цвета, сохраненных в буфере процессора.[14] Instructions or other configuration (embodiment) for determining the phasing advance correction may include a configuration for determining the phasing advance correction from (i) the partial phasing correction color values stored during the implementation of the immediately preceding base recognition cycle, and (ii) the values colors stored in the processor buffer.

[15] В некоторых вариантах осуществления запоминающее устройство разделяют на множество буферов сегмента, каждый из которых выполнен с возможностью хранения данных, представляющих одно изображение сегмента на подложке. В некоторых вариантах осуществления запоминающее устройство имеет емкость менее приблизительно 550 Гигабайт (в некоторых примерах, что в два раза меньше объема, необходимого для хранения данных, содержащихся во всех сегментах в двух проточных ячейках).[15] In some embodiments, the storage device is divided into a plurality of segment buffers, each of which is configured to store data representing one segment image on a substrate. In some embodiments, the storage device has a capacity of less than about 550 Gigabytes (in some examples, less than half the capacity required to store the data contained in all segments in two flow cells).

[16] Процессоры могут быть сконфигурированы для осуществления описанных операций различными способами, например, путем получения исполняемых машиночитаемых команд. В некоторых случаях процессоры программируют с помощью аппаратно реализованного программного обеспечения или ядер для специализированной обработки, например, ядер цифровой обработки сигналов. В различных вариантах осуществления процессор (-ы) выполнены с возможностью или сконфигурированы для осуществления (и/или управления) любой одной или более операциями способа, описанными выше.[16] Processors can be configured to perform the described operations in a variety of ways, such as by receiving executable machine-readable instructions. In some cases, processors are programmed using hardware-based software or specialized processing cores, such as digital signal processing cores. In various embodiments, the processor(s) are configured or configured to perform (and/or control) any one or more of the method operations described above.

[17] В некоторых вариантах реализации раскрытые в данном документе функции коррекции фазирования позволяют существенно снизить стоимость прибора для секвенирования за счет более эффективного использования запоминающего устройства (например, оперативного запоминающего устройства (ОЗУ)). В некоторых вариантах осуществления эти функции коррекции фазирования используют в контексте анализа в реальном времени (RTA) на платформах секвенирования.[17] In some embodiments, the phasing correction functions disclosed herein can significantly reduce the cost of a sequencing instrument through more efficient use of a storage device (eg, random access memory (RAM)). In some embodiments, these phasing correction functions are used in the context of real-time analysis (RTA) on sequencing platforms.

[18] Эти и другие признаки раскрытия будут представлены более подробно ниже со ссылкой на соответствующие чертежи.[18] These and other features of the disclosure will be presented in more detail below with reference to the corresponding drawings.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[19] На фиг. 1 представлена блок-схема секвенатора с аппаратным обеспечением для анализа в реальном времени данных изображения, полученных из кластеров нуклеиновой кислоты.[19] In FIG. Figure 1 shows a block diagram of a sequencer with hardware for real-time analysis of image data obtained from nucleic acid clusters.

[20] На фиг. 2 представлена иллюстрация данных двухканального секвенирования для иллюстрации концепций фазирования и опережающего фазирования.[20] In FIG. Figure 2 provides an illustration of dual-channel sequencing data to illustrate the concepts of phasing and phasing-advance.

[21] На фиг. 3 изображена архитектура проточной ячейки, содержащей множество сегментов, каждый из которых содержит множество кластеров.[21] In FIG. 3 shows the architecture of a flow cell containing a plurality of segments, each of which contains a plurality of clusters.

[22] На фиг. 4 показан массив данных, содержащий данные величины для кластеров в сегменте или другого отображаемого фрагмента проточной ячейки; причем данные величины могут представлять собой значения интенсивности света для каждого из двух или более цветовых каналов.[22] In FIG. 4 shows a data array containing value data for clusters in a segment or other displayed fragment of a flow cell; wherein these values may be light intensity values for each of two or more color channels.

[23] На фиг. 5 схематично изображены первая конфигурация обработки и способ проведения коррекции фазирования в реальном времени.[23] In FIG. 5 schematically illustrates a first processing configuration and a method for performing real-time phasing correction.

[24] На фиг. 6 представлена блок-схема процесса распознавания оснований, в котором может быть использована конфигурация процессора и запоминающего устройства, показанная на фиг. 5.[24] In FIG. 6 is a flow diagram of a base recognition process in which the processor and memory configuration shown in FIG. 5.

[25] На фиг. 7 схематично изображены вторая конфигурация обработки и способ проведения коррекции фазирования в реальном времени. Эта конфигурация позволяет снизить требования к системному запоминающему устройству.[25] In FIG. 7 schematically illustrates a second processing configuration and a method for performing real-time phasing correction. This configuration reduces system storage requirements.

[26] На фиг. 8 схематично изображены третья конфигурация обработки и способ проведения коррекции фазирования в реальном времени. Эта конфигурация позволяет дополнительно снизить требования к системному запоминающему устройству.[26] In FIG. 8 schematically illustrates a third processing configuration and a method for performing real-time phasing correction. This configuration further reduces system storage requirements.

[27] На фиг. 9 представлена высокоуровневая блок-схема первых нескольких циклов обработки, которые могут быть использованы с конфигурацией процессора и запоминающего устройства, показанной на фиг. 8, и, в некоторых вариантах реализации, показанной на фиг. 7.[27] In FIG. 9 is a high-level block diagram of the first few processing cycles that may be used with the processor and memory configuration shown in FIG. 8, and, in some embodiments shown in FIG. 7.

[28] На фиг. 10 представлена блок-схема циклов обработки, в которых распознавание оснований проводят с полностью скорректированным фазированием. Такой цикл может быть выполнен в третьем и последующих циклах обработки при секвенировании кластеров сегмента.[28] In FIG. 10 shows a flow chart of processing cycles in which base recognition is carried out with fully corrected phasing. Such a cycle can be performed in the third and subsequent processing cycles when sequencing segment clusters.

[29] На фиг. 11 представлены сравнительные данные для способов коррекции фазирования с использованием алгоритма применения уменьшенного объема основного запоминающего устройства.[29] In FIG. 11 presents comparative data for phasing correction methods using an algorithm for using a reduced volume of the main storage device.

ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION

ОПРЕДЕЛЕНИЯDEFINITIONS

[30] Числовые диапазоны включают числа, определяющие диапазон. Предполагается, что каждое максимальное числовое ограничение, приведенное в данном описании, включает каждое меньшее числовое ограничение, как если бы такие меньшие числовые ограничения были непосредственно указаны в данном документе. Предполагается, что каждое минимальное числовое ограничение, приведенное в данном описании, будет включать каждое большее числовое ограничение, как если бы такие большие числовые ограничения были явным образом указаны в данном документе. Каждый числовой диапазон, приведенный в данном описании, будет включать каждый более узкий числовой диапазон, относящийся к такому более широкому числовому диапазону, как если бы все такие более узкие числовые диапазоны были явным образом указаны в данном документе.[30] Numeric ranges include numbers that define a range. Each maximum numeric limitation set forth herein is intended to include each lesser numeric limitation as if such lesser numeric limitations were expressly stated herein. It is intended that each minimum numerical limitation set forth herein will include each higher numerical limitation as if such higher numerical limitations were expressly stated herein. Each numerical range set forth herein will include each narrower numerical range referred to within such broader numerical range as if all such narrower numerical ranges were expressly set forth herein.

[31] Заголовки, представленные в данном документе, не предназначены для ограничения раскрытия.[31] The headings set forth herein are not intended to limit disclosure.

[32] Если в данном документе не указано иное, все технические и научные термины, используемые в данном документе, имеют то же значение, которое обычно понятно для специалистов в данной области техники. Различные научные словари, которые включают термины, включенные в данный документ, хорошо известны и доступны специалистам в данной области. Хотя любые способы и материалы, подобные или эквивалентные способам и материалам, описанным в данном документе, находят применение на практике или при испытании вариантов осуществления, раскрытых в данном документе, для некоторых способов и материалов приведено описание.[32] Unless otherwise defined herein, all technical and scientific terms used herein have the same meaning as commonly understood by those skilled in the art. Various scientific vocabularies that include the terms included herein are well known and available to those skilled in the art. Although any methods and materials similar or equivalent to the methods and materials described herein find use in the practice or testing of the embodiments disclosed herein, certain methods and materials are described.

[33] Термины, определенные ниже, более подробно описаны со ссылкой на полное описание. Следует понимать, что данное раскрытие не ограничено конкретным описанным способом, протоколами и реагентами, поскольку они могут варьироваться в зависимости от контекста их использования специалистами в данной области техники.[33] The terms defined below are described in more detail by reference to the full specification. It should be understood that this disclosure is not limited to the specific method, protocols and reagents described, as these may vary depending on the context of their use by those skilled in the art.

[34] Используемые в данном документе грамматические формы единственного числа подразумевают ссылку на множественное число, если контекст явно не указывает на иное. Термин «множество» относится к более чем одному элементу. Например, указанный термин использован в данном документе применительно к количеству считываний для получения фазированного островка с использованием способов, раскрытых в данном документе.[34] The singular grammatical forms used herein are intended to refer to the plural unless the context clearly indicates otherwise. The term "set" refers to more than one element. For example, the term is used herein in reference to the number of reads to obtain a phased islet using the methods disclosed herein.

[35] Термин «фрагмент» использован в данном документе в отношении количества информации о последовательности генома, хромосомы или гаплотипа в биологическом образце, которое в сумме меньше количества информации о последовательности одного полного генома, одной полной хромосомы или одного полного гаплотипа, как явствует из контекста.[35] The term “fragment” is used herein to refer to an amount of genome, chromosome, or haplotype sequence information in a biological sample that totals less than the amount of sequence information of one complete genome, one complete chromosome, or one complete haplotype as apparent from the context .

[36] Термин «образец» в данном документе относится к образцу, как правило, полученному из биологической жидкости, клетки, ткани, органа или организма и содержащему нуклеиновую кислоту или смесь нуклеиновых кислот, содержащих по меньшей мере одну последовательность нуклеиновой кислоты, подлежащую секвенированию. Такие образцы включают, без ограничений, мокроту/жидкость ротовой полости, околоплодную жидкость, спинномозговую жидкость, кровь, фракцию крови (например, сыворотку или плазму), образцы, полученные при биопсии тонкой иглой (например, хирургической биопсии, биопсии тонкой иглой и т. д.), мочу, слюну, сперму, пот, слезы, жидкость брюшной полости, плевральную жидкость, эксплантатную ткань в жидкости для промывания, культуру органа и любой другой тканевый или клеточный препарат, или их фракцию, или производное, или выделение из них.[36] The term “sample” as used herein refers to a sample, typically obtained from a biological fluid, cell, tissue, organ or organism, and containing a nucleic acid or mixture of nucleic acids containing at least one nucleic acid sequence to be sequenced. Such specimens include, but are not limited to, sputum/oral fluid, amniotic fluid, cerebrospinal fluid, blood, blood fraction (e.g., serum or plasma), fine needle biopsy specimens (e.g., surgical biopsy, fine needle biopsy, etc.). etc.), urine, saliva, semen, sweat, tears, abdominal fluid, pleural fluid, explant tissue in lavage fluid, organ culture and any other tissue or cellular preparation, or a fraction or derivative thereof, or isolation from them.

[37] Хотя образец часто берут у человека (например, пациента), образцы могут быть взяты из любого организма, имеющего хромосомы, включая, без ограничений, собак, кошек, лошадей, коз, овец, крупный рогатый скот, свиней и т. д. Образец может быть использован непосредственно при получении из биологического источника или после предварительной обработки для изменения свойств образца. Например, такая предварительная обработка может включать приготовление плазмы из крови, разбавление вязких жидкостей и т. д. Способы предварительной обработки также могут включать, без ограничений, фильтрацию, осаждение, разбавление, дистилляцию, смешивание, центрифугирование, замораживание, лиофилизацию, концентрирование, амплификацию, фрагментацию нуклеиновой кислоты, инактивацию нежелательных компонентов, добавление реагентов, лизирование и т. д. Если такие способы предварительной обработки применяют к образцу, в таких способах предварительной обработки исследуемая нуклеиновая кислота (-ы) обычно остается в исследуемом образце, иногда в концентрации, пропорциональной концентрации в необработанном исследуемом образце (например, именно в образце, в к которому не применяли какой-либо подобный способ (-ы) предварительной обработки). Такие «обработанные» или «подготовленные» образцы по-прежнему считаются биологическими «исследуемыми» образцами в контексте способов, описанных в настоящем документе.[37] Although the sample is often taken from a human (eg, a patient), samples can be taken from any organism that has chromosomes, including, but not limited to, dogs, cats, horses, goats, sheep, cattle, pigs, etc. A sample can be used directly when obtained from a biological source or after pre-treatment to modify the properties of the sample. For example, such pretreatment may include preparing plasma from blood, diluting viscous liquids, etc. Pretreatment methods may also include, but are not limited to, filtration, sedimentation, dilution, distillation, mixing, centrifugation, freezing, lyophilization, concentration, amplification, fragmentation of the nucleic acid, inactivation of unwanted components, addition of reagents, lysing, etc. If such pretreatment methods are applied to a sample, in such pretreatment methods the nucleic acid(s) of interest typically remain in the sample of interest, sometimes at a concentration proportional to the concentration in the untreated test sample (eg, specifically in a sample to which no such pre-treatment method(s) have been applied). Such “processed” or “prepared” samples are still considered biological “research” samples in the context of the methods described herein.

[38] Термины «полинуклеотид», «нуклеиновая кислота» и «молекулы нуклеиновой кислоты» используют взаимозаменяемо, и они относятся к ковалентно связанной последовательности нуклеотидов (т. е. рибонуклеотидов в случае РНК и дезоксирибонуклеотидов в случае ДНК), в которой 3'-положение пентозы одного нуклеотида соединено фосфодиэфирной группой с 5'-положением пентозы следующего нуклеотида. Нуклеотиды включают последовательности любой формы нуклеиновой кислоты, включая, без ограничений, молекулы РНК и ДНК. Термин «полинуклеотид» включает, без ограничений, одноцепочечный и двухцепочечный полинуклеотид.[38] The terms "polynucleotide", "nucleic acid" and "nucleic acid molecules" are used interchangeably and refer to a covalently linked sequence of nucleotides (i.e., ribonucleotides in the case of RNA and deoxyribonucleotides in the case of DNA) in which the 3'- The pentose position of one nucleotide is connected by a phosphodiester group to the 5' pentose position of the next nucleotide. Nucleotides include sequences of any form of nucleic acid, including, but not limited to, RNA and DNA molecules. The term "polynucleotide" includes, without limitation, single-stranded and double-stranded polynucleotide.

[39] Одноцепочечные молекулы полинуклеотида могут образовываться в одноцепочечной форме, в виде ДНК или РНК, или образовываться в форме двухцепочечной ДНК (дцДНК) (например, сегментов геномной ДНК, продуктов полимеразной цепной реакции (ПЦР) и амплификации, и т. п). Таким образом, одноцепочечный полинуклеотид может быть кодирующей или некодирующей цепью двухцепочечного полинуклеотида. Способы получения одноцепочечных молекул полинуклеотида, подходящих для использования в описанных способах, с использованием стандартных способов хорошо известны в данной области техники. Точная последовательность первичных полинуклеотидных молекул, как правило, несущественна для раскрытых вариантов осуществления и может быть известна или неизвестна. Одноцепочечные молекулы полинуклеотида могут представлять собой молекулы геномной ДНК (например, геномной ДНК человека), включая как интронные, так и экзонные последовательности (кодирующие последовательности), а также некодирующие регуляторные последовательности, такие как промоторные и энхансерные последовательности.[39] Single-stranded polynucleotide molecules can be formed in single-stranded form, as DNA or RNA, or formed in double-stranded DNA (dsDNA) form (eg, genomic DNA segments, polymerase chain reaction (PCR) and amplification products, etc.). Thus, a single-stranded polynucleotide may be the coding or non-coding strand of a double-stranded polynucleotide. Methods for preparing single-stranded polynucleotide molecules suitable for use in the described methods using standard methods are well known in the art. The exact sequence of the primary polynucleotide molecules is generally immaterial to the disclosed embodiments and may or may not be known. The single-stranded polynucleotide molecules may be genomic DNA molecules (eg, human genomic DNA), including both intronic and exonic sequences (coding sequences), as well as non-coding regulatory sequences such as promoter and enhancer sequences.

[40] Описанная в данном документе нуклеиновая кислота может иметь любую длину, подходящую для использования в предоставленных способах. Например, целевые нуклеиновые кислоты могут иметь длину по меньшей мере 10, по меньшей мере 20, по меньшей мере 30, по меньшей мере 40, по меньшей мере 50, по меньшей мере 75, по меньшей мере 100, по меньшей мере 150, по меньшей мере 200, по меньшей мере 250, по меньшей мере 500 или по меньшей мере 1000 тысяч пар нуклеотидов (килобаз = тысяч пар оснований) или более.[40] The nucleic acid described herein can be of any length suitable for use in the provided methods. For example, the target nucleic acids may have a length of at least 10, at least 20, at least 30, at least 40, at least 50, at least 75, at least 100, at least 150, at least at least 200, at least 250, at least 500, or at least 1000 kilobases (kilobases = thousand base pairs) or more.

[41] В контексте проточной ячейки или другой подложки (субстрата) для секвенирования термин «участок» относится к небольшой области, где осуществляют секвенирование. Во многих вариантах осуществления участок содержит множество, как правило, большое множество копий одной последовательности нуклеиновой кислоты, по которой получают данные секвенирования. Данные последовательности, полученные с участка, могут представлять собой «риды» (считывания).[41] In the context of a flow cell or other sequencing substrate, the term "site" refers to the small area where sequencing is performed. In many embodiments, a region contains multiple, typically large, multiple copies of a single nucleic acid sequence from which sequencing data is derived. The sequence data obtained from a site may be “reads”.

[42] Термин «полиморфизм» или «генетический полиморфизм» в данном документе использованы для обозначения наличия в одной и той же популяции двух или более аллелей в одном генетическом локусе. Различные формы полиморфизма включают однонуклеотидные полиморфизмы, тандемные повторы, микроделеции, вставки, инсерционно-делеционные мутации и другие полиморфизмы.[42] The term "polymorphism" or "genetic polymorphism" is used herein to refer to the presence of two or more alleles at a single genetic locus in the same population. Various forms of polymorphism include single nucleotide polymorphisms, tandem repeats, microdeletions, insertions, insertion-deletion mutations, and other polymorphisms.

[43] Термин «распознавание оснований» относится к назначенному основанию (типу нуклеотида) для данных последовательности для конкретного положения в полинуклеотидной последовательности. Распознанное основание может выводиться секвенатором для каждого положения в секвенируемой нуклеиновой кислоте. Иногда распознавание оснований характеризуется качеством распознавания.[43] The term "base recognition" refers to the assigned base (nucleotide type) to sequence data for a specific position in a polynucleotide sequence. A recognized base can be output by the sequencer for each position in the nucleic acid being sequenced. Sometimes base recognition is characterized by the quality of recognition.

[44] Термин «рид» относится к последовательности, считанной с фрагмента образца нуклеиновой кислоты. Как правило, хотя и не обязательно, рид представляет короткую последовательность соседних пар оснований в образце. Рид может быть символически представлено последовательностью пар оснований (как ATCG)) фрагмента образца. Она может храниться в запоминающем устройстве и обрабатываться соответствующим образом для определения того, соответствует ли она референсной последовательности или другим критериям. Рид может быть получен непосредственно с устройства для секвенирования или косвенно из хранимой информации о последовательности, относящейся к образцу. В некоторых случаях рид представляет собой последовательность ДНК достаточной длины (например, по меньшей мере приблизительно 25 пар оснований), которая может использоваться для идентификации большей последовательности или области, например, которая может выравниваться и быть специфично связана с хромосомой, или геномной областью или геном .[44] The term "read" refers to the sequence read from a fragment of a nucleic acid sample. Typically, although not necessarily, a read represents a short sequence of adjacent base pairs in a sample. A read can be symbolically represented by a sequence of base pairs (like ATCG)) of a sample fragment. It may be stored in a storage device and processed accordingly to determine whether it matches a reference sequence or other criteria. The read can be obtained directly from the sequencing device or indirectly from stored sequence information related to the sample. In some cases, a read is a DNA sequence of sufficient length (eg, at least about 25 base pairs) that can be used to identify a larger sequence or region, for example, that can align to and be specifically associated with a chromosome, or a genomic region or genome.

[45] Термин «секвенирование следующего поколения (NGS)» в данном документе относится к методам секвенирования, которые обеспечивают массовое параллельное секвенирование кольнально амплифицированных молекул и отдельных молекул нуклеиновой кислоты. Неограничивающие примеры секвенирования следующего поколения включают секвенирование путем синтеза с использованием обратимых меченых красителем терминаторов и секвенирование путем лигирования.[45] The term “next generation sequencing (NGS)” as used herein refers to sequencing methods that provide massively parallel sequencing of co-amplified molecules and single nucleic acid molecules. Non-limiting examples of next generation sequencing include sequencing by synthesis using reversible dye-labeled terminators and sequencing by ligation.

[46] Термин «параметр» в данном документе относится к числовому значению, которое характеризует физическое свойство или представление этого свойства. В некоторых ситуациях параметр численно характеризует набор количественных данных и/или числовое соотношение между наборами количественных данных. Например, среднее значение и дисперсия аппроксимации стандартного распределения для гистограммы являются параметрами.[46] The term “parameter” as used herein refers to a numeric value that characterizes a physical property or a representation of that property. In some situations, a parameter numerically characterizes a set of quantitative data and/or a numerical relationship between sets of quantitative data. For example, the mean and variance of the standard distribution approximation for a histogram are parameters.

[47] Термины «порог» (пороговое значение) в данном документе относятся к любому числу, используемому в качестве предельной величины для характеристики образца, нуклеиновой кислоты или их фрагмента (например, рида). Пороговое значение можно сравнивать с измеренным или вычисленным значением для определения того, следует ли классифицировать источник такого значения определенным образом. Пороговые значения могут определяться эмпирически или аналитически. Выбор порогового значения зависит от уровня достоверности, который пользователь будет использовать при классификации. Иногда их выбирают для конкретной цели (например, чтобы сбалансировать чувствительность и избирательность).[47] The terms “threshold” as used herein refer to any number used as a cut-off value to characterize a sample, nucleic acid, or fragment thereof (eg, a read). A threshold value can be compared to a measured or calculated value to determine whether the source of that value should be classified in a particular way. Threshold values can be determined empirically or analytically. The choice of threshold value depends on the level of confidence that the user will use in the classification. Sometimes they are chosen for a specific purpose (for example, to balance sensitivity and selectivity).

[48] Анализ в реальном времени относится к процессу и системе, в которых обработку и анализ данных выполняют в фоновом режиме относительно сбора данных в ходе секвенирования ДНК. Пример системы анализа в реальном времени описан в патенте США № 8,965,076, который полностью включен в настоящее описание посредством ссылки.[48] Real-time analysis refers to the process and system in which data processing and analysis is performed in the background relative to data collection during DNA sequencing. An example of a real-time analysis system is described in US Pat. No. 8,965,076, which is incorporated herein by reference in its entirety.

КОНТЕКСТ ДЛЯ ФАЗИРОВАНИЯCONTEXT FOR PHASING

Устройство для секвенированияSequencing device

[49] На фиг. 1 представлена блок-схема некоторых компонентов типового секвенатора 100 нуклеиновой кислоты или системы, включающей такой секвенатор. В частности, система 100 содержит проточную ячейку 101 и систему 103 получения изображения, один или более процессоров 105 с одним или более буферами 107 и системное запоминающее устройство (иногда называемое основным запоминающим устройством) 109, содержащее множество буферов 111 сегмента. Как правило, системное запоминающее устройство 109 находится в устройстве, которое не является частью интегральной схемы, содержащей какой-либо из одного или более процессоров 105. В некоторых вариантах осуществления системное запоминающее устройство представляет собой энергозависимое запоминающее устройство, такое как оперативное запоминающее устройство или ОЗУ, например, динамическое запоминающее устройство с произвольной выборкой (DRAM), твердотельный накопитель или накопитель на жестком диске.[49] In FIG. 1 is a block diagram of some of the components of a typical nucleic acid sequencer 100 or a system including such a sequencer. Specifically, system 100 includes a flow cell 101 and an image acquisition system 103, one or more processors 105 with one or more buffers 107, and a system memory (sometimes referred to as main storage) 109 containing a plurality of segment buffers 111. Typically, system storage 109 is located in a device that is not part of an integrated circuit containing any of one or more processors 105. In some embodiments, system storage is volatile storage, such as random access memory or RAM. for example, dynamic random access memory (DRAM), solid state drive, or hard disk drive.

[50] Проточная ячейка и система получения изображений содержат компоненты, выполненные или сконфигурированные в соответствии с принципами, понятными в области секвенирования нуклеиновых кислот, и они не будут подробно описаны в данном документе. Подходящие системы анализа изображений и соответствующие проточные ячейки используют в секвенаторах нуклеиновой кислоты, например, секвенаторах серий MiSeq и HiSeq, производимых компанией Illumina, Inc., Сан-Диего, Калифорния. Для получения дополнительной информации см. патент США № 8,241,573, патент США № 9,193,996 и патент США № 8,951,781, каждый из которых полностью включен в настоящее описание посредством ссылки.[50] The flow cell and imaging system contain components made or configured in accordance with principles understood in the field of nucleic acid sequencing, and they will not be described in detail herein. Suitable image analysis systems and associated flow cells are used in nucleic acid sequencers, such as the MiSeq and HiSeq series sequencers manufactured by Illumina, Inc., San Diego, California. For further information, see US Patent No. 8,241,573, US Patent No. 9,193,996, and US Patent No. 8,951,781, each of which is incorporated herein by reference in its entirety.

[51] Обычно, последовательности нуклеиновой кислоты, подходящие для применения с раскрытыми способами, обеспечивают быстрое и эффективное одновременное обнаружение множества целевых нуклеиновых кислот. Они могут включать жидкостные компоненты, способные доставлять реагенты для амплификации и/или реагенты для секвенирования к одному или более фрагментам иммобилизованной ДНК, причем система содержит такие компоненты, как насосы, клапаны, резервуары, жидкостные линии и т. п. Проточная ячейка может быть установлена и/или использована в интегрированной системе для обнаружения целевых нуклеиновых кислот. Типовые проточные ячейки описаны, например, в 2010/0111768 A1 (США) и № 13/273,666 (США), каждый из которых полностью включен в настоящее описание посредством ссылки. Как показано для проточных ячеек, один или более жидкостных компонентов интегрированной системы можно использовать как для способа амплификации, так и для способа обнаружения (детектирования). Например, один или более жидкостных компонентов интегрированной системы можно использовать для способа амплификации и для доставки реагентов для секвенирования в способе секвенирования. В качестве альтернативы, интегрированная система может содержать отдельные жидкостные системы для осуществления способов амплификации и для осуществления способов обнаружения.[51] Typically, nucleic acid sequences suitable for use with the disclosed methods provide rapid and efficient simultaneous detection of multiple target nucleic acids. These may include fluidic components capable of delivering amplification reagents and/or sequencing reagents to one or more immobilized DNA fragments, the system comprising components such as pumps, valves, reservoirs, fluid lines, etc. A flow cell may be installed and/or used in an integrated system for detecting target nucleic acids. Exemplary flow cells are described, for example, in 2010/0111768 A1 (US) and No. 13/273,666 (US), each of which is incorporated herein by reference in its entirety. As shown for flow cells, one or more fluid components of the integrated system can be used for both the amplification method and the detection method. For example, one or more liquid components of an integrated system can be used for an amplification method and for delivering sequencing reagents in a sequencing method. Alternatively, the integrated system may comprise separate fluid systems for carrying out the amplification methods and for carrying out the detection methods.

[52] Для целей настоящего раскрытия достаточно понимать, что проточная ячейка сначала принимает и иммобилизует или иным способом фиксирует образец нуклеиновой кислоты, подлежащий секвенированию, а затем подвергает его воздействию различных реагентов, связанных с процессом секвенирования. В некоторых вариантах осуществления процесс секвенирования представляет собой последовательность процесса синтеза, хотя могут быть использованы другие технологии секвенирования.[52] For purposes of the present disclosure, it is sufficient to understand that the flow cell first receives and immobilizes or otherwise fixes the nucleic acid sample to be sequenced and then exposes it to various reagents associated with the sequencing process. In some embodiments, the sequencing process is a sequence of the synthesis process, although other sequencing technologies may be used.

[53] Система 103 получения изображения содержит оптические компоненты, например, компоненты возбуждения флуоресценции (например, лазер и соответствующие зеркала и линзы) для освещения участков проточной ячейки, в которых происходит секвенирование, и компоненты фиксации изображения для фиксации изображений флуоресценции фрагментов проточной ячейки, имеющей множество участков. Данные, полученные системой сбора изображений, содержат информацию, которую можно применять для определения того, какой нуклеотид считывают в любом данном участке в любом данном цикле секвенирования.[53] The imaging system 103 includes optical components, such as fluorescence excitation components (e.g., a laser and associated mirrors and lenses) for illuminating portions of the flow cell in which sequencing occurs, and image capture components for capturing fluorescence images of portions of the flow cell having many areas. The data produced by the imaging system contains information that can be used to determine which nucleotide is being read at any given site in any given sequencing run.

[54] Для проведения анализа в реальном времени секвенатор 100 обычно содержит встроенные процессоры и запоминающее устройство, которые интерпретируют и сохраняют данные изображения от системы получения изображения 103. Примеры подходящих процессоров для секвенатора включают процессоры, относящиеся к классу Intel Xeon E5. Как правило, процессор 105 содержит множество буферов 107, которые временно хранят данные изображения, полученные в течение одного цикла получения изображения. В показанном варианте осуществления буферы процессора выделены в системном запоминающем устройстве. Данный буфер процессора может быть связан с конкретным потоком процессора, созданным для анализа данных изображения области проточной кюветы в ходе выполнения анализа в реальном времени. В некоторых вариантах осуществления данные изображения, анализируемые в виде потока, представляют собой данные одного сегмента (описанного ниже), зафиксированные в течение одного цикла получения изображения. В некоторых вариантах осуществления буфер может хранить около 400 Гигабайт данных. В контексте данного документа поток представляет собой упорядоченную последовательность команд, которая указывает процессору, какие операции следует выполнить. Команды конфигурируют процессор с использованием исполняемого машинного кода, выбранного из определенного набора команд на машинном языке, или «собственных команд», встроенных в аппаратный процессор.[54] To perform real-time analysis, the sequencer 100 typically includes embedded processors and storage that interpret and store image data from the imaging system 103. Examples of suitable processors for the sequencer include processors in the Intel Xeon E5 class. Typically, processor 105 includes a plurality of buffers 107 that temporarily store image data acquired during one image acquisition cycle. In the illustrated embodiment, processor buffers are allocated in system storage. This processor buffer may be associated with a specific processor thread created to analyze the flow cell region image data during real-time analysis. In some embodiments, the image data analyzed as a stream is data from a single segment (described below) captured during one image acquisition cycle. In some embodiments, the buffer can store approximately 400 Gigabytes of data. In the context of this document, a thread is an ordered sequence of instructions that tells the processor what operations to perform. The instructions configure the processor using executable machine code selected from a specific set of machine language instructions, or "native instructions" built into the hardware processor.

[55] Набор команд на машинном языке или набор собственных команд известен аппаратному процессору (-ам) или центральным процессорам и по существу встроен в них. Это «язык», с помощью которого система и прикладная программа взаимодействуют с аппаратными процессорами. Каждая собственная команда представляет собой дискретный код, распознаваемый архитектурой обработки и который может указывать конкретные регистры для арифметических, адресных или управляющих функций; конкретные области запоминающего устройства или значения смещения; и конкретные режимы адресации, используемые для интерпретации операндов. Более сложные операции создают путем объединения этих простых собственных команд, выполняемых последовательно или, в иных случаях, как указано в командах потока управления.[55] The machine language instruction set or native instruction set is known to the hardware processor(s) or central processing units and is essentially built into them. It is the “language” by which the system and application program communicate with hardware processors. Each native instruction is a discrete code recognized by the processing architecture and which can specify specific registers for arithmetic, address, or control functions; specific storage areas or offset values; and the specific addressing modes used to interpret the operands. More complex operations are created by combining these simple commands of their own, executed sequentially or otherwise as specified in control flow commands.

[56] Системное запоминающее устройство 109 содержит множество буферов 111 сегмента, каждый из которых выполнен с возможностью хранения фрагмента данных изображения, полученных из проточной ячейки в течение одного цикла получения изображения. Буферы сегмента в этом примере имеют такое название, поскольку они выполнены с возможностью хранения данных изображения одного сегмента. Как более подробно объяснено ниже, сегмент представляет собой область проточной ячейки, которая может быть захвачена в одном изображении, полученном в течение одного цикла получения изображения. Буферы 111 сегмента выполнены с возможностью хранения данных изображения в течение более длительного периода времени по сравнению с буферами 107 процессора. В некоторых вариантах осуществления буферы 111 сегмента хранят данные изображения в течение по меньшей мере двух циклов получения изображения. Хотя в настоящей заявке описаны буферы, которые буферизуют данные сегмента проточной ячейки, раскрытые варианты осуществления не ограничиваются буферами, хранящими указанный объем данных. Если не указано иное или если контекст явно не указывает на иное, подразумевается, что упоминания «буферы сегмента» включают буфер любого типа, хранящего данные изображения фрагмента проточной ячейки, причем указанные данные изображения обрабатывают как одно целое, как описано в данном документе.[56] System memory 109 includes a plurality of segment buffers 111, each of which is configured to store a portion of image data acquired from the flow cell during one image acquisition cycle. The segment buffers in this example are so named because they are configured to store image data of a single segment. As explained in more detail below, a segment is an area of a flow cell that can be captured in a single image acquired during a single imaging cycle. Segment buffers 111 are configured to store image data for a longer period of time compared to processor buffers 107. In some embodiments, segment buffers 111 store image data for at least two image acquisition cycles. Although this application describes buffers that buffer flow cell segment data, the disclosed embodiments are not limited to buffers that store this amount of data. Unless otherwise indicated or unless the context clearly indicates otherwise, references to “segment buffers” are intended to include any type of buffer storing image data of a portion of a flow cell, said image data being processed as a whole as described herein.

[57] Для выполнения распознавания оснований один или более процессоров 105 задействуют данные, полученные от системного запоминающего устройства 109, и данные, хранимые в буферах 107 процессора. Как правило, одно распознавание оснований выполняют для одного участка в течение одного цикла получения изображения.[57] To perform radix recognition, one or more processors 105 utilize data received from system storage 109 and data stored in processor buffers 107 . Typically, one base recognition is performed on one site during one image acquisition cycle.

[58] Как показано на фигуре, один или более процессоров 105 и основное запоминающее устройство 109 совместно используют данные в двух направлениях. Кроме того, один или более процессоров 105 принимают данные изображения от системы 103 получения изображения. В некоторых вариантах осуществления система 103 получения изображения получает данные от проточной ячейки 101 путем возбуждения участков секвенирования в проточной ячейке 101 и приема оптических сигналов от этих участков. В некоторых вариантах осуществления сигнал, принятый системой 103 получения изображения, является сигналом флуоресценции, создаваемым при освещении системой 103 проточной ячейки 101 светом с соответствующими длинами волн. В таких вариантах осуществления получают сигнал флуоресценции в виде значений интенсивности для множества цветов.[58] As shown in the figure, one or more processors 105 and main storage device 109 share data in two directions. In addition, one or more processors 105 receive image data from the image acquisition system 103. In some embodiments, the imaging system 103 obtains data from the flow cell 101 by driving sequencing sites in the flow cell 101 and receiving optical signals from those sites. In some embodiments, the signal received by the imaging system 103 is a fluorescence signal produced when the system 103 illuminates the flow cell 101 with light of appropriate wavelengths. In such embodiments, a fluorescence signal is obtained in the form of intensity values for a plurality of colors.

[59] Понятие цикла используется во всем этом раскрытии. Один цикл секвенирования включает считывание одного нуклеотида на каждом одном или более участках, захваченных на изображении. Считывание называют распознаванием оснований. В различных вариантах осуществления, описанных в данном документе, в одном вычислительном цикле - в контексте функционирования процессора (-ов) и запоминающего устройства - выполняют как распознавание оснований, так и фиксацию изображения, но для разных нуклеотидов, причем распознавание оснований запаздывает относительно фиксации изображения в последовательности считываемых или распознаваемых нуклеотидов. Например, в одном вычислительном цикле один или более процессоров проводят распознавание оснований для нуклеотида в цикле n секвенирования и одновременно осуществляют фиксацию изображения для нуклеотида в цикле n +1 секвенирования. Таким образом, в одном вычислительном цикле секвенатор (а) сохраняет и обрабатывает неизмененные данные изображения для нуклеотидов в цикле n +1 секвенирования и (b) выполняет распознавание оснований для нуклеотидов в цикле n секвенирования. Использование буферов процессора и буферов сегмента в этой поцикловой обработке будет описано более подробно ниже.[59] The concept of a cycle is used throughout this disclosure. One sequencing run involves reading one nucleotide at each one or more regions captured in the image. Reading is called base recognition. In various embodiments described herein, both base recognition and image fixation are performed in a single computational cycle—in the context of the operation of the processor(s) and storage device—but for different nucleotides, with the base recognition being delayed relative to image fixation at sequences of read or recognized nucleotides. For example, in one computational cycle, one or more processors perform base recognition for a nucleotide in sequencing cycle n and simultaneously perform an image capture for the nucleotide in sequencing cycle n+1. Thus, in one computational cycle, the sequencer (a) stores and processes unmodified image data for nucleotides in sequencing cycle n+1 and (b) performs base discrimination for nucleotides in sequencing cycle n. The use of processor buffers and segment buffers in this round-by-cycle processing will be described in more detail below.

Общая информация о фазированииGeneral information about phasing

[60] На определенном участке проточной ячейки или другой подложки одновременно анализируют множество копий молекулы нуклеиновой кислоты, имеющих одинаковую последовательность (возможно, с ограниченными вариациями, непреднамеренно внесенными при обработке образца). Используют достаточное количество копий, чтобы сгенерировать достаточный сигнал для обеспечения надежного распознавания оснований. Набор молекул нуклеиновой кислоты на участке называют кластером. В некоторых случаях несеквенированный кластер содержит только одноцепочечные молекулы нуклеиновой кислоты.[60] Multiple copies of a nucleic acid molecule having the same sequence (possibly with limited variations unintentionally introduced during sample processing) are simultaneously analyzed at a specific location in a flow cell or other support. Sufficient copies are used to generate sufficient signal to ensure reliable base recognition. A set of nucleic acid molecules in a site is called a cluster. In some cases, the unsequenced cluster contains only single-stranded nucleic acid molecules.

[61] Фазирование представляет собой нецелевой артефакт, который возникает в результате секвенирования множества молекул нуклеиновых кислот в кластере. Фазирование представляет собой степень, с которой сигналы, такие как, флуоресценция от отдельных молекул в кластере, теряют синхронизацию друг с другом. Часто термин «фазирование» применяют для обозначения помехи от некоторых молекул, которые характеризуются отставанием, а термин «пре-фазирование» (опережающее) используют для обозначения помехи от других молекул, которые характеризуются опережением. Совместно, фазирование и опережающее фазирование определяют, насколько хорошо работает устройство для секвенирования и выполняется химический анализ.[61] Phasing is an off-target artifact that results from sequencing multiple nucleic acid molecules in a cluster. Phasing is the degree to which signals, such as fluorescence from individual molecules in a cluster, lose synchronization with each other. Often the term “phasing” is used to refer to interference from some molecules that are lagging, and the term “pre-phasing” (advanced) is used to refer to interference from other molecules that are leading. Together, phasing and phasing forward determine how well the sequencing device performs and the chemical analysis is performed.

[62] Меньшие значения лучше. Значения 0,10/0,10 означают, что 0,10% молекул в кластере характеризуются отставанием, а 0,10% характеризуются опережением в каждом цикле распознавания оснований. Другими словами, 0,20% истинного сигнала теряется в каждом цикле и, следовательно, будут вносить шум. В другом примере 0,20/0,20 означает, что за цикл теряется 0,4% истинного сигнала, и в этом случае после 250 циклов (без коррекции) шум будет равен сигналу.[62] Lower values are better. Values of 0.10/0.10 mean that 0.10% of the molecules in the cluster are lagging and 0.10% are leading in each base recognition cycle. In other words, 0.20% of the true signal is lost in each cycle and will therefore introduce noise. In another example, 0.20/0.20 means that 0.4% of the true signal is lost per cycle, in which case after 250 cycles (without correction) the noise will be equal to the signal.

[63] Компонент анализа в реальном времени секвенатора может определять фазирование и опережающее фазирование для применения правильного уровня коррекции фазирования по мере прохождения последовательности. Это осуществляется путем искусственной принудительного направления сигнала в каждый канал секвенатора или из него на основании распознаваний оснований до или после текущего цикла.[63] The real-time analysis component of the sequencer can detect phasing and phasing advance to apply the correct level of phasing correction as the sequence progresses. This is done by artificially forcing a signal into or out of each sequencer channel based on base detections before or after the current cycle.

[64] Ранее фазирование и опережающее фазирование оценивали по определенному количеству циклов (например, первые 12 циклов каждого рида), а затем применяли ко всем последующим циклам. В некоторых современных секвенаторах используется алгоритм, называемый эмпирической коррекцией фазирования, для оптимизации коррекции фазирования в каждом цикле путем подбора диапазона коррекции для выбора диапазона, обеспечивающего наивысшую достоверность (чистоту сигнала). Хотя эмпирическая коррекция фазирования обеспечивает повышенную производительность, она требует применения большего количества вычислительных ресурсов.[64] Previously, phasing and phasing advance were assessed over a specified number of cycles (eg, the first 12 cycles of each read) and then applied to all subsequent cycles. Some modern sequencers use an algorithm called empirical phasing correction to optimize phasing correction on each cycle by adjusting the correction range to select the range that provides the highest fidelity (signal purity). Although empirical phasing correction provides improved performance, it requires more computational resources.

[65] В обычных секвенаторах каждое основание имеет уникальный цвет флуоресцентного красителя; например, зеленый для тимина, красный для цитозина, синий для гуанина и желтый для аденина. Чтобы получить информацию для распознавания оснований, четырехканальный секвенатор получает четыре изображения сегмента или другого фрагмента проточной ячейки. Некоторые секвенаторы теперь имеют только два канала и, таким образом, получают только два изображения одного и того же фрагмента проточной ячейки. В двухканальном секвенаторе используют смесь красителей для каждого основания и используют красный и зеленый фильтры для двух изображений. В примере с двухканальным секвенатором кластеры, видимые на красном или зеленом изображениях, интерпретируют как, соответственно, основания C и T. Кластеры, наблюдаемые как на красном, так и на зеленом изображениях, отмечены как основания A, а немаркированные кластеры определяют как основания G.[65] In conventional sequencers, each base has a unique fluorescent dye color; for example, green for thymine, red for cytosine, blue for guanine, and yellow for adenine. To obtain base discrimination information, a four-channel sequencer acquires four images of a segment or other portion of the flow cell. Some sequencers now have only two channels and thus obtain only two images of the same section of the flow cell. A two-channel sequencer uses a mixture of dyes for each base and uses red and green filters for the two images. In the two-channel sequencer example, clusters visible in the red or green images are interpreted as C and T bases, respectively. Clusters visible in both the red and green images are labeled A bases, and unlabeled clusters are defined as G bases.

[66] На фиг. 2 показано фазирование в ходе секвенирования нуклеинового кластера, имеющего последовательность . . . ACGTAAG . . . . Как показано на фигуре, в течение цикла распознавания оснований для первого основания G 98,4% сигнала флуоресценции порождены последовательностями, генерирующими в данный момент сигнал для G, в то время как 1,5% сигнала флуоресценции порождены последовательностями, генерирующими в данный момент сигнал для предшествующего основания C, а 1,1% сигнала флуоресценции порождены последовательностями, генерирующими в данный момент сигнал для следующего основания T. В сигнал для предшествующего основания C вносит вклад фазирование, а в сигнал для следующего основания T вносит вклад опережающее фазирование.[66] In FIG. Figure 2 shows phasing during sequencing of a nucleic acid cluster having the sequence . . . ACGTAAG. . . . As shown in the figure, during a base recognition cycle for the first base G, 98.4% of the fluorescence signal is generated by sequences currently generating a signal for G, while 1.5% of the fluorescence signal is generated by sequences currently generating a signal for the preceding base C, and 1.1% of the fluorescence signal is generated by sequences currently generating the signal for the following base T. The signal for the preceding base C is contributed by phasing, and the signal for the following base T is contributed by advanced phasing.

[67] Коррекция фазирования для распознавания этого нуклеотидного основания G отражена на графике в правой части фиг. 2. Как показано для двухканального секвенатора, сигнал флуоресценции может быть представлен на двумерном графике с сигналом максимальной интенсивности на «зеленой оси», представляющей основание Т, максимальной интенсивностью на «красной оси», представляющей основание С, максимальной интенсивностью на середине между осями, представляющей основание A, и минимальной интенсивностью на обеих осях, представляющих основание G. При отсутствии ошибок фазирования сигнал для основания G должен иметь нулевую интенсивность как на красной, так и на зеленой осях. Вместо этого, при обсуждаемой ошибке фазирования сигнал флуоресценции характеризуется некоторым увеличением интенсивности как на зеленой, так и на красной осях. В этом примере коррекция опережающего фазирования приводит к уменьшению интенсивности сигнала до нуля по зеленой оси, а коррекция фазирования приводит к уменьшению интенсивности сигнала до нуля по красной оси. Аналогичная коррекция может быть выполнена при распознавании оснований для оснований T, C и A.[67] The phasing correction to recognize this nucleotide base G is depicted in the graph on the right side of FIG. 2. As shown for a two-channel sequencer, the fluorescence signal can be represented on a two-dimensional plot with the maximum intensity signal on the “green axis” representing the T base, the maximum intensity on the “red axis” representing the C base, the maximum intensity midway between the axes representing base A, and a minimum intensity on both axes representing base G. In the absence of phasing errors, the signal for base G should have zero intensity on both the red and green axes. Instead, with the phasing error discussed, the fluorescence signal is characterized by a slight increase in intensity on both the green and red axes. In this example, the phasing advance correction causes the signal intensity to decrease to zero on the green axis, and the phasing correction causes the signal intensity to decrease to zero on the red axis. Similar correction can be made in base recognition for T, C, and A bases.

Сегменты и проточные ячейкиSegments and flow cells

[68] Как было объяснено выше, проточная ячейка содержит множество участков, на которых собирают информацию о последовательности. В некоторых вариантах осуществления каждый участок проточной ячейки содержит кластер одноцепочечных нуклеиновых кислот, имеющих одинаковую последовательность. Одно изображение, используемое при секвенировании в реальном времени, может содержать миллионы таких кластеров. Типовая проточная ячейка настолько велика, что для охвата всей ее площади требуются сотни или даже тысячи отдельных изображений. В некоторых вариантах осуществления процессор и связанное с ним запоминающее устройство, используемые для анализа в реальном времени, обрабатывают все эти изображения текущим образом, чтобы выполнить распознавания оснований для одного цикла. В некоторых вариантах реализации процессор и запоминающее устройство одновременно обрабатывают все изображения, полученные в двух или более проточных ячейках в течение одного цикла распознавания оснований. На фиг. 3 схематично показана архитектура проточной ячейки, используемой в некоторых секвенаторах, производимых компанией Illumina, Inc. В показанном примере секвенатор выполняет одновременное распознавание оснований в двух проточных ячейках, Проточной ячейке 1 и Проточной ячейке 2. В некоторых вариантах осуществления каждая проточная ячейка имеет участки секвенирования на каждой из двух поверхностей, верхней поверхности и нижней поверхности. В таких случаях секвенатор отображает как верхнюю, так и нижнюю поверхности в ходе каждого цикла распознавания оснований. Как показано на фиг. 3, каждая поверхность проточной ячейки содержит четыре дорожки, L1, L2, L3 и L4; конечно, возможно и другое их количество. Каждая дорожка каждой поверхности может иметь множество секций, называемых полосами. Каждая полоса в свою очередь разделена на множество сегментов. Например, одна полоса может содержать приблизительно 120 сегментов. Для двух проточных ячеек, причем каждая проточная ячейка имеет две поверхности, на каждой из которых имеется четыре дорожки, каждая дорожка содержит шесть полос, а каждая полоса содержит 120 сегментов, необходимо проанализировать данные нескольких тысяч сегментов за цикл. В различных вариантах осуществления изображение каждого сегмента (или другое изображение из фрагмента проточной ячейки) задействует один поток процессора. В некоторых вариантах осуществления секвенатор, в котором используют проточную ячейку, имеющую архитектуру, изображенную на фиг. 3, обрабатывает данные 8000 или более сегментов в каждом цикле распознавания оснований. В таких случаях логические схемы для обработки в реальном времени будут использовать 8000 или более потоков процессора в каждом цикле распознавания оснований.[68] As explained above, a flow cell contains multiple sites at which sequence information is collected. In some embodiments, each region of the flow cell contains a cluster of single-stranded nucleic acids having the same sequence. A single image used in real-time sequencing may contain millions of such clusters. A typical flow cell is so large that hundreds or even thousands of individual images are required to cover its entire area. In some embodiments, the processor and associated memory used for real-time analysis processes all of these images in an ongoing manner to perform base discriminations for a single cycle. In some embodiments, the processor and memory simultaneously process all images acquired in two or more flow cells during one base recognition cycle. In fig. Figure 3 schematically shows the flow cell architecture used in some sequencers manufactured by Illumina, Inc. In the example shown, the sequencer performs simultaneous base sensing on two flow cells, Flow Cell 1 and Flow Cell 2. In some embodiments, each flow cell has sequencing sites on each of two surfaces, a top surface and a bottom surface. In such cases, the sequencer displays both the top and bottom surfaces during each base recognition cycle. As shown in FIG. 3, each surface of the flow cell contains four tracks, L1, L2, L3 and L4; Of course, another number of them is possible. Each track of each surface can have multiple sections called stripes. Each strip is in turn divided into many segments. For example, one strip may contain approximately 120 segments. For two flow cells, each flow cell having two surfaces, each with four lanes, each lane containing six lanes, and each lane containing 120 segments, data from several thousand segments per cycle must be analyzed. In various embodiments, each segment image (or other image from a portion of the flow cell) utilizes one processor thread. In some embodiments, a sequencer that uses a flow cell having the architecture depicted in FIG. 3, processes 8000 or more segments in each base recognition cycle. In such cases, the real-time processing logic will use 8000 or more processor threads in each radix cycle.

[69] Данные из одного сегмента, зафиксированные в течение одного цикла, могут быть сохранены в запоминающем устройстве в виде массива, причем каждая запись в массиве представляет собой значение цвета для каждого канала отдельного кластера в сегменте. Массив для двухканальной конфигурации изображен на фиг. 4. В качестве примера, детектор интенсивности цвета может генерировать от 400 до 1500 сигналов для каждого канала. Буфер сегмента в системном запоминающем устройстве выполнен с возможностью хранения всей информации в массиве, другими словами, значений цвета всех кластеров на сегменте за один цикл распознавания оснований. Буфер процессора может быть аналогичным образом выполнен с возможностью хранения всей информации в массиве.[69] Data from one segment captured during one cycle may be stored in a storage device as an array, with each entry in the array representing a color value for each channel of a particular cluster in the segment. The array for a two-channel configuration is shown in FIG. 4. As an example, a color intensity detector can generate 400 to 1500 signals for each channel. The segment buffer in the system storage device is configured to store all the information in the array, in other words, the color values of all clusters on the segment in one base recognition cycle. The processor buffer may similarly be configured to store all information in an array.

Процесс фазированияPhasing process

[70] Значительная нагрузка на запоминающее устройство при анализе данных последовательности в реальном времени обусловлена необходимостью коррекции фазирования, поэтому два или три цикла интенсивностей для кластера необходимо сохранить для каждого сегмента на полную длину цикла. На Illumina HiSeqX с 700-нм проточной ячейкой это занимает 73 Гигабайта в запоминающем устройстве. Эта нагрузка является достаточно большой, так что большая часть данных (на этой платформе) помещается в кэш на твердотельном накопителе.[70] Significant memory load when analyzing real-time sequence data is due to the need for phasing correction, so two or three intensity cycles for a cluster must be stored for each segment for the full cycle length. On the Illumina HiSeqX with a 700 nm flow cell, this takes up 73 Gigabytes of storage. This load is large enough that most of the data (on this platform) fits into the cache on the SSD.

[71] Как было объяснено выше, коррекция фазирования обеспечивает корректировку значений интенсивности изображения для устранения чередования фазы некоторых оснований нуклеиновых кислот в кластере. Для этого коррекцию фазирования начинают с измеренных значений интенсивности цвета кластера (или других сигналов, измеренных в способе секвенирования) для текущего цикла распознавания оснований и добавляют или вычитают корректирующее значение, используя измеренные значения интенсивности из предыдущего цикла распознавания оснований и/или используя измеренные значения интенсивности из последующего цикла распознавания оснований. В различных вариантах реализации значение интенсивности со скорректированным фазированием для выполнения распознавания оснований определяют с помощью выражения, показанного в нижней части фиг. 5. Как показано на фигуре, значения интенсивности со скорректированным фазированием для текущего цикла распознавания оснований на изображении равны измеренным значениям интенсивности для текущего цикла распознавания оснований за вычетом произведения первого коэффициента и измеренных значений интенсивности в непосредственно предшествующем цикле распознавания оснований и за вычетом произведения второго коэффициента и измеренных значений интенсивности в непосредственно следующем цикле распознавания оснований:[71] As explained above, phasing correction provides adjustments to image intensity values to eliminate phase alternation of certain nucleic acid bases in a cluster. To do this, phasing correction begins with the measured cluster color intensities (or other signals measured in the sequencing method) for the current base discrimination cycle and adds or subtracts a correction value using the measured intensities from the previous base recognition cycle and/or using the measured intensities from subsequent base recognition cycle. In various embodiments, the phasing corrected intensity value for performing base discrimination is determined using the expression shown at the bottom of FIG. 5. As shown in the figure, the phasing-corrected intensity values for the current base recognition cycle in the image are equal to the measured intensity values for the current base recognition cycle minus the product of the first coefficient and the measured intensity values in the immediately preceding base recognition cycle and minus the product of the second coefficient and measured intensity values in the immediately following base recognition cycle:

Скорректированная интенсивность = -a.In-1 + In - b.In+1Corrected intensity = -a.In-1 + In - b.In+1

где In-1, In и In+1 представляют собой значения интенсивности кластеров в сегменте в непосредственно предшествующем цикле распознавания оснований, в текущем цикле распознавания оснований и в следующем цикле распознавания оснований. Коэффициенты a и b представляют собой, соответственно, коэффициенты фазирования и опережающего фазирования (иногда называемые весовыми коэффициентами(весами)). Их могут вычислять заново для каждого цикла распознавания оснований для сегмента.where In-1, In and In+1 represent the intensity values of the clusters in the segment in the immediately preceding base recognition cycle, in the current base recognition cycle and in the next base recognition cycle. The coefficients a and b are, respectively, the phasing and phasing advance coefficients (sometimes called weights). They may be recalculated for each base recognition cycle for the segment.

[72] Возвращаясь к фиг. 2, измеренное значение интенсивности для третьего основания в изображенной последовательности (для одного кластера на изображении) показано в виде точки на графике, с правой стороны фиг. 2. Коррекция опережающего фазирования этого измеренного значения интенсивности представлена вертикальной стрелкой от измеренного значения интенсивности до горизонтальной оси. В выражении для значений интенсивности со скорректированным фазированием указанная коррекция опережающего фазирования представлена произведением коэффициента b и значения интенсивности, измеренного для следующего последовательного цикла распознавания оснований. Кроме того, измеренное значение интенсивности корректируют с помощью коррекции фазирования, представленной горизонтальной стрелкой на графике. Эту коррекцию фазирования осуществляют путем вычитания из измеренного значения интенсивности произведения коэффициента а и измеренного значения интенсивности для непосредственно предшествующего цикла распознавания оснований. Коэффициенты a и b могут быть определены множеством способов, но во многих вариантах реализации их вычисляют заново для каждого цикла распознавания оснований. Описание способов определения коэффициентов, которые будут использованы при коррекции фазирования, приведено в международной заявке на патент с номером публикации WO2015/084985, Belitz и др., опубликованной 11 июня 2015 г., которая полностью включена в настоящий документ посредством ссылки.[72] Returning to FIG. 2, the measured intensity value for the third base in the imaged sequence (for one cluster in the image) is shown as a point on the graph on the right side of FIG. 2. The advanced phasing correction of this measured intensity value is represented by a vertical arrow from the measured intensity value to the horizontal axis. In the expression for phasing-corrected intensity values, said phasing advance correction is represented by the product of the coefficient b and the intensity value measured for the next sequential base discrimination cycle. In addition, the measured intensity value is corrected using phasing correction, represented by a horizontal arrow in the graph. This phasing correction is accomplished by subtracting from the measured intensity value the product of the coefficient a and the measured intensity value for the immediately preceding base recognition cycle. The coefficients a and b can be determined in a variety of ways, but in many embodiments they are recalculated for each base detection cycle. A description of methods for determining the coefficients to be used in phasing correction is contained in International Patent Application Publication Number WO2015/084985, Belitz et al., published June 11, 2015, which is incorporated herein by reference in its entirety.

[73] В некоторых вариантах осуществления алгоритм фазирования определяет коэффициенты фазирования эмпирически, максимизируя совокупную достоверность (или аналогичный показатель) данных интенсивности кластера в ходе цикла распознавания оснований. Согласно одной реализации алгоритма выполняют итерацию по всем или многим коэффициентам фазирования и определяют, какие из них обеспечивают наилучшие результаты. Например, алгоритм фазирования может обеспечивать оптимизацию a и b в каждом цикле с использованием поиска по шаблону, используя критерий оптимальности, согласно которому подсчитывают количество кластеров, которые не прошли фильтр достоверности. Таким образом, a и b выбирают таким образом, чтобы максимизировать качество данных.[73] In some embodiments, the phasing algorithm determines the phasing coefficients empirically by maximizing the aggregate confidence (or similar metric) of the cluster intensity data during the base recognition cycle. One implementation of the algorithm iterates over all or many of the phasing coefficients and determines which ones provide the best results. For example, a phasing algorithm may optimize a and b in each cycle using a pattern search using an optimality criterion that counts the number of clusters that fail the validity filter. Thus, a and b are chosen to maximize data quality.

[74] В некоторых вариантах осуществления определение коэффициентов фазирования происходит как постоянный анализ на протяжении всего цикла секвенирования (например, в ходе генерации рида). В результате применения такого подхода неточная оценка фазирования, полученная на более ранних циклах, не окажет негативного влияния на более поздние циклы.[74] In some embodiments, the determination of phasing coefficients occurs as an ongoing analysis throughout the sequencing run (eg, during read generation). As a result of this approach, inaccurate phasing estimates obtained on earlier cycles will not have a negative impact on later cycles.

[75] Согласно некоторым способам достоверность значения интенсивности кластера определяют как функцию относительных расстояний до гауссовских центроидов для других значений интенсивности кластера, определенных для того же цикла распознавания оснований. Центроиды идеально совпадают с ожидаемыми местоположениями интенсивностей A, T, C и G для двух каналов (см. фиг. 2) при условии использования двухканальной системы. В некоторых вариантах осуществления достоверность может быть вычислена с использованием следующего выражения:[75] In some methods, the confidence of a cluster intensity value is determined as a function of the relative distances to the Gaussian centroids for other cluster intensity values determined for the same base discrimination cycle. The centroids perfectly match the expected locations of the A, T, C and G intensities for the two channels (see Fig. 2) assuming a two-channel system is used. In some embodiments, the confidence may be calculated using the following expression:

достоверность = 1 - D1 / (D1 + D2),reliability = 1 - D1 / (D1 + D2),

где D1 представляет собой расстояние до ближайшего гауссовского центроида, а D2 представляет собой расстояние до следующего ближайшего центроида. При использовании этого подхода, когда средняя достоверность (качество) значений интенсивности максимизирована, выбирают правильные значения a и b. Когда эти значения будут определены, может быть применена коррекция ко всем значениям кластера и может быть непосредственно осуществлено распознавание оснований. Способы аппроксимации гауссовых распределений для двухканального набора данных описаны в международной заявке на патент с номером публикации WO2015/084985, ранее включенной посредством ссылки.where D1 represents the distance to the nearest Gaussian centroid and D2 represents the distance to the next closest centroid. Using this approach, when the average confidence (quality) of the intensity values is maximized, the correct values of a and b are selected. Once these values have been determined, correction can be applied to all values in the cluster and base recognition can be directly performed. Methods for fitting Gaussian distributions for a two-channel data set are described in international patent application publication number WO2015/084985, previously incorporated by reference.

[76] В некоторых вариантах осуществления коррекцию фазирования вычисляют почти в каждом цикле в ходе осуществления секвенирования. В некоторых вариантах осуществления коррекцию фазирования вычисляют в каждом цикле в ходе осуществления секвенирования. В некоторых вариантах осуществления отдельную коррекцию фазирования вычисляют для разных местоположений отображаемой поверхности в одном и том же цикле. Например, в некоторых вариантах осуществления отдельную коррекцию фазирования вычисляют для каждой отдельной дорожки отображаемой поверхности, например, отдельной дорожки проточной ячейки. В некоторых вариантах осуществления отдельную коррекцию фазирования вычисляют для каждого подмножества дорожек, например, полосы отображения в дорожке проточной ячейки. В некоторых вариантах осуществления отдельную коррекцию фазирования вычисляют для каждого отдельного изображения, такого как, например, каждый сегмент. В некоторых вариантах осуществления отдельную коррекцию фазирования вычисляют для каждого сегмента в каждом цикле.[76] In some embodiments, phasing correction is calculated at nearly every cycle during sequencing. In some embodiments, phasing correction is calculated at each cycle during sequencing. In some embodiments, a separate phasing correction is calculated for different locations of the imaged surface in the same cycle. For example, in some embodiments, a separate phasing correction is calculated for each individual track of the imaged surface, eg, an individual flow cell track. In some embodiments, a separate phasing correction is calculated for each subset of tracks, for example, a display strip in a flow cell track. In some embodiments, a separate phasing correction is calculated for each individual image, such as, for example, each segment. In some embodiments, a separate phasing correction is calculated for each segment in each cycle.

[77] Поскольку считывания становится более длинными, члены более высокого порядка могут стать более важными при коррекции фазирования. Таким образом, в конкретных вариантах осуществления, чтобы исправить это, может быть вычислена эмпирическая коррекция фазирования второго порядка. Например, в некоторых вариантах осуществления способ включает коррекцию фазирования второго порядка, определяемую следующим образом:[77] As readouts become longer, higher order terms may become more important in phasing correction. Thus, in certain embodiments, an empirical second-order phasing correction may be calculated to correct for this. For example, in some embodiments, the method includes second order phasing correction, defined as follows:

I(цикл.) = -a * I(цикл. - 2) - A * I(цикл. - I) + I(цикл.) - B * I(цикл. + 1) - b * I(цикл. + 2)I(cycle) = -a * I(cycle - 2) - A * I(cycle - I) + I(cycle) - B * I(cycle + 1) - b * I(cycle + 2)

где I представляет собой интенсивность, a, A, B и b представляют собой члены первого и второго порядка для коррекции фазирования. В конкретных вариантах осуществления вычисление оптимизируют по a, A, B и b.where I represents the intensity, a, A, B and b represent the first and second order terms for phasing correction. In particular embodiments, the calculation is optimized over a, A, B, and b.

[78] На фиг. 5 схематично изображены конфигурация обработки и способ проведения коррекции фазирования в реальном времени. В изображенном варианте осуществления процессор 502 создает новый поток 503 обработки, когда процессор вызывают для выполнения распознавания оснований в кластерах на изображении, например, изображении сегмента. Новый поток может быть сгенерирован для каждого цикла распознавания оснований для каждого сегмента. В изображенном варианте осуществления процессор 502 обеспечивает доступность одного буфера 505 процессора в течение каждого цикла распознавания оснований для сегмента (и назначенного потока обработки). Буфер процессора временно хранит значения интенсивности, которые процессор использует в ходе вычислений для выполнения коррекции фазирования для текущего цикла n распознавания оснований. В изображенном варианте осуществления процессор взаимодействует с системным запоминающим устройством 507, содержащим три буфера, по одному для хранения данных изображения, зафиксированных для конкретного цикла распознавания оснований. В случае применения архитектуры проточной ячейки, изображенной на фиг. 3, каждый буфер хранит данные изображения для кластеров одного сегмента; таким образом, указанные буферы называют буферами сегмента. Конечно, для других архитектур проточных ячеек и/или систем получения изображений указанные буферы могут хранить больше или меньше данных кластера. Для удобства в настоящем описании будет применен термин «буфер сегмента». Каждый буфер сегмента хранит данные для одного сегмента (или другого фрагмента проточной ячейки), захваченные в течение одного цикла распознавания оснований. Данные изображения могут быть представлены в виде массива данных, например, показанного на фиг. 4.[78] In FIG. 5 schematically shows the processing configuration and method for performing real-time phasing correction. In the illustrated embodiment, processor 502 creates a new processing thread 503 when the processor is called to perform base recognition in clusters in an image, such as a segment image. A new thread can be generated for each base recognition cycle for each segment. In the illustrated embodiment, processor 502 ensures that one processor buffer 505 is available during each radix cycle for a segment (and assigned processing thread). The processor buffer temporarily stores intensity values that the processor uses during computation to perform phasing correction for the current base discrimination cycle n. In the illustrated embodiment, the processor interfaces with a system memory 507 containing three buffers, one each for storing image data captured for a particular base recognition cycle. When using the flow cell architecture shown in FIG. 3, each buffer stores image data for clusters of one segment; thus, these buffers are called segment buffers. Of course, for other flow cell architectures and/or imaging systems, these buffers may store more or less cluster data. For convenience, the term “segment buffer” will be used in this description. Each segment buffer stores data for one segment (or other portion of the flow cell) captured during one base sense cycle. The image data may be represented as a data array, such as that shown in FIG. 4.

[79] Как показано, системное запоминающее устройство 507 содержит буфер 509 сегмента, который временно хранит значения интенсивности для непосредственно предшествующего цикла распознавания оснований (по сравнению с текущим циклом распознавания оснований, обрабатываемым процессором), буфер 511 сегмента, который хранит значения интенсивности, измеренные для текущего цикла распознавания оснований, и буфер 513 сегмента, который хранит значения интенсивности для непосредственно следующего цикла распознавания оснований. Опять же, каждый из буферов 509, 511 и 513 сегмента содержит данные, измеренные для одного сегмента для одного цикла n распознавания оснований.[79] As shown, system memory 507 includes a segment buffer 509 that temporarily stores intensity values for the immediately preceding base sense cycle (compared to the current base sense cycle being processed by the processor), a segment buffer 511 that stores intensity values measured for the current base sensing cycle, and a segment buffer 513 that stores intensity values for the immediately next base sensing cycle. Again, each of the segment buffers 509, 511 and 513 contains data measured for one segment for one base discrimination cycle n.

[80] Как показано, в потоке 503 используют значения интенсивности, хранимые в каждом из буферов 509, 511 и 513 сегмента в течение одного цикла распознавания оснований. Значения интенсивности последовательно загружаются в буфер 505 процессора и обрабатываются для реализации вычисления согласно выражению коррекции фазирования, представленному в нижней части фиг. 5. После завершения процесса распознавания оснований, как показано в конфигурации процессора и запоминающего устройства на фиг. 5, в буфере процессора содержатся скорректированные значения интенсивности, используемые для выполнения распознавания оснований с коррекцией фазирования.[80] As shown, thread 503 uses intensity values stored in each of segment buffers 509, 511, and 513 during one base detection cycle. The intensity values are sequentially loaded into processor buffer 505 and processed to implement a calculation according to the phasing correction expression presented at the bottom of FIG. 5. After the base recognition process is completed, as shown in the processor and memory configuration in FIG. 5, the processor buffer contains the adjusted intensity values used to perform phasing-corrected base discrimination.

[81] На фиг. 6 представлена блок-схема процесса распознавания оснований, в котором может быть использована конфигурация процессора и запоминающего устройства, показанная на фиг. 5. Как показано на фиг. 6, процесс 601 инициирует новый цикл распознавания оснований путем создания потока процессора и выделения буфера процессора для этого потока. См. блок 603 процесса. После этого процессор извлекает данные интенсивности из изображения сегмента проточной ячейки (или другого подходящего фрагмента проточной ячейки), полученного одновременно с текущим циклом обработки. В изображенной реализации зафиксированное изображение и соответствующие значения интенсивности являются первичными значениями интенсивности для следующего последовательного цикла распознавания оснований, а не текущего цикла распознавания оснований (текущей итерации обработки). Другими словами, в текущем цикле обработки выполняют распознавание оснований для данных изображения, собранных в непосредственно предшествующем цикле обработки. Таким образом, как показано в блоке 605 процесса 601, извлеченные значения интенсивности указаны с помощью обозначения In +1, где n представляет текущий цикл распознавания оснований. Другими словами, в цикле обработки (i) происходит распознавание оснований для цикла n распознавания оснований и (ii) фиксация данных изображения для цикла n+1 распознавания оснований.[81] In FIG. 6 is a flow diagram of a base recognition process in which the processor and memory configuration shown in FIG. 5. As shown in FIG. 6, process 601 initiates a new base detection cycle by creating a processor thread and allocating a processor buffer for that thread. See process block 603. The processor then extracts intensity data from an image of a flow cell segment (or other suitable portion of the flow cell) acquired concurrently with the current processing cycle. In the illustrated implementation, the captured image and corresponding intensity values are the primary intensity values for the next sequential base detection cycle, not the current base detection cycle (the current processing iteration). In other words, in the current processing cycle, base recognition is performed on the image data collected in the immediately preceding processing cycle. Thus, as shown in block 605 of process 601, the extracted intensity values are indicated by the notation In +1, where n represents the current base recognition cycle. In other words, the processing loop (i) performs base recognition for base recognition cycle n and (ii) commits image data for base recognition cycle n+1.

[82] Вновь извлеченные данные интенсивности, которые могут быть предоставлены в форме массива, как показано на фиг. 4, сохраняются в доступном буфере сегмента в системном запоминающем устройстве (например, в буфере 513 сегмента). В некоторых вариантах осуществления указанный буфер сегмента представляет собой буфер, в котором хранятся данные интенсивности, которые были использованы ранее, но больше не нужны для распознавания оснований.[82] The newly extracted intensity data, which may be provided in the form of an array as shown in FIG. 4 are stored in an available segment buffer in system storage (eg, segment buffer 513). In some embodiments, said segment buffer is a buffer that stores intensity data that was previously used but is no longer needed for base recognition.

[83] В текущем цикле обработки в ходе процесса 601 также извлекают данные интенсивности, сохраненные в течение вычислительного цикла, предшествующего текущему вычислительному циклу. См. блок 607 процесса. Извлеченные данные интенсивности относятся к текущему циклу распознавания оснований и обозначены In. Извлеченные данные интенсивности получают из соответствующего буфера сегмента, такого как буфер 511 сегмента системного запоминающего устройства, как показано на фиг. 5.[83] In the current processing cycle, process 601 also retrieves intensity data stored during the computation cycle preceding the current computation cycle. See process block 607. The extracted intensity data is related to the current base recognition cycle and is labeled In. The extracted intensity data is obtained from a corresponding segment buffer, such as system storage segment buffer 511, as shown in FIG. 5.

[84] Кроме того, в ходе процесса 601 извлекают данные интенсивности, которые были сохранены за два цикла до текущего цикла распознавания оснований. См. блок 609 процесса. В качестве примера, со ссылкой на фиг. 5, такие данные интенсивности могут быть получены из буфера 509 сегмента системного запоминающего устройства. Массив значений интенсивности, извлеченных в операции 609, обозначен In -1.[84] In addition, process 601 retrieves intensity data that was stored two cycles prior to the current base discrimination cycle. See process block 609. As an example, with reference to FIG. 5, such intensity data may be obtained from system storage segment buffer 509. The array of intensity values extracted in operation 609 is denoted In -1.

[85] Хотя операции 605, 607 и 609 показаны как происходящие последовательно, указанный порядок операций является гибким и процесс может быть реализован таким образом, что любой порядок будет приемлемым, при условии, что он согласуется с распознаванием оснований, которое включает коррекцию фазирования.[85] Although operations 605, 607 and 609 are shown to occur sequentially, the specified order of operations is flexible and the process can be implemented such that any order is acceptable as long as it is consistent with base recognition, which includes phasing correction.

[86] После извлечения значений интенсивности для текущего цикла распознавания оснований (блок 607 процесса) и значений интенсивности для непосредственно предшествующего цикла распознавания оснований (блок 609 обработки) процессор имеет все значения интенсивности, требуемые для выполнения коррекции фазирования. Процессор осуществляет коррекцию фазирования путем определения сначала весового коэффициента b коррекции опережающего фазирования и весового коэффициента a коррекции фазирования для текущего цикла распознавания оснований. См. блок 611 процесса, который иллюстрирует, что это может быть выполнено с использованием извлеченных значений интенсивности для следующего цикла распознавания оснований вместе со значениями интенсивности для текущего и непосредственно предшествующих циклов распознавания оснований. Затем, используя весовые коэффициенты коррекции фазирования и опережающего фазирования, процессор вычисляет значения интенсивности со скорректированным фазированием для текущего цикла распознавания оснований, как показано в блоке 613 процесса. Скорректированные значения относятся к кластерам в рассматриваемом сегменте. При вычислении может быть использовано выражение, приведенное в блоке 613. Используя значения интенсивности со скорректированным фазированием процессор выполняет распознавание в течение текущего цикла распознавания оснований, как показано в блоке 615 процесса.[86] After retrieving the intensity values for the current base detection cycle (process block 607) and the intensity values for the immediately preceding base detection cycle (processing block 609), the processor has all the intensity values required to perform phasing correction. The processor performs phasing correction by first determining the leading phasing correction weight b and the phasing correction weight a for the current base recognition cycle. See process block 611 which illustrates that this can be accomplished using the extracted intensity values for the next base sensing cycle along with the intensity values for the current and immediately preceding base sensing cycles. Then, using the phasing correction and phasing advance weights, the processor calculates the phasing corrected intensity values for the current base recognition cycle, as shown in process block 613. The adjusted values refer to the clusters in the segment in question. The calculation may use the expression shown in block 613. Using the phasing corrected intensity values, the processor performs discrimination during the current base recognition cycle, as shown in process block 615.

[87] На этом этапе обработка для текущего цикла распознавания оснований завершена и может быть выполнена следующая итерация распознавания оснований. Принятие решения о том, следует ли проводить другой цикл распознавания оснований, изображено в блоке 617, в ходе которого определяют, имеются ли какие-либо дополнительные подлежащие секвенированию нуклеотиды в кластерах рассматриваемого сегмента. В случае их отсутствия процесс завершается, как показано в блоке 619. Если таковые имеются, управление процессом передается в блок 621 процесса, в котором процессор увеличивает значение счетчика циклов. Это позволяет эффективно индексировать значения интенсивности для текущего цикла In распознавания оснований по отношению к значениям интенсивности для непосредственно предшествующего цикла In-1 распознавания оснований. В то же время значения интенсивности для непосредственно следующего базового (In+1) распознавания оснований становятся значениями интенсивности для текущего цикла (In) распознавания оснований. Эти приращения выполняют в отношении индексов, применяемых для данных интенсивности, хранимых в буферах сегмента.[87] At this point, processing for the current base recognition cycle is completed and the next iteration of base recognition can be performed. Deciding whether to perform another round of base discrimination is depicted at block 617, which determines whether there are any additional nucleotides to be sequenced in the clusters of the segment in question. If they are absent, the process terminates as shown at block 619. If present, control of the process is transferred to process block 621, where the processor increments the loop counter. This allows the intensity values for the current base sensing cycle In to be effectively indexed with respect to the intensity values for the immediately preceding base sensing cycle In-1. At the same time, the intensity values for the immediately next basic (In+1) base discrimination become the intensity values for the current base discrimination cycle (In). These increments are performed on the indexes applied to the intensity data stored in the segment buffers.

Процесс фазирования (с уменьшенными требованиями к основному запоминающему устройству)Phasing process (with reduced main storage requirements)

[88] Подход, показанный на фиг. 5 и 6, может нормально работать при том условии, что секвенатор и связанная с ним система анализа в реальном времени не ограничены в отношении объема запоминающего устройства. Однако, учитывая объем данных, которые необходимо обрабатывать в некоторых современных секвенаторах, например, секвенаторах, которые используют для выполнения полногеномногосеквенирования, объем запоминающего устройства может быть недостаточным, в частности, по коммерчески выгодной стоимости. Таким образом, хранение в три раза большего объема данных, соответствующего полному изображению проточной ячейки (или проточных ячеек) в течение цикла распознавания оснований, может привести к серьезной нехватке ресурсов.[88] The approach shown in FIG. 5 and 6 can operate normally provided that the sequencer and the associated real-time analysis system are not limited in terms of storage capacity. However, given the volume of data that must be processed in some modern sequencers, such as those used to perform whole genome sequencing, the storage capacity may not be sufficient, particularly at a commercially viable cost. Thus, storing three times the amount of data corresponding to a complete image of the flow cell (or flow cells) during a base sensing cycle can lead to severe resource constraints.

[89] Алгоритм для фазирования, например, представленный на фиг. 5 и 6, является значительно способствует выполнению анализа в реальном времени, поскольку он существенно улучшает результаты секвенирования, в частности, на нестандартных образцах, например, образцах с низким генетическим разнообразием. Однако нагрузка на запоминающее устройство увеличивается с ростом производительности систем секвенирования следующего поколения. Нижеследующие варианты осуществления позволяют снизить нагрузку на запоминающее устройство с использованием весов фазирования, полученных из данных, которые уже были частично скорректированы в отношении фазирования. Весовые коэффициенты фазирования и опережающего фазирования могут быть получены независимо и все же обеспечивать высококачественные результаты секвенирования. В некоторых примерах требования к основному запоминающему устройству включают в два раза меньший объем, необходимый для хранения данных, содержащихся во всех сегментах в двух проточных ячейках.[89] An algorithm for phasing, for example, shown in FIG. 5 and 6 is a significant benefit for real-time analysis as it significantly improves sequencing results, particularly on non-standard samples, such as those with low genetic diversity. However, the storage load increases as the performance of next-generation sequencing systems increases. The following embodiments reduce memory load by using phasing weights derived from data that has already been partially corrected for phasing. The phasing and phasing-advance weights can be obtained independently and still provide high-quality sequencing results. In some examples, the main storage requirements include half the volume required to store the data contained in all segments in two flow cells.

[90] В некоторых вариантах осуществления конфигурацию процессора и запоминающего устройства для распознавания оснований со скорректированным фазированием устанавливают таким образом, чтобы уменьшить требования к системному запоминающему устройству. Один пример осуществления этого показан на фиг. 7. Значения интенсивности корректируют, как описано выше, например, весовые коэффициенты фазирования и опережающего фазирования вычисляют и применяют в отношении непосредственно предшествующих и непосредственно следующих циклов. Однако в примере, показанном на фиг. 7, системное запоминающее устройство 707 использует только два буфера сегмента для коррекции фазирования: буфер 709 сегмента и буфер 711 сегмента. В этом примере процессор 702 использует поток 703 обработки, для которого, в отличие от примера, показанного на фиг. 5, используют два связанных буфера процессора: буфер 705 процессора для хранения извлеченных из запоминающего устройства 707 значений интенсивности и оперирования ними и буфер 706 процессора для хранения и использования значений In+1 интенсивности вновь захваченных изображений. В изображенном примере буферы процессора выделены в основном запоминающем устройстве, но это не всегда является обязательным. В некоторых вариантах осуществления буферы процессора выделяют в другом физическом запоминающем устройстве или даже в микросхеме процессора.[90] In some embodiments, the processor and memory for phasing-corrected base recognition are configured to reduce system storage requirements. One example of this is shown in FIG. 7. The intensity values are adjusted as described above, for example, the phasing and phasing advance weights are calculated and applied to the immediately preceding and immediately following cycles. However, in the example shown in FIG. 7, system memory 707 uses only two segment buffers for phasing correction: segment buffer 709 and segment buffer 711. In this example, processor 702 uses processing thread 703, for which, unlike the example shown in FIG. 5, two associated processor buffers are used: processor buffer 705 for storing and manipulating intensity values retrieved from memory 707, and processor buffer 706 for storing and using intensity values In+1 of newly captured images. In the example shown, processor buffers are allocated in main storage, but this is not always necessary. In some embodiments, processor buffers are allocated in another physical storage device or even on a processor chip.

[91] Замена буферов сегмента на буферы процессора позволяет существенно снизить общие требования к памяти. При использовании множества процессоров и/или многопоточной обработки несколько процессоров обрабатывают данные множества сегментов. Например, количество сегментов в системе может составлять порядка 1000-2000, в то время как число процессоров, обрабатывающих все эти сегменты, равно приблизительно двадцати. Теоретически, такая система способна обеспечить сокращение применения объема запоминающего устройства приблизительно в 50 раз. В некоторых вариантах реализации уменьшение составляет порядка 20 раз.[91] Replacing segment buffers with processor buffers can significantly reduce overall memory requirements. When using multiple processors and/or multithreading, multiple processors process data from multiple segments. For example, the number of segments in a system may be on the order of 1000-2000, while the number of processors processing all these segments is approximately twenty. Theoretically, such a system can reduce storage space usage by approximately 50 times. In some embodiments, the reduction is on the order of 20 times.

[92] В этом варианте реализации значения интенсивности, полученные по изображениям сегмента в текущем цикле (In+1) обработки, хранятся локально на процессоре и используются для вычисления весов фазирования и опережающего фазирования и последующего выполнения распознавания оснований. В некоторых вариантах реализации самые последние полученные значения (In+1) интенсивности сохраняются в буфере сегмента в системном запоминающем устройстве 707 только после завершения этого процесса.[92] In this embodiment, the intensity values obtained from the segment images in the current processing cycle (In+1) are stored locally on the processor and are used to calculate the phasing and phasing advance weights and subsequently perform base recognition. In some implementations, the most recently received intensity values (In+1) are stored in a segment buffer in system storage 707 only after this process has completed.

[93] В некоторых вариантах осуществления процессор и системное запоминающее устройство выполнены, как показано на фиг. 8. Как и в конфигурации процессора/запоминающего устройства, показанной на фиг. 7, процессор 802 использует потоки 803 обработки, каждый из которых связан с двумя буферами процессора: буфером 805 процессора для временного хранения значений интенсивности из системного запоминающего устройства 807 (буфера 811 сегментов) и буфера 806 процессора для временного хранения значений интенсивности, полученных в течение текущего цикла (In+1) обработки. Для обеспечения эффективного и результативного применения этой конфигурации для значений интенсивности, хранимых в буфере 811 сегмента, необходимо частично выполнить коррекцию фазирования. Примеры способов осуществления этого описаны ниже. Буфер 705 процессора на фиг. 7 и буфер 805 процессора на фиг. 8 загружают значения интенсивности из основного запоминающего устройства и затем используют их для генерации скорректированных значений интенсивности, используемых для распознавания оснований. В показанном примере буферы процессора выделены в основном запоминающем устройстве, но это не всегда является обязательным. В некоторых вариантах осуществления буферы процессора выделяют в другом физическом запоминающем устройстве или даже в микросхеме процессора.[93] In some embodiments, the processor and system storage are configured as shown in FIG. 8. As with the processor/memory configuration shown in FIG. 7, processor 802 uses processing threads 803, each of which is associated with two processor buffers: processor buffer 805 for temporarily storing intensity values from system storage 807 (segment buffer 811) and processor buffer 806 for temporarily storing intensity values received during the current cycle (In+1) processing. To ensure that this configuration is effectively and efficiently applied to the intensity values stored in segment buffer 811, it is necessary to partially perform phasing correction. Examples of ways to do this are described below. Processor buffer 705 in FIG. 7 and processor buffer 805 in FIG. 8 load intensity values from main storage and then use them to generate corrected intensity values used for base discrimination. In the example shown, processor buffers are allocated in main storage, but this is not always necessary. In some embodiments, processor buffers are allocated in another physical storage device or even on a processor chip.

[94] На фиг. 9 представлено высокоуровневое представление процесса 901, который может быть использован с конфигурацией процессора и запоминающего устройства, показанной на фиг. 8, и, в некоторых вариантах реализации, показанной на фиг. 7. Как показано на фиг. 9, первый и второй циклы обработки используют не всю информацию для проведения полной коррекции фазирования в кластерах, отображаемых в сегменте. Однако в первых циклах фазирование не является существенной проблемой.[94] In FIG. 9 is a high-level view of a process 901 that may be used with the processor and storage configuration shown in FIG. 8, and, in some embodiments shown in FIG. 7. As shown in FIG. 9, the first and second processing cycles do not use all the information to perform full phasing correction in the clusters displayed in the segment. However, in the first cycles, phasing is not a significant problem.

[95] Для проведения полной коррекции фазирования секвенатору требуются три последовательных цикла получения данных по изображению. В первом цикле обработки секвенатор не выполняет распознавание оснований; он лишь сохраняет данные интенсивности для следующей обработки, т. е. цикла, в котором будет выполнено первое распознавание оснований.[95] To perform full phasing correction, the sequencer requires three consecutive image acquisition cycles. In the first round of processing, the sequencer does not perform base recognition; it only stores the intensity data for the next processing, i.e. the cycle in which the first base recognition will be performed.

[96] Как показано, процесс 901 начинается в блоке 903 процесса, в котором создают поток для первого цикла обработки. Команды в этом потоке управляют извлечением данных интенсивности из изображения кластеров в течение первого цикла (I1) секвенирования, т. е. цикла, в течение которого считываются первые нуклеотиды кластеров. См. блок 905 процесса. Данные изображения сохраняются в буфере сегмента в системном запоминающем устройстве. На этом этапе по существу завершается первый цикл обработки.[96] As shown, process 901 begins at process block 903, which creates a thread for the first processing cycle. The commands in this flow control the extraction of intensity data from the cluster image during the first sequencing cycle (I1), that is, the cycle during which the first nucleotides of the clusters are read. See process block 905. The image data is stored in a segment buffer in the system storage device. At this point, the first processing cycle is essentially completed.

[97] Процесс продолжается в блоке 907 процесса, в котором создается новый поток при подготовке ко второму циклу обработки. В этом процессе первый и второй буферы процессора выделяют для второго цикла обработки. См. блок 907. Блоки 907, 909, 911, 913, 915, 917, 919, 921 и 923 процесса выполняют в ходе осуществления второго цикла обработки, который выполняют с использованием потока и буферов процессора, сгенерированных в блоке 907 процесса.[97] The process continues at process block 907, where a new thread is created in preparation for the second round of processing. In this process, the first and second processor buffers are allocated for the second processing cycle. See block 907. Process blocks 907, 909, 911, 913, 915, 917, 919, 921 and 923 are executed during a second processing loop, which is performed using the thread and processor buffers generated at process block 907.

[98] Как показано, процессор извлекает данные интенсивности из изображения для следующего цикла (I2) распознавания оснований и сохраняет эти данные в первом буфере процессора. См. блок 909 процесса. Затем, в ходе осуществления второго цикла обработки процессор извлекает данные интенсивности, сохраненные в буфере сегмента в ходе осуществления первого цикла обработки, которые представляют собой данные интенсивности для текущего цикла (I1) распознавания оснований. См. блок 911. Используя данные интенсивности, собранные в ходе осуществления первого и второго циклов обработки, процессор может вычислить весовой коэффициент b опережающего фазирования для текущего цикла распознавания оснований (т. е. первых распознаваний оснований в ридах). См. блок 913 процесса. С помощью значений интенсивности для первых двух циклов и весового коэффициента опережающего фазирования процессор вычисляет скорректированные значения данных интенсивности для второго цикла (I2) распознавания оснований. Скорректированные значения данных интенсивности могут быть сохранены во втором буфере процессора. См. блок 915 процесса. Затем процессор выполняет распознавания оснований для второго цикла распознавания оснований с использованием скорректированных значений данных интенсивности, полученных в блоке 915. См. блок 917 процесса.[98] As shown, the processor extracts intensity data from the image for the next base detection cycle (I2) and stores this data in the first processor buffer. See process block 909. Then, during the second processing cycle, the processor retrieves the intensity data stored in the segment buffer during the first processing cycle, which represents the intensity data for the current base recognition cycle (I1). See block 911. Using the intensity data collected during the first and second processing cycles, the processor may calculate the phasing advance weight b for the current base recognition cycle (ie, the first base recognitions in the reads). See process block 913. Using the intensity values for the first two rounds and the phasing advance weighting factor, the processor calculates adjusted intensity data values for the second round (I2) of base recognition. The adjusted intensity data values may be stored in a second processor buffer. See process block 915. The processor then performs base discriminations for a second base discrimination cycle using the adjusted intensity data values obtained at block 915. See process block 917.

[99] На этом этапе процесс секвенирования готов начать подготовку к следующему циклу распознавания оснований. Он начинается в блоке 919 процесса определением весового коэффициента a коррекции фазирования с использованием данных (I2) интенсивности следующего (или второго) цикла распознавания оснований и текущих данных (I1) цикла распознавания оснований, которые были сохранены в буфере сегмента. Используя весовой коэффициент a коррекции фазирования, процессор затем вычисляет значения данных интенсивности со скорректированным фазированием (но не скорректированным опережающим фазированием) по текущим нескорректированным данным (I2) интенсивности, извлеченным в ходе осуществления этого второго цикла обработки, и значениям данных интенсивности для первого цикла (I1) обработки согласно выражению, приведенному в блоке 921 процесса. Это приводит к получению массива частично скорректированных значений интенсивности (I2(частично скорректированных)) для второго цикла распознавания оснований. Для выполнения коррекции опережающего фазирования секвенатор должен будет дождаться следующего цикла обработки. Однако на этом этапе большая часть вычислений завершена и данные массива для одного изображения могут быть сохранены в буфере сегмента для использования в следующем цикле распознавания оснований. С этой целью процессор сохраняет данные интенсивности со скорректированным фазированием (но не скорректированным опережающим фазированием) в буфере сегмента (таким образом, что I2 (частично скорректированные) заменяют I1 в буфере сегмента). См. блок 923 процесса.[99] At this point, the sequencing process is ready to begin preparing for the next round of base recognition. It begins at process block 919 by determining the phasing correction weight a using the intensity data (I2) of the next (or second) base discrimination cycle and the current base recognition cycle data (I1) that has been stored in the segment buffer. Using the phasing correction weight a, the processor then calculates the phasing corrected (but not forward phasing corrected) intensity data values from the current uncorrected intensity data (I2) extracted during this second round of processing and the intensity data values for the first loop (I1 ) processing according to the expression given in process block 921. This results in an array of partially corrected intensity values (I2(partially corrected)) for the second round of base recognition. The sequencer will have to wait until the next processing cycle to perform advanced phasing correction. However, at this point most of the computation is complete and the array data for one image can be stored in a segment buffer for use in the next round of base recognition. To this end, the processor stores the phasing corrected (but not forward phasing corrected) intensity data in the segment buffer (such that I2 (partially corrected) replaces I1 in the segment buffer). See process block 923.

[100] На этом этапе первый и второй циклы обработки завершаются и выполняют распознавания оснований для первого цикла распознавания оснований, который является вторым циклом обработки. Последующие циклы распознавания оснований могут быть выполнены с полной коррекцией фазирования, как описано на фиг. 10. См. блок 925 процесса.[100] At this point, the first and second processing cycles are completed and base recognitions are performed for the first base recognition cycle, which is the second processing cycle. Subsequent base recognition cycles can be performed with full phasing correction as described in FIG. 10. See process block 925.

[101] На фиг. 10 показана последовательность операций, которые могут быть выполнены в ходе цикла обработки, при котором проводят распознавание оснований со скорректированным фазированием. Такой цикл может быть выполнен в третьем и последующих циклах обработки при секвенировании кластеров сегмента. В некоторых вариантах осуществления последовательность операций, изображенная на фиг. 10, соответствует блоку 925 процесса, показанному на фиг. 9.[101] In FIG. 10 illustrates the sequence of operations that can be performed during a processing cycle in which phasing-corrected base recognition is performed. Such a cycle can be performed in the third and subsequent processing cycles when sequencing segment clusters. In some embodiments, the process flow depicted in FIG. 10 corresponds to process block 925 shown in FIG. 9.

[102] Как показано на фигуре, процесс начинается с выделения потока и связанных с ним первого и второго буферов процессора. См. блок 1003 процесса. Затем, процессор извлекает значения данных интенсивности из изображения для следующего цикла (In+1) распознавания оснований и сохраняет эти значения в первом буфере процессора. См. блок 1005 процесса. Одновременно процессор извлекает частично скорректированные значения данных интенсивности, которые были сохранены в ходе предшествующего цикла распознавания оснований (в качестве неограничивающего примера, I2(частично скорректированные) в варианте осуществления, показанном на фиг. 9, или In - a(In-1)). Теперь эти значения представляют собой значения интенсивности для текущего цикла распознавания оснований (In). Ранее они были сохранены в буфере сегмента запоминающего устройства системы и теперь извлечены из него. См. блок 1007 процесса. С частично скорректированными значениями данных интенсивности для текущего цикла распознавания оснований, для которых была скорректировано фазирование, процессору необходимо лишь выполнить коррекцию опережающего фазирования, чтобы завершить коррекцию данных интенсивности и выполнить необходимые распознавания оснований для текущего цикла распознавания оснований. С этой целью процессор определяет весовой коэффициент b коррекции опережающего фазирования для текущего цикла распознавания оснований. Для выполнения этого процессор использует извлеченные данные интенсивности, только что извлеченные им из данных изображения, для следующего цикла (In+1) вместе с частично скорректированными ранее данными интенсивности для текущего цикла распознавания оснований. Напомним, что эти частично скорректированные данные только что были извлечены из буфера сегмента. Частично скорректированные данные интенсивности могут быть представлены следующим выражением: In - a(In-1). См. блок 1009 процесса.[102] As shown in the figure, the process begins by allocating a thread and its associated first and second processor buffers. See process block 1003. Next, the processor extracts intensity data values from the image for the next round (In+1) of base recognition and stores these values in the first processor buffer. See process block 1005. Concurrently, the processor retrieves the partially corrected intensity data values that were stored during the previous base recognition cycle (as a non-limiting example, I2(partially corrected) in the embodiment shown in FIG. 9, or In - a(In-1)). These values now represent the intensity values for the current base recognition cycle (In). They were previously stored in the system storage segment buffer and are now retrieved from it. See process block 1007. With the partially corrected intensity data values for the current base recognition cycle for which the phasing has been adjusted, the processor only needs to perform a forward phasing correction to complete the intensity data correction and perform the necessary base recognitions for the current base recognition cycle. To this end, the processor determines the phasing advance correction weight b for the current base recognition cycle. To accomplish this, the processor uses the extracted intensity data it has just extracted from the image data for the next cycle (In+1) along with the previously partially corrected intensity data for the current base detection cycle. Recall that this partially corrected data has just been retrieved from the segment buffer. The partially corrected intensity data can be represented by the following expression: In - a(In-1). See process block 1009.

[103] С учетом весового коэффициента b коррекции опережающего фазирования, вычисленного для текущего цикла распознавания оснований, процессор имеет все необходимые данные для вычисления массива данных интенсивности с полностью скорректированным фазированием для текущего цикла (In) распознавания оснований. Вычисление проводят, как показано в блоке 1009 процесса. Результирующие полностью скорректированные значения данных интенсивности сохраняют во втором буфере процессора. См. блок 1011 процесса. После этого процессор выполняет распознавания оснований для текущего цикла распознавания оснований с использованием скорректированных значений данных интенсивности, сохраненных во втором буфере процессора. См. блок 1013 процесса.[103] Given the phasing advance correction weight b calculated for the current base recognition cycle, the processor has all the necessary data to compute a fully phasing corrected intensity data array for the current base recognition cycle (In). The calculation is carried out as shown in process block 1009. The resulting fully corrected intensity data values are stored in a second processor buffer. See process block 1011. The processor then performs base discriminations for the current base recognition cycle using the adjusted intensity data values stored in the second processor buffer. See process block 1013.

[104] В текущем цикле обработки может быть начата подготовка к следующему циклу распознавания оснований, который будет выполнен в ходе следующего цикла обработки. В изображенном варианте осуществления процессор определяет весовой коэффициент a коррекции фазирования для следующего цикла распознавания оснований с использованием данных интенсивности, доступных для текущего цикла распознавания оснований. См. блок 1015 процесса. Напомним, что данные интенсивности следующего цикла распознавания оснований были извлечены и сохранены в первом буфере процессора при выполнении операции 1005 процесса. Частично скорректированные значения интенсивности для текущего цикла распознавания оснований были извлечены из буфера сегмента в целях выполнения текущих распознаваний оснований. Те же частично скорректированные значения интенсивности теперь используются для вычисления весового коэффициента a коррекции фазирования для следующего цикла распознавания оснований. Теперь, с применением вычисленного весового коэффициента коррекции фазирования для следующего цикла распознавания оснований процессор вычисляет значения данных интенсивности со скорректированным фазированием (но не скорректированным опережающим фазированием), как показано в блоке 1017 процесса. Затем процессор сохраняет эти значения данных интенсивности со скорректированным фазированием для следующего цикла распознавания оснований в буфере сегмента. См. блок 1019 процесса.[104] The current processing cycle can begin preparation for the next base recognition cycle, which will be performed during the next processing cycle. In the illustrated embodiment, the processor determines the phasing correction weight a for the next base recognition cycle using the intensity data available for the current base recognition cycle. See process block 1015. Recall that the intensity data of the next base discrimination cycle was retrieved and stored in the first processor buffer at process operation 1005. Partially corrected intensity values for the current base discrimination cycle were retrieved from the segment buffer in order to perform ongoing base discriminations. The same partially corrected intensity values are now used to calculate the phasing correction weight a for the next base discrimination cycle. Now, using the calculated phasing correction weight for the next base recognition cycle, the processor calculates phasing corrected (but not advance phasing corrected) intensity data values, as shown in process block 1017. The processor then stores these phasing-corrected intensity data values for the next base detection cycle in a segment buffer. See process block 1019.

[105] До создания этого изобретения предполагалось, что точность распознавания оснований ухудшится при определении весов опережающего фазирования по значениям интенсивности со скорректированным фазированием. Однако результаты, приведенные в настоящем документе, указывают на наличие небольшого количества неточных результатов или их отсутствие. В некоторых вариантах реализации данные изображения сжимают (например, путем сжатия с потерями) и даже сжимают данные с частичной коррекцией фазы. В обоих случаях было продемонстрировано, что сжатие может быть выполнено без потери точности. Например, без сжатия в реализации используют два буфера плавающего типа для каждого сегмента (размер буфера плавающего типа составляет 4 байта). В случае применения сжатия в реализации используют однобайтовый буфер, таким образом, используя в 4 раза меньший объем памяти.[105] Prior to this invention, it was believed that base recognition accuracy would deteriorate when phasing advance weights were determined from phasing corrected intensity values. However, the results reported herein indicate that there are few or no inaccurate results. In some embodiments, the image data is compressed (eg, through lossy compression) and even the data is compressed with partial phase correction. In both cases it was demonstrated that compression could be performed without loss of accuracy. For example, a non-compressed implementation uses two floating buffers for each segment (the floating buffer size is 4 bytes). When compression is used, the implementation uses a one-byte buffer, thus using 4 times less memory.

[106] На этом этапе текущий цикл обработки по существу завершен, поэтому процессор определяет, необходимо ли выполнить еще какие-либо циклы при секвенировании кластеров текущего сегмента. См. блок 1021 принятия решения. Если из кластеров больше не требуется считывать основания, процесс завершается и дальнейшие циклы обработки не осуществляют. Однако, если требуется один или более дополнительных циклов секвенирования, управление процессом передается в блок 1023 процесса, в котором процессор увеличивает номер текущего цикла, и на этом этапе частично скорректированные значения данных интенсивности, хранимые в буфере сегмента, становятся текущими; т. е. они становятся значениями для нового цикла распознавания оснований. Затем управление процессом возвращается к блоку 1003 процесса, в котором начинается следующий цикл обработки.[106] At this point, the current processing cycle is essentially complete, so the processor determines whether any more cycles need to be performed when sequencing the clusters of the current segment. See decision block 1021. If no more bases need to be read from the clusters, the process ends and no further processing cycles are performed. However, if one or more additional sequencing cycles are required, process control is transferred to process block 1023, where the processor increments the current cycle number, at which point the partially corrected intensity data values stored in the segment buffer become current; that is, they become values for a new base recognition cycle. Process control then returns to process block 1003, where the next processing cycle begins.

ПРИМЕРEXAMPLE

[107] Как было объяснено выше, некоторые варианты осуществления позволяют снизить нагрузку на запоминающее устройство с использованием весов фазирования, полученных по данным, которые уже были частично скорректированы по фазированию. Однако не было понятно, что весовые коэффициенты фазирования и опережающего фазирования могут быть получены независимо и при этом могут быть обеспечены высококачественные результаты секвенирования. Из примера, представленного на фиг. 11, видно, что это возможно.[107] As explained above, some embodiments reduce memory load by using phasing weights derived from data that has already been partially phasing corrected. However, it was not realized that phasing and phasing advance weights could be obtained independently and still provide high-quality sequencing results. From the example shown in FIG. 11, it is clear that this is possible.

[108] Как показано на фигуре, было проведено два сравнения, в каждом из которых был использован базовый процесс (например, процесс, показанный на фиг. 5 и 6) и новый процесс, который был оптимизирован для уменьшения требований к основному запоминающему устройству (например, процесс, показанный на фиг. 8 и 10). В каждом сравнении использовали одни и те же секвенатор и образец. В частности, прибор Illumina HiSeqX был преобразован для использования химического состава из 2 красителей. Выходные изображения секвенатора были сохранены и оба алгоритма фазирования были испытаны на одних и тех же изображениях секвенирования, что позволило обеспечить полностью управляемое испытание. В столбце «Производительность по кластерам» указана производительность, обеспечиваемая секвенатором; в столбце «% согласованных» указано количество кластеров, которые успешно согласованы с эталонным геномом, а в столбце «% частота появления ошибок» указана средняя частота появления ошибок последовательностей, вызванных программным обеспечением, по сравнению с эталонным геномом.[108] As shown in the figure, two comparisons were made, each using a basic process (eg, the process shown in FIGS. 5 and 6) and a new process that was optimized to reduce main storage requirements (eg , the process shown in Figures 8 and 10). The same sequencer and sample were used in each comparison. Specifically, the Illumina HiSeqX instrument has been converted to use a 2-dye chemistry. The sequencer output images were saved and both phasing algorithms were tested on the same sequencing images, allowing for a fully controlled test. The Performance by Cluster column indicates the performance provided by the sequencer; the "% Aligned" column indicates the number of clusters that are successfully aligned to the reference genome, and the "% Error Rate" column indicates the average frequency of sequence errors caused by the software compared to the reference genome.

[109] Как видно из результатов секвенирования, алгоритм фазирования с эффективным использованием запоминающего устройства сопоставим с базовым алгоритмом. В этом примере применение процесса с эффективным использованием запоминающего устройства привело к увеличению частоты появления ошибок приблизительно на 3%, что компенсируется уменьшением применяемого объема основного запоминающего устройства (в некоторых вариантах реализации оцениваемым от 420 Гигабайт до 340 Гигабайт).[109] As can be seen from the sequencing results, the memory efficient phasing algorithm is comparable to the baseline algorithm. In this example, the use of a memory efficient process resulted in an increase in error rate of approximately 3%, which was offset by a reduction in the usable size of the main storage device (estimated at 420 Gigabytes to 340 Gigabytes in some embodiments).

СПОСОБЫ СЕКВЕНИРОВАНИЯSEQUENCING METHODS

[110] Как указано выше, настоящее раскрытие относится к секвенированию образцов нуклеиновых кислот. Может быть использован любая из множества технологий секвенирования с использованием одного или более каналов информации для распознавания оснований, в частности, оптических каналов. В частности, могут быть применены способы, согласно которым нуклеиновые кислоты присоединены в фиксированных местоположениях в массиве (например, в виде кластера) и согласно которым для массива многократно получают изображение. В частности, могут быть применены варианты осуществления, в которых изображения получают в разных цветовых каналах, например, соответствующих разным меткам, используемым для различения одного типа нуклеотидного основания от другого. В некоторых вариантах осуществления процесс определения нуклеотидной последовательности целевой нуклеиновой кислоты может представлять собой автоматизированный процесс. Некоторые варианты осуществления включают способы секвенирования путем синтеза (SBS). Хотя в данном документе особо выделено секвенирование путем синтеза, могут быть использованы и другие технологии секвенирования.[110] As stated above, the present disclosure relates to the sequencing of nucleic acid samples. Any of a variety of sequencing technologies may be used using one or more channels of base recognition information, in particular optical channels. In particular, methods may be used in which nucleic acids are attached at fixed locations in an array (eg, in a cluster) and in which the array is repeatedly imaged. In particular, embodiments may be used in which images are obtained in different color channels, for example corresponding to different labels used to distinguish one type of nucleotide base from another. In some embodiments, the process of determining the nucleotide sequence of a target nucleic acid may be an automated process. Some embodiments include sequencing by synthesis (SBS) methods. Although this document emphasizes sequencing by synthesis, other sequencing technologies may be used.

[111] Во многих вариантах реализации способы секвенирования путем синтеза включают ферментативное удлинение образующейся цепи нуклеиновой кислоты путем итеративного сложения нуклеотидов и некодирующей цепи. В традиционных способах секвенирования путем синтеза для целевого нуклеотида при каждой доставке может быть обеспечен единичный нуклеотидный мономер в присутствии полимеразы. Однако согласно описанным в данном документе способам для целевой нуклеиновой кислоты в присутствии полимеразы при доставке может быть обеспечен нуклеотидный мономер более, чем одного типа.[111] In many embodiments, synthetic sequencing methods involve enzymatic extension of a nascent nucleic acid chain by iterative addition of nucleotides and a non-coding strand. In traditional sequencing-by-synthesis methods, a single nucleotide monomer can be provided for each delivery of a target nucleotide in the presence of a polymerase. However, according to the methods described herein, more than one type of nucleotide monomer can be provided to a target nucleic acid in the presence of a polymerase upon delivery.

[112] При секвенировании путем синтеза могут быть использованы нуклеотидные мономеры, которые имеют терминаторный компонент или которые не имеют терминаторный компонент. Способы с использованием нуклеотидных мономеров, в которых отсутствуют терминаторы, включают, например, пиросеквенирование и секвенирование с использованием меченных γ-фосфатом нуклеотидов. В способах с использованием нуклеотидных мономеров, в которых отсутствуют терминаторы, количество нуклеотидов, добавляемых в каждом цикле, как правило, является переменным и зависит от матричной последовательности и способа доставки нуклеотидов. Для способов секвенирования путем синтеза, в которыз используют нуклеотидные мономеры с терминаторным компонентом, терминатор может быть по существу необратимым в используемых условиях секвенирования, как в случае традиционного секвенирования по Сенгеру, при котором используют дидезоксинуклеотиды, или терминатор может быть обратимым, как в случае способов секвенирования, разработанных компанией Solexa (сейчас Illumina, Inc.).[112] Synthetic sequencing can use nucleotide monomers that have a terminator component or that do not have a terminator component. Methods using nucleotide monomers that lack terminators include, for example, pyrosequencing and sequencing using γ-phosphate labeled nucleotides. In methods using nucleotide monomers that lack terminators, the amount of nucleotides added in each cycle is typically variable and depends on the template sequence and the method of delivery of the nucleotides. For sequencing-by-synthesis methods that use nucleotide monomers with a terminator component, the terminator may be substantially irreversible under the sequencing conditions used, as in the case of traditional Sanger sequencing, which uses dideoxynucleotides, or the terminator may be reversible, as in the case of sequencing methods , developed by Solexa (now Illumina, Inc.).

[113] Согласно способам секвенирования путем синтеза могут использовать нуклеотидные мономеры, которые имеют меченый компонент или не имеют меченый компонент. Соответственно, события включения могут быть обнаружены на основании характеристики метки, например, флуоресценции метки; характеристики нуклеотидного мономера, например, молекулярной массы или молекулярного заряда; побочного продукта включения нуклеотида, например, высвобождения пирофосфата; или т. п. В вариантах осуществления, в которых в реагенте для секвенирования присутствуют два или более разных нуклеотидов, разные нуклеотиды могут отличимыми друг от друга или, В качестве альтернативы, две или более разных меток могут быть неотличимыми при используемых методах обнаружения. Например, разные нуклеотиды, присутствующие в реагенте для секвенирования, могут иметь разные метки, и их можно различить с использованием подходящих оптических устройств, примером чего являются способы секвенирования, разработанные компанией Solexa (в настоящее время Illumina, Inc.).[113] Synthetic sequencing methods may use nucleotide monomers that have a tagged component or do not have a tagged component. Accordingly, switching events can be detected based on a characteristic of the label, such as fluorescence of the label; characteristics of the nucleotide monomer, such as molecular weight or molecular charge; a by-product of nucleotide incorporation, such as pyrophosphate release; or the like. In embodiments in which two or more different nucleotides are present in the sequencing reagent, the different nucleotides may be distinguishable from each other or, Alternatively, two or more different tags may be indistinguishable by the detection methods used. For example, different nucleotides present in a sequencing reagent may have different labels and can be distinguished using suitable optical devices, as exemplified by sequencing methods developed by Solexa (now Illumina, Inc.).

[114] Некоторые варианты осуществления включают способы пиросеквенирования. С применением пиросеквенирования обнаруживают высвобождение неорганического пирофосфата (PPi), когда конкретные нуклеотиды включены в образующуюся цепь (Ronaghi, M., Karamohamed S., Pettersson, B., Uhlen, M., Nyren, P. (1996) «Real-time DNA sequencing using detection of pyrophosphate release». Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) «Pyrosequencing sheds light on DNA sequencing». Genome Res. 11(1), 3-11; Ronaghi, M., Uhlen, M., Nyren, P. (1998) «A sequencing method based on real-time pyrophosphate». Science 281(5375), 363; патент США № 6,210,891; патент США № 6,258,568 и патент США № 6,274,320, раскрытие которых полностью включено в настоящее описание посредством ссылки). При пиросеквенировании высвобождаемый пирофосфат PPi может быть обнаружен путем прямого превращения в аденозинтрифосфат (АТФ) под действием АТФ-сульфурилазы, а уровень генерируемого АТФ определяют по фотонам, вырабатываемым люциферазой. Нуклеиновые кислоты, подлежащие секвенированию, могут быть присоединены к элементам в массиве и может осуществляться визуализация этого массива для фиксации хемилюминесцентных сигналов, которые вырабатываются в результате включения нуклеотидов в элементы массива. Изображение может быть получено после обработки массива с применением нуклеотидов определенного типа (например, A, T, C или G). Изображения, полученные после добавления нуклеотидов каждого типа, будут отличаться в зависимости от того, какие элементы обнаружены в массиве. Эти различия в изображении отражают различное содержимое последовательности элементов массива. Однако относительные местоположения каждого элемента останутся неизменными на изображениях. Указанные изображения могут быть сохранены, обработаны и проанализированы с использованием способов, описанных в данном документе. Например, изображения, полученные после обработки массива с применением нуклеотидов каждого различного типа, могут быть обработаны таким же образом, как показано в данном документе в качестве примера для изображений, полученных из разных каналов обнаружения для способов секвенирования на основе обратимых терминаторов].[114] Some embodiments include pyrosequencing methods. Using pyrosequencing, the release of inorganic pyrophosphate (PPi) is detected when specific nucleotides are incorporated into the nascent chain (Ronaghi, M., Karamohamed S., Pettersson, B., Uhlen, M., Nyren, P. (1996) “Real-time DNA sequencing using detection of pyrophosphate release." Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing." Genome Res. 11(1), 3-11; Ronaghi, M. ., Uhlen, M., Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate." Science 281(5375), 363; US Patent No. 6,210,891; US Patent No. 6,258,568 and US Patent No. 6,274,320, disclosure which are incorporated herein by reference in their entirety). In pyrosequencing, the released PPi pyrophosphate can be detected by direct conversion to adenosine triphosphate (ATP) by ATP sulfurylase, and the level of ATP generated is determined by photons produced by luciferase. The nucleic acids to be sequenced can be attached to elements in an array and the array can be imaged to capture the chemiluminescent signals that are produced as a result of the incorporation of nucleotides into the array elements. The image can be obtained after processing the array using a specific type of nucleotide (for example, A, T, C or G). The images obtained after adding each type of nucleotide will differ depending on what elements are found in the array. These differences in the image reflect the different contents of the sequence of array elements. However, the relative locations of each element will remain the same in the images. These images may be stored, processed and analyzed using the methods described herein. For example, images obtained after processing an array using each different type of nucleotides can be processed in the same manner as shown herein as an example for images obtained from different detection channels for reversible terminator sequencing methods].

[115] Согласно другому иллюстративному типу секвенирования путем синтеза цикл секвенирования осуществляют путем последовательного добавления нуклеотидов, содержащих обратимые терминаторы, например, отщепляемую метку или метку из фотообесцвечиваемого красителя, как описано, например, в WO 04/018497 и патенте США № 7,057,026, раскрытие которого включено в настоящее описание посредством ссылки. Этот подход коммерциализирован компанией Solexa (в настоящее время Illumina Inc.) и описан в WO 91/06678 и WO 07/123,774, каждый из которых включен в настоящее описание посредством ссылки. Наличие флуоресцентно-меченных терминаторов, для которых терминация могут быть обращена, а флуоресцентная метка расщеплена, способствует эффективному секвенированию с циклически обратимой терминацией (CRT). Кроме того, полимеразы могут быть разработаны с возможностью их эффективного включения и распространения из этих измененных нуклеотидов.[115] According to another exemplary type of sequencing by synthesis, the sequencing cycle is carried out by sequentially adding nucleotides containing reversible terminators, for example, a cleavable tag or a photobleaching dye tag, as described, for example, in WO 04/018497 and US patent No. 7,057,026, the disclosure of which is incorporated herein by reference. This approach is commercialized by Solexa (now Illumina Inc.) and described in WO 91/06678 and WO 07/123,774, each of which is incorporated herein by reference. The presence of fluorescently labeled terminators, for which termination can be reversed and the fluorescent tag cleaved, facilitates efficient cycle reversible termination (CRT) sequencing. Additionally, polymerases can be designed to efficiently incorporate and propagate from these altered nucleotides.

[116] В вариантах осуществления секвенирования на основе обратимого терминатора метки могут по существу не препятствовать удлинению в условиях реакции секвенирования путем синтеза. Однако метки для обнаружения могут быть удаляемыми, например, путем расщепления или разложения. Изображения могут быть захвачены после включения меток в элементы массива нуклеиновых кислот. В конкретных вариантах осуществления каждый цикл включает одновременную доставку нуклеотидов четырех разных типов в массив, причем каждый тип нуклеотида имеет спектрально отличную метку. Затем могут быть получены четыре изображения, для каждого из которых используют канал обнаружения, который является избирательным для одной из четырех разных меток. В качестве альтернативы нуклеотиды различных типов можно добавлять последовательно и получать изображение массива между этапами добавления. В таких вариантах осуществления на каждом изображении будут представлены элементы нуклеиновой кислоты, которые включают нуклеотиды определенного типа. Различные элементы будут присутствовать или отсутствовать на разных изображениях вследствие разного содержимого последовательности каждого элемента. Однако относительные положения элементов останутся неизменными на изображениях. Изображения, полученные с помощью таких способов секвенирования путем синтеза на основе обратимого терминатора, могут быть сохранены, обработаны и проанализированы, как описано в данном документе. После этапа фиксации изображения метки могут быть удалены и обратимые терминаторные компоненты могут быть удалены для осуществления последующих циклов добавления и обнаружения нуклеотидов. Удаление меток после их обнаружения в определенном цикле и перед последующим циклом, может обеспечить преимущество уменьшения фонового сигнала и перекрестных взаимодействий между циклами.[116] In embodiments of reversible terminator sequencing, the tags may not substantially prevent extension under the conditions of the synthesis sequencing reaction. However, detection marks may be removable, for example by cleavage or decomposition. Images can be captured after incorporating tags into the nucleic acid array elements. In specific embodiments, each cycle involves simultaneous delivery of four different types of nucleotides to the array, with each type of nucleotide having a spectrally distinct label. Four images can then be acquired, each using a detection channel that is selective for one of four different marks. Alternatively, different types of nucleotides can be added sequentially and an image of the array can be obtained between addition steps. In such embodiments, each image will represent nucleic acid elements that include a specific type of nucleotide. Different elements will be present or absent in different images due to the different sequence content of each element. However, the relative positions of the elements will remain unchanged in the images. Images obtained using such reversible terminator sequencing methods can be stored, processed and analyzed as described herein. After the image capture step, the tags can be removed and the reversible terminator components can be removed to allow subsequent rounds of nucleotide addition and detection. Removing tags after they are detected in a particular cycle and before the subsequent cycle may provide the benefit of reducing background signal and cross-talk between cycles.

[117] В конкретных вариантах осуществления некоторые или все нуклеотидные мономеры могут включать обратимые терминаторы. В таких вариантах осуществления обратимые терминаторы/расщепляемые флуорофоры могут включать фтор, связанный с рибозным компонентом 3’-сложноэфирной связью (Metzker, Genome Res. 15:1767-1776 (2005), который включен в настоящее описание посредством ссылки). Согласно другим подходам химический анализ терминатора отделяют от расщепления флуоресцентной метки (Ruparel и др., Proc Natl Acad Sci USA 102: 5932-7 (2005), которая полностью включена в настоящее описание посредством ссылки). Ruparel и др. описали разработку обратимых терминаторов с использованием небольшой 3'-аллильной группы для блокирования удлинения, но которую можно было легко разблокировать с помощью короткой обработки с применением палладиевого катализатора. Флуорофор был прикреплен к основанию фоторасщепляемым линкером, который легко расщепляется при 30-секундном воздействии длинноволнового ультрафиолетового света. Таким образом, в качестве расщепляемого связывания можно использовать либо дисульфидное восстановление, либо фотораcщепление. Другим подходом к обратимой терминации является использование естественной терминации, которая происходит после помещения объемного красителя на дезоксирибонуклеозидтрифосфат (dNTP). Присутствие заряженного объемного красителя на дезоксирибонуклеозидтрифосфате может действовать как эффективный терминатор за счет стерического несоответствия и/или электростатической помехи. Наличие одного события включения предотвращает дальнейшие включения, пока краситель не будет удален. При расщеплении красителя происходит удаление фтора и эффективное обращение терминации. Примеры измененных нуклеотидов также описаны в патенте США № 7,427,673 и патенте США № 7,057,026, раскрытия которых полностью включены в настоящее описание посредством ссылки.[117] In certain embodiments, some or all of the nucleotide monomers may include reversible terminators. In such embodiments, the reversible terminators/cleavable fluorophores may include a fluorine linked to the ribose moiety by a 3' ester linkage (Metzker, Genome Res. 15:1767-1776 (2005), which is incorporated herein by reference). Other approaches separate the chemical analysis of the terminator from the cleavage of the fluorescent tag (Ruparel et al., Proc Natl Acad Sci USA 102: 5932-7 (2005), which is incorporated herein by reference in its entirety). Ruparel et al. described the development of reversible terminators using a small 3'-allyl group to block extension, but which could be easily unblocked by a short treatment using a palladium catalyst. The fluorophore was attached to the base by a photocleavable linker, which is easily cleaved by 30 s of exposure to long-wave ultraviolet light. Thus, either disulfide reduction or photocleavage can be used as cleavable binding. Another approach to reversible termination is to use natural termination, which occurs after placing a bulk dye on a deoxyribonucleoside triphosphate (dNTP). The presence of a charged bulk dye on the deoxyribonucleoside triphosphate can act as an effective terminator due to steric mismatch and/or electrostatic interference. The presence of one turn-on event prevents further turn-ons until the dye is removed. When the dye is broken down, fluoride is removed and termination is effectively reversed. Examples of altered nucleotides are also described in US Patent No. 7,427,673 and US Patent No. 7,057,026, the disclosures of which are incorporated herein by reference in their entirety.

[118] Дополнительные иллюстративные системы и способы секвенирования путем синтеза, которые могут применяться с описанными в данном документе способами и системами, описаны в публикации заявки на патент США № 2007/0166705, публикации заявки на патент США № 2006/0188901, патенте США № 7,057,026, публикации заявки на патент США № 2006/0240439, публикации заявки на патент США № 2006/0281109, публикации PCT № WO 05/065814, публикации заявки на патент США № 2005/0100900, публикации PCT № WO 06/064199, публикации РСТ № WO 07/010,251, публикации заявки на патент США № 2012/0270305 и публикации заявки на патент США № 2013/0260372, раскрытия которых полностью включены в настоящий документ посредством ссылки.[118] Additional exemplary sequencing-by-synthesis systems and methods that can be used with the methods and systems described herein are described in US Patent Application Publication No. 2007/0166705, US Patent Application Publication No. 2006/0188901, US Patent No. 7,057,026 , US Patent Application Publication No. 2006/0240439, US Patent Application Publication No. 2006/0281109, PCT Publication No. WO 05/065814, US Patent Application Publication No. 2005/0100900, PCT Publication No. WO 06/064199, PCT Publication No. WO 07/010,251, US Patent Application Publication No. 2012/0270305, and US Patent Application Publication No. 2013/0260372, the disclosures of which are incorporated herein by reference in their entirety.

[119] В некоторых вариантах осуществления можно использовать обнаружение (детектирование) четырех разных нуклеотидов с использованием менее четырех разных меток. Например, секвенирование путем синтеза может быть выполнено с использованием способов и систем, описанных в используемых материалах публикации заявки на патент США № 2013/0079232. В качестве первого примера, пара типов нуклеотидов может детектироваться на одной и той же длине волны, но их различают на основании разницы в интенсивности для одного члена пары по сравнению с другим или на основании изменения одного члена пары (например, путем химического изменения, фотохимического изменения или физического изменения), которая обуславливает появление или исчезновение наблюдаемого сигнала по сравнению с сигналом, обнаруженным для другого члена пары. В качестве второго примера, нуклеотиды, относящиеся к трем из четырех различных типов могут детектироваться при определенных условиях, в то время как у нуклеотидов четвертого типа отсутствует метка, которая может быть обнаружена в этих условиях или является минимально обнаруживаемой в этих условиях (например, возможно ее минимальное обнаружение вследствие наличия фоновой флуоресценции и т. д.). Включение нуклеотидов первых трех типов в нуклеиновую кислоту может быть определено на основании наличия соответствующих им сигналов, а включение нуклеотида четвертого типа в нуклеиновую кислоту может быть определено на основании отсутствия или минимального обнаружения какого-либо сигнала. В качестве третьего примера, нуклеотид одного типа может включать метку (-и), которую обнаруживают в двух разных каналах, тогда как нуклеотиды других типов обнаруживают не более чем в одном из каналов. Вышеупомянутые три примера конфигурации не считаются взаимоисключающими и могут быть использованы в различных комбинациях. Пример осуществления, в котором объединены все три примера, представляет собой способ секвенирования путем синтеза на основе флуоресценции, согласно которому используют нуклеотид первого типа, который обнаруживают в первом канале (например, дезоксиаденозина трифосфат (dATP) с меткой, которую обнаруживают в первом канале при возбуждении с применением первой длины волны возбуждения), нуклеотид второго типа, который обнаруживают во втором канале (например, дезоксицитидина трифосфат (dCTP) с меткой, которую обнаруживают во втором канале при возбуждении с применением второй длины волны возбуждения), нуклеотид третьего типа, который обнаруживают как в первом, так и во втором канале (например, тримидина трифосфат (dTTP) с по меньшей мере одной меткой, которую обнаруживают в обоих каналах при возбуждении с применением первой и/или второй длины волны возбуждения), и нуклеотид четвертого типа, в котором отсутствует метка и который не обнаруживается или минимально обнаруживается в любом канале (например, дезоксигуанозина трифосфат (dGTP) без метки).[119] In some embodiments, detection of four different nucleotides using fewer than four different labels can be used. For example, sequencing by synthesis can be performed using methods and systems described in US Patent Application Publication No. 2013/0079232. As a first example, a pair of nucleotide types may be detected at the same wavelength, but are differentiated based on a difference in intensity for one member of the pair compared to the other, or based on a change in one member of the pair (e.g., by chemical change, photochemical change or physical change) that causes the observed signal to appear or disappear relative to the signal detected for the other member of the pair. As a second example, nucleotides belonging to three of the four different types may be detected under certain conditions, while nucleotides of the fourth type lack a label that is detectable under those conditions or is minimally detectable under those conditions (e.g., it may minimal detection due to background fluorescence, etc.). The inclusion of the first three types of nucleotides in a nucleic acid can be determined based on the presence of their corresponding signals, and the inclusion of a fourth type of nucleotide in a nucleic acid can be determined based on the absence or minimal detection of any signal. As a third example, one type of nucleotide may include tag(s) that are detected in two different channels, whereas other types of nucleotides are detected in at most one of the channels. The above three configuration examples are not considered mutually exclusive and can be used in various combinations. An embodiment that combines all three examples is a fluorescence-based synthesis sequencing method that uses a first type of nucleotide that is detected in a first channel (e.g., deoxyadenosine triphosphate (dATP) with a tag that is detected in the first channel upon excitation using a first excitation wavelength), a second type of nucleotide that is detected in a second channel (e.g., deoxycytidine triphosphate (dCTP) with a label that is detected in a second channel when excited using a second excitation wavelength), a third type of nucleotide that is detected as in the first and second channels (e.g., trimidine triphosphate (dTTP) with at least one label that is detectable in both channels when excited using the first and/or second excitation wavelength), and a fourth type nucleotide that lacks label and which is undetectable or minimally detectable in any channel (eg, deoxyguanosine triphosphate (dGTP) without a label).

[120] Кроме того, как описано во включенных в настоящий документ материалах публикации заявки на патент США № 2013/0079232, данные секвенирования могут быть получены с использованием одного канала. В таких так называемых подходах секвенирования с одним красителем нуклеотид первого типа имеет метку, но указанную метку удаляют после того, как будет сгенерировано первое изображение, а нуклеотид второго типа метят только после того, как будет сгенерировано первое изображение. Нуклеотид третьего типа сохраняет свою метку на первом и на втором изображениях, а нуклеотид четвертого типа не содержит метки на обоих изображениях.[120] Additionally, as described in US Patent Application Publication No. 2013/0079232 incorporated herein, sequencing data can be generated using a single channel. In such so-called single-dye sequencing approaches, the first type of nucleotide is labeled, but said label is removed after the first image is generated, and the second type of nucleotide is labeled only after the first image is generated. The third type nucleotide retains its label in the first and second images, and the fourth type nucleotide does not contain a label in both images.

[121] В некоторых вариантах осуществления могут использовать секвенирование с применением способов лигирования. В таких способах используют ДНК-лигазу для включения олигонуклеотидов и идентификации включения указанных олигонуклеотидов. Олигонуклеотиды обычно имеют разные метки, которые сопоставлены идентичности конкретного нуклеотида в последовательности, с которым гибридизуют олигонуклеотиды. Как и в случае других способов секвенирования путем синтеза, изображения могут быть получены после обработки массива элементов нуклеиновых кислот помеченными реагентами для секвенирования. На каждом изображении будут представлены элементы нуклеиновой кислоты, которые включают метки нуклеотидов определенного типа. Различные элементы будут присутствовать или отсутствовать на разных изображениях вследствие разного содержимого последовательности каждого элемента, но относительное положение элементов останется неизменным на изображениях. Изображения, полученные с помощью способов секвенирования на основе лигирования, могут быть сохранены, обработаны и проанализированы, как описано в данном документе. Типовые системы и способы секвенирования путем синтеза, которые могут быть использованы со способами и системами, описанными в данном документе, описаны в патенте США № 6,969,488, патенте США № 6,172,218 и патенте США № 6,306,597, раскрытие которых полностью включено в настоящий документ посредством ссылки.[121] In some embodiments, sequencing using ligation techniques may be used. Such methods use DNA ligase to incorporate oligonucleotides and identify the inclusion of said oligonucleotides. Oligonucleotides typically have different labels that map to the identity of the particular nucleotide in the sequence to which the oligonucleotides hybridize. As with other synthetic sequencing methods, images can be obtained after processing an array of nucleic acid elements with labeled sequencing reagents. Each image will represent nucleic acid elements that include specific types of nucleotide tags. Different elements will be present or absent in different images due to the different sequence contents of each element, but the relative positions of the elements will remain the same across the images. Images obtained using ligation-based sequencing methods can be stored, processed and analyzed as described herein. Exemplary sequencing-by-synthesis systems and methods that may be used with the methods and systems described herein are described in U.S. Patent No. 6,969,488, U.S. Patent No. 6,172,218, and U.S. Patent No. 6,306,597, the disclosure of which is incorporated herein by reference in its entirety.

[122] В некоторых вариантах осуществления может применяться секвенирование с использованием нанопор (Deamer, D. W. & Akeson, M. «Nanopores and nucleic acids: prospects for ultrarapid sequencing». Trends Biotechnol. 18, 147-151 (2000); Deamer, D. и D. Branton, «Characterization of nucleic acids by nanopore analysis». Acc. Chem. Res. 35:817-825 (2002); Li, J., M. Gershow, D. Stein, E. Brandin и J. A. Golovchenko, «DNA molecules and configurations in a solid-state nanopore microscope» Nat. Mater. 2:611-615 (2003), раскрытие которых полностью включено в настоящий документ посредством ссылки). В таких вариантах осуществления целевая нуклеиновая кислота проходит через нанопоры. Нанопора может представлять собой синтетическую пору или биологический мембранный белок, такой как α-гемолизин. Когда целевая нуклеиновая кислота проходит через нанопоры, каждую пару оснований можно идентифицировать путем измерения флуктуаций электропроводимости поры. (патент США № 7,001,792; Soni, G.V. и Meller, «A. Progress toward ultrafast DNA sequencing using solid-state nanopores». Clin. Chem. 53, 1996-2001 (2007); Healy, K. «Nanopore-based single-molecule DNA analysis». Nanomed. 2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. и Ghadiri, M. R. «A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution». J. Am. Chem. Soc. 130, 818-820 (2008), раскрытие которых полностью включено в настоящее описание посредством ссылки). Данные, полученные с помощью секвенирования с использованием нанопор, могут быть сохранены, обработаны и проанализированы, как описано в данном документе. В частности, данные могут быть обработаны как изображение в соответствии с типовой обработкой оптических изображений и других изображений, которая описана в данном документе.[122] In some embodiments, nanopore sequencing may be used (Deamer, D. W. & Akeson, M. “Nanopores and nucleic acids: prospects for ultrarapid sequencing.” Trends Biotechnol. 18, 147-151 (2000); Deamer, D. and D. Branton, “Characterization of nucleic acids by nanopore analysis,” Acc. Chem. Res. 35:817–825 (2002); Li, J., M. Gershow, D. Stein, E. Brandin, and J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611-615 (2003), the disclosure of which is incorporated herein by reference in its entirety. In such embodiments, the target nucleic acid passes through the nanopores. The nanopore may be a synthetic pore or a biological membrane protein such as α-hemolysin. As the target nucleic acid passes through the nanopore, each base pair can be identified by measuring fluctuations in the electrical conductivity of the pore. (US Patent No. 7,001,792; Soni, G.V. and Meller, “A. Progress toward ultrafast DNA sequencing using solid-state nanopores.” Clin. Chem. 53, 1996-2001 (2007); Healy, K. “Nanopore-based single- molecule DNA analysis." Nanomed. 2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. and Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution" J. Am. Chem. Soc. 130, 818-820 (2008), the disclosure of which is incorporated herein by reference in its entirety). Data obtained from nanopore sequencing can be stored, processed and analyzed as described herein. In particular, the data may be processed as an image in accordance with typical optical and other image processing that is described herein.

[123] В некоторых вариантах осуществления могут применяться способы, включающие контроль активности ДНК-полимеразы в реальном времени. Включения нуклеотидов могут быть обнаружены посредством взаимодействий при резонансном переносе энергии флуоресценции (FRET) между флуорофорсодержащей полимеразой и нуклеотидами помеченными γ-фосфатом, как описано, например, в патенте США № 7,329,492 и патенте США № 7,211,414 (каждый из которых включен в настоящее описание посредством ссылки) или включения нуклеотидов могут быть обнаружены с помощью волноводов с нулевой модой, как описано, например, в патенте США № 7,315,019 (который включен в настоящее описание посредством ссылки) и с использованием флуоресцентных нуклеотидных аналогов и сконструированных полимераз, как описано, например, в патенте США № 7,405,281 и публикации заявки на патент США № 2008/0108082 (каждое из которых включено в настоящее описание посредством ссылки). Освещение может быть ограничено объемом порядка цептолитра вокруг поверхностно-связанной полимеразы, так что включение флуоресцентно-помеченных нуклеотидов можно наблюдать при низком фоне (Levene, MJ и др. «Zero-mode waveguides for single-molecule analysis at high concentrations». Science 299, 682-686 (2003); Lundquist, P. M. и др. «Parallel confocal detection of single molecules in real time». Opt. Lett. 33, 1026-1028 (2008); Korlach, J. и др. «Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures». Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008), раскрытие которых полностью включено в настоящее описание посредством ссылки). Изображения, полученные с помощью таких способов, могут быть сохранены, обработаны и проанализированы, как описано в данном документе.[123] In some embodiments, methods may be used that include real-time monitoring of DNA polymerase activity. Nucleotide inclusions can be detected through fluorescence resonance energy transfer (FRET) interactions between a fluorophore-containing polymerase and γ-phosphate-labeled nucleotides, as described, for example, in US Pat. No. 7,329,492 and US Pat. No. 7,211,414 (each of which is incorporated herein by reference ) or nucleotide inclusions can be detected using zero-mode waveguides, as described, for example, in US Patent No. 7,315,019 (which is incorporated herein by reference) and using fluorescent nucleotide analogues and engineered polymerases, as described, for example, in the patent US No. 7,405,281 and US Patent Application Publication No. 2008/0108082 (each of which is incorporated herein by reference). Illumination can be limited to a volume on the order of a zeptolitre around the surface-bound polymerase, so that the incorporation of fluorescently labeled nucleotides can be observed at low background (Levene, MJ, et al. “Zero-mode waveguides for single-molecule analysis at high concentrations.” Science 299, 682-686 (2003); Lundquist, P. M. et al. "Parallel confocal detection of single molecules in real time." Opt. Lett. 33, 1026-1028 (2008); Korlach, J. et al. "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures." Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008), the disclosure of which is incorporated herein by reference in its entirety). Images obtained using such methods can be stored, processed and analyzed as described herein.

[124] Некоторые варианты осуществления секвенирования путем синтеза включают обнаружение протона, высвобожденного при включении нуклеотида в продукт удлинения. Например, для секвенирования, основанного на обнаружении высвобожденных протонов, может быть использован электрический детектор и связанные с ним способы, которые коммерчески доступны от компании Ion Torrent (Guilford, CT, дочерняя компания Life Technologies), или способы и системы секвенирования, описанные в 2009/0026082 A1 (США); 2009/0127589 A1 (США); 2010/0137143 A1 (США) или 2010/0282617 A1 (США), каждый из которых включен в настоящий документ посредством ссылки. Описанные в данном документе способы амплификации целевых нуклеиновых кислот с использованием кинетического исключения могут быть легко применены для подложек, используемых для обнаружения протонов. В частности, описанные в данном документе способы могут быть использованы для получения клональных популяций ампликонов, которые используют для обнаружения протонов.[124] Some embodiments of sequencing by synthesis involve detecting the proton released upon incorporation of a nucleotide into the extension product. For example, sequencing based on the detection of released protons may use an electrical detector and associated methods that are commercially available from Ion Torrent (Guilford, CT, a subsidiary of Life Technologies), or the sequencing methods and systems described in 2009/ 0026082 A1 (USA); 2009/0127589 A1 (USA); 2010/0137143 A1 (USA) or 2010/0282617 A1 (USA), each of which is incorporated herein by reference. The methods described herein for amplifying target nucleic acids using kinetic exclusion can be readily applied to substrates used for proton detection. In particular, the methods described herein can be used to generate clonal amplicon populations that are used for proton detection.

[125] Вышеуказанные способы секвенирования путем синтеза могут в предпочтительных вариантах осуществляться в мультиплексных форматах таким образом, что одновременно используют множество разных целевых нуклеиновых кислот. В конкретных вариантах осуществления разные целевые нуклеиновые кислоты могут быть обработаны в общем реакционном резервуаре или на поверхности конкретной подложки. Это позволяет удобно доставлять реагенты для секвенирования, удалять непрореагировавшие реагенты и обнаруживать события включения мультиплексным способом. В вариантах осуществления с использованием поверхностно-связанных целевых нуклеиновых кислот, указанные кислоты могут иметь формат массива. В формате массива целевые нуклеиновые кислоты, как правило, могут быть связаны с поверхностью пространственно различимым способом. Целевые нуклеиновые кислоты могут быть связаны путем прямого ковалентного присоединения, присоединения к микроносителю или другой частице или путем связывания с полимеразой или другой молекулой, которая прикреплена к поверхности. Массив может включать одну копию целевой нуклеиновой кислоты на каждом участке (также называемом элементом) или множество копий с одинаковой последовательностью могут присутствовать на каждом участке или в каждом элементе. Множество копий может быть получено с применением способов амплификации, такими как мостиковая амплификация или эмульсионная полимеразная цепная реакция.[125] The above synthetic sequencing methods may preferably be carried out in multiplex formats such that multiple different target nucleic acids are used simultaneously. In specific embodiments, different target nucleic acids may be processed in a common reaction vessel or on the surface of a specific support. This allows for convenient delivery of sequencing reagents, removal of unreacted reagents, and detection of inclusion events in a multiplexed manner. In embodiments using surface-bound target nucleic acids, said acids may be in an array format. In an array format, target nucleic acids can typically be bound to a surface in a spatially distinct manner. Target nucleic acids can be linked by direct covalent attachment, attachment to a microcarrier or other particle, or by binding to a polymerase or other molecule that is attached to a surface. The array may include one copy of the target nucleic acid at each site (also called an element), or multiple copies of the same sequence may be present at each site or element. Multiple copies can be obtained using amplification techniques such as bridge amplification or emulsion polymerase chain reaction.

[126] В способах, описанным в данном документе, могут применяться массивы, имеющие элементы с любым из множества значений плотности, включая, например, по меньшей мере приблизительно 10 элементов/см2, 100 элементов/см2, 500 элементов/см2, 1000 элементов/см2, 5000 элементов/см2, 10 000 элементов/см2, 50 000 элементов/см2, 100 000 элементов/см2, 1 000 000 элементов/см2, 5 000 000 элементов/см2 или выше.[126] The methods described herein may employ arrays having elements with any of a variety of densities, including, for example, at least about 10 elements/cm2, 100 elements/cm2, 500 elements/cm2, 1000 elements/cm2. cm2, 5000 elements/cm2, 10,000 elements/cm2, 50,000 elements/cm2, 100,000 elements/cm2, 1,000,000 elements/cm2, 5,000,000 elements/cm2 or higher.

[127] Описанные в данном документе способы могут обеспечить быстрое и эффективное одновременное обнаружение (детектирование) множества целевых нуклеиновых кислот. Соответственно, в настоящем раскрытии предложены интегрированные системы, способные подготавливать и обнаруживать нуклеиновые кислоты с использованием способов, известных в данной области техники, например, способов, приведенных выше в качестве примеров. Таким образом, интегрированная система согласно настоящему раскрытию может содержать жидкостные компоненты, способные доставлять реагенты для амплификации и/или реагенты для секвенирования к одному или более фрагментам иммобилизованной ДНК, причем система содержит такие компоненты, как насосы, клапаны, резервуары, жидкостные линии и т. п. Проточная ячейка может быть установлена и/или использована в интегрированной системе для обнаружения целевых нуклеиновых кислот. Типовые проточные ячейки описаны, например, в 2010/0111768 A1 (США) и № 13/273,666 (США), каждый из которых включен в настоящее описание посредством ссылки. Как показано для проточных ячеек, один или более жидкостных компонентов интегрированной системы можно использовать для способа амплификации и для способа обнаружения. Если рассмотреть в качестве примера вариант осуществления секвенирования нуклеиновой кислоты, один или более жидкостных компонентов интегрированной системы можно использовать для описанного в данном документе способа амплификации и для доставки реагентов для секвенирования в способе секвенирования, например, способе, приведенном в качестве примера выше. В качестве альтернативы, интегрированная система может содержать отдельные жидкостные системы для осуществления способов амплификации и для осуществления способов обнаружения. Примеры интегрированных систем секвенирования, которые способны создавать амплифицированные нуклеиновые кислоты, а также определять последовательность нуклеиновых кислот, включают, без ограничения, платформу MiSeq™ (Illumina, Inc., Сан-Диего, Калифорния) и устройства, описанные в патенте США № 13/273,666, который включен в настоящее описание посредством ссылки.[127] The methods described herein can provide rapid and efficient simultaneous detection of multiple target nucleic acids. Accordingly, the present disclosure provides integrated systems capable of preparing and detecting nucleic acids using methods known in the art, such as the methods exemplified above. Thus, the integrated system of the present disclosure may comprise fluid components capable of delivering amplification reagents and/or sequencing reagents to one or more immobilized DNA fragments, the system including components such as pumps, valves, reservoirs, fluid lines, etc. n. The flow cell can be installed and/or used in an integrated system for detecting target nucleic acids. Exemplary flow cells are described, for example, in 2010/0111768 A1 (US) and No. 13/273,666 (US), each of which is incorporated herein by reference. As shown for flow cells, one or more fluid components of the integrated system can be used for the amplification method and for the detection method. Considering the embodiment of nucleic acid sequencing as an example, one or more liquid components of an integrated system can be used for the amplification method described herein and for delivering sequencing reagents in a sequencing method, such as the method exemplified above. Alternatively, the integrated system may comprise separate fluid systems for carrying out the amplification methods and for carrying out the detection methods. Examples of integrated sequencing systems that are capable of generating amplified nucleic acids as well as determining the sequence of nucleic acids include, but are not limited to, the MiSeq™ platform (Illumina, Inc., San Diego, Calif.) and the devices described in US Pat. No. 13/273,666 , which is incorporated herein by reference.

[128] В некоторых вариантах осуществления способов, описанных в данном документе, метки картируемой последовательности содержат риды последовательностей приблизительно в 20 парах оснований, приблизительно в 25 парах оснований, приблизительно в 30 парах оснований, приблизительно в 35 парах оснований, приблизительно в 40 парах оснований, приблизительно в 45 парах оснований, приблизительно в 50 парах оснований, приблизительно в 55 парах оснований, приблизительно в 60 парах оснований, приблизительно в 65 парах оснований, приблизительно в 70 парах оснований, приблизительно в 75 парах оснований, приблизительно в 80 парах оснований, приблизительно в 85 парах оснований, приблизительно в 90 парах оснований, приблизительно в 95 парах оснований, приблизительно в 100 парах оснований, приблизительно в 110 парах оснований, приблизительно в 120 парах оснований, приблизительно в 130 парах оснований, приблизительно в 140 парах оснований, приблизительно в 150 парах оснований, приблизительно в 200 парах оснований, приблизительно в 250 парах оснований, приблизительно в 300 парах оснований, приблизительно в 350 парах оснований, приблизительно в 400 парах оснований, приблизительно в 450 парах оснований или приблизительно в 500 парах оснований. В некоторых случаях одно-концевые риды свыше 500 пар оснований используют для ридов свыше приблизительно 1000 пар оснований при генерировании парно-концевого рида. Картирование меток последовательности обеспечивают путем сравнения последовательности для метки с эталонной последовательностью для определения хромосомного происхождения секвенируемой молекулы нуклеиновой кислоты, причем информация о конкретной генетической последовательности не требуется. Небольшая степень несоответствия (0-2 несоответствия на метку последовательности) может быть разрешена для учета незначительных полиморфизмов, которые могут существовать между эталонным геномом и геномами в смешанном образце.[128] In some embodiments of the methods described herein, the mapped sequence tags comprise sequence reads of about 20 base pairs, about 25 base pairs, about 30 base pairs, about 35 base pairs, about 40 base pairs, approximately 45 base pairs, approximately 50 base pairs, approximately 55 base pairs, approximately 60 base pairs, approximately 65 base pairs, approximately 70 base pairs, approximately 75 base pairs, approximately 80 base pairs, approximately 85 base pairs, approximately 90 base pairs, approximately 95 base pairs, approximately 100 base pairs, approximately 110 base pairs, approximately 120 base pairs, approximately 130 base pairs, approximately 140 base pairs, approximately 150 base pairs bases, about 200 base pairs, about 250 base pairs, about 300 base pairs, about 350 base pairs, about 400 base pairs, about 450 base pairs, or about 500 base pairs. In some cases, single-end reads over 500 base pairs are used for reads over approximately 1000 base pairs when generating a paired-end read. Sequence tag mapping is achieved by comparing the tag sequence to a reference sequence to determine the chromosomal origin of the nucleic acid molecule being sequenced, without requiring specific genetic sequence information. A small degree of mismatch (0-2 mismatches per sequence tag) may be allowed to account for minor polymorphisms that may exist between the reference genome and the genomes in the mixed sample.

СИСТЕМЫ И УСТРОЙСТВА ДЛЯ АНАЛИЗА ДАННЫХ СЕКВЕНИРОВАНИЯ В РЕАЛЬНОМ ВРЕМЕНИSYSTEMS AND DEVICES FOR ANALYSIS OF REAL-TIME SEQUENCING DATA

[129] Анализ данных секвенирования, как правило, выполняют с использованием различных алгоритмов и программ, исполняемых с помощью компьютера. Таким образом, в некоторых вариантах осуществления используют процессы, включающие хранение данных в одной или более компьютерных системах или других системах обработки или передачу данных посредством одной или более компьютерных систем или других систем обработки. Раскрытые в данном документе варианты осуществления также относятся к устройству для выполнения указанных операций. Указанное устройство может быть, в частности, выполнено с возможностью решения требуемых задач или может представлять собой компьютер (или группу компьютеров) общего назначения, выборочно активируемый или реконфигурируемый с помощью компьютерной программы и/или структуры данных, хранимой в компьютере. В некоторых вариантах осуществления группа процессоров выполняет некоторые или все описанные аналитические операции совместно (например, посредством сети или облачных вычислений) и/или параллельно. Процессор или группа процессоров для выполнения способов, описанных в данном документе, могут относиться к различным типам, включая микроконтроллеры и микропроцессоры, например, программируемые устройства (например, сложную программируемую логическую интегральную схему (CPLD) и программируемую логическую интегральную схему (FPGA)), и непрограммируемые устройства, например, интегральную схему специального назначения (ASIC) матрицы логических элементов или микропроцессоры общего назначения.[129] Analysis of sequencing data is typically performed using various algorithms and computer-executed programs. Thus, in some embodiments, processes are used that include storing data on one or more computer systems or other processing systems or transmitting data through one or more computer systems or other processing systems. The embodiments disclosed herein also relate to an apparatus for performing the above operations. Said device may be particularly configured to perform the required tasks, or may be a general purpose computer (or group of computers) selectively activated or reconfigurable by a computer program and/or data structure stored in the computer. In some embodiments, a group of processors performs some or all of the described analytical operations jointly (eg, via a network or cloud computing) and/or in parallel. The processor or group of processors for performing the methods described herein may be of various types, including microcontrollers and microprocessors, for example, programmable devices (for example, complex programmable logic integrated circuit (CPLD) and field programmable logic integrated circuit (FPGA)), and non-programmable devices, such as special-purpose integrated circuit (ASIC) gate arrays or general-purpose microprocessors.

[130] Кроме того, некоторые варианты осуществления относятся к материальным и/или машиночитаемым носителям, предназначенным для долговременного хранения информации, или к компьютерным программным продуктам, которые включают программные команды и/или данные (включая структуры данных) для выполнения различных операций, реализуемых с помощью компьютера. Примеры машиночитаемых носителей включают в себя, без ограничений, полупроводниковые запоминающие устройства, магнитные носители, такие как дисковые накопители, магнитную ленту, оптические носители, такие как компакт-диски, магнитооптические носители, и аппаратные устройства, которые, в частности, выполнены с возможностью хранения и выполнения программных команд, такие как постоянное запоминающее устройство (ПЗУ) и оперативное запоминающее устройство (ОЗУ). Конечный пользователь может непосредственно или опосредованно управлять машиночитаемым носителем. Примеры непосредственно управляемых носителей включают носители, расположенные на пользовательском оборудовании, и/или носители, которые не используют совместно. Примеры опосредованно управляемых носителей включают носители, которые опосредованно доступны пользователю посредством внешней сети и/или посредством службы, предоставляющий совместно используемые ресурсы, например, «облачной вычислительной среды». Примеры программных команд включают как машинный код, например, созданный компилятором, так и файлы, содержащие код более высокого уровня, который может быть выполнен компьютером с использованием интерпретатора.[130] In addition, some embodiments relate to tangible and/or computer readable media intended for non-transitory storage of information, or to computer program products that include program instructions and/or data (including data structures) to perform various operations implemented with using a computer. Examples of computer-readable media include, but are not limited to, semiconductor storage devices, magnetic media such as disk drives, magnetic tape, optical media such as compact discs, magneto-optical media, and hardware devices that, in particular, are configured to store and executing software commands such as read only memory (ROM) and random access memory (RAM). The end user may directly or indirectly control the computer-readable medium. Examples of directly managed media include media located on user equipment and/or media that is not shared. Examples of indirectly controlled media include media that is indirectly accessible to a user through an external network and/or through a service that provides shared resources, such as a “cloud computing environment.” Examples of program instructions include both machine code, such as that produced by a compiler, and files containing higher level code that can be executed by a computer using an interpreter.

[131] В различных вариантах осуществления данные или информацию, используемые в раскрытых способах и устройстве, обеспечивают в электронном формате. Такие данные или информация могут включать риды, полученные из образца нуклеиновой кислоты, количества или плотности меток, которые совпадают с конкретными областями эталонной последовательности (например, которые совпадают с хромосомой или сегментом хромосомы), разделяющие расстояния между соседними ридами или фрагментами, распределения таких разделяющих расстояний, диагнозы и т. п. В контексте данного документа данные или другая информация, предоставленная в электронном формате, доступна для сохранения на машине и передачи между машинами. Обычно данные в электронном формате получают в цифровом виде и их можно хранить в виде битов и/или байтов в различных структурах данных, списках, базах данных и т. д. Данные могут быть записаны электронным, оптическим способами и т. д.[131] In various embodiments, the data or information used in the disclosed methods and apparatus is provided in electronic format. Such data or information may include reads derived from a nucleic acid sample, numbers or densities of tags that match specific regions of the reference sequence (e.g., that match a chromosome or chromosome segment), separating distances between adjacent reads or fragments, distributions of such separating distances , diagnoses, etc. For the purposes of this document, data or other information provided in electronic format is available for storage on a machine and transmission between machines. Typically, data in electronic format is obtained in digital form and can be stored in the form of bits and/or bytes in various data structures, lists, databases, etc. Data can be recorded electronically, optically, etc.

[132] В одном варианте осуществления предложен компьютерный программный продукт для определения коэффициентов фазирования и опережающего фазирования, а также значений величины со скорректированным фазированием и связанных распознаваний оснований. Компьютерный продукт может содержать команды для выполнения любого одного или более из вышеописанных способов для фазирования и распознавания оснований. Как объяснено выше, компьютерный продукт может включать предназначенный для долговременного хранения информации и/или материальный машиночитаемый носитель с записанной на нем исполняемой на компьютере или компилируемой логической процедурой (например, командами) для обеспечения возможности для процессора выравнивать риды, идентифицировать фрагменты и/или островки выровненных ридов, идентифицировать аллели, включая аллели, возникшие вследствие инсерционно-делеционных мутаций, гетерозиготные полиморфизмы, фазовые фрагменты хромосом, а также хромосомы и геномы гаплотипов. В одном примере компьютерный продукт включает (1) машиночитаемый носитель, на котором хранится исполняемая компьютером или компилируемая логическая процедура (например, команды) для обеспечения возможности для процессора выполнять коррекцию фазирования для данных величины (например, данных интенсивности цвета из двух или более каналов) на образцах нуклеиновой кислоты; (2) выполняемую с применением компьютера логическую процедуру для осуществления распознаваний оснований образцов нуклеиновой кислоты; и (3) процедуру вывода для генерирования выходных данных, характеризующих образцы нуклеиновой кислоты.[132] In one embodiment, a computer program product is provided for determining phasing and phasing advance coefficients, as well as phasing corrected magnitude values and associated base discriminations. The computer product may contain instructions to perform any one or more of the above-described methods for phasing and base recognition. As explained above, a computer product may include a non-transitory and/or tangible computer-readable medium having computer-executable or compiled logic (e.g., instructions) stored therein to enable a processor to align reads, identify fragments, and/or aligned islands. reads, identify alleles, including alleles resulting from insertion-deletion mutations, heterozygous polymorphisms, phase fragments of chromosomes, as well as chromosomes and genomes of haplotypes. In one example, a computer product includes (1) a computer-readable medium on which a computer-executable or compiled logic procedure (e.g., instructions) is stored to enable a processor to perform phasing correction on quantity data (e.g., color intensity data from two or more channels) on nucleic acid samples; (2) a computer-operated logic procedure for performing base recognitions on the nucleic acid samples; and (3) an inference procedure for generating output data characterizing the nucleic acid samples.

[133] Следует понимать, что человеку без посторонней помощи будет нецелесообразно или даже в большинстве случаев невозможно выполнять вычислительные операции согласно способам, раскрытым в данном документе. Например, для генерации коэффициентов фазирования даже для одного сегмента в течение одного цикла распознавания оснований могут потребоваться годы работы без применения вычислительного устройства. Конечно, проблема усугубляется тем, что для надежного NGS-секвенирования (секвенирование следующего поколения), как правило, требуется коррекция фазирования и распознавание оснований по меньшей мере для тысяч или даже миллионов ридов.[133] It should be understood that it would be impractical, or even in most cases impossible, for a person to perform computational operations according to the methods disclosed herein. For example, generating phasing coefficients for even a single segment during a single base recognition cycle may require years of work without the use of a computing device. Of course, the problem is compounded by the fact that reliable NGS (next generation sequencing) sequencing typically requires phasing correction and base discrimination for at least thousands or even millions of reads.

[134] Раскрытые в данном документе способы могут быть выполнены с использованием системы секвенирования образцов нуклеиновой кислоты. Система может содержать: (а) секвенатор для приема нуклеиновых кислот из исследуемого образца, обеспечивающий информацию о последовательности нуклеиновой кислоты из образца; (б) процессор; и (c) один или более машиночитаемых носителей, на которых хранятся команды для выполнения в процессоре для оценки данных из секвенатора. Машиночитаемый носитель также может хранить данные величины с частичной коррекцией фазирования из кластеров в проточной ячейке.[134] The methods disclosed herein can be performed using a nucleic acid sample sequencing system. The system may comprise: (a) a sequencer for receiving nucleic acids from a test sample, providing sequence information about the nucleic acid from the sample; (b) processor; and (c) one or more computer-readable media storing instructions for execution on a processor to evaluate data from the sequencer. The computer-readable medium may also store partially phase-corrected quantity data from clusters in the flow cell.

[135] В некоторых вариантах осуществления команды по выполнению способов поступают с машиночитаемого носителя, на котором хранятся машиночитаемые команды для осуществления способа определения фазы последовательности. Таким образом, один вариант осуществления предусматривает, что компьютерный программный продукт использует один или более машиночитаемых предназначенных для долговременного хранения информации носителей, на которых хранятся исполняемые компьютером команды, при выполнении которых одним или более процессорами компьютерной системы компьютерная система реализует способ секвенирования образца ДНК. Способ включает: (а) получение данных, представляющих изображение (например, само изображение) подложки, содержащей множество участков, на которых считывают основания нуклеиновых кислот; (b) получение значений цвета (или других значений, представляющие отдельные основания/нуклеотиды) для множества участков из изображения подложки; (c) сохранение значений цвета в буфере процессора; (d) извлечение значений цвета с частичной коррекцией фазирования для множества участков для цикла распознавания оснований, причем значения цвета с частичной коррекцией фазирования были сохранены в запоминающем устройстве секвенатора в течение непосредственно предшествующего цикла распознавания оснований; (e) определение коррекции опережающего фазирования из (i) значений цвета с частичной коррекцией фазирования, сохраненных в течение непосредственно предшествующего цикла распознавания оснований, и (ii) значений цвета, сохраненных в буфере процессора; и (f) определение скорректированных значений цвета из (i) значений цвета в буфере процессора, (ii) значений с частичной коррекцией фазирования, сохраненных в течение непосредственно предшествующего цикла, и (iii) коррекции опережающего фазирования.[135] In some embodiments, instructions to perform the methods are received from a computer-readable medium on which computer-readable instructions for implementing a method for determining a sequence phase are stored. Thus, one embodiment provides that the computer program product uses one or more machine-readable non-transitory storage media on which computer-executable instructions are stored that, when executed by one or more processors of a computer system, the computer system implements a method for sequencing a DNA sample. The method includes: (a) obtaining data representing an image (eg, the image itself) of a substrate containing a plurality of sites on which nucleic acid bases are read; (b) obtaining color values (or other values representing individual bases/nucleotides) for a plurality of regions from the substrate image; (c) storing color values in a processor buffer; (d) retrieving partial phasing corrected color values for a plurality of sites for a base recognition cycle, wherein the partial phasing correction color values were stored in the sequencer memory during the immediately preceding base recognition cycle; (e) determining the advanced phasing correction from (i) the partially phasing corrected color values stored during the immediately preceding base recognition cycle and (ii) the color values stored in the processor buffer; and (f) determining corrected color values from (i) color values in the processor buffer, (ii) partially phasing-corrected values stored during the immediately preceding cycle, and (iii) phasing-advance correction.

[136] Последовательность или другие данные могут быть введены в компьютер или сохранены на машиночитаемом носителе непосредственно или опосредованно. В различных вариантах осуществления компьютерная система является встроенной или непосредственно соединена с устройством секвенирования, которое считывает и/или анализирует последовательности нуклеиновых кислот из образцов. Последовательности или другую информацию от таких приборов передают в компьютерную систему (или просто на встроенное аппаратное обеспечение обработки) посредством интерфейса передачи данных. Кроме того, запоминающее устройство может хранить риды, информацию о качестве распознавания оснований, информацию о коэффициентах фазирования и т. д. Запоминающее устройство также может хранить различные процедуры и/или программы для анализа и предоставления данных последовательности. Такие программы/процедуры могут включать программы для выполнения статистического анализа и т. д.[136] The sequence or other data may be entered into a computer or stored on a machine-readable medium, directly or indirectly. In various embodiments, the computer system is embedded in or directly coupled to a sequencing device that reads and/or analyzes nucleic acid sequences from samples. Sequences or other information from such instruments are transmitted to a computer system (or simply to embedded processing hardware) via a data interface. In addition, the storage device may store reads, base recognition quality information, phasing coefficient information, etc. The storage device may also store various routines and/or programs for analyzing and reporting sequence data. Such programs/procedures may include programs to perform statistical analysis, etc.

[137] В одном примере пользователь обеспечивает помещение образца в устройство для секвенирования. Устройство для секвенирования, подключенное к компьютеру, собирает и/или анализирует данные. Программное обеспечение, установленное на компьютере, позволяет собирать и/или анализировать данные. Данные могут быть сохранены, отображены (с помощью монитора или другого подобного устройства) и/или отправлены в другое местоположение. Компьютер может быть подключен к Интернету, который используют для передачи данных на мобильное устройство, используемое удаленным пользователем (например, врачом, ученым или аналитиком). Понятно, что данные могут быть сохранены и/или проанализированы до осуществления передачи. В некоторых вариантах осуществления необработанные данные собирают и отправляют удаленному пользователю или на устройство, которое будет анализировать и/или хранить указанные данные. Например, риды могут передавать по мере их генерирования или вскоре после этого и согласовывать, а другие удаленно анализировать. Передача может происходить по Интернету, но также может осуществляться посредством спутникового или другого соединения. В качестве альтернативы, данные могут храниться на машиночитаемом носителе и носитель может быть отправлен конечному пользователю (например, по почте). Удаленный пользователь может находиться в том же или другом географическом местоположении, включая, без ограничений, здание, город, штат, страну или континент.[137] In one example, the user provides the sample to the sequencing device. A sequencing device connected to a computer collects and/or analyzes data. Software installed on a computer allows data to be collected and/or analyzed. The data may be stored, displayed (using a monitor or other similar device) and/or sent to another location. The computer may be connected to the Internet, which is used to transmit data to a mobile device used by a remote user (for example, a doctor, scientist, or analyst). It is understood that the data may be stored and/or analyzed prior to transmission. In some embodiments, the raw data is collected and sent to a remote user or device that will analyze and/or store said data. For example, reads can be transmitted as they are generated or shortly thereafter and reconciled, while others can be analyzed remotely. The transmission may take place over the Internet, but may also be via satellite or other connection. Alternatively, the data may be stored on a machine-readable medium and the medium may be sent to an end user (eg, by mail). The remote user may be in the same or a different geographic location, including, without limitation, a building, city, state, country or continent.

[138] В некоторых вариантах осуществления способы также включают сбор данных, относящихся к множеству полинуклеотидных последовательностей (например, риды), и отправку указанных данных в компьютер или другую вычислительную систему. Например, компьютер может быть подключен к лабораторному оборудованию, например, устройству для сбора образцов, устройству амплификации полинуклеотидов или устройству секвенирования нуклеотидов. Собранные или сохраненные данные могут быть переданы с компьютера в удаленное местоположение, например, по локальной сети или глобальной сети, такой как Интернет. В удаленном местоположении в отношении переданных данных могут быть выполнены различные операции.[138] In some embodiments, the methods also include collecting data relating to multiple polynucleotide sequences (eg, reads) and sending said data to a computer or other computing system. For example, the computer may be connected to laboratory equipment, such as a sample collection device, a polynucleotide amplification device, or a nucleotide sequencing device. Collected or stored data may be transferred from a computer to a remote location, such as a local area network or a wide area network such as the Internet. At a remote location, various operations can be performed on the transmitted data.

[139] В некоторых вариантах осуществления любой из представленных в данном документе систем секвенатор выполнен с возможностью осуществления секвенирования следующего поколения (NGS). В некоторых вариантах осуществления секвенатор выполнен с возможностью осуществления массового параллельного секвенирования с использованием секвенирования путем синтеза с применением обратимых терминаторов красителя. В других вариантах осуществления секвенатор выполнен с возможностью осуществления секвенирования одной молекулы.[139] In some embodiments of any of the systems presented herein, the sequencer is configured to perform next generation sequencing (NGS). In some embodiments, the sequencer is configured to perform massively parallel sequencing using sequencing by synthesis using reversible dye terminators. In other embodiments, the sequencer is configured to perform single molecule sequencing.

ЗАКЛЮЧЕНИЕCONCLUSION

[140] Настоящее раскрытие может быть воплощено в других конкретных формах без отступления от его сущности или существенных характеристик. Описанные варианты осуществления следует рассматривать во всех отношениях только как иллюстративные, а не ограничивающие. Таким образом, объем раскрытия определяется прилагаемой формулой изобретения, а не в приведенным выше описанием. Все изменения, которые подходят по смыслу и диапазону эквивалентности формулы изобретения, должны быть включены в его объем.[140] The present disclosure may be embodied in other specific forms without departing from its spirit or essential characteristics. The described embodiments are to be considered in all respects only as illustrative and not limiting. Accordingly, the scope of the disclosure is determined by the appended claims and not by the above description. All changes that come within the scope and scope of the claims must be included within its scope.

Claims (47)

1. Способ определения скорректированных значений цвета из данных изображения, полученных в ходе цикла распознавания оснований с помощью секвенатора нуклеиновых кислот, содержащего систему получения изображения, один или более процессоров и запоминающее устройство, включающий:1. A method of determining corrected color values from image data obtained during a base recognition cycle using a nucleic acid sequencer comprising an image acquisition system, one or more processors and a storage device, comprising: (a) получение изображения подложки, содержащей множество участков, на которых считывают основания нуклеиновых кислот, причем эти участки имеют цвета, представляющие типы нуклеиновых оснований;(a) obtaining an image of a substrate containing a plurality of regions on which nucleic acid bases are read, these regions having colors representing types of nucleic acid bases; (b) измерение значений цвета множества участков по указанному изображению подложки;(b) measuring color values of a plurality of regions from said substrate image; (c) сохранение значений цвета в буфере процессора одного или более процессоров секвенатора;(c) storing the color values in a processor buffer of one or more sequencer processors; (d) извлечение значений цвета с коррекцией фазирования множества участков, где указанные значения цвета с коррекцией фазирования были сохранены в запоминающем устройстве секвенатора в ходе непосредственно предшествующего цикла распознавания оснований; и(d) retrieving phasing-corrected color values of a plurality of regions where said phasing-corrected color values were stored in the sequencer memory during the immediately preceding base recognition cycle; And (e) определение скорректированных значений цвета по(e) determination of corrected color values by значениям цвета в буфере процессора иcolor values in the processor buffer and значениям цвета с коррекцией фазирования, сохраненным в ходе непосредственно предшествующего цикла.phasing-corrected color values stored from the immediately preceding cycle. 2. Способ по п. 1, в котором коррекция опережающего фазирования включает вес и при этом определение скорректированных значений цвета включает умножение веса на значения цвета множества участков, измеренных по изображению подложки.2. The method of claim 1, wherein the phasing advance correction includes a weight, and wherein determining the corrected color values includes multiplying the weight by the color values of a plurality of regions measured from the substrate image. 3. Способ по п. 1, дополнительно включающий:3. The method according to claim 1, additionally including: определение коррекции фазирования для непосредственно следующего цикла распознавания оснований;determining a phasing correction for the immediately following base recognition cycle; получение значений цвета с коррекцией фазирования для непосредственно следующего цикла распознавания оснований путем применения коррекции фазирования к значениям цвета множества участков, сохраненным в запоминающем устройстве секвенатора, путем суммирования obtaining phasing-corrected color values for the immediately following base discrimination cycle by applying phasing correction to the color values of multiple sites stored in sequencer memory by summing значений цвета с коррекцией фазирования множества участков иcolor values with phasing correction of multiple sections and значений цвета множества участков из изображения подложки, измеренных на этапе (b); и color values of a plurality of regions from the substrate image measured in step (b); And сохранение значений цвета с коррекцией фазирования для непосредственно следующего цикла распознавания оснований в запоминающем устройстве секвенатора.storing phasing-corrected color values for the immediate next base recognition cycle in the sequencer memory. 4. Способ по п. 1, в котором секвенатор нуклеиновых кислот синтезирует нуклеиновые кислоты на множестве участков.4. The method according to claim 1, in which the nucleic acid sequencer synthesizes nucleic acids at multiple sites. 5. Способ по п. 1, в котором значения цвета определяют по двум каналам секвенатора.5. The method according to claim 1, in which the color values are determined using two channels of the sequencer. 6. Способ по п. 1, в котором значения цвета получают по четырем каналам секвенатора.6. The method according to claim 1, in which the color values are obtained from four channels of the sequencer. 7. Способ по п. 1, в котором подложка содержит проточную ячейку, причем проточную ячейку логически разделяют на сегменты, и при этом каждый сегмент представляет область проточной ячейки, содержащую подмножество участков, где указанное подмножество фиксируют в одном изображении от системы получения изображения, и при этом способ также включает, перед операцией (a), помещение реагентов в проточную ячейку и обеспечение возможности взаимодействия реагентов с участками, в результате чего участки будут иметь цвета, представляющие типы нуклеиновых оснований, в ходе цикла распознавания оснований.7. The method of claim 1, wherein the substrate comprises a flow cell, wherein the flow cell is logically divided into segments, wherein each segment represents a region of the flow cell containing a subset of regions where said subset is captured in a single image from the imaging system, and wherein the method also includes, prior to step (a), placing the reagents in a flow cell and allowing the reagents to interact with the patches, causing the patches to have colors representing the types of nucleic acid bases during the base recognition cycle. 8. Способ по п. 7, который также включает после операции (e):8. The method according to claim 7, which also includes after operation (e): помещение свежих реагентов в проточную ячейку и обеспечение возможности взаимодействия свежих реагентов с участками, в результате чего участки будут иметь цвета, представляющие типы нуклеиновых оснований; и placing fresh reagents in a flow cell and allowing the fresh reagents to interact with the patches, causing the patches to have colors representing the types of nucleic bases; And повторение операций (a)-(e) для следующего цикла распознавания оснований. repeating operations (a)-(e) for the next base recognition cycle. 9. Способ по п. 8, который также включает создание первого потока процессора для выполнения операций (a)-(e) для цикла распознавания оснований и создание второго потока процессора для выполнения операций (a)-(e) для следующего цикла распознавания оснований. 9. The method of claim 8, which further includes creating a first processor thread to perform operations (a)-(e) for the base recognition cycle and creating a second processor thread to perform operations (a)-(e) for the next base recognition cycle. 10. Секвенатор нуклеиновых кислот, содержащий:10. Nucleic acid sequencer containing: систему получения изображений;image acquisition system; запоминающее устройство; иMemory device; And один или более процессоров, выполненных с возможностью:one or more processors configured to: (a) получения данных, представляющих изображение подложки, содержащей множество участков, на которых считывают нуклеиновые основания, причем указанные участки имеют цвета, представляющие типы нуклеиновых оснований;(a) obtaining data representing an image of a substrate containing a plurality of regions on which nucleic acid bases are read, said regions having colors representing types of nucleic acid bases; (b) получения значений цвета множества участков по изображению подложки;(b) obtaining color values of a plurality of regions from the substrate image; (c) сохранения значений цвета в буфере процессора;(c) storing color values in a processor buffer; (d) извлечения значений цвета с коррекцией фазирования множества участков для цикла распознавания оснований, причем значения цвета с коррекцией фазирования были сохранены в запоминающем устройстве в ходе непосредственно предшествующего цикла распознавания оснований; и(d) retrieving the phasing-corrected color values of the plurality of regions for a base recognition cycle, the phasing-corrected color values having been stored in a storage device during the immediately preceding base recognition cycle; And (e) определение скорректированных значений цвета по (e) determination of corrected color values by значениям цвета в буфере процессора иcolor values in the processor buffer and значениям цвета с коррекцией фазирования, сохраненным в ходе непосредственно предшествующего цикла.phasing-corrected color values stored from the immediately preceding cycle. 11. Секвенатор нуклеиновых кислот по п. 10, в котором запоминающее устройство разделено на множество буферов сегментов, каждый из которых выполнен с возможностью хранения данных, представляющих одно изображение сегмента на подложке. 11. The nucleic acid sequencer of claim 10, wherein the storage device is divided into a plurality of segment buffers, each of which is configured to store data representing one segment image on the substrate. 12. Секвенатор нуклеиновых кислот по п. 10, в котором емкость запоминающего устройства составляет 512 гигабайт или менее.12. The nucleic acid sequencer of claim 10, wherein the storage capacity is 512 gigabytes or less. 13. Секвенатор нуклеиновых кислот по п. 10, в котором коррекция опережающего фазирования включает вес, и при этом один или более процессоров выполнены или сконфигурированы с возможностью определения скорректированных значения цвета путем умножения веса на значения цвета множества участков, измеренные по изображению подложки. 13. The nucleic acid sequencer of claim 10, wherein the phasing advance correction includes a weight, and wherein one or more processors are configured or configured to determine the corrected color values by multiplying the weight by the color values of the plurality of regions measured from the substrate image. 14. Секвенатор нуклеиновых кислот по п. 10, в котором один или более процессоров также выполнены или сконфигурированы с возможностью:14. The nucleic acid sequencer of claim 10, wherein the one or more processors are also configured or configured to: определения коррекции фазирования для непосредственного следующего цикла распознавания оснований; determining phasing correction for the immediate next base recognition cycle; получения значений цвета с коррекцией фазирования для непосредственно следующего цикла распознавания оснований путем применения коррекции фазирования к значениям цвета множества участков, сохраненным в запоминающем устройстве, иobtaining phasing-corrected color values for the immediately following base discrimination cycle by applying phasing correction to the color values of the plurality of regions stored in the memory device, and сохранения значений цвета с коррекцией фазирования для непосредственно следующего цикла распознавания оснований в запоминающем устройстве.storing the phasing-corrected color values for the immediately following base recognition cycle in the memory device. 15. Секвенатор нуклеиновых кислот по п. 14, в котором один или более процессоров выполнены или сконфигурированы с возможностью получения значений цвета с коррекцией фазирования для непосредственно следующего цикла оснований путем суммирования15. The nucleic acid sequencer of claim 14, wherein one or more processors are configured or configured to obtain phasing-corrected color values for the immediately following base cycle by summing значений цвета с коррекцией фазирования множества участков иcolor values with phasing correction of multiple sections and значений цвета множества участков из изображения подложки, измеренных на этапе (b).color values of a plurality of regions from the substrate image measured in step (b). 16. Секвенатор нуклеиновых кислот по п. 14, в котором один или более процессоров выполнены или сконфигурированы с возможностью сохранения значений цвета с коррекцией фазирования для непосредственно следующего цикла распознавания оснований путем сохранения значений цвета с коррекцией фазирования в буферах сегментов запоминающего устройства. 16. The nucleic acid sequencer of claim 14, wherein the one or more processors are configured or configured to store phase-corrected color values for the immediately following base recognition cycle by storing the phase-corrected color values in memory segment buffers. 17. Секвенатор нуклеиновых кислот по п. 10, дополнительно содержащий систему для синтеза нуклеиновых кислот на множестве участков.17. A nucleic acid sequencer according to claim 10, further comprising a system for synthesizing nucleic acids at multiple sites. 18. Секвенатор нуклеиновых кислот по п. 10, в котором один или более процессоров выполнены или сконфигурированы с возможностью получения значений цвета от двух каналов.18. The nucleic acid sequencer of claim 10, wherein the one or more processors are configured or configured to receive color values from the two channels.
RU2022100379A 2017-01-06 2018-01-05 Phasing correction RU2805952C2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US62/443,294 2017-01-06

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2019122320A Division RU2765996C9 (en) 2017-01-06 2018-01-05 Phasing correction

Publications (2)

Publication Number Publication Date
RU2022100379A RU2022100379A (en) 2022-07-06
RU2805952C2 true RU2805952C2 (en) 2023-10-24

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2291197C2 (en) * 2001-05-18 2007-01-10 Медикал Байосистемз Лтд. Method for sequencing of polynucleotides
US20080108082A1 (en) * 2006-10-23 2008-05-08 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US20130316918A1 (en) * 2010-11-22 2013-11-28 Life Technologies Corporation Model-based residual correction of intensities
WO2015084985A3 (en) * 2013-12-03 2015-07-30 Illumina, Inc. Methods and systems for analyzing image data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2291197C2 (en) * 2001-05-18 2007-01-10 Медикал Байосистемз Лтд. Method for sequencing of polynucleotides
US20080108082A1 (en) * 2006-10-23 2008-05-08 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US20130316918A1 (en) * 2010-11-22 2013-11-28 Life Technologies Corporation Model-based residual correction of intensities
WO2015084985A3 (en) * 2013-12-03 2015-07-30 Illumina, Inc. Methods and systems for analyzing image data

Similar Documents

Publication Publication Date Title
JP7561799B2 (en) Fading correction method
AU2020277261B2 (en) Methods and systems for analyzing image data
US20220415442A1 (en) Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality
RU2805952C2 (en) Phasing correction
RU2765996C9 (en) Phasing correction
US20240127906A1 (en) Detecting and correcting methylation values from methylation sequencing assays