RU2717809C1 - Computer-implemented integral method for assessing quality of target sequencing results - Google Patents

Computer-implemented integral method for assessing quality of target sequencing results Download PDF

Info

Publication number
RU2717809C1
RU2717809C1 RU2018137864A RU2018137864A RU2717809C1 RU 2717809 C1 RU2717809 C1 RU 2717809C1 RU 2018137864 A RU2018137864 A RU 2018137864A RU 2018137864 A RU2018137864 A RU 2018137864A RU 2717809 C1 RU2717809 C1 RU 2717809C1
Authority
RU
Russia
Prior art keywords
sequencing
sample
quality
computer
training
Prior art date
Application number
RU2018137864A
Other languages
Russian (ru)
Inventor
Владислав Айкович Милейко
Артем Сергеевич Касьянов
Алексей Сергеевич Ковтун
Original Assignee
Общество с ограниченной ответственностью "ОНКОДИАГНОСТИКА АТЛАС"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "ОНКОДИАГНОСТИКА АТЛАС" filed Critical Общество с ограниченной ответственностью "ОНКОДИАГНОСТИКА АТЛАС"
Priority to RU2018137864A priority Critical patent/RU2717809C1/en
Application granted granted Critical
Publication of RU2717809C1 publication Critical patent/RU2717809C1/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

FIELD: biotechnology.
SUBSTANCE: invention relates to the field of biotechnology. Disclosed is a computer-implemented integral method for assessing the quality of target sequencing results. Method involves obtaining a user sample, targeted sample sequencing, obtaining sequencing characteristics of sequencing characteristics and formation of integral characteristic of sequencing by using machine learning algorithm.
EFFECT: invention provides higher speed of assessing the quality of the results of targeted sequencing.
6 cl, 7 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

[001] Данное техническое решение, в общем, относится к области вычислительной техники, а в частности, к способам и системам оценки качества результатов таргетного секвенирования в области биоинформатики.[001] This technical solution, in General, relates to the field of computer technology, and in particular, to methods and systems for assessing the quality of the results of targeted sequencing in the field of bioinformatics.

УРОВЕНЬ ТЕХНИКИBACKGROUND

[002] В настоящее время технология секвенирования нового поколения (NGS) широко применяется в клинической практике. Однако до сих пор стоимость одного исследования с использованием технологии NGS остается достаточно высокой, что ограничивает широкое применение данного метода. Одним из факторов, влияющих на стоимость, является выбор покрытия при секвенировании, то есть количество раз, которое был отсеквенирован каждый нуклеотид, в связи с чем проблема оценки качества результатов секвенирования является насущной.[002] Currently, a new generation sequencing technology (NGS) is widely used in clinical practice. However, until now, the cost of one study using NGS technology has remained quite high, which limits the widespread use of this method. One of the factors affecting the cost is the choice of coating during sequencing, that is, the number of times each nucleotide has been sequenced, and therefore the problem of assessing the quality of sequencing results is urgent.

[003] Из уровня техники известна научная статья "A quality control tool for high throughput sequence data" (опубл. январь 2014, автор: S. Andrews), в которой при оценке качества секвенирования опираются на оценку качества множества факторов. Например, таких как качество прочтения каждого нуклеотида чтения, процент встречаемости того или иного нуклеотида в каждой конкретной позиции чтения, GC контент, распределение k-мер, содержание перепредставленных последовательностей, содержание адаптерных последовательностей, покрытие различных частей референсной последовательности и т.д. Данные факторы рассматриваются и учитываются независимо друг от друга.[003] A prior art scientific article, "A quality control tool for high throughput sequence data" (publ. January 2014, author: S. Andrews), in which, when evaluating the quality of sequencing, rely on the quality assessment of many factors, is known. For example, such as the reading quality of each reading nucleotide, the percentage of occurrence of a particular nucleotide in each specific reading position, GC content, distribution of k-measures, content of overrepresented sequences, content of adapter sequences, coverage of various parts of the reference sequence, etc. These factors are considered and taken into account independently of each other.

[004] Однако в уровне техники отсутствуют способы для интегральной оценки качества результатов таргетного секвенирования. В рутинной практике оценка качества секвенирования на основании разрозненных метрик, оценивающих разные характеристики, такие как процент ошибок секвенирования, процент коротких фрагментов, качество подготовки библиотеки секвенирования, а также наличие примесей в образце, имеет недостаточную масштабируемость, так как при увеличении числа образцов время на оценку качества каждого из них может быть неприемлемо большим.[004] However, in the prior art there are no methods for integrally evaluating the quality of the results of targeted sequencing. In routine practice, evaluating the quality of sequencing on the basis of disparate metrics that evaluate different characteristics, such as the percentage of sequencing errors, the percentage of short fragments, the quality of the preparation of the sequencing library, and the presence of impurities in the sample, has insufficient scalability, since with increasing the number of samples, the time to evaluate The quality of each of them can be unacceptably large.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

[005] Данное техническое решение направлено на устранение недостатков, свойственных решениям, известным из уровня техники.[005] This technical solution is aimed at eliminating the disadvantages inherent in solutions known from the prior art.

[006] Технической задачей или проблемой, решаемой в данном техническом решении, является обеспечение оценки качества результатов таргетного секвенирования.[006] The technical task or problem to be solved in this technical solution is to provide an assessment of the quality of the results of targeted sequencing.

[007] Техническим результатом, проявляющимся при решении вышеуказанной технической задачи, является повышение скорости выполнения оценки качества результатов таргетного секвенирования.[007] The technical result manifested in solving the above technical problem is to increase the speed of evaluating the quality of the results of targeted sequencing.

[008] Дополнительным техническим результатом является повышение точности оценки качества результатов таргетного секвенирования.[008] An additional technical result is to improve the accuracy of evaluating the quality of the results of targeted sequencing.

[009] Указанный технический результат достигается благодаря использованию машинного обучения при формировании интегральной оценки качества путем объединения большого числа характеристик результатов секвенирования.[009] The specified technical result is achieved through the use of machine learning in the formation of an integral quality assessment by combining a large number of characteristics of the sequencing results.

[0010] В целом указанный технический результат достигается за счет реализации интегрального способа для оценки качества результатов таргетного секвенирования, в котором получают по меньшей мере один образец по меньшей мере одного пользователя; выполняют таргетное секвенирование по меньшей мере одного образца, полученного на предыдущем шаге; получают из результатов секвенирования характеристики секвенирования; формируют интегральную характеристику секвенирования посредством использования алгоритма машинного обучения.[0010] In general, the specified technical result is achieved by implementing an integral method for evaluating the quality of the results of targeted sequencing in which at least one sample of at least one user is obtained; performing targeted sequencing of at least one sample obtained in the previous step; derive sequencing characteristics from sequencing results; form an integral characteristic of sequencing through the use of machine learning algorithm.

[0011] В некоторых вариантах реализации изобретения характеристикой секвенирования является среднее покрытие образца и/или число ампликонов, покрытых в среднем больше среднего покрытия образца, и/или процент пар нуклеотидов со значениями качества больше заранее заданного, и/или процент чтений, прошедших тримминг.[0011] In some embodiments, the sequencing characteristic is the average coverage of the sample and / or the number of amplicons coated on average more than the average coverage of the sample, and / or the percentage of nucleotide pairs with quality values greater than a predetermined, and / or the percentage of readings that have been trimmed.

[0012] В некоторых вариантах реализации изобретения при формировании интегральной характеристики используют градиентный бустинг деревьев решений.[0012] In some embodiments of the invention, gradient boosting of decision trees is used to form the integral characteristic.

[0013] В некоторых вариантах реализации изобретения при формировании интегральной характеристики секвенирования используют меру качества, представляющую из себя число из диапазона от 0 до 1.[0013] In some embodiments of the invention, a quality measure representing a number from the range from 0 to 1 is used in the formation of the integral characteristics of sequencing.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[0014] Признаки и преимущества настоящего технического решения станут очевидными из приведенного ниже подробного описания и прилагаемых чертежей, на которых:[0014] The features and advantages of this technical solution will become apparent from the following detailed description and the accompanying drawings, in which:

[0015] На Фиг. 1 показан пример реализации способ оценки качества результатов таргетного секвенирования.[0015] In FIG. 1 shows an example implementation of a method for evaluating the quality of targeted sequencing results.

[0016] На Фиг. 2 представлена организация обучающей выборки при перекрестной проверке.[0016] FIG. 2 shows the organization of the training sample in the cross-validation.

[0017] На Фиг. 3 продемонстрирован подбор параметров с помощью перекрестной проверки.[0017] In FIG. Figure 3 shows the selection of parameters using cross-validation.

[0018] На Фиг. 4 показан процесс обучения модели с использованием обучающей выборки.[0018] In FIG. Figure 4 shows the process of training a model using a training set.

[0019] На Фиг. 5 показан пример расчета среднего покрытия.[0019] FIG. 5 shows an example of calculating the average coverage.

[0020] На Фиг. 6 показан пример пример оценки наличия формалиновых артефактов в образце.[0020] In FIG. Figure 6 shows an example of an example of assessing the presence of formalin artifacts in a sample.

[0021] На Фиг. 7 показан вариант реализации системы оценки качества результатов таргетного секвенирования.[0021] In FIG. 7 shows an embodiment of a system for evaluating the quality of targeted sequencing results.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

[0022] Данное техническое решение может быть реализовано на компьютере или другом устройстве обработки данных в виде автоматизированной системы или машиночитаемого носителя, содержащего инструкции для выполнения вышеупомянутого способа.[0022] This technical solution can be implemented on a computer or other data processing device in the form of an automated system or computer-readable medium containing instructions for performing the above method.

[0023] Техническое решение может быть реализовано в виде распределенной компьютерной системы, компоненты которой являются облачными или локальными серверами.[0023] The technical solution can be implemented in the form of a distributed computer system, the components of which are cloud or local servers.

[0024] В данном решении под системой подразумевается компьютерная система или автоматизированная система (АС), ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированная система управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность вычислительных операций (действий, инструкций).[0024] In this decision, a system is understood to mean a computer system or an automated system (AS), a computer (electronic computer), CNC (numerical control), PLC (programmable logic controller), a computerized control system, and any other devices capable of performing a given, clearly defined sequence of computational operations (actions, instructions).

[0025] Под устройством обработки команд подразумевается электронный блок либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы).[0025] An instruction processing device is understood to mean an electronic unit or an integrated circuit (microprocessor) executing machine instructions (programs).

[0026] Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройства хранения данных. В роли устройства хранения данных могут выступать, но, не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы, облачные хранилища данных.[0026] An instruction processing device reads and executes machine instructions (programs) from one or more data storage devices. Storage devices may include, but are not limited to, hard disks (HDDs), flash memory, ROM (read only memory), solid state drives (SSDs), optical drives, and cloud storage.

[0027] Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд.[0027] A program is a sequence of instructions for execution by a computer control device or an instruction processing device.

[0028] Секвенирование ДНК - определение последовательности нуклеотидов в молекуле ДНК. Под этим может подразумеваться как амликонное секвенирование (прочтение последовательностей выделенных фрагментов ДНК, полученных в результате ПЦР реакции - таких, как ген 16S рРНК или его фрагменты), так и полногеномное секвенирование (прочтение последовательностей всей ДНК, присутствующей в образце).[0028] DNA sequencing - determining the sequence of nucleotides in a DNA molecule. This can mean both amlicon sequencing (reading the sequences of isolated DNA fragments obtained by PCR reaction - such as the 16S rRNA gene or its fragments), and genome-wide sequencing (reading the sequences of all DNA present in the sample).

[0029] Чтения (иногда риды от англ. "reads") - данные, представляющие собой нуклеотидные последовательности фрагментов ДНК, полученные с помощью ДНК-секвенатора.[0029] Readings (sometimes reads from the English. "Reads") are data representing the nucleotide sequences of DNA fragments obtained using a DNA sequencer.

[0030] FASTA - формат записи последовательностей ДНК.[0030] FASTA is a format for recording DNA sequences.

[0031] FASTQ - формат записи последовательностей ДНК, при котором записывается аппаратное качество прочтения каждой позиции.[0031] FASTQ is a DNA sequence recording format in which the hardware reading quality of each position is recorded.

[0032] Картирование прочтений - биоинформатический метод анализа результатов секвенирования нового поколения, состоящий в определении позиций в референсной базе геномов или генов, откуда с наибольшей вероятностью могло быть получено каждое конкретное короткое прочтение.[0032] Reading mapping is a bioinformatic method for analyzing the results of a new generation sequencing, which consists in determining positions in the reference base of genomes or genes, from which each specific short reading could most likely be obtained.

[0033] В результате секвенирования ДНК создается набор чтений. Длина чтения у современных секвенаторов составляет от нескольких сотен до нескольких тысяч нуклеотидов.[0033] DNA sequencing creates a set of readings. The reading length of modern sequencers ranges from several hundred to several thousand nucleotides.

[0034] Ампликон (англ. «amplicon») - нуклеотидная последовательность ДНК, размноженная (амплифицированная) с помощью ПЦР.[0034] Amplikon (Engl. "Amplicon") - the nucleotide sequence of DNA, multiplied (amplified) using PCR.

[0035] Дерево решений - это бинарный алгоритм классификации, основанный на машинном обучении с учителем. Иными словами прежде чем производить классификацию строится дерево, представляющие из себя структуру у которой во внутренних узлах условия на признаки, а в листьях классы.[0035] The decision tree is a binary classification algorithm based on machine learning with a teacher. In other words, before making the classification, a tree is constructed, which is a structure in which the conditions for signs in the internal nodes and the classes are in the leaves.

[0036] Обучающая выборка (англ. «training sample») - выборка, по которой производится настройка (оптимизация параметров) модели зависимости.[0036] A training sample (English “training sample”) is a sample by which the dependence model is tuned (parameter optimization).

[0037] Кросс-валидация, которую иногда называют перекрестной проверкой, это техника валидации модели для проверки того, насколько успешно применяемый в модели статистический анализ способен работать на независимом наборе данных.[0037] Cross-validation, sometimes referred to as cross-validation, is a model validation technique for verifying how successfully used statistical analysis in a model is capable of working on an independent data set.

[0038] Способ оценки качества результатов таргетного секвенирования, реализуемый с помощью процессора, показанный на Фиг. 1 в виде блок-схемы, может включать следующие шаги.[0038] The method for evaluating the quality of the results of targeted sequencing implemented by the processor shown in FIG. 1 in a block diagram may include the following steps.

[0039] Шаг 110: получают по меньшей мере один образец по меньшей мере одного пользователя.[0039] Step 110: at least one sample of at least one user is obtained.

[0040] В данном техническом решении под пользователем может пониматься пациент.[0040] In this technical solution, the user can be understood as a patient.

[0041] Предварительно подготавливают по крайней мере один образец ДНК пользователя для секвенирования. Образец должен представлять собой биологический материал, из которого возможно выделить ДНК. В качестве такого биоматериала для анализа мутаций, ассоциированных с онкологическими заболеваниями, могут быть использованы различные типы биологического материала, содержащие ДНК, например: образцы ткани опухоли (биопсийный или операционный материал) в виде замороженного препарата или парафинизированных блоков, циркулирующая ДНК из плазмы крови или других жидких сред человека, а также цельная кровь или защечный мазок, в качестве источника нормальной ткани для анализа наследственных мутаций.[0041] At least one user DNA sample is pre-prepared for sequencing. The sample should be a biological material from which it is possible to isolate DNA. As such biomaterial for the analysis of mutations associated with cancer, various types of biological material containing DNA can be used, for example: tumor tissue samples (biopsy or surgical material) in the form of a frozen preparation or paraffinized blocks, circulating DNA from blood plasma or other human fluid media, as well as whole blood or a cheek swab, as a source of normal tissue for analysis of hereditary mutations.

[0042] К разным типам образцов предъявляются различные требования.[0042] Different types of samples have different requirements.

[0043] В некоторых вариантах реализации соответствие биоматериала требованиям определяется посредством процессора на основании ранее введенных параметров полученного образца и критериев пригодности биоматериала. Ниже приведены основные критерии пригодности биоматериала. Например, для образца «Парафинизированные образцы опухоли, фиксированные в формалине (парафиновые блоки)» показатели должны быть следующие. Объем ткани в блоке - не менее 10 мм3, а площадь поверхности ткани в блоке - не менее 5 мм2. Минимальное содержание опухоли по сопроводительным срезам с верхней и нижней поверхности анализируемого фрагмента, процент площади малигнизированной ткани должен быть не менее 10% (по учету клеточных ядер). Образцы, полученные после кислотной декальцинации костной ткани, непригодны для анализа из-за деградации ДНК. Использование незабуференного формалина при фиксации или слишком длительная фиксация ткани приводит к повреждению ДНК и может сделать образец непригодным для анализа.[0043] In some embodiments, the compliance of the biomaterial with the requirements is determined by the processor based on previously entered parameters of the obtained sample and the criteria for suitability of the biomaterial. Below are the main criteria for the suitability of biomaterial. For example, for the sample “Paraffinized tumor samples fixed in formalin (paraffin blocks)”, the indicators should be as follows. The volume of fabric in the block is at least 10 mm3, and the surface area of the fabric in the block is at least 5 mm2. The minimum tumor content along the accompanying sections from the upper and lower surfaces of the analyzed fragment, the percentage of area of the malignant tissue should be at least 10% (according to cell nuclei). Samples obtained after acid decalcification of bone tissue are unsuitable for analysis due to DNA degradation. The use of unbuffered formalin during fixation or too long fixation of tissue leads to DNA damage and may render the sample unsuitable for analysis.

[0044] Например, для образца «Жидкостная биопсия» (анализ циркулирующей ДНК) требования следующие:[0044] For example, for a Liquid Biopsy sample (circulating DNA analysis), the requirements are as follows:

[0045] Образец крови собирается в пробирку с К3ЭДТА (5-10 мл);[0045] A blood sample is collected in a tube with K3EDTA (5-10 ml);

[0046] В течение 10 мин центрифугируется для осаждения клеточного осадка и отделения плазмы;[0046] For 10 minutes, centrifuged to precipitate the cell pellet and separate the plasma;

[0047] Отбирается плазма по 1 мл в микропробирки типа SafeLock (1,5 мл);[0047] 1 ml plasma is taken into SafeLock type microtubes (1.5 ml);

[0048] Строится центрифугирование на скорости 12-20 тыс. об./мин;[0048] Centrifugation at a speed of 12-20 thousand rpm;

[0049] Немедленно замораживается при температуре -80°С или заморозить в жидком азоте.[0049] It is immediately frozen at -80 ° C or frozen in liquid nitrogen.

[0050] Предварительно получают образец пользователя.[0050] A user sample is preliminarily obtained.

[0051] Вышеуказанные первичные данные получают посредством использования набора для отбора проб, который может включать контейнер для образцов, имеющий компонент технологического реагента и сконфигурированный для приема образца из места сбора пользователем, которое может быть удаленным. Дополнительно или альтернативно набор для отбора проб может быть предоставлен непосредственно через устройство сбора образцов, установленное в помещении или на улице, которое предназначено для облегчения приема пробы от пользователя. В других вариантах осуществления набор для отбора проб может быть сдан в клинике или другом медицинском учреждении медицинскому лабораторному технику, а ранее доставлен пользователю, например, курьером. Однако предоставление набора (-ов) для отбора проб пользователя в систему может дополнительно или альтернативно выполняться любым другим подходящим способом, например, в замороженном виде в стерильном контейнере.[0051] The above primary data is obtained by using a sampling kit, which may include a sample container having a process reagent component and configured to receive a sample from a collection site by a user, which may be remote. Additionally or alternatively, a sampling kit can be provided directly through a sample collection device installed in a room or on the street, which is intended to facilitate receiving a sample from a user. In other embodiments, a sampling kit may be delivered at a clinic or other medical facility to medical laboratory equipment, and previously delivered to the user, for example, by courier. However, providing the kit (s) for user sampling to the system may additionally or alternatively be carried out in any other suitable way, for example, frozen in a sterile container.

[0052] Шаг 120: выполняют таргетное секвенирование по меньшей мере одного образца, полученного на предыдущем шаге, посредством платформы секвенирования;[0052] Step 120: perform targeted sequencing of at least one sample obtained in the previous step by means of a sequencing platform;

[0053] Получение данных высокопроизводительного таргетного секвенирования включает несколько этапов, которые могут отличаться в зависимости от конкретного используемого набора методов, выбранной технологии секвенирования и типа биологического материала. Геномная ДНК выделяется соответствующими наборами реагентов в зависимости от типа образца: с использованием сорбентного метода или метода гетерофазной экстракции. Концентрация выделенной двуцепочечной ДНК должна быть не менее 1 нг/мкл. ДНК может храниться при 37°С в течение 10-20 минут, при 2-8°С - в течение 12-24 часов, при -20°С - длительно.[0053] Obtaining high-performance targeted sequencing data involves several steps, which may differ depending on the particular set of methods used, the selected sequencing technology, and the type of biological material. Genomic DNA is isolated by appropriate sets of reagents depending on the type of sample: using the sorbent method or the method of heterophasic extraction. The concentration of the isolated double-stranded DNA should be at least 1 ng / μl. DNA can be stored at 37 ° C for 10-20 minutes, at 2-8 ° C - for 12-24 hours, at -20 ° C - for a long time.

[0054] При анализе спектрофотометрической чистоты препарата ДНК соотношение поглощения раствора на длинах волн 260 и 280 нм определяют в диапазоне 1,8-2,0.[0054] When analyzing the spectrophotometric purity of a DNA preparation, the ratio of the absorption of the solution at wavelengths of 260 and 280 nm is determined in the range of 1.8-2.0.

[0055] Для приготовления ДНК-библиотеки получают биоматериал в объеме, эквивалентном не менее 50 нг ДНК. На следующем этапе выполняются манипуляции в соответствии с инструкцией производителя наборов для таргетного обогащения (если применимо) и набора для приготовления библиотек. Данное изобретение применимо для различных типов ДНК-библиотек, в том числе для полученных таргетным обогащением методом мультиплексной ПЦР или гибридизацией со специфичными РНК/ДНК-зондами.[0055] For the preparation of DNA libraries receive biomaterial in a volume equivalent to at least 50 ng of DNA. At the next stage, manipulations are performed in accordance with the manufacturer’s instructions for targeted enrichment kits (if applicable) and a library preparation kit. The present invention is applicable to various types of DNA libraries, including those obtained by targeted enrichment by multiplex PCR or hybridization with specific RNA / DNA probes.

[0056] Таргетное секвенирование выполняют в режиме, обеспечивающем среднюю кратность покрытия целевых регионов не менее 200х. Изобретение было испытано на платформах секвенирования lllumina и Torrent, однако учитывая унифицированный формат данных секвенирования может быть применено и для других платформ и технологий высокопроизводительного секвенирования.[0056] Target sequencing is performed in a mode providing an average coverage of target regions of at least 200x. The invention was tested on the lllumina and Torrent sequencing platforms, but given the unified sequencing data format, it can be applied to other platforms and high-performance sequencing technologies.

[0057] Тем не менее результаты секвенирования имеют унифицированный формат и для них может быть применено данное изобретение.[0057] However, the sequencing results have a uniform format and the invention can be applied to them.

[0058] Шаг 130: получают из результатов секвенирования характеристики секвенирования.[0058] Step 130: obtain sequencing characteristics from the sequencing results.

[0059] На данном шаги посредством использования процессора выполняют последовательно следующие шаги:[0059] In this step, by using the processor, the following steps are performed sequentially:

1) Картируют чтения на референсный геном Н.sapiens;1) Mapping readings to the reference genome of H. sapiens;

2) Осуществляют подсчет числа чтений покрывающих каждую позицию референса;2) Count the number of readings covering each position of the reference;

3) Определяют набор мутаций;3) Determine the set of mutations;

4) Определяют мутационный спектр для образца.4) Determine the mutation spectrum for the sample.

[0060] В данном техническом решении используется интегральная характеристика, которая позволяет количественно оценить качество образца на основании набора характеристик данных секвенирования.[0060] This technical solution uses an integral characteristic that allows you to quantify the quality of a sample based on a set of characteristics of sequencing data.

[0061] В некоторых вариантах реализации изобретения используют среднее покрытие образца для общей интегральной характеристики. Данный параметр характеризует насколько полно была прочитана геномная последовательность. Чем больше его значение, тем больше вероятность того, что были прочитаны все целевые регионы и полнее представлена вся генетическая информация, содержащаяся в биологическом образце. Среднее покрытие образца определяется как число чтений умноженное на их длину и деленное на размер целевой прочитываемой нуклеотидной последовательности. Например, было прочитано 100 млн. чтений длиной 100 п. н. Был прочитан полностью геном человека длиной 4 млрд п. н.. В итоге среднее покрытие определяется как 100*10^6*100/4*10^9=2.5.[0061] In some embodiments of the invention, the average coating of the sample is used for an overall integrated characteristic. This parameter characterizes how fully the genomic sequence has been read. The greater its value, the greater the likelihood that all target regions have been read and all genetic information contained in a biological sample is presented more fully. The average coverage of a sample is defined as the number of reads multiplied by their length and divided by the size of the target read nucleotide sequence. For example, 100 million readings of 100 bp were read. It was read completely by the 4 billion bp human genome. As a result, the average coverage is defined as 100 * 10 ^ 6 * 100/4 * 10 ^ 9 = 2.5.

[0062] В некоторых вариантах реализации изобретения используют число ампликонов, покрытых в среднем больше среднего покрытия образца. Данный параметр характеризует насколько много целевых последовательностей покрытых больше, чем среднее значение покрытия. Таким образом можно понять, сколько ампликонов перепредставлены в образце и понять насколько неравномерно представлены целевые последовательности.[0062] In some embodiments, the number of amplicons coated on average with more than the average coating of the sample is used. This parameter characterizes how many target sequences covered are larger than the average coverage value. Thus, it is possible to understand how many amplicons are overrepresented in the sample and to understand how the target sequences are unevenly represented.

[0063] Также используют процент пар нуклеотидов (сокращенно - п. н.) со значениями качества больше Q30 (для секвенатора Иллюмина) и Q20 (для секвенатора lonTorrent). Значения качества показывает насколько хорошо прочитан определенный нуклеотид в последовательностях, полученных с использованием секвенатора. Порог в значении качества, отделяющих нуклеотиды прочитанные с высокой точностью специфичен для разных технологий секвенирования и посчитав процент нуклеотидов прочитанных со значениями качества выше этих порогов можно понять насколько удачен запуск.[0063] Also used is the percentage of nucleotide pairs (abbreviated bp) with quality values greater than Q30 (for the Illuminumin sequencer) and Q20 (for the lonTorrent sequencer). Quality values show how well a particular nucleotide is read in sequences obtained using a sequencer. The threshold in terms of the quality of separating nucleotides read with high accuracy is specific for different sequencing technologies and counting the percentage of nucleotides read with quality values above these thresholds, we can understand how successful the launch is.

[0064] Еще в одном варианте реализации используют процент чтений, прошедших тримминг, под которым понимается процесс удаления из последовательности чтения регионов, содержащих нуклеотиды с низкими значениями качества. Таким образом можно оценить процент сохранившихся чтений, после работы алгоритма удаления регионов чтений, прочитанных с низким качеством. И процент таких чтений достаточно велик, то можно судить о том что секвенирование было удачным.[0064] In another embodiment, the percentage of readings that have been trimmed is used, which is understood as the process of removing regions containing nucleotides with low quality values from the reading sequence. Thus, it is possible to estimate the percentage of saved readings after the work of the algorithm for deleting the regions of readings read with low quality. And the percentage of such readings is large enough, it can be judged that the sequencing was successful.

[0065] Также могут использовать оценку наличия формалиновых артефактов по мутационным спектрам и общему количеству найденных мутаций, которая проводится следующим образом. Подсчитывается количество всех найденных однонуклеотидных замен и строится распределение числа замен, разных по их типам в образце. Если количество однонуклеотидных замен C>Т и G>A значительно преобладает над остальными, считается, что в исследуемом образце присутствуют формалиновые артефакты, как показано на Фиг. 6. Иными словами если отношение ([C>Т]+[G>A])/([C>A]+[C>G]+[G>C]+[G>T]+[Т>А]+[Т>С]+[T>G]+[А>С]+[A>G]+[А>Т]) больше 2 (в случае наличия формалиновых артефактов резко возрастает число замен типа C в T и G в A в биологических образцах, в связи с чем эмпирически определено, что число замен такого типа вырастает на порядок по сравнению с суммарным числом других замен), то определяют, что в образце присутствуют формалиновые артефакты, где [С>Т] - число замен С в Т, [G>A] - число замен G в А, и т.д.[0065] You can also use the assessment of the presence of formalin artifacts from the mutation spectra and the total number of mutations found, which is carried out as follows. The number of all found single nucleotide substitutions is calculated and the distribution of the number of substitutions that are different in their types in the sample is constructed. If the number of single nucleotide substitutions C> T and G> A significantly prevails over the others, it is believed that formalin artifacts are present in the test sample, as shown in FIG. 6. In other words, if the ratio ([C> T] + [G> A]) / ([C> A] + [C> G] + [G> C] + [G> T] + [T> A] + [T> C] + [T> G] + [A> C] + [A> G] + [A> T]) is greater than 2 (in the presence of formalin artifacts, the number of substitutions of type C in T and G in A in biological samples, in connection with which it is empirically determined that the number of substitutions of this type grows by an order of magnitude compared to the total number of other substitutions), it is determined that formalin artifacts are present in the sample, where [C> T] is the number of substitutions C in T, [G> A] is the number of substitutions of G in A, etc.

[0066] Необходимо понимать, что вышеприведенный набор характеристик секвенирования не ограничен использованием, и могут быть добавлены дополнительные характеристики секвенирования, в связи с чем появится возможность учесть особенности новых технологий секвенирования, появившиеся в уровне техники.[0066] You must understand that the above set of sequencing characteristics is not limited to use, and additional sequencing characteristics can be added, and therefore it will be possible to take into account the features of new sequencing technologies that have appeared in the prior art.

[0067] Шаг 140: формируют интегральную характеристику секвенирования на основании полученных на предыдущем шаге характеристик секвенирования посредством использования алгоритма машинного обучения на процессоре.[0067] Step 140: an integral sequencing characteristic is generated based on the sequencing characteristics obtained in the previous step by using a machine learning algorithm on the processor.

[0068] Интегральная характеристика может быть получена с использованием алгоритма машинного обучения XGBoost (градиентный бустинг). В качестве альтернативных алгоритмов машинного обучения могут использовать случайные деревья, метод опорных векторов, нейронные сети и т.д. Примерный вариант реализации показан на градиентном бустинге деревьев решений.[0068] The integral characteristic can be obtained using the machine learning algorithm XGBoost (gradient boosting). As alternative algorithms for machine learning, random trees, the support vector method, neural networks, etc. can be used. An exemplary implementation option is shown on gradient boosting of decision trees.

[0069] Непосредственно само дерево решений строится по обучающей выборке. Обучающая выборка - это набор объектов, для которых точно известно к какому классу тот или иной объект относится. Бустинг же является одним из методов построения композиции простых классификаторов, причем каждый последующий строящийся классификатор пытается компенсировать недостатки предыдущей композиции алгоритмов. В случае XGBoost в качестве простого алгоритма классификации используется дерево решений, причем достаточно небольшой глубины.[0069] The decision tree itself is constructed from a training set. A training sample is a set of objects for which it is precisely known to which class this or that object belongs. Boosting is one of the methods of constructing a composition of simple classifiers, with each subsequent classifier under construction trying to compensate for the shortcomings of the previous composition of algorithms. In the case of XGBoost, a decision tree is used as a simple classification algorithm, with a rather small depth.

[0070] Для обучения модели, а именно композиции деревьев решений используют обучающую выборку, имеющую минимум 2*N образцов с удовлетворительным качеством и N образцов с неудовлетворительным качеством, где N - количество характеристик секвенирования. Данные ограничения на число образцов связаны с тем, что если число образцов меньше чем число характеристик, то построенный ансамбль решающих деревьев сможет просто запомнить обучающую выборку и явно будет переобучен, то есть не сможет адекватно классифицировать объекты, не входящие в обучающую выборку. Причем эмпирически выяснено, что для получения удовлетворительного качества классификации необходима, как минимум двукратно превосходящая число признаков по объему обучающая выборка удовлетворяющих по качеству образцов.[0070] To train the model, namely, the composition of decision trees, a training set is used that has a minimum of 2 * N samples with satisfactory quality and N samples with unsatisfactory quality, where N is the number of sequencing characteristics. These restrictions on the number of samples are related to the fact that if the number of samples is less than the number of characteristics, then the constructed ensemble of decision trees can simply remember the training set and will obviously be retrained, that is, it cannot adequately classify objects that are not included in the training set. Moreover, it has been empirically found that in order to obtain a satisfactory quality of classification, a training sample of samples that are satisfactory in quality is required to at least double the number of attributes in terms of volume.

[0071] Одним из признаков может быть среднее покрытие образца, которое оценивается как отношение суммарного покрытия образца к длине геномной последовательности образца. Допустим имеется референсная последовательность нуклеотидов, которая состоит из 10 пар нуклеотидов. Значения покрытий для каждой позиции из 10 пар могут быть следующими: 1 - покрытие 1, 2 -1, 3 - 3, 4 - 3, 5 - 3, 6 - 3, 7 - 3, 8 - 3, 9 - 3, 10 - 3. Таким образом, суммарное покрытие будет равно 26.[0071] One of the features may be the average coverage of the sample, which is estimated as the ratio of the total coverage of the sample to the length of the genomic sequence of the sample. Suppose there is a reference nucleotide sequence, which consists of 10 pairs of nucleotides. Coating values for each position of 10 pairs can be as follows: 1 - coating 1, 2 -1, 3 - 3, 4 - 3, 5 - 3, 6 - 3, 7 - 3, 8 - 3, 9 - 3, 10 - 3. Thus, the total coverage will be 26.

[0072] Еще одним признаком является число ампликонов, покрытых в среднем больше среднего покрытия образца. Оценивается данный признак следующим образом:[0072] Another indication is the number of amplicons coated on average with more than the average coating of the sample. This feature is evaluated as follows:

[0073] а) Для каждого ампликона оценивается его среднее покрытие;[0073] a) For each amplicon, its average coverage is estimated;

[0074] б) Сравнивается среднее покрытие ампликона со средним покрытием образца. Затем определяется число ампликонов, для которых среднее покрытие больше среднего покрытия образца.[0074] b) The average amplicon coating is compared with the average coating of the sample. Then, the number of amplicons is determined for which the average coating is larger than the average coating of the sample.

[0075] Еще одним признаком является процент п. н. со значениями качества больше Q30 (для секвенатора Иллюмина) и Q20 (для секвенатора lonTorrent). Значение качества определяет проприетарное программное обеспечение секвенатора. Данный признак для каждой прочитанной позиции образца указывает вероятность правильного прочтения в логарифмической шкале -10log как вероятность ошибки. Q30 - это вероятность ошибки 10^-3, а Q20 - это вероятность ошибки 10^-2.[0075] Another sign is the percentage of bp with quality values greater than Q30 (for the Illumin sequencer) and Q20 (for the lonTorrent sequencer). The value of quality is determined by the proprietary sequencer software. This attribute for each read position of the sample indicates the probability of correct reading in the -10log logarithmic scale as the probability of error. Q30 is the probability of error 10 ^ -3, and Q20 is the probability of error 10 ^ -2.

[0076] Еще одним признаком для обучающей выборки является процент чтений, прошедших тримминг (процесс удаления из последовательности чтения регионов, содержащих нуклеотиды с низкими значениями качества).[0076] Another indication for the training sample is the percentage of readings that have been trimmed (the process of removing regions containing nucleotides with low quality values from the reading sequence).

[0077] Также в качестве признака используют оценку наличия формалиновых артефактов по мутационным спектрам и общему количеству найденных мутаций.[0077] Also, an assessment of the presence of formalin artifacts from the mutation spectra and the total number of mutations found is used as a feature.

[0078] Процесс подбора параметров обучения модели производится с использованием перекрестной проверки, который используется процессор, как показано на Фиг. 4. Обучающая выборка делится, например, на 10 частей и для каждого этапа предсказания обучения осуществляется на 9 частях, после чего оценка предсказания производится на основе оставшейся части. Объектами обучающей выборки могут являться образцы, которые заранее классифицированы, например, пользователем или другим алгоритмом машинного обучения, как имеющие удовлетворительный уровень качества и неудовлетворительный уровень качества. В ходе данного процесса обучения подбираются параметры для алгоритма, конструирующего классификатор. Подбор параметров необходим для оптимизации построенного классификатора для чего и используется кросс - валидация. А именно обучающая выборка делится на набор подвыборок, набор подвыборок без одной используется для обучения, а исключенная подвыборка используется для определения качества кластеризации, и так повторяется для всех подвыборок в качестве тестовых, как показано на Фиг. 3. Делается вариация обучающей выборки и проверяются предсказания, на наборе данных для которых известна оценка качества. Для варианта реализации, когда используется XGBoost, перебираются следующие параметры (как показано на Фиг. 2):[0078] The process of selecting model training parameters is performed using cross-validation, which is used by the processor, as shown in FIG. 4. The training sample is divided, for example, into 10 parts and for each stage of training prediction is carried out in 9 parts, after which the prediction is estimated based on the remaining part. The objects of the training sample can be samples that are pre-classified, for example, by the user or other machine learning algorithm, as having a satisfactory level of quality and an unsatisfactory level of quality. During this learning process, parameters are selected for the algorithm constructing the classifier. The selection of parameters is necessary to optimize the constructed classifier, which is why cross-validation is used. Namely, the training sample is divided into a set of subsamples, a set of subsamples without one is used for training, and the excluded subsample is used to determine the quality of clustering, and so it is repeated for all subsamples as test ones, as shown in FIG. 3. A variation of the training set is made and predictions are checked, on the data set of which a quality assessment is known. For the implementation, when XGBoost is used, the following parameters are sorted out (as shown in Fig. 2):

[0079] eta (параметр XGBoost, указывающий во сколько раз необходимо уменьшить размер шага после каждой итерации) (диапазон значений от 0.01 до 0.4 с шагом 0.01);[0079] eta (parameter XGBoost, indicating how many times it is necessary to reduce the step size after each iteration) (range of values from 0.01 to 0.4 with a step of 0.01);

[0080] min_child_weight (минимальный вес дочернего узла)(диапазон значений от 0.3 до 1 с шагом 0.01);[0080] min_child_weight (minimum weight of the child node) (range of values from 0.3 to 1 in steps of 0.01);

[0081] max_depth (максимальная глубина формируемых решающих деревьев)(от 3 до 10 с шагом 0.01); subsample (часть обучающей выборки, использующейся при обучении XGBoost) (от 0.3 до 1 с шагом 0.01);[0081] max_depth (maximum depth of formed decision trees) (from 3 to 10 in increments of 0.01); subsample (part of the training sample used in training XGBoost) (from 0.3 to 1 in steps of 0.01);

[0082] colsample_bytree (часть обучающей выборки, использующейся при обучении на каждой итерации XGBoost)(от 0.3 до 1 с шагом 0.01);[0082] colsample_bytree (part of the training sample used in training at each XGBoost iteration) (from 0.3 to 1 in steps of 0.01);

[0083] colsample_bylevel (часть обучающей выборки, использующейся при обучении при каждом построении внутренних узлов в решающих деревьях на каждой итерации XGBoost)(от 0.3 до 1 с шагом 0.01);[0083] colsample_bylevel (part of the training sample used in training for each construction of internal nodes in decision trees at each XGBoost iteration) (from 0.3 to 1 in steps of 0.01);

[0084] параметр scale_pos_weight (величина, указывающая насколько более ценны экземпляры положительной обучающей выборки относительно отрицательной; в нашем случае положительная выборка - это образцы удовлетворительного качества, а отрицательная - это образцы неудовлетворительного качества) должен быть равен отношению величины положительной выборки к отрицательной или близок к данному отношению.[0084] the scale_pos_weight parameter (a value indicating how much more valuable the samples of the positive training sample are relatively negative; in our case, the positive sample is samples of satisfactory quality and the negative sample is samples of unsatisfactory quality) should be equal to the ratio of the value of the positive sample to negative or close to given relation.

[0085] Перебор параметров осуществляется следующим образом, как показано на Фиг. 5.[0085] Parameters are enumerated as follows, as shown in FIG. 5.

[0086] Предварительно всем параметрам устанавливается минимальное значение.[0086] Previously, all parameters are set to a minimum value.

[0087] Затем осуществляют кроссвалидацию, где определяется оценка качества классификации. В качестве такой оценки может использоваться величина AUC - площадь под ROC-кривой. ROC-кривая - это зависимость между чувствительностью и специфичностью алгоритма классификации.[0087] Then cross-validation is carried out, where the classification quality assessment is determined. As such an estimate, the AUC value can be used - the area under the ROC curve. The ROC curve is the relationship between the sensitivity and specificity of the classification algorithm.

[0088] Далее параметр eta увеличивается на 0.01, после чего снова проводится кросс - валидация и делается оценка качества классификации.[0088] Next, the eta parameter increases by 0.01, after which cross-validation is again performed and the quality of classification is evaluated.

[0089] Если eta меньше 0.4, то алгоритм продолжается с выполнения перекрестной проверки.[0089] If eta is less than 0.4, then the algorithm continues with cross-validation.

[0090] Если min_child_weight меньше 1, то данный параметр увеличивается на 0.01 и алгоритм продолжается с выполнения перекрестной проверки и параметр eta устанавливается в 0.01.[0090] If min_child_weight is less than 1, then this parameter is increased by 0.01 and the algorithm continues with cross-validation and eta is set to 0.01.

[0091] Если max_depth меньше 10, то данный параметр увеличивается на 0.01 и алгоритм продолжается с выполнения перекрестной проверки, а параметр eta устанавливается в 0.01, параметр min_child_weight устанавливается в 0.3.[0091] If max_depth is less than 10, then this parameter is increased by 0.01 and the algorithm continues with cross-checking, and eta is set to 0.01, min_child_weight is set to 0.3.

[0092] Если subsample меньше 1, то он увеличивается на 0.01 и алгоритм продолжается с выполнения перекрестной проверки, параметр eta устанавливается в 0.01, параметр min_child_weight устанавливается в 0.3 и параметр max_depth устанавливается в 3.[0092] If the subsample is less than 1, then it increases by 0.01 and the algorithm continues with cross-validation, the eta parameter is set to 0.01, the min_child_weight parameter is set to 0.3, and the max_depth parameter is set to 3.

[0093] Если colsample_bytree меньше 1, то он увеличивается на 0.01, алгоритм продолжается с выполнения перекрестной проверки, параметр eta устанавливается в 0.01, параметр min_child_weight устанавливается в 0.3, параметр max_depth устанавливается в 3 и параметр subsample устанавливается в 0.3.[0093] If colsample_bytree is less than 1, then it increases by 0.01, the algorithm continues with cross-validation, eta is set to 0.01, min_child_weight is set to 0.3, max_depth is set to 3, and subsample is set to 0.3.

[0094] Если colsample_bylevel меньше 1, то он увеличивается на 0.01, алгоритм продолжается с выполнения перекрестной проверки, параметр eta устанавливается в 0.01, параметр min_child_weight устанавливается в 0.3, параметр max_depth устанавливается в 3, параметр subsample устанавливается в 0.3 и параметр colsample_bytree устанавливается в 0.3.[0094] If colsample_bylevel is less than 1, then it increases by 0.01, the algorithm continues with cross-validation, eta is set to 0.01, min_child_weight is set to 0.3, max_depth is set to 3, subsample is set to 0.3 and colsample_bytree is set to 0.3 .

[0095] В итоге выбирается набор параметров, для которого величина AUC максимальна. И этот набор параметров становится результатом проведения кросс - валидации. Обучение производится на всем объеме обучающей выборки с этим набором параметров.[0095] As a result, a set of parameters is selected for which the AUC value is maximum. And this set of parameters is the result of cross-validation. Training is carried out on the entire training sample with this set of parameters.

[0096] Полученная обученная модель XGBoost в дальнейшем может быть использована для оценки качества образцов, полученных с использованием тех же секвенаторов, с которых получены и образцы обучающей выборки. В случае смены оборудования для секвенирования необходимо производить переобучение модели, а именно необходимо сформировать обучающую выборку на образцах, полученных с использованием нового оборудования и провести формирование новой модели. В некоторых вариантах реализации формируют универсальные модели, подходящие для широкого круга секвенирующих установок, для чего используют достаточно большой набор образцов (например, как минимум 1^-10 тыс.* [число оцениваемых параметров] образцов в обучающей выборке), полученных с использованием нескольких разных секвенирующих установок, построенных как на основе одной технологии так и нескольких. Таким образом для оценки того, насколько качество образцов различается как в пределах секвенаторов, построенных на основе одной технологии, так и между разными технологиями, необходим набор образцов, полученных с использованием как можно более разнообразного оборудования. Оценку достаточности текущего количества образцов можно оценить по значению среднего параметра AUC в ходе кросс - валидации. Он должен быть не меньше 0.8 (классификаторы с AUC больше 0.8 считаются хорошими, как известно из источника информации [2]).[0096] The resulting trained XGBoost model can then be used to assess the quality of samples obtained using the same sequencers from which the training sample was obtained. In the case of changing equipment for sequencing, it is necessary to retrain the model, namely, it is necessary to form a training sample on samples obtained using new equipment and to form a new model. In some implementations, universal models are formed that are suitable for a wide range of sequencing plants, for which a sufficiently large set of samples is used (for example, at least 1 ^ -10 thousand * [number of evaluated parameters] samples in the training set) obtained using several different sequencing plants built both on the basis of one technology and several. Thus, to assess how the quality of the samples varies both within the framework of sequencers built on the basis of one technology and between different technologies, a set of samples obtained using the most diverse equipment possible is necessary. The adequacy of the current number of samples can be estimated by the average AUC parameter during cross-validation. It should be at least 0.8 (classifiers with AUC greater than 0.8 are considered good, as is known from the source of information [2]).

[0097] Для проведения анализа с использованием обученной XGBoost модели для анализируемого образца (набора чтений) определяются признаки, способом аналогичным способу применяемому при работе с обучающей выборкой, посредством использования процессора. Список признаков не задается, так как выше было показано, что этот набор гибко выбирается на этапе обучения. Далее на основе этих признаков производится оценка с использованием, построенного на основе XGBoost, классификатора качества образца. Признаки образца подаются на вход классификатора. На основе этих признаков он выдает значение в диапазоне от 0 до 1. Если значение, полученное с помощью классификатора превышает 0.5, то считается, что образец имеет удовлетворительный уровень качества. Если величина меньше 0.5, то неудовлетворительный. В случае если величина предсказанная XGBoost равна 0.5 то качество образца не удается оценить.[0097] To conduct the analysis using a trained XGBoost model for the analyzed sample (set of readings), the attributes are determined in a manner similar to that used when working with the training sample, using the processor. The list of attributes is not specified, as it was shown above that this set is flexibly selected at the training stage. Further, on the basis of these characteristics, an assessment is made using, based on XGBoost, a sample quality classifier. Signs of the sample are fed to the input of the classifier. Based on these characteristics, it gives a value in the range from 0 to 1. If the value obtained using the classifier exceeds 0.5, then it is believed that the sample has a satisfactory level of quality. If the value is less than 0.5, then unsatisfactory. If the predicted value of XGBoost is 0.5, then the quality of the sample cannot be estimated.

[0098] В результате применения разработанного технического решения к данным, полученным в результате секвенирования получают посредством процессора меру качества, представляющую из себя число из диапазона от 0 до 1.[0098] As a result of applying the developed technical solution to the data obtained as a result of sequencing, a quality measure is obtained by the processor, which is a number from the range from 0 to 1.

[0099] Ниже показан пример реализации описанного выше технического решения посредством процессора.[0099] An example implementation of the above technical solution by a processor is shown below.

[00100] Для обучения используются следующие признаки: среднее покрытие, % чтений, прошедших тримминг.[00100] The following features are used for training: average coverage,% of readings that have been trimmed.

[00101] Для обучения используются следующие объекты:[00101] The following objects are used for training:

[00102] Положительная выборка (удовлетворительное качество):[00102] Positive selection (satisfactory quality):

[00103] Первый объект: среднее покрытие - 500х, % чтения после тримминга 90%[00103] First object: average coverage - 500x,% of reading after trimming 90%

[00104] Второй объект: среднее покрытие - 400х, % чтения после тримминга 80%[00104] Second object: average coverage - 400x,% of reading after trimming 80%

[00105] Третий объект: среднее покрытие - 600х, % чтения после тримминга 70%[00105] Third object: average coverage - 600x,% of reading after trimming 70%

[00106] Четвертый объект: среднее покрытие - 400х, % чтения после тримминга 75%[00106] Fourth object: average coverage - 400x,% of reading after trimming 75%

[00107] Отрицательная выборка (неудовлетворительное качество):[00107] Negative sampling (poor quality):

[00108] Первый объект: среднее покрытие - 100х, % чтения после тримминга 40%[00108] First object: average coverage - 100x,% of reading after trimming 40%

[00109] Второй объект: среднее покрытие - 400х, % чтения после тримминга 30%[00109] The second object: the average coverage is 400x,% of reading after trimming 30%

[00110] Далее строится классификатор с использованием данной обучающей выборки.[00110] Next, a classifier is constructed using this training set.

[00111] Берутся объекты, для которых оценивается качество. Допустим это два объекта с такими признаками:[00111] The objects for which quality is evaluated are taken. Suppose these are two objects with such signs:

Первый объект: среднее покрытие - 400х, % чтения после тримминга 78%First object: average coverage - 400x,% of reading after trimming 78%

[00112] Второй объект: среднее покрытие - 100х, % чтения после тримминга 34%[00112] Second object: average coverage - 100x,% of reading after trimming 34%

[00113] Данные объекты подаются на вход классификатора построенного в пункте 3. Для первого объекта получаем оценку 0.87. Для второго 0.34. 0.87>0.5 - первый тестируемый объект удовлетворительного качества. 0.34<0.5 - второй тестируемый объект неудовлетворительного качества.[00113] These objects are fed to the input of the classifier built in paragraph 3. For the first object, we obtain a rating of 0.87. For the second 0.34. 0.87> 0.5 - the first tested object of satisfactory quality. 0.34 <0.5 - the second tested object of unsatisfactory quality.

[00114] Ссылаясь на Фиг. 7, данное техническое решение может быть реализовано в виде вычислительной системы 700, которая содержит один или более из следующих компонент:[00114] Referring to FIG. 7, this technical solution can be implemented in the form of a computing system 700, which contains one or more of the following components:

- компонент 701 обработки, содержащий по меньшей мере один процессор 702,a processing component 701 comprising at least one processor 702,

- память 703,- memory 703,

- компонент 704 питания,- power component 704,

- компонент 705 мультимедиа,- component 705 multimedia,

- компонент 706 аудио,- component 706 audio,

- интерфейс 707 ввода / вывода (I / О),- an input / output (I / O) interface 707,

- сенсорный компонент 708,- sensor component 708,

- компонент 709 передачи данных.- component 709 data transfer.

[00115] Компонент 701 обработки в основном управляет всеми операциями системы 700, например, формирует интегральную характеристику секвенирования посредством использования алгоритма машинного обучения, а также управляет дисплеем, телефонным звонком, передачей данных, работой камеры и операцией записи мобильного устройства связи пользователя. Модуль 701 обработки может включать в себя один или более процессоров 702, реализующих инструкции для завершения всех или части шагов из указанных выше способов. Кроме того, модуль 701 обработки может включать в себя один или более модулей для удобного процесса взаимодействия между другими модулями 701 обработки и другими модулями. Например, модуль 701 обработки может включать в себя мультимедийный модуль для удобного облегченного взаимодействия между компонентом 705 мультимедиа и компонентом 701 обработки.[00115] The processing component 701 mainly controls all operations of the system 700, for example, generates an integral sequencing characteristic by using a machine learning algorithm, and also controls the display, telephone call, data transfer, camera operation, and recording operation of a user’s mobile communication device. Processing module 701 may include one or more processors 702 that implement instructions for completing all or part of the steps of the above methods. In addition, the processing module 701 may include one or more modules for a convenient interaction process between other processing modules 701 and other modules. For example, the processing module 701 may include a multimedia module for conveniently facilitating interaction between the multimedia component 705 and the processing component 701.

[00116] Память 703 выполнена с возможностью хранения различных типов данных для поддержки работы системы 700, например, базу данных с профилями пользователей. Примеры таких данных включают в себя инструкции из любого приложения или способа, контактные данные, данные адресной книги, сообщения, изображения, видео, и т.д., и все они работают на системе 700. Память 703 может быть реализована в виде любого типа энергозависимого запоминающего устройства, энергонезависимого запоминающего устройства или их комбинации, например, статического оперативного запоминающего устройства (СОЗУ), Электрически-Стираемого Программируемого постоянного запоминающего устройства (ЭСППЗУ), Стираемого Программируемого постоянного запоминающего устройства (СППЗУ), Программируемого постоянного запоминающего устройства (ППЗУ), постоянного запоминающего устройства (ПЗУ), магнитной памяти, флэш-памяти, магнитного диска или оптического диска и другого, не ограничиваясь.[00116] The memory 703 is configured to store various types of data to support the operation of the system 700, for example, a database with user profiles. Examples of such data include instructions from any application or method, contact data, address book data, messages, images, videos, etc., all of which operate on system 700. Memory 703 may be implemented as any type of volatile a memory device, non-volatile memory device, or a combination thereof, for example, static random access memory (RAM), Electrically Erasable Programmable Read-Only Memory (EEPROM), Erasable Programmable Standing only memory (EPROM), programmable ROM (PROM), read-only memory (ROM), magnetic memory, flash memory, magnetic disk or optical disk and the other is not limited.

[00117] Компонент 704 питания обеспечивает электричеством различные компоненты системы 700. Компонент 704 питания может включать систему управления электропитанием, один или более источник питания, и другие узлы для генерации, управления и распределения электроэнергии к системе 400.[00117] Power component 704 provides electricity to various components of system 700. Power component 704 may include a power management system, one or more power sources, and other nodes for generating, controlling, and distributing power to system 400.

[00118] Компонент 705 мультимедиа включает в себя экран, обеспечивающий выходной интерфейс между системой 700, которая может быть установлена на мобильном устройстве связи пользователя и пользователем. В некоторых вариантах реализации, экран может быть жидкокристаллическим дисплеем (ЖКД) или сенсорной панелью (СП). Если экран включает в себя сенсорную панель, экран может быть реализован в виде сенсорного экрана для приема входного сигнала от пользователя. Сенсорная панель включает один или более сенсорных датчиков в смысле жестов, прикосновения и скольжения сенсорной панели. Сенсорный датчик может не только чувствовать границу прикосновения пользователя или жест перелистывания, но и определять длительность времени и давления, связанных с режимом работы на прикосновение и скольжение. В некоторых вариантах осуществления компонент 705 мультимедиа включает одну фронтальную камеру и/или одну заднюю камеру. Когда система 700 находится в режиме работы, например, режиме съемки или режиме видео, фронтальная камера и/или задняя камера могут получать данные мультимедиа извне. Каждая фронтальная камера и задняя камера может быть одной фиксированной оптической системой объектива или может иметь фокусное расстояние или оптический зум.[00118] The multimedia component 705 includes a screen providing an output interface between a system 700 that can be installed on a mobile user and user communication device. In some implementations, the screen may be a liquid crystal display (LCD) or touch panel (SP). If the screen includes a touch panel, the screen may be implemented as a touch screen for receiving an input signal from a user. The touch panel includes one or more touch sensors in the sense of gesturing, touching and sliding the touch panel. The touch sensor can not only feel the border of the user's touch or the gesture of turning over, but also determine the duration of time and pressure associated with the operation mode of touching and sliding. In some embodiments, the media component 705 includes one front camera and / or one rear camera. When the system 700 is in an operating mode, such as a shooting mode or a video mode, the front camera and / or the rear camera can receive multimedia data from outside. Each front camera and rear camera may be a single fixed optical system of the lens or may have a focal length or optical zoom.

[00119] Компонент 706 аудио выполнен с возможностью выходного и/или входного аудио сигнала. Например, компонент 706 аудио включает один микрофон (MIC), который выполнен с возможностью получать внешний аудио сигнал, когда система 700 находится в режиме работы, например, режиме вызова, режима записи и режима распознавания речи. Полученный аудио сигнал может быть далее сохранен в памяти 703 или направлен по компоненту 709 передачи данных. В некоторых вариантах осуществления компонент 706 аудио также включает в себя один динамик выполненный с возможностью вывода аудио сигнала.[00119] The audio component 706 is configured to output and / or input an audio signal. For example, the audio component 706 includes a single microphone (MIC), which is configured to receive an external audio signal when the system 700 is in an operation mode, for example, a call mode, a recording mode, and a speech recognition mode. The resulting audio signal may be further stored in the memory 703 or routed through the data transmission component 709. In some embodiments, the audio component 706 also includes one speaker configured to output an audio signal.

[00120] Интерфейс 707 ввода / вывода (I / О) обеспечивает интерфейс между компонентом 701 обработки и любым периферийным интерфейсным модулем. Вышеуказанным периферийным интерфейсным модулем может быть клавиатура, руль, кнопка, и т.д. Эти кнопки могут включать, но не ограничиваясь, кнопку запуска, кнопку регулировки громкости, начальную кнопку и кнопку блокировки.[00120] An I / O interface 707 provides an interface between the processing component 701 and any peripheral interface module. The above peripheral interface module may be a keyboard, steering wheel, button, etc. These buttons may include, but are not limited to, the start button, volume button, start button, and lock button.

[00121] Сенсорный компонент 708 содержит один или более сенсоров и выполнен с возможностью обеспечения различных аспектов оценки состояния системы 700. Например, сенсорный компонент 708 может обнаружить состояния вкл/выкл системы 700, относительное расположение компонентов, например, дисплея и кнопочной панели, одного компонента системы 700, наличие или отсутствие контакта между пользователем и системой 700, а также ориентацию или ускорение/замедление и изменение температуры системы 700. Сенсорный компонент 708 содержит бесконтактный датчик, выполненный с возможностью обнаружения присутствия объекта, находящегося поблизости, когда нет физического контакта. Сенсорный компонент 708 содержит оптический датчик (например, КМОП или ПЗС-датчик изображения) выполненный с возможностью использования в визуализации приложения. В некоторых вариантах сенсорный компонент 708 содержит датчик ускорения, датчик гироскопа, магнитный датчик, датчик давления или датчик температуры.[00121] The sensor component 708 contains one or more sensors and is configured to provide various aspects of assessing the state of the system 700. For example, the sensor component 708 can detect on / off states of the system 700, the relative position of components, such as a display and keypad, of one component system 700, the presence or absence of contact between the user and the system 700, as well as the orientation or acceleration / deceleration and temperature change of the system 700. The sensor component 708 contains a proximity sensor, with the ability to detect the presence of an object in the vicinity when there is no physical contact. The sensor component 708 includes an optical sensor (for example, CMOS or CCD image sensor) configured to be used in visualization of the application. In some embodiments, the sensor component 708 comprises an acceleration sensor, a gyroscope sensor, a magnetic sensor, a pressure sensor, or a temperature sensor.

[00122] Компонент 709 передачи данных выполнен с возможностью облегчения проводной или беспроводной связи между системой 700 и другими устройствами. Система 700 может получить доступ к беспроводной сети на основе стандарта связи, таких как WiFi, 2G, 3G, 5G, или их комбинации. В одном примерном варианте компонент 709 передачи данных получает широковещательный сигнал или трансляцию, связанную с ними информацию из внешней широковещательной системы управления через широковещательный канал. В одном варианте осуществления компонент 709 передачи данных содержит модуль коммуникации ближнего поля (NFC), чтобы облегчить ближнюю связь. Например, модуль NFC может быть основан на технологии радиочастотной идентификации (RFID), технологии ассоциации передачи данных в инфракрасном диапазоне (IrDA), сверхширокополосных (UWB) технологии, Bluetooth (ВТ) технологии и других технологиях.[00122] The data transmission component 709 is configured to facilitate wired or wireless communication between the system 700 and other devices. System 700 may access a wireless network based on a communication standard such as WiFi, 2G, 3G, 5G, or a combination thereof. In one exemplary embodiment, the data transmission component 709 receives a broadcast signal or broadcast, related information from an external broadcast control system via a broadcast channel. In one embodiment, the data transmission component 709 comprises a near field communication (NFC) module to facilitate near field communication. For example, the NFC module may be based on radio frequency identification (RFID) technology, infrared data association technology (IrDA), ultra-wideband (UWB) technology, Bluetooth (BT) technology, and other technologies.

[00123] В примерном варианте осуществления система 700 может быть реализована посредством одной или более Специализированных Интегральных Схем (СИС), Цифрового Сигнального Процессора (ЦСП), Устройств Цифровой Обработки Сигнала (УЦОС), Программируемым Логическим Устройством (ПЛУ), логической микросхемой, программируемой в условиях эксплуатации (ППВМ), контроллера, микроконтроллера, микропроцессора или других электронных компонентов, и может быть сконфигурирован для реализации способа отображения альбома.[00123] In an exemplary embodiment, system 700 may be implemented by one or more Specialized Integrated Circuits (ICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPs), Programmable Logic Devices (PLCs), logic circuits programmed in operating conditions (ППВМ), controller, microcontroller, microprocessor or other electronic components, and can be configured to implement the album display method.

[00124] В примерном варианте осуществления, энергонезависимый компьютерно-читаемый носитель, содержит инструкции также предусмотренные, например, память 703 включает инструкции, где инструкции выполняются процессором 701 системы 700 для реализации описанных выше способов автоматизированного конструирования мультимодального сервиса грузоперевозок. Например, энергонезависимым компьютерно-читаемым носителем может быть ПЗУ, оперативное запоминающее устройство (ОЗУ), компакт-диск, магнитная лента, дискеты, оптические устройства хранения данных и тому подобное.[00124] In an exemplary embodiment, the non-volatile computer-readable medium contains instructions also provided, for example, memory 703 includes instructions where instructions are executed by processor 701 of system 700 to implement the above-described methods for the automated design of a multimodal freight transportation service. For example, a non-volatile computer-readable medium may be a ROM, random access memory (RAM), compact disk, magnetic tape, floppy disks, optical storage devices and the like.

[00125] Вычислительная система 700 может включать в себя интерфейс дисплея, который передает графику, текст и другие данные из коммуникационной инфраструктуры (или из буфера кадра, не показан) для отображения на компоненте 705 мультимедиа. Вычислительная система 700 дополнительно включает в себя устройства ввода или периферийные устройства. Периферийные устройства могут включать в себя одно или несколько устройств для взаимодействия с мобильным устройством связи пользователя, такие как клавиатура, микрофон, носимое устройство, камера, один или более звуковых динамиков и другие датчики. Периферийные устройства могут быть внешними или внутренними по отношению к мобильному устройству связи пользователя. Сенсорный экран может отображать, как правило, графику и текст, а также предоставляет пользовательский интерфейс (например, но не ограничиваясь ими, графический пользовательский интерфейс (GUI)), через который пользователь может взаимодействовать с мобильным устройством связи пользователя, например, получать доступ и взаимодействовать с приложениями, запущенными на устройстве.[00125] Computing system 700 may include a display interface that transmits graphics, text, and other data from a communications infrastructure (or from a frame buffer, not shown) for display on multimedia component 705. Computing system 700 further includes input devices or peripherals. Peripheral devices may include one or more devices for interacting with a user's mobile communication device, such as a keyboard, microphone, wearable device, camera, one or more sound speakers, and other sensors. Peripheral devices may be external or internal to the user's mobile communication device. The touch screen can typically display graphics and text, and also provides a user interface (for example, but not limited to a graphical user interface (GUI)) through which the user can interact with the user's mobile communication device, for example, access and interact with applications running on the device.

[00126] Элементы заявляемого технического решения находятся в функциональной взаимосвязи, а их совместное использование приводит к созданию нового и уникального технического решения. Таким образом, все блоки функционально связаны.[00126] Elements of the claimed technical solution are in a functional relationship, and their joint use leads to the creation of a new and unique technical solution. Thus, all blocks are functionally connected.

[00127] Все блоки, используемые в системе, могут быть реализованы с помощью электронных компонент, используемых для создания цифровых интегральных схем, что очевидно для специалиста в данном уровне техники. Не ограничиваюсь, могут быть использоваться микросхемы, логика работы которых определяется при изготовлении, или программируемые логические интегральные схемы (ПЛИС), логика работы которых задается посредством программирования. Для программирования используются программаторы и отладочные среды, позволяющие задать желаемую структуру цифрового устройства в виде принципиальной электрической схемы или программы на специальных языках описания аппаратуры: Verilog, VHDL, AHDL и др. Альтернативой ПЛИС могут быть программируемые логические контроллеры (ПЛК), базовые матричные кристаллы (БМК), требующие заводского производственного процесса для программирования; ASIC - специализированные заказные большие интегральные схемы (БИС), которые при мелкосерийном и единичном производстве существенно дороже.[00127] All the blocks used in the system can be implemented using electronic components used to create digital integrated circuits, which is obvious to a person skilled in the art. Not limited to, can be used microcircuits, the logic of which is determined during manufacture, or programmable logic integrated circuits (FPGA), the logic of which is set by programming. For programming, programmers and debugging environments are used that allow you to specify the desired structure of a digital device in the form of a circuit diagram or a program in special equipment description languages: Verilog, VHDL, AHDL, etc. Alternative FPGAs can be programmable logic controllers (PLCs), base matrix crystals ( BMK) requiring a factory production process for programming; ASIC - specialized custom large integrated circuits (LSI), which are much more expensive in small-scale and single-unit production.

[00128] Обычно, сама микросхема ПЛИС состоит из следующих компонент:[00128] Typically, the FPGA chip itself consists of the following components:

- конфигурируемых логических блоков, реализующих требуемую логическую функцию;- Configurable logical blocks that implement the required logical function;

- программируемых электронных связей между конфигурируемыми логическими блоками;- programmable electronic communications between configurable logic blocks;

- программируемых блоков ввода/вывода, обеспечивающих связь внешнего вывода микросхемы с внутренней логикой.- programmable I / O blocks, providing the connection of the external output of the chip with internal logic.

[00129] Также блоки могут быть реализованы с помощью постоянных запоминающих устройств.[00129] Also, blocks can be implemented using read-only memory devices.

[00130] Таким образом, реализация всех используемых блоков достигается стандартными средствами, базирующимися на классических принципах реализации основ вычислительной техники.[00130] Thus, the implementation of all used blocks is achieved by standard means based on the classical principles of implementation of the foundations of computer technology.

[00131] Как будет понятно специалисту в данной области техники, аспекты настоящего технического решения могут быть выполнены в виде системы, способа или компьютерного программного продукта. Соответственно, различные аспекты настоящего технического решения могут быть реализованы исключительно как аппаратное обеспечение, как программное обеспечение (включая прикладное программное обеспечение и так далее) или как вариант осуществления, сочетающий в себе программные и аппаратные аспекты, которые в общем случае могут упоминаться как «модуль», «система» или «архитектура». Кроме того, аспекты настоящего технического решения могут принимать форму компьютерного программного продукта, реализованного на одном или нескольких машиночитаемых носителях, имеющих машиночитаемый программный код, который на них реализован.[00131] As one skilled in the art will understand, aspects of the present technical solution may be implemented as a system, method, or computer program product. Accordingly, various aspects of the present technical solution can be implemented solely as hardware, as software (including application software and so on) or as an embodiment combining software and hardware aspects, which in general can be referred to as a “module” , “System” or “architecture”. In addition, aspects of the present technical solution may take the form of a computer program product implemented on one or more computer-readable media having a computer-readable program code that is implemented on them.

[00132] Также может быть использована любая комбинация одного или нескольких машиночитаемых носителей. Машиночитаемый носитель хранилища может представлять собой, без ограничений, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, аппарат, устройство или любую подходящую их комбинацию. Конкретнее, примеры (неисчерпывающий список) машиночитаемого носителя хранилища включают в себя: электрическое соединение с помощью одного или нескольких проводов, портативную компьютерную дискету; жесткий диск, оперативную память (ОЗУ), постоянную память (ПЗУ), стираемую программируемую постоянную память (EPROM или Flash-память), оптоволоконное соединение, постоянную память на компакт-диске (CD-ROM), оптическое устройство хранения, магнитное устройство хранения или любую комбинацию вышеперечисленного. В контексте настоящего описания, машиночитаемый носитель хранилища может представлять собой любой гибкий носитель данных, который может содержать или хранить программу для использования самой системой, устройством, аппаратом или в соединении с ними.[00132] Any combination of one or more computer-readable media may also be used. The computer-readable storage medium may be, without limitation, an electronic, magnetic, optical, electromagnetic, infrared or semiconductor system, apparatus, device, or any suitable combination thereof. More specifically, examples (non-exhaustive list) of computer-readable storage media include: electrical connection using one or more wires, a portable computer diskette; hard disk, random access memory (RAM), read-only memory (ROM), erasable programmable read-only memory (EPROM or Flash memory), fiber optic connection, read-only memory on a compact disc (CD-ROM), optical storage device, magnetic storage device or any combination of the above. In the context of the present description, a computer-readable storage medium may be any flexible data medium that can contain or store a program for use by or in connection with the system, device, apparatus.

[00133] Программный код, встроенный в машиночитаемый носитель, может быть передан с помощью любого носителя, включая, без ограничений, беспроводную, проводную, оптоволоконную, инфракрасную и любую другую подходящую сеть или комбинацию вышеперечисленного.[00133] The program code embedded in a computer-readable medium can be transmitted using any medium, including, without limitation, wireless, wired, fiber optic, infrared, and any other suitable network or combination of the above.

[00134] Компьютерный программный код для выполнения операций для шагов настоящего технического решения может быть написан на любом языке программирования или комбинаций языков программирования, включая объектно-ориентированный язык программирования, например Java, Smalltalk, С++ и так далее, и обычные процедурные языки программирования, например язык программирования «С» или аналогичные языки программирования. Программный код может выполняться на компьютере пользователя полностью, частично, или же как отдельный пакет программного обеспечения, частично на компьютере пользователя и частично на удаленном компьютере, или же полностью на удаленном компьютере. В последнем случае, удаленный компьютер может быть соединен с компьютером пользователя через сеть любого типа, включая локальную сеть (LAN), глобальную сеть (WAN) или соединение с внешним компьютером (например, через Интернет с помощью Интернет-провайдеров).[00134] The computer program code for performing operations for the steps of the present technical solution can be written in any programming language or combinations of programming languages, including an object-oriented programming language, such as Java, Smalltalk, C ++ and so on, and conventional procedural programming languages , for example, the programming language "C" or similar programming languages. The program code can be executed on a user's computer completely, partially, or as a separate software package, partially on a user's computer and partially on a remote computer, or completely on a remote computer. In the latter case, the remote computer can be connected to the user's computer through any type of network, including a local area network (LAN), wide area network (WAN) or a connection to an external computer (for example, via the Internet using Internet providers).

[00135] Аспекты настоящего технического решения были описаны подробно со ссылкой на блок-схемы, принципиальные схемы и/или диаграммы способов, устройств (систем) и компьютерных программных продуктов в соответствии с вариантами осуществления настоящего технического решения. Следует иметь в виду, что каждый блок из блок-схемы и/или диаграмм, а также комбинации блоков из блок-схемы и/или диаграмм, могут быть реализованы компьютерными программными инструкциями. Эти компьютерные программные инструкции могут быть предоставлены процессору компьютера общего назначения, компьютера специального назначения или другому устройству обработки данных для создания процедуры, таким образом, чтобы инструкции, выполняемые процессором компьютера или другим программируемым устройством обработки данных, создавали средства для реализации функций/действий, указанных в блоке или блоках блок-схемы и/или диаграммы.[00135] Aspects of the present technical solution have been described in detail with reference to flowcharts, schematic diagrams and / or diagrams of methods, devices (systems) and computer program products in accordance with embodiments of the present technical solution. It should be borne in mind that each block from the block diagram and / or diagrams, as well as combinations of blocks from the block diagram and / or diagrams, can be implemented by computer program instructions. These computer program instructions may be provided to a general purpose computer processor, special purpose computer, or other data processing device to create a procedure, so that instructions executed by a computer processor or other programmable data processing device provide means for implementing the functions / actions specified in block or blocks of a flowchart and / or diagram.

[00136] Эти компьютерные программные инструкции также могут храниться на машиночитаемом носителе, который может управлять компьютером, отличным от программируемого устройства обработки данных или отличным от устройств, которые функционируют конкретным образом, таким образом, что инструкции, хранящиеся на машиночитаемом носителе, создают устройство, включающее инструкции, которые осуществляют функции/действия, указанные в блоке блок-схемы и/или диаграммы.[00136] These computer program instructions can also be stored on a computer-readable medium that can control a computer other than a programmable data processing device or other devices that operate in a specific way, such that the instructions stored on the computer-readable medium create a device including instructions that carry out the functions / actions indicated in the block diagram and / or block.

ИСПОЛЬЗУЕМЫЕ ИСТОЧНИКИ ИНФОРМАЦИИUSED INFORMATION SOURCES

1. Andrews S., FastQC A. A quality control tool for high throughput sequence data. 2010 // Google Scholar. - 2015.1. Andrews S., FastQC A. A quality control tool for high throughput sequence data. 2010 // Google Scholar. - 2015.

2. Mieczyslaw A. Klopotek, Slawomir T. Wierzchon, Krzysztof Trojanowski Intelligent Information Processing and Web Mining: Proceedings of the International IIS: IIPWM'05 Conference held in Gdansk, Poland, June 13-16, 2005 page 276.2. Mieczyslaw A. Klopotek, Slawomir T. Wierzchon, Krzysztof Trojanowski Intelligent Information Processing and Web Mining: Proceedings of the International IIS: IIPWM'05 Conference held in Gdansk, Poland, June 13-16, 2005 page 276.

Claims (14)

1. Компьютерно-реализуемый интегральный способ для оценки качества результатов таргетного секвенирования, реализуемый с помощью процессора, включающий следующие шаги:1. Computer-implemented integrated method for assessing the quality of the results of targeted sequencing, implemented using a processor, including the following steps: • получают данные о по меньшей мере одном образце по меньшей мере одного пользователя;• receive data on at least one sample of at least one user; • выполняют таргетное секвенирование данных по меньшей мере одного образца, полученного на предыдущем шаге, посредством платформы секвенирования;• perform targeted sequencing of the data of at least one sample obtained in the previous step through the sequencing platform; • получают из результатов секвенирования характеристики секвенирования, причем:• derive sequencing characteristics from the results of sequencing, wherein: картируют чтения на референсный геном;map readings to the reference genome; осуществляют подсчет числа чтений, покрывающих каждую позицию референса;counting the number of readings covering each reference position; определяют набор мутаций;determine the set of mutations; определяют мутационный спектр для образца, по которому были получены данные;determine the mutation spectrum for the sample from which the data were obtained; • формируют интегральную характеристику секвенирования на основании полученных на предыдущем шаге характеристик секвенирования посредством использования алгоритма машинного обучения на процессоре.• form an integral sequencing characteristic based on the sequencing characteristics obtained in the previous step by using the machine learning algorithm on the processor. 2. Способ по п. 1, характеризующийся тем, что характеристикой секвенирования является среднее покрытие образца и/или число ампликонов, покрытых в среднем больше среднего покрытия образца, и/или процент пар нуклеотидов со значениями качества больше заранее заданного, и/или процент чтений, прошедших тримминг.2. The method according to p. 1, characterized in that the sequencing characteristic is the average coverage of the sample and / or the number of amplicons coated on average more than the average coverage of the sample, and / or the percentage of nucleotide pairs with quality values greater than a predetermined, and / or percentage of readings that have been trimmed. 3. Способ по п. 1, характеризующийся тем, что при формировании интегральной характеристики используют градиентный бустинг деревьев решений.3. The method according to claim 1, characterized in that when forming the integral characteristic, gradient boosting of decision trees is used. 4. Способ по п. 1, характеризующийся тем, что при формировании интегральной характеристики секвенирования используют меру качества, представляющую из себя число из диапазона от 0 до 1.4. The method according to p. 1, characterized in that when forming the integral characteristics of sequencing, a quality measure is used, which is a number from the range from 0 to 1. 5. Способ по п. 1, характеризующийся тем, что при формировании интегральной характеристики используют случайные деревья или метод опорных векторов, или искусственные нейронные сети.5. The method according to p. 1, characterized in that when forming the integral characteristics using random trees or the method of support vectors, or artificial neural networks. 6. Способ по п. 3, характеризующийся тем, что при обучении деревьев решений подбирают параметры обучения модели с использованием перекрестной проверки.6. The method according to p. 3, characterized in that during the training of decision trees, the training parameters of the model are selected using cross-validation.
RU2018137864A 2018-10-26 2018-10-26 Computer-implemented integral method for assessing quality of target sequencing results RU2717809C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2018137864A RU2717809C1 (en) 2018-10-26 2018-10-26 Computer-implemented integral method for assessing quality of target sequencing results

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2018137864A RU2717809C1 (en) 2018-10-26 2018-10-26 Computer-implemented integral method for assessing quality of target sequencing results

Publications (1)

Publication Number Publication Date
RU2717809C1 true RU2717809C1 (en) 2020-03-25

Family

ID=69943234

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018137864A RU2717809C1 (en) 2018-10-26 2018-10-26 Computer-implemented integral method for assessing quality of target sequencing results

Country Status (1)

Country Link
RU (1) RU2717809C1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130231870A1 (en) * 2012-01-31 2013-09-05 Life Technologies Corporation Methods and computer program products for compression of sequencing data
RU2625006C1 (en) * 2015-11-27 2017-07-11 Федеральное государственное бюджетное учреждение "Государственный научный центр дерматовенерологии и косметологии" Министерства здравоохранения Российской Федерации (ФГБУ "ГНЦДК" Минздрава России) Method for target amplification of human reproductive organs infectors genomes for simultaneous identification of infectors with primer set

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130231870A1 (en) * 2012-01-31 2013-09-05 Life Technologies Corporation Methods and computer program products for compression of sequencing data
RU2625006C1 (en) * 2015-11-27 2017-07-11 Федеральное государственное бюджетное учреждение "Государственный научный центр дерматовенерологии и косметологии" Министерства здравоохранения Российской Федерации (ФГБУ "ГНЦДК" Минздрава России) Method for target amplification of human reproductive organs infectors genomes for simultaneous identification of infectors with primer set

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CROWGEY E.L. et al. An Integrated Approach for Analyzing Clinical Genomic Variant Data from Next-Generation Sequencing // Journal of Biomolecular Techniques, 26, 2015, стр.19-28 *
БАРХАТОВ И.М. и др. Секвенирование нового поколения и области его применения в онкогематологии // Фундаментальные исследования в практической медицине на современном этапе, ОНКОГЕМАТОЛОГИЯ, том.11, 2016, стр.56-63. *
БАРХАТОВ И.М. и др. Секвенирование нового поколения и области его применения в онкогематологии // Фундаментальные исследования в практической медицине на современном этапе, ОНКОГЕМАТОЛОГИЯ, том.11, 2016, стр.56-63. CROWGEY E.L. et al. An Integrated Approach for Analyzing Clinical Genomic Variant Data from Next-Generation Sequencing // Journal of Biomolecular Techniques, 26, 2015, стр.19-28. *

Similar Documents

Publication Publication Date Title
Hou et al. DeepSF: deep convolutional neural network for mapping protein sequences to folds
Xie et al. A deep auto-encoder model for gene expression prediction
Försch et al. Artificial intelligence in pathology
Jian et al. In silico tools for splicing defect prediction: a survey from the viewpoint of end users
Sikkema et al. An integrated cell atlas of the human lung in health and disease
Liu et al. Early diagnosis of complex diseases by molecular biomarkers, network biomarkers, and dynamical network biomarkers
Wong et al. Decoding disease: from genomes to networks to phenotypes
Garber et al. Identifying novel constrained elements by exploiting biased substitution patterns
CN107066835B (en) System for discovering and integrating rectal cancer related gene and functional analysis thereof
Zhang et al. Critical downstream analysis steps for single-cell RNA sequencing data
Thibodeau et al. A neural network based model effectively predicts enhancers from clinical ATAC-seq samples
Sekaran et al. Predicting autism spectrum disorder from associative genetic markers of phenotypic groups using machine learning
Shi et al. Systematic analysis of lncRNA and microRNA dynamic features reveals diagnostic and prognostic biomarkers of myocardial infarction
Mallick et al. An integrated Bayesian framework for multi‐omics prediction and classification
Le et al. Sequence-based prediction model of protein crystallization propensity using machine learning and two-level feature selection
Horlacher et al. A systematic benchmark of machine learning methods for protein–RNA interaction prediction
RU2717809C1 (en) Computer-implemented integral method for assessing quality of target sequencing results
US20190108311A1 (en) Site-specific noise model for targeted sequencing
CN115798601A (en) Tumor characteristic gene identification method, device, equipment and storage medium
KR102440452B1 (en) A method for interpretation of genetic variation in nucleic acid sequencing analysis
Yang et al. TVAR: assessing tissue-specific functional effects of non-coding variants with deep learning
Beaumeunier et al. On the evaluation of the fidelity of supervised classifiers in the prediction of chimeric RNAs
CN113780445B (en) Method and device for generating cancer subtype classification prediction model and storage medium
RU2742003C1 (en) Method and system for correcting undesirable batch effects in microbiome data
KR20180090680A (en) Geneome analysis system