RU2792228C1

RU2792228C1 - Method, device and computer device for gene analysis based on shared memory

Info

Publication number: RU2792228C1
Application number: RU2021137540A
Authority: RU
Inventors: Цзяобо ЯН; Чао СУН; Чуан ЮЙ; Юцзинь ЧЖАН; Цзэнцюань ХЭ; Дзиньань ВАН
Original assignee: БиДжиАй Дженомикс Ко., Лтд; БиДжиАй ХЕЛТ (ГК) КОМПАНИ ЛИМИТЕД
Priority date: 2020-10-22
Filing date: 2020-11-06
Publication date: 2023-03-21

Abstract

FIELD: biotechnology.

SUBSTANCE: described is a method for gene analysis based on shared memory, performed by a computer and comprising the steps of: reading sample data and pre-processing sample data, moreover, sample data is data generated or formed after gene sequencing of samples; performing gene analysis of the pre-processed sample data and determining whether a library file required for gene analysis is in the shared gene memory; if found, obtain the required library file from the shared gene memory, converting the desired library file into a gene analysis process of the pre-processed sample data, and performing gene analysis, the sample data contains a plurality of data groups, each data group has a corresponding sample process, each sample process is included in an area of shared gene memory to obtain the required library file. A corresponding device, a computer device, a computer-readable medium, is also described.

EFFECT: method can significantly reduce the I/O time and occupancy for loading a library file from a hard disk, therefore, the efficiency of the analysis can be improved.

12 cl, 11 dwg

Description

Область техники, к которой относится изобретениеThe field of technology to which the invention belongs

Настоящее раскрытие относится к области техники обработки данных, в частности, к способу, устройству и компьютерному устройству генного анализа, основанных на совместно используемой памяти, и к считываемому компьютером носителю запоминающего устройства.The present disclosure relates to the field of data processing technology, in particular to a method, apparatus and computer apparatus for gene analysis based on shared memory, and to a computer-readable storage medium.

Уровень техникиState of the art

При постепенной реализации Проекта человеческого генома и быстром развитии технологии секвенирования стоимость секвенирования значительно снизилась, а скорость секвенирования была значительно повышена. Стоимость секвенирования всего человеческого генома понизилась до менее 1000 долларов США, а объем данных последовательности ДНК вырос по экспоненте. Как быстро использовать и представлять данные, затем анализировать и объяснять потенциальные проблемы в последовательностях генов и раскрывать информацию, нужную людям, из огромного объема данных, стало насущной проблемой, которая должна быть решена. Все больше и больше применений данных последовательностей, формируемых секвенированием полного человеческого генома (whole genome sequencing, WGS), и постоянное требование быстрого анализа и обработки больших объемов данных последовательностей сформировали новое узкое место в технике анализа данных, которое ограничивает клиническое применение технологии секвенирования второго поколения.With the gradual implementation of the Human Genome Project and the rapid development of sequencing technology, the cost of sequencing has been greatly reduced, and the speed of sequencing has been greatly increased. The cost of sequencing the entire human genome has dropped to less than $1,000, and the amount of DNA sequencing data has grown exponentially. How to quickly use and present data, then analyze and explain potential problems in gene sequences and uncover the information people need from the vast amount of data has become a pressing problem that must be solved. More and more applications of sequence data generated by whole genome sequencing (WGS) and the constant demand for rapid analysis and processing of large volumes of sequence data have formed a new bottleneck in the data analysis technique, which limits the clinical application of second generation sequencing technology.

В настоящее время на международном уровне в области биоинформатики существует много разного вида способов и инструментов для анализа данных секвенирования второго поколения. Наиболее часто используемый процесс содержит, главным образом, ввод данных, операцию предварительной обработки, сравнение последовательностей, аннотацию, определение вариантов и анализ путей прохождения. Однако, для применения всего процесса в WGS требуются большие затраты времени. Кроме того, специализированные процессы, нуждающиеся во вводе выборок, такие как слияние выборок, разбиение выборок и так далее, должны выполняться отдельно и поэтому эффективность операций является низкой и потребность во вводе-выводе увеличивается. Кроме того, в процессе анализа данных индексные файлы должны загружаться отдельно для каждого этапа анализа и обработки. Если во многочисленных задачах загружают один и тот же индексный файл, то решение задач расходует больше памяти и занимает больше времени.There are currently many different kinds of methods and tools available internationally in the field of bioinformatics for analyzing second generation sequencing data. The most commonly used process contains mainly data entry, preprocessing operation, sequence comparison, annotation, variant identification and path analysis. However, it takes a long time to apply the whole process in WGS. In addition, specialized processes requiring sample input, such as sample merging, sample splitting, and so on, must be performed separately, and therefore the operation efficiency is low and the I/O requirement is increased. In addition, during data analysis, index files must be downloaded separately for each stage of analysis and processing. If multiple tasks load the same index file, then solving the tasks consumes more memory and takes longer.

Расктытие сущности изобретенияDisclosure of the essence of the invention

С этой точки зрения раскрытие представляет способ, устройство, компьютерное устройство генного анализа, основанные на совместно используемой памяти, и считываемый компьютером носитель для решения технической проблемы низкой операционной эффективности, вызванной требованием таких процессов, как слияние входных выборок в некоторых конвейерах, высоким потреблением памяти, вызванным повторяющейся загрузкой индексных файлов в процессе анализа данных на предшествующем уровне развития техники.From this point of view, the disclosure presents a shared memory based method, apparatus, computer-based gene analysis device, and computer-readable media for solving the technical problem of low operational efficiency caused by the requirement of processes such as merging of input samples in some pipelines, high memory consumption, caused by repetitive loading of index files during prior art data analysis.

Некоторые варианты осуществления этого раскрытия обеспечивают способ генного анализа, основанный на совместно используемой памяти, содержащий этапы, на которых: считывают данные образцов и предварительно обрабатывают данные образцов; выполняют генный анализ предварительно обработанных данных образцов и определяют, находится ли требуемый при генном анализе библиотечный файл в совместно используемой генной памяти; если да, то получают требуемый библиотечный файл из совместно используемой генной памяти, преобразуют требуемый библиотечный файл в процессе генного анализа предварительно обработанных данных образцов и завершают генный анализ.Some embodiments of this disclosure provide a shared memory based gene analysis method comprising: reading sample data and preprocessing sample data; performing gene analysis of the pre-processed sample data and determining whether a library file required for gene analysis is in the shared gene memory; if so, obtaining the desired library file from the shared gene memory, transforming the desired library file in a gene analysis process of the pre-processed sample data, and terminating the gene analysis.

В некоторых вариантах осуществления способ дополнительно содержит этапы, на которых: определяют, удовлетворяет ли требуемый библиотечный файл условию загрузки в случае, когда требуемый при генном анализе библиотечный файл не находится в совместно используемой генной памяти; и загружают требуемый библиотечный файл в совместно используемую генную память, в случае, когда удовлетворяется условие загрузки.In some embodiments, the method further comprises: determining if the required library file satisfies a load condition in the case where the library file required for gene analysis is not in shared gene memory; and downloading the required library file into the shared gene memory, in case the download condition is satisfied.

В некоторых вариантах осуществления определение, удовлетворяет ли требуемый библиотечный файл условию загрузки в случае, когда требуемый при генном анализе библиотечный файл не присутствует в совместно используемой генной памяти и загружать ли требуемый библиотечный файл в совместно используемую генную память в случае, когда удовлетворяется условие загрузки, содержит: получение информации требуемого библиотечного файла и информации совместно используемой генной памяти, где информация требуемого библиотечного файла содержит пространство, запрашиваемое требуемым библиотечным файлом и количеством архивных запросов загрузки требуемого библиотечного файла, и информация совместно используемой генной памяти содержит остающееся пространство совместно используемой генной памяти; и если количество архивных запросов загрузки требуемого библиотечного файла больше первого заданного количества, и пространство, запрашиваемое требуемым библиотечным файлом, меньше остающегося пространства совместно используемой генной памяти, загружают требуемый библиотечный файл в совместно используемую генную память.In some embodiments, determining whether the required library file satisfies the load condition when the required library file for gene analysis is not present in the shared gene memory and whether to load the desired library file into the shared gene memory when the load condition is satisfied comprises : obtaining required library file information and shared gene memory information, where the required library file information contains the space requested by the required library file and the number of archive download requests of the desired library file, and the shared gene memory information contains the remaining space of the shared gene memory; and if the number of archive download requests of the desired library file is greater than the first predetermined number, and the space requested by the desired library file is less than the remaining space of the shared gene memory, loading the desired library file into the shared gene memory.

В некоторых вариантах осуществления информация требуемого библиотечного файла содержит частоту запросов загрузки требуемого библиотечного файла, информация о совместно используемой генной памяти содержит частоты запроса загрузки всех библиотечных файлов в совместно используемой генной памяти; определение, удовлетворяет ли требуемый библиотечный файл условию загрузки, и загружать ли требуемый библиотечный файл в совместно используемую генную память в случае, когда удовлетворяется условие загрузки, дополнительно содержит: если количество архивных запросов загрузки требуемого библиотечног файла больше первого заданного количества и пространство, запрашиваемое требуемым библиотечным файлом, больше остающегося пространства совместно используемой генной памяти, ранжируют требуемый библиотечный файл и все библиотечные файлы в порядке приоритета в соответствии с частотой запроса загрузки требуемых библиотечных файлов и частотами запроса загрузки всех библиотечных файлов, чтобы получить приоритет частот запроса загрузки каждого библиотечного файла; если приоритет частот запроса загрузки требуемого библиотечного файла выше, чем приоритет библиотечного файла в совместно используемой генной памяти, и если остающееся пространство совместно используемой генной памяти после удаления библиотечного файла с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти больше или равно пространству, запрашиваемому требуемым библиотечным файлом, удаляют библиотечный файл с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти; и загружают требуемый библиотечный файл в совместно используемую генную память.In some embodiments, the desired library file information comprises a download request rate of the desired library file; the shared gene memory information comprises download request rates of all library files in the shared gene memory; determining whether the required library file satisfies the load condition, and whether to load the required library file into the shared gene memory in the case where the load condition is satisfied, further comprises: a file greater than the remaining space of the shared gene memory, ranking the required library file and all library files in order of priority according to the download request frequency of the required library files and the download request frequencies of all library files, to obtain the priority of the download request frequencies of each library file; if the priority of the download request rates of the required library file is higher than the priority of the library file in the shared gene memory, and if the remaining space of the shared gene memory after deletion of the library file with the lower priority of the download request frequency in the shared gene memory is greater than or equal to the space requested the desired library file, deleting the library file with a lower load request frequency priority in the shared gene memory; and loading the required library file into the shared gene memory.

В некоторых вариантах осуществления способ дополнительно содержит этапы, на которых: устанавливают совместно используемую генную память для библиотечных файлов, используемых при генном анализе, устанавливают размер совместно используемой генной памяти, количество библиотечных файлов, которые могут быть размещены, имя каждого библиотечного файла и смещение размера каждого библиотечного файла; и загружают библиотечные файлы, обычно используемые при генном анализе, в совместно используемую генную память, соответствующую размеру совместно используемой генной памяти, количеству библиотечных файлов, которые могут быть размещены, имени каждого библиотечного файла и смещению размера каждого библиотечного файла.In some embodiments, the method further comprises: setting a shared gene memory for the library files used in gene analysis, setting the size of the shared gene memory, the number of library files that can be accommodated, the name of each library file, and the size offset of each library file; and loading the library files commonly used in gene analysis into a shared gene memory corresponding to the size of the shared gene memory, the number of library files that can be accommodated, the name of each library file, and the size offset of each library file.

В некоторых вариантах осуществления генный анализ содержит анализ выравнивания, вариационный анализ и аннотационный анализ, способ дополнительно содержит: выполнение анализа выравнивания, вариационного анализа и аннотационного анализа данных образцов, предварительно обработанных в последовательности, в котором, в случае, когда предварительно обработанные данные образцов содержат многочисленные группы данных образцов, многочисленные группы данных образцов одновременно находятся на одном и том же этапе или на разных этапах генного анализа.In some embodiments, the gene analysis comprises an alignment analysis, a variation analysis, and an annotation analysis, the method further comprises: performing an alignment analysis, a variation analysis, and an annotation analysis on sample data preprocessed in sequence, wherein, in the case where the preprocessed sample data contains multiple groups of these samples, multiple groups of these samples are simultaneously at the same stage or at different stages of gene analysis.

В некоторых вариантах осуществления генный анализ дополнительно содержит сортировочный анализ и анализ с маркировкой-дублированием, где после выполнения анализа выравнивания, вариационного анализа и аннотационного анализа данных образцов, предварительно обработанных в последовательности, способ дополнительно содержит этапы, на которых: маркируют данные образцов после анализа выравнивания с помощью позиционного тега; и выполняют посредством модуля сортировочный анализ и анализ с маркировкой-дублированием на маркированных данных образцов.In some embodiments, the gene analysis further comprises sorting analysis and label-duplication analysis, where after performing an alignment analysis, analysis of variation, and annotation analysis of sample data pre-processed in sequence, the method further comprises: labeling sample data after alignment analysis using a positional tag; and performing, by means of the module, sorting analysis and label-duplication analysis on the labeled sample data.

В некоторых вариантах осуществления способ дополнительно содержит соединение нескольких или всех этапов генного анализа посредством использования памяти.In some embodiments, the method further comprises connecting some or all of the steps of gene analysis through the use of memory.

В некоторых вариантах осуществления предварительная обработка данных образцов содержит выполнение на данных образцов контроля качества, операции фильтрации и статистической обработки.In some embodiments, the pre-processing of sample data comprises performing quality control, filtering, and statistical processing on the sample data.

Некоторые варианты осуществления раскрытия также обеспечивают устройство генного анализа, основанное на совместно используемой генной памяти, содержащее: модуль считывания данных, выполненный с возможностью считывания данных образцов; модуль предварительной обработки данных, выполненный с возможностью предварительной обработки данных образцов; и модуль генного анализа, выполненный с возможностью осуществления генного анализа предварительно обработанных данных образцов и определения, находится ли требуемый при генном анализе библиотечный файл в совместно используемой генной памяти; и если да, то получают требуемый библиотечный файл из совместно используемой генной памяти, преобразуют требуемый библиотечный файл в процессе генного анализа предварительно обработанных данных образцов и завершают генный анализ.Some embodiments of the disclosure also provide a shared gene memory based gene analysis device, comprising: a data reader configured to read sample data; a data pre-processing module configured to pre-process the sample data; and a gene analysis module configured to perform gene analysis of the pre-processed sample data and determine whether a library file required for gene analysis is in the shared gene memory; and if so, obtaining the desired library file from the shared gene memory, transforming the desired library file in a gene analysis process of the pre-processed sample data, and completing the gene analysis.

Некоторые варианты осуществления раскрытия дополнительно обеспечивают компьютерное устройство, содержащее память, процессор и компьютерную программу, хранящуюся в памяти и исполняемую процессором. Процессор исполняет следующие этапы, на которых: считывают данные образцов и предварительно обрабатывают данные образцов; выполняют генный анализ предварительно обработанных данных образцов и определяют, находится ли требуемый при генном анализе библиотечный файл в совместно используемой генной памяти; если да, то получают требуемый библиотечный файл из совместно используемой генной памяти, преобразуют требуемый библиотечный файл в процессе генного анализа предварительно обработанных данных образцов и завершают генный анализ.Some embodiments of the disclosure further provide a computing device comprising a memory, a processor, and a computer program stored in the memory and executed by the processor. The processor performs the following steps: reading the sample data and pre-processing the sample data; performing gene analysis of the pre-processed sample data and determining whether a library file required for gene analysis is in the shared gene memory; if so, obtaining the desired library file from the shared gene memory, transforming the desired library file in a gene analysis process of the pre-processed sample data, and terminating the gene analysis.

Некоторые варианты осуществления раскрытия дополнительно обеспечивают считываемый компьютером носитель запоминающего устройства, на котором хранится компьютерная программа, где компьютерная программа, когда исполняется процессором, реализует следующие этапы, на которых: считывают данные образцов данных образцов и предварительно обрабатывают данные образцов; выполняют генный анализ предварительно обработанных данных образцов и определяют, находится ли требуемый при генном анализе библиотечный файл в совместно используемой генной памяти; и если да, получают требуемый библиотечный файл из совместно используемой генной памяти, преобразуют требуемый библиотечный файл в процессе генного анализа предварительно обработанных данных образцов и завершают генный анализ.Some embodiments of the disclosure further provide a computer-readable storage medium that stores a computer program, where the computer program, when executed by the processor, performs the steps of: reading sample data of the sample data and pre-processing the sample data; performing gene analysis of the pre-processed sample data and determining whether a library file required for gene analysis is in the shared gene memory; and if so, obtaining the desired library file from the shared gene memory, converting the desired library file in a gene analysis process of the pre-processed sample data, and terminating the gene analysis.

Способ, устройство, компьютерное устройство для генного анализа, основанные на совместно используемой генной памяти, и считываемый компьютером носитель запоминающего устройства представляются в вариантах осуществления раскрытия. Сначала считывают данные образцов, затем данные образцов предварительно обрабатывают и далее выполняют генный анализ предварительно обработанных данных образцов. При генном анализе необходимо определить, находится ли требуемый при генном анализе библиотечный файл в совместно используемой генной памяти библиотеки файлов; если да, получают требуемый библиотечный файл из совместно используемой генной памяти и преобразуют его при генном анализе, соответствующем данным образцов, чтобы завершить соответствующий анализ. В способе генного анализа, основанном на совместно используемой генной памяти, механизм совместно используемой генной памяти используется для установления индексов генного анализа (например, содержащего анализ выравнивания, вариационный анализ, аннотационный анализ и так далее) и затем сохранения в базе данных файлов (то есть, библиотечных файлов), требующихся при генном анализе, в совместно используемой генной памяти. Библиотечный файл с легкостью может преобразцовываться из совместно используемой генной памяти в процессе генного анализа, выполняемого на данных образцов. С одной стороны, значительно снижаются время и занятость ввода-вывода для загрузки библиотечного файла с жесткого диска. С другой стороны, связь множества процессов в ходе генного анализа облегчается иизбегают повторяющейся загрузки библиотечного файла.A method, apparatus, computerized gene analysis device based on shared gene memory, and computer-readable storage medium are provided in embodiments of the disclosure. First, the sample data is read, then the sample data is pre-processed, and then the gene analysis of the pre-processed sample data is performed. In gene analysis, it is necessary to determine whether the library file required for gene analysis is in the shared gene memory of the file library; if so, obtain the required library file from the shared gene memory and transform it at gene analysis corresponding to the sample data to complete the corresponding analysis. In a gene analysis method based on shared gene memory, a shared gene memory mechanism is used to establish gene analysis indexes (for example, containing alignment analysis, analysis of variations, annotation analysis, and so on) and then store in a file database (i.e., library files) required for gene analysis in shared gene memory. The library file can be easily converted from shared gene memory during gene analysis performed on these samples. On the one hand, the I/O time and occupancy for loading a library file from the hard disk is significantly reduced. On the other hand, communication of multiple processes during gene analysis is facilitated and repetitive library file loading is avoided.

Краткое описание чертежейBrief description of the drawings

Чтобы более ясно объяснить варианты осуществления настоящего раскрытия или технические решения на предшествующем уровне техники, ниже будет представлено краткое введение для чертежей, требующихся для использования при описании вариантов осуществления или предшествующего уровня техники. Очевидно, что, чертежи, поясняемые ниже, являются просто вариантами осуществления настоящего раскрытия. Специалисты в данной области техники могут получить также и другие чертежи, соответствующие таким чертежам, при условии, что никакие изобретательские усилия не прикладываются.In order to more clearly explain the embodiments of the present disclosure or the prior art, a brief introduction will be provided below for the drawings required for use in describing the embodiments or the prior art. Obviously, the drawings explained below are simply embodiments of the present disclosure. Those skilled in the art may also obtain other drawings corresponding to such drawings, provided that no inventive effort is exerted.

Фиг. 1 - вариант осуществления применения способа генного анализа, основанного на совместно используемой памяти, соответствующего некоторым вариантам осуществления настоящего раскрытия;Fig. 1 illustrates an embodiment of the application of a shared memory based gene analysis method according to some embodiments of the present disclosure;

Фиг. 2 - блок-схема последовательности выполнения операций способа генного анализа, основанного на совместно используемой памяти, соответствующего некоторым вариантам осуществления настоящего раскрытия;Fig. 2 is a flowchart of a shared memory based gene analysis method according to some embodiments of the present disclosure;

Фиг. 3 - принцип действия совместно используемой памяти, соответствующей некоторым вариантам осуществления настоящего раскрытия;Fig. 3 illustrates the operation of shared memory in accordance with some embodiments of the present disclosure;

Фиг. 4 - блок-схема последовательности выполнения операций построения совместно используемой памяти в некоторых вариантах осуществления настоящего раскрытия;Fig. 4 is a flow chart of shared memory construction in some embodiments of the present disclosure;

Фиг. 5 - структурная схема совместно используемой памяти в некоторых вариантах осуществления настоящего раскрытия;Fig. 5 is a block diagram of shared memory in some embodiments of the present disclosure;

Фиг. 6 - блок-схема последовательности выполнения операций способа генного анализа, основанного на совместно используемой памяти, соответствующего некоторым вариантам осуществления настоящего раскрытия;Fig. 6 is a flowchart of a shared memory based gene analysis method according to some embodiments of the present disclosure;

Фиг. 7 - использование центрального процессора (CPU) и использование ввода-вывода, когда генный анализ выполняется, используя способ А, соответствующий некоторым вариантам осуществления настоящего раскрытия;Fig. 7 shows central processing unit (CPU) usage and I/O usage when gene analysis is performed using method A in accordance with some embodiments of the present disclosure;

Фиг. 8 - использование CPU и использование ввода-вывода, когда генный анализ выполняется, используя способ В, соответствующий некоторым вариантам осуществления настоящего раскрытия;Fig. 8 shows CPU usage and I/O usage when gene analysis is performed using method B according to some embodiments of the present disclosure;

Фиг. 9 - использование CPU и использование ввода-вывода, когда генный анализ выполняется, используя способ С, соответствующий некоторым вариантам осуществления настоящего раскрытия;Fig. 9 shows CPU usage and I/O usage when gene analysis is performed using Method C according to some embodiments of the present disclosure;

Фиг. 10 - структурная схема устройства генного анализа, основанного на совместно используемой памяти, соответствующего некоторым вариантам осуществления настоящегоFig. 10 is a block diagram of a shared memory based gene analysis device in accordance with some embodiments of the present.

Фиг. 11 - структурная схема компьютерного устройства, соответствующего некоторым вариантам осуществления настоящего раскрытия.Fig. 11 is a block diagram of a computing device in accordance with some embodiments of the present disclosure.

Осуществление изобретенияImplementation of the invention

Ниже технические решения вариантов осуществления настоящего раскрытия будут описаны ясно и полностью. Очевидно, описанные варианты осуществления являются только частью вариантов осуществления настоящего раскрытия, а не всеми вариантами осуществления. Все другие варианты осуществления, получаемые без творческих усилий специалистами в данной области техники, основываясь на вариантах осуществления настоящего раскрытия, должны попадать в рамки объема защиты настоящего раскрытия.Below, the technical solutions of the embodiments of the present disclosure will be described clearly and completely. Obviously, the described embodiments are only a part of the embodiments of the present disclosure, and not all of the embodiments. All other embodiments obtained without creative effort by those skilled in the art based on the embodiments of the present disclosure should fall within the protection scope of the present disclosure.

Глоссарий:Glossary:

Ген (менделевский фактор) относится к последовательности ДНК или РНК, которая переносит генетическую информацию (то есть, ген является фрагментом ДНК или РНК с генетическими эффектами), также известнен как генетический фактор, который является основным генетическим блоком, управляющим биологическими признаками. Ген выражает генетическую информацию, которую он переносит, направляя синтез протеинов и управляя, таким образом, признаками индивидуальных организмов. Генное секвенирование является новым типом генной технологии обнаружения, которая анализирует и определяет всю последовательность генов из крови или слюны, чтобы предсказывать возможность множества болезней, характеристик индивидуального поведения и разумного поведения.A gene (Mendelian factor) refers to a DNA or RNA sequence that carries genetic information (that is, a gene is a piece of DNA or RNA with genetic effects), also known as a genetic factor, which is the main genetic building block that governs biological traits. A gene expresses the genetic information it carries, directing protein synthesis and thus controlling the traits of individual organisms. Gene sequencing is a new type of gene detection technology that analyzes and determines the entire sequence of genes from blood or saliva to predict the possibility of a variety of diseases, individual behavioral characteristics, and intelligent behavior.

Считывание: короткий фрагмент секвенирования, который является данными секвенирования, сформированными высокопроизводительным секвенатором. Секвенированием всего генома будут формироваться десятки миллионов считываний. Затем, сращивая эти считывания вместе, может быть получена полная последовательность генома.Read: A short sequencing fragment, which is sequencing data generated by a high-throughput sequencer. Whole genome sequencing will generate tens of millions of reads. Then, by splicing these reads together, a complete genome sequence can be obtained.

Анализ выравнивания: Считывания, упорядоченные посредством NGS, сохраняются в файлах FASTQ. Хотя первоначально они поступают из упорядоченного генома, последовательное соотношение между различными считываниями в файлах оказывается потерянным после создания библиотеки ДНК и секвенирования. Поэтому между двумя считываниями, находящимися рядом друг с другом в файлах FASTQ, нет никакого позиционного соотношения. Все они являются короткими последовательностями, выводимыми в случайном порядке из определенных позиций в исходном геноме. Поэтому сначала мы должны привести в порядок множество коротких последовательностей, один за другим сравнить их с опорным геномом разновидности, обнаружить позицию каждого считывания на опорном геноме, и затем расположить их по порядку. Этот процесс вызывают сравнением данных секвенирования.Alignment Analysis: Reads ordered by NGS are stored in FASTQ files. Although they originally come from an ordered genome, the consistent relationship between different reads in the files is lost after DNA library creation and sequencing. Therefore, there is no positional relationship between two reads that are next to each other in FASTQ files. All of them are short sequences derived randomly from certain positions in the original genome. So first we have to arrange a lot of short sequences, compare them one by one with the reference genome of the variety, find the position of each read on the reference genome, and then arrange them in order. This process is called by comparing sequencing data.

Сортировочный анализ: Почему файлы BAM после сравнения BWA выводятся беспорядочно? Причина состоит в том, что эти упорядоченные считывания в файлах FASTQ распределяются на геноме в произвольном порядке. Первый этап сравнения должен одно за другим определить местоположение считываний на опорном геноме в соответствии с их порядком в файлах FASTQ и затем выводить их напрямую. Невозможно на этом этапе автоматически распознать последовательность их позиций сравнения и перестроить результаты сравнения. Поэтому в полученном в результате файле после сравнения позиционный порядок записей является хаотическим. Нам необходимо сортировать записи для последующего этапа, такого как маркировка-дублирование, что и является причиной необходимости сортировки.Sorting analysis: Why are BAM files output randomly after BWA comparison? The reason is that these ordered reads in FASTQ files are randomly distributed throughout the genome. The first step of the comparison is to locate the reads one by one on the reference genome according to their order in the FASTQ files and then output them directly. It is not possible at this stage to automatically recognize the sequence of their comparison positions and rebuild the comparison results. Therefore, in the resulting file after comparison, the positional order of the records is chaotic. We need to sort the records for the next step, such as marking-duplicate, which is the reason for the need for sorting.

Маркировка-дублирование: После того, как сортировка закончена, выполняется дедупликация (то есть, удаление дублированных последовательностей PCR). Что такое дублированная последовательность? Как она создается и почему ее нужно удалить? Это связано с построением библиотеки и секвенированием в экспериментальном процессе. Перед секвенированием NGS должна быть создана библиотека секвенирования: сокращают исходную последовательность ДНК путем физического (ультразвукового) прерывания или используют химический реагент (ферментное усвоение) и затем выбирают последовательности в определенном диапазоне длин для амплификации PCR и компьютерного секвенирования. Поэтому, дублированная последовательность здесь фактически вводится во время процесса PCR.Marking-duplication: After sorting is completed, deduplication (ie, removal of duplicated PCR sequences) is performed. What is a duplicate sequence? How is it created and why should it be removed? This is due to library building and sequencing in the experimental process. Prior to NGS sequencing, a sequencing library must be created: cut the original DNA sequence by physical (ultrasonic) interruption or use a chemical reagent (enzymatic digestion) and then select sequences in a specific length range for PCR amplification and computer sequencing. Therefore, the duplicated sequence here is actually introduced during the PCR process.

Коррекция подсчета базового качества: в процессе секвенирования необходимо (в максимально возможной степени) корректировать систематические ошибки, потому что определение вариантов является этапом, который в большой степени опирается на результаты подсчета баллов базового качества секвенирования. Этот подсчет качества является важным (даже единственным) индикатором, чтобы измерять, насколько корректировать базу, которую мы секвенировали. Это не может быть измерено напрямую, но очень близкий результат распределения может быть получен статистическими способами. Известная вариация, найденная в совокупности, вероятно, в чем-то будет одной и той же. Поэтому мы можем сравнивать и анализировать результат сравнения напрямую, исключить все известные места вариаций и затем вычислить, сколько баз отличаются от баз на опорном геноме после сравнения для каждого (сообщенного) результата подсчета качества. Эти другие базы рассматриваются как ложные базы и их количественное отношение отражает реальные показатели ошибок базы, которые преобразуются в баллы системы Phred. Эта информация выводится в файл калибровочной таблицы и используется для повторного регулирования результата подсчета баллов качества базы в исходном файле BAM. Новый файл BAM выводится, используя эти новые результаты подсчета баллов качества.Baseline Quality Score Correction: The sequencing process should (to the extent possible) correct for bias because variant identification is a step that relies heavily on sequencing baseline quality scoring results. This quality score is an important (even the only) indicator to measure how much to adjust the base we have sequenced. This cannot be measured directly, but a very close distribution result can be obtained by statistical means. A known variation found in the aggregate is likely to be somewhat the same. Therefore, we can compare and analyze the result of the comparison directly, exclude all known sites of variation, and then calculate how many bases differ from the bases on the reference genome after comparison for each (reported) quality score result. These other bases are treated as false bases and their quantitative ratio reflects the actual base error rates, which are converted into Phred system scores. This information is output to the calibration table file and is used to re-adjust the base quality score result in the original BAM file. A new BAM file is output using these new quality scoring results.

Определение вариантов и анализ: целью определения вариантов и анализа должно быть точное обнаружение набора выриантов в геноме каждого образца (такого как человек), то есть, те последовательностей ДНК, которые отличаются у различных людей.Variant identification and analysis: The goal of variant identification and analysis should be to accurately detect the set of variants in the genome of each sample (such as a human), that is, those DNA sequences that differ between individuals.

Чтобы более четко и ясно определить задачу, техническое решение и преимущества настоящей заявки, настоящая заявка будет дополнительно подробно описана в сочетании с чертежами и вариантами осуществления. Следует понимать, что подробные варианты осуществления, которые будут здесь описаны, используются только для объяснения настоящей заявки, но не используются для ограничения настоящей заявки.In order to more clearly and clearly define the object, the technical solution and the advantages of the present application, the present application will be further described in detail in conjunction with the drawings and embodiments. It should be understood that the detailed embodiments to be described herein are used only to explain the present application, but are not used to limit the present application.

Этот способ может быть применен к терминалу 102, показанному на фиг. 1. Терминал может быть персональным компьютером, ноутбуком и т. д. Терминал 102 соединяется с устройством 104 генного секвенирования, которое может быть генным секвенатором и т.д.This method can be applied to terminal 102 shown in FIG. 1. The terminal may be a personal computer, laptop, etc. The terminal 102 is connected to a gene sequencing device 104, which may be a gene sequencer, etc.

Когда терминал 102 через локальный интерфейссоединяется с устройством 104 генного секвенирования, устройство 104 генного секвенирования может посылать данные образцов после секвенирования терминалу 102. Кроме того, терминал 102 может получать данные образцов после секвенирования в устройстве 104 генного секвенирования посредством команд.When the terminal 102 is connected to the gene sequencing device 104 via a local interface, the gene sequencing device 104 can send post-sequencing sample data to the terminal 102. In addition, the terminal 102 can receive post-sequence sample data from the gene sequencing device 104 via commands.

В некоторых вариантах осуществления, как показано на фиг. 2, обеспечивается способ генного анализа, основанный на совместно используемой памяти. В качестве иллюстрации, этот способ применяется к терминалу, показанному на фиг. 1 в качестве примера, и содержит нижеследующие этапы: S202 - S206.In some embodiments, as shown in FIG. 2, a shared memory based gene analysis method is provided. By way of illustration, this method is applied to the terminal shown in FIG. 1 as an example, and contains the following steps: S202 - S206.

На этапе S202 считывают данные образцов и данные образцов предварительно обрабатывают.In step S202, the sample data is read, and the sample data is pre-processed.

Данные образцов являются данными, генерируемыми или формируемыми после генного секвенирования образцов. Количество образцов может быть одной или более группами.Sample data is data generated or formed after gene sequencing of samples. The number of samples may be one or more groups.

В необязательном варианте осуществления предварительная обработка данных образцов содержит выполнение контроля качества, операции фильтрации и статистическую обработку данных образцов.In an optional embodiment, the pre-processing of the sample data comprises performing quality control, filtering operations, and statistical processing of the sample data.

Данные, полученные из генного секвенирования, называются необработанными данными (то есть, необработанными считываниями или необработанными данными). Необработанные данные могут содержать последовательности низкого качества и сращенные последовательности, которые будут влиять на результат анализа. Поэтому для необработанных данных должна выполняться пеоследовательность обработки данных, такая как контроль качества, операция фильтрации и статистическая обработка, чтобы удалять посторонние добавления в необработанные данные и определять, являются ли данные секвенирования пригодными для последующего анализа.Data obtained from gene sequencing is referred to as raw data (i.e., raw reads or raw data). The raw data may contain low quality sequences and spliced sequences that will affect the result of the analysis. Therefore, data processing sequences, such as quality control, filtering operation, and statistical processing, must be performed on the raw data to remove extraneous additions to the raw data and determine whether the sequencing data is suitable for subsequent analysis.

На этапе S204 выполняют генный анализ предварительно обработанных данных образцов и определяют, находится ли требуемый при генном анализе библиотечный файл в совместно используемой генной памяти.In step S204, a gene analysis of the pre-processed sample data is performed and it is determined whether the library file required for gene analysis is in the shared gene memory.

Обычно после предварительной обработки данных образцов необходимо выполнить соответствующий генный анализ данных образцов. Общий анализ содержит, главным образом, выравнивание последовательности (то есть, анализ выравнивания), определение вариантов (то есть, вариационный анализ), аннотационную статистику (то есть аннотационный анализ) и анализ последовательного пути прохождения (такой как GO, анализ KEGG и анализ пути прохождения протеинов). Однако, независимо от того, какой анализ выполняется, он должен использовать аналитическую базу данных. Например, база данных опорного генома требуется для анализа выравнивания, база данных генома разновидностей (такая как база данных генома человека) требуется для определения вариантов, база данных аннотации требуется для аннотационного анализа, база данных пути прохождения требуется для анализа пути прохождения и т. д. У каждой базы данных есть большой объем данных. Эти базы данных должны загружаться, когда выполняется анализ данных образцов.Usually, after pre-treatment of these samples, it is necessary to perform an appropriate gene analysis of these samples. General analysis contains mainly sequence alignment (i.e., alignment analysis), variant determination (i.e., analysis of variance), annotational statistics (i.e., annotation analysis), and sequential path analysis (such as GO, KEGG analysis, and path analysis). passage of proteins). However, no matter what kind of analysis is performed, it must use an analytical database. For example, a reference genome database is required for alignment analysis, a species genome database (such as a human genome database) is required for variant determination, an annotation database is required for annotation analysis, a pathway database is required for pathway analysis, etc. Every database has a large amount of data. These databases must be loaded when analysis of sample data is performed.

Совместно используемая память является современным способом связи между процессами в System V. Совместно используемая память, как подразумевает ее название, позволяет двум несвязанным процессам получать доступ к одной и той же логической памяти и является очень эффективным способом совместного использования и передачи данных между двумя работающими процессами. Память, совместно используемая различными процессами, обычно является одним и тем же фрагментом физической памяти. Процессы могут присоединять один и тот же фрагмент физической памяти к их собственному адресному пространству и все процессы могут получать доступ к адресам в совместно используемой памяти. Если процесс записывает данные в совместно используемую память, то это изменение будет сразу влиять на любой другой процесс, который может получать доступ к тому же самому фрагменту совместно используемой памяти.Shared memory is the modern way of communication between processes in System V. Shared memory, as its name implies, allows two unrelated processes to access the same logical memory and is a very efficient way to share and transfer data between two running processes. Memory shared by different processes is usually the same piece of physical memory. Processes can attach the same piece of physical memory to their own address space, and all processes can access addresses in shared memory. If a process writes data to shared memory, the change will immediately affect any other process that can access the same piece of shared memory.

На фиг. 3 схематично показан принцип связи совместно используемой памяти. В Linux каждый процесс имеет свой собственный блок управления процессом (process control block, PCB) и адресное пространство (Addr Space), и имеет соответствующую таблицу страниц, которая используется для преобразцования виртуальных адресов процесса в физические адреса и управляется через блок управления памятью (memory management unit, MMU). Два различных виртуальных адреса могут быть преобразцованы в одну и ту же область в физическом пространстве, используя таблицу страниц, и та область, на которую они указывают, является совместно используемой памятью. На фиг. 3 показаны два процесса, ProcA и ProcB. Когда виртуальные адреса через таблицы страниц этих двух процессов преобразуются в физический адрес, существует общая область памяти физического адреса, то есть, совместно используемая память, которая может видна двум процессам одновременно. Таким образом, когда один процесс записывает, а другой процесс считывает, между двумя процессами может быть реализована межпроцессовая связь. Для совместно используемой памяти ее реализация использует принцип подсчета ссылок. Когда процесс отсоединяет область совместно используемой памяти, счетчик уменьшается на единицу. Когда процесс успешно присоединяется к области совместно используемой памяти, счетчик увеличивается на единицу. Область совместно используемой памяти может быть удалена, только если счетчик становится равным нулю. Когда процесс завершается, область совместно используемой памяти, присоединенная к нему, автоматически отсоединятся от него.In FIG. 3 schematically shows the principle of shared memory communication. In Linux, each process has its own process control block (PCB) and address space (Addr Space), and has an associated page table that is used to convert the process's virtual addresses to physical addresses and is managed through the memory management block. unit, MMU). Two different virtual addresses can be mapped to the same area in physical space using the page table, and the area they point to is shared memory. In FIG. 3 shows two processes, ProcA and ProcB. When the virtual addresses through the page tables of the two processes are converted to a physical address, there is a shared memory area of the physical address, that is, shared memory, that can be seen by two processes at the same time. Thus, when one process writes and another process reads, inter-process communication can be implemented between the two processes. For shared memory, its implementation uses the principle of reference counting. When a process detaches a shared memory area, the counter is decremented by one. When a process successfully attaches to a shared memory region, the counter is incremented. The shared memory area can only be deleted if the counter becomes zero. When a process terminates, the shared memory area attached to it will automatically detach from it.

В вариантах осуществления совместно используемая генная память создается при генном анализе для библиотечных файлов и в ней могут храниться базы данных, обычно используемые при обработке путем генного анализа. Когда при анализе данных образцов необходима база данных, она может быть получена напрямую из совместно используемой генной памяти, что значительно снижает время загрузки базы данных из библиотеки загрузки с диска. Кроме того, когда многочисленные группы данных образцов анализируются одновременно, база данных может быть использоваться совместно для множества групп данных образцов, что снижает количество повторяющихся загрузок и занятость ввода-вывода.In embodiments, a shared gene memory is generated by gene analysis for library files and may store databases commonly used in gene analysis processing. When a database is needed in the analysis of sample data, it can be obtained directly from shared gene memory, which significantly reduces the time to load the database from the disk-load library. In addition, when multiple groups of sample data are analyzed at the same time, the database can be shared among multiple groups of sample data, which reduces repetitive downloads and I/O occupancy.

В необязательном варианте осуществления, как показано в фиг. 4, обеспечивается также способ построения совместно используемой памяти, содержащий этапы S402-S404.In an optional embodiment, as shown in FIG. 4, a method for constructing a shared memory is also provided, comprising steps S402-S404.

На этапе S402 устанавливают совместно используемую генную память для библиотечных файлов, используемых при генном анализе, а также устанавливают размер совместно используемой генной памяти, количество библиотечных файлов, которое может быть размещено, имя каждого библиотечного файла и смещение размера каждого библиотечного файла.In step S402, the shared gene memory for the library files used in gene analysis is set, and the size of the shared gene memory, the number of library files that can be allocated, the name of each library file, and the size offset of each library file are set.

На этапе S404 библиотечные файлы, обычно используемые при генном анализе, загружаются в совместно используемую генную память в соответствии с размером совместно используемой генной памяти, количеством библиотечных файлов, которое может быть размещено, именем каждого библиотечного файла и смещением размера каждого библиотечного файла.In step S404, library files commonly used in gene analysis are loaded into the shared gene memory according to the size of the shared gene memory, the number of library files that can be accommodated, the name of each library file, and the size offset of each library file.

Как показано на фиг. 5, в оконечной системе (то есть, аппаратном устройстве, используемом для генного анализа данных образцов ) выбирается определенная область в качестве совместно используемых при генном анализе библиотечных файлов. Соответствующий размер совместно используемой генной памяти определяется согласно пространству для хранения, возможности обработки данных и другим характеристикам оконечной системы. Содержание, записанное или хранящееся в области совместно используемой генной памяти, главным образом, содержит: построение заголовка таблицы совместно используемой генной памяти в физической памяти узла: 1) сначала, сохраняют количество (n) определенных совместно используемых библиотек и полную длину (Len) совместно используемой области; 2) сохраняют имя (например, Lib1, Lib2) и смещение длины (offset1, offset2) каждого указанного библиотечного файла в совместно используемой генной памяти; 3) поочередно сохраняют данные каждого указанного библиотечного файла в выбранной области.As shown in FIG. 5, in the target system (ie, the hardware device used for gene analysis of sample data), a certain area is selected as shared library files in gene analysis. The appropriate size of the shared gene memory is determined according to the storage space, processing capability, and other characteristics of the end system. The content written or stored in the shared gene memory area mainly contains: building the header of the shared gene memory table in the node's physical memory: 1) first, store the number (n) of the defined shared libraries and the total length (Len) of the shared areas; 2) store the name (eg, Lib1, Lib2) and length offset (offset1, offset2) of each specified library file in shared gene memory; 3) storing the data of each specified library file in the selected area in turn.

Ее рабочий принцип заключается в следующем: данные образцов могут содержать многочисленные группы данных; каждая группа данных имеет соответствующий процесс обработки образца. Среди процессов P1-PN обработки образца каждый процесс имеет свой собственный блок управления процессом (process control block, PCB) и адресное пространство (Addr Space) и имеет соответствующую таблицу страниц, которая используется для преобразцования виртуальных адресов процесса в физические адреса и управляется через блок управления памятью (memory management unit, MMU). Два различных виртуальных адреса могут преобразцовываться в одну и ту же область в физическом пространстве, используя таблицу страниц, и эта область, на которую они указывают, является совместно используемой памятью. С помощью вышеупомянутого способа каждый процесс обработки образца может вводить область совместно используемой памяти, чтобы получить требуемый библиотечный файл в области совместно используемой памяти.Its working principle is as follows: sample data can contain multiple groups of data; each data group has a corresponding sample processing process. Among the sample processing processes P1-PN, each process has its own process control block (PCB) and address space (Addr Space) and has a corresponding page table that is used to convert the virtual addresses of the process to physical addresses and is controlled through the control block. memory (memory management unit, MMU). Two different virtual addresses can map to the same area in physical space using the page table, and the area they point to is shared memory. With the above method, each sample processing process can input a shared memory area to obtain a desired library file in the shared memory area.

На этапе S206, если да, то получают требуемый библиотечный файл из совместно используемой генной памяти, требуемый библиотечный файл преобразуется в процесс генного анализа предварительно обработанных данных образцов и генный анализ завершается.In step S206, if yes, the required library file is obtained from the shared gene memory, the required library file is converted to the preprocessed sample data gene analysis process, and the gene analysis is terminated.

В способе генного анализа, основанном на совместно используемой генной памяти, обеспечиваемой в вариантах осуществления раскрытия, сначала считывают данные образцов и затем данные образцов предварительно обрабатывают и далее на предварительно обработанных данных образцов выполняют генный анализ. При генном анализе необходимо определить, находится ли требуемый при генном анализе библиотечный файл в совместно используемой генной памяти библиотечных файлов; если да, получают требуемый библиотечный файл из совместно используемой генной памяти и преобразуют в процессе генного анализа, соответствующего данным образцов, чтобы завершить соответствующий анализ. В способе генного анализа, основанном на совместно используемой генной памяти, используется механизм совместно используемой генной памяти, чтобы установить индексы для генного анализа (например, содержащего анализ выравнивания, вариационный анализ, аннотационный анализ и так далее) и затем сохранить требуемые при генном анализе файлы в базе данных (то есть, библиотечные файлы) совместно используемой генной памяти. Библиотечный файл может быть легко преобразцован из совместно используемой генной памяти в процесс генного анализа, выполняемого на данных образцов. С одной стороны, время и занятость ввода-вывода для загрузки библиотечного файла с жесткого диска значительно снижаются. С другой стороны, связи среди многочисленными процессами в процессе генного анализа упрощаются, и повторной загрузки библиотечного файла можно избежать.In the gene analysis method based on the shared gene memory provided in the embodiments of the disclosure, sample data is first read and then the sample data is preprocessed, and then gene analysis is performed on the preprocessed sample data. In gene analysis, it is necessary to determine whether the library file required for gene analysis is in the shared gene memory of the library files; if so, obtain the desired library file from the shared gene memory and transform in the gene analysis process corresponding to the sample data to complete the corresponding analysis. The gene analysis method based on shared gene memory uses a shared gene memory mechanism to set up indexes for gene analysis (for example, containing alignment analysis, analysis of variations, annotation analysis, and so on) and then store files required for gene analysis in a database (that is, library files) of shared gene memory. The library file can be easily converted from shared gene memory into a gene analysis process performed on sample data. On the one hand, the I/O time and occupancy for loading a library file from the hard disk is greatly reduced. On the other hand, communications among multiple processes in the gene analysis process are simplified and reloading of the library file can be avoided.

В некоторых вариантах осуществления способ дополнительно содержит этапы, на которых: определяют, удовлетворяет ли требуемый библиотечный файл условию загрузки в случае, когда требуемый при генном анализе библиотечный файл не находится в совместно используемой генной памяти; и загружают требуемый библиотечный файл в совместно используемую генную память в случае, когда условие загрузки удовлетворяется.In some embodiments, the method further comprises: determining if the required library file satisfies a load condition in the case where the library file required for gene analysis is not in shared gene memory; and loading the required library file into the shared gene memory in case the loading condition is satisfied.

Конкретно, если требуемый при генном анализе библиотечный файл не находится в совместно используемой генной памяти, определяют, удовлетворяет ли требуемый библиотечный файл условию загрузки. Если условие загрузки удовлетворяется, требуемый библиотечный файл может быть загружен в совместно используемую генную память. С одной стороны, можно более быстро и более эффективно загружать требуемый библиотечный файл в совместно используемую генную память и затем получать требуемый библиотечный файл из совместно используемой генной памяти; с другой стороны, это может также облегчить другие процессы работы с данными образцов, чтобы использовать требуемый библиотечный файл, избегая повторной загрузки.Specifically, if the required library file in the gene analysis is not in the shared gene memory, it is determined whether the required library file satisfies the loading condition. If the load condition is satisfied, the required library file can be loaded into the shared gene memory. On the one hand, it is possible to more quickly and more efficiently load the desired library file into the shared gene memory and then obtain the desired library file from the shared gene memory; on the other hand, it can also make it easier for other sample data processes to use the required library file, avoiding reloading.

В некоторых вариантах осуществления, определение, удовлетворяет ли требуемый библиотечный файл условию загрузки в случае, когда требуемый при генном анализе библиотечный файл не находится в совместно используемой генной памяти и загружать ли требуемый библиотечный файл в совместно используемую генную память в случае, когда условие загрузки удовлетворяется, содержит:In some embodiments, determining whether the required library file satisfies the load condition in the case where the required library file for gene analysis is not in the shared gene memory and whether to load the required library file into the shared gene memory in the case where the load condition is satisfied, contains:

получение информации о требуемом библиотечном файле и информации о совместно используемой генной памяти, в которой информация о требуемом библиотечном файле содержит пространство, запрашиваемое требуемым библиотечным файлом, и количество архивных запросов загрузки требуемого библиотиечного файла, и информация о совместно используемой генной памяти содержит остающееся пространство совместно используемой генной памяти; и если количество архивных запросов загрузки требуемого библиотечного файла больше, чем первое заданное количество, и пространство, запрашиваемое требуемым библиотечным файлом меньше, чем остающееся пространство совместно используемой генной памяти, загружают требуемый библиотечный файл в совместно используемую генную память.obtaining information about the required library file and information about the shared gene memory, in which the information about the required library file contains the space requested by the required library file and the number of archive download requests of the desired library file, and the information about the shared gene memory contains the remaining space of the shared gene memory; and if the number of archive download requests of the desired library file is greater than the first predetermined number and the space requested by the desired library file is less than the remaining space of the shared gene memory, loading the required library file into the shared gene memory.

Информация о требуемомо библиотечномо файле относится к информации, связанной с требуемым библиотечным файлом, которая может содержать тип требуемого библиотечного файла, размер требуемого библиотечного файла, пространство, запрашиваемое требуемым библиотечным файлом, количество архивных запросов загрузки и частоту запроса загрузки требуемого библиотечного файла и т.д. Информация о совместно используемой генной памяти относится к информации, связанной с совместно используемой генной памятью, главным образом, содержащей размер совместно используемой генной памяти, остающееся пространство совместно используемой генной памяти и т.д.The required library file information refers to information related to the required library file, which may include the type of the required library file, the size of the required library file, the space requested by the required library file, the number of archive download requests, and the download request frequency of the required library file, etc. . The shared gene memory information refers to information related to the shared gene memory, mainly containing the size of the shared gene memory, the remaining space of the shared gene memory, and so on.

Первое заданное количество является заданным значением, которое может использоваться, чтобы в некоторой степени отразить важность библиотечного файла. Таким образом, если количество архивных запросов загрузки больше, чем первое заранее установленное количество, это указывает, что требуемый библиотечный файл необходим или часто используется, то есть, требуемый библиотечный файл важен при генном анализе и может загружаться в совместно используемую генную память, чтобы облегчить его использование для других данных образцов. После определения важности требуемого библиотечного файла дополнительно необходимо определить, достаточно ли остающееся пространство совместно используемой генной памяти, чтобы сохранить требуемый библиотечный файл, то есть, определить, является ли пространство, запрашиваемое требуемым библиотечным файлом, меньшим, чем остающееся пространство совместно используемой генной памяти. Если это так, то требуемый библиотечный файл может быть напрямую загружен в совместно используемую генную память.The first setpoint is a setpoint that can be used to reflect the importance of the library file to some extent. Thus, if the number of archive download requests is greater than the first predetermined number, this indicates that the required library file is needed or frequently used, that is, the required library file is important in gene analysis and can be loaded into shared gene memory to facilitate it. use for other sample data. After determining the importance of the required library file, it is further necessary to determine if the remaining shared gene memory space is sufficient to store the required library file, that is, to determine if the space requested by the required library file is less than the remaining shared gene memory space. If so, then the required library file can be directly loaded into the shared gene memory.

В некоторых вариантах осуществления когда информация о требуемом библиотечном файле дополнительно содержит частоту запросов загрузки требуемого библиотечного файла, информация о совместно используемой генной памяти содержит частоты запроса загрузки всех библиотечных файлов в совместно используемой генной памяти; определение, удовлетворяет ли требуемый библиотечный файл условию загрузки, и загружать ли требуемый библиотечный файл в совместно используемую генную память в случае, когда условие загрузки удовлетворяется, дополнительно содержит: если количество архивных запросов загрузки требуемого библиотечного файла больше, чем первое заданное количество, и пространство, запрашиваемое требуемым библиотечным файлом, больше, чем остающееся пространство совместно используемой генной памяти, ранжируют требуемый библиотечный файл и все библиотечные файлы в порядке приоритета в соответствии с частотой запроса загрузки требуемого библиотечного файла и частотами запроса загрузки всех библиотечных файлов, чтобы получить приоритет частоты запроса загрузки каждого библиотечного файла; если приоритет частоты запроса загрузки требуемого библиотечного файла выше, чем приоритет библиотечного файла в совместно используемой генной памяти, и если остающееся пространство совместно используемой генной памяти после удаления библиотечного файла с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти больше или равно пространству, запрашиваемому требуемым библиотечным файлом, удаляют библиотечный файл с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти; и загружают требуемый библиотечный файл в совместно используемую генную память.In some embodiments, when the requested library file information further comprises a load request rate of the desired library file, the shared gene memory information comprises load request rates of all library files in the shared gene memory; determining whether the required library file satisfies the load condition, and whether to load the required library file into the shared gene memory in the case where the load condition is satisfied, further comprises: if the number of archive requests to load the required library file is greater than the first predetermined number, and space, requested by the required library file is greater than the remaining shared gene memory space, rank the required library file and all library files in order of priority according to the download request frequency of the required library file and the download request frequencies of all library files, to obtain the priority of the download request frequency of each library file; if the load request rate priority of the required library file is higher than the priority of the library file in the shared gene memory, and if the remaining space of the shared gene memory after deletion of the library file with the lower load request frequency priority in the shared gene memory is greater than or equal to the space requested the desired library file, deleting the library file with a lower load request frequency priority in the shared gene memory; and loading the required library file into the shared gene memory.

Конкретно, если определено, что пространство, запрошиваемое для требуемого библиотечного файла, больше, чем остающееся пространство совместно используемой генной памяти, это указывает, что остающегося пространства совместно используемой генной памяти недостаточно, чтобы хранить требуемый библиотечный файл; в этом случае, необходимо сравнить требуемый библиотечный файл с библиотечным файлом, уже хранящимся в совместно используемой генной памяти, удалить библиотечный файл с низкой частотой запроса загрузки, соответствующий приоритетам частот запроса загрузки библиотечных файлов, и затем загрузить требуемый библиотечный файл в совместно используемую генную память.Specifically, if it is determined that the space requested for the required library file is larger than the remaining shared gene memory space, this indicates that the remaining shared gene memory space is insufficient to store the required library file; in this case, it is necessary to compare the required library file with the library file already stored in the shared gene memory, remove the library file with a low download request rate corresponding to the library file download request frequency priorities, and then load the desired library file into the shared gene memory.

В вариантах осуществления требуемый библиотечный файл и библиотечные файлы, хранящиеся в совместно используемой генной памяти, ранжируются в порядке приоритета, главным образом, в соответствии с частотой запроса загрузки каждого библиотечного файла. Если приоритет частоты запроса загрузки требуемого библиотечного файла выше, чем приоритет библиотечного файла в совместно используемой генной памяти, библиотечный файл в совместно используемой генной памяти удаляется, чтобы загрузить требуемый библиотечный файл в совместно используемую генную память. В вышеупомянутом процессе всесторонне рассматриваются размеры всех библиотечных файлов. Необходимо только гарантировать, что память, занятая удаленным библиотечным файлом, достаточна, чтобы хранить требуемый библиотечный файл.In embodiments, the required library file and the library files stored in the shared gene memory are ranked in order of priority primarily according to the frequency of each library file download request. If the download request frequency priority of the desired library file is higher than the priority of the library file in the shared gene memory, the library file in the shared gene memory is deleted to load the required library file into the shared gene memory. The above process takes a comprehensive look at the sizes of all library files. It is only necessary to ensure that the memory occupied by the remote library file is sufficient to store the required library file.

Таким образом, когда требуемый библиотечный файл в процессе генного анализа не находится в совместно используемой генной памяти, библиотечный файл может быть сначала загружен в совместно используемую генную память, чтобы повысить эффективность последующего вычисления.Thus, when the desired library file is not in the shared gene memory during the gene analysis process, the library file can be first loaded into the shared gene memory to improve the efficiency of subsequent computation.

В некоторых вариантах осуществления генный анализ содержит анализ выравнивания, вариационный анализ и аннотационный анализ; способ дополнительно содержит этапы, на которых: выполняют анализ выравнивания, вариационный анализ и аннотационный анализ данных образцов, предварительно обработанных в последовательности, в котором в случае, когда предварительно обработанные данные образцов содержат многочисленные группы данных образцов, многочисленные группы данных образцов одновременно находятся на одном и том же этапе или на разных этапах генного анализа.In some embodiments, the gene analysis comprises an alignment analysis, a variation analysis, and an annotation analysis; the method further comprises the steps of: performing an alignment analysis, an analysis of variations, and an annotation analysis of the sample data pre-processed in sequence, wherein in the case where the pre-processed sample data contains multiple groups of sample data, the multiple groups of sample data are simultaneously on the same and the same stage or at different stages of gene analysis.

В вариантах осуществления способ генного анализа содержит анализ выравнивания, вариационный анализ и аннотационный анализ. Однако, в процессе генного анализа обычно существует требование последовательности, то есть, сначала обычно выполняется анализ выравнивания, сопровождаемый вариационным анализом и затем аннотационным анализом. Однако, когда существует множество групп данных образцов, каждая группа данных образцов может находиться на одном и том же этапе или на различных этапах генного анализа. Например, данные образцов 1 могут находиться на этапе анализа выравнивания, данные образцов 2 могут находиться на этапе вариационного анализа и данные образцов 3 могут находиться на этапе аннотационного анализа. Для данных образцов 1, данных образцов 2 и данных образцов 3 также возможно одновременно находиться на этапе анализа выравнивания, вариационного анализа или аннотационного анализа. Многочисленные группы данных образцов могут обрабатываться одновременно, используя способ, который может дополнительно повышать скорость обработки данных.In embodiments, the gene analysis method comprises alignment analysis, variation analysis, and annotation analysis. However, in the process of gene analysis, there is usually a sequence requirement, that is, an alignment analysis is usually performed first, followed by an analysis of variance and then annotation analysis. However, when there are multiple sets of sample data, each set of sample data may be at the same stage or at different stages of gene analysis. For example, sample 1 data may be in an alignment analysis step, sample 2 data may be in an analysis of variance step, and sample 3 data may be in an annotational analysis step. It is also possible for sample data 1, sample data 2, and sample data 3 to be in the alignment analysis, analysis of variations, or annotation analysis at the same time. Multiple groups of sample data can be processed at the same time using a method that can further increase the speed of data processing.

В некоторых вариантах осуществления генный анализ дополнительно содержит сортировочный анализ и анализ маркировки-дублирования, в котором после выполнения анализа выравнивания, вариационного анализа и аннотационного анализа данных образцов, предварительно обработанных в последовательности, способ дополнительно содержит этапы, на которых: маркируют данные образцов после анализа выравнивания с помощью позиционных тегов; и выполняют посредством модуля сортировочный анализ и анализ маркировки-дублирования на маркированных данных образцов.In some embodiments, the gene analysis further comprises a sorting analysis and a label-duplication analysis, in which, after performing an alignment analysis, a variation analysis, and an annotation analysis of the sample data pre-processed in sequence, the method further comprises the steps of: labeling the sample data after the alignment analysis using positional tags; and performing, by means of the module, a sorting analysis and a label-duplication analysis on the labeled sample data.

Конкретно, генный анализ дополнительно содержит анализ секвенирования и анализ маркировки-дублирования; маркировка данных образцов после анализа выравнивания с помощью позиционных тегов состоит в том, чтобы добавить тег, связанный с позицией, к файлу после сравнения, так чтобы анализ секвенирования и анализ маркировки-дублирования могли быть выполнены посредством модуля, и в анализе секвенирования и в анализе маркировки-дублирования может быть получена более эффективная многопоточная сортировка.Specifically, the gene analysis further comprises a sequencing analysis and a label-duplication analysis; labeling sample data after alignment analysis with positional tags is to add a tag associated with the position to the file after comparison, so that sequencing analysis and label-duplication analysis can be performed by the module, in both sequencing analysis and labeling analysis -duplication, a more efficient multi-threaded sorting can be obtained.

В некоторых вариантах осуществления способ дополнительно содержит соединение некоторых или всех этапов генного анализа путем использования памяти.In some embodiments, the method further comprises connecting some or all of the steps of the gene analysis using memory.

Конкретно, несколько этапов или все этапы в процессах сравнения, сортировки, маркировки-дублирования и определения вариантов в процессе генного анализа могут быть соединены с помощью памяти. Файлы sam/bam, выводимые промежуточно, могут быть уменьшены, присоединяя каждый этап при помощи памяти, что снижает занятость ввода-вывода.Specifically, several steps or all of the steps in the comparison, sorting, marking-duplicate and variant determination processes in the gene analysis process can be linked by memory. The sam/bam files output intermediately can be reduced by appending each stage with memory, which reduces I/O usage.

Для простоты понимания ниже приводится подробный вариант осуществления. На фиг. 6 показан весь процесс генного анализа и процесс в совместно используемой генной области памяти. Процесс генного анализа проходит следующим образом: после введения образцов, данные каждого из образцов предварительно обрабатываются и затем определяется, загружается ли в совместно используемую область памяти библиотечный файл, требующийся для анализа выравнивания; если да, запускается анализ выравнивания или, в противном случае, библиотечный файл загружается с жесткого диска, чтобы выполнить анализ выравнивания; процесс анализа выравнивания синтезируется как гибкий этап путем соединения памяти и оптимизацией алгоритма; затем выполняется определение вариантов и определяется, был ли загружен в совместно используемую генную память библиотечный файл аннотационной информации; если да, то запускается статистика аннотации, или, в противном случае, библиотечный файл загружается с жесткого диска для статистики аннотации; аналитический процесс заканчивается.For ease of understanding, a detailed embodiment is given below. In FIG. 6 shows the entire gene analysis process and the process in the shared gene memory area. The gene analysis process proceeds as follows: after the introduction of the samples, the data of each of the samples is pre-processed and then it is determined whether the library file required for the alignment analysis is loaded into the shared memory area; if yes, the alignment analysis is started, or otherwise, the library file is loaded from the hard drive to perform the alignment analysis; the alignment analysis process is synthesized as a flexible step by memory coupling and algorithm optimization; then, variant determination is performed and it is determined whether an annotation information library file has been loaded into the shared gene memory; if so, annotation statistics are run, or otherwise, the library file is loaded from the hard drive for annotation statistics; the analytical process ends.

Процесс в совместно используемой области генной памяти является следующим: если существует запрос на информацию библиотеки lib-x (то есть, требуемый библиотечный файл), определяют, находится ли требуемый библиотечный файл в совместно используемой области генной памяти; если да, то библиотечные данные являются обратной связью и процесс заканчивается; если требуемый библиотечный файл не находится в совместно используемой области генной памяти, определяют, загружать ли требуемый библиотечный файл способом Q загрузки; если да, требуемый библиотечный файл загружается в совместно используемую область генной памяти, библиотечные данные выводятся и процесс заканчивается; если требуемый библиотечный файл не должен загружаться способом Q загрузки, никакая информация не выводится и процесс заканчивается.The process in the shared gene memory area is as follows: if there is a request for library information lib-x (ie, the required library file), determining whether the required library file is in the shared gene memory area; if so, the library data is feedback and the process ends; if the required library file is not in the shared area of the gene memory, determining whether to load the required library file in the load method Q; if so, the required library file is loaded into the shared area of gene memory, the library data is output, and the process ends; if the requested library file is not to be loaded using the Q load method, no information is output and the process ends.

Конкретные этапы способа Q загрузки являются следующими: 1) определяют тип и размер требуемого библиотечного файла; 2) получают файл записи; 3) из файла записи считывают общий размер памяти узла, размер совместно используемой области памяти, количество архивных запросов загрузки каждого типа библиотеки (f_type) и общее количество архивных запросов загрузки всех типов библиотек (f_total); 4) размер памяти узла обновляется с жесткого диска, чтобы препятствовать изменению размера памяти узла; 5) для типа требуемого библиотечного файла количество архивных запросов загрузки этого типа библиотеки увеличивается на 1 (f_type+1); 6) общее количество архивных запросов загрузки всех типов библиотек увеличивается на 1 (f_total+1); 7) определяют, достаточно ли остающегося пространства, чтобы загрузить библиотеку; 8) частоты запроса (f_type/f_total) всех типов библиотек в файле записи ранжируются в порядке убывания и выводят ранжированный связанный список; 9) определяют, был ли загружен требуемый библиотечный файл; если требуемый библиотечный файл был загружен, выводят индекс библиотеки; если требуемый библиотечный файл не был загружен и количество архивных запросов загрузки этого типа библиотеки больше 10, определяют приоритет и позицию по порядку этого типа библиотеки во всех выгруженных библиотеках; 10) если приоритет этого типа библиотеки превышает приоритет загруженной библиотеки, система предсказывает, удовлетворяет ли сумма размеров загруженных библиотек, упорядоченных после этого типа библиотеки в type_list, условию W размера памяти для загрузки этого типа библиотеки; если да, эти загруженные библиотеки выгружаются в обратном порядке до тех пор, пока не будет удовлетворено условие W; в противном случае никакой процесс не выполняется; 11) если условие загрузки удовлетворяется, запись размера области совместно используемой памяти обновляется; 12) в противном случае, когда библиотека не была загружена, потому что нет достаточной памяти для загрузки, библиотека маркируется и ее обновляют в файле записи.The specific steps of loading method Q are as follows: 1) determining the type and size of the required library file; 2) get the recording file; 3) reading the total memory size of the node, the size of the shared memory area, the number of archive download requests of each library type (f_type) and the total number of archive download requests of all library types (f_total) from the record file; 4) the node memory size is updated from the hard disk to prevent changing the node memory size; 5) for the type of required library file, the number of archive download requests for this type of library is increased by 1 (f_type+1); 6) the total number of archive download requests for all types of libraries is increased by 1 (f_total+1); 7) determine if there is enough remaining space to load the library; 8) query frequencies (f_type/f_total) of all types of libraries in the record file are ranked in descending order and output a ranked linked list; 9) determining if the required library file has been loaded; if the required library file has been loaded, output the index of the library; if the required library file has not been loaded and the number of download archive requests of this type of library is greater than 10, determining the priority and position in order of this type of library in all unloaded libraries; 10) if the priority of this library type is greater than the priority of the loaded library, the system predicts whether the sum of the sizes of the loaded libraries ordered after that library type in the type_list satisfies the memory size condition W for loading that library type; if so, these loaded libraries are unloaded in reverse order until condition W is satisfied; otherwise, no process is executed; 11) if the load condition is satisfied, the size record of the shared memory area is updated; 12) Otherwise, when the library has not been loaded because there is not enough memory to load, the library is marked and updated in the record file.

Формат файла записи приводится ниже:The recording file format is as follows:

М: 63492649171200M: 63492649171200

Len: 13492649171200Len: 13492649171200

f_total: 100f_total: 100

ТипType РазмерSize ЗагруженоLoaded Количество архивных запросов загрузки f_typeNumber of archive download requests f_type type_flagtype_flag LibxLibx 1000000000000010000000000000 ДаYes 7575 00 LibyLiby 34926491712003492649171200 ДаYes 1212 00 LibwLibw 4000000000000040000000000000 НетNo 1010 11 Libzlibz 50000005000000 НетNo 33 00

type_flag указывает причину отсутствия загрузки, где 1 указывает, что приоритет загрузки этого типа библиотеки был признан первым, и она не была загружена по причине недостаточной памяти, а type_flag загруженной библиотеки равен 0.type_flag indicates the reason for not loading, where 1 indicates that the loading priority of this type of library was considered first and it was not loaded due to insufficient memory, and the type_flag of the loaded library is 0.

Кроме того, псевдокод способа Q загрузки следующий.In addition, the pseudocode of the Q loading method is as follows.

RequestShareMem (тип, размер) //type: тип библиотеки для совместного использования, size: размер библиотеки для совместного использованияRequestShareMem(type, size) //type: type of library to share, size: size of library to share

File = RecordFile //файл записиFile = RecordFile // record file

ReadFromFile (М., Len, f_type, f_total) //считывание из файла записи (М: общий размер памяти узла; Len : текущий размер совместно используемой области памяти; f_type: количество архивных запросов загрузки этого типа библиотеки; f_total: общее количество архивных запросов загрузки всех типов библиотек;ReadFromFile(M, Len, f_type, f_total) //read from write file (M: total node memory size; Len: current size of shared memory area; f_type: number of archive requests to load this type of library; f_total: total number of archive requests loading all types of libraries;

Update (M) //обновление размера памяти узла с жесткого диска, чтобы предотвратить изменение размера памяти узла;Update (M) //update the node's memory size from the hard disk to prevent the node's memory size from changing;

f_type = f_type + 1 //обновление f_typef_type = f_type + 1 //update f_type

f_total = f_total + 1 //обновление f_totalf_total = f_total + 1 //update f_total

W = M*0,5 - Len - size> 0 //условие W: определить, существует ли остаточное пространство для загрузки, 0,5 - регулируемый коэффициент, в настоящий момент используется 50 % общей памятиW = M*0.5 - Len - size> 0 //condition W: determine if there is remaining space to load, 0.5 is an adjustable factor, currently 50% of the total memory is being used

type_list = SortAllTypeInFile () //ранжируют частоты запросов (f_type/f_total) всех типов библиотек в файле записи в порядке убывания, и выводят ранжированный связанный список;type_list = SortAllTypeInFile() //rank the request frequencies (f_type/f_total) of all library types in the record file in descending order, and output the ranked linked list;

if AlreadyLoaded(type) thenif AlreadyLoaded(type) then

id = GetShareMemId(type) // если требуемый библиотечный файл был загружен, выводят индекс библиотекиid = GetShareMemId(type) // if the required library file has been loaded, print the library index

else if f_type > 10 //количество архивных запросов загрузки этого типа библиотеки больше 10 else if f_type > 10 //the number of archive download requests for this type of library is greater than 10

if IsPrior (type_list, type) //определяют, является ли это первым приоритетом: первый по порядку перед всеми другими выгруженными библиотеками, type_flag которых равен 0if IsPrior (type_list, type) //determine if this is the first priority: first in order before all other unloaded libraries whose type_flag is 0

if type_flag = 1if type_flag = 1

UnloadShareMem (type_list, type),//, если сумма размеров загруженных библиотек, упорядоченных после этого типа библиотеки в type_list, удовлетворяет условию W, выгружают эти загруженные библиотеки в обратном порядке, пока не будет удовлетворено условие W; в противном случае, никакой процесс не выполняетсяUnloadShareMem (type_list, type), // if the sum of sizes of loaded libraries ordered after this type of library in type_list satisfies condition W, unload these loaded libraries in reverse order until condition W is satisfied; otherwise, no process is running

if Wif W

id = LoadShareMem ( type, size)id = LoadShareMem(type, size)

Len = Len + size //обновляют размер совместно используемой области памятиLen = Len + size // update the size of the shared memory area

type_flag = 0type_flag = 0

else else

type_flag = 1 //отметка, что нет достаточного объема памяти, обновить записьtype_flag = 1 // mark that there is not enough memory, update the entry

id = 0 id = 0

elseelse

id = 0 //не выводят информациюid = 0 //do not display information

UpdateFile (М., Len, f_type, f_total, type_flag) //обновляют файл записиUpdateFile(m, len, f_type, f_total, type_flag) // update record file

return id //выводят индекс области совместно используемой памяти, “0” не представляет информацииreturn id //output the index of the shared memory area, "0" represents no information

endend

Некоторые варианты осуществления, чтобы показать результаты:Some embodiments to show the results:

Чтобы проверить эффективность способа генного анализа, основанного на совместно используемой памяти, в вариантах осуществления раскрытия, три способа генного анализа, а именно, способ А (программное обеспечение без оптимизации (то есть, все этапы генного анализа не соединяются, используя память, и этапы независимы друг от друга) + без использования совместно используемой генной памяти), способ B (программное обеспечение с оптимизацией (то есть, все этапы генного анализа соединяются, используя память) + без использования совместно используемой генной памяти) и способ C (программное обеспечение с оптимизацией (то есть, все этапы генного анализа соединяются, используя память), + с использованием совместно используемой генной памяти), приводятся, чтобы сравнить использование CPU и время занятости ввода-вывода для разных способов. Результаты показаны на фиг. 7-9, где на фиг. 7 показан результат анализа способа A, на фиг. 8 показан результат анализа способа B и на фиг. 9 показан результат анализа способа C.In order to test the effectiveness of the shared memory based gene analysis method in the embodiments of the disclosure, the three gene analysis methods, namely, method A (software without optimization (that is, all gene analysis steps are not connected using memory, and the steps are independent apart) + without using shared gene memory), method B (software with optimization (i.e., all stages of gene analysis are connected using memory) + without using shared gene memory) and method C (software with optimization ( i.e., all gene analysis steps are connected using memory) + using shared gene memory) are given to compare CPU usage and I/O busy time for different methods. The results are shown in FIG. 7-9, where in Fig. 7 shows the analysis result of Method A, FIG. 8 shows the analysis result of Method B and FIG. 9 shows the analysis result of method C.

На фиг. 7 можно видеть, что время работы части анализа по способу А перед ускорением (то есть, каждый этап считывания данных образцов и этап предварительной обработки перед анализом выравнивания работает независимо и сравнение обрабатывается напрямую без использования совместно используемой генной памяти) равно 2,83 часа и использование CPU значительно варьируется. Время выполнения участка сравнения и участка аннотации перед ускорением (то есть, сравнение и аннотация обрабатываются напрямую без использования совместно используемой генной памяти) составляет 2,61 часа, использование CPU высокое, и использование ввода-вывода в расчете на секунду (то есть, количество передач, выводимых на физический диск в секунду) высокое, что указывает на высокое использование ввода-вывода, и вероятность блокирования высокая.In FIG. 7, it can be seen that the running time of the analysis part of Method A before acceleration (that is, each step of reading sample data and the pre-processing step before alignment analysis works independently and the comparison is processed directly without using shared gene memory) is 2.83 hours and using The CPU varies greatly. The execution time of the comparison section and the annotation section before acceleration (that is, the comparison and annotation are processed directly without using shared gene memory) is 2.61 hours, the CPU usage is high, and the I/O usage per second (that is, the number of transfers output to physical disk per second) is high, indicating high I/O usage and a high chance of blocking.

Как можно видеть на фиг. 8, рабочее время участка анализа по способу B после ускорения (то есть, этап считывания данных образцов и этап предварительной обработки перед анализом выравнивания соединяются, используя память, и сравнение выполняется, используя совместно используемую генную память) составляет 1,75 часа и использование CPU варьируется меньше, чем при способе А. Рабочее время участка сравнения библиотек перед использованием совместно используемой генной памяти (то есть, сравнение выполняется напрямую без использования совместно используемой генной памяти) составляет 2,38 часа, использование CPU высокое и использование ввода-вывода в расчете на секунду (то есть, количество передач, выводимых на физический диск в секунду) высокое, что указывает, что использование ввода-вывода высокое и вероятность блокирования высокая.As can be seen in FIG. 8, the running time of the analysis section of Method B after acceleration (that is, the sample data reading step and the pre-processing step before alignment analysis are connected using memory, and the comparison is performed using shared gene memory) is 1.75 hours, and the CPU usage varies. less than method A. Working time of library comparison section before using shared gene memory (i.e., comparison is performed directly without using shared gene memory) is 2.38 hours, CPU usage is high, and I/O usage per second (that is, the number of transfers to the physical disk per second) is high, indicating that the I/O usage is high and the chance of blocking is high.

Как можно видеть на фиг. 9, рабочее время участка анализа по способу C после ускорения (то есть, этап считывания данных образцов и этап предварительной обработки перед анализом выравнивания соединяются при помощи памяти и сравнение выполняется, используя совместно используемую генную память) составляет 1,75 часа и использование CPU варьируется меньше, чем при способе А (этот участок является таким же, как при способе B). Время выполнения участка сравнения библиотек после использования совместно используемой генной памяти (то есть, сравнение выполняется с использованием совместно используемой генной памяти) составляет 0,82 часа, использование CPU высокое и использование ввода-вывода в расчете на секунду (то есть, количество передач, выводимых на физический диск в секунду) низкое, что указывает, что использование ввода-вывода низкое и вероятность блокирования низкая.As can be seen in FIG. 9, the working time of the analysis section of method C after acceleration (that is, the sample data reading step and the pre-processing step before alignment analysis are connected by memory and comparison is performed using shared gene memory) is 1.75 hours, and the CPU usage varies less than in method A (this section is the same as in method B). The execution time of the library comparison section after using the shared gene memory (that is, the comparison is performed using the shared gene memory) is 0.82 hours, the CPU usage is high, and the I/O usage per second (that is, the number of transfers output per physical disk per second) is low, indicating that I/O usage is low and the chance of blocking is low.

Поэтому для генного анализа используется способ C, то есть, этапы генного анализа соединяются с помощью памяти. Способ адаптации совместно используемой генной памяти при сравнении, аннотации и других процессах может значительно снизить время, используемое для генного анализа, и уменьшить показатель использования ввода-вывода, то есть, сократить блокирование ввода-вывода.Therefore, method C is used for gene analysis, that is, the steps of gene analysis are connected by memory. The way of adapting the shared gene memory in comparison, annotation and other processes can significantly reduce the time used for gene analysis and reduce the rate of I/O usage, that is, reduce I/O blocking.

Следует понимать, хотя этапы на блок-схемах последовательности выполнения этапов на фиг. 2, 4 и 6 показаны в порядке, обозначенном стрелками, эти этапы не обязательно выполняются в порядке, обозначенном стрелками. Если здесь явно не заявлено, исполнение этих этапов не ограничивается строгим порядком и эти этапы могут исполняться в других порядках. Кроме того, по меньшей мере некоторые этапы на фиг. 2, 4 и 6 могут содержать многочисленные подэтапы или многочисленные этапы. Эти подэтапы или этапы не обязательно исполняются одновременно, но альтернативно могут выполняться совместн с другими этапами или, по меньшей мере, с некоторыми подэтапами или стадиями других этапов.It should be understood that although the steps in the flowcharts in FIG. 2, 4 and 6 are shown in the order indicated by the arrows, these steps are not necessarily performed in the order indicated by the arrows. Unless explicitly stated here, the execution of these steps is not limited to a strict order, and these steps may be executed in other orders. In addition, at least some of the steps in FIG. 2, 4 and 6 may contain multiple sub-steps or multiple steps. These sub-steps or steps are not necessarily performed simultaneously, but may alternatively be performed in conjunction with other steps or at least some of the sub-steps or steps of other steps.

В некоторых вариантах осуществления, как показано на фиг. 10, обеспечивается устройство генного анализа, основанное на совместно используемой памяти, содержащее: модуль 102 считывания данных, модуль 104 предварительной обработки данных и модуль 106 генного анализа.In some embodiments, as shown in FIG. 10, a shared memory based gene analysis device is provided, comprising: a data reading module 102, a data preprocessing module 104, and a gene analysis module 106.

Модуль 102 считывания данных, выполненный с возможностью считывания данных образцов.A data reading module 102 configured to read sample data.

Модуль 104 предварительной обработки данных, выполненный с возможностью предварительной обработки данных образцов.A pre-processing module 104 configured to pre-process sample data.

Модуль 106 генного анализа, выполненный с возможностью осуществления генного анализа предварительно обработанных данных образцов и определения, находится ли требуемый при генном анализе библиотечный файл в совместно используемой генной памяти; если да, то получают требуемый библиотечный файл из совместно используемой генной памяти, преобразуют требуемый библиотечный файл в процессе генного анализа предварительно обработанных данных выработок и завершают генный анализ.A gene analysis module 106, configured to perform gene analysis of pre-processed sample data and determine whether a library file required for gene analysis is in a shared gene memory; if yes, then obtain the desired library file from the shared gene memory, transform the desired library file in the process of gene analysis of the pre-processed workings data and complete the gene analysis.

В некоторых вариантах осуществления устройство генного анализа на основе совместно используемой памяти содержит: модуль загрузки библиотечного файла, выполненный с возможностью определения, удовлетворяет ли требуемый библиотечный файл условию загрузки в случае, когда требуемый при генном анализе библиотечный файл не находится в совместно используемой генной памяти; и загружают требуемый библиотечный файл в совместно используемую генную память, в случае, когда условие загрузки удовлетворяется.In some embodiments, the shared memory gene analysis device comprises: a library file loading module configured to determine if a desired library file satisfies a load condition in the event that the library file required for gene analysis is not in the shared gene memory; and loading the required library file into the shared gene memory, in case the loading condition is satisfied.

В некоторых вариантах осуществления модуль загрузки библиотечного файла содержит модуль получения информации о библиотеке и информации о памяти.In some embodiments, the library file loading module comprises a module for obtaining library information and memory information.

Модуль получения информации о библиотеке и информации о памяти, выполненный с возможностью получения информации о требуемом библиотечном файле и информации о совместно используемой генной памяти, где информация о требуемом библиотечном файле содержит пространство, запрашиваемое заданным файлом библиотеки, и количество архивных запросов загрузки требуемого библиотечного файла и информация о совместно используемой генной памяти содержит остающееся пространство совместно используемой генной памяти.A module for obtaining library information and memory information, configured to obtain information about the required library file and information about the shared gene memory, where the information about the required library file contains the space requested by the specified library file, and the number of archive download requests of the required library file, and the shared gene memory information contains the remaining space of the shared gene memory.

Модуль загрузки библиотечного файла, выполненный с возможностью загрузки требуемого библиотечного файла в совместно используемую генную память, если количество архивных запросов загрузки требуемого библиотечного файла больше первого требуемого количества и пространство, запрашиваемое требуемым библиотечным файлом, меньше, чем остающееся пространство совместно используемой генной памяти.A library file loading module configured to load a desired library file into shared gene memory if the number of archive requests for loading the required library file is greater than the first required number and the space requested by the desired library file is less than the remaining space of the shared gene memory.

В некоторых вариантах осуществления информация требуемого библиотечного файла дополнительно содержит частоту запроса загрузки требуемого библиотечного файла, информация о совместно используемой генной памяти дополнительно содержит частоты запроса загрузки всех библиотечных файлов в совместно используемой генной памяти; и модуль загрузки библиотечного файла дополнительно содержит модуль ранжирования приоритетов и модуль удаления библиотечного файла.In some embodiments, the required library file information further comprises a requested library file download request rate; the shared gene memory information further comprises download request rates of all library files in the shared gene memory; and the library file loading module further comprises a priority ranking module and a library file deleting module.

Модуль сортировки по приоритетам, выполненный с возможностью ранжирования требуемого библиотечного файла и всех библиотечных файлов в порядке приоритета в соответствии с частотой запроса загрузки требуемого библиотечного файла и частотами запроса загрузки всех библиотечных файлов, чтобы получить приоритет частоты запроса загрузки каждого библиотечного файла, если количество архивных запросов загрузки требуемого библиотечного файла больше первого заданного количества и пространство, запрашиваемое заданным библиотечным файлом, больше остающегося пространства совместно используемой генной памяти.A priority sorting module, configured to rank the desired library file and all library files in order of priority according to the download request frequency of the desired library file and the download request frequencies of all library files, to obtain the priority of the download request frequency of each library file if the number of archive requests downloads of the desired library file is greater than the first predetermined amount, and the space requested by the predetermined library file is greater than the remaining space of the shared gene memory.

Модуль удаления библиотечного файла, выполненный с возможностью удаления библиотечного файла с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти, если приоритет частоты запроса загрузки требуемого библиотечного файла выше, чем приоритет библиотечного файла в совместно используемой генной памяти, и если остающееся пространство совместно используемой генной памяти после удаления библиотечного файла с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти больше или равно пространству, запрашиваемому заданным библиотечным файлом.A library file deletion module, configured to delete a library file with a lower download request frequency priority in the shared gene memory if the download request frequency priority of the desired library file is higher than the library file priority in the shared gene memory, and if the remaining space is shared gene memory after deleting a library file with a lower priority load request frequency in shared gene memory greater than or equal to the space requested by the given library file.

Модуль загрузки библиотечного файла, дополнительно выполненный с возможностью загрузкой требуемого библиотечного файла в совместно используемую генную память.A library file loading module, further configured to load the required library file into the shared gene memory.

В некоторых вариантах осуществления устройство дополнительно содержит: модуль установки совместно используемой генной памяти, выполненный с возможностью установки совместно используемой генной памяти для библиотечных файлов, используемых при генном анализе, установки размера совместно используемой генной памяти, количества библиотечных файлов, которые могут быть размещены, имя каждого библиотечного файла и смещение размера каждого библиотечного файла.In some embodiments, the device further comprises: a shared gene memory setting module configured to set a shared gene memory for library files used in gene analysis, setting the size of the shared gene memory, the number of library files that can be placed, the name of each library file and the size offset of each library file.

Модуль загрузки библиотечного файла дополнительно выполненный с возможностью загрузки библиотечных файлов, обычно используемых при генном анализе, в совместно используемую генную память, соответствующую размеру совместно используемой генной памяти, количества библиотечных файлов, которые могут быть размещены, имени каждого библиотечного файла и смещения размера каждого библиотечного файла.A library file loading module further configured to load library files commonly used in gene analysis into a shared gene memory corresponding to the size of the shared gene memory, the number of library files that can be accommodated, the name of each library file, and the size offset of each library file .

В некоторых вариантах осуществления генный анализ содержит анализ выравнивания, вариационный анализ и аннотационный анализ.In some embodiments, the gene analysis comprises an alignment analysis, a variation analysis, and an annotation analysis.

Модуль 106 генного анализа выполнен с возможностью осуществления анализа выравнивания, вариационного анализа и аннотационного анализа данных образцов, предварительно обработанных в последовательности, где в случае, когда предварительно обработанные данные образцов содержат многочисленные группы данных образцов, многочисленные группы данных образцов одновременно находятся на одном и том же этапе или на разных этапах генного анализа.Gene analysis module 106 is configured to perform alignment analysis, analysis of variance, and annotation analysis of sample data pre-processed in sequence, where in the case where the pre-processed sample data contains multiple groups of sample data, multiple groups of sample data are simultaneously on the same stage or at different stages of gene analysis.

В некоторых вариантах осуществления генный анализ дополнительно содержит сортировочный анализ и анализ маркировки-дублирования и устройство дополнительно содержит: модуль сортировки и маркировки-дублирования, выполненный с возможностью маркировки данных образцов после анализа выравнивания с помощью позиционного тега; и выполнения сортировочного анализа и анализа маркировки-дублирования модулем на маркированных данных образцов.In some embodiments, the gene analysis further comprises a sorting and label-duplicate assay, and the device further comprises: a sorting and label-duplicate module configured to label these samples after the alignment analysis with a positional tag; and performing a sorting analysis and a label-duplication analysis by the module on the labeled sample data.

В некоторых вариантах осуществления устройство дополнительно содержит модуль соединения с памятью, выполненный с возможностью соединения нескольких или всех этапов генного анализа, используя память.In some embodiments, the device further comprises a memory connection module configured to connect several or all of the gene analysis steps using the memory.

В некоторых вариантах осуществления модуль 104 предварительной обработки данных дополнительно является модулем контроля качества, операции фильтрации и статистической обработки данных образцов и выполняет контроль качества, операцию фильтрации и статистическую обработку данных образцов.In some embodiments, the pre-processing module 104 is further a quality control, filtering, and statistical processing of the sample data module, and performs a quality control, filtering, and statistical processing of the sample data.

Для конкретного определения устройства генного анализа на основе совместно используемой памяти, обращайтесь к определению способа генного анализа, основанного на совместно используемой памяти, описанном выше, которое не будет здесь повторяться. Все или некоторые из модулей устройства генного анализа на основе совместно используемой памяти могут быть реализованы программным обеспечением, аппаратными средствами или их сочетанием. Вышеупомянутые модули могут быть встроены или быть независимыми от процессора компьютерного устройства в форме аппаратных средств или сохраняются в памяти в компьютерном устройстве в форме программного обеспечения, чтобы облегчить процессору вызов и выполнение соответствующих операций вышеупомянутых модулей.For a specific definition of a shared memory based gene analysis device, refer to the definition of the shared memory based gene analysis method described above, which will not be repeated here. All or some of the modules of the shared memory gene analysis device may be implemented in software, hardware, or a combination thereof. The above modules may be built into or independent of the processor of the computing device in the form of hardware, or stored in memory in the computer device in the form of software, to facilitate the processor to call and perform the respective operations of the above modules.

В некоторых вариантах осуществления обеспечивается компьютерное устройство, который может быть сервером, и его внутренняя структура может быть такой, как показано на фиг. 11. Компьютерное устройство содержит процессор, память, сетевой интерфейс и базу данных, соединенные через системную шину. Процессор компьютерного устройства используется дл обеспечения возможностей вычислений и управления. Память компьютерного устройства содержит энергонезависимый носитель запоминающего устройства и устройство памяти. Энергонезависимый носитель запоминающего устройства хранит операционную систему, компьютерную программу, и базу данных. Устройство памяти обеспечивает среду для работы операционной системы и компьютерной программы в энергонезависимом носителе запоминающего устройства. База данных компьютерного устройства используется для хранения данных резистентной эквивалентной модели и эквивалентных субмоделей, так же как эквивалентной резистентности, рабочей резистентности и контактной резистентности, полученных во время вычисления. Сетевой интерфейс компьютерного устройства используется для связи с внешними терминалами через сетевое соединение. Компьютерная программа исполняется процессором, чтобы реализовать способ генного анализа, основанный на совместно используемой памяти.In some embodiments, a computing device is provided, which may be a server, and its internal structure may be as shown in FIG. 11. The computer device contains a processor, memory, network interface and database connected via a system bus. The processor of the computing device is used to provide computing and control capabilities. The memory of the computing device comprises a non-volatile storage medium and a memory device. The non-volatile storage medium stores an operating system, a computer program, and a database. The memory device provides an operating environment for an operating system and a computer program on a non-volatile storage medium. The database of the computer device is used to store data of the resistance equivalent model and equivalent sub-models, as well as the equivalent resistance, working resistance and contact resistance obtained during the calculation. The network interface of the computer device is used to communicate with external terminals through a network connection. A computer program is executed by a processor to implement a shared memory based gene analysis method.

Специалисты в данной области техники могут понимать, что структура, показанная на фиг. 11, является блок-схемой только некоторых структур, связанных со схемой этой заявки, и не составляет ограничение для компьютерного устройства, к которому применяется схема этой заявки. Конкретное компьютерное устройство может содержать больше или меньше компонентов, чем показано на чертеже, или объединять несколько компонентов или иметь другие компоновки элементов.Those skilled in the art may appreciate that the structure shown in FIG. 11 is a block diagram of only some of the structures associated with the schema of this application and does not constitute a limitation on the computing device to which the schema of this application applies. A particular computing device may contain more or fewer components than shown in the drawing, or may combine several components or have other arrangements of elements.

В некоторых вариантах осуществления обеспечивается компьютерное устройство, содержащее процессор, память и компьютерную программу, хранящуюся в памяти и исполняемую процессором, который, когда исполняет компьютерную программу, реализует следующие этапы, на которых: считывают данные образцов и предварительно обрабатывают данные образцов; выполняют генный анализ предварительно обработанных данных образцов, и определяют, находится ли требуемый при генном анализе библиотечный файл в совместно используемой генной памяти; если да, получают требуемый библиотечный файл из совместно используемой генной памяти, преобразуют требуемый библиотечный файл в процессе генного анализа предварительно обработанных данных образцов и завершают генный анализ.In some embodiments, a computing device is provided, comprising a processor, a memory, and a computer program stored in the memory and executed by the processor, which, when executing the computer program, performs the steps of: reading sample data and preprocessing the sample data; performing gene analysis of the pre-processed sample data, and determining whether a library file required for gene analysis is in the shared gene memory; if so, obtaining the desired library file from the shared gene memory, converting the desired library file in a gene analysis process of the pre-processed sample data, and terminating the gene analysis.

В некоторых вариантах осуществления процессор, когда исполняет компьютерную программу, дополнительно реализует следующие этапы, на которых: определяют, удовлетворяет ли требуемый библиотечный файл условию загрузки, в случае, когда требуемый при генном анализе библиотечный файл не находится в совместно используемой генной памяти; и загружают требуемый библиотечный файл в совместно используемую генную память в случае, когда условие загрузки удовлетворяется.In some embodiments, the processor, when executing a computer program, further implements the following steps of: determining if a required library file satisfies a load condition in case the library file required for gene analysis is not in shared gene memory; and loading the required library file into the shared gene memory in case the loading condition is satisfied.

В некоторых вариантах осуществления определение, удовлетворяет ли требуемый библиотечный файл условию загрузки в случае, когда требуемый при генном анализе библиотечный файл не находится в совместно используемой генной памяти, и загружать ли требуемый библиотечный файл в совместно используемую генную память, в случае, когда удовлетворяется условие загрузки, содержит этап, на котором: получают информацию о требуемом библиотечном файле и информацию о совместно используемой генной памяти, где информация о требуемом библиотечном файле содержит пространство, запрашиваемое требуемым библиотечным файлом, и количество архивных запросов загрузки требуемого библиотечного файла, и информация о совместно используемой генной памяти содержит остающееся пространство совместно используемой генной памяти; и если количество архивных запросов загрузки требуемого библиотечного файла больше первого заданного количества и пространство, запрашиваемое требуемым библиотечным файлом, меньше остающегося пространства совместно используемой генной памяти, загружают требуемый библиотечный файл в совместно используемую генную память.In some embodiments, determining whether the required library file satisfies the load condition in the case where the library file required for gene analysis is not in shared gene memory, and whether to load the required library file into shared gene memory when the load condition is satisfied , contains the step of: obtaining information about the required library file and information about the shared gene memory, where the information about the required library file contains the space requested by the required library file, and the number of archive download requests of the required library file, and information about the shared gene memory contains the remaining space of the shared gene memory; and if the number of archive download requests of the desired library file is greater than the first predetermined number and the space requested by the desired library file is less than the remaining space of the shared gene memory, loading the desired library file into the shared gene memory.

В некоторых вариантах осуществления информация о требуемом библиотечном файле дополнительно содержит частоту запроса загрузки требуемого библиотечного файла, информация о совместно используемой памяти содержит частоты запроса загрузки всех библиотечных файлов в совместно используемой генной памяти; определение, удовлетворяет ли требуемый библиотечный файл условию загрузки и загружать ли требуемый библиотечный файл в совместно используемую генную память, в случае, когда удовлетворяется условие загрузки, дополнительно содержит этапы, на которых: если количество архивных запросов загрузки требуемого библиотечного файла больше первого заданного количества и пространство, запрашиваемое требуемым библиотечным файлом, больше остающегося пространства совместно используемой генной памяти, ранжируют требуемый библиотечный файл и все библиотечные файлы в порядке приоритета в соответствии с частотой запроса загрузки требуемого библиотечного файла и частотами запросов загрузки всех библиотечных файлов, чтобы получить приоритет частоты загрузки каждого библиотечного файла; если приоритет частоты запроса загрузки требуемого библиотечного файла выше, чем приоритет библиотечного файла в совместно используемой генной памяти, и если остающееся пространство совместно используемой генной памяти после удаления библиотечного файла с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти больше или равно пространству, запрашиваемому заданным библиотечным файлом, удаляют библиотечный файл с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти; и если количество архивных запросов загрузки требуемого библиотечного файла больше первого заданного количества, и пространство, запрашиваемое требуемым библиотечным файлом меньше, чем остающееся пространство совместно используемой генной памяти, загружают требуемый библиотечный файл в совместно используемую генную память.In some embodiments, the requested library file information further comprises a requested library file load request rate; the shared memory information comprises load request rates of all library files in the shared gene memory; determining whether the required library file satisfies the load condition and whether to load the required library file into the shared gene memory, in the case where the load condition is satisfied, further comprises: if the number of download archive requests of the desired library file is greater than the first predetermined number and requested by the required library file is greater than the remaining space of the shared gene memory, rank the required library file and all library files in order of priority according to the download request frequency of the required library file and the download request frequencies of all library files, to obtain the download frequency priority of each library file ; if the load request rate priority of the required library file is higher than the priority of the library file in the shared gene memory, and if the remaining space of the shared gene memory after deletion of the library file with the lower load request frequency priority in the shared gene memory is greater than or equal to the space requested a given library file, deleting a library file with a lower load request frequency priority in the shared gene memory; and if the number of archive download requests of the desired library file is greater than the first predetermined number, and the space requested by the desired library file is less than the remaining space of the shared gene memory, loading the required library file into the shared gene memory.

В некоторых вариантах осуществления информация о требуемом библиотечном файле дополнительно содержит частоту запроса загрузки требуемого библиотечного файла, информация о совместно используемой генной памяти дополнительно содержит частоты запроса загрузки всех библиотечных файлов; определение, удовлетворяет ли требуемый библиотечный файл условию загрузки и загружать ли требуемый библиотечный файл в совместно используемую генную память, в случае, когда удовлетворяется условие загрузки, дополнительно содержит: если количество архивных запросов загрузки требуемого библиотечного файла больше первого заданного количества и пространство, запрашиваемое требуемым библиотечным файлом, больше остающегося пространства совместно используемой генной памяти, ранжируют требуемый библиотечный файл и все библиотечные файлы в порядке приоритета в соответствии с частотой запроса загрузки требуемого библиотечного файла и частотами запроса загрузки всех библиотечных файлов, чтобы получить приоритет частоты запроса загрузки каждого библиотечного файла; если приоритет частоты запроса загрузки требуемого библиотечного файла выше, чем приоритет библиотечного файла в совместно используемой генной памяти и если остающееся пространство совместно используемой генной памяти после удаления библиотечного файла с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти больше или равно пространству, запрашиваемому требуемым библиотечным файлом, удаляют библиотечный файл с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти; и загружают требуемый библиотечный файл в совместно используемую генную память.In some embodiments, the requested library file information further comprises a requested library file download request rate, the shared gene memory information further comprises download request rates of all library files; determining whether the required library file satisfies the load condition and whether to load the required library file into the shared gene memory, in the case where the load condition is satisfied, further comprises: a file greater than the remaining space of the shared gene memory, ranking the required library file and all library files in order of priority according to the download request frequency of the required library file and the download request frequencies of all library files, to obtain the priority of the download request frequency of each library file; if the load request rate priority of the required library file is higher than the priority of the library file in the shared gene memory and if the remaining space of the shared gene memory after deletion of the library file with the lower load request frequency priority in the shared gene memory is greater than or equal to the space requested by the requested the library file, deleting the library file with a lower load request frequency priority in the shared gene memory; and loading the required library file into the shared gene memory.

В некоторых вариантах осуществления процессор, когда исполняет компьютерную программу, дополнительно реализует следующие этапы, на которых: устанавливают совместно используемую генную память для используемых при генном анализе библиотечных файлов, устанавливают размер совместно используемой генной памяти, количество библиотечных файлов, которые могут быть размещены, имя каждого библиотечного файла и смещение размера каждого библиотечного файла; и загружают библиотечные файлы, обычно используемые при генном анализе, в совместно используемую генную память в соответствии с размером совместно используемой генной памяти, количеством библиотечных файлов, которые могут быть размещены, именем каждого библиотечного файла и смещением размера каждого библиотечного файла.In some embodiments, the processor, when executing a computer program, further implements the following steps of: setting shared gene memory for library files used in gene analysis, setting size of shared gene memory, number of library files that can be accommodated, name of each library file and size offset of each library file; and loading the library files commonly used in gene analysis into the shared gene memory according to the size of the shared gene memory, the number of library files that can be accommodated, the name of each library file, and the size offset of each library file.

В некоторых вариантах осуществления генный анализ содержит анализ выравнивания, вариационный анализ и аннотационный анализ, и процессор, когда исполняет компьютерную программу, дополнительно реализует следующий этап, на котором выполняют анализ выравнивания, вариационный анализ и аннотационный анализ предварительно обработанных данных образцов в последовательности, где в случае, когда предварительно обработанные данные образцов содержат многочисленные группы данных образцов, многочисленные группы данных образцов одновременно находятся на одном и том же этапе или на различных этапах генного анализа.In some embodiments, the gene analysis comprises an alignment analysis, an analysis of variance, and an annotation analysis, and the processor, when executing the computer program, further implements the next step, which performs an alignment analysis, an analysis of variance, and an annotation analysis of the preprocessed sample data in a sequence where, in the case of when the pre-processed sample data contains multiple groups of sample data, the multiple groups of sample data are simultaneously in the same stage or in different stages of gene analysis.

В некоторых вариантах осуществления генный анализ дополнительно содержит сортировочный анализ и анализ маркировки-дублирования, где после выполнения анализа выравнивания, вариационного анализа и аннотационного анализа данных образцов, предварительно обработанных в последовательности, процессор, когда исполняет компьютерную программу, дополнительно реализует следующие этапы, на которых: маркируют данные образцов после анализа выравнивания с помощью позиционного тега; и выполняют посредством модуля на данных образцов сортировочный анализа и анализ маркировки-дублирования.In some embodiments, the gene analysis further comprises sorting analysis and label-duplication analysis, where after performing an alignment analysis, analysis of variation, and annotation analysis of the sample data pre-processed in sequence, the processor, when executing a computer program, further implements the following steps, in which: labeling the sample data after alignment analysis with a positional tag; and performing sorting analysis and marking-duplication analysis on these samples by means of the module.

В некоторых вариантах осуществления процессор, когда исполняет компьютерную программу, дополнительно реализует следующий этап, на котором соединяют некоторые или все этапы генного анализа путем использования памяти.In some embodiments, the processor, when executing a computer program, further implements the next step, which connects some or all of the gene analysis steps by using memory.

В некоторых вариантах осуществления предварительная обработка данных образцов содержит выполнение контроля качества, операцию фильтрации и статистическую обработку данных образцов.In some embodiments, the pre-processing of the sample data comprises performing a quality control, a filtering operation, and statistical processing of the sample data.

Некоторые варианты осуществления обеспечивают считываемый компьютером носитель запоминающего устройства, на котором хранится компьютерная программа, которая, когда исполняется процессором, реализует следующие этапы, на которых: считывают данные образцов и предварительно обрабатывают данные образцов; выполняют генный анализ предварительно обработанных данных образцов, и определяют, находится ли требуемый при генном анализе библиотечный файл в совместно используемой генной памяти; если да, то получают требуемый библиотечный файл из совместно используемой генной памяти, преобразуют требуемый библиотечный файл в процессе генного анализа предварительно обработанных данных образцов, и завершают генный анализ.Some embodiments provide a computer-readable storage medium that stores a computer program that, when executed by a processor, performs the steps of: reading sample data and pre-processing the sample data; performing gene analysis of the pre-processed sample data, and determining whether a library file required for gene analysis is in the shared gene memory; if yes, then obtain the desired library file from the shared gene memory, transform the desired library file in the process of gene analysis of the pre-processed sample data, and complete the gene analysis.

В некоторых вариантах осуществления процессор, когда исполняет компьютерную программу, дополнительно реализует следующие этапы, на которых: определяют, удовлетворяет ли требуемый библиотечный файл условию загрузки в случае, когда требуемый при генном анализе библиотечный файл не находится в совместно используемой генной памяти; и загружают требуемый библиотечный файл в совместно используемую генную память в случае, когда удовлетворяется условие загрузки.In some embodiments, the processor, when executing a computer program, further implements the following steps of: determining if a required library file satisfies a load condition in the case where the library file required for gene analysis is not in shared gene memory; and loading the required library file into the shared gene memory in case the load condition is satisfied.

В некоторых вариантах осуществления определение, удовлетворяет ли требуемый библиотечный файл условию загрузки в случае, когда требуемый при генном анализе библиотечный файл не находится в совместно используемой генной памяти, и загружать ли требуемый библиотечный файл в совместно используемую генную память в случае, когда удовлетворяется условие загрузки, содержит: получение информации о требуемом библиотечном файле и информации о совместно используемой генной памяти, где информация о требуемом библиотечном файле содержит пространство, запрашиваемое заданным библиотечным файлом, и количество архивных запросов загрузки требуемого библиотечного файла, и информация о совместно используемой генной памяти содержит остающееся пространство совместно используемой генной памяти; и если количество архивных запросов загрузки требуемого библиотечного файла больше первого заданного количества и пространство, запрашиваемое заданным библиотечным файлом, меньше остающегося пространства совместно используемой генной памяти, загружают требуемый библиотечный файл в совместно используемую генную память.In some embodiments, determining whether the required library file satisfies the load condition in the case where the library file required for gene analysis is not in shared gene memory, and whether to load the required library file into shared gene memory in the case where the load condition is satisfied, contains: obtaining information about the required library file and information about the shared gene memory, where the information about the required library file contains the space requested by the specified library file and the number of archive download requests of the desired library file, and the information about the shared gene memory contains the remaining space shared used gene memory; and if the number of archive download requests of the desired library file is greater than the first predetermined number and the space requested by the predetermined library file is less than the remaining space of the shared gene memory, loading the desired library file into the shared gene memory.

В некоторых вариантах осуществления информация о требуемом библиотечном файле дополнительно содержит частоту запроса загрузки требуемого библиотечного файла, информация о совместно используемой генной памяти дополнительно содержит частоты запроса загрузки всех библиотечных файлов в совместно используемой генной памяти; определение, удовлетворяет ли требуемый библиотечный файл условию загрузки и загружать ли требуемый библиотечный файл в совместно используемую генную память, в случае, когда условие загрузки удовлетворяется, дополнительно содержит: если количество архивных запросов загрузки требуемого библиотечного файла больше первого заданного количества и пространство, запрашиваемое заданным файлом библиотеки, больше остающегося пространства совместно используемой генной памяти, ранжируют требуемый библиотечный файл и все библиотечные файлы в порядке приоритета в соответствии с частотой запроса загрузки требуемого библиотечного файла и частотами запроса загрузки всех библиотечных файлов, чтобы получить приоритет частоты запроса загрузки каждого библиотечного файла; если приоритет частоты запроса загрузки требуемого библиотечного файла больше приоритета библиотечного файла в совместно используемой генной памяти и если остающееся пространство совместно используемой генной памяти после удаления библиотечного файла с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти больше или равно пространству, запрашиваемому требуемым библиотечным файлом, удаляют библиотечный файл с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти; и если количество архивных запросов загрузки требуемого библиотечного файла больше первого заданного количества и пространство, запрашиваемое требуемым библиотечным файлом, меньше, чем остающееся пространство совместно используемой генной памяти, загружают требуемый библиотечный файл в совместно используемую генную память.In some embodiments, the required library file information further comprises a requested library file download request rate, the shared gene memory information further comprises download request rates of all library files in the shared gene memory; determining whether the required library file satisfies the load condition and whether to load the required library file into the shared gene memory, in the case where the load condition is satisfied, further comprises: if the number of archive download requests of the desired library file is greater than the first specified number and the space requested by the specified file the libraries greater than the remaining shared gene memory space rank the required library file and all library files in order of priority according to the download request frequency of the required library file and the download request frequencies of all library files to obtain the priority of the download request frequency of each library file; if the download request rate priority of the requested library file is greater than the priority of the library file in the shared gene memory, and if the remaining shared gene storage space after deleting the library file with the lower download request frequency priority in the shared gene memory is greater than or equal to the space requested by the requested library file delete a library file with a lower load request frequency priority in the shared gene memory; and if the number of archive download requests of the desired library file is greater than the first predetermined number and the space requested by the desired library file is less than the remaining space of the shared gene memory, loading the required library file into the shared gene memory.

В некоторых вариантах осуществления информация о требуемом библиотечном файле дополнительно содержит частоту запроса загрузки требуемого библиотечного файла, информация о совместно используемой генной памяти дополнительно содержит частоты запроса загрузки всех библиотечных файлов в совместно используемой генной памяти; определение, удовлетворяет ли требуемый библиотечный файл условию загрузки и загружать ли требуемый библиотечный файл в совместно используемую генную память, в случае, когда условие загрузки соблюдается, дополнительно содержит: если количество архивных запросов загрузки требуемого библиотечного файла больше первого заданного количества и пространство, запрашиваемое требуемым библиотечным файлом, больше остающегося пространства совместно используемой генной памяти, ранжируют требуемый библиотечный файл и все библиотечные файлы в порядке приоритета в соответствии с частотой запроса загрузки требуемого библиотечного файла и частотами запроса загрузки всех библиотечных файлов, чтобы получить приоритет частоты запроса загрузки каждого библиотечного файла; если приоритет частоты запроса загрузки требуемого библиотечного файла выше, чем приоритет библиотечного файла в совместно используемой генной памяти, и если остающееся пространство совместно используемой генной памяти после удаления библиотечного файла с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти больше или равно пространству, запрашиваемому требуемым заданным библиотечным файлом, удаляют библиотечный файл с более низким приоритетом частоты запроса загрузки в совместно используемой генной памяти; и загружают требуемый библиотечный файл в совместно используемую генную память.In some embodiments, the required library file information further comprises a requested library file download request rate, the shared gene memory information further comprises download request rates of all library files in the shared gene memory; determining whether the required library file satisfies the load condition and whether to load the required library file into shared gene memory, in the case where the load condition is met, further comprises: a file greater than the remaining space of the shared gene memory, ranking the required library file and all library files in order of priority according to the download request frequency of the required library file and the download request frequencies of all library files, to obtain the priority of the download request frequency of each library file; if the load request rate priority of the required library file is higher than the priority of the library file in the shared gene memory, and if the remaining space of the shared gene memory after deletion of the library file with the lower load request frequency priority in the shared gene memory is greater than or equal to the space requested a desired given library file, deleting a library file with a lower load request frequency priority in the shared gene memory; and loading the required library file into the shared gene memory.

В некоторых вариантах осуществления компьютерная программа, когда исполняется процессором, дополнительно реализует следующие этапы, на которых: устанавливают совместно используемую генную память для используемых при генном анализе библиотечных файлов, устанавливают размер совместно используемой генной памяти, количество библиотечных файлов, которые могут быть размещены, имя каждого библиотечного файла и смещение размера каждого библиотечного файла; и загружают библиотечные файлы, обычно используемые при генном анализе, в совместно используемую генную память в соответствии с размером совместно используемой генной памяти, количеством библиотечных файлов, которые могут быть размещены, именем каждого библиотечного файла и смещением размера каждого библиотечного файла.In some embodiments, the computer program, when executed by the processor, further implements the steps of: setting shared gene memory for library files used in gene analysis, setting size of shared gene memory, number of library files that can be accommodated, name of each library file and size offset of each library file; and loading the library files commonly used in gene analysis into the shared gene memory according to the size of the shared gene memory, the number of library files that can be accommodated, the name of each library file, and the size offset of each library file.

В некоторых вариантах осуществления генный анализ содержит анализ выравнивания, вариационный анализ и аннотационный анализ и компьютерная программа, когда исполняется процессором, дополнительно реализует следующий этап, на котором: выполняют анализ выравнивания, вариационный анализ и аннотационный анализ данных образцов, предварительно обработанных в последовательности, где в случае, когда предварительно обработанные данные образцов содержат многочисленные группы данных образцов, многочисленные группы данных образцов одновременно находятся на одном и том же этапе или различных этапах генного анализа.In some embodiments, the gene analysis comprises an alignment analysis, an analysis of variance, and an annotation analysis, and the computer program, when executed by the processor, further implements the following step of: performing an alignment analysis, an analysis of variance, and an annotation analysis of the sample data pre-processed in sequence, where in in the case where the pre-processed sample data contains multiple groups of sample data, the multiple groups of sample data are simultaneously in the same stage or different stages of gene analysis.

В некоторых вариантах осуществления генный анализ дополнительно содержит сортировочный анализ и анализ маркировки-дублирования, где после выполнения анализа выравнивания, вариационного анализа и аннотационного анализа данных образцов, предварительно обработанных в последовательности, компьютерная программа, когда исполняется процессором, дополнительно реализует следующие этапы, на которых: маркируют данные образцов после анализа выравнивания с помощью позиционного тега; и выполняют посредством модуля сортировочный анализ и анализ маркировки-дублирования на маркированных данных образцов.In some embodiments, the gene analysis further comprises sorting analysis and label-duplication analysis, where after performing an alignment analysis, analysis of variation, and annotation analysis of the sample data pre-processed in sequence, the computer program, when executed by a processor, further implements the following steps, wherein: labeling the sample data after alignment analysis with a positional tag; and performing, by means of the module, a sorting analysis and a label-duplication analysis on the labeled sample data.

В некоторых вариантах осуществления компьютерная программа, когда исполняется процессором, дополнительно реализует следующий этап, на котором, используя память, соединяют некоторые или все этапы генного анализа.In some embodiments, the computer program, when executed by the processor, further implements the next step in which some or all of the gene analysis steps are connected using memory.

Как должно быть понятно специалистам в данной области техники, все или часть этапов выполнения способа в вышеупомянутых вариантах осуществления могут выполняться аппаратными средствами или программой, подающей команды, сязанные с аппаратными средствами, причем программа может храниться на считываемом компьютером энергонезависимом носителе запоминающего устройства; программа, которая, когда исполняется, может выполнять этапы вариантов осуществления вышеупомянутых способов. Любая ссылка на память, запоминающее устройство, базу данных или другие носители, используемые в вариантах осуществления, представляемых в настоящей заявке, может содержать энергонезависимую и/или энергозависимую память. Энергонезависимая память может содержать постоянную память (ROM), программируемую ROM (PROM), электрически программируемую ROM (EPROM), электрически стираемую программируемую ROM (EEPROM) или флэш-память. Энергозависимая память может содержать оперативную память (RAM) или внешнюю кэш-память. Как иллюстрация, но не ограничение, RAM доступна в различных формах, таких как статическая RAM (SRAM), динамическая RAM (DRAM), синхронная DRAM (SDRAM), SDRAM с удвоенной скоростью передачи данных (DDRSDRAM), улучшенная SDRAM (ESDRAM), синхронно связанная DRAM (SLDRAM), прямая Rambus RAM (RDRAM), динамическая RAM с прямым доступом шине к памяти (DRDRAM) и динамическая Rambus RAM (RDRAM) и т.д.As will be appreciated by those skilled in the art, all or part of the method steps in the above embodiments may be executed by hardware or by a program instructing the hardware, wherein the program may be stored on a computer-readable, non-volatile storage medium; a program that, when executed, can perform the steps of the embodiments of the above methods. Any reference to memory, storage device, database or other media used in the embodiments provided in this application may contain non-volatile and/or volatile memory. The non-volatile memory may comprise read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory. The volatile memory may comprise random access memory (RAM) or external cache memory. By way of illustration, and not limitation, RAM is available in various forms such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous linked DRAM (SLDRAM), direct Rambus RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM) and dynamic Rambus RAM (RDRAM), etc.

Технические признаки вышеупомянутых вариантов осуществления могут сочетаться произвольно. Чтобы сделать описание кратким, все возможные сочетания различных технических признаков в вариантах осуществления не описываются, но должны рассматриваться как присутствующие в рамках объема защиты настоящего описания, пока в этих сочетаниях технических признаков нет никакого противоречия.The technical features of the above embodiments may be combined arbitrarily. To make the description concise, all possible combinations of various technical features are not described in the embodiments, but should be considered to be present within the protection scope of the present description, as long as there is no conflict in these combinations of technical features.

Вышеупомянутые варианты осуществления просто представляют несколько вариантов осуществления настоящей заявки. Однако их относительно конкретные и подробные описания не могут поэтому истолковываться как ограничение объема защиты настоящей заявки. Следует указать, специалист в данной области техники способен создавать различные модификации и улучшения, не отступая от концепции настоящей заявки. Такие модификации и улучшения должны считаться попадающими в рамки объема защиты настоящей заявки. Поэтому объем защиты настоящей заявки должен определяться условиями формулы изобретения.The above embodiments merely represent a few embodiments of the present application. However, their relatively specific and detailed descriptions cannot therefore be construed as limiting the scope of protection of the present application. It should be pointed out that a person skilled in the art is capable of making various modifications and improvements without departing from the concept of the present application. Such modifications and improvements are to be considered as falling within the protection scope of the present application. Therefore, the scope of protection of the present application should be determined by the terms of the claims.

Claims

1. A method for gene analysis based on shared memory, performed by a computer and comprising the steps of:

reading the sample data and pre-processing the sample data, wherein the sample data is data generated or generated after gene sequencing of the samples;

performing gene analysis of the pre-processed sample data and determining whether a library file required for gene analysis is in the shared gene memory;

if found, obtain the desired library file from the shared gene memory, convert the desired library file into a gene analysis process of pre-processed sample data, and perform gene analysis, wherein the sample data contains a plurality of data groups, each data group having a corresponding sample processing process, and each sample processing process enters the shared gene memory area to obtain the required library file.

2. The shared memory gene analysis method of claim 1, further comprising:

determining whether the required library file satisfies the loading condition in the case where the required library file in the gene analysis is not in the shared gene memory; And

downloading the required library file into the shared gene memory when the download condition is satisfied.

3. The shared memory gene analysis method of claim 2, wherein, in the steps of determining whether the required library file satisfies a load condition, in the case where the gene analysis required library file is not in the shared gene memory, and load the required library file into the shared gene memory when the load condition is satisfied:

obtaining information about the required library file and information about the shared gene memory, and information about the required library file contains the amount of memory required by the required library file, and the number of archive download requests of the required library file, and the information about the shared gene memory contains the remaining amount of memory in shared gene memory; And

if the number of archive download requests is greater than the first predetermined number and the amount of memory required by the required library file is less than the remaining amount of memory in the shared gene memory, loading the required library file into the shared gene memory.

4. The shared memory gene analysis method of claim 4, wherein the requested library file information further comprises a download request rate of the required library file, the shared gene memory information comprises download request rates of all library files; wherein in the steps of determining whether the required library file satisfies the load condition, and loading the required library file into the shared gene memory in the case where the load condition is satisfied, further:

if the number of archive download requests is greater than the first predetermined number and the amount of memory required by the required library file is greater than the remaining memory size of the shared gene memory, ranking the required library file and all library files in order of priority according to the frequency of the requested library file's download request, and download request rates of all library files to prioritize the download request rate of each library file;

if the download request rate priority of the desired library file is higher than the priority of the library file in the shared gene memory, and if the remaining memory in the shared gene memory after deleting the library file with the lower download request frequency priority in the shared gene memory is greater than or equal to of the memory required by the required library file, removing the library file with a lower load request frequency priority from the shared gene memory; And

loading the required library file into the shared gene memory.

5. The method of gene analysis based on shared gene memory, according to any one of paragraphs. 1-4, further comprising the steps of:

setting a shared gene memory for the library files used in gene analysis, setting the size of the shared gene memory, the number of library files that can be allocated, the name of each library file, and the size offset of each library file; And

loading library files commonly used in gene analysis into the shared gene memory according to the size of the shared gene memory, the number of library files that can be accommodated, the name of each library file, and the size offset of each library file.

6. The shared memory gene analysis method of claim 1, wherein the gene analysis comprises alignment analysis, variation analysis, and annotation analysis, the method further comprising:

perform alignment analysis, variational analysis and annotation analysis of sample data pre-processed in sequence, wherein in the case where the pre-processed sample data contains a plurality of sample data groups, said plurality of sample data groups are simultaneously at the same stage or at different stages gene analysis.

7. The shared memory gene analysis method of claim 6, wherein the gene analysis further comprises a sorting analysis and a marking-duplication analysis, wherein after performing an alignment analysis, a variation analysis, and an annotation analysis of the sample data pre-processed in sequence , the method further comprises the steps of:

labeling the sample data after alignment analysis with a positional tag; and performing sorting analysis and labeling-duplication analysis of the labeled sample data.

8. The shared memory gene analysis method of claim 7, further comprising:

connect some or all of the steps of gene analysis using memory.

9. The method of gene analysis based on shared memory, according to any one of paragraphs. 6-8, in which at the stage of preliminary preparation of these samples:

perform quality control, filtering operation and statistical processing of sample data.

10. Device for gene analysis based on shared memory, containing:

a data reading module configured to read the sample data, the sample data being data generated or formed after gene sequencing of the samples;

a data pre-processing module configured to pre-process the sample data; And

a gene analysis module, configured to genetically analyze the pre-processed sample data and determine whether a library file required for gene analysis is in a shared gene memory; if found, obtaining the desired library file from the shared gene memory, converting the desired library file into a gene analysis process of the pre-processed sample data, and performing gene analysis, the sample data comprising a plurality of data groups, each data group having a corresponding sample processing process, wherein each sample processing process enters the shared gene memory area to obtain the required library file.

11. A computer device comprising: a memory, a processor and a computer program stored in the memory and executed on the processor, wherein the processor, when executing the computer program, implements the steps of the method according to any one of paragraphs. 1-9.

12. A computer-readable medium on which a computer program is stored, wherein the computer program, when executed by the processor, implements the steps of the method according to any one of claims. 1-9.