RU2747625C1 - Method for joint data compression and encryption in genome alignment - Google Patents

Method for joint data compression and encryption in genome alignment Download PDF

Info

Publication number
RU2747625C1
RU2747625C1 RU2020115012A RU2020115012A RU2747625C1 RU 2747625 C1 RU2747625 C1 RU 2747625C1 RU 2020115012 A RU2020115012 A RU 2020115012A RU 2020115012 A RU2020115012 A RU 2020115012A RU 2747625 C1 RU2747625 C1 RU 2747625C1
Authority
RU
Russia
Prior art keywords
data
alignment
genome
compressed
processor
Prior art date
Application number
RU2020115012A
Other languages
Russian (ru)
Inventor
Илья Михайлович Рассолов
Алексей Владимирович Платёнкин
Владимир Николаевич Чернышов
Original Assignee
Федеральное государственное бюджетное учреждение высшего образования «Тамбовский государственный технический университет» (ФГБОУ ВО «ТГТУ»)
Федеральное государственное бюджетное учреждение высшего образования "Московский государственный юридический университет имени О.Е. Кутафина (МГЮА)" Университет имени О.Е. Кутафина (МГЮА)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное учреждение высшего образования «Тамбовский государственный технический университет» (ФГБОУ ВО «ТГТУ»), Федеральное государственное бюджетное учреждение высшего образования "Московский государственный юридический университет имени О.Е. Кутафина (МГЮА)" Университет имени О.Е. Кутафина (МГЮА) filed Critical Федеральное государственное бюджетное учреждение высшего образования «Тамбовский государственный технический университет» (ФГБОУ ВО «ТГТУ»)
Priority to RU2020115012A priority Critical patent/RU2747625C1/en
Application granted granted Critical
Publication of RU2747625C1 publication Critical patent/RU2747625C1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K17/00Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

FIELD: computational technology.
SUBSTANCE: invention relates to the area of computational technology, namely to processing of genome data. A computer-implemented method of joint data compression and encryption in genome alignment generating a compressed representation of a genome sequence in form of a sequence of variants obtained based at a comparison with a reference genome, and accepting unprocessed sequencing data (NGS) as input using an alignment processor, the original data is received by a genome data encoder from the alignment processor, the data is transposed by the processor into the original data file based on the alignment position, then the processor performs encryption into a data file considering the position allowing selective search over the encrypted and compressed alignment reference map, and the resulting encrypted data file is recorded from the encoder data in the SECRAM format with compressed alignment in the biobank storage unit.
EFFECT: increased reliability of data storage.
1 cl, 7 dwg

Description

Предлагаемое изобретение относится к области обработки геномных данных в целом и, более конкретно, к приложениям секвенирования следующего поколения.The present invention relates to the field of genomic data processing in general and, more specifically, to next generation sequencing applications.

Известен способ и система для сжатия последовательностей генома c использованием графических блоков обработки (см., например, патент (US 20180011870) Method and system for compressing genome sequences using graphic processing units WO/2016/125154, IL).A known method and system for compressing genome sequences using graphic processing units WO / 2016/125154, IL).

Недостатком данного способа является возможность случайной утечки конфиденциальной геномной информации в процессе поиска данных. Из-за отсутстивия шифрования, в случае утечки, геномная информация может быть использована различными способами, например, для отказа в приеме на работу и медицинского страхования, шантажа или даже генетической дискриминации.The disadvantage of this method is the possibility of accidental leakage of confidential genomic information in the process of data retrieval. Due to the lack of encryption, in the event of a leak, genomic information can be used in various ways, for example, to refuse employment and health insurance, blackmail or even genetic discrimination.

Известен способ управления необработанными геномными данными с способом сохранения конфиденциальности в биобанке. (см., например, патент (WO 2014202615) Method to manage raw genomic data in a privacy preserving manner in a biobank № WO/2014/202615, C0048)There is a known method for managing raw genomic data with a method for maintaining confidentiality in a biobank. (see, for example, patent (WO 2014202615) Method to manage raw genomic data in a privacy preserving manner in a biobank No. WO / 2014/202615, C0048)

Недостатком данного способа является необходимость исопльзования дополнительных затрат на хранение и обработку большого объема не сжатой информации. Из-за отсутсвия предварительного сжатия геномных данных, при использовании данного метода возникают дополнительные экономические и технологические требования, что делает способ непрактичным для использования в клинических геномных приложенях.The disadvantage of this method is the need to use additional costs for storing and processing a large amount of non-compressed information. Due to the lack of preliminary compression of genomic data, when using this method, additional economic and technological requirements arise, which makes the method impractical for use in clinical genomic applications.

За прототип принят способ сжатия/декомпресси и устройство для вызова данных геномных вариантов (см., например, патент (EP 3430551) Compression/decompression method and apparatus for genomic variant call data № H03M 7/30, GB), заключающийся в том, в одной схеме генерируется сжатое представление последовательности, по меньшей мере, части генома индивидуума. Способ включает получение входного файла, содержащего представление последовательности, по меньшей мере, части генома индивидуума в форме последовательности вариантов, определенных при сравнении с эталонным геномом; способ позволяет получать доступ к справочной базе биоданных, содержащей множество списков ссылок генетических вариантов разных людей; список ссылок содержит последовательность генетических вариантов из одного гаплотипа; список ссылок представлят собой двойные мозаики, которые соответствуют части генома индивида с точностью до порогового значения; каждая мозаика представляет один из двух гаплотипов генома индивида для которой должно быть создано сжатое представление; сжатое представление создается путем кодирования самих мозаик и кодирования отклонений от этих мозаик.A compression / decompression method and apparatus for genomic variant call data No. H03M 7/30, GB) is adopted as a prototype (see, for example, patent (EP 3430551) Compression / decompression method and apparatus for genomic variant call data No. H03M 7/30, GB), which consists in one diagram generates a compressed sequence representation of at least a portion of an individual's genome. The method includes obtaining an input file containing a sequence representation of at least part of the genome of an individual in the form of a sequence of variants determined by comparison with a reference genome; the method allows you to access the biodata reference database containing many lists of links of genetic variants of different people; the list of links contains a sequence of genetic variants from one haplotype; the list of references is a double mosaic that corresponds to a part of an individual's genome up to a threshold value; each mosaic represents one of the two haplotypes of the individual's genome for which a condensed representation is to be created; a compressed representation is created by encoding the tiles themselves and encoding the deviations from those tiles.

Недостатком способа-прототипа является то, что в нем производится только сжатие данных и не предусмотрено их шифрование. Это не обеспечивает конфиденциальность данных, что может привести к случайной или преднамеренной утечки информации о генетических особенностях индивида из баз биоданных.The disadvantage of the prototype method is that it only compresses data and does not provide for their encryption. This does not ensure the confidentiality of data, which can lead to accidental or deliberate leakage of information about the genetic characteristics of an individual from bio-databases.

Техническая задача изобретения - совметное сжатие и шифрование информации выравнивания геномных данных для уменьшения объема информации, что уменьшает экономические и технологические требования к хранению и обработки информации, а также обеспечивает сохранение конфиденциальности индивидуальных особенностей геномных данных человека на всех этапах взаимиодействия с базами биоданных.The technical problem of the invention is the combined compression and encryption of genomic data alignment information to reduce the amount of information, which reduces the economic and technological requirements for storing and processing information, and also ensures the preservation of the confidentiality of individual characteristics of human genomic data at all stages of interaction with bio-databases.

Техническая задача достигается тем, что в способе сжатия геномных данных, информацию выравнивания геномных данных, организованную как поток данных выравнивания на основе чтения, преобразуют в поток данных выравнивания на основе положения. Информацию выравнивания на основе положения кодируют в поток данных выравнивания на основе ссылок. Поток данных выравнивания на основе ссылок зашифровывают комбинацией сохраняющего порядок шифрования информации о геномном положении и симметричного шифрования разностных данных выравнивания на основе ссылок. Результирующий сжатый и зашифрованный поток индексируют и сохраняют в блоке хранения биобанка в базе данных.The technical problem is achieved in that, in the method for compressing genomic data, the alignment information of the genomic data organized as a read-based alignment data stream is converted into a position-based alignment data stream. Position-based alignment information is encoded into a link-based alignment data stream. The link-based alignment data stream is encrypted by a combination of order-preserving genomic position information and symmetric encryption of the link-based delta alignment data. The resulting compressed and encrypted stream is indexed and stored in the biobank storage unit in the database.

Сущность предлагаемого изобретения заключается в следующем. На фиг. 1 показана схема обработки геномных данных, содержащая кодер геномных данных 6, секвенсор следующего поколения (NGS) 1 и блок хранения биобанка 7. В секвенсоре 1 следующего поколения с процессором генерируют необработанные данные последовательности NGS в один или несколько файлов данных. Файл необработанных данных секвенирования генерируют в формате FASTQ.The essence of the invention is as follows. FIG. 1 shows a genomic data processing scheme containing a genomic data encoder 6, a next generation sequencer (NGS) 1 and a biobank 7 storage unit 7. In a next generation sequencer 1 with a processor, raw NGS sequence data is generated into one or more data files. The raw sequencing data file is generated in FASTQ format.

В процессоре выравнивания (модуль 2) принимают в качестве входных данных необработанные данные секвенирования NGS, выравнивают краткие чтения по эталонному геному и генерируют файл необработанных данных выравнивания. Файл необработанных данных выравнивания имеет формат SAM или формат BAM, двоичный эквивалент формата SAM.An alignment processor (module 2) accepts raw NGS sequencing data as input, aligns the short reads to the reference genome, and generates a raw alignment data file. The raw alignment data file is in SAM format or BAM format, the binary equivalent of SAM format.

Модуль выравнивания 2 программируют для реализации различных способов выравнивания геномных данных. Модуль выравнивания 2 является компьютерной системой или частью компьютерной системы, включающей в себя центральный процессор (CPU, «процессор» или «компьютерный процессор»), память, такую как RAM, и модули хранения, такие как жесткий диск, и интерфейсы связи для связи с другими компьютерные системы через сеть связи, например, Интернет или локальную сеть.Alignment module 2 is programmed to implement various methods for aligning genomic data. Equalizer 2 is a computer system or part of a computer system including a central processing unit (CPU, "processor" or "computer processor"), memory such as RAM, and storage modules such as a hard disk, and communication interfaces for communicating with other computer systems via a communications network, such as the Internet or a local area network.

В кодере геномных данных 6 принимают в качестве входных данных исходные данные выравнивания из модуля выравнивания 2; транспонируют его с помощью модуля транспонирования 3 в файл исходных данных выравнивания на основе позиции; сжимают с помощью модуля сжатия 4 файл необработанных данных выравнивания на основе положения в файл сжатых данных положения на основе ссылок; и шифруют, в модуле шифрования 5, в файл данных, что позволяет производить выборочный поиск по зашифрованной и сжатой эталонной карте выравнивания (формат файла «SECRAM»). Из кодера геномных данных 6 записывают результирующий зашифрованный файл данных SECRAM со сжатым выравниванием в блок 6 хранения биобанка.The genomic data encoder 6 receives, as input, the original alignment data from the alignment unit 2; transpose it with the transpose unit 3 into the original alignment data file based on the position; compressing by the compression unit 4 the position-based alignment raw data file into the reference-based position compressed data file; and encrypted, in the encryption module 5, into a data file, which allows a selective search on the encrypted and compressed alignment reference card (file format "SECRAM"). From the genomic data encoder 6, the resulting encrypted SECRAM data file with compressed alignment is written to the biobank storage unit 6.

В модуле транспонирования 3 преобразуют информацию о геномном выравнивании из структуры данных на основе чтения, в структуру данных на основе позиции, как показано на фиг. 2. В основанном на чтении формате выровненные данные, представленные краткими считываниями, последовательно сохраняются, как сгенерированные секвенсором 1, чтение-чтение-чтение, в файле необработанных данных выравнивания.The transposition unit 3 converts genomic alignment information from a read-based data structure to a position-based data structure as shown in FIG. 2. In a read-based format, the aligned data represented by short reads is stored sequentially as generated by sequencer 1, read-read-read, in a raw alignment data file.

Основанные на чтении форматов включают формат SAM, формат BAM и формат CRAM. В формате на основе позиции (фиг. 2) информация об одной позиции сгруппирована вместе в непрерывное хранилище, следовательно, выровненные данные сохраняются по позициям в файле.Read-based formats include SAM format, BAM format, and CRAM format. In the position-based format (FIG. 2), information about one position is grouped together in continuous storage, therefore, the aligned data is stored by position in the file.

На фиг. 3 показана структура файла данных на основе позиции для 5 операций чтения (чтение 1, чтение 2, чтение 3, чтение 4, чтение 5), перекрывающих 9 позиций с индексами от 0 до 8. В позиции 0 записывается начальный маркер чтения 1 и чтения 2. Как показано на фиг. 3, символ * используют в качестве начального маркера для каждого начала короткого чтения в текстовом файле данных, за которым следует информация метаданных, относящаяся к короткому чтению, такая как его имя или идентификатор, цепочка и/или качество отображения, и нуклеотидное основание, идентифицированное в этом положении (A, T, C или G, обозначенное «.*» на фиг. 3) с соответствующим показателем качества. В положении +1 продолжение Чтение1 и Чтение2, то есть следующее нуклеотидное основание, идентифицированное в этом положении (A, T, C или G, обозначенное «.*» На фиг. 3 ), а также начало Чтение3, записаны. В позиции +3 последнее основание Чтение1 и Чтение2, за которым следует маркер конца Чтение1 и Чтение2, а также продолжение Чтение3, Чтение4 и Чтение5 соответственно, то есть следующее нуклеотидное основание, идентифицированное в этой позиции (A, T, C или G, обозначенные «.*» На фиг. 3) для Чтение3, Чтение4 и Чтение5 соответственно, записываются. В возможном варианте осуществления, как показано на фиг. 3 символ «.* $» используют в качестве конечного маркера для каждого короткого конца чтения в текстовом файле данных, но возможны и другие варианты осуществления. В целях иллюстрации, только ультракороткие чтения, перекрывающие позиции от 3 (чтение 4) до 7 (чтение 5), показаны на фиг. 3, но предложенная структура данных применима к коротким чтениям от 100 бит/с и выше, что обычно выводится секвенсорами NGS. Чем дольше считывание, тем короче издержки метаданных RInfo в результирующей структуре файла данных на основе позиции. В возможном варианте осуществления (не показан) информация Rinfo считывания также может включать в себя длину считывания, так что маркер конца не нужно записывать.FIG. 3 shows the structure of a position-based data file for 5 reads (read 1, read 2, read 3, read 4, read 5) overlapping 9 positions with indices from 0 to 8. At position 0, the initial marker of read 1 and read 2 is written As shown in FIG. 3, the * character is used as a start marker for each start of a short read in a text data file, followed by metadata information related to the short read, such as its name or identifier, string and / or display quality, and the nucleotide base identified in this position (A, T, C or G, denoted ". *" in Fig. 3) with a corresponding quality score. At position +1, the continuation of Read1 and Read2, that is, the next nucleotide base identified at that position (A, T, C, or G, denoted ". *" In Fig. 3), as well as the beginning of Read3, are recorded. At position +3, the last base Read1 and Read2, followed by the end marker Read1 and Read2, and the continuation of Read3, Read4, and Read5, respectively, that is, the next nucleotide base identified at that position (A, T, C, or G, denoted " . * "In Fig. 3) for Read3, Read4 and Read5, respectively, are written. In a possible embodiment, as shown in FIG. 3, the character ". * $" Is used as an ending marker for each short end of a read in a text data file, but other embodiments are possible. For purposes of illustration, only ultrashort reads spanning positions 3 (read 4) to 7 (read 5) are shown in FIG. 3, but the proposed data structure is applicable to short reads from 100 bps and above, which is usually output by NGS sequencers. The longer the read, the shorter the RInfo metadata overhead in the resulting position-based data file structure. In an exemplary embodiment (not shown), the read information Rinfo may also include the read length so that the end marker does not need to be written.

Сжатие данных осуществляется в модуле сжатия 4. В модуле сжатия 4 сжимают файл необработанных данных выравнивания на основе положения в файл сжатых данных положения на основе ссылки. Compression of data is performed in a compression unit 4. In a compression unit 4, the position-based alignment raw data file is compressed into the compressed position-based data file.

Правильно выровненные короткие чтения должны иметь значительную избыточность, так как большая часть операций чтения, будет соответствовать ссылке. Например, на фиг. 2 Данные Чтение1 и Чтение2 должны быть очень похожими. В предложенном варианте осуществления эталонного сжатия, значение позиции (ПозЦ) извлекают из исходных данных выравнивания на основе позиции. Для данной позиции все операции чтения, которые охватывают эту позицию, могут быть упорядочены по их начальным позициям, затем каждое чтение прикрепляется с уникальным порядком. Одному чтению может быть присвоен другой порядок для разных позиций, потому что соответствующие списки покрытых чтений в этих позициях различаются. В любой отдельной позиции строки ПозЦ захватывают один или несколько из трех различных примитивных разностных операторов выравнивания, таких как:Correctly aligned short reads should have significant redundancy, since most of the reads will match the link. For example, in FIG. 2 Data Read1 and Read2 should be very similar. In the proposed embodiment of the reference compression, the position value (POS) is extracted from the original alignment data based on the position. For a given position, all reads that span that position can be ordered by their starting position, then each read is appended with a unique order. One reading can be assigned a different order for different positions because the corresponding lists of covered readings in those positions are different. At any single position, the lines POS captures one or more of three different primitive delta alignment operators, such as:

1. ЗАМЕНА - Порядок //'S'// [A | T | C | G]: чтение (указанное Порядком) для замены указанной буквой по сравнению со ссылкой.1. REPLACEMENT - Order // 'S' // [A | T | C | G]: read (specified by Order) to replace the specified letter versus reference.

2. ВСТАВКА - Порядок //'I'//i// {A, T, C, G}i: чтение содержит вставку из i букв, которые перечислены.2. INSERT - Order // 'I' // i // {A, T, C, G} i: read contains an insert of i letters that are listed.

3. УДАЛЕНИЕ - Порядок //'D': чтение для удаления.3. DELETE - Order // 'D': read to delete.

1. ЗАМЕНА - Порядок //'S'// [A | T | C | G]: чтение (указанное Порядком) имеет замену указанной буквой по сравнению со ссылкой.1. REPLACEMENT - Order // 'S' // [A | T | C | G]: A read (indicated by Order) has substitution with the indicated letter compared to a reference.

2. ВСТАВКА - Порядок //'I'//i// {A, T, C, G}i : чтение содержит вставку из i букв, которые перечислены.2. INSERT - Order // 'I' // i // {A, T, C, G} i: read contains an insert of i letters that are listed.

3. УДАЛЕНИЕ - Порядок //'D': чтение имеет удаление.3. DELETE - Order // 'D': read has delete.

Например, ПозЦ, который выглядит как «9I4ATIG…23SA…57D », означает:For example, PosC, which looks like "9I4ATIG ... 23SA ... 57D" means:

9I4ATG: вставка 4 букв «ATTG» в 9 9I4ATG: Insert 4 letters "ATTG" in 9

23SA: замена буквой «А» в 2323SA: replacement with the letter "A" in 23

57D: удаление в 5757D: deleting at 57

9I4ATG: вставка 4 букв «ATTG» 99I4ATG: insert 4 letters "ATTG" 9

23SA: замена буквой «А» в 2323SA: replacement with the letter "A" in 23

57D: удаление в 5757D: deleting at 57

Простой пример предложенной ссылочной структуры данных сжатия показан на фиг. 4 где:A simple example of a proposed reference compression data structure is shown in FIG. 4 where:

ПозЦ в позиции 7 относится к 1SG (замена на базу 'G' в Чтение1, упорядоченную как чтение # 1 в этой позиции)The pos at position 7 refers to 1SG (replacing the base 'G' in Read1, ordered as read # 1 at that position)

ПозЦ в позиции 12 относится к 1D3 (удаление 3 баз в Чтение1, упорядоченных как чтение # 1 в этой позиции)The pos at position 12 refers to 1D3 (deleting 3 bases in Read1, ordered as read # 1 at that position)

ПозЦ в позиции 23 относится к 1IAT (вставка двух оснований 'A', 'T' в Чтение3 упорядочена как чтение # 1 в этой позиции)PosC at position 23 refers to 1IAT (insertion of two bases 'A', 'T' in Read3 is ordered as read # 1 at that position)

ПозЦ в позиции 25 относится к 1IC (вставка базы 'C' в Чтение3 упорядочена как чтение # 1 в этой позиции)PosC at position 25 refers to 1IC (insert base 'C' in Read3 is ordered as read # 1 at that position)

ПозЦ в позиции 7 относится к 1SG (замена на базу 'G' в Чтение1, упорядоченную как чтение # 1 в этой позиции)The pos at position 7 refers to 1SG (replacing the base 'G' in Read1, ordered as read # 1 at that position)

ПозЦ в позиции 12 относится к 1D3 (удаление 3 баз в Чтение1, упорядоченных как чтение # 1 в этой позиции)The pos at position 12 refers to 1D3 (deleting 3 bases in Read1, ordered as read # 1 at that position)

ПозЦ в позиции 23 относится к 1IAT (вставка двух оснований 'A', 'T' в Чтение3 упорядочена как чтение # 1 в этой позиции)PosC at position 23 refers to 1IAT (insertion of two bases 'A', 'T' in Read3 is ordered as read # 1 at that position)

ПозЦ в позиции 25 относится к 1IC (вставка базы 'C' в Чтение3 упорядочена как чтение # 1 в этой позиции)PosC at position 25 refers to 1IC (insert base 'C' in Read3 is ordered as read # 1 at that position)

Более сложные операторы разности выравнивания (например, мягкое ограничение, жесткое ограничение, область пропуска …) также могут быть закодированы вышеупомянутыми операторами примитивов или их комбинацией, как будет очевидно для специалистов в данной области техники.More complex operators of difference alignment (eg, soft constraint, hard constraint, skip ...) can also be encoded by the above primitive operators or a combination thereof, as will be obvious to those skilled in the art.

Список заголовков для чтения содержит список операций чтения, которые начинаются с этой позиции. Он раскладывается как (Order//RInfo) *, где «*» означает произвольное количество таких заголовков. В возможном варианте осуществления информация считывания RInfo также может включать в себя длину считывания, так что нам не нужно сохранять маркер конца.The read headers list contains a list of reads that start at this position. It expands as (Order // RInfo) *, where "*" means an arbitrary number of such headers. In an exemplary embodiment, the read information RInfo may also include the read length so that we do not need to store the end marker.

Показатели качества записывают показатели качества для основ этой позиции.Quality scores record the quality scores for the foundations of that position.

ПозЦ записывает информацию о вариантах относительно эталонной последовательности.PosC records information about variants relative to the reference sequence.

Размер строки - это длина (измеряемая байтами) строки позиции;The line size is the length (measured in bytes) of the position line;

Список заголовков для чтения содержит список операций чтения, которые начинаются с этой позиции. Он раскладывается как (Order//RInfo) *, где «*» означает произвольное количество таких заголовков. В возможном варианте осуществления информация считывания RInfo также может включать в себя длину считывания, так что нам не нужно сохранять маркер конца.The read headers list contains a list of reads that start at this position. It expands as (Order // RInfo) *, where "*" means an arbitrary number of such headers. In an exemplary embodiment, the read information RInfo may also include the read length so that we do not need to store the end marker.

Показатели качества записывают показатели качества для основ этой позиции.Quality scores record the quality scores for the foundations of that position.

ПозЦ записывает информацию о вариантах относительно эталонной последовательности.PosC records information about variants relative to the reference sequence.

После того как исходные данные выравнивания на основе позиции преобразуют в справочную структуру сжатых данных о положении, специалист в области кодирования данных может применять дополнительные методы кодирования данных, такие как энтропийное кодирование и/или алгоритмы кодирования текста, для дополнительного сжатия данных в компактный двоичный справочный файл сжатых данных о местоположении. В возможном варианте осуществления кодирование с переменной длиной может использоваться для дополнительного сжатия различий, обнаруженных в ссылочном сжатии, а также метаданных чтения, таких как показатели качества отображения.Once the original position-based alignment data has been converted into a compressed position reference data structure, the data coding specialist can apply additional data coding techniques such as entropy coding and / or text coding algorithms to further compress the data into a compact binary reference file. compressed location data. In an exemplary embodiment, variable length coding can be used to further compress differences found in reference compression as well as read metadata such as display quality metrics.

Шифрование данных осуществляют в модуле шифрования 5. Модуль шифрованя назначают мастер-ключ Km каждому пациенту, который может использоваться для получения различных ключей шифрования для разных этапов шифрования. В модуле шифрования 5 независимо шифруют информацию о вариантах для каждой позиции, то есть каждой строки в структуре данных на фиг. 3 для обеспечения детального контроля конфиденциальности путем частичного извлечения данных о геномном выравнивании при одновременном устранении общих угроз утечки информации о геномном выравнивании. Таким образом, ограничивают поиск данных только интересующими позициями из результирующего файла данных (например, в формате файла «SECRAM») без утечки какой-либо информации из позиций вне интересующей области, даже если исходные считанные данные выравнивания (например, в формате файла SAM/BAM) охватывают как релевантные, так и нерелевантные позиции.The data is encrypted in the encryption module 5. The encryption module assigns a master key Km to each patient, which can be used to obtain different encryption keys for different encryption steps. The encryption module 5 independently encrypts the option information for each position, that is, each row in the data structure in FIG. 3 to provide granular privacy control by partial extraction of genomic alignment data while addressing common threats of genomic alignment information leakage. Thus, data retrieval is limited to only the positions of interest from the resulting data file (for example, in the "SECRAM" file format) without leaking any information from positions outside the region of interest, even if the original read alignment data (for example, in the SAM / BAM file format ) cover both relevant and irrelevant positions.

В модуль шифрования 5 кодируют формат файла сжатых геномных данных по фиг. 5) в зашифрованный сжатый формат файла SECRAM, как показано на фиг. 5) в два этапа. На первом этапе из модуля шифрования 5 извлекают сохраняющий порядок ключ шифрования из главного ключа Km пациента и шифруют поля позиции Поз1, Поз2, Поз3… в сохраняющий порядок зашифрованный блок позиций 5.3 из блока 5.0 сжатых файлов геномных данных с использованием схемы шифрования с сохранением порядка (OPE) с ключом шифрования с сохранением порядка OPE. Эта схема шифрования с сохранением порядка позволяет извлекать результирующие зашифрованные данные 5.3 в заданной строке, соответствующей определенной позиции (OPE (Поз1), OPE (Поз2) или OPE (Поз3) … на фиг. 5), не требуя дешифрование всего блока данных 5.3 (например, блок из 50000 строк данных) на этапе декодирования.The encryption module 5 encodes the compressed genomic data file format of FIG. 5) into an encrypted compressed SECRAM file format as shown in FIG. 5) in two stages. At the first stage, the order-preserving encryption key is extracted from the encryption module 5 from the patient's master key Km and the position fields Pos1, Pos2, Pos3 are encrypted into the order-preserving encrypted block of positions 5.3 from the block 5.0 of compressed genomic data files using an order-preserving encryption scheme (OPE ) with an encryption key with preserving the order of OPE. This order-preserving encryption scheme allows the retrieval of the resulting encrypted data 5.3 in a given string corresponding to a specific position (OPE (Pos1), OPE (Pos2) or OPE (Pos3) ... in FIG. 5) without requiring decryption of the entire data block 5.3 (for example , block of 50,000 data lines) at the decoding stage.

На втором этапе со ссылкой на формат по фиг. 5, модуль 5 шифрования шифруют конфиденциальную информацию в каждой позиции, такую как блок 5.1 данных ПозЦ SG, D-3 I-AT… закодированных коротких разностей чтения относительно эталонной последовательности в зашифрованный блок 5.4 данных ПозЦ с помощью современного метода SE шифрования безопасности. Модуль шифрования 5 выводит ключ Ksc из главного ключа Km пациента. Для i-го блока 5.1 покрывая несколько строк позиции в своем входном файле сжатых данных о позициях, связанном с пациентом m, модуль 5 шифрования генерирует случайное число Ri. Для каждой строки позиции в сжатом блоке i модуль шифрования 5 шифрует сцепленные данные 5.1 ПозЦ с помощью потокового шифра с использованием симметричного ключа шифрования Ksc и случайного значения Ri для генерации симметрично зашифрованных данных 5.4 ПозЦ. В предложенном варианте для шифрования используют режим потокового шифра XOR. В возможном варианте осуществления используется AES в режиме шифрования потока CTR. В возможном варианте осуществления модуль 5 шифрования сохраняет случайную соль Ri в индексном файле (не показан). В другом возможном варианте осуществления (не показан) модуль 5 шифрования сохраняет случайную соль Ri в заголовке блока зашифрованных данных.In a second step, with reference to the format of FIG. 5, the encryption module 5 encrypts confidential information in each position, such as the PSC data block 5.1 SG, D-3 I-AT ... encoded short difference reads relative to the reference sequence into the encrypted PSC data block 5.4 using the modern SE security encryption method. The encryption module 5 derives the key Ksc from the patient's master key Km. For the i-th block 5.1, covering several position lines in its input compressed position data file associated with patient m, the encryption module 5 generates a random number Ri. For each row of a position in the compressed block i, the encryption module 5 encrypts the concatenated data 5.1 POC using a stream cipher using a symmetric encryption key Ksc and a random value Ri to generate symmetrically encrypted data 5.4 POC. In the proposed embodiment, the XOR stream cipher mode is used for encryption. In an exemplary embodiment, AES is used in the CTR stream encryption mode. In an exemplary embodiment, the encryption unit 5 stores the random salt Ri in an index file (not shown). In another possible embodiment (not shown), the encryption module 5 stores the random salt Ri in the header of the encrypted data block.

Общая схема обеспечения безопасности и обеспечения соблюдения конфиденциальности сильно зависит от базовой системы управления ключами. The overall design for security and privacy is highly dependent on the underlying key management system.

Таким образом разработанный способ совместного сжатия и шифрования данных при геномном выравнивании, генерирующий сжатое представление последовательности генома в форме последовательности вариантов, полученных на основе сравнения с эталонным геномом, что уменьшает экономические и технологические требования к хранению и обработке информации, а также повышает сохранность конфиденциальности индивидуальных геномных данных за счет устранения интервала времени между сжатиеме геномных данных после секветирования и шифрованием, что повышает защищенность данных.Thus, the developed method of joint compression and encryption of data in genomic alignment, generating a compressed representation of the genome sequence in the form of a sequence of variants obtained on the basis of comparison with the reference genome, which reduces the economic and technological requirements for storing and processing information, and also increases the confidentiality of individual genomic data. data by eliminating the time interval between compression of genomic data after sequencing and encryption, which increases data security.

Claims (1)

Компьютерно-реализуемый способ совместного сжатия и шифрования данных при геномном выравнивании, генерирующий сжатое представление последовательности генома в форме последовательности вариантов, полученных на основе сравнения с эталонным геномом, о т л и ч а ю щ и й с я тем, что принимают в качестве входных данных необработанные данные секвенирования (NGS) с помощью процессора выравнивания, выравнивают краткие чтения по эталонному геному и генерируют файл необработанных данных выравнивания, при этом файл необработанных данных имеет формат SAM или BAM, на кодер геномных данных поступают исходные данные от процессора выравнивания, транспонируют с помощью процессора данные в файл исходных данных на основе позиции выравнивания, после чего с помощью процессора сжимают файл необработанных данных выравнивания на основе положения в файл с учетом позиции выравнивания, затем процессор осуществляет шифрование в файл данных с учетом позиции, что позволяет производить выборочный поиск по зашифрованной и сжатой эталонной карте выравнивания, и из кодера данных записывают результирующий зашифрованный файл данных в формате SECRAM со сжатым выравниванием в блок хранения биобанка.A computer-implemented method of jointly compressing and encrypting data in genomic alignment, which generates a compressed representation of the genome sequence in the form of a sequence of variants obtained on the basis of comparison with a reference genome, including what is taken as input data raw sequencing data (NGS) using an alignment processor, align the short reads with the reference genome and generate a raw alignment data file, while the raw data file is in SAM or BAM format, the original data from the alignment processor is sent to the genomic data encoder, transposed using processor compresses the raw data file based on the alignment position, then the processor compresses the positional alignment raw data file based on the alignment position, then the processor encrypts the data file based on the position, which allows selective search on encrypted compressed and compressed reference alignment card, and from the data encoder write the resulting encrypted data file in SECRAM format with compressed alignment to the biobank storage unit.
RU2020115012A 2020-04-28 2020-04-28 Method for joint data compression and encryption in genome alignment RU2747625C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2020115012A RU2747625C1 (en) 2020-04-28 2020-04-28 Method for joint data compression and encryption in genome alignment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020115012A RU2747625C1 (en) 2020-04-28 2020-04-28 Method for joint data compression and encryption in genome alignment

Publications (1)

Publication Number Publication Date
RU2747625C1 true RU2747625C1 (en) 2021-05-11

Family

ID=75919691

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020115012A RU2747625C1 (en) 2020-04-28 2020-04-28 Method for joint data compression and encryption in genome alignment

Country Status (1)

Country Link
RU (1) RU2747625C1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014202615A2 (en) * 2013-06-19 2014-12-24 Sophia Genetics S.A. Method to manage raw genomic data in a privacy preserving manner in a biobank
US20180011870A1 (en) * 2015-02-02 2018-01-11 Sqream Technologies Ltd. Method and system for compressing genome sequences using graphic processing units
RU2659025C1 (en) * 2017-06-14 2018-06-26 Общество с ограниченной ответственностью "ЛЭНДИГРАД" Methods of encoding and decoding information
EP3430551A1 (en) * 2016-03-15 2019-01-23 Genomics Plc Compression/decompression method and apparatus for genomic variant call data
US20190087601A1 (en) * 2016-03-09 2019-03-21 Sophia Genetics S.A. Methods to compress, encrypt and retrieve genomic alignment data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014202615A2 (en) * 2013-06-19 2014-12-24 Sophia Genetics S.A. Method to manage raw genomic data in a privacy preserving manner in a biobank
US20180011870A1 (en) * 2015-02-02 2018-01-11 Sqream Technologies Ltd. Method and system for compressing genome sequences using graphic processing units
US20190087601A1 (en) * 2016-03-09 2019-03-21 Sophia Genetics S.A. Methods to compress, encrypt and retrieve genomic alignment data
EP3430551A1 (en) * 2016-03-15 2019-01-23 Genomics Plc Compression/decompression method and apparatus for genomic variant call data
RU2659025C1 (en) * 2017-06-14 2018-06-26 Общество с ограниченной ответственностью "ЛЭНДИГРАД" Methods of encoding and decoding information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Gregory W. Vurture et al. "GENOMESCOPE: FAST REFERENCE-FREE GENOME PROFILING FROM SHORT READS", GENOMSCOPE, Pub. 28.02.2017. *

Similar Documents

Publication Publication Date Title
US10467420B2 (en) Systems for embedding information in data strings
US20220344005A1 (en) Methods to compress, encrypt and retrieve genomic alignment data
DK2272021T3 (en) SECURE DATACACHE
CN111079171A (en) Block chain-based medical data privacy protection method and storage medium
JP6054790B2 (en) Gene information storage device, gene information search device, gene information storage program, gene information search program, gene information storage method, gene information search method, and gene information search system
US20100058476A1 (en) Electronic information retention method/system, electronic information split retention method/system, electronic information split restoration processing method/system, and programs for the same
JP2006197540A (en) Method of generating alteration detecting data, alteration detecting method and apparatus thereof
KR20110129628A (en) Method and apparatus for searching dna sequence
US20050213767A1 (en) Encoding and recording apparatus, playback apparatus, and program
CN105009067A (en) Managing operations on stored data units
WO2012063755A1 (en) Distributed archive system, data archive device, and data restoring device
CN105027071A (en) Managing operations on stored data units
CN105009068A (en) Managing operations on stored data units
Srinivasan et al. Secure transmission of medical records using high capacity steganography
RU2747625C1 (en) Method for joint data compression and encryption in genome alignment
JP2002033727A (en) File management system
KR20040070438A (en) Apparatus for encoding DNA sequence and method of the same
JP4822842B2 (en) Anonymized identification information generation system and program.
JP2005099911A (en) Data storage system using network
CN116305294B (en) Data leakage tracing method and device, electronic equipment and storage medium
CN115879126B (en) Medical information sharing method based on secure cloud storage, electronic equipment and storage medium
Schnell et al. A comparison of statistical linkage keys with bloom filter-based encryptions for privacy-preserving record linkage using real-world mammography data
JP4774276B2 (en) Anonymous information system, conversion division device, information providing device, and information storage device
JPH06187510A (en) Information recording and reproducing system
Naro et al. Reversible fingerprinting for genomic information