RU2747625C1 - Method for joint data compression and encryption in genome alignment - Google Patents
Method for joint data compression and encryption in genome alignment Download PDFInfo
- Publication number
- RU2747625C1 RU2747625C1 RU2020115012A RU2020115012A RU2747625C1 RU 2747625 C1 RU2747625 C1 RU 2747625C1 RU 2020115012 A RU2020115012 A RU 2020115012A RU 2020115012 A RU2020115012 A RU 2020115012A RU 2747625 C1 RU2747625 C1 RU 2747625C1
- Authority
- RU
- Russia
- Prior art keywords
- data
- alignment
- genome
- compressed
- processor
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K17/00—Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Предлагаемое изобретение относится к области обработки геномных данных в целом и, более конкретно, к приложениям секвенирования следующего поколения.The present invention relates to the field of genomic data processing in general and, more specifically, to next generation sequencing applications.
Известен способ и система для сжатия последовательностей генома c использованием графических блоков обработки (см., например, патент (US 20180011870) Method and system for compressing genome sequences using graphic processing units WO/2016/125154, IL).A known method and system for compressing genome sequences using graphic processing units WO / 2016/125154, IL).
Недостатком данного способа является возможность случайной утечки конфиденциальной геномной информации в процессе поиска данных. Из-за отсутстивия шифрования, в случае утечки, геномная информация может быть использована различными способами, например, для отказа в приеме на работу и медицинского страхования, шантажа или даже генетической дискриминации.The disadvantage of this method is the possibility of accidental leakage of confidential genomic information in the process of data retrieval. Due to the lack of encryption, in the event of a leak, genomic information can be used in various ways, for example, to refuse employment and health insurance, blackmail or even genetic discrimination.
Известен способ управления необработанными геномными данными с способом сохранения конфиденциальности в биобанке. (см., например, патент (WO 2014202615) Method to manage raw genomic data in a privacy preserving manner in a biobank № WO/2014/202615, C0048)There is a known method for managing raw genomic data with a method for maintaining confidentiality in a biobank. (see, for example, patent (WO 2014202615) Method to manage raw genomic data in a privacy preserving manner in a biobank No. WO / 2014/202615, C0048)
Недостатком данного способа является необходимость исопльзования дополнительных затрат на хранение и обработку большого объема не сжатой информации. Из-за отсутсвия предварительного сжатия геномных данных, при использовании данного метода возникают дополнительные экономические и технологические требования, что делает способ непрактичным для использования в клинических геномных приложенях.The disadvantage of this method is the need to use additional costs for storing and processing a large amount of non-compressed information. Due to the lack of preliminary compression of genomic data, when using this method, additional economic and technological requirements arise, which makes the method impractical for use in clinical genomic applications.
За прототип принят способ сжатия/декомпресси и устройство для вызова данных геномных вариантов (см., например, патент (EP 3430551) Compression/decompression method and apparatus for genomic variant call data № H03M 7/30, GB), заключающийся в том, в одной схеме генерируется сжатое представление последовательности, по меньшей мере, части генома индивидуума. Способ включает получение входного файла, содержащего представление последовательности, по меньшей мере, части генома индивидуума в форме последовательности вариантов, определенных при сравнении с эталонным геномом; способ позволяет получать доступ к справочной базе биоданных, содержащей множество списков ссылок генетических вариантов разных людей; список ссылок содержит последовательность генетических вариантов из одного гаплотипа; список ссылок представлят собой двойные мозаики, которые соответствуют части генома индивида с точностью до порогового значения; каждая мозаика представляет один из двух гаплотипов генома индивида для которой должно быть создано сжатое представление; сжатое представление создается путем кодирования самих мозаик и кодирования отклонений от этих мозаик.A compression / decompression method and apparatus for genomic variant call data No.
Недостатком способа-прототипа является то, что в нем производится только сжатие данных и не предусмотрено их шифрование. Это не обеспечивает конфиденциальность данных, что может привести к случайной или преднамеренной утечки информации о генетических особенностях индивида из баз биоданных.The disadvantage of the prototype method is that it only compresses data and does not provide for their encryption. This does not ensure the confidentiality of data, which can lead to accidental or deliberate leakage of information about the genetic characteristics of an individual from bio-databases.
Техническая задача изобретения - совметное сжатие и шифрование информации выравнивания геномных данных для уменьшения объема информации, что уменьшает экономические и технологические требования к хранению и обработки информации, а также обеспечивает сохранение конфиденциальности индивидуальных особенностей геномных данных человека на всех этапах взаимиодействия с базами биоданных.The technical problem of the invention is the combined compression and encryption of genomic data alignment information to reduce the amount of information, which reduces the economic and technological requirements for storing and processing information, and also ensures the preservation of the confidentiality of individual characteristics of human genomic data at all stages of interaction with bio-databases.
Техническая задача достигается тем, что в способе сжатия геномных данных, информацию выравнивания геномных данных, организованную как поток данных выравнивания на основе чтения, преобразуют в поток данных выравнивания на основе положения. Информацию выравнивания на основе положения кодируют в поток данных выравнивания на основе ссылок. Поток данных выравнивания на основе ссылок зашифровывают комбинацией сохраняющего порядок шифрования информации о геномном положении и симметричного шифрования разностных данных выравнивания на основе ссылок. Результирующий сжатый и зашифрованный поток индексируют и сохраняют в блоке хранения биобанка в базе данных.The technical problem is achieved in that, in the method for compressing genomic data, the alignment information of the genomic data organized as a read-based alignment data stream is converted into a position-based alignment data stream. Position-based alignment information is encoded into a link-based alignment data stream. The link-based alignment data stream is encrypted by a combination of order-preserving genomic position information and symmetric encryption of the link-based delta alignment data. The resulting compressed and encrypted stream is indexed and stored in the biobank storage unit in the database.
Сущность предлагаемого изобретения заключается в следующем. На фиг. 1 показана схема обработки геномных данных, содержащая кодер геномных данных 6, секвенсор следующего поколения (NGS) 1 и блок хранения биобанка 7. В секвенсоре 1 следующего поколения с процессором генерируют необработанные данные последовательности NGS в один или несколько файлов данных. Файл необработанных данных секвенирования генерируют в формате FASTQ.The essence of the invention is as follows. FIG. 1 shows a genomic data processing scheme containing a
В процессоре выравнивания (модуль 2) принимают в качестве входных данных необработанные данные секвенирования NGS, выравнивают краткие чтения по эталонному геному и генерируют файл необработанных данных выравнивания. Файл необработанных данных выравнивания имеет формат SAM или формат BAM, двоичный эквивалент формата SAM.An alignment processor (module 2) accepts raw NGS sequencing data as input, aligns the short reads to the reference genome, and generates a raw alignment data file. The raw alignment data file is in SAM format or BAM format, the binary equivalent of SAM format.
Модуль выравнивания 2 программируют для реализации различных способов выравнивания геномных данных. Модуль выравнивания 2 является компьютерной системой или частью компьютерной системы, включающей в себя центральный процессор (CPU, «процессор» или «компьютерный процессор»), память, такую как RAM, и модули хранения, такие как жесткий диск, и интерфейсы связи для связи с другими компьютерные системы через сеть связи, например, Интернет или локальную сеть.
В кодере геномных данных 6 принимают в качестве входных данных исходные данные выравнивания из модуля выравнивания 2; транспонируют его с помощью модуля транспонирования 3 в файл исходных данных выравнивания на основе позиции; сжимают с помощью модуля сжатия 4 файл необработанных данных выравнивания на основе положения в файл сжатых данных положения на основе ссылок; и шифруют, в модуле шифрования 5, в файл данных, что позволяет производить выборочный поиск по зашифрованной и сжатой эталонной карте выравнивания (формат файла «SECRAM»). Из кодера геномных данных 6 записывают результирующий зашифрованный файл данных SECRAM со сжатым выравниванием в блок 6 хранения биобанка.The
В модуле транспонирования 3 преобразуют информацию о геномном выравнивании из структуры данных на основе чтения, в структуру данных на основе позиции, как показано на фиг. 2. В основанном на чтении формате выровненные данные, представленные краткими считываниями, последовательно сохраняются, как сгенерированные секвенсором 1, чтение-чтение-чтение, в файле необработанных данных выравнивания.The
Основанные на чтении форматов включают формат SAM, формат BAM и формат CRAM. В формате на основе позиции (фиг. 2) информация об одной позиции сгруппирована вместе в непрерывное хранилище, следовательно, выровненные данные сохраняются по позициям в файле.Read-based formats include SAM format, BAM format, and CRAM format. In the position-based format (FIG. 2), information about one position is grouped together in continuous storage, therefore, the aligned data is stored by position in the file.
На фиг. 3 показана структура файла данных на основе позиции для 5 операций чтения (чтение 1, чтение 2, чтение 3, чтение 4, чтение 5), перекрывающих 9 позиций с индексами от 0 до 8. В позиции 0 записывается начальный маркер чтения 1 и чтения 2. Как показано на фиг. 3, символ * используют в качестве начального маркера для каждого начала короткого чтения в текстовом файле данных, за которым следует информация метаданных, относящаяся к короткому чтению, такая как его имя или идентификатор, цепочка и/или качество отображения, и нуклеотидное основание, идентифицированное в этом положении (A, T, C или G, обозначенное «.*» на фиг. 3) с соответствующим показателем качества. В положении +1 продолжение Чтение1 и Чтение2, то есть следующее нуклеотидное основание, идентифицированное в этом положении (A, T, C или G, обозначенное «.*» На фиг. 3 ), а также начало Чтение3, записаны. В позиции +3 последнее основание Чтение1 и Чтение2, за которым следует маркер конца Чтение1 и Чтение2, а также продолжение Чтение3, Чтение4 и Чтение5 соответственно, то есть следующее нуклеотидное основание, идентифицированное в этой позиции (A, T, C или G, обозначенные «.*» На фиг. 3) для Чтение3, Чтение4 и Чтение5 соответственно, записываются. В возможном варианте осуществления, как показано на фиг. 3 символ «.* $» используют в качестве конечного маркера для каждого короткого конца чтения в текстовом файле данных, но возможны и другие варианты осуществления. В целях иллюстрации, только ультракороткие чтения, перекрывающие позиции от 3 (чтение 4) до 7 (чтение 5), показаны на фиг. 3, но предложенная структура данных применима к коротким чтениям от 100 бит/с и выше, что обычно выводится секвенсорами NGS. Чем дольше считывание, тем короче издержки метаданных RInfo в результирующей структуре файла данных на основе позиции. В возможном варианте осуществления (не показан) информация Rinfo считывания также может включать в себя длину считывания, так что маркер конца не нужно записывать.FIG. 3 shows the structure of a position-based data file for 5 reads (read 1, read 2, read 3, read 4, read 5) overlapping 9 positions with indices from 0 to 8. At
Сжатие данных осуществляется в модуле сжатия 4. В модуле сжатия 4 сжимают файл необработанных данных выравнивания на основе положения в файл сжатых данных положения на основе ссылки. Compression of data is performed in a
Правильно выровненные короткие чтения должны иметь значительную избыточность, так как большая часть операций чтения, будет соответствовать ссылке. Например, на фиг. 2 Данные Чтение1 и Чтение2 должны быть очень похожими. В предложенном варианте осуществления эталонного сжатия, значение позиции (ПозЦ) извлекают из исходных данных выравнивания на основе позиции. Для данной позиции все операции чтения, которые охватывают эту позицию, могут быть упорядочены по их начальным позициям, затем каждое чтение прикрепляется с уникальным порядком. Одному чтению может быть присвоен другой порядок для разных позиций, потому что соответствующие списки покрытых чтений в этих позициях различаются. В любой отдельной позиции строки ПозЦ захватывают один или несколько из трех различных примитивных разностных операторов выравнивания, таких как:Correctly aligned short reads should have significant redundancy, since most of the reads will match the link. For example, in FIG. 2 Data Read1 and Read2 should be very similar. In the proposed embodiment of the reference compression, the position value (POS) is extracted from the original alignment data based on the position. For a given position, all reads that span that position can be ordered by their starting position, then each read is appended with a unique order. One reading can be assigned a different order for different positions because the corresponding lists of covered readings in those positions are different. At any single position, the lines POS captures one or more of three different primitive delta alignment operators, such as:
1. ЗАМЕНА - Порядок //'S'// [A | T | C | G]: чтение (указанное Порядком) для замены указанной буквой по сравнению со ссылкой.1. REPLACEMENT - Order // 'S' // [A | T | C | G]: read (specified by Order) to replace the specified letter versus reference.
2. ВСТАВКА - Порядок //'I'//i// {A, T, C, G}i: чтение содержит вставку из i букв, которые перечислены.2. INSERT - Order // 'I' // i // {A, T, C, G} i: read contains an insert of i letters that are listed.
3. УДАЛЕНИЕ - Порядок //'D': чтение для удаления.3. DELETE - Order // 'D': read to delete.
1. ЗАМЕНА - Порядок //'S'// [A | T | C | G]: чтение (указанное Порядком) имеет замену указанной буквой по сравнению со ссылкой.1. REPLACEMENT - Order // 'S' // [A | T | C | G]: A read (indicated by Order) has substitution with the indicated letter compared to a reference.
2. ВСТАВКА - Порядок //'I'//i// {A, T, C, G}i : чтение содержит вставку из i букв, которые перечислены.2. INSERT - Order // 'I' // i // {A, T, C, G} i: read contains an insert of i letters that are listed.
3. УДАЛЕНИЕ - Порядок //'D': чтение имеет удаление.3. DELETE - Order // 'D': read has delete.
Например, ПозЦ, который выглядит как «9I4ATIG…23SA…57D », означает:For example, PosC, which looks like "9I4ATIG ... 23SA ... 57D" means:
9I4ATG: вставка 4 букв «ATTG» в 9 9I4ATG:
23SA: замена буквой «А» в 2323SA: replacement with the letter "A" in 23
57D: удаление в 5757D: deleting at 57
9I4ATG: вставка 4 букв «ATTG» 99I4ATG: insert 4 letters "ATTG" 9
23SA: замена буквой «А» в 2323SA: replacement with the letter "A" in 23
57D: удаление в 5757D: deleting at 57
Простой пример предложенной ссылочной структуры данных сжатия показан на фиг. 4 где:A simple example of a proposed reference compression data structure is shown in FIG. 4 where:
ПозЦ в позиции 7 относится к 1SG (замена на базу 'G' в Чтение1, упорядоченную как чтение # 1 в этой позиции)The pos at
ПозЦ в позиции 12 относится к 1D3 (удаление 3 баз в Чтение1, упорядоченных как чтение # 1 в этой позиции)The pos at
ПозЦ в позиции 23 относится к 1IAT (вставка двух оснований 'A', 'T' в Чтение3 упорядочена как чтение # 1 в этой позиции)PosC at
ПозЦ в позиции 25 относится к 1IC (вставка базы 'C' в Чтение3 упорядочена как чтение # 1 в этой позиции)PosC at
ПозЦ в позиции 7 относится к 1SG (замена на базу 'G' в Чтение1, упорядоченную как чтение # 1 в этой позиции)The pos at
ПозЦ в позиции 12 относится к 1D3 (удаление 3 баз в Чтение1, упорядоченных как чтение # 1 в этой позиции)The pos at
ПозЦ в позиции 23 относится к 1IAT (вставка двух оснований 'A', 'T' в Чтение3 упорядочена как чтение # 1 в этой позиции)PosC at
ПозЦ в позиции 25 относится к 1IC (вставка базы 'C' в Чтение3 упорядочена как чтение # 1 в этой позиции)PosC at
Более сложные операторы разности выравнивания (например, мягкое ограничение, жесткое ограничение, область пропуска …) также могут быть закодированы вышеупомянутыми операторами примитивов или их комбинацией, как будет очевидно для специалистов в данной области техники.More complex operators of difference alignment (eg, soft constraint, hard constraint, skip ...) can also be encoded by the above primitive operators or a combination thereof, as will be obvious to those skilled in the art.
Список заголовков для чтения содержит список операций чтения, которые начинаются с этой позиции. Он раскладывается как (Order//RInfo) *, где «*» означает произвольное количество таких заголовков. В возможном варианте осуществления информация считывания RInfo также может включать в себя длину считывания, так что нам не нужно сохранять маркер конца.The read headers list contains a list of reads that start at this position. It expands as (Order // RInfo) *, where "*" means an arbitrary number of such headers. In an exemplary embodiment, the read information RInfo may also include the read length so that we do not need to store the end marker.
Показатели качества записывают показатели качества для основ этой позиции.Quality scores record the quality scores for the foundations of that position.
ПозЦ записывает информацию о вариантах относительно эталонной последовательности.PosC records information about variants relative to the reference sequence.
Размер строки - это длина (измеряемая байтами) строки позиции;The line size is the length (measured in bytes) of the position line;
Список заголовков для чтения содержит список операций чтения, которые начинаются с этой позиции. Он раскладывается как (Order//RInfo) *, где «*» означает произвольное количество таких заголовков. В возможном варианте осуществления информация считывания RInfo также может включать в себя длину считывания, так что нам не нужно сохранять маркер конца.The read headers list contains a list of reads that start at this position. It expands as (Order // RInfo) *, where "*" means an arbitrary number of such headers. In an exemplary embodiment, the read information RInfo may also include the read length so that we do not need to store the end marker.
Показатели качества записывают показатели качества для основ этой позиции.Quality scores record the quality scores for the foundations of that position.
ПозЦ записывает информацию о вариантах относительно эталонной последовательности.PosC records information about variants relative to the reference sequence.
После того как исходные данные выравнивания на основе позиции преобразуют в справочную структуру сжатых данных о положении, специалист в области кодирования данных может применять дополнительные методы кодирования данных, такие как энтропийное кодирование и/или алгоритмы кодирования текста, для дополнительного сжатия данных в компактный двоичный справочный файл сжатых данных о местоположении. В возможном варианте осуществления кодирование с переменной длиной может использоваться для дополнительного сжатия различий, обнаруженных в ссылочном сжатии, а также метаданных чтения, таких как показатели качества отображения.Once the original position-based alignment data has been converted into a compressed position reference data structure, the data coding specialist can apply additional data coding techniques such as entropy coding and / or text coding algorithms to further compress the data into a compact binary reference file. compressed location data. In an exemplary embodiment, variable length coding can be used to further compress differences found in reference compression as well as read metadata such as display quality metrics.
Шифрование данных осуществляют в модуле шифрования 5. Модуль шифрованя назначают мастер-ключ Km каждому пациенту, который может использоваться для получения различных ключей шифрования для разных этапов шифрования. В модуле шифрования 5 независимо шифруют информацию о вариантах для каждой позиции, то есть каждой строки в структуре данных на фиг. 3 для обеспечения детального контроля конфиденциальности путем частичного извлечения данных о геномном выравнивании при одновременном устранении общих угроз утечки информации о геномном выравнивании. Таким образом, ограничивают поиск данных только интересующими позициями из результирующего файла данных (например, в формате файла «SECRAM») без утечки какой-либо информации из позиций вне интересующей области, даже если исходные считанные данные выравнивания (например, в формате файла SAM/BAM) охватывают как релевантные, так и нерелевантные позиции.The data is encrypted in the
В модуль шифрования 5 кодируют формат файла сжатых геномных данных по фиг. 5) в зашифрованный сжатый формат файла SECRAM, как показано на фиг. 5) в два этапа. На первом этапе из модуля шифрования 5 извлекают сохраняющий порядок ключ шифрования из главного ключа Km пациента и шифруют поля позиции Поз1, Поз2, Поз3… в сохраняющий порядок зашифрованный блок позиций 5.3 из блока 5.0 сжатых файлов геномных данных с использованием схемы шифрования с сохранением порядка (OPE) с ключом шифрования с сохранением порядка OPE. Эта схема шифрования с сохранением порядка позволяет извлекать результирующие зашифрованные данные 5.3 в заданной строке, соответствующей определенной позиции (OPE (Поз1), OPE (Поз2) или OPE (Поз3) … на фиг. 5), не требуя дешифрование всего блока данных 5.3 (например, блок из 50000 строк данных) на этапе декодирования.The
На втором этапе со ссылкой на формат по фиг. 5, модуль 5 шифрования шифруют конфиденциальную информацию в каждой позиции, такую как блок 5.1 данных ПозЦ SG, D-3 I-AT… закодированных коротких разностей чтения относительно эталонной последовательности в зашифрованный блок 5.4 данных ПозЦ с помощью современного метода SE шифрования безопасности. Модуль шифрования 5 выводит ключ Ksc из главного ключа Km пациента. Для i-го блока 5.1 покрывая несколько строк позиции в своем входном файле сжатых данных о позициях, связанном с пациентом m, модуль 5 шифрования генерирует случайное число Ri. Для каждой строки позиции в сжатом блоке i модуль шифрования 5 шифрует сцепленные данные 5.1 ПозЦ с помощью потокового шифра с использованием симметричного ключа шифрования Ksc и случайного значения Ri для генерации симметрично зашифрованных данных 5.4 ПозЦ. В предложенном варианте для шифрования используют режим потокового шифра XOR. В возможном варианте осуществления используется AES в режиме шифрования потока CTR. В возможном варианте осуществления модуль 5 шифрования сохраняет случайную соль Ri в индексном файле (не показан). В другом возможном варианте осуществления (не показан) модуль 5 шифрования сохраняет случайную соль Ri в заголовке блока зашифрованных данных.In a second step, with reference to the format of FIG. 5, the
Общая схема обеспечения безопасности и обеспечения соблюдения конфиденциальности сильно зависит от базовой системы управления ключами. The overall design for security and privacy is highly dependent on the underlying key management system.
Таким образом разработанный способ совместного сжатия и шифрования данных при геномном выравнивании, генерирующий сжатое представление последовательности генома в форме последовательности вариантов, полученных на основе сравнения с эталонным геномом, что уменьшает экономические и технологические требования к хранению и обработке информации, а также повышает сохранность конфиденциальности индивидуальных геномных данных за счет устранения интервала времени между сжатиеме геномных данных после секветирования и шифрованием, что повышает защищенность данных.Thus, the developed method of joint compression and encryption of data in genomic alignment, generating a compressed representation of the genome sequence in the form of a sequence of variants obtained on the basis of comparison with the reference genome, which reduces the economic and technological requirements for storing and processing information, and also increases the confidentiality of individual genomic data. data by eliminating the time interval between compression of genomic data after sequencing and encryption, which increases data security.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020115012A RU2747625C1 (en) | 2020-04-28 | 2020-04-28 | Method for joint data compression and encryption in genome alignment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020115012A RU2747625C1 (en) | 2020-04-28 | 2020-04-28 | Method for joint data compression and encryption in genome alignment |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2747625C1 true RU2747625C1 (en) | 2021-05-11 |
Family
ID=75919691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2020115012A RU2747625C1 (en) | 2020-04-28 | 2020-04-28 | Method for joint data compression and encryption in genome alignment |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2747625C1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014202615A2 (en) * | 2013-06-19 | 2014-12-24 | Sophia Genetics S.A. | Method to manage raw genomic data in a privacy preserving manner in a biobank |
US20180011870A1 (en) * | 2015-02-02 | 2018-01-11 | Sqream Technologies Ltd. | Method and system for compressing genome sequences using graphic processing units |
RU2659025C1 (en) * | 2017-06-14 | 2018-06-26 | Общество с ограниченной ответственностью "ЛЭНДИГРАД" | Methods of encoding and decoding information |
EP3430551A1 (en) * | 2016-03-15 | 2019-01-23 | Genomics Plc | Compression/decompression method and apparatus for genomic variant call data |
US20190087601A1 (en) * | 2016-03-09 | 2019-03-21 | Sophia Genetics S.A. | Methods to compress, encrypt and retrieve genomic alignment data |
-
2020
- 2020-04-28 RU RU2020115012A patent/RU2747625C1/en active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014202615A2 (en) * | 2013-06-19 | 2014-12-24 | Sophia Genetics S.A. | Method to manage raw genomic data in a privacy preserving manner in a biobank |
US20180011870A1 (en) * | 2015-02-02 | 2018-01-11 | Sqream Technologies Ltd. | Method and system for compressing genome sequences using graphic processing units |
US20190087601A1 (en) * | 2016-03-09 | 2019-03-21 | Sophia Genetics S.A. | Methods to compress, encrypt and retrieve genomic alignment data |
EP3430551A1 (en) * | 2016-03-15 | 2019-01-23 | Genomics Plc | Compression/decompression method and apparatus for genomic variant call data |
RU2659025C1 (en) * | 2017-06-14 | 2018-06-26 | Общество с ограниченной ответственностью "ЛЭНДИГРАД" | Methods of encoding and decoding information |
Non-Patent Citations (1)
Title |
---|
Gregory W. Vurture et al. "GENOMESCOPE: FAST REFERENCE-FREE GENOME PROFILING FROM SHORT READS", GENOMSCOPE, Pub. 28.02.2017. * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10467420B2 (en) | Systems for embedding information in data strings | |
US20220344005A1 (en) | Methods to compress, encrypt and retrieve genomic alignment data | |
DK2272021T3 (en) | SECURE DATACACHE | |
CN111079171A (en) | Block chain-based medical data privacy protection method and storage medium | |
JP6054790B2 (en) | Gene information storage device, gene information search device, gene information storage program, gene information search program, gene information storage method, gene information search method, and gene information search system | |
US20100058476A1 (en) | Electronic information retention method/system, electronic information split retention method/system, electronic information split restoration processing method/system, and programs for the same | |
JP2006197540A (en) | Method of generating alteration detecting data, alteration detecting method and apparatus thereof | |
KR20110129628A (en) | Method and apparatus for searching dna sequence | |
US20050213767A1 (en) | Encoding and recording apparatus, playback apparatus, and program | |
CN105009067A (en) | Managing operations on stored data units | |
WO2012063755A1 (en) | Distributed archive system, data archive device, and data restoring device | |
CN105027071A (en) | Managing operations on stored data units | |
CN105009068A (en) | Managing operations on stored data units | |
Srinivasan et al. | Secure transmission of medical records using high capacity steganography | |
RU2747625C1 (en) | Method for joint data compression and encryption in genome alignment | |
JP2002033727A (en) | File management system | |
KR20040070438A (en) | Apparatus for encoding DNA sequence and method of the same | |
JP4822842B2 (en) | Anonymized identification information generation system and program. | |
JP2005099911A (en) | Data storage system using network | |
CN116305294B (en) | Data leakage tracing method and device, electronic equipment and storage medium | |
CN115879126B (en) | Medical information sharing method based on secure cloud storage, electronic equipment and storage medium | |
Schnell et al. | A comparison of statistical linkage keys with bloom filter-based encryptions for privacy-preserving record linkage using real-world mammography data | |
JP4774276B2 (en) | Anonymous information system, conversion division device, information providing device, and information storage device | |
JPH06187510A (en) | Information recording and reproducing system | |
Naro et al. | Reversible fingerprinting for genomic information |