RU2659025C1 - Способы кодирования и декодирования информации - Google Patents

Способы кодирования и декодирования информации Download PDF

Info

Publication number
RU2659025C1
RU2659025C1 RU2017120555A RU2017120555A RU2659025C1 RU 2659025 C1 RU2659025 C1 RU 2659025C1 RU 2017120555 A RU2017120555 A RU 2017120555A RU 2017120555 A RU2017120555 A RU 2017120555A RU 2659025 C1 RU2659025 C1 RU 2659025C1
Authority
RU
Russia
Prior art keywords
information
molecular genetic
genetic system
matrix
encoding
Prior art date
Application number
RU2017120555A
Other languages
English (en)
Inventor
Сергей Николаевич Смирнов
Original Assignee
Общество с ограниченной ответственностью "ЛЭНДИГРАД"
Сергей Николаевич Смирнов
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "ЛЭНДИГРАД", Сергей Николаевич Смирнов filed Critical Общество с ограниченной ответственностью "ЛЭНДИГРАД"
Priority to RU2017120555A priority Critical patent/RU2659025C1/ru
Priority to PCT/RU2018/000384 priority patent/WO2018231100A1/ru
Priority to KR1020207001138A priority patent/KR102269463B1/ko
Priority to IL259907A priority patent/IL259907A/en
Priority to ZA2018/03894A priority patent/ZA201803894B/en
Priority to CA3008070A priority patent/CA3008070A1/en
Priority to KR1020180068262A priority patent/KR20180136407A/ko
Priority to EP18177823.4A priority patent/EP3416076A1/en
Priority to JP2018113817A priority patent/JP2019009776A/ja
Priority to US16/008,958 priority patent/US20180365276A1/en
Priority to AU2018204252A priority patent/AU2018204252B2/en
Priority to TW107120605A priority patent/TWI673604B/zh
Priority to CN201810615395.4A priority patent/CN109086890A/zh
Application granted granted Critical
Publication of RU2659025C1 publication Critical patent/RU2659025C1/ru

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/14Conversion to or from non-weighted codes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/28Programmable structures, i.e. where the code converter contains apparatus which is operator-changeable to modify the conversion process
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B82NANOTECHNOLOGY
    • B82YSPECIFIC USES OR APPLICATIONS OF NANOSTRUCTURES; MEASUREMENT OR ANALYSIS OF NANOSTRUCTURES; MANUFACTURE OR TREATMENT OF NANOSTRUCTURES
    • B82Y10/00Nanotechnology for information processing, storage or transmission, e.g. quantum computing or single electron logic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Error Detection And Correction (AREA)

Abstract

Изобретение относится к области кодирования/декодирования информации. Технический результат - повышение эффективности помехоустойчивого кодирования/декодирования информации за счет увеличения объема передачи/приема информации при уменьшении количества используемых элементов. При выполнении способа кодирования информации массив кодируемой информации разделяют на логически законченные фрагменты, каждому из которых ставят в соответствие элемент используемой для кодирования молекулярно-генетической системы; ко множеству элементов системы добавляют соответствующую индексирующую информацию, состоящую из i-информационных бит; к каждой кодовой комбинации информационных бит добавляют комбинацию из k-контрольных бит, определяемую в зависимости от комбинации i-информационных бит; каждую i+k битовую информацию в двоичной форме счисления записывают в виде мультиплета, состоящего из n-числа азотистых оснований или соответствующих им аминокислот и являющегося элементом молекулярно-генетической системы, вместе с кодируемой информацией записывают значение n, от которого зависит размер используемой для кодирования матрицы, а также информацию о выбранном способе трансформации матрицы и порядок ее прочтения. 2 н. и 33 з.п. ф-лы, 17 ил., 4 табл.

Description

Изобретения относятся к области биохимии, биофармакологии, биотехнологии, генной инженерии, а также практического программирования вложенных физико-биохимических процессов и технологий, а именно к способам кодирования всех видов информации (текстовых файлов, изображений, звуковых файлов) с использованием ДНК, РНК и аминокислотных последовательностей для последующего ее хранения, обработки, приема/передачи.
Известен способ кодирования текстовой информации на основе ДНК (патент № US 6,312,911, МПК C12Q 1/68, G06N 3/12, 2001 г.), который заключается в кодировании текста сообщения в последовательности ДНК и последующим извлечением сообщения с помощью молекулярно-генетической системы, каждый элемент которой состоит из трех различных азотистых оснований ДНК и представляет один алфавитно-цифровой символ. Так как ДНК имеет 4 основания (А - аденин, Т - тимин, С - цитозин, G - гуанин), то максимальное триплетное представление известной молекулярно-генетической системы будет в виде 64 уникальных символов, соответствующих числу сочетаний четырех азотистых оснований.
Известен способ кодирования всех видов информации (текстовых файлов, изображений или звуковых файлов) по патенту № US 2005/0053968 (МПК G06F 19/00, C12Q 1/68, G06N 3/12, G01N 33/48, G11B 20/00, G01N 33/50, G11C 13/02, 2005 г.) с использованием молекулярно-генетической системы, состоящей из различных сочетаний четырех азотистых оснований ДНК (G, А, С, Т), при этом каждое сочетание представляет собой уникальный символ. С помощью известного способа производят синтетическую ДНК-молекулу, которая включает в себя цифровую информацию и ключ шифрования. Синтетическую ДНК встраивают в ДНК носитель для хранения. В случае, когда количество ДНК является слишком большим, то информация может быть раздроблена на несколько сегментов. Способ, описанный в патенте, способен восстанавливать фрагментированные сегменты ДНК путем сопоставления праймера одного из сегментов с хвостовым праймером на одном из последующих сегментов.
Известные способы имеют ограниченную область действия, поскольку не могут быть использованы для эффективного кодирования большого объема информации и имеют низкую помехоустойчивость кодирования.
Из уровня техники известно избыточное кодирование цифровой информации помехоустойчивым кодом, заключающееся в том, что с целью повышения помехоустойчивости к информационным битам добавляется к проверочных бит, позволяющих обнаружить и (или) исправить возникающие в декодере из-за канала связи ошибки в информации. Известный способ помехоустойчивого кодирования с использованием проверочных бит описан, например, в патенте РФ №2408979 (МПК Н03М 13/19, 2011 г.).
Наиболее близким по технической сущности к заявляемому способу является способ кодирования информации, согласно которому массив кодируемой информации разделяют на дискретные элементы (символы), каждому выделенному символу ставят в соответствие, по крайней мере, один триплет, выстраивают уникальную ДНК-последовательность, которую разбивают на множество перекрывающихся ДНК-сегментов. Ко множеству ДНК-сегментов добавляют соответствующую индексирующую информацию, состоящую из i - информационных бит, представляя тем самым кодируемую информацию в машиночитаемую последовательность в двоичной форме счисления. (Патент № US 61/654,295, МПК G06F 19/00, 2013 г.).
Недостатком данного способа является сравнительно высокая его избыточность, поскольку для кодирования необходимо достаточно большое количество триплетов, что может привести к снижению эффективности кодирования и возникновению ошибок при кодировании, а также низкая информационная емкость, приходящая на каждое азотистое основание, которая приблизительно равна 1.83 битам.
Высокая емкость ДНК для хранения информации является в настоящее время предметом изучения свойств ДНК в целях использования в качестве носителя информации. Молекулы ДНК обеспечивают высокую плотность хранящейся информации, они долговечны и способны хранить информацию многие сотни лет в определенных для этого условиях (т.е. холодная, сухая и темная среда). С позиции теории обеспечения помехоустойчивости в технике цифровой связи и передачи дискретных сигналов генетическая информация обладает природной помехоустойчивостью. Однако остается нерешенной проблема, которая возникает при использовании известных способов кодирования и декодирования информации, - это искажение в процессе кодирования исходной информации из-за различных внешних факторов: дефекты синтеза ДНК, деградацию молекул ДНК во времени и ошибок построения последовательности. Поэтому, несмотря на предшествующие разработки, все еще существует необходимость в систематическом изучении и классифицировании всех специфических взаимодействий между последовательностями из смешанных азотистых оснований с целью определения условий эффективного и быстрого кодирования без помех большого объема информации.
При создании изобретений решалась задача сохранения больших информационных массивов без потерь данных с использованием минимального объема элементов материального носителя.
Технический результат, который будет получен при осуществлении предлагаемого решения, является повышение эффективности помехоустойчивого кодирования и декодирования информации за счет увеличения объема передачи и приема информации при уменьшении количества используемых для кодирования и декодирования элементов.
Указанный технический результат достигается способом кодирования информации, в котором массив кодируемой информации разделяют на логически законченные фрагменты, каждому из которых ставят в соответствие, по крайней мере, один элемент используемой для кодирования молекулярно-генетической системы; ко множеству элементов системы добавляют соответствующую индексирующую информацию, состоящую из i-информационных бит; к каждой кодовой комбинации информационных бит добавляют комбинацию из k-контрольных бит, определяемую в зависимости от комбинации i-информационных бит; при этом, согласно изобретению, каждую i+k битовую информацию в двоичной форме счисления записывают в виде мультиплета, состоящего из n-числа азотистых оснований или соответствующих им аминокислот и являющегося элементом молекулярно-генетической системы, состоящей из основы, выполненной в виде матрицы из четырех азотистых оснований
Figure 00000001
, сгруппированных по количеству водородных связей, и по количеству конденсированных колец, содержащихся в структурах молекул азотистых оснований, которую предварительно формируют путем многократного тензорного возведения в квадрат каждой матрицы предыдущего поколения для образования матрицы следующего поколения; при этом бинарные индексы системы, формирующие i-информационные биты, соответствуют выбранной характеристике азотистых оснований, вместе с кодируемой информацией записывают значение n, от которого зависит размер используемой для кодирования матрицы, а также информацию о выбранном способе трансформации матрицы в последовательность и порядок ее прочтения.
При этом, согласно изобретению, кодируемую информацию выстраивают в машиночитаемую последовательность в двоичной форме исчисления, включающую бинарные индексы для каждого мультиплета.
При этом, согласно изобретению, кодируемую информацию выстраивают в последовательность азотистых оснований.
При этом, согласно изобретению, к каждой кодовой комбинации i-информационных бит добавляют комбинацию из m-управляющих бит, определяемую в зависимости от комбинации i и k бит.
При этом, согласно изобретению, по положению каждого мультиплета в матрице молекулярно-генетической системы оценивают рецессивный или доминантный признак соответствующего ему логически законченного фрагмента.
При этом, согласно изобретению, последовательность азотистых оснований разбивают на логически законченные фрагменты, в которых также закодирована информация о начале и конце информационного отрывка.
При этом, согласно изобретению, кодируемую информацию выстраивают в последовательность азотистых оснований для кодирования на уровне ДНК.
При этом, согласно изобретению, кодируемую информацию выстраивают в последовательность азотистых оснований для кодирования на уровне РНК.
При этом, согласно изобретению, кодируемую информацию выстраивают в последовательность аминокислот.
При этом, согласно изобретению, кодируемую информацию выстраивают в последовательность азотистых оснований для кодирования на уровне белков.
При этом, согласно изобретению, молекулярно-генетическая система имеет линейное матричное представление.
При этом, согласно изобретению, молекулярно-генетическая система имеет квадратичное матричное представление.
При этом, согласно изобретению, молекулярно-генетическая система имеет прямоугольное матричное представление.
При этом, согласно изобретению, молекулярно-генетическая система имеет круговое матричное представление.
При этом, согласно изобретению, молекулярно-генетическая система имеет объемное представление.
При этом, согласно изобретению, молекулярно-генетическая система имеет вид структурного дерева графов.
При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для ДНК.
При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для РНК.
При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для аминокислот.
При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований, формирующих рецессивные и доминантные признаки на генном уровне.
При этом, согласно изобретению, синтетическую ДНК, сформированную из полученной последовательности азотистых оснований, содержащей кодируемую информацию, встраивают в носитель для хранения.
При этом, согласно изобретению, синтетическую ДНК, сформированную из полученной последовательности азотистых оснований, содержащей кодируемую информацию, встраивают в носитель для логико-математических вычислений.
Указанный технический результат достигается способом декодирования информации, в котором машиночитаемую последовательность разбивают на части, состоящие из логически законченных фрагментов декодируемой информации, включающих комбинации из i-информационных бит и k-контрольных бит, ставя в соответствие каждому логически законченному фрагменту, по крайней мере, один мультиплет, состоящий из n-числа азотистых оснований или соответствующих им аминокислот и являющийся элементом используемой для декодирования молекулярно-генетической системы, при этом, согласно изобретению, молекулярно-генетическая система состоит из основы, выполненной в виде матрицы из четырех азотистых оснований
Figure 00000002
, сгруппированных по количеству водородных связей, и по количеству конденсированных колец, содержащихся в структурах молекул азотистых оснований, которую предварительно формируют путем многократного тензорного возведения в квадрат каждой матрицы предыдущего поколения для образования матрицы следующего поколения; при этом бинарные индексы системы, формирующие i-информационные биты, соответствуют выбранной характеристике азотистых оснований, а индексы, формирующие k-контрольные биты, определяют в зависимости от комбинации i-информационных бит.
При этом, согласно изобретению, дискретные части машиночитаемой последовательности, состоящие из логически законченных фрагментов декодируемой информации, включают комбинации из m-управляющих бит, при этом индексы, формирующие m управляющие биты, определяют в зависимости от комбинации i-информационных бит.
При этом, согласно изобретению, по положению каждого мультиплета в матрице молекулярно-генетической системы оценивают рецессивный или доминантный признак соответствующего ему логически законченного фрагмента.
При этом, согласно изобретению, молекулярно-генетическая система имеет линейное матричное представление.
При этом, согласно изобретению, молекулярно-генетическая система имеет квадратичное матричное представление.
При этом, согласно изобретению, молекулярно-генетическая система имеет прямоугольное матричное представление.
При этом, согласно изобретению, молекулярно-генетическая система имеет круговое матричное представление.
При этом, согласно изобретению, молекулярно-генетическая система имеет объемное представление.
При этом, согласно изобретению, молекулярно-генетическая система имеет вид структурного дерева графов.
При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для ДНК.
При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для РНК.
При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для аминокислот.
При этом, согласно изобретению, бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований, формирующих рецессивные и доминантные признаки на генном уровне.
В молекулярной биологии центральная догма - это поток информации от ДНК через РНК от нуклеиновых кислот на белок. Переход генетической информации от ДНК к РНК и от РНК к аминокислотам, формирующим белковые комплексы, является универсальным для всех без исключения клеточных организмов, лежит в основе биосинтеза макромолекул. ДНК, РНК, аминокислоты и белки относятся к линейным полимерам, то есть каждый входящий в их состав мономер соединяется, как, правило, с двумя другими мономерами. Последовательность мономеров кодирует информацию, правила передачи которой описываются центральной догмой.
Воспроизводство молекул ДНК и синтеза молекул РНК осуществляется способом, при котором одна нить ДНК служит матрицей (образцом) для построения дочерней молекулы (матричный синтез). Такой способ обеспечивает копирование наследственной информации и реализацию ее в процессе аминокислотного (белкового) синтеза. Направление потока информации включает три типа матричных синтезов: синтез ДНК - репликация, синтез РНК - транскрипция, синтез белка - трансляция. Кроме того, существует матричный синтез, исправляющий ошибки в структуре ДНК (РНК), вариант ограниченной репликации (репарация), который восстанавливает первоначальную структуру ДНК (РНК). Матричная природа синтеза нуклеиновых кислот и белков обеспечивает высокую точность воспроизведения информации.
В настоящее время особое значение в техническом развитии имеет познание принципов помехоустойчивости генетического кода в связи проблемой обеспечения помехоустойчивости информационных систем. В случае кодирования с помощью последовательностей азотистых оснований ДНК (РНК), а также аминокислот, кодируемая информация будет представлять собой сложнейшую бинарную комбинацию, которая определяется расположением мультиплетов в системе. Декодирование такого представления информации требует сложного математического подхода. Используемая для кодирования и декодирования иерархическая система позволяет определить стабильность каждого мультиплета, общую его структуру молекул и многие другие параметры.
Молекулы белков, нуклеиновых кислот (ДНК, РНК) и полисахаридов, формирующие ткани, органы, внутриклеточный каркас (цитоскелет) и внеклеточный матрикс, мембранные каналы, рецепторы, а также молекулярные машины для синтеза, упаковки и утилизации белков и нуклеиновых кислот, относятся к биологическим нанообъектам. Размер белковых молекул колеблется от 1 до 1000 нм. Диаметр спирали ДНК составляет 2 нм, а ее длина может достигать нескольких сантиметров. Белковые комплексы, формирующие нити цитоскелета, имеют толщину 7-25 нм при длине до нескольких микрон. Указанная особенность позволяет сохранять большие объемы информации с использованием сравнительно небольшого объема материального носителя.
Набор четырех азотистых оснований обычно считается элементарным алфавитом генетического кода. Генетическая информация, передаваемая молекулами наследственности (ДНК и РНК), определяет первичное строение белков живого организма. Каждый кодируемый белок представляет собой цепь из 20-22 видов аминокислот. Последовательность аминокислот в белковой цепи определяется последовательностью триплетов (трехбуквенных «слов»). Триплетом (или кодоном) представляет собой комбинацию из трех последовательно расположенных азотистых оснований, расположенных на нити ДНК (или РНК).
Информация в компьютерах обычно хранится в виде матриц, а ее обработка в компьютерах ведется с помощью матриц унитарных 27 преобразований, прежде всего нормированных матриц Адамара, выступающих в роли логических устройств, которые выполняют различные действия при получении различных условий.
Предложенные к защите изобретения позволяют обнаружить структурные особенности генетического кода на базе математики матриц, построенного в виде предложенной молекулярно-генетической системы, представляющей собой иерархическую систему элементов генетического кода. При этом закономерности в предложенной системе, прослеживаемые по различным характеристикам азотистых оснований для ДНК, РНК, а также аминокислот, обеспечивают помехоустойчивость предложенной системы с точки зрения матрично-математических методов теории дискретных сигналов и цифровой техники. Причем данные закономерности прослеживаются также и на нижестоящих (атомарном и субатомарном) и вышестоящих (белковом, генном) уровнях. Кроме того, в данном подходе структуризации отсутствует необходимое различение ДНК и РНК уровней. Кроме того, структурирование возможно как с мажорными, так и с минорными азотистыми основаниями.
Кроме того, в используемой для кодирования/декодирования молекулярно-генетической системе прослеживается стройная и хорошо моделируемая математически фрактальная взаимосвязь на следующих уровнях:
ДНК ⎯ РНК ⎯ Аминокислоты ⎯ Белки ⎯ Генетические признаки
При этом на каждом структурном уровне рассмотрения молекулярно-генетической системы можно выявить четкие математические зависимости при подсчете атомарных и субатомарных составляющих азотистых оснований.
При этом, на структурном уровне имеется возможность цветового анализа молекулярно-генетической системы: черно-белая, построенная на основе индексирующей информации (1 - черный, 0 - белый), и цветные: фрактальная цветовая схема и схема, организованная по длине волн видимого спектра.
При этом, помимо квадратичной и круговой схем построения молекулярно-генетической системы, определяется линейное представление, прямоугольное представление, объемное (кубическое) представление и представление в виде дерева графов.
Заявленные изобретения поясняются иллюстрирующими материалами, где:
- на фиг. 1 изображено линейное матричное представление используемой для кодирования матрицы, сформированной из 64-х триплетов, для ДНК, РНК и аминокислот с соответствующей каждому элементу матрицы бинарной индексирующей информацией;
- на фиг. 2 - квадратичное матричное представление триплетной матрицы для ДНК, РНК и аминокислот;
- на фиг. 3 - прямоугольное матричное представление триплетной матрицы для ДНК, РНК и аминокислот;
- на фиг. 4 - круговое представление триплетной матрицы для ДНК, РНК и аминокислот;
- на фиг. 5, 5А - объемное (кубическое) представление триплетной матрицы для ДНК/РНК;
- на фиг. 6, 6А - представление триплетной матрицы для ДНК в виде структурного дерева графов;
- на фиг. 7 - изменение количества водородных связей в линейном представлении триплетной матрицы для ДНК;
- на фиг. 8 - изменение количества водородных связей в квадратичном представлении триплетной матрицы для ДНК/РНК;
- на фиг. 9 - изменение суммарного количества атомов углерода (С), водорода (Н), азота (N), и кислорода (О) для каждого азотистого основания в линейном представлении триплетной матрицы для ДНК;
- на фиг. 10 - изменение суммарного количества атомов углерода (С) для каждого азотистого основания ДНК в линейном представлении триплетной матрицы;
- на фиг. 11 - изменение суммарного количества атомов углерода (С) для каждого азотистого основания РНК в линейном представлении триплетной матрицы;
- на фиг. 12 - значение суммарного количества атомов кислорода (О) для каждого азотистого основания ДНК в линейном представлении триплетной матрицы;
- на фиг. 13 - значение суммарного количества атомов кислорода (О) для каждого азотистого основания РНК в линейном представлении триплетной матрицы;
- на фиг. 14 - сравнительный анализ мажорных и минорных азотистых оснований для ДНК и РНК;
- на фиг. 15 - таблица соотношений информационных (переменных) и контрольных (результирующих) значений логической операции сложение по модулю 2 в виде 64 триплетов ДНК (РНК);
- на фиг. 16 - таблица соотношений значений результирующих векторов и их триплетная интерпретация;
- на фиг. 17 - алфавит, составленный на основе молекулярно-генетической системы триплетов.
На практике могут быть разновидности цифровой, текстовой, символьной, графической и смешанной информации. Сущность изобретений заключается в преобразовании любого вида информации в последовательность кодовых комбинаций, состоящих из i - информационных бит с добавлением к каждой кодовой комбинации информационных бит для возможности восстановлении информации по кодовым комбинациям k - контрольных бит, комбинацию которых определяют в зависимости от комбинации i - информационных бит. При этом комбинацию из k - контрольных бит выбирают в соответствии с числовыми представлениями, которые либо совпадают с полной ортогональной системой функций Уолша, применяемой в помехоустойчивом кодировании для обработки дискретных сигналов, либо имеют константное значение.
Массив кодируемой информации разделяют на логически законченные фрагменты (символьный ряд, визуальный ряд, звуковой ряд, ряд биологических последовательностей на генетическом уровне, соматическом уровне), каждому из которых ставят в соответствие, по крайней мере, один элемент молекулярно-генетической системы, состоящий из n-числа азотистых оснований. Ко множеству элементов системы добавляют индексирующую информацию из i - информационный бит, соответствующую выбранной характеристике азотистых оснований для ДНК, РНК или аминокислот. На основании индексирующей информации формируют кодовую проверочную комбинацию из k - контрольных бит, например, комбинацию значений булевой функции сложения переменных значений по модулю 2, числовые представления которой совпадают с полной ортогональной системой функций Уолша. [И.В.Агафонова «Криптографические свойства нелинейных булевых функций», 2007 г., http://dha.spb.ru/PDF/cryptoBOOLEAN.pdf]. Например, количество соответствующих азотистых оснований для одного дискретного элемента кодируемой информации может быть равно 6-ти (X, Y, Z - кодовая комбинация элемента; X'Y'Z' - кодовая комбинация проверки). Используя Z-кодирование, кодируемую информацию представляют в виде машиночитаемой последовательности в двоичной (дискретной) форме счисления либо в виде уникальной нуклеотидной последовательности их n-числа мультиплетов. Вместе с кодируемой информацией записывают значение n и информацию о выбранном способе трансформации матрицы в последовательность. Благодаря фрактальности предложенной для кодирования молекулярно-генетической системы мультиплетная последовательность может быть выстроена для РНК, ДНК, аминокислот, белков.
ДНК и РНК включают в себя нуклеотиды, которые состоят из сахара, фосфатной группы и азотсодержащих оснований: цитозина (С), аденина (А), гуанина (G), тимина (T) для ДНК и урацила (U) для РНК. При этом азотсодержащие основания представляют собой специфические конструкции с особыми биохимическими характеристиками. Поскольку структура сахаро-фосфатного остова остается неизменной, характеристики пяти мажорных азотсодержащих оснований определяют положение нуклеотидов при построении основы молекулярно-генетической системы элементов, которая выполнена в виде квадратной матрицы F1 размера 2×2.
Figure 00000003
, где T/U означает использование при построении системы тимина (для ДНК) или урацила (для РНК).
Основа из четырех азотсодержащих оснований для ДНК и четырех азотсодержащих оснований для РНК является носителем содержательной симметричной системы различительно-объединяющих признаков, которая разбивает четыре азотсодержащих основания различными способами на пары, эквивалентные по одному из этих признаков. Для ДНК основа (F1) выстраивается с тимином (Т), для РНК - с урацилом (U).
Термин «молекулярно-генетическая система», используемый в данном контексте, означает комплекс структур и механизмов передачи наследственной информации (генетического материала), характерных для данного вида. [Арефьев В.А., Лисовенко Л.А. Англо-русский толковый словарь генетических терминов. 1995. 407 с.]. При этом система есть объект, целостность которого обеспечивается совокупностью связей и отношений между группами элементов, объединенных развернутыми в пространстве и во времени структурами.
Обоснование данного построения состоит в следующем.
Двойная спираль обычной ДНК состоит из двух взаимно перевитых полинуклеотидных цепей, азотистые основания которых попарно соединены водородными связями. Жесткость пространственной конфигурации ДНК в основном обеспечивается большим количеством водородных связей между противолежащими основаниями цепей, так что против аденина (А) одной цепи всегда находится тимин (Т) другой, против гуанина (G) - цитозин (С), поэтому одна нить по расположению азотистых оснований комплементарная (дополнительная) к другой нити. Аденин (А) одной цепи связан с тимином (Т) другой, а гуанин (G) с цитозином (С). РНК представляет собой одноцепочную молекулу, построенную таким же образом, как и одна из цепей ДНК. Нуклеотиды РНК похожи на нуклеотиды ДНК, хотя и не тождественны им. Три азотистых основания совершенно такие же, как в ДНК: аденин (А), гуанин (G) и цитозин (С). Однако вместо тимина (Т) в РНК присутствует близкое ему по строению азотистое основание - урацил (U).
В представленной основе (F1) азотсодержащие основания построчно сгруппированы по количеству водородных связей: в первой строке матрицы - комплементарная пара с сильной водородной связью G - С, имеющая три водородные связи, во второй строке - комплементарная пара со слабой водородной связью А - Т(для ДНК)/и(для РНК), имеющая две водородные связи.
Во-вторых, особенность азотистых оснований заключается в том, что ни подразделяются на два типа: пуриновые - аденин (А), гуанин (G) и пиримидиновые - цитозин (С), тимин (Т) и урацил (U). Основу структуры молекул пуриновых и пиримидиновых оснований составляют два ароматических гетероциклических соединения - пиримидин и пурин. Молекула пурина состоит из двух конденсированных колец, а молекула пиримидина - из одного кольца. Следовательно, в представленной основе (F1) азотсодержащие основания по столбцам сгруппированы по количеству конденсированных колец: в первом столбце матрицы - пуриновые основания, имеющие большее число колец в молекулярном строении, во втором столбце - пиримидиновые основания, имеющие меньшее число колец.
Таким образом, получаем основу (F1) системы элементов, в которой азотистые основания разбиты на пары соответствующие их основным характеристикам: по горизонтали: в первой строке элементы с тремя водородными связями, а во второй - элементы с двумя водородными связями, а по вертикали в первом столбце пуриновые основания, во втором - пиримидиновые основания.
В этом разбиении на эквивалентные пары по конкретному признаку каждому азотистому основанию может быть добавлен индекс бинарной оппозиции: например, единицы - в случае сильного проявления признака, и нуля - в случае слабого его проявления. В случае разбиения на бинарные индексы, основанные на биохимических характеристиках азотсодержащих оснований, элементная основа (F1) иллюстрируется следующим образом:
Figure 00000004
Размещение азотистых оснований в элементной основе и наглядно поясняет, что по первому признаку эквивалентными являются горизонтальные пары оснований G=C (три водородные связи, сильная позиция, соответствующая цифре 1) и A=T/U (две водородные связи, слабая позиция, цифра 0), по второму признаку - вертикальные пары G=A (два кольца в молекуле, сильная позиция, соответствующая цифре 1), C=T/U (одно кольцо в молекуле, слабая позиция, соответствующая цифре 0).
Молекулярно-генетическая система для кодирования сформирована путем тензорного (кронекеровского) произведения основы на саму себя. Так, например, матрица следующего поколения F2 для ДНК размером 4×4 будет выглядеть следующим образом:
Figure 00000005
А матрица поколения F3 для ДНК размером 8×8 будет выглядеть:
Figure 00000006
Количество элементов матрицы обосновано количеством сочетаний триплетов из четырех азотистых оснований. Каждый из триплетов имеет свою индивидуальность, поскольку он выступает в качестве собственного значения матрицы и ему соответствует его собственный вектор этой матрицы. Например, каждый из трех триплетов ААС, АСА и САА завязан на свой собственный вектор, а потому в данном отношении эти триплеты существенно различны.
Таким образом, молекулярно-генетическая система сформирована в результате бесконечного количества повторов Fn=F ⊗ Fn-1, где каждый квадрант матрицы F(n) полностью воспроизводит матрицу F(n-1) предыдущего поколения или предыдущей степени. Матрица каждого нового поколения содержит в себе в скрытом виде информацию обо всех предыдущих поколениях (о матрицах всех предыдущих степенях). А самая большая мультиплетная матрица F(∞) матрица содержит информацию обо всех матрицах с более короткими мультиплетами. С возрастанием матричного порядка увеличивается количество сочетаний азотсодержащих оснований, которые определяют множество уникальных элементов структурированной системы, которое может быть бесконечным. Следовательно, с помощью предлагаемой системы элементов можно принимать, передавать, хранить и воспроизводить большой объем информации.
Чтобы иметь возможность обрабатывать информацию техническими средствами, та же система может быть сформирована в двоичной системе исчисления - из индексных значений по столбцам и строкам своих наборов, исходя из сочетаний пуриново-пиримидиновых оснований и количества водородных связей.
Например, в триплетной матрице для ДНК каждый триплет в двоичной системе будет представлен в виде гексаграмм, содержащих, например, 1 байт информации - по 6 бит в каждом байте:
Figure 00000007
Причем, построение каждого триплета в двоичной системе осуществляется с его нижнего азотистого основания, поскольку нижнее основание является элементом первоначальной матрицы F1 размером 2×2, путем сочетания двоичного кода сначала по характеристике «количество водородных связей», а потом - по характеристике «пурин-пиримидин». К нижнему основанию крепится 5'-конец, в верхнем основании - 3'-конец. Замечено также, что движение электронов, также как и считывание идет снизу вверх - от 5' -Р04 (-) к 3' -ОН(+) концу.
Кроме того, описанная система элементов формирует признак: - «доминантный»/«рецессивный», что важно для передачи информации. На уровне ДНК и РНК доминантным (стабильным) является такое азотистое основание, которое присутствует как в ДНК, так и в РНК, а именно: G, С, А. Вместе с тем, рецессивным (изменяемым) является такое азотистое основание, которое встречается только или в ДНК (Т), или только в РНК (U). Среди четырех азотистых оснований тимин (Т) противопоставлен природой трем другим основаниям, поскольку при переходе от ДНК к РНК тимин (Т) заменяется другим азотистым основанием - урацилом (U) и является рецессивным. Поэтому с учетом указанного признака, представленная молекулярно-генетическая система подобна решетке Пеннета (1906 г.) для полигибридного скрещивания организмов, которая представляет законы Менделя наследования признаков при полигибридном скрещивании, подтверждающие наличие природного многоканального помехоустойчивого кодирования информации о наследовании в каждом организме. Эти решетки - графический метод определения генотипа по сочетанию мужских и женских гамет при скрещивании, предложенный английским биологом Р. Пеннетом (R. Punnett). Только в решетках Пеннета вместо собственных значений матриц и их комбинаций фигурируют аналогичные комбинации доминантных и рецессивных аллелей генов от родительских репродуктивных клеток - гамет. При этом в случае передачи информации доминирующие признаки кодируются более устойчивыми (стабильными) азотсодержащими основаниями.
Figure 00000008
Каждый триплет отмечен определенным цветом в зависимости от степени устойчивости азотсодержащих оснований: красным цветом (нижний индекс - 1) те триплеты, в которых только стабильные основания, не меняющиеся и для ДНК и для РНК; оранжевым цветом (нижний индекс - 2) триплеты, в которых только верхнее (дочернее) основание будет меняться, два нижних останутся стабильными; желтым цветом (нижний индекс - 3) те триплеты, у которых будет меняться среднее основания при стабильных нижнем и верхнем; зеленым цветом (нижний индекс - 4) триплеты, у которых только нижнее основание стабильно, а верхнее и среднее меняются; голубым цветом (нижний индекс - 5) те триплеты, у которых меняется нижнее (материнское) основание, при стабильных верхнем и среднем; синим цветом (нижний индекс - 6) триплеты с изменяемыми нижним и верхнем основаниями при стабильном среднем основании; фиолетовым (нижний индекс - 7) триплеты с нижним и средним изменяемым основанием и стабильным верхнем основанием; пурпурным (нижний индекс - 8) - со всеми изменяемыми основаниями.
Построенная решетка Пеннета визуально повторяет ковер Серпинского и иллюстрирует фрактальное построение элементов молекулярно-генетической системы, совпадающей с частью себя самой. Иными словами представленная система имеет ту же структуру, что и ее части. При этом матрица Серпинского продуцирует матрицу Адамара, определяющую признаки помехоустойчивого кодирования. Следовательно, элементные характеристики на всех жизненных уровнях определяют уникальность каждого элемента молекулярно-генетической системы, принцип построения которой обусловлен, например, функцией Уолша, активно применяемой для помехоустойчивого кодирования информации.
Использование фракталов - матриц, каждая часть которой отображает целое, - позволяет сформировать молекулярно-генетическую систему на различных жизненных уровнях, используя в качестве элементов матрицы помимо азотистых оснований атомы, субатомы, аминокислоты, белки, которые в свою очередь формируют (ткани, органы, строительный материал).
Информация от ДНК к РНК передается транспортной последовательностью азотсодержащих оснований, построенной по принципу их комплементарности относительно друг друга.
Figure 00000009
При многократном повторении операции Fn=F ⊗ Fn-1 над матрицей азотистых оснований для РНК получаем идентичную по построению систему элементов, в которой основание тимин (Т) заменено на урацил (U) - также являющийся пиримидиновым основанием с двумя водородными связями:
Figure 00000010
Следовательно, двоичная система триплетов ДНК, представленная в виде гексаграмм, будет идентична для системы триплетов РНК.
Аналогичным образом информация от РНК передается транспортной последовательностью азотсодержащих оснований TPНК к аминокислотам, формирующим белки. Триплетная матрица
Figure 00000011
для РНК (как и все последующие матрицы размером, кратным 3) позволяет выстроить структурную систему для аминокислот
Figure 00000012
, ставя в соответствие каждому триплету (кодону) определенную аминокислоту согласно существующей классификационной таблице аминокислот (https://ru.wikipedia.org/wiki/Генетический код). 64 кодонам соответствует 20 аминокислот: Ala - аланин, Arg - аргинин, Asn - аспарагин. Asp - аспарагиновая кислота, Cys - цистеин, Gln - глутамин, Glu - глутаминовая кислота, Gly - глицин, His - гистидин, Ilе - изолейцин, Leu - лейцин, Lys - лизин, Met - метионин, Phe - фенилаланин, Pro - пролин, Ser - серии, Thr - треонин, Trp - триптофан, Туr -тирозин, Val - валин.
Figure 00000013
Возможно использование не только стандартного генетического кода, но и известных вариаций последнего, с добавлением 21-й (Селеноцистеин) и 22-й (пирролизин) аминокислот. Последовательность кодонов в гене определяет последовательность аминокислот в полипептидной цепи белка, кодируемого этим геном.
Построенная согласно описанному правилу любая матрица с различными собственными мультиплетными значениями трансформируется последовательность (линейное представление) с помощью известных способов кодирования элементов. Если в иерархической структуре данных каждый элемент хранит указатели на его предыдущее поколение, то при линейном представлении такие указатели не используются. Среди способов кодирования наиболее распространенными и эффективными является применение кривой Лебега (Z-кривой) и применение кривой Гильберта. Достоинством кривой Гильберта является ее непрерывность - соседние элементы расположены последовательно. Преимуществом Z-кривой является простота и скорость вычисления, поэтому она чаще применяется на практике. Для кодирования элементов с использованием Z-кривой используется код Мортона, который для Z-кривой вычисляется смещением и смешиванием бит двоичного представления каждой из координат.
На фиг. 1 в качестве одного из возможных примеров осуществления изобретений с использованием молекулярно-генетической системы изображена триплетная матрица для ДНК/РНК и аминокислот с соответствующей каждому элементу матрицы бинарной индексирующей информацией, которая для триплетной системы состоит из 64-х уникальных гексограмм, расположение каждой из которых обусловлено характеристиками азотистых оснований ДНК/РНК. Для лучшего восприятия структуры системы кодирования 64 элемента матрицы разбиты на восемь октетов, нумерация которых начинается с менее устойчивых элементов системы. Матрица изображена в линейном представлении, при котором каждый из восьми октетов расположены последовательно друг за другом с восьмого по первый октет.
В используемой для кодирования информации системе прослеживаются числовые представления, применяемые в кодовой комбинации контрольных бит, которые либо совпадают с полной ортогональной системой функций Уолша, применяемой в помехоустойчивом кодировании для обработки дискретных сигналов, либо имеют константное значение, применяемое для проведения проверок правильного построения системы. В зависимости от применения описываемых способов кодирования/декодирования информации могут быть использованы различные структурные матричные представления, в которых выполняется основное свойство матриц Адамара: FFT=n1, где F - матрица из n элементов -1 и +1. Причем описанные выше числовые представления и свойство матриц Адамара выполняются в различных структурных представлениях триплетной системы:
1) при квадратичном матричном представлении триплетной матрицы для ДНК, РНК и аминокислот (фиг. 2);
2) при прямоугольном матричном представлении триплетной матрицы для ДНК, РНК и аминокислот (фиг. 3);
3) при круговом матричном представлении триплетной матрицы для ДНК, РНК и аминокислот (фиг. 4);
4) при объемном (кубическом) представлении триплетной матрицы для ДНК/РНК (фиг. 5, 5А);
5) при представлении триплетной матрицы для ДНК в виде структурного дерева графов (фиг. 6, 6А). Причем, в данном примере числовые обозначения азотистых оснований в десятичной системе счисления от 0 до 63 формируются в ходе стандартного преобразования из двоичной системы счисления.
Могут быть также цветовые и звуковые представления, применяемые кодирования соответственно изображения и звукового ряда.
Например, в линейном представлении F3 количество водородных связей для каждого из 64-х триплетов изменяется от 9 до 6 с уменьшением по направлению к первому октету матрицы (фиг. 7), причем в одном октете количество водородных одинаковое у всех триплетов. Значения суммированных водородных связей построчно для каждого октета либо 24, либо 16 и совпадают с ортогональной системой функций Уолша. Общее количество построчно просуммированных водородных связей одинаковое и равно 160.
В квадратичном представлении F3 количество водородных связей для каждого из 64-х триплетов также изменяется от 9 до 6 с уменьшением по направлению к первому октету матрицы (фиг. 8). При этом значения суммированных водородных связей построчно для каждого октета либо 24, либо 16 также совпадают с ортогональной системой функций Уолша. Общее количество просуммированных по столбцам водородных связей одинаковое и равно 60. В круговом представлении F3 количество водородных связей для двух триплетов, размещенных на противоположных сегментах круга в сумме одинаковое и равно 15-ти (фиг. 4). Например, 9-ть водородных связей у триплетов 8-го октета в сумме с 6-ю водородными связями у триплетов противоположного 1-го октета дадут значение 15-ть.
У каждого азотистого основания разное количество атомов, в том числе количество атомов углерода (С), количества атомов водорода (Н), количества атомов азота (N), количества атомов кислорода (О):
Figure 00000014
Триплетная система F3 исходя из количества атомов обладает закономерностями, приведенными на фиг. 9. При построчном суммировании количество атомов углерода (С), водорода (Н), азота (N), и кислорода (О) каждого октета либо 116, либо 120 и совпадает с ортогональной системой функций Уолша. При этом общее количество построчно просуммированных атомов углерода (С), водорода (Н), азота (N), и кислорода (О) одинаковое и равно 944.
При рассмотрении суммарного количество атомов углерода (С) для ДНК (фиг. 10) в линейном представлении триплетной матрицы значения атомов при построчном суммировании либо 36 било 40 и совпадают с ортогональной системой функций Уолша. Вместе с тем при рассмотрении суммарного количества атомов углерода (С) для РНК (фиг. 11) в линейном представлении триплетной матрицы значения атомов при построчном суммировании одинаковые и равны 36.
При рассмотрении суммарного количество атомов кислорода (О) для ДНК (фиг. 12) и для РНК (фиг. 13) в линейном представлении триплетной матрицы значения атомов при построчном суммировании одинаковые как для ДНК, так и для РНК, и равны 8.
Аналогичным образом можно проследить закономерности в выстроенной системе в различных ее представлениях по следующим характеристикам:
1. Величины электронной и протонной плотности в атомах азотистых оснований в целом и в частности: в атомах азотистых оснований у углерода (С), у водорода (Н), у азота (N) и у кислорода (О);
2. Величины нейтронной плотности в атомах азотистых оснований, в том числе в атомах азотистых оснований у углерода (С), у водорода (Н), у азота (N) и у кислорода (О);
3. Значения разности между протонной и нейтронной плотностью в атомах азотистых оснований, в том числе в атомах азотистых оснований у углерода (С), у водорода (Н), у азота (N) и у кислорода (О);
4. «Заряда» азотистых оснований («+1» - «aMino»; «-1» - «Keto»). У каждого элемента системы свой электрический заряд «aMino» - (положительный заряд) или «Keto» - (отрицательный заряд). У аденина и цитозина положительный заряд «aMino», а у гуанина, титозина и урацила - отрицательный заряд «Keto»;
5. Молекулярной плотности в атомах азотистых оснований, в том числе в атомах азотистых оснований у углерода (С), у водорода (Н), у азота (N) и у кислорода (О);
6. Плотности кварков в протонах атомов азотистых оснований, в том числе в протонах атомов азотистых оснований у углерода (С), у водорода (Н), у азота (N) и у кислорода (О);
7. Плотности кварков в нейтронах атомов азотистых оснований, в том числе в нейтронах атомов азотистых оснований у углерода (С), у водорода (Н), у азота (N) и у кислорода (О);
8. Плотности кварков в протонах и нейтронах атомов азотистых оснований, в том числе в протонах и нейтронах атомов азотистых оснований у углерода (С), у водорода (Н), у азота (N) и у кислорода (О);
9. Плотности электронной валентной зоны в атомах азотистых оснований.
Таким образом, при использовании дополнительно, по крайней мере, одной из вышеперечисленных характеристик также получают числовые представления, которые совпадают с функцией Уолша, которые можно использовать для проверочных кодовых комбинаций. В результате комбинации азотистых оснований согласно их характеристикам получаем структурную систему уникальных (неповторяющихся) элементов, дающую характеристику всей системы. Логическая структура подтверждается раскрытыми выше особенностями.
В настоящем примере используются мажорные (часто встречающиеся) азотистые основания, но в практической реализации возможно использовать и минорные (редко встречающиеся) азотистые основания. При этом каждое минорное основание, соответствующее определенному мажорному основанию, обладают аналогичными характеристиками, применяемыми для построения молекулярно-генетической системы. Следовательно, использование минорных оснований структурное построение молекулярно-генетической системы не нарушится. Сравнительный пример мажоров и миноров приведен на фиг. 14. При совместном использовании и мажорных и минорных оснований информационная мощность молекулярно-генетической системы возрастет.
В настоящее время общепринятым является обозначение позиции нуклеотидов в кодонах на 5'-3' цепи ДНК через X, Y и Z, где X - «приставка», Y - «корень», a Z - «окончание». Таким образом, триплет на этой цепи будет выглядеть следующим образом:
5'-X-Y-Z-3'.
В свою очередь, комплиментарный вышеприведенной записи триплет на 3'-5' цепи будет иметь запись:
3'-Z-Y-X-5'.
Триплет можно представить в виде суммы трех векторов:
Figure 00000015
, где
Figure 00000016
- вектор физико-биохимической системы «триплет» (кодон);
Figure 00000017
- первый элемент физико-биохимической системы «триплет» (азотистое основание), представленный в форме единичного вектора «приставка»;
Figure 00000018
- второй элемент физико-биохимической системы «триплет» (азотистое основание), представленный в форме единичного вектора «корень»;
Figure 00000019
- третий элемент физико-биохимической системы «триплет» (азотистое основание), представленный в форме единичного вектора «окончание»;
m - порядковый номер триплета (или его элементов) на 5'-3' цепи;
n - общее количество триплетов на 5'-3' цепи.
В свою очередь каждый единичный элемент векторного «триплета» можно разложить на составляющие его, элементы и записать в комплексном виде:
Figure 00000020
, где
Figure 00000021
- первый элемент физико-биохимической системы «триплет» (азотистое основание), представленный в форме единичного вектора «приставка»;
х - действительная часть комплексного числа, соответствующая оси Нb (оси водородных связей);
i - мнимая единица для элемента «приставка»;
ix - мнимая часть комплексного числа, соответствующая оси РР (оси класса азотистого основания).
Множество единичных векторов можно представить на единичной окружности комплексной плоскости. Аналогичным образом представляются элементы триплета типа Y («корень») и типа Z («окончание»).
Таким образом, появляется возможность записать триплет на т-позиции, представленный выражением:
Figure 00000022
, где
i, j, k - мнимые единицы со следующим свойством:
в матричной форме
Figure 00000023
В силу того, что количество размещений с повторениями из n по k рассчитывается по формуле:
Figure 00000024
, то три азотистых основания, собранных в триплет, формируют 64 различных кодона, что эквивалентно логарифмической записи: log464=3.
Пример 1. Реализация в описанном выше способе кодирования для записи контрольных бит логической операции «сложение по модулю» (ab), при которой для бинарного сложения по модулю применяется правило: результат равен «0», если оба операнда (а) и (b) различны, во всех остальных случаях результат равен «1»:
Figure 00000025
Для тернарного сложения (X, Y, Z) по модулю 2 применяется правило: результат равен «0», если нет операндов, равных «1», либо их четное количество, в остальных случаях результат равен «0»:
Figure 00000026
Данный способ записи основывается на разложении мажорных азотистых оснований (А, С, G, Т, U), а также их минорных аналогов на три бита:
- бит «р» класса азотистого основания (пурин или пиримидин);
- бит «h» количества водородных связей у азотистого основания (2 или 3);
- бит «е» группы азотистого основания (aMino или Keto).
При этом первые два информационных бита («р» - пурины или пиримидины и «h» - количество водородных связей) выступают в качестве переменных значений, а третий контрольный бит «е» - в виде результата логической операции.
В приведенной ниже таблице приведено соответствие битовых значений азотистых оснований для реализации способа записи логических элементов, где «р» - класс пурин или пиримидин, «h» - количество водородных связей 2 или 3, «е» - группа Keto или aMino.
Figure 00000027
Как видно из таблицы, с помощью одного азотистого основания возможно записать 3 бита информации (два информационных бит и один контрольный бит), причем при использовании записи логических элементов в виде триплетов (кодонов) одновременно реализуется бинарное и тернарное сложение по модулю 2.
Figure 00000028
Следовательно, в приведенном примере с помощью одного азотистого основания возможно записать 9 бит информации (6 информационных бит переменных значений и 3 контрольных (результирующих) бита).
При сопоставлении (фиг. 15) общего количества значений булевой функции для результирующего триплетного вектора е (∑x∑y∑z), которое равно 8 (от 000 до 111) и общего количества значений для результирующего триплетного вектора XYZ (∑p∑h∑∑), равного 4 (000; 011; 101; 110), получаем общее количество побитовых значений в триплетной записи азотистых оснований, которое равно 16 (фиг. 16).
В силу того, что получается всего 16 различных комбинаций для 64 триплетов, то имеется возможность «уплотнить» запись 16 наборов не триплетами, а дуплетами (см. таблицу 2а и 2б).
Figure 00000029
Figure 00000030
В результате данной операции мы высвобождаем одно место под азотистое основание в триплете (Таблица 3) и можем использовать его в качестве управляющего значения одного из четырех состояний: G (11); С (01); А (10) и Т (00).
Например,
G (11) - символ, выделенный жирным шрифтом,
С (01) - символ, выделенный наклонным (курсивным) шрифтом,
А (10) - символ, выделенный подчеркнутым шрифтом,
Т (00) - обычный символ.
Figure 00000031
Пример 2 Кодирование слова «МИР» (без проверки на ошибки)
На фиг. 17 указаны соответствия триплетного кода ДНК (РНК) символьным значениям латинского и русского алфавита. Запись осуществляется по направлению от 5'-конца к 3'-концу. В приведенном примере одному логическому элементу соответствуют три азотистых основания.
Кодовую комбинацию можно отображать в различных вариантах:
1) линейном:
Figure 00000032
2) блочном (вертикальном):
Figure 00000033
3) блочном (горизонтальном):
Figure 00000034
Слово «МИР» разбивают на логические элементы «М», «И», «Р». Каждому элементу присваивают уникальный символ алфавита, составленного на основе молекулярно-генетической системы триплетов (фиг. 17), построенной по вышеописанному принципу. К каждому символу ставят в соответствие элемент системы с добавлением индексирующей информации.
Figure 00000035
Затем определяют кодовую комбинацию исходя из значений функции сложения по модулю 2:
Figure 00000036
Поскольку запись символов с использованием азотистых оснований не предполагает проверку на ошибки, то фактически на каждое азотистое основание приходится 2 бита информации. Таким образом, на слово «МИР», приходится 9 азотистых оснований или 18 бит.
Пример 3 Кодирование слова «МИР» с проверкой на ошибки. Как и в предыдущем примере, запись осуществляется по направлению от 5'-конца к 3'-концу. При этом в приведенном примере одному логическому элементу соответствуют шесть азотистых оснований (X, Y, Z, X', Y', Z'): 3 азотистых оснований (X, Y, Z) предназначены для записи информации, а другие 3 азотистых оснований (Х', Y', Z') предназначены для записи контрольного (проверочного) кода.
Для того, чтобы была возможность проверки правильности прочтения записи, пользуются данными, приведенными на фиг. 16, где указаны значения результирующих векторов и их триплетная интерпретация из 16 наборов кодонов.
Таким образом, кодирование информации строится по следующему алгоритму:
1. Массив кодируемой информации разбивают на логически законченные фрагменты: в данном примере слово разделено на буквы.
2. Каждому фрагменту ставят в соответствие триплетный код ДНК (РНК) 5'-XYZ-3' согласно фиг. 17 и располагают кодовые комбинации информационных бит (переменных значений, кодирующих ту или иную характеристику азотистого основания) в виде матрицы.
3. К каждой кодовой комбинации информационных бит добавляют контрольных бит, являющиеся результирующими значениями для бинарного сложения по модулю 2 кодовых комбинаций информационных бит, для тернарного сложения по модулю 2 кодовых комбинаций информационных бит, а также сумму сумм (проверку проверок).
4. Ставят в соответствие контрольным битам триплет 5'-X'Y'Z'-3' (фиг. 16), и формируют последовательность контрольных бит бинарного, тернарного сложения и итоговой проверки (суммы сумм).
5. Формируют итоговую запись символа из шести азотистых оснований, состоящую из основного (5'-XYZ-3') и вспомогательного триплетов (5'-X'Y'Z'-3'):
Figure 00000037
Чтобы показать помехоустойчивость предлагаемого способа, позволяющего минимизировать потерю информационных данных из-за появления ошибок, используют методы обнаружения ошибок. Один из наиболее популярных методов обнаружения ошибок, является метод проверки на четность, который выполняется по строкам и по столбцам сформированной на основе кодовых комбинаций информационных бит матрицы - пример 4. Если четное число единиц, то добавляют «0», если нечетное - то «1». Завершают проверкой на четность проверки по строкам и столбцам вместе.
Если во всех проверках получился «0», то комбинация верна. При наличии ошибки в результате проверки обнаружится «1». На пересечении строки и столбца, в которых в результате проверки обнаружилась «1», находится ошибочный разряд.
Слово «МИР» закодировано с возможностью проверки на ошибки, представляя в виде последовательности:
Figure 00000038
Матрица информационных и контрольных бит, а также матрица проверки на четность выглядят следующим образом:
Figure 00000039
Figure 00000040
В примере 4 показан способ записи символов с использованием азотистых оснований (с 4 состояниями символа и проверкой на ошибки на основе матричного кода). Одному логическому элементу соответствуют шесть азотистых оснований (X, Y, Z, X', Y', Z'), содержащих 15 бит информации, в том числе: 3 азотистых оснований (X, Y, Z) предназначены для записи информации содержат 9 бит, 2 азотистых оснований (X', Y'), содержащих 4 бит информации, предназначены для записи проверочного кода, и одно азотистое основание (Z'), содержащее 2 бита, предназначено для управляющего кода.
В данном примере плотность записываемой информации: 15 бит / 6 азотистых оснований составляет 2,5 бита на одно азотистое основание.
Кодовую информацию и алгоритм проверки формируют так же, как показано на примере 3. Особенностью данного примера является формирование проверочных значений не триплетным, а дуплетным кодом (фиг. 16). В результате этого высвобождается одно азотистое основание (Z') на управляющий код, используемый для вспомогательной информации.
Например, управляющий код, приходящийся на азотистое основание (Z') может быть как и в примере 1 в виде следующей кодировки:
G (11) - символ, выделенный жирным шрифтом
С (01) - символ, выделенный наклонным (курсивным) шрифтом
А (10) - символ, выделенный подчеркнутым шрифтом
Т (00) - обычный символ в тексте
Figure 00000041
Таким образом, слово «МИР» может быть закодировано с возможностью проверки на ошибки, а также с возможностью представления этого слова определенным шрифтом (в нашем примере - курсивом).
Слово: « МИР »
Figure 00000042
Кодируемую описанным способом информацию записывают, в том числе разбивая ее на короткие фрагменты ДНК, в которых также закодирована информация о начале и конце информационного отрывка. При этом один нуклеотид на одном уровне количество водородных связей и основания кодирует, по меньшей мере, два бита данных. При записи информации блоки синтезируются из отдельных нуклеотидов при помощи струйного ДНК-принтера. Для записи определенной информации синтезируют необходимые фрагменты ДНК, которые предварительно размножают и распознают при помощи устройства секвенирования, например Illumina HiSeq. Наличие адреса у каждого блока позволяет хранить информацию в виде смеси из коротких последовательностей нуклеотидов, а не единой цепочки ДНК. Такой способ позволяет хранить практически неограниченный объем информации. Для чтения синтезированных фрагментов ДНК могут быть использованы известные технологии секвенирования и специальное программное оборудование для перевода генетического кода обратно в двоичный файл на основе предложенной молекулярно-генетической системы.
Для декодирования информации также используется описанная выше молекулярно-генетическая система. При декодировании машиночитаемую последовательность разбивают на равные части, состоящие из i+k+m-числа нулей и единиц, являющиеся индексами логически законченных фрагментов декодируемой информации, состоящих из i-информационных бит, k-контрольных бит и m-управляющих бит. Затем каждой части ставят в соответствие мультиплет, состоящий из n-числа азотистых оснований и являющийся элементом молекулярно-генетической системы, определяя тем самым последовательность из логически законченных фрагментов декодируемой информации.
Таким образом, при использовании предлагаемого к защите способа кодирования и декодирования информации с использованием молекулярно-генетической системы в виде квадратных матриц, структурированных на характеристиках азотистых оснований нуклеотидов, достигается заявленный технический результат - оперирование без искажения и изменения большим объемом информации, а также в обеспечении возможности кодирования и декодирования цифрового сигнала для помехоустойчивой передачи информации программными средствами.

Claims (47)

1. Способ кодирования информации, согласно которому:
массив кодируемой информации разделяют на логически законченные фрагменты, каждому из которых ставят в соответствие, по крайней мере, один элемент используемой для кодирования молекулярно-генетической системы;
ко множеству элементов системы добавляют соответствующую индексирующую информацию, состоящую из i-информационных бит;
к каждой кодовой комбинации информационных бит добавляют комбинацию из k-контрольных бит, определяемую в зависимости от комбинации i-информационных бит; отличающийся тем, что:
каждую i+k битовую информацию в двоичной форме счисления записывают в виде мультиплета, состоящего из n-числа азотистых оснований или соответствующих им аминокислот и являющегося элементом молекулярно-генетической системы,
состоящей из основы, выполненной в виде матрицы из четырех азотистых оснований
Figure 00000043
, сгруппированных по количеству водородных связей и по количеству конденсированных колец, содержащихся в структурах молекул азотистых оснований,
которую предварительно формируют путем многократного тензорного возведения в квадрат каждой матрицы предыдущего поколения для образования матрицы следующего поколения;
при этом бинарные индексы системы, формирующие i-информационные биты, соответствуют выбранной характеристике азотистых оснований,
вместе с кодируемой информацией записывают значение n, от которого зависит размер используемой для кодирования матрицы, а также информацию о выбранном способе трансформации матрицы в последовательность и порядок ее прочтения.
2. Способ кодирования по п. 1, отличающийся тем, что кодируемую информацию выстраивают в машиночитаемую последовательность в двоичной форме исчисления, включающую бинарные индексы для каждого мультиплета.
3. Способ кодирования по п. 1, отличающийся тем, что кодируемую информацию выстраивают в последовательность азотистых оснований.
4. Способ кодирования по п. 1, отличающийся тем, что к каждой кодовой комбинации i-информационных бит добавляют комбинацию из m-управляющих бит, определяемую в зависимости от комбинации i и k бит.
5. Способ кодирования по п. 1, отличающийся тем, что по положению каждого мультиплета в матрице молекулярно-генетической системы оценивают рецессивный или доминантный признак соответствующего ему логически законченного фрагмента.
6. Способ кодирования по п. 1, отличающийся тем, что последовательность азотистых оснований разбивают на законченные фрагменты, в которых также закодирована информация о начале и конце информационного отрывка.
7. Способ кодирования по п. 3, отличающийся тем, что кодируемую информацию выстраивают в последовательность азотистых оснований для кодирования на уровне ДНК.
8. Способ кодирования по п. 3, отличающийся тем, что кодируемую информацию выстраивают в последовательность азотистых оснований для кодирования на уровне РНК.
9. Способ кодирования по п. 3, отличающийся тем, что кодируемую информацию выстраивают в последовательность аминокислот.
10. Способ кодирования по п. 3, отличающийся тем, что кодируемую информацию выстраивают в последовательность азотистых оснований для кодирования на уровне белков.
11. Способ кодирования по п. 1, отличающийся тем, что молекулярно-генетическая система имеет линейное матричное представление.
12. Способ кодирования по п. 1, отличающийся тем, что молекулярно-генетическая система имеет квадратичное матричное представление.
13. Способ кодирования по п. 1, отличающийся тем, что молекулярно-генетическая система имеет прямоугольное матричное представление.
14. Способ кодирования по п. 1, отличающийся тем, что молекулярно-генетическая система имеет круговое матричное представление.
15. Способ кодирования по п. 1, отличающийся тем, что молекулярно-генетическая система имеет объемное представление.
16. Способ кодирования по п. 1, отличающийся тем, что молекулярно-генетическая система имеет вид структурного дерева графов.
17. Способ кодирования по п. 1, отличающийся тем, что бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для ДНК.
18. Способ кодирования по п. 1, отличающийся тем, что бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для РНК.
19. Способ кодирования по п. 1 или 18, отличающийся тем, что бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для аминокислот.
20. Способ кодирования по п. 1, отличающийся тем, что бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований, формирующих рецессивные и доминантные признаки на генном уровне.
21. Способ кодирования по п. 1, отличающийся тем, что синтетическую ДНК, сформированную из полученной последовательности азотистых оснований, содержащей кодируемую информацию, встраивают в носитель для хранения.
22. Способ кодирования по п. 1, отличающийся тем, что синтетическую ДНК, сформированную из полученной последовательности азотистых оснований, содержащей кодируемую информацию, встраивают в носитель для логико-математических вычислений.
23. Способ декодирования информации, согласно которому:
машиночитаемую последовательность разбивают на части, состоящие из логически законченных фрагментов декодируемой информации, включающих комбинации из i-информационных бит и k-контрольных бит, ставя в соответствие каждому логически законченному фрагменту, по крайней мере, один мультиплет, состоящий из n-числа азотистых оснований или соответствующих им аминокислот и являющийся элементом используемой для декодирования молекулярно-генетической системы, отличающийся тем, что:
молекулярно-генетическая система состоит из основы, выполненной в виде матрицы из четырех азотистых оснований
Figure 00000044
, сгруппированных по количеству водородных связей и по количеству конденсированных колец, содержащихся в структурах молекул азотистых оснований,
которую предварительно формируют путем многократного тензорного возведения в квадрат каждой матрицы предыдущего поколения для образования матрицы следующего поколения;
при этом бинарные индексы системы, формирующие i-информационные биты, соответствуют выбранной характеристике азотистых оснований, а индексы, формирующие k-контрольные биты, определяют в зависимости от комбинации i-информационных бит.
24. Способ декодирования по п. 23, отличающийся тем, что дискретные части машиночитаемой последовательности, состоящие из логически законченных фрагментов декодируемой информации, включают комбинации из m-управляющих бит, при этом индексы, формирующие m-управляющие биты, определяют в зависимости от комбинации i-информационных бит.
25. Способ декодирования по п. 23, отличающийся тем, что по положению каждого мультиплета в матрице молекулярно-генетической системы оценивают рецессивный или доминантный признак соответствующего ему логически законченного фрагмента.
26. Способ декодирования по п. 23, отличающийся тем, что молекулярно-генетическая система имеет линейное матричное представление.
27. Способ декодирования по п. 23, отличающийся тем, что молекулярно-генетическая система имеет квадратичное матричное представление.
28. Способ декодирования по п. 23, отличающийся тем, что молекулярно-генетическая система имеет прямоугольное матричное представление.
29. Способ декодирования по п. 23, отличающийся тем, что молекулярно-генетическая система имеет круговое матричное представление.
30. Способ декодирования по п. 23, отличающийся тем, что молекулярно-генетическая система имеет объемное представление.
31. Способ декодирования по п. 23, отличающийся тем, что молекулярно-генетическая система имеет вид структурного дерева графов.
32. Способ декодирования по п. 23, отличающийся тем, что бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для ДНК.
33. Способ декодирования по п. 23, отличающийся тем, что бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для РНК.
34. Способ декодирования по п. 23 или 33, отличающийся тем, что бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований для аминокислот.
35. Способ декодирования по п. 23, отличающийся тем, что бинарные индексы молекулярно-генетической системы соответствуют выбранной характеристике азотистых оснований, формирующих рецессивные и доминантные признаки на генном уровне.
RU2017120555A 2017-06-14 2017-06-14 Способы кодирования и декодирования информации RU2659025C1 (ru)

Priority Applications (13)

Application Number Priority Date Filing Date Title
RU2017120555A RU2659025C1 (ru) 2017-06-14 2017-06-14 Способы кодирования и декодирования информации
PCT/RU2018/000384 WO2018231100A1 (ru) 2017-06-14 2018-06-08 Способы кодирования и декодирования информации
KR1020207001138A KR102269463B1 (ko) 2017-06-14 2018-06-08 정보의 코딩 및 디코딩 방법
IL259907A IL259907A (en) 2017-06-14 2018-06-08 Information coding methods
ZA2018/03894A ZA201803894B (en) 2017-06-14 2018-06-12 Methods of coding and decoding information
CA3008070A CA3008070A1 (en) 2017-06-14 2018-06-13 Methods of coding and decoding information
KR1020180068262A KR20180136407A (ko) 2017-06-14 2018-06-14 정보의 암호화 및 복호화 방법들
EP18177823.4A EP3416076A1 (en) 2017-06-14 2018-06-14 Methods of coding and decoding information
JP2018113817A JP2019009776A (ja) 2017-06-14 2018-06-14 情報の符号化及び復号化の諸法
US16/008,958 US20180365276A1 (en) 2017-06-14 2018-06-14 Methods of coding and decoding information
AU2018204252A AU2018204252B2 (en) 2017-06-14 2018-06-14 Methods of coding and decoding information
TW107120605A TWI673604B (zh) 2017-06-14 2018-06-14 信息編碼和信息解碼的方法
CN201810615395.4A CN109086890A (zh) 2017-06-14 2018-06-14 信息编码和信息解码的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2017120555A RU2659025C1 (ru) 2017-06-14 2017-06-14 Способы кодирования и декодирования информации

Publications (1)

Publication Number Publication Date
RU2659025C1 true RU2659025C1 (ru) 2018-06-26

Family

ID=62684614

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017120555A RU2659025C1 (ru) 2017-06-14 2017-06-14 Способы кодирования и декодирования информации

Country Status (12)

Country Link
US (1) US20180365276A1 (ru)
EP (1) EP3416076A1 (ru)
JP (1) JP2019009776A (ru)
KR (2) KR102269463B1 (ru)
CN (1) CN109086890A (ru)
AU (1) AU2018204252B2 (ru)
CA (1) CA3008070A1 (ru)
IL (1) IL259907A (ru)
RU (1) RU2659025C1 (ru)
TW (1) TWI673604B (ru)
WO (1) WO2018231100A1 (ru)
ZA (1) ZA201803894B (ru)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020123002A3 (en) * 2018-09-15 2020-09-03 Tahereh Karimi Molecular encoding and computing methods and systems therefor
CN112288090A (zh) * 2020-10-22 2021-01-29 中国科学院深圳先进技术研究院 存有数据信息的dna序列的处理方法及装置
RU2747625C1 (ru) * 2020-04-28 2021-05-11 Федеральное государственное бюджетное учреждение высшего образования «Тамбовский государственный технический университет» (ФГБОУ ВО «ТГТУ») Способ совместного сжатия и шифрования данных при геномном выравнивании
RU2756641C2 (ru) * 2019-10-29 2021-10-04 Хиллол Дас Способ сохранения информации с использованием ДНК и устройство хранения информации

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288089B (zh) * 2020-09-28 2022-12-20 清华大学 阵列式核酸信息存储方法及装置
CN112711935B (zh) * 2020-12-11 2023-04-18 中国科学院深圳先进技术研究院 编码方法、解码方法、装置及计算机可读存储介质
CN112687338B (zh) * 2020-12-31 2022-01-11 云舟生物科技(广州)有限公司 基因序列的存储和还原方法、计算机存储介质及电子设备
CN113315623B (zh) * 2021-05-21 2023-01-24 广州大学 一种dna存储的对称加密方法
US20230222313A1 (en) * 2022-01-12 2023-07-13 Dell Products L.P. Polysaccharide archival storage
CN115396092B (zh) * 2022-08-26 2023-09-12 河南天一智能信息有限公司 一种智能心功能治疗系统的数据管理方法
CN116092575A (zh) * 2023-02-03 2023-05-09 中国科学院地理科学与资源研究所 基于gmns法则的g-dna结构判别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6312911B1 (en) * 1999-05-06 2001-11-06 Frank Carter Bancroft DNA-based steganography
US20050053968A1 (en) * 2003-03-31 2005-03-10 Council Of Scientific And Industrial Research Method for storing information in DNA
US20080268431A1 (en) * 2004-09-14 2008-10-30 Jin-Ho Choy Information Code System Using Dna Sequences
RU2408979C2 (ru) * 2006-05-12 2011-01-10 Нек Корпорейшн Способ и устройство кодирования с исправлением ошибок
US20120102041A1 (en) * 2010-10-22 2012-04-26 Samsung Sds Co., Ltd. Genetic information management system and method
US20150261664A1 (en) * 2012-06-01 2015-09-17 Nick Goldman High-Capacity Storage of Digital Information in DNA
US20150261990A1 (en) * 2014-02-05 2015-09-17 Electronics And Telecommunications Research Institute Method and apparatus for compressing dna data based on binary image
WO2015144858A1 (en) * 2014-03-28 2015-10-01 Thomson Licensing Methods for storing and reading digital data on a set of dna strands
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020001804A1 (en) * 2000-02-25 2002-01-03 Wayne Mitchell Genomic analysis of tRNA gene sets
JP2004355294A (ja) * 2003-05-29 2004-12-16 National Institute Of Advanced Industrial & Technology 情報担体としてのdna符号の設計方法
JP2005080523A (ja) * 2003-09-05 2005-03-31 Sony Corp 生体遺伝子に導入するdna、遺伝子導入ベクター、細胞、生体遺伝子への情報導入方法、情報処理装置および方法、記録媒体、並びにプログラム
US7728118B2 (en) * 2004-09-17 2010-06-01 Promega Corporation Synthetic nucleic acid molecule compositions and methods of preparation
JP2008529538A (ja) * 2005-02-16 2008-08-07 ジェネティック テクノロジーズ リミテッド 相補性デュプリコンの増幅を含む遺伝子分析方法
US20100323348A1 (en) * 2009-01-31 2010-12-23 The Regents Of The University Of Colorado, A Body Corporate Methods and Compositions for Using Error-Detecting and/or Error-Correcting Barcodes in Nucleic Acid Amplification Process
CN101847145A (zh) * 2009-03-23 2010-09-29 北京大学 一种基于dna计算模型的拉蒙赛图的获取方法和系统
WO2014025056A1 (en) * 2012-08-07 2014-02-13 Hitachi Zosen Corporation Method of encryption and decryption using nucleic acid
US8972826B2 (en) * 2012-10-24 2015-03-03 Western Digital Technologies, Inc. Adaptive error correction codes for data storage systems
CN103853935A (zh) * 2012-12-07 2014-06-11 万继华 一种用0和1两个信号编译基因信息的数字处理方法
JP6612220B2 (ja) * 2013-10-07 2019-11-27 ザ ユニバーシティ オブ ノース カロライナ アット チャペル ヒル 核酸における化学修飾の検出
CN104850760B (zh) * 2015-03-27 2016-12-21 苏州泓迅生物科技有限公司 人工合成dna存储介质的信息存储读取方法
CN105061589B (zh) * 2015-08-26 2018-02-27 华南理工大学 一种重组人ⅰ型胶原蛋白及其固定化发酵生产的方法
LU92881B1 (en) * 2015-11-18 2017-06-21 Technische Univ Hamburg Harburg Methods for encoding and decoding a binary string and System therefore
US10566077B1 (en) * 2015-11-19 2020-02-18 The Board Of Trustees Of The University Of Illinois Re-writable DNA-based digital storage with random access
CN106055927B (zh) * 2016-05-31 2018-08-17 广州麦仑信息科技有限公司 mRNA信息的二进制存储方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6312911B1 (en) * 1999-05-06 2001-11-06 Frank Carter Bancroft DNA-based steganography
US20050053968A1 (en) * 2003-03-31 2005-03-10 Council Of Scientific And Industrial Research Method for storing information in DNA
US20080268431A1 (en) * 2004-09-14 2008-10-30 Jin-Ho Choy Information Code System Using Dna Sequences
RU2408979C2 (ru) * 2006-05-12 2011-01-10 Нек Корпорейшн Способ и устройство кодирования с исправлением ошибок
US20120102041A1 (en) * 2010-10-22 2012-04-26 Samsung Sds Co., Ltd. Genetic information management system and method
US20150261664A1 (en) * 2012-06-01 2015-09-17 Nick Goldman High-Capacity Storage of Digital Information in DNA
US20150261990A1 (en) * 2014-02-05 2015-09-17 Electronics And Telecommunications Research Institute Method and apparatus for compressing dna data based on binary image
WO2015144858A1 (en) * 2014-03-28 2015-10-01 Thomson Licensing Methods for storing and reading digital data on a set of dna strands
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020123002A3 (en) * 2018-09-15 2020-09-03 Tahereh Karimi Molecular encoding and computing methods and systems therefor
RU2756641C2 (ru) * 2019-10-29 2021-10-04 Хиллол Дас Способ сохранения информации с использованием ДНК и устройство хранения информации
RU2747625C1 (ru) * 2020-04-28 2021-05-11 Федеральное государственное бюджетное учреждение высшего образования «Тамбовский государственный технический университет» (ФГБОУ ВО «ТГТУ») Способ совместного сжатия и шифрования данных при геномном выравнивании
CN112288090A (zh) * 2020-10-22 2021-01-29 中国科学院深圳先进技术研究院 存有数据信息的dna序列的处理方法及装置

Also Published As

Publication number Publication date
CA3008070A1 (en) 2018-12-14
WO2018231100A1 (ru) 2018-12-20
CN109086890A (zh) 2018-12-25
US20180365276A1 (en) 2018-12-20
TW201905691A (zh) 2019-02-01
KR102269463B1 (ko) 2021-06-29
ZA201803894B (en) 2019-03-27
AU2018204252A1 (en) 2019-01-17
JP2019009776A (ja) 2019-01-17
KR20180136407A (ko) 2018-12-24
AU2018204252B2 (en) 2019-11-07
TWI673604B (zh) 2019-10-01
EP3416076A1 (en) 2018-12-19
KR20200014926A (ko) 2020-02-11
IL259907A (en) 2018-07-31

Similar Documents

Publication Publication Date Title
RU2659025C1 (ru) Способы кодирования и декодирования информации
Anavy et al. Data storage in DNA with fewer synthesis cycles using composite DNA letters
CN104520864B (zh) Dna中数字信息的高容量存储
US20180211001A1 (en) Trace reconstruction from noisy polynucleotide sequencer reads
Haughton et al. BioCode: Two biologically compatible Algorithms for embedding data in non-coding and coding regions of DNA
US20210074380A1 (en) Reverse concatenation of error-correcting codes in dna data storage
WO2016020280A1 (en) Code generation method, code generating apparatus and computer readable storage medium
CN112802549B (zh) Dna序列完整性校验和纠错的编解码方法
WO2004107243A1 (ja) 情報担体としてのdna符号の設計方法
CN111858507B (zh) 基于dna的数据存储方法、解码方法、系统和装置
CN113345521A (zh) 一种采用大片段dna存储的编码与恢复方法
Ashlock et al. On the synthesis of dna error correcting codes
CN110569974A (zh) 可包含人造碱基的dna存储分层表示与交织编码方法
US20070113137A1 (en) Error Correction in Binary-encoded DNA Using Linear Feedback Shift Registers
Gonzalez et al. Strong short-range correlations and dichotomic codon classes in coding DNA sequences
CN116564424A (zh) 基于纠删码与组装技术的dna数据存储方法、读取方法及终端
Golomb Efficient coding for the desoxyribonucleic channel
Battail An outline of informational genetics
CN114927169A (zh) 一种分布式阵列存储及基于微生物的高容纠错DNA存储技术(Bio-RAID)
Limbachiya et al. 10 years of natural data storage
CN114730616A (zh) 信息编码和解码方法、装置、存储介质以及信息存储和解读方法
Haughton et al. Performance of DNA data embedding algorithms under substitution mutations
CN117059176A (zh) 基于组装优化的dna数据存储方法、装置及终端设备
Bouaynaya Analysis of proteomics and genomics based on signal processing and communication theory
Wang Coding for DNA data storage