RU2014103789A - Представление, визуализация, сравнение и сообщение о геномной/протеомной последовательности с использованием биоинформационного набора символов и отображенного биоинформационного шрифта - Google Patents

Представление, визуализация, сравнение и сообщение о геномной/протеомной последовательности с использованием биоинформационного набора символов и отображенного биоинформационного шрифта Download PDF

Info

Publication number
RU2014103789A
RU2014103789A RU2014103789/10A RU2014103789A RU2014103789A RU 2014103789 A RU2014103789 A RU 2014103789A RU 2014103789/10 A RU2014103789/10 A RU 2014103789/10A RU 2014103789 A RU2014103789 A RU 2014103789A RU 2014103789 A RU2014103789 A RU 2014103789A
Authority
RU
Russia
Prior art keywords
bioinformation
genomic
base
proteomic
symbol
Prior art date
Application number
RU2014103789/10A
Other languages
English (en)
Inventor
Рандип СИНГХ
Сунил КУМАР
Бисваруп ЧАКРАБАРТИ
Original Assignee
Конинклейке Филипс Н.В.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Конинклейке Филипс Н.В. filed Critical Конинклейке Филипс Н.В.
Publication of RU2014103789A publication Critical patent/RU2014103789A/ru

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

1. Способ кодирования геномных или протеомных данных, отличающийся тем, что способ содержит этапы, на которых:кодируют геномные или протеомные данные в виде геномной или протеомной символьной строки, содержащей символы биоинформационного набора символов, причем:(i) каждое основание или пептид геномных или протеомных данных представлены одним символом биоинформационного набора (20)символов; и(ii) каждый символ биоинформационного набора символов кодирует (I) основание или пептид в первом поднаборе битов и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с основанием или пептидом, во втором поднаборе битов; ипричем кодирование осуществляют посредством устройства (50) цифровой обработки.2. Способ по п. 1, в котором каждый символ биоинформационного набора символов представлен одним из (1) одного байта, состоящего из восьми битов, и (2) двух байтов, состоящих из шестнадцати битов, причем первый поднабор из восьми или шестнадцати битов кодирует основание или пептид, и второй поднабор из восьми или шестнадцати битов кодирует по меньшей мере одно аннотированное значение основания, ассоциированное с основанием или пептидом.3. Способ по любому из пп. 1 и 2, в котором:каждый символ биоинформационного набора символов, которыйкодирует основание аденин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "A" или "a",каждый символ биоинформационного набора символов, который кодирует основание гуанин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "G" или "g",каждый символ биоинформационного набора символов, который кодирует основание цитозин, от

Claims (15)

1. Способ кодирования геномных или протеомных данных, отличающийся тем, что способ содержит этапы, на которых:
кодируют геномные или протеомные данные в виде геномной или протеомной символьной строки, содержащей символы биоинформационного набора символов, причем:
(i) каждое основание или пептид геномных или протеомных данных представлены одним символом биоинформационного набора (20)символов; и
(ii) каждый символ биоинформационного набора символов кодирует (I) основание или пептид в первом поднаборе битов и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с основанием или пептидом, во втором поднаборе битов; и
причем кодирование осуществляют посредством устройства (50) цифровой обработки.
2. Способ по п. 1, в котором каждый символ биоинформационного набора символов представлен одним из (1) одного байта, состоящего из восьми битов, и (2) двух байтов, состоящих из шестнадцати битов, причем первый поднабор из восьми или шестнадцати битов кодирует основание или пептид, и второй поднабор из восьми или шестнадцати битов кодирует по меньшей мере одно аннотированное значение основания, ассоциированное с основанием или пептидом.
3. Способ по любому из пп. 1 и 2, в котором:
каждый символ биоинформационного набора символов, который
кодирует основание аденин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "A" или "a",
каждый символ биоинформационного набора символов, который кодирует основание гуанин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "G" или "g",
каждый символ биоинформационного набора символов, который кодирует основание цитозин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "C" или "c",
каждый символ биоинформационного набора символов, который кодирует основание тимин или урацил, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "T" или "t" или букву "U" или "u"; и
по меньшей мере один символ биоинформационного набора символов кодирует неопределенное основание с использованием кода, представляющего два или более возможных основания.
4. Способ по п. 3, в котором:
каждый символ биоинформационного набора символов кодирует аннотированное значение элемента данных, указывающее на качественное значение кодированного основания и
биоинформационный шрифт содержит диакритические знаки, указывающие на качественные значения оснований.
5. Способ по п. 1, в котором по меньшей мере четыре символа биоинформационного набора символов отображают в символы шрифта биоинформационного шрифта таким образом, что каждый включает в себя одну или более букв, представляющих основание или пептид, кодированные посредством символа и одного или более диакритических знаков, представляющих кодированный по меньшей
мере один аннотированный элемент данных.
6. Способ по п. 1, дополнительно содержащий этап, на котором:
выполняют по меньшей мере одну строковую функцию на геномной или протеомной символьной строке для формирования обновленной геномной или протеомной символьной строки, в которой по меньшей мере одно основание или пептид представлены одним символом, кодирующим по меньшей мере один дополнительный или измененный аннотированный элемент данных, формируемый посредством выполняемой обработки строк.
7. Способ по п. 6, в котором упомянутое выполнение включает в себя этап, на котором выполняют сравнение строк, при котором сравнивают геномную или протеомную символьную строку с эталонной геномной или протеомной символьной строкой.
8. Способ по п. 6, в котором упомянутое выполнение включает в себя этап, на котором выполняют побитовую логическую операцию на символах геномной или протеомной символьной строки.
9. Способ по п. 1, причем способ кодирует только геномные данные и содержит этапы, на которых:
кодируют геномные данные в виде геномной символьной строки, содержащей символы биоинформационного набора символов, причем:
(i) каждое основание геномных данных представлено отдельным символом из биоинформационного набора символов и
(ii) каждый символ из биоинформационного набора символов кодирует (I) основание и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с основанием; и
отображают геномные данные посредством отображения геномной символьной строки, используя биоинформационный шрифт, отображенный в биоинформационный набор символов.
10. Способ по п. 1, причем способ кодирует только протеомные данные и содержит этапы, на которых:
кодируют протеомные данные в виде протеомной символьной строки, содержащей символы биоинформационного набора символов, причем:
(i) каждый пептид протеомных данных представлен отдельным символом из биоинформационного набора символов и
(ii) каждый символ из биоинформационного набора символов кодирует (I) пептид и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с пептидом; и
отображают протеомные данные посредством отображения протеомной символьной строки, используя биоинформационный шрифт, отображенный в биоинформационный набор символов.
11. Устройство, отличающееся тем, что устройство содержит:
устройство (50) цифровой обработки, выполненное с возможностью осуществления способа по любому из пп. 1-10.
12. Постоянный запоминающий носитель, считываемый цифровым процессором и сохраняющий программное обеспечение для кодирования геномных или протеомных данных, отличающийся тем, что программное обеспечение выполнено с возможностью обработки геномных или протеомных данных, представленных в виде геномных или протеомных символьных строк, содержащих символы биоинформационного набора символов, причем каждое основание или пептид геномных или протеомных данных представлено отдельным
символом биоинформационного набора символов, и символы биоинформационного набора символов кодируют основания или пептиды в первом поднаборе битов и дополнительные данные, ассоциированные с основаниями или пептидами, во втором поднаборе битов.
13. Запоминающий носитель по п. 12, в котором программное обеспечение обрабатывает геномные или протеомические данные, используя операции обработки строк.
14. Запоминающий носитель по любому из пп. 12 или 13, в котором программное обеспечение обрабатывает геномные или протеомные данные, применяя операции побитового маскирования для обнуления выбранных бинарных битов символов, представляющих основания или пептиды.
15. Запоминающий носитель по п. 12, причем запоминающий носитель дополнительно сохраняет биоинформационный шрифт (40), отображенный в биоинформационный набор символов, и программное обеспечение выполняет операции отображения, в которых отображают геномные или протеомные данные, используя биоинформационный шрифт.
RU2014103789/10A 2011-07-05 2012-07-04 Представление, визуализация, сравнение и сообщение о геномной/протеомной последовательности с использованием биоинформационного набора символов и отображенного биоинформационного шрифта RU2014103789A (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161504411P 2011-07-05 2011-07-05
EP11174187.2 2011-07-05
US61/504,411 2011-07-05
EP11174187A EP2544113A1 (en) 2011-07-05 2011-07-15 Genomic/proteomic sequence representation, visualization, comparison and reporting using a bioinformatics character set and a mapped bioinformatics font
PCT/IB2012/053423 WO2013005173A2 (en) 2011-07-05 2012-07-04 Genomic/proteomic sequence representation, visualization, comparison and reporting using bioinformatics character set and mapped bioinformatics font

Publications (1)

Publication Number Publication Date
RU2014103789A true RU2014103789A (ru) 2015-08-10

Family

ID=44721406

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014103789/10A RU2014103789A (ru) 2011-07-05 2012-07-04 Представление, визуализация, сравнение и сообщение о геномной/протеомной последовательности с использованием биоинформационного набора символов и отображенного биоинформационного шрифта

Country Status (8)

Country Link
US (1) US20140229114A1 (ru)
EP (2) EP2544113A1 (ru)
JP (1) JP6352804B2 (ru)
CN (2) CN110335642A (ru)
BR (1) BR112013033910A2 (ru)
MX (1) MX348461B (ru)
RU (1) RU2014103789A (ru)
WO (1) WO2013005173A2 (ru)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11101018B2 (en) * 2014-03-20 2021-08-24 Tata Consultancy Services Limited Encoding and decoding of RNA data
US10552240B2 (en) * 2014-09-04 2020-02-04 International Business Machines Corporation Automatically generating efficient remote procedure call (RPC) code for heterogeneous systems
WO2017024138A1 (en) * 2015-08-06 2017-02-09 Arc Bio, Llc Systems and methods for genomic analysis
ES2867874T3 (es) * 2016-10-11 2021-10-21 Genomsys Sa Procedimiento y sistema para la transmisión de datos bioinformáticos

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS571007B2 (ru) * 1974-06-07 1982-01-08
JP2556336B2 (ja) * 1987-09-14 1996-11-20 コニカ株式会社 カラー画像処理装置
JP2000134589A (ja) * 1998-10-23 2000-05-12 Matsushita Electric Ind Co Ltd テレビジョン信号ラインサーチ方法およびラインサーチ装置
WO2002082264A2 (en) * 2001-04-06 2002-10-17 Brian Seed A font for displaying genetic information
JP2003125772A (ja) * 2001-06-20 2003-05-07 Dainakomu:Kk コンピュータを利用して解析対象核酸塩基配列から最適なオリゴ核酸配列の候補を設計するためのコンピュータソフトウエアプログラム、その方法およびそのように設計されたオリゴ核酸配列が搭載されたオリゴ核酸アレイ
JP2003189178A (ja) * 2001-12-19 2003-07-04 Fuji Photo Film Co Ltd オンスクリーンディスプレイ装置
JP2004005319A (ja) * 2002-04-24 2004-01-08 Japan Science & Technology Corp 遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体
US7158892B2 (en) * 2002-06-28 2007-01-02 International Business Machines Corporation Genomic messaging system
JP2004096243A (ja) * 2002-08-29 2004-03-25 Matsushita Electric Ind Co Ltd 重畳データ抽出装置
JP2004152023A (ja) * 2002-10-30 2004-05-27 Hitachi Ltd 文字列解析方法
JP2004192257A (ja) * 2002-12-10 2004-07-08 Nec Corp 配列表示方法/装置/プログラム/記録媒体、相同性検索方法/装置/プログラム/記録媒体
JP2004234297A (ja) * 2003-01-30 2004-08-19 Biomatics Inc 生物学的な配列情報処理装置
US20040153255A1 (en) * 2003-02-03 2004-08-05 Ahn Tae-Jin Apparatus and method for encoding DNA sequence, and computer readable medium
KR100858081B1 (ko) * 2003-02-14 2008-09-10 삼성전자주식회사 유전정보 코딩장치 및 방법
JP2004259094A (ja) * 2003-02-27 2004-09-16 Maze:Kk コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法
US7761238B2 (en) * 2003-10-03 2010-07-20 Allan Robert Moser Method and apparatus for discovering patterns in binary or categorical data
US7869956B2 (en) * 2003-10-06 2011-01-11 Cerner Innovation, Inc. Computerized system and method for documenting and presenting mutation observations
JP4468773B2 (ja) * 2004-09-09 2010-05-26 日立ソフトウエアエンジニアリング株式会社 遺伝子情報の表示方法及び表示装置
JP5469882B2 (ja) * 2009-02-27 2014-04-16 株式会社日立ソリューションズ 生物種同定方法及びシステム

Also Published As

Publication number Publication date
WO2013005173A3 (en) 2013-07-18
MX2013014746A (es) 2014-02-17
BR112013033910A2 (pt) 2017-12-12
JP2014525080A (ja) 2014-09-25
US20140229114A1 (en) 2014-08-14
EP2729892A2 (en) 2014-05-14
WO2013005173A2 (en) 2013-01-10
CN110335642A (zh) 2019-10-15
CN103797487A (zh) 2014-05-14
EP2544113A1 (en) 2013-01-09
JP6352804B2 (ja) 2018-07-04
MX348461B (es) 2017-06-14

Similar Documents

Publication Publication Date Title
JP6141335B2 (ja) コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理
JP6239661B2 (ja) フォーマット維持ベースマスキングシステムおよび方法
US10790044B2 (en) Systems and methods for sequence encoding, storage, and compression
JP2019537172A (ja) バイオインフォマティクスデータのインデックスを付けるための方法及びシステム
RU2014103789A (ru) Представление, визуализация, сравнение и сообщение о геномной/протеомной последовательности с использованием биоинформационного набора символов и отображенного биоинформационного шрифта
US11328793B2 (en) Accelerating genomic data parsing on field programmable gate arrays
US20180137387A1 (en) Systems and Methods for Aligning Sequences to Graph References
US20210183466A1 (en) Identification method, information processing device, and recording medium
CN112100982B (zh) Dna存储方法、系统和存储介质
Pratas et al. XS: a FASTQ read simulator
JP2021197724A (ja) Dnaに基づくデータ記憶方法、復号方法、システムと装置
JP6540308B2 (ja) 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置
JP2013172709A (ja) 塩基配列分析のための参照配列処理システム及び方法
RU2008128245A (ru) Реализуемый компьютером способ кодирования числовых данных и способ кодирования структур данных для передачи в телекоммуникационной системе, основанной на вышеуказанном способе кодирования числовых данных
CN105550535A (zh) 一种基因字符序列快速编码为二进制序列的编码方法
JP2020509473A (ja) 複数のゲノム記述子を用いた生体情報データのコンパクト表現方法及び装置
CN110168649A (zh) 用于生物信息数据的紧凑表示的方法和设备
Luhmann et al. Scaffolding of ancient contigs and ancestral reconstruction in a phylogenetic framework
CN116432217A (zh) 档案存储方法、读取方法及相关装置
CN108292307A (zh) 具有对压缩数据的快速操作的前缀Burrow-Wheeler变换
CN101923399A (zh) 可作为输入码和内码的电脑汉字编码文字的编码方法
Wang et al. Virus genome sequence classification using features based on nucleotides, words and compression
WO2021245926A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
JPWO2002101935A1 (ja) 復号化装置、復号化方法、ルックアップテーブルおよび復号化プログラム
CN111046400B (zh) 基于实物图像综合信息的基因式存储与解析方法及系统

Legal Events

Date Code Title Description
FA92 Acknowledgement of application withdrawn (lack of supplementary materials submitted)

Effective date: 20170417