RU2014103789A - Представление, визуализация, сравнение и сообщение о геномной/протеомной последовательности с использованием биоинформационного набора символов и отображенного биоинформационного шрифта - Google Patents
Представление, визуализация, сравнение и сообщение о геномной/протеомной последовательности с использованием биоинформационного набора символов и отображенного биоинформационного шрифта Download PDFInfo
- Publication number
- RU2014103789A RU2014103789A RU2014103789/10A RU2014103789A RU2014103789A RU 2014103789 A RU2014103789 A RU 2014103789A RU 2014103789/10 A RU2014103789/10 A RU 2014103789/10A RU 2014103789 A RU2014103789 A RU 2014103789A RU 2014103789 A RU2014103789 A RU 2014103789A
- Authority
- RU
- Russia
- Prior art keywords
- bioinformation
- genomic
- base
- proteomic
- symbol
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
1. Способ кодирования геномных или протеомных данных, отличающийся тем, что способ содержит этапы, на которых:кодируют геномные или протеомные данные в виде геномной или протеомной символьной строки, содержащей символы биоинформационного набора символов, причем:(i) каждое основание или пептид геномных или протеомных данных представлены одним символом биоинформационного набора (20)символов; и(ii) каждый символ биоинформационного набора символов кодирует (I) основание или пептид в первом поднаборе битов и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с основанием или пептидом, во втором поднаборе битов; ипричем кодирование осуществляют посредством устройства (50) цифровой обработки.2. Способ по п. 1, в котором каждый символ биоинформационного набора символов представлен одним из (1) одного байта, состоящего из восьми битов, и (2) двух байтов, состоящих из шестнадцати битов, причем первый поднабор из восьми или шестнадцати битов кодирует основание или пептид, и второй поднабор из восьми или шестнадцати битов кодирует по меньшей мере одно аннотированное значение основания, ассоциированное с основанием или пептидом.3. Способ по любому из пп. 1 и 2, в котором:каждый символ биоинформационного набора символов, которыйкодирует основание аденин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "A" или "a",каждый символ биоинформационного набора символов, который кодирует основание гуанин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "G" или "g",каждый символ биоинформационного набора символов, который кодирует основание цитозин, от
Claims (15)
1. Способ кодирования геномных или протеомных данных, отличающийся тем, что способ содержит этапы, на которых:
кодируют геномные или протеомные данные в виде геномной или протеомной символьной строки, содержащей символы биоинформационного набора символов, причем:
(i) каждое основание или пептид геномных или протеомных данных представлены одним символом биоинформационного набора (20)символов; и
(ii) каждый символ биоинформационного набора символов кодирует (I) основание или пептид в первом поднаборе битов и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с основанием или пептидом, во втором поднаборе битов; и
причем кодирование осуществляют посредством устройства (50) цифровой обработки.
2. Способ по п. 1, в котором каждый символ биоинформационного набора символов представлен одним из (1) одного байта, состоящего из восьми битов, и (2) двух байтов, состоящих из шестнадцати битов, причем первый поднабор из восьми или шестнадцати битов кодирует основание или пептид, и второй поднабор из восьми или шестнадцати битов кодирует по меньшей мере одно аннотированное значение основания, ассоциированное с основанием или пептидом.
3. Способ по любому из пп. 1 и 2, в котором:
каждый символ биоинформационного набора символов, который
кодирует основание аденин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "A" или "a",
каждый символ биоинформационного набора символов, который кодирует основание гуанин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "G" или "g",
каждый символ биоинформационного набора символов, который кодирует основание цитозин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "C" или "c",
каждый символ биоинформационного набора символов, который кодирует основание тимин или урацил, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "T" или "t" или букву "U" или "u"; и
по меньшей мере один символ биоинформационного набора символов кодирует неопределенное основание с использованием кода, представляющего два или более возможных основания.
4. Способ по п. 3, в котором:
каждый символ биоинформационного набора символов кодирует аннотированное значение элемента данных, указывающее на качественное значение кодированного основания и
биоинформационный шрифт содержит диакритические знаки, указывающие на качественные значения оснований.
5. Способ по п. 1, в котором по меньшей мере четыре символа биоинформационного набора символов отображают в символы шрифта биоинформационного шрифта таким образом, что каждый включает в себя одну или более букв, представляющих основание или пептид, кодированные посредством символа и одного или более диакритических знаков, представляющих кодированный по меньшей
мере один аннотированный элемент данных.
6. Способ по п. 1, дополнительно содержащий этап, на котором:
выполняют по меньшей мере одну строковую функцию на геномной или протеомной символьной строке для формирования обновленной геномной или протеомной символьной строки, в которой по меньшей мере одно основание или пептид представлены одним символом, кодирующим по меньшей мере один дополнительный или измененный аннотированный элемент данных, формируемый посредством выполняемой обработки строк.
7. Способ по п. 6, в котором упомянутое выполнение включает в себя этап, на котором выполняют сравнение строк, при котором сравнивают геномную или протеомную символьную строку с эталонной геномной или протеомной символьной строкой.
8. Способ по п. 6, в котором упомянутое выполнение включает в себя этап, на котором выполняют побитовую логическую операцию на символах геномной или протеомной символьной строки.
9. Способ по п. 1, причем способ кодирует только геномные данные и содержит этапы, на которых:
кодируют геномные данные в виде геномной символьной строки, содержащей символы биоинформационного набора символов, причем:
(i) каждое основание геномных данных представлено отдельным символом из биоинформационного набора символов и
(ii) каждый символ из биоинформационного набора символов кодирует (I) основание и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с основанием; и
отображают геномные данные посредством отображения геномной символьной строки, используя биоинформационный шрифт, отображенный в биоинформационный набор символов.
10. Способ по п. 1, причем способ кодирует только протеомные данные и содержит этапы, на которых:
кодируют протеомные данные в виде протеомной символьной строки, содержащей символы биоинформационного набора символов, причем:
(i) каждый пептид протеомных данных представлен отдельным символом из биоинформационного набора символов и
(ii) каждый символ из биоинформационного набора символов кодирует (I) пептид и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с пептидом; и
отображают протеомные данные посредством отображения протеомной символьной строки, используя биоинформационный шрифт, отображенный в биоинформационный набор символов.
11. Устройство, отличающееся тем, что устройство содержит:
устройство (50) цифровой обработки, выполненное с возможностью осуществления способа по любому из пп. 1-10.
12. Постоянный запоминающий носитель, считываемый цифровым процессором и сохраняющий программное обеспечение для кодирования геномных или протеомных данных, отличающийся тем, что программное обеспечение выполнено с возможностью обработки геномных или протеомных данных, представленных в виде геномных или протеомных символьных строк, содержащих символы биоинформационного набора символов, причем каждое основание или пептид геномных или протеомных данных представлено отдельным
символом биоинформационного набора символов, и символы биоинформационного набора символов кодируют основания или пептиды в первом поднаборе битов и дополнительные данные, ассоциированные с основаниями или пептидами, во втором поднаборе битов.
13. Запоминающий носитель по п. 12, в котором программное обеспечение обрабатывает геномные или протеомические данные, используя операции обработки строк.
14. Запоминающий носитель по любому из пп. 12 или 13, в котором программное обеспечение обрабатывает геномные или протеомные данные, применяя операции побитового маскирования для обнуления выбранных бинарных битов символов, представляющих основания или пептиды.
15. Запоминающий носитель по п. 12, причем запоминающий носитель дополнительно сохраняет биоинформационный шрифт (40), отображенный в биоинформационный набор символов, и программное обеспечение выполняет операции отображения, в которых отображают геномные или протеомные данные, используя биоинформационный шрифт.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161504411P | 2011-07-05 | 2011-07-05 | |
EP11174187.2 | 2011-07-05 | ||
US61/504,411 | 2011-07-05 | ||
EP11174187A EP2544113A1 (en) | 2011-07-05 | 2011-07-15 | Genomic/proteomic sequence representation, visualization, comparison and reporting using a bioinformatics character set and a mapped bioinformatics font |
PCT/IB2012/053423 WO2013005173A2 (en) | 2011-07-05 | 2012-07-04 | Genomic/proteomic sequence representation, visualization, comparison and reporting using bioinformatics character set and mapped bioinformatics font |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2014103789A true RU2014103789A (ru) | 2015-08-10 |
Family
ID=44721406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2014103789/10A RU2014103789A (ru) | 2011-07-05 | 2012-07-04 | Представление, визуализация, сравнение и сообщение о геномной/протеомной последовательности с использованием биоинформационного набора символов и отображенного биоинформационного шрифта |
Country Status (8)
Country | Link |
---|---|
US (1) | US20140229114A1 (ru) |
EP (2) | EP2544113A1 (ru) |
JP (1) | JP6352804B2 (ru) |
CN (2) | CN110335642A (ru) |
BR (1) | BR112013033910A2 (ru) |
MX (1) | MX348461B (ru) |
RU (1) | RU2014103789A (ru) |
WO (1) | WO2013005173A2 (ru) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11101018B2 (en) * | 2014-03-20 | 2021-08-24 | Tata Consultancy Services Limited | Encoding and decoding of RNA data |
US10552240B2 (en) * | 2014-09-04 | 2020-02-04 | International Business Machines Corporation | Automatically generating efficient remote procedure call (RPC) code for heterogeneous systems |
WO2017024138A1 (en) * | 2015-08-06 | 2017-02-09 | Arc Bio, Llc | Systems and methods for genomic analysis |
ES2867874T3 (es) * | 2016-10-11 | 2021-10-21 | Genomsys Sa | Procedimiento y sistema para la transmisión de datos bioinformáticos |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS571007B2 (ru) * | 1974-06-07 | 1982-01-08 | ||
JP2556336B2 (ja) * | 1987-09-14 | 1996-11-20 | コニカ株式会社 | カラー画像処理装置 |
JP2000134589A (ja) * | 1998-10-23 | 2000-05-12 | Matsushita Electric Ind Co Ltd | テレビジョン信号ラインサーチ方法およびラインサーチ装置 |
WO2002082264A2 (en) * | 2001-04-06 | 2002-10-17 | Brian Seed | A font for displaying genetic information |
JP2003125772A (ja) * | 2001-06-20 | 2003-05-07 | Dainakomu:Kk | コンピュータを利用して解析対象核酸塩基配列から最適なオリゴ核酸配列の候補を設計するためのコンピュータソフトウエアプログラム、その方法およびそのように設計されたオリゴ核酸配列が搭載されたオリゴ核酸アレイ |
JP2003189178A (ja) * | 2001-12-19 | 2003-07-04 | Fuji Photo Film Co Ltd | オンスクリーンディスプレイ装置 |
JP2004005319A (ja) * | 2002-04-24 | 2004-01-08 | Japan Science & Technology Corp | 遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7158892B2 (en) * | 2002-06-28 | 2007-01-02 | International Business Machines Corporation | Genomic messaging system |
JP2004096243A (ja) * | 2002-08-29 | 2004-03-25 | Matsushita Electric Ind Co Ltd | 重畳データ抽出装置 |
JP2004152023A (ja) * | 2002-10-30 | 2004-05-27 | Hitachi Ltd | 文字列解析方法 |
JP2004192257A (ja) * | 2002-12-10 | 2004-07-08 | Nec Corp | 配列表示方法/装置/プログラム/記録媒体、相同性検索方法/装置/プログラム/記録媒体 |
JP2004234297A (ja) * | 2003-01-30 | 2004-08-19 | Biomatics Inc | 生物学的な配列情報処理装置 |
US20040153255A1 (en) * | 2003-02-03 | 2004-08-05 | Ahn Tae-Jin | Apparatus and method for encoding DNA sequence, and computer readable medium |
KR100858081B1 (ko) * | 2003-02-14 | 2008-09-10 | 삼성전자주식회사 | 유전정보 코딩장치 및 방법 |
JP2004259094A (ja) * | 2003-02-27 | 2004-09-16 | Maze:Kk | コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法 |
US7761238B2 (en) * | 2003-10-03 | 2010-07-20 | Allan Robert Moser | Method and apparatus for discovering patterns in binary or categorical data |
US7869956B2 (en) * | 2003-10-06 | 2011-01-11 | Cerner Innovation, Inc. | Computerized system and method for documenting and presenting mutation observations |
JP4468773B2 (ja) * | 2004-09-09 | 2010-05-26 | 日立ソフトウエアエンジニアリング株式会社 | 遺伝子情報の表示方法及び表示装置 |
JP5469882B2 (ja) * | 2009-02-27 | 2014-04-16 | 株式会社日立ソリューションズ | 生物種同定方法及びシステム |
-
2011
- 2011-07-15 EP EP11174187A patent/EP2544113A1/en not_active Ceased
-
2012
- 2012-07-04 MX MX2013014746A patent/MX348461B/es active IP Right Grant
- 2012-07-04 JP JP2014518051A patent/JP6352804B2/ja not_active Expired - Fee Related
- 2012-07-04 CN CN201910585009.6A patent/CN110335642A/zh active Pending
- 2012-07-04 BR BR112013033910A patent/BR112013033910A2/pt not_active Application Discontinuation
- 2012-07-04 US US14/131,038 patent/US20140229114A1/en not_active Abandoned
- 2012-07-04 EP EP12751359.6A patent/EP2729892A2/en not_active Withdrawn
- 2012-07-04 CN CN201280033367.2A patent/CN103797487A/zh active Pending
- 2012-07-04 RU RU2014103789/10A patent/RU2014103789A/ru not_active Application Discontinuation
- 2012-07-04 WO PCT/IB2012/053423 patent/WO2013005173A2/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2013005173A3 (en) | 2013-07-18 |
MX2013014746A (es) | 2014-02-17 |
BR112013033910A2 (pt) | 2017-12-12 |
JP2014525080A (ja) | 2014-09-25 |
US20140229114A1 (en) | 2014-08-14 |
EP2729892A2 (en) | 2014-05-14 |
WO2013005173A2 (en) | 2013-01-10 |
CN110335642A (zh) | 2019-10-15 |
CN103797487A (zh) | 2014-05-14 |
EP2544113A1 (en) | 2013-01-09 |
JP6352804B2 (ja) | 2018-07-04 |
MX348461B (es) | 2017-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6141335B2 (ja) | コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理 | |
JP6239661B2 (ja) | フォーマット維持ベースマスキングシステムおよび方法 | |
US10790044B2 (en) | Systems and methods for sequence encoding, storage, and compression | |
JP2019537172A (ja) | バイオインフォマティクスデータのインデックスを付けるための方法及びシステム | |
RU2014103789A (ru) | Представление, визуализация, сравнение и сообщение о геномной/протеомной последовательности с использованием биоинформационного набора символов и отображенного биоинформационного шрифта | |
US11328793B2 (en) | Accelerating genomic data parsing on field programmable gate arrays | |
US20180137387A1 (en) | Systems and Methods for Aligning Sequences to Graph References | |
US20210183466A1 (en) | Identification method, information processing device, and recording medium | |
CN112100982B (zh) | Dna存储方法、系统和存储介质 | |
Pratas et al. | XS: a FASTQ read simulator | |
JP2021197724A (ja) | Dnaに基づくデータ記憶方法、復号方法、システムと装置 | |
JP6540308B2 (ja) | 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置 | |
JP2013172709A (ja) | 塩基配列分析のための参照配列処理システム及び方法 | |
RU2008128245A (ru) | Реализуемый компьютером способ кодирования числовых данных и способ кодирования структур данных для передачи в телекоммуникационной системе, основанной на вышеуказанном способе кодирования числовых данных | |
CN105550535A (zh) | 一种基因字符序列快速编码为二进制序列的编码方法 | |
JP2020509473A (ja) | 複数のゲノム記述子を用いた生体情報データのコンパクト表現方法及び装置 | |
CN110168649A (zh) | 用于生物信息数据的紧凑表示的方法和设备 | |
Luhmann et al. | Scaffolding of ancient contigs and ancestral reconstruction in a phylogenetic framework | |
CN116432217A (zh) | 档案存储方法、读取方法及相关装置 | |
CN108292307A (zh) | 具有对压缩数据的快速操作的前缀Burrow-Wheeler变换 | |
CN101923399A (zh) | 可作为输入码和内码的电脑汉字编码文字的编码方法 | |
Wang et al. | Virus genome sequence classification using features based on nucleotides, words and compression | |
WO2021245926A1 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JPWO2002101935A1 (ja) | 復号化装置、復号化方法、ルックアップテーブルおよび復号化プログラム | |
CN111046400B (zh) | 基于实物图像综合信息的基因式存储与解析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA92 | Acknowledgement of application withdrawn (lack of supplementary materials submitted) |
Effective date: 20170417 |