RU2014103789A

RU2014103789A - Представление, визуализация, сравнение и сообщение о геномной/протеомной последовательности с использованием биоинформационного набора символов и отображенного биоинформационного шрифта

Info

Publication number: RU2014103789A
Application number: RU2014103789/10A
Authority: RU
Inventors: Рандип СИНГХ; Сунил КУМАР; Бисваруп ЧАКРАБАРТИ
Original assignee: Конинклейке Филипс Н.В.
Priority date: 2011-07-05
Filing date: 2012-07-04
Publication date: 2015-08-10
Also published as: WO2013005173A3; MX2013014746A; BR112013033910A2; JP2014525080A; US20140229114A1; EP2729892A2; WO2013005173A2; CN110335642A; CN103797487A; EP2544113A1; JP6352804B2; MX348461B

Abstract

1. Способ кодирования геномных или протеомных данных, отличающийся тем, что способ содержит этапы, на которых:кодируют геномные или протеомные данные в виде геномной или протеомной символьной строки, содержащей символы биоинформационного набора символов, причем:(i) каждое основание или пептид геномных или протеомных данных представлены одним символом биоинформационного набора (20)символов; и(ii) каждый символ биоинформационного набора символов кодирует (I) основание или пептид в первом поднаборе битов и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с основанием или пептидом, во втором поднаборе битов; ипричем кодирование осуществляют посредством устройства (50) цифровой обработки.2. Способ по п. 1, в котором каждый символ биоинформационного набора символов представлен одним из (1) одного байта, состоящего из восьми битов, и (2) двух байтов, состоящих из шестнадцати битов, причем первый поднабор из восьми или шестнадцати битов кодирует основание или пептид, и второй поднабор из восьми или шестнадцати битов кодирует по меньшей мере одно аннотированное значение основания, ассоциированное с основанием или пептидом.3. Способ по любому из пп. 1 и 2, в котором:каждый символ биоинформационного набора символов, которыйкодирует основание аденин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "A" или "a",каждый символ биоинформационного набора символов, который кодирует основание гуанин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "G" или "g",каждый символ биоинформационного набора символов, который кодирует основание цитозин, от

Claims

1. Способ кодирования геномных или протеомных данных, отличающийся тем, что способ содержит этапы, на которых:

кодируют геномные или протеомные данные в виде геномной или протеомной символьной строки, содержащей символы биоинформационного набора символов, причем:

(i) каждое основание или пептид геномных или протеомных данных представлены одним символом биоинформационного набора (20)символов; и

(ii) каждый символ биоинформационного набора символов кодирует (I) основание или пептид в первом поднаборе битов и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с основанием или пептидом, во втором поднаборе битов; и

причем кодирование осуществляют посредством устройства (50) цифровой обработки.

2. Способ по п. 1, в котором каждый символ биоинформационного набора символов представлен одним из (1) одного байта, состоящего из восьми битов, и (2) двух байтов, состоящих из шестнадцати битов, причем первый поднабор из восьми или шестнадцати битов кодирует основание или пептид, и второй поднабор из восьми или шестнадцати битов кодирует по меньшей мере одно аннотированное значение основания, ассоциированное с основанием или пептидом.

3. Способ по любому из пп. 1 и 2, в котором:

каждый символ биоинформационного набора символов, который

кодирует основание аденин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "A" или "a",

каждый символ биоинформационного набора символов, который кодирует основание гуанин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "G" или "g",

каждый символ биоинформационного набора символов, который кодирует основание цитозин, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "C" или "c",

каждый символ биоинформационного набора символов, который кодирует основание тимин или урацил, отображают в символ шрифта биоинформационного шрифта, включающий в себя букву "T" или "t" или букву "U" или "u"; и

по меньшей мере один символ биоинформационного набора символов кодирует неопределенное основание с использованием кода, представляющего два или более возможных основания.

4. Способ по п. 3, в котором:

каждый символ биоинформационного набора символов кодирует аннотированное значение элемента данных, указывающее на качественное значение кодированного основания и

биоинформационный шрифт содержит диакритические знаки, указывающие на качественные значения оснований.

5. Способ по п. 1, в котором по меньшей мере четыре символа биоинформационного набора символов отображают в символы шрифта биоинформационного шрифта таким образом, что каждый включает в себя одну или более букв, представляющих основание или пептид, кодированные посредством символа и одного или более диакритических знаков, представляющих кодированный по меньшей

мере один аннотированный элемент данных.

6. Способ по п. 1, дополнительно содержащий этап, на котором:

выполняют по меньшей мере одну строковую функцию на геномной или протеомной символьной строке для формирования обновленной геномной или протеомной символьной строки, в которой по меньшей мере одно основание или пептид представлены одним символом, кодирующим по меньшей мере один дополнительный или измененный аннотированный элемент данных, формируемый посредством выполняемой обработки строк.

7. Способ по п. 6, в котором упомянутое выполнение включает в себя этап, на котором выполняют сравнение строк, при котором сравнивают геномную или протеомную символьную строку с эталонной геномной или протеомной символьной строкой.

8. Способ по п. 6, в котором упомянутое выполнение включает в себя этап, на котором выполняют побитовую логическую операцию на символах геномной или протеомной символьной строки.

9. Способ по п. 1, причем способ кодирует только геномные данные и содержит этапы, на которых:

кодируют геномные данные в виде геномной символьной строки, содержащей символы биоинформационного набора символов, причем:

(i) каждое основание геномных данных представлено отдельным символом из биоинформационного набора символов и

(ii) каждый символ из биоинформационного набора символов кодирует (I) основание и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с основанием; и

отображают геномные данные посредством отображения геномной символьной строки, используя биоинформационный шрифт, отображенный в биоинформационный набор символов.

10. Способ по п. 1, причем способ кодирует только протеомные данные и содержит этапы, на которых:

кодируют протеомные данные в виде протеомной символьной строки, содержащей символы биоинформационного набора символов, причем:

(i) каждый пептид протеомных данных представлен отдельным символом из биоинформационного набора символов и

(ii) каждый символ из биоинформационного набора символов кодирует (I) пептид и (II) по меньшей мере одно аннотированное значение элемента данных, ассоциированное с пептидом; и

отображают протеомные данные посредством отображения протеомной символьной строки, используя биоинформационный шрифт, отображенный в биоинформационный набор символов.

11. Устройство, отличающееся тем, что устройство содержит:

устройство (50) цифровой обработки, выполненное с возможностью осуществления способа по любому из пп. 1-10.

12. Постоянный запоминающий носитель, считываемый цифровым процессором и сохраняющий программное обеспечение для кодирования геномных или протеомных данных, отличающийся тем, что программное обеспечение выполнено с возможностью обработки геномных или протеомных данных, представленных в виде геномных или протеомных символьных строк, содержащих символы биоинформационного набора символов, причем каждое основание или пептид геномных или протеомных данных представлено отдельным

символом биоинформационного набора символов, и символы биоинформационного набора символов кодируют основания или пептиды в первом поднаборе битов и дополнительные данные, ассоциированные с основаниями или пептидами, во втором поднаборе битов.

13. Запоминающий носитель по п. 12, в котором программное обеспечение обрабатывает геномные или протеомические данные, используя операции обработки строк.

14. Запоминающий носитель по любому из пп. 12 или 13, в котором программное обеспечение обрабатывает геномные или протеомные данные, применяя операции побитового маскирования для обнуления выбранных бинарных битов символов, представляющих основания или пептиды.

15. Запоминающий носитель по п. 12, причем запоминающий носитель дополнительно сохраняет биоинформационный шрифт (40), отображенный в биоинформационный набор символов, и программное обеспечение выполняет операции отображения, в которых отображают геномные или протеомные данные, используя биоинформационный шрифт.