MX2013014746A

MX2013014746A - Representacion de secuencia genomica/proteomica, visualizacion, comparacion y reporte de uso de conjunto de caracteres bioinformaticos y fuentes bioinformaticas mapeadas.

Info

Publication number: MX2013014746A
Application number: MX2013014746A
Authority: MX
Inventors: Randeep Singh; Sunil Kumar; Biswaroop Chakrabarti
Original assignee: Koninkl Philips Nv
Priority date: 2011-07-05
Filing date: 2012-07-04
Publication date: 2014-02-17
Also published as: WO2013005173A3; BR112013033910A2; RU2014103789A; JP2014525080A; US20140229114A1; EP2729892A2; WO2013005173A2; CN110335642A; CN103797487A; EP2544113A1; JP6352804B2; MX348461B

Abstract

Los datos genómicos o proteómicos se codifican como una serie de caracteres genómicos o proteómicos que comprende caracteres de un conjunto de caracteres bioinformáticos (20) cada base o péptido de los datos genómicos o proteámicos son representados por un solo carácter del conjunto de caracteres bioinformáticos, y cada carácter del conjunto de caracteres bioinformáticos, codifica (I) una base o péptido y (II) al menos un valor de dato anotado asociado con la base o péptido. Los datos genómicos o proteómicos son presentados al presentar la serie de caracteres genómicos o proteómicos usando una fuente bioinformática mapeada para el conjunto de caracteres bioinformáticos al menos una función de serie puede realizarse en la serie de caracteres genómicos o proteómicos para generar una serie de caracteres genómicos o proteómicos actualizados en la que al menos una base o péptido son representados por un solo carácter que codifica al menos un dato anotado adicional o modificado generado por la manipulación de serie realizada.

Description

REPRESENTACION DE SECUENCIA GENOMICA/PROTEOMICA, VISUALIZACION, COMPARACION Y REPORTE DE USO DE CONJUNTO DE CARACTERES BIOINFORMATICOS Y FUENTES BIOINFORMATICAS MAPEADAS CAMPO DE LA INVENCION Lo siguiente se relaciona con las técnicas de procesamiento genómicas, bioinformáticas , y técnicas relacionadas.

ANTECEDENTES DE LA INVENCION Los datos genómicos o proteómicos comprenden una secuencia ordenada de bases de péptidos. En el caso del ácido desoxirribonucléico (ADN) las bases son adenina, citosina, guanina, y timina, que son representadas comúnmente por las letras "A", "C", "G" y "T", respectivamente. En el caso de ácido ribonucleico (ARN) , las bases son adenina, citosina, guanina, y uracilo, que son comúnmente representadas por las letras "A", "C", "G" , y "U" , respectivamente. El ADN y ARN difieren por la sustitución de uracilo (U) para la tiamina (T) .

Las proteínas y otras moléculas proteínicas comprenden aminoácidos conectados mediante enlaces peptídicos. Los datos proteómicos correspondientes son representados por una secuencia de péptido (o aminoácido) . (Los términos "péptido" Y "aminoácido" se usan de manera intercambiable en la presente para referirse a elementos de Ref . 245572 una secuencia proteómica) . Los aminoácidos son representados por lo general mediante un código de una letra o de tres letras. Por ejemplo: la alanina es representada por la letra "A" o el código de tres letras "Ala"); la arginina es representada por la letra "R" o el código de tres letras "Arg" ; y así sucesivamente. En la secuencia peptídica, los péptidos individuales se denotan por lo general por sus constituyentes de aminoácido, ya que el enlace peptídico no cambia. Por lo tanto, por ejemplo, "A" o "Ala" no se usan en una secuencia proteínica para denotar el péptido que comprende alanina.

Los datos genómicos o proteómicos contienen información útil sustancial, que se extrae por lo general mediante coincidencia de patrones. Por ejemplo, los datos genómicos o proteómicos pueden ser buscados para un marcador de enfermedad que ha sido correlacionado con una cierta enfermedad en estudios clínicos pasados, o los datos pueden ser usados para planeación de terapia para ciertas enfermedades como cáncer, enfermedades metabólicas, entre otras. Los marcadores genéticos indicativos de linajes ancestrales pueden usarse para valorar el linaje de un sujeto. En la aplicación de la ley u otros campos, la correlación del fenotipo con el genotipo pueden proporcionar información útil. Por ejemplo, una muestra de ADN obtenida de la escena de un crimen puede indicar que el criminal tiene una cierta característica física, por lo tanto eliminando a cualquier sospechoso que no tenga esa característica.

El procesamiento de secuencia por lo general contiene las siguientes operaciones: adquisición de fragmentos de secuencia; alineación de los fragmentos de secuencia respectivos con una secuencia de referencia (por ejemplo, algunas secuencias de referencia adecuadas incluyen: Refseq, hgl8, hgl9, Pan-Genome, entre otros) ; y análisis de la secuencia alineada para identificar las variaciones de sujeto especificas. También puede incluir la alineación novo en la que no hay referencia para mapear, que lleva a la generación de cóntigos de longitudes múltiples que puedan anotarse entonces y a los cuales se les pueda hacer análisis comparativos.

Los datos genómicos o proteómicos se adquieren por lo general como fragmentos de secuencia que se almacenan en un formato estandarizado como FastA o FastQ. Una línea adecuada de sistemas de secuenciador que saca FastA o FastQ son secuenciadores Illumina (disponibles de Illumina Inc., San Diego, CA, Estados Unidos) . El formato FastA usa una sola letra para representar cada base o péptido (por ejemplo, las representaciones de base "A", "C", "G" , y "T" para ADN, o "A", "C", "G", y "U" para ARN) . Una sola letra puede proporcionarse para representar bases ambiguas -por ejemplo, la letra "R" puede representar una base ambigua que ni es adenina ni guanina. El formato FastQ es una extensión de FastA que incluye una línea adicional de caracteres que representan los valores de calidad para las bases de la secuencia. Un archivo FastQ es aproximadamente el doble de largo que el archivo FastA correspondiente, debido al uso de dos caracteres para cada base (un carácter para representar el valor base, y un segundo carácter para representar el valor de calidad) .

Los fragmentos de secuencia se alinean con respecto a una secuencia de referencia para generar datos genómicos o proteómicos que se almacenan por lo general en un archivo de texto de Alineación de Secuencia/Mapeo (SAM, por sus siglas en inglés) o un archivo BAM binario equivalente. El formato SAM por lo general emplea el sistema coordinado de "una base" en el que el coordinado de la primera base de una secuencia es uno, mientras que el formato BAM por lo general emplea el sistema coordinado de "cero bases" en el que el coordinado de la primera base de una secuencia es cero. Los fragmentos de secuencia que forman la secuencia alineada se mantienen de manera adecuada en el formato FastA (convertido a un formato binario en el caso de BAM) . La alineación de secuencia permite la identificación de regiones funcionales como genes, intrones (subsecuencias extrañas dentro de un gen que no se traducen a una proteína) , exones (las porciones de un gen que se traduce a una proteína) , promotores (son subsecuencias que facilitan la transcripción de genes) , codificación de secuencias para sitios de unión de factor de transcripción (TF, por sus siglas en inglés) (las proteínas TF se unen con los sitios de unión TF en la secuencia de ADN para controlar la transcripción) , las secuencias se transcriben a ARN no codificante (AR nc) , entre otros.

La secuencia genómica o proteóraica alineada se analiza entonces para identificar las variaciones, como un polimorfismo de un solo neucleótido (SNP, por sus siglas en inglés) , variación de número copia (CNV, por sus siglas en inglés), características (indel) de inserción o supresión de subsecuencia, varios rearreglos intracromosomales y/o intercromosomales , entre otros. Estas variaciones pueden servir como marcadores de enfermedad, marcadores de linaje ancestral, entre otros.

El procesamiento de secuencia es computacionalmente intensivo y genera grandes cantidades de datos. Para ilustración, un estudio de secuenciación de genoma típico puede generar aproximadamente 40 GB de FastA, y/o aproximadamente 80 GB de datos FastQ. La alineación de estos fragmentos de secuencia genera uno o más archivos SA de aproximadamente 200 GB (reducible a aproximadamente 100 GB en formato BAM binario) . Los datos alineados se procesan mediante algoritmos de coincidencia de patrón para identificar variaciones de interés, y los resultados de estos estudios se almacenan por lo general como varios archivos de texto, tablas, hojas de cálculo, u otras compilaciones de datos. Éstos enfoques existentes tienen ciertas desventajas. Un físico u otro revisor puede necesitar tener acceso a y revisar varios archivos con el fin de obtener información deseada. Los análisis variacionales por sí mismos pueden también ser complicados por la diversidad de almacenamiento de datos. Por ejemplo, al considerar una variación que es probativa cuando ocurre en un exón, pero no en otro lado. En el análisis variacional, la coincidencia de patrón se realiza primero para identificar una secuencia candidata que coincide con la firma de variación. Después, se accede al archivo SAM de fuente para determinar si la coincidencia de secuencia candidata ocurre en un exón. Este análisis variacional involucra dos pasos: (1) hacer coincidir la secuencia de base; y (2) hacer coincidir la secuencia de base con un exón. (De manera alterna, los datos de exón podrían primero ser identificados utilizando el contenido SAM, seguido por la coincidencia de secuencia de base aplicada solamente a los datos de exón. De nuevo, sin embargo, éste es un proceso de dos pasos) .

La presentación de los resultados de secuenciación también es complicado por la diversidad de almacenamiento de datos. De manera general, los resultados de cada análisis variacional se almacenan en su propio archivo de texto, tabla, hoja de cálculo, u otra compilación de datos. Por lo tanto se requiere de que el físico u otro revisor revisen las diferentes compilaciones de datos para valorar los resultados del estudio. Este proceso puede perder cinergística o las combinaciones discordantes de información. El formato textual de las tablas y/o de las hojas de cálculo también puede ser difícil de comprender. Una solución es presentar adicionalmente los resultados seleccionados en la forma de una gráfica, diagrama codificado a color, entre otros. Sin embargo, la generación de tales representaciones de datos auxiliares incrementa además la complejidad computacional . Adicionalmente, los resúmenes de resultados gráficos pueden desconectar estos resultados de los datos de secuencia genómica o proteómica sobresalientes.

BREVE DESCRIPCION DE LA INVENCION Lo siguiente proporciona nuevos y mejorados aparatos y métodos como los descritos en la presente.

De acuerdo con un aspecto descrito, un método comprende: codificar datos genómicos o protéomicos como una serie de caracteres genómicos o proteómicos que comprende caracteres de un conjunto de caracteres bionformáticos en donde: (i) cada base o péptido de los datos genómicos o proteómicos son representados por un solo carácter del conjunto de caracteres bionformáticos y (ii) cada carácter del conjunto de caracteres bionformá icos codifica (I) una base o péptido y (II) al menos un valor de dato anotado asociado con la base o el péptido; y presentar los datos genómicos o proteómicos al presentar la serie de caracteres genómicos o proteómicos usando fuentes bioinformáticas mapeadas para el conjunto de caracteres bioinformáticos . La codificación y presentación se realizan de manera adecuada mediante un dispositivo de procesamiento digital. El método puede incluir además la realización al menos de una función de serie en la serie de caracteres genómicos o proteómicos para generar una serie de caracteres genómicos o proteómicos actualizada en la que al menos una base o péptido se representa mediante una codificación de un solo carácter al menos un dato adicional o modificado generado por la manipulación de serie realizada.

De acuerdo con otro aspecto descrito, un dispositivo de procesamiento es configurado para realizar un método como el anterior en el párrafo inmediatamente precedente. De acuerdo con otro aspecto descrito, un medio de almacenamiento no transitorio es legible mediante un dispositivo de procesamiento digital y almacena instrucciones ejecutables mediante el dispositivo de procesamiento para realzar un método como se establece en el párrafo inmediatamente precedente.

De acuerdo con otro aspecto descrito, el medio de almacenamiento no transitorio es legible mediante un procesador digital y almacena software para procesar datos genómicos o proteómicos representados como series de caracteres genómicos o proteómicos que comprenden caracteres de un conjunto de caracteres bioinformáticos en donde cada base o péptido de los datos genómicos o proteómicos es representado por un solo carácter del conjunto de caracteres bioinformáticos y los caracteres de las bases codificadas del conjunto de caracteres bioinformáticos o péptidos y datos adicionales asociados con las bases o péptidos. En algunas modalidades el software procesa los datos genómicos o proteómicos usando operaciones de procesamiento de series. En algunas modalidades el software procesa las operaciones de máscara bit a bit en bits binarios seleccionados de cero de los caracteres que representan las bases o los péptidos. En algunas modalidades el medio de almacenamiento almacena además una fuente bioinformática mapeada para el conjunto de caracteres bioinformáticos , y el software realiza las operaciones de presentación en las que los datos genómicos o proteómicos se presentan usando la fuente bioinformática .

Una ventaja reside en almacenamiento más compacto y centralizado de los datos genómicos o proteómicos.

Otra ventaja reside en el almacenamiento de los valores de calidad de base, información de región funcional, información variacional, u otros datos anotados con la base o secuencia de péptidos en una representación de carácter único compacto.

Otra ventaja reside en proporcionar una presentación intuitiva de una base o secuencia de péptido que incluye marcas diacríticas u otras características de fuente que denotan o delinean información anotada como valores de calidad de base, regiones funcionales, variaciones, entre otras.

Otra ventaja reside en la comparación de las secuencias genómicas que usan operaciones de serie de carácter convencional . La comparación de las series puede configurarse fácilmente para detectar solamente cambios particulares en anotación (por ejemplo, Metilación) .

Otras ventajas incluyen facilitar la comparación de diferentes anotaciones de la secuencia de referencia anotada por diferentes grupos de búsqueda Y la facilidad de visualización de los cambios epigenéticos en genomas normales contra genomas cancerosos.

BREVE DESCRIPCION DE LAS FIGURAS Las ventajas adicionales serán aparentes para aquellos de habilidades ordinarias en la técnica después de leer y entender la siguiente descripción detallada.

La figura 1 muestra diagramáticamente un módulo de alineación de secuencia/análisis que emplea un conjunto de caracteres bionformáticos y fuentes bioinformáticas mapeadas.

La figura 2 tabula un sistema de marcado diacrítico adecuado para ilustrar puntajes de calidad de base con una secuencia de base.

La figura 3 muestra una ilustración de una porción de una secuencia de base que incluye codones de inicio y fin de secuencia de codificación delineada de marcas diacríticas (CDS) .

La figura 4 tabula algunas marcas diacríticas adecuadas para ilustrar información regional y de variación anotada en las bases.

La figura 5 muestra una ilustración de una porción de una secuencia de base que incluye marcas diacríticas seleccionadas que delinean un intrón dispuesto entre dos exones.

La figura 6 muestra de manera diagramática un enfoque para construir un carácter de fuente de la fuente bioinformática al combinar un mapa de bits para la base con mapas de bits para las marcas diacríticas usando una operación OR bit a bit.

La figura 7 muestra una ilustración de una porción de una secuencia de base que incluye codones de inicio y fin de secuencia de codificación delineada de marcas diacríticas (CDS) y marcas diacríticas que delinean un intrón, usando marcas diacríticas de la modalidad de fuente bioinformática de la figura 6.

La figura 8 muestra de manera diagramática una porción de una secuencia de base presentada junto con casillas mediante las cuales un revisor puede seleccionar qué tipos de anotaciones se van a ilustrar en la secuencia de base presentada.

La figura 9 muestra de manera diagramática un enfoque para construir un carácter de fuente de una fuente bioinformática para representar aminoácidos junto con sus propiedades biofísicas al combinar un mapa de bits para el aminoácido con mapas de bits para las marcas diacríticas usando una operación OR bit a bit .

DESCRIPCION DETALLADA DE LA INVENCION Con referencia a la figura 1, un sistema de análisis de secuenciación proteómica o genómica incluye un laboratorio de secuenciación 10 que prepara y secuencia una muestra de ADN, ARN, proteína, entre otras para producir fragmentos de secuencia de base (para una muestra genómica) o fragmentos de secuencia de péptido (para una muestra proteómica) que se almacenan como fragmentos de secuencia en un formato FastA o FastQ 12. A manera de ejemplo ilustrativo, una muestra de material de ADN puede prepararse y secuenciarse mediante operaciones como purificación y clonación de ADN, amplificación mediante técnicas como reacción de cadena polimerasa (PCR, por sus siglas en inglés) que emplea terminadores de cadena etiquetados fluorescentemente como terminadores de trifosfato dideoxinucleotido (ddNTP) , y secuenciación mediante electroforesis capilar u otra técnica de secuenciación. En el laboratorio 10 estas operaciones pueden realizarse como operaciones de procesamiento completamente automatizado, semiautomatizado, o manual. Por ejemplo, ciertas operaciones de preparación de muestra pueden realizarse manualmente o en una manera semiautomatizada, seguidas de la carga y secuenciación de las muestras preparadas usando un aparato de secuenciación automatizado. Adicionalmente o alternativamente, el laboratorio 10 puede realizar secuenciación proteómica usando la degradación Edman y la espectrometría de masa u otra técnica adecuada.

La salida del laboratorio de secuenciación ilustrativo 10 comprende fragmentos de secuencia en formato FastA o FastQ 12. Estos son formatos convencionales . En FastA, una secuencia de bases o péptidos es representada por una secuencia de caracteres en los que cada carácter representa una base o péptido. Por ejemplo, la secuencia genómica "adenina-guanina-citosina" se representa de manera adecuada en FastA como "AGC" . En el formato FastQ, una segunda serie se añade que está en paralelo con la serie que representa las bases o los péptidos. La segunda serie representa el valor de calidad para cada base o péptido usando un código de un solo carácter. Por lo tanto, en FastQ cada base o péptido está representado por dos caracteres: un primer carácter en la primera serie (p.ej., secuencia de base) que da la base o identidad de péptido, y un segundo carácter en la segunda serie (p.ej., valores de calidad) que dan el valor de calidad para la base o péptido sacado mediante el secuenciador automatizado (u otra valoración de calidad adecuada) .

Con respecto a la figura 1, un módulo de alineación de secuencia/análisis 14 recibe los fragmentos de secuencia 12. Un módulo de conversión de formato 16 convierte las secuencias FastA o FastQ en una representación de una sola serie 18 que emplea un conjunto de caracteres bioinformáticos 20. Como se describe en la presente, el conjunto de caracteres bioinformáticos 20 está diseñado para representar secuencias genómicas o proteómicas en un formato de una sola serie en la que cada base o péptido está representado por un solo carácter del conjunto de caracteres bioinformáticos 20. El único carácter codifica tanto la base o el péptido como los datos anotados asociados con la base o péptido.

Se reconoce en la presente que los formatos existentes como FastA no son compactos. Por ejemplo, se debe considerar la codificación de los datos genómicos. Hay cuatro valores de codificación para codificar las cuatro bases (se asume la tiamina o uracilo, pero no ambos) . Estas cuatro posibilidades pueden codificarse con tan solo dos bits. Si se codifica también la ambigüedad, entonces este puede requerir de tanto valores como cincuenta: estas cuatro bases "conocidas", seis combinaciones de "dos bases" ambiguas adicionales (por ejemplo, un sitio conocido puede ser ya sea adenina o citosina) , cuatro combinaciones de "tres bases" ambiguas posibles (p.ej., un sitio conocido por ser adenina, citosina, o guanina) , y una combinación completamente ambigua (es decir, un sitio que podría mediante cualquier adenina, citosina, guanina, o tiamina) . Estos cincuenta posibles valores pueden codificarse con solamente cuatro bits. Si se va a codificar menos de la ambigüedad detallada, los pocos valores posibles son necesarios. Por ejemplo, si solamente las cuatro bases y un solo código "N" ambiguo se usa, entonces hay solamente cinco valores posibles que pueden codificarse con tres bits. Sin embargo, FastA emplea un byte completo (ocho bits) para representar la información.

Un esquema de codificación de un byte de FastA tiene ventajas sustanciales. El enfoque de un solo byte cumple con una arquitectura de procesador digital convencional en el cual los datos se organizan en unidades de bytes de ocho bits cada una. Adicionalmente , los caracteres "A", "C", "G", "T" (y los caracteres ambiguos opcionales como "N") cumplen con el Código Estándar Estadounidense para el conjunto de caracteres de Intercambio de Información (ASCII, por sus siglas en inglés) , y por lo tanto las funciones de serie existentes pueden emplearse para manipular los datos FastA. Sin embargo, se reconoce en la presente que FastA "desperdicia" una cantidad sustancial de potencia codificada de cada byte. Los ocho bits de un byte pueden almacenar 256 posibles valores (variando desde 0-255) ; mientras que FastA usa solamente cincuenta (o menos) combinaciones posibles.

FastQ es una extensión de FastA. La serie de codificación de base (o codificación de péptido) de un archivo formateado con FastQ es idéntico a FastA, y así mismo las observaciones subsecuentes apl ican para FastQ también . Adicionalmente , FastQ incluye una segunda serie que contiene valores de cal idad de base , con un byte usado para cada valor de cal idad . Si los puntajes de calidad phred se codifican, estos puntajes varían dése 0-93. Los 94 posibles valores pueden codificarse con tan pocos bits como 7, pero FastQ usa un byte de 8 bits completo para codificar los valores de calidad.

En contraste , las modal idades del conj unto de caracteres bioinf ormáticos 20 descritas en la presente proporcionan más almacenamiento compacto que t iene ventaj as adicionales . El conj unto de caracteres bioinf ormáticos 20 emplea un solo carácter para representar cada base o péptido de una secuencia. Para retener la ventaja de FastA y FastQ en términos de cumplir con otras arquitecturas de procesamiento digital , cada carácter es por lo general un solo byte o dos bytes . El diseño del conjunto de caracteres bioinformáticos 20 para emplear un solo byte para cada carácter significa que el conjunto de caracteres cumple bien con el ASCI I estándar , que también emplea un solo byte por carácter . Por otro lado , las modalidades en las que el conj unto de caracteres bioinformáticos 20 emplean dos bytes por cada carácter cumplen bien con el Unicode estándar , que emplea dos bytes por carácter .

El conj unto de caracteres bioinformáticos 20 no es , s in embargo , ASCI I o Unicode . En su lugar , el conj unto de caracteres bioinformát icos 20 está diseñado para emplear un subconjunto de bits del carácter para representar la base o péptido, y para emplear otro subconjunto de bits del carácter para representar al menos un valor de dato anotado (y por lo general varios valores de datos anotados diferentes) asociados con la base o péptido.

A manera de ejemplo ilustrativo, la Tabla 1 establece una modalidad del conjunto de caracteres bioinformáticos 20 que es adecuado para representar datos genómicos (y más específicamente secuencias de ADN) que usan un solo carácter por base con cada carácter de dos bytes con 6 bits. Los bits de un solo carácter se escriben de manera adecuada como bi5 bi4 bi3 bu u bi0 b9 b8 b7 b6 b5 b4 b3 b2 ¾ ¾ en donde bi5 es el bit más significativo y b0 es el bit menos significativo. El byte más significativo comprende los bits b15 b14 bi3 bi2 bu bi0 b9 b8 mientras que el byte menos significativo comprende los bits b7 bs b5 b4 b3 b2 h1 b0. En el conjunto de caracteres bioinformáticos 20 de la Tabla 1, los bits b2 bi b0 se usan para representar la base. Hay cinco valores permisibles: cuatro valores para representar bases de ADN, y 15 valores "ambiguos" que representan una base desconocida. Los 13 bits restantes bi5 bi4 bi3 bi2 bu bi0 b9 bs b7 b6 b5 b4 se usan para representar varios valores de datos anotados asociados con la base. (Ver Tabla 1 para ejemplos ilustrativos) .

La conversión de formato llevada a cabo por el módulo de conversión de formato 16 en el caso de la modalidad ilustrativa del conjunto de caracteres bioinformáticos 20 de la Tabla 1 opera de manera adecuada como sigue: código FastA "A" se convierte al carácter 0000000000000000bin (000hex) ; código FastA "C" se convierte al carácter 0000000000000001bin (OOOhex; código FastA "G" se convierte al carácter 0000000000000010bin (0002hex) ; código FastA "T" se convierte al carácter 0000000000000011bin (000hex) ; y todos los otros códigos FastA que corresponden a las bases antiguas se convierten al carácter 0000000000000100bin (0004hex) . FastQ se convierte en la misma manera en esta modalidad, excepto que los bits b6 b5 b4 b3 también se rellenan con la codificación del valor de calidad de acuerdo con el esquema mostrado en la Tabla 1. Se debe observar que este esquema de codificación permite que el puntaje phred sea representado con solamente cuatro bits, no obstante con alguna pérdida de resolución (p.ej., b6 b5 b4 b3=0100 especifica el puntaje phred solamente como que está en el intervalo de 31-40) . Por lo general, uno solamente quiere saber si el puntaje de calidad es "alto" o "bajo", y entonces esta pérdida de resolución de valor de calidad no es por lo general problemática.

La conversión realizada por el módulo de conversión de formato 16 en el caso de la modalidad ilustrativa del conjunto de caracteres bioinformáticos 20 de la Tabla 1 establece los bits de anotación restantes bi5 bi4 bi3 b12 bu bi0 b9 b8 b7 a un valor por defecto de cero. Esto refleja la realidad de que la alineación y el análisis variacional no ha sido realizado y por lo tanto no hay bases identificadas para los exones, intrones, entre otros.

En la modalidad ilustrativa de la figura 1, el laboratorio de secuenciación 10 genera datos 12 en formato FastA o FastQ que se convierten después mediante el módulo de conversión de formato 16 en la representación de datos 18 en el uso del conjunto de caracteres bioinformáticos 20. Este enfoque permite de manera ventajosa que el módulo de alineación de secuencia/análisis 14 procese los fragmentos de secuenciación generados en un formato FastA o FastQ. De manera alterna, sin embargo, el laboratorio de secuenciación 10 puede sacar directamente los fragmentos de secuencia en la representación del conjunto de caracteres bioinformáticos 20.

Con referencia de nuevo a la figura 1, los fragmentos de secuencia 18 en la representación del conjunto de caracteres bioinformáticos 20 se procesan mediante un módulo de alineación de secuencia 22. El módulo de alineación de secuencia opera para alinear los fragmentos de secuencia, por lo general con referencia a una secuencia de referencia 24, con el fin de "empalmar en conjunto" los fragmentos de secuencia para formar una secuencia alineada (más) completa y (más) larga. El procesamiento de alineación es análogo al convencionalmente aplicado a los fragmentos de secuencia FastA, es decir, al hacer coincidir los extremos de los fragmentos de secuencia con el fin de alinearlos y empalmarlos juntos. Sin embargo, con la representación de datos 18 los bits de anotación (p.ej., la anotación de valor de calidad b6 b5 b4 b3 en el ejemplo de la Tabla 1) podrían resultar en faltas de coincidencia. En otras palabras, las dos bases idénticas que tiene diferentes valores de calidad pueden no coincidir por los diferentes valores de calidad.

TABLA 1 Para dirigirse a este problema, los valores de los bits de anotación se configuran de manera adecuada a cero para propósitos de procesamiento de alineación. Esto se puede hacer eficientemente con el uso de una máscara bit a bit "Y" en la cual las posiciones de bit de anotación se configuran a cero y las posiciones de bit de base se configuran a uno. Para el ejemplo de la Tabla 1, una máscara bit a bit adecuada sería Mbase=0000000000000111bin ( 0007hex) . Al aplicar esta máscara a un carácter C del conjunto de caracteres bioinformáticos 20 (escritos de manera adecuada como C&Mbase en donde el signo indica la operación "y" bit a bit) tiene el efecto de puesta en cero fuera de los bits de anotación mientras pasa los bits base del carácter C a través de manera inalterada. La máscara binaria es una operación de procesamiento digital de bajo nivel y por consiguiente es por lo general muy eficiente. Para una secuencia de base representada por una serie S= [Ci C2 C3...Ck) de los caracteres k del conjunto de caracteres bioinformáticos 20, cada carácter necesitaría ser enmascarado individualmente, por ejemplo con el uso de un bucle de k iteraciones para aplicar de manera iterativa la máscara Mbase a cada carácter Ci, ... , Ck a su vez. Para conveniencia de anotación, esta operación de enmascaramiento de serie se representa en la presente mediante un pseudocódigo de la forma S&MbaSe en donde S es la serie de secuencia de base y Mbase en la máscara binaria para un solo carácter de la serie. Por lo tanto, para comparar los fragmentos de secuencia de base Si y S2 para el propósito de la alineación de fragmento (es decir, la comparación respectiva con las bases sin la consideración de los bits de anotación) , la comparación se realiza entre Si&Mbase y S2&Mbase- Cuando el módulo de alineación de secuencia 22 alinea los fragmentos de secuencia con la referencia a una secuencia de referencia 24, puede identificar también las regiones genómicas de significancia, como los exones, intrones, regiones promotoras, regiones de secuencia de codificación (CDS) , entre otras. Esto se logra si la secuencia de referencia 24 tiene estas regiones etiquetadas o de otro modo denotadas. Cuando el módulo de alineación de secuencia 22 identifica tales regiones funcionales, configura de manera adecuada los bits de anotación correspondientes para indicar esta regiones. Por lo tanto, por ejemplo (y de nuevo considerando el conjunto de caracteres bioinformáticos ilustrativo de la Tabla 1) , si una determinada base se identifica como parte de un intrón, entonces el bit bi0 se configura a uno. Si una determinada base es identificada como un exón, entonces el bit b9 se configura a uno.

Se debe observar que el módulo de alineación de secuencia 22 puede solamente actualizar las regiones genómicas de codificación de bits de anotación que se identifican mediante el proceso de alineación. Por otro lado, el módulo de alineación de secuencia 22 no puede actualizar la información variacional de codificación de bits de anotación que no es determinada por la alineación. Por ejemplo, el módulo de alineación de secuencia 22 no puede actualizar la codificación de bit b15 si una base es parte o no del marcador de enfermedad.

En algunos casos, el módulo de alineación de secuencia 22 puede fallar en empalmar algunos fragmentos en la secuencia alineada. Los fragmentos de secuencia no alineados restantes puede ser productos de ADN residuales de las células huésped usadas en el proceso de clonación, o pueden reflejar errores en el procesamiento de secuenciación, o puede ser debido a otros factores. Estos fragmentos de secuencia no alineados restantes se almacenan adecuadamente como una estructura de datos 26, con los fragmentos no alineados también representados con el uso del conjunto de caracteres bioinformáticos 20.

La secuencia alineada que es el producto deseado del procesamiento de alineación de secuencia se almacena de manera adecuada en un archivo de alineación de secuencia/mapa (SAM) o un archivo BAM binario equivalente 30. Sin embargo, en el archivo SAM la secuencia alineada se representa de mejor manera usando el conjunto de caracteres bioinformáticos 20. De manera ventajosa, esto significa que la información de anotación como los valores de calidad de base (bits de anotación b6 b5 b4 b3 en el ejemplo de la Tabla 1) y la información de región funcional (bits de anotación b14 bi3 bi2 bu b10 b9 b8 b7 en el ejemplo de la Tabla 1) se almacenan directamente con las bases en la secuencia genómica misa dentro del archivo SAM o BAM 30.

La secuencia alineada se procesa mediante un módulo de análisis variacional 32 que realiza uno o más análisis de variación. Estos análisis se realizan por lo general usando operaciones de coincidencia de patrón en las que la secuencia alineada se compara con los patrones de marcador obtenidos de una base de datos de firmas 3 . Los patrones de marcador también se almacenan de preferencia usando el conjunto de caracteres bioinformáticos 20. El enmascaramiento bit a bit puede usarse para excluir selectivamente o retener anotaciones con base en su relevancia para el análisis variacional .

Por ejemplo, si se considera el ejemplo de una variación que es probativa cuando ocurre en un exón, pero no en otro lado. En este caso, ya sea que la base sea parte o no de un exón es relevante, pero las otras anotaciones (p.ej., el puntaje de calidad de base) no son relevantes. Si la base es parto de o no de un exón es indicado por el bit de anotación bg en la modalidad del conjunto de caracteres bioinformáticos 20 de la Tabla 1. La comparación por lo tanto se realiza de manera adecuada en la serie de secuencia S&M en donde la máscara bit a bit M=0000001000000111bin (0207hex) . Esta máscara retiene el bit de anotación de exón b9 y los bits base b2 i b0, y los ceros fuera de los bits restantes del carácter. Las bases de la firma de variación en la base de datos 34 tienen la forma 0000001000000XxXbin (020Xhex) en donde x puede ser o 0 o 1 y X denota cualquiera de 000, 001, 010, 011, 0 100 (las posibilidades restantes no codifican nada en el formalismo de la modalidad de la Tabla 1) . Por lo tanto, una comparación entre S&M y la firma proporciona la coincidencia de patrón deseada.

De manera ventajosa, este enfoque implementa el análisis variacional usando operaciones y funciones de caracteres/series, y de hecho puede utilizar una librería de funciones de caracteres/serie 36, como una librería de caracteres/serie estándar proporcionada con C++, Perl, u otro lenguaje de programación, o con un lenguaje de secuencia de comandos, entre otros. El carácter estándar o las funciones de serie están diseñadas típicamente para operar en un conjunto de caracteres estándar como ASCII o Unicode; sin embargo, si el conjunto de caracteres bioinformáticos 20 "cumple" con el conjunto de caracteres estándar (p.ej., ASCII o Unicode) entonces las funciones de caracter/serie también operarán con el conjunto de caracteres bioinformáticos 20. En este contexto, el conjunto de caracteres bioinformáticos 20 "cumple" con ACII o Unicode si el conjunto de caracteres bioinformáticos 20 emplea el mismo tamaño de caracteres (p.ej., un byte para ASCII o dos bytes para Unicode) y evita cualquier carácter "especial que pueda tener una significancia distinguida particular en ASCII o Unicode en la plataforma de procesamiento digital particular que se usa. Por ejemplo, el carácter nulo puede ser utilizado como un terminador de serie SCII en algunas plataformas, en cuyo caso ningún carácter de una modalidad del conjunto de caracteres bioinformáticos 20 que emplea caracteres de un solo byte tiene el mismo código numérico que el carácter nulo de ASCII. Adicionalmente , el conjunto de caracteres bioinformáticos 20 "que cumplen" con ASCII o Unicode en este contexto significa que las series escritas en el conjunto de caracteres bioinformáticos 20 se formatean de la misma manera que ASCII o Unicode en la plataforma de procesamiento digital particular que se utiliza para que se puedan introducir bien formados a las funciones de serie estándar. Por. ejemplo, en algunas plataformas una serie Unicode puede incluir un encabezado de dos bytes que indica si los caracteres son big-endian (bytes en orden natural) (típicamente encabezado FEhex, FFhex) o little-endian (bytes en orden incremental) (típicamente encabezado FFhex, FEhex) . En tales casos, el encabezado de dos tipos adecuado debe estar prefijo a la serie de caracteres representada en el conjunto de caracteres bioinformáticos 20 antes de indroducirlo a una función de serie estándar diseñada para Unicode.

Cuando el módulo de análisis variacional 32 identifica una variación de interés, configura adecuadamente los bits de anotación correspondientes para indicar la variación. Por lo tanto, por ejemplo (y de nuevo considerando el conjunto de caracteres bioinformáticos ilustrativo de la Tabla 1) , si un marcador de enfermedad se identifica en la secuencia genómica, entonces el bit bi5 de cada base que coincide con el marcador de enfermedad se configura a uno y esta actualización se hace en el archivo SAM (o BAM) 30. Como el módulo de alineación de secuencia 22 ya actualizó los bits de anotación identificados con base en el procesamiento de alineación e incluidas aquellas anotaciones en el archivo SAM (o BAM) 30, lo que continua es que después de que se completa el procesamiento variacional el archivo SAM (o BAM) incluirá todas la identificaciones de región funcional relevantes, información que pertenece a las variaciones, y los valores de calidad de base en una sola representación compacta.

Cuando el procesamiento de secuencia (p.ej., los análisis de alineación y variacionales ) se completa, los resultados pueden presentarse en un formato perceptible para el humano (p.ej., presentados en un dispositivo de presentación, impreso mediante una impresora u otra máquina de marcación, entre otros). Por lo general, tal presentación incluye enlistar la secuencia que usa símbolos convencionales (p.ej., combinaciones de las letras "A", "C", "G" , y "T" para secuencias base de ADN) y proporcionar informes que resuman los resultados de análisis. En vez de emplear letras, en algunos sistemas otros símbolos se usan para las bases. Por ejemplo, en. una convención la adenina se representa como el símbolo "x", la citosina se representa como el símbolo la guanina se representa como el símbolo "+ " , y la timina se representa como el símbolo 11 " . Al generar el listado de secuencia es convencionalmente directa porque la serie de secuencia FastA o FastQ emplea un subconjunto de ASCII. En otras palabras, la letra "A" se representa mediante 41hex tanto en ASCII como en FastA (o FastQ) ; la letra "C" es representada mediante 43hex tanto en ASCII como en FastA (o FastQ) ; la letra "G" es representada mediante 47hex tanto en ASCII y FastA (o FastQ) ; y la letra "T" es representada mediante 54hex tanto ASCII como en FastA (o FastQ) . Por lo tanto, la serie base FastA (o FastQ) está en la serie ASCII, y puede imprimirse usando cualquier mapeo de fuente para ASCII .

El módulo de alineación de secuencia/análisis 14, por otro lado, usa el conjunto de caracteres bioinformáticos 20 que es diferente de ASCII (o Unicode) , aunque de preferencia cumple con ASCII (o Unicode, para modalidades de conjunto de caracteres de dos tipos) . Como consecuencia, aunque los datos genómicos o proteómicos representados con el uso del conjunto de caracteres bioinformáticos 20 podrían imprimir formalmente usando una fuente estándar que mapea ASCII (o Unicode en modalidades de caracteres de dos bytes) , los datos presentados aparecerían como sin sentido. Por consiguiente, el módulo de alineación de secuencia/análisis 14 incluye una fuente bioinformática 40 mapeada para el conjunto de caracteres bioinformáticos 20. La fuente 40 proporciona un carácter de fuente que se presenta para cada carácter del conjunto de caracteres bioinformáticos 20. Un módulo de presentación de resultados de análisis de secuencia 42 presenta de manera adecuada secuencias genómicas o proteómicas representadas en el conjunto de caracteres bioinformáticos 20 usando la fuente bioinformática 40. Los caracteres de fuente de la fuente bioinformática 40 de preferencia incluye (1) una letra para representar la base o péptido (u opcionalmente una secuencia de tres letras para representar un péptido) y (2) las características adicionales, como las marcas diacríticas, aspectos de estilo de fuente como estilo negritas y/o itálicas, entre otros para representar los datos anotados asociados con la base o péptido en el carácter de representación del conjunto de caracteres bioinformáticos 20. En lugar de usar letras, la representación de base o péptido (1) puede emplear otro tipo de símbolo, como: adenina = "x", citosina = guanina = " + ", y timina = " ". De manera ventajosa, el módulo de presentación de resultados de análisis 42 puede utilizar rutinas de presentación de texto convencionales proporcionadas por la plataforma para presenta texto ASCII o Unicode. Estas rutinas de presentación de texto se adaptan para presentar la secuencia genética simplemente al invocar la rutina de presentación para presentar (o imprimir) usando la fuente bioinformática 40.

El módulo de alineación de secuencia/análisis 14 puede conformarse como un dispositivo de procesamiento digital, como una computadora ilustrativa 50, que incluye un procesador digital (no mostrado) programado para ejecutar software implementando varios módulos 16, 22, 32 e incluyendo memoria que almacena la fuente bioinformática 40. En lugar de la computadora ilustrativa 50, otro dispositivo de procesamiento digital puede usarse, como un aparato de secuenciación de ADN dedicado que incluye un procesador digital, o un sistema de servidor de red, o una unidad de procesamiento gráfica (GPU, por sus siglas en inglés) como una máquina de juego reprogramada para implementar el módulo de alineación de secuencia/análisis 14, entre otros. El módulo de alineación de secuencia/análisis 14 opcionalmente incluye o tiene acceso a un dispositivo de presentación (como una presentación ilustrativa 52 de la computadora 50) para presentar información como secuencias genómicas o proteómicas representadas usando la fuente bioinformática 40.

El módulo de alineación de secuencia/análisis 14 puede también implementarse como un medio de almacenamiento no transitorio que almacena la fuente bioinformá ica 40 y el software que cuando se ejecuta mediante un procesador digital (como el procesador de la computadora 50) implementa varios módulos 16, 22, 32. Como un medio de almacenamiento no transitorio puede, a manera de ejemplo ilustrativo, incluir uno o más de los siguientes: un disco duro u otro medio de almacenamiento magnético; un disco óptico u otro medio de almacenamiento óptico; una memoria de sólo lectura (ROM, por sus siglas en inglés) , memoria de acceso aleatorio (RAM, por sus siglas en inglés) , memoria flash, u otra memoria electrostática o la combinación de memorias electrostáticas; entre otros.

La figura 1 diagramática que ilustra el módulo de alineación de secuencia/análisis 14 denota de manera diagramática el conjunto de caracteres bioinformáticos 20. sin embargo, se debe apreciar que en algunas modalidades el conjunto de caracteres bioinformáticos 20 se conforma implícitamente mediante el procesamiento realizado por varios de los módulos 16, 22, 32 que crean y manipulan secuencias genómicas o proteómicas formateadas usando el conjunto de caracteres bioinformáticos 20. Por otro lado, la fuente bioinformática 40 se almacena como un conjunto de mapas de bits u otras representaciones de caracteres. En algunas modalidades se contempla la construcción de mapas de bits para un carácter de fuente determinado "como sea necesario" al combinar o modificar los mapas de bits de características constituyentes, por ejemplo al añadir una o más marcas diacríticas que representan datos anotados para un mapa de bits que ilustran una letra que representa la base o péptido.

Habiendo descrito el módulo de alineación de secuencia/análisis ilustrativo 14 con referencia a la figura 1 y la modalidad del conjunto de caracteres bioinformáticos 20 dado en la Tabla 1, algunas modalidades del conjunto de i caracteres bioinformáticos 20 y algunos caracteres de fuente bioinformáticos ilustrativos se describen a continuación.

Con referencia a la figura 2 y la Tabla 1, algunos caracteres de fuente adecuados para presentar caracteres del conjunto de caracteres bioinformáticos 20 incluyendo la información de base y de valor de calidad de base se muestran. En este enfoque, las marcas diacríticas que indican los valores de calidad de base se determinan a partir de los bits de anotación de calidad de base b6 b5 b4 b3 y comprenden un conjunto de uno o más segmentos de línea separados o unidos (como se ilustran en la figura 2) cuya longitud total es indicativa del valor de calidad de base. Se debe observar que en la modalidad de la figura 2 los valores de anotación diacríticos' lOOObin/ 1001bin Y 1010bin todos se mapean para el mismo carácter de fuente. Por lo tanto, ese carácter de fuente indica un puntaje phred mayor a 70. Las marcas diacríticas de la figura 2 se muestran para la base adenina indicada por la letra "A". Más en general, en una modalidad adecuada la base adenina es indicada por la letra "A" o "a"; la base citosina es indicada por la letra "C" o "c" ; la base guanina es indicada por la letra "G" o "g" ; la base timina es indicada por la letra "T" o "t"; y la base uracilo es indicada por la letra "U" o "u" . Las marcas diacríticas (es decir, líneas) de la figura 2 se aplican fácilmente a cualquiera de estas letras. De manera ventajosa, un revisor que lee las bases representadas por los caracteres de fuente mostrados en la figura 2 pueden valorar fácilmente el valor de calidad de cada base en la secuencia.

Se debe observar que, como se usa en la presente, la frase "la letra '?' o 'a'" indica un símbolo reconocible como la letra "A" o "a" como sería entendible por una persona ordinaria. La letra "A" o "a" puede ser representada de manera variada, por ejemplo usando un tipo de letra Arial, o un tipo de letra Times New Román, o un tipo de letra Courier, o un tipo de letra manuscrita, entre otras. Los comentarios análogos aplican para otras letras indicativas de bases o péptidos en la fuente bioinformática 40.

Con referencia a la figura 3 y la Tabla 1, una fuente se muestra para representar los codones de inicio o fin de secuencia de codificación (CDS) . En la modalidad de conjunto de caracteres de la Tabla 1, las bases se anotan como codones de inicio CDS o fin CDS mediante bits de anotación b7 y b8 , respectivamente. En la modalidad de fuente de la figura 3, los caracteres que tienen ya sea b7 o b8 igual a uno se mapean para los caracteres de fuente que incluyen una casilla alrededor de la letra que representa la base; mientras que, los caracteres que tienen tanto b7 como b8 iguales a cero se mapean para caracteres de fuente que no incluyen tal casilla. Como se observa en la figura 3, el resultado de este mapeo de fuentes es que los codones de inicio y fin se reconocen fácilmente mediante marcas de casilla diacríticas, en la modalidad de la figura 3, la misma marca de casilla diacrítica se usa para inicio CDS y fin CDS; de manera alterna, se pueden usar diferentes marcas diacríticas para inicio CDS o fin CDS, que podrían asistir al revisor al reducir el inicio contra el fin de un CDS.

Con referencia a la figura 4, alguna marcas diacríticas adecuadas para indicar varias regiones o variaciones genómicas se muestran. En los ejemplos de la figura 4, los caracteres del conjunto de caracteres bioinformáticos 20 que incluye una anotación de metilación se mapea para los caracteres de fuentes bioinformáticas 40 que incluyen marcas diacríticas que comprenden un símbolo de ángulo (es decir, como una "V" pero opcionalmente con el punto de la "V" orientado hacia otro lado diferente de hacia abajo) . En otro ejemplo mostrado en la' figura 4, los caracteres del conjunto de caracteres bioinformáticos 20 que incluyen una anotación que indica un intrón (por ejemplo, en el ejemplo de la Tabla 1 que se configura a 1) se mapea para los caracteres de fuente de la fuente bioinformática 40 que incluye marcas diacríticas que comprenden la letra "I" o "i". En otro ejemplo mostrado en la figura 4, los caracteres del conjunto de caracteres bioinformáticos 20 incluyen una anotación que indica un exón (p.ej., b9 en la fuente bioinformática 40 que incluye marcas diacríticas que comprende la letra "E" o "e" . En otro ejemplo mostrado en la figura 4, los caracteres del conjunto de caracteres bioinformáticos 20 que incluyen una anotación que indica un promotor (p.ej., blx en el ejemplo de la Tabla 1 que se configura a l) se mapean para los caracteres de fuente de la fuente bioinformática 40 que incluye marcas diacríticas que comprenden la letra "P" o "p" . En otro ejemplo mostrado en la figura 4, los caracteres del conjunto de caracteres bioinformáticos 20 que incluyen una anotación que indica un sitio de unión de factor de transcripción (TF) (p.ej., b12 en el ejemplo de la Tabla 1 que se configura a uno) se pampean para los caracteres de fuente de la fuente bioinformática 40 que incluye marcas diacríticas que comprenden la letra "A" o "x" . En otro ejemplo mostrado en la figura 4, los caracteres del conjunto de caracteres bioinformáticos 20 que incluyen una notación que indica una región de ARN no codificante (p.ej., bi3 en el ejemplo de la Tabla 1 que se configura a uno) se mapean para los caracteres de fuente de la fuente bioinformática 40 que incluye marcas diacríticas que comprenden "~" . (En otras modalidades contempladas, las marcas diacríticas que comprenden las letras "NC" o "nc" o "Nc" se contemplan para indicar ARNnc) . En otro ejemplo mostrado en la figura 4, los caracteres del conjunto de caracteres bioinformáticos 20 que incluyen una anotación que indica una región de microARN (p.ej., bl4 en el ejemplo de la Tabla 1 que se configura a uno) se mapean para los caracteres de fuente de la fuente bioinformática 40 que incluye marcas diacríticas que comprenden (En otras modalidades contempladas, las marcas diacríticas que comprenden las letras "MI" o "mi" o "Mi" se contemplan para indicar miARN) . En otro ejemplo mostrado en la figura 4, los caracteres del conjunto de caracteres bioinformáticos 20 que incluyen una anotación que indica que la base es parte de un marcador de enfermedad (p.ej., bi5 en el ejemplo de la Tabla 1 que se configura a uno) se mapean para los caracteres de fuente de la fuente bioinformática 40 que incluye marcas diacríticas que comprenden "#" u otras marcas diacríticas diseñadas para indicar un marcador de enfermedad. Adicionalmente o alternativamente, la anotación de marcador de enfermedad puede ser indicada al ilustrar la letra de base (p.ej., "A" en el caso de adenina) usando un estilo de fuente de marcación de enfermedad diseñado como un tipo de letra itálica, un tipo de letra negrita, o un tipo de letra itálica negrita.

La figura 5 muestra un ejemplo de la eficacia de tales caracteres de fuente en las regiones de secuencia de delineación. La figura 5 ilustra una porción de una secuencia de ADN representada usando las fuentes de la figura 4. Una región de intrón 60 unida por dos regiones de exón 62, 64 se discierne fácilmente con base en las marcas diacríticas "I" y "E" que denotan las bases que pertenecen a los intrones y exones, respectivamente.

La marcas diacríticas de las figuras 4 y 5 son ejemplos meramente ilustrativos, y otras marcas diacríticas así como otras características de fuente como estilo de fuente, tamaño de fuente, entre otras también pueden ser empleadas en la fuente bioinformática 40 para denotar varias anotaciones. Por ejemplo, en otro enfoque contemplado el valor de calidad de base se ilustra mediante el tamaño de la letra que ilustra la base, con letras más grandes que indican valores de calidad de base mayores. Las expectativas hacia este enfoque son que el revisor asocie naturalmente una letra más chica con menor calidad de base, es decir, mayor incertidumbre . Como otro ejemplos: información de hebra (5', 3', +, -, entre otros) pueden almacenarse como un valor de dato anotado en caractere's del conjunto de caracteres bioinformáicos 20 y pueden ser representados por las marcas diacríticas de carácter de fuente las variantes como intersecciones y/o supresiones (generalmente "indeles") pueden almacenarse como un valor de dato anotado en caracteres del conjunto de caracteres bioinformáticos 20 y puede ser representado de manera adecuada por las marcas diacríticas de carácter de fuente como marcas rectas verticales, horizontales, o inclinadas (para supresiones) o marcas de quilate (es decir, " ? " ) (para inserciones, siguiendo la convención de marcado del editor textual) , o al usar caracteres de fuente de llenado de pincelada o ahuecadas; entre otras.

Varias marcas diacríticas indicativas de diferentes tipos de datos anotados pueden combinarse en la fuente bioinformát ica 40 con el fin de expresa de manera simultánea diferentes tipos de información cuando se presenta una secuencia de base o péptido representada por el conjunto de caracteres bioinformáticos 20 usando la fuente bioinformática 40. Por ejemplo, (de nuevo con referencia a la modalidad del conjunto de caracteres bioinformáticos 20 de la Tabla 1) el carácter OOOOOOlOOOllOOOObin (0230hex) denota una base de adenina que tiene un valor de calidad de base en el intervalo de 51-60 que es parte de un exón . Por otro lado, el carácter lOOOOOlOOOllOOOObin (8230) denota una base de adenina que tiene un valor de calidad de base en el intervalo de 51-60 que es parte de un exón que también es parte de un marcador de enfermedad. El carácter de fuente para el carácter último difiere del carácter de fuente mapeado para el último carácter solamente en la adición de una marca diacrítica que indica que el atributo es parte de un marcador de enfermedad. Adicionalmente, el valor de calidad de base puede ilustrarse usando una marca diacrítica adecuada como aquellas mostradas en la figura 2. Si varios tipos diferentes de atributos de base o péptidos o características se codifican de manera similar, entonces el número de caracteres de fuente en la fuente bioinformática 40 puede ser bastante grande. Para los caracteres de un byte, puede haber tantos como 256 diferentes caracteres de fuente, mientras que para caracteres de dos bytes puede haber tantos como 65,536 caracteres de fuente.

Con referencia de nuevo al ejemplo de la Tabla 1, varias anotaciones (con la excepción del valor de calidad de base) se representan mediante un solo bit para cada anotación. Por lo tanto, por ejemplo, un valor de uno para el bit bio indica que la base es parte de un intrón, mientras que un valor de cero para el bit bio indica que la base no es parte de un intrón. Sin embargo, este enfoque representacional tiene una desventaja potencial, en que si el bit bi0 tiene un valor de cero puede ser ambiguo si este es (1) una representación afirmativa de que la base no es parte de un intrón, o (2) una indicación de que no (aún) ha sido determinado si o no la base es parte de un intrón. Esto es porque el módulo de conversión de formato 16 asigna un valor por defecto de cero para los bits de anotación (diferente a aquellos que indican el valor de calidad de base) .

Con referencia a la Tabla 2, otra modalidad ilustrativa del conjunto de caracteres bioinformáticos 20 se muestra el cual supera esta ambigüedad al proporcionar un valor distinto a una anotación para un valor desconocido. En esta modalidad la anotación de intrón es representada por dos bits b7 b6. Un valor de Olbin indica que la base no es parte de un intrón; un valor de lObin indica que la base es parte de un intrón; y un valor de llbin indica que no es (aún) conocido si la base es o no parte de un intrón.

El ejemplo de la Tabla 2 ilustra otras características de ciertas modalidades del conjunto de caracteres bioinformáticos 20. El ejemplo de la Tabla 2 emplea un carácter de un solo byte (mientras que el ejemplo de la Tabla 1 emplea un carácter de dos bytes) . El ejemplo de la Tabla 2 también usa cuatro bits b3 b2 bi b0 para representar la base, que permite una representación más detallada de las bases ambiguas. La representación de base también usa un esquema de codificación que asocia bits específicos con bases específicas. Por lo tanto, el bit b3 se asocia con timina; el bit b2 se asocia con guanina; el bit hi se asocia con citosina; y el bit b0 se asocia con adenina .

Con este esquema de codificación, una base ambigua es representada por un solo bit de cuatro bits b3 b2 bi b0 que tienen un valor. La ambigüedad entre dos posibles bases es representada por dos bits de cuatro bits b3 b2 bi b0 que tienen el valor uno, por lo tanto al identificar las dos posibilidades para la base. El caso de punto final de la ambigüedad completa es representado por los cuatro bits b3 b2 bi b0 que tienen el valor uno, indicando que la base podría se cualquiera de adenina, citosina, guanina, o timina. Este esquema de codificación también permite la coincidencia rápida de las bases ambiguas con un patrón. Por ejemplo, al usar una máscara bit a bit 04hex/ un carácter C puede compararse con la base guanina representada por 04hex mediante la comparación CMP[C&04hex, 04hex] (en donde CMP [ ... ] es pseudocódigo para una operación de comparación) . Esta comparación llevará a una coincidencia si el carácter C codifica de manera no ambigua para guanina, y también llevará a una coincidencia si el carácter C es ambiguo pero codifica guanina como un posible valor - en ambos casos C&04hex = 04hex.

Tabla 2 Con referencia a las figuras 6 y 7 y continuando con la referencia al ejemplo de la Tabla 2, en algunas modalidades los caracteres de fuente de la fuente bioinformática 40 se almacenan directamente. En su lugar, los mapas de bits de las representaciones de letra de base o péptido (o tres letras) se almacenan, junto con mapas de bits que representan varias marcas diacríticas para diferentes tipos de anotaciones. El carácter de fuente para ilustrar un carácter particular del conjunto de caracteres bioinformáticos 20 puede construirse al combinar estos mapas de bits de constituyente usando una operación "OR" lógica. En la figura 6, el término más hacia la izquierda muestra los mapas de bits que codifican las cuatro bases (sin ninguna base ambigua representada por el símbolo "?") . El término medio muestra mapas de bits que representan las marcas diacríticas para el inicio CDS (representado por una casilla sólida) y fin CDS (representado por una casilla punteada) . El término que está más hacia la derecha muestra los mapas de bits que representan la marca diacrítica para un intrón (representada como una diagonal que cruza a través de la letra que representa la base) . Los símbolos de más (+) en la figura 6 indican el OR lógico de los mapas de bits (que tienen una tabla lógica: punto negro+punto negro= punto negro; punto negro+punto blanco=punto negro; punto blanco+punto negro=punto negro; punto blanco+punto blanco=punto blanco) . La figura 7 muestra una secuencia de base parcial ilustrada usando la modalidad de la fuente bioinformática 40 mostrada en la figura 6, incluyendo una región de inicio CDS 70, una región de intrón 2, y una región de fin CDS 74. La marca diacrítica "/" que indica que una base que pertenece a un intrón informa de manera intuitiva al revisor que el intrón no se incluye en la proteína traducida.

Con referencia a la figura 8, incluso otra ventaja del módulo de alineación de secuencia/análisis 14 es que es computacionalmente conveniente permitir al usuario seleccionar qué anotación ver cuando se ilustra una secuencia genómica o proteómica. Tal ilustración selectiva de los tipos de anotación puede ser útil para dejar que el revisor se enfoque en un aspecto particular de la secuencia. El ejemplo de la figura 8 emplea la modalidad del conjunto de caracteres bioinformáticos 20 de la Tabla 1. La figura 8 muestra una porción de una secuencia genómica presentada en el dispositivo de presentación 52 (p.ej., la pantalla de la computadora 50 de la figura 1) . La presentación también muestra al usuario las opciones de selección de diálogo, que incluyen una casilla de verificación 80 mediante la cual el revisor selecciona si presentar los valores de calidad de base (p.ej., usando marcas diacríticas como las mostradas en la figura 2) , una casilla de verificación 82 mediante la cual el revisor selecciona si presentar las regiones funcionales (p.ej., usar las marcas diacríticas para mostrar las regiones genómicas como las mostradas en la figura 4) , y una casilla de verificación 84 mediante la cual el revisor selecciona si presentar las variaciones (p.ej., usar marcas diacríticas para remarcar los marcadores de enfermedad como aquellos mostrados en la figura 4) . El usuario verifica de manera adecuada o no marca las casilla de verificación 80, 82, 84 usando un dispositivo de entrada de puntero (p.ej., un ratón, un dispositivo apuntador con bola, un panel táctil, entre otros), un teclado (por ejemplo, usando el teclado para pasar a través de las opciones y presionar entrar y alternar una casilla de verificación seleccionada) , entre otros. En la figura 8, el usuario selecciona para mostrar solamente las regiones funcionales mediante la casilla de verificación 82.

Las opciones de presentación como aquellos mostrados en la figura 8 se implementa fácilmente usando el conjunto de caracteres bioinformáticos descritos 20 y la fuente bioinformática 40 al usar el enmascaramiento bit a bit para remover las notaciones que no se presentan antes de introducir la serie de carateres a la rutina de presentación de texto (p.ej., proporcionado por la plataforma para presentar textos ASCII o Unicode) . Por ejemplo, al considerar ejemplo de la Tabla 1, una máscara bit a bit adecuada para presentar solamente las regiones funcionales pero no valores de calidad o marcadores de enfermedad es MpreSentación=0111111110000111bin (7F87hex) , que configura el valor de calidad de base (bits b6 b5 b b3) a 0000bin y configura la anotación de marcador de enfermedad (bit b15) a cero. Este enfoque asume que la fuente bioinformática 40 presenta el valor de calidad de base menor (es decir, OOOObin) sin ninguna marca diacrítica, como es el caso para el enfoque ilustrativo de la figura 2. Se debe observar que este enmascaramiento se aplica antes de introducir al texto .la rutina de presentación, pero la salida de máscara no se usa para actualizar la secuencia almacenada 30. Por lo tanto, en el archivo de datos 30 los valores de calidad y las anotaciones de marcador de enfermedad permanecen sin alterar, y por consiguiente el revisor puede escoger actualizar las opciones de presentación en cualquier momento. Por ejemplo, el revisor puede elegir apagar las marcaciones de región funcionales y encender las marcaciones de variación al no marcar la casilla 82 y marcar la casilla 84, respectivamente. La presentación actualizada se implementaría fácilmente al actualizar la máscara Mpresentación=1000000000000111bin (8007hex) , que configura el valor de calidad de base (bits b6 b5 b4 b3) a 0000bin y configura la anotación de región funcional (bits bi4 bi3 b12 bu bio b9 b8 b7) a cero.

Las modalidades ilustrativas emplearon datos genómicos, y más en particular datos de ADN que utilizan las cuatro bases adenina, citosina, guanina, y timina. Sin embargo, los enfoques descritos que emplean el conjunto de caracteres bioinformáticos 20 y la fuente bioinformática 40 también se emplean fácilmente para otros datos genómicos como las secuencias de ARN al reemplazar la timina con uracilo.

Con referencia a la figura 9, los enfoques descritos que emplean el conjunto de caracteres bioinformáticos 20 y la fuente bioinformática 40 se emplean fácilmente también para los datos proteómicos al emplear un número adecuado de bits para representar el aminoácido (o péptido) . Las proteínas se construyen de un conjunto de veinte aminoácidos, que pueden ser representados usando cinco bits que tienen 32 posibles valores. Cinco bits por consiguiente también son suficientes para representar cualquier péptido adicional que pueda ser de interés, como la selenocisteína (convencionalmente representada por la letra "U" o "u" o por el código de tres letras "sec") y pirrolisina ("0" u "o" o "Pyl") que pueden ser incorporados al controlar manualmente el codón de fin CDS, y/o para representar aminoácidos ambiguos (de los cuales típicamente solamente la mitad de una docena o menos ambigüedades de paridad pueden surgir para la mayoría de las técnicas de secuenciación proteómica) . La figura 9 ilustra la construcción de los caracteres de fuente de la fuente bioinformática 40 al representar varios péptidos ilustrativos o aminoácidos que incluyen varios datos anotados sal combinar un mapa de bits para el aminoácido o péptido con uno o más mapas de bits para una o más marcas diacríticas usando una operación OR bit a bit. En la figura 9 la sección mas arriba 100 especifica una codificación de una sola letra adecuada de los veinte aminoácidos. La sección media 102 de la figura 9 especifica varias combinaciones de datos anotados que pueden ser asociados con un péptido de la secuencia proteómica. En el ejemplo ilustrativo de la figura 9, los atributos que pueden ser anotados para un péptido incluyen: hidrofóbico - indicado con una asterisco superíndice (*) ; polar - indicado por una marca diacrítica precedente "8" ; chico - indicado por una "o" superíndice; diminuto - indicado por un punto superíndice ; aromático - indicado por una representación de "casa" (ü) ; alifático - indicado por una theta (T) ; positivo - indicado por "+" superíndice; negativo - indicado por "-" superíndice; y cargado (una generalización de las características positivas y negativas. La sección inferior 104 de la figura 9 muestra el carácter de fuente generado al combinar el mapa de bits para el aminoácido o péptido de la sección superior 100 con el mapa de bits o mapas de bits para la marca diacrítica o marcas que representan el dato anotado o los datos usando una operación OR bit a bit. En la modalidad de la fuente bioinformática 40 mostrada en la figura 9, las marcas diacríticas se escogen de tal manera que las combinaciones de los datos anotados puedan representarse simultáneamente mediante las combinaciones de las marcas diacríticas proporcionadas por la operación OR bit a bit aplicada a los mapas de bits 100, 102. Por consiguiente, a manera de ejemplo ilustrativo, la columna más hacia la izquierda de la figura 9 muestra la isoleucina de aminoácido (I) que tiene los atributos de ser hidrofóbica y alifática. El carácter de fuente correspondiente mostrado en la sección inferior 104 incluye una superimposición del conjunto de caracteres que representa el símbolo de aminoácido (es decir, la letra "I") con un asterisco superíndice (*) que representa la propiedad hidrofóbica y una theta súper índice (T) que representa la propiedad alifática.

Se debe notar que, en general, el conjunto de caracteres bioinformáticos 20 y la fuente bioinformática asociada 40 será específica para los datos genómicos o para los datos proteómicos . En otras palabras, una modalidad predeterminada del conjunto de caracteres bioinformáticos 20 y la fuente bioinformática asociada 40 se diseñará para representar tanto los datos genómicos, como los datos proteómicos, pero por lo general no representa a ambos datos genómicos y proteómicos. (las modalidades en las que un conjunto de caracteres de "combinación" y la fuente asociada capaz de representar ambos datos genómicos y proteómicos se contempla, pero comúnmente con el uso de un conjunto de caracteres genómicos o proteómicos diseñados y la fuente permite la construcción de conjuntos de caracteres bioinformáticos más eficientes y fuentes bioinformáticas más intuitivas) .

Se debe notar además que un conjunto de caracteres bioinformáticos determinado 20 puede tener dos o más fuentes bioinformáticas diferentes 40 asociadas con el mismo. A manera de analogía ilustrativa, en la misma manera en que los caracteres del conjunto de caracteres ASCII puede representarse mediante diferentes fuentes (por ejemplo, fuente Times New Román, fuente Arial, entre otras), las fuentes bioinformáticas diferentes 40 pueden usarse para representar un solo conjunto de caracteres bioinformáticos 20. El usuario puede entonces seleccionar su representación preferida de la secuencia genómica o proteómica simplemente al seleccionar las fuentes bioinformáticas preferidas del usuario 40, de la misma manera que un lector puede seleccionar presentar o imprimir texto en ingles usando fuente Times New Román, fuente Arial o cualquier otra fuente ASCII disponible que el lector prefiera.

Los enfoques escritos que emplean el conjunto de caracteres bioinformáticos 20 y la fuente bioinformática 40 todavía se emplean fácilmente para colocar tipos de anotaciones distintas o adicionales. En el caso de las secuencias genómicas, las anotaciones de interés incluyen (pero no se limitan a) : metilación, acetilación, inicio y fin CDS, inicio y fin de Exón, inicio y fin de Intrón, promotor, reforzador, TF, pseudogenes, STS, bucle D, bucle V, miARN, ARNnc, repeticiones (LINE, SINE, etc.), GAP, firmas específicas de enfermedad, entre otras. En el caso de las secuencias proteómicas, los tipos de anotación de interés pueden incluir variaciones como una variante de un solo neuclótido (SNV, por sus siglas en inglés) o sustitución, información de estructura terciaria, entre otros.

En los ejemplos ilustrados de las Tablas 1 y 2, solamente una anotación de variación se ilustra (el bit de marcador de enfermedad b15 de ejemplo de la Tabla 1) . Sin embargo, se debe apreciar que mas y/o diferentes anotaciones de variación pueden incluirse en el conjunto de caracteres bioinformáticos 20. Por ejemplo, pueden proporcionarse diferentes anotaciones para diferentes marcadores de enfermedad, o pueden proporcionarse anotaciones para variaciones de otros tipos como variaciones indicativas de linajes ancestrales o variaciones asociadas con rasgos fenotípicos particulares.

Esta solicitud ha descrito una o más modalidades preferidas. Pueden ocurrírsele a otros modificaciones y alteraciones después de leer y entender la descripción detallada precedente. Se pretende que la solicitud se construya de manera que incluya todas las modificaciones y alteraciones en la medida en que vengan dentro del alcance de las reivindicaciones anexas o equivalentes del mismo.

Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones :

1. Un método para codificar datos genómicos o proteómicos, caracterizado porque comprende: codificar datos genómicos o protéomicos como una serie de caracteres genómicos o proteómicos que comprende caracteres de un conjunto de caracteres bionformáticos en donde : (i) cada base o péptido de los datos genómicos o proteómicos es representada por un solo car cter del conjunto de caracteres bionformáticos y (ii) cada carácter del conjunto de caracteres bionformáticos codifica (I) una base o péptido en un primer subconjunto de bits y (II) al menos un valor de datos anotado asociado con la base o el péptido en un segundo subconjunto de bits; y en donde la codificación se realiza mediante un dispositivo de procesamiento digital.

2. El método de conformidad con la reivindicación 1, caracterizado porque el carácter del conjunto de caracteres bioinformáticos es representado por uno de (1) un solo byte que consiste de ocho bits y (2) dos bytes que consisten de diez y seis bits, en donde un primer subconjunto de ocho o diez y seis bits codifica la base o péptido y un segundo subconjunto de los ocho y diez y seis bits codifica al menos el un valor de dato anotado asociado con la base o péptido.

3. El método de conformidad con cualquiera de las reivindicaciones 1 a 2, caracterizado porque: cada carácter del conjunto de caracteres bioinformáticos que codifica una base adenina se mapea para un carácter de fuente de una fuente bioinformática que incluye la letra "A" o "a", cada carácter del conjunto de caracteres bioinformáticos que codifica una base guanina se mapea para un carácter de fuente de la fuente bioinformática que incluye la letra "G" o »g" , cada carácter del conjunto de caracteres bioinformáticos que codifica una base citosina se mapea para un carácter de fuente de la fuente bioinformática que incluye la letra "C" o "c" , cada carácter del conjunto de caracteres bioinformáticos que codifica una base uracilo o timina se mapea para un carácter de fuente de la fuente bioinformática que incluye la letra "T" o "t" o la letra "U" o "u" ,- y al menos un carácter del conjunto de caracteres bioinformáticos codifica una base ambigua usando un código que representa dos o más bases candidatas .

4. El método de conformidad con la reivindicación 3, caracterizado porque: cada carácter del conjunto de caracteres bioinformáticos codifica un valor de dato anotado que indica un valor de calidad de la base codificada y la fuente bioinformática incluye marcas diacríticas que indican los valores de calidad.

5. El método de conformidad con la reivindicación 1, caracterizado porque al menos cuatro caracteres del conjunto de caracteres bioinformáticos se mapea para los caracteres de fuente de la fuente bioinformática que cada uno incluye una o más letras que representan la base o péptido codificado por el carácter y una o más marcas diacríticas que representan al menos un dato anotado codificado.

6. El método de conformidad con cualquiera de las reivindicaciones 1 a 5, caracterizado porque comprende además : realizar al menos una función de serie en la serie de caracteres genómicos o proteómicos para generar una serie de caracteres genómicos o proteómicos actualizada en la que al menos una base o péptido se representa mediante un solo carácter que codifica al menos un dato adicional o modificado generado por la manipulación de serie realizada.

7. El método de conformidad con la reivindicación 6, caracterizado porque la realización incluye realizar una comparación de serie que compara la serie de caracteres genómicos o proteómicos con una serie de caracteres genómicos o proteómicos de referencia.

8. El método de conformidad con cualquiera de las reivindicaciones 6 a 7, caracterizado porque la realización incluye llevar a cabo una operación lógica bit a bit en los caracteres de la serie de caracteres genómicos o proteómicos.

9. El método de conformidad con cualquiera de las reivindicaciones 1 a 8, caracterizado porque codifica solamente los datos genómicos y comprende : codificar datos genómicos como una serie de caracteres genómicos que comprende caracteres de un conjunto de caracteres bionformáticos en donde: (i) cada base de los datos genómicos es representada por un solo carácter del conjunto de caracteres bionformáticos ; y (ii) cada carácter del conjunto de caracteres bionformáticos codifica (I) una base y (II) al menos un valor de dato anotado asociado con la base; y presentar los datos genómicos al presentar la serie de caracteres genómicos usando la fuente bioinformática mapeada para el conjunto de caracteres bioinformaticos.

10. El método de conformidad con cualquiera de las reivindicaciones 1 a 8, caracterizado porque codifica solamente los datos proteómicos y comprende: codificar datos protéomicos como una serie de caracteres proteómicos que comprende caracteres de un conjunto de caracteres bionformáticos en donde: (i) cada péptido de los datos genómicos es representado por un solo car cter del conjunto de caracteres bionformáticos ; y (ii) cada carácter del conjunto de caracteres bionformáticos codifica (I) un péptido y (II) al menos un valor de dato anotado asociado con el péptido; y presentar los datos proteómicos al presentar la serie de caracteres proteómicos usando la fuente bioinformática mapeada para el conjunto de caracteres bioinformáticos .

11. Un aparato, caracterizado porque comprende: un dispositivo de procesamiento digital configurado para realizar un método de conformidad con cualquiera de las reivindicaciones 1-10.

12. Un medio de almacenamiento no transitorio legible por un procesador digital y software de almacenamiento de codificación de datos genómicos o proteómicos , caracterizado porque el software se adapta para procesar datos genómicos o proteómicos representados como series de caracteres genómicos o proteómicos que comprenden caracteres de un conjunto de caracteres bioinformáticos en donde cada base o péptido de los datos genómicos o proteómicos se representa mediante un solo carácter del conjunto de caracteres bioinformáticos y los caracteres del conjunto de caracteres bioinformáticos codifican bases o péptidos en un primer subconjunto de bits y datos adicionales con las bases o péptidosen un segundo subconjunto de bits.

13. El medio de almacenamiento de conformidad con la reivindicación 12, caracterizado porque el software procesa los datos genómicos o proteómicos que usan operaciones de procesamiento de serie.

14. El medio de almacenamiento de conformidad con cualquiera de las reivindicaciones 12-13, caracterizado porque el software procesa los datos genómicos o proteómicos usando operaciones de enmascaramiento bit a bit a bits binarios seleccionados de cero de caracteres que representan bases o péptidos.

15. El medio de almacenamiento de conformidad con cualquiera de las reivindicaciones 12-14, caracterizado porque almacena además una fuente bioinformática mapeada para el conjunto de caracteres bioinformáticos , y el software realiza las operaciones de presentación en las que los datos genómicos o proteómicos se presentan usando la fuente bioinformática .