MX2012011802A

MX2012011802A - Metodo y codificador y descodificador para la presentacion precisa de muestra de una señal de audio.

Info

Publication number: MX2012011802A
Application number: MX2012011802A
Authority: MX
Inventors: Ralph Sperschneider; Stefan Doehla
Original assignee: Fraunhofer Ges Forschung
Priority date: 2010-04-13
Filing date: 2011-04-12
Publication date: 2013-02-26
Also published as: PT2559029T; EP3499503A1; CN102971788B; BR112012026326B1; RU2546602C2; AU2011240024A1; PL2559029T3; BR112012026326A8; ES2722224T3; AU2011240024B2; EP2559029A1; JP2013528825A; RU2012148132A; EP2559029B1; TR201904735T4; KR101364685B1; CA2796147C; BR112012026326A2; JP5719922B2; KR20130006691A

Abstract

Se describe un método para proporcionar información de la validez de datos de audio codificados, los datos de audio codificados son una serie de unidades de datos de audio codificadas. Cada unidad de datos de audio codificada puede contener información sobre los datos de audio válidos. El método comprende: proporcionar ya sea información en un nivel de datos de audio codificados que describen la cantidad de datos al principio de una unidad de datos de audio que es inválida, o proporcionar información en un nivel de datos de audio codificados que describen la cantidad de datos al final de una' unidad de datos de audio que es inválida, o proporcionar información en un nivel de datos audio codificados que describe tanto la cantidad de datos al principio y al final de una unidad de datos de audio que es inválida. También se describe un método para recibir datos codificados incluyendo información sobre la validez de datos y proporcionar datos de salida descodificados. Además, se describen un codificador correspondiente y un descodificador correspondiente.

Description

MÉTODO Y CODIFICADOR Y DESCODIFICADOR PARA LA REPRESENTACIÓN PRECISA DE MUESTRA DE UNA SEÑAL DE AUDIO DESCRIPCIÓN CAMPO TÉCNICO Modalidades de la invención se refieren al campo de codificación de fuente de una señal de audio. Más específicamente, modalidades de la invención se refieren a un método para codificar información en los datos de audio válidos originales y un descodificador asociado. En forma más específica, modalidades de la invención proporcionan la recuperación de los datos de audio con su duración original.

ANTECEDENTES DE LA INVENCIÓN Codificadores de audio típicamente se emplean para comprimir una señal de audio para transmisión o almacenamiento. Dependiendo del codificador empleado, la señal puede ser codificada sin pérdidas (permitiendo perfecta reconstrucción) o con pérdidas. (para reconstrucción imperfecta pero suficiente) . El descodificador asociado invierte la operación de codificación y crea la señal de audio perfecta o imperfecta. Cuando la literatura menciona artefactos, entonces típicamente la pérdida de información se pretende, que es típica para codificación con pérdidas. Estas incluyen un ancho de banda de audio limitado, artefactos de eco y llamada y otra información, que puede ser audible o enmascarada debido a las propiedades de la audición humana .

COMPENDIO DE LA INVENCIÓN El problema abordado por esta invención se refiere a otro conjunto de artefactos, que típicamente no están cubiertos en la literatura de codificación de audio: periodos de silencio adicionales al inicio y al fin de una codificación. Existen soluciones para estos artefactos, que a menudo se refieren como métodos de reproducción sin interrupciones. Las fuentes para estos artefactos son al principio la granularidad gruesa de los datos de audio codificados en donde por ejemplo una unidad de datos de audio codificados siempre contiene información para 1024 muestras de audio no codificadas originales. En segundo, el procesamiento de señal digital a menudo solo es posible con retardos algorítmicos debido a los filtros digitales y bancos de filtros involucrados.

Muchas aplicaciones no requieren la recuperación de las muestras válidas originalmente. La difusión de audio, por ejemplo, normalmente no es problemática, ya que la transmisión de audio codificada es continua y no sucede una concatenación de codificaciones separadas. Difusiones de TV también a menudo se configuran estáticamente, y un solo codificador se emplea antes de transmisión. Los periodos de silencio extra se vuelven sin embargo un problema, cuando varias transmisiones previamente codificadas se empalman (como se emplea para inserción de anuncios) , cuando una sincronización de audio-video se vuelve una consideración, para el almacenamiento de datos comprimidos, en donde la descodificación no deberá exhibir las muestras de audio extra al inicio y al final (en especial para codificación sin interrupciones que requiere una reconstrucción exacta de bits de los datos de audio no comprimidos originales) , y para editar en el dominio comprimido.

Mientras que muchos usuarios ya se han adaptado a estos periodos de silencio extra, otros usuarios se quejan por el silencio extra, lo que es especialmente problemático cuando se concatenan severas codificaciones y datos de audio sin interrupciones anteriormente no comprimidos se interrumpen cuando son codificados y descodificados. Un objeto de la invención es proporcionar un enfoque mejorado permitiendo la eliminación de silencio indeseado al inicio y al fin de codificaciones.

Codificación de video utilizando mecanismos de codificación diferencial, empleando cuadros I, cuadros P y cuadros B, no introduce ningunos cuadros extra al inicio o al fin. En contraste, el codificador de audio típicamente tiene muestras previamente pendientes adicionales . Dependiendo de su número, pueden llevar a una pérdida perceptible de sincronización de audio-video. Esto a menudo es referido como el problema de post-sincronización, o doblaje, la desigualdad o desfase entre el movimiento experimentado de la boca de un interlocutor y el sonido que se escucha. Muchas aplicaciones abordan este problema al hacer un ajuste para postsincronización, que debe realizarse por el usuario ya que es altamente variable, dependiendo del codee en uso y sus ajustes. Un objeto de la invención es proporcionar un enfoque mejorado que permite una reproducción sincronizada de audio y video .

En el pasado las difusiones digitales se volvieron más heterogéneas, con diferencias regionales y programas personalizados y anuncios . Una transmisión de difusión principal por lo tanto es reemplazada y empalmada con un contenido local o específico de usuario, que pueden ser datos de transmisión en vivo o datos previamente codificados. El empalme de estas transmisiones primordialmente depende del sistema de transmisión; sin embargo, el audio a menudo no puede ser perfectamente empalmado, como se desea, debido a los periodos de silencio desconocidos. Un método actual, a menudo es dejar los periodos de silencio en la señal, aunque estos espacios en la señal de audio pueden ser percibidos. Un objeto de la invención es proporcionar un enfoque mejorado que permite el empalme de dos transmisiones de audio comprimidas .

La edición normalmente se realiza en el dominio no • comprimido, en donde las operaciones de edición son bien conocidas. Si el material fuente sin embargo ya es una señal de audio codificada con pérdida, entonces incluso operaciones de corte simple requieren una codificación completa nueva, resultando en artefactos de codificación en tándem. Por lo tanto, las operaciones de descodificación y codificación en tándem deberán ser evitadas. Un objeto de la invención es proporcionar un enfoque mejorado que permite corte de una transmisión de audio comprimida.

Un aspecto diferente es el borrado de muestras de audio no válidas en sistemas que requieren una ruta de datos protegida. La ruta de medio protegido se emplea para hacer valer la administración o gestión de derechos digitales y asegurar integridad de datos al utilizar comunicación cifrada entre los componentes de un sistema. En estos sistemas, este requerimiento puede ser cumplido solo si duraciones no constantes de una unidad de datos de audio se vuelven posibles, ya que pueden aplicarse solo en elementos confiables dentro de las operaciones de edición de audio de ruta de medio protegido. Estos elementos confiables típicamente solo son los descodificadores y los elementos de procesamiento o reproducción.

Modalidades de la invención proporcionan un método para proporcionar información respecto a la validez de datos de audio codificados, los datos de audio codificados son una serie de unidades de datos de audio codificados, en donde cada unidad de datos de audio codificada puede contener información en los datos de audio válidos, el método comprende : proporcionar ya sea información a un nivel de datos de audio codificados, que describe la cantidad de datos al inicio de la unidad de datos de audio que no son válidos, o proporcionar información a nivel de datos de audio codificados que describen la cantidad de datos al final de la unidad de datos de audio que no son válidos, o proporcionar información a un nivel de datos de audio codificados que describe tanto la cantidad de datos al inicio como el fin de una unidad de datos de audio que no son válidos .

Adicionales modalidades de la invención proporcionan un codificador para suministrar la información en la validez de datos: con lo que el codificador se configura para aplicar el método para proporcionar información en la validez de datos .

Adicionales modalidades de la invención proporcionan un método para recibir datos codificados incluyendo información de la validez de datos y proporcionar datos de salida descodificados, el método comprende: recibir datos codificados con cualquier información en un nivel de datos de audio codificados, que describe la cantidad de datos al inicio de una unidad de datos de audio que no son válidos, o información a un nivel de datos de audio codificados que describe la cantidad de datos al fin de una unidad de datos de audio que no son válidos, o información a un nivel de datos de audio codificados que describe tanto la cantidad de datos al inicio como al fin de una unidad de datos de audio que no son válidos; y proporcionar datos de salida descodificados que solo contienen las muestras no marcadas como no válidas, o que contiene todas las muestras de audio de la unidad de datos de audio codificados y proporcionar información a la aplicación que parte de los datos no son válidos .

Adicionales modalidades de la invención proporcionan un descodificador para recibir datos codificados y proporcionar datos de salida descodificados, el descodificador comprende: una alimentación para recibir una serie de unidades de datos de audio codificados con una pluralidad de muestras de audio codificadas ahí, en donde algunas unidades de datos de audio contienen información de la validez de datos, la información se formatea como se describe en el método para recibir datos de audio codificados incluyendo información de la validez de datos, una porción de descodificación acoplada a la alimentación y configurada para aplicar la información de la validez de datos, una salida para proporcionar muestras de audio descodificadas, en donde solo se proporcionan cualquiera de las muestra de audio válidas, o si se proporciona la información de la validez de las muestras de audio descodificadas.

Modalidades de la invención proporcionan un medio legible por computadora para almacenar instrucciones para ejecutar al menos uno de los métodos de acuerdo con modalidades de la invención.

La invención proporciona un enfoque novedoso para proporcionar la información de la validez de datos, difiriendo de enfoques existentes que están fuera del subsistema de audio y/o enfoques que solo proporcionan un valor de retardo y la duración de los datos originales.

Modalidades de la invención son ventajosas ya que aplican dentro del codificador y descodificador de audio, que ya trata con datos de audio comprimidos y descomprimidos . Esto permite que los sistemas compriman y descompriman solo datos válidos, como se mencionó anteriormente, que no requieren mayor procesamiento de señal de audio fuera del codificador y descodificador de audio.

Modalidades de la invención permiten señalización de datos válidos no solo para aplicaciones basadas en archivo sino también para aplicaciones en vivo y basadas en transmisión, en donde la duración de los datos de audio válidos no se conoce al inicio de la codificación.

De acuerdo con modalidades de la invención, la transmisión codificada contiene información de validez en un nivel de unidad de datos de audio, que puede ser una Unidad de Acceso de Audio MPEG-4 AAC. Para conservar la compatibilidad con descodificadores existentes, la información se coloca en una porción de la Unidad de Acceso que es opcional y que puede ser ignorada por los descodificadores que no soportan la información de validez. Esta porción es la extensión de carga útil de una Unidad de Acceso de Audio MPEG-4 AAC. La invención es aplicable a la mayoría de los esquemas de codificación de audio existentes, incluyendo Audio capa 3 MPEG-1 (MP3) , y futuros esquemas de codificación de audio que funcionan en una base por bloques y/o sufren de retardo algorítmico.

De acuerdo con modalidades de la invención, se proporciona un enfoque novedoso para eliminar datos no válidos. El enfoque novedoso se basa en información ya existente disponible al codificador, el descodificador y las capas de sistema que incrustan codificador o descodificador .

BREVE DESCRIPCIÓN DE LOS DIBUJOS Modalidades de acuerdo con la invención subsecuentemente se describirán haciendo referencia a las figuras anexas en donde: La Figura 1 ilustra un comportamiento de descodificador HE AAC: modo de velocidad dual; La Figura 2 ilustra un intercambio de información entre una entidad Capa de Sistemas y un descodificador de audio ; La Figura 3 muestra un diagrama . de flujo esquemático de un método para proporcionar información de la validez de datos de audio codificados de acuerdo con una primera modalidad posible; La Figura 4 muestra un diagrama de flujo esquemático de un método para proporcionar información de la validez de datos de audio codificados de acuerdo con una segunda modalidad posible de las enseñanzas aquí descritas; La Figura 5 muestra un diagrama de flujo esquemático de un método para proporcionar información de la validez de datos de audio codificados de acuerdo con una tercera modalidad posible de las enseñanzas aquí descritas; La Figura 6 muestra un diagrama de flujo esquemático de un método para recibir datos codificados que incluyen la información de la validez de datos de acuerdo con una modalidad de las enseñanzas aquí descritas; La Figura 7 muestra un diagrama de flujo esquemático del método para recibir datos codificados de acuerdo con otra modalidad de las enseñanzas aquí descritas ,- La Figura 8 muestra un diagrama de entrada/salida de un codificador de acuerdo con una modalidad de las enseñanzas aquí descritas; La Figura 9 muestra un diagrama de entrada/salida esquemático de un codificador de acuerdo con otra modalidad de las enseñanzas aquí descritas; La Figura 10 muestra un diagrama de bloques esquemático de un descodificador de acuerdo con una modalidad de las enseñanzas aquí descritas; y La Figura 11 muestra un diagrama de bloques esquemático de un descodificador de acuerdo con otra modalidad de las enseñanzas aquí descritas.

Descripción Detallada de Modalidades Ilustrativas La Figura 1 muestra el comportamiento · de un descodificador con respecto a unidades de acceso (AU = Access Units) y unidades de composición (CU = Composition Units) asociadas . El descodificador se conecta a una entidad denominada "Sistemas" que recibe una salida generada por el descodificador . Como un ejemplo, el descodificador deberá considerarse que funciona bajo la norma de Codificación de Audio Avanzado - Alta Eficiencia (HE-AAC = High Efficiency -Advanced Audio Coding) . Un descodificador HE-AAC esencialmente es un descodificador AAC seguido por una etapa de "post procesamiento" de Reducción de Banda Espectral (SBR = Spectral Band Reduction) . El retardo adicional impuesto por la herramienta SBR se debe al banco QMF y los amortiguadores de datos dentro de la herramienta SBR. Puede derivarse por la siguiente fórmula: RetardOnerramienta de SBR = ^piltro <je análisis — Ncanales de Análisis + 1 + RetardOamortiguador en donde Ncanales de análisis = 32, Lpiitro de análisis = 320 y.

RetardOamortiguador = 6 X 32.

Esto significa que el retardo impuesto por la herramienta SBR (a la velocidad de muestreado de alimentación, es decir, la velocidad de muestreado de salida de AAC) es RetardOHerramienta de SBR = 320 - 32 +1 + 6 X 32 = 481 muestras .

Típicamente, la herramienta SBR se ejecuta en el modo "incrementar la velocidad de muestreado" (o "velocidad dual"), en cuyo caso, el retardo de 481 muestras a la velocidad de muestreado AAC se traduce en un retardo de 962 muestras a la velocidad de salida SBR. También puede operar a la misma velocidad de muestreado que la salida AAC (denotada como "modo SBR con velocidad de muestreado reducida"), en ese caso, el retardo adicional es de solo 481 muestras a la velocidad de salida de SBR. Hay un modo "compatible hacia atrás" en el que la herramienta SBR es despreciable y la salida AAC es la salida del descodificado . En este caso, no hay retardo adicional.

La Figura 1 muestra el comportamiento descodificador para el caso más común en donde la herramienta SBR se ejecuta en el modo de incremento de velocidad de muestreado y el retardo adicional es de 962 muestras de salida. Este retardo corresponde aproximadamente a 47% de la longitud del cuadro AAC con incremento de velocidad de muestreado (después de procesamiento SBR) . Hay que notar que TI es el sello fechador asociado con CU 1 después del retardo de 962 muestras, esto es, el sello fechador para la primera muestra válida de la salida HE AAC. Adicionalmente note que si HE AAC se ejecuta en el "modo SBR con reducción en velocidad de muestreado" o modo "de una sola velocidad", el retardo sería 481 muestras pero el sello fechador será idéntico ya que en el modo de una sola velocidad, las CU son la mitad del número de muestras de manera tal que serian idénticas ya que en el modo de una sola velocidad las CU son la mitad del número de muestras de modo que el retardo es todavía 47% de la duración CU.

Para todos los mecanismos de señalización disponibles (es decir, señalización implícita, señalización explícita compatible hacia atrás o señalización explícita jerárquica) si el descodificador es HE-AAC, entonces debe transportar a Sistemas cualquier retardo adicional incurrido por procesamiento de SBR, de otra forma la falta de una indicación desde el descodificador señala que el descodificador es AAC. Por lo tanto, Sistemas puede ajustar el sello fechador para compensar el retardo SBR adicional .

La siguiente sección describe como un codificador y descodificador para un codee de audio basado en transformada se refiere a Sistemas MPEG, y propone un mecanismo adicional para asegurar identidad de la señal después de un viaje redondo de codificador-descodificador excepto "artefactos de codificación" - especialmente en la presencia de extensiones codee. Emplear las técnicas descritas asegura una operación pronosticable desde un punto de vista de Sistemas y también retira la necesidad por señalización sin "interrupciones" de propiedad adicional, que es normalmente necesaria para describir el comportamiento del codificador.

En esta sección, se hace referencia a las siguientes normas: [1] ISO/IEC TR 14496-24:2007: Tecnología de Información - Codificación de objetos audio-visuales - Parte 24 : Interacción dé audio y sistemas [2] ISO/IEC 14496-3:2009 Tecnología de Información - Codificación de objetos audio-visuales - Parte 3: Audio [3] ISO/IEC 14496-12:2008 Tecnología de Información - Codificación de objetos audio-visuales - Parte 12: ISO formato de archivo de medio base .

Brevemente [1] se describe en esta sección. Básicamente, la Codificación de Audio Avanzada (AAC Advanced Audio Coding) y sus sucesores HE AAC, HE AAC v2 son codees que no tienen una correspondencia 1:1 entre datos comprimidos y no comprimidos. El codificador agrega muestras de audio adicionales al inicio y al fin de los datos no comprimidos y también produce Unidades de Acceso con datos comprimidos para éstas, además de las Unidades de Acceso que cubren los datos originales no comprimidos . Un descodificador que cumple con normas o estándar entonces generará una transmisión de datos no comprimida que contiene las muestras adicionales, que se agregan por el codificador. [1] describe como herramientas existentes del formato de archivo o de medios basado en ISO [3] pueden reutilizarse para marcar el intervalo válido de los datos descomprimidos de manera tal de (que además de artefactos codee) la transmisión no comprimida original puede recuperarse. La marca se logra al utilizar una lista de adición con una entrada, que contiene el intervalo válido después de la operación de descodificación.

Ya que esta solución no está lista en tiempo, soluciones de propiedad para marcar el periodo válido no son amplias en uso (por nombrar solo dos: Apple iTunes y Anead Ñero) . Puede argumentarse que el método propuesto en [1] no es muy práctico y adolece del problema que las listas de edición originalmente se pretendieron para un propósito diferente - potencialmente complejo - para el cual solo están disponible unas cuantas implementaciones .

Además, [1] muestra como pueden manejarse datos antes de video o reproducción (pre-roll) al utilizar grupos de muestra Formato de Archivo ISO (ISO FF = ISO File Format) [3] . Antes de video (Pre-roll) no marca qué datos son válidos sino qué tantas Unidades de Acceso (o muestras en la nomenclatura ISO FF) se van a descodificar antes que el descodificador saque un punto arbitrario en tiempo. Para AAC esto siempre es una muestra (es decir, una Unidad de Acceso) con anticipación debido a las ventanas de superposición en el dominio MDCT,' por lo tanto el valor para antes de video es -1 para todas las Unidades de Acceso .

Otro aspecto se refiere a consulta anticipada adicional de muchos codificadores. La consulta anticipada adicional depende por ejemplo de procesamiento de señal interna dentro del codificador que intenta crear salida en tiempo real. Una opción para tomar en cuenta la consulta anticipada adicional puede ser utilizar la lista de edición también para el retardo de consulta anticipada del codificador .

Como se mencionó anteriormente, es cuestionable si el propósito original de la herramienta de lista de edición era marcar los intervalos válidos originalmente dentro de un medio. [1] no hace mención de las implicaciones de edición adicional del archivo con listas de edición, por lo tanto puede considerarse que utilizar la lista de edición para el propósito [1] agrega cierta fragilidad.

Como una nota secundaria, las soluciones de propiedad y soluciones para audio P3 todas definen el retardo de extremo-a-extremo adicional y la longitud de los datos de audio no comprimidos originales, muy similar a las soluciones de Ñero y de iTunes mencionadas anteriormente para que se emplea la lista de edición en [1] .

En general, [1] es silencioso respecto al comportamiento correcto de aplicaciones de transmisión en tiempo real, que no utilizan el formato de archivo MP4 , pero requieren sellos fechadores para correcta sincronización de audio video y a manudo operan en un modo muy silencioso o mudo. Estos sellos fechadores a menudo se ajustan de manera incorrecta y por lo tanto se requiere una perilla en el dispositivo de descodificación para poner de nuevo todo en sincronía .

La interfase entre Audio MPEG-4 y Sistemas MPEG-4 se describe con más detalle en los siguientes párrafos.

Toda unidad de acceso suministrada al descodificador de audio de la interfase de Sistemas resultará en una unidad de composición correspondiente suministrada desde el descodificador de audio a la interfase de sistemas, es decir, el compositor. Esto incluirá condiciones de arranque y parada, es decir cuando la unidad de acceso es la primera o la última en una secuencia finita de unidades de acceso.

Para una unidad de composición de audio, ISO/IEC 14496-1 sub-clase 7.1.3.5 Composition Time Stamp (CTS) especifica que el tiempo de composición aplica a la muestra de audio n-ésima con la unidad de compósición. El valor de n es 1 a menos que se especifique diferente en el resto de esta sub-cláusula .

Para datos comprimidos, como el audio codificado HE-AAC, que pueden descodificarse por diferentes configuraciones de descodificador, se requiere atención especial. En este caso, la descodificación puede realizarse en una forma compatible hacia atrás (solo AAC) así como en una forma mejorada (AAC+SBR) . A fin de asegurar que los sellos fechadores de composición se manejen correctamente (de manera tal que el audio permanece sincronizado con otros medios), aplica lo siguiente: • Si datos comprimidos permiten tanto descodificación mejorada como compatible hacia atrás, y si el descodificador opera en una forma compatible hacia atrás, entonces el descodificador no tiene que tomar ninguna acción especial. En este caso, el valor de n es 1.

• Si los datos comprimidos permiten tanto descodificación mejorada como compatible hacia atrás, y si el descodificador opera en una forma mejorada, tal que utiliza un postprocesador que inserta cierto retardo adicional (por ejemplo, un post-procesador SBR en HE-AAC) , entonces debe asegurar que este retardo de tiempo adicional incurrido respecto al modo compatible hacia atrás, como se describió por un valor correspondiente de n, se toma en cuenta cuando presenta la unidad de composición. El valor de n es especificado en la siguiente tabla.

La descripción de la Interfase entre Audio y Sistemas ha demostrado que funciona de manera confiable, cubriendo la mayoría de los casos de uso actual . Si se busca cuidadosamente sin embargo, no se mencionan dos aspectos: • En muchos sistemas, el origen del sello fechador es el valor cero. AUs antes de video no se considera que existen, aunque por ejemplo AAC tiene un retardo de codificador mínimo inherente de una Unidad de Acceso que requiere una Unidad de Acceso frente a la Unidad de Acceso en el sello fechador cero. Para el formato de archivo de MP4 una solución para este problema se describe en [1] .

• Duraciones no-entero del tamaño de . cuadro no están cubiertas. La estructura AudioSpecificConfig ( ) permite la señalización de un pequeño conjunto de tamaños de cuadro que describen las longitudes de banco de filtros, por ejemplo 960 y 1024 para AAC. Datos del mundo real, sin embargo, típicamente no caben en una rejilla de tamaños de cuadro fijos y por lo tanto un codificador debe de rellenar el último cuadro.

Estos dos aspectos faltantes recientemente se volvieron un problema, con el advenimiento de aplicaciones de multimedia avanzadas requieren el empalme de dos transmisiones AAC o la recuperación del intervalo de muestras válidas después del viaje redondo codificador-descodificador - especialmente en la ausencia del formato de archivo MP4 y los métodos descritos en [1] .

Para superar los problemas mencionados anteriormente, antes de video (pre-roll) , después de video (post-roll) y todas las otras fuentes deben describirse en forma adecuada. Además, un mecanismo para múltiples no enteros del tamaño de cuadro se requiere que tenga representaciones de audio precisas de muestra.

Antes de video se requiere inicialmente para un descodificador, de manera tal que sea capaz de descodificar completamente los datos. Como un ejemplo, AAC requiere antes de video de 1024 muestras (una Unidad de Acceso) antes de la descodificación de una Unidad de Acceso de manera tal que las muestras de salida de la operación de superposición - adición representa la señal original deseada, como se ilustra en [1] . Otros codees de audio pueden tener diferentes requerimientos antes de video.

Después de video (Post-roll) es equivalente a antes de video con la diferencia de que más datos después de la descodificación de una Unidad de Acceso se van a alimentar al descodificador . La causa para después de video (post-roll) es extensión de codee que desarrolla una eficiencia codee en intercambio por retardo algorítmico, tal como se citó en la tabla anterior. Ya que a menudo se desea una operación de modo dual, antes de video permanece constante de manera tal que un descodificador sin las extensiones implementadas puede utilizar completamente los datos codificados. Por lo tanto, antes de video y sellos fechadores se refieren a las capacidades de descodificador anterior. Después de video, se requiere entonces además de un descodificador que soporte estas extensiones, ya que la línea de retardo internamente existente debe descargarse para recuperar toda la representación de la señal original. Desafortunadamente, después de video es dependiente de descodificador . Sin embargo es posible manejar antes de video y después de video independiente del descodificador si los valores antes de video y después de video se conocen a la capa de sistemas y la salida del descodificador de antes de video y después de video puede dejarse caer ahí.

Con respecto a un tamaño de cuadro de audio variable, ya que los codees de audio siempre codifican bloques de datos con un número fijo de muestras, una representación precisa de muestras se vuelve solo posible al señalar adicionalmente a nivel de Sistemas. Ya que es más fácil que un descodificador maneje recorte preciso de muestra, parece conveniente el hacer que el descodificador corte una señal. Por lo tanto, un mecanismo de extensión opcional se propone que permite el recorte de las muestras de salida por el descodificador .

Respecto a un retardo de codificador específico de proveedor, MPEG sólo especifica la operación de un descodificador, mientras que solo se proporcionan codificadores de manera informal. Esta es una de las ventajas de las tecnologías MPEG, en donde los codificadores pueden mejorar con el tiempo para utilizar completamente las capacidades de un codee. La flexibilidad al diseñar un codificador sin embargo ha llevado a problemas de interoperabilidad de retardo. Ya que los codificadores típicamente requieren una vista previa de la señal de audio para realizar decisiones de codificación más inteligentes, esto no es altamente específico del distribuidor. Razones para este retardo de codificador son por ejemplo decisiones conmutadas de bloque, que requieren un retardo de las superposiciones de ventana posibles y otras optimizaciones, que son primordialmente relevantes para codificadores de tiempo real.

Codificación basada en archivo de contenido disponible fuera de línea no requiere este retardo que es solo relevante cuando datos de tiempo real se codifican, sin embargo la mayoría de los codificadores agregan al principio silencio también al inicio de codificaciones fuera de línea.

Una parte de la solución para este problema es el ajuste correcto de sellos fechadores en la capa de sistemas, de manera tal que estos retardos son irrelevantes y tienen por ejemplo valores de sello fechador negativos. Esto también puede lograrse con la lista de edición, como se propone en [1] .

La otra parte de la solución es un alineamiento del retardo del codificador a fronteras, de cuadro, de manera tal que un número entero de Unidades de Acceso por ejemplo con sellos . fechadores negativos puede saltarse inicialmente (además de las Unidades de Acceso antes de video) .

Las enseñanzas aquí descritas también se refieren a la norma industrial ISO/IEC 14496-3:2009, sub-parte 4, sección 4.1.1.2. De acuerdo con las enseñanzas aquí descritas, lo siguiente se propone: Cuando está presente, una herramienta de recorte posterior a descodificador elige una porción de la señal de audio reconstruida, de manera tal que dos transmisiones pueden ser empalmadas en conjunto en el dominio codificado y la reconstrucción precisa de muestras se vuelve posible dentro de la capa de Audio.

La entrada a la herramienta de recorte post-descodificador es: · La señal de audio reconstruida en dominio de tiempo • La información de control posterior a recorte La salida de la herramienta de recorte post-decodificador es: • La señal de audio reconstruida en dominio de tiempo Si la herramienta de recorte post-descodificador no es activa, la señal de audio reconstruida en dominio de tiempo se pasa directamente a la salida del descodificador . Esta herramienta se aplica después de cualquier herramienta de codificación de audio previo.

La siguiente tabla ilustra una sintaxis propuesta de una estructura de datos extension_jpayload ( ) que puede emplearse para implementar las enseñanzas aquí descritas .

Sintaxis No. Nemode técnica bits extensionjpayload (cnt) { extensión type; 4 imsbf align = 4 ; switch( extension_type ) { case EXT_TRIM: return trim info ( ) ; case EXT_DYNAMIC_RANGE : return dynamic_range_info ( ) ,-case EXT_SAC_DATA : return sac extensión data (entecase EXT_SBR_DATA : return Nota 1 case EXT_SBR_DATA_CRC : return Nota 1 case EXT_FILL_DATA: fill_nibble; /* must be '0000' 4 uimsbf for (i=0; i<cnt-l; i++) { fill_byte [i] ; /* must be 8 uimsbf \ 1 return cnt; case EXT_DATA_ELE EÑT : data element versión; 4 uimsbf switch( data_element versión ) { case A C_DATA: loopCounter = 0; dataElementLength = 0 ; do { dataElementLengthPar ; 8 uimsbf dataElementLength += loopCounter++ ; } while (dataElementLengthPart for (i=0; icdataElementLength; data_element_byte [i] ; uimsbf } return default : align = 0; } case EXT_FIL: default: for (i=0; i<8* (cnt-1) +align; i+ other_bits [i] ; uimsbf } , return cnt; } } Nota 1: id_aac es el id_syn_ele del elemento AAC correspondiente (ID_SCE o ID_CPE) o ID_SCE en caso de CCE .

La siguiente tabla ilustra una sintaxis propuesta de una estructura de datos trim_info ( ) que puede emplearse para implementar las enseñanzas aquí descritas .

Sintaxis ¦No . de Nemobits técnica trim_info ( ) { custom resolution_present; 1 uimsbf trim resolution = if (custom_resolution_present == 1 custom resolution; 19 uimsbf trim_resolution = / trim_from_beginning; 12 uimsbf trim from end; 12 uimsbf } Con las siguientes definiciones respecto a Recorte Post-Descodificador : custom_resolution_present Colocar bandera que indica si está presente la custom_resolution . custom_resolution Una resolución a la medida en Hz que se emplea para la operación de recorte. Se recomienda establecer una resolución a la medida cuando es posible procesamiento de múltiples velocidades de la señal de audio y la operación de recorte requiere ser realizada con la más alta resolución adecuada. trim_resolution El intervalo predefinido es la frecuencia de muestreado nominal como se indica en la Tabla 1.16 de ISO/IEC 14496-3:2009 por samplingFrequency o samplingFrequencyldx. Si se ajusta la bandera custom_resolution_present entonces la resolución para la herramienta de recorte post-descodificador es el valor de custom_resolution. trim_from_beginning (NB) Número de muestras PCM para retirar del inicio de la Unidad de Composición. El valor solo es válido para una señal de audio con la velocidad de trim_resolution. Si trim_resolution no es igual a la frecuencia de muestreado de la señal de alimentación de dominio-tiempo, el valor debe ajustarse en escala en forma apropiada de acuerdo con la siguiente ecuación: NB = piso ( NB " sampling_frequency / trim_resolution) trim_from_end (NE) Número de muestras PCM a retirar del fin de la Unidad de Composición. Si trim_resolution no es igual a la frecuencia de muestreado de la señal de alimentación de dominio de tiempo, el valor debe ajustarse en escala apropiadamente de acuerdo con la siguiente ecuación: NE = piso (NE ' sampling_frequency / trim_resolution) Otro algoritmo para mezclado de transmisión posible puede tomar en cuenta empalme sin uniones (sin la posibilidad de discontinuidades de la señal) . Este aspecto también es válido para datos PCM sin comprimir y es ortogonal a las enseñanzas aquí descritas.

En lugar de una resolución a la medida, también puede ser apropiado un porcentaje. En forma alterna, la más alta velocidad de muestreado puede emplearse pero esto puede entrar en conflicto con procesamiento de velocidad dual y descodificadores que soportan recorte pero no procesamiento de velocidad dual, por lo tanto se prefiere una solución independiente de implementación de descodificador y parece sensible una resolución de recorte a la medida.

Respecto al proceso de descodificación, se aplica recorte post-Descodificador después de que todos los datos de una Unidad de Acceso se procesan (es decir, después que se han aplicado extensiones como DRC, SBR, PS, etc.) . El recorte no se realiza en la capa de Sistemas MPEG-4; sin embargo, sellos fechadores y valores de duración de una Unidad de Acceso deberán corresponder a la consideración de aplicar recorte.

El recorte se aplica para la Unidad de Acceso que transporta la información sólo si no se ha introducido retardo extra debido a extensiones opcionales (por ejemplo SBR) . Si estas extensiones están en sitio y se utilizan dentro del descodificador, entonces la aplicación de la operación de recorte se retrasa por el retardo de extensiones opcional. Por lo tanto, la información de recorte requiere ser almacenada dentro del descodificador y deben proporcionarse adicionales Unidades de Acceso por la capa de Sistemas .

Si el descodificador puede operar a más de una velocidad, se recomienda utilizar una resolución a la medida para la operación de recorte con la más alta velocidad.

El recorte puede llevar a discontinuidades de la señal, lo que puede provocar distorsión de señal. Por lo tanto, información de recorte solo deberá insertarse en la transmisión de bits al inicio o al fin de toda la codificación. Si se empalman en conjunto dos transmisiones, estas discontinuidades no pueden evitarse excepto por un codificador que establece cuidadosamente los valores de trim_from_end y trim_from_beginning de manera tal que las dos señales de dominio de tiempo de salida ajustan en conjunto sin discontinuidades.

Recortar Unidades de Acceso puede llevar a requerimientos de computación inesperados. Muchas implementaciones toman en cuenta tiempo de procesamiento constante para Unidades de Acceso con duración constante, que no es más válido si la duración cambia debido a recorte pero los requerimientos de cómputo para una Unidad de Acceso permanecen. Por tanto, los descodificadores con recursos de computación restringidos deberán ser considerados y por lo tanto el recorte deberá ser utilizado raramente, de preferencia al codificar datos en una forma que se alinean con las fronteras de Unidad de Acceso y solo recorte al fin de una codificación se utiliza, como se describe en [ISO/IEC 14496-24:2007 Anexo B.2] .

Las enseñanzas aquí descritas también se refieren a la norma industrial ISO/IEC 14496-24:2007. De acuerdo con las enseñanzas aquí descritas, lo siguiente se propone respecto a una interfase de descodificador de audio para Acceso preciso de muestra: Un descodificador de audio siempre ° creará una Unidad de Composición (CU) de una Unidad de Acceso (AU) . La cantidad requerida de antes de video (pre-roll) y después de video (post-roll) de AUs es constante para un ajuste serial de AUs por un codificador.

Cuando empieza la operación de descodificación, el descodificador se inicializa con un AudioSpecificConfig (ASC) . Después de que el descodificador ha procesado esta estructura, los parámetros más relevantes pueden solicitarse del descodificador . Además, la capa de Sistemas transporta parámetros que en general son independientes del tipo de transmisión, sean audio o vidéo u otros datos. Esto incluye información de sincronización, datos antes de video y después de video. En general, el descodificador requiere rpre AUs antes de video antes de la AU, que contiene la muestra solicitada. Además, se requieren rpost después de video, esto depende sin embargo del modo de descodificación (descodificación de una extensión puede requerir AUs después de video mientras que la operación de descodificación básica se define que no requiere una AU después de video) .

Cada AU deberá marcarse por el descodificador si es una AU antes de video o después de video, para permitir que el descodificador cree la información de estado interno requerida para subsecuente descodificación o para descargar datos restantes dentro del descodificador, respectivamente.

La comunicación entre la capa de sistemas y el descodificador de audio se ilustra en la Figura 2.

El descodificador de audio se inicializa por la capa de Sistemas con una estructura AudioSpecificConfig ( ) , que resulta en una configuración de salida del descodificador a la capa de Sistemas, que contiene información en la frecuencia de muestra, la configuración de canal (por ejemplo 2 para estéreo) , el tamaño de cuadro n (por ejemplo 1024 en el caso de AAC LC) y un retardo extra d para extensiones de codee explícitámente señaladas, tales como SBR. En particular, la Figura 2 muestra las siguientes acciones: 1. Las primeras Unidades de Acceso antes de video rpre se proporcionan al descodificador y descartan silenciosamente después de descodificación por la Capa de Sistemas . 2. La primera Unidad de Acceso no-antes de video contiene información trim_from_beginning en una carga útil de extensión del tipo EXT_TRIM de manera tal que el descodificador solo envía salida a muestras PCM. Además, las muestras extra d PCM, generadas por una extensión de codee opcional, deben ser borradas.

Dependiendo de la implementación, esto puede suceder al retrasar todas las otras transmisiones paralelas por d o al marcar las primeras muestras d como no válidas y tomar acción apropiada tal como borrado de las muestras no válidas al tiempo de procesamiento o reproducción, o de preferencia dentro del descodificador .

Si el borrado de las d muestras sucede dentro del descodificador, como se recomienda, entonces la capa de sistemas requiere estar al tanto que la primera Unidad de Composición que contiene a muestras solo puede proporcionarse por ' el descodificador después de consumo de rpost Unidades de Acceso, como se establece en la 6a etapa. 3. Entonces todas las Unidades de Acceso con la duración constante n se descodifican y las Unidades de Composición se proporcionan a la capa de Sistemas. 4. La Unidad de Acceso antes de las Unidades de Acceso después de video puede contener información opcional de trim_from_end, de manera tal que el descodificador solo genera b muestras PCM. 5. Se proporcionan las últimas Unidades de Acceso rpost después de video al descodificador de audio de manera tal que las faltantes muestras d PCM pueden generarse .

Dependiendo del valor d (que puede ser cero) esto puede resultar en Unidades de Composición sin ningunas muestras. Se recomienda proporcionar todas las Unidades de Acceso después de video al descodificador, de manera tal que puede por completo des-inicializar, independientemente del valor del retardo extra d.

Codificadores deberán tener comportamiento de sincronización consistente. Un codificador deberá alinear las señales de alimentación de manera tal que después de descodificar las AUs rpre antes de video la señal de alimentación original resultará, sin pérdida inicial y sin las muestras de encabezado. En especial para operaciones de codificador basadas en archivo esto requerirá que las muestras de consulta anticipada adicional del codificador y adicionalmente muestras de silencio insertado son un múltiplo entero del tamaño de cuadro de audio y de esta manera pueden descartarse en la salida del codificador.

En escenarios en donde este alineamiento no es posible, por ejemplo codificación en tiempo real de audio, el codificador deberá insertar información de recorte de manera tal que el descodificador se habilita para borrar muestras de consulta anticipada accidentalmente insertadas con la herramienta de recorte post-descodificador . Similarmente, codificadores deberán insertar información de recorte post-descodificador para las muestras subsecuentes. Estas deberán ser señalizadas en la Unidad de Acceso que precede a las ultimas AUs rpost después de video.

La información de sincronización ajustada en el codificador deberá ajustarse considerando que está disponible la herramienta de recorte posterior a descodificador .

La Figura 3 muestra un diagrama de flujo esquemático de un método para proporcionar .información en la validez de datos de audio codificados de acuerdo con una primera modalidad posible. El método comprende una acción 302 de acuerdo a la cual se proporciona información que describe la cantidad de datos al inicio de una unidad de datos de audio que no son válidos. La información proporcionada puede entonces insertarse en o combinarse con la unidad de datos de audio codificada y que está involucrada. La cantidad de datos puede ser expresada como un número de muestras (por ejemplo, muestras PCM) , microsegundos , milisegundos o un por ciento de una longitud de una sección de señal de audio que se proporciona por la unidad de datos de audio codificados.

La Figura 4 muestra un diagrama de flujo esquemático de un método para proporcionar información de la validez de los datos de audio codificados, de acuerdo con una segunda modalidad posible de las enseñanzas descritas aquí. El método comprende una acción 402, de acuerdo a la cual se proporciona información que describe la cantidad de datos al final de una unidad de datos de audio que no son válidos.

La Figura 5 muestra un diagrama de flujo esquemático de un método para proporcionar información de la validez de datos de audio codificados de acuerdo con una tercera modalidad posible de las enseñanzas descritas aquí. El método comprende una acción 502 de acuerdo a la cual se proporciona información que describe tanto la cantidad de datos al inicio como al fin de una unidad de datos de audio que no son válidos.

En las modalidades ilustradas en las Figuras 3 a 5, la información que describe la cantidad de datos dentro de la unidad de datos de audio que no son válidos, puede obtenerse de un proceso de codificación que genera los datos de audio codificados. Durante la codificación de datos de audio, un algoritmo de codificación puede considerar un intervalo de alimentación de muestras de audio que se extiende sobre una frontera (inicio o fin) de una señal de audio a codificar. Típicos procesos de codificación obtienen una pluralidad de muestras de audio en "bloques" o "cuadros" de manera tal que un bloque o cuadro que no se llena por completo con muestras de audio actuales puede llenarse con muestras de audio "de relleno o falsas" que típicamente tienen un amplitud cero. Para el algoritmo de codificación, esto ofrece la ventaja de que los datos de alimentación siempre se realizan de la misma manera, de manera tal que el procesamiento de datos dentro del algoritmo no tiene que ser modificado dependiendo de los datos de audio procesados que contienen una frontera (inicio o fin) . En otras palabras, los datos alimentados se acondicionan, respecto a organización y dimensión de datos, a los requerimientos del algoritmo de codificación. Típicamente, el acondicionamiento de los datos de alimentación lleva inherentemente una estructura correspondiente de los datos de salida, es decir los datos de salida reflejan el acondicionamiento de los datos de entrada. Por lo tanto, los datos de salida difieren de los datos de alimentación original (antes del acondicionamiento) . Esta diferencia típicamente es inaudible debido a que solo muestras que tienen una amplitud cero se han agregado a los datos de audio originales. Sin embargo, el acondicionamiento puede modificar la duración de los datos de audio originales, típicamente alargando los datos de audio originales por segmentos silenciosos.

La Figura 6 muestra un diagrama de flujo esquemático de un método para recibir datos codificados incluyendo la información de la validez de datos de acuerdo con una modalidad de las enseñanzas aquí descritas. El método comprende una acción 602 de recibir los datos codificados. Los datos codificados contienen información que describe la cantidad de datos que no son válidos. Al menos tres casos pueden distinguirse: la información puede describir la cantidad de datos al inicio de una unidad de datos de audio que no son válidos, la cantidad de datos al final de una unidad de datos de audio que no son válidos, y la cantidad de datos al inicio y fin de una unidad de datos de audio que no son válidos .

En una acción 604 del método para recibir datos codificados, datos de salida descodificados se proporcionan que solo contienen las muestras no marcadas como no válidas. Un consumidor de los datos de salida descodificados corriente abajo de un elemento que ejecuta el método para recibir datos codificados, puede emplear los datos de salida descodificados proporcionados, sin tener que tratar con el aspecto de la validez de porciones de los datos de salida, tales como muestras sencillas.

La Figura 7 muestra un diagrama de flujo esquemático del método para recibir datos codificados de acuerdo con otra modalidad de las enseñanzas aquí descritas. Los datos codificados se reciben en una acción 702. En una acción 704, datos de salida descodificados que contienen todas las muestras de audio de una unidad de datos de audio codificados se proporcionan, por ejemplo a una aplicación corriente abajo que consume los datos de salida descodificados. Además, se proporciona información mediante una acción 706, que parte de los datos de salida descodificados es válida. La aplicación que consume los datos de salida descodificados puede entonces desprender datos no válidos y concatenar segmentos sucesivos de datos válidos, por ejemplo. De esta manera, los datos de salida descodificados pueden ser procesados por la aplicación para no contener silencios artificiales.

La Figura 8 muestra un diagrama de entrada/salida de un codificador 800 de acuerdo con una modalidad de las enseñanzas aquí descritas. El codificador 800 recibe datos de audio, por ejemplo una transmisión de muestras PCM. Los datos de audio entonces se codifican utilizando un algoritmo de codificación sin pérdida o un algoritmo de codificación con pérdida. Durante ejecución, el algoritmo de codificación puede tener que modificar los datos de audio que se proporcionan en una entrada del codificador 800. Una razón para esta modificación puede ser el hacer el ajuste de datos de audio originales a los requerimientos del algoritmo de codificación. Como se mencionó anteriormente, una modificación típica de los datos de audio originales es la inserción de muestras de audio extra de manera tal que los datos de audio originales ajustan en un número entero de cuadros o bloques y/o de manera tal que el algoritmo de codificación se inicializa adecuadamente antes que se procese la primera muestra de audio real . Información respecto a la modificación realizada puede ser obtenida a partir del algoritmo de codificación o una entidad del codificador 800 que realiza el acondicionamiento de los datos de audio de alimentación. De esta información de modificación, una información puede derivarse que describe la cantidad de información al inicio y/o al fin de una unidad de datos de audio que no son válidos. El codificador 800 puede por ejemplo comprender un contador para contar muestras marcadas como no válidas por el algoritmo de codificación o la entidad de acondicionamiento de datos de audio de entrada. La información que describe la cantidad de información al inicio y/o fin de la unidad de datos de audio, que no es válida se proporcionan en una salida del codificador 800 junto con los datos de audio codificados.

La Figura 9 muestra un diagrama de entrada/salida esquemático de un codificador 900 de acuerdo con otra modalidad de las enseñanzas aquí descritas. En comparación con el codificador 800 mostrado en la Figura 8, la salida del codificador 900 mostrada en la Figura 9 sigue un formato diferente. Los datos de audio codificados que se envían de salida por el codificador 900 se formatean como una transmisión o serie de unidades de datos de audio codificados 922. Junto con cada unidad de datos de audio codificados 922, una información de validez 924 está contenida en la transmisión. Una unidad de datos de audio codificados 922 y su información de validez correspondiente 924 puede considerarse como una unidad de datos de audio codificados mejorada 920. Utilizando la información de validez 924, un receptor de la transmisión de unidades de datos de audio mejorada 920 puede descodificar las unidades de datos de audio codificados 922 y utilizar solo aquellas partes que están marcadas como datos válidos. Hay que notar que la expresión "unidad de datos de audio codificados mejorada" no necesariamente implica que su formato es diferente de unidades de datos de audio codificados no mejorados. Por ejemplo, la información de validez puede almacenarse en un campo de datos actualmente no usado de una unidad de datos de audio codificada.

La Figura 10 muestra un diagrama de bloques esquemático de un descodificador 1000 de acuerdo con una modalidad de las enseñanzas aquí descritas. El descodificador 1000 recibe datos codificados en una entrada 1002 que envía unidades de datos de audio codificados a una porción de descodificación 1004. Los datos codificados comprenden información de la validez de datos, como se describe anteriormente respecto a la descripción del método para proporcionar información de la validez de datos de audio codificados o el codificador correspondiente. La alimentación 1002 del descodificador 1000 puede configurarse para recibir información de la validez de datos. Esta característica es opcional como se indica por la flecha punteada que lleva a la entrada 1002. Además, la entrada 1002 puede ser configurada para proporcionar la información de la validez de datos a la porción de descodificación 1004. De nuevo, esta característica es opcional. La entrada 1002 puede simplemente enviar la información en la validez de datos a la porción de descodificación 1004, o la entrada 1002 puede extraer la información en la validez de datos desde los datos codificados en donde está contenida la información en la validez de datos. Como una alternativa a la alimentación 1002 que maneja la información en la validez de datos, la porción de descodificación 1004 puede extraer esta información y utilizarla para filtrar datos no válidos. La porción de descodificación 1004 se conecta a una salida 1006 del descodificador 1000. Muestras de audio descodificadas válidas se transmiten o envían por la porción de descodificación 1004 a la salida 1006 que proporciona muestras¦ de audio válidas a una entidad consumidora corriente abajo de las muestras de audio válidas, tal como un procesador o reproductor, de audio. El procesamiento de la información de la validez de datos es transparente a la entidad que consume corriente abajo. Al menos una de la porción de descodificación 1004 y la salida 1006 puede configurarse para disponer las muestras de audio descodificadas válidas de manera tal que no ocurre espacio, incluso si se han retirado muestras de audio no válidas de una transmisión de muestras de audio a presentarse en la entidad que consume corriente abajo.

La Figura 11 muestra un diagrama de bloques esquemático de un descodificador 1100 de acuerdo con otra modalidad de las enseñanzas aquí descritas. El descodificador 1100 comprende una entrada o alimentación 1102, la porción de descodificación 1104 y una salida 1106. La entrada 1102 recibe datos codificados y proporciona unidades de datos de audio codificados a la porción de descodificación 1104. Como se explicó anteriormente en conexión con el descodificador 1000 mostrado en la Figura 10, la alimentación 1102 puede, como una opción, recibir información de validez separada que puede entonces enviarse a la porción de descodificación 1104. La porción de descodificación 1104 convierte las unidades de datos de audio codificados en muestras de audio descodificadas y las envía a la salida 1106. Además, la porción de descodificación también envía la información de la validez de datos a la salida 1106. En caso que la información de la validez de datos no sea proporcionada por la alimentación 1102 a la porción de descodificación 1104, la porción de descodificación 1104 puede determinar la información de la validez de los propios datos. La salida 1106 proporciona las muestras de audio descodificadas y la información de la validez de los datos a una entidad de consumo corriente abajo.

La entidad de consumo corriente abajo puede entonces explotar la información de la validez de los propios datos. Las muestras de audio descodificadas generadas por la porción de descodificación 1104 y proporcionadas por la salida 1106 contienen en general todas las muestras de audio descodificadas, es decir, muestras de audio válidas y muestras de audio no válidas.

El método para proporcionar la información de la validez de datos de audio codificados, puede utilizar diversas piezas de información para determinar la cantidad de datos de una unidad de datos de audio que no son válidos. También, el codificador puede utilizar estas piezas de información. Las siguientes secciones describen una cantidad de piezas de información que pueden emplearse para este objetivo: cantidad de datos antes de video, cantidad de datos artificiales extra agregados por el codificador, longitud de los datos de alimentación no comprimidos originales, y cantidad de después de video.

Una pieza de información importante es la cantidad de datos antes de video, que es la cantidad de datos comprimidos que deben ser descodificados antes que la unidad de datos comprimidos correspondiente al inicio de datos no comprimidos original. De manera ejemplar, una codificación y descodificación de un conjunto de unidades de datos no comprimidos se explica. Dado un tamaño de cuadro de 1024 muestras y la cantidad de 1024 muestras antes de video también, un conjunto de datos de audio PCM sin comprimir original que consiste de 2000 muestras será codificado como tres unidades de datos codificados. La primera unidad de datos codificados será la unidad de datos antes de video con una duración de 1024 muestras. La segunda unidad de datos codificados resultará en las originales 1024 muestras de la señal fuente (sin dar otros artefactos de codificación) . La tercera unidad de datos codificados resultará en 1024 muestras, que consisten de las restantes 976 muestras de la señal fuente y 48 muestras siguientes traseras introducidas por la granularidad de cuadro. Debido a las propiedades de los métodos de codificación, tales como transformada coseno discreta modificada . (MDCT = Modified Discrete Cosine Transform) o un filtro espejo de cuadratura (QMF = Quadrature Mirror Filter) involucrado, no puede evitarse antes de video y es esencial para el descodificador que reconstruye toda la señal original. Por lo tanto, para el ejemplo anterior siempre se requiere una unidad de datos comprimida más que lo esperado por un no experto. La cantidad de datos antes de video es dependiente de codificación y fija para un modo de codificación y constante con el tiempo. Por lo tanto, se requiere también para accesar en forma aleatoria unidades de datos comprimidos . Antes de video también se requiere para obtener los datos de salida no comprimidos descodificados correspondientes a los datos de alimentación no comprimidos.

Otra pieza de información es la cantidad de datos artificiales extra agregados por el codificador. Estos datos extras típicamente resultan de una vista previa de muestras futuras dentro del codificador, de manera tal que puedan realizarse decisiones más inteligentes de codificación, como conmutar de bancos de filtro cortos a bancos de filtro largos. Solo el codificador conoce este valor de consulta anticipada y es diferente entre implementaciones de codificador de un distribuidor específico para el mismo modo de codificación, aunque constante con el tiempo. La longitud de estos datos extra es difícil de detectar por un descodificador y a menudo se aplican heurísticas, por ejemplo la cantidad de silencio al inicio se considera extra retardo de codificador o un valor mágico si un cierto codificador se detecta por algunas otras heurísticas.

La siguiente pieza de información solo disponible al codificador es la longitud de los datos de alimentación no comprimidos originales. En el ejemplo anterior, 48 muestras posteriores son creadas por el descodificador que no han estado presentes en los datos no comprimidos de entrada originales. La razón es la granularidad de cuadro, que se fija a un valor dependiente de codee. Un valor típico es 1024 o 960 para MPEG-4 AAC, por lo tanto el codificador siempre rellena los datos originales para ajustar en la rejilla de tamaño de cuadro. Soluciones existentes típicamente agregan meta datos al nivel de sistema que contienen la suma de todas las muestras extra de encabezado, resultando de datos antes de video y extra artificiales, y la longitud de los datos de audio fuente. Este método sin embargo funciona para operaciones basadas en archivo solamente, en donde se conoce la duración antes de codificar. También tiene cierta fragilidad cuando se hacen ediciones al archivo; entonces también los meta datos requieren ser actualizados. Un enfoque alterno es el uso de sellos fechadores o duraciones a nivel de sistema. Utilizar esto desafortunadamente no define claramente que mitad de los datos es válida. Además el recorte puede típicamente no ser realizado a nivel de sistema .

Finalmente, otra pieza de información se vuelve cada vez más importante, que es la cantidad de información después de video. Después de video define que tantos datos deben darse a un descodificador después de la unidad de datos codificados, de manera tal que el descodificador puede proporcionar los datos no comprimidos correspondientes a los datos originales no comprimidos. En general, después de video puede intercambiarse con antes de video y viceversa. Sin embargo, la suma de después de video y antes de video no es constante para todos los modos de descodificador. Actuales especificaciones tales como [ISO/IEC 14496-24:2007] consideran un antes de video fijo para todos los modos de descodificador e ignora mencionar después de video a favor de definir retardo adicional que tiene un valor equivalente a después de video. Aunque se ilustra en la Figura 4 de [ISO/IEC 14496-24:2007], no se menciona que la última unidad de datos codificados (una Unidad de Acceso, AU, en la terminología MPEG) es opcional y actualmente es una AU después de video que solo se requiere para procesamiento de velocidad dual de un descodificador con una baja velocidad y una extensión con velocidad duplicada. Es una modalidad de la invención también definir un método para eliminar datos no válidos en la presencia de después de video.

La información anterior por ejemplo se emplea parcialmente' en [ISO/IEC 14496-24:2007] para MPEG-4 AAC en el Formato de Archivo MP4 [ISO/IEC 14496-14] . Ahí, se utiliza una así denominada lista de edición para marcar la porción válida de los datos codificados al definir un desplazamiento y un periodo de validez para los datos codificados en una así denominada edición. También, la cantidad de antes de video puede definirse en una granularidad de cuadro. Una desventaja de esta solución es el uso de la lista de edición para superar problemas específicos de codificación de audio. Este conflicto con el uso previo de listas de edición para definir edición no lineal genérica sin modificación de datos. Por lo tanto, se vuelve difícil o incluso imposible distinguir entre las ediciones específicas de audio y ediciones genéricas.

Otra solución potencial es el método para recuperar longitud de archivo original en mp3 y mp3Pro. Ahí, el retardo codee y la duración total del archivo se proporcionan en la primera unidad de datos de audio codificada. Esto desafortunadamente tiene la cuestión de que solo funciona para operaciones basadas en archivo o transmisiones con toda la longitud ya conocida cuando el codificador crea la primera unidad de datos de audio codificados, ya que la información ahí está contenida.

Para superar las desventajas de existentes soluciones, modalidades de la invención proporcionan información en la validez de los datos a la salida del codificador dentro de los datos de audio codificados. Las piezas de información se conectan a las unidades de datos de audio codificados que son afectadas. Por lo tanto, datos extras artificiales al inicio se marcan como datos no válidos y datos posteriores empleados para llenar un cuadro, también se marcan como datos no válidos que deben ser recortados. La marca, de acuerdo con las modalidades de la invención, permite la distinción de datos válidos contra no válidos dentro de una unidad de datos codificados, de manera tal que un descodificador puede borrar los datos no válidos antes de que proporcione datos a la salida o puede en forma alterna marcar los datos, por ejemplo en una forma similar a la representación dentro de la unidad de datos codificados, de manera tal que acciones apropiadas pueden suceder en otros elementos de procesamiento. Los otros datos relevantes, que son antes de video y después de video, se definen dentro del sistema y comprenden tanto por el codificador como el descodificador, de manera tal que para un modo de descodificador dado, los valores se conocen.

Por lo tanto, un aspecto de las enseñanzas descritas propone la separación de datos variantes con el tiempo y datos invariantes con el tiempo. Los datos variantes con el tiempo consisten de la información en datos extras artificiales que solo está presente al inicio y los datos siguientes empleados para llenar un cuadro. Los datos invariantes en tiempo consisten de datos antes de video y después . de video y no requieren de esta manera ser transmitidos en unidades de datos de audio codificados sino que deberán ser transmitidos por el contrario fuera-de-banda o se conocen con anticipación por el modo de descodificación, que puede derivarse del registro de configuración del descodificador para un esquema de codificación de audio dado.

Además se recomienda ajustar los sellos fechadores de datos de audio codificados de acuerdo con la información que una unidad de datos de audio codificada representa. Por lo tanto, una muestra de audio no comprimida original con sello fechador t se considera que se recupera por la operación de descodificación de la unidad de datos de audio codificados con sello fechador t. Esto no incluye unidades de datos antes de video y después de video, que se requieren además. Por ejemplo, una señal de audio original determinada con 1500 muestras y un sello fechador inicial con valor 1, se codificarán como tres unidades de datos de audio codificados de tamaño de cuadro 1024, antes de video 1024 y retardo artificial extra de 200 muestras. La primera unidad de datos de audio codificados tiene un sello fechador de 1-1024 = -1023 y solamente se emplea para antes de video. La segunda unidad de datos de audio codificados ' tiene un sello fechador de 1 e incluye información dentro de la unidad de datos de audio codificados para recortar las primeras 200 muestras. Aunque el resultado de descodificación normalmente consistirá de 1024 muestras, las primeras 200 muestras se retiran de la salida y solo 824 muestras permanecen. La tercera unidad de datos de audio codificada tiene un sello fechador de 825 y también contiene información dentro de la unidad de datos de audio codificados para recortar las muestras de salida de audio resultantes con longitud 1024 a las restantes 676 muestras. Por lo tanto, información que las últimas 1024-676=348 muestras no son válidas se almacena dentro de las unidades de datos de audio codificados.

En la presencia de por ejemplo 1000 muestras después de video debido a un modo descodificador diferente, la salida del codificador cambiará a cuatro unidades de datos de audio codificados. Las tres primeras unidades de datos de audio codificados permanecen constantes pero otros datos de audio codificados se agregan. Cuando se descodifican, la operación para la primera Unidad de Acceso antes de video permanece como en el ejemplo anterior. La descodificación para la segunda Unidad de Acceso sin embargo, debe tomar en cuanta el retardo extra para el modo descodificador alterno. Se presentan tres soluciones básicas dentro de este documento para manejar en forma correcta el retardo de descodificador extra . 1. el retardo de descodificador se transmite desde el descodificador al sistema, que retrasa entonces todas otras transmisiones paralelas para conservar sincronización de audio-video. 2. el retardo de descodificador se transmite desde el descodificador al sistema, que entonces puede retirar las muestras no válidas en un elemento de procesamiento de audio, por ejemplo el elemento de procesamiento o reproducción. 3. el retardo de descodificador se retira dentro del descodificador . Esto resulta en una unidad de datos descomprimida con cualquiera de un tamaño más pequeño inicialmente, debido a la eliminación del retardo extra o un retardo de la salida de datos hasta que el número señalado de unidades de datos codificados después de video se proporciona al descodificador . Este último método se recomienda y se asume para el resto del documento.

Ya sea el descodificador o la capa de sistema incrustada descartará toda la salida que se proporciona por el descodificador para cualesquiera unidades de datos codificadas antes de video y/o después de video. Para las unidades de datos de audio codificados con extra información de recorte incluida, ya sea el descodificador o la capa de incrustación, guiados por el descodificador de audio con información adicional, puede retirar muestras. Tres soluciones básicas existen para manejar «correctamente el recorte : 1. la información de recorte se transmite desde el descodificador al sistema, que para el recorte inicial retrasa todas las otras transmisiones paralelas para conservar sincronización de audio-video. El recorte al final no se aplica. 2. la información de recorte se transmite desde el descodificador al sistema junto con las unidades de datos descomprimidas, que pueden entonces aplicarse para retirar las muestras no válidas en un elemento de procesamiento de audio, por ejemplo el elemento de reproducción. 3. la información de recorte se aplica dentro del descodificador y muestras no válidas se retiran desde el inicio o fin de una unidad de datos descomprimidos antes de que se proporcione al sistema. Esto resulta en unidades de datos descomprimidos con una más corta duración que la duración de cuadro común. Se recomienda que un sistema asuma un descodificador que aplican el recorte y los sellos fechadores y la duración dentro del sistema por lo tanto deberá reflejar el recorte que se va a aplicar.

Para operaciones de descodificación de múltiples velocidades, la resolución de la operación de recorte deberá relacionarse con la frecuencia de muestreado original, que típicamente se codifica como el componente de más alta velocidad. Varias resoluciones para la operación de recorte son imaginables, por ejemplo una resolución fija en microsegundos, la frecuencia de muestreado de más baja velocidad o la frecuencia de muestreado de más alta velocidad. Para igualar la frecuencia de muestreado original, es una modalidad de la invención el proporcionar la resolución de la operación de recorte junto con los valores de recorte como una resolución a la medida. Por lo tanto, el formato de la información de recorte puede ser representado como una sintaxis como lo siguiente: typedef struc trim { unsigned int resolution; unsigned short remove_from_begin ; unsigned short remove from end; Hay que notar que la presente sintaxis es solo un ejemplo de cómo puede estar contenida la información de recorte dentro de una unidad de datos de audio codificada. Otras variantes modificadas se cubren por la invención, asumiendo que permiten la distinción entre muestras válidas no válidas.

Aunque algunos aspectos de la invención se describieron en el contexto de un aparato, se nota que estos aspectos también representan una descripción del método correspondiente, es decir, un bloque o dispositivo corresponde a una etapa de método o una característica de una etapa de método. En forma análoga, aspectos descritos en el contexto de una etapa de método también representan una descripción de un bloque o ítem o característica correspondientes de un aparato correspondiente.

Los datos codificados de acuerdo con la invención pueden ser almacenados en un medio de almacenamiento digital o pueden transmitirse en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión cableado tal como Internet.

Dependiendo de ciertos requerimientos de implementación, modalidades de la invención pueden ser implementadas en equipo físico o en soporte lógico. La implementación puede realizarse utilizando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, un ROM, un PROM, un EPROM, un EEPROM o una memoria FLASH, que tienen señales de control legibles electrónicamente ahí almacenados, que cooperan (o son capaces de cooperar) con un sistema de computadora programable tal que se realice el método respectivo. Otras modalidades de la invención comprenden un portador de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema de computadora programable, tal que uno de los métodos aquí descritos se realice.

Además, modalidades de la invención pueden' ser implementadas como un producto de programa de computadora con un código de programa, el código de programa es operativo para realizar uno de los métodos cuando el producto de programa de computadora se ejecuta en una computadora. El código de programa puede ser por ejemplo almacenado en un portador legible por máquina. Otras modalidades comprenden el programa de computadora para realizar uno de los métodos aquí descritos, almacenados en un portador legible por máquina .

Una modalidad adicional de la invención es una transmisión de datos o una secuencia de señales que representa al programa de computadora para realizar uno de los métodos aquí descritos. La transmisión de datos o la secuencia de señales pueden por ejemplo ser configuradas para transferirse mediante una conexión de comunicación de datos, por ejemplo por Internet.

Todavía una modalidad adicional comprende medios de procesamiento, por ejemplo una computadora, o un dispositivo lógico programable, configurado para o adaptado para desempeñar uno de los métodos aquí descritos .

Claims

REIVINDICACIONES

1. Un método para proporcionar información respecto a la validez de datos de audio codificados, los datos de audio son una serie de unidades de datos de audio codificados, en donde cada unidad de datos de audio codificados puede contener información de los datos de audio válidos, el método se caracteriza porque comprende: proporcionar ya sea información a un nivel de datos de audio codificados que describe la cantidad de datos al inicio de una unidad de datos de audio que no son válidos, o proporcionar información en un nivel de datos de audio codificados que describen - la cantidad de datos al final de una unidad de datos de audio que no son válidos, o proporcionar información al nivel de datos de audio codificados que describe tanto la cantidad de datos al inicio como el fin de una unidad de datos de audio que no son válidos .

2. El método de conformidad con la reivindicación 1, caracterizado porque la información respecto a la validez de datos de audio codificados se coloca en una porción de una unidad de datos de audio codificados que es opcional y que puede ser ignorada.

3. El método de conformidad con la reivindicación 1, caracterizado porque información de la validez de datos de audio codificados se enlaza a las unidades de datos de audio codificados que se afectan.

4. El método de conformidad con la reivindicación 1, caracterizado porque los datos de audio válidos se originan de una aplicación basada en transmisión de tiempo real o una aplicación en vivo.

5. El método de conformidad con la reivindicación 1, caracterizado porque además comprende: determinar al menos uno de una cantidad de datos antes de video o reproducción y una cantidad de datos después de video.

6. El método de conformidad con la reivindicación 1, caracterizado porque la información respecto a la validez de datos de audio codificados comprende datos variantes en tiempo y datos invariantes en tiempo.

7. Un codificador para proporcionar información de la validez de datos: en donde el codificador se configura para aplicar el método para proporcionar información de la validez de datos de acuerdo con la reivindicación 1.

8. Un método para recibir datos codificados que incluyen información de la validez de datos y proporcionar datos de salida descodificados, el método se caracteriza porque comprende: recibir datos codificados con cualquiera de información a un nivel de datos de audio codificados que describe la cantidad de datos al inicio de una unidad de datos de audio que no son válidos, o información a un nivel de datos de audio codificados que describe la cantidad de datos al fin de una unidad de datos de audio que no son válidos, o información a un nivel de .datos de audio codificados que describe tanto la cantidad de datos al inicio como al fin de una unidad de datos de audio que no son válidos, y proporcionar datos de salida descodificados que sólo contienen las muestras no marcadas como no válidas, o contener todas las muestras de audio de la unidad de datos de audio codificados y proporcionar información a la aplicación que parte de los datos es válida.

9. El método de conformidad con la reivindicación 8, caracterizado porque además comprende: determinar al menos uno de una cantidad de antes de video y una cantidad después de video y utilizar al menos uno de unidades de datos de audio que pertenecen a las unidades de datos antes de video y audio que pertenecen a posterior a video para reconstruir la señal original .

10. El método de conformidad con la reivindicación 8, caracterizado porque además comprende: transmitir un retardo de descodificador desde un descodificador a un sistema utilizando datos de salida descodificados; y retrasar, mediante el sistema, otras transmisiones paralelas para conservar sincronización de audio-video .

11. El método de conformidad con la reivindicación 8, caracterizado porque además comprende: transmitir un retardo de descodificador de un descodificador a un sistema utilizando datos de salida descodificados; y retirar mediante el sistema muestras de audio no válidas en un elemento de procesamiento de audio.

12. El método de conformidad con la reivindicación 8, caracterizado porque además comprende: retirar un retardo de descodificador dentro de un descodificador .

13. El método de conformidad con la reivindicación 8, caracterizado porque las unidades de datos de audio codificados comprenden información de recorte extra y el método además comprende: transmitir la información de recorte desde un descodificador a un sistema/ utilizando los datos de salida descodificados; y retrasar mediante el sistema otras transmisiones paralelas.

1 . El método de conformidad con la reivindicación 8, caracterizado porque las unidades de datos de audio codificados comprenden información de recorte extra y el método además comprende: transmitir la información de recorte junto con las .unidades de datos descodificadas desde un descodificador a un sistema que utiliza los datos de salida de audio descodificados; aplicar la información, de recorte para retirar muestras no válidas en un elemento de procesamiento de audio.

15. El método de conformidad con la reivindicación 8, caracterizado porque las unidades de datos de audio codificados, comprenden información de recorte extra y el método además comprende: aplicar la información de recorte dentro de un descodificador y retirar muestras no válidas del inicio o fin de una unidad de datos descodificados, para obtener una unidad de datos descodificados recortada; y proporcionar la unidad de datos descodificados recortada a un sistema utilizando los datos de salida de audio descodificados .

16. Un descodificador para recibir datos codificados y proporcionar datos de salida descodificados, el descodificador se caracteriza porque comprende: una entrada para recibir una serie de unidades de datos de audio codificados con una . pluralidad de muestras de audio codificadas, en donde algunas unidades de datos de audio contienen informació respecto a la validez de datos, la información se formatea como se describe en el método para recibir datos de audio codificados incluyendo información de la validez de datos de acuerdo con la reivindicación 3, una porción de descodificación acoplada a la entrada y configurada para aplicar la información de la validez de datos, una salida para proporcionar muestras de audio descodificadas, en donde ya sea sólo se proporcionan las muestras de audio válidas, o cuando la información de la validez de las muestras de audio descodificadas se proporciona.

17. Programa de computadora que tiene un código de programa para realizar, cuando se ejecuta en una computadora, un método para proporcionar información de la validez de datos de audio codificados, los datos de audio codificados son una serie de unidades de datos de audio codificados, en donde cada unidad de datos de audio codificados puede contener información de la validez de datos de audio, el método se caracteriza porque comprende: proporcionar ya sea información a un nivel de datos de audio codificados que describe la cantidad de datos al inicio de una unidad de datos de audio que no son válidos, o proporcionar información a un nivel de datos de audio codificados que describe la cantidad de datos al final de una unidad de datos de audio que no son válidos, o proporcionar información a un nivel de datos de audio codificados, que describe tanto la cantidad de datos al inicio como el fin de los datos de audio que no son válidos .

18. Programa de computadora que tiene un código de programa para realizar, cuando se ejecuta en una computadora, un método para recibir datos codificados incluyendo información respecto a la validez de datos y proporcionar datos de salida descodificados: recibir datos codificados ya sea con información a un nivel de datos de audio codificados que describe la cantidad de da os al inicio de una unidad de datos de audio que no son válidos, o información a un nivel de datos de audio codificados que describe la cantidad de datos al final de una unidad de datos de audio que no son válidos, o información a un nivel de datos de audio codificados que describe tanto la cantidad de datos al inicio como el fin de una unidad de datos de audio que no son válidos, y proporcionar datos de salida descodificados que solo contienen las muestras no marcadas como no válidas, o contienen todas las muestras de audio de la unidad de datos de audio codificados y proporcionar información a la aplicación de qué parte de los datos es válida.