MXPA06012579A - Seleccion de modelos de codificacion para codificar una senal de audio. - Google Patents

Seleccion de modelos de codificacion para codificar una senal de audio.

Info

Publication number
MXPA06012579A
MXPA06012579A MXPA06012579A MXPA06012579A MXPA06012579A MX PA06012579 A MXPA06012579 A MX PA06012579A MX PA06012579 A MXPA06012579 A MX PA06012579A MX PA06012579 A MXPA06012579 A MX PA06012579A MX PA06012579 A MXPA06012579 A MX PA06012579A
Authority
MX
Mexico
Prior art keywords
coding
audio content
type
audio
coding model
Prior art date
Application number
MXPA06012579A
Other languages
English (en)
Inventor
Jari Maekinen
Original Assignee
Nokia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp filed Critical Nokia Corp
Publication of MXPA06012579A publication Critical patent/MXPA06012579A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

La presente invencion se refiere a un metodo para seleccionar un modelo de codificacion respectivo para codificar secciones consecutivas de una senal de audio, en donde estan disponibles para la seleccion por lo menos un modelo de codificacion optimizado para un primer tipo de contenido de audio y por lo menos un modelo de codificacion optimizado para un segundo tipo de contenido de audio. En general, el modelo de codificacion es seleccionado para cada seccion en base a la caracteristicas de senal que indican el tipo de contenido de audio en la seccion respectiva. Aunque para algunas secciones restantes no es viable tal seleccion. Para estas secciones, la seleccion realizada para las secciones adyacentes respectivas, es evaluada estadisticamente. Entonces, el modelo de codificacion para las secciones restantes es seleccionado en base a estas evaluaciones estadisticas.

Description

de señales vocales es la codificación de Algebraic Code-Exited Linear Prediction coding (ACELP) . ACELP diseña el sistema de producción de habla humana, el cual está muy bien adaptado para codificar la periodicidad de una señal de voz. Como resultado, se puede lograr una alta de calidad vocal con muy bajos intervalos de bits. Por ejemplo, Adaptive Multi-Rate Wideband (AMR-WB) es un codee vocal, el cual está basado en tecnología ACELP. AMR-WB ha sido descrito, por ejemplo, en la especificación técnica 3GPP TS 26.190: "Speech Codee speech processing; AMR Wideband speech codee; Transcodification fuctions", V5.1.0 (200 1-12). Sin embargo, los codees vocales, que están basados en el sistema de producción vocal humana, se realizan usualmente mal para otros tipos de señales de audio, tal como música. Una técnica ampliamente usada para la codificación de otras señales de audio que no sean vocales es la codificación de transformación (TCX) . La superioridad de la codificación de transformación para señal de audio está basada en el enmascaramiento de percepción y en la codificación de dominio de frecuencia. Además, la calidad de la señal de audio resultante puede ser mejorada por la selección de una trama de codificación de duración apropiada para la codificación de transformación. Pero mientras que las técnicas de transformación resultan en una calidad alta para las señales de audio que no sean vocales, su realización no es buena para las señales periódicas vocales. Por lo tanto, la calidad de voz codificada de transformación es usualmente bastante bajo, especialmente con duraciones largas de trama TCX. El codee AMR-WB (A R-WB+) extenso codifica una señal de audio estéreo como una señal mono de velocidad alta y proporciona alguna información paralela para una extensión estéreo. El codee AMR-WB+ utiliza tanto la codificación ACELP como los modelos TCX para codificar la señal mono núcleo en una banda de frecuencia de 0 Hz a 6400 Hz . Para el modelo TCX, se utiliza una duración de trama de codificación de 20 ms, 40 ms u 80 ms . Puesto que un modelo ACELP puede disminuir ' la calidad de audio y la codificación de transformación, realiza normalmente la voz de forma pobre, en especial cuando se usan las tramas de codificación altas, el mejor modelo de codificación respectivo tiene que seleccionarse dependiendo de las propiedades de la señal, que ha de ser codificada. La selección del modelo de codificación que ha de utilizarse realmente puede llevarse a cabo en varias formas. En sistemas que requieren técnicas de complejidad baja, tal como los servicios multimedia móviles (MMS) , se explotan usualmente algoritmos de clasificación de música/voz para seleccionar el modelo de codificación óptimo. Estos algoritmos clasifican toda la señal de la fuente, ya sea como música o como voz, en base a un análisis de la energía y propiedades de frecuencia de la señal de audio. Si una señal de audio consiste solamente de voz o solamente de música, será satisfactorio utilizar el mismo modelo de codificación para la señal completa en base a tai clasificación música/voz. Sin embargo, en muchos otros casos, la señal de audio que ha de ser codificada es un tipo mezclado de señal de audio. Por ejemplo, la voz puede estar presente al mismo tiempo que la música y/o puede estar alternando temporalmente con música en la señal de audio. En estos casos, una clasificación de todas las señales de fuente dentro de una categoría de música o una categoría de voz, es un planteamiento muy limitado. Entonces, la calidad de audio total puede ser solamente maximizada conmutando temporalmente entre los modelos de codificación cuando se codifica la señal de audio, es decir, el modelo ACELP es usado, en parte, también para codificar una señal de fuente clasificada como una señal de audio que no sea de voz, mientras que el modelo TCX es utilizado, en parte, también para una señal de fuente clasificada como una señal de voz. Desde el punto de vista del modelo de codificación, uno podría referirse a las señales como señales vocales o como señales de música. Dependiendo de las propiedades de la señal, ya sea el modelo de codificación ACELP o el modelo TCX tendría una mejor ej ecución . El codee AMR-WB (AMR- B+) extenso también es diseñado para codificar tales tipos de mezclado de señales de audio con modelos de codificación mezclados en una base de trama por trama . La selección de los modelos de codificación en A R-WB+ pueden llevarse a cabo en varias formas. En la formulación más compleja, la señal es codificada, primero, con todas las combinaciones posibles de los modelos ACELP y TCX. Luego, la señal es sintetizada nuevamente para cada combinación. La mejor excitación es seleccionada, entonces, en base a la calidad de las señales sintetizadas de voz. La calidad de voz sintetizada que resulta con una combinación específica se puede medir, por ejemplo, determinando su relación señal/ruido (SNR) . Este tipo de análisis por síntesis de aproximación proporcionará buenos resultados. Sin embargo, en algunas aplicaciones, no es práctico, debido a su muy alta complejidad. Tales aplicaciones incluyen, por ejemplo, aplicaciones móviles. La complejidad resulta mayormente de la codificación ACELP, la cual es la parte más compleja de un codificador. Por ejemplo, en sistemas tal como MMS, la aproximación total de análisis por síntesis de circuito cerrado es demasiado complejo para realizarse. Por lo tanto, en un codificador MMS, se utiliza un método de circuito abierto de baja complejidad para determinar sí un modelo de codificación ACELP o un modelo TCX es seleccionado para codificar una trama particular. AMR-WB+ ofrece dos diferentes aproximaciones de circuito abierto de baja complejidad para seleccionar el modelo de codificación respectivo para cada trama. Ambas aproximaciones de circuito' abierto evalúan las características de las señales de la fuente y los parámetros de codificación para seleccionar un modelo respectivo de codificación. En la primera aproximación de circuito abierto, una señal de audio es, primero, dividida, dentro de cada trama, en varias bandas de frecuencia, y la relación entre la energía en bandas de frecuencia más baja y la energía en bandas de frecuencia más alta es analizada, así como también las variaciones de nivel de energía en esas bandas. Entonces, el contenido de audio en cada trama de señal de audio es clasificado como un contenido de tipo musical o como un contenido de tipo voz en base a tanto mediciones realizadas o como diferentes combinaciones de estas mediciones usando diferentes ventanas de análisis y valores de umbral de decisión . En la segunda aproximación de circuito abierto, la cual también se refiere a un perfeccionamiento de clasificación de modelo, la selección del modelo de codificación se basa en una evaluación de las propiedades de periodicidad e inmovilidad del contenido de audio en una trama respectiva de la señal de audio. Las propiedades de periodicidad y de inmovilidad son evaluadas, de forma más específica, determinando la correlación, parámetros de Long Term Prediction (LTP) y mediciones espectrales de distancia. Aunque dos diferentes aproximaciones de circuito abierto pueden explotarse para seleccionar el modelo de codificación óptimo para cada trama de señal de audio, aún en varios casos, el modelo de codificación óptimo no puede ser encontrado con algoritmos de selección de modelo de códigos existentes. Por ejemplo, el valor de una característica de señal evaluada, para una determinada trama, no puede indicar claramente ni la voz ni la música. Breve Descripción de la Invención Es objetivo de la invención mejorar la selección de un modelo de codificación, el cual ha de ser usado para codificar una sección respectiva de una señal de audio. Se propone un método de selección de un modelo de codificación respectivo para codificar secciones consecutivas de una señal de audio, donde por lo menos un modelo de codificación optimizado para un primer tipo de contenido de audio y por lo menos un modelo de codificación optimizado para un segundo tipo de contenido de audio, están disponibles para la selección. El método que comprende la selección para cada sección de la señal de audio, un modelo de codificación basado en por lo menos una característica de señal que indica el tipo de contenido de audio en la sección respectiva, sí es viable.
Además, el método comprende la selección de cada sección restante de señal de audio, para lo cual no es viable una selección en base a por lo menos una característica de señal, un modelo de codificación en base a una evaluación estadística de los modelos de codificación que han sido seleccionados en base a por lo menos una característica de señal para las secciones adyacentes de la sección restante respectiva. Se entiende que no se requiere, aún sí es posible, que la primera etapa de selección sea llevada a cabo para todas las secciones de señal de audio, antes de que se realice la segunda etapa de selección para las secciones restantes de la señal de audio. Por otra parte se propone un módulo para codificar las secciones consecutivas de una señal de audio con un modelo respectivo de codificación. Por lo menos un modelo de codificación optimizado para un primer tipo de contenido de audio y por lo menos un modelo de codificación optimizado para un segundo tipo de contenido de audio, están disponibles en un codificador. El módulo comprende una primera porción de evaluación adaptada para seleccionar para una sección respectiva de señal de audio, sí es posible, un modelo de codificación basado en por lo menos una característica de señal que indica el tipo de contenido de audio en esta sección. Además, el módulo comprende una segunda porción de evaluación adaptada para evaluar estadísticamente la selección de modelos de codificación mediante la primera porción de evaluación para las secciones adyacentes de cada sección restante de una señal de audio, para lo cual la primera porción de evaluación no ha seleccionado un modelo de codificación y, para seleccionar un modelo de codificación para cada una de las secciones restantes en base a la evaluación estadística respectiva. El módulo además comprende una porción de codificación para codificar cada sección de la señal de audio con el modelo de codificación seleccionado para la sección respectiva. El módulo puede ser, por ejemplo, un codificador o parte de un codificador. Por otra parte, se propone un dispositivo electrónico que comprende un codificador con las características del módulo propuesto. Por otra parte se propone un sistema de codificación de audio que comprende un codificador con las características del módulo propuesto y además, un decodificador para decodificar secciones codificadas consecutivas de una señal de audio con un modelo de codificación utilizado para codificar la sección respectiva. Finalmente, se propone un producto de programa de software, en el cual se almacena un código de software para seleccionar un modelo de codificación respectivo para codificar las secciones consecutivas de una señal de audio. Nuevamente, por lo menos un modelo de codificación optimizado para un primer tipo de contenido de audio y por lo menos un modelo de codificación optimizado para un segundo tipo de contenido de audio, están disponibles para la selección. El código del software realiza las etapas del método propuesto cuando se ejecuta en un componente de procesamiento de un codificador . La invención procede a partir de la consideración en que el tipo de un contenido de audio en una sección de señal de audio será probablemente, en su mayor parte, similar al tipo de un contenido de audio en las secciones adyacentes de la señal de audio. Por lo tanto, se propone que en caso de qué el modelo de codificación óptimo, para una sección específica, no pueda ser seleccionado inequívocamente en base a las características de señal evaluadas, se evalúen estadísticamente los modelos de codificación seleccionados para las secciones adyacentes de la sección específica. Se nota que la evaluación estadística de estos modelos de codificación también puede ser una evaluación indirecta de los modelos de codificación seleccionados, por ejemplo, en forma de una evaluación estadística del tipo de contenido determinado para ser incluido por las secciones adyacentes . Entonces, la evaluación estadística es usada para seleccionar el modelo de codificación, el cual es muy probablemente el mejor para la sección específica. Es una ventaja de la invención permitir que se encuentre un modelo de codificación óptimo para la mayoría de la secciones de una señal de audio, aún para la mayoría de aquellas secciones, en las cuales esto no es posible con aproximaciones de circuito abierto convencionales para seleccionar el modelo de codificación. Los diferentes tipos de contenido de audio pueden comprender, en particular, aunque no exclusivamente, voz y otro contenido que no sea voz, por ejemplo, música. Este otro contenido de audio que no es voz, es referido frecuentemente también como simplemente audio. Entonces, el modelo de codificación optimizado elegible para la voz es ventajosamente un modelo de codificación de predicción lineal con excitación por código algebraico y el modelo de codificación optimizado elegible para otro contenido es ventajosamente un modelo de codificación de transformación. Las secciones de la señal de audio, las cuales son tomadas en consideración para la evaluación estadística, para una sección restante, pueden comprender solamente secciones anteriores a la sección restante, pero también igualmente secciones anteriores y siguientes a la sección restante. Además, la última aproximación incrementa la probabilidad de seleccionar el mejor modelo de codificación para una sección restante . En una modalidad de la invención, la evaluación estadística comprende el conteo del número de las secciones adyacentes para cada uno de los modelos de codificación, para lo cual el modelo de codificación respectivo ha sido seleccionado. Entonces, el número de selecciones de los diferentes modelos de codificación puede ser comparado entre sí . En una modalidad de la invención, la evaluación estadística es una evaluación estadística no-uniforme con respecto a los modelos de codificación. Por ejemplo, sí el primer tipo de contenido de audio es voz y el segundo tipo de contenido de audio es contenido de audio que no es voz, el número de secciones con contenido de voz pesa más que el número de secciones con otro contenido de audio. Esto asegura una alta calidad del contenido de voz codificado para toda la señal de audio. En una parte de la invención, cada una de las secciones de la señal de audio, para la cual se asigna un modelo de codificación, corresponde a una trama. Otros objetivos y aspectos de la presente invención se tornarán aparentes a partir de la siguiente descripción detallada, considerada con las figuras que se adjuntan. Sin embargo, se entiende que las figuras son designadas únicamente para propósitos de ilustración y no como una definición de los límites de la invención, para lo cual se debe referir a las reivindicaciones adjuntas. También se entiende que las figuras no están hechas a escala y que ellas pretenden simplemente ilustrar, de manera conceptual, las tramas y procedimientos descritos en la invención. Breve Descripción de las Figuras La Fig. 1 es un diagrama esquemático de un sistema de acuerdo con una modalidad de la presente invención; La Fig. 2 es un diagrama de flujos que ilustra la operación en el sistema de la Figura 1; y La Fig. 3 es un diagrama de tramas que ilustra la operación en el sistema de la Figura 1. Descripción Detallada de la Invención La figura 1 es un diagrama esquemático de un sistema de codificación de audio de acuerdo con una modalidad de la presente invención, la cual permite una selección de un modelo de codificación óptimo para cualquier trama de una señal de audio . El sistema comprende un primer dispositivo 1 que incluye un codificador AMR-WB+ 10 y un segundo dispositivo 2 que incluye un decodificador AMR-WB+ 20. El primer dispositivo 1 puede ser, por ejemplo, un servidor MS, mientras que el segundo dispositivo 2 puede ser, por ejemplo, un teléfono móvil u otro dispositivo móvil. El codificador 10 del primer dispositivo 1 comprende una primera porción de evaluación 12 para evaluar las características de las señales de audio entrantes, una segunda porción de evaluación 13 para evaluaciones estadísticas y una porción de codificación 14. La primera porción de evaluación 12 está vinculada, por una parte, a la porción de codificación 14 y, por otra parte, a la segunda porción de evaluación 13. La segunda porción de evaluación 13 está igualmente vinculada a la porción de codificación 14. La porción de codificación 14 es preferentemente capaz de aplicar un modelo de codificación ACELP o un modelo TCX para tramas de audio recibidas . La primera porción de evaluación 12, la segunda porción de evaluación 13 y la porción de codificación 14 pueden ser realizadas, en particular, por una ejecución de software SW en un componente de procesamiento 11 .del codificador 10, el cual está señalado por líneas punteadas. La operación del codificador 10 será, ahora descrita, en mayor detalle, con referencia al diagrama de flujo de la Figura 2. El codificador 10 recibe una señal de audio, la cual ha sido proporcionada al primer dispositivo 1. Un filtro de predicción lineal (LP) (no mostrado) calcula los coeficientes de la predicción lineales (LPC) en cada trama de señal de audio para modelar el envolvente espectral. La salida de excitación LPC, por el filtro, para cada trama ha de ser codificada por la porción de codificación 14, ya sea basada en un modelo de codificación ACELP o en un modelo TCX. Para la trama de codificación en AMR-WB+, la señal de audio es agrupada en supertramas de 80 ms, donde cada supertrama comprende cuatro tramas de 20 ms. El proceso de codificación para codificar una supertrama de 4*20 ms para transmisión, solo se inicia cuando se ha completado la selección de la manera de codificación para todas las tramas de señal de audio en la supertrama. Para seleccionar el modelo respectivo de codificación para las tramas de señal de audio, la primera porción de evaluación 12 determina las características de señal de la señal de audio recibida en una base de trama por trama, por ejemplo, con una de las aproximaciones de circuito abierto mencionada anteriormente. Entonces, por ejemplo, la relación de nivel de energía entre las bandas de baja y alta frecuencia y las variaciones de nivel de energía en bandas de baja y alta frecuencia puede ser determinada para cada trama con diferentes ventanas de análisis como características de señal. Alternativa o adicionalmente, los parámetros que definen las propiedades de periodicidad y de inmovilidad de la señal de audio, tal como los valores de correlación, parámetros LTP y/o mediciones espectrales de distancia, pueden ser determinados para cada trama como las características de una señal . Se entiende que en lugar de las aproximaciones de clasificación mencionadas anteriormente, la primera porción de evaluación 12, podría usar igualmente cualquier otra aproximación de clasificación, que se adapte para clasificar el contenido de las tramas de señal de audio como contenido de tipo música o voz . Por lo tanto, la primera porción de evaluación 12 trata de clasificar el contenido de cada trama de la señal de audio como el contenido de tipo música o contenido de voz en base a los valores de umbral para las características de señal determinadas o combinaciones de las mismas . La mayoría de las tramas de señal de audio pueden ser determinadas de esta manera para que contengan claramente el contenido de tipo voz o el contenido de tipo música. Para todas las tramas, para las cuales se puede identificar el tipo de contenido de audio inequívocamente, se selecciona un modelo de codificación apropiado. Más específicamente, por ejemplo, se selecciona el modelo de codificación ACELP para todas las tramas de voz y se selecciona el modelo TCX para todas las tramas de audio. Como ya se mencionó, los modelos de codificación también podrían ser seleccionados de otra manera, por ejemplo, en una aproximación de circuito cerrado o por una pre-selección de modelos de codificación elegibles mediante una aproximación de circuito abierto seguida de una aproximación de circuito cerrado para las opciones restantes de modelos de codificación . La información en los modelos de codificación seleccionados es proporcionada por la primera porción de evaluación 12 a la porción de codificación 14. Sin embargo, en algunos casos, las características de señal no se adaptan para identificar claramente el tipo de contenido. En estos casos, se asocia un modo INDETERMINADO a la trama . La información en los modelos de codificación seleccionados para todas las tramas, es proporcionada por la primera porción de evaluación 12 a la segunda porción de evaluación 13. Ahora, la segunda porción de evaluación 13 selecciona un modelo de codificación específico también para tramas de un modo INDETERMINADO en base a la evaluación estadística de los modelos de codificación asociados a las tramas adyacentes respectivas, sí un indicador de actividad de voz VADflag es establecido para la trama del modo INDERTERMINADO respectiva. Cuando el indicador de actividad de voz VADFlag no es establecido y así la marca indica un período de silencio, el modo seleccionado, por defecto, es TCX y ninguno de los algoritmos del modo seleccionado debe ser realizado . Para la evaluación estadística, se consideran una supertrama actual, a la que pertenece una trama de modo INDETERMINADO, y una supertrama anterior que precede a esta supertrama actual. La segunda porción de evaluación 13 cuenta, por medio de contadores, el número de tramas en la supertrama actual y en la supertrama anterior, para las cuales el modelo de codificación ACELP ha sido seleccionado por la primera porción de evaluación 12. Por otra parte, la segunda porción de evaluación 13 cuenta el número de tramas en la supertrama anterior, para la cual un modelo TCX, con una duración de trama de codificación de 40 ms ó 80 ms, ha sido seleccionado por la primera porción de evaluación 12, para la cual, por otra parte, se estableció el indicador de actividad de voz, y para la cual además, la energía total excede al valor de umbral predeterminado. La energía total puede calcularse dividiendo la señal de audio en diferentes bandas de frecuencia, determinando separadamente el nivel de señal para todas las bandas de frecuencia, y asumiendo los niveles resultantes. El valor de umbral predeterminado para la energía total en una trama puede establecerse, por ejemplo, a 60. El conteo de tramas, para las cuales un modelo de codificación ACELP ha sido asignado, entonces no está limitado a tramas que preceden a una trama de modo INDETERMINADO. A menos que la trama del modo INDETERMINADO sea la última trama en la supertrama actual, los modelos de codificación seleccionados de las próximas tramas son también tomados en consideración . Esto está ilustrado en la figura 3, la cual presenta, a manera de ejemplo, la distribución de los modelos de codificación indicados por la primera porción de evaluación 12 a la segunda porción de evaluación 13 para permitir a la segunda porción de evaluación 13 seleccionar un modelo de codificación para una trama de modo INDETERMINADO especifica. La figura 3 es un diagrama esquemático de una supertrama actual n y una supertrama anterior n- . Cada una de las supertramas tiene una duración de 80 ms y comprende cuatro tramas de señales de audio que tienen una duración de 20 ms . En el ejemplo descrito, la supertrama anterior n-1 comprende cuatro tramas, a las que un modelo de codificación ACELP ha sido asignado por la primera porción de evaluación 12. La supertrama actual n comprende una primera trama, a la que se le ha asignado un modelo TCX; una, segunda trama, a la que se le ha asignado un modo INDEFINIDO; una tercera trama, a la que se le ha asignado un modelo de codificación ACELP y una cuarta trama a la cual se le ha asignado, nuevamente un modelo TCX. Según lo mencionado anteriormente, la asignación de los modelos de codificación tiene que ser completada para toda la supertrama actual n, antes de que la supertrama actual n pueda ser codificada. Por lo tanto, la asignación del modelo de codificación ACELP y modelo TCX para la tercera y cuarta tramas, respectivamente, puede considerarse, respectivamente, en la evaluación estadística, que se lleva a cabo para seleccionar un modelo de codificación para la segunda trama de la supertrama actual . El conteo de las tramas puede resumirse, por ejemplo, por el siguiente seudo-código : si ( (prevMode (i) = = TCX80 o prevMode(i) = TCX40) y vadFlagoid(i) = = 1 y TotEi> 60) TCXCount = TCXCount + 1 si (prevMode (i) = ACELP_MODE) ACELPCount = ACELPCount + 1 si( j !=i) Si (Mode (i) = = ACELP_MODE) ACELPCount = ACELPCount + 1 En este seudo-código, i indica el número de una trama en una supertrama respectiva, y tiene los valores 1, 2, 3, 4 mientras que j indica el número de la trama actual en la supertrama actual, prevMode (i) es el modo de la trama ith de 20ms en la supertrama anterior y el Mode (i) es el modo de la trama ith de 20ms en la supertrama actual: TCX80 representa un modelo TCX seleccionado usando que usa una trama de codificación de 80 ms y TCX40 representa un modelo TCX seleccionado que usa una trama de codificación de 40 ms . vadFlag0id(i) representa el indicador de actividad de voz VAD para la trama ith en la supertrama anterior. TotEi es la energía total en la trama ith. El valor contador TCXCount representa el número de tramas TCX prolongadas seleccionadas en la supertrama anterior, y el valor contador ACELPCount representa el número de tramas ACELP en la supertrama anterior y actual . La evaluación estadística es realizada como sigue: Si el número contado de tramas prolongadas del modo TCX, con una duración de trama de codificación de 40 ms ó 80 ms, en la supertrama anterior, es mayor que 3, entonces un modelo TCX es igualmente seleccionado para la trama del modo INDETERMINADO . De otra forma, sí el número contado de tramas de modo ACELP en la supertrama actual y anterior es mayor que 1, entonces se selecciona un modelo ACELP para la trama del modo INDETERMINADO . En todos los otros casos, se selecciona un modelo TCX para la trama del modo INDETERMINADO. Se torna aparente que con este planteamiento, el modelo ACELP es favorecido en comparación con el modelo TCX. La selección del modelo de codificación para el Mode(j) de la trama jth puede resumirse, por ejemplo, por el siguiente seudo-código : si (TCXCount> 3) Mode ( j ) TCX_MODE ; además sí (ACELPCount> 1) Mode (j) = ACELP_MODE además Mode ( j ) = TCX_MODE En el ejemplo de la Figura 3, un modelo de codificación ACELP es seleccionado para la trama del modo INDETERMINADO en la supertrama actual n.
Se nota que otra evaluación estadística más complicada puede ser usada también para determinar el modelo de codificación para las tramas INDETERMINADAS. Además, también es posible explotar más de dos supertramas para reunir la información estadística en las tramas adyacentes, la cual es usada para determinar el modelo de codificación para las tramas INDETERMINADAS. Sin embargo, en AMR-WB+ , un algoritmo simple con base relativamente estadística, es utilizado ventajosamente a fin de lograr una solución de baja complejidad. También se puede lograr una rápida adaptación para señales de audio con voz entre contenido de música y voz sobre contenido de música al explotar solamente las supertramas actual y anterior respectivamente en la selección estadísticamente del modo basado. La segunda porción de evaluación 13, ahora, proporciona información en el modelo de codificación seleccionado para una trama de modo INDETERMINADO a la porción de codificación 14. La porción de codificación 14 codifica todas las tramas de una supertrama respectiva con el modelo de codificación seleccionado respectivamente, indicado ya sea por la primera porción de evaluación 12 o por la segunda porción de evaluación 13. El TCX está basado, a manera de ejemplo, en una transformación rápida Fourier (FFT) , la cual es aplicada a la salida de excitación LPC del filtro LP para una trama respectiva. La codificación ACELP usa, a manera de ejemplo, un LTP y parámetros de código establecidos para la salida de excitación LPC, por el filtro LP, para una trama respectiva. Entonces, la porción de codificación 14 proporciona tramas codificadas para la transmisión al segundo dispositivo 2. En el segundo dispositivo 2, el decodificador 20 decodifica todas las tramas recibidas con el modelo de codificación ACELP o con el modelo TCX, respectivamente. Las tramas decodificadas son proporcionadas, por ejemplo, para la presentación a un usuario del segundo dispositivo 2. Mientras hayan sido mostrados, descritos e indicados las nuevas características fundamentales de la presente invención según lo aplicado a una modalidad de la misma, se entenderá que se pueden hacer por los expertos en la técnica varias omisiones, substituciones y cambios en la forma y detalles de los dispositivos y métodos descritos, sin apartarse del espíritu de la presente invención. Por ejemplo, se pretende expresamente que todas las combinaciones de estos elementos y/o etapas del método, las cuales realizan sustancialmente la misma función en sustancialmente la misma forma para lograr los mismos resultados, estén dentro del alcance de la invención. Por otra parte, debe reconocerse que las tramas y/o elementos y/o etapas del método mostrados y/o descritos en relación con cualquier forma o modalidad descrita de la presente invención, pueden incorporarse en cualquier otra forma o modalidad indicada o descrita o sugerida, como un objetivo general de elección de diseño. Por lo tanto, es la intención limitar la presente invención de acuerdo al alcance de las reivindicaciones que se adjuntan en la presente. Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims (27)

  1. REIVINDICACIONES
  2. Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones: 1. Método para seleccionar un modelo de codificación respectivo para codificar secciones consecutivas de una señal de audio, en donde por lo menos un modelo de codificación optimizado para un primer tipo de contenido de audio y por lo menos un modelo de codificación optimizado para un segundo tipo de contenido de audio están disponibles para la selección, caracterizado porque el método comprende: seleccionar para cada sección de la señal de audio un modelo de codificación en base a por lo menos una característica de señal que indica el tipo de contenido de audio en la sección respectiva, sí por lo menos una característica de señal indica sin ambigüedad un tipo particular de contenido de audio; y seleccionar para cada sección restante de la señal de audio, para la cual por lo menos una característica de señal no indica sin ambigüedad un tipo particular de contenido de audio, un modelo de codificación en base a una evaluación estadística de los modelos de codificación, los cuales han sido seleccionados en base a por lo menos una característica de señal para las secciones adyacentes de la sección restante respetiva . 2. Método de conformidad con la reivindicación 1, caracterizado porque el primer tipo de contenido de audio es voz y en donde el segundo tipo de contenido de audio es otro contenido que no es voz .
  3. 3. Método de conformidad con la reivindicación 1, caracterizado porque los modelos de codificación comprenden un modelo de codificación de predicción lineal con excitación por código algebraico y un modelo de codificación de transformación.
  4. 4. Método de conformidad con la reivindicación 1, caracterizado porque la evaluación estadística considera los modelos de codificación seleccionados para las secciones anteriores a una sección restante respectiva y, sí están disponibles, modelos de codificación seleccionados para secciones siguiendo la sección restante.
  5. 5. Método de conformidad con la reivindicación 1, caracterizado porque la evaluación estadística es una evaluación estadística no uniforme con respecto a los modelos de codificación.
  6. 6. Método de conformidad con la reivindicación 1 , caracterizado porque la evaluación estadística comprende contar, para cada uno de los modelos de codificación, el número de las secciones adyacentes, para las cuales se ha seleccionado el modelo de codificación respectivo.
  7. 7. Método de conformidad con la reivindicación 6, caracterizado porque el primer tipo de contenido de audio es voz y en donde el segundo tipo de audio es un contenido de audio que no es voz, y en donde el número de secciones adyacentes, para las cuales se ha seleccionado el modelo de codificación optimizado para el primer tipo de contenido de audio, tiene mayor peso en la evaluación estadística que el número de secciones, para el cual se ha seleccionado el modelo de codificación optimizado para el segundo tipo de contenido de audio.
  8. 8. Método de conformidad con la reivindicación 1, caracterizado porque cada una de las secciones de la señal de audio corresponde a una trama.
  9. 9. Método para seleccionar un modelo de codificación respectivo para codificar tramas consecutivas de una señal de audio, caracterizado porque el método comprende: seleccionar para cada trama de la señal de audio, para la cual las características de señal indican que un contenido de la trama es voz, un modelo de codificación de predicción lineal con excitación por código algebraico; seleccionar para cada trama de la señal de audio, para, la cual las características de señal indican que un contenido de la trama es contenido de audio que no es voz, un modelo de codificación de transformación; y seleccionar para cada trama restante de la señal de audio, para las cuales las características de señal no indican sin ambigüedad que un contenido de la trama es voz o indican sin ambigüedad que un contenido de la trama es contenido de audio que no es voz, un modelo de codificación en base a una evaluación estadística de los modelos de codificación, los cuales han sido seleccionados en base a las características de señal para tramas adyacentes de una trama restante respectiva.
  10. 10. Módulo para codificar secciones consecutivas de una señal de audio con un modelo de codificación respectivo, donde están disponibles por lo menos un modelo de codificación optimizado para un primer tipo de contenido de audio y por lo menos un modelo de codificación optimizado para un segundo tipo de contenido de audio, caracterizado porque comprende: una primera porción de evaluación adaptada para seleccionar, para una sección respectiva de la señal de audio, un modelo de codificación en base a por lo menos una característica de señal que indica el tipo de contenido de audio en la sección, sí por lo menos una característica de señal indica sin ambigüedad un tipo particular de contenido de audio; una segunda porción de evaluación adaptada para evaluar estadísticamente la selección de modelos de codi-ficación mediante la primera porción de evaluación para secciones adyacentes de cada sección restante de una señal de audio, para la cual la primera . porción de evaluación no ha seleccionado un modelo de codificación, y para seleccionar un modelo de codificación para cada una de las secciones restantes en base a la evaluación estadística respectiva; y una porción de codificación para codificar cada sección de la señal de audio con el modelo de codificación seleccionado para la sección respectiva.
  11. 11. Módulo de conformidad con la reivindicación 10, caracterizado porque el primer tipo de contenido de audio es voz y en donde el segundo tipo de contenido de audio es contenido de audio que no es voz .
  12. 12. Módulo de conformidad con la reivindicación 10, caracterizado porque los modelos de codificación comprenden un modelo de codificación de predicción lineal con excitación por código algebraico y un modelo de codificación de transformación.
  13. 13. Módulo de conformidad con la reivindicación 10, caracterizado porque la segunda porción de evaluación es adaptada para considerar la evaluación estadística de modelos de codificación seleccionados por la primera porción de evaluación para secciones anteriores a una sección restante respectiva y, sí está disponible, para considerar la evaluación estadística de modelos de codificación seleccionados por la primera porción de evaluación para secciones que siguen la sección restante.
  14. 14. Módulo de conformidad con la reivindicación 10, caracterizado porque la segunda porción de evaluación es adaptada para realizar una evaluación estadística no uniforme con respecto a los modelos de codificación.
  15. 15. Módulo de conformidad con la reivindicación 10, caracterizado porque la segunda porción de evaluación es adaptada para que la evaluación estadística cuente para cada uno de los modelos de codificación, el número de secciones adyacentes, para las cuales el modelo de codificación respectivo ha sido seleccionado por la primera porción de evaluación.
  16. 16. Módulo de conformidad con la reivindicación 15, caracterizado porque el primer tipo de contenido de audio es voz y en donde el segundo tipo de contenido de audio es contenido de audio que no es voz, y en donde la segunda porción de evaluación es adaptada para estimar el número de secciones adyacentes, para las cuales el modelo de codificación optimizado para el primer tipo de contenido de audio, ha sido seleccionado por la primera porción de evaluación y es más alto en la evaluación estadística que el número de secciones, para las cuales el modelo de codificación optimizado para el segundo tipo de contenido de audio, ha sido seleccionado por la primera porción de evaluación.
  17. 17. Módulo de conformidad con la reivindicación 10, caracterizado porque cada una de las secciones de la señal de audio corresponde a una trama.
  18. 18. Módulo de conformidad con la reivindicación 10, caracterizado porque el módulo es un codificador.
  19. 19. Dispositivo electrónico, caracterizado porque comprende un codificador para codificar secciones consecutivas de una señal de audio con un modelo de codificación respectivo, donde están disponibles por lo menos un modelo de codificación optimizado para un primer tipo de contenido de audio y por lo menos un modelo de codificación optimizado para un segundo tipo de contenido de audio, el codificador incluye: una primera porción de evaluación adaptada para seleccionar para una sección respectiva de la señal de audio, un modelo de codificación en base a por lo menos una característica de señal que indica el tipo de contenido de audio en la sección, sí por lo menos una característica de señal indica sin ambigüedad un tipo particular de contenido de audio; una segunda porción de evaluación adaptada para evaluar estadísticamente la selección de modelos de codificación mediante la primera porción de evaluación para secciones adyacentes de cada sección restante de una señal de audio, para la cual la primera porción de evaluación no ha seleccionado un modelo de codificación, y para seleccionar un modelo de codificación para cada una de las secciones restantes en base a la evaluación estadística respectiva; y una porción de codificación para codificar cada sección de la señal de audio con el modelo de codificación seleccionado para la sección respectiva.
  20. 20. Dispositivo electrónico de conformidad con la reivindicación 19, caracterizado porque el primer tipo de contenido de audio es voz y en donde3 el segundo tipo de contenido de audio es contenido de audio que no es voz .
  21. 21. Dispositivo electrónico de conformidad con la reivindicación 19, caracterizado porque los modelos de codificación comprenden un modelo de codificación de predicción lineal con excitación por código algebraico y un modelo de codificación de transformación
  22. 22. Sistema de codificación de audio, caracterizado porque comprende un codificador para codificar secciones consecutivas de una señal de audio con un modelo respectivo de codificación y un decodificador para decodificar secciones codificadas consecutivas de una señal de audio con un modelo de codificación utilizado para codificar la sección respectiva, en donde están disponibles en los codificador y decodificador por lo menos un modelo de codificación optimizado para un primer tipo de contenido de audio y por lo menos un modelo de codificación optimizado para un segundo tipo de contenido de audio, el codificador incluye: una primera porción de evaluación adaptada para seleccionar, para una sección respectiva de la señal de audio, un modelo de codificación en base a por lo menos una característica de señal que indica el tipo de contenido de audio en la sección, sí por lo menos una característica de señal indica sin ambigüedad un tipo particular de contenido de audio; una segunda porción de evaluación adaptada para evaluar estadísticamente la selección de modelos de codificación mediante la primera porción de evaluación para secciones adyacentes de cada sección restante de una señal de audio, para la cual la primera porción de evaluación no ha seleccionado un modelo de codificación, y para seleccionar un modelo de codificación para cada una de las secciones restantes en base a la respectiva evaluación estadística; y una porción de codificación para codificar cada sección dé la señal de audio con el modelo de codificación seleccionado para la sección respectiva.
  23. 23. Sistema de codificación de audio de conformidad con la reivindicación 22, caracterizado porque el primer tipo de contenido de audio es voz y en donde el segundo tipo de contenido de audio es contenido de audio que no es voz .
  24. 24. Sistema de codificación de audio de conformidad con la reivindicación 22, caracterizado porque los modelos de codificación comprenden un modelo de codificación de predicción lineal con excitación por código algebraico y un modelo de codificación de transformación.
  25. 25. Un producto de programa de software, caracterizado porque se almacena un código de software para seleccionar un modelo de codificación respectivo para codificar secciones consecutivas de una señal de audio, en donde están disponibles para la selección por lo menos un modelo de codificación optimizado para un primer tipo de contenido de audio y por lo menos un modelo de codificación optimizado para un segundo tipo de contenido de audio, el código de software realiza las siguientes etapas cuando se ejecuta en un componente de procesamiento de un codificador: seleccionar para cada sección de la señal de audio un modelo de codificación en base a por lo menos una característica de señal que indica el tipo de contenido de audio en la sección respectiva, sí por lo menos una característica de señal indica sin ambigüedad un tipo particular de contenido de audio, y seleccionar para cada sección restante de la señal de audio, para la cual por lo menos una característica de señal no indica sin ambigüedad un tipo particular de contenido de audio, un modelo de codificación en base a una evaluación estadística de los modelos de codificación, los cuales han sido seleccionados en base a por lo menos una característica de señal para las secciones adyacentes de la sección restante respectiva .
  26. 26. Producto de programa de software de conformidad con la reivindicación 25, caracterizado porque el primer tipo de contenido de audio es voz y en donde el segundo tipo de contenido de audio es un contenido de audio que no es voz.
  27. 27. Producto de programa de software de conformidad con la reivindicación 25, caracterizado porque los modelos de codificación comprenden un modelo de codificación de predicción lineal con excitación por código algebraico y un modelo de codificación de transformación.
MXPA06012579A 2004-05-17 2005-04-06 Seleccion de modelos de codificacion para codificar una senal de audio. MXPA06012579A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/847,651 US7739120B2 (en) 2004-05-17 2004-05-17 Selection of coding models for encoding an audio signal
PCT/IB2005/000924 WO2005111567A1 (en) 2004-05-17 2005-04-06 Selection of coding models for encoding an audio signal

Publications (1)

Publication Number Publication Date
MXPA06012579A true MXPA06012579A (es) 2006-12-15

Family

ID=34962977

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA06012579A MXPA06012579A (es) 2004-05-17 2005-04-06 Seleccion de modelos de codificacion para codificar una senal de audio.

Country Status (17)

Country Link
US (1) US7739120B2 (es)
EP (1) EP1747442B1 (es)
JP (1) JP2008503783A (es)
KR (1) KR20080083719A (es)
CN (1) CN100485337C (es)
AT (1) ATE479885T1 (es)
AU (1) AU2005242993A1 (es)
BR (1) BRPI0511150A (es)
CA (1) CA2566353A1 (es)
DE (1) DE602005023295D1 (es)
HK (1) HK1110111A1 (es)
MX (1) MXPA06012579A (es)
PE (1) PE20060385A1 (es)
RU (1) RU2006139795A (es)
TW (1) TW200606815A (es)
WO (1) WO2005111567A1 (es)
ZA (1) ZA200609479B (es)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006136179A1 (en) * 2005-06-20 2006-12-28 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
WO2007083931A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
JP5235684B2 (ja) * 2006-02-24 2013-07-10 フランス・テレコム 信号包絡線の量子化インデックスをバイナリ符号化する方法、信号包絡線を復号化する方法、および、対応する符号化および復号化モジュール
US9159333B2 (en) * 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
US20080202042A1 (en) * 2007-02-22 2008-08-28 Azad Mesrobian Drawworks and motor
PL2165328T3 (pl) * 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2198426A4 (en) * 2007-10-15 2012-01-18 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING A SIGNAL
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
WO2010003254A1 (en) * 2008-07-10 2010-01-14 Voiceage Corporation Multi-reference lpc filter quantization and inverse quantization device and method
RU2515704C2 (ru) * 2008-07-11 2014-05-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер и аудиодекодер для кодирования и декодирования отсчетов аудиосигнала
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
CN101615910B (zh) 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
BR112012009032B1 (pt) * 2009-10-20 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio, método para prover uma representação decodificada de um conteúdo de áudio para uso em aplicações de baixo retardamento
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
IL205394A (en) * 2010-04-28 2016-09-29 Verint Systems Ltd A system and method for automatically identifying a speech encoding scheme
CN105355209B (zh) 2010-07-02 2020-02-14 杜比国际公司 音高增强后置滤波器
CN103180899B (zh) * 2010-11-17 2015-07-22 松下电器(美国)知识产权公司 立体声信号的编码装置、解码装置、编码方法及解码方法
CN108074579B (zh) * 2012-11-13 2022-06-24 三星电子株式会社 用于确定编码模式的方法以及音频编码方法
WO2014118136A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm
CN107452390B (zh) 2014-04-29 2021-10-26 华为技术有限公司 音频编码方法及相关装置
CN107424622B (zh) * 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP3000110B1 (en) 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
DE69926821T2 (de) 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US6633841B1 (en) 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
ATE341074T1 (de) 2000-02-29 2006-10-15 Qualcomm Inc Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
WO2002023530A2 (en) 2000-09-11 2002-03-21 Matsushita Electric Industrial Co., Ltd. Quantization of spectral sequences for audio signal coding
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US7613606B2 (en) 2003-10-02 2009-11-03 Nokia Corporation Speech codecs

Also Published As

Publication number Publication date
HK1110111A1 (en) 2008-07-04
ZA200609479B (en) 2008-09-25
JP2008503783A (ja) 2008-02-07
WO2005111567A1 (en) 2005-11-24
CN101091108A (zh) 2007-12-19
PE20060385A1 (es) 2006-05-19
BRPI0511150A (pt) 2007-11-27
CA2566353A1 (en) 2005-11-24
ATE479885T1 (de) 2010-09-15
CN100485337C (zh) 2009-05-06
DE602005023295D1 (de) 2010-10-14
US20050256701A1 (en) 2005-11-17
TW200606815A (en) 2006-02-16
EP1747442B1 (en) 2010-09-01
US7739120B2 (en) 2010-06-15
RU2006139795A (ru) 2008-06-27
EP1747442A1 (en) 2007-01-31
KR20080083719A (ko) 2008-09-18
AU2005242993A1 (en) 2005-11-24

Similar Documents

Publication Publication Date Title
MXPA06012579A (es) Seleccion de modelos de codificacion para codificar una senal de audio.
US8069034B2 (en) Method and apparatus for encoding an audio signal using multiple coders with plural selection models
EP1747554B1 (en) Audio encoding with different coding frame lengths
CA2501368C (en) Methods and devices for source controlled variable bit-rate wideband speech coding
US8725499B2 (en) Systems, methods, and apparatus for signal change detection
US20050177364A1 (en) Methods and devices for source controlled variable bit-rate wideband speech coding
US20080147414A1 (en) Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus
AU2005236596A1 (en) Signal encoding
JPH09503874A (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
KR20070017379A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
CN102254562A (zh) 一种相邻高低速率编码模式间切换的变速率音频编码方法
KR20080091305A (ko) 서로 다른 코딩 모델들을 통한 오디오 인코딩
KR20070017378A (ko) 서로 다른 코딩 모델들을 통한 오디오 인코딩
RU2344493C2 (ru) Кодирование звука с различными длительностями кадра кодирования
ZA200609478B (en) Audio encoding with different coding frame lengths
KR20070017380A (ko) 서로 다른 코딩 프레임 길이의 오디오 인코딩

Legal Events

Date Code Title Description
FA Abandonment or withdrawal