MXPA06011957A - Codificacion de senales. - Google Patents

Codificacion de senales.

Info

Publication number
MXPA06011957A
MXPA06011957A MXPA06011957A MXPA06011957A MXPA06011957A MX PA06011957 A MXPA06011957 A MX PA06011957A MX PA06011957 A MXPA06011957 A MX PA06011957A MX PA06011957 A MXPA06011957 A MX PA06011957A MX PA06011957 A MXPA06011957 A MX PA06011957A
Authority
MX
Mexico
Prior art keywords
frame
parameters
excitation
encoder
coding
Prior art date
Application number
MXPA06011957A
Other languages
English (en)
Inventor
Jari M Makinen
Original Assignee
Nokia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp filed Critical Nokia Corp
Publication of MXPA06011957A publication Critical patent/MXPA06011957A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Se describe un metodo para codificar un cuadro en un codificador de un sistema de comunicacion, el metodo comprende las etapas de: calcular un primer conjunto de parametros asociados con la estructura, en donde el primer conjunto de parametros comprende parametros de banco filtro; seleccionar, en una primera etapa, uno de una pluralidad de metodos de codificacion con base en el primer conjunto de parametros un modo de codificacion; calcular un segundo conjunto de parametros asociados con el cuadro; seleccionar, en una segunda etapa, uno de la pluralidad de metodos de codificacion con base en el resultado de la seleccion de primera etapa y el segundo conjunto de parametros un modo para codificar; y codificar el cuadro usando el metodo de excitacion de codificacion seleccionado de la segunda etapa.

Description

una señal de audio se captura típicamente como una señal análoga digitalizada en un convertidor análogo a digital (A/D) y luego codificada. En un sistema de comunicación celular, la señal codificada se puede transmitir sobre la interfaz de aire inalámbrico entre un equipo de usuario tal como una terminal móvil y una estación base. Alternativamente, como en sistemas de procesamiento de señal más generales, la señal de audio codificada se puede almacenar en un medio de almacenamiento para un uso posterior o reproducción de la señal de audio. La codificación comprime la señal y como en un sistema de comunicación celular, luego se puede transmitir sobre la interfaz del aire con una cantidad mínima de datos mientras se mantiene un nivel de calidad de señal aceptable. Esto es particularmente importante ya que la capacidad del canal de radio sobre la interfaz de aire inalámbrica se limita en un sistema de comunicación celular. Un método de codificación ideal codificará la señal de audio en tan pocos bitios como sea posible con lo cual se optimiza la capacidad de canal, mientras se produce una señal descodificada que suena tan cercana con el audio original como sea posible. En la práctica existe usualmente una compensación entre la relación de bitios del método de compresión y la calidad del lenguaje descodificado. La compresión o codificación puede ser con pérdida o sin pérdida. En la compresión con pérdida se pierde algo de la información durante la compresión en donde no es posible reconstruir por completo la señal original de la señal comprimida. En la compresión sin pérdida no se pierde normalmente la información y la señal original se puede reconstruir por completo a partir de la señal comprimida. Una señal de audio se puede considerar como un lenguaje que contiene señal, música (o sin lenguaje) o ambos. Las características diferentes del lenguaje y la música hacen difícil diseñar un método de codificación sencillo que trabaje bien tanto para el lenguaje como para la música. A menudo, un método de codificación que es óptimo para señales de lenguaje no es óptimo para señales de música o que no son de lenguaje. Por lo tanto para, resolver este problema, se han desarrollado diferentes métodos de codificación para codificar lenguaje y música. Sin embargo, la señal de audio se debe clasificar como lenguaje o música antes de que se pueda seleccionar un método de codificación adecuado. La clasificación de una señal de audio ya sea como una señal de lenguaje o una señal de música/no lenguaje es una tarea difícil. La precisión requerida de la clasificación depende de la aplicación que usa la señal. En algunas aplicaciones, la precisión es más critica como en el reconocimiento de lenguaje o en el archivo para almacenaje y propósitos de recuperación. Sin embargo, es posible que un método de codificación para las partes de la señal de audio que comprende principalmente lenguaje también sea muy eficiente para partes que comprenden principalmente música. De hecho, es posible que un método de codificación para música con fuertes componentes tonales pueda ser muy adecuado para lenguaje. Por lo tanto, los métodos para la clasificación de una señal de audio basado solamente en si la señal se constituye de lenguaje o música no necesariamente resulta en la selección del método de compresión óptimo para la señal de audio. El codificador/descodificador o codee muíti-relación adaptivo (AMR) es un método de codificación desarrollado por el Proyecto de Sociedad de Tercera Generación (3GPP) para las redes de comunicación GSM/EDGE y WCDMA. Además, también se ha vislumbrado que AMR se usará en redes futuras de conmutación en paquete. AMR se basa en una excitación con codificación para la predicción lineal excitada en código algebraico (ACELP) . El AMR y los códec de banda ancha multi-relación adaptivos (AMR-WB) consisten de 8 y 9 relaciones activas de bitios respectivamente y también incluye una detección de inactividad de voz (VAD) y una funcionalidad de transmisión discontinua (DTX) . La relación de muestreo en el códec AMR es de 8 kHz. En el códec AMR WB la relación de muestreo es de 16 kHz . Los detalles de los códec AMR y AMR-WB se pueden encontrar en las especificaciones técnicas de 3GPP TS 26.090 y 3GPP TS 26.190. Detalles adicionales del códec AMR-WB y VAD se pueden encontrar en la especificación técnica 3GPP TS 26.194.
En otro método de codificación, el códec extendido AMR-WB (AMR-WB+) , la codificación se basa en 2 métodos diferentes de excitación: excitación con tipo de pulsos ACELP y excitación codificada con transformada (TCX) . La excitación ACELP es la misma cuando se usa ya en el códec original AMR-WB. La excitación TCX es una modificación específica de AMR-WB+. La codificación por excitación ACELP opera al usar un modelo de cómo se genera una señal en la fuente y extrae de la señal los parámetros del modelo. Más específicamente, la codificación ACELP se basa en un modelo del sistema vocal humano, en donde la garganta y la boca se modelan como un filtro lineal y se genera una señal por una vibración periódica de aire que excita el filtro. La señal se analiza en una base de cuadro por cuadro por el codificador y para cada cuadro se genera un conjunto de parámetros que representa la señal modelada y la salida por el codificador. El conjunto de parámetros puede incluir parámetros por excitación y los coeficientes por el filtro así como otros parámetros . La salida de un codificador de este tipo se refiere a menudo por una representación paramétrica de la señal de entrada. Se usa el conjunto de parámetros por un descodificador adecuadamente configurado para regenerar la señal de entrada. En el códec AMR-WB+, la codificación de predicción lineal (LPC) se calcula en cada cuadro de la señal para modelar la envolvente espectral de la señal como un filtro lineal. El resultado del LPC, conocido como la excitación LPC luego se codifica al usar una excitación ACELP o la excitación TCX. Típicamente, la excitación ACELP usa predictores de larga duración y parámetros de libro de códigos fijos mientras que la excitación TCX utiliza transformadas rápidas de Fourier (FFT) . Adicionalmente, en el códec AMR-WB+ la excitación TCX se puede efectuar usando una de tres longitudes de cuadro diferentes (20, 40 y 80 ms) . La excitación TCX se usa ampliamente en codificación de audio sin lenguaje. La superioridad de la excitación TCX con base en la codificación para señales que no son de lenguaje se debe al uso de una codificación de un dominio de frecuencia y de ocultamiento perceptual . Aunque las técnicas TCX proporcionan señales de música superiores en calidad, la calidad no es tan buena para señales periódicas de lenguaje. De manera opuesta, los códec basados en el sistema de producción del lenguaje humano tal como ACELP proporcionan señales superiores de lenguaje en calidad pero señales pobres de música en calidad. Por lo tanto, en general, la excitación de ACELP se usa principalmente para la codificación de señales de lenguaje y la excitación TCX se usa principalmente para codificar música y otras señales que no son de lenguaje. Sin embargo, este no es siempre el caso, ya que algunas veces una señal de lenguaje tiene partes que son como música y una señal de música tiene partes que son como lenguaje. También existen señales de audio que contienen tanto música como lenguaje en donde el método de codificación seleccionado basado únicamente en una de la excitación ACELP o la excitación TCX puede no ser óptimo. La selección de la excitación en AMR- B+ se puede hacer de diversas maneras . El primer método y el más sencillo es analizar las propiedades de señal una vez antes de codificar la señal con lo cual se clasifica la señal en lenguaje o en música/sin lenguaje y se selecciona la mejor excitación fuera de ACELP y TCX para el tipo de señal. Esto se conoce como un método de "pre-selección" . Sin embargo, tal método no es adecuado para una señal que tiene características variables tanto de lenguaje como de música, lo que resulta en una señal codificada que no se optimiza ni para lenguaje ni para música.
El método más complejo es codificar la señal de audio usando tanto la excitación de ACELP como de TCX y luego seleccionar la excitación con base en la señal de audio sintetizada la cual es de una mejor ' calidad. La calidad de la señal se puede medir usando un tipo de algoritmo de señal a ruido. Este tipo de "análisis por síntesis" del método, también conocido como el método de "fuerza bruta" ya que todas las excitaciones diferentes se calculan y la mejor se selecciona, proporciona buenos resultados pero no es práctico debido a la complejidad computacional de efectuar cálculos múltiples. Es el objetivo de las modalidades de la presente invención proporcionar un método mejorado para seleccionar un método de excitación para codificar una señal que al menos mitigue parcialmente algunos de los problemas anteriores . Breve Descripción de la Invención De acuerdo con un primer aspecto de la presente invención, se proporciona un método para codificar un cuadro en un codificador de un sistema de comunicación, el método comprende las etapas de calcular un primer conjunto de parámetros asociados con el cuadro, en donde el primer conjunto de parámetros comprende parámetros de banco de filtro, seleccionar en una primera etapa, una de una pluralidad de métodos de codificación basados en condiciones predeterminadas asociadas con el primer conjunto de parámetros; calcular un segundo conjunto de parámetros asociados con el cuadro; seleccionar en una segunda etapa una de la pluralidad de métodos de codificación con base en el resultado de la primera selección de etapa y el segundo conjunto de parámetros y codificar el cuadro usando el método de codificación seleccionado de la segunda etapa. Preferiblemente, la pluralidad de métodos de codificación comprende un primer método de excitación y un segundo método de excitación. El primer conjunto de parámetros se puede basar en los niveles de energía de una o más bandas de frecuencia asociadas con el cuadro. Y para diferentes condiciones predeterminadas del primer conjunto de parámetros, no se puede seleccionar en ningún método de codificación en la primera etapa. El segundo conjunto de parámetros puede comprender al menos uno de los parámetros espectrales, parámetros LTP y parámetros de correlación asociados con el cuadro. Preferiblemente, el primer método de excitación es una excitación con predicción lineal excitada con un código algebraico y el segundo método de excitación es una excitación codificada por transformada. En donde el cuadro se codifica usando el segundo método de excitación, el método para codificar puede comprender además seleccionar la longitud del cuadro codificado usando el segundo método de excitación con base en la selección en la primera etapa y la segunda etapa. La selección de la longitud del cuadro codificado puede depender de la relación de señal a ruido del cuadro. Preferiblemente, el codificador es un codificador A R- WB+ . El cuadro puede ser un cuadro de audio. Preferiblemente, el cuadro de audio comprende lenguaje o sin lenguaje. El no lenguaje puede comprender música.
De acuerdo con otro aspecto de la presente invención, se proporciona un codificador para codificar un cuadro en un sistema de comunicación, el codificador comprende un primer módulo de cálculo adaptado para calcular un primer conjunto de parámetros asociados con el cuadro, en donde el primer conjunto de parámetros comprende parámetros de un banco de filtro; un primer módulo de selección por etapa adaptado para seleccionar una pluralidad de métodos de codificación con base en el primer conjunto de parámetros; un segundo módulo de cálculo adaptado para calcular un segundo conjunto de parámetros asociado con el cuadro; un segundo módulo de selección de etapa adaptado para seleccionar una de la pluralidad de métodos de codificación con base en el resultado de la primera selección de etapa y el segundo conjunto de parámetros; y un módulo de codificación adaptado para codificar el cuadro usando el método de codificación seleccionado de la segunda etapa. De acuerdo con un aspecto adicional de la presente invención, se proporciona un método para codificar un cuadro en un codificador de un sistema de comunicación, el método comprende las etapas de: calcular un primer conjunto de parámetros asociados con el cuadro en donde el primer conjunto de parámetros comprende parámetros de un banco de filtro; seleccionar en una primera etapa una de un primer método de excitación o un segundo método de excitación con base en el primer conjunto de parámetros, codificar el cuadro usando el método de excitación seleccionado. Breve Descripción de las Figuras Para un mejor entendimiento de la presente invención, se hará referencia ahora a manera de ejemplo solamente a las figuras anexas en las cuales : La figura 1 ilustra una red de comunicaciones en la cual las modalidades de la presente invención se pueden aplicar; La figura 2 muestra un diagrama de bloques de una modalidad de la presente invención,- La figura 3 es una estructura de un banco de filtro VAD en una modalidad de la presente invención. Descripción Detallada de la Invención La presente invención se describe en la presente con referencia a ejemplos particulares. La invención sin embargo no se limita a tales ejemplos. La figura 1 ilustra un sistema de comunicaciones 100 que soporta el procesamiento de señales usando el códec A R-WB+ de acuerdo con una modalidad de la invención. El sistema 100 comprende diversos elementos incluyendo un convertidor análogo a digital (A/D) 104, y un codificador 106, un transmisor 108, un receptor 110, un descodificador 112 y un convertidor digital a análogo (D/A) 114. El convertidor A/D 104, codificador 106 y transmisor 108 puede formar parte de una terminal móvil. El receptor 110, descodificador 112 y el convertidor D/A 114 pueden formar parte de la estación base. El sistema 100 también comprende una o más fuentes de audio, tal como un micrófono que no se muestra en la figura 1, producir una señal de audio 102 que comprende señales de lenguaje y/o que no son de lenguaje. La señal análoga 102 se recibe en el convertidor A/D 104, el cual convierte la señal análoga 102 en una señal digital 105. Se debe apreciar que si la fuente de audio produce una señal digital en lugar de una señal análoga, luego se desvía el convertidor A/D 104. La señal digital 105 es la entrada al codificador 106 en el cual se efectúa la codificación para codificar y comprimir la señal digital 105 en una base de cuadro por cuadro usando un método de codificación seleccionado para generar los cuadros codificados 107. El codificador puede operar usando el códec AMR-WB+ u otro códec adecuado y se describirá en mayor detalle a continuación. Los cuadros codificados se pueden almacenar en un medio de almacenamiento adecuado para procesarse después tal como en una grabadora de voz digital. Alternativamente, y como se ilustra en la figura 1, los cuadros codificados son entrada en el transmisor 108, el cual transmite los cuadros codificados 109. Los cuadros codificados 109 se reciben por el receptor 110, el cual los procesa e introduce los cuadros codificados 111 dentro del descodificador 112. El descodificador 112 descodifica y descomprime los cuadros codificados 111. El descodificador 112 también comprende medios de determinación para determinar el método de codificación específico usado en el codificador para cada cuadro codificado 111 recibido. El descodificador 112 selecciona sobre la base de la determinación de un método de descodificación para descodificar el cuadro codificado 111. Los cuadros descodificados salen por el descodificador 112 en forma de una señal descodificada 113 , la cual es entrada en el convertidor. D/A 114 para convertir la señal descodificada 113 la cual es una señal digital en una señal análoga 116. La señal análoga 116 luego se puede procesar de esta manera tal como para transformarla en el audio por medio de un altavoz. La figura 2 ilustra un diagrama de bloques del codificador 106 de la figura 1 en una modalidad preferida de la presente invención. El codificador 106 opera de acuerdo con el códec AMR-WB+ y selecciona una de la excitación ACELP o excitación de TCX para codificar una señal. La selección se basa en determinar el mejor modelo de codificación para la señal de entrada al analizar los parámetros generados en los módulos codificadores . El codificador 106 comprende un módulo de detección de actividad de voz (VAD) 202, un módulo de análisis de codificación de predicción lineal (LPC) 206, un módulo de análisis de predicción de larga duración (LTP) 208 y un módulo de generación de excitación 212. El módulo para generación de excitación 212 codifica la señal al usar uno de la excitación ACELP o la excitación TCX. El codificador 116 también comprende un módulo de selección de excitación 216, el cual se conecta a un primer módulo de selección por esta etapa 204, un segundo módulo de selección por etapa 210, y un tercer módulo de selección por etapa 214. El módulo de selección por excitación 216 determina el método de excitación, excitación ACELP o excitación TCX usado por el módulo de generación de excitación 212 para codificar la señal. El primer módulo de selección por etapa 204 se conecta entre el módulo de VAD 202 y el módulo de análisis LPC 206. El segundo módulo de selección por etapa 210 se conecta entre el módulo de análisis LTP 208 y el módulo de generación por excitación 212. El tercer módulo de selección por etapa 214 se conecta al módulo de generación por excitación 212 y la salida del codificador 106. El codificador 106 recibe una señal de entrada 105 en el módulo VAD lo cual determina si la señal de entrada 105 comprende periodos de silencio o de audio activo. La señal se transmite en el módulo de análisis LPC 206 y se procesa en una base de cuadro por cuadro . El módulo VAD también calcula los valores de la banda de filtro la cual se puede usar para la selección por excitación. Durante un periodo de silencio, los estados de selección de excitación no se actualizan para la duración del periodo de silencio. El módulo de selección de excitación 216 determina un primer método de excitación en el primer módulo de selección por etapa 204. El primer método de excitación es uno de excitación ACELP o excitación TCX y se va usar para codificar en la señal en el módulo de generación por excitación 212. si no se puede determinar un método de excitación en el primer módulo de selección por etapa de 204, se deja sin definir. El primer método de excitación determinada por el módulo de selección de excitación 216 se basa en los parámetros recibidos del módulo VAD 202. En particular, la señal de entrada 105 se divide por el módulo VAD 202 en bandas de frecuencia múltiples en donde la señal en cada banda de frecuencia tiene un nivel de energía asociado . Las bandas de frecuencia y los niveles de energía asociados se reciben por el primer módulo de selección por etapa 204 y se pasan al módulo de selección por excitación 216 en donde se analizan para clasificar la señal generalmente como de tipo lenguaje, de tipo música usando un primer método de selección por excitación. El primer método de selección por excitación puede incluir analizar la relación entre las bandas de frecuencia inferiores y superiores de la señal junto con las variaciones del nivel de energía en esas bandas . Las ventanas de análisis diferentes y los umbrales de decisión también se pueden usar en el análisis por el módulo de selección por excitación 216. Otros parámetros asociados con la señal también se pueden usar en el análisis . Un ejemplo de un . banco de filtro 300 utilizado por el módulo VAD 202 que genera diferentes bandas de frecuencia se ilustra en al figura 3. Los niveles de energía asociados con cada banda de frecuencia se generan por análisis estadístico. La estructura del banco filtro 300 incluyen bloques de filtro de 3er orden 306, 312, 314, 316, 318 y 320. El banco filtro 300 incluye además bloques de filtro de 5to. orden 302, 304, 308, 310 y 313. El orden de un bloque de filtro es el retraso máximo en términos del número de muestras usado para crear cada muestra de salidas. Por ejemplo, y(n)=a*x(n) +b*x(n-1) +c* (n-2 ) +d* (n-3 ) especifica un ejemplo de un filtro de 3er orde . Una señal 301 es la entrada en el banco de filtro y se procesa por una serie de bloques del filtro del 3er y de 5to. orden que resulta en las bandas de señal filtrada 4.8 a 6.4 kHz 322, 4.0 a 4.8 kHz 324, 3.2 a 4.0 kHz 326, 2.4 a 3.2 kHz 328, 2.0 a 2.4 kHz 330, 1.6 a 2.0 kHz 332, 1.2 a 1.6 kHz 334, 0.8 a 1.2 kHz 336, 0.6 a 0.8 kHz 338, 0.4 a 0.6 kHz 340, 0.2 a 0.4 kHz 342, 0.0 a 0.2 kHz 344.
La banda de señal filtrada 4.8 a 6.4 kHz 322 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de '5to. orden 304. la banda de señal filtrada 4.0 a 4.8 kHz 324 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de 5to. orden 304 y el bloque de filtro del 3er. orden 306. La banda de señal filtrada 3.2 a 4.0 kHz 326 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de 5to. orden 302 y el bloque de filtro de 3er orden 306. la banda de señal filtrada de 2.4 a 3.25 kHz 330 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de 5to. orden 308 y el bloque de filtro de 5to. orden 310. La banda de señal filtrada 2.0 a 2.4 kHz 330 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de 5to. orden 308 bloque de filtro de 5to. orden 310 y el bloque de filtro de 5to. orden 302. La banda de señal filtrada 1.6 a 2.0 kHz 332 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de 5to. orden 308, el bloque de filtro de 5to. orden 310 y el bloque de filtro de 3er. orden 312. La banda de señal filtrada 1.2 a 1.6 kHz 334 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de 5to. orden 308, el bloque de filtro de 5to. orden 313 y el bloque de filtro de 3er. orden 314. La banda de señal filtrada 0.8 a 1.2 kHz 336 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de 5to. orden 308, el bloque de filtro de 5to. orden 313 y el bloque de filtro de 3er. orden 314. La banda de señal filtrada de 0.6 a 0.8 kHz 338 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de 5to. orden 308, el bloque de filtro de 5to. orden 313, el bloque de filtro de 3er. orden 316 y el bloque de filtro de 3er. orden 318. La banda de señal filtrada 0.4 a 0.6 kHz 340 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de 5to. orden 308, el bloque de filtro de 5to. orden 313 y el bloque de filtro de 3er. orden 316 y el bloque de filtro de 3er. orden 318. La banda de señal filtrada 0.2 a 0.4 kHz 342 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de 5to. orden 308, el bloque de filtro de 5to. orden 313 y el bloque de filtro de 3er. orden 316 y el bloque de filtro de 3er. orden 320. La banda de señal filtrada 0.0 a 0.2 kHz 344 se genera al pasar la señal a través del bloque de filtro de 5to. orden 302 seguido por el bloque de filtro de 5to. orden 308, el bloque de filtro de 5to. orden 313 y el bloque de filtro de 3er. orden 316 y el bloque de filtro de 3er . orden 320.
El análisis de los parámetros por el módulo de selección por excitación 216 y en particular la clasificación resultante de la señal se usa para seleccionar un primer método de excitación, uno de ACELP ó TCK, para codificar la señal en el módulo de generación por excitación 212. Sin embargo, si la señal analizada no resulta en una clasificación de la señal como claramente de tipo lenguaje o de tipo música por ejemplo, cuando la señal tiene características de lenguaje y de música, no se selecciona ningún método de excitación o se selecciona como indeterminado y la decisión de selección se deja hasta una etapa de selección de un método posterior. Por ejemplo, la selección específica se puede hacer en el segundo módulo de selección por etapa 210 después de un análisis LPC y LTP. El siguiente es un ejemplo de un primer método de selección por excitación usado para seleccionar un método de excitación. El códec AMR-WB utiliza los bancos de filtro AMR- B-VM) al determinar el método de excitación, en donde por cada cuadro de entrada de 20 ms, la energía de señal E(n) en cada una de las 12 sub-bandas sobre el intervalo de frecuencia de 0 a 6400 Hz se determina. Los niveles de energía de cada sub-banda se puede normalizar al dividir el nivel de energía E(n) de cada sub-banda por el ancho de esas sub-bandas (en Hz) que producen niveles de energía EN(n) normalizados de cada banda. En el primer módulo de selección de excitación por etapa 204, la desviación estándar de los niveles dé energía se puede calcular para cada una de las 12 sub-bandas usando dos ventanas: una ventana corta stdshort(n) y una ventana larga stdlong(n) . En el caso de AMR-WB+, la longitud de la ventana corta es de 4 cuadros y la ventana larga es de 16 cuadros. Al usar este algoritmo, los 12 niveles de energía del cuadro actual junto con los 12 niveles de energía de los cuadros previos 3 ó 15 (que resultan en 4 y 16 ventanas de cuadros) se usan para derivar los dos valores de desviación estándar. Una característica de este cálculo es que solamente se lleva a cabo cuando el módulo VAD 202 determina que la señal de entrada 105 comprende audio activo. Esto permite que el algoritmo reaccione con más precisión después de periodos prolongados de pausas de lenguaje/ música cuando se pueden distorsionar los parámetros estadísticos. Luego para cada cuadro, la desviación estándar promedio sobre todas las 12 sub-bandas se calcula tanto para las ventanas cortas y largas y los valores de desviación estándar promedio de las stdalong y stdashort también se calculan. Para cada cuadro de la señal de audio, se puede calcular una relación entre las bandas de frecuencia interior y las bandas de frecuencia superior. En AMR-WB+, LevL, se calcula al tomar la suma de los niveles de energía de las sub-bandas de frecuencia inferior a partir de 2 a 8 y normalizar al dividir la suma por la longitud total (ancho de bandas) de esta sub- banda (en Hz) . Para la sub-banda de mayor frecuencia de 9 a 12, la suma de los niveles de energía de esta sub-banda se calcula y se normaliza para dar LevH. En este ejemplo, la sub- banda más baja 1 no se usa en los cálculos debido a que contiene usualmente una cantidad desproporcionada de energía que distorsionaría los cálculos y haría las contribuciones de otra sub-banda demasiado pequeña. A partir de estas mediciones la relación LPH se determina dada por: LPH = LevL/LevH Además , para cada cuadro un promedio en movimiento LPHa se calcula usando los valores actuales y los 3 previos de LPH. Una relación de baja y alta frecuencia LPHaF para el cuadro actual también se calcula con base en la suma ponderada de los valores LPHa promedio en movimiento actuales y los 7 previos en donde se les da mayor ponderación a los valores más recientes . El nivel de energía promedio AVL de los bloques de filtro para el cuadro actual se calcula al restar el nivel de energía estimado del ruido de fondo de cada salida del bloque de filtro y luego se suma el resultado de cada uno de los niveles de energía restados multiplicados por la frecuencia' más elevada del bloque del filtro correspondiente. Esto hace un-balance de las sub-bandas de alta frecuencia que contiene relativamente menos energía en comparación con las sub-bandas de frecuencia inferior y mayor energía.
La energía total del cuadro actual TotEO se calcula al tomar los niveles de energía combinados de todos los bloques de filtro y al restar el ruido de respaldo estimado de cada banco de filtro. Después de hacer los cálculos anteriores, una elección entre los métodos de excitación ACELP y TCX se puede hacer al usar el siguiente método, en donde se asume que cuando se fija una bandera dada, las otras banderas se depuran para evitar conflictos en los ajustes. Primero, el valor de desviación estándar promedio para el stdalong de ventana larga se compara con el primer valor del umbral THl, por ejemplo 0.4. Si el valor de desviación estándar stdalong es más pequeño que el primer valor de umbral THl, se fija una bandera TCX MODE para indicar la selección de la excitación de TCX para codificar. De otra manera, la medición calculada de la relación de alta y baja frecuencia LPHaF se compara con un segundo valor de umbral TH2, por ejemplo 280. Si la medición calculada de la relación de alta y baja frecuencia LPHaF es mayor que el segundo valor de umbral TH2, la bandera TCX MODE se fija. De otra manera, una inversa del valor de desviación estándar stdalong menos el primer valor de umbral THl se calcula y una primera constante Cl, por ejemplo 5, se suma con el valor inverso substraído. La suma se compara con la medición calculada de la relación de alta y baja frecuencia LPHaF como sigue: Cl + (l/(stdalong-THl) ) > LPHaF (1) Si el resultado de la comparación (1) es verdad, la bandera TCX MODE se fija para indicar la selección de la excitación TCX para codificar. Si no es verdad el resultado de la comparación el valor de desviación estándar stdalong se multiplica por un primer multiplicando Mi (por ejemplo -90) y una segunda constante C2 (por ejemplo 120) se agrega al resultado de la multiplicación. La suma se compara con la medición calculada de la relación de alta y baja frecuencia LPHaF como sigue: (Mi*stdalong) + C2 < LPHaF (2) Si la suma es más pequeña que la medición calculada de la relación de baja y alta frecuencia LPHaF, en otras palabras si el resultado de la comparación (2) es verdad, una bandera ACELP MODE se fija para indicar la selección de la excitación ACELP para la codificación. De otra manera una bandera UNCERTAIN MODE lo que indica que el método de excitación no se puede todavía determinar para el cuadro actual . Se puede llevar a cabo un examen adicional antes de la selección del método de excitación para que se confirme el cuadro actual . El examen adicional determina primero si la bandera de ACELP MODE o la bandera UNCERTAIN MODE se fija. Si cualquiera se fija y si el nivel promedio calculado AVL de los bancos de filtro para el cuadro actual es mayor que un valor de umbral tercero TH3 (por ejemplo 2000), entonces la bandera TCX MODE se fija en lugar de la bandera ACELP MODE y la bandera UNCERTAIN MODE se depura. A continuación, si la bandera UNCERTAIN MODE permanece fijada, se efectúan cálculos similares para el valor de desviación estándar promedio stdashort para la ventana corta para aquellos antes descritos para el valor promedio de desviación estándar stdalong para la ventana larga, pero al usar valores ligeramente diferentes para las constantes y umbral en las comparaciones . Si el valor de desviación estándar promedio stdashort para la ventana corta es más pequeño que un cuarto valor de umbral TH4 (por ejemplo 0.2), la bandera TCX MODE se fija para indicar la selección de la excitación TCX para codificación. De otra manera, una inversa del valor de desviación estándar stdashort para la ventana corta menos el cuarto valor de umbral TH4 se calcula y una tercera constante C3 (por ejemplo, 2.5) se suma al valor inverso substraído. La suma se compara con la medición calculada de la relación de alta y baja frecuencia LPHaF como sigue: C3 + (1/ (stdas ort-TH4) ) > LPHaF (3) Si el resultado de la comparación (3) es verdad, la bandera TCX MODE se fija para indicar la selección de la excitación TCX para codificación. Si el resultado de la comparación no es verdad, el valor de desviación estándar stdashort se multiplica por un segundo multiplicando M2 (por ejemplo -90) y una cuarta constante C4 (por ejemplo 140) se agrega al resultado de la multiplicación. La suma se compara con la medición calculada de la relación de alta y baja frecuencia LPHaF como sigue: M2+stdashort + C4 < LPHaF (4) Si la suma es más pequeña que la medición calculada de la relación de baja y alta frecuencia LPHaF, en otras palabras si el resultado de la comparación (4) es verdad, la bandera ACELP MODE se fija para indicar la selección de la excitación ACELP para codificación. De otra manera, la bandera UNCERTAIN MODE se fija indicando que el método de excitación todavía no se puede determinar para el cuadro actual . En una siguiente etapa, los niveles de energía del cuadro actual y el cuadro previo se pueden examinar. Si la energía entre la energía total del cuadro actual TotEO y la energía total del cuadro previo TotE-1 es mayor que un quinto valor de umbral TH5 (por ejemplo 25) la bandera ACELP MODE se fija y la bandera TCX MODE y la bandera UNCERTAIN MODE se depuran. Finalmente, si la bandera TCX MODE o la bandera UNCERTAIN MODE se fija y si el nivel promedio calculado AVL de los bancos de filtro 300 para el cuadro actual es mayor que el tercer valor de umbral TH3 y la energía total del cuadro actual TotEO es menor que el sexto valor de umbral TH6 (por ejemplo 60), la. bandera ACELP MODE se fija. Cuando el primer método de selección por excitación antes descrito se lleva a cabo, el primer método de excitación de TCX se selecciona en el primer bloque de excitación 204 cuando la bandera TCX MODE se fija o el segundo método de excitación de ACELP se selecciona en el primer bloque de excitación 204 cuando la bandera ACELP MODE se fija. Sin embargo, si se fija la bandera UNCERTAIN MODE el primer método de selección por excitación no tiene determinado un método de excitación. En este caso, cualquier excitación ACELP o TCX se selecciona en otros bloques de selección por excitación tal como el segundo módulo de selección por etapa 210 en donde un análisis adicional se puede efectuar para determinar cual de la excitación ACELP o TCX usar. El primer método de selección por excitación antes descrito se puede ilustrar por el siguiente pseudo-código . si (stdalong < THl) SET TCX_MODE además si (LPHaF > TH2) SET TCX_MODE además si ( (Cl+1/ (stdalong-THl) ) ) > LPHaF) SET TCX_MODE además si ((Mi* stdalong + C2) < LPHaF) SET ACELP_MODE además SET UNCERTAIN_MODE SÍ (ACELP_MODE o UNCERTAIN_MODE) y (AVL > TH3 ) SET TCX_MODE si (l CERTAIN_MODE) si (stdashort < TH4) SET TCX_MODE además si ( (C3+ (1/ (stdashort-TH4) ) ) > LPHaF) SET TCX_MODE además si ((M2* stdashort+C4) < LPHaF) SET ACELP_MODE además SET UWCERTAIN_MODE si (UNCERTAIN_MODE) si ( (ToTEO / TotE-1) > TH5 SET ACELP_MODE si (TCX_MODE I I UNCERTAIN_MODE) ) si (AVL > TH3 y TotEO < TH6) SET ACELP-MODE Después de que el primer módulo de selección por etapa 204 ha finalizado el método anterior y seleccionado un primer método de excitación para codificar la señal, la señal se transmite sobre el módulo de análisis LPC 206 a partir del módulo VAD 202, el cual procesa la señal en una base de cuadro por cuadro .
Específicamente, el módulo de análisis LPC 206 determina un filtro LPC que corresponde al cuadro al minimizar el error residual del cuadro . Una vez que se ha determinado el filtro LPC se puede representar por un conjunto de coeficientes de filtro LPC para el filtro. El cuadro procesado por el módulo de análisis LPC 206 junto con algunos parámetros determinados por el módulo de análisis LPC tal como los coeficientes de filtro LPC se transmiten sobre el módulo de análisis LTP 208.
El módulo de análisis LTP 208 procesa el cuadro recibido y los parámetros. En particular, el módulo de análisis LTP calcula un parámetro LTP el cual se relaciona cercanamente con la frecuencia fundamental del cuadro y se refiere a menudo como un parámetro de "retraso de la separación" o un parámetro "retardado de la separación" lo cual describe la periodicidad de la señal del lenguaje en los términos de muestras de lenguaje. Otro parámetro calculado por el módulo de análisis LTP 208 es la ganancia de LTP y se relaciona cercanamente con la periodicidad fundamental de la señal de lenguaje. El cuadro procesado por el módulo de análisis LTP 208 se transmite junto con los parámetros calculados al módulo de generación por excitación 212, en donde el cuadro se codifica usando uno de los métodos de excitación ACELP o TCX. La selección de uno de los métodos de excitación ACELP o TCX se hace por el módulo de selección de excitación 216 en conjunto con el segundo módulo de selección por etapa 210.
, El segundo módulo de selección por etapa 210 recibe el cuadro procesado por el módulo de análisis LTP 208 junto con los parámetros calculados por el módulo de análisis LPC 206 y el módulo de análisis LTP 208. Estos parámetros se analizan por el módulo de selección por excitación 216 para determinar el método de excitación óptimo con base en los parámetros LPC y LTP y la correlación formalizada de la excitación ACELP y la excitación TCX para usar el cuadro actual. En particular, el módulo de selección por excitación 216 analiza los parámetros del módulo de análisis LPC 206 y particularmente el módulo de análisis LTP 208 y los parámetros de correlación para seleccionar el método de excitación óptimo a partir de la excitación ACELP y la excitación TCX. El segundo módulo de selección por etapas verifica el primer método de excitación determinado por el primer módulo de selección por etapas o si se determinó el primer método de excitación como indeterminado por el primer método de selección por excitación el módulo de selección por excitación 210 selecciona el método de excitación óptimo de esta etapa. Consecuentemente, la selección de un método de excitación para codificar un cuadro se retrasa hasta después de que se ha efectuado el análisis LTP. Se puede usar una correlación normalizada en el segundo módulo de selección de etapa y se puede calcular como sigue: NormCorr En donde la longitud del cuadro es N, T0 es el retraso de circuito abierto del cuadro que tiene una longitud N, Xi es la muestra enésima del cuadro codificado, Xi-TO es la muestra de un cuadro codificado que tiene T0 muestras retiradas de la muestra i. Existen también alguna excepciones en la segunda selección de excitación de etapa, en donde la primera selección de excitación de etapa de ACELP o TCX se puede cambiar o volver a seleccionar. En una señal estable, en donde la diferencia entre los valores de retraso mínimo y máximo de los cuadros actuales y previos está debajo de un umbral predeterminado TH2, el retraso puede no cambiar mucho entre los cuadros actuales y previos. En A R-WB+, el rango de la ganancia LTP está típicamente entre 0 y 1.2. El rango de la correlación normalizada está típicamente entre 0 y 1.0. Como un ejemplo, el umbral que indica una alta ganancia LTP puede estar por encima de 0.8. Una alta correlación (o similitud) de la ganancia LTP y una correlación normalizada se puede observar al examinar su diferencia. Si la diferencia está debajo de un tercer umbral, por ejemplo, 0.1 en los cuadros actuales y/o pasados, la ganancia LTP y la correlación considerada se considera que tienen una alta correlación. Si la señal es transitoria en naturaleza, se puede codificar usando un primer método de excitación, por ejemplo, por ACELP, en una modalidad de la presente invención. Las secuencias transitorias se pueden detectar al usar una distancia espectral SD de los cuadros adyacentes. Por ejemplo, si la distancia espectral, SDn del cuadro n calculada de los coeficientes del par del espectro de inmitancia (ISP) en los cuadros actual y previo supera un primer umbral predeterminado, la señal se clasifica como transitoria. Los coeficientes ISP se derivan a partir de los coeficientes de filtro LPC que se han convertido en la representación ISP. Las secuencias de tipo ruido se pueden codificar usando un segundo método de excitación por ejemplo por excitación TCX. Estas secuencias se pueden detectar al examinar los parámetros LTP y la frecuencia promedio a lo largo del cuadro del dominio de frecuencia. Si los parámetros LTP son muy inestables y/o la frecuencia promedio supera un umbral predeterminado, el cuadro se determina como que contiene una señal de tipo ruido. Un ejemplo de un algoritmo que se puede usar en el segundo método de selección por excitación se describe como sigue . Si se fija la bandera VAD, lo que denota una señal activa de audio y se ha determinado el primer método de excitación en el primer módulo de selección por etapa como indeterminado (definido como TCX_OR_ACELP por ejemplo) , el segundo método de excitación se puede seleccionar como sigue: Si {SDw > 0-2} Modo = ACELP_MODE; además Si {LagDifbuf < 2 ) Si == HIGH LÍMIT o Uga == LOW L1MIT){ Si {GaírifrNormCQrrn<OA y NúrmCo r^O.9) Modo = ACEL MGDi además Modo = TCX_MÜDE además Si (Gailítr NormCorru < 0.1 y HotmCorr„ > 0.88) Modo = ACELPJVIODE además Si (Gam - Nor Cofrn > 0.2} Modo = TCX_MGDE además NoMtcx - NoMtcx + 1 si (SDo > 0.15) Modo - ACELPJVIODE; además NoMtcx - NoMtCX +1.
La distancia espectral, SDn del cuadro n se calcula a partir de los parámetros ISP como sigue: En donde ISPn es el vector de los coeficientes ISP del cuadro n y ISPn(i) es el elemento enésimo de ello. LagDifbuf es la memoria intermedia que contiene valores de retraso de circuito abierto de los previos 10 cuadros (20 ms) .
Lagn contiene dos valores de retraso de circuito abierto del cuadro actual n. Gairin contiene dos valores de ganancia LTP del cuadro actual n. NormCorrn contiene dos valores de correlación normalizados del cuadro actual n. MaxEnergybUf es el valor máximo de los valores de energía que contienen la memoria intermedia. La memoria intermedia de energía contiene los últimos 6 valores de los cuadros actual y previo (20 ms) . Iphn indica la interrupción espectral. NoMtcx es la bandera que indica evitar la codificación TCX con una longitud de cuadro larga (80ms) , si se selecciona la excitación TCX. Si se fija una bandera VAD, que denote una señal activa de audio, y se ha determinado un primer método de excitación en el primer módulo de selección por etapa como ACELP, la primera determinación del método de excitación se verifica de acuerdo con el siguiente algoritmo en donde el método se puede intercambiar a TCX. si {LagDifbuf<2) si (NormCorrfí < QM y S0„ < G.1 } Modo = TCX_ MODE; si (lp n > 200 y SD„ < 0, 1 ) Modo - TCX MODE Si se fija la bandera VAD en el cuadro actual y se ha fijado la bandera VAD a cero en al menos uno de los cuadros en el super cuadro previo (un super-cuadro tiene 80 ms de largo y comprende 4 cuadros, cada uno de 20 ms de longitud) y el modo se ha seleccionado como el modo TCX, el uso de la excitación TCX que resulta en cuadros de 80 ms, TCX80, se desactiva (se fija la bandera NoMtcx) . si {Y§tfFíagQM=~ 0 y vadFíag =~ 1 y modo == TCX_MODE)) NoMtcx = NoBMex +1 Si se fija la bandera VAD y se ha determinado como indeterminado el primer método de selección por excitación (TCX_OR__ACELP) o TCX, el primer método de selección por excitación se verifica de acuerdo con el siguiente algoritmo. si (0<}/¾ - Nor Cor rt < 0.006 y No &o r^ > 0.92 y lag» > 21 ) DFTSum = 0; para ( 1 ; 40; { DFTSum = DFTSum + mag[i]; si (DFTSum > 95 y mag{Q] < S) { Modo = TCX_ ODE; además Modo = ACELPJVIGDE; NoMtcx ? NoMtcx +1 vadFlagoia es la bandera VAD del cuadro previo y vadFlag es la bandera VAD del cuadro actual . No tcx es la bandera que indica evitar la excitación TCX con la longitud de cuadro larga (80ms), si selecciona el método de excitación TCX. Mag es una cubierta espectral con transformada de Fourier discreta (DFT) creada a partir de coeficientes de filtro LP, Ap del cuadro actual . DFTSum es la suma de los primeros 40 elementos del vector mag, excluyendo el primer elemento (mag (O)) del vector mag. El cuadro después del segundo módulo de selección por etapa 210 luego se transmite sobre el módulo de generación por excitación 212, el cual codifica el cuadro recibido a partir del módulo de análisis LTP 208 junto con los parámetros recibidos a partir de los módulos previos usando uno de los métodos de excitación seleccionado en los módulos de selección de segunda o de primera etapa 210 ó 204. La codificación se controla por el módulo de selección de excitación 216. La salida del cuadro por el módulo de generación de excitación 212 es un cuadro codificado representado por los parámetros determinados por el módulo de análisis LPC 206, el módulo de análisis LTP 208 y el módulo de generación por excitación 212. El cuadro codificado sale por medio de un tercer módulo de selección por etapa 214. Si se usa la excitación ACELP para codificar el cuadro, luego el cuadro codificado pasa directo al tercer módulo de selección por etapa 214 y sale directamente como cuadro codificado 107. Sin embargo, si se usa la excitación TCX para codificar el cuadro, entonces la longitud del cuadro codificado se debe seleccionar dependiendo del número ¦ de cuadros previamente seleccionados ACELP en el supercuadro en donde un supercuadro tiene una longitud de 80ms y comprende de 4 x 20 ms cuadros. En otras palabras, la longitud del cuadro codificado TCX depende del número de cuadros ACELP en los cuadros precedentes . La longitud máxima del cuadro codificado TCX es 80ms y se puede hacer de un cuadro codificado TCX sencillo 80ms (TCX80) , 2 x 40ms cuadros codificados TCX (TCX409 o 4 x 20 ms cuadros codificado TCX (TCX20) . La decisión en cuanto a como codificar el cuadro 80 ms TCX se hace al usar el tercer módulo de selección de etapa 214 por el módulo de selección de excitación 216 y depende del número de cuadros seleccionados ACELP en el super cuadro. Por ejemplo, el tercer módulo de selección por etapa 214 puede medir la selección de señal a ruido de los cuadros codificados a partir del módulo de generación por excitación 212 y seleccionar ya sea los cuadros codificados 2 x 40 ms o un cuadro codificado sencillo 80 ms de esta manera. La tercera etapa se selección por excitación se hace solamente si el número de método ACELP seleccionado en una primera y segunda etapa se selección por excitación es menor a tres (ACELP<3) con un super-cuadro 80 ms . La tabla 1 a continuación muestra las combinaciones de métodos posibles antes y después de la tercera etapa de selección por excitación. En la tercera etapa de selección por excitación, la longitud del cuadro de longitud TCX se selecciona por ejemplo, de acuerdo con S R. Tabla 1 combinaciones de método en TCX Las modalidades descritas seleccionan asi la excitación ACELP para señales periódicas para una correlación alta de larga duración, la cual puede incluir señales de lenguaje y señales transitorias. Por otro lado, la excitación TCX se seleccionará para ciertos tipos de señales estacionarias, señales de tipo ruido y señales de tipo tono, las cuales sean más adecuadas para manejar y codificar la resolución de frecuencia de tales señales. La selección del método de excitación en las modalidades se retrasa pero aplica al cuadro actual y proporciona por lo tanto un método de complejidad menor para codificar una señal en las configuraciones previamente conocidas . También el consumo de memoria del método descrito es considerablemente menor que en la configuraciones previamente conocidas . Esto es particularmente importante en dispositivos móviles que tienen una memoria limitada y un poder de procesamiento. Adicionalmente, el uso de parámetros del módulo VAD, módulos de análisis LPC y LTP resulta en una clasificación más precisa de la señal y por lo tanto una selección más precisa del método de excitación óptimo para codificar la señal. Se debe observar que aunque la discusión anterior y las modalidades anteriores se refieren a un códec AMR-WB+, una persona experta en la técnica apreciará que las modalidades pueden igualmente ser para otros códec en donde se puede usar más de un método de excitación, como modalidades alternativas y como modalidades adicionales . Adicionalmente, aunque las modalidades anteriores describen el uso de uno de los dos métodos de excitación, ACELP y TCX, una persona experta en la técnica apreciará que los otros métodos d excitación se pueden también usar en lugar de y también como aquellos descritos en las modalidades adicionales y alternativas .
El codificador se puede también usar en otras terminales así como en terminales móviles, tal como una computadora u otro dispositivo para procesamiento de señales. También se observa en la presente que aunque lo anterior describe modalidades e emplificadoras de la invención, existen diversas variaciones y modificaciones las cuales se pueden hacer a la solución descrita sin alejarse del alcance de la presente invención como se define en las reivindicaciones anexas . Se hace constar que con relación a esta fecha, el mejor método conocido para llevar a la práctica la citada invención, es el que resulta claro a partir de la presente descripción de la invención.

Claims (30)

  1. REIVINDICACIONES
  2. Habiéndose descrito la invención como antecede se reclama como propiedad lo contenido en las siguientes reivindicaciones . 1. Un método para codificar un cuadro en un codificador de un sistema de comunicación, el método caracterizado porgue comprende las etapas de: calcular un primer conjunto de parámetros asociados con el cuadro, en donde el primer conjunto de parámetros comprende parámetros de un banco de filtro; seleccionar en una primera etapa, uno de una pluralidad de métodos de codificación con base en las condiciones predeterminadas asociadas con el primer conjunto de parámetros ; calcular un segundo conjunto de parámetros asociados con el cuadro; seleccionar en una segunda etapa, uno de una pluralidad de métodos de codificación con base en el resultado de la primera selección de etapa y el segundo conjunto de parámetros ; y codificar el' cuadro al usar el método de codificación seleccionado a partir de la segunda etapa. 2. El método de conformidad con la reivindicación 1, caracterizado porque la pluralidad de métodos de codificación comprende un primer método de excitación y un segundo método de excitación.
  3. 3. El método de conformidad con la reivindicación 1, caracterizado porque el primer conjunto de parámetros se basa en los niveles de energía de una o más bandas de frecuencia asociadas con el cuadro.
  4. 4. El método de conformidad con la reivindicación 1, caracterizado porque en la primera etapa, para diferentes condiciones predeterminadas del primer conjunto de parámetros, no se selecciona método de codificación en la primera etapa.
  5. 5. El método de conformidad con la reivindicación 1, caracterizado porque el segundo conjunto de parámetros comprende al menos uno de parámetros espectrales, parámetros LTP y parámetros de correlación asociados con el cuadro .
  6. 6. El método de conformidad con la reivindicación 2, caracterizado porque el primer método de excitación es una excitación de predicción lineal excitada por código algebraico .
  7. 7. El método de conformidad con la reivindicación 2 , caracterizado porque el segundo método de excitación es excitación codificada por transformada.
  8. 8. El método de conformidad con la reivindicación 2, caracterizado porque cuando se codifica el cuadro al usar el segundo método de excitación, el método para codificación comprende además : Seleccionar la longitud del cuadro codificado al usar el segundo método de excitación al seleccionar en la primera etapa y la segunda etapa.
  9. 9. El método de conformidad con la reivindicación 8, caracterizado porque la selección de la longitud del cuadro codificado depende de la relación de señal a ruido del cuadro.
  10. 10. El método de conformidad con la reivindicación 1, caracterizado porque el codificador es un codificador AMR- B+.
  11. 11. El método de conformidad con la reivindicación 1, caracterizado porque el cuadro es un cuadro de audio .
  12. 12. El método de conformidad con la reivindicación 10, caracterizado porque el cuadro de audio comprende lenguaje y no lenguaje.
  13. 13. El método de conformidad con la reivindicación 11, caracterizado porque el no lenguaje comprende música.
  14. 14. Un codificador para codificar un cuadro en un sistema de codificación, el codificador caracterizado porque comprende : un primer módulo de cálculo adaptado para calcular un primer conjunto de parámetros asociados con el cuadro, en donde el primer conjunto de parámetros comprende parámetros del banco de filtro; un primer módulo de selección por etapas adaptado para seleccionar una de una pluralidad de métodos de codificación basados en condiciones predeterminadas asociadas con el primer conjunto de parámetros; un segundo módulo de cálculo adaptado para calcular un segundo conjunto de parámetros asociados con el cuadro; un segundo módulo de selección por etapas adaptado para seleccionar una de una pluralidad de métodos de codificación con base en el resultado de la primera selección de etapa y el segundo conjunto de parámetros; y un módulo de codificación adaptado para codificar el cuadro que usa el método de codificación seleccionado de la segunda etapa.
  15. 15. El método de conformidad con la reivindicación 14, caracterizado porque la pluralidad de métodos de codificación comprende un primer método de excitación y un segundo método de excitación.
  16. 16. El codificador de conformidad con la reivindicación 15, caracterizado porque el primer método de excitación es una excitación de predicción lineal excitada por código algebraico .
  17. 17. El codificador de conformidad con la reivindicación 15, caracterizado porque el segundo método de excitación es una excitación codificada por transformada.
  18. 18. El codificador de conformidad con la reivindicación 14, caracterizado porque el primer conjunto de parámetros se basa en los niveles de energía de una o más bandas de frecuencia asociadas con el cuadro.
  19. 19. El codificador de conformidad con la reivindicación 14, caracterizado porque el primer módulo de selección de etapa se adapta para no seleccionar ningún método de codificación con base en condiciones predeterminadas diferentes del primer conjunto de parámetros.
  20. 20. El codificador de conformidad con la reivindicación 14, caracterizado porgue el segundo conjunto de parámetros comprende al menos uno de parámetros espectrales, parámetros LTP y parámetros de correlación asociados con el cuadro .
  21. 21. El codificador de conformidad con la reivindicación 15, caracterizado porgue comprende además: Un tercer módulo de selección de etapa adaptado para seleccionar la longitud del cuadro codificado usando el segundo método de excitación con base en la selección en el primer módulo de selección de etapa y el segundo módulo de selección de etapa.
  22. 22. El codificador de conformidad con la reivindicación 14, caracterizado porque la selección de la longitud del cuadro codificado depende de la relación de señal a ruido del cuadro .
  23. 23. El codificador de conformidad con la reivindicación 14, caracterizado porque el codificador es un codificador AMR- B+.
  24. 24. El codificador de conformidad con la reivindicación 14, caracterizado porgue el cuadro es un cuadro de audio.
  25. 25. El codificador de conformidad con la reivindicación 14, caracterizado porgue el cuadro de audio comprende lenguaje y no lenguaje.
  26. 26. El codificador de conformidad con la reivindicación 14, caracterizado porgue el no lenguaje comprende música.
  27. 27. Una terminal caracterizada porgue comprende el codificador de conformidad con la reivindicación 14.
  28. 28. La terminal de conformidad con la reivindicación 27, caracterizada porgue la terminal es un dispositivo procesador de señales .
  29. 29. La terminal de conformidad con la reivindicación 27, caracterizada porgue la terminal es una terminal móvil.
  30. 30. Un método para codificar un cuadro en un codificador de un sistema de comunicación, el método caracterizado porgue comprende las etapas de: calcular un primer conjunto de parámetros asociados con el cuadro, en donde el primer conjunto de parámetros comprende parámetros de banco de filtro; seleccionar en una primera etapa, uno de un primer método de excitación o segundo método de excitación con base en el primer conjunto de parámetros; codificar el cuadro usando el método de excitación seleccionado .
MXPA06011957A 2004-04-21 2005-04-19 Codificacion de senales. MXPA06011957A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0408856.3A GB0408856D0 (en) 2004-04-21 2004-04-21 Signal encoding
PCT/IB2005/001033 WO2005104095A1 (en) 2004-04-21 2005-04-19 Signal encoding

Publications (1)

Publication Number Publication Date
MXPA06011957A true MXPA06011957A (es) 2006-12-15

Family

ID=32344124

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA06011957A MXPA06011957A (es) 2004-04-21 2005-04-19 Codificacion de senales.

Country Status (18)

Country Link
US (1) US8244525B2 (es)
EP (1) EP1738355B1 (es)
JP (1) JP2007534020A (es)
KR (2) KR20080103113A (es)
CN (1) CN1969319B (es)
AT (1) ATE483230T1 (es)
AU (1) AU2005236596A1 (es)
BR (1) BRPI0510270A (es)
CA (1) CA2562877A1 (es)
DE (1) DE602005023848D1 (es)
ES (1) ES2349554T3 (es)
GB (1) GB0408856D0 (es)
HK (1) HK1104369A1 (es)
MX (1) MXPA06011957A (es)
RU (1) RU2006139793A (es)
TW (1) TWI275253B (es)
WO (1) WO2005104095A1 (es)
ZA (1) ZA200609627B (es)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2566368A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
JP5113049B2 (ja) * 2005-07-29 2013-01-09 エルジー エレクトロニクス インコーポレイティド 符号化されたオーディオ信号の生成方法及びオーディオ信号の処理方法
JP2009524101A (ja) * 2006-01-18 2009-06-25 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
WO2007119135A2 (en) * 2006-04-19 2007-10-25 Nokia Corporation Modified dual symbol rate for uplink mobile communications
JP4847246B2 (ja) * 2006-07-31 2011-12-28 キヤノン株式会社 通信装置、通信装置の制御方法、及び当該制御方法をコンピュータに実行させるためのコンピュータプログラム
PT2102619T (pt) * 2006-10-24 2017-05-25 Voiceage Corp Método e dispositivo para codificação de tramas de transição em sinais de voz
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
JP4410792B2 (ja) * 2006-12-21 2010-02-03 株式会社日立コミュニケーションテクノロジー 暗号化装置
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
US8982744B2 (en) * 2007-06-06 2015-03-17 Broadcom Corporation Method and system for a subband acoustic echo canceller with integrated voice activity detection
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
WO2009038422A2 (en) * 2007-09-20 2009-03-26 Lg Electronics Inc. A method and an apparatus for processing a signal
US8050932B2 (en) 2008-02-20 2011-11-01 Research In Motion Limited Apparatus, and associated method, for selecting speech COder operational rates
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
KR20100007738A (ko) * 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
KR101297026B1 (ko) * 2009-05-19 2013-08-14 광운대학교 산학협력단 Mdct―tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법
CN101615910B (zh) * 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
US20110040981A1 (en) * 2009-08-14 2011-02-17 Apple Inc. Synchronization of Buffered Audio Data With Live Broadcast
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) * 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CA3093517C (en) 2010-07-02 2021-08-24 Dolby International Ab Audio decoding with selective post filtering
AR085895A1 (es) 2011-02-14 2013-11-06 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio
CN103493129B (zh) * 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
ES2535609T3 (es) 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
EP4243017A3 (en) 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
CN104321815B (zh) * 2012-03-21 2018-10-16 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
US8645128B1 (en) * 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
MY177336A (en) * 2013-01-29 2020-09-12 Fraunhofer Ges Forschung Concept for coding mode switching compensation
US9147397B2 (en) * 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
EP4336500A3 (en) 2014-04-17 2024-04-03 VoiceAge EVS LLC Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
CN107424621B (zh) * 2014-06-24 2021-10-26 华为技术有限公司 音频编码方法和装置
CN106448688B (zh) * 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
SG11201509526SA (en) * 2014-07-28 2017-04-27 Fraunhofer Ges Forschung Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
CN107210824A (zh) 2015-01-30 2017-09-26 美商楼氏电子有限公司 麦克风的环境切换
CN105242111B (zh) * 2015-09-17 2018-02-27 清华大学 一种采用类脉冲激励的频响函数测量方法
CN111739543B (zh) * 2020-05-25 2023-05-23 杭州涂鸦信息技术有限公司 音频编码方法的调试方法及其相关装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
FI101439B1 (fi) * 1995-04-13 1998-06-15 Nokia Telecommunications Oy Transkooderi, jossa on tandem-koodauksen esto
JP2882463B2 (ja) * 1995-11-01 1999-04-12 日本電気株式会社 Vox判定装置
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
EP0932141B1 (en) 1998-01-22 2005-08-24 Deutsche Telekom AG Method for signal controlled switching between different audio coding schemes
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
FR2825826B1 (fr) * 2001-06-11 2003-09-12 Cit Alcatel Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
KR100477701B1 (ko) * 2002-11-07 2005-03-18 삼성전자주식회사 Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US7120576B2 (en) * 2004-07-16 2006-10-10 Mindspeed Technologies, Inc. Low-complexity music detection algorithm and system

Also Published As

Publication number Publication date
AU2005236596A1 (en) 2005-11-03
JP2007534020A (ja) 2007-11-22
ZA200609627B (en) 2008-09-25
RU2006139793A (ru) 2008-05-27
CN1969319A (zh) 2007-05-23
ATE483230T1 (de) 2010-10-15
CN1969319B (zh) 2011-09-21
GB0408856D0 (en) 2004-05-26
HK1104369A1 (en) 2008-01-11
KR20070001276A (ko) 2007-01-03
US20050240399A1 (en) 2005-10-27
US8244525B2 (en) 2012-08-14
KR20080103113A (ko) 2008-11-26
TW200605518A (en) 2006-02-01
TWI275253B (en) 2007-03-01
CA2562877A1 (en) 2005-11-03
ES2349554T3 (es) 2011-01-05
WO2005104095A1 (en) 2005-11-03
DE602005023848D1 (de) 2010-11-11
EP1738355A1 (en) 2007-01-03
BRPI0510270A (pt) 2007-10-30
EP1738355B1 (en) 2010-09-29

Similar Documents

Publication Publication Date Title
US8244525B2 (en) Signal encoding a frame in a communication system
US7747430B2 (en) Coding model selection
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
KR100962681B1 (ko) 오디오신호들의 분류
EP1279167B1 (en) Method and apparatus for predictively quantizing voiced speech
RU2636685C2 (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
MXPA06009370A (es) Seleccion de modelos de codificacion
MXPA06009369A (es) Clasificacion de señales de audio

Legal Events

Date Code Title Description
FA Abandonment or withdrawal