MXPA06009370A - Seleccion de modelos de codificacion - Google Patents

Seleccion de modelos de codificacion

Info

Publication number
MXPA06009370A
MXPA06009370A MXPA/A/2006/009370A MXPA06009370A MXPA06009370A MX PA06009370 A MXPA06009370 A MX PA06009370A MX PA06009370 A MXPA06009370 A MX PA06009370A MX PA06009370 A MXPA06009370 A MX PA06009370A
Authority
MX
Mexico
Prior art keywords
excitation
ltp
block
audio signal
frames
Prior art date
Application number
MXPA/A/2006/009370A
Other languages
English (en)
Inventor
Makinen Jari
Original Assignee
Nokia Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corporation filed Critical Nokia Corporation
Publication of MXPA06009370A publication Critical patent/MXPA06009370A/es

Links

Abstract

La invención se refiere a un codificador (200) que comprende una entrada (201) para ingresar cuadros de una señal de audio, un bloquede análisis LTP (209) para llevar a cabo un análisis LTP a los cuadros de la señal de audio para formar parámetros LTP con base en las propiedades de la señal de audio, y por lo menos un primer bloque de excitación (206) para llevar a cabo una primera excitación para cuadros de la señal de audio, y un segundo bloque de excitación (207) para llevar a cabo una segunda excitación para cuadros de la señal de audio. El codificador (200) comprende además un bloque de análisis de parámetros (202) para analizar los parámetros LTP, y un bloque de selección de excitación (203) para seleccionar un bloque de excitación de entre el primer bloque de excitación (206) y el segundo bloque de excitación (207) para llevar a cabo la excitación para cuadros de la señal de audio con base en el análisis de parámetro. La invención se refiere también a un dispositivo, un sistema, un método, un módulo y un producto de programa de computadora.

Description

For two-letter codes and other abbreviations, refer to the "Guidance Notes on Codes andAbbreviations" appearing at the begin-ning ofeach regular issue ofthe PCT Gazette.
SELECCIÓN DE MODELOS DE CODIFICACIÓN Campo de la invención La invención se refiere a codificación audio en la cual un modo de codificación se cambia dependiendo de las propiedades de la señal de' audio. La presente invención se refiere a un codificador que comprende una entrada para ingresar cuadros de una señal de audio, un bloque de análisis por predicción a largo plazo (LTP) para llevar a cabo un análisis LTP a los cuadros de la señal de audio para formar parámetros de predicción a largo plazo (LTP) con base en las propiedades de la señal de audio, y por lo menos un primer bloque de excitación para llevar a cabo una primera excitación para cuadros de la señal de audio, y un segundo bloque de excitación para llevar a cabo una segunda excitación para cuadros de la señal de audio. La invención se refiere también a un dispositivo que comprende un codificador que comprende una entrada para ingresar cuadros de una señal de audio, un bloque de análisis LTP para llevar a cabo un análisis TLP a los cuadros de la señal de audio para formar parámetros LTP con base en las propiedades de la señal de audio, y por lo menos un primer bloque de excitación para llevar a cabo una excitación para cuadros de la señal de audio, y un segundo bloque de excitación para llevar a cabo una segunda excitación para cuadros de la- señal de audio . La invención se refiere también a REF.: 174855 un sistema que comprende un codificador que comprende una entrada para ingresar cuadros de una señal de audio, un bloque de análisis LTP para llevar a cabo un análisis LTP- a los cuadros, de la señal de audio para formar parámetros LTP con base en las propiedades de la señal de audio, y por lo menos un primer bloque de excitación para llevar a cabo una primera excitación para cuadros de la señal de audio, y al menos un segundo bloque de excitación para llevar a cabo una segunda excitación para cuadros de la señal de audio. La invención, se refiere además a un método para procesar señales de audio, en el cual se lleva a cabo un análisis LTP a los cuadros de la señal de audio para formar parámetros LTP con base en las propiedades de la señal, y por lo menos una primera excitación y una segunda excitación se seleccionan para llevarse a cabo para cuadros de la señal de audio. La invención se refiere a un módulo que comprende un bloque de análisis LTP para llevar a cabo un análisis LTP a cuadros de una señal de audio para formar parámetros LTP con base en las propiedades de la señal de audio. La invención se refiere a un producto de programa de computadora que comprende etapas ejecutables por máquina para codificar señales de audio, en el cual un análisis LTP se lleva a cabo a los cuadros de la señal de audio para formar parámetros LTP con base en las propiedades de la señal, y por lo menos una primera excitación y una segunda excitación son seleccionables para llevarse a cabo para cuadros de la señal de audio . Antecedentes de la invención En muchas aplicaciones de procesamiento de señales de audio las señales de audio se comprimen para reducir los requerimientos de energía de procesamiento cuando se procesa la señal de audio. Por ejemplo, en los sistemas de comunicación digital una señal de audio se captura típicamente como una señal análoga, se digitaliza en un convertidor análogo a digital (A/D) y luego se codifica antes de su transmisión sobre una interfaz aérea inalámbrica entre un equipo de usuario, tal como uña estación móvil, y una estación de base. El propósito de la codificación es comprimir la señal digitalizada y transmitirla sobre la interfaz aérea con la mínima cantidad de datos manteniendo al mismo tiempo un nivel de calidad de señal aceptable. Esto es particularmente importante toda vez que la capacidad de los canales de radio sobre la interfaz aérea inalámbrica es limitada en una red de comunicación celular. Existen también aplicaciones en las cuales una señal de audio digitalizada se almacena en un medio de almacenamiento para la posterior reproducción de la señal de audio. La compresión puede ser con pérdidas o sin pérdidas . En la compresión con pérdidas cierta información se pierde durante la compresión cuando no es posible reconstruir completamente la señal original de la señal comprimida. En la compresión sin pérdidas normalmente no se pierde información alguna. Por consiguiente, la señal original puede normalmente ser reconstruida completamente a partir de la señal comprimida. El término señal de audio normalmente se entiende como una señal que contiene voz, música (no voz) o ambas. La naturaleza diferente de la voz y la música hace bastante difícil diseñar un algoritmo de compresión que funcione igualmente bien tanto para voz como para música. Por lo tanto, el problema comúnmente se resuelve al diseñar diferentes algoritmos tanto para voz como para audio y usando cierto tipo - de método de reconocimiento para reconocer si la señal de audio es. tipo voz o tipo música y seleccionar el algoritmo adecuado de acuerdo con el reconocimiento. En general, la clasificación puramente entre señales de voz y música o no de voz es una tarea difícil. La precisión que se requiere depende en gran parte de la aplicación. En algunas aplicaciones la precisión es más crítica, tal como en el reconocimiento de voz o en el archivo preciso para propósitos de el almacenamiento y retiro. Sin embargo, la situación es un poco diferente si la clasificación se usa para seleccionar un método de compresión óptimo para la señal de entrada. En este caso, puede ocurrir que no exista un método de compresión que siempre sea óptimo para voz, y otro método que siempre sea óptimo para señales de música o no de voz . En la práctica, puede ocurrir que un método de compresión para transitorios de voz también sea muy eficiente para transitorios de música. También es posible que una compresión de música para fuertes componentes tonales pueda ser adecuada para segmentos de voz. Asimismo, en estos casos, los métodos para clasificar sólo puramente a partir de música y voz no crean el algoritmo más óptimo para seleccionar el mejor método de compresión. Comúnmente la voz puede considerarse como limitada en banda a entre aproximadamente 200 Hz y 3,400 Hz.- La velocidad de muestreo típica usada por un convertidor A/D para convertir una señal de voz análoga en una señal digital es ya sea de 8 kHz o 16 kHz. Señales de música o no de voz pueden contener componentes de frecuencia muy por arriba del ancho de banda de' voz normal . En algunas aplicaciones el sistema de audio debe ser capaz de manejar una banda de frecuencias de entre aproximadamente 20 Hz a 20,000 kHz..La velocidad de muestra para este tipo de señales debe ser. de por lo menos 40,000 JkHz para evitar problemas . Se debe notar aquí que los valores mencionados arriba sólo son ejemplos no limitativos. Por ejemplo, en algunos sistemas el límite más alto para señales de música puede ser de aproximadamente 10,000 kHz o todavía menos que eso. La señal digital muestreada es luego codificada, usualmente sobre una base de cuadro por cuadro, dando como resultado una corriente de datos digitales con una velocidad de bits que se determina por un codee usado para la codificación. Entre más alta sea la velocidad de bits, mayores datos se codifican, lo cual da como resultado una representación más precisa del cuadro de entrada. La señal de audio codificada puede ser luego decodificada y pasada a través de un convertidor digital a análogo (D/A) para reconstruir una señal que esté más cerca de la señal original como sea posible. Un codee ideal codificará la señal de audio con tan pocos bits como sea posible optimizando así la capacidad del canal, y produciendo al mismo tiempo una señal de audio decodificada que suene tan cerca como sea posible a la señal de audio original. En la práctica normalmente hay un problema entre la velocidad de bits del codee y la calidad del audio decodificado . Actualmente existen numerosos codees - diferentes, tales como el codee de varias velocidades adaptivo (AMR) y el codee de . banda ancha de varias velocidades adaptivo (AMR-VJB) , los cuales son desarrollados para comprimir y codificar señales de audio. AMR fue desarrollado por el Proyectó de Sociedad de 3a Generación (3GPP) para redes de comunicación GSM/EDGE y WCDMA. Además, también se ha contemplado que el AMR se usará en las redes conmutadas por paquetes . AMR se basa en la Codificación por Predicción Lineal Excitada de Código Algebraico (ACELP) . Los codees AMR y' AMR WB consisten en 8 y 9 velocidades de bits activos respectivamente y también incluyen funcionalidad de detección de actividad de voz (VAD) y transmisión discontinua (DTX) . Actualmente, la velocidad de muestreo en el codee AMR es de 8 JkHz y en el codee AMR WB la velocidad de muestreo es de 16 kHz. Es obvio que los codees y velocidades de muestreo mencionados arriba sólo son ejemplos no limitativos . La codificación ACELP opera usando un modelo de cómo la fuente de señal se genera, y extrae de la señal los parámetros del modelo. Más específicamente, la codificación ACELP se basa en un modelo del sistema vocal humano, en donde la garganta y boca se modelan como un filtro lineal y la voz se genera por una vibración periódica del aire que excita al filtro. La voz es analizada sobre una base de cuadro por cuadro por el codificador y para cada cuadro un conjunto de parámetros que representan la voz modelada se genera y se emite por el codificador. El conjunto de parámetros pueden incluir parámetros de excitación y los coeficientes para el filtro, así como otros parámetros . La salida que proviene de un codificador de voz comúnmente se refiere como una representación paramétrica de la señal de voz de entrada. El conjunto de parámetros se usa después por un decodificador configurado adecuadamente para regenerar la señal de entrada de voz . La codificación por transformación se usa ampliamente en la codificación de audio que no es voz. La superioridad de la codificación por transformación para señales que no son de voz se basa en el ocultamiento perceptual y en la codificación or dominio de frecuencia. Incluso a pesar de que las técnicas de codificación por transformación dan una calidad superior para señales de audio, el rendimiento no es adecuado para señales de voz periódicas y por lo tanto la calidad de la voz codificada por transformación normalmente es bastante baja. Por otro lado, los codees de voz a base de sistemas de producción de voz humana normalmente actúan deficientemente para señales de audio. Para algunas señales de entrada, la excitación ACELP tipo pulsos produce calidad más alta y para algunas señales de entrada la excitación codificada por transformación (TCX) es más óptima. Se asume aquí que la excitación ACELP es la más comúnmente usada para contenido de voz típico ya que una señal de entrada y la excitación TCX se usa más ampliamente para señales de música típica y otro audio que no sea voz como una señal de entrada. Sin embargo, esto no siempre es el caso, es decir, algunas veces las señales de voz tienen partes, las cuales son tipo música, y las' señales de música tienen partes, las cuales son tipo voz . También pueden existir señales que contengan tanto música como voz, en donde el método de codificación seleccionado pueda no ser opcional para estas señales en sistemas de la técnica anterior. La selección de la excitación puede llevarse a cabo de varias manera's: el método más complejo y bastante adecuado es el de codificar tanto la excitación ACELP como TCX y luego seleccionar la mejor excitación con base en la señal de audio sintetizada. Este tipo de método de análisis por síntesis proporcionará resultados adecuados pero también en algunas aplicaciones no es práctico debido a su alta complejidad. En este método por ejemplo un algoritmo tipo SNR puede usarse para medir la calidad producida por ambas excitaciones . Este método puede llamarse un método de "fuerza bruta" toda vez que intenta todas las combinaciones de excitaciones diferentes y selecciona posteriormente la mejor. El método menos complejo' llevaría a cabo la síntesis sólo una vez al analizar las propiedades de la señal de antemano y luego seleccionando la mejor excitación. El método también puede ser una combinación de preselección y "fuerza bruta" para establecer un compromiso entre calidad y complejidad. La figura 1 presenta un codificador 100 simplificado con clasificación de alta complejidad de la técnica anterior. Una señal de audio es ingresada al bloque de señales de entrada 101 en el cual la señal es digitalizada y filtrada. El bloque de señales de entrada 101 también forma cuadros a partir de la señal digitalizada y filtrada. Los cuadros son ingresados a un bloque de análisis de codificación por predicción lineal (LPC) 102. Éste lleva a cabo un análisis LPC en la señal de entrada digitalizada sobre una base de cuadro por cuadro para encontrar un conjunto de parámetros que coincida mejor con la señal de entrada. Los parámetros determinados (parámetros LPC) son cuantificados y emitidos 109 desde el codificador 100. El codificador 100 también genera también dos señales de salida con bloques de síntesis LPC 103, 104. El primer bloque de síntesis LPC 103 usa una señal generada por el bloque de excitación TCX 105 para sintetizar la señal de audio y encontrar el vector de código que produzca el mejor resultado para la excitación TCX. El segundo bloque de síntesis LPC 104 usa una señal generada por el bloque de excitación ACELP 106 para sintetizar la señal de audio y encontrar el vector de código que- produzca el mejor resultado para la excitación ACELP. En el bloque de selección de excitación 107 las señales generadas por los bloques de síntesis LPC 103, 10.4 son comparadas para determinar cuál de los métodos de excitación da la mejor (óptima) excitación. La información acerca de el método de excitación seleccionado y los parámetros de la señal de excitación seleccionada son, por ejemplo, cuantificados y codificados por canal 108 antes de enviar 109 las señales desde el codificador 100 para su transmisión. Breve descripción de la invención Un objetivo de la presente invención es proporcionar un método mejorado para seleccionar un método de codificación para diferentes partes de una señal de audio. En la invención, se usa un algoritmo para seleccionar un método de codificación de entre por lo menos un primero y un segundo método de codificación, por ejemplo TCX o ACELP, para codificar mediante una manera de circuito abierto. La selección se lleva a cabo para detectar el mejor modelo de codificación de la señal de origen, lo cual no significa ue es la separación de voz y música. De acuerdo con una modalidad de la invención un algoritmo selecciona ACELP especialmente para señales periódicas con alta correlación de largo plazo (por ejemplo, una señal de voz con habla) y para transitorios de señal. Por otro lado, cierto tipo de señales estacionarias, señales tipo ruido y señales tipo tono son codificadas usando codificación por transformación para manejar mejor la resolución de la frecuencia . La invención se basa en la idea de que una señal de entrada se analiza al examinar los parámetros que el análisis LTP produce para encontrar por ejemplo transitorios, partes periódicas etc. de la señal de audio. El codificador de acuerdo con la presente invención se caracteriza principalmente además porque el codificador comprende además un bloque de análisis de parámetros para analizar los parámetros LTP, y un bloque de selección de excitación para seleccionar un bloque de excitación de entre el primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para los cuadros de la señal de audio con base en el análisis del parámetro, y porque la segunda excitación es una excitación codificada por transformación, y la primera excitación no es excitación codificada por transformación. El dispositivo de acuerdo con la presente invención se caracteriza principalmente además porque el dispositivo comprende además un bloque de análisis de parámetros para analizar los parámetros LTP, y un bloque de selección de excitación para seleccionar un bloque de excitación de entre el primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para Tos cuadros de la señal de audio con base en el análisis de parámetros, y porque la segunda excitación es una excitación codificada por transformación, y la primera excitación no es excitación codificada por transformación. El sistema de acuerdo con la presente invención se caracteriza principalmente además porque el sistema comprende además en el codificador un bloque de análisis de parámetros para analizar los parámetros LTP, y un bloque de selección de excitación para seleccionar un bloque de excitación de entre el primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para los cuadros de la señal de audio con base en el análisis de parámetros, y porque la segunda excitación es una excitación codificada por transformación, y la primera excitación no es excitación codificada por transformación. El método de acuerdo con la presente invención se caracteriza principalmente además porque el método comprende además analizar los parámetros LTP, y seleccionar un bloque de excitación de entre la por lo menos primera excitación y la segunda excitación para llevar a cabo la excitación para los cuadros de la señal de audio con base en el análisis de parámetros, y porque la segunda excitación comprende usar una excitación codificada por transformación, y la primera excitación comprende usar otra que no sea excitación codificada por transformación. El módulo de acuerdo con la presente invención se caracteriza principalmente además porque el módulo comprende además un bloque de análisis de parámetros para analizar los parámetros LTP, y un bloque de selección de excitación para seleccionar un bloque de excitación de entre un primer bloque de excitación y un segundo bloque de excitación, y para indicar el método de excitación seleccionado a un codificador, y porque la segunda excitación es una excitación codificada por transformación, y la primera excitación no es excitación codificada por transformación. El producto de programa de computadora de acuerdo con la presente invención se caracteriza principalmente además porque el producto de programa de computadora comprende además etapas ejecutables por máquinas para analizar los parámetros LTP, y seleccionar una excitación de entre por lo menos la primera excitación y la segunda excitación para llevar a cabo la excitación para los cuadros de la señal de audio con base en el análisis de parámetros, y porque llevar a cabo la segunda excitación comprende etapas ejecutables por máquina para usar una excitación codificada por transformación, y porque llevar a cabo la primera excitación comprende etapas ejecutables por máquina para usar otra que no sea la excitación codificada por transformación.
La presente invención proporciona venta s ' cuando se le compara con los métodos y sistemas de la técnica anterior. Mediante el uso del método de clasificación de acuerdo con la presente invención, es posible mejorar la calidad del sonido reproducido sin afectar ampliamente la eficiencia de compresión. La invención mejora especialmente la calidad de sonido reproducida de señales mixtas, es decir, señales que incluyen tanto señales tipo voz como no tipo voz . Breve Descripción de las figuras La figura 1 presenta un codificador simplificado con clasificación de alta complejidad de la técnica anterior. La figura 2 presenta una modalidad ejemplar de un codificador con clasificación de acuerdo con la invención. La figura 3 muestra la correlación normalizada escalada, retraso y parámetros de ganancia escalados de un ejemplo de una secuencia de voz hablada. La figura 4 muestra la correlación normalizada escalada, retraso y parámetros de ganancia escalados de un ejemplo de una señal de audio que contiene sonido de un solo instrumento. La figura 5 la correlación normalizada escalada, retraso y ganancia escalada de un ejemplo de una señal de audio que contiene música con varios instrumentos y La figura 6 muestra un ejemplo de un sistema de acuerdo con la presente invención.
Descripción detallada de la invención A continuación se describirá en más detalle con referencia a la figura 2, un codificador 200 de acuerdo con una modalidad ejemplar de la presente invención. El codificador 200 comprende, un bloque de entrada 201 para digitalizar, filtrar y encuadrar la señal de audio cuando sea necesario. Se debe notar aquí que la señal de entrada puede estar ya en una forma adecuada para el proceso de codificación. Por ejemplo, la señal de entrada puede haber sido digitalizada en una etapa anterior y almacenada en un medio de memoria (no mostrado) . Los cuadros de la señal de entrada son ingresados a un bloque de análisis LPC 208 que lleva a cabo el análisis LPC a la señal de entrada y forma parámetros LPC con base en las propiedades de la señal . Un bloque de análisis LTP 209 forma parámetros LTP con base en los parámetros LPC. Los parámetros LPC y los parámetros LTP se examinan en un bloque de análisis de parámetros 202. Con base en el resultado del análisis un bloque de selección de excitación 203 determina qué método de excitación es el más adecuado para codificar el cuadro actual de la señal de entrada. El bloque de selección de excitación 203 produce una señal de control 204 para controlar un medio de selección 205 de acuerdo con el análisis de parámetro. Si se determinó que el mejor método de excitación para codificar el cuadro actual de la señal de entrada es un primer método de excitación, los medios de selección 205 son controlados para seleccionar la señal (parámetros de excitación) de un primer bloque de excitación 206 para- ser ingresada a un bloque de cuantificación y codificación 212. Si s_e determinó que el mejor método de excitación para codificar el cuadro actual de la señal de entrada es un segundo método de excitación, los medios de selección 205 son controlados para seleccionar la señal (parámetros de excitación) de un segundo bloque de excitación 207 - que será ingresada al bloque de cuantificación y codificación 212. Aunque el codificador de la figura 2 sólo tiene al primero 206 y segundo 207 bloques de excitación para el proceso de codificación, es obvio que también puede haber más de dos bloques de excitación diferentes para diferentes métodos de excitación disponibles en el codificador 200 que se usará en la codificación de la señal de entrada. El primer bloque de excitación 206 produce, por ejemplo, una señal (vector) de excitación TCX y el segundo bloque de excitación 207 produce, por ejemplo, una señal (vector) de excitación ACELP. También es posible que el bloque de excitación 206, 207 seleccionado primero intente dos o más vectores de excitación en donde el vector que produzca el resultado más compacto se seleccione para la transmisión. La determinación del resultado más compacto puede hacerse, por ejemplo, con base en el número de bits que serán transmitidos o el error de codificación (la diferencia entre la entrada de audio sintetizado y de real) .
Los parámetros 'LPC 210, parámetros LTP 211 y parámetros de excitación 213 son, por ejemplo, cuantificados y codificados en un bloque de cuantificación y codificación 212 antes de su transmisión, por ejemplo, a una red de comunicación 604 (figura '6) . Sin embargo, no es necesario transmitir los parámetros sino que pueden, por ejemplo, ser almacenados en un medio de almacenamiento y retirarse en una etapa posterior para su transmisión y/o decodificación. En un codee AMR-WB (AMR-WB+)- extendido, existen dos tipos de excitación para la síntesis LP: la excitación tipo pulsos ACELP y la excitación TCX .codificada por transformación. La excitación ACELP es la misma que la usada ya en la norma AMR-WB del 3GPP (3GPP TS 26.190) y la excitación TCX es la mejora esencial implementada en la AMR-WB extendida. En el codee AMR-WB+, la codificación por predicción lineal (LPC) se calcula en cada cuadro para modelar la envoltura espectral. La excitación LPC (la salida del filtro LP del codificado) es ya sea codificada por codificación tipo predicción lineal por excitación de códigos algebraicos (ACELP) o un algoritmo a base de codificación por transformación (TCX) . Como un ejemplo, ACELP lleva a cabo LTP y parámetros de libros de códigos fijos para la excitación LPC. Por ejemplo, la codificación por transformación (TCX) de AMR-WB+ explota FFT (transformación de Fourier rápida) . En el codee AMR-WB+ la codificación TCX puede llevarse a cabo usando una de tres longitudes de cuadros diferentes (20, 40 y 80 ms) . A continuación se describe en más detalle un ejemplo de un método de acuerdo con la presente invención. En el método se usa un algoritmo para determinar algunas propiedades de la señal de audio tales como periodicidad y paso. El paso es una propiedad fundamental de la voz hablada. Para voz hablada, la glotis se abre y se cierra de una forma periódica, impartiendo un carácter periódico a la excitación. El periodo de paso, TO, es el segmento de tiempo- entre aperturas secuenciales de la glotis. Los segmentos de voz hablada tienen una .correlación a largo plazo especialmente fuerte. Esta correlación se debe a las vibraciones de las cuerdas vocales, las cuales normalmente tienen un periodo de paso en la escala de 2 a 20 ms. Los parámetros LTP de retraso y ganancia se calculan para el residual LPC. El retraso LTP está estrechamente relacionado con la frecuencia fundamental de la señal de voz y comúnmente es referido como un parámetro de "arrastre de paso", parámetro de "retraso de paso" o "retraso", lo cual describe la periodicidad de la señal de voz en términos de muestras de voz . El parámetro de retraso de paso puede calcularse usando un libro de códigos adaptivos . El análisis de paso de circuito abierto puede llevarse a cabo para calcular el retraso de paso. Esto se hace para simplificar el análisis de paso y confinar la búsqueda de paso de circuito cerrado a un número pequeño de retrasos alrededor de los retrasos calculados por circuito abierto. Otro parámetro LTP relacionado con la frecuencia fundamental es la ganancia, también llamada ganancia LTP. La ganancia LTP es un parámetro importante junto con el retraso LTP, los cuales se usan para dar una representación natural de la voz. Las propiedades estacionarias de la señal de origen se analizan mediante, por ejemplo, correlación normaJLizada, la cual puede calcularse como sigue: (1) en donde TO es el retraso de circuito abierto del cuadro que tiene una longitud N. X± es la i muestra del cuadro codificado. Xi-T0 es la muestra a partir de un cuadro recientemente codificado, el cual está TO muestras atrás en el pasado a partir de la muestra Xi. Pocos ejemplos de las características de parámetro - LTP como una función del tiempo se pueden observar en las figuras 3, 4 y 5. En las figuras, la curva A muestra una correlación normalizada de la señal, la curva B muestra el retraso y la curva C muestra la ganancia escalada. La correlación normalizada y la ganancia LTP son escaladas (multiplicadas por 100) de tal manera que quepan en la misma figura que el retraso LTP. En las figuras 3, 4 y 5 también los valores de retraso LTP son divididos entre dos . Como un ejemplo, un segmento de voz hablada (figura 3) incluye alta ganancia LTP y retraso LTP estable. También la correlación normalizada y la ganancia LTP de los segmentos de voz hablada coinciden y por lo tanto tienen una alta correlación. El método de acuerdo con la invención clasifica este tipo de segmento de señal de tal manera que el método de codificación seleccionado sea el ACELP (el primer método de codificación) . Si el contorno del retraso LTP (compuesto por retraso actuales y previos) es estable, pero la ganancia LTP es baja o inestable y la ganancia LTP y la correlación normalizada tienen una correlación pequeña, el método de codificación seleccionado es' el TCX (el método de codificación segundo) . Este tipo de situación se ilustra en el ejemplo de la figura 4 en el cual se muestran los parámetros de una señal de audio de un instrumento (saxofón) . Si el contorno de retraso LTP de los cuadros actuales y previos es muy inestable, el método de codificación seleccionado también es en este caso el TCX. Esto se ilustra en el ejemplo de la figura 5 en la cual se muestran los parámetros de una señal de audio de una variedad de instrumentos. La palabra estable significa a uí que por ejemplo, la diferencia entre los valores de retraso mínimo y máximo de cuadros actuales y previos está debajo de cierto umbral predeterminado (un segundo umbral TH2) . Por lo tanto, el retraso no cambia mucho en los cuadros actuales y previos. En el codee AMR-WB+, la escala de ganancia LTP es de entre 0 y 1.2. La escala de la correlación normalizada está entre 0 y 1.0. Como un ejemplo, el umbral que indica alta ganancia LTP podría estar por arriba de 0.8. Una alta correlación (o similitud) de la ganancia LTP y la correlación normalizada se puede observar por ejemplo por su diferencia. Si la diferencia está debajo de un tercer umbral TH3, por ejemplo, 0.1 en cuadros actuales y/o pasados, la ganancia LTP y la correlación normalizada tienen una alta correlación. Si la señal es transitoria por naturaleza, es codificada por un primer método de codificación, por ejemplo, por el método de codificación ACELP, en una modalidad ejemplar de la presente invención. Las secuencias transitorias pueden detectarse usando una distancia espectral SD de cuadros adyacentes. Por ejemplo, si la distancia espectral, SDn, del cuadro n calculada a partir de coeficientes del par de espectro de imitación (ISP) (coeficientes de filtro LP convertidos • en la representación ISP) en cuadros actuales y previos excede un primer umbral THl predeterminado, la señal se clasifica como transitoria. La distancia espectral SDn puede calcularse a partir de los parámetros ISP como sigue: en donde ISPn es el vector de coeficientes ISP del cuadro n e ISPn(i) es el i elemento de éste.
Las secuencias tipo ruido se codifican por un segundo método de codificación, por. ejemplo, mediante la codificación por transformación TCX. Estas secuencias pueden detectarse por parámetros LTP y frecuencia promedio a lo largo del cuadro en el dominio de frecuencia. Si los parámetros LTP son muy inestables y/o la frecuencia promedio _excede un umbral predeterminado THl6, se determina en el método que el cuadro contiene una señal tipo ruido . Un algoritmo ejemplar para el proceso de clasificación de acuerdo con la presente invención se describe abajo. El algoritmo se puede usar en el codificador 200 tal como un codificador del codee AMR WB+. si (SDn > THl) Modo = MODO_ACELP: si no si (LagDifbuf < TH2) si (Lagn == LIMITE ALTO o Lagn == LIMIT BAJO) { si (Gainn - NormCorrn < TH3 y NormCorrn > TH4) Modo = MODO_ACELP si no Modo = MODOJTCX si no, si (Gainn - NormCorrn < TH3 y NormCorrn > TH5) Modo = MODO_ACELP si no, si (Gainn - NormCorrn > TH6) Modo = MODO TCX si no NoMtcx = NoMtcx+1 si (MaxEnergybUf < TH7) si (SDn > TH8) Modo = MODO_ACELP: si no NoMtcx = NoMtcx+l si (LagDifbUf < TH2) si (NormCorrn < TH9 y SDn < TH10) Modo = MODO_TCX; si (lphn> TH11 y SDn < TH10) Modo = MODO_TCX ' si (vadFlag0i == 0 y vadFlag == 1 y Modo == MODO_TCX) ) NoMtcx = NoMtcx+l si (Gainn - NormCorrn < TH12 y NormCorrn > TH13 y Lagn > THl4) DFTSum = 0; para (i=l; i<NO_de_elementos; i++) { /*Primer elemento dejado fuera*/ DFTSum = DFTSum + mag[i]; si (DFTSum > TH15 y mag[0] < THl6) { Modo = MODO_TCX; si no Modo = MODO_ACELP; NoMtcx = NoMtcx +1 El algoritmo anterior contiene algunos umbrales THl- TH15 y constantes LIMITE_ALTO, LIMITE_BAJO, Buflimit, NO_de_elementos . A continuación se muestran algunos valores ejemplares para los umbrales y constantes, pero es obvio que los valores son ejemplos no limitativos únicamente. TH1=0.2 TH2=2 TH3=0.1 TH4=0.9 TH5=0.88 TH6=0.2 TH7=60 TH8=0.15 TH9=0.80 TH10=0.1 TH11=200 TH12=0.006 TH13=0.92 TH14=21 TH15=95 THl6=5 NO_de_ele entos=40 LIMITE_ALTO=115 LIMITE_BAJO=18 El significado de las variables del algoritmo es el siguiente: LIMITE_ALT0 y LIMITE_BAJO se refieren a los valores de retraso LTP máximos y mínimos, respectivamente, LagDifbuf es la memoria volátil que contiene los retrasos LTP de cuadros actuales y previos . Lagn son uno o más valores de retraso LTP del cuadro actual (dos valores de retraso de circuito abierto son calculados en un cuadro en el codee AMR WB+) . Gainn es uno o más valores de ganancia LTP del cuadro actual . NormCorrn es uno o más valores de correlación normalizados del cuadro actual . MaxEnergybf es el valor máximo de la memoria volátil que contiene valores de energía de cuadros actuales y previos. Iphn indica la inclinación espectral . VadFlag0?d es el indicador VAD del cuadro anterior y vadFlag es el indicador VAD del cuadro actual . NoMtcx es el indicador que indica evitar la transformación TCX con longitud de cuadro larga (por ejemplo 80 ms) , si el segundo modelo de codificación TCX se selecciona. Mag es una envoltura espectral transformada por Fourier individual (DFT) creada a partir de coeficientes de filtro LP, Ap, del cuadro actual que puede calcularse de acuerdo con el siguiente código de programa: para (i=0; i<DFTN*2; i++) C?S_t[i]=c?S[i*N_MAX/ (DFTN*2) ] sin_t [i]=sin[i*N_MAX/ (DFTN*2) ] para (i=0; i<LPC_N; i++) ip[i]=Ap[i] mag[0]=0.0; para (i=0; i<DFTN; i++) /*calc DFT*/ x = y = O para (j=0; j<LPC_N; j++) x=x+ip[j] *cos_t [ (i* ) &(DFTN*2-1) ] y = y+ip[j]*sin_t[ (i* ) &(DFTN*2-1) ] Mag[i]=l/sqrt(x*x+y*y) en donde DFTN = 62, N_MAX = 1152, LPC_N = 16. Los vectores eos y sin contienen los valores de funciones coseno y sinusoidales respectivamente. La longitud de los vectores eos y sin es de 1152. DFTSum es la suma del primer NO_de_elementos (por ejemplo 40) elementos del vector mag, excluyendo el primer elemento (mag(O)) del vector mag. En la descripción anterior, se usó la extensión AMR-WB (AMR-WB+) como un ejemplo práctico de un codificador. Sin embargo, la invención no está limitada a codees AMR-WB o a métodos de excitación ACELP y 'TCX. Aunque la invención se presentó arriba usando dos métodos de excitación diferentes, es posible usar más de dos métodos de excitación diferentes y hacer la selección entre ellos para comprimir señales de audio. La figura 6 ilustra un ejemplo de un sistema en el cual la presente invención puede aplicarse. El sistema comprende una o más fuentes de audio 601 que producen señales de audio de voz y/o no de voz . Las señales de audio se convierten en señales digitales por un convertidor A/D 602 cuando es necesario. Las señales digitalizadas son ingresadas a un codificador 200 de un dispositivo de transmisión 600 en el cual la compresión se lleva a cabo de acuerdo con la presente invención. La señales comprimidas también se cuantifican y codifican para su transmisión en el codificador 200 cuando sea necesario. Un transmisor 603, por ejemplo un transmisor de un dispositivo de comunicaciones móvil 600, transmite las señales comprimidas y codificadas a una red de comunicación 604. Las señales son recibidas desde la red de comunicación 604 por un receptor 605 de un dispositivo de recepción 606. Las señales recibidas son transferidas del receptor 605 a un decodificador 607 para su decodificación, descuantificación y descompresión. El decodificador 607 comprende los medios de detección 608 para determinar el método de compresión usado en el codificador 200 para un cuadro actual. El decodificador 607 selecciona con base en la determinación un primer medio de descompresión 609 o un segundo medio de descompresión 610 para descomprimir el cuadro actual . Las señales descomprimidas se conectan de los medios de descompresión 609, 610 a un filtro 611 y a un convertidor D/A 612 para convertir la señal digital en una señal análoga. La señal análoga puede ser después transformada en audio, por ejemplo, en un altavoz 613. La presente invención se puede implementar en diferentes tipos de sistemas, especialmente en la transmisión de baja velocidad para lograr una compresión más eficiente y/o una calidad de audio mejorada para la señal de audio reproducida (descomprimida/decodificada) que en los sistemas de la técnica anterior, especialmente en situaciones en las cuales la señal de audio incluya tanto señales tipo voz como señales no tipo voz (por e emplo, voz y música mixtas) . El codificador 200 de acuerdo con la presente invención puede implementarse en diferentes partes de sistemas de comunicación. Por ejemplo, el codificador 200 puede implementarse en un dispositivo de comunicación móvil que tenga capacidades de procesamiento limitadas. La invención también se puede implementar como un módulo 202, 203 que pueda conectarse a un codificador para analizar los parámetros y para controlar la selección del método de excitación para el codificador 200. Es obvio que la presente invención no está limitada únicamente a las modalidades descritas arriba, sino que se le puede modificar dentro del alcance de las reivindicaciones anexas . Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims (26)

  1. REIVINDICACIONES
  2. Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones : 1. Un codificador que comprende una entrada para ingresar cuadros de una señal de audio, un bloque de análisis LTP para llevar a cabo un análisis LTP a los cuadros de la señal de audio para formar parámetros LTP con base en las propiedades de la señal de audio, y por lo menos un primer bloque de excitación para llevar a cabo una primera excitación para cuadros de la señal de audio, y un segundo bloque de excitación para llevar a cabo una segunda excitación para cuadros de la señal de audio, caracterizado porgue el codificador comprende además un bloque de análisis de parámetros para analizar los parámetros LTP, y un bloque de selección de excitación para seleccionar un bloque de excitación de entre el primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para los cuadros de la señal de audio con base en el análisis del parámetro, y porque la segunda excitación es una excitación codificada por transformación, y la primera excitación no es excitación codificada por transformación. 2. El codificador de conformidad con la reivindicación 1, caracterizado porque el bloque de análisis de parámetros comprende además medios para calcular y analizar una correlación normalizada al menos con base en los parámetros LTP.
  3. 3. El codificador de conformidad con la reivindicación 1 ó 2, caracterizado porque los parámetros LTP comprenden al menos retraso y ganancia.
  4. 4. El codificador de conformidad con la reivindicación 1, 2_ ó 3, caracterizado porque el bloque de análisis de parámetros está dispuesto para examinar al menos una de las siguientes propiedades en la señal de audio: - transitorios de señal, - señales tipo ruido, - señales estacionarias, - señales periódicas, - señales estacionarias y periódicas.
  5. 5. El codificador de conformidad con la reivindicación 4, caracterizado porque el ruido está dispuesto para ser determinado con base en parámetros LTP inestables y/o frecuencia promedio que exceda un umbral predeterminado .
  6. 6. El codificador de conformidad con la reivindicación 4, caracterizado porque señales estacionarias y periódicas son dispuestas para ser determinadas con base en ganancia LTP sustancialmente alta y retraso LTP sustancialmente estable, y correlación normalizada.
  7. 7. El codificador de conformidad con cualquiera de las reivindicaciones 1 a 6, caracterizado porque, el codificador es un codee de banda ancha de velocidades múltiples adaptivo.
  8. 8. El codificador de conformidad con la reivindicación 7, caracterizado porque el bloque de análisis LTP es el bloque de análisis LTP del codee de banda ancha de velocidades múltiples adaptivo.
  9. 9. El codificador de conformidad con cualquiera de las reivindicaciones 1 a 8, caracterizado porque la primera excitación es excitación por Predicción Lineal Excitada por Código Algebraico (ACELP) y la segunda excitación es excitación codificada por transformación . (TCX) .
  10. 10. Un dispositivo que comprende un codificador que contiene una entrada para ingresar cuadros de una señal de audio, un bloque de análisis LTP para llevar a cabo un análisis LTP a los cuadros de la señal de audio y para formar parámetros LTP con base en las propiedades de la señal de audio, por lo menos un primer bloque de excitación para llevar a cabo una primera excitación para cuadros de la señal de audio, y un segundo bloque de excitación para llevar a cabo una segunda excitación para cuadros de la señal de audio, caracterizado porque el dispositivo comprende además un bloque de análisis de parámetros para analizar los parámetros LTP, y un bloque de selección de excitación para seleccionar un bloque de excitación de entre el primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para los cuadros de la señal de audio con base en el análisis de parámetro, y porque la segunda excitación es una excitación codificada por transformación, y la primera excitación no es excitación codificada por transformación.
  11. 11. El dispositivo de conformidad con la reivindicación 10, caracterizado porque el bloque de análisis de parámetros comprende además medios para calcular y analizar una correlación normalizada al menos con base en los parámetros LTP.
  12. 12. El dispositivo de conformidad cpn la reivindicación 10 u 11, caracterizado porque los parámetros LTP comprenden al menos retraso y ganancia.
  13. 13. El dispositivo de conformidad con la reivindicación 10, 11 ó 12, caracterizado porque el bloque de análisis de parámetros está dispuesto para examinar al menos una de las siguientes propiedades en la señal de audio: - transitorios de señal, - señales tipo ruido, - señales estacionarias, - señales periódicas, - señales estacionarias y periódicas.
  14. 14. El dispositivo de conformidad con la reivindicación 13,- caracterizado porque el ruido está dispuesto para ser determinado con base en parámetros LTP inestables y/o frecuencia promedio que exceda un umbral predeterminado.
  15. 15. El - dispositivo de conformidad con la reivindicación 13, caracterizado porque señales estacionarias y periódicas son dispuestas para ser determinadas con base en ganancia LTP sustancialmente alta y retraso LTP sustancialmente estable, y correlación normalizada.
  16. 16. El dispositivo de conformidad con cualquiera de las reivindicaciones 10 a 15, caracterizado porque el codificador es un codee de banda ancha de velocidades múltiples adaptivo.
  17. 17. El dispositivo de conformidad . con la reivindicación 16, caracterizado porque el bloque de análisis LTP es el bloque de análisis LTP del codee de banda ancha de velocidades múltiples adaptivo.
  18. 18.' El dispositivo de conformidad con cualquiera de. las reivindicaciones 10 a 17, caracterizado porque la primera excitación es excitación por Predicción Lineal Excitada por Código Algebraico (ACELP) y la segunda excitación es excitación codificada por transformación (TCX) .
  19. 19. Un sistema que comprende • un codificador que contiene una ' entrada para ingresar - cuadros de una señal de audio, un bloque de análisis LTP para llevar a cabo un análisis LTP a los cuadros de la señal de audio y para formar parámetros LTP con base en las propiedades de la señal de audio, por lo menos un primer bloque de excitación para llevar a cabo una primera excitación para cuadros de la señal de audio, y un segundo bloque de excitación para llevar a cabo una segunda excitación para cuadros de la señal de audio, caracterizado porgue el sistema comprende además un bloque de análisis de parámetros para analizar los parámetros LTP, y un bloque de selección de excitación para seleccionar un bloque de excitación de entre el primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para los cuadros de la señal de audio con base en el análisis de parámetro, y porque la segunda excitación es una excitación codificada por transformación, y la primera excitación no es excitación codificada por transformación.
  20. 20. El sistema de conformidad con la reivindicación 19, caracterizado porque el bloque de análisis de parámetros comprende además medios para calcular y analizar una correlación normalizada al menos con base en los parámetros LTP.
  21. 21. El sistema de conformidad con la reivindicación 19 ó 20, caracterizado porque los parámetros LTP comprenden al menos retraso y ganancia.
  22. 22.. El sistema de conformidad con la reivindicación 19, 20 ó 21, caracterizado porque el bloque de análisis de parámetros está dispuesto para examinar al menos una de las siguientes propiedades en la señal de audio: - transitorios de señal, - señales tipo ruido, - señales estacionarias, - señales periódicas, - señales estacionarias y periódicas.
  23. 23. El- sistema de conformidad con la reivindicación' 22, caracterizado porque el ruido está dispuesto para ser determinado con base en parámetros LTP inestables y/o frecuencia promedio que exceda un umbral predeterminado .
  24. 24. El sistema de conformidad con la reivindicación 22, caracterizado porque señales estacionarias y periódicas son dispuestas para ser determinadas con base en ganancia LTP sustancialmente alta y retraso LTP sustancialmente estable, y correlación normalizada.
  25. 25. El sistema de conformidad con cualquiera de las reivindicaciones 19 a 24, caracterizado porque el codificador es un codee de banda ancha de velocidades múltiples adaptivo.
  26. 26. El sistema de conformidad con la reivindicación 25, caracterizado porque el bloque de análisis LTP es el bloque de análisis LTP del codee de banda ancha de velocidades múltiples adaptivo. 27". El sistema de conformidad con cualquiera de las reivindicaciones 19 a 26, caracterizado porque la primera excitación es excitación por Predicción Lineal Excitada por Código Algebraico (ACELP) y la segunda excitación es excitación codificada por transformación (TCX) . 28. Un método para codificar una señal de audio, en el cual se lleva a cabo un análisis LTP a los cuadros de la señal de audio para formar parámetros LTP con base en las propiedades de la señal, y por lo menos una primera excitación y una segunda excitación se seleccionan para llevarse a cabo para cuadros de la señal de audio, caracterizado porque el método comprende además analizar los parámetros LTP, y seleccionar un bloque de excitación de entre la primera excitación y la segunda excitación para llevar a cabo la excitación para los cuadros de la señal de audio con base en el análisis de parámetros, y porque la segunda excitación comprende usar una excitación codificada por transformación, y la primera excitación comprende usar otra que no sea excitación codificada por transformación. 29. El método de conformidad con la reivindicación 28, caracterizado porque la correlación normalizada se calcula al menos con base en los parámetros LTP, y la correlación normalizada calculada es analizada. 30. El método de conformidad con la reivindicación 28 ó 29, caracterizado porque los parámetros LTP comprenden al menos retraso y ganancia. 31. El método de conformidad con la reivindicación 28, 29 ó 30, caracterizado al menos una de las siguientes propiedades en la señal de audio es examinada: - transitorios de señal, - señales tipo ruido, - señales estacionarias, - señales periódicas, - señales estacionarias y periódicas. 32. El método de conformidad con la reivindicación 31, caracterizado porque el ruido se determina con base en parámetros LTP inestables y/o frecuencia promedio que exceda un umbral predeterminado . 33. El método de conformidad con la reivindicación 31, caracterizado porque señales estacionarias y periódicas son determinadas con base en ganancia LTP sustancialmente alta y retraso LTP sustancialmente estable, y correlación normalizada. 34. El método de conformidad con cualquiera de las reivindicaciones 28 a 33, caracterizado porque la primera excitación es excitación por Predicción Lineal Excitada por Código Algebraico (ACELP) y la segunda excitación es excitación codificada por transformación (TCX) . 35. Un módulo que comprende un bloque de análisis LTP para llevar a cabo un análisis LTP a cuadros de una señal de audio para formar parámetros LTP con base en las propiedades de la señal de audio, caracterizado porque el módulo comprende además un bloque de análisis de parámetros para analizar los parámetros LTP, y un bloque de selección de excitación para seleccionar un bloque de excitación de entre un primer bloque de excitación y un segundo bloque de excitación, y para indicar el método de excitación seleccionado a un codificador, y porque la segunda excitación es una excitación codificada por transformación, y la primera excitación no es excitación codificada por transformación. 36. El dispositivo de conformidad con la reivindicación 35, caracterizado porque el bloque de análisis de parámetros comprende además medios para calcular y analizar una correlación normalizada al menos con base en los parámetros LTP. 37. El dispositivo de conformidad con la ' reivindicación 35 ó 36, caracterizado porque los parámetros LTP comprenden al menos retraso y ganancia. 38. El dispositivo de conformidad con la reivindicación 35, 36 ó 37, caracterizado porque el bloque de análisis de parámetros está dispuesto para examinar al menos una de las siguientes propiedades en la señal de audio: - transitorios de señal, - señales tipo ruido, - señales estacionarias, - señales periódicas, - señales estacionarias y periódicas. 39. El dispositivo de conformidad con la reivindicación 38, caracterizado porque el ruido está dispuesto para ser determinado con base en parámetros LTP inestables y/o frecuencia promedio que exceda un umbral predeterminado. 40. El dispositivo de conformidad con la reivindicación 38, caracterizado porque señales estacionarias y periódicas son dispuestas para ser determinadas con base en ganancia LTP sustancialmente alta y retraso LTP sustancialmente estable, y correlación normalizada. 41. El dispositivo de conformidad con cualquiera de las reivindicaciones 35 a 40, caracterizado porque el codificador es un codee de banda ancha de velocidades múltiples adaptivo.. 42. El dispositivo de conformidad con la reivindicación 41, caracterizado porque el bloque de análisis LTP es el bloque de análisis LTP del codee de banda ancha de velocidades múltiples adaptivo. 43. El dispositivo de conformidad con cualquiera de las reivindicaciones 35 a 42, caracterizado porque la primera excitación es excitación por Predicción Lineal Excitada por Código Algebraico (ACELP) y la segunda excitación es excitación codificada por transformación (TCX) . 44. Un producto de programa de computadora que comprende etapas ejecutables por máquina para codificar señales de audio, en el cual un análisis LTP se lleva a cabo a los cuadros de la señal de audio para formar parámetros LTP con base en las propiedades de la señal, y por lo menos una primera excitación "y una segunda excitación son seleccionables para llevarse a cabo para cuadros de la señal de audio, caracterizado porque el producto de programa de computadora comprende además etapas ejecutables por máquinas para analizar los parámetros LTP, y seleccionar una excitación de entre por lo menos la primera excitación y la segunda excitación para llevar a cabo la excitación para los cuadros de la señal de audio con base en el análisis de parámetros, y porgue llevar a cabo la segunda excitación comprende etapas ejecutables por máquina para usar una excitación codificada por transformación, y porque llevar a cabo la primera excitación comprende etapas ejecutables por máquina para usar otra que no sea la excitación codificada por transformación. 45. El producto de programa de computadora de conformidad con la reivindicación 44, caracterizado porque comprende etapas ejecutables por máquina para calcular una correlación normalizada al menos con base en los parámetros LTP, y la correlación normalizada calculada es analizada. 46. El producto de programa de computadora de conformidad con la reivindicación 44 ó 45, caracterizado porque los parámetros LTP comprenden al menos retraso y ganancia. 47. El producto de programa de computadora de conformidad con la reivindicación 44, 45 ó 46, caracterizado porque comprende etapas ejecutables por máquina para examinar al menos una de las siguientes propiedades en la señal de audio: - transitorios de señal, - señales tipo ruido, - señales estacionarias, - señales periódicas, - señales estacionarias y periódicas . 48. El producto de programa de computadora de conformidad con la reivindicación 47, caracterizado porque comprende etapas ejecutables por máquina para examinar la estabilidad de los parámetros LTP y/o comparar una frecuencia promedio con un umbral predeterminado para determinar ruido en la señal de audio . 49.. El producto de programa de computadora de conformidad con la reivindicación 47, caracterizado porque comprende etapas ejecutables por máquina para examinar la estabilidad del retraso LTP y correlación normalizada, y para comparar la ganancia LTP con un umbral para determinar estacionaricidad y periodicidad de las señales de audio. 50. El producto de programa de computadora de conformidad con cualquiera de las reivindicaciones 44 a 49, caracterizado porque comprende etapas ejecutables por máquina para llevar a cabo una excitación por Predicción Lineal Excitada por Código Algebraico (ACELP) como la primera excitación, y etapas ejecutables por máquina para llevar a cabo una excitación codificada por transformación (TCX) como la segunda excitación.
MXPA/A/2006/009370A 2004-02-23 2006-08-17 Seleccion de modelos de codificacion MXPA06009370A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FI20045052 2004-02-23

Publications (1)

Publication Number Publication Date
MXPA06009370A true MXPA06009370A (es) 2006-12-13

Family

ID=

Similar Documents

Publication Publication Date Title
KR100879976B1 (ko) 부호화 모델 선택
KR100962681B1 (ko) 오디오신호들의 분류
US8244525B2 (en) Signal encoding a frame in a communication system
KR100798668B1 (ko) 무성 음성의 코딩 방법 및 장치
US7016832B2 (en) Voiced/unvoiced information estimation system and method therefor
JP2002544551A (ja) 遷移音声フレームのマルチパルス補間的符号化
MXPA06009370A (es) Seleccion de modelos de codificacion
Chazan et al. Low bit rate speech compression for playback in speech recognition systems
KR100757366B1 (ko) Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법
MXPA06009369A (es) Clasificacion de señales de audio