MXPA04005764A - Metodo de modificacion de senal para cifrado eficiente de senales de habla. - Google Patents

Metodo de modificacion de senal para cifrado eficiente de senales de habla.

Info

Publication number
MXPA04005764A
MXPA04005764A MXPA04005764A MXPA04005764A MXPA04005764A MX PA04005764 A MXPA04005764 A MX PA04005764A MX PA04005764 A MXPA04005764 A MX PA04005764A MX PA04005764 A MXPA04005764 A MX PA04005764A MX PA04005764 A MXPA04005764 A MX PA04005764A
Authority
MX
Mexico
Prior art keywords
signal
frame
sound signal
tone
pulse
Prior art date
Application number
MXPA04005764A
Other languages
English (en)
Inventor
Ruoppila Vesa
Original Assignee
Nokia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp filed Critical Nokia Corp
Publication of MXPA04005764A publication Critical patent/MXPA04005764A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Para determinar un parametro de retardo de prediccion de largo plazo que caracteriza una prediccion de largo plazo en una tecnica que utiliza modificacion de senal para cifrar digitalmente una senal de sonido, la senal de sonido se divide en una serie de marcos sucesivos, una caracteristica de la senal de sonido se ubica en un marco previo, una caracteristica correspondiente de la senal de sonido se ubica en un marco actual y se determina el parametro de retardo de prediccion de largo plazo para el marco actual al tiempo que se correlaciona, con la prediccion de largo plazo, la caracteristica de senal del marco anterior con la caracteristica de senal correspondiente del marco actual. En un metodo de modificacion de senal para implementacion en una tecnica para cifrar digitalmente una senal de sonido, la senal de sonido se divide en una serie de marcos sucesivos, cada marco de la senal de sonido se divide en una pluralidad de segmentos de senales, y al menos parte de los segmentos de senal del marco se distorsiona al tiempo que restringe los segmentos de senal distorsionada dentro del marco. Para buscar pulsos de densidad en una senal de sonido, se produce una senal residual filtrando la senal de sonido a traves de un filtro de analisis de prediccion lineal, se produce una senal de sonido valorada procesando la senal de sonido mediante un filtro de valoracion, la senal de sonido valorada es indicativa de la periodicidad de senal, se produce una senal de sonido valorada sintetizada filtrando una senal de sonido valorada sintetizada filtrando una senal de voz sintetizada producida durante una ultimo submarco de un marco previo de la senal de sonido mediante el filtro de valoracion, un ultimo pulso de densidad de la senal de sonido del marco previo se ubica desde la senal residual, se extrae un prototipo de pulso de densidad de longitud dada alrededor de la posicion del ultimo pulso de densidad de la senal de sonido del marco anterior utilizando senal de sonido valorada sintetizada y los pulsos de densidad se ubican en un marco actual utilizando prototipo de pulso de densidad.

Description

METODO DE MODIFICACION DE SEÑAL PARA CIFRADO EFICIENTE DE SEÑALES DE HABLA DESCRIPCION Antecedentes y campo de la invención La presente invención generalmente se relaciona a codificación y descodificación de señales de sonido en sistemas de comunicación. Más específicamente, la presente invención se refiere a una técnica de modificación de señal aplicable a, en particular pero no exclusivamente, codificación de predicción lineal excitada por código (CELP) . La necesidad de técnicas de codificación digital de voz de banda estrecha y de banda ancha con un buen intercambio entre la calidad subjetiva y la velocidad de tráfico binario se incrementa en varias áreas de aplicación tales como teleconferencia, multimedios y comunicaciones inalámbricas. Hasta hace poco, el ancho de banda telefónico restringido a una gama de 200-3400 hz. se ha utilizado principalmente en aplicaciones de codificación de habla o voz. Sin embargo, las aplicaciones de voz de banda ancha proveen mayor inteligibilidad y naturalidad en la comunicación comparadas con el ancho de banda telefónico convencional. Se ha encontrado que un ancho de banda en la gama de 50-7000 Hz es suficiente para entregar una buena calidad la cual da la impresión de una comunicación en persona. Para las señales de audio generales, este ancho de banda provee una calidad subjetiva aceptable, pero es aún menor a la calidad de radio de FM o a la de CD que operan en gamas de 20-16000 Hz y de 20-20000 Hz, respectivamente . Un codificador de voz convierte una señal de voz en una corriente de bits digital que se transmite sobre un canal de comunicación o se almacena en un medio de almacenamiento. La señal de voz se digitaliza, es decir se muestrea y cuantifica con normalmente 16 bits por muestra. El codificador de voz tiene el papel de representar estas muestras digitales con un número menor de bits al tiempo que mantiene una buena calidad de voz subjetiva. El decodificador de voz o sintetizador opera sobre la corriente de bits transmitida o almacenada y la convierte de nuevo a una señal de sonido. La codificación de Predicción Lineal Excitada por Código (CELP por sus siglas en inglés) es una de las mejores técnicas para lograr un buen compromiso entre la calidad subjetiva y la velocidad de tráfico binario. Esta técnica de codificación o cifrado es base de varias normas de codificación de voz tanto en aplicaciones inalámbricas como alámbricas. En la codificación CELP, la señal de voz que se muestreó se procesa en bloques sucesivos de N muestras nombrados generalmente marcos, en donde N es un número predeterminado que corresponde típicamente a 10-30 ms . Se calcula y transmite un filtro de predicción lineal (LP) cada marco. El cálculo del filtro LP típicamente requiere una mirada adelante, i. e. 5-10 ms de un segmento de voz a partir del marco subsiguiente. El marco N-muestra se divide en bloques menores llamados submarcos. Normalmente el número de submarcos es de tres o cuatro produciendo submarcos de 4-10 ms . En cada submarco, normalmente se obtiene una señal de excitación de dos componentes: una excitación pasada y una excitación innovadora de libro de códigos fijo. El componente formado de la excitación pasada a menudo se llama el libro de códigos adaptable o excitación de tono (pitch) . Los parámetros que caracterizan la señal de excitación se codifican y transmiten al decodificador donde la señal de excitación reconstruida se utiliza como la alimentación del filtro LP. En el cifrado CELP convencional, la predicción de largo plazo para correlacionar la excitación pasada a la presente se realiza normalmente en una base de submarcos. La predicción de largo plazo se caracteriza por un parámetro de retardo y una ganancia de tono que son normalmente calculados, codificados y transmitidos al decodificador para cada submarco. A velocidades de tráfico binario bajas, estos parámetros consumen una proporción sustancial del presupuesto de bits disponible. Las técnicas de modificación de señal [1-7] : [1] W. B. Kleijn, P. Kroon, y D. Nahumi, "The RCELP speech-coding algorithm" ("Algoritmo de codificación de voz RCELP") , European Transactions on Telecommunications, Vol. 4, No. 5, págs . 573-582, 1994. [2] W. B. Kleijn, R. P. Ramachandran y P. Kroon, "Interpolation of the pitch-predictor parameters in analysis-by- synthesis speech coders" (Interpolación de los parámetros de predicción de tono en codificadores de voz de análisis por síntesis) , IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 1, págs. 42-54, 1994. [3] Y. Gao, A. Benyassine, J. Thyssen, H. Su, y E. Shlomot, "EX-CELP: A speech coding paradigm" (EX-CELP: Un paradigma de codificación de voz) IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , Salt Lake City, Utah, U.S. ., págs. 689-692, 7-11 Mayo 2001. [4] Patente de los Estados Unidos de América 5,704,003, "RCELP coder" (Codificador RCELP); Lucent Technologies Inc., (W. B. Kleijn y D. Nahumi), presentada: 19 de septiembre de 1995. [5] Solicitud de patente europea 0 602 826 A2, "Time shifting for analysis-by-synthesis coding" (Cambio de tiempo para codificación análisis por síntesis) A&T Corp., (B. Klein), presentada: 1 de diciembre de 1993. [6] Solicitud de patente WO 00/11653, "Speech encoder with continuous warping combined with long term prediction, " (Codificador de voz con deformación continua combinada con predicción de largo plazo" Conexant Systems Inc., (Y. Gao), presentada: 24 de agosto de 1999. [7] Solicitud de patente WO 00/11654, "Speech encoder adaptive applying pitch preprocessing with continuous warping" (Codificador de voz adaptable aplicando preprocesamiento de tono con deformación continua) , Conexant Systems Inc., (H. Su y Y. Gao), presentada: 24 agosto de 1999, mejoran el desempeño de la predicción de largo plazo a velocidades de tráfico binario bajas ajusfando la señal a ser codificada. Esto se hace adaptando la evolución de los ciclos de tono en la señal de voz para ajusfar el retardo de predicción de largo plazo, permitiendo transmitir sólo un parámetro de retardo por marco. La modificación de la señal se basa en la premisa de que es posible suministrar la diferencia entre la señal de voz modificada y la señal de voz original inaudible. Los codificadores CELP que utilizan la modificación de señal son a menudo llamados codificadores CELP (RCELP) relajados o de análisis por síntesis generalizados. Las técnicas de modificación de señal ajustan el retardo de la señal a un contorno de retardo predeterminado. La predicción de largo plazo entonces correlaciona la señal de excitación pasada al submarco presente utilizando este contorno de retardo y escalando por un parámetro de ganancia. El contorno de retardo se obtiene directamente interpolando entre dos estimaciones de tono de lazo abierto, la primera obtenida en el marco previo y la segunda en el marco en curso. La interpolación da un valor de retardo por cada instante de tiempo del marco. Después de que el contorno de retardo está disponible, el retardo en el submarco a ser codificado actualmente se ajusta para seguir este contorno artificial deformando, i. e. cambiando la escala de tiempo de la señal . En la deformación discontinua [1,4 y 5] [1] W. B. Kleijn, P. Kroon, y D. Nahumi, "The RCELP speech-coding algorithm", (El algoritmo de codificación de voz RCELP) , European Transactions on Telecommunications, Vol . 4, No. 5, págs . 573-582, 1994. [4] Patente de los Estados Unidos de América No. 5,704,003, "RCELP coder" (codificador RCELP), Lucent Technologies Inc., (W. B.Kleijn y D. Nahumi) , presentada: 19 de septiembre de 1995. [5] Solicitud de patente europea 0 602 826 A2, "Time shifting for analysis-by-synthesis coding" (cambio de tiempo para codificación análisis por síntesis) A&T Corp., (B. Klein), presentada: 1 de diciembre de 1993. se cambia en tiempo un segmento de señal sin alterar la longitud del segmento. La deformación discontinua requiere un procedimiento para ocuparse de la superposición resultante o porciones de señal perdidas. La deformación continua [2, 3, 6, 7] [2] W. B.Kleijn, R. P. Ramachandran, y P. Kroon, "Interpolation of the pitch-predictor parameters in analysis-by- synthesis speech coders" (Interpolación de los parámetros de predicción de tono en codificadores de voz de análisis por síntesis) , "IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 1, págs . 42-54, 1994. [3] Y. Gao, A. Benyassine, J. Thyssen, H. Su, y E. Shlomot, "EX-CELP: A speech coding paradigm" (EX-CELP: un paradigma de codificación de voz) IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Salt Lake City, Utah, ü. S. A. , págs. 689-692, 7-11 Mayo 2001. [6] Solicitud de patente WO 00/11653, "Speech encoder with continuous warping combined with long term prediction, " (Codificador de voz con deformación continua combinada con predicción de largo plazo" Conexant Systems Inc., (Y. Gao), presentada: 24 de agosto de 1999. [7] Solicitud de patente WO 00/11654, "Speech encoder adaptive applying pitch preprocessing with continuous warping" (Codificador de voz adaptable aplicando preprocesamiento de tono con deformación continua) , Conexant Systems Inc., (H. Su y Y. Gao), presentada: 24 agosto de 1999. se contrae o extiende un segmento de señal. Esto se hace utilizando una aproximación continua de tiempo para el segmento de señal y volviendo a hacer un muestreo a una longitud deseada con intervalos de muestreo diferentes determinados sobre la base del contorno de retardo. Para reducir artefactos en estas operaciones, el cambio tolerado en la escala de tiempo se mantiene pequeño. Es más, la deformación se realiza típicamente utilizando la señal residual LP o la señal de voz valorada para reducir las distorsiones resultantes. El uso de estas señales en lugar de la señal de voz también facilita la detección de pulsos de tono y regiones de baja energía entre ellas, y así la determinación de los segmentos de señal por deformación. La señal de voz modificada actual se genera por filtración inversa .
Después de que se hace la modificación de señal para el submarco en curso, la codificación puede proceder de cualquier manera convencional excepto la excitación de libro de códigos adaptable que se genera utilizando el contorno de retardo predeterminado . Esencialmente pueden utilizarse las mismas técnicas de modificación de señal en la codificación CELP de banda estrecha y de banda amplia. También pueden aplicarse técnicas de modificación de señal en otros tipos de métodos de codificación de voz tales como codificación de interpolación de forma de onda y codificación sinusoidal por ejemplo de acuerdo con [8]. [8] Patente de los Estados Unidos de América No. 6,223,151, "Method and apparatus for pre-processing speech signáis prior to coding by transform-based speech coders", (Método y aparato para preprocesar señales de voz antes de codificar por codificadores de voz basados en transformación) , Telefon Aktie Bolaget L Ericsson, ( . B.Kleijn y T. Eriksson) , Fecha de presentación: 10 de febrero de 1999.
Sumario de la invención La presente invención se refiere a un método para determinar un parámetro de retardo de largo plazo que caracteriza una predicción de largo plazo en una técnica que utiliza modificación de señal para codificar digitalmente una señal de sonido, que comprende dividir la señal de sonido en una serie de marcos sucesivos, localizar una característica de la señal de sonido en un marco previo, localizar una característica correspondiente de la señal de sonido en un marco en curso y determinar el parámetro de retardo de predicción de largo plazo para el marco en curso de manera tal que la predicción de largo plazo correlacione la característica de señal del marco previo con la característica de señal correspondiente del marco en curso. La presente invención se relaciona con un dispositivo para determinar un parámetro de retardo de predicción de largo plazo que caracteriza una predicción de largo plazo en una técnica que utiliza modificación de señal para codificar digitalmente una señal de sonido, el dispositivo comprende un divisor de la señal de sonido en una serie de marcos sucesivos, un detector de una característica de la señal de sonido en un marco previo, un detector de una característica correspondiente de la señal de sonido en un marco en curso y una calculadora del parámetro de retardo de predicción de largo plazo para el marco en curso, el cálculo del parámetro de retardo de predicción de largo plazo se realiza de manera tal que la predicción de largo plazo correlacione la característica de señal del marco previo con la característica de señal correspondiente del marco en curso. De conformidad con la invención, se provee un método de modificación de señal para implementar en una técnica para codificar digitalmente una señal de sonido, que comprende dividir la señal de sonido en una serie de marcos sucesivos, dividir cada marco de la señal de sonido en una pluralidad de segmentos de señal y deformar al menos una parte de los segmentos de señal del marco, esta deformación comprende restringir los segmentos de señal distorsionada dentro del marco. De acuerdo con la presente invención, se provee un dispositivo de modificación de señal para implementación en una técnica para codificar digitalmente una señal de sonido, que comprende un primer divisor de la señal de sonido en una serie de marcos sucesivos, un segundo divisor de cada marco de la señal de sonido en una pluralidad de segmentos de señal y un miembro de deformación de segmento de señal provisto con por lo menos una parte de los segmentos de señal del marco, este miembro de deformación comprende un limitador de los segmentos de señal distorsionada dentro del marco. La presente invención también se refiere a un método para buscar pulsos de tono en una señal de sonido, que comprende dividir la señal de sonido en una serie de marcos sucesivos, dividir cada marco en varios submarcos, producir una señal residual filtrando la señal de sonido mediante un filtro de análisis de predicción lineal, localizar un último pulso de tono de la señal de sonido del marco previo de la señal residual, extraer un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo utilizando la señal residual, y localizar pulsos de tono en un marco en curso utilizando el prototipo de pulso de tono. La presente invención también se refiere a un dispositivo para buscar pulsos de tono en una señal de sonido, que comprende un divisor de la señal de sonido en una serie de marcos sucesivos, un divisor de cada marco en varios submarcos, un filtro de análisis de predicción lineal para filtrar la señal de sonido y producir asi una señal residual, un detector de un último pulso de tono de la señal de sonido del marco previo en respuesta a la señal residual, un extractor de un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo en respuesta a la señal residual y un detector de pulsos de tono en un marco en curso utilizando el prototipo de pulso de tono. De conformidad con la invención, también se provee un método para buscar pulsos de tono en una señal de sonido, que comprende dividir la señal de sonido en una serie de marcos sucesivos, dividir cada marco en varios submarcos, producir una señal de sonido valorada procesando la señal de sonido mediante un filtro de valoración en donde la señal de sonido valorada es indicativa de periodicidad de señal, localizar un último pulso de tono de la señal de sonido del marco previo de la señal de sonido valorada, extraer un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo utilizando la señal de sonido valorada y localizar pulsos de tono en un marco en curso utilizando el prototipo de pulso de tono. También de acuerdo con la presente invención, se provee un dispositivo para buscar pulsos de tono en una señal de sonido, que comprende un divisor de la señal de sonido en una serie de marcos sucesivos, un divisor de cada marco en varios submarcos, un filtro de valoración para procesar la señal de sonido para producir una señal de sonido valorada en donde la señal de sonido valorada es indicativa de periodicidad de señal, un detector de un último pulso de tono de la señal de sonido del marco previo en respuesta a la señal de sonido valorada, un extractor de un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo en respuesta a la señal de sonido valorada y un detector de pulsos de tono en un marco en curso utilizando el prototipo de pulso de tono. La presente invención se relaciona además con un método para buscar pulsos de tono en una señal de sonido, que comprende dividir la señal de sonido en una serie de marcos sucesivos, dividir cada marco en varios submarcos, producir una señal de sonido valorada sintetizada filtrando una señal de voz sintetizada producida durante un último submarco de un marco previo de la señal de sonido mediante un filtro de valoración, localizar un último pulso de tono de la señal de sonido del marco previo de la señal de sonido valorada sintetizada, extraer un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo utilizando la señal de sonido valorada sintetizada y localizar pulsos de tono en un marco en curso utilizando el prototipo de pulso de tono . La presente invención se refiere además a un dispositivo para buscar pulsos de tono en una señal de sonido, que comprende un divisor de la señal de sonido en una serie de marcos sucesivos, un divisor de cada marco en varios submarcos, un filtro de valoración para filtrar una señal de voz sintetizada producida durante un último submarco de un marco previa de la señal de sonido y producir asi una señal de sonido valorada sintetizada, un detector de un último pulso de tono de la señal de sonido del marco previo en respuesta a la señal de sonido valorada sintetizada, un extractor de un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo en respuesta a la señal de sonido valorada sintetizada y un detector de pulsos de tono en un marco en curso utilizando el prototipo de pulso de tono. De conformidad con la invención, se provee además un método para formar una excitación de libro de códigos adaptable durante descifrado o descodificado de una señal de sonido dividida en marcos sucesivos y previamente codificada por medio de una técnica que utiliza modificación de señal para codificar digitalmente la señal de sonido, el método comprende: recibir, para cada marco, un parámetro de retardo de predicción de largo plazo que caracteriza una predicción de largo plazo en la técnica de codificación de señal de sonido digital; recuperar un contorno de retardo utilizando el parámetro de retardo de predicción de largo plazo recibido durante un marco en curso y el parámetro de retardo de predicción de largo plazo recibido durante un marco previo, en donde el contorno de retardo, con la predicción de largo plazo, correlaciona una característica, de señal del marco previo con una caracteristica de señal correspondiente del marco en curso; formar la excitación de libro de códigos adaptable en un libro de códigos adaptable en respuesta a al contorno de retardo . Además, de acuerdo con la presente invención, se provee un dispositivo para formar una excitación de libro de códigos adaptable durante la descodificación o descifrado de una señal de sonido dividida en marcos sucesivos y previamente codificada por medio de una técnica utilizando modificación de señal para codificar digitalmente la señal de sonido, el dispositivo comprende: un receptor de un parámetro de retardo de predicción de largo plazo de cada marco, en donde el parámetro de retardo de predicción de largo plazo caracteriza una predicción de largo plazo en la técnica de codificación de señal de sonido digital; una calculadora de un contorno de retardo en respuesta al parámetro de retardo de predicción de largo plazo recibido durante un marco en curso y el parámetro de retardo de predicción de largo plazo recibido durante un marco previo, en donde el contorno de retardo, con la predicción de largo plazo, correlaciona una caracteristica de señal del marco previo con una caracteristica de señal correspondiente del marco en curso; y un libro de códigos adaptable para formar la excitación de libro de códigos adaptable en respuesta al contorno de retardo . Lo anterior y otros objetos, ventajas y características de la presente invención se harán evidentes con la lectura de la siguiente descripción no restrictiva de las modalidades ilustrativas, dadas a manera sólo ejemplar con referencia a los dibujos anexos.
Breve descripción de los dibujos La figura 1 es un ejemplo ilustrativo de señales residuales originales y modificadas para un marco. La figura 2 es un diagrama de bloques funcional de una modalidad ilustrativa de un método de modificación de señal de conformidad con la invención. La figura 3 es un diagrama de bloques esquemático de un ejemplo ilustrativo de sistema de comunicación de voz que muestra el uso de codificador y decodificador de voz. La figura 4 es un diagrama de bloques esquemático de una modalidad ilustrativa de codificador de voz que utiliza un método de modificación de señal. La figura 5 es un diagrama de bloques funcional de una modalidad ilustrativa de búsqueda de pulso de tono.
La figura 6 es un ejemplo ilustrativo de posiciones de pulso de tono localizadas y una segmentación de ciclo de tono correspondiente para un marco. La figura 7 es un ejemplo ilustrativo para determinar un parámetro de retardo cuando el número de pulsos de tono es tres (c = 3) . La figura 8 es un ejemplo ilustrativo de interpolación de retardo (linea gruesa) sobre un marco de voz comparado con interpolación lineal (linea delgada) . La figura 9 es un ejemplo ilustrativo de un contorno de retardo sobre diez marcos seleccionados de acuerdo con la interpolación de retardo (linea gruesa) de la figura 8 e interpolación lineal (linea delgada) cuando el valor de tono correcto es 52 muestras. La figura 10 es un diagrama de bloques funcional del método de modificación de señal que ajusta el marco de voz al contorno de retardo seleccionado de acuerdo con una modalidad ilustrativa de la presente invención. La figura 11 es un ejemplo ilustrativo de actualizar la señal designada w(t) utilizando un cambio óptimo determinado d, y de reemplazar el segmento s (k) de señal con valores interpolados mostrados como puntos grises .
La figura 12 es un diagrama de bloques funcional de una lógica de determinación de velocidad de acuerdo con una modalidad ilustrativa de la presente invención. La figura 13 es un diagrama de bloques esquemático de una modalidad ilustrativa de un decodificador de voz que utiliza el contorno de retardo formado de acuerdo con una modalidad ilustrativa de la presente invención.
Descripción detallada de las modalidades ilustrativas Aunque se describirán las modalidades ilustrativas de la presente invención respecto a señales de voz y la norma 3GPP AMR ideband Speech Codee AMR-WB Standard (ITU-t G. 722.2), debe tenerse presente que los conceptos de la presente invención pueden aplicarse a otros tipos de señales de sonido asi como a otros codificadores de audio y voz. La figura 1 ilustra un ejemplo de señal 12 residual modificada, dentro de un marco. Como se muestra en la figura 1, el cambio de tiempo en la señal 12 residual modificada se limita o restringe de manera tal que ésta señal residual modificada esta en sincronía con la señal 11 residual original sin modificar, en límites de marco que ocurren en los instantes tn_i y tn. Aquí n se refiere al índice del marco presente. Más específicamente, el cambio de tiempo se controla implícitamente con un contorno de retardo empleado para interpolar el parámetro de retardo sobre el marco en curso. El parámetro de retardo y el contorno se determinan considerado las limitaciones de alineación de tiempo en los límites de marco antes mencionados. Cuando se utiliza la interpolación lineal para forzar la alineación de tiempo, los parámetros de retardo resultantes tienden a oscilar sobre varios marcos. Esto provoca a menudo artefactos molestos a la señal modificada cuyo tono sigue el contorno de retardo oscilante artificial. El uso de una técnica de interpolación no lineal propiamente escogida para el parámetro de retardo reducirá substancialmente estas oscilaciones . Dn diagrama de bloques funcional de la modalidad ilustrativa del método de modificación de señal de conformidad con la invención se presenta en la figura 2. El método inicia en el bloque 101 "búsqueda de ciclo de tono", localizando pulsos de tono individuales y ciclos de tono. La búsqueda del bloque 101 utiliza una estimación de tono de lazo abierto interpolada sobre el marco. Basado en los pulsos de tono localizados, el marco se divide en segmentos de ciclo de tono, conteniendo cada uno un pulso de tono y restringido dentro de los limites de marco tn_i y tn. La función del bloque 103 "selección de curva de retardo" es determinar un parámetro de retardo para el predictor de largo plazo y formar un contorno de retardo para interpolar este parámetro de retardo sobre el marco. El parámetro de retardo y el contorno se determinan considerado las limitaciones de sincronía en los límites de marco tn_i y tn. El parámetro de retardo determinado en el bloque 103 se codifica y transmite al decodificador cuando la modificación de señal se habilita para el marco en curso . El procedimiento de modificación de señal actual se realiza en el bloque 105 "modificación de señal síncrona de tono". El bloque 105 primero forma una señal designada en base al contorno de retardo determinado en el bloque 103 para posteriormente ajustar los segmentos de ciclo de tono individuales en esta señal designada. Los segmentos de ciclo de tono se cambian entonces uno por uno para aumentar al máximo su correlación con esta señal designada. Para mantener la complejidad en un nivel bajo, no se aplica ninguna deformación de tiempo continua mientras se busca el cambio óptimo y se cambian los segmentos. La modalidad ilustrativa del método de modificación de señal como se describe en la presente descripción se habilita típicamente sólo en marcos de voz exclusivamente con voz. Por ejemplo, marcos de transición como los inicios con voz no se modifican debido a un riesgo alto de provocar artefactos. En marcos puramente con voz, los ciclos de tono cambian normalmente relativamente despacio y por consiguiente bastan cambios pequeños para adaptar la señal al modelo de predicción de largo plazo. Debido a que sólo se realizan ajustes de señal pequeños, la probabilidad de provocar artefactos se lleva a un mínimo. El método de modificación de señal cons'tituye un clasificador eficaz para segmentos puramente con voz y por ende un mecanismo de determinación de proporción a ser usado en una codificación controlada por fuente de señales de voz. Cada bloque 101, 103 y 105 de la figura 2 provee varios indicadores de la periodicidad de señal y la conveniencia de modificación de señal en el marco en curso. Estos indicadores se analizan en los bloques lógicos 102, 104 y 106 para determinar un modo de codificación apropiado y velocidad de tráfico binario para el marco en curso. Más específicamente, estos bloques lógicos 102, 104 y 106 supervisan el éxito de las operaciones realizadas en los bloques 101, 103 y 105. Si el bloque 102 detecta que la operación realizada en el bloque 101 tiene éxito, el método de modificación de señal se continua en el bloque 103. Cuando este bloque 102 detecta una falla en la operación realizada en el bloque 101, el procedimiento de modificación de señal se termina y el marco de voz original se conserva intacto para codificar (ver bloque 108 que corresponde al modo normal (sin modificación de señal) ) . Si el bloque 104 detecta que la operación realizada en el bloque 103 tiene éxito, el método de modificación de señal continua en el bloque 105. Cuando, por el contrario, este bloque 104 detecta una falla en la operación realizada en el bloque 103, el procedimiento de modificación de señal se termina y el marco de voz original se conserva intacto para codificar (ver bloque 108 que corresponde al modo normal (sin modificación de señal) ) . Si el bloque 106 detecta que la operación realizada en el bloque 105 tiene éxito, se utiliza un modo de velocidad de tráfico binario bajo con modificación de señal (ver bloque 107). Por el contrario, cuando este bloque 106 detecta una falla en la operación realizada en el bloque 105 el procedimiento de modificación de señal se termina y el marco de voz original se conserva intacto para codificar (ver bloque 108 que corresponde al modo normal (sin modificación de señal) ) . La operación de los bloques 101-108 se describirá en detalle más adelante en la presente descripción.
La figura 3 es un diagrama de bloques esquemático de un ejemplo ilustrativo de sistema de comunicación de voz que describe el uso de codificador y decodificador de voz. El sistema de comunicación de voz de la figura 3 soporta transmisión y reproducción de una señal de voz por un canal 205 de comunicación. Aunque puede comprender por ejemplo un alambre, un enlace óptico o un enlace de fibra, el canal de comunicación 205 comprende típicamente por lo menos en parte un enlace de radiofrecuencia. El enlace de radiofrecuencia soporta a menudo varias comunicaciones de voz simultáneas que requieren recursos de ancho de banda compartidos tal como puede encontrarse con la telefonía celular. Aunque no se muestra, el canal de comunicación 205 puede reemplazarse por un dispositivo de almacenamiento que graba y almacena la señal de voz puesta en código para reproducción posterior. En el lado del transmisor, un micrófono 201 produce una señal 210 de voz analógica que se provee a un convertidor 202 analógico a digital (A/D) . La función del convertidor 202 A/D es convertir la señal 210 de voz analógica en una señal 211 de voz digital. Un codificador 203 de voz codifica la señal 211 de voz digital para producir un conjunto de parámetros 212 de codificación que se codifican en forma binaria y se entregan a un codificador de canal 204. El codificador de canal 204 agrega redundancia a la representación binaria de los parámetros de codificación antes de transmitirlos en una corriente 213 de bits sobre el canal 205 de comunicación. En el lado receptor, un decodificador de canal 206 se suministra con la representación binaria redundante anterior de los parámetros de codificación provenientes de la corriente 214 de bits recibida para detectar y corregir errores de canal que ocurrieron en la transmisión. Un decodificador de voz 207 convierte la corriente 215 de bits corregida de error de canal proveniente del decodificador de canal 206 de regreso a un conjunto de parámetros de codificación para crear una señal 216 de voz digital sintetizada. La señal 216 de voz sintetizada reconstruida por el decodificador 207 de voz se convierte a una señal 217 de voz analógica mediante un convertidor 208 digital a analógico (D/A) y se reproduce mediante una unidad 209 de bocinas . La figura 4 es un diagrama de bloques esquemático que muestra las operaciones realizadas por la modalidad ilustrativa del codificador 203 de voz (figura 3) que incorporan la funcionalidad de modificación de señal. La presente descripción presenta una novedosa aplicación de esta funcionalidad de modificación de señal del bloque 603 en la figura 4. Las personas con conocimientos medios en la materia conocen otras operaciones realizadas por el codificador 203 de voz para y se describen, por ejemplo, en la publicación [10] [10] 3GPP T 26.190, "Wideband Speech Codee: Transcoding Functions" 3GPP Technxcal Specificatxon . la cual se incorpora aqui a manera de referencia.
Cuando no se establezca otra cosa, la xmplementación de las operaciones de codificación y descodificación de voz en las modalidades ilustrativas y ejemplos de la presente invención obedecerán la norma AMR Wideband Speech Codee (AMR-WB) . El codificador 203 de voz como se muestra en la figura 4 codifica la señal de voz digitalizada utilizando uno o una pluralidad de modos de codificación. Cuando se utiliza una pluralidad de modos de codificación y la funcionalidad de modificación de señal se deshabilita en uno de estos modos, este modo particular operará de acuerdo con normas establecidas y conocidas para las personas con conocimientos medios en la materia. Aunque no se muestra en la figura 4, la señal de voz se muestrea a una velocidad de 16 kHz y cada muestra de señal de voz se digitaliza. La señal de voz digital se divide entonces en marcos sucesivos de longitud dada y cada uno de estos marcos se divide en un número dado de submarcos sucesivos. La señal de voz digital se somete además a preprocesamiento como se describe por la norma AMR-WB. Este preprocesamiento incluye filtración de alto paso, filtración de preénfasis utilizando un filtro P(z) = l-0.68z_1 y bajar el muestreo de la velocidad de muestreo de 16 kHz a 12.8 kHz. Las operaciones subsecuentes de la figura 4 asumen que la señal de voz de entrada s(t) ha sido preprocesada y bajada de muestreo a la velocidad de muestreo de 12.8 kHz . El codificador 203 de voz comprende un módulo 601 de análisis y cuantificación LP (Predicción Lineal) sensible a la señal s(t) 617 de voz digital preprocesada de entrada, para calcular y cuantificar los parámetros ao, ai, a2. · · r anA del filtro LP 1/A(z), en donde n¾ el orden del filtro A(z)= a0 + aiz-1 + a2z~2 +... + anAz_nA. La representación binaria 616 de estos parámetros de filtro LP cuantificados se provee al multiplexor 614 y posteriormente se multiplexan en la corriente 615 de bits. Los parámetros de filtro LP cuantificados y no cuantificados pueden interpolarse para obtener los parámetros de filtro LP correspondientes para cada submarco. El codificador 203 de voz además comprende un estimador 602 de tono para calcular estimados 619 de tono de lazo abierto para el marco en curso en respuesta a los parámetros 618 provenientes del módulo 601 de cuantificación y análisis LP. Estos estimados 619 de tono de lazo abierto se interpolan sobre el marco a ser usado en un módulo 603 de modificación de señal. Las operaciones realizadas en el módulo 601 de análisis y cuantificación LP y el estimador 602 de tono pueden llevarse a cabo conforme a la Norma AMR- B mencionada anteriormente. El módulo 603 de modificación de señal de la figura 4 realiza una operación de modificación de señal antes de la búsqueda de tono de lazo cerrado de la señal de excitación de libro de códigos adaptable para ajustar la señal de voz al contorno de retardo determinado d(t) . En la modalidad ilustrativa, el contorno d(t) de retardo define un retardo de predicción de largo plazo para cada muestra del marco. Por la construcción el contorno de retardo se caracteriza totalmente sobre el marco t G (tn_ i,tn) por un parámetro de retardo 620 dn = d(tn) y su valor anterior dn_i= d( n-!) que son iguales al valor del contorno de retardo en los limites de marco. El parámetro 620 de retardo se determina como una parte de la operación de modificación de señal y se codifica y entonces se provee al multiplexor 614 donde se multiplexa en la corriente 615 de bits . El contorno d(t) de retardo que define un parámetro de retardo de predicción de largo plazo para cada muestra del marco se provee a un libro de códigos 607 adaptable. El libro de códigos 607 adaptable es sensible al contorno d(t) de retardo para formar la excitación ¾(t) del libro de códigos adaptable (t) del submarco en curso de la excitación u(t) utilizando el contorno de retardo d(t) como ub(t)= u(t-d(t)). Asi el contorno de retardo correlaciona la muestra pasada de la señal de excitación u(t-d (t) ) con la muestra presente en la excitación ub(t) de libro de códigos adaptable. El procedimiento de modificación de señal también produce una señal f(t) residual modificada para ser utilizada para componer una señal 621 designada modificada para la búsqueda de lazo cerrado de la excitación uc(t) de libro de códigos fijo. La señal f(t) residual modificada se obtiene en el módulo 603 de modificación de señal deformando los segmentos de ciclo de tono de la señal residual LP y se provee al cálculo de la señal designada modificada en el módulo 604. El filtrado de síntesis LP de la señal residual modificada con el filtro 1/A(z) provee entonces en el módulo 604 la señal de voz modificada. La señal 621 designada modificada de la búsqueda de excitación de libro de códigos fijo se forma en el módulo 604 de acuerdo con la operación de la norma AMR-WB, pero con la señal de voz original reemplazada por su versión modificada.
Después de que han obtenido la excitación ¾(t) de libro de códigos adaptable y la señal 621 designada modificada para el submarco en curso, la codificación puede además proceder utilizando medios convencionales. La función de la búsqueda de excitación de libro de códigos fijo de lazo cerrado es determinar la señal uc(t) de libro de códigos fijo para el submarco en curso. Para ilustrar esquemáticamente la operación de la búsqueda de libro de códigos fijo de lazo cerrado, la excitación uc(t) de libro de códigos fijo es ganancia escalada mediante un amplificador 610. De la misma manera, la excitación Ub(t) de libro de códigos adaptable es ganancia escalada mediante un amplificador 609. Las excitaciones ub(t) y uc(t) de libro de códigos adaptable y fijo de ganancia escalada se suman juntos mediante un sumador 611 para formar una señal u(t) de excitación total. Esta señal u(t) de excitación total se procesa mediante un filtro 612 de síntesis LP 1/A(z) para producir una señal 625 de voz de síntesis que se substrae de la señal 621 designada modificada mediante un sumador 605 para producir una señal 626 de error. ün módulo 606 de error de valoración y minimización es sensible a la señal 626 de error para calcular, de conformidad con métodos convencionales, los parámetros de ganancia para los amplificadores 609 y 610 cada submarco. El módulo 606 de error de valoración y minimización calcula además, de acuerdo con métodos convencionales y en respuesta a la señal 626 de error, la entrada 627 al libro de códigos 608 fijo. Los parámetros 622 y 623 de ganancia cuantificada y los parámetros 624 que caracterizan la señal uc(t) de excitación de libro de códigos fijo se proveen al multiplexor 614 y se multiplexan en la corriente de bits 615. El procedimiento anterior se realiza de la misma manera tanto cuando la modificación de señal se encuentra habilitada como cuando se encuentra deshabilitada. Debe notarse que, cuando la funcionalidad de modificación de señal esta inhabilitada, el libro de códigos 607 de excitación adaptable opera de conformidad con métodos convencionales. En este caso, se busca un parámetro de retardo separado para cada submarco en el libro de códigos 607 adaptable para refinar los estimados 609 de tono de lazo abierto. Estos parámetros de retardo son codificados, suministrados al multiplexor 614 y multiplexados en la corriente de bits 615. Además, la señal 621 designada para la búsqueda de libro de códigos fijo se forma de acuerdo con métodos convencionales. El decodificador de voz como se muestra en la figura 13 opera de conformidad con métodos convencionales excepto cuando la modificación de señal está habilitada. La operación de modificación de señal habilitada y deshabilitada difiere esencialmente en la manera que se forma la señal Ub(t) de excitación de libro de códigos adaptable. En ambos modos de operación, el decodificador decodifica los parámetros recibidos de su representación binaria. Típicamente los parámetros recibidos incluyen excitación, ganancia, retardo y parámetros LP. Los parámetros de excitación descodificados se utilizan en el módulo 701 para formar la señal uc(t) de excitación de libro de códigos fijo para cada submarco. Esta señal se provee mediante un amplificador 702 a un sumador 703. De forma similar, la señal ub(t) de excitación de libro de códigos adaptable del submarco en curso se provee al sumador 703 mediante un amplificador 704. En el sumador 703, las señales Ub(t) y uc(t) de excitación de libro de códigos adaptable y fijo de ganancia escalable se suman en conjunto para formar una señal u(t) de excitación total para el submarco en curso. Esta señal u(t) de excitación se procesa mediante el filtro 708 de síntesis LP 1/A(z), que utiliza parámetros LP interpolados en el módulo 707 para el submarco en curso, para producir la señal s (t) de voz sintetizada. Cuando la modificación de señal se habilita, el decodificador de voz recupera el contorno d(t) de retardo en el módulo 705 utilizando el parámetro dn de retardo recibido y su valor dn_i recibido previo como en el codificador. Este contorno d(t) de retardo define un parámetro de retardo de predicción de largo plazo para cada instante del marco en curso. Se forma la excitación ub(t)= u(t-d(t)) del libro de códigos adaptable (t) desde la excitación pasada para el submarco en curso como en el codificador utilizando el contorno d(t) de retardo. La descripción restante describe la operación detallada del procedimiento 603 de modificación de señal asi como su uso como una parte del mecanismo de determinación de modo .
Búsqueda de pulsos de tono y segmentos de ciclo de tono El método de modificación de señal opera el tono y el marco sincrónicamente, cambiando cada segmento de ciclo de tono detectado individualmente pero limitando el cambio en limites de marco. Esto requiere medios para localizar pulsos de tono y segmentos de ciclo de tono correspondientes para el marco en curso. En la modalidad ilustrativa del método de modificación de señal, los segmentos de ciclo de tono son determinados basándose en pulsos de tono detectados que se buscan de conformidad con la figura 5. La búsqueda de pulsos de tono puede operar en la señal residual r(t), la señal w(t) de voz valorada y/o la señal w(t) de voz sintetizada valorada. La señal r(t) residual se obtiene filtrando la señal s(t) con el filtro A(z) LP, que se ha interpolado para los submarcos. En la modalidad ilustrativa, el orden del filtro A(z) LP es 16. La señal w(t) de voz valorada se obtiene procesando la señal s(t) de voz mediante del filtro de valoración (z) = ^ (1) donde el coeficiente ?a=0.92 y ?2=0.68. La señal w(t) de voz valorada se utiliza a menudo en estimación de tono de lazo abierto (módulo 602) puesto que el filtro de valoración definido por la ecuación (1) atenúa la estructura de formante en la señal de voz s (t) y preserva la periodicidad también en segmentos de señal sinusoidal. Eso facilita la búsqueda de pulso de tono porque la posible periodicidad de señal se torna claramente evidente en señales valoradas. Debe notarse que la señal w(t) de voz valorada también se necesita para la búsqueda adelantada para buscar el último pulso de tono en el marco en curso. Esto puede hacerse utilizando el filtro de valoración de la ecuación (1) formado en el último submarco del marco en curso sobre la porción de búsqueda adelantada. El procedimiento de búsqueda de pulso de búsqueda de tono de la figura 5 inicia en el bloque 301 localizando el último pulso de tono del marco previo desde la señal r(t) residual. Un pulso de tono típicamente destaca claramente como el valor máximo absoluto de la señal residual filtrada de paso bajo en un ciclo de tono que tiene una longitud de aproximadamente p(tn-i) . Una ventana Hamming normalizada ¾(z) = (0.08 z~2 + 0.54z_1 +1 + 0.54z + 0.08z2)/2.24 que tiene una longitud de cinco (5) muestras se utiliza para la filtración de paso bajo para facilitar la localización del último pulso de tono del marco previo. Esta posición de pulso de tono se denota por TQ. La modalidad ilustrativa del método de modificación de señal de conformidad con la invención no requiere una posición exacta para este pulso de tono, sino una estimación de la ubicación general del segmento de alta energía en el ciclo de tono. Después de ubicar el último pulso de tono en TQ en el marco previo, se extrae un prototipo de pulso de tono de longitud 2/+1 muestras en el bloque 302 de la figura 5 alrededor de esta estimación de posición general como, por e emplo: mn(k)=w(T0-l+k) para k=0,l,..., 21. (2) Este prototipo de pulso de tono se utiliza como posteriormente para ubicar pulsos de tono en el marco en curso. La señal w(t) de voz valorada sintetizada (o la señal (t) de voz valorada) puede utilizarse para el prototipo de pulso en lugar de la señal r(t) residual. Esto facilita la búsqueda de pulso de tono, porque la estructura periódica de la señal se conserva mejor en la señal de voz valorada. La señal w(t) de voz valorada sintetizada se obtiene filtrando la señal de voz sintetizada s(t) del último submarco del marco previo por el filtro W(z) de valoración de la ecuación (1). Si el prototipo de pulso de tono se extiende sobre el extremo del marco previamente sintetizado, la señal (t) de voz valorada del marco en curso se utiliza para esta porción excedente. El prototipo de pulso de tono tiene una correlación alta con los pulsos de tono de la señal (t) de voz valorada si el marco de voz sintetizado anterior ya contiene un ciclo de tono bien desarrollado. Asi el uso de voz sintetizada al extraer el prototipo provee información adicional para supervisar el desempeño de codificar y seleccionar un modo de codificación apropiado en el marco en curso como se explicará con más detalle en la siguiente descripción.
Seleccionando 1=10 muestras provee un buen compromiso entre la complejidad y el desempeño en la búsqueda de pulso de tono. El valor de 1 también se determina proporcionalmente a la estimación de tono de lazo abierto. Dada la posición To del último pulso en el marco previo, el primer pulso de tono del marco en curso puede predecirse para que ocurra aproximadamente en el instante T0 + p(T0) . Aquí p(t) denota la estimación de tono de lazo abierto interpolada en el instante (posición) t. Esta predicción se realiza en el bloque 303. En el bloque 305, la posición T0 + p (T0) de pulso de tono se refina como i = T0 + p(T0) + arg max C(j) (3) donde la señal (t) de voz valorada en los alrededores de la posición predicha se correlaciona con el prototipo de pulso CU) = rÜ)?mn(k)w(T0 + p(T0) + j-l +k-)r 7e[-ymax,/max} (4) Asi el refinamiento es el argumento j, limitado en [- maxí jmax] r que lleva a un máximo la correlación C(j) valorada entre el prototipo de pulso y una de las señales residuales mencionadas anteriormente, la señal de voz valorada o señal de voz sintetizada valorada. De conformidad con un ejemplo ilustrativo, el limite jmax es proporcional a la estimación de tono de lazo abierto como min{20, <p(0)/4>}, donde el operador <·> denota redondeo al · entero más cercano. La función de valoración en la ecuación (4) favorece la posición de pulso predicha utilizando la estimación de tono de lazo abierto, puesto que logra su valor máximo 1 en j = 0. El denominador p(T0 + p(T0)) en la ecuación (5) es la estimación de tono de lazo abierto para la posición de pulso de tono predicha. Después de que se ha encontrado la primer posición i de pulso de tono utilizando la ecuación (3) , el siguiente pulso de tono puede predecirse para estar en el instante 2 = Ti + p(Ti) y refinado como se describió anteriormente. Esta búsqueda de pulso de tono que comprende la predicción 303 y el refinamiento 305 se repite hasta que el procedimiento de predicción o el procedimiento de refinamiento provea una posición de pulso de tono fuera del marco en curso. Estas condiciones se verifican en el bloque 304 lógico para la predicción de la posición del siguiente pulso de tono (bloque 303) y en el bloque 306 lógico para el refinamiento de esta posición del pulso de tono (bloque 305) . Debe notarse que el bloque lógico 304 termina la búsqueda sólo si una posición del pulso está hasta tan lejos en el marco subsiguiente que el paso de refinamiento no puede devolverlo al marco en curso. Este procedimiento provee c posiciones de pulso de tono dentro del marco en curso, denotado por Ti, T2, . . ., Tc. De conformidad con un ejemplo ilustrativo, se ubican los pulsos de tono en la resolución del entero excepto el último pulso de tono del marco denotado por Tc. Puesto que se necesita la distancia exacta entre los últimos pulsos de dos marcos sucesivos para determinar el parámetro de retardo a ser transmitido, se localiza el último pulso utilizando una resolución fraccionaria de 1/4 de muestra en la ecuación (4) para j. La resolución fraccionaria se obtiene muestreando w(t) en los alrededores del último pulso de tono predicho, antes de evaluar la correlación de la ecuación (4) . De conformidad con un ejemplo ilustrativo, la interpolación sinosuidal de ventana Hamming de longitud 33 se usa para muestreo. La resolución fraccionaria de la última posición de pulso de tono ayuda a mantener el buen desempeño de predicción de largo plazo a pesar de limitación de sincronía de tiempo establecida para el extremo de marco. Esto se obtiene con un costo de la velocidad de tráfico binario adicional necesaria para transmitir el parámetro de retardo en una exactitud superior . Después de completar la segmentación de ciclo de tono en el marco en curso, se determina un cambio óptimo para cada segmento. Esta operación se realiza utilizando la señal w(t) de voz valorada como se explicará en la siguiente descripción. Para reducir la distorsión causada por deformación, se implementan los cambios de segmentos de ciclo de tono individuales utilizando la señal r(t) residual LP. Puesto que el cambio distorsiona la señal particularmente alrededor de los limites del segmento, es esencial colocar los limites en secciones de baja energía de señal r(t) residual. En un ejemplo ilustrativo, los limites del segmento se colocan aproximadamente a la mitad de dos pulsos de tono consecutivos, pero restringidos dentro del marco en curso. Los límites de segmento siempre se seleccionan dentro del marco en curso de manera tal que cada segmento contenga exactamente un pulso de tono. Los segmentos con más de un pulso de retardo o segmentos "vacíos" sin ningún pulso de tono estorban la coincidencia basada en la correlación subsiguiente con la señal designada y deben prevenirse en la segmentación de ciclo de tono. El ésimo segmento extraído de ls muestras se denota como ws(k) para k = 0, 1,..., ls-l. El instante de inicio de este segmento es ts, seleccionado de manera tal que ws(0) = w(ts) . El número de segmentos en el marco presente se denota por c. Al tiempo que se seleccionan los limites del segmento entre dos pulsos de tono sucesivo Ts y Ts+i dentro del marco en curso, se utiliza el siguiente procedimiento.
Primero el instante central entre dos pulsos se calcula como ? = (Ts +Ti+1)/2> . Las posiciones candidatas para el limite del segmento se ubican en la región [?— maií,A +smwí] , donde £-mait corresponde a cinco muestras. La energía de cada posición de límite candidato se calcula como Q(s) = r2(A+ s'-l)+ r2(A + e'), e'e [-emax,sm (6) se selecciona la posición que da la energía más pequeña porque esta elección típicamente da como resultado la menor distorsión en la señal de voz modificada. El instante que lleva a un mínimo la ecuación (6)- se denota como e. El instante de inicio del nuevo segmento se selecciona como ts=A + s. Esto también define la longitud del segmento anterior, puesto que el segmento previo termina en el instante ? + e-?. La figura 6 muestra un ejemplo ilustrativo de segmentación de ciclo de tono. Note particularmente el primero y el último segmento wi(k) y w4(k), respectivamente, extraídos de manera tal que no resulta ningún segmento vacío y que no se exceden los límites del marco.
Determinación del parámetro de retardo Generalmente la ventaja principal de modificación de señal es que sólo un parámetro de retardo por marco tiene que ser codificado y transmitido al decodificador (no mostrado) . Sin embargo, debe ponerse atención especial a la determinación de este sólo parámetro. El parámetro de retardo no sólo define junto con su valor anterior la evolución de la longitud de ciclo de tono sobre el marco, sino que también afecta al asincronía de tiempo en la señal modificada resultante. En los métodos descritos en [1,4-7] [1] . B. Kleijn, P. Kroon, y D. Nahumi, "The RCELP speech- coding algorithm" (algoritmo de codificación de voz RCELP) , European Transactions on Telecommunications , Vol. 4, No. 5, págs. 573-582, 1994. [4] Patente de los Estados Unidos de América No. 5,704,003, "RCELP coder" (codificador RCELP) Lucent Technologies Inc., (W. B. Kleijn y D. Nahumi), presentada: 19 Sep. de 1995. [5] Solicitud de patente europea 0 602 826 A2, "Time shifting for analysis-by-synthesis coding," (Cambio de tiempo para codificación análisis por síntesis) AT&T Corp., (B. Klein), presentada: 1 Dic. de 1993. [6] Solicitud de patente WO 00/11653, "Speech encoder with continuous arping combined with long term prediction" (Codificador de voz con deformación continua combinado con predicción de largo plazo) , Conexant Systems Inc., (Y. Gao), presentada: 24 de agosto de 1999. [7] Solicitud de patente WO 00/11654, "Speech encoder adaptive applying pitch preprocessing with continuous warping" (Codificador de voz adaptativo aplicando preprocesamiento de tono con distorsión continua), Conexant Systems Inc., (H. Su y Y. Gao), presentada el 24 de agosto de 1999. no se requiere de ninguna sincronía de tiempo en los límites del marco y así el parámetro de retardo a ser transmitido puede determinarse directamente utilizando una estimación de tono de lazo abierto. Esta selección normalmente produce una asincronía de tiempo en el límite del marco, y se traduce en un cambio de tiempo que se acumula en el marco subsiguiente porque debe conservarse la continuidad de la señal. Aunque el oído humano es insensible a cambios en la escala de tiempo de la señal de voz sintetizada, el incremento en la asincronía de tiempo complica la implementación del codificador. De hecho, se requieren grandes memorias de señal para acomodar las señales cuya escala de tiempo se pudo haber extendido, y debe implementarse una lógica de control para limitar el cambio acumulado durante la codificación. También, la asincronia de tiempo de varias muestras tipicas en la codificación RCELP pueden provocar no coincidencia entre los parámetros LP y la señal residual modificada. Esta desigualdad puede producir artefactos perceptuales a la señal de voz modificada que se sintetiza por filtración LP de la señal residual modificada. Por el contrario, la modalidad ilustrativa del método de modificación de señal de conformidad con la presente invención conserva la sincronía de tiempo en los límites del marco. Así, ocurre un cambio estrictamente restringido en los extremos del marco y cada nuevo marco inicia en coincidencia de tiempo perfecta con el marco de voz original. Para asegurar la sincronía de tiempo en el extremo del marco, el contorno d(t) de retardo correlaciona, con la predicción de largo plazo, el último pulso de tono al final del marco de voz sintetizada anterior para los pulsos de tono del marco en curso. El contorno de retardo define un parámetro de retardo de predicción de largo plazo interpolado, sobre nenes:Lino marco en curso para cada muestra desde el instante tn_i+l hasta Tn. Sólo el parámetro de retardo dn= d(tn) en el extremo del marco se transmite al decodificador implicando que d(t) debe tener una forma totalmente especificada por los valores transmitidos. El parámetro de retardo de predicción de largo plazo tiene que ser seleccionado de manera tal que el contorno de retardo resultante cumpla el la correlación de pulso. En una forma matemática esta correlación puede presentarse como sigue: permitir que KC sea una variable de tiempo temporalmente y T0 y Tc las últimas posiciones de pulso de tono en los marcos previo y en curso, respectivamente. Ahora, el parámetro de retardo dn tiene que seleccionarse de manera tal que, después de ejecutar el pseudocódigo presentado en la tabla 1, la variable KC tenga un valor muy cercano a T0 llevando a un mínimo el error |KC-T0|. El pseudocódigo inicia desde el valor K0=Tc y se itera c veces actualizando KÍ: = KÍ_I -d(Ki-i). Si KC entonces iguala a T0, la predicción de largo plazo puede utilizarse con eficacia máxima sin asincronia de tiempo en el extremo del marco.
Tabla 1. Lazo para buscar el parámetro de retardo óptimo. % iniciación Ki : =Tc; % lazo para i=l hasta c j: = Ki_i-d(Ki_ fin; Un ejemplo de la operación del lazo de selección de retardo en el caso c = se ilustra 3 en la figura 7. El lazo inicia desde el valor K0=Tc y toma la primera iteración inversa como ?? = ?0. Las iteraciones se realizan dos veces más dando como resultado ?2 = Ki-d(Ki) y ?3= 2-d(K2) . El valor final K3 se compara entonces contra T0 por lo que se refiere al error en = I 3-T0I · El resultante error es una función del contorno de retardo que se ajusta en el algoritmo de selección de retardo como se describirá después en esta descripción. Los métodos de modificación de señal [1, 4, 6, 7] como se describen en lo siguientes documentos: [1] W. B.Kleijn, P. Kroon, y D. Nahumi, "The RCELP speech-coding algorithm" ("Algoritmo de codificación de voz RCELP") , "European Transactions on Telecommunicatíons, Vol . 4, No. 5, págs . 573-582, 1994. [4] Patente de los Estados Unidos de América 5,704,003, "RCELP coder" (Codificador RCELP); Lucent Technologies Inc., (W. B. Kleijn y D. Nahumi) , presentada: 19 de septiembre de 1995. [6] Solicitud de Patente WO 00/11653, "Speech encoder with continuous warping combined with long term prediction," (Codificador de voz con deformación continua combinado con predicción de largo plazo" Conexant Systems Inc., (Y. Gao), presentada: 24 de agosto de 1999. [7] Solicitud de patente WO 00/11654, "Speech encoder adaptive applying piten preprocessing with continuous warping" (Codificador de voz adaptable aplicando preprocesamiento de tono con deformación continua) , Conexant Systems Inc., (H. Su y Y. Gao), presentada: 24 agosto de 1999. interpolan los parámetros de retardo linealmente sobre el marco entre dn_i y dn. Sin embargo, cuando se requiere sincronía de tiempo en el extremo del marco, la interpolación lineal tiende a producir un contorno de retardo oscilante. Así ciclos de tono en la señal de voz modificada se contraen y se expanden provocando periódica y fácilmente artefactos molestos. La evolución y amplitud de las oscilaciones están relacionadas con la última posición de tono. Cuanto más extenso es el último pulso de tono respecto del extremo del marco con relación al período de tono, más probablemente las oscilaciones se amplifican. Puesto que la sincronía de tiempo en el extremo del marco es un requisito esencial de la modalidad ilustrativa del método de modificación de señal de conformidad con la presente invención, la familiar interpolación lineal de los métodos anteriores no puede utilizarse sin degradar la calidad de la voz. En cambio, la modalidad ilustrativa del método de modificación de señal de conformidad con la presente invención describe un contorno de retardo lineal a por etapas d(t) = l-o( .! +«(í t„_, <?<??_ +s? (7) t -l + a <t=t„ donde (8) Oscilaciones se reducen de forma importante utilizando este contorno de retardo. Aquí tn y tn_i son los instantes de extremo de los marcos en curso y previo o anterior, respectivamente, y dn y dn_i son los valores de parámetro de retardo correspondientes. Note que tn_i + s? es el instante después del cual el contorno de retardo permanece constante. En un ejemplo ilustrativo, el parámetro s? varía como función de dn_i como 128 muestras, dn-i > 90 muestras y la longitud del marco N es 256 muestras. Para evitar oscilaciones, es benéfico disminuir el valor de s? conforme aumenta la longitud del ciclo de tono. Por otro lado, para evitar cambios rápidos en el contorno d(t) de retardo al principio del marco como tn_i < t < tn-i + s?, el parámetro s? tiene que ser siempre por lo menos la mitad de la longitud del marco. Cambios rápidos en d(t) degradan fácilmente la calidad de la señal de voz modificada. Nótese que dependiendo del modo de codificación del marco previo, dn_i puede ser ya sea el valor de retardo en el extremo de marco (modificación de señal habilitada) o puede ser el valor de retardo del último submarco (modificación de señal deshabilitada) . Puesto que el valor pasado dn-i del parámetro de retardo es conocido en el decodificador, el contorno de retardo es inequívocamente definido por dn y el decodificador puede formar el contorno de retardo utilizando la ecuación (7). El único parámetro que puede variarse al tiempo que se busca el contorno de retardo óptimo es dn, el valor de parámetro de retardo en el extremo del marco restringido en [34, 231] . No existe ningún método explícito simple para resolver el dn óptimo en un caso general. En cambio, deben probarse varios valores para encontrar la mejor solución. Sin embargo, la búsqueda es directa. El valor de dn puede predecirse primero como En la modalidad ilustrativa, la búsqueda se realiza en tres fases aumentando la resolución y enfocando la gama de la búsqueda a ser examinada dentro [34, 231] en cada fase. Los parámetros de retardo que dan el error más pequeño en=|Kc-T0| en el procedimiento de la tabla 1 en estas tres fases se denota por ¿ , <^2) y dn=^3), respectivamente. En la primera fase, la búsqueda se hace alrededor del valor d¡^ , predicho utilizando la ecuación (10) con una resolución de cuatro muestras en la gama [d^^ 11, d<0)+12] cuando }< 60 y en la gama -15, ^0)+16] cuando no. La segunda fase restringe la gama en y utiliza la resolución del entero. La última, tercera fase examina la gama [ ¿ 2)—3/ , con una resolución de 1/4 de muestra para d^< 92½. Sobre esta gama [ ^-l/2, <^2)+1/2] y se utiliza una resolución de 1/2 de muestra. Esta tercera fase provee el parámetro de retardo óptimo dn a ser transmitido al decodificador . Este procedimiento es un compromiso entre la exactitud y la complejidad de la búsqueda. Claro, las personas con conocimientos medios en la materia pueden llevar a cabo la búsqueda del parámetro de retardo fácilmente bajo las restricciones de sincronía de tiempo utilizando medios alternos sin apartarse de la naturaleza y esencia de la presente invención. El parámetro de retardo dn e [34,231] puede codificarse utilizando nueve bits por marco utilizando una resolución de 1/4 de muestra para dn < 92 ½ y 1/2 de muestra para dn > 92½. La figura 8 ilustra interpolación de retardo cuando dn-i= 50, dn= 53, s? = 172, y la longitud del marco N=256. El método de interpolación utilizado en la modalidad ilustrativa del método de modificación de señal se muestra por en línea gruesa en tanto que la interpolación lineal que corresponde a los métodos anteriores se muestra en línea delgada. Ambos contornos interpolados se desempeñan aproximadamente de la misma manera en el lazo de selección de retardo de la tabla 1, pero la interpolación lineal por etapas descrita produce un cambio absoluto más pequeño | dn-i-dn | . Esta característica reduce las oscilaciones potenciales en el contorno d(t) de retardo y los artefactos molestos en la señal de voz modificada cuyo tono seguirá este contorno de retardo. Para aclarar de forma más extensa el desempeño del método de interpolación lineal por etapas, la figura 9 muestra un ejemplo en el contorno de retardo resultante d(t) sobre diez marcos con linea gruesa. El contorno de retardo correspondiente d(t) obtenido con interpolación lineal convencional se indica con linea delgada. El ejemplo se ha compuesto utilizando una señal de voz artificial que tiene un parámetro de retardo constante de 52 muestras como una entrada del procedimiento de modificación de voz. Un parámetro de retardo dQ = 54 muestras se utilizó intencionalmente como un valor inicial para el primer marco para ilustrar el efecto de errores de estimación de tono típico en codificación de voz. Entonces, los parámetros dn de retardo tanto para la interpolación lineal como la interpolación lineal por etapas aquí descrita se buscaron utilizando el procedimiento de la tabla 1. Todos los parámetros requeridos se seleccionaron de acuerdo con la modalidad ilustrativa del método de modificación de señal de conformidad con la presente invención. Los contornos d(t) de retardo resultantes muestran que la interpolación lineal por etapas provee un contorno d(t) de retardo que converge rápidamente en tanto que la interpolación lineal convencional no puede alcanzar el valor correcto dentro del periodo de diez marcos. Estas oscilaciones prolongadas en el contorno ' d (t) de retardo a menudo provocan artefactos molestos a la señal de voz modificada que degradan la calidad perceptual global.
Modificación de la señal Después de que se han determinado el parámetro dn de retardo y la segmentación de ciclo de tono, el propio procedimiento de modificación de señal puede iniciarse. En la modalidad ilustrativa del método de modificación de señal, la señal de voz se modifica cambiando segmentos de ciclo de tono individuales uno por uno ajustándolos al contorno d(t) de retardo. Un cambio de segmento se determina correlacionando el segmento en el dominio de voz valorada con la señal designada. La señal designada se compone utilizando la señal w(t) de voz valorada sintetizada del marco previo y los segmentos ya cambiados precedentes en el marco en curso. El cambio real se realiza en la señal r(t) residual. La modificación de señal debe hacerse cuidadosamente tanto para llevar a un máximo el desempeño de predicción de largo plazo como para simultáneamente conservar la calidad perceptual de la señal de voz modificada. La sincronía de tiempo requerida en los límites del marco también tiene que ser tomada en cuenta durante la modificación. Un diagrama de bloques de la modalidad ilustrativa del método de modificación de señal se muestra en la figura 10. La modificación inicia extrayendo un nuevo segmento w3(k) de ls muestras de la señal w(t) de voz valorada en el bloque 401. Este segmento se define por la longitud del segmento ls y el instante de inicio ts dando ws(k) = w(ts + k) para k = 0, 1,..., ls-l. El procedimiento de segmentación se lleva a cabo de acuerdo con la descripción anterior. Si no pueden seleccionarse o extraerse más segmentos (bloque 402), la operación de modificación de señal se completa (bloque 403) . De otra manera la operación de modificación de señal continua con el bloque 404. Para encontrar el cambio óptimo del segmento actual ws(k), se crea una señal w(t) designada en el bloque 405. Para el primer segmento wi(k) en el marco en curso, esta señal designada se obtiene por la recursión w(t)= w(t) , t < tn_x w(t)= w(t-d(t)), tn-i < t < tn_i + 1?+d? Aquí w(t) es la señal de voz sintetizada valorada disponible en el marco previo para t < tn_i. El parámetro d? es el cambio máximo permitido para el primer segmento de longitud li. La ecuación (11) puede interpretarse como la simulación de predicción de largo plazo utilizando el contorno de retardo sobre la porción de señal en la que el segmento cambiado en curso puede situarse potencialmente . El cálculo de la señal designada para los segmentos subsecuentes sigue el mismo principio y se presentará después en esta sección. procedimiento de búsqueda para encontrar cambio óptimo del segmento actual puede iniciarse después de formar la señal designada. Este procedimiento se basa en la correlación Cs (d' ) calculada en el bloque 404 entre el segmento ws(k) que inicia en el instante ts y la señal designada w(t) como donde d3 determina el cambio máximo permitido para el segmento ws(k) en curso y [~·~] denota redondeo hacia mas infinito. La correlación normalizada también puede utilizarse en lugar de la ecuación (12) , aunque con mayor complejidad. En la siguiente modalidad ilustrativa, se utilizan los siguientes valores para d3: 5S = [4½ muestras, dn < 90 muestras 5 muestras dn > 90 muestras (13) Como se describirá después en esta sección, el valor de d3 está más limitado para el primero y el último segmento en el marco. La correlación (12) se evalúa con una resolución de entero, pero una exactitud superior mejora el desempeño de predicción de largo plazo. Para mantener la complejidad baja no es razonable muestrear directamente la señal ws(k) o w(t) en la ecuación (12). En cambio, se obtiene una resolución fraccionaria de una manera eficaz con relación al cálculo determinando el cambio óptimo utilizando la correlación cs (d' ) muestreada. El cambio d que aumenta al máximo la correlación cs (d) se busca primero en la resolución de entero en el bloque 404. Ahora, en una resolución fraccionaria el valor máximo debe localizarse en el intervalo abierto (d-1, d+1) , y acotado en [-d3, d8] . En el bloque 406, la correlación cs (d' ) se muestrea en este intervalo a una resolución de 1/8 de muestra utilizando la interpolación de sincronización por ventana-Hamming de una longitud igual a 65 muestras. El cambio d que corresponde al valor máximo de la correlación muestreada es entonces el cambio óptimo en una resolución fraccionaria. Después de encontrar este cambio óptimo, el segmento ws(k) de voz valorada se recalcula en la resolución fraccionaria resuelta en el bloque 407. Es decir, el nuevo instante de arranque preciso del segmento se actualiza como ts:= ts - d +d?, donde d-, = Gd?. Además, el segmento rs(k) residual que corresponde al segmento ws(k) de voz valorada en la resolución fraccionaria se calcula a partir de la señal r(t) residual en este punto utilizando de nuevo la interpolación de sincronización como se describió antes (bloque 407). Puesto que la parte fraccionaria del cambio óptimo se incorpora en los segmentos de voz valorada y residual, pueden llevarse a cabo todos los cálculos subsecuentes con el cambio d?= G d? redondeado hacia arriba. La figura 11 ilustra recálculo del segmento ws(k) de acuerdo con el bloque 407 de la figura 10. En este ejemplo ilustrativo, el cambio óptimo se busca con una resolución de 1/8 de muestra aumentando al máximo la correlación que da el valor d= -1 3/8. Asi la parte entera d? se convierte en [-1 3/8~]=-l y la parte fraccionaria 3/8. Por consiguiente, el instante de arranque del segmento se actualiza como ts = ts + 3/8. En la figura 11, las nuevas muestras de ws(k) se indican con puntos grises. Si el bloque lógico 106, el cual se describirá después, permite continuar con la modificación de señal, la tarea final es actualizar la señal f (t) residual modificada copiando el segmento rs(k) de señal residual en curso en el (bloque 411) : f (ta+6l+k)=ra(k) , k= 0,1, ... ,ls. (14) Puesto que los cambios en segmentos sucesivos son independientes entre si, los segmentos colocados a f(t), ya sea traslapan o tienen un hueco entre ellos. Puede utilizarse promedio compensado directo para segmentos traslapantes. Los huecos se llenan copiando las muestras vecinas de los segmentos adyacentes. Puesto que el número de muestras traslapantes o perdidas es normalmente pequeño y los limites de segmento ocurren en regiones de baja energía de la señal residual, normalmente no provocan ningún artefacto perceptual. Debe notarse que no se utiliza deformación de señal continua como se describe en [2], [6], [7], [2] W. B.Kleijn, R. P. Ramachandran y P. Kroon, "Interpolation of the pitch-predictor parameters in analysis-by- synthesxs speech coders" (Interpolación de los parámetros de predicción de tono en codificadores de voz de análisis por síntesis) , "IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 1, págs. 42-54, 1994. [6] Solicitud de Patente WO 00/11653, "Speech encoder with continuous warping combined with long term prediction, " (Codificador de voz con deformación continua combinado con predicción de largo plazo) Conexant Systems Inc., (Y. Gao), presentada: 24 de agosto de 1999. [7] Solicitud de patente WO 00/11654, "Speech encoder adaptive applying pitch preprocessing with continuous arping" (Codificador de voz adaptable aplicando preprocesamiento de tono con deformación continua) , Conexant Systems Inc., (H. Su y Y. Gao), presentada: 24 agosto de 1999, sino que la modificación se hace continuamente cambiando segmentos de ciclo de tono para reducir la comple idad. El procesamiento de los segmentos de ciclo de tono subsecuentes sigue el procedimiento antes descrito, excepto que la señal w(t) designada en el bloque 405 se forma de manera diferente que para el primer segmento. Las muestras de w(t) se reemplazan primero con las muestras de voz valorada modificadas w (t3+8!+k)= ws (k) , k=0,l,..., ls-l. (15) Este procedimiento se ilustra en la figura 11. Entonces las muestras que siguen el segmento actualizado también se actualizan, w(k)= w(k-d(k) ) , k=ts+6i+ls, ... , ts+6i+ls+ls+i+5s+i-2. (16) La actualización de la señal w(t) designada asegura una correlación superior entre segmentos de ciclo de tono sucesivos en la señal de voz modificada considerado el contorno d(t) de retardo y asi la predicción de largo plazo más exacta. Al tiempo que se procesa el último segmento del marco, la señal w(t) designada no necesita actualizarse. Los cambios del primero y el último segmentos en el marco son casos especiales que tienen que deben realizarse con particular cuidado. Antes de cambiar el primer segmento, debe asegurarse que no existe ninguna región de alta energía en la r(t) residual cerca del límite del marco tn-i, porque cambiar tal segmento puede provocar artefactos. La región de alta energía se busca cuadrando la señal r(t) residual como ED(k) = r2(k), k ettn-?-??, tn_i+ ?0] , (17) donde ?? = <p(tn_i)/2> si el máximo de Eo(k) se detecta cerca del límite del marco en la gama [tn-i-2, tn_! + 2], el cambio permitido se limita a 1/4 de muestras. Si el cambio |d| propuesto para el primer segmento es menor que este límite, el procedimiento de modificación de señal se habilita en el marco en curso, pero el primer segmento se mantiene intacto.
El último segmento en el marco se procesa de una manera similar. Como se describió en la descripción anterior, el contorno d(t) de retardo se selecciona de manera tal que al principio no se requiera de ningún cambio para el último segmento. Sin embargo, debido a que se actualiza de forma repetida la señal designada durante la modificación de señal considerado las correlaciones entre segmentos sucesivos en las ecuaciones (16) y (17) , es posible que el último segmento deba cambiarse ligeramente. En la modalidad ilustrativa, este cambio siempre se restringe para ser menor que 3/2 muestras. Si hay una región de alta energía en el extremo del marco, no se permite ningún cambio. Esta condición se verifica utilizando la señal residual cuadrada Ei(k) = r2(k), ke[tn-£i+l, tn + 1], (18), donde ?? = p (tn) . Si el máximo de Ei(k) se logra para k más grande que o igual a tn-4, no se permite ningún cambio para el último segmento. De forma semejante, como para el primer segmento, cuando el cambio propuesto |d|<1/4, el marco presente todavía se acepta para modificación, pero el último segmento se mantiene intacto. Debe notarse que, contrariamente a los métodos de modificación de señales conocidos, el cambio no se traduce al siguiente marco y cada nuevo marco empieza sincronizado perfectamente con la señal de entrada original. Como otra diferencia fundamental particularmente para codificación RCELP, la modalidad ilustrativa del método de modificación de señal procesa un marco de voz completo antes de que se codifiquen los submarcos. La modificación por submarco permite componer la señal designada para cada submarco utilizando el submarco previamente codificado mejorando potencialmente el desempeño. Este acercamiento no puede utilizarse en el contexto de la modalidad ilustrativa del método de modificación de señal puesto que la asincronia de tiempo permitida en el extremo del marco se limita de forma estricta. No obstante, la actualización de la señal designada con las ecuaciones (15) y (16) da prácticamente hablando igual desempeño con el proceso a manera de submarco, porque la modificación sólo se habilita en marcos de voz con voz que se desarrollan suavemente. Lógica de determinación de modo incorporada en el procedimiento de modificación de señal La modalidad ilustrativa del método de modificación de señal de conformidad con la presente invención incorpora un eficaz mecanismo de clasificación y determinación de modo como se muestra en la figura 2. Cada operación realizada en los bloques 101, 103 y 105 provee varios indicadores que cuantifican el desempeño asequible de predicción de largo plazo en el marco en curso. Si cualquiera de estos indicadores está fuera de sus limites permitidos, el procedimiento de modificación de señal se termina por uno de los bloques lógicos 102, 104 ó 106. En este caso, la señal original se conserva intacta. El procedimiento 101 de búsqueda de pulso de tono produce varios indicadores respecto de la periodicidad del marco presente. Por tanto, el bloque lógico 102 que analiza estos indicadores es el componente más importante de la lógica de clasificación. El bloque lógico 102 compara la diferencia entre las posiciones de pulso de tono detectadas y la estimación de tono de lazo abierto interpolada utilizando la condición |Tk-T]c-i-p(Tk) I < 0.2 p(Tjt), k = l,2, c, (19) y termina el procedimiento de modificación de señal si no se cumple con esta condición. La selección del contorno d(t) de retardo en el bloque 103 provee también información adicional respecto de la evolución de los ciclos de tono y de la periodicidad del marco de voz en curso. Esta información se examina en el bloque 104 lógico. El procedimiento de modificación de señal sólo continua desde este bloque 104 si se cumple la condición | dn-dn_i | < 0.2dn. Esta condición significa que se tolera sólo un cambio de retardo pequeño para clasificar el marco en curso como el marco puramente con voz. El bloque lógico 104 también evalúa el éxito del lazo de selección de retardo de la tabla 1 examinando la diferencia ]KC-T0| para el valor dn de parámetro de retardo seleccionado. Si esta diferencia es mayor que una muestra, se termina el procedimiento de modificación de señal. Para garantizar una buena calidad para la señal de voz modificada, es ventajoso restringir los cambios hechos para segmentos de ciclo de tono sucesivos en el bloque 105. Esto se logra en el bloque lógico 106 imponiendo el criterio para todos los segmentos del marco. Aqui d(?) y d?3_1) son los cambios hechos para el (s)ésimo y el (s-l)ésiino segmentos de ciclo de tono, respectivamente. Si los umbrales se exceden, el procedimiento de modificación de señal se interrumpe y la señal original se mantiene. Cuando los marcos sometidos a la modificación de señal se codifican a una velocidad de tráfico binario baja, es esencial que la forma de segmentos de ciclo de tono permanezca similar sobre el marco. Esto permite modelaje fiel de señal por predicción de largo plazo y asi codificar a una velocidad de tráfico binario baja sin degradar la calidad subjetiva. La similitud de segmentos sucesivos puede cuantificarse simplemente por la correlación normalizada entre el segmento actual y la señal designada al cambio óptimo después de la actualización de w3(k) en el bloque 407 de la figura 10. La correlación gs normalizada también se llama ganancia de tono. Cambiando los segmentos de ciclo de tono en el bloque 105 que aumentan al máximo su correlación con la señal designada se refuerza la periodicidad y se provee una ganancia de predicción de tono alta si la modificación de señal es útil en el marco en curso. El éxito del procedimiento se examina en el bloque lógico 106 utilizando el criterio gs > 0.84.
Si esta condición no se cumple para todos los segmentos, el procedimiento de modificación de señal se termina (bloque 409) y la señal original se mantiene intacta . Cuando esta condición se cumple (bloque 106) , la modificación de señal continúa en el bloque 411. La ganancia gs de tono se calcula en el bloque 408 entre el segmento ws(t) recalculado del bloque 407 y la señal designada w(t) del bloque 405. En general, puede permitirse un umbral de ganancia ligeramente más bajo en voces varoniles con igual desempeño de codificación. Los umbrales de ganancia pueden cambiarse en modos de operación diferentes del codificador para ajusfar el porcentaje de uso del modo de modificación de señal y asi la velocidad media de tráfico binario resultante.
Lógica de determinación de modo para un codee de voz de velocidad de tráfico binario variable controlado por fuente Esta sección describe el uso del procedimiento de modificación de señal como una parte del mecanismo de determinación de velocidad general en un codee de voz de velocidad de tráfico binario variable controlado por fuente. Esta funcionalidad se sumerge en la modalidad ilustrativa del método de modificación de señal, puesto que provee varios indicadores en la periodicidad de señal y el desempeño de codificación esperada de predicción de largo plazo en el marco presente. Estos indicadores incluyen la evolución de periodo de tono, la aptitud del contorno de retardo seleccionado para describir esta evolución y la ganancia de predicción de tono asequible con la modificación de señal. Si los bloques lógicos 102, 104 y 106 mostrados en la figura 2 habilitan la modificación de señal, la predicción de largo plazo puede modelar el marco de voz modificada facilitando su codificación eficazmente a una velocidad de tráfico binario baja sin degradar la calidad subjetiva. En este caso, la excitación de libro de códigos adaptable tiene una contribución dominante describiendo la señal de excitación y asi puede reducirse la velocidad de tráfico binario asignada para la excitación de libro de códigos fijo. Cuando un bloque lógico 102, 104 ó 106 deshabilita la modificación de señal, es probable que el marco contenga un segmento de voz no estacionario tal como una señal de voz con voz establecida o que evoluciona rápidamente. Estos marcos requieren típicamente una velocidad de tráfico binario alta para mantener buena calidad subjetiva. La figura 12 muestra el procedimiento 603 de modificación de señal como una parte de la lógica de determinación de velocidad que controla cuatro modos de codificación. En esta modalidad ilustrativa, el conjunto del modo comprende un modo dedicado para marcos de voz no activos (bloque 508) , marcos de voz sin voz (bloque 507) , marcos de voz estables (bloque 506) y otros tipos de marcos (bloque 505) . Debe notarse que todos estos modos excepto el modo para marcos 506 de voz estables se implementan de acuerdo con técnicas conocidas para las personas con conocimientos medios en la materia. La lógica de determinación de velocidad se basa en clasificación de señal realizada en tres pasos en los bloques lógicos 501, 502 y 504, a partir de los cuales la operación de los bloques 501 y 502 es conocida para las personas con conocimientos medios en la materia. Primero, un detector de actividad de voz (VAD) 501 diferencia entre marcos de voz activos y marcos de voz inactivos, si se detecta un marco de voz inactivo, la señal de voz se procesa de conformidad con el modo 508. Si se detecta un marco de voz activo en el bloque 501, el marco se somete a un segundo clasificador 502 dedicado a tomar una decisión de voz. Si el clasificador 502 clasifica el marco en curso como señal de voz sin voz, la cadena de clasificación termina y la señal de voz se procesa de acuerdo con el modo 507. De otra manera, el marco de voz se pasa a través del módulo 603 de modificación de señal.
El módulo de modificación de señal entonces provee a si mismo una decisión respecto de habilitar o deshabilitar la modificación de señal del marco en curso en un bloque lógico 504. Esta decisión se hace en la práctica como una parte integral del procedimiento de modificación de señal en los bloques lógicos 102, 104 y 106 como se explicó antes con referencia a la figura 2. Cuando la modificación de señal se habilita, el marco se juzga como un segmento de voz con voz estable o puramente con voz. Cuando el mecanismo de determinación de velocidad selecciona el modo 506, el modo de modificación de señal se habilita y el marco de voz se codifica de acuerdo con lo descrito en las secciones anteriores. La tabla 2 describe la asignación de bits utilizada en la modalidad ilustrativa para el modo 506. Puesto que los marcos a ser codificados en este modo son característicamente muy periódicos, una velocidad de tráfico binario substancialmente más baja le basta para sostener buena calidad subjetiva comparada por ejemplo con los marcos de transición. La modificación de señal también permite codificación eficaz de la información de retardo utilizando sólo nueve bits por marco de 20 ms ahorrando una proporción considerable del presupuesto de bits para otros parámetros. El buen desempeño de predicción de largo plazo permite utilizar sólo 13 bits por submarco de 5 ms para la excitación de libro de códigos fijo sin sacrificar la calidad de voz subjetiva. El libro de códigos fijo comprende una pista con dos pulsos, ambos teniendo 64 posibles posiciones.
Tabla 2. Asignación de bit en el modo de 6.2-kbps con voz para un marco de 20 ms que comprende cuatro submarcos . Parámetro Bits/Marco parámetros LP 34 retardo de retardo 9 Filtración de tono 4 = 1 + 1 + 1 + Ganancias 24 = 6+ 6+ 6+ 6 Libro de códigos algebraico 52 = 13 + 13 + 13 + 13 Bit de modo 1 Total 124 bits = 6.2 kbps a 3. Asignación de bits en el modo 12.65-kbps rdo con la norma AMR-WB .
Parámetro Bits/Marco Parámetros LP 46 Retardo de tono 30 = 9+ 6+ 9+ 6 Filtración de tono 4 = 1 + 1 + 1 + 1 Ganancias 24 = 7+ 7+ 7+ 7 libro de códigos algebraico 144 = 36 + 36 + 36 + 36 Bit de modo 1 Total 253 bits=12.56 kbps Los otros modos de codificación 505, 507 y 508 se llevan a cabo siguiendo técnicas conocidas. La modificación de señal esta inhabilitada en todos estos modos. La tabla 3 muestra la asignación de bits del modo 505 adoptado de la norma AMR-WB. Las especificaciones técnicas [11] y [12] relacionadas a la norma AMR-WB se adjuntan como referencias respecto de las funcionalidades de ruido de confort y VAD en 501 y 508, respectivamente. [11] 3GPP TS 26.192, "AMR Wideband Speech Codee: Comfort Noise Aspects" (Codee de voz de banda ancha AMR: aspectos de comfort de ruido) , 3GPP Technical Specification . [12] 3GPP TS 26.193, "AMR Wideband Speech Codee: Voice Activity Detector (VAD) , " (Codee de voz de banda ancha AMR: Detector de actividad de voz (VAD) ) , 3GPP Technical Specification.
En resumen, la presente descripción ha descrito un método de modificación de señal síncrona de marco para marcos de voz o de habla puramente con voz, un mecanismo de clasificación para detectar marcos a ser modificados y utilizar estos métodos en un codee de voz CELP controlado por fuente para habilitar codificación de calidad superior a una baja velocidad de tráfico binario. El método de modificación de señal incorpora un mecanismo de clasificación para determinar los marcos a ser modificados . Esto difiere de la modificación de señal anterior y medios de preprocesamiento en operación y en las propiedades de la señal modificada. La funcionalidad de clasificación embebida en el procedimiento de modificación de señal se utiliza como una parte del mecanismo de determinación de velocidad en un codee de voz CELP controlado por fuente. La modificación de la señal hace tono y marco sincrónicamente, es decir, adaptando un segmento de ciclo de tono a la vez en el marco en curso de manera tal que un marco de voz subsiguiente inicie en alineación de tiempo perfecta con la señal original. Los segmentos de ciclo de tono están limitados por limites de marco. Esta característica impide traducción de cambio de tiempo sobre límites de marco simplificando la aplicación de codificador y reduciendo un riesgo de artefactos en la señal de voz modificada . Puesto que el cambio de tiempo no aumenta sobre marcos sucesivos, el método de modificación de señal descrito no necesita memorias intermedias largas para acomodar señales expandidas ni una lógica complicada para controlar el cambio de tiempo acumulado. En codificación de voz controlada por fuente, se simplifica la operación multimodo entre modos habilitado y deshabilitado de modificación de señal, puesto que cada nuevo marco inicia en alineación de tiempo con la señal original. Claro, son posibles muchas otras modificaciones y variaciones. Considerando la descripción ilustrativa detallada anterior de la presente invención y los dibujos asociados, tales otras modificaciones y variaciones serán evidentes para las personas con conocimientos medios en la materia. También debe quedar claro que pueden efectuarse tales otras variaciones sin apartarse del espíritu y alcance de la presente invención.

Claims (66)

REIVINDICACIONES
1. Un método para determinar un parámetro de retardo de predicción de largo plazo que caracteriza una predicción de largo plazo en una técnica que utiliza modificación de señal para codificar digitalmente una señal de sonido, caracterizado porque comprende: dividir la señal de sonido en una serie de marcos sucesivos ; localizar una característica de la señal de sonido en un marco previo; localizar una característica correspondiente de la señal de sonido en un marco en curso; y determinar el parámetro de retardo de predicción de largo plazo para el marco en curso de manera tal que la predicción de largo plazo correlacione la característica de señal del marco previo con la característica de señal correspondiente del marco en curso.
2. Un método para determinar un parámetro de retardo de predicción de largo plazo como se define en la reivindicación 1, caracterizado porque determinar el parámetro de retardo de predicción de largo plazo comprende : formar un contorno de retardo del parámetro de retardo de predicción de largo plazo.
3. Un método para determinar un parámetro de retardo de predicción de largo plazo de conformidad con la reivindicación 2, caracterizado porque: la señal de sonido comprende una señal de voz; la característica de la señal de voz en el marco previo comprende un pulso de tono de la señal de voz en el marco previo; la característica de la señal de voz en el marco en curso comprende un pulso de tono de la señal de voz en el marco en curso; y formar un contorno de retardo comprende correlacionar, con la predicción de largo plazo, el pulso de tono del marco en curso con el. pulso de tono del marco previo .
4. Un método para determinar un parámetro de retardo de predicción de largo plazo de conformidad con la reivindicación 3, caracterizado porque definir el parámetro de retardo de predicción de largo plazo comprende: calcular el parámetro de retardo de predicción de largo plazo como una función de distancias de pulsos de tono sucesivos entre un último pulso de tono del marco previo y un último pulso de tono del marco en curso.
5. Un método para determinar un parámetro de retardo de predicción de largo plazo de conformidad con la reivindicación 2 , caracterizado porque además comprende: caracterizar totalmente el contorno de retardo con un parámetro de retardo de predicción de largo plazo del marco previo y el parámetro de retardo de predicción de largo plazo del marco en curso.
6. ün método para determinar un parámetro de retardo de predicción de largo plazo de conformidad con la reivindicación 2, caracterizado porque formar un contorno de retardo comprende: interpolar no linealmente el contorno de retardo entre un parámetro de retardo de predicción de largo plazo del marco previo y el parámetro de retardo de predicción de largo plazo del marco en curso.
7. ün método para determinar un parámetro de retardo de predicción de largo plazo de conformidad con la reivindicación 2, caracterizado porque formar un contorno de retardo comprende: determinar un contorno de retardo lineal por etapas a partir de un parámetro de retardo de predicción de largo plazo del marco previo y el parámetro de retardo de predicción de largo plazo del marco en curso.
8. Un dispositivo para determinar un parámetro de retardo de predicción de largo plazo que caracteriza una predicción de largo plazo en una técnica que utiliza modificación de señal para codificar digitalmente una señal de sonido, que comprende: 75 un divisor de la señal de sonido en una serie de marcos sucesivos; un detector de una característica de la señal de sonido en un marco previo; un detector de una característica correspondiente de la señal de sonido en un marco en curso; y una calculadora del parámetro de retardo de predicción de largo plazo para el marco en curso, el cálculo del parámetro de retardo de predicción de largo plazo se realiza de manera tal que la predicción de largo plazo correlacione la característica de señal del marco previo con la característica de señal correspondiente del marco en curso.
9. Un dispositivo para determinar un parámetro de retardo de predicción de largo plazo de conformidad con la reivindicación 8, caracterizado porque la calculadora del parámetro de retardo de predicción de largo plazo comprende : un selector de un contorno de retardo del parámetro de retardo de predicción de largo plazo.
10. Un dispositivo para determinar un parámetro de retardo de predicción de largo plazo de conformidad con la reivindicación 9, caracterizado porque: la señal de sonido comprende una señal de voz; la característica de la señal de voz en el marco previo comprende un pulso de tono de la señal de sonido en el marco previo; la característica de la señal de voz en el marco en curso comprende un pulso de tono de la señal de voz en el marco en curso; y el selector de contorno de retardo es un selector de un contorno de retardo que correlaciona con la predicción de largo plazo el pulso de tono del marco en curso al pulso de tono del marco previo.
11. Un dispositivo para determinar un parámetro de retardo de predicción de largo plazo de conformidad con la reivindicación 10, caracterizado porque la subcalculadora de parámetro de retardo de predicción de largo plazo es: una calculadora del parámetro de retardo de predicción de largo plazo como una función de distancias de pulsos de tono sucesivos entre el último pulso de tono del marco previo y el último pulso de tono del marco en curso.
12. Un dispositivo para determinar un parámetro de retardo de predicción de largo plazo de conformidad con la reivindicación 9, que incorpora además: una función que caracteriza totalmente el contorno de retardo con el parámetro de retardo de predicción largo plazo del marco previo y el parámetro de retardo de predicción de largo plazo del marco en curso.
13. Un dispositivo para determinar un parámetro de retardo de predicción de largo plazo de conformidad con la reivindicación 9, caracterizado porque el selector de contorno de retardo es: un selector de un contorno de retardo interpolado no linealmente entre el parámetro de retardo de predicción de largo plazo del marco previo y el parámetro de retardo de predicción de largo plazo del marco en curso.
14. Un dispositivo para determinar un parámetro de retardo de predicción de largo plazo de conformidad con la reivindicación 9, caracterizado porque el selector de contorno de retardo es : un selector de un contorno de retardo lineal por etapas determinado a partir del parámetro de retardo de predicción de largo plazo del marco previo y el parámetro de retardo de predicción de largo plazo del marco en curso.
15. Un método de modificación de señal para implementación en una técnica para codificar digitalmente una señal de sonido, que comprende: dividir la señal de sonido en una serie de marcos sucesivos ; dividir cada marco de la señal de sonido en una pluralidad de segmentos de señal; y deformar por lo menos una parte de los segmentos de señal del marco, la deformación comprende restringir los segmentos de señal distorsionada dentro del marco.
16. Un método de modificación de señal de conformidad con la reivindicación 15, caracterizado porque: la señal de sonido comprende pulsos de tono; cada marco comprende limites; y dividir cada marco comprende : localizar pulsos de tono en la señal de sonido del marco; dividir el marco en segmentos de ciclo de tono cada uno conteniendo uno de los pulsos de tono y cada uno localizado dentro de los límites del marco.
17. Un método de modificación de señal de conformidad con la reivindicación 16, caracterizado porque: localizar los pulsos de tono comprende utilizar un estimado de tono de lazo abierto interpolado sobre el marco; y el método de modificación de señal comprende además terminar un procedimiento de modificación de señal cuando una diferencia entre posiciones de los pulsos de tono localizados y la estimación de tono de lazo abierto interpolada no cumple una condición dada.
18. Un método de modificación de señal de conformidad con la reivindicación 15, caracterizado porque dividir cada marco de la señal de sonido en una pluralidad de segmentos de señal comprende: valorar la señal de sonido para producir una señal de sonido valorada; y extraer los segmentos de señal de la señal de sonido valorada.
19. Un método de modificación de señal de conformidad con la reivindicación 15, caracterizado porque la deformación comprende: producir una señal designada para un segmento de señal en curso; y encontrar un cambio óptimo para el segmento de señal en curso en respuesta a la señal designada.
20. Un método de modificación de señal de conformidad con la reivindicación 17, caracterizado porque: producir una señal designada comprende producir una señal designada de una señal de voz sintetizada valorada de un marco previo o de la señal de voz valorada modificada; y encontrar un cambio óptimo para el segmento de señal actual comprende realizar una correlación entre el segmento de señal en curso y la señal designada.
21. Un método de modificación de señal de conformidad con la reivindicación 20, caracterizado porque realizar una correlación comprende: primero evaluar la correlación con una resolución de entero para encontrar un cambio de segmento de señal que aumente al máximo la correlación; entonces muestrear la correlación en una región circundante al cambio de segmento de señal que lleva a un máximo la correlación, el muestreo de la correlación comprende buscar un cambio óptimo de segmento de señal en curso aumentando al máximo la correlación con una resolución f accionaria.
22. Un método de modificación de señal de conformidad con la reivindicación 15, caracterizado porque: cada marco comprende límites; deformar por lo menos una parte de los segmentos de señal del marco comprende: detectar si existe una región de alta energía en la señal de sonido cerca del límite del marco junto a un segmento de señal; y cambiar el segmento de señal respecto a la detección o ausencia de detección de una región de alta energía.
23. Un método de modificación de señal de conformidad con la reivindicación 15, caracterizado porque la deformación comprende: formar un contorno de retardo que define un parámetro de retardo de predicción de largo plazo interpolado sobre el marco en curso y proveer información adicional respecto de la evolución de los ciclos de tono y la periodicidad del marco de señal de sonido en curso; y cambiar los segmentos individuales de ciclo de tono uno por uno para ajustarlos al contorno de retardo.
24. Un método de modificación de señal de conformidad con la reivindicación 23, caracterizado porque cambiar los segmentos individuales de ciclo de tono comprende : formar una señal designada utilizando el contorno de retardo; y cambiar el segmento de ciclo de tono para aumentar al máximo la correlación de segmento de ciclo de tono con la señal designada.
25. Un método de modificación de señal de conformidad con la reivindicación 23, que comprende además: examinar la información proveniente del contorno de retardo sobre la evolución de los ciclos de tono y la periodicidad del marco de señal de sonido en curso; y definir por lo menos una condición relacionada a la información dada por el contorno de retardo en la evolución de los ciclos de tono y la periodicidad del marco de señal de sonido en curso; e interrumpir la modificación de señal cuando la por lo menos una condición relacionada a la información dada por el contorno de retardo respecto de la evolución de los ciclos de tono y la periodicidad del marco de la señal de sonido actual no se satisface.
26. Un método de modificación de señal de conformidad con la reivindicación 19, que comprende además: restringir el cambio de los segmentos de señal, la restricción comprende imponer un criterio dado a todos los segmentos de señal del marco; e interrumpir el procedimiento de modificación de señal cuando el criterio dado no se respeta y mantener la señal de sonido original.
27. Un método de modificación de señal de conformidad con la reivindicación 15, que comprende además: detectar una ausencia de actividad de voz en el marco en curso de la señal de sonido; y seleccionar un modo deshabilitado de modificación de señal en curso para codificación del marco en curso de la señal de sonido en respuesta a la detección de la ausencia de actividad de voz en el marco en curso.
28. Un método de modificación de señal de conformidad con la reivindicación 15, que comprende además: detectar una presencia de actividad de voz en el marco en curso de la señal de sonido; y clasificar el marco en curso como un marco de señal de sonido sin voz; y seleccionar un modo deshabilitado de modificación de señal para codificar el marco en curso de la señal de sonido en respuesta a: detección de una presencia de actividad de voz en el marco en curso de la señal de sonido; y clasificar el marco en curso como un marco de señal de sonido sin voz.
29. Un método de modificación de señal de conformidad con la reivindicación 15, que comprende además: detectar una presencia de actividad de voz en el marco en curso de la señal de sonido; clasificar el marco en curso como un marco de señal de sonido con voz; detectar que la modificación de señal es exitosa; y seleccionar un modo habilitado de modificación de señal para codificar el marco en curso de la señal de sonido en respuesta a: la detección de una presencia de actividad de voz en el marco en curso de la señal de sonido ; clasificar el marco en curso como un marco de señal de sonido con voz; y detectar que la modificación de señal es exitosa.
30. Un método de modificación de señal de conformidad con la reivindicación 15, que comprende además: detectar una presencia de actividad de voz en el marco en curso de la señal de sonido; clasificar el marco en curso como un marco de señal de sonido con voz; detectar que la modificación de señal no es exitosa; y seleccionar un modo deshabilitado de modificación de señal para codificar el marco en curso de la señal de sonido en respuesta a: la detección de una presencia de actividad de voz en el marco en curso de la señal de sonido; clasificar el marco en curso como un marco de señal de sonido con voz; y detectar que la modificación de señal no es exitosa .
31. Un dispositivo de modificación de señal para implementación en una técnica para codificar digitalmente una señal de sonido, que comprende: un primer divisor de la señal de sonido en una serie de marcos sucesivos ; un segundo divisor de cada marco de la señal de sonido en una pluralidad de segmentos de señal; y un miembro de deformación de segmento de señal provisto con por lo menos una parte de los segmentos de señal del marco, el miembro de deformación comprende un limitador de los segmentos de señal distorsionada dentro del marco .
32. Un dispositivo de modificación de señal de conformidad con la reivindicación 31, caracterizado porque: la señal de sonido comprende pulsos de tono; cada marco comprende limites; y el segundo divisor comprende: un detector de pulsos de tono en la señal de sonido del marco; un divisor del marco en segmentos de ciclo de tono cada uno conteniendo uno de los pulsos de tono y cada uno localizado dentro de los limites del marco .
33. Un dispositivo de modificación de señal de conformidad con la reivindicación 32, caracterizado porque: el detector de pulsos de tono utiliza una estimación de tono de lazo abierto interpolada sobre el marco; y el dispositivo de modificación de señal comprende además un miembro que termina la modificación de señal activo cuando una diferencia entre posiciones de los pulsos de tono detectados y la de la estimación de tono de lazo abierto interpolada no cumple una condición dada.
34. ün dispositivo de modificación de señal de conformidad con la reivindicación 31, caracterizado porque el segundo divisor de cada marco de la señal de sonido en una pluralidad de segmentos de señal comprende: un filtro para valorar la señal de sonido para producir una señal de sonido valorada; y un extractor de los segmentos de señal de la señal de sonido valorada.
35. Un dispositivo de modificación de señal de conformidad con la reivindicación 31, caracterizado porque el miembro de deformación de segmento de señal comprende: una calculadora de una señal designada para un segmento de señal en curso; y un buscador de un cambio óptimo para el segmento de señal en curso en respuesta a la señal designada.
36. Un dispositivo de modificación de señal de conformidad con la reivindicación 35, caracterizado porque: la calculadora de una señal designada es una calculadora de una señal designada de una señal de voz sintetizada valorada de un marco previo o de la señal de voz valorada modificada; y el buscador de un cambio óptimo para el segmento de señal actual comprende una calculadora de una correlación entre el segmento de señal actual y la señal designada .
37. Un dispositivo de modificación de señal de conformidad con la reivindicación 36, caracterizado porque la calculadora de una correlación comprende: un evaluador de la correlación con una resolución del entero para encontrar un cambio de segmento de señal que aumente al máximo la correlación; un muestreador de la correlación en una región que rodea el cambio de segmentos de señal que aumenta al máximo la correlación, el muestreador comprende un buscador de un cambio óptimo del segmento de señal en curso, el buscador de un cambio óptimo del segmento de señal en curso que comprende un evaluador de la correlación con una resolución fraccionaria.
38. ün dispositivo de modificación de señal de conformidad con la reivindicación 34, caracterizado porque: cada marco comprende limites; el miembro de deformación de segmento de señal comprende : un detector de si existe una región de alta energia en la señal de sonido cerca del limite de marco adyacente a un segmento de señal; y un cambiador del segmento de señal respecto a la detección o ausencia de una región de alta energia.
39. ün dispositivo de modificación de señal de conformidad con la reivindicación 31, caracterizado porque el miembro de deformación de segmento de señal comprende: una calculadora de un contorno de retardo que define un parámetro de retardo de predicción de largo plazo interpolado sobre el marco en curso y que provee información adicional respecto de la evolución de los ciclos de tono y de la periodicidad del marco de señal de sonido en curso; y un cambiador de los segmentos de ciclo de tono individuales para ajustarlos uno por uno al contorno de retardo .
40. ün dispositivo de modificación de señal de conformidad con la reivindicación 39, caracterizado porque el cambiador de los segmentos de ciclo de tono individuales comprende : una calculadora de una señal designada que utiliza el contorno de retardo; y un cambiador del segmento de ciclo de tono para aumentar al máximo la correlación del segmento de ciclo de tono con la señal designada.
41. Un dispositivo de modificación de señal de conformidad con la reivindicación 40, caracterizado porque comprende además : un evaluador de la información proveniente del contorno de retardo respecto de la evolución de los ciclos de tono y la periodicidad del marco de señal de sonido en curso; y un definidor de por lo menos una condición relacionada con la información dada por el contorno de retardo respecto de la evolución de los ciclos de tono y la periodicidad del marco de señal de sonido actual; y un terminador de la modificación de señal cuando la por lo menos una condición relacionada a la información dada por el contorno de retardo respecto de la evolución de los ciclos de tono y de la periodicidad del marco de señal de sonido actual no está satisfecha.
42. Un dispositivo de modificación de señal de conformidad con la reivindicación 35, caracterizado porque comprende además : un limitador del cambio de los segmentos de ciclo de tono, el limitador comprende un imponedor de un criterio dado a todos los segmentos del marco; y un terminador del procedimiento de modificación de señal cuando el criterio dado no se respeta.
43. Un dispositivo de modificación de señal de conformidad con la reivindicación 31, caracterizado porque comprende además : un detector de una ausencia de actividad de voz en el marco en curso de la señal de sonido; y un selector de un modo deshabilitado de modificación de señal para codificar el marco en curso de la señal de sonido en respuesta a la detección de la ausencia de actividad de voz en el marco en curso.
44. Un dispositivo de modificación de señal de conformidad con la reivindicación 31, caracterizado porque comprende además : un detector de una presencia de actividad de voz en el marco en curso de la señal de sonido; un clasificador por clasificar el marco en curso como un marco de señal de sonido sin voz; y un selector de un modo deshabilitado de modificación de señal para codificar el marco en curso de la señal de sonido en respuesta a la detección de una presencia de actividad de voz en el marco en curso de la señal de sonido; y clasificar el marco en curso como un marco de señal de sonido sin voz.
45. Un dispositivo de modificación de señal de conformidad con la reivindicación 31, caracterizado porque comprende además : un detector de una presencia de actividad de voz en el marco en curso de la señal de sonido; un clasificador para clasificar el marco en curso como un marco de señal de sonido con voz; un detector de que la modificación de señal es exitosa; y un selector de un modo habilitado de modificación de señal para codificar el marco en curso de la señal de sonido en respuesta a: la detección de una presencia de actividad de voz en el marco en curso de la señal de sonido; clasificar el marco en curso como un marco de señal de sonido con voz; y detectar que la modificación de señal es exitosa .
46. Un dispositivo de modificación de señal de conformidad con la reivindicación 31, caracterizado porque comprende además: un detector de una presencia de actividad de voz en el marco en curso de la señal de sonido; un clasificador para clasificar el marco en curso como un marco de señal de sonido con voz; un detector que la modificación de señal no es exitosa; y un selector de un modo deshabilitado de modificación de señal para codificar el marco en curso de la señal de sonido en respuesta a: la detección de una presencia de actividad de voz en el marco en curso de la señal de sonido; clasificar el marco en curso como un marco de señal de sonido con voz; y detectar que la modificación de señal no es exitosa .
47. Un método para buscar pulsos de tono en una señal de sonido, caracterizado porque comprende: dividir la señal de sonido en una serie de marcos sucesivos; dividir cada marco en varios submarcos; producir una señal residual filtrando la señal de sonido mediante un filtro de análisis de predicción lineal; localizar un último pulso de tono de la señal de sonido del marco previo de la señal residual; extraer un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo utilizando la señal residual; y localizar pulsos de tono en un marco en curso utilizando el prototipo de pulso de tono.
48. Un método para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 47, caracterizado porque comprende adem s: predecir la posición de un primer pulso de tono del marco en curso para ocurrir en un instante relacionado con la posición del pulso de tono previamente localizado y una estimación de tono de lazo abierto interpolada en un instante que corresponde a la posición del pulso de tono previamente localizado; y refinar la posición predicha de pulso de . tono aumentando al máximo una correlación de valoración entre el prototipo de pulso y la señal residual.
49. Un método para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 48, caracterizado porque comprende además: repetir la predicción de posición de pulso de tono y el refinamiento de la posición predicha hasta que la predicción y el refinamiento provean una posición de pulso de tono localizada fuera del marco en curso.
50. Un dispositivo para buscar pulsos de tono en una señal de sonido, caracterizado porque comprende: un divisor de la señal de sonido en una serie de marcos sucesivos; un divisor de cada marco en varios submarcos; un filtro de análisis de predicción lineal para filtrar la señal de sonido y producir de esta manera una señal residual; un detector de un último pulso de tono de la señal de sonido del marco previo en respuesta a la señal residual; un extractor de un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo en respuesta a la señal residual; y un detector de pulsos de tono en un marco en curso utilizando el prototipo de pulso de tono.
51. Un dispositivo para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 50, caracterizado porque comprende además: un predictor de la posición de cada pulso de tono del marco en curso para que ocurra en un instante relacionado a la posición del pulso de tono localizado previo y una estimación de tono de lazo abierto interpolada en el instante que corresponde a la posición del pulso de tono previamente localizado; y un refinador de la posición predicha del pulso de tono aumentando al máximo una correlación valorada entre el prototipo de pulso y la señal residual.
52. Un dispositivo para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 51, caracterizado porque además comprende: un repetidor de la predicción de posición de pulso de tono y el refinamiento de posición predicha hasta que la predicción y el refinamiento provea una posición de pulso de tono localizada fuera del marco en curso.
53. Un método para buscar pulsos de tono en una señal de sonido, caracterizado porque comprende: dividir la señal de sonido en una serie de marcos sucesivos; dividir cada marco en varios submarcos; producir una señal de sonido valorada procesando la señal de sonido mediante un filtro de valoración, siendo la señal de sonido valorada indicativa de periodicidad de señal; localizar un último pulso de tono de la señal de sonido del marco previo de la señal de sonido valorada; extraer un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo utilizando la señal de sonido valorada; y localizar pulsos de tono en un marco en curso utilizando el prototipo de pulso de tono.
54. Un método para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 53, caracterizado porque además comprende: predecir la posición de un primer pulso de tono del marco en curso para que ocurra en un instante relacionado con la posición del pulso de tono previamente localizado y una estimación de tono de lazo abierto interpolada en un instante que corresponde a la posición del pulso de tono previamente localizado; y refinar la posición predicha del pulso de tono aumentando al máximo una correlación valorada entre el prototipo del pulso y la señal de sonido valorada.
55. Un método para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 54, caracterizado porque además comprende: repetir la predicción, de posición de pulso de tono y el refinamiento de posición predicha hasta que la predicción y el refinamiento provea una posición de pulso de tono localizada fuera del marco en curso.
56. Un dispositivo para buscar pulsos de tono en una señal de sonido, caracterizado porque comprende: un divisor de la señal de sonido en una serie de marcos sucesivos; un divisor de cada marco en varios submarcos; un filtro de valoración para procesar la señal de sonido para producir una señal de sonido valorada, la señal de sonido valorada es indicativa de periodicidad de señal; un detector de un último pulso de tono de la señal de sonido del marco previo en respuesta a la señal de sonido valorada; un extractor de un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo en respuesta a la señal de sonido valorada; y un detector de pulsos de tono en un marco en curso utilizando el prototipo de pulso de tono.
57. Un dispositivo para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 56, caracterizado porque además comprende: un predictor de la posición de cada pulso de tono del marco en curso para que ocurra en un instante relacionado a la posición del pulso de tono localizado anterior y una estimación de tono de lazo abierto interpolada en el instante que corresponde a la posición del pulso de tono previamente localizado; y un refinador de la posición predicha del pulso de tono aumentando al máximo una correlación valorada entre el prototipo de pulso y la señal de sonido valorada.
58. ün dispositivo para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 57 r caracterizado porque además comprende: un repetidor de la predicción de posición de pulso de tono y el refinamiento de la posición predicha hasta que la predicción y el refinamiento provea una posición de pulso de tono localizada fuera del marco en curso .
59. Dn método para buscar pulsos de tono en una señal de sonido, que comprende: dividir la señal de sonido en una serie de marcos sucesivos; dividir cada marco en varios submarcos; producir una señal de sonido valorada sintetizada filtrando una señal de voz sintetizada producida durante un último submarco de un marco previo de la señal de sonido mediante de un filtro de valoración; localizar un último pulso de tono de la señal de sonido del marco previo de la señal de sonido valorada sintetizada; extraer un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo utilizando la señal de sonido valorada sintetizada; y localizar pulsos de tono en un marco en curso utilizando el prototipo de pulso de tono.
60. Un método para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 59, caracterizado porque además comprende: predecir la posición de un primer pulso de tono del marco en curso para que ocurra en un instante relacionado a la posición del pulso de tono previamente localizado y una estimación de tono de lazo abierto interpolada en un instante que corresponde a la posición del pulso de tono previamente localizado; y refinar la posición predicha de pulso de tono aumentando al máximo una correlación valorada entre el prototipo de pulso y la señal de sonido valorada sintetizada .
61. Un método para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 60, caracterizado porque además comprende: repetir la predicción de posición de pulso de tono y el refinamiento de la posición hasta que la predicción y el refinamiento provea una posición de pulso de tono localizada fuera del marco en curso.
62. Un dispositivo para buscar pulsos de tono en una señal de sonido, caracterizado porque comprende: un divisor de la señal de sonido en una serie de marcos sucesivos; un divisor de cada marco en varios submarcos; un filtro de valoración para filtrar una señal de voz sintetizada producida durante un último submarco de un marco previo de la señal de sonido y asi producir una señal de sonido valorada sintetizada; un detector de un último pulso de tono de la señal de sonido del marco previo en respuesta a la señal de sonido valorada sintetizada; un extractor de un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono del marco previo en respuesta a la señal de sonido valorada sintetizada; y un detector de pulsos de tono en un marco en curso que utiliza el prototipo de pulso de tono.
63. Un dispositivo para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 62, caracterizado porque además comprende: un predictor de la posición de cada pulso de tono del marco en curso para que ocurra en un instante relacionado a la posición del pulso de tono localizado previo y una estimación de tono de lazo abierto interpolada en el instante que corresponde a la posición del pulso de tono previamente localizado; y un refinador de la posición de pulso de tono predicha aumentando al máximo una correlación valorada entre el prototipo de pulso y la señal de sonido valorada sintetizada .
64. Un dispositivo para buscar pulsos de tono en una señal de sonido de conformidad con la reivindicación 63, caracterizado porque además comprende: un repetidor de la predicción de posición de pulso de tono y el refinamiento de posición predicha hasta que la predicción y el refinamiento provea una posición de pulso de tono localizada fuera del marco en curso.
65. Un método para formar una excitación de libro de códigos adaptable durante descodificación de una señal de sonido dividida en marcos sucesivos y previamente codificada por medio de una técnica que utiliza modificación de señal para codificar digitalmente la señal de sonido, que comprende: recibir, para cada marco, un parámetro de retardo de predicción de largo plazo que caracteriza una predicción de largo plazo en la técnica de cifrado de señal de sonido digital; recuperar un contorno de retardo utilizando el parámetro de retardo de predicción de largo plazo recibido durante un marco en curso y el parámetro de retardo de predicción de largo plazo recibido durante un marco previo, en donde el contorno de retardo correlaciona, con la predicción de largo plazo, una característica de señal del marco previo a una característica de señal correspondiente del marco en curso; formar la excitación de libro de códigos adaptable en un libro de códigos adaptable en respuesta al contorno de retardo.
66. Un dispositivo para formar una excitación de libro de códigos adaptable durante descodificación de una señal de sonido dividida en marcos sucesivos y previamente codificados por medio de una técnica que utiliza modificación de señal para codificar digitalmente la señal de sonido, caracterizado porque comprende: un receptor de un parámetro de retardo de predicción de largo plazo de cada marco, en donde el parámetro de retardo de predicción de largo plazo caracteriza una predicción de largo plazo en la técnica de codificado de señal de sonido digital; una calculadora de un contorno de retardo en respuesta al parámetro de retardo de predicción de largo plazo recibido durante un marco en curso y el parámetro de retardo de predicción de largo plazo recibido durante un marco previo, en donde el contorno de retardo correlaciona, con la predicción de largo plazo, una característica de señal del marco previo a una característica de señal correspondiente del marco en curso; y un libro de códigos adaptable para formar la excitación de libro de códigos adaptable en respuesta al contorno de retardo. RESUMEN Para determinar un parámetro de retardo de predicción de largo plazo que caracteriza una predicción de largo plazo en una técnica que utiliza modificación de señal para cifrar digitalmente una señal de sonido, la señal de sonido se divide en una serie de marcos sucesivos, una característica de la señal de sonido se ubica en un marco previo, una característica correspondiente de la señal de sonido se ubica en un marco en curso y se determina el parámetro de retardo de predicción de largo plazo para el marco en curso al tiempo que se correlaciona, con la predicción de largo plazo, la característica de señal del marco anterior con la característica de señal correspondiente del marco en curso. En un método de modificación de señal para implementación en una técnica para cifrar digitalmente una señal de sonido, la señal de sonido se divide en una serie de marcos sucesivos, cada marco de la señal de sonido se divide en una pluralidad de segmentos de señales, y al menos parte de los segmentos de señal del marco se distorsiona al tiempo que restringe los segmentos de señal distorsionada dentro del marco. Para buscar pulsos de tono (piten) en una señal de sonido, se produce una señal residual filtrando la señal de sonido a través de un filtro de análisis de predicción lineal, se produce una señal de sonido valorada procesando la señal de sonido mediante un filtro de valoración, la señal de sonido valorada es indicativa de la periodicidad de señal, se produce una señal de sonido valorada sintetizada filtrando una señal de voz sintetizada producida durante un último submarco de un marco previo de la señal de sonido mediante el filtro de valoración, un último pulso de tono de la señal de sonido del marco previo se ubica desde la señal residual, se extrae un prototipo de pulso de tono de longitud dada alrededor de la posición del último pulso de tono de la señal de sonido del marco anterior utilizando señal de sonido valorada sintetizada y los pulsos de tono se ubican en un marco en curso utilizando prototipo de pulso de tono.
MXPA04005764A 2001-12-14 2002-12-13 Metodo de modificacion de senal para cifrado eficiente de senales de habla. MXPA04005764A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA002365203A CA2365203A1 (en) 2001-12-14 2001-12-14 A signal modification method for efficient coding of speech signals
PCT/CA2002/001948 WO2003052744A2 (en) 2001-12-14 2002-12-13 Signal modification method for efficient coding of speech signals

Publications (1)

Publication Number Publication Date
MXPA04005764A true MXPA04005764A (es) 2005-06-08

Family

ID=4170862

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA04005764A MXPA04005764A (es) 2001-12-14 2002-12-13 Metodo de modificacion de senal para cifrado eficiente de senales de habla.

Country Status (19)

Country Link
US (2) US7680651B2 (es)
EP (2) EP1758101A1 (es)
JP (1) JP2005513539A (es)
KR (1) KR20040072658A (es)
CN (2) CN101488345B (es)
AT (1) ATE358870T1 (es)
AU (1) AU2002350340B2 (es)
BR (1) BR0214920A (es)
CA (1) CA2365203A1 (es)
DE (1) DE60219351T2 (es)
ES (1) ES2283613T3 (es)
HK (2) HK1069472A1 (es)
MX (1) MXPA04005764A (es)
MY (1) MY131886A (es)
NO (1) NO20042974L (es)
NZ (1) NZ533416A (es)
RU (1) RU2302665C2 (es)
WO (1) WO2003052744A2 (es)
ZA (1) ZA200404625B (es)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
EP1864281A1 (en) * 2005-04-01 2007-12-12 QUALCOMM Incorporated Systems, methods, and apparatus for highband burst suppression
US20060221059A1 (en) * 2005-04-01 2006-10-05 Samsung Electronics Co., Ltd. Portable terminal having display buttons and method of inputting functions using display buttons
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
US7974837B2 (en) * 2005-06-23 2011-07-05 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus, and audio encoded information transmitting apparatus
RU2008105555A (ru) * 2005-07-14 2009-08-20 Конинклейке Филипс Электроникс Н.В. (Nl) Синтез аудиосигнала
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
WO2007124582A1 (en) * 2006-04-27 2007-11-08 Technologies Humanware Canada Inc. Method for the time scaling of an audio signal
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8239190B2 (en) 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US8688437B2 (en) * 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
EP2128855A1 (en) 2007-03-02 2009-12-02 Panasonic Corporation Voice encoding device and voice encoding method
US8312492B2 (en) * 2007-03-19 2012-11-13 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8355921B2 (en) * 2008-06-13 2013-01-15 Nokia Corporation Method, apparatus and computer program product for providing improved audio processing
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ES2379761T3 (es) * 2008-07-11 2012-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Proporcinar una señal de activación de distorsión de tiempo y codificar una señal de audio con la misma
GB2466669B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466670B (en) 2009-01-06 2012-11-14 Skype Speech encoding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466672B (en) 2009-01-06 2013-03-13 Skype Speech coding
EP2211335A1 (en) * 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
CN102292769B (zh) * 2009-02-13 2012-12-19 华为技术有限公司 一种立体声编码方法和装置
US20100225473A1 (en) * 2009-03-05 2010-09-09 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Postural information system and method
WO2010134759A2 (ko) 2009-05-19 2010-11-25 한국전자통신연구원 Mdct-tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
US8452606B2 (en) 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
ES2508590T3 (es) * 2010-01-08 2014-10-16 Nippon Telegraph And Telephone Corporation Método de codificación, método de decodificación, aparato codificador, aparato decodificador, programa y medio de grabación
JP5625076B2 (ja) * 2010-03-10 2014-11-12 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. コーディングコンテキストのピッチ依存適合を用いた、オーディオ信号復号器、オーディオ信号符号化器、オーディオ信号を復号するための方法、オーディオ信号を符号化するための方法、およびコンピュータプログラム
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
ES2938725T3 (es) 2010-09-16 2023-04-14 Dolby Int Ab Transposición armónica basada en bloque de subbanda mejorado de producto cruzado
WO2012103686A1 (en) * 2011-02-01 2012-08-09 Huawei Technologies Co., Ltd. Method and apparatus for providing signal processing coefficients
MY165853A (en) 2011-02-14 2018-05-18 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
EP2676270B1 (en) 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding a portion of an audio signal using a transient detection and a quality result
AU2012217215B2 (en) 2011-02-14 2015-05-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for error concealment in low-delay unified speech and audio coding (USAC)
RU2586838C2 (ru) * 2011-02-14 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодек, использующий синтез шума в течение неактивной фазы
TR201903388T4 (tr) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi.
TWI483245B (zh) 2011-02-14 2015-05-01 Fraunhofer Ges Forschung 利用重疊變換之資訊信號表示技術
EP2676268B1 (en) 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
US9015044B2 (en) * 2012-03-05 2015-04-21 Malaspina Labs (Barbados) Inc. Formant based speech reconstruction from noisy signals
US9406307B2 (en) * 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9830920B2 (en) 2012-08-19 2017-11-28 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9208775B2 (en) 2013-02-21 2015-12-08 Qualcomm Incorporated Systems and methods for determining pitch pulse period signal boundaries
MY181026A (en) 2013-06-21 2020-12-16 Fraunhofer Ges Forschung Apparatus and method realizing improved concepts for tcx ltp
BR112016016310B1 (pt) * 2014-01-14 2022-06-07 Interactive Intelligence Group, Inc Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
KR102422794B1 (ko) * 2015-09-04 2022-07-20 삼성전자주식회사 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2258751B1 (es) * 1974-01-18 1978-12-08 Thomson Csf
CA2102080C (en) 1992-12-14 1998-07-28 Willem Bastiaan Kleijn Time shifting for generalized analysis-by-synthesis coding
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6223151B1 (en) * 1999-02-10 2001-04-24 Telefon Aktie Bolaget Lm Ericsson Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders

Also Published As

Publication number Publication date
CN101488345A (zh) 2009-07-22
DE60219351T2 (de) 2007-08-02
EP1454315B1 (en) 2007-04-04
US8121833B2 (en) 2012-02-21
US20050071153A1 (en) 2005-03-31
BR0214920A (pt) 2004-12-21
CA2365203A1 (en) 2003-06-14
EP1758101A1 (en) 2007-02-28
DE60219351D1 (de) 2007-05-16
NZ533416A (en) 2006-09-29
JP2005513539A (ja) 2005-05-12
US20090063139A1 (en) 2009-03-05
WO2003052744A3 (en) 2004-02-05
CN101488345B (zh) 2013-07-24
CN1618093A (zh) 2005-05-18
ATE358870T1 (de) 2007-04-15
EP1454315A2 (en) 2004-09-08
HK1069472A1 (en) 2005-05-20
ZA200404625B (en) 2006-05-31
ES2283613T3 (es) 2007-11-01
NO20042974L (no) 2004-09-14
AU2002350340A1 (en) 2003-06-30
KR20040072658A (ko) 2004-08-18
RU2004121463A (ru) 2006-01-10
WO2003052744A2 (en) 2003-06-26
AU2002350340B2 (en) 2008-07-24
MY131886A (en) 2007-09-28
US7680651B2 (en) 2010-03-16
RU2302665C2 (ru) 2007-07-10
HK1133730A1 (en) 2010-04-01

Similar Documents

Publication Publication Date Title
MXPA04005764A (es) Metodo de modificacion de senal para cifrado eficiente de senales de habla.
KR100711280B1 (ko) 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
JP4585689B2 (ja) 合成による分析celp型音声符号化のための適応型ウィンドウ
KR100805983B1 (ko) 가변율 음성 코더에서 프레임 소거를 보상하는 방법
JP5149198B2 (ja) 音声コーデック内の効率的なフレーム消去隠蔽の方法およびデバイス
JP5173939B2 (ja) Cdma無線システム用可変ビットレート広帯域音声符号化時における効率のよい帯域内ディム・アンド・バースト(dim−and−burst)シグナリングとハーフレートマックス処理のための方法および装置
KR100488080B1 (ko) 멀티모드 음성 인코더
JP2011123506A (ja) 可変レートスピーチ符号化
Jelinek et al. Wideband speech coding advances in VMR-WB standard
Jelinek et al. On the architecture of the cdma2000/spl reg/variable-rate multimode wideband (VMR-WB) speech coding standard
CA2469774A1 (en) Signal modification method for efficient coding of speech signals
CN113826161A (zh) 用于检测待编解码的声音信号中的起音以及对检测到的起音进行编解码的方法和设备
Xinfu et al. AMR vocoder and its multi-channel implementation based on a single DSP chip
AU766830B2 (en) Multimode speech encoder
GB2352949A (en) Speech coder for communications unit
MX2008008477A (es) Metodo y dispositivo para ocultamiento eficiente de borrado de cuadros en codec de voz

Legal Events

Date Code Title Description
GB Transfer or rights
FG Grant or registration