MX2015006161A - Dispositivo de codificacion de sonido de voz, dispositivo de decodificacion de sonido de voz, metodo de codificacion de sonido de voz y metodo de decodificacion de sonido de voz. - Google Patents

Dispositivo de codificacion de sonido de voz, dispositivo de decodificacion de sonido de voz, metodo de codificacion de sonido de voz y metodo de decodificacion de sonido de voz.

Info

Publication number
MX2015006161A
MX2015006161A MX2015006161A MX2015006161A MX2015006161A MX 2015006161 A MX2015006161 A MX 2015006161A MX 2015006161 A MX2015006161 A MX 2015006161A MX 2015006161 A MX2015006161 A MX 2015006161A MX 2015006161 A MX2015006161 A MX 2015006161A
Authority
MX
Mexico
Prior art keywords
section
group
energy
groups
bits
Prior art date
Application number
MX2015006161A
Other languages
English (en)
Other versions
MX341885B (es
Inventor
Masahiro Oshikiri
Zongxian Liu
Srikanth Nagisetty
Original Assignee
Panasonic Ip Corp America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Ip Corp America filed Critical Panasonic Ip Corp America
Publication of MX2015006161A publication Critical patent/MX2015006161A/es
Publication of MX341885B publication Critical patent/MX341885B/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Se proporciona un dispositivo de codificación de voz-sonido, un dispositivo de decodificación de voz-sonido, un método de codificación de voz-sonido y un método de decodificación de voz-sonido que realiza eficientemente la distribución de bits y mejora la calidad del sonido. La unidad de identificación de bandas de frecuencia dominantes (301) identifica una banda de frecuencia dominante que tiene un valor de factor de norma que es el valor máximo dentro del espectro de una señal de voz-sonido de entrada. Las unidades de determinación de grupos dominantes (302-1 a 302-N) y una unidad de determinación de grupos no dominantes (303) agrupan todas las sub-bandas en un grupo dominante que contiene la banda de frecuencia dominante y un grupo no dominante que no contiene una banda de frecuencia dominante. Una unidad de distribución de bits de grupos (308) distribuye bits a cada grupo en la base de la energía y la distribución de norma de cada grupo. Una unidad de distribución de bits de sub-bandas (309) redistribuye los bits que han sido distribuidos a cada grupo a cada sub-banda de acuerdo con la relación de la norma con respecto a la energía de los grupos.

Description

DISPOSITIVO DE CODIFICACION DE SONIDO DE VOZ, DISPOSITIVO DE DECODIFICACIÓN DE SONIDO DE VOZ, MÉTODO DE CODIFICACIÓN DE SONIDO DE VOZ Y MÉTODO DE DECODIFICACIÓN DE SONIDO DE VOZ Campo de la Invención La presente invención se refiere a un aparato de codificación de habla/sonido, un aparato de decodificación de habla/sonido, un método de codificación de habla/sonido y un método de decodificación de habla/sonido utilizando un esquema de codificación de transformación.
Antecedentes de la Invención Como un esquema capaz de codificar eficientemente una señal de habla o una señal de música en una banda completa (FB, por sus siglas en inglés) de 0.02 a 20 kHz, existe una téenica estandarizada en ITU-T (Sector de Estandarización de Telecomunicaciones de la Unión Internacional de Telecomunicaciones). Esta técnica transforma una señal de entrada en una señal de dominio de frecuencia y codifica una banda de hasta 20 kHz (codificación de transformación) .
En este documento, la codificación de transformación es un esquema de codificación que transforma una señal de entrada de un dominio temporal en un dominio de frecuencia utilizando una transformación de tiempo/frecuencia tal como una transformación discreta de coseno (DCT, por sus Ref.256387 siglas en ingles) o una transformación discreta de coseno modificada (MDCT, por sus siglas en inglés) para hacer posible que una señal sea mapeada en correspondencia discreta con características auditivas.
En la codificación de transformación, un coeficiente espectral se divide en una pluralidad de sub bandas de frecuencia. En la codificación de cada sub-banda, la asignación de más bits de cuantificación a una banda la cual es perceptualmente importante para el oído humano hace posible mejorar la calidad total del sonido.
Con el propósito de alcanzar este objetivo, se están llevando a cabo estudios sobre esquemas eficientes de asignación de bits, y por ejemplo, se conoce una téenica dada a conocer en la Bibliografía que no es Patente (en lo sucesivo, referida como "NPL", por sus siglas en inglés) 1. En lo sucesivo, el esquema de asignación de bits dado a conocer en la Bibliografía de Patente (en lo sucesivo, referida como "PTL" , por sus siglas en inglés) 1 se describirá utilizando la FIGURA 1 y la FIGURA 2.
La FIGURA 1 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido dado a conocer en la PTL 1. Una señal de entrada muestreada a 48 kHz se introduce al detector transitorio 11 y el sector de transformación 12 del aparato de codificación de habla/sonido.
El detector transitorio 11 detecta, de la señal de entrada, ya sea una trama transitoria que corresponde a un borde delantero o un borde final del habla o una trama estacionaria que corresponde a una sección de habla diferente de aquella, y una sección de transformación 12 aplica, a la trama de la señal de entrada, una transformación de resolución de alta frecuencia o una transformación de resolución de baja frecuencia dependiendo si la trama detectada por el detector transitorio 11 es una trama transitoria o una trama estacionaria, y adquiere un coeficiente espectral (o coeficiente de transformación).
La sección de estimación de normas 13 divide el coeficiente espectral obtenido en la sección de transformación 12 en bandas de diferentes anchuras de banda. La sección de estimación de normas 13 calcula una norma (o energía) de cada banda dividida.
La sección de cuantificación de normas 14 determina una envoltura espectral constituida de las normas de todas las bandas con base en la norma de cada banda calculada por la sección de estimación de normas 13 y cuantifica la envoltura espectral determinada.
La sección de normalización de espectro 15 normaliza el coeficiente espectral obtenido por la sección de transformación 12 de acuerdo con la norma cuantificada por la sección de cuantificación de normas 14.
La sección de ajuste de normas 16 ajusta la norma cuantificada por la sección de cuantificación de normas 14 con base en la ponderación espectral adaptable.
La sección de asignación de bits 17 asigna bits disponibles para cada banda en una trama utilizando la norma de cuantificación ajustada por la sección de ajuste de normas 16.
La sección de codificación de vectores reticulares 18 realiza la codificación de vectores reticulares sobre el coeficiente espectral normalizado por la sección de normalización de espectro 15 utilizando bits asignados para cada banda por la sección de asignación de bits 17.
La sección de ajuste de nivel de ruido 19 calcula el nivel del coeficiente espectral antes de la codificación en la sección de codificación de vectores reticulares 18 y codifica el nivel calculado. De esta manera, se obtiene un índice de ajuste de nivel de ruido.
El multiplexor 20 ultiplexa una configuración de trama de la señal de entrada adquirida por la sección de transformación 12, es decir, un indicador de señal transitorio que señala si la trama es una trama estacionaria o una trama transitoria, la norma cuantificada por la sección de cuantificación de normas 14, el vector de codificación reticular obtenido por la sección de codificación de vectores reticulares 18 y el índice de ajuste de nivel de ruido obtenido por la sección de ajuste de nivel de ruido 19 y forma una corriente de bits y transmite la corriente de bits a un aparato de decodificación de habla/sonido.
La FIGURA 2 es un diagrama de bloques que ilustra una configuración del aparato de decodificación de habla/sonido dado a conocer en la PTL 1. El aparato de decodificación de habla/sonido recibe la corriente de bits transmitida del aparato de codificación de habla/sonido y el desmultiplexor 21 desmultiplexa la corriente de bits.
La sección de descuantif icación de normas 22 descuantif ica la norma cuantificad , adquiere una envoltura espectral constituida de normas de todas las bandas y la sección de ajuste de normas 23 ajusta la norma descuantif icada por la sección de descuantificación de normas 22 con base en la ponderación espectral adaptable.
La sección de asignación de bits 24 asigna bits disponibles para cada banda en una trama utilizando las normas ajustadas por la sección de ajuste de normas 23. Es decir, la sección de asignación de bits 24 recalcula la asignación de bits indispensable para decodificar el código de vector reticular del coeficiente espectral normalizado.
La sección de decodificación de retículo 25 decodifica un indicador de señal transitorio, decodifica el vector de codificación reticular con base en una configuración de trama señalada por el indicador de señal transitorio decodificado y los bits asignados por la sección de asignación de bits 24 y adquiere un coeficiente espectral .
El generador de llenado espectral 26 regenera un coeficiente espectral de baja frecuencia al cual no se ha asignado un bit utilizando un libro de códigos creado con base en el coeficiente espectral decodificado por la sección de decodificación de retículo 25. El generador de llenado espectral 26 ajusta el nivel del coeficiente espectral regenerado utilizando un índice de ajuste de nivel de ruido. Adicionalmente, el generador de llenado espectral 26 regenera un coeficiente espectral no codificado de alta frecuencia utilizando un coeficiente espectral codificado de baja frecuencia.
El adicionar 27 agrega el coeficiente espectral decodificado y el coeficiente espectral regenerado, y genera un coeficiente espectral normalizado.
La sección de configuración de envoltura 28 aplica la envoltura espectral descuant ificada por la sección de descuantif icación de normas 22 al coeficiente espectral normalizado que es generado por el adicionador 27 y genera un coeficiente espectral de banda completa.
La sección de transformación inversa 29 aplica una transformación inversa tal como una transformación discreta de coseno modificada, inversa (IMDCT, por sus siglas en inglés) al coeficiente espectral de banda completa generado por la sección de configuración de envoltura 28 para transformarlo en una señal de dominio temporal. En este documento, la transformación inversa con resolución de alta frecuencia se aplica a un caso con una trama estacionaria y la transformación inversa con resolución de baja frecuencia se aplica a un caso con una trama transitoria.
En G.719, los coeficientes espectrales se dividen en grupos de espectros. Cada grupo de espectros se divide en bandas de sub-vectores de longitud igual como se muestra en la FIGURA 3. Los sub-vectores tienen una longitud diferente de un grupo a otro y esta longitud incrementa conforme incrementa la frecuencia. Con respecto a la resolución de transformación, la resolución de frecuencia más alta se utiliza para frecuencias bajas, mientras que la resolución de frecuencia más baja se utiliza para frecuencias altas. Como se describe en G.719, la agrupación permite un uso eficiente del presupuesto de bits disponible durante la codificación.
En G.719, el esquema de asignación de bits es idéntico en un aparato de codificación y un aparato de decodificación. En este documento, el esquema de asignación de bits se describirá utilizando la FIGURA 4.
Como se muestra en la FIGURA 4, en el paso (abreviado en lo sucesivo como "ST") 31, las normas cuantificadas se ajustan antes de una asignación de bits para ajustar los efectos de ponderación y enmascaramiento psico-acústicos .
En el ST32, las sub-bandas que tienen una norma máxima se identifican de entre todas las sub-bandas y en el ST33, un bit se asigna a cada coeficiente espectral para las sub-bandas que tienen la norma máxima. Es decir, se asignan tantos bits como coeficientes espectrales.
En el ST34, las normas se reducen de acuerdo con los bits asignados, y en el ST35, se determina si el número restante de bits asignables es 8 o más. Cuando el número restante de bits asignables es 8 o más, el flujo regresa al ST32 y cuando el número restante de bits asignables es menor que 8, el procedimiento de asignación de bits se termina .
De esta manera, en el esquema de asignación de bits, los bits disponibles dentro de una trama se asignan entre sub-bandas utilizando las normas de cuantificación ajustadas. Los coeficientes espectrales normalizados son codificados por la codificación de vectores reticulares utilizando los bits asignados a cada sub-banda.
Lista de Referencias Bibliografía de Patente NPL 1 ITU-T Recommendation G.719, "Low-complexity full-band audio coding for high-quality conversational applications", ITU-T, Breve Descripción de la Invención Problema Teenico Sin embargo, el esquema anterior de asignación de bits no toma en consideración las características de señal de entrada cuando se agrupan bandas espectrales y por lo tanto tiene un problema respecto a que no es posible la asignación eficiente de bits y no se puede esperar un mejoramiento adicional de la calidad del sonido.
Un objetivo de la presente invención es proporcionar un aparato de codificación de habla/sonido, un aparato de decodif icación de habla/sonido, un método de codificación de habla/sonido y un método de decodificación de habla/sonido capaces de realizar la asignación eficiente de bits y de mejorar la calidad del sonido.
Solución al Problema Un aparato de codificación de habla/sonido de la presente invención incluye: una sección de transformación que transforma una señal de entrada de un dominio temporal a un dominio de frecuencia; una sección de estimación que calcula una envoltura de energía la cual representa un nivel de energía para cada una de una pluralidad de sub-bandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; una sección de cuantificación que cuantifica las envolturas de energía; una sección de determinación de grupos que agrupa las envolturas de energía cuantificadas en una pluralidad de grupos; una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigna los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; y una sección de codificación que codifica el espectro de frecuencia utilizando bits asignados a las sub-bandas.
Un aparato de decodificación de habla/sonido de acuerdo con la presente invención incluye: una sección de descuantif icación que descuantifica una envoltura espectral cuantif icada; una sección de determinación de grupos que agrupa las envolturas espectrales cuantificadas en una pluralidad de grupos; una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigna los bits asignados a la pluralidad de grupos de sub-bandas en una base de grupo por grupo; una sección de decodificación que decodifica un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; una sección de configuración de envoltura que aplica la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproduce un espectro decodificado; y una sección de transformación inversa que transforma de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio temporal.
Un metodo de codificación de habla/sonido de acuerdo con la presente invención incluye: transformar una señal de entrada de un dominio temporal a un dominio de frecuencia; calcular una envoltura de energía que representa un nivel de energía para cada una de una pluralidad de subbandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; cuantificar las envolturas de energía; agrupar las envolturas de energía cuantif icadas en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub bandas en una base de grupo por grupo; y codificar el espectro de frecuencia utilizando bits asignados a las sub bandas .
Un método de decodificación de habla/sonido de acuerdo con la presente invención incluye: descuantificar una envoltura espectral cuantificada; agrupar la envoltura espectral cuantificada en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; decodificar un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; aplicar la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproducir un espectro decodif icado; y transformar de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio temporal .
Efectos Ventajosos de la Invención De acuerdo con la presente invención, es posible realizar una asignación eficiente de bits y mejorar la calidad del sonido.
Breve Descripción de las Figuras La FIGURA 1 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido dado a conocer en la PTL 1; la FIGURA 2 es un diagrama de bloques que ilustra una configuración de un aparato de decodificación de habla/sonido dado a conocer en la PTL 1; la FIGURA 3 es un diagrama que ilustra la agrupación de coeficientes espectrales en un modo estacionario dado a conocer en la PTL1; la FIGURA 4 es un diagrama de flujo que ilustra un esquema de asignación de bits dado a conocer en la PTL 1; la FIGURA 5 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido de acuerdo con una modalidad de la presente invención; la FIGURA 6 es un diagrama de bloques que ilustra una configuración de un aparato de decodificación de habla/ sonido de acuerdo con una modalidad de la presente invención; la FIGURA 7 es un diagrama de bloques que ilustra una configuración interna de la sección de asignación de bits mostrada en la FIGURA 5; las FIGURAS 8A a 8C son diagramas proporcionados para describir un método de agrupación de acuerdo con una modalidad de la presente invención; y la FIGURA 9 es un diagrama que ilustra una variación de la norma.
Descripción Detallada de la Invención En lo sucesivo, las modalidades de la presente invención se describirán en detalle con referencia a las figuras asociados.
Modalidad La FIGURA 5 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido 100 de acuerdo con una modalidad de la presente invención. Una señal de entrada muestreada a 48 kHz se introduce al detector transitorio 101 y la sección de transformación 102 del aparato de codificación de habí a/sonido 100.
El detector transitorio 101 detecta, a partir de una señal de entrada, ya sea una trama transitoria que corresponde a un borde delantero o un borde final de habla o una trama estacionaria que corresponde a una sección de habla diferente de aquella, y envía el resultado de la detección a la sección de transformación 102 . La sección de transformación 102 aplica, a la trama de la señal de entrada, una transformación de resolución de alta frecuencia o una transformación de resolución de baja frecuencia dependiendo si el resultado de la detección enviado desde el detector transitorio 101 es una trama transitoria o una trama estacionaria, y adquiere un coeficiente espectral (o coeficiente de transformación) y envía el coeficiente espectral a la estación de estimación de normas 103 y la sección de normalización de espectro 105. La sección de transformación 102 envía una configuración de trama la cual es el resultado de la detección enviado desde el detector transitorio 101, es decir, un indicador de señal transitorio que señala si la trama es una trama estacionaria o una trama transitoria al multiplexor 110.
La sección de estimación de normas 103 divide el coeficiente espectral enviado desde la sección de transformación 102 en bandas de diferentes anchuras de banda y calcula una norma (o energía) de cada banda dividida. La sección de estimación de normas 103 envía la norma estimada de cada banda a la sección de cuantificación de normas 104.
La sección de cuantificación de normas 104 determina una envoltura espectral constituida de normas de todas las bandas con base en normas de bandas respectivas enviadas desde la sección de estimación de normas 103, cuantifica la envoltura espectral determinada y envía la envoltura espectral cuantificada a la sección de normalización de espectro 105 y la sección de ajuste de normas 106.
La sección de normalización de espectro 105 normaliza el coeficiente espectral enviado desde la sección de transíormación 102 de acuerdo con la envoltura espectral cuantificada enviada desde la sección de cuantificación de normas 104 y envía el coeficiente espectral normalizado a la sección de codificación de vectores reticulares 108.
La sección de ajuste de normas 106 ajusta la envoltura espectral cuantificada que es enviada desde la sección de cuantificación de normas 104 con base en una ponderación espectral adaptable y envía la envoltura espectral, cuantificada, ajustada a la sección de asignación de bits 107.
La sección de asignación de bits 107 asigna bits disponibles para cada banda en una trama utilizando la envoltura espectral, cuantificada, ajustada que es enviada desde la sección de ajuste de normas 106 y envía los bits asignados a la sección de codificación de vectores reticulares 108. Los detalles de la sección de asignación de bits 107 se describirán posteriormente.
La sección de codificación de vectores reticulares 108 realiza la codificación de vectores reticulares sobre el coeficiente espectral normalizado por la sección de normalización de espectro 105 utilizando los bits asignados para cada banda en la sección de asignación de bits 107 y envía el vector de codificación reticular a la sección de ajuste de nivel de ruido 109 y al multiplexor 110.
La sección de ajuste de nivel de ruido 109 calcula el nivel de coeficiente espectral antes de la codificación en la sección de codificación de vectores reticulares 108 y codifica el nivel estimado. Un índice de ajuste de nivel de ruido se determina de esta manera. El índice de ajuste de nivel de ruido es enviado al multiplexor 110.
El multiplexor 110 multiplexa el indicador de señal transitorio enviado desde la sección de transformación 102, la envoltura espectral cuantificada enviada desde de la sección de cuantificación de normas 104, el vector de codificación reticular enviado desde la sección de codificación de vectores reticulares 108 y el índice de ajuste de nivel de ruido enviado desde la sección de ajuste de nivel de ruido 109 y forma una corriente de bits y transmite la corriente de bits a un aparato de decodificación de habla/sonido.
La FIGURA 6 es un diagrama de bloques que ilustra una configuración del aparato de decodificación de habla/sonido 200 de acuerdo con una modalidad de la presente invención. Una corriente de bits transmitida desde el aparato de codificación de habla/sonido 100 es recibida por el aparato de decodificación de habla/sonido 200 y desmulti lexada por el desmultiplexor 201.
La sección de descuantificación de normas 202 descuantif ica la envoltura espectral cuantificada (es decir, la norma) enviada desde el multiplexor, obtiene una envoltura espectral constituida de normas de todas las bandas y envía la envoltura espectral obtenida a la sección de ajuste de normas 203.
La sección de ajuste de normas 203 ajusta la envoltura espectral enviada desde la sección de descuantif icación de normas 202 con base en la ponderación espectral adaptable y envía la envoltura espectral ajustada a la sección de asignación de bits 204.
La sección de asignación de bits 204 asigna bits disponibles para cada banda en una trama utilizando la envoltura espectral enviada desde la sección de ajuste de normas 203. Esto es, la sección de asignación de bits 204 recalcula la asignación de bits indispensable para decodificar el código de vector reticular del coeficiente espectral normalizado. Los bits asignados son enviados a la sección de decodificación de retículo 205.
La sección de decodificación de retículo 205 decodifica el vector de codificación reticular enviado desde el desmultiplexor 201 con base en una configuración de trama señalada por el indicador de señal transitorio enviado desde el desmultiplexor 201 y los bits enviados desde la sección de asignación de bits 204 y adquiere un coeficiente espectral. El coeficiente espectral es enviado al generador de llenado espectral 206 y al adicionador 207.
El generador de llenado espectral 206 regenera un coeficiente espectral de baja frecuencia al cual no se ha asignado un bit utilizando un libro de códigos creado con base en el coeficiente espectral enviado desde la sección de decodificación de retículo 205. El generador de llenado espectral 206 ajusta el nivel del coeficiente espectral regenerado utilizando el índice de ajuste de nivel de ruido enviado desde el desmultiplexor 201. Adicionalmente, el generador de llenado espectral 206 regenera el coeficiente espectral no sujetado a la codificación de alta frecuencia utilizando un coeficiente espectral codificado de baja frecuencia. El coeficiente espectral de baja frecuencia ajustado de nivel y el coeficiente espectral de alta frecuencia regenerado son enviados al adicionador 207.
El adicionador 207 agrega el coeficiente espectral enviado desde la sección de decodificación de retículo 205 y el coeficiente espectral enviado desde el generador de llenado espectral 206, genera un coeficiente espectral normalizado y envía el coeficiente espectral normalizado a la sección de configuración de envoltura 208.
La sección de configuración de envoltura 208 aplica la envoltura espectral enviada desde la sección de descuantificación de normas 202 al coeficiente espectral normalizado que es generado por el adicionador 207 y genera un coeficiente espectral de banda completa (que corresponde al espectro decodificado). El coeficiente espectral de banda completa generado es enviado a la sección de transformación inversa 209.
La sección de transformación inversa 209 aplica una transformación inversa tal como una transformación de coseno discreta, modificada, inversa (IMDCT) al coeficiente espectral de banda completa enviado desde la sección de configuración de envoltura 208, lo transforma a una señal de dominio temporal y envía una señal de salida. En este documento, la transíormación inversa con resolución de alta frecuencia se aplica a un caso de una trama estacionaria y la transformación inversa con resolución de baja frecuencia se aplica a un caso de una trama transitoria.
Después, los detalles de la sección de asignación de bits 107 se describirán utilizando la FIGURA 7. Se debe observar que la sección de asignación de bits 107 del aparato de codificación de habla/sonido 100 es idéntica en configuración a la sección de asignación de bits 204 del aparato de decodificación de habla/sonido 200 y por lo tanto solo la sección de asignación de bits 107 se describirá y la descripción de la sección de asignación de bits 204 se omitirá en este documento.
La FIGURA 7 es un diagrama de bloques que ilustra una configuración interna de la sección de asignación de bits 107 mostrada en la FIGURA 5. La sección de identificación de banda de frecuencia dominante 301 identifica, con base en la envoltura espectral cuantificada que es enviada desde la sección de ajuste de normas 106, una banda de frecuencia dominante la cual es una sub-banda en la cual un valor de coeficiente de norma en el espectro tiene un valor máximo local y envía cada banda de frecuencia dominante identificada a las secciones de determinación de grupos dominantes 302-1 a 302N. Además de designar una banda de frecuencia para la cual un valor de coeficiente de norma tiene un valor máximo local, los ejemplos del metodo para determinar una banda de frecuencia dominante pueden incluir designar una banda entre todas las sub-bandas en las cuales un valor de coeficiente de norma tiene un valor máximo como una banda de frecuencia dominante o designar como una banda de frecuencia dominante una banda que tiene un valor de coeficiente de norma que excede un umbral predeterminado o un umbral calculado a partir de normas de todas las sub-bandas.
Las secciones de determinación de grupos dominantes 302-1 a 302N determinan de manera adaptable anchuras de grupos de acuerdo con características de señal de entrada centradas en la banda de frecuencia dominante enviada desde la sección de identificación de banda de frecuencia dominante 301. Más específicamente, la anchura de grupo se define como la anchura de un grupo de sub-bandas centradas en y en ambos lados de la banda de frecuencia dominante hasta sub-bandas donde se detiene una pendiente descendiente del valor de coeficiente de norma. Las secciones de determinación de grupos dominantes 302-1 a 302N determinan bandas de frecuencia incluidas en anchuras de grupos como grupos dominantes y envían los grupos dominantes determinados a la sección de determinación de grupos no dominantes 303. Se debe observar que cuando una banda de frecuencia dominante se localiza en un borde (el final de una frecuencia disponible), solo un lado de la pendiente descendiente se incluye en el grupo .
La sección de determinación de grupos no dominantes 303 determina sub-bandas continuas enviadas desde las secciones de determinación de grupos dominantes 302-1 a 302N diferentes de los grupos dominantes como grupos no dominantes sin bandas de frecuencia dominantes. La sección de determinación de grupos no dominantes 303 envía los grupos dominantes y los grupos no dominantes a la sección de cálculo de energía de grupo 304 y la sección de cálculo de variación de norma 306.
La sección de cálculo de energía de grupo 304 calcula la energía específica de un grupo de los grupos dominantes y los grupos no dominantes enviados desde la sección de determinación de grupos no dominantes 303 y envía la energía calculada a la sección de cálculo de energía total 305 y la sección de distribución de bits de grupos 308. La energía específica de un grupo se calcula por medio de la siguiente ecuación 1.
Energía(G(k)) = . (Ecuación 1) En este documento, k indica un índice de cada grupo, Energía (G (k)) indica la energía del grupo k, i indica un índice de sub-banda del grupo 2, M indica el número total de sub-bandas del grupo k y Norma(i) indica un valor de coeficiente de norma de la sub-banda i del grupo n.
La sección de cálculo de energía total 305 agrega toda la energía específica de un grupo enviada de la sección de cálculo de energía de grupo 304 y calcula la energía total de todos los grupos. La energía total calculada es enviada a la sección de distribución de bits de grupos 308. La energía total se calcula por medio de la siguiente ecuación 2.
(Ecuación 2) En este documento, Energíatotai indica la energía total de todos los grupos, N indica el número total de grupos en un espectro, k indica un índice de cada grupo y Energía (G (k)) indica la energía del grupo k.
La sección de cálculo de variación de norma 306 calcula la variación de norma específica para un grupo para los grupos dominantes y los grupos no dominantes enviados desde la sección de determinación de grupos no dominantes 303 y envía la variación de norma calculada a la sección de cálculo de variación de norma total 307 y la sección de distribución de bits de grupos 308. La variación de norma específica para un grupo se calcula por medio de la siguiente ecuación 3.
Normaver{G(k)) = Normamax{G{k)) - Normamm(G(K)) ... (Ecuación 3) En este documento, k indica un índice de cada grupo, NormaVar(G (k)) indica una variación de norma del grupo k, Normamax(G (k)) indica un valor de coeficiente de norma máximo del grupo k y Normamin(G (k)) indica un valor de coeficiente de norma mínimo del grupo k.
La sección de cálculo de variación de norma total 307 calcula una variación de norma total de todos los grupos con base en la variación de norma específica para un grupo enviada desde la sección de cálculo de variación de norma 306. La variación de norma total calculada es enviada a la sección de distribución de bits de grupos 308. La variación de norma total se calcula por medio de la siguiente ecuación 4.
Normava, total = .(Ecuación 4) En este documento, Normavartotai indica una variación de norma total de todos los grupos, N indica el número total de grupos en un espectro, k indica un índice de cada grupo y Normavar(G (k)) indica una variación de norma del grupo k.
La sección de distribución de bits de grupos 308 (que corresponde a una primera sección de asignación de bits) distribuye bits en una base de grupo por grupo con base en la energía específica de un grupo enviada desde la sección de cálculo de energía del grupo 304, la energía total de todos los grupos enviada desde la sección de cálculo de energía total 305, la variación de norma específica para un grupo enviada desde la sección de cálculo de variación de norma 306 y la variación de norma total de todos los grupos enviados desde la sección de cálculo de variación de norma total 307 y envía bits distribuidos en una base de grupo por grupo a la sección de distribución de bits de sub-bandas 309. Los bits distribuidos en una base de grupo por grupo se calculan por medio de la siguiente ecuación 5.
Energía{G(k)) Normava{G{k)) Bits(G(k ) = Bitslolal x escale lx + (1— escale l)x ... (Ecuación 5) Energía Ma¡ Norma vac total En este documento, k indica un indice de cada grupo, Bits(G(k)) indica el número de bits distribuidos al grupo k, Bitstotai indica el número total de bits disponibles, escala 1 indica la relación de bits asignados por energía. Energía(G (k)) indica la energía del grupo k, Energíatotai indica la energía total de todos los grupos y Normavar(G(k)) indica una variación de norma del grupo k.
Adicionalmente, escala 1 en la ecuación 5 anterior toma un valor dentro de un rango de [0, 1] y ajusta la relación de bits asignados por energía o variación de norma. Mientras más grande sea el valor de escala 1, más bits son asignados por energía, y en un caso extremo, si el valor es 1, todos los bits se asignan por energía. Mientras más pequeño sea el valor de escala 1, más bits son asignados por variación de norma, y en un caso extremo, si el valor es 0, todos los bits son asignados por variación de norma.
Al distribuir bits en una base de grupo por grupo como se describiera anteriormente, la sección de distribución de bits de grupos 308 puede distribuir más bits a grupos dominantes y distribuir menos bits a grupos no dominantes.
De esta manera, la sección de distribución de bits de grupos 308 puede determinar la importancia perceptual de cada grupo por energía y variación de norma y aumentar más grupos dominantes. La variación de norma coincide con una teoría de enmascaramiento y puede determinar de manera más exacta la importancia perceptual.
La sección de distribución de bits de sub-bandas 309 (que corresponde a una segunda sección de asignación de bits) distribuye bits a sub-bandas en cada grupo con base en bits específicos para un grupo enviados desde la sección de distribución de bits de grupos 308 y envía los bits asignados a sub-bandas específicas para un grupo a la sección de codificación de vectores reticulares 108 como el resultado de la asignación de bits. En este documento, se distribuyen más bits a las sub-bandas perceptualmente importantes y se distribuyen menos bits a las sub-bandas perceptualmente menos importantes. Los bits distribuidos a cada sub-banda en un grupo se calculan por medio de la siguiente ecuación 6.
... (Ecuación 6) En este documento, BitSG(k)sb u) indica un bit asignado a la sub-banda i del grupo k, i indica un índice de sub-banda del grupo k, BitS(G(kn indica un bit asignado al grupo k, Energía (G (k)) indica la energía del grupo k y Norma (i) indica un valor de coeficiente de norma de la sub-banda i del grupo k.
Después, se describirá un método de agrupación utilizando las FIGURAS 8A a 8C. Se supone que una envoltura espectral cuantificada que se muestra en la FIGURA 8A se introduce a la sección de identificación de bandas de frecuencia máximas 301. La sección de identificación de bandas de frecuencia máximas 301 identifica las bandas de frecuencia dominantes 9 y 20 con base en la envoltura espectral, cuantificada, introducida (véase la FIGURA 8B).
Las secciones de generación de grupos dominantes 302-1 a 302-N determinan sub-bandas centradas en y en ambos lados de las bandas de frecuencia dominantes 9 y 20 hasta las sub-bandas donde se detiene una pendiente descendiente del valor de coeficiente de norma como un grupo dominante identico. En los ejemplos mostrados en las FIGURAS 8A a 8C, en lo que se refiere a la banda de frecuencia dominante 9, las sub-bandas 6 a 12 se determinan como el grupo dominante (grupo 2), mientras que en lo que se refiere a la banda de frecuencia dominante 20, las sub-bandas 17 a 22 se determinan como el grupo dominante (grupo 4) (véase la FIGURA 8C).
La sección de determinación de grupos no dominantes 303 determina bandas de frecuencia continuas diferentes de los grupos dominantes como grupos no dominantes sin las bandas de frecuencia dominantes. En el ejemplo mostrado en las FIGURAS 8A a 8C, las sub-bandas 1 a 5 (grupo 1), las sub-bandas 13 a 16 (grupo 3) y las sub-bandas 23 a 25 (grupo 5) se determinan como grupos no dominantes respectivamente (véase la FIGURA 8C).
Como resultado, las envolturas espectrales cuant ificadas se dividen en cinco grupos, es decir, dos grupos dominantes (grupos 2 y 4) y tres grupos no dominantes (grupos 1, 3 y 5).
Utilizando este método de agrupación, es posible determinar de manera adaptable las anchuras de grupos de acuerdo con características de señales de entrada. De acuerdo con este método, el aparato de decodificación de habla/sonido también utiliza coeficientes de norma cuantificados disponibles, y por lo tanto la necesidad de información adicional no se transmite al aparato de decodificación de habla/sonido .
Se debe observar que la sección de cálculo de variación de norma 306 calcula una variación de norma específica para un grupo. En los ejemplos mostrados en las FIGURAS 8A a 8C, la variación de norma Energíavar(G(2)) en el grupo 2 se muestra en la FIGURA 9 como referencia.
Despues, se describirá la importancia perceptual. Un espectro de una señal de habla/sonido incluye generalmente una pluralidad de picos (montañas) y valles. Un pico está constituido de un componente de espectro localizado en una frecuencia dominante de la señal de habla/sonido (componente de sonido dominante). El pico es muy importante perceptualmente . La importancia perceptual del pico puede ser determinada por una diferencia entre la energía del pico y la energía del valle, es decir, por una variación de norma. Teóricamente, cuando un pico tiene una energía suficientemente grande en comparación con las bandas de frecuencia adyacentes, el pico debe ser codificado con un número suficiente de bits, pero si el pico se codifica con un número insuficiente de bits, el ruido de codificación que se mezcla se vuelve prominente, causando que la calidad del sonido se deteriore. Por otra parte, un valle no está constituido de ningún componente de sonido dominante de una señal de habla/sonido y no es importante perceptual ente.
De acuerdo con el método de agrupación de bandas de frecuencia de la presente modalidad, una banda de frecuencia dominante corresponde a un pico de un espectro y la agrupación de bandas de frecuencias significa la separación de los picos (grupos dominantes que incluyen bandas de frecuencia dominantes) de los valles (grupos no dominantes sin bandas de frecuencia dominantes).
La sección de distribución de bits de grupos 308 determina la importancia perceptual de un pico. En contraste a la téenica G.719 en la cual la importancia perceptual es determinada solo por la energía, la presente modalidad determina la importancia perceptual con base en tanto la energía como las distribuciones de normas (energía) y determina los bits que son distribuidos a cada grupo con base en la importancia perceptual determinada.
En la sección de distribución de bits de sub-bandas 309, cuando una variación de norma en un grupo es grande, esto significa que este grupo es uno de los picos, el pico es más importante perceptualmente y un coeficiente de norma que tiene un valor máximo debe ser codificado de manera exacta. Por esta razón, más bits son distribuidos a cada sub-banda de este pico. Por otra parte, cuando una variación de norma en un grupo es muy pequeña, esto significa que este grupo es uno de los valles, y el valle no es importante perceptualmente y no es necesario que sea codificado de manera exacta. Por esta razón, se distribuyen menos bits a cada sub-banda de este grupo .
De esta manera, la presente modalidad identifica una banda de frecuencia dominante en la cual un valor de coeficiente de norma en un espectro de una señal de habla/sonido de entrada tiene un valor máximo local, agrupa todas las sub-bandas en grupos dominantes que incluyen una banda de frecuencia dominante y grupos no dominantes que no incluyen ninguna banda de frecuencia dominante, distribuye bits a cada grupo con base en la energía y variaciones de norma específicas para un grupo, y distribuye además los bits distribuidos en una base de grupo por grupo a cada sub-banda de acuerdo con una relación de una norma con respecto a la energía de cada grupo. De esta manera, es posible asignar más bits a grupos y sub-bandas importantes perceptualmente y realizar una distribución eficiente de bits. Como resultado, la calidad del sonido se puede mejorar.
Se debe observar que el coeficiente de norma en la presente modalidad representa energía de sub-banda y tambien es referido como "envoltura de energía".
La descripción de la Solicitud de Patente Japonesa No. 2012-272571, presentada el 13 de Diciembre de 2012, inclusive la especificación, las figuras y el resumen se incorpora en este documento a manera de referencia en su totalidad.
Aplicabilidad Industrial El aparato de codificación de habla/sonido, el aparato de decodificación de habla/sonido, el método de codificación de habla/sonido y el método de decodificación de habla/sonido de acuerdo con la presente invención son aplicables a un aparato terminal de radiocomunicación, un aparato de estación base de radiocomunicación, un aparato terminal de conferencia telefónica, un aparato terminal de videoconferencia y un aparato terminal de protocolo de voz sobre Internet (VoIP, por sus siglas en inglés) o similares. Lista de Signos de Referencia 101 Detector transitorio 102 Sección de transformación 103 Sección de estimación de normas 104 Sección de cuantificación de normas 105 Sección de normalización de espectro 106, 203 Sección de ajuste de normas 107, 204 Sección de asignación de bits 108 Sección de codificación de vectores reticulares 109 Sección de ajuste de nivel de ruido 110 Multiplexor 201 Desmultiplexor 202 Sección de descuantificación de normas 205 Sección de decodificación de retículo 206 Generador de llenado espectral 207 Adid onador 208 Sección de configuración de envoltura 209 Sección de transformación inversa 301 Sección de identificación de bandas de frecuencia dominantes 302-1 a 302-N Sección de determinación de grupos dominantes 303 Sección de determinación de grupos no dominantes 304 Sección de cálculo de energía de grupo 305 Sección de cálculo de energía total 306 Sección de cálculo de variación de norma 307 Sección de cálculo de variación de norma total 308 Sección de distribución de bits de grupos 309 Sección de distribución de bits de sub-bandas Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims (10)

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones :
1. Un aparato de codificación de habla/sonido, caracterizado porque comprende: una sección de transformación que transforma una señal de entrada de un dominio temporal a un dominio de frecuencia ; una sección de estimación que calcula una envoltura de energía la cual representa un nivel de energía para cada una de una pluralidad de sub-bandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; una sección de cuantificación que cuantifica las envolturas de energía; una sección de determinación de grupos que agrupa las envolturas de energía cuantificadas en una pluralidad de grupos una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigne los bits asignados a la pluralidad de grupos a sub bandas en una base de grupo por grupo; y una sección de codificación que codifica el espectro de frecuencia utilizando bits asignados a las sub bandas .
2. El aparato de codificación de habla/sonido de conformidad con la reivindicación 1, caracterizado porque comprende además una sección de identificación de bandas de frecuencia dominantes que identifica una banda de frecuencia dominante la cual es una sub-banda en la cual una envoltura de energía del espectro de frecuencia tiene un valor máximo local , en donde la sección de determinación de grupos determina la banda de frecuencia dominante y las sub-bandas en ambos lados de la banda de frecuencia dominante cada una que forma una pendiente descendiente de una envoltura de energía como grupos dominantes y determina sub-bandas continuas diferentes de la banda de frecuencia dominante como grupos no dominantes .
3. El aparato de codificación de habla/sonido de conformidad con la reivindicación 1, caracterizado porque comprende además: una sección de cálculo de energía que calcula la energía específica para un grupo; y una sección de cálculo de distribución que calcula una distribución de envoltura de energía específica para un grupo , en donde la primera sección de asignación de bits asigna. con base en la energía calculada específica para un grupo y la distribución de envoltura de energía específica para un grupo, más bits a un grupo cuando por lo menos una de la energía y la distribución de envoltura de energía es más grande y asigna menos bits a un grupo cuando por lo menos una de la energía y la distribución de envoltura de energía es más pequeña.
4. El aparato de codificación de habla/sonido de conformidad con la reivindicación 1, caracterizado porque la segunda sección de asignación de bits asigna más bits a una sub-banda que tiene una envoltura de energía más grande y asigna menos bits a una sub-banda que tiene una envoltura de energía más pequeña.
5. Un aparato de decodificación de habla/sonido, caracterizado porque comprende: una sección de descuantificación que descuantifica una envoltura espectral cuantificada; una sección de determinación de grupos que agrupa las envolturas espectrales cuantif icadas en una pluralidad de grupos; una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigna los bits asignados a la pluralidad de grupos a sub bandas en una base de grupo por grupo; una sección de decodificación que decodifica un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; una sección de configuración de envoltura que aplica la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproduce un espectro decodificado; y una sección de transformación inversa que transforma de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio temporal.
6 . El aparato de decodificación de habla/sonido de conformidad con la reivindicación 5, caracterizado porque comprende además una sección de identificación de bandas de frecuencia dominantes que identifica una banda de frecuencia dominante la cual es una sub-banda en la cual una envoltura de energía del espectro de frecuencia tiene un valor máximo local , en donde la sección de determinación de grupos determina la banda de frecuencia dominante y las sub-bandas en ambos lados de la banda de frecuencia dominante cada una que forma una pendiente descendiente de una envoltura de energía como grupos dominantes y determina sub-bandas continuas diferentes de la banda de frecuencia dominante como grupos no dominantes .
7. El aparato de decodificación de habla/sonido de conformidad con la reivindicación 5, caracterizado porque comprende además: una sección de cálculo de energía que calcula la energía específica para un grupo; y una sección de cálculo de distribución que calcula una envoltura de energía específica para un grupo, en donde la primera sección de asignación de bits asigna, con base en la energía calculada específica para un grupo y la distribución de envoltura de energía específica para un grupo, más bits a grupos cuando por lo menos una de la energía y la distribución de envoltura de energía es más grande y asigna menos bits a grupos cuando por lo menos una de la energía y la distribución de envoltura de energía es más pequeña.
8. El aparato de decodificación de habla/sonido de conformidad con la reivindicación 5, caracterizado porque la segunda sección de asignación de bits asigna más bits a sub-bandas que tienen una envoltura de energía más grande y asigna menos bits a sub-bandas que tienen una envoltura de energía más pequeña.
9. Un metodo de codificación de habla/sonido, caracterizado porque comprende: transformar una señal de entrada de un dominio temporal a un dominio de frecuencia; calcular una envoltura de energía que representa un nivel de energía para cada una de una pluralidad de sub-bandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; cuantificar las envolturas de energía; agrupar las envolturas de energía cuantificadas en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; y codificar el espectro de frecuencia utilizando bits asignados a las sub-bandas.
10. Un método de decodificación de habla/sonido, caracterizado porque comprende; descuantif icar una envoltura espectral cuantif icada; agrupar la envoltura espectral cuantificada en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; decodificar un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; aplicar la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproducir un espectro decodificado; y transformar de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio temporal.
MX2015006161A 2012-12-13 2013-11-26 Dispositivo de codificacion de sonido de voz, dispositivo de decodificacion de sonido de voz, metodo de codificacion de sonido de voz y metodo de decodificacion de sonido de voz. MX341885B (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012272571 2012-12-13
PCT/JP2013/006948 WO2014091694A1 (ja) 2012-12-13 2013-11-26 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Publications (2)

Publication Number Publication Date
MX2015006161A true MX2015006161A (es) 2015-08-07
MX341885B MX341885B (es) 2016-09-07

Family

ID=50934002

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2015006161A MX341885B (es) 2012-12-13 2013-11-26 Dispositivo de codificacion de sonido de voz, dispositivo de decodificacion de sonido de voz, metodo de codificacion de sonido de voz y metodo de decodificacion de sonido de voz.

Country Status (13)

Country Link
US (3) US9767815B2 (es)
EP (3) EP3232437B1 (es)
JP (3) JP6535466B2 (es)
KR (1) KR102200643B1 (es)
CN (2) CN104838443B (es)
BR (1) BR112015013233B8 (es)
ES (3) ES2706148T3 (es)
HK (1) HK1249651A1 (es)
MX (1) MX341885B (es)
PL (3) PL2933799T3 (es)
PT (2) PT2933799T (es)
RU (1) RU2643452C2 (es)
WO (1) WO2014091694A1 (es)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104838443B (zh) * 2012-12-13 2017-09-22 松下电器(美国)知识产权公司 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法
EP3066760B1 (en) * 2013-11-07 2020-01-15 Telefonaktiebolaget LM Ericsson (publ) Methods and devices for vector segmentation for coding
EP4407609A3 (en) * 2013-12-02 2024-08-21 Top Quality Telephony, Llc A computer-readable storage medium and a computer software product
CN106409303B (zh) * 2014-04-29 2019-09-20 华为技术有限公司 处理信号的方法及设备
JP6318904B2 (ja) * 2014-06-23 2018-05-09 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
PL3174050T3 (pl) 2014-07-25 2019-04-30 Fraunhofer Ges Forschung Urządzenie do kodowania sygnałów audio, urządzenie do dekodowania sygnałów audio i ich sposoby
KR102709737B1 (ko) * 2016-11-30 2024-09-26 삼성전자주식회사 오디오 신호를 전송하는 전자 장치 및 오디오 신호를 전송하는 전자 장치의 제어 방법
US10699721B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using difference data
KR20190069192A (ko) 2017-12-11 2019-06-19 한국전자통신연구원 오디오 신호의 채널 파라미터 예측 방법 및 장치
US10559315B2 (en) 2018-03-28 2020-02-11 Qualcomm Incorporated Extended-range coarse-fine quantization for audio coding
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US10762910B2 (en) 2018-06-01 2020-09-01 Qualcomm Incorporated Hierarchical fine quantization for audio coding
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
CN109286922B (zh) * 2018-09-27 2021-09-17 珠海市杰理科技股份有限公司 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备
KR20200142787A (ko) * 2019-06-13 2020-12-23 네이버 주식회사 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법
CN112037802B (zh) * 2020-05-08 2022-04-01 珠海市杰理科技股份有限公司 基于语音端点检测的音频编码方法及装置、设备、介质

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4899384A (en) 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US5893065A (en) * 1994-08-05 1999-04-06 Nippon Steel Corporation Apparatus for compressing audio data
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3189660B2 (ja) * 1996-01-30 2001-07-16 ソニー株式会社 信号符号化方法
US6246945B1 (en) * 1996-08-10 2001-06-12 Daimlerchrysler Ag Process and system for controlling the longitudinal dynamics of a motor vehicle
JPH10233692A (ja) * 1997-01-16 1998-09-02 Sony Corp オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法
KR100261254B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
EP0966109B1 (en) * 1998-06-15 2005-04-27 Matsushita Electric Industrial Co., Ltd. Audio coding method and audio coding apparatus
JP3466507B2 (ja) * 1998-06-15 2003-11-10 松下電器産業株式会社 音声符号化方式、音声符号化装置、及びデータ記録媒体
JP3434260B2 (ja) * 1999-03-23 2003-08-04 日本電信電話株式会社 オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体
US6246345B1 (en) 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
DK1175670T4 (da) * 1999-04-16 2007-11-19 Dolby Lab Licensing Corp Audiokodning ved hjælp af forstærkningsadaptiv kvantificering og symboler med uensartet længde
JP4242516B2 (ja) * 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
JP4548348B2 (ja) 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR101412255B1 (ko) * 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들의 방법
JP4973397B2 (ja) * 2007-09-04 2012-07-11 日本電気株式会社 符号化装置および符号化方法、ならびに復号化装置および復号化方法
CN101868821B (zh) * 2007-11-21 2015-09-23 Lg电子株式会社 用于处理信号的方法和装置
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
KR101301245B1 (ko) * 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
US8386266B2 (en) 2010-07-01 2013-02-26 Polycom, Inc. Full-band scalable audio codec
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
WO2011080916A1 (ja) 2009-12-28 2011-07-07 パナソニック株式会社 音声符号化装置および音声符号化方法
US20130030796A1 (en) 2010-01-14 2013-01-31 Panasonic Corporation Audio encoding apparatus and audio encoding method
US9236063B2 (en) * 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
JP5695074B2 (ja) 2010-10-18 2015-04-01 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声符号化装置および音声復号化装置
CN102741831B (zh) * 2010-11-12 2015-10-07 宝利通公司 多点环境中的可伸缩音频
EP2681734B1 (en) * 2011-03-04 2017-06-21 Telefonaktiebolaget LM Ericsson (publ) Post-quantization gain correction in audio coding
EP2701144B1 (en) * 2011-04-20 2016-07-27 Panasonic Intellectual Property Corporation of America Device and method for execution of huffman coding
US9536534B2 (en) * 2011-04-20 2017-01-03 Panasonic Intellectual Property Corporation Of America Speech/audio encoding apparatus, speech/audio decoding apparatus, and methods thereof
TWI606441B (zh) 2011-05-13 2017-11-21 三星電子股份有限公司 解碼裝置
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
WO2013061531A1 (ja) * 2011-10-28 2013-05-02 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
US9454972B2 (en) 2012-02-10 2016-09-27 Panasonic Intellectual Property Corporation Of America Audio and speech coding device, audio and speech decoding device, method for coding audio and speech, and method for decoding audio and speech
CN104838443B (zh) * 2012-12-13 2017-09-22 松下电器(美国)知识产权公司 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法
EP4407609A3 (en) * 2013-12-02 2024-08-21 Top Quality Telephony, Llc A computer-readable storage medium and a computer software product
JP6358500B2 (ja) 2014-06-06 2018-07-18 株式会社リコー クリーニングブレード、画像形成装置、及びプロセスカートリッジ

Also Published As

Publication number Publication date
ES2643746T3 (es) 2017-11-24
US10102865B2 (en) 2018-10-16
JP7010885B2 (ja) 2022-01-26
EP3457400C0 (en) 2023-08-16
US9767815B2 (en) 2017-09-19
ES2706148T3 (es) 2019-03-27
EP3232437B1 (en) 2018-11-21
US20170345431A1 (en) 2017-11-30
CN104838443B (zh) 2017-09-22
EP2933799B1 (en) 2017-07-12
JP2022050609A (ja) 2022-03-30
JP2019191594A (ja) 2019-10-31
RU2643452C2 (ru) 2018-02-01
CN107516531A (zh) 2017-12-26
EP3457400A1 (en) 2019-03-20
CN107516531B (zh) 2020-10-13
EP3457400B1 (en) 2023-08-16
PL3232437T3 (pl) 2019-05-31
PL3457400T3 (pl) 2024-02-19
KR102200643B1 (ko) 2021-01-08
RU2015121716A (ru) 2017-01-16
PL2933799T3 (pl) 2017-12-29
US20190027155A1 (en) 2019-01-24
BR112015013233B8 (pt) 2021-03-16
BR112015013233A2 (pt) 2017-07-11
JP6535466B2 (ja) 2019-06-26
PT3232437T (pt) 2019-01-11
CN104838443A (zh) 2015-08-12
HK1249651A1 (zh) 2018-11-02
JPWO2014091694A1 (ja) 2017-01-05
ES2970676T3 (es) 2024-05-30
EP3232437A1 (en) 2017-10-18
US10685660B2 (en) 2020-06-16
MX341885B (es) 2016-09-07
BR112015013233B1 (pt) 2021-02-23
KR20150095702A (ko) 2015-08-21
PT2933799T (pt) 2017-09-05
US20150317991A1 (en) 2015-11-05
EP2933799A1 (en) 2015-10-21
WO2014091694A1 (ja) 2014-06-19
EP2933799A4 (en) 2016-01-13

Similar Documents

Publication Publication Date Title
US10685660B2 (en) Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
EP3594943A1 (en) Device and method for execution of huffman coding
EP3525206B1 (en) Encoding method and apparatus
US20200365164A1 (en) Adaptive Gain-Shape Rate Sharing
MX2014011605A (es) Metodos y dispositivos de codificacion y descodificacion de señal.
CN111710342A (zh) 编码装置、解码装置、编码方法、解码方法及程序

Legal Events

Date Code Title Description
FG Grant or registration