MXPA05002290A - Control de la sonoridad de la voz en senales que contienen voz y otros tipos de material de audio. - Google Patents

Control de la sonoridad de la voz en senales que contienen voz y otros tipos de material de audio.

Info

Publication number
MXPA05002290A
MXPA05002290A MXPA05002290A MXPA05002290A MXPA05002290A MX PA05002290 A MXPA05002290 A MX PA05002290A MX PA05002290 A MXPA05002290 A MX PA05002290A MX PA05002290 A MXPA05002290 A MX PA05002290A MX PA05002290 A MXPA05002290 A MX PA05002290A
Authority
MX
Mexico
Prior art keywords
loudness
segments
voice
audio signal
audio
Prior art date
Application number
MXPA05002290A
Other languages
English (en)
Inventor
Jeffrey Charles Riedmiller
Original Assignee
Dolby Lab Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Lab Licensing Corp filed Critical Dolby Lab Licensing Corp
Publication of MXPA05002290A publication Critical patent/MXPA05002290A/es

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Una indicacion de la sonoridad de una senal de audio que contiene voz y otros tipos de material de audio, se obtiene clasificando segmentos de informacion de audio, ya sea como voz se estima y este estimado se usa para derivar la indicacion de la sonoridad. La indicacion de la sonoridad puede ser usada para controlar niveles de la senal de audio, de manera tal que se reduzcan las variaciones en la sonoridad de la voz entre diferentes programas. Se describe un metodo de la voz entre diferentes programas. Se describe un metodo preferido para clasificar segmentos de voz.

Description

CONTROL DE LA SONORIDAD DE LA VOZ EN SEÑALES QUE CONTIENEN VOZ Y OTROS TIPOS DE MATERIAL DE AUDIO CAMPO DE LA INVENCIÓN La presente invención se refiere a sistemas de audio y a métodos relacionados con la medición y control de la sonoridad de la voz en señales de audio que contienen voz y otros tipos de material de audio.
ANTECEDENTES DE LA INVENCIÓN Mientras se escuchan transmisiones de radio o televisión, los escuchas frecuentemente eligen un ajuste del control de volumen para obtener una sonoridad satisfactoria de la voz. El ajuste del control de volumen deseado es influenciado por cierto número de factores tales como el ruido ambiental en el ambiente de audición, la respuesta en la frecuencia del sistema reproductor, y preferencia personal. Después de elegir el ajuste del control de volumen, el escucha generalmente desea que la sonoridad de la voz permanezca relativamente constante a pesar de la presencia o ausencia de otros materiales existentes en el programa, tales como música o efectos de sonido . Cuando el programa cambia o cuando se selecciona un canal diferente, la sonoridad de la voz en el nuevo programa es a menudo diferente, lo cual requiere de cambiar el ajuste del control de volumen para restablecer la sonoridad deseada. Usualmente se necesita únicamente un modesto cambio en el ajuste, si es que se necesita algún cambio, para ajustar la sonoridad de la voz en programas que son transmitidos mediante técnicas de transmisión analógica, porque la mayoría de las difusoras analógicas transmiten programas con voz que se encuentra cerca del máximo nivel permitido que puede ser portado por el sistema de transmisión analógica. Esto se realiza generalmente comprimiendo la gama dinámica del material del programa de audio para elevar el nivel de la señal de voz con relación al ruido introducido por varios componentes en el sistema de transmisión. No obstante existen aún diferencias no deseables en la sonoridad de la voz para programas recibidos en diferentes canales y para diferentes tipos de programas recibidos en el mismo canal, tales como mensajes publicitarios o "comerciales" y los programas interrumpidos por estos. La introducción de las técnicas de transmisión digital agravará probablemente este problema debido a que las difusoras digitales pueden enviar señales con un nivel de señal de ruido adecuado, sin comprimir la gama dinámica y sin ajustar el nivel de la voz cerca del nivel máximo permitido. Como un resultado es muy probable que existan diferencias mucho mayores en la sonoridad de la voz entre diferentes programas en el mismo canal y entre programas de diferentes canales. Por ejemplo, se ha observado que la diferencia en el nivel de la voz entre programas recibidos desde canales de televisión analógicos y digitales, a veces excede los 20 dB. Una forma en la cual esta diferencia en la sonoridad puede ser reducida es que codos las difusoras ¦digitales fijen el nivel de la voz a una sonoridad estandarizada que se encuentre muy por debajo del nivel máximo, lo cual permitiría suficiente espacio libre para material con amplia gama dinámica, a fin de evitar la necesidad de la compresión o limitación.
Desafortunadamente, esta solución requeriría de un cambio en la práctica común de las transmisiones, lo cual es improbable que suceda. Otra solución es proporcionada por la técnica de codificación de audio AC-3 adoptada para la transmisión de la televisión digital en los Estados Unidos de Norteamérica. Una transmisión digital que cumpla con el estándar AC-3 conduce metadatos junto con datos de audio codificados. Los metadatos incluyen información de control conocida como "norma de marcado" que puede ser usada para ajustar el nivel de la señal en el receptor, a fin de proporcionar una sonoridad de la voz uniforme o normalizada. En otras palabras, la información de la norma de marcado permite que un receptor realice automáticamente lo que haría el escucha, ajustando el volumen apropiadamente para cada programa o canal . El escucha regula el ajuste del control de volumen para lograr un nivel deseado de la sonoridad de la voz, para un programa particular y el receptor usa la información de la norma de marcado para asegurar que se mantenga el nivel deseado a pesar de las diferencias que de otra manera existirían entre diferentes programas o canales. Información adicional que describe el uso de la información de la norma de marcado puede ser obtenida del documento del Comité de Sistema de Televisión Avanzada (ATSC) ?/52?, titulado "Revisión A para un Estándar de Compresión de Audio Digital (AC-3)" publicado el 20 de Agosto del 2001, y del documento A/54 de la ATSC titulado "Guia para el Uso del Estándar de Televisión Digital ATSC" publicado el 4 de Octubre de 1995. El valor apropiado de la norma de marcación debe estar disponible para la parte del sistema de codificación que genera la señal codificada que cumpla con el estándar AC-3. El proceso de codificación necesita una forma de medir o evaluar la sonoridad de la .voz en un programa particular para determinar el valor de la norma de marcado que puede ser usada para mantener la sonoridad de la voz en el programa que sale del receptor.
La sonoridad de la voz puede ser estimada en cierta variedad de formas. El estándar IEC 60804 (2000-10) titulado medidores del nivel de sonido con promediado de integración" publicado por la Comisión Electrotécnica Internacional (IEC) describe una medición basada en niveles de la presión acústica con ponderación de la frecuencia y promediado en el tiempo. El estándar ISO 532:1975 titulado "Método para calcular el nivel de la sonoridad" publicado por la Organización Internacional para Estandarización describe métodos que obtienen una medida de la sonoridad a partir de una combinación de niveles de potencia calculados para subbandas de frecuencia. Ejemplos de modelos psicoacústicos que pueden ser usados para estimar la sonoridad se describen en Moore, Glasberg and Baer, "A model for the prediction of thresholds, loudness and partial loudness", J. Audio Eng. Soc . , vol . 45, no. 4, Abril de 1997, y en Glasberg and Moore, "A model of loudness applicable to time-varying sounds," J. Audio Eng. Soc, vol. no. 5, Mayo del 2002. Desafortunadamente, ' no existe forma conveniente de aplicar esta y otras técnicas conocidas. En las aplicaciones de transmisiones, por ejemplo, el transmisor está ' obligado a seleccionar un intervalo de material de audio, medir o estimar la sonoridad de la voz en el intervalo seleccionado, y transferir la medición al equipo que inserta la información de la norma de marcado en el flujo de datos digitales que cumpla con el AC-3. El intervalo seleccionado deberá contener voz representativa pero no deberá contener otros tipos de material de audio que distorsionarían la medición de la sonoridad. Generalmente no es aceptable medir la sonoridad total de un programa de audio porque el programa incluye otros componentes que son deliberadamente más intensos o menos intensos que la voz. A menudo es deseable que las partes más intensas de música y efectos de sonido sean significativamente menos intensas que el nivel de voz preferido. También es evidente que es poco deseable que los efectos de sonido de fondo, tales como el viento, tráfico a distancia, o el susurro de agua que fluye, tengan la misma sonoridad que la voz . Los inventores han reconocido que una técnica para determinar si una señal de audio contiene o no voz, puede ser usada en un proceso mejorado para establecer un valor apropiado para la información de la norma de marcado. Se puede usar cualquiera de una variedad de técnicas para la detección de voz . Unas cuantas técnicas se describen en referencias citadas posteriormente . La patente de los Estados Unidos de Norteamérica 4,281,218, expedida el 28 de Julio de 1981, describe una técnica que clasifica una señal ya sea como voz o como no voz, extrayendo una o más características de la señal, tales como la potencia a corto plazo. La clasificación se usa para seleccionar la metodología de procesamiento de señales apropiada, para señales de voz y para señales que no sean voz . La patente de los Estados Unidos de Norteamérica 5,097,510, expedida el 17 de Marzo de 1992, describe una técnica que analiza variaciones en la envolvente de la amplitud de la señal de entrada. Las variaciones de cambios rápidos son consideradas voz y son filtradas de la señal. El residual se clasifica en una de cuatro clases de ruido y la clasificación se usa para seleccionar un tipo diferente de filtración para reducción de ruido, para la señal de entrada. La patente de los Estados Unidos de Norteamérica 5,457,769, expedida el 10 de Octubre de 1995, describe una técnica para detectar voz a fin de operar un interruptor accionado por la voz . La voz es detectada por señales de identificación que tienen frecuencias componentes separadas unas de otras por aproximadamente 150 Hz. Esta condición indica que es probable que la señal conduzca formantes de voz. La publicación de la solicitud de patente europea EP 0 737 011, publicada para ser concedida el 14 de Octubre de 1999, la patente de los Estados Unidos de Norteamérica 5,878,391, expedida el 2 de Marzo de 1999, describe una técnica que genera una señal que representa una probabilidad de que una señal de audio sea una señal de voz. La probabilidad se deriva extrayendo una o más características de la señal, tales como cambios en las relaciones de potencia entre diferentes porciones del espectro. Estas referencias indican que la conflabilidad de la probabilidad derivada puede ser mejorada si se usa un gran número de características para la derivación. La patente de los Estados Unidos de Norteamérica 6,061,647, expedida el 9 de Mayo del 2000, describe una técnica para detectar voz almacenando un modelo de ruido sin voz, comparando una señal de entrada con el modelo, a fin de decidir si se encuentra o no presente una voz, y usando un detector auxiliar para decidir cuándo se puede usar la señal de entrada para actualizar el modelo de ruido. La publicación de solicitud de patente internacional WO 98/27543, publicada el 25 de Junio de 1998, describe una técnica que discierne la voz de música, extrayendo un conjunto de características de una señal de entrada y usando una de varias técnicas de clasificación para cada característica. El mejor conjunto de características y la técnica de clasificación apropiada a fin de ser usada para cada característica, es determinada empíricamente . Las técnicas descritas en estas referencias y todas las otras técnicas de detección de voz, conocidas, intentan detectar la voz o clasificar las señales de audio a fin de que la voz pueda ser procesada o manipulada mediante un método que difiere del método usado para procesar o manipular señales que no sean de voz. La patente de los Estados Unidos de Norteamérica 5,819,247, expedida el 6 de Octubre de 1998, describe una técnica para construir 'una hipótesis para ser utilizada en dispositivos de clasificación tales como dispositivos de reconocimiento óptico de caracteres. A partir de los ejemplos se construyen hipótesis débiles y luego se evalúan. Un proceso iterativo construye hipótesis más fuertes para las hipótesis más débiles. La detección de la voz no es mencionada pero los inventores han reconocido que esta técnica puede ser usada para mejorar técnicas conocidas para la detección de voz .
DESCRIPCIÓN DE LA INVENCIÓN Un. objeto de la presente invención es proporcionar un control de la sonoridad de la voz en señales que contengan voz y otros tipos de material de audio . De conformidad con la presente invención, una señal es procesada recibiendo una señal de entrada y obteniendo información de audio a partir de la señal de entrada, que represente un intervalo de una señal de audio, examinar la información de audio para clasificar segmentos de la información de audio' que puedan ser segmentos ya sea de voz o segmentos que no sean voz, examinar la información de audio para obtener una sonoridad estimada de los segmentos de voz, y proporcionar una indicación de la sonoridad del intervalo de la señal de audio, generando una información de control que sea más sensible a la sonoridad estimada de los segmentos de voz, que a la sonoridad de las porciones de la señal de audio representadas por los segmentos que no son de voz . La indicación de la sonoridad puede ser usada para controlar la sonoridad de la señal de audio para reducir variaciones en la sonoridad de los segmentos de voz . La sonoridad de las porciones de señal de audio representadas por segmentos que no son de voz, es incrementada cuando se incrementa la sonoridad de las porciones de la señal de audio representadas por los segmentos de voz . Las diferentes características de la presente invención y sus modalidades preferidas pueden ser comprendidas de mejor manera haciendo referencia al siguiente análisis y a los dibujos acompañantes en los que los números de referencia similares se refieren a elementos similares en las diferentes figuras. El contenido del siguiente análisis y los dibujos se presentan como ejemplos únicamente y no deberá entenderse que representen limitaciones del alcance de la presente invención.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La figura 1 es un diagrama de bloques esquemático, de un sistema de audio que puede incorporar varios aspectos de la presente invención. La figura 2 es un diagrama de bloques esquemático, de un aparato que puede ser usado para controlar la sonoridad de una señal de audio que contenga voz y otros tipos de material de audio. La figura 3 es un diagrama de bloques esquemático, de un aparato que puede ser usado para generar y transmitir información de audio que represente una señal de audio e información de control que represente la sonoridad de la voz. La figura 4 es un diagrama de bloques esquemático, de un aparato que puede ser usado para proporcionar una indicación de la sonoridad para la voz, en una señal de audio que contenga voz y otros tipos de material de audio. La figura 5 es un diagrama de bloques esquemático, de un aparato que puede ser usado para clasificar segmentos de información de audio. La figura 6 es un diagrama de bloques esquemático, de un aparato que puede ser usado para implementar varios aspectos de la presente invención.
MODOS PARA LLEVAR A CABO LA INVENCIÓN A. Revisión General del Sistema La figura 1 es un diagrama de bloques esquemático, de un sistema de audio en el que el transmisor 2 recibe una señal de audio proveniente de la ruta 1, procesa la señal de audio para generar información de audio que represente la señal de audio, y transmite la información de audio a lo largo de la ruta 3. La ruta 3 puede representar una ruta de comunicación que conduzca la información de audio para uso inmediato, o puede representar una ruta de señales acoplada a un medio de almacenamiento que almacene la información de audio para la recuperación y uso subsecuentes . El receptor 4 recibe la información de audio desde la ruta 3 , procesa la información de audio para generar una señal de audio, y transmite la señal de audio a lo largo de la ruta 5 para la presentación a un escucha. El sistema mostrado en la figura 1 incluye un transmisor y receptor individuales; sin embargo, la presente invención puede ser usada en sistemas que incluyan múltiples transmisores y/o múltiples receptores. Varios aspectos de la presente invención pueden ser implementados únicamente en el transmisor 2, únicamente en el receptor 4, o tanto en el transmisor 2 como en el receptor 4. En una implementación el transmisor 2 realiza el procesamiento que codifica la señal de audio en información de audio codificada que tiene menores requerimientos de capacidad de información que la señal de audio, a fin de que la información de audio pueda ser transmitida por canales que tengan un menor ancho de banda o que sea almacenada por medios que tengan menos espacio. El descodificador 4 realiza el procesamiento que descodifica la información de audio codificada en una forma que puede ser usada para generar una señal de audio que preferentemente es perceptualmente similar o idéntica a la señal de audio de entrada. Por ejemplo, el transmisor 2 y el receptor 4 pueden codificar y descodificar flujos de bitios digitales que cumplan con el estándar de codificación AC-3 o con cualesquiera de varios estándares publicados por el grupo de Expertos en Imágenes en Movimiento (MPEG) . La presente invención puede ser aplicada venta osamente en sistemas que apliquen procesos de codificación y descodificación; sin embargo, estos procesos no se requieren para la práctica de la presente invención.
Aunque la presente invención puede ser implementada mediante técnicas de procesamiento de señales analógicas, la implementación mediante técnicas de procesamiento de señales digitales es usualmente más conveniente. Los siguientes ejemplos se refieren más particularmente al procesamiento de señales digitales.
B. Sonoridad de la Voz La presente invención se enfoca al control de la sonoridad de la voz en señales que contengan voz y otros tipos de material de audio. Los datos que se encuentran en las tablas I y III representan niveles de sonido para varios tipos de material de audio en diferentes programas . La tabla I incluye información para la sonoridad relativa de la voz en tres programas, tales como aquellos que pueden ser transmitidos a receptores de televisión. En el noticiario 1, dos personas se encuentran hablando a niveles diferentes. En el noticiario 2, una persona se encuentra hablando en un nivel bajo en un sitio con otros sonidos que ocasionalmente son más altos que la voz. La música se encuentra a veces presente a un nivel bajo. En un comercial, una persona se encuentra hablando a un nivel muy alto y la música se encuentra ocasionalmente aún más alta.
Tabla I La presente invención permite que un sistema de audio controle automáticamente la sonoridad del material de audio en los tres programas, de manera tal que las variaciones en la sonoridad de la voz sean reducidas automáticamente. La sonoridad del material de audio en la transmisión de noticias 1 puede ser controlada también de manera tal que las diferencias entre los niveles de las dos voces se reduzcan. Por ejemplo, si el nivel deseado para toda la voz es de -24 dB, entonces la sonoridad del material de audio mostrado en la tabla I podría ser ajustado a niveles como los que se muestran en la tabla II.
Tabla II Noticiario 1 Noticiario 2 Comercial (+13 dB) (-4 dB) Voz 1 -24 dB Otros Sonidos -20 dB Música -21 dB Voz 2 (+3 dB) -24 dB Voz -24 dB Voz -24 dB Música -25 dB 6 La tabla III incluye información de la sonoridad relativa de diferentes sonidos en tres escenas diferentes de una o más imágenes en movimiento. En la escena 1, la gente está hablando sobre la cubierta de un barco. Los sonidos de fondo incluyen el choque de las olas y una sirena de niebla a distancia, a niveles significativamente por debajo del nivel de la voz. La escena incluye también un sonido de la bocina del barco, la cual es substancialmente más alta que la voz. En la escena 2, la gente se encuéntra susurrando y en el fondo se escucha el tictac de un reloj . Las voces en la escena no son tan altas como la voz normal y la sonoridad del tictac del reloj es inclusive más baja. En la escena 3, personas se encuentran gritando cerca de una máquina que está produciendo un sonido inclusive más alto. Los gritos son más altos que la voz normal.
Tabla III Escena 1 Escena 2 Escena 3 Silbato del -12 dB Máquina -18 dB Barco Voz Normal -27 dB Susurros -37 dB Gritos -20 dB Bocina -33 dB Tictac del -43 dB Distante Reloj Olas -40 dB La presente invención permite que un sistema de audio controle automáticamente la sonoridad del material de audio en las tres escenas, de manera tal que se reduzcan las variaciones en la sonoridad de la voz. Por ejemplo, la sonoridad del material de audio podría ser ajustada de manera tal que la sonoridad de la voz en todas las escenas sea la misma o esencialmente la misma. Alternativamente, la sonoridad del material de audio puede ser ajustada a fin de que la sonoridad de la voz se encuentre dentro de un intervalo especificado. Por ejemplo, si el intervalo especificado de la sonoridad de la voz es de -24 dB a -30 dB, los niveles del material de audio mostrados en la tabla III podrían ser ajustados a los niveles mostrados en la tabla IV.
Tabla IV Escena I Escena 2 Escena 3 (sin cambios) (+7 dB) (-4 dB) Silbato del -12 dB Máquina -22 dB barco Voz Normal -27 dB Susurros -30 dB Gritos -24 dB Bocina -33 dB Tictac del -36 dB Distante Reloj Olas -40 dB En otra implementación el nivel de la señal de audio es controlado de manera tal que cierto promedio de la sonoridad estimada se mantenga al nivel deseado. El promedio puede ser obtenido para un intervalo especificado tal como de diez minutos, o para toda o cierta porción especificada de un programa. Haciendo referencia nuevamente a la información de la sonoridad mostrada en la tabla III, supóngase que las tres escenas se encuentran en la misma imagen en movimiento, una sonoridad promedio de la voz para toda la imagen en movimiento se estima con un valor de -25 dB, y la sonoridad deseada de la voz es de —27 dB. Los niveles de la señal para las tres escenas son controlados de manera tal que la sonoridad estimada de cada escena sea modificada como se muestra en la tabla V. En esta implementación, la variación de la sonoridad de la voz dentro del programa o imagen en movimiento, son conservadas, pero las variaciones con la sonoridad promedio de la voz en otros programas o imágenes en movimiento, se reducen. En otras palabras, las variaciones en la sonoridad de la voz entre programas o porciones de programas pueden lograrse sin requerir de una compresión del rango dinámico dentro de esos programas o porciones de programas.
Tabla V La compresión de la gama dinámica puede ser también deseable, sin embargo esta característica es opcional y puede ser proporcionada cuando se desee .
C. Control de la Sonoridad de la Voz La presente invención se puede llevar a cabo mediante un proceso autónomo ejecutado ya sea en un transmisor o en un receptor, o mediante procesos cooperativos ejecutados en forma conjunta en un transmisor y receptor. 1. Proceso Autónomo La figura 2 es un diagrama de bloques esquemático de un' aparato que puede ser usado para implementar un proceso autónomo en un receptor o en un transmisor. El aparato recibe desde la ruta 11 información de audio que representa un intervalo de una señal de audio. El clasificador 12 examina la información de audio y clasifica segmentos de la información de audio como "segmentos de voz" que representan porciones de la señal de audio que son clasificadas como voz, o como "segmentos que no son de voz" que representan porciones de la señal de audio que no son clasificadas como voz. El clasificador 12 puede clasificar también los segmentos que no son voz, en cierto número de clasificaciones. Técnicas que pueden ser usadas para clasificar segmentos de información de audio se mencionaron anteriormente. Una técnica preferida se describe a continuación. Cada porción de la señal de audio que es representada por un segmento de información de audio tiene una sonoridad respectiva. El estimador de sonoridad 14 examina los segmentos de voz y obtiene un estimado de esta sonoridad para los segmentos de voz. Una indicación de la sonoridad estimada se pasa a lo largo de la ruta 15. En una implementación alternativa, el estimador de la sonoridad 14 examina también al menos algunos de los segmentos que no son voz y obtiene una sonoridad estimada para estos segmentos. Algunas formas en las cuales puede estimarse la sonoridad' se mencionaron anteriormente. El controlador 16 recibe la indicación de sonoridad proveniente de la ruta 15, recibe la información de audio de la ruta 11, y modifica la información de audio según sea necesario a fin de reducir variaciones en la sonoridad de las porciones de la señal de audio representadas por segmentos de voz. Si el controlador 16 incrementa la sonoridad de los segmentos de voz, entonces incrementará también la sonoridad de los segmentos que no son de voz, incluyendo aquellos que son aún más altos que los segmentos de voz. La información de audio modificada se hace pasar a lo largo de la ruta 17 para su procesamiento subsecuente. En un transmisor, por ejemplo, la información de audio modificada puede ser codificada o preparada de alguna otra manera para la transmisión o almacenamiento. En un receptor, la información de audio modificada puede ser procesada para la presentación a un escucha. El clasificador 12, el estimador de sonoridad 14 y el controlador 16 se encuentran dispuestos en una manera tal que la sonoridad estimada de los segmentos de voz sea usada para controlar la sonoridad de los segmentos que no son de voz, asi como de los segmentos de voz. Esto puede realizarse en cierta variedad de formas. En una implementación, el estimador de sonoridad 14 proporciona una sonoridad estimada para cada segmento de voz. El controlador 16. usa la sonoridad estimada para realizar cualquier ajuste necesario a la sonoridad del segmento de voz, para el cual se estimó la sonoridad, y usa este mismo estimado para realizar cualquier ajuste necesario a la sonoridad de los segmentos subsecuentes que no sean de voz, hasta que se reciba un nuevo estimado para el próximo segmento de voz. Esta implementación es apropiada cuando los niveles de las señales deben ser ajustados en tiempo real para señales de audio que no puedan ser examinadas por adelantado. En otra implementación que puede ser más conveniente cuando una señal de audio pueda ser examinada por adelantado, una sonoridad promedio para los segmentos de voz en toda la porción o en una porción grande de un programa, es estimada y ese estimado se usa para realizar cualquier ajuste necesario a la señal de audio. Todavía en otra implementación, el nivel estimado se adapta en respuesta a una o más características de la voz y de los segmentos que no son de voz, de la información de audio, la cual puede ser proporcionada por el clasificador 12 a través de la ruta mostrada mediante una línea discontinua. En una implementación preferida, el controlador 16 recibe también una indicación de sonoridad o energía de la señal, para todos los segmentos y realiza ajustes en la sonoridad únicamente en segmentos que tengan una sonoridad o nivel de energía por debajo de cierto umbral. Alternativamente, el clasificador 12 o el estimador de sonoridad 14 puede proporcionar al controlador 16 una indicación de los segmentos dentro de los cuales puede realizarse un ajuste a la sonoridad. 2. Proceso Cooperativo La figura 3 es un diagrama de bloques esquemático de un aparato que puede ser usado para implementar parte de un proceso cooperativo en un transmisor. El transmisor recibe de la ruta 11 información de audio que representa un intervalo de una señal de audio. El clasificador 12 y el estimador de sonoridad 14 funciona substancialmente igual que como se describió anteriormente. Una indicación de la sonoridad estimada proporcionada por el estimador de sonoridad 14 se pasa a lo largo de la ruta 15. En la implementación mostrada en la figura, el codificador 18 genera a lo largo de la ruta 19 una representación codificada de la información de audio recibida desde la ruta 11. El codificador 18 puede aplicar esencialmente cualquier tipo de codificación que pueda desearse, incluyendo la conocida como codificación perceptual . Por ejemplo, el aparato ilustrado en la figura 3 puede ser incorporado en un codificador de audio para proporcionar información de la norma de marcado para el ensamble en un flujo de datos que cumpla con el estándar AC-3. El codificador 18 no es esencial para la presente invención. En una implementación alternativa que omite el codificador 18, la información de audio, tal cual, se pasa a lo largo de la ruta 19. El formateador 20 ensambla la representación de la información de audio recibida desde la ruta 19 y la indicación de la sonoridad estimada recibida desde la ruta 15 hacia una señal de salida, la cual se pasa a lo largo de la ruta 21 para la transmisión o almacenamiento . En un receptor complementario que no se muestra en ninguna de las figuras, la señal generada a lo largo de la ruta 21 es recibida y procesada para extraer la representación de la información de audio y la indicación de la sonoridad estimada. La indicación de la sonoridad estimada se usa para controlar los niveles de señal de una • señal de audio que sea generada a partir de la representación de la información de audio. 3. Medidor de la Sonoridad La figura 4 es un diagrama de bloques esquemático, de un aparato que puede ser usado para proporcionar una indicación de la sonoridad de la voz, para la voz en una señal de audio que contenga voz y otros tipos de material de audio. El aparato recibe desde la ruta 11 información de audio que representa un intervalo de una señal de audio.' El clasificador 12 y el estimador de sonoridad 14 funcionan substancialmente igual que como se describió anteriormente. Una indicación de la sonoridad estimada, proporcionada por el estimador de sonoridad 14, se pasa a lo largo de la ruta 15. Esta indicación puede ser exhibida en cualquier forma deseada, o puede ser proporcionada a otro dispositivo para el procesamiento subsecuente .
D. Clasificación de Segmentos La presente invención puede usar esencialmente cualquier técnica que pueda clasificar segmentos de información de audio en dos o más clasificaciones, incluyendo una clasificación de la voz. Anteriormente se mencionaron varios ejemplos de técnicas de clasificación apropiadas. En una implementación preferida, los segmentos de información de audio se clasifican usando alguna forma de la técnica que se describe posteriormente. La figura 5 es un diagrama de bloques esquemático, de un aparato que puede ser usado para clasificar segmentos de información de audio de conformidad con la técnica de clasificación preferida. El convertidor de velocidades de muestras recibe muestras digitales de información de audio provenientes de la ruta 11 y vuelve a muestrear la información de audio según sea necesario para obtener muestras digitales a una velocidad especificada. En la irnplementación descrita posteriormente, la velocidad especificada es de 16 k muestras por segundo. La conversión de la velocidad de muestras no se requiere para llevar a la práctica la presente invención; sin embargo usualmente se desea convertir la velocidad de muestras de información de audio cuando la velocidad de muestras de entrada es mayor que la que se necesita para clasificar la información de audio y una velocidad de muestras menor permite que el proceso de clasificación se lleve a cabo en forma más eficiente. Además, la implement ci n de los componentes que extraen las características puede ser simplificada usualmente si cada componente es diseñado para que funcione únicamente con una velocidad de muestras. En la implementación mostrada, tres peculiaridades o características de la información de audio son extraídas por los componentes de extracción 31, 32 y 33. En implementaciones alternativas, se pueden extraer tan pocas características como una sola característica o pueden ser tantas características como las que puedan ser manejadas por los recursos de procesamiento disponibles. El detector de voz 35 recibe las características extraídas y las usa para determinar si un segmento de información de audio deberá ser clasificado como voz. La extracción de características y la detección de voz se analizan posteriormente . 1. Características En la implementación particular mostrada en la figura 5, se muestran componentes que extraen únicamente tres características de la información de audio por conveniencia ilustrativa. En una implementación preferida, no obstante, la clasificación de segmentos se basa en siete características que se describen posteriormente. Cada componente de extracción extrae una característica de la información de audio, realizando cálculos en bloques de muestras dispuestos en cuadros. El tamaño del bloque y el número de bloques por cuadro que se usan para cada una de las siete características específicas, se presentan en la tabla VI.
Tabla VI Características Tamaño del Longitud Bloques bloque del por (muestras ) Bloque cuadro (ms) Norma 12 al cuadrado 1024 64 32 promedio del flujo espectral ponderado Sesgo de la línea de 512 32 64 regresión del mejor ajuste de la densidad de la potencia espectral estimada Tabla VI (Continuación) En esta implementación cada cuadro es de 32,768 muestras o aproximadamente 2.057 segundos de longitud. Cada una de las siete características que se presentan en la tabla se describe posteriormente. En toda la descripción siguiente el número de muestras en un bloque es denotado por el símbolo N y el número de bloques es denotado por el símbolo M. a) Norma I2 al cuadrado promedio del flujo espectral ponderado La norma 12 al cuadrado promedio, del flujo espectral ponderado, explota el hecho de que la voz normalmente tiene un espectro que varía rápidamente. Las señales de la voz usualmente tienen una de dos formas: Una señal tipo tono a la que se hace referencia como voz sonorizada, o una señal tipo ruido a la que se hace referencia como una voz no sonorizada. Una transición entre estas dos formas causa cambios abruptos en el espectro. Además, durante períodos de la voz sonorizada, la mayoría de los hablantes alteran el tono por énfasis, para la estilización lingual, o porque esos cambios son una parte natural de lenguaje. Las señales que no son de voz, tales como la música, pueden tener también rápidos cambios espectrales pero estos cambios son usualmente menos frecuentes. Los segmentos vocales uniformes de la música tienen cambios menos frecuentes porque un cantante cantará usualmente a la misma frecuencia por cierto período de tiempo apreciable. El primer paso en un proceso que calcula la norma 12 al cuadrado promedio, del flujo espectral ponderado, aplica una transformación tal como la Transformación de Fourier Discreta (DFT) a un bloque de muestras de información de audio y obtiene la magnitud de los coeficientes de transformación resultantes. Preferentemente, el bloque de muestras es ponderado por una función ventana w[n] , tal como una función ventana de Hamming, antes de la aplicación de la transformación. La magnitud de los coeficientes de la DFT puede ser calculada tal como se muestra en la siguiente ecuación. en donde N = el número de muestras en un bloque; x[n] = número de muestras n en el bloque m; y Xrntk] = coeficiente de transformación k para las muestras en el bloque m. El próximo paso calcula una ponderación W para el bloque actual a partir de la potencia promedio de los bloques actuales y previos. Usando el teorema de Parseval, se puede calcular la potencia promedio a partir de los coeficientes de transformación, tal como se muestra en la siguiente ecuación, si las muestras x[n] tienen valores reales en vez que valores complejos o imaginarios. en donde Wm - la ponderación para el bloque m actual . El próximo paso eleva al cuadrado la magnitud de la diferencia entre los componentes espectrales de los bloques actuales y previos, y divide el resultado entre la ponderación del bloque Wm del bloque actual, el cual se calcula de acuerdo con la ecuación 2, para producir un flujo espectral ponderado. La norma 12 o la distancia Euclidiana se calculan después. Los cálculos del flujo espectral ponderado y de la norma 12 se presentan en la siguiente ecuación. en donde ||lm|| = norma 12 del flujo espectral ponderado para el bloque m. La característica para un cuadro de bloques se obtiene calculando la suma de las normas 12 elevadas al cuadrado, para cada uno de los bloques en el cuadro. Esta sumatoria se presenta en la siguiente ecuación. en donde M = el número de bloques en un cuadro; y F ( t) = la característica para la norma 12 al cuadrado promedio, del flujo espectral ponderado para el cuadro t. b) Sesgo de la línea de regresión del mejor ajuste de la densidad de potencia espectral estimada El gradiente o pendiente de la línea de regresión del mejor ajuste de la densidad de la potencia espectral logarítmica proporciona un estimado de la inclinación espectral o del énfasis espectral de una señal. Si una señal enfatiza frecuencias menores, una línea que se aproxima a la forma espectral de la señal se inclina hacia abajo y hacia las frecuencias mayores, y la pendiente de la línea es negativa. Si una señal enfatiza las frecuencias mayores, una línea que se aproxime a la forma espectral de la señal se inclina hacia arriba y hacia las frecuencias mayores y la pendiente de la línea es positiva. La voz enfatiza frecuencias menores durante intervalos de voz sonorizada y enfatiza frecuencias mayores durante intervalos de voz no sonorizada. La pendiente de una línea que se aproxime a la forma espectral de la voz sonorizada, es negativa, y la pendiente de una línea que se aproxime a la forma espectral de la voz no sonorizada, es positiva. Debido a que la voz es predominantemente sonorizada en vez que no sonorizada, la pendiente de una línea que se aproxime a la forma espectral de la voz deberá ser negativa la mayor parte del tiempo, pero cambia rápidamente entre pendientes positivas y negativas. Como un resultado, la distribución de la pendiente o gradiente de la línea deberá ser sesgada fuertemente hacia valores negativos. Para la música y otros tipos de material de audio, la distribución de la pendiente es más simétrica.
Una línea que se aproxime a la forma espectral de una señal puede ser obtenida calculando una linea de regresión del mejor ajuste en la densidad de potencia espectral logarítmica estimada de la señal. La densidad de potencia espectral de la señal puede ser obtenida calculando el cuadrado de los coeficientes de transformación, usando una transformación tal como la que se mostró anteriormente en la ecuación 1. El cálculo para la densidad de potencia espectral se presenta en la siguiente ecuación. N !?xmN+n)¦wn)·e para ·0 <k <: (5) La densidad espectral de potencia calculada en la ecuación 5 se convierte después al dominio logarítmico tal como se muestra en la siguiente ecuación. (6) El gradiente de la línea de regresión del mejor ajuste se calcula después, tal como se muestra en la siguiente ecuación, la cual se deriva a partir del método de mínimos cuadrados . en donde Gm = el coeficiente de regresión para el bloque La característica para el cuadro t es el estimado del sesgo en el cuadro, tal como se proporciona en la siguiente ecuación. en donde F2 (t) = la característica para el gradiente de la línea de regresión del mejor ajuste en la densidad de potencia espectral logarítmica para el cuadro t. c) Conteo de pausas La característica de conteo de pausas explota el hecho de que las pausas o intervalos cortos de la señal, con poca o ninguna potencia de audio, se encuentran usualmente presentes en la voz, pero otros tipos de material de audio usualmente no tienen esas pausas . El primer paso para la extracción de la característica calcula la potencia P [m] de la información de audio en cada bloque m dentro de un cuadro. Esto puede realizarse tal como se muestra en la siguiente ecuación.
?=S~ en donde P[m] = la potencia calculada en el bloque m. El segundo paso calcula la potencia PF de la información de audio dentro del cuadro. La característica para el número de pausas F3(t) dentro del cuadro t es igual al número de bloques dentro del cuadro, cuya potencia respectiva P[m] sea menor o igual que 1/4PF. El valor de un cuarto se derivó em íricamente. d) Coeficiente de sesgo de la proporción de cruces en cero La proporción de cruces en cero es el número de veces en que la señal de audio, la cual se encuentra representada por la información de audio, cruza por cero en un intervalo de tiempo. La proporción de cruces en cero puede ser estimada a partir de un conteo del número de cruces en cero en un bloque corto de muestras de información de audio. En la implementación descrita en la presente, los bloques tienen una duración de 256 muestras por 16 ms. Aunque el concepto es simple, la información derivada a partir de la proporción de cruces en cero puede proporcionar una indicación bastante confiable referente a que si se encuentra o no presente voz en una señal de audio. Las porciones sonorizadas de la voz tienen una proporción de cruces en cero relativamente baja, mientras que las porciones no sonorizadas de la voz tienen una proporción de cruces en cero relativamente alta. Además, debido a que la voz contiene típicamente más porciones sonorizadas y pausas que las porciones no sonorizadas, la distribución de las proporciones de cruces en cero es generalmente sesgada hacia las proporciones menores . Una característica que puede proporcionar una indicación del sesgo dentro de un cuadro t es un coeficiente de sesgo de la proporción de cruces en cero, que puede ser calculado a partir de la siguiente ecuación. en donde Zm = el conteo de cruces en cero en el bloque m; y F4 ( ) = la característica del coeficiente de sesgo de la proporción de cruces en cero para el cuadro t. e) Relación de media a mediana de la proporción de cruces en cero Otra característica que puede proporcionar una indicación · del sesgo de la distribución de la proporción de cruce en cero, dentro de un cuadro t, es la relación de mediana a media de la proporción de cruces en cero. Esta puede ser obtenida a partir de la siguiente ecuación. en donde Zmediana. = la mediana de las proporciones de cruces en cero, del bloque, para todos los bloques que se encuentran en el cuadro t; y F5(t) = la característica de la relación de mediana a media, de la proporción de cruces en cero para el cuadro t. f) Medida Rítmica Corta Técnicas que usan las características previamente descritas pueden detectar la voz en muchos tipos de material de audio; sin embargo estas técnicas a menudo harán falsas detecciones en material de audio altamente rítmico tal como en el caso del llamado ""rap" y en muchos casos de música popular. Los segmentos de información de audio pueden ser clasificados como voz, más confiablemente, detectando material altamente rítmico, ya sea retirando ese material de la clasificación o aumentando el nivel de confianza requerido para clasificar el material como voz. medida rítmica corta puede ser calculada para un cuadro, calculando primero la varianza de las muestras en cada bloque, tal como se muestra en la siguiente ecuación. en donde s?[/»] = la varianza de las muestras x en el bloque m; y xm · = la media de las muestras x en el bloque m.
Una secuencia de media cero se deriva a partir de las varianzas para todos los bloques en el cuadro, tal como se muestra en la s iguiente ecuación. d[m] = x2[m] - &l para Q=m<M (13) en donde d [m] = el elemento de la secuencia de media cero para el bloque m; y — 2 s? = la media de las varianzas para todos los bloques en el cuadro. La autocorrelación de la secuencia de media cero se obtiene como se muestra en la siguiente ecuación. en donde t[í] = el valor de autocorrelación para el cuadro t con un retraso de bloque de t . La característica para la medida rítmica corta se deriva a partir de · un valor máximo de las puntuaciones de autocorrelación. Esta puntuación máxima no incluye la puntuación para un retardo de bloque l = 0, de manera tal que el valor máximo se toma del conjunto de valores para un retardo de bloque l > . La cantidad L representa el período del ritmo más rápido esperado. En una implementación L se fija igual a 10, el cual representa un período mínimo de 160 ms . La característica se calcula, como se muestra en la siquiente ecuación, dividiendo la puntuación máxima entre la puntuación de autocorrelación para el retardo del bloque l = 0. donde F6(t) = la característica para medida rítmica corta para el cuadro t. g) Medida rítmica larga medida rítmica larga se deriva en una manera similar a aquella descrita anteriormente para la medida rítmica corta, excepto que los valores de la secuencia de media cero son remplazados por ponderaciones espectrales. Estas ponderaciones espectrales se calculan obteniendo primero el logaritmo de la densidad espectral de potencia como se mostró anteriormente en las ecuaciones 5 y 6 y como se describió con relación al sesgo del gradiente de la línea de regresión del mejor ajuste de la densidad de potencia espectral logarítmica. Puede ser de ayuda señalar que, en la implementación descrita en la presente, la longitud del bloque para el cálculo de la medida rítmica larga, no es igual a la longitud del bloque usada para el cálculo del sesgo del gradiente . próximo paso obtiene el máximo valor del espectro de potencia en el dominio logarítmico, para bloque, tal como se muestra en la siguiente ecuación. 0„ (16) En donde Om = máximo valor del espectro de potencia logarítmico, en el bloque m. Una ponderación espectral para cada bloque es determinada mediante el número de valores pico espectrales de potencia en el dominio logarítmico, que sean mayores que un valor umbral igual a (<¾ . o¿) . Esta determinación es expresada en la siguiente ecuación. en donde W[m] = la ponderación espectral para el bloque m. signo (n) = +1 si n = 0 y -1 si n < 0; y a = una constante derivada empíricamente igual a 0.1. Al final de cada cuadro, la secuencia de M ponderaciones espectrales del cuadro previo y la secuencia de M ponderaciones espectrales del cuadro actual, son concatenadas para formar una secuencia de 2M ponderaciones espectrales. Posteriormente se calcula una autocorrelación de esta secuencia larga de acuerdo con la siguiente ecuación.
AL,[£]=— M?W[m]¦W[m+£] para 0<£<2M (18) 2M en donde ALt[ ] = la puntuación de la autocorrelación para el cuadro t. La característica para la medida rítmica larga se deriva a partir de un valor máximo de las puntuaciones de autocorrelación. Esta puntuación máxima no incluye la puntuación para un retardo de bloque í = 0 de tal manera que el valor máximo se toma del conjunto de valores para un retardo de bloque i = LL. La cantidad LL representa el período del ritmo más rápido esperado. En la implementación descrita en la presente, LL se fija igual a 10. La característica se calcula tal como se muestra en la siguiente ecuación, dividiendo la puntuación máxima entre la puntuación de correlación para el retardo de bloque i = 0. en donde F7 ( t) = la característica para la medida rítmica larga para el cuadro t. 2. Detección de la Voz El detector de voz 35 combina las características que son extraídas para cada cuadro, a fin de determinar si un segmento de información de audio deberá ser o no clasificado como voz . Una forma que puede usarse para combinar las características implementa un conjunto de clasificadores simples o de ínterin. Un clasificador de Interin calcula un valor binario comparando una de las características analizadas anteriormente, con un valor umbral. Este valor binario es ponderado después mediante un coeficiente. Cada clasificador de ínterin realiza una clasificación de ínterin que se basa en una característica, üna característica particular puede ser usada- por más de un clasificador de ínterin. Un clasificador de ínterin puede ser implementado mediante cálculos realizados de acuerdo con la siguiente ecuación.
CJ=c/-s\gn0(Fi-Thj) (20) en donde Cj = la clasificación de valor binario proporcionada por el clasificador de ínterin J; Cj - un coeficiente para el clasificador de ínterin; F¿ = característica i extraída de la información de audio; y Thj = un umbral para el clasificador de ínterin j . En esta implementación particular, una clasificación de ínterin Cj = 1 indica que el clasificador de ínterin j tiende a respaldar una conclusión de que un cuadro particular de información de audio deberá ser clasificado como voz. Una clasificación de ínterin Cj = -1 indica que el clasificador de ínterin j tiende a respaldar una conclusión de que un cuadro particular de información de audio no deberá ser clasificado como voz.
Las entradas en la tabla VII muestran valores de coeficientes y umbrales, y la característica apropiada para varios clasificadores de ínterin que pueden ser usados en una implementación a fin de clasificar cuadros de información de audio.
Tabla VII Número del clasificador Número de del ínterin Coeficiente Umbral Característica 3 Thj i 1 1.175688 5.721547 1 2 -0.672672 0.833154 5 3 0.631083 5.826363 1 4 -0.629152 0.232458 6 5 0.502359 1.474436 4 6 -0.310641 0.269663 7 7 0.266078 5.806366 1 8 -0.101095 0.218851 6 9 0.097274 1.474855 4 10 0.058117 5.810558 " 1 11 -0.042538 0.264982 7 12 0.034076 5.811342 1 13 -0.044324 0.850407 5 Tabla VII (Continuación) La clasificación final se basa en una combinación de las clasificaciones de ínterin. Estas pueden realizarse como se muestra en la siguiente ecuación.
Cfinal =si9no (21) en donde Cfinal = la clasificación final de un cuadro de información de audio; y 7 = el número de clasificadores de ínterin usados para realizar la clasificación. La conflabilidad del detector de voz puede ser mejorada utilizando la elección de los clasificadores de ínterin, y optimizando los coeficientes y umbrales para aquellos clasificadores de ínterin. Esta optimización puede llevarse a cabo en una variedad de formas que incluyen técnicas descritas en la patente de los Estados Unidos de Norteamérica 5,819,247 citada anteriormente, y en Schapire, A Brief Introduction to Boosting, " Proc, of the 16th Int. Joint Conf. on Artificial Intelligence, 1999. En una implementación alternativa, la detección de voz no se indica a través de una decisión con valores binarios sino que, por el contrario, se representa mediante una medida de clasificación graduada. La medida representarla una probabilidad estimada de voz o un nivel de confianza en la clasificación de la voz. Esto puede ser realizado en una variedad de formas tales como por ejemplo, obteniendo la clasificación final a partir de una suma de las clasificaciones de ínterin en vez que obteniendo un resultado con valores binarios, tal como se muestra en la ecuación 21. 3. Bloques de Muestras La implementación descrita anteriormente extrae características a partir de bloques contiguos, no traslapantes, de longitud fija. Alternativamente, la técnica de clasificación puede ser aplicada a bloques contiguos de longitud variable, no traslapantes, a bloques traslapantes de longitud fija o variable, o a bloques no contiguos de longitud fija o variable. Por ejemplo, la longitud del bloque puede ser adaptada en respuesta a transitorios, pausas o intervalos de poca o ninguna energia de audio, de manera tal que la información de audio en cada bloque sea más estacionaria. Las longitudes de los cuadros pueden ser adaptadas también variando el número de bloques por cuadro y/o variando las longitudes de los bloques dentro de un cuadro .
E. Estimación de la Sonoridad El estimador de la sonoridad 14 examina segmentos de información de audio para obtener una sonoridad estimada para los segmentos de voz. En una implementación la sonoridad se estima para cada cuadro que es clasificado como un segmento de voz. La sonoridad puede ser estimada esencialmente para cualquier duración que se desee . En otra implementación, el proceso de estimación empieza en respuesta a una solicitud de iniciar el proceso y continúa hasta que se recibe una solicitud para detener el proceso. En el receptor 4, por ejemplo, estas solicitudes pueden ser portadas por códigos especiales en la señal recibida desde la ruta 3. Alternativamente, estas solicitudes pueden ser proporcionadas por la operación de un interruptor u otro control proporcionado en el aparato que se use para estimar la sonoridad. Se puede proporcionar un control adicional que cause que el estimador de la sonoridad 14 suspenda el proceso y retenga el estimado actual. En una implementación, la sonoridad es estimada para todos los segmentos de información de audio que sean clasificados como voz. En principio, no obstante, la sonoridad podría ser estimada únicamente para segmentos de voz seleccionados, tales como por ejemplo únicamente aquellos segmentos que tengan un nivel de energía de audio mayor que un umbral. También podría obtenerse un efecto similar al hacer que el clasificador 12 clasifique los segmentos de baja energía como segmentos que no son de voz y luego que estime la sonoridad para todos los segmentos de voz. Son posibles otras variaciones. Por ejemplo, a los segmentos más viejos se les puede dar menor peso en los cálculos de la sonoridad estimada. Todavía en otra alternativa, el estimador de sonoridad 14 estima la sonoridad para al menos algunos de los segmentos que no son de voz. La sonoridad estimada para los segmentos que no son de voz puede ser usada en cálculos de sonoridad para un intervalo de información de audio; sin embargo, estos cálculos deberán ser más sensibles a estimados para los segmentos de voz. Los estimados para segmentos que no son de voz pueden ser usados también en implementaciones que proporcionen una medida graduada de clasificación de los segmentos. Los cálculos de la sonoridad para un intervalo de la información de audio, pueden ser sensibles a la sonoridad estimada para los segmentos de voz y para los segmentos que no son de voz, en una manera que tomen en cuenta la medida graduada de clasificación. Por ejemplo, la medida graduada puede representar una indicación de confianza de que un segmento de información de audio contiene voz. Los estimados de sonoridad pueden hacerse más sensibles a segmentos con un mayor nivel de confianza, proporcionando a esos segmentos más peso en cálculos de sonoridad estimada. La sonoridad puede ser estimada en cierta variedad de formas que incluyen aquellas analizadas anteriormente. Ninguna técnica de estimación particular es critica para la presente invención; sin embargo se cree que técnicas más simples, que requieran de menos recursos de cómputo, serán usualmente preferidas en implementaciones prácticas .
F . Implementación Varios aspectos de la presente invención pueden ser implementados en una amplia variedad de formas, incluyendo software en un sistema de computadora de propósito general o en algún aparato que incluya componentes más especializados tales como circuitos de un procesador de señales digitales (DSP) acoplados a componentes similares a aquellos encontrados en un sistema de computadora de propósito general. La figura 6 es un diagrama de bloques del dispositivo 70 que puede ser usado para implementar varios aspectos de la presente invención en un transmisor de codificación de audio o en un receptor de descodificación de audio. El DSP 72 proporciona recursos de cómputo. La RAM 73 es la memoria de acceso aleatorio (RAM) del sistema, usada por el DSP 72 para el procesamiento de las señales. La ROM. 74 representa alguna forma de almacenamiento persistente tal como la memoria únicamente de lectura (ROM) para almacenar programas necesarios para hacer funcionar el dispositivo 70. El control de entrada/salida (I/O) 75 representa los circuitos de interfase para recibir y transmitir señales mediante canales de comunicación 76, 77. Convertidores de analógico a digital y convertidores de digital a analógico pueden ser incluidos en el control I/O 75, según se desee, para recibir y/o transmitir señales de audio analógicas. En la modalidad mostrada, todos los componentes principales del sistema se conectan al bus 71, que puede representar más de un bus físico; sin embargo, no se requiere de una arquitectura de bus para implementar la presente invención. En modalidades implementadas en un sistema de computadora "de propósito general, se pueden incluir componentes adicionales para que se interconecten con dispositivos tales como un teclado o ratón y una pantalla, y para controlar un dispositivo de almacenamiento que tenga un medio de almacenamiento tal como una cinta magnética o disco magnético, o un medio óptico. El medio óptico puede ser usado para grabar programas de instrucciones para sistemas Operativos, utilidades y aplicaciones, y puede incluir modalidades de programas que implementen varios aspectos de la presente invención. Las funciones requeridas para llevar a la práctica la presente invención pueden ser ejecutadas también por componentes de propósito especial que sean implementados en una amplia variedad de formas, incluyendo componentes lógicos discretos, uno o más ASIC y/o procesadores controlados por programas. La manera en la cual se implementen estos componentes no es importante para la presente invención. Las implementaciones de software de la presente invención pueden ser portadas por una variedad de medios legibles en máquinas, tales como rutas de comunicación moduladas o de banda de base, en todo el espectro, incluyendo frecuencias desde la supersónica hasta la ultravioleta, o medios de almacenamiento que incluyan aquellos que conduzcan información usando esencialmente cualquier tecnología de grabación magnética u óptica, incluyendo cinta magnética, disco magnético, y disco óptico. Varios aspectos pueden ser implementados también en varios componentes del sistema de computadora 70 por los circuitos de procesamiento tales como los ASIC, circuitos integrados de propósito general, microprocesadores controlados por programas incorporados en varias formas de ROM o RAM, y otras técnicas.

Claims (36)

  1. REIVINDICACIONES 1. Un método para el procesamiento de señales caracterizado porque comprende: recibir una señal de entrada y obtener información de audio de la señal de entrada, en donde la información de audio representa un intervalo de una señal de audio; examinar la información de audio para clasificar segmentos de la información de audio como segmentos de voz que representen porciones de la señal de audio, clasificadas como voz, o como segmentos que no sean voz, que representen porciones de la señal de audio no clasificadas como voz, en donde cada porción de la señal de audio representada por un segmento tenga una sonoridad respectiva, y la sonoridad de los segmentos de voz sea menor que la sonoridad de uno o más segmentos que no sean de voz; examinar la información de audio para obtener una sonoridad estimada de los segmentos de voz; y, proporcionar una indicación de la sonoridad del intervalo de la señal de audio, generando información de control que sea más sensible a la sonoridad estimada de los segmentos de voz, que la sonoridad de las porciones de la señal de audio, representadas por los segmentos que no sean de voz.
  2. 2. El método de conformidad con la reivindicación 1, caracterizado porque comprende: controlar la sonoridad del intervalo de la señal de audio en respuesta a la información de control, a fin de reducir variaciones en la sonoridad de los segmentos de voz, en donde la sonoridad de las porciones de la señal de audio representadas por el uno o más segmentos intensos que no son de voz, se incrementa cuando se incrementa la sonoridad de las porciones de la señal de audio, representadas por los segmentos de voz.
  3. 3. El método de conformidad con la reivindicación 1, caracterizado porque comprende: ensamblar una representación de la información de audio y de la información de control en una señal de salida y transmitir la señal de salida.
  4. 4. El método de conformidad con la reivindicación 1 ó 2, caracterizado porque obtiene la sonoridad ' estimada de los segmentos de voz, calculando la potencia promedio de una versión ponderada en la frecuencia, de la señal de audio representada por los segmentos de voz.
  5. 5. El método de conformidad con la reivindicación 1 ó 2, caracterizado porque obtiene la sonoridad estimada de los segmentos de voz mediante la aplicación de un modelo de sonoridad, psicoacústico, a la información de audio.
  6. 6. El método de conformidad con la reivindicación 1 6 2, caracterizado porque clasifica segmentos derivando, a partir de la información de audio, una pluralidad de características de la señal de audio, ponderando cada característica mediante una medida de importancia respectiva, y clasificando los segmentos de acuerdo con una combinación de las características ponderadas.
  7. 7. El método de conformidad con la reivindicación 1 ó 2, caracterizado porque controla la sonoridad del intervalo de la señal de audio, ajustando la sonoridad únicamente durante intervalos de la señal de audio que tengan una medida de energía de audio menor que un umbral .
  8. 8. El método de conformidad con la reivindicación 1 ó 2, caracterizado porque la indicación de la sonoridad del intervalo de la señal de audio es sensible únicamente a la sonoridad estimada de los segmentos de voz.
  9. 9. El método de conformidad con la reivindicación 1 ó 2, caracterizado porque comprende estimar la sonoridad de uno o más de los segmentos que no son de voz, en donde la indicación de la sonoridad del intervalo de la señal de audio es más sensible a la sonoridad estimada de los segmentos de voz que a la sonoridad estimada de uno o más segmentos que no sean de oz .
  10. 10. El método de conformidad con la reivindicación 1 ó 2, caracterizado porque comprende: proporcionar una medida de voz que indica un grado en el cual la señal de audio representada por un segmento respectivo, tiene características de voz; y proporcionar la indicación de la sonoridad, de manera tal que sea sensible a la sonoridad estimada de los segmentos respectivos, de acuerdo con las medidas de voz de los segmentos respectivos .
  11. 11. El método de conformidad con la reivindicación 1 ó 2 , caracterizado porque comprende proporcionar la indicación de la sonoridad, de manera tal que sea sensible a la sonoridad estimada de los segmentos respectivos, de acuerdo con el orden de los segmentos, en el tiempo.
  12. 12. El método de conformidad con la reivindicación 1 ó 2, caracterizado porque comprende adaptar longitudes de los segmentos de información de audio en respuesta a características de la información de audio.
  13. 13. Un medio que es legible por un dispositivo y que porta un programa de instrucciones que pueden ser ejecutadas por el dispositivo, a fin de ejecutar un método para el procesamiento de señales, caracterizado porque comprende los pasos de realizar las siguientes operaciones: recibir una señal de entrada y obtener información de audio de la señal de entrada, en donde la información de audio representa un intervalo de una señal de audio; examinar la información de audio para clasificar segmentos de la información de audio como segmentos de voz que representen porciones de la señal de audio, clasificadas como segmentos de voz o como segmentos que no son de voz, que representen porciones de la señal de audio no clasificadas como voz, en donde cada porción de la señal de audio, representada por un segmento, tiene una sonoridad respectiva, y la sonoridad de los segmentos de voz es menor que la sonoridad de uno o más de los segmentos intensos que no son de voz; examinar la información de audio para obtener una sonoridad estimada de los segmentos de voz; y, proporcionar una indicación de la sonoridad del intervalo de la señal de audio, generando información de control que sea más sensible a la sonoridad estimada de los segmentos de voz, que a la sonoridad de las porciones de la señal de audio representadas por los segmentos que no son de voz.
  14. 14. El medio de conformidad con la reivindicación 13, caracterizado porque el método comprende: controlar la sonoridad del intervalo de la señal de audio en respuesta a la información de control, a fin de reducir variaciones en la sonoridad de los segmentos de voz, en donde la sonoridad de las porciones de la señal de audio representadas por el uno o más segmentos intensos que no son de voz, se incrementa cuando se incrementa la sonoridad de las porciones de la señal de audio, representadas por los segmentos de voz.
  15. 15. El medio de conformidad con la reivindicación 13, caracterizado porque el método comprende: ensamblar una representación de la información de audio y de la información de control en una señal de salida y transmitir la señal de salida.
  16. 16. El medio de conformidad con la reivindicación 13 ó 14, caracterizado porque el método obtiene la sonoridad estimada de los segmentos de voz, calculando la potencia- promedio de una versión ponderada en la frecuencia, de la señal de audio representada por los segmentos de voz.
  17. 17. El medio de conformidad con la reivindicación 13 ó 14, caracterizado porque el método obtiene la sonoridad estimada de los segmentos de voz, aplicando un modelo de sonoridad, psicoacústico, a la información de audio.
  18. 18. El medio de conformidad con la reivindicación 13 ó 14, caracterizado porque el método clasifica segmentos derivando, a partir de la información de audio, una pluralidad de características de la señal de audio, ponderando cada característica por una medida de importancia respectiva, y clasificando los segmentos de acuerdo con una combinación de las características ponderadas .
  19. 19. El medio de conformidad con la reivindicación 13 ó 14, caracterizado porque el método controla la sonoridad del intervalo de la señal de audio, ajustando la sonoridad únicamente durante intervalos de la señal de audio que tengan una medida de energía de audio menor que un umbral .
  20. 20. El medio de conformidad con la reivindicación 13 ó 14, caracterizado porque la indicación de la sonoridad del intervalo de la señal de audio es sensible únicamente a la sonoridad estimada de los segmentos de voz.
  21. 21. El medio de conformidad con la reivindicación 13 ó 14, caracterizado porque el método comprende estimar la sonoridad de uno o más segmentos que no son de voz, en donde la indicación de la sonoridad del intervalo de la señal de audio es más sensible a la sonoridad estimada de los segmentos de voz, que a la sonoridad estimada del uno o más segmentos que no son de oz .
  22. 22. El medio de conformidad con la reivindicación 13 ó 14, caracterizado porque el método comprende: proporcionar una medida de la voz que indique un grado en el cual la señal de audio representada por un segmento respectivo tenga características de voz; y, proporcionar la indicación de sonoridad de manera tal que sea sensible a la sonoridad estimada de los segmentos respectivos, de acuerdo con las medidas de voz de los segmentos respectivos.
  23. 23. El medio de conformidad con la reivindicación 13 ó 14, caracterizado porque el método comprende proporcionar la indicación de sonoridad tal que sea sensible a la sonoridad estimada de los segmentos respectivos de acuerdo con el orden de los segmentos, en el tiempo .
  24. 24. El medio de conformidad con la reivindicación 13 ó 14, caracterizado porque el método comprende adaptar longitudes de los segmentos de información de audio, en respuesta a las características de la información de audio.
  25. 25. Un aparato para el procesamiento de señales, caracterizado porque comprende: una terminal de entrada que recibe una señal de entrada; memoria; y, circuitos de procesamiento conectados a la terminal de entrada y a la memoria; en donde los circuitos de procesamiento están adaptados para: recibir una señal de entrada y obtener información de audio a partir de la señal de entrada, en donde la información de audio representa un intervalo de una señal de audio; examinar la información de audio para clasificar segmentos de la información de audio como segmentos de voz que representen porciones de la señal de audio clasificadas como voz, o como segmentos que no sean de voz, que representen porciones de la señal de audio no clasificadas como voz, en donde cada porción de la señal de audio representada por un segmento tiene una sonoridad respectiva, y la sonoridad de los segmentos de voz es menor que la sonoridad de uno o más de los segmentos intensos que no son de voz; examinar la información de audio para obtener una sonoridad estimada de los segmentos de voz; y, proporcionar una indicación de la sonoridad del intervalo de la señal de audio, generando información de control que sea mas sensible a la sonoridad estimada de los segmentos de voz, que a la sonoridad de las porciones de la señal de audio representadas por los segmentos que no son de voz .
  26. 26. El aparato de conformidad con la reivindicación 25, caracterizado porque los circuitos de procesamiento están adaptados para controlar la sonoridad del intervalo de la señal de audio, en respuesta a la información de control, a fin de reducir variaciones en la sonoridad de los segmentos de voz, en donde la sonoridad de las porciones de la señal de audio, representadas por el uno o más segmentos que no son de voz, se incrementa cuando se incrementa la sonoridad de las porciones de la señal de audio representadas por los segmentos de voz .
  27. 27. El aparato de conformidad con la reivindicación 25, caracterizado porque los circuitos de procesamiento están adaptados para ensamblar una representación de la información de audio y la información de control, en una señal de salida, y transmitir la señal de salida.
  28. 28. El aparato de conformidad con la reivindicación 25 ó 26, caracterizado porque los circuitos de procesamiento están adaptados para obtener la sonoridad estimada de los segmentos de voz, calculando la potencia promedio de una versión ponderada en la frecuencia, en la señal de audio representada por los segmentos de voz.
  29. 29. El aparato de conformidad con la reivindicación 25 ó 26, caracterizado porque los circuitos de procesamiento están adaptados para obtener la sonoridad estimada de los segmentos de voz, aplicando un modelo de sonoridad, psicoacústico, a la información de audio.
  30. 30. El aparato de conformidad con la reivindicación 25 ó 26, caracterizado porque los circuitos de procesamiento están adaptados para clasificar segmentos derivando, a partir de la información de audio, una pluralidad de características de la señal de audio, ponderando cada característica por una medida respectiva de importancia, y clasificando los segmentos de acuerdo con una combinación de las características ponderadas .
  31. 31. El aparato de conformidad con la reivindicación 25 ó 26, caracterizado porque los circuitos de procesamiento están adaptados para controlar la sonoridad del intervalo de la señal de audio, ajustando la sonoridad únicamente durante intervalos de la señal de audio que tengan una medida de energía de audio menor que un umbral .
  32. 32. El aparato de conformidad con la reivindicación 25 ó 26, caracterizado porque la indicación de la sonoridad del intervalo de la señal de audio es sensible únicamente a la sonoridad estimada de los segmentos de voz.
  33. 33. El aparato de conformidad con la reivindicación 25 ó 26, caracterizado porque los circuitos de procesamiento están adaptados para estimar la sonoridad de uno o más segmentos que no sean de voz, en donde la indicación de la sonoridad del intervalo de la señal de audio es más sensible a la sonoridad estimada de los segmentos de voz, que a la sonoridad estimada del uno o más de los segmentos que no son de voz.
  34. 34. El aparato de conformidad con la reivindicación 25 ó 26, caracterizado porque los circuitos de procesamiento están adaptados para: proporcionar una medida de voz que indique un grado en el cual la señal de audio, representada por un segmento respectivo, tiene características de voz; y, proporcionar la indicación de la sonoridad tal que sea sensible a la sonoridad estimada de los segmentos respectivos de acuerdo con las medidas de voz de los segmentos respectivos.
  35. 35. El aparato de conformidad con la reivindicación 25 ó 26, caracterizado porque los circuitos de procesamiento están adaptados para proporcionar la indicación de sonoridad tal que sea sensible a la sonoridad estimada de segmentos respectivos, de acuerdo con el orden de los segmentos, en el tiempo.
  36. 36. El aparato de conformidad con la reivindicación 25 ó 26, caracterizado porque los circuitos de procesamiento están adaptados para detectar características de la información de audio y adaptar longitudes de los segmentos de la información de audio en respuesta a las características detectadas.
MXPA05002290A 2002-08-30 2003-08-15 Control de la sonoridad de la voz en senales que contienen voz y otros tipos de material de audio. MXPA05002290A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/233,073 US7454331B2 (en) 2002-08-30 2002-08-30 Controlling loudness of speech in signals that contain speech and other types of audio material
PCT/US2003/025627 WO2004021332A1 (en) 2002-08-30 2003-08-15 Controlling loudness of speech in signals that contain speech and other types of audio material

Publications (1)

Publication Number Publication Date
MXPA05002290A true MXPA05002290A (es) 2005-06-08

Family

ID=31977143

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA05002290A MXPA05002290A (es) 2002-08-30 2003-08-15 Control de la sonoridad de la voz en senales que contienen voz y otros tipos de material de audio.

Country Status (15)

Country Link
US (2) US7454331B2 (es)
EP (1) EP1532621B1 (es)
JP (1) JP4585855B2 (es)
KR (1) KR101019681B1 (es)
CN (1) CN100371986C (es)
AT (1) ATE328341T1 (es)
AU (1) AU2003263845B2 (es)
CA (1) CA2491570C (es)
DE (1) DE60305712T8 (es)
HK (1) HK1073917A1 (es)
IL (1) IL165938A (es)
MX (1) MXPA05002290A (es)
MY (1) MY133623A (es)
TW (1) TWI306238B (es)
WO (1) WO2004021332A1 (es)

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US20040045022A1 (en) * 2002-09-03 2004-03-04 Steven Riedl Digital message insertion technique for analog video services
WO2004111994A2 (en) * 2003-05-28 2004-12-23 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
US8086448B1 (en) * 2003-06-24 2011-12-27 Creative Technology Ltd Dynamic modification of a high-order perceptual attribute of an audio signal
US7353169B1 (en) * 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US7398207B2 (en) 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
US7970144B1 (en) 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
JP4867914B2 (ja) 2004-03-01 2012-02-01 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャンネルオーディオコーディング
US7376890B2 (en) * 2004-05-27 2008-05-20 International Business Machines Corporation Method and system for checking rotate, shift and sign extension functions using a modulo function
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US7962327B2 (en) * 2004-12-17 2011-06-14 Industrial Technology Research Institute Pronunciation assessment method and system based on distinctive feature analysis
CN102276769B (zh) * 2005-04-18 2013-12-04 巴斯夫欧洲公司 一种呈由至少三种不同的单烯属不饱和单体构成的聚合物形式的共聚物
WO2006132857A2 (en) * 2005-06-03 2006-12-14 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
WO2007045797A1 (fr) * 2005-10-20 2007-04-26 France Telecom Procede, programme et dispositif de description d'un fichier musical, procede et programme de comparaison de deux fichiers musicaux entre eux, et serveur et terminal pour la mise en oeuvre de ces procedes
US8068627B2 (en) 2006-03-14 2011-11-29 Starkey Laboratories, Inc. System for automatic reception enhancement of hearing assistance devices
US8494193B2 (en) * 2006-03-14 2013-07-23 Starkey Laboratories, Inc. Environment detection and adaptation in hearing assistance devices
US7986790B2 (en) * 2006-03-14 2011-07-26 Starkey Laboratories, Inc. System for evaluating hearing assistance device settings using detected sound environment
TWI517562B (zh) * 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
JP5185254B2 (ja) * 2006-04-04 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション Mdct領域におけるオーディオ信号音量測定と改良
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
NO345590B1 (no) 2006-04-27 2021-05-03 Dolby Laboratories Licensing Corp Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
CN101529721B (zh) 2006-10-20 2012-05-23 杜比实验室特许公司 使用复位的音频动态处理
US8521314B2 (en) * 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US20100046765A1 (en) 2006-12-21 2010-02-25 Koninklijke Philips Electronics N.V. System for processing audio data
EP2122828B1 (en) * 2007-01-03 2018-08-22 Dolby Laboratories Licensing Corporation Hybrid digital/analog loudness-compensating volume control
CN101647059B (zh) * 2007-02-26 2012-09-05 杜比实验室特许公司 增强娱乐音频中的语音的方法和设备
US8204359B2 (en) * 2007-03-20 2012-06-19 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
US8213624B2 (en) * 2007-06-19 2012-07-03 Dolby Laboratories Licensing Corporation Loudness measurement with spectral modifications
US8054948B1 (en) * 2007-06-28 2011-11-08 Sprint Communications Company L.P. Audio experience for a communications device user
JP2009020291A (ja) * 2007-07-11 2009-01-29 Yamaha Corp 音声処理装置および通信端末装置
CN101790758B (zh) * 2007-07-13 2013-01-09 杜比实验室特许公司 用于控制音频信号的信号处理的设备和方法
CA2705549C (en) 2007-11-12 2015-12-01 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
PL2232700T3 (pl) * 2007-12-21 2015-01-30 Dts Llc System regulacji odczuwanej głośności sygnałów audio
US8457951B2 (en) 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
US20090226152A1 (en) * 2008-03-10 2009-09-10 Hanes Brett E Method for media playback optimization
ATE546812T1 (de) * 2008-03-24 2012-03-15 Victor Company Of Japan Vorrichtung zur audiosignalverarbeitung und verfahren zur audiosignalverarbeitung
WO2009152124A1 (en) * 2008-06-10 2009-12-17 Dolby Laboratories Licensing Corporation Concealing audio artifacts
CN102160115A (zh) 2008-09-19 2011-08-17 杜比实验室特许公司 对于资源受限客户机设备的上游质量增强信号处理
ATE552690T1 (de) * 2008-09-19 2012-04-15 Dolby Lab Licensing Corp Upstream-signalverarbeitung für client- einrichtungen in einem drahtlosen kleinzellen- netz
US7755526B2 (en) * 2008-10-31 2010-07-13 At&T Intellectual Property I, L.P. System and method to modify a metadata parameter
JP4826625B2 (ja) * 2008-12-04 2011-11-30 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
CN104378075B (zh) 2008-12-24 2017-05-31 杜比实验室特许公司 频域中的音频信号响度确定和修改
CN101483416B (zh) * 2009-01-20 2011-09-14 杭州火莲科技有限公司 一种语音的响度均衡处理方法
US8428758B2 (en) * 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
EP2237269B1 (en) * 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
KR101616054B1 (ko) * 2009-04-17 2016-04-28 삼성전자주식회사 음성 검출 장치 및 방법
WO2010126709A1 (en) * 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
WO2010127024A1 (en) * 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (zh) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
US8302047B2 (en) 2009-05-06 2012-10-30 Texas Instruments Incorporated Statistical static timing analysis in non-linear regions
US8996538B1 (en) 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
US9215538B2 (en) * 2009-08-04 2015-12-15 Nokia Technologies Oy Method and apparatus for audio signal classification
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
TWI447709B (zh) 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
TWI525987B (zh) 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
WO2011141772A1 (en) * 2010-05-12 2011-11-17 Nokia Corporation Method and apparatus for processing an audio signal based on an estimated loudness
US8731216B1 (en) * 2010-10-15 2014-05-20 AARIS Enterprises, Inc. Audio normalization for digital video broadcasts
KR101726738B1 (ko) * 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
TWI800092B (zh) * 2010-12-03 2023-04-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9620131B2 (en) 2011-04-08 2017-04-11 Evertz Microsystems Ltd. Systems and methods for adjusting audio levels in a plurality of audio signals
EP2702589B1 (en) * 2011-04-28 2017-04-05 Dolby International AB Efficient content classification and loudness estimation
JP2013041197A (ja) * 2011-08-19 2013-02-28 Funai Electric Co Ltd デジタル放送受信装置
WO2013078056A1 (en) 2011-11-22 2013-05-30 Dolby Laboratories Licensing Corporation Method and system for generating an audio metadata quality score
US8923437B2 (en) * 2011-12-29 2014-12-30 Raytheon Bbn Technologies Corp. Non-contiguous spectral-band modulator and method for non-contiguous spectral-band modulation
JP5827442B2 (ja) 2012-04-12 2015-12-02 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号におけるラウドネス変化をレベリングするシステム及び方法
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9053710B1 (en) * 2012-09-10 2015-06-09 Amazon Technologies, Inc. Audio content presentation using a presentation profile in a content header
CN102946520B (zh) * 2012-10-30 2016-12-21 深圳创维数字技术有限公司 一种自动控制频道音量的方法及数字电视终端
CN103841241B (zh) * 2012-11-21 2017-02-08 联想(北京)有限公司 音量调整方法及装置
US8958586B2 (en) 2012-12-21 2015-02-17 Starkey Laboratories, Inc. Sound environment classification by coordinated sensing using hearing assistance devices
US9171552B1 (en) * 2013-01-17 2015-10-27 Amazon Technologies, Inc. Multiple range dynamic level control
BR112015017064B1 (pt) 2013-01-21 2022-03-22 Dolby Laboratories Licensing Corporation Método, meio legível em computador e aparelho para otimizar o nível de intensidade do som e a faixa dinâmica através de dispositivos de reprodução diferentes
CN107257234B (zh) * 2013-01-21 2020-09-15 杜比实验室特许公司 解码具有保留数据空间中的元数据容器的编码音频比特流
EP2901449B1 (en) * 2013-01-21 2018-01-03 Dolby Laboratories Licensing Corporation Audio encoder and decoder with program loudness and boundary metadata
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US20140278911A1 (en) * 2013-03-15 2014-09-18 Telemetry Limited Method and apparatus for determining digital media audibility
WO2014148845A1 (ko) * 2013-03-21 2014-09-25 인텔렉추얼디스커버리 주식회사 오디오 신호 크기 제어 방법 및 장치
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
TWI502582B (zh) * 2013-04-03 2015-10-01 Chung Han Interlingua Knowledge Co Ltd 服務點之語音客服系統
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9344825B2 (en) 2014-01-29 2016-05-17 Tls Corp. At least one of intelligibility or loudness of an audio program
US9578436B2 (en) 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
US9473094B2 (en) * 2014-05-23 2016-10-18 General Motors Llc Automatically controlling the loudness of voice prompts
US9842608B2 (en) 2014-10-03 2017-12-12 Google Inc. Automatic selective gain control of audio data for speech recognition
EP4060661B1 (en) * 2014-10-10 2024-04-24 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
JP6395558B2 (ja) * 2014-10-21 2018-09-26 オリンパス株式会社 第1の録音装置、第2の録音装置、録音システム、第1の録音方法、第2の録音方法、第1の録音プログラム、および第2の録音プログラム
US20160283566A1 (en) * 2015-03-27 2016-09-29 Ca, Inc. Analyzing sorted mobile application operational state sequences based on sequence metrics
CN108432130B (zh) 2015-10-28 2022-04-01 Dts(英属维尔京群岛)有限公司 基于对象的音频信号平衡
RU2768224C1 (ru) * 2018-12-13 2022-03-23 Долби Лабораторис Лайсэнзин Корпорейшн Двусторонняя медийная аналитика
CN110231087B (zh) * 2019-06-06 2021-07-23 江苏省广播电视集团有限公司 一种高清电视音频响度分析报警及归一化制作方法和设备
US11138477B2 (en) * 2019-08-15 2021-10-05 Collibra Nv Classification of data using aggregated information from multiple classification modules

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
DE3314570A1 (de) * 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US5097510A (en) * 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
DE69214882T2 (de) 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
JP2737491B2 (ja) * 1991-12-04 1998-04-08 松下電器産業株式会社 音楽音声処理装置
JP2961952B2 (ja) * 1991-06-06 1999-10-12 松下電器産業株式会社 音楽音声判別装置
US5548638A (en) * 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
BE1007355A3 (nl) * 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (es) * 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
CA2167748A1 (en) * 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
DE19509149A1 (de) 1995-03-14 1996-09-19 Donald Dipl Ing Schulz Codierverfahren
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5712954A (en) * 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
DE59713033D1 (de) * 1996-07-19 2010-06-02 Bernafon Ag Lautheitsgesteuerte Verarbeitung akustischer Signale
JP2953397B2 (ja) * 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6125343A (en) * 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) * 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6233554B1 (en) * 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) * 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
EP1089242B1 (en) * 1999-04-09 2006-11-08 Texas Instruments Incorporated Supply of digital audio and video products
US6985594B1 (en) * 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
JP3473517B2 (ja) * 1999-09-24 2003-12-08 ヤマハ株式会社 指向性拡声装置
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
US6625433B1 (en) * 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6807525B1 (en) * 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DE10058786A1 (de) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions

Also Published As

Publication number Publication date
TW200404272A (en) 2004-03-16
KR101019681B1 (ko) 2011-03-07
CA2491570A1 (en) 2004-03-11
WO2004021332A1 (en) 2004-03-11
DE60305712D1 (de) 2006-07-06
JP4585855B2 (ja) 2010-11-24
EP1532621A1 (en) 2005-05-25
USRE43985E1 (en) 2013-02-05
CN100371986C (zh) 2008-02-27
MY133623A (en) 2007-11-30
US7454331B2 (en) 2008-11-18
TWI306238B (en) 2009-02-11
AU2003263845B2 (en) 2008-08-28
ATE328341T1 (de) 2006-06-15
US20040044525A1 (en) 2004-03-04
CN1679082A (zh) 2005-10-05
DE60305712T2 (de) 2007-03-08
JP2005537510A (ja) 2005-12-08
KR20050057045A (ko) 2005-06-16
AU2003263845A1 (en) 2004-03-19
IL165938A (en) 2010-04-15
DE60305712T8 (de) 2007-07-12
IL165938A0 (en) 2006-01-15
EP1532621B1 (en) 2006-05-31
CA2491570C (en) 2011-10-18
HK1073917A1 (en) 2005-10-21

Similar Documents

Publication Publication Date Title
AU2003263845B2 (en) Controlling loudness of speech in signals that contain speech and other types of audio material
KR101101384B1 (ko) 파라미터화된 시간 특징 분석
KR101726208B1 (ko) 볼륨 레벨러 제어기 및 제어 방법
US6993481B2 (en) Detection of speech activity using feature model adaptation
JP4560269B2 (ja) 無音検出
US5867815A (en) Method and device for controlling the levels of voiced speech, unvoiced speech, and noise for transmission and reproduction
US20070118374A1 (en) Method for generating closed captions
US20040138876A1 (en) Method and apparatus for artificial bandwidth expansion in speech processing
US20070118364A1 (en) System for generating closed captions
EP2979359A1 (en) Equalizer controller and controlling method
EP2979267A2 (en) 1apparatuses and methods for audio classifying and processing
JPH06332492A (ja) 音声検出方法および検出装置
US6983242B1 (en) Method for robust classification in speech coding
JPH0748695B2 (ja) 音声符号化方式
JPH09179585A (ja) 音声認識をする方法とシステム
US20050246170A1 (en) Audio signal processing apparatus and method
Pfeiffer et al. Formalisation of MPEG-1 compressed domain audio features
Wang The Study of Automobile-Used Voice-Activity Detection System Based on Two-Dimensional Long-Time and Short-Frequency Spectral Entropy

Legal Events

Date Code Title Description
FG Grant or registration