MXPA98000434A - Evaluacion de calidad de señal - Google Patents

Evaluacion de calidad de señal

Info

Publication number
MXPA98000434A
MXPA98000434A MXPA/A/1998/000434A MX9800434A MXPA98000434A MX PA98000434 A MXPA98000434 A MX PA98000434A MX 9800434 A MX9800434 A MX 9800434A MX PA98000434 A MXPA98000434 A MX PA98000434A
Authority
MX
Mexico
Prior art keywords
signal
distortion
distorted
spectral
parameters
Prior art date
Application number
MXPA/A/1998/000434A
Other languages
English (en)
Other versions
MX9800434A (es
Inventor
Peter Hollier Michael
Julian Sheppard Philip
Gray Philip
Original Assignee
British Telecommunications Public Limited Company
Gray Philip
Peter Hollier Michael
Julian Sheppard Philip
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9604315.3A external-priority patent/GB9604315D0/en
Application filed by British Telecommunications Public Limited Company, Gray Philip, Peter Hollier Michael, Julian Sheppard Philip filed Critical British Telecommunications Public Limited Company
Priority claimed from PCT/GB1996/001821 external-priority patent/WO1997005730A1/en
Publication of MXPA98000434A publication Critical patent/MXPA98000434A/es
Publication of MX9800434A publication Critical patent/MX9800434A/es

Links

Abstract

Una señal de voz (2) es sometida a un análisis de tracto vocal y la salida desde el mismo es analizada por una red neural (5). La salida desde la red neural es comparada por los parámetros almacenados en función de definición de red (4), para derivar la medición de calidad de la señal suministrada hacia la fuente (2). La función de definición de red es determinada aplicando al aparato de procesamiento instruible una medida de percepción de distorsión indicativa del grado hasta el cual la distorsión se ve perceptible para un escuchante humano.

Description

EVALUACIÓN DE CALI DAD DE SEÑAL DESCRIPCIÓN DE LA I NVENCIÓN Esta invención se refiere a la evaluación de voz portadora de señal de audio. Es de particular aplicación para la evaluación de la condición de sistemas de telecomunicaciones mientras están en uso. Las señales transportadas sobre enlaces de telecomunicaciones pueden experimentar considerables transformaciones, tales como digitalización, compresión de datos, reducción de datos, amplificación y así sucesivamente. Todos esos procesos pueden distorsionar las señales. Por ejemplo, en la digitalización de una forma de onda cuya amplitud es mayor que el valor de digitalización máximo, los picos de la forma de onda se convertirán a una forma rectangular (un proceso conocido como recortado de picos). Esto agrega armónicas indeseables a la señal. Las distorsiones pueden también ser causadas por interferencia electromagnética desde fuentes externas. Las distorsiones introducidas por los procesos antes descritos son no lineales, de manera que una señal de prueba simple puede no ser distorsionada de la misma manera que una forma de onda compleja ta9 como la voz o en su totalidad. Para un enlace de telecomunicaciones que transporta datos es posible probar el enlace utilizando todos los caracteres de datos posibles (por ejemplo los dos caracteres 1 y 0 para un enlace binario, o los dos pares de tono utilizados en sistemas D TF (multifrecuencia de tono doble). Sin embargo la voz no consta de un número limitado de elementos de señal bien definidos, sino que es una señal completamente variable, cuyos elementos varían de acuerdo no solamente con el contenido de la voz (y el lenguaje utilizado) sino también las características fisiológicas y psicológicas del hablante individual que afectan las características tales como el tono, el volumen, los sonidos vocales característicos etc. Se conoce para el equipo de telecomunicaciones de prueba el correr secuencias de prueba utilizando muestras de voz. La comparación entre las secuencias de prueba como se modifican mediante el equipo bajo prueba y la secuencia de prueba original pueden utilizarse para identificar la distorsión introducida por el equipo bajo prueba. Por ejemplo, Edmud Quincy, en la IEEE International Conference on Comunications 87; sesión 33.3; vol 2 (páginas 1164-1671 ) describe un método de análisis de una señal utilizando un sistema "basado en reglas" (también conocido como un sistema "experto"), en el cual las reglas de objetivo predeterminado se usan para generar, para una señal de entrada dada, una salida apropiada indicativa de la calidad de señal.
La disposición antes descrita requiere el uso de una secuencia de prueba pre-dispuesta, la cual significa que no puede utilizarse sobre un enlace de telecomunicaciones activo, es decir, un enlace actualmente en uso para tráfico de ingresos totales, debido a la secuencia de prueba podría interferir con el tráfico que se está transportando y sería audible para los usuarios y por tanto inversamente el tráfico mismo activo (cuyo contenido no puede ser predeterminado) sería detectado por el equipo de prueba como distorsión de la señal de prueba. Para llevar acabo pruebas sobre equipo en uso, sin interferencia con las señales que están siendo trasportadas por el equipo (así llamada prueba no intrusiva) es deseable transportar las pruebas utilizando las señales de voz activa por sí mismas como las señales de prueba. Sin embargo un problema con el uso de la voz activa como la señal de prueba es que no hay forma instantánea de obtención, en el punto de medición de una muestra de la señal original. Cualquier medio mediante el cual la señal original puede ser transmitida a la ubicación de medición sería probablemente sujeta a distorsiones similares como el enlace bajo prueba. Las solicitudes de Patente Internacional copendientes de los solicitantes de la presente W096/06495 y W096/06496 (ambas publicadas el 29 de febrero de 1996), proponen dos soluciones posibles a este problema. La W096/06495 describe el análisis de ciertas características de la voz que son independientes del hablante a fin de determinar como se ha modificado la señal mediante el enlace de telecomunicaciones. También describe el análisis de ciertas características de la voz que varían en relación a otras características no medibles directamente por sí mismas, en una forma que es consistente entre los hablantes en forma individual y que pueden por lo tanto ser utilizadas para derivar información acerca de esas otras características. Por ejemplo, el contenido espectral de un fricativo sin voz varía con el volumen (amplitud), aunque en una manera que es ampliamente independiente del hablante individual. El contenido espectral puede por lo tanto utilizarse para estimar la amplitud de señal original la cual puede ser comparada con la amplitud de señal recibida para estimar la atenuación entre el hablante y el punto de medición. En la W096/06496, el contenido de una señal recibida es analizado por un reconocedor de voz y los resultados de este análisis son procesados por un sintetizador de voz para regenerar la señal de voz que no tiene distorsiones. La señal es normalizada en tono y duración para generar un estimado de la señal de voz original que puede ser comparada con la señal de voz recibida para identificar cualesquiera distorsiones o interferencia, por ejemplo utilizando técnicas de análisis perceptual como se describe en las Solicitudes de Patente Internacional W094/00922 y W095/1 5035. Típicamente la transmisión de voz sobre un ancho de banda limitado emplea reducción de datos, los códigos predictivos lineales (LPC) se basan sobre una aproximación al tracto vocal humano y representan segmentos de forma de onda de voz como los parámetros requeridos para excitar el comportamiento equivalente en un "modelo de tracto vocal". Para muchas aplicaciones el contenido de la voz de una señal puede ser analizado mediante la identificación de parámetros del habla en un modelo de tracto vocal . Sin embargo, tales modelos no pueden modelar elementos que no son generados en el tracto vocal. Consecuentemente, los modelos de tracto vocal convencionales no pueden analizar fácilmente las distorsiones. De acuerdo con un primer aspecto de la presente invención, se proporciona un método para evaluar la calidad de una voz portadora de señal, en la cual la señal es analizada para generar parámetros de salida de acuerdo a un modelo de representación espectral capaz de generar coeficientes que pueden ser representados paramétricamente tanto ta voz como los elementos de señal de distorsión y los paramentos de salida son evaluados de acuerdo con una función de definición de red predeterminada para generar una salida derivada desde los parámetros de salida evaluados.
De acuerdo con un segundo aspecto de la invención, se proporciona el aparato para evaluar la calidad de una voz portadora de señal , que comprende medios para analizar la señal util izando una representación espectral capaz de generar coeficientes que pueden representar paramétricámente tanto la voz como los elementos de señal de distorsión para generar parámetros de sal ida, medios de al macenamiento para almacenar un conjunto de evaluaci ones que definen una función de definición de red y medios para generar un valor de salida derivado de los parámetros de salida y la función de defi nición de red. Preferiblemente la función de definición de red está derivada en una etapa preliminar a partir de los datos para los cuales se conoce el valor de salida. Debido a que una función de definición de red puede derivarse automáticamente, utilizando datos conocidos, el sistema puede producir salidas de acuerdo con funciones mucho más complejas que pueden un sistema "experto" y sin suposiciones previas acerca de los procesos fisiológicos que tienen lugar en el sistema auditivo humano. El modelo de representación espectral definido antes será referido en la siguiente descri pción como un "modelo de tracto vocal imperfecto" el cual en este contexto significa un modelo de tracto vocal que no es "ideal" aunque es capaz también de generar coeficientes que se relacionan a los elementos espectrales auditivos que el tracto vocal humano es incapaz de producir, lo cual no es el objetivo normal para el diseño del modelo del tracto vocal. En una modalidad preferida, la función de definición de redes generada utilizando muestra de voz que tiene propiedades conocidas como por ejemplo bien Condicionada o deliberadamente mal condicionada, las cuales son analizadas por el modelo de tracto vocal y los parámetros generados pueden ser identificados como relativos a señales bien o mal condicionadas, mediante un proceso instruible tal como una red neural . En esta forma las evaluaciones pueden acumularse para los parámetros del tracto vocal asociado con cada tipo de señal, de manera que cuando una señal desconocida es procesada, una salida puede ser generada utilizando las evaluaciones previamente generadas asociadas con esos parámetros que se relacionan a las señales conocidas. Preferiblemente las evaluaciones de la función de definición de red son dependientes del contexto temporal de los parámetros de salida. Para este fin, las secuencias de parámetros así como los parámetros individuales, pueden dar evaluaciones. Una secuencia de parámetros de segmentos de tiempos sucesivos deben seguir uno de un número de secuencias reconocidas que corresponden a sonidos de voz real. Un conjunto de parámetros debe ser identificado para un segmento de tiempo que no debe seguir a los miembros previos de la secuencia o que no debe aparecer del todo, esto indica que una distorsión está presente. En una modalidad, el aparato puede comprender además medios de instrucción para generar el conjunto almacenado de evaluaciones, los medios de instrucción que comprenden primeros medios de entrada para suministrar una muestra de voz a los medios de modelado; segundos medios de entrada para suministrar a los medios de instrucción la información de salida conocida, (referida en los sucesivo como "etiquetas") relativas a la muestra de voz; medios para generar evaluaciones a partir de los medios de modelación en base a las etiquetas y medios de almacenamiento para almacenar las evaluaciones generadas por los medios de modelado. Los segmentos de voz utilizados en la muestra de instrucción pueden por lo tanto ser etiquetados cada uno como bien acondicionados ("buenos") o mal acondicionados ("escasos"). Este es un compromiso importante ya que una muestra típica comprende varias horas de voz y muchas muestras son requeridas para instruir el sistema para responder correctamente a una gama de hablantes, condiciones, y otras variables. La duración de un segmento individual es típicamente de 20 milisegundos, de manera que pueden etiquetarse todos en varios millones de segmentos.
Por consiguiente, en una modalidad preferida, los medios de instrucción comprenden medios para proporcionar una secuencia que comprende una primera señal y una versión distorsionada de la primera señal, medios de análisis para recibir la secuencia de instrucción y generar una medición de percepción de distorsión para indicar el grado hasta el cual la distorsión sería perceptible a un escuchante humano y medios para aplicar la medición de percepción de distorsión al aparato de procesamiento instruible para determinar la función de definición de red. Preferiblemente el proceso de instrucción comprende las etapas de proporcionar una secuencia de instrucción que comprende una primera señal y una versión distorsionada de la primera señal, y que determina la función de definición de red mediante la medición de grado perceptual de la distorsión presente en cada segmento, como se determina mediante un proceso de análisis que comprende generar una medición de percepción de distorsión, que indica el grado hasta el cual la distorsión de la señal sea perceptible para el escuchante humano. En una disposición preferida, el proceso de análisis estima el efecto que se produciría sobre el sistema auditivo humano mediante las versiones distorsionada y no distorsionada de la misma señal y determina las diferencias entre tales efectos, y genera la medición de percepción de distorsión dependiendo de tal diferencia. Preferiblemente, el proceso de análisis genera la medición de percepción de distorsión dependiendo de la intensidad perceptual de dicha distorsión y dependiendo de manera no lineal bajo la amplitud de dicha distorsión. El proceso de análisis genera preferiblemente una pluralidad de señales de componente espectral de la señal de prueba y/o la señal distorsionada y estima, para cada señal de componentes espectral, el efecto de enmascarado que esa señal de componentes espectral produciría sobre el sistema auditivo humano. En una disposición preferida, el proceso de análisis estima el efecto que dicha distorsión produciría sobre el sistema auditivo humano mediante la descomposición de la señal distorsionada en la pluralidad de bandas de componente espectral, las bandas de componente espectral estando conformadas para proporcionar el enmascarado espectral; calcular el enmascarado temporal de la señal debido a porciones temporales precedentes y/o subsecuentes de la misma; formando, para cada una de las señales de componente espectral una representación de las diferencias entre la señal componente de la señal distorsionada y un componente calculado correspondientemente de la señal de prueba; y generar la medición de percepción de distorsión desde dicha diferencia de medida. En una disposición preferida particularmente, el proceso de análisis genera una medida de la distribución temporal y espectral de la distorsión desde la señal de diferencia. Cada secuencia de instrucción típicamente será un cuerpo grande de la voz natural para contabilizar las variaciones en las características entre diferentes hablantes. En la modalidad preferida, el proceso de análisis comprende las etapas de descomposición de la señal de voz distorsionada en la pluralidad de bandas componentes espectrales, las bandas componentes espectrales estando conformadas para proporcionar el enmascarado espectral; calcular el enmascarado temporal de la señal debido a las porciones temporales precedentes y/o sucesivas de la misma; forma para cada una de las señales de componente espectral, una representación de la diferencia entre la señal componente de la señal distorsionada y correspondientemente el componente calculado de la señal de prueba; y generar la medición de percepción de distorsión desde la medida de diferencia. Los procesos de análisis de voz adecuados se describen en las Solicitudes de patente Internacional W094/00922, W095/0101 1 y W095/15035. Etiquetando los segmentos automáticamente que usa una medición de percepción de distorsión, la función de definición de red puede derivarse de manera consistente aunque de acuerdo a otros factores perceptibles a un escuchante humano.
Una modalidad ilustrativa de la i nvención se describirá ahora, con referencia a los dibujos anexos que muestran la relación funcional de diferentes elementos de la modalidad. Se apreciaría que la i nvención puede ser modalizada ventajosamente en software para operar sobre una computadora para propósitos generales. La Figura 1 muestra los elementos funci onales de un sistema de instrucción configurado para un proceso de instrucción. La Figura 2 muestra los elementos funcionales del mismo sistema configurado para operar con datos desconocidos. La Figura 3 muestra el aparato en instrucci ón de la Figura 1 en mayor detalle. La Figura 4 muestra el aparato de análisis de la Figura 3 en mayor detalle. La Figura 5 muestra un aparato mediante el cual las muestra de voz i nicial suministradas por la fuente de datos pueden ser generadas. El sistema de las Figuras 1 y 2 comprende una fuente de instrucción de datos 1 y una fuente de tráfico activo (datos reales) 2 aunque ambos proporcionan la entrada a un analizador de tracto vocal 3. los parámetros asociados con los datos de instrucción son suministrados también desde el aparato de instrucción 1 a una unidad de clasificación 5, la cual se muestra como un proceso instruible específicamente en la red neural 5. La salida de parámetros por la unidad analizadora 3 son alimentados a la red neural 5. Durante el proceso de i nstrucción la red neural 5 proporciona parámetros a un almacén 4. Esos parámetros definen una función de definición de red, cuando se leen los datos reales, los parámetros son recuperados desde el almacén 4 y util izados por la red neural 5 para ejecutar la función de definición de red sobre los valores generados por el analizador de tracto vocal 3 para generar los datos de clasificación que son suministrados a una salida 6. Típicamente los datos de salida están en la forma de una clasificación a base de valores generados por el analizador 3, evaluados de acuerdo con la función de definición de red y que indica el grado de distorsión identificado por el sistema, por ejemplo, una señal puede ser clasificada como "buena" si todos lo parámetros evaluados exceden un valor previo determi nado, y/o si alguna combinación aritmética de los parámetros de peso (por ejemplo su suma total) excede un valor predeterminado. Algunas propiedades medibles tienen valores característicos que son predecibles a partir de la medición de uno o más diferentes. Si el valor actualmente medido no corresponde al valor predicho, entonces uno u otro de los valores ha sido distorsionado, dando de esta manera una indicación de calidad de la señal. Varios niveles de claridad pueden definirse, fijando un número de umbrales. Para propósitos prácticos la señal es analizada como una secuencia de segmentos de tiempo. Los parámetros derivados de los datos relacionados a un primer segmento de tiempo pueden utilizarse en análisis de segmentos de tiempo subsecuente. Para este propósito la salida del análisis de tracto vocal 3 es almacenada en una memoria de almacenamiento temporal 7 para uso posterior en operaciones subsecuentes de la red global 5. La Figura 3 muestra el aparato de instrucción 1 en mayor detalle. Incluye un almacén de datos 8, que comprende un primer almacén 8a de señales "buenas" y un segundo almacén 8b que tiene versiones distorsionadas de las señales buenas almacenadas en el primer almacén 8a. La buena señal desde el almacén 8a y su versión distorsionada correspondiente desde el almacén 8b se alimentan a través de primera y segunda entradas 11 y 12 respectivas hasta una unidad de análisis 9 que proporciona una salida que comprende una secuencia de etiquetas que son transmitidas a la red neural 5 (Figura 1 ). La versión distorsionada de la señal es enviada también a un segmentador 10, el cual divide la señal en segmentos individuales que corresponden a las etiquetas. Esos segmentos son transmitidos después hacia el analizador de tracto visual 3 (Figura 1 ).
La Figura 4 muestra la unidad de anál isis 9 en mayor detalle. Las entradas 1 1 y 1 2 desde el primero y segundo almacenes (8a, 8b) transportan la señal "buena" y las versiones distorsionadas de la señal buena son cada una al imentada a través de un modelo auditivo (respectivamente 1 3, 14) y las salidas de los modelos auditivos son comparados en el comparador 15. Será evidente para el lector experto que en una disposición alternativa, pasajes correspondientes de la señal buena y de la distorsionada pueden ser ali mentadas alternativamente a través del mismo modelo auditivo y las sal idas de este modelo auditivo comparadas para los pasajes de señal buena y distorsionada. La salida del comparador 1 5 se usa par generar una superficie de error en el generador de superficie de error 16 y las propiedades de la superficie de error así generadas se usan para derivar etiq uetas en un generador de etiquetas 17 apropiado para las características de la superficie de error 16. Esas etiquetas son producidas en si ncronía con la segmentación de la señal en el segmento 10. Las etiquetas son emitidas hacia la red neural 5 (Figura 1 ) . La Figura 5 muestra la generación de los datos desde el almacén de datos 8. Una señal de prueba original 18 es generada por medios adecuados como se describirá posteriormente y se transmitirá di rectamente al primer almacén 8a. La misma señal es transmitida también a través de los medios de distorsión 19 y la señal distorsionada resultante es almacenada en un segundo almacén 8b. Es apropiado aquí el describir brevemente las características de los sistemas de análisis de tracto vocal y el proceso instruible. El tracto vocal es un tubo acústico no uniforme que se extiende desde la glotis hacia los labios y varía en forma como una función de tiempo [Fant G C M, "Acoustic Theory of Speech Productions", Mouton and Co. , s-gravehage, Netherlands, 1960] . Los componentes anatómicos principales que provocan el cambio que varía con el tiempo, son los labios, las mandíbulas la lengua y el velo del paladar. Para facilidad de cálculo es deseable que los modelos para este sistema sean lineales e invariables con el tiempo. Desafortunadamente, el mecanismo de voz humano no precisamente satisface esas propiedades. La voz es un proceso que varía con el tiempo. Además, la glotis no está acoplada desde el tracto vocal, lo cual resulta en características no lineales [Flanagan J L "Source-System Interactions in the vocal Tract", Ann. New York Acad. Sci 155, 9-15, 1968] . Sin embargo, haciendo supervisiones razonables, es posible desarrollar modelos invariables con el tiempo, lineales sobre intervalos cortos de tiempo, para describir eventos de voz [ arquel J D, Gray A H, "Linear Prediction of Speech", Springer-Verlag Berlín Heidelberg New York, 1976]. Los códigos predictivos lineales dividen los eventos de voz en periodos cortos o segmentos y usan segmentos de voz pasada para generar un conjunto único de parámetros predictivos para representar ta voz en un segmento actual [Atal B S, Hanauer S L "Speech Analysis and Synthesis by Linear Prediction of the Speech Wave" j. Acoust. Soc. Amer. , vol. 50, pp. 637-355, 1971 ]. El análisis predictivo lineal se ha vuelto un método ampliamente utilizado para estimar los parámetros de voz tales como tono, formantes y espectro. Los modelos auditivos (espectrogramas de tiempo / frecuencia / amplitud) se apoyan en características audibles del sonido que son monitoreadas y no toman en cuenta cómo se producen, en tanto que el modelo de tracto vocal es capaz de identificar si la señal es similar a la voz, es decir si un tracto vocal real podría haberla producido. Por tanto, las diferencias inaudibles, no reconocidas por los modelos auditivos, serán reconocidas por un modelo de tracto vocal. Para el propósito de medir la calidad de señal, los parámetros de salida generados deben ser sensibles a la propiedad que se está midiendo, es decir la calidad de voz percibida. El modelo debe por lo tanto ser capaz de modelar la distorsión que no es similar a voz y por lo tanto un modelo de tracto vocal ideal no sería adecuado. Un modelo ideal convertiría todas las señales de entrada en formas similares a voz (no necesariamente las originales si la distorsión es severa). Esto haría que el proceso de clasificación no fuera confiable ya que las entradas distorsionadas y las entradas puras se clasificarían como similares a voz, volviendo imposible el proceso de instrucción. Es importante por tanto que el modelo de tracto de voz sea "imperfecto", en el sentido previamente definido, ya que el proceso se apoya en los parámetros de salida del modelo de tracto vocal que es sensible a la presencia de elementos de distorsión no humanos para distinguir entre las señales mal acondicionadas y las bien acondicionadas. Un modelo de tracto vocal adecuado para uso como el analizador 3 es el modelo de Código Predictivo Lineal como se describe en "Digital Processing of Speech Signáis": Rabiner L. R.; Schafer R.W; (Prentice-Hall 1978) página 396. El análisis espectral puede utilizarse como una alternativa a un modelo de tracto vocal, por ejemplo, "análisis de un tercio de octavo" como se describe el la sección 3.6 de "Frequeney Analysis" por R. B. Randall, (publicada por Bruel & Kjaer, 1987 (ISBN 87 87355 07 8). Las características se describirán ahora de los procesos instruibles y particularmente la red neural. A fin de formar el mapa de un número de entradas sobre un número menor de clases de resultados predeterminados es posible usar una serie de reglas, particularmente si el proceso de formación del mapa representa un sistema natural. Sin embargo, si el sistema natural es demasiado complejo o la formación del mapa requerido opera sobre parámetros abstractos, entonces puede usarse un proceso instruible para desarrollar la formación del mapa requerido en respuesta a una serie de resultados conocidos referidos como datos de instrucción. Los resultados conocidos usados para determinar la relación entre los parámetros de entrada y las clases de resultados de manera que las combinaciones desconocidas subsecuentes de entrada puedan ser clasificadas. Una red neural es designada para modelar la forma en la que el cerebro realiza una tarea particular o función de interés. Es posible entrenar una red neural para ejecutar cálculos útiles a través de un proceso de enseñanza [Haykin S, "neural Networks, A Comprehensive Foundation", Macmillan IEEE Press, 1994]. Para alcanzar el buen rendimiento de las redes neurales se emplea una interconexión masiva de unidades de procesamiento simple. Las intensidades de conexión de unidad de interprocesamiento, conocidas como evaluaciones, se usan para almacenar el conocimiento del sistema. [Aleksander I, Morton H "An Introduction of Neural Computing" Chapman and Hall London, 1990]. El procedimiento utilizado para ejecutar el proceso de aprendizaje es llamado algoritmo de aprendizaje, la función del cual es modificar las evaluaciones de la red de una manera ordenada para determinar un objetivo de diseño deseado. La energía de una red neural es derivada a partir de una estructura distribuida en forma masiva paralela y su capacidad para aprender y por lo tanto generalizar; la generalización se refiere a la salida razonables de producción de la red para las entradas no encontradas durante la instrucción. El aprendizaje supervisado es una forma de instrucción que involucra la presentación de ejemplos conocidos de clase para la red y después modificar las evaluaciones de interconexión para reducir al mínimo la diferencia entre la respuesta deseada y la real del sistema. La instrucción se repite para varios ejemplos de cada una de las clases de entrada hasta que la red alcanza un estado estable. Existe una analogía cercana entre la formación de mapa de entrada-salida ejecutada por una red neural y la clasificación alcanzada por la interfase estadística no paramétrica. La operación del sistema se describirá ahora.
Haciendo referencia primero a la Figura 2, los datos reales pueden ser suministrados a partir de la fuente 2 al sistema de análisis del tracto vocal 3. La distorsión y la interfase pueden provocar que algunos segmentos de tiempo individuales de las señal original se distorsionen o se pierdan juntos. Si un segmento dado puede aparecer solamente seguido de un subconjunto pequeño de los segmentos posibles, su aparición que sigue a un segmento, que no es un miembro de ese subconjunto indicando que el segmento en cuestión o su predecesor (o ambos) han sido distorsionados desde el segmento adicional lo cual fue apropiado para el concepto. Los parámetros de cada segmento original pueden ser "permitidos", (es decir los parámetros caen dentro de las escalas esperadas), aunque una secuencia de parámetros, considerados juntos puede, ser inválida, indicando que la distorsión tiene lugar. Los parámetros almacenados en el almacén 4 definen una función de definición de red que incluye tales efectos. Los parámetros generados por el análisis de tracto vocal son alimentados como entrada a la red neural 5, la cual aplica una función de definición de red a los datos generados por el análisis de tracto vocal para producir una salida 6. La función de definición de red está definida por parámetros almacenados en el almacén 4, para derivar la clasificación de ta calidad de la señal suministrada a la fuente 2. A fin de incluir parámetros que se relacionan a las propiedades dependientes del tiempo, por ejemplo para identificar no solo si las características instantáneas de la salida a partir del modelo están dentro de las capacidades del tracto vocal humano, sino también si las propiedades variantes con el tiempo están también dentro de tales capacidades, la salida desde el análisis de tracto vocal es almacenada en una memoria de almacenamiento temporal 7. Un número predeterminado de parámetros almacenados puede alimentarse como una entrada a la red neural 5 como datos "históricos" además de la muestra actual , por lo que se miden de esta manera las características dependientes del tiempo de la señal. Los parámetros almacenados pueden relacionarse a eventos tanto antes como después de la muestra actual para permitir tanto la "pre-historia" y la "post-historia" de la muestra que se toma en cuenta. Obviamente en el último caso, el análisis de la muestra actual, no puede tener lugar hasta que se halla ensamblado su post-historia. La fuente 2 puede estar conectada a muchos enlaces de telecomunicaciones individuales secuencialmente, para monitorear la calidad de señal de un gran número de enlaces. Aunque particularmente adecuado para los procesos de medición no intrusivos, la invención es utilizable también en las llamadas mediciones intrusivas, en las cuales una señal de prueba como la fuente en vez de una activa. La salida 6 puede ser exhibida en cualquier forma adecuada para un usuario. Por ejemplo una fuente que genera una clasificación que representa el rendimiento deficiente, puede indicarse a un manejador de red de manera que el enlace de telecomunicación, representado por la fuente 2 puede ser tomado fuera de servicio y reparado si es necesario, el enlace ha sido restablecido por otra ruta si es posible. En una disposición posible, tal acción puede ser controlada automáticamente, o puede ser dejada a un controlador humano para actuar sobre las indicaciones sumi nistradas por la salida 6. Los parámetros registrados por cada segmento de tiempo pueden ser almacenados como un código corto, que representa los parámetros. Esto toma menos memoria y puede reducir también considerablemente el tiempo de procesamiento. La secuencia de códigos de segmentos sucesivos debe, al igual que los parámetros que representa, seguir una de un número de secuencias reconocidas que corresponden a los sonidos de voz real. Deben ser un conjunto de parámetros que se han identificado por un segmento de tiempo que tienen un código que no debe seguir a los miembros previos de la secuencia, o que nc está codificado para todos, indicando esto que está presente una distorsión. Para generar los parámetros almacenados en el almacén 4, la red neural 5 debe ser instruida primero para establecer la función de definición de red, utilizando los datos de instrucción . Este proceso está ilustrado en la Figura 1 . Los datos de prueba son suministrados desde un aparato de instrucción 1 al analizador de tracto vocal 3. El aparato de instrucción 1 suministra también los parámetros de clasificación relativos a los datos de prueba para la red neural 5 para permitir la generación de etiquetas para definir la función de definición de red para que sea almacenada en el almacén 4. La generación de esas etiquetas se describirá ahora. Para generar el volumen de datos requeridos para i nstruir a una red neural , utilizando segmentos de voz que son demasiado cortos para ser eval uados individualmente de manera precisa por un operador humano, un método automático de generación de tales señales ha sido diseñado. Este proceso se apoya en el uso de un modelo de análisis perceptual , que es un proceso que eval úa si una distorsión de una señal es importante para un escuchante hu mano. I nicial mente una fuente de señales de prueba 8 se proporciona, la cual tiene dos almacenes asociados (8a, 8b). E¡ almacén 8a tiene una muestra de señal "buena" , la muestra completa es típicamente de longitud de varias horas . El segundo almacén 8b tiene una versión correspondiente de la misma muestra, la cual ha sido sometida a distorsión , por medio de la cual se describirá posteriormente . La muestra almacenada en el segundo almacén 8b incluye varios grados y tipos de distorsión. La señal distorsionada es dividi da en segmentos cortos (típicamente 20 milisegundos) los cuales son alimentados directamente al analizador de tracto vocal 3 (Figura 1 ) . En la unidad de anál isis 9 compara la muestra "buena" con la muestra distorsionada y genera una secuencia de etiqueta que representa el grado hasta el cual la distorsión presente en cada segmento es estimada por el modelo para ser perceptible a un escuchante humano. Este proceso de análisis se describirá en términos generales aquí, aunque las técnicas de análisis utilizadas en las Solicitudes de Patente Internacional publicadas números W094/00922, W095/01011 , y W095/1 5035 son particularmente adecuadas. El sistema de análisis se muestra en mayor detalle en la Figura 4. La muestra "buena" y la muestra distorsionada correpondiente son alimentadas respectivamente a través de las entradas 11 y 12 a un modelo auditivo 13, 14. Estas se muestran para claridad siendo modelos separados, aunque se preste a que las muestras pueden ser pasadas alternativamente a través del mismo modelo. Es en cualquier caso importante, que el mismo proceso se aplique a ambas señales. El modelo genera un número de parámetros que se refiere a la importancia perceptual de las características de los segmentos de señal individuales. El proceso puede involucrar la separación de la muestra en varias bandas espectrales sobrepuestas como utilizando filtros de sobreposición para modelar el fenómeno de enmascaramiento simultáneo, en el cual un sonido enmascara un sonido simultaneo más bajo el cual está cercano en frecuencia y puede también involucrar la comparación de cada segmento con uno o más segmentos previos o subsecuentes para modelar el fenómeno de enmascaramiento, en el cual un sonido bajo que procede o sigue inmediatamente a un sonido más alto es menos perceptible que si el sonido más alto no estuviera presente. Como se describe en las especificaciones de patente antes mencionadas, el proceso de modelo auditivo genera una superficie auditiva y las dos superficies auditivas que corresponden a la muestra "buena" y a la muestra distorsionada, son comparadas después en un comparador 15 para producir una superficie de error. Esas superficies son esencialmente una medida sobre un número de segmentos de tiempo y de frecuencia o bandas de tono (tas escalas individuales de las bandas habiendo sido seleccionadas para ser de igual importancia perceptual , por ejemplo, conformando la señal hasta la escala Bark) en la cual la magnitud percibida de la señal de sonido es representada sobre un eje perpendicular tanto a los ejes de tono como de tiempo. Las evaluaciones diferentes pueden aplicarse a valores positivos y negativos como por ejemplo para contabilizar las diferencias en deterioro que resultan de la pérdida de señal en comparación al ruido agregado. Si no hay distorsión presente en toda, la superficie de error tendrá un valor de cero sobre toda la superficie. Si, como en el ejemplo que se discute, los valores sobre la superficie de error se determinan como la magnitud absoluta de las diferencias (posiblemente evaluadas como se describe) entre las salidas de modelo auditivo, todos los valores de la superficie de error son positivos. Como se describe en las solicitudes de patente antes mencionadas, las características de la superficie de error pueden utilizarse para derivar un valor para importancia perceptual de los errores transportados en la misma. Como se describe en particular en la solicitud de patente internacional W095/15035, la magnitud absoluta del error agregado sobre la superficie de error es un factor en este valor. Sin embargo, puede hacerse una contribución mediante un valor que es dependiente de la forma de la superficie, descrito en esa especificación como la "entropía de error". Un valor evaluado final para "esfuerzo de audición", Y|_E> el cual da una indicación de la cantidad absoluta de distorsión presente, puede derivarse como sigue: Actividad de Error, EA ~ en donde c(i,j) es el valor de error en el segmento de tiempo ¡ava y la banda de tono java de la superficie de error que se analiza. La distribución del error sobre el tiempo y el tono (o en su lugar, la entropía de la distorsión, que corresponde al reciproco de la extensión a la cual se distri buye la energía) se calcula como sigue: 48 20 Entropía de Error, Ee = "??aft j) * W<*(i, })) i-I ;-/ donde a( /l•,j) -, - El término logaritmo natural (Ln) en la expresión anterior controla el grado al cual las variaciones en la amplitud de la energía afecta la entropía E_ que actúa como una función de compresión no li neal . Se encuentra que la actividad de error y el criterio de entropía de error juntos corresponden tam bién al nivel percibido de manera subjetiva de distorsión, ya que el escuchante encontrará un alto nivel de error considerablemente más notorio si está concentrado en un sólo tono durante un periodo corto de tiempo en vez de estar distribuido sobre el tono y el tiempo. El error de entropía Er£ da una medida de la distribución del error que es independiente de la magnitud de la cantidad total de error, mientras que la actividad de error E da una medida de la cantidad de error que es independiente de su distribución.
De hecho, para tomar en cuenta las unidades logarítmicas de la escala de amplitud de e rror audible empleada en esta modalidad es conveniente enunciar E ?, y E £ como E' y E'jr, como sigue: La actividad de error y las medidas de entropía de error pueden ser combi nadas para dar una buena indicación de cual es la respuesta del escuchante subjetiva a la distorsión que sería en una manera que es relativamente fuerte para ta naturaleza actual de la distorsión. Se ha encontrado que una buena indicación de la medición de "esfuerzo de audición" subjetivo YL E está dada por: YLE = -a? + a2 '°g 10 E'A + a3 E'E en donde a<| = 8.373; a = 0.05388; y 83 = 0.4090 Los valores de umbral adecuados para Y|_?r pueden utilizarse para determinar si la muestra particular debe ser etiquetada como "bien acondicionada" o "mal acondicionada".
El generador de etiqueta 17 ejecuta los cálculos anteriores y las salidas a la red neural 5, las etiquetas apropiadas para los segmentos de señal de prueba producidos por el segmentador temporal 10 desde las señales extraídas desde el almacén 8b. La fuente de las señales distorsionadas y "buenas" utilizadas en el almacén 8 puede ser suministrada desde un almacén previamente generado. Varios cuerpos de datos adecuados están ya disponibles, aunque pueden generarse fácilmente datos adicionales. La generación de tales datos es relativamente directa y se ilustra en la Figura 5. Una señal de prueba inicial, la cual puede comprender varias muestras de voz real que utilizan diferentes hablantes para asegurar una selección representativa, es alimentada al almacén "bueno" 8a. la misma señal es alimentada también a través de un generador de distorsión 19. La señal distorsionada resultante es almacenada en el almacén de señal "distorsionada" 8b. Pueden aplicarse varias fuentes diferentes de distorsión. Utilizando varias permutaciones de señales de prueba diferentes y tipos de distorsión, un gran cuerpo representativo de los datos de prueba puede generarse para servir como datos de instrucción para ser suministrados por la fuente de datos de instrucción 1. Las formas típicas de distorsión son suministradas a la señal de prueba mediante el generador de distorsión 19 para suministrar una selección representativa de tales señales para el proceso de instrucción. Esas distorsiones pueden ser generadas para simul ar varios efectos. Pueden ser generadas algorítmicamente (es decir mediante manipulación matemática de las muestras, por ejemplo para emu lar un sistema de prototipo) o pasando la señal ori ginal a través del aparato real ya sea en una instalación de prueba o en un sistema real tal como una red de telecomunicaciones. Las etiquetas suministradas por el aparato de instrucción 1 a la red neural 5 informarán a la red de la naturaleza de la señal de i nstrucción que se está transmitiendo y por lo tanto permitiendo aplicar las evaluaciones apropiadas a diferentes parámetros almacenados en el almacén 4 con respecto a los datos que tienen estas características. Los ejemplos de diferentes tipos de señales distorsionadas y no distorsionadas se sumi nistran mediante el aparato de instrucción 1 , de manera que la salida 6 puede identificar no solamente que una distorsión perceptible está presente, sino también el grado de deterioro provocado por la distorsión, es decir qué tanto perturba su presencia al escucha. Para asegurar que la definición de red es precisa, los datos de prueba para los cuales se conoce una clasificación por adelantado pueden suministrarse en la entrada 2, la clasificación generada por la función de definición de red en la red neural 5 siendo comparada después (por medios no mostrados) con ta c lasificación conocida.

Claims (31)

REIVI NDICACIONES
1 . Un método de evaluación de la calidad de una voz que transporta señal en la que la señal es analizada para generar los parámetros de salida de acuerdo con un modelo de representación espectral capaz de generar coeficientes que pueden representar paramétricamente tanto ta voz como los elementos de señal de distorsión, y los parámetros de salida son evaluados de acuerdo con una función de definición de red predeterminada para generar una salida derivada desde los parámetros de salida evaluados.
2. El método de conformidad con la reivindicación 1 , caracterizado porque la función de definición de red es derivada en una etapa preliminar a partir de los datos para los cuales se conoce el valor de salida.
3. El método de conformidad con la reivindicación 1 ó 2 caracterizado porque la función de definición de red es generada utilizando un proceso instruible, utilizado muestras bien acondicionadas y/o mal acondicionadas, modeladas por la representación espectral.
4. El método de conformidad con la reivindicación 3, caracterizado porque la función de definición de red es establecida por medio de las siguientes etapas: proporcionar una secuencia de instrucción que comprende una primera señal y una versión distorsionada de ta primera señal; y determinar la función de definición de red mediante la medición del grado perceptual de distorsión presente en cada segmento, como se determina mediante un proceso de análisis al cual la medición de percepción de distorsión es generada lo cual indica el grado hasta el cual la distorsión de la señal será perceptible para un escuchante humano.
5. El método de conformidad con la reivindicación 4, caracterizado porque el proceso de análisis estima el efecto que se produciría sobre el sistema auditivo humano mediante las versiones distorsionada y no distorsionadas de la misma señal y determina las diferencias entre tales efectos, y genera la medición de percepción de distorsión en dependencia con tal diferencia.
6. El método de conformidad con la reivindicación 4 o la reivindicación 5, caracterizado porque el proceso de análisis genera la medición de percepción de distorsión en dependencia con la intensidad perceptual de la distorsión, y en dependencia no lineal con la amplitud de la distorsión.
7. El método de conformidad con la reivindicación 4 5 ó 6, caracterizado porque el proceso de análisis genera una pluralidad de señales componentes espectrales de la señal de prueba y/o ta señal distorsionada.
8. El método de conformidad con la reivindicación 7 caracterizado porque el proceso de análisis estimado para cada señal de componente espectral , el efecto de enmascarado el cual la señal de componente espectral puede producir en el sistema auditivo humano.
9. El método de conformidad con la reivindicación 4 5 , 6, 7 u 8, caracterizado porque el proceso de análisis genera estima el efecto en el cual la distorsión puede producir en el sistema auditivo humano tomando en cuenta la persistencia temporal del efecto.
10. El método de conformidad con la reivindicación 4, 5, 6, 7, 8 ó 9, caracterizado porque el proceso de análisis descompone la señal distorsionada en una pluralidad de bandas componentes espectrales, las bandas componentes espectrales siendo configuradas para proporcionar un enmascarado espectral ; calcula el enmascarado temporal de l a señal debido a las porciones temporales que preceden y/o suceden al mismo; formar para cada una de las señales componentes espectrales, una representación de la diferencia entre las señales componentes de la señal distorsionada y un componente calculado correspondi entemente de la señal de prueba; y generar la medición de la percepción de distorsión mediante la representación de las diferencias .
11 . El método de conformidad con ta reivindicación 10 , caracterizado porque el proceso de análisis genera una medición de la distribución espectral y temporal de la distorsión de la señal de diferencia.
12. El método de conformidad con cualquiera de las reivindicaciones precedentes, caracterizado porque la función de definición de red evaluados son dependientes del contexto temporal de los parámetros de salida.
13. El método de conformidad con la reivindicación 12, caracterizado porque las secuencias de parámetros están clasificadas con valores evaluados derivado a partir de un grupo control de secuencias de parámetros.
14. El método de conformidad con la reivindicación 13, caracterizado porque los parámetros identificados para cada miembro de la secuencia se almacenan en forma breve, y se evalúan de acuerdo a un grupo de secuencias etiquetadas también almacenadas en forma breve.
15. Un aparato de evaluación de la calidad de la voz portadora de señal, caracterizada porque comprende medios para analizar la señal utilizando una representación espectral capaz de generar coeficientes que pueden representar paramétricamente tanto la voz como los elementos de señal de distorsión, para generar los parámetros de salida, los medios de almacenamiento para almacenar un grupo de evaluaciones que definen una función de definición de red, y medios para generar un valor de salida derivado de los parámetros de salida y la función de definición de la red.
16. El aparato de conformidad con la reivindicación 15, caracterizado porque comprende medios derivar las evaluaciones almacenadas a partir de datos para los cuales el valor de salida es conocido.
1 7. El aparato de conformidad con la reivindicación 14 ó 15, caracterizado además medios de instrucción para generar el grupo almacenado de evaluaciones, los medios de 3K instrucción comprenden medios para suministrar una muestra de voz a los medios de análisis; y medios para generar evaluaciones en relación a la muestra de voz e insertarlas en los medios de almacenamiento.
18. El aparato de conformidad con la reivindicación 17, caracterizado porque los medios de instrucción comprenden medios para proporcionar una secuencia de instrucción que comprende una primera señal y una versión distorsionada de la primera señal, medios de análisis para recibir la secuencia de instrucción y generar una medida de percepción de distorsión para indicar el grado al cual la distorsión sería perceptible para un escuchante humano y para aplicar la medición de percepción de distorsión al aparato de procesamiento instruible para determinar la función de definición de red.
19. El aparato de conformidad con la reivindicación 18, caracterizado porque los medios de análisis comprenden medios de medición para evaluar el efecto que podría ser producido en el sistema de audición humano mediante versiones distorsionadas y sin distorsionar de la misma señal, medios para determinar las diferencias entre los efectos, y medios para generar la medición de percepción de distorsión en dependencia de la diferencia.
20. El aparato de conformidad con la reivindicación 18 o la reivindicación 19, caracterizado porque los medios de análisis generan una medición de percepción de distorsión cuyo valor es dependiente de la intensidad perceptual de la distorsión, y dependiente no linealmente de la amplitud de la distorsión.
21 . El aparato de conformidad con la reivindicación 18, reivindicación 19 o reivindicación 20, caracterizado porque los medios de análisis comprenden medios de medición para generar una pluralidad de señales de componente espectral de la señal de prueba y/o de la señal distorsionada.
22. El aparato de conformidad con la reivindicación 21 , caracterizado porque los medios de medición evalúan para cada señal de componente espectral, el efecto de enmascarado al cual la señal de componente espectral puede producir sobre el sistema de audición humano.
23. El aparato de conformidad con la reivindicación 18, 19, 20, 21 ó 22, caracterizado porque los medios de análisis incluyen medios de medición para evaluar el efecto que la distorsión puede producir en el sistema de audición humano tomando en cuenta ta persistencia temporal del efecto.
24. El aparato de conformidad con la reivindicación 23, caracterizado porque los medios de análisis comprenden medios de medición para generar una secuencia de tiempo de segmentos de señal procesados sucesivos de la prueba de señal y/o la señal distorsionada, el valor de por lo menos algunos segmentos de señal siendo generados en dependencia de porciones de la señal de prueba y/o señal distorsionada la cual precede y/o sucede los segmentos de señal.
25. El aparato de conformidad con la reivindicación 19, 20, 21 , 22, 23 ó 24, caracterizado porque los medios de análisis comprenden medios de medición para descomponer la señal distorsionada en una pluralidad de bandas de componente espectral, tas bandas de componente espectral siendo formadas para proporcionar un enmascarado espectral, y para calcular el enmascarado temporal de la señal debido a porciones temporales que preceden y/o suceden al mismo; medios para formar para cada una de las señales de componente espectral una representación de la diferencia entre la señal componente de la señal distorsionada y un componente calculado correspondientemente de la señal de prueba; y medios de cálculo para generar la medición de percepción de distorsión de la representación de diferencia.
26. El aparato de conformidad con la reivindicación 27, caracterizado porque los medios de cálculo generan una medición de la distribución espectral temporal de la distorsión de ta señal de diferencia.
27. El aparato de conformidad con cualquiera de las reivindicaci ones 14 a 26, caracterizado porque las evaluaciones que definen la función de definición de red son dependientes en el contexto temporal de toa parámetros de salida, y medios que comprenden para al macenar parámetros de salida que se relacionan a una pluralidad de momentos temporales, los medios para generar un valor de sal ida que está dispuesto para derivar el valor de salida de los parámetros de salida almacenados y la función de definición de red.
28. El aparato de conformidad con la reivindicación 27, caracterizado porque comprende medios para almacenar una secuencia de los parámetros de salida como son generados y medios para generar una salida de la secuencia de acuerdo con un grupo de evaluaciones predeterminadas para tales secuencias.
29. El aparato de conformidad con la reivindicación 28, caracterizado porque comprende medios para almacenar los parámetros en las secuencias en forma breve.
30. Un aparato sustancial mente como se describi ó con referencia a los dibujos anexos.
31 . Un método sustancialmente como se descri bió con referencia a los dibujos anexos.
MX9800434A 1995-07-27 1996-07-25 Evaluacion de calidad de señal. MX9800434A (es)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP95305313.9 1995-07-27
EP95305313 1995-07-27
GB9604315.3 1996-02-29
GBGB9604315.3A GB9604315D0 (en) 1996-02-29 1996-02-29 Training process
EP96301393.3 1996-02-29
EP96301393 1996-02-29
PCT/GB1996/001821 WO1997005730A1 (en) 1995-07-27 1996-07-25 Assessment of signal quality

Publications (2)

Publication Number Publication Date
MXPA98000434A true MXPA98000434A (es) 1998-04-01
MX9800434A MX9800434A (es) 1998-04-30

Family

ID=27236875

Family Applications (1)

Application Number Title Priority Date Filing Date
MX9800434A MX9800434A (es) 1995-07-27 1996-07-25 Evaluacion de calidad de señal.

Country Status (12)

Country Link
US (1) US6035270A (es)
EP (1) EP0840975B1 (es)
JP (1) JP4005128B2 (es)
KR (1) KR19990028694A (es)
CN (1) CN1192309A (es)
AU (1) AU694932B2 (es)
CA (1) CA2225407C (es)
DE (1) DE69626115T2 (es)
MX (1) MX9800434A (es)
NO (1) NO980331D0 (es)
NZ (1) NZ313705A (es)
WO (1) WO1997005730A1 (es)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process
US6119083A (en) * 1996-02-29 2000-09-12 British Telecommunications Public Limited Company Training process for the classification of a perceptual signal
DE69823817T2 (de) * 1997-05-16 2005-04-14 British Telecommunications P.L.C. Prüfung von telekommunikationseinrichtungen
US6438373B1 (en) * 1999-02-22 2002-08-20 Agilent Technologies, Inc. Time synchronization of human speech samples in quality assessment system for communications system
KR100623214B1 (ko) * 1999-05-25 2006-09-12 내셔널 세미컨덕터 코포레이션 음성 및 오디오신호의 실시간 품질 분석기
ATE306116T1 (de) * 1999-07-08 2005-10-15 Koninkl Philips Electronics Nv Spracherkennungseinrichtung mit transfermitteln
WO2001035393A1 (en) 1999-11-08 2001-05-17 British Telecommunications Public Limited Company Non-intrusive speech-quality assessment
EP1297646B1 (en) * 2000-06-12 2006-04-19 BRITISH TELECOMMUNICATIONS public limited company In-service measurement of perceived speech quality by measuring objective error parameters
EP1241663A1 (en) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Method and device for determining the quality of speech signal
EP1244312A1 (en) * 2001-03-23 2002-09-25 BRITISH TELECOMMUNICATIONS public limited company Multimodal quality assessment
US7689406B2 (en) * 2002-03-08 2010-03-30 Koninklijke Kpn. N.V. Method and system for measuring a system's transmission quality
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7165025B2 (en) * 2002-07-01 2007-01-16 Lucent Technologies Inc. Auditory-articulatory analysis for speech quality assessment
EP1443496B1 (en) * 2003-01-18 2006-07-19 Psytechnics Limited Non-intrusive speech signal quality assessment tool
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment
EP1492084B1 (en) * 2003-06-25 2006-05-17 Psytechnics Ltd Binaural quality assessment apparatus and method
US7801280B2 (en) * 2004-12-15 2010-09-21 Verizon Laboratories Inc. Methods and systems for measuring the perceptual quality of communications
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
WO2009023807A1 (en) * 2007-08-15 2009-02-19 Massachusetts Institute Of Technology Speech processing apparatus and method employing feedback
JP2012503212A (ja) * 2008-09-19 2012-02-02 ニューサウス イノベーションズ ピーティーワイ リミテッド オーディオ信号分析方法
US20130080172A1 (en) * 2011-09-22 2013-03-28 General Motors Llc Objective evaluation of synthesized speech attributes
US20180082703A1 (en) * 2015-04-30 2018-03-22 Longsand Limited Suitability score based on attribute scores
CN105391873A (zh) * 2015-11-25 2016-03-09 上海新储集成电路有限公司 一种在移动设备中实现本地语音识别的方法
US9591125B1 (en) * 2016-02-23 2017-03-07 Verizon Patent And Licensing Inc. Testing audio quality associated with a user device during a double talk communication
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
CN106531190B (zh) * 2016-10-12 2020-05-05 科大讯飞股份有限公司 语音质量评价方法和装置
EP3373208A1 (en) * 2017-03-08 2018-09-12 Nxp B.V. Method and system for facilitating reliable pattern detection
CN111179973B (zh) * 2020-01-06 2022-04-05 思必驰科技股份有限公司 语音合成质量评价方法及系统
CN111370028A (zh) * 2020-02-17 2020-07-03 厦门快商通科技股份有限公司 一种语音失真检测方法及系统
CN112086100B (zh) * 2020-08-17 2022-12-02 杭州电子科技大学 基于量化误差熵的多层随机神经网络的城市噪音识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04345327A (ja) * 1991-05-23 1992-12-01 Nippon Telegr & Teleph Corp <Ntt> 通話品質客観測定方法
US5715372A (en) * 1995-01-10 1998-02-03 Lucent Technologies Inc. Method and apparatus for characterizing an input signal
US5867813A (en) * 1995-05-01 1999-02-02 Ascom Infrasys Ag. Method and apparatus for automatically and reproducibly rating the transmission quality of a speech transmission system
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process

Similar Documents

Publication Publication Date Title
MXPA98000434A (es) Evaluacion de calidad de señal
CA2225407C (en) Assessment of signal quality
US6119083A (en) Training process for the classification of a perceptual signal
Huber et al. PEMO-Q—A new method for objective audio quality assessment using a model of auditory perception
EP0722164B1 (en) Method and apparatus for characterizing an input signal
EP0776567B1 (en) Analysis of audio quality
US5621854A (en) Method and apparatus for objective speech quality measurements of telecommunication equipment
JP4308278B2 (ja) 電気通信装置の客観的音声品質測定の方法および装置
US5794188A (en) Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
US5799133A (en) Training process
KR20100085962A (ko) 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템
JP4008497B2 (ja) トレーニングプロセス
Nielsen Objective scaling of sound quality for normal-hearing and hearing-impaired listeners
Hauenstein Application of Meddis' inner hair-cell model to the prediction of subjective speech quality