MXPA96006483A - Metodo y sistema para realizar reconocimiento de habla - Google Patents
Metodo y sistema para realizar reconocimiento de hablaInfo
- Publication number
- MXPA96006483A MXPA96006483A MXPA/A/1996/006483A MX9606483A MXPA96006483A MX PA96006483 A MXPA96006483 A MX PA96006483A MX 9606483 A MX9606483 A MX 9606483A MX PA96006483 A MXPA96006483 A MX PA96006483A
- Authority
- MX
- Mexico
- Prior art keywords
- speech signals
- speech
- signals
- improved
- cepstral
- Prior art date
Links
Abstract
La presente invención se refiere a procesamiento para reconocimiento de habla compensado para mejorar robustez de reconocimiento de habla en la presencia de señales de habla mejoradas. La compensación supera los efectos adversos que puede tener la mejora de señal de habla en el desempeño de reconocimiento de habla, en donde la mejora de señal de habla provoca desajustes acústicos entre modelos de reconocimiento entrenados utilizando señales de habla no mejoradas y caracteriza a datos extraídos de las señales de habla mejoradas. Se proporciona compensación en el extremo frontal de un sistema de reconocimiento de habla automático, al combinar codificación predictiva lineal y análisis de parámetro cepstral basado en mel para calcular características cepstral de señales de habla transmitidas y utilizadas para procesamiento de reconocimiento de habla, por bancos de filtro mel ponderados selectivamente, cuando se procesan representaciones de dominio de frecuencia de las señales de habla mejoradas.
Description
MÉTODO Y SISTEMA PARA REALIZAR RECONOCIMIENTO DE HABLA Campo de la Invención Esta invención se relaciona a procesamiento para reconocimiento de habla y más particularmente se relaciona al desempeño del reconocimiento de habla para minimizar sensibilidad, cuando se han mejorado las señales de habla. Antecedentes de la Invención Las señales de habla que se transmiten a través de una red de telecomunicaciones tales como una red central de larga distancia, a menudo pueden ser afectadas acústicamente por condiciones variables desconocidas. Estas condiciones pueden deteriorar significativamente el desempeño de un sistema de reconocimiento de habla automático (ASR = automatic speech recognition) que típicamente se incluye en esa red. Estas condiciones pueden incluir, por ejemplo interferencia del ambiente, interferencia de canal, y el empleo de diferentes equipos para detección de sonido. Un sistema ASR típico realiza reconocimiento de habla al comparar datos característicos correspondientes representativos de señales de habla transmitidas, con patrones de datos representativos de unidades fonéticas, conocidas como modelos de reconocimiento de entrenamiento. Los modelos de reconocimiento típicamente se obtienen al verificar la transmisión de señales de habla predeterminadas que tienen características fonéticas conocidas a través de la misma REF: 23759 trayectoria de conexión de red que las señales de habla actuales tales como aquellas que ocurren durante una conversación telefónica, serán transmitidas a un sistema ASR. En muchos casos, la presencia de condiciones variables desconocidas en una trayectoria de red puede provocar desajustes acústicos entre los modelos de reconocimiento y los datos de prueba. Estos desajustes acústicos pueden provocar deterioro en desempeño de reconocimiento de habla. Es probable que ocurran desajustes acústicos por ejemplo cuando las señales de habla transmitidas a través de una trayectoria de red se mejoran para realzar la calidad de habla a percepción de humanos. Cuando ocurre esta mejora, el desempeño de reconocimiento de habla puede ser subópti o en donde los modelos de reconocimiento empleados en el procesamiento de reconocimiento de habla no se han generado o entrenado en una trayectoria de conexión de red que incluye circuitos para mejora de señal de habla similares. Las actuales técnicas para procesamiento de señal de habla que intentan proporcionar la robustez de un sistema ASR en características de correspondencia representativas de señales de habla detectadas con modelos de reconocimiento, típicamente no compensan suficiente desajustes acústicos que pueden resultar como se discutió anteriormente.
Compendio de la Invención La presente invención se dirige a un método y sistema para mejorar el desempeño de reconocimiento de habla. La información se emplea para implementar compensación que proporciona robustez superior a desempeño de reconocimiento de habla en redes con mejora, cuando por ejemplo los modelos de reconocimiento no se han generado o entrenado en una trayectoria de conexión de red con circuitos para mejora similar. La información empleada pertenece a los efectos espectrales de mejora en las señales de habla durante transmisión sobre una trayectoria de conexión de red. En un aspecto de la presente invención, se compensa la mejora de señal de habla durante el desempeño del procesamiento de extracción de careicterísticas en el extremo frontal de un sistema de reconocimiento de habla que incluye un extractor de características y un reconocedor de habla. El extractor de características calcula características cepstral de las señales de habla mejorada, utilizando una combinación de codificación predictiva lineal (LPC) y análisis el-filtro. El extractor compensa la mejora con las señales de habla variantes en tiempo después de que se transforman a una representación de dominio de frecuencia. Un aspecto del método inventivo dispone que, primero se muestre las señales de habla mejoradas variantes con el tiempo. Estas muestras se recolectan en cuadros, y luego convierten de representaciones en tiempo a representaciones en dominio de frecuencia utilizando transformación fourier. Luego, el espectro de la potencia de cada cuadro se somete a ponderación selectiva en procesamiento de banco mel-filtro, en donde las ponderaciones compensan selectivamente el efecto de la mejora en las características espectrales de las señales de habla. Subsecuentemente, aspectos cepstral se obtienen al calcular coeficientes de autocorrelación a partir de representaciones espectrales de las señales de habla mejoradas, compensadas y luego al realizar análisis LPC y recursión cepstral . Características adicionales y ventajas de la presente invención serán fácilmente aparentes a aquellos con destreza ordinaria en la técnica, por referencia a las siguiente descripción detallada y dibujos acompañantes. Breve Descripción de los Dibujos La FIGURA 1 ilustra un diagrama de bloques de una red de telecomunicación mejorada adecuada para realizar procesamiento de reconocimiento de habla, en señales de habla mejorada de acuerdo con la presente invención. La FIGURA 2 es un diagrama de bloques ilustrativo de un procesador de señal de habla que puede incluirse en un sistema de la FIGURA 1 para realizar reconocimiento de habla, al calcular características cepstrura mel-LPC de las señales de habla mejorada de acuerdo con la presente invención.
La FIGURA 3 es un diagrama de bloques ilustrativo de un extractor de características compensadas ejemplar. La FIGURA 4 es un diagrama de flujo y un método para realizar reconocimiento de habla de acuerdo con la técnica de la presente invención de calcular características cepstrum mel-LPC de señales de habla mejoradas. Descripción Detallada La FIGURA 1 muestra un diagrama de bloques de una red de telecomunicaciones ejemplar 100, adecuada para realizar el procesamiento para reconocimiento de habla en señales de habla mejoradas de acuerdo con la técnica de la presente invención. Con referencia a la FIGURA 1, la red 100 puede convenientemente comprender una pluralidad de oficinas de cuota, tales como las oficinas de cuota 105 y 110, que pueden estar interconectadas en cualquiera de una variedad de formas bien conocidas entre sí p>ara proporcionar conexiones de voz y datos de larga distancia para sus subscriptores, tales como usuarios de teléfono, asociados con equipos de estaciones SI y
S2. Una central local 50 conecta la estación SI con la oficina de cuota 10 y una central local 75 conecta la estación S2 con la oficina de cuota 110. La red 100 convenientemente puede además incluir un dispositivo para mejora de habla o mejorador 107 en la trayectoria de conexiones entre las oficinas de cuota 105 y 110, para mejorar la calidad de señales de habla antes de que se reciban por un subscriptor, tal como un usuario de teléfono. Por ejemplo, el mejorador 107 puede incluir circuitos convenientes, tales como circuitos para cancelación de eco, u otros circuitos, para incrementar o disminuir el nivel de energía de las señales de habla. Ver Patente de los E.U.A. No. 5,195,132 incorporada aquí por referencia, para una descripción más detallada de la implementasión de mejora de señal de habla en una red que involucra incrementar los niveles de energía de frecuencias selectas. De acuerdo con la presente invención, un procesador de señal de habla 102 se incluye adicionalmente en la trayectoria de conexión de red, para recibir señales de habla desde el mejorador 107 y proporcionar procesamiento de señal para reconocimiento de seiüal de habla, incluyendo la extracción de características, tal como se discute más completamente a continuación. Una conexión de teléfono de la estación SI a la estación S2 se establece convenientemente a través de la central local 50, la oficina de cuota 105, el mejorador 107, el procesador 102, la central de cuota 110 y la central local 75, de acuerdo con términos convencionales, como se describirán aquí. Habrá de entenderse que la red 100 puede ser cualquier red de telecomunicaciones bien conocidas tal como la red AT&T. En las redes de telecomunicaciones de la técnica previa, el cálculo de parámetros, conocido como características, para caracterizar señales de habla variantes con el tiempo era altamente sensible a la introducción de variaciones acústicas a señales de habla, por ejemplo mediante mejoras de señales de habla. £sta condición se notó particularmente para el cálculo de características preferidas tales como características cepstral. Como resultado, la inclusión de esta mejora de señal de habla en una trayectoria de conexión de red decorada severamente el desempeño del procesamiento de reconocimiento de habla automático (ASR = automatic speech recognition) en donde los modelos de reconocimiento empleados para ajustar datos característicos representativos de las señales de habla transmitidas se entrenaron en una trayectoria de red que no incluye circuitos para mejora de señal de habla idénticos o similares. De acuerdo con la presente invención, el procesador 102 incluido en la red 100 opera convenientemente para minimizar niveles de error, cuando se realiza reconocimiento de habla en señales de habla transmitida que pueden haber sido mejoradas por el mejorador de señal de habla 107 antes de direccionar adicionalmente al dispositivo de procesamiento ASR tal como el procesador 102. El procesador 102 esencialmente realiza operaciones para compensación de mejora que producen robustez mejorada al procesamiento para reconocimiento de habla basado en características cepstral. En forma alterna, el procesador 102 en la red 100 puede operar de acuerdo con la técnica y energía presente, para minimizar niveles de error cuando se realiza reconocimiento de habla en señales de habla transmitidas que no se han mejorado antes de dirigirse al procesador 102, o se han mejorado por un mejorador que introduce una mejora a las señales de habla que difieren de la mejora compensada por el procesador 102. Para propósitos de ilustración, se considera que modelos de reconocimiento empleados en realizar ajuste de características durante el procesamiento de reconocimiento de habla en el procesador 102, se han entrenado sobre una trayectoria de red que no incluye circuitos para mejora de señal de habla. Para propósitos de ilustración, el mejorador 107 introduce mejoras de señal de habla a las señales de habla transmitidas de la estación SI a la estación S2 durante direccionamiento a través de la red al procesador 102. Se considera que, para las señales de habla transmitidas dirigidas al procesador 102 que se han mejorado por el mejorador 107, la información concerniente a la naturaleza de la mejora está disponible para implementar en el procesador 102, en la forma descrita a continuación, para permitir compensación conveniente de la mejora. Para propósitos de claridad y brevedad, se considera un conocimiento de técnicas de procesamiento para reconocer habla que involucran el uso de codificación predictiva lineal (LPC = linear predictive coding) de análisis de filtro mel, para extraer características cepstral de datos representativos de las características espectrales de las señales de habla. Ver Rabiner, Lawrence y Juang, Bing-Hwuang, "Fundamentáis of Speech Reco?mition" (Fundamentos de Reconocimiento de Habla) (1993), páginas 103-107, 112-117 y 183-190 incorporada aquí por referencia. En breve, el procesamiento LPC involucra extraer características de las señales de habla por separación de tracto-fuente y modelar picos espectrales como una combinación lineal de muestras de habla pasadas. Si el análisis de filtro mel involucra extraer características de las señales de habla, con base en el reconocimiento de perceptividad humana de los componentes espectrales acústicos de las señales de habla, al muestrear ventajosamente el espectro completo de señales de habla en términos de paso subjetivo de tonos puros a intervalos de escala así denominada mel. Estos valores de intervalos de escala mel se implementan convencionalmente como bancos de filtro conocidos como banco de filtro mel, para modificar convenientemente componentes espectrales de señales de habla para mejorar el reconocimiento de habla total. En un aspecto de la presente invención, el análisis LPC se combina con el análisis de banco filtro-mel para calcular características cepstral que compensan la distribución de mejora a señales de habla transmitidas, en donde la compensación se implementa cuando las señales de habla mejoradas se han transformado convenientemente a la representación de dominio de frecuencia. Como se describe más completamente a continuación, el cálculo de características cepstrum-mel-LPC incluye un análisis de banco filtro mel seguido por análisis LPC, en donde se calculan coeficientes de auto correlación con base en la escala de frecuencias perceptuales y cuando se realiza un alisamiento del espectro de potencia utilizando técnicas LPC. Para propósitos de ilustración, el mejorador 107 incluye circuitos de mejora similares a aquellos descritos en la patente de los E.U.A. No. 5,195,132 anteriormente citados (a continuación mejora TruVoiceMS) para mejorar señales de habla dirigidas al procesador 102 desde de la estación. SI, el procesamiento para reconocimiento de habla se realiza en el procesador 102 utilizando modelos de reconocimiento entrenados que utilizan señales de habla que no se han mejorado. La FIGURA 2 muestra una modalidad ejemplar del procesador 102 que puede realizar operaciones aritméticas para calcular características cepstrum mel-LPC para proporcionar reconocimiento de habla altamente robusto para señales de habla mejoradas por la mejora TruVoice148 en el mejorador 107. Con referencia a la FIGURA 2, el procesador 102 incluye convenientemente bloques funcionales individuales para realizar cálculos mel-cepstral y ajuste de características para señales de habla transmitidas incluyendo o sin mejoras. Las funciones que estos bloques representan pueden ser proporcionadas a través del uso ya sea de equipo físico compartido o dedicado, incluyendo pero no limitado a equipo físico capaz de ejecutar soporte lógico. En una modalidad preferida, los bloques funcionales en el procesador 102 comprenden un extractor de característica compensado 202 y un reconocedor 204 que incluyen una memoria del modelo reconocedor de entrenamiento 206, como RAM. El extractor 202 y el reconocedor 204 se conectan convenientemente a una memoria 208. La memoria 208 incluye instrucciones programadas que pueden realizarse convenientemente para implementar la presente técnica inventiva. Como se describe a continuación, los bloques funcionales del extractor 202 y el reconocedor 204 permiten el procesamiento de señales de habla transmitidas por la oficina de cuota 105 o 110 de acuerdo con implementación de la técnica inventiva presente. Habrá de entenderse que las operaciones realizadas por los bloques funcionales pueden realizarse similarmente utilizando un procesador compartido simple. Este procesador puede comprender un procesador de señal digital standard e incluirá memoria de sobre lectura u otra memoria apropiada para almacenar soporte lógico y realizar las operaciones discutidas a continuación. Además, la técnica de la presente invención puede implementarse utilizando programas grabados en memoria inalterable o por componentes discretos implementados en un circuito integrado. Otras modalidades convenientes pueden implementarse fácilmente por aquellos con destreza ordinaria en la técnica. Por ejemplo, mientras que co o se ilustra en la FIGURA 2, el extractor de característica compensado 102 se conecta para recibir su alimentación del mejorador 107, puede conectarse directamente a una oficina de cuota tal como la oficina de cuota 105, sin una mejora intermedia alguna. La FIGURA 3 muestra en detalle una modalidad ejemplar del extractor 202 que puede realizar las operaciones para compensar mejoras señales de habla que se describen a continuación en conexión con la FIGURA 4. Con referencia a la FIGURA 3, el extractor 202 puede convenientemente comprender un receptor 211, un pre-enf tizador 212, un bloqueador de cuadro 213, un multiplicador Hamming 214, un convertidor de dominio de frecuencia 215, un compensador 216 y una computadora de características cepstral 217. Estos bloques funcionales convenientemente realizan operaciones para implementar la técnica de la presente invención como se discute más completamente a continuación en conexión con la FIGURA 4. Habrá de entenderse que las operaciones realizadas en cada uno de estos bloques funcionales pueden implementarse utilizando una combinación de soporte lógico y/o equipo físico así como por soporte lógico solamente. Con referencia a la FIGURA 2 , el extractor de características compensadas 202 es esencialmente un procesador de extremo frontal en un sistema ASR que realiza operaciones para calcular características cepstral mel-LPC de las señales de habla variantes en tiempo, dirigidas desde la oficina central 105, con base en representaciones de dominio de frecuencias espectrales de las características de estas señales. Las características cepstral mel-LPC finalmente calculadas por la computadora de características cepstral 217 del extractor 202 describen las propiedades acústicas amplias de diferentes unidades fonéticas que se utilizan convencionalmente para reconocimiento de habla. En particular, el compensador 216 y la computadora de características cepstral 217 combinan análisis de banco mel-filtro y LPC, para calcular un conjunto de características cepstral compensadas y representativas de señales de habla transmitidas que proporcionan el procesamiento ASR en la red 100 por el reconocedor 204, es substancialmente insensible a variaciones acústicas provocadas por la mejora. Las características sepstral mel-LPC se proporcionan al reconocedor 204 que las compara con los modelos de reconocimiento almacenados en la memoria 206 para determinar la mejor palabra o secuencia de palabras que se ajusta a la unidad fonética representada por las características calculadas. Un reconocedor conveniente por ejemplo puede utilizar técnicas para reconocimiento basado en modelo de Markov oculto bien conocidas (HMM). Se nota que se requiere algún conocimiento a priori de la mejora introducida tal como mejora TrueVoice3" para utilizar la compensación de mejora utilizando dominio de frecuencia representativo de señales de habla, de acuerdo con la técnica inventiva presente. Esta información puede estar generalmente disponible al público. En forma alterna, puede determinarse información concerniente a mejora, por ejemplo utilizando técnicas estándar de muestreado empírico de señales de habla transmitidas a través de una trayectoria de conexión de red que incluye circuitos para mejora de señal de habla. En comparación, técnicas previas de substracción de medios cepstral y remoción des vibración de señal no requiere conocimiento previo de variaciones acústicas de señales de habla y se consideran como técnicas basadas en desconvolución ciega. La FIGURA 4 muestra un método 220 para calcular características cepstrum mel-LPC de señales de habla variantes en tiempo mejoradas en el extractor de características compensado 202 del procesador 102, utilizan los bloques funcionales ejemplares ilustrados en la FIGURA 3. Para propósitos de ilustración, se considera que se digitalizan las señales de habla, de preferencia a una velocidad de 8.0 kHz para emular una red de telefonía digital, antes de dirigirse al extractor 202. Con referencia a la FIGURA 4, la etapa 222, el receptor 211 recibe las señales de habla mejoradas desde el mejorador 107. Luego, en la etapa 224, el pre-enfatizador 212 procesa las muestras de señal de habla digitalizadas para proporcionar aplastamiento espectral. El pre-énfasis se realiza convenientemente utilizando por ejemplo una red digital de primer orden convencional. En la etapa 226, el bloqueador de cuadro 213 recolecta o forma bloques de las muestras de señal de habla en cuadro. Un solo cuadro consiste de secciones de muestras de habla consecutivas que corresponden a n msegundos de señal y cuadros consecutivos están espaciados m msegundos. En la etapa 228, el multiplicador Hamming 214 multiplica cada cuadro de las muestras o una ventana Hamming como es convencional en la especialidad. En la etapa 230, el convertidor de dominio de frecuencia 215 realiza una transformación Fourier en cada segmento de ventana de habla para generar un conjunto de muestras espectrales que corresponden a las señales de habla mejoradas recibidas en el receptor 211. En la etapa 232, el compensador 216 procesa cada cuadro para provocar que el espectro de potencia para cada cuadro de muestras espectrales pase a través de un conjunto de M bancos filtro mel, pueden que ser convenientemente triangulares en forma. Los bancos filtro mel se ponderan convenientemente para compensar los efectos que pueden tener la mejora en el cálculo de las características cepstral de las señales de habla transmitidas. En otras palabras, los efectos de mejora en señales de habla se compensan en el compensador 216 que realiza operaciones en representaciones de dominio de frecuencia de las señales de habla mejoradas. Se nota que el cálculo cepstrum mel-LPC dispone que la ganancia de cada banda espectral pueda ser controlada completamente. Esto permite compensar mejora de señal de habla simplemente al imponer una función de ponderación en los bancos de filtro mel. Por ejemplo, la compensación para mejora de señal de habla puede realizarse para implementar filtrado de paso alto ideal al desenfatizar aquellos bancos de filtro mel indeseables antes de calcular características cepstral a partir de la representación de dominio de frecuencia de las señales de habla utilizando técnicas LPC. Esta ponderación del coeficiente de valor de datos en el dominio espectral es extremadamente ventajosa y permite el cálculo de característica cepstral compensadas de señales de habla mejoras, que pueden ajustarse convenientemente a reconocer modelos no entrenados utilizando señales de habla mejoradas. Se nota que las características cepstral una vez calculadas no pueden ponderarse en una forma análoga. Además se nota que este procesamiento de señales de habla mejoradas puede aproximarse burdamente por filtrado de las señales de habla mejoradas mientras que aún están en su representación de dominio de tiempo. En la modalidad ejemplar de la red 100 en donde la mejora TrueVoice8" se introducirá a las señales de habla por el mejorador 107, la información concerniente a las características de la mejora TrueVoice3" será empleada para determinar las ponderaciones aplicadas a los bancos mel-filtro del compensador 216. De análisis experimental, se encontró que la mejora TrueVoiceSM involucra filtrado de señales de habla utilizando un filtro de pre-énfasis (p-filtro) y aplicar un AVC lentamente variante (controlador de volumen automático) a las señales, en donde el filtro p introduce un polo espectral de 10-20 dB en algún lugar en la banda de frecuencia entre 150Hz y 220 Hz. En este caso, los bancos de filtro mel implementarán el filtrado de paso alto deseado en el dominio de frecuencia, que resultará en una modificación de las características cepstrum calculadas y de esta manera mejorará lo robusto del desempeño de reconocimiento de habla hacia refuerzo de energía de baja frecuencia. Por ejemplo, a los bancos de filtro mel con una frecuencia exterior 290 Hz se les pueden asignar ponderación cero y los bancos de filtro que tienen frecuencias sobre 290 Hz pueden asignarse ponderación unitaria. En otras palabras, el efecto de mejora TrueVoice3* en el reconocimiento de señal de habla se minimizará al desenfatizar las bandas espectrales mel de baja frecuencia utilizadas en el cálculo de cepstrum mel-LPC. De preferencia, un umbral de 290 Hz se implementará, de manera tal que las bandas de frecuencia de banco mel por debajo de este umbral no se considerarán durante el cálculo del cepstrura. Este procesamiento cepstrum mel-LPC puede considerarse como filtrado de paso alto ideal en donde las bandas de baja frecuencia a 290 Hz se atenúan fuertemente.
Con referencia a la FIGURA 4, en la etapa 234, la computadora de características cepstral 217 aplica una IDCT (transformada coseno discreto inverso) al espectro de energía alisado para dar Q coeficientes de auto correlación, en donde Q es convenientemente ajustado a 12. En la etapa 236, la computadora y características cepstrum 217 convierte cada conjunto de coeficientes de auto correlación primero el coeficiente LPC, utilizando por ejemplo el algoritmo de fusión Durbin, y luego parámetros cepstral utilizando la recursión estándar LPC-a-cepstrum. La dimensión del vector cepstral es convenientemente ajustada a 12. Finalmente, en la etapa 238, el reconocedor 204 intenta ajustar los modelos de reconocimiento almacenados en la memoria de modelo 206 a las características cepstral calculadas para las señales de habla mejoradas compensadas y proporcionan datos representativos que las operaciones de ajuste de característica para direccionamiento adicional a la estación S2 como es convencional en la técnica. Se nota que la técnica de cálculo de características cepstrum Mel-lPC puede proporcionar superior robustez hacia mejora de habla y en algunos casos no afectar adversamente el desempeño ASR incluso cuando la mejora no se ha introducido y las características cepstrum Mel-LPC permiten compensación de una mejora particular a señales de habla. Habrá de entenderse que diferentes filtros y frecuencias de cortes pueden emplearse para implementar la técnica inventiva presente de utilizar el procesamiento de banco filtro mel para compensar mejora en señales de habla. Además se nota que, para mejora en señal que involucra las modificaciones al espectro de habla, un sistema de extremo frontal robusto, tal como aquel que calcula características cepstrum mel-LPC, proporciona fácil acceso al sistema de reconocimiento de habla para alterar el espectro de habla en cualquier forma requerida para propósitos de calcular características de señales de habla que habrán de ajustarse a modelos de reconocimiento que no se entrenan utilizando señales de habla mejoradas. Habrá de entenderse que las modalidades y variaciones ilustradas y descritas anteriormente son ilustrativas de los principios de esta invención solo y que diversas modificaciones p>ueden implementarse por aquellos con destreza en la especialidad, sin apartarse del alcance y espíritu de la invención. Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención. Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes:
Claims (46)
- REIVINDICACIONES 1.- Método para compensar mejora de señales de habla para optimizar desempeño de reconocimiento de habla, el método se caracteriza porque comprende las etapas de: recibir señales de habla mejoradas por un mejorador de audio, el mejorador introduce variaciones de ganancia de frecuencia a las señales de habla; convertir las señales de habla mejorada a representación de dominio de frecuencia; compensar las variaciones de ganancia introducidas a las señales de habla o el mejorador utilizando la representación de dominio de frecuencia de las señales de habla mejoradas; y calcular características cepstral de las señales de habla mejoradas después de que se han compensado por la etapa de compensación.
- 2. - El método de conformidad con la reivindicación 1, caracterizado porque además comprende la etapa de: comparar las características con modelos de reconocimientos almacenados en un memoria de reconocedor.
- 3. - El método de conformidad con la reivindicación 2, caracterizado porque el modelo de reconocimiento se ha entrenado utilizando señales de habla no mejoradas por el mejorador.
- 4. - El método de conformidad con la reivindicación 1, caracterizado porque la etapa de compensar además comprende la etapa de calcular .coeficientes mel-LPC compensados, la etapa de cálculo coeficientes mel-LPC compensados además comprende las etapas de: pre-enfatizar las señales de habla mejoradas para aplastamiento espectral; bloquear las señales de habla mejoradas en cuadros consecutivos de muestras de habla; multiplicar cada uno de los cuadros por una ventana Hamming; transformar cada uno de los cuadros de ventana Hamming de representaciones de dominio de tiempo a frecuencia; filtrar cada una de las representaciones de dominio de frecuencia a través de un conjunto de bancos de filtro mel ponderados; y generar coeficientes de auto correlación a partir de las representaciones de frecuencia filtradas.
- 5.- El método de conformidad con la reivindicación 4, caracterizado porque además comprende las etapas de: convertir los coeficientes de auto correlación a coeficientes LPC; y calcular los parámetros cepstral a partir de los coeficientes LPC.
- 6.- El método de conformidad con la reivindicación 4, caracterizado porque los bancos de filtro mel por debajo de una frecuencia especifica se atenúan.
- 7.- El método de conformidad con la reivindicación 6, caracterizado porque la frecuencia especifica es aproximadamente 290 Hz.
- 8.- Sistema para compensar mejoras de señales de habla para optimizar desempeño de reconocimiento de habla, el sistema se caracteriza porque comprende: un mejorador para variar selectivamente la ganancia de frecuencias selectas de señales de habla variantes en tiempo, transmitidas en una trayectoria de red; un receptor para recibir las señales de habla mejoradas; un convertidor de dominio de frecuencia, para convertir la señal de habla mejorada que se recibe en el receptor a representaciones de dominio de frecuencia; un compensador para recibir las representaciones de dominio de frecuencia de las señales de habla mejoradas por el mejorador, en donde el compensador introduce variaciones de ganancia a las representaciones 'de dominio de frecuencia de las señales de habla transmitidas en la trayectoria para compensar variaciones de ganancia introducidas a las señales de habla por el mejorador, y una computadora de características cepstral, para calcular características cepstral a partir de las representaciones de dominio de frecuencia compensadas en las señales de habla mejoradas.
- 9.- El sistema de conformidad con la reivindicación 8, caracterizado porque además comprende: un reconocedor para recibir las características cepstral desde la computadora de características cepstral.
- 10.- El sistema de conformidad con la reivindicación 9, caracterizado porque el reconocedor compara las características con modelos de reconocimiento entrenados en la trayectoria, utilizando señales de habla no mejoradas por el mejorador, los modelos de reconocimiento se almacenan en una memoria de reconocedor.
- 11.- El sistema.de conformidad con la reivindicación 8, caracterizado porque el compensador pasa las representaciones de dominio de frecuencia de las señales de habla mejoradas a través de un conjunto de bancos de filtro mel ponderados .
- 12.- El sistema de conformidad con la reivindicación 11, caracterizado porque la computadora cepstral genera coeficientes de auto correlación a partir de las representaciones de dominio de frecuencia compensadas.
- 13.- El sistema de conformidad con la reivindicación 12, caracterizado porque la computadora cepstral además realiza las operaciones .de: convertir los coeficientes de auto correlación a coeficientes LPC; y calcular la característica cepstral a partir de los coeficientes LPC.
- 14. - El sistema de conformidad con la reivindicación 12, caracterizado porque los bancos de filtro mel por debajo de una frecuencia específica se atenúan.
- 15. - El sistema de conformidad con la reivindicación 14, caracterizado porque la frecuencia específica es aproximadamente 290 Hz .
- 16.- Método para calcular característica cepstral compensadas de señales de habla mejoradas por un primer mejorador utilizando un sistema de cómputo, para utilizar desempeño de reconocimiento de habla, el sistema de cómputo comprende en una memoria y al menos un procesador, la memoria incluye valores de ponderación de banco de filtros mel, el método se caracteriza porque comprende las etapas de: recibir las señales de habla mejoradas en el procesador; pre-enfatizar las señales de habla mejoradas para aplastamiento espectral; bloquear las señales de habla mejoradas en cuadros consecutivos de muestras de habla; multiplicar cada uno de los cuadros por una ventana Hamming; transformar cada uno de los cuadros de ventana Hamming de representaciones de dominio de tiempo en frecuencia; filtrar cada una de las representaciones de dominio de frecuencia utilizando los valores de ponderación de bancos de filtros mel almacenados en la memoria; generar coeficientes de auto correlación a partir de las representaciones de frecuencia filtradas; convertir los coeficientes de auto correlación a coeficientes LPC; y calcular los parámetros cepstral a partir de los coeficientes LPC.
- 17.- El método de conformidad con la reivindicación 16, caracterizado porque además comprende la etapa de: comparar las características a modelos de reconocimiento almacenados en una memoria de reconocedor.
- 18.- El método de conformidad con la reivindicación 17, caracterizado porque los modelos de reconocimiento se han entrenado utilizando señales de habla que no se han mejorado.
- 19.- El método de conformidad con la reivindicación 16, caracterizado porque los valores de los bancos de filtro mel por debajo de una frecuencia especifica se atenúan.
- 20.- El método de conformidad con la reivindicación 19, caracterizado porque la frecuencia específica es aproximadamente 290 Hz .
- 21.- El método de conformidad con la reivindicación 16, caracterizado porque además comprende la etapa de: modificar los valores de ponderación de banco de filtros mel almacenados en la memorial para compensar mejora a las señales de habla por un segundo mejorador, el segundo mejorador proporciona mejoras diferente de la mejora que se proporciona por el primer mejorador.
- 22. - Método para calcular característica cepstral compensada de señales de habla utilizando un sistema de cómputo, el sistema de cómputo comprende una memoria y al menos un procesador, la memoria incluye valores de ponderación de banco de filtros mel que proporcionan compensación para el cálculo de característica cepstral para señal de habla mejorada por un mejorador, el método se caracteriza porque comprende las etapas de: recibir las señales de habla en el procesador; pre-enfatizar las señales de habla para aplastamiento espectral; bloquear las señales de habla en cuadros consecutivos de muestras de habla; multiplicar cada uno de los cuadros por una ventana Hamming; transformar cada uno de los cuadros de ventana Hamming de representaciones de dominio de tiempo a frecuencia; filtrar cada una de las representaciones de dominio de frecuencia utilizando los valores de ponderación de banco de filtros mel almacenados en la memoria; y generar coeficientes de auto correlación a partir de las representaciones de frecuencia filtradas; convertir los coeficientes de auto correlación a coeficientes LPC; y calcular los parámetros cepstral a partir de los coeficientes LPC.
- 23.- El método de conformidad con la reivindicación 22, caracterizado porque además comprende las etapas de: comparar las características a modelos de reconocimiento almacenados en una memoria de reconocedor.
- 24.- El método de conformidad con la reivindicación 23, caracterizado porque loe modelos de reconocimiento se han entrenado utilizando señales de habla que no se han mejorado.
- 25.- Un aparato extractor de características, para generar señales de características de habla que distinguen señales de habla, caracterizado porque comprende: un convertidor de dominio de frecuencia, para generar un conjunto de muestras espectrales c[ue representan las señales de habla; una unidad de ponderación, para ponderar selectivamente el conjunto de muestras espectrales; y una computadora de características, para generar señales de aspectos característicos de habla con base en el juego ponderable de muestras espectrales.
- 26.- El aparato de conformidad con la reivindicación 25, caracterizado porque además comprende un receptor, en donde el receptor se conecta al convertidor de dominio de frecuencia a través de un circuito de pre-procesamiento.
- 27.- El aparato de conformidad con la reivindicación 26, caracterizado porque el circuito de pre-procesamiento comprende un circuito pre-enfatizador.
- 28.- El aparato de conformidad con la reivindicación 26, caracterizado porque el circuito de pre-procesamiento comprende un bloqueador de cuadros.
- 29.- El aparato de conformidad con la reivindicación 26, caracterizado porque el circuito de pre-procesamiento comprende un multiplicador Hamming.
- 30.- El aparato de conformidad con la reivindicación 25, caracterizado porque la unidad de ponderación comprende un conjunto de M bancos de filtros mel ponderados selectivamente.
- 31.- Método para generar señales de características de habla que distinguen las señales de habla, el método comprende las etapas de: generar un conjunto de parámetros espectrales que caracterizan señales de habla; ponderar el conjunto de parámetros espectrales; y generar señales de características distintivas de habla, con base en el conjunto ponderado de muestras espectrales.
- 32.- Un sistema para reconocer señales de habla y para compensar mejoras de red de las señales, caracterizado porque comprende: un filtro para compensar un componente de mejora de red de señales de habla mejoradas; un extractor de características, para extraer características con base en señales de habla filtradas del filtro, y un reconocedor de habla para reconocer señales de habla con base en las características extraídas del extractor de características.
- 33.- El sistema de conformidad con la reivindicación 32, caracterizado porque el filtro comprende un conjunto de banco de filtro mel ponderado selectivamente.
- 34.- El sistema de conformidad con la reivindicación 32, caracterizado porque el extractor de características comprende una combinación de analizador de codificación predictiva lineal y un analizador de filtros mel.
- 35.- Método para generar señales de características a partir de señales de habla caracterizado porque comprende las etapas de: recibir las señales de habla; bloquear las señales de habla en cuadros; realizar en combinación codificación predictiva lineal y análisis de recursión cepstral en las señales de habla bloqueadas, para producir señales características cepstrum mel-LPC.
- 36.- Método de conformidad 35, caracterizado porque además comprende la etapa de comparar las características mel-LPC cepstrum con un modelo de reconocimiento.
- 37.- Método de conformidad 35, caracterizado porque además comprende la etapa de: utilizar banco de filtros mel para filtrar las señales de habla bloqueadas y producir señales de filtro mel que luego se analizan al realizar codificación predictiva lineal y análisis de recursión cepstral en combinación.
- 38.- Método de conformidad con la reivindicación 35, caracterizado porque además comprende la etapa de pre-enfatizar las señales de habla para lograr aplastamiento espectral de las señales.
- 39.- Método de conformidad con la reivindicación 38, caracterizado porque además comprende la etapa de multiplicar cada uno de los cuadros por una ventana Hamming.
- 40.- Método de conformidad con la reivindicación 39, caracterizado porque además comprende la etapa de transformar cada uno de los cuadros de ventana Hamming de una representación de tiempo a una representación de dominio de frecuencia.
- 41.- Método de conformidad con la reivindicación 40, caracterizado porque además comprende filtrar cada una de las representaciones de dominio de frecuencia utilizando valores de ponderación de banco de filtros mel almacenados en una memoria.
- 42.- Método de conformidad con la reivindicación 41, caracterizado porque además comprende la etapa de generar coeficientes de auto correlación a partir de las representaciones de frecuencia filtradas.
- 43.- Método de conformidad con la reivindicación 42, caracterizado porque el análisis de codificación predictiva lineal opera para convertir los coeficientes de auto correlación a coeficientes LPC y el análisis de recursión cepstral opera para calcular parámetros cepstral a partir de los coeficientes LPC.
- 44.- Método para compensar mejora de señales de habla para mejorar desempeño de reconocimiento de habla, el método se caracteriza porque comprende las etapas de: recibir señales de habla mejoradas por un mejorador de audio, el mejorador introduce variaciones de ganancia de frecuencia a las señales de habla; convertir las. señales de habla mejoradas a una representación de dominio de frecuencia; compensar las variaciones de ganancia introducidas a las señales de habla por el mejorador, utilizando la representación de dominio de frecuencia de las señales de habla mejoradas; y generar señales características que distinguen las señales de habla mejoradas después de que se han compensado por la etapa de compensación.
- 45.- Método de conformidad con la reivindicación 44, caracterizado porque además comprende la etapa de: comparar las características con modelos de reconocimiento almacenados en una memoria de reconocedor.
- 46.- Método de conformidad con la reivindicación 45, caracterizado porque los modelos de reconocimiento se han entrenado utilizando señales de habla mejoradas.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/575,378 US5806022A (en) | 1995-12-20 | 1995-12-20 | Method and system for performing speech recognition |
US08575378 | 1995-12-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
MX9606483A MX9606483A (es) | 1997-09-30 |
MXPA96006483A true MXPA96006483A (es) | 1998-07-03 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5806022A (en) | Method and system for performing speech recognition | |
EP1739657B1 (en) | Speech signal enhancement | |
AU656787B2 (en) | Auditory model for parametrization of speech | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
US6804643B1 (en) | Speech recognition | |
JP4764995B2 (ja) | 雑音を含む音響信号の高品質化 | |
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
EP0722164B1 (en) | Method and apparatus for characterizing an input signal | |
US7035797B2 (en) | Data-driven filtering of cepstral time trajectories for robust speech recognition | |
US5878389A (en) | Method and system for generating an estimated clean speech signal from a noisy speech signal | |
CA2518332A1 (en) | Bandwidth extension of bandlimited audio signals | |
EP1892703B1 (en) | Method and system for providing an acoustic signal with extended bandwidth | |
JPH10500781A (ja) | 話者識別および確証システム | |
JPH0916194A (ja) | 音声信号の雑音低減方法 | |
EP2372707B1 (en) | Adaptive spectral transformation for acoustic speech signals | |
US6965860B1 (en) | Speech processing apparatus and method measuring signal to noise ratio and scaling speech and noise | |
US20080288253A1 (en) | Automatic speech recognition method and apparatus, using non-linear envelope detection of signal power spectra | |
JP4006770B2 (ja) | ノイズ推定装置、ノイズ削減装置、ノイズ推定方法、及びノイズ削減方法 | |
KR100571427B1 (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
Kermorvant | A comparison of noise reduction techniques for robust speech recognition | |
Laaksonen et al. | Artificial bandwidth expansion method to improve intelligibility and quality of AMR-coded narrowband speech | |
MXPA96006483A (es) | Metodo y sistema para realizar reconocimiento de habla | |
JP2003316380A (ja) | 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム | |
Athanaselis et al. | Signal Enhancement for Continuous Speech Recognition | |
Gordillo et al. | Median filtering the temporal probability distribution in histogram mapping for robust continuous speech recognition |