WO2009098332A1

WO2009098332A1 - Dispositivo de reconocimiento de locutor

Info

Publication number: WO2009098332A1
Application number: PCT/ES2008/070020
Authority: WO
Inventors: Marta GARCÍA GOMAR; Alicia Palacios Venin
Original assignee: Agnitio, S.L.
Priority date: 2008-02-08
Filing date: 2008-02-08
Publication date: 2009-08-13

Abstract

Dispositivo de reconocimiento de locutor que comprende, conectados en cascada, un módulo de extracción de coeficientes (11) que recibe una señal de audio mono (14), un módulo de fraccionamiento (22), un módulo de clasificación (23) y un módulo de cálculo de verosimilitud (24) que genera a 5 su salida (16) una media de las señales de verosimilitud relativas a las agrupaciones de fracciones generadas a la salida del clasificador (23).

Description

DISPOSITIVO DE RECONOCIMIENTO DE LOCUTOR OBJETO DE LA INVENCIÓN

[0001] La presente invención se refiere, en general, al campo técnico del reconocimiento automático de locutor. ESTADO DE LA TÉCNICA

[0002] Es conocido en el estado de la técnica, que en el reconocimiento automático de locutor se realizan las etapas de registro/entrenamiento y reconocimiento, utilizando para ello grabaciones de audio donde los locutores que intervienen en una conversación están separados en diferentes canales, es decir, que cada locutor participante en una conversación esté grabado en un canal diferente de un audio estéreo o canales mono diferentes.

[0003] Generalmente, cuando se dispone de una locución mono de una conversación, suma de la intervención de todos los locutores, se realiza una etapa de segmentación de la locución existente, previa a la etapa de registro/entrenamiento .

[0004] La etapa de segmentación comprende la detección de los puntos de cambio de locutor dentro de la locución existente, para detectar el número de locutores participantes en la conversación grabada.

[0005] Seguidamente se agrupan los segmentos relativos a cada locutor participante en la conversación, de manera que cada locutor se identifica de forma independiente al resto de locutores.

[0006] Consecuentemente, la identificación de una conversación mono con al menos dos locutores requiere la ejecución de una etapa adicional de segmentación y la realización de la etapa de identificación para cada uno de locutores presentes en dicha conversación, es decir, se ejecuta repetidamente la etapa de identificación para cada uno de los locutores presentes en la locución grabada.

[0007] Una desventaja de dicha metodología es que demanda del dispositivo de reconocimiento de locutor una alta carga computacional, es decir, un ordenador de gran capacidad de cálculo para realizar el procedimiento descrito en un tiempo reducido o adecuado al fin perseguido.

CARACTERIZACIÓN DE LA INVENCIÓN

[0008] La presente invención busca resolver o reducir uno o más de los inconvenientes expuestos anteriormente mediante un dispositivo de reconocimiento de locutor como es reivindicado en la reivindicación 1.

Realizaciones de la invención son establecidas en las reivindicaciones dependientes. [0009] Un objeto de la invención es reducir la carga computacional, es decir, el tamaño de la información que es manejada mediante un dispositivo de reconocimiento de locutor a partir de una locución monocanal relativa a varios locutores.

[0010] Otro objeto de la invención es incrementar la velocidad del procedimiento de reconocimiento automático de locutor, proporcionando al menos la misma calidad y/o rendimiento que un procedimiento donde se realiza repetidamente una etapa de identificación por cada uno de los locutores presentes en la locución inicial.

[0011] Todavía otro objeto de la invención es incrementar la velocidad global del procedimiento de reconocimiento sin incrementar substancialmente la complejidad global del mismo.

[0012] Aun otro objeto de la invención es un procedimiento informático que comprende un entorno ejecutable mediante un programa informático que comprende medios de fraccionamiento de una locución mono canal relativa a al menos dos locutores y clasificación de las fracciones basándose en la probabilidad de que parte de dichas fracciones correspondan a un locutor objetivo.

[0013] Otro objeto de la invención es un programa informático almacenado en un medio adecuado para ser usado por un ordenador que comprende instrucciones aptas para realizar el procedimiento de acuerdo a la invención.

BREVE ENUNCIADO DE LAS FIGURAS

[0014] Una explicación más detallada de la invención se da en descripción que sigue y que se basa en las figuras adjuntas:

[0015] la figura 1 muestra un dispositivo de reconocimiento de locutor conocido en el estado de la técnica, basado en la identificación de audios donde está presente más de un locutor por canal,

[0016] la figura 2 ilustra en un diagrama de bloques un dispositivo para reconocimiento automático de locutor conocido en el estado de la técnica, basado en la identificación de audios donde sólo está presente un locutor por canal, [0017] la figura 3 ilustra en un diagrama de bloques un dispositivo para reconocimiento automático de locutor de acuerdo a la invención, basado en la identificación de audios donde está presente más de un locutor por canal, y

[0018] la figura 4 ilustra un proceso de fraccionamiento de acuerdo a la invención.

DESCRIPCIÓN DE LA INVENCIÓN

[0019] La figura 1 ilustra un dispositivo para reconocimiento de locutor conocido relativo a la identificación de un audio 17 donde está presente más de un locutor por canal. [0020] Este dispositivo, comprende una etapa de segmentación 9 previa, donde se separa cada uno de los locutores presentes en la conversación mono-canal en canales independientes. Cada una de sus salidas 14 correspondiente a un locutor presente en el audio 17, está conectada eléctricamente a una etapa conocida de reconocimiento 10 frente a un modelo 13 de locutor objetivo, generando en cada salida 16 la correspondiente puntuación o score.

[0021] Ahora en relación con la figura 2, se ilustra la etapa conocida de reconocimiento 10 que comprende un módulo para la extracción de coeficientes 11 relativos a una locución 14 recibida en una de sus entradas donde sólo está presente un locutor por canal y se genera en una señal de salida 15 que se suministra a una etapa de cálculo 12 de verosimilitud, generando en una de sus salidas 16 la correspondiente puntuación de semejanza frente al modelo 13 del locutor objetivo.

[0022] En relación ahora con la figura 3, cuando se tiene una señal de audio mono 17 elativa a una conversación en la que al menos participan dos locutores, se suministra directamente a una entrada del módulo de extracción de coeficientes 11, comprendido en el módulo de reconocimiento 10.

[0023] A partir de dicha locución, el módulo de extracción de coeficientes 11 , calcula un vector de características representativo, generalmente, mediante una transformación al plano espectral utilizando alguna técnica conocida de transformación y tomando posteriormente un número determinado de coeficientes de transformación.

[0024] La señal de coeficientes 15 generada es suministrada a un módulo de fraccionamiento 22 para fraccionar la señal de coeficientes 15 en una pluralidad de fracciones, ver figura 4. [0025] El fraccionador 22 está conectado eléctricamente a un módulo de clasificación 23 que, a su vez, está conectado eléctricamente a un módulo de cálculo de verosimilitud 24, que genera a su salida una señal de salida 16 media de las señales de verosimilitud relativas a las agrupaciones de fracciones generadas a la salida del clasificador 23.

[0026] El fraccionador 22 descompone la señal de coeficientes 15 o vectores de parámetros en una pluralidad de fracciones y calcula la puntuación, score, de cada una de las fracciones generadas previamente frente al modelo 13 del locutor objetivo. [0027] Las fracciones generadas son de igual duración temporal, con algún grado de superposición entre una fracción y su fracción consecutiva, de manera que se evitan problemas de alineamiento de búsqueda, es decir, un desfase de las fracciones respecto a los tiempos de intervención de cada locutor.

[0028] La duración temporal de cada fracción es función del tiempo medio de intervención de cada uno de los locutores.

[0029] Una vez obtenidos los scores de las fracciones generadas, se ejecuta un procedimiento de clasificación de los mismos para buscar aquellas fracciones que pueden pertenecer al locutor objetivo frente al que se realiza la identificación o reconocimiento de locutor. [0030] Para realizar la clasificación se utiliza alguna técnica conocida tal como un modelo de mezclas Gaussianas GMM que modelan la puntuación, que comprende una cuantificación vectorial apta para agrupar cada uno de los vectores representativos de las fracciones generadas en uno de los grupos de fracciones. [0031] El resultado de la anterior clasificación de las fracciones comprende al menos tres tipos de grupos o clases de versosimilitud o scores relativos a las fracciones generadas previamente; un primer conjunto de scores cuya probabilidad de pertenecer al locutor objetivo es alta, un segundo conjunto de scores que contiene un cambio de locutor, es decir, donde una parte de la fracción puede pertenecer al locutor objetivo y un tercer conjunto de scores que son relativos a locutores distintos del locutor objetivo.

[0032] Cuando en la locución bajo estudio esté presente el locutor objetivo la agrupación de cada fracción a uno de los grupos será rápida y sencilla, distanciándose el primer grupo del resto de grupos de fracciones. [0033] Sin embargo, cuando no es segura la presencia del locutor objetivo en la locución bajo estudio, las gaussianas relativas a cada grupo de fracciones estarán solapadas parcial o totalmente, también, y dónde el primer grupo de fracciones correspondientes al locutor que más parecido tiene con el locutor objetivo, el segundo grupo corresponderá a aquellas fracciones donde se identifica un cambio de locutor y el tercer grupo corresponderá al locutor con menor parecido con el locutor objetivo.

[0034] Se define un umbral basándose en la gaussina mayor de manera que habrá fracciones asignadas a dicha gaussiana que superen dicho umbral y, consecuentemente, se seleccionan las fracciones referidas que superan el determinado umbral.

[0035] A continuación, en la etapa de cálculo de verosimilitud 24, se calcula el score total 161 que es la media de las fracciones que han superado el referido umbral.. [0036] Se ha de tener en cuenta que la realización de la invención se puede realizar por medio de un sistema informático que comprende un entorno de ejecución apto para ejecutar un programa de ordenador que comprende unos medios de reconocimiento de voz.

[0037] El programa de ordenador directamente cargable en una memoria interna de una computadora comprendiendo unidades de entrada y salida así como medios de procesamiento.

[0038] El ordenador comprende líneas de códigos ejecutables adaptados para realizar secuencias de acciones descritas en la anterior realización cuando son ejecutadas en la computadora. En particular, el programa de ordenador es almacenado en un medio legible por ordenador tal como CD-ROM, DVD, o similar.

[0039] La realización y ejemplo establecido en esta memoria se presenta como la mejor explicación de la presente invención y su aplicación práctica y para permitir de ese modo que un experto en la técnica ponga en práctica y utilicen la invención. No obstante, el experto en la técnica reconocerá que la descripción y ejemplo anterior ha sido presentados con el propósito de ilustrar y solamente como ejemplo.

Claims

REIVINDICACIONES

1. Dispositivo de reconocimiento de locutor que comprende una etapa de reconocimiento que recibe señales de audio (17); caracterizado porque un módulo de reconocimiento (10) comprende un módulo de extracción de coeficientes (11) que recibe una señal de audio mono (17) relativa a varios locutores, siendo conectable eléctricamente a un módulo de fraccionamiento

(22) que, a su vez, es conectable eléctricamente a un módulo de clasificación

(23) conectable eléctricamente a un módulo de cálculo de verosimilitud (24), generando a su salida (16) una señal media de las señales de verosimilitud relativas a las agrupaciones de fracciones generadas a la salida del clasificador (23).

2. Dipositivo de acuerdo a la reivindicación 1 ; caracterizado porque el módulo de fraccionamiento (22) descompone una señal de coeficientes (15) recibida en una pluralidad de fracciones, calculando la puntuación de cada una de las fracciones generadas frente a un modelo (13) de locutor objetivo.

3. Dipositivo de acuerdo a la reivindicación 2; caracterizado porque el módulo de fraccionamiento (22) genera fracciones de igual duración temporal, con algún grado de superposición entre una fracción y su fracción consecutiva.

4. Dipositivo de acuerdo a la reivindicación 3; caracterizado porque el módulo de clasificación (23) genera una clasificación por verosimilitud en función de la probabilidad de que una fracción pertenezca al locutor objetivo y supera un determinado valor umbral basándose en la distribución del conjunto de verosimilitudes generadas.

5. Dipositivo de acuerdo a la reivindicación 4; caracterizado porque el módulo de cálculo de verosimilitud (24) calcula la verosimilitud total (16) basándose en las verosimilitudes que superan el determinado valor umbral.

6. Procedimiento de reconocimiento de locutor que comprende una etapa de reconocimiento que recibe señales de audio (17); caracterizado porque comprende las etapas de extracción de coeficientes (11) de una señal de audio mono (17) recibida y relativa a varios locutores, que calcula un vector de características, una etapa de fraccionamiento (22) que descompone la señal de coeficientes recibida en una pluralidad de fracciones y calcula la puntuación de cada una de las fracciones generadas previamente frente al modelo (13) del locutor objetivo, una etapa de clasificación (23) que genera una clasificación por versosimilitud en función de la probabilidad de que una fracción pertenezca al locutor objetivo y supera un determinado valor umbral basándose en la distribución del conjunto de verosimilitudes generadas y una etapa de cálculo de verosimilitud (24) que calcula la verosimilitud total (16) basándose en las verosimilitudes que superan el determinado valor umbral. Un programa de ordenador para reconocimiento de locutor almacenado en un medio legible por ordenador que comprende líneas de códigos ejecutables en el medio legible por ordenador está adaptado para realizar secuencias de acciones relativas a una fase reconocimiento incluyendo una etapa (12) de reconocimiento; caracterizado porque códigos de programa legible por ordenador relativos a una etapa de reconocimiento (101) recibe una señal de audio mono (141) relativa a varios locutores.