WO2009098332A1 - Dispositivo de reconocimiento de locutor - Google Patents

Dispositivo de reconocimiento de locutor Download PDF

Info

Publication number
WO2009098332A1
WO2009098332A1 PCT/ES2008/070020 ES2008070020W WO2009098332A1 WO 2009098332 A1 WO2009098332 A1 WO 2009098332A1 ES 2008070020 W ES2008070020 W ES 2008070020W WO 2009098332 A1 WO2009098332 A1 WO 2009098332A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
module
fractions
speaker
stage
Prior art date
Application number
PCT/ES2008/070020
Other languages
English (en)
French (fr)
Inventor
Marta GARCÍA GOMAR
Alicia Palacios Venin
Original Assignee
Agnitio, S.L.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agnitio, S.L. filed Critical Agnitio, S.L.
Priority to PCT/ES2008/070020 priority Critical patent/WO2009098332A1/es
Publication of WO2009098332A1 publication Critical patent/WO2009098332A1/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies

Definitions

  • the present invention relates, in general, to the technical field of automatic speaker recognition. STATE OF THE TECHNIQUE
  • the segmentation stage comprises the detection of the speaker change points within the existing speech, to detect the number of speakers participating in the recorded conversation.
  • the identification of a mono conversation with at least two speakers requires the execution of an additional segmentation stage and the completion of the identification stage for each of the speakers present in said conversation, that is, the execution is repeatedly executed. Identification stage for each of the speakers present in the recorded speech.
  • a disadvantage of said methodology is that the announcer recognition device demands a high computational load, that is to say, a computer with a large computing capacity to perform the described procedure in a reduced time or suitable for the intended purpose.
  • the present invention seeks to resolve or reduce one or more of the disadvantages set forth above by a speaker recognition device as claimed in claim 1.
  • An object of the invention is to reduce the computational load, that is, the size of the information that is handled by an announcer recognition device from a single-channel speech relative to several speakers.
  • Another object of the invention is to increase the speed of the automatic announcer recognition procedure, providing at least the same quality and / or performance as a procedure where an identification step is repeatedly performed for each of the speakers present in the Initial speech
  • Still another object of the invention is to increase the overall speed of the recognition procedure without substantially increasing the overall complexity thereof.
  • Yet another object of the invention is a computer method comprising an environment executable by means of a computer program comprising means of fractionation of a mono-channel phrase relative to at least two speakers and classification of the fractions based on the probability of part of these fractions correspond to an objective speaker.
  • Another object of the invention is a computer program stored in a medium suitable for use by a computer comprising instructions suitable for performing the method according to the invention.
  • Figure 1 shows a speaker recognition device known in the prior art, based on the identification of audios where more than one speaker is present per channel,
  • Figure 2 illustrates in a block diagram a device for automatic speaker recognition known in the state of the art, based on the identification of audios where only one speaker is present per channel
  • Figure 3 illustrates in a block diagram a device for automatic speaker recognition according to the invention, based on the identification of audios where more than one speaker is present per channel
  • Figure 4 illustrates a fractionation process according to the invention.
  • Figure 1 illustrates a device for recognition of known speaker relating to the identification of an audio 17 where more than one speaker is present per channel.
  • This device comprises a previous segmentation stage 9, where each of the announcers present in the mono-channel conversation is separated into independent channels.
  • Each of its outputs 14 corresponding to a speaker present in the audio 17, is electrically connected to a known recognition stage 10 in front of a model 13 of the target speaker, generating in each output 16 the corresponding score or score.
  • the known recognition stage 10 comprising a module for the extraction of coefficients 11 relative to a locution 14 received in one of its inputs where only one speaker is present per channel and it generates in an output signal 15 that is supplied to a likelihood calculation stage 12, generating in one of its outputs 16 the corresponding similarity score against model 13 of the objective speaker.
  • the coefficient extraction module 11 calculates a vector of representative characteristics, generally, by means of a transformation to the spectral plane using some known transformation technique and subsequently taking a determined number of transformation coefficients.
  • the generated coefficient signal 15 is supplied to a fractionation module 22 to fractionate the coefficient signal 15 into a plurality of fractions, see Figure 4.
  • the splitter 22 is electrically connected to a classification module 23 which, in turn, is electrically connected to a likelihood calculation module 24, which generates at its output an average output signal 16 of the relative likelihood signals to the groupings of fractions generated at the exit of classifier 23.
  • the fractionator 22 decomposes the signal of coefficients 15 or parameter vectors into a plurality of fractions and calculates the score, score, of each of the fractions previously generated against model 13 of the objective speaker.
  • the fractions generated are of equal time duration, with some degree of overlap between a fraction and its consecutive fraction, so that search alignment problems are avoided, that is, a lag of the fractions with respect to intervention times of each speaker.
  • the temporal duration of each fraction is a function of the average intervention time of each of the speakers.
  • a classification procedure is performed to search for those fractions that may belong to the objective speaker against which the speaker identification or recognition is made.
  • some known technique is used, such as a model of GMM Gaussian mixtures that model the score, which comprises a vector quantification suitable for grouping each of the representative vectors of the fractions generated in one of the groups of fractions .
  • the result of the previous classification of the fractions comprises at least three types of groups or kinds of likelihood or scores relative to the fractions generated previously; a first set of scores whose probability of belonging to the objective speaker is high, a second set of scores that contains a change of speaker, that is, where a part of the fraction can belong to the objective speaker and a third set of scores that are relative to speakers other than the target speaker.
  • the grouping of each fraction to one of the groups will be quick and simple, distancing the first group from the other groups of fractions.
  • the Gaussians relative to each group of fractions will be partially or totally overlapped, too, and where the first group of fractions corresponding to the speaker most similar
  • the second group will correspond to those fractions where a speaker change is identified and the third group will correspond to the speaker with less resemblance to the objective speaker.
  • a threshold is defined based on the larger gaussin so that there will be fractions assigned to said gaussian that exceed said threshold and, consequently, the referred fractions that exceed the given threshold are selected.
  • the total score 161 is calculated, which is the average of the fractions that have exceeded said threshold.
  • the computer program directly loadable into an internal memory of a computer comprising input and output units as well as processing means.
  • the computer comprises lines of executable codes adapted to perform sequences of actions described in the previous embodiment when executed on the computer.
  • the computer program is stored in a computer readable medium such as CD-ROM, DVD, or the like.

Abstract

Dispositivo de reconocimiento de locutor que comprende, conectados en cascada, un módulo de extracción de coeficientes (11) que recibe una señal de audio mono (14), un módulo de fraccionamiento (22), un módulo de clasificación (23) y un módulo de cálculo de verosimilitud (24) que genera a 5 su salida (16) una media de las señales de verosimilitud relativas a las agrupaciones de fracciones generadas a la salida del clasificador (23).

Description

DISPOSITIVO DE RECONOCIMIENTO DE LOCUTOR OBJETO DE LA INVENCIÓN
[0001] La presente invención se refiere, en general, al campo técnico del reconocimiento automático de locutor. ESTADO DE LA TÉCNICA
[0002] Es conocido en el estado de la técnica, que en el reconocimiento automático de locutor se realizan las etapas de registro/entrenamiento y reconocimiento, utilizando para ello grabaciones de audio donde los locutores que intervienen en una conversación están separados en diferentes canales, es decir, que cada locutor participante en una conversación esté grabado en un canal diferente de un audio estéreo o canales mono diferentes.
[0003] Generalmente, cuando se dispone de una locución mono de una conversación, suma de la intervención de todos los locutores, se realiza una etapa de segmentación de la locución existente, previa a la etapa de registro/entrenamiento .
[0004] La etapa de segmentación comprende la detección de los puntos de cambio de locutor dentro de la locución existente, para detectar el número de locutores participantes en la conversación grabada.
[0005] Seguidamente se agrupan los segmentos relativos a cada locutor participante en la conversación, de manera que cada locutor se identifica de forma independiente al resto de locutores.
[0006] Consecuentemente, la identificación de una conversación mono con al menos dos locutores requiere la ejecución de una etapa adicional de segmentación y la realización de la etapa de identificación para cada uno de locutores presentes en dicha conversación, es decir, se ejecuta repetidamente la etapa de identificación para cada uno de los locutores presentes en la locución grabada.
[0007] Una desventaja de dicha metodología es que demanda del dispositivo de reconocimiento de locutor una alta carga computacional, es decir, un ordenador de gran capacidad de cálculo para realizar el procedimiento descrito en un tiempo reducido o adecuado al fin perseguido.
CARACTERIZACIÓN DE LA INVENCIÓN
[0008] La presente invención busca resolver o reducir uno o más de los inconvenientes expuestos anteriormente mediante un dispositivo de reconocimiento de locutor como es reivindicado en la reivindicación 1.
Realizaciones de la invención son establecidas en las reivindicaciones dependientes. [0009] Un objeto de la invención es reducir la carga computacional, es decir, el tamaño de la información que es manejada mediante un dispositivo de reconocimiento de locutor a partir de una locución monocanal relativa a varios locutores.
[0010] Otro objeto de la invención es incrementar la velocidad del procedimiento de reconocimiento automático de locutor, proporcionando al menos la misma calidad y/o rendimiento que un procedimiento donde se realiza repetidamente una etapa de identificación por cada uno de los locutores presentes en la locución inicial.
[0011] Todavía otro objeto de la invención es incrementar la velocidad global del procedimiento de reconocimiento sin incrementar substancialmente la complejidad global del mismo.
[0012] Aun otro objeto de la invención es un procedimiento informático que comprende un entorno ejecutable mediante un programa informático que comprende medios de fraccionamiento de una locución mono canal relativa a al menos dos locutores y clasificación de las fracciones basándose en la probabilidad de que parte de dichas fracciones correspondan a un locutor objetivo.
[0013] Otro objeto de la invención es un programa informático almacenado en un medio adecuado para ser usado por un ordenador que comprende instrucciones aptas para realizar el procedimiento de acuerdo a la invención.
BREVE ENUNCIADO DE LAS FIGURAS
[0014] Una explicación más detallada de la invención se da en descripción que sigue y que se basa en las figuras adjuntas:
[0015] la figura 1 muestra un dispositivo de reconocimiento de locutor conocido en el estado de la técnica, basado en la identificación de audios donde está presente más de un locutor por canal,
[0016] la figura 2 ilustra en un diagrama de bloques un dispositivo para reconocimiento automático de locutor conocido en el estado de la técnica, basado en la identificación de audios donde sólo está presente un locutor por canal, [0017] la figura 3 ilustra en un diagrama de bloques un dispositivo para reconocimiento automático de locutor de acuerdo a la invención, basado en la identificación de audios donde está presente más de un locutor por canal, y
[0018] la figura 4 ilustra un proceso de fraccionamiento de acuerdo a la invención.
DESCRIPCIÓN DE LA INVENCIÓN
[0019] La figura 1 ilustra un dispositivo para reconocimiento de locutor conocido relativo a la identificación de un audio 17 donde está presente más de un locutor por canal. [0020] Este dispositivo, comprende una etapa de segmentación 9 previa, donde se separa cada uno de los locutores presentes en la conversación mono-canal en canales independientes. Cada una de sus salidas 14 correspondiente a un locutor presente en el audio 17, está conectada eléctricamente a una etapa conocida de reconocimiento 10 frente a un modelo 13 de locutor objetivo, generando en cada salida 16 la correspondiente puntuación o score.
[0021] Ahora en relación con la figura 2, se ilustra la etapa conocida de reconocimiento 10 que comprende un módulo para la extracción de coeficientes 11 relativos a una locución 14 recibida en una de sus entradas donde sólo está presente un locutor por canal y se genera en una señal de salida 15 que se suministra a una etapa de cálculo 12 de verosimilitud, generando en una de sus salidas 16 la correspondiente puntuación de semejanza frente al modelo 13 del locutor objetivo.
[0022] En relación ahora con la figura 3, cuando se tiene una señal de audio mono 17 elativa a una conversación en la que al menos participan dos locutores, se suministra directamente a una entrada del módulo de extracción de coeficientes 11, comprendido en el módulo de reconocimiento 10.
[0023] A partir de dicha locución, el módulo de extracción de coeficientes 11 , calcula un vector de características representativo, generalmente, mediante una transformación al plano espectral utilizando alguna técnica conocida de transformación y tomando posteriormente un número determinado de coeficientes de transformación.
[0024] La señal de coeficientes 15 generada es suministrada a un módulo de fraccionamiento 22 para fraccionar la señal de coeficientes 15 en una pluralidad de fracciones, ver figura 4. [0025] El fraccionador 22 está conectado eléctricamente a un módulo de clasificación 23 que, a su vez, está conectado eléctricamente a un módulo de cálculo de verosimilitud 24, que genera a su salida una señal de salida 16 media de las señales de verosimilitud relativas a las agrupaciones de fracciones generadas a la salida del clasificador 23.
[0026] El fraccionador 22 descompone la señal de coeficientes 15 o vectores de parámetros en una pluralidad de fracciones y calcula la puntuación, score, de cada una de las fracciones generadas previamente frente al modelo 13 del locutor objetivo. [0027] Las fracciones generadas son de igual duración temporal, con algún grado de superposición entre una fracción y su fracción consecutiva, de manera que se evitan problemas de alineamiento de búsqueda, es decir, un desfase de las fracciones respecto a los tiempos de intervención de cada locutor.
[0028] La duración temporal de cada fracción es función del tiempo medio de intervención de cada uno de los locutores.
[0029] Una vez obtenidos los scores de las fracciones generadas, se ejecuta un procedimiento de clasificación de los mismos para buscar aquellas fracciones que pueden pertenecer al locutor objetivo frente al que se realiza la identificación o reconocimiento de locutor. [0030] Para realizar la clasificación se utiliza alguna técnica conocida tal como un modelo de mezclas Gaussianas GMM que modelan la puntuación, que comprende una cuantificación vectorial apta para agrupar cada uno de los vectores representativos de las fracciones generadas en uno de los grupos de fracciones. [0031] El resultado de la anterior clasificación de las fracciones comprende al menos tres tipos de grupos o clases de versosimilitud o scores relativos a las fracciones generadas previamente; un primer conjunto de scores cuya probabilidad de pertenecer al locutor objetivo es alta, un segundo conjunto de scores que contiene un cambio de locutor, es decir, donde una parte de la fracción puede pertenecer al locutor objetivo y un tercer conjunto de scores que son relativos a locutores distintos del locutor objetivo.
[0032] Cuando en la locución bajo estudio esté presente el locutor objetivo la agrupación de cada fracción a uno de los grupos será rápida y sencilla, distanciándose el primer grupo del resto de grupos de fracciones. [0033] Sin embargo, cuando no es segura la presencia del locutor objetivo en la locución bajo estudio, las gaussianas relativas a cada grupo de fracciones estarán solapadas parcial o totalmente, también, y dónde el primer grupo de fracciones correspondientes al locutor que más parecido tiene con el locutor objetivo, el segundo grupo corresponderá a aquellas fracciones donde se identifica un cambio de locutor y el tercer grupo corresponderá al locutor con menor parecido con el locutor objetivo.
[0034] Se define un umbral basándose en la gaussina mayor de manera que habrá fracciones asignadas a dicha gaussiana que superen dicho umbral y, consecuentemente, se seleccionan las fracciones referidas que superan el determinado umbral.
[0035] A continuación, en la etapa de cálculo de verosimilitud 24, se calcula el score total 161 que es la media de las fracciones que han superado el referido umbral.. [0036] Se ha de tener en cuenta que la realización de la invención se puede realizar por medio de un sistema informático que comprende un entorno de ejecución apto para ejecutar un programa de ordenador que comprende unos medios de reconocimiento de voz.
[0037] El programa de ordenador directamente cargable en una memoria interna de una computadora comprendiendo unidades de entrada y salida así como medios de procesamiento.
[0038] El ordenador comprende líneas de códigos ejecutables adaptados para realizar secuencias de acciones descritas en la anterior realización cuando son ejecutadas en la computadora. En particular, el programa de ordenador es almacenado en un medio legible por ordenador tal como CD-ROM, DVD, o similar.
[0039] La realización y ejemplo establecido en esta memoria se presenta como la mejor explicación de la presente invención y su aplicación práctica y para permitir de ese modo que un experto en la técnica ponga en práctica y utilicen la invención. No obstante, el experto en la técnica reconocerá que la descripción y ejemplo anterior ha sido presentados con el propósito de ilustrar y solamente como ejemplo.

Claims

REIVINDICACIONES
1. Dispositivo de reconocimiento de locutor que comprende una etapa de reconocimiento que recibe señales de audio (17); caracterizado porque un módulo de reconocimiento (10) comprende un módulo de extracción de coeficientes (11) que recibe una señal de audio mono (17) relativa a varios locutores, siendo conectable eléctricamente a un módulo de fraccionamiento
(22) que, a su vez, es conectable eléctricamente a un módulo de clasificación
(23) conectable eléctricamente a un módulo de cálculo de verosimilitud (24), generando a su salida (16) una señal media de las señales de verosimilitud relativas a las agrupaciones de fracciones generadas a la salida del clasificador (23).
2. Dipositivo de acuerdo a la reivindicación 1 ; caracterizado porque el módulo de fraccionamiento (22) descompone una señal de coeficientes (15) recibida en una pluralidad de fracciones, calculando la puntuación de cada una de las fracciones generadas frente a un modelo (13) de locutor objetivo.
3. Dipositivo de acuerdo a la reivindicación 2; caracterizado porque el módulo de fraccionamiento (22) genera fracciones de igual duración temporal, con algún grado de superposición entre una fracción y su fracción consecutiva.
4. Dipositivo de acuerdo a la reivindicación 3; caracterizado porque el módulo de clasificación (23) genera una clasificación por verosimilitud en función de la probabilidad de que una fracción pertenezca al locutor objetivo y supera un determinado valor umbral basándose en la distribución del conjunto de verosimilitudes generadas.
5. Dipositivo de acuerdo a la reivindicación 4; caracterizado porque el módulo de cálculo de verosimilitud (24) calcula la verosimilitud total (16) basándose en las verosimilitudes que superan el determinado valor umbral.
6. Procedimiento de reconocimiento de locutor que comprende una etapa de reconocimiento que recibe señales de audio (17); caracterizado porque comprende las etapas de extracción de coeficientes (11) de una señal de audio mono (17) recibida y relativa a varios locutores, que calcula un vector de características, una etapa de fraccionamiento (22) que descompone la señal de coeficientes recibida en una pluralidad de fracciones y calcula la puntuación de cada una de las fracciones generadas previamente frente al modelo (13) del locutor objetivo, una etapa de clasificación (23) que genera una clasificación por versosimilitud en función de la probabilidad de que una fracción pertenezca al locutor objetivo y supera un determinado valor umbral basándose en la distribución del conjunto de verosimilitudes generadas y una etapa de cálculo de verosimilitud (24) que calcula la verosimilitud total (16) basándose en las verosimilitudes que superan el determinado valor umbral. Un programa de ordenador para reconocimiento de locutor almacenado en un medio legible por ordenador que comprende líneas de códigos ejecutables en el medio legible por ordenador está adaptado para realizar secuencias de acciones relativas a una fase reconocimiento incluyendo una etapa (12) de reconocimiento; caracterizado porque códigos de programa legible por ordenador relativos a una etapa de reconocimiento (101) recibe una señal de audio mono (141) relativa a varios locutores.
PCT/ES2008/070020 2008-02-08 2008-02-08 Dispositivo de reconocimiento de locutor WO2009098332A1 (es)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/ES2008/070020 WO2009098332A1 (es) 2008-02-08 2008-02-08 Dispositivo de reconocimiento de locutor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/ES2008/070020 WO2009098332A1 (es) 2008-02-08 2008-02-08 Dispositivo de reconocimiento de locutor

Publications (1)

Publication Number Publication Date
WO2009098332A1 true WO2009098332A1 (es) 2009-08-13

Family

ID=40951799

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/ES2008/070020 WO2009098332A1 (es) 2008-02-08 2008-02-08 Dispositivo de reconocimiento de locutor

Country Status (1)

Country Link
WO (1) WO2009098332A1 (es)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659662A (en) * 1994-04-12 1997-08-19 Xerox Corporation Unsupervised speaker clustering for automatic speaker indexing of recorded audio data
ES2286943A1 (es) * 2006-05-19 2007-12-01 Agnitio, S.L. Procedimiento de identificacion de voz.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659662A (en) * 1994-04-12 1997-08-19 Xerox Corporation Unsupervised speaker clustering for automatic speaker indexing of recorded audio data
ES2286943A1 (es) * 2006-05-19 2007-12-01 Agnitio, S.L. Procedimiento de identificacion de voz.

Similar Documents

Publication Publication Date Title
Snyder et al. Deep neural network embeddings for text-independent speaker verification.
JP6954680B2 (ja) 話者の確認方法及び話者の確認装置
JP4565162B2 (ja) 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム
Liu et al. Simultaneous utilization of spectral magnitude and phase information to extract supervectors for speaker verification anti-spoofing
JP6594839B2 (ja) 話者数推定装置、話者数推定方法、およびプログラム
US8954323B2 (en) Method for processing multichannel acoustic signal, system thereof, and program
Cornell et al. Detecting and counting overlapping speakers in distant speech scenarios
US20170249957A1 (en) Method and apparatus for identifying audio signal by removing noise
US20200135211A1 (en) Information processing method, information processing device, and recording medium
WO2020240682A1 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
US20220383880A1 (en) Speaker identification apparatus, speaker identification method, and recording medium
US10916254B2 (en) Systems, apparatuses, and methods for speaker verification using artificial neural networks
Mobiny et al. Text-independent speaker verification using long short-term memory networks
Noh et al. Three-stage approach for sound event localization and detection
US11978471B2 (en) Signal processing apparatus, learning apparatus, signal processing method, learning method and program
Ronchini et al. Sound Event Localization and Detection Based on CRNN using Rectangular Filters and Channel Rotation Data Augmentation.
Cai et al. Waveform boundary detection for partially spoofed audio
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
Iqbal et al. Stacked convolutional neural networks for general-purpose audio tagging
US20220036877A1 (en) Speech recognition device, speech recognition system, and speech recognition method
WO2009098332A1 (es) Dispositivo de reconocimiento de locutor
Gupta et al. Segment-level pyramid match kernels for the classification of varying length patterns of speech using SVMs
Rakowski et al. Frequency-aware CNN for open set acoustic scene classification
Ranjan et al. Sound event detection and direction of arrival estimation using residual net and recurrent neural networks
Pratik et al. Sound event localization and detection using CRNN architecture with Mixup for model generalization

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08718467

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 19/10/2010)

122 Ep: pct application non-entry in european phase

Ref document number: 08718467

Country of ref document: EP

Kind code of ref document: A1