RO130883A2 - Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului - Google Patents

Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului Download PDF

Info

Publication number
RO130883A2
RO130883A2 ROA201400347A RO201400347A RO130883A2 RO 130883 A2 RO130883 A2 RO 130883A2 RO A201400347 A ROA201400347 A RO A201400347A RO 201400347 A RO201400347 A RO 201400347A RO 130883 A2 RO130883 A2 RO 130883A2
Authority
RO
Romania
Prior art keywords
diarization
history
speaker
audio
models
Prior art date
Application number
ROA201400347A
Other languages
English (en)
Other versions
RO130883B1 (ro
Inventor
Andi Buzo
Horia Cucu
Lucian Petrică
Dragoş Burileanu
Original Assignee
Andi Buzo
Horia Cucu
Lucian Petrică
Dragoş Burileanu
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Andi Buzo, Horia Cucu, Lucian Petrică, Dragoş Burileanu filed Critical Andi Buzo
Priority to ROA201400347A priority Critical patent/RO130883B1/ro
Publication of RO130883A2 publication Critical patent/RO130883A2/ro
Publication of RO130883B1 publication Critical patent/RO130883B1/ro

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

Invenţia se referă la o metodă şi la un sistem pentru diarizarea în timp real a semnalelor vocale şi este destinată a fi utilizată în domeniul sistemelor de procesare a semnalului audio pentru recunoaşterea automată a vorbirii şi identificarea automată a vorbitorului. Metoda conform invenţiei constă în citirea periodică a unui număr de vectori de caracteristici audio, segmentarea vectorilor, stocarea modelelor audio în istoria de diarizare, gestionarea periodică a istoriei şi folosirea unei funcţii de cost bazată pe vechimea modelului şi ponderea sa în istoria de diarizare. Sistemul conform invenţiei constă dintr-o memorie tampon (303, 304) pentru vectori de caracteristici audio, o memorie (201) pentru segmente, o memorie (202) pentru grupuri de segmente, o memorie pentru modele (203), un serviciu (102) extern de segmentare şi automate de control (301), care gestionează istoria de diarizare.

Description

METODĂ Șl SISTEM PENTRU DIARIZARE ÎN TIMP REAL A SEMNALELOR AUDIO, UTILIZATE PENTRU RECUNOAȘTEREA AUTOMATĂ A VORBIRII Șl A VORBITORULUI
Invenția aparține domeniului sistemelor de procesare a semnalului audio pentru recunoașterea automată a vorbirii și identificare automată a vorbitorului.
Un sistem de recunoaștere a automată a vorbirii are ca scop transcrierea unui semnal audio, de cele mai multe ori înregistrarea unei conversații sau a unui monolog. Prin recunoaștere se obține un fișier text care conține cuvintele rostite. în cazul în care semnalul audio conține segmente de muzică, zgomot, efecte speciale, sau în cazul în care proprietățile semnalului audio se schimbă în timp, rezultatele procesului de recunoaștere sunt afectate în mod negativ, prin introducerea de erori. De exemplu, sistemul de recunoaștere va încerca transcrierea unui semnal muzical, rezultând text fără sens gramatical. Probleme similare sunt întâlnite și în cazul recunoașterii vorbitorului, care nu este posibilă atunci când înregistrarea audio conține muzică sau zgomot, sau când vorbirea înregistrată conține semnal vocal de la mai mulți vorbitori.
Diarizarea este procesul prin care semnalul audio este analizat și segmentat, astfel încât fiecare segment are proprietăți uniforme din punct de vedere audio și conține un singur fel de semnal, care poate fi liniște, muzică, vorbire sau alte tipuri de semnal audio. Recunoașterea se poate face apoi doar pe segmentele de vorbire.
Segmentele de vorbire identificate pot fi suplimentar procesate în cadrul procesului de diarizare pentru separarea vorbitorilor, folosind proprietăți audio cum ar fi frecvența fundamentală a semnalului vocal. în urma acestui pas, fiecare segment de vorbire aparține unui singur vorbitor și poate fi folosit pentru identificarea vorbitorului respectiv.
în cele ce urmează vom enunța terminologia folosită în descrierea prezentei invenții, cu mențiunea că se folosește terminologia consacrată specifică domeniului, în limba engleză:
• Frame - Fereastră audio - un număr de eșantioane ale semnalului audio digital, reprezentând în mod obișnuit un interval de timp fix, de ordinul milisecundelor (10-20ms) <- l Ο 1 4 - - 0 0 3 4 7 0 7 -05- 2014 • Speech Features - Vector de caracteristici audio - coeficienții cepstrali de frecvență (MFCC) și a alte măsuri ale semnalului din o fereastră audio, folosite pentru procesul de diarizare. Semnalul audio este reprezentat în procesul de diarizare ca o înșiruire de vectori de caracteristici consecutivi.
• Segment - Segment - un număr de vectori de caracteristici audio consecutivi, care au proprietăți similare • Cluster - Grup - un număr de segmente consecutive, care au proprietăți similare, de exemplu aparțin aceluiași vorbitor • Speaker model - Model audio - un model de mixtură Gaussiană (GMM) care aproximează caracteristicile vorbitorului. Un model de vorbitor poate fi antrenat folosind vectorii de caracteristici audio ai unui grup. Un GMM poate de asemenea să aproximeze clase mai largi de semnal audio, cum ar fi muzica, liniște, vorbire, voce de bărbat, voce de femeie, și altele.
Stadiul cunoscut al tehnicii, în ceea ce privește sistemele de diarizare automată, este analizat în [S. Galliano, G. Gravier, L. Chaubard, The ester 2 evaluation campaign forthe rich transcription of French radio broadcasts, In Proc. Interspeech, pp. 2583-2586, 2009], Unul din sistemele cele mai performante este dezvoltat de laboratoarele LIUM [S. Meignier, T. Merlin, “LIUM SpkDiarization: An Open Source Toolkit For Diarization,” in Proc. CMU SPUD Workshop, 2010.] Acesta procesează semnalul vocal în următoarele etape:
1. Extragerea vectorilor de caracteristici audio din semnalul audio
2. Segmentare
3. Agregarea segmentelor în grupuri
4. Antrenarea modelelor audio
5. Re-segmentarea Viterbi, folosind toate modelele identificate
6. Identificarea segmentelor care conțin vorbire
7. Identificarea bărbat/femeie, folosind modele pre-antrenate
8. Agregarea finală în grupuri a segmentelor care aparțin aceluiași vorbitor.
Așa cum se prezintă sistemele de diarizare cunoscute, dezavantajele lor sunt inabilitatea de a segmenta semnalul audio pe măsură ce acesta este primit de către ^-2014-- 0 0 3 4 70 7 -05- 2014 sistemul de diarizare. Sistemele cunoscute de diarizare nu pot determina caracteristicile segmentului (vorbitor, zgomot de fundal, etc) dacă nu au la dispoziție toate eșantioanele segmentului, astfel încât să poată antrena modelele audio necesare. Mai mult, sistemul de diarizare nu poate determina granița între două segmente dacă nu are la dispoziție toate eșantioanele pentru ambele segmente. în cazul ideal, diarizarea se face pe tot semnalul vocal, eliminând problemele enunțate, dar această metodă introduce întârzieri mari, inacceptabile pentru unele aplicații.
De exemplu, rezultatele diarizării sunt utile procesului de recunoaștere a vorbirii prin filtrarea vorbire/liniște sau informația despre vorbitor (pentru adaptarea modelului acustic), și este de dorit ca recunoașterea să aibă loc abia după terminarea diarizării. în multe aplicații, de exemplu cele care implică fluxuri audio foarte lungi, sau care necesită răspuns în timp real al sistemului de recunoașterea vorbirii, diarizarea pe tot semnalul vocal nu este o soluție viabilă și este necesară o soluție de diarizare în timp real, care să segmenteze semnalul audio pe măsură ce acesta este primit.
Invenția se referă la o metodă de diarizare în timp real a semnalelor vocale, care se realizează folosind, atât modele statice pre-antrenate de vorbitor, cât și o istorie de segmente și modele de vorbitor create dinamic, istoria fiind gestionată periodic prin actualizarea modelelor de vorbitor și prin eliminarea modelelor, folosind o funcție de cost bazată pe vechimea modelului și ponderea sa în istoria de diarizare, atunci când istoria de diarizare depășește o dimensiune prestabilită. Invenția se mai referă și la un sistem de diarizare în timp real, pentru implementarea metodei, care constă din module funcționale ce pot fi implementate ca programe software executabile pe un calculator sau circuite integrate, care mențin istoria de diarizare și comunică cu servicii externe de extragere a vectorilor de caracteristici audio, recunoaștere automată a vorbirii, actualizare a modelelor GMM.
Se prezintă în continuare, în detaliu, principiile și realizarea invenției, în legătură și cu figiurile de la 1 la 3, care reprezintă:
Fig.1 prezintă metoda de diarizare propusă, ce presupune folosirea unei istorii de diarizare, conținând modele dinamice de vorbitor, și modele statice de vorbitor, pentru segmentarea unui flux de caracteristici de vorbire.
Fig. 2 prezintă metoda de gestiune a istoriei de diarizare, prin care segmente noi sunt adăugate și, atunci când istoria depășește o dimensiune dată, sunt
ÎV 2 O U - - 0 0 3 4 70 7 -05-2014 eliminate segmente și modele de vorbitor.
Fig. 3 prezintă un sistem de diarizare construit pe baza metodei propuse, constând din memorii pentru istoria de diarizare, și componente pentru gestiunea acestei istorii.
Invenția se referă la o metodă pentru separarea unui semnal audio în segmente omogene din punctul de vedere al proprietăților audio (diarizare), incluzând separarea segmentelor de vorbire de segmentele audio de liniște și, separarea segmentelor de vorbire în funcție de vorbitor. Metoda propusă are la bază faptul că segmentarea se face fără a aștepta primirea întregului fișier audio, iar segmentele rezultate dintr-o anumită porțiune a fluxului audio sunt calculate și livrate utilizatorului în timp real, cu o întârziere fixă, relativ la fluxul audio.
Metoda propusă pentru diarizare în timp real este prezentată în Figura 1. Metoda se bazează pe citirea, la fiecare T secunde, a unui număr N de vectori de caracteristici audio dintr-o memorie tampon 101. Vectorii sunt segmentați folosind un serviciu extern de segmentare 102. Modelele audio folosite pentru segmentare sunt stocate în istoria de diarizare 103 sau în memoria statică de modele pre-calculate 104. Istoria 103 acoperă ultimele S secunde de semnal audio, și conține, atât segmentele, cât și grupurile de segmente împreună cu modelele audio asociate grupurilor. Memoria statică 104 de modele pre-calculate conține modele precalculate pentru vorbitori considerați a fi importanți, a căror recunoaștere este esențială (persoane publice cunoscute, , VIP)
Segmentele rezultate din diarizarea de la pasul curent sunt adăugate la istoria de diarizare 103 și modelele vechi sunt eliminate din istoria 103 conform unei metode 105 de gestiune a istoriei de diarizare. Actualizarea modelelor de vorbitor din istoria 103, folosind informația audio de la pasul curent, este realizată de un serviciu extern. Vectorii audio corespunzători tuturor segmentelor, în afară de ultimul, sunt apoi transmise către utilizator. Vectorii audio din ultimul segment sunt păstrați și folosiți ca parte a următorului set de N vectori de caracteristici audio ce vor fi procesați.
Metoda propusă pentru gestiunea istoriei de diarizare este ilustrată în Figura
2. Istoria de diarizare este compusă din trei memorii distincte:
¢-2014-- 003470 7 -05- 2014 • memoria pentru segmente (MS) 201, ce conține caracteristicile de vorbire corespunzătoare segmentelor identificate anterior prin diarizare, • memoria pentru grupuri de segmente (MG) 202, ce conține grupurile identificate anterior prin diarizare, și • memoria pentru modele GMM (MM) 203, ce conține modelele de mixtură gaussiană calculate pentru fiecare grup de segmente în parte.
în urma diarizării unei ferestre audio, segmentele sunt adăugate istoriei de diarizare 103. Se încearcă asocierea fiecărui segment cu unul din modelele de vorbitor existente, la pasul 204. Dacă asocierea există, se actualizează grupurile de segmente la pasul 205 și se actualizează modelele de vorbitor ale grupurilor respective, la pasul 206. Dacă asocierea nu există, se crează un grup nou la care segmentul este adăugat, și se generează modelul de vorbitor pentru grupul nou creat. Atât noul grup, cât și modelul său de vorbitor, sunt adăugate istoriei de diarizare.
Dacă istoria de diarizare depășește o dimensiune D prestabilită de către utilizator, se execută o procedură de curățare a acesteia:
• Se verifică dacă există grupuri în care toate segmentele au vechime mai mare de S secunde, unde S este o valoare specificată de utilizator. Aceste grupuri sunt eliminate din istoria de diarizare la pasul 207.
Dacă pasul anterior nu a dus la scăderea dimensiunii istoriei de diarizare sub dimensiunea D, se calculează o funcție de cost la pasul 208 pentru fiecare grup/model, în felul următor:
• Se calculează o valoare de cost CV a vechimii modelului, proporțională cu numărul de secunde de la ultima actualizare a modelului • Se calculează o valoare de cost CD a dimensiunii grupului asociat modelului, invers proporțională cu numărul de segmente conținute de grupul respectiv • Se calculează o valoare de cost total CT prin mediere ponderată a CV și CD, cu ponderi alese de utilizator
Ο 1 4 - - 003470 7 -05- 2014
Modelele sunt ordonate în funcție de vâloarea de cost total CT asociată fiecăruia, în lista 209. în mod repetitiv, modelul cu valoarea cea mai mare de cost este eliminat din istoria de diarizare, împreună cu segmentele și grupul asociate modelului, până când dimensiunea istoriei de diarizare scade sub pragul D.
Sistemul propus pentru diarizare în timp real a unui flux audio este ilustrat în Figura 3. Istoria de diarizare este conținută în memorii RAM. Gestiunea istoriei de diarizare, incluzând scrierea și citirea memoriilor 201, 202, și 203 care formează istoria de diarizare, este realizată de un automat finit de control 301 ce poate fi implementat ca un circuit sau ca un program executat pe un microcontroler. Sistemul include o memorie RAM suplimentara pentru vectori audio, 302, care conține vectori de caracteristici audio citiți dintr-o memorie tampon 303, atât timp cât este necesar pentru diarizare, vectori care apoi sunt scriși în memoria tampon 304. întregul proces este controlat de un automat finit de control ce poate fi implementat ca un circuit sau ca un program executat pe un microcontroler sau un microprocesor.
Invenția prezentată are multiple avantaje față de stadiul tehnicii:
• Metoda propusă, folosind istoria de diarizare, permite execuția în timp real a procesului de diarizare, prin menținerea unui număr relativ mic de modele de vorbitor și actualizarea acestora pe măsură ce rezultatele diarizării sunt produse. Efortul computațional pentru recunoașterea vorbitorului prezent în fiecare segment de vorbire este proporțional cu numărul de modele de vorbitor avute în vedere, prin urmare reducerea numărului de modele reduce efortul computațional.
• Metoda propusă ocupă o cantitate mai mică de resurse de memorie, prin mecanismul de gestiune care elimină modelele de vorbitor, împreună cu segmentele asociate, folosind o funcție de cost ce ține cont de vechimea modelului și ponderea sa în istoria de diarizare. Datorită faptului că necesarul de memorie pentru metoda de diarizare propusă este fix, indiferent de lungimea fluxului audio diarizat și numărul de vorbitori din acest flux, iar dimensiunea efectivă poate fi setată arbitrar de mic, metoda propusă se pretează în special sistemelor încorporate și implementărilor folosind resurse limitate.

Claims (5)

  1. Revendicări
    1. Metodă de diarizare în timp real a semnalelor vocale prin identificarea și marcarea de segmente din fluxul audio vocal ce aparțin aceluiași vorbitor sau aceleiași clase audio, metoda fiind caracterizată prin aceea că diarizarea este realizată folosind, atât modele statice pre-antrenate de vorbitor, cât și o istorie de segmente și modele de vorbitor create dinamic, istoria fiind gestionată periodic atunci când istoria de diarizare depășește o dimensiune prestabilită, menținându-se astfel un necesar fix de memorie indiferent de lungimea fluxului audio și de numărul de vorbitori.
  2. 2. Metodă de diarizare conform revendicării 1, în care se realizează gestionarea istoriei de diarizare, ce conține modele statistice caracteristice pentru vorbitorii identificați, modele ce pot fi create sau actualizate în procesul de diarizare, metoda fiind caracterizată prin aceea că, atunci când istoria de diarizare depășește o dimensiune prestabilită D, sunt eliminate toate modelele statistice pentru vorbitorii care nu au mai apărut în fluxul audio de cel puțin S secunde.
  3. 3. Metodă de diarizare conform revendicării 1, caracterizată prin aceea că, atunci când istoria de diarizare depășește o dimensiune prestabilită D, se calculează o funcție de cost CT pentru modelele statistice dinamice de vorbitor și se elimină iterativ câte un model statistic din istoria de diarizare, alegându-se de fiecare dată modelul care are costul cel mai mare, până când dimensiunea istoriei de diarizare scade sub pragul D.
  4. 4. Metodă de diarizare conform revendicării 3, folosită pentru eliminarea selectivă a modelelor statistice de vorbitor din istoria de diarizare, metoda fiind caracterizată prin aceea că funcția de cost CT reprezintă o medie ponderată între costul CV dat de vechimea modelului în istoria de diarizare, unde costul CV este direct proporțional cu vechimea modelului, și costul CD dat de ponderea segmentelor asociate modelului în istoria de diarizare, unde costul CD este invers proporțional cu această pondere.
    ¢^2014-- 0 0 3 4 7 0 7 -05- 2014
  5. 5. Sistem de diarizare în timp real ce implementează metoda conform revendicării 1, caracterizat prin aceea că sistemul constă din memorii și automate finite de control, ce pot fi implementate ca programe software executabile pe un calculator sau circuite integrate, care mențin istoria de diarizare și comunică cu servicii externe de extragere a vectorilor de caracteristici audio, recunoaștere automată a vorbirii, actualizare a modelelor GMM și diarizare preliminară.
ROA201400347A 2014-05-07 2014-05-07 Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului RO130883B1 (ro)

Priority Applications (1)

Application Number Priority Date Filing Date Title
ROA201400347A RO130883B1 (ro) 2014-05-07 2014-05-07 Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ROA201400347A RO130883B1 (ro) 2014-05-07 2014-05-07 Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului

Publications (2)

Publication Number Publication Date
RO130883A2 true RO130883A2 (ro) 2016-01-29
RO130883B1 RO130883B1 (ro) 2019-02-28

Family

ID=55171045

Family Applications (1)

Application Number Title Priority Date Filing Date
ROA201400347A RO130883B1 (ro) 2014-05-07 2014-05-07 Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului

Country Status (1)

Country Link
RO (1) RO130883B1 (ro)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614797B2 (en) 2016-12-01 2020-04-07 International Business Machines Corporation Prefix methods for diarization in streaming mode

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614797B2 (en) 2016-12-01 2020-04-07 International Business Machines Corporation Prefix methods for diarization in streaming mode

Also Published As

Publication number Publication date
RO130883B1 (ro) 2019-02-28

Similar Documents

Publication Publication Date Title
US11024295B2 (en) Filtering data in an audio stream
US11341986B2 (en) Emotion detection in audio interactions
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
CN108682420B (zh) 一种音视频通话方言识别方法及终端设备
US9685173B2 (en) Method for non-intrusive acoustic parameter estimation
US8543402B1 (en) Speaker segmentation in noisy conversational speech
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
US8165874B2 (en) System, method, and program product for processing speech ratio difference data variations in a conversation between two persons
US9401146B2 (en) Identification of communication-related voice commands
US9711167B2 (en) System and method for real-time speaker segmentation of audio interactions
US20150073785A1 (en) Method for voicemail quality detection
US8620670B2 (en) Automatic realtime speech impairment correction
CN103700370A (zh) 一种广播电视语音识别系统方法及系统
CN106847305B (zh) 一种处理客服电话的录音数据的方法及装置
EP2936489A1 (en) Audio processing apparatus and audio processing method
US8315867B1 (en) Systems and methods for analyzing communication sessions
WO2018192186A1 (zh) 语音识别方法及装置
CN1714390B (zh) 语音识别设备和方法
CN109376224B (zh) 语料过滤方法与装置
RO130883A2 (ro) Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
CN113921042A (zh) 语音脱敏方法、装置、电子设备及存储介质
CN114155845A (zh) 服务确定方法、装置、电子设备及存储介质
CN114333767A (zh) 发声者语音抽取方法、装置、存储介质及电子设备
CN112820276A (zh) 语音的处理方法、装置、计算机可读存储介质与处理器