RO130883A2 - Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului - Google Patents
Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului Download PDFInfo
- Publication number
- RO130883A2 RO130883A2 ROA201400347A RO201400347A RO130883A2 RO 130883 A2 RO130883 A2 RO 130883A2 RO A201400347 A ROA201400347 A RO A201400347A RO 201400347 A RO201400347 A RO 201400347A RO 130883 A2 RO130883 A2 RO 130883A2
- Authority
- RO
- Romania
- Prior art keywords
- diarization
- history
- speaker
- audio
- models
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 6
- 230000001755 vocal effect Effects 0.000 claims abstract 2
- 230000008569 process Effects 0.000 claims description 10
- 230000003068 static effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013179 statistical model Methods 0.000 claims 5
- 230000005236 sound signal Effects 0.000 abstract description 15
- 230000011218 segmentation Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 2
- 206010012735 Diarrhoea Diseases 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 150000002148 esters Chemical class 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Invenţia se referă la o metodă şi la un sistem pentru diarizarea în timp real a semnalelor vocale şi este destinată a fi utilizată în domeniul sistemelor de procesare a semnalului audio pentru recunoaşterea automată a vorbirii şi identificarea automată a vorbitorului. Metoda conform invenţiei constă în citirea periodică a unui număr de vectori de caracteristici audio, segmentarea vectorilor, stocarea modelelor audio în istoria de diarizare, gestionarea periodică a istoriei şi folosirea unei funcţii de cost bazată pe vechimea modelului şi ponderea sa în istoria de diarizare. Sistemul conform invenţiei constă dintr-o memorie tampon (303, 304) pentru vectori de caracteristici audio, o memorie (201) pentru segmente, o memorie (202) pentru grupuri de segmente, o memorie pentru modele (203), un serviciu (102) extern de segmentare şi automate de control (301), care gestionează istoria de diarizare.
Description
METODĂ Șl SISTEM PENTRU DIARIZARE ÎN TIMP REAL A SEMNALELOR AUDIO, UTILIZATE PENTRU RECUNOAȘTEREA AUTOMATĂ A VORBIRII Șl A VORBITORULUI
Invenția aparține domeniului sistemelor de procesare a semnalului audio pentru recunoașterea automată a vorbirii și identificare automată a vorbitorului.
Un sistem de recunoaștere a automată a vorbirii are ca scop transcrierea unui semnal audio, de cele mai multe ori înregistrarea unei conversații sau a unui monolog. Prin recunoaștere se obține un fișier text care conține cuvintele rostite. în cazul în care semnalul audio conține segmente de muzică, zgomot, efecte speciale, sau în cazul în care proprietățile semnalului audio se schimbă în timp, rezultatele procesului de recunoaștere sunt afectate în mod negativ, prin introducerea de erori. De exemplu, sistemul de recunoaștere va încerca transcrierea unui semnal muzical, rezultând text fără sens gramatical. Probleme similare sunt întâlnite și în cazul recunoașterii vorbitorului, care nu este posibilă atunci când înregistrarea audio conține muzică sau zgomot, sau când vorbirea înregistrată conține semnal vocal de la mai mulți vorbitori.
Diarizarea este procesul prin care semnalul audio este analizat și segmentat, astfel încât fiecare segment are proprietăți uniforme din punct de vedere audio și conține un singur fel de semnal, care poate fi liniște, muzică, vorbire sau alte tipuri de semnal audio. Recunoașterea se poate face apoi doar pe segmentele de vorbire.
Segmentele de vorbire identificate pot fi suplimentar procesate în cadrul procesului de diarizare pentru separarea vorbitorilor, folosind proprietăți audio cum ar fi frecvența fundamentală a semnalului vocal. în urma acestui pas, fiecare segment de vorbire aparține unui singur vorbitor și poate fi folosit pentru identificarea vorbitorului respectiv.
în cele ce urmează vom enunța terminologia folosită în descrierea prezentei invenții, cu mențiunea că se folosește terminologia consacrată specifică domeniului, în limba engleză:
• Frame - Fereastră audio - un număr de eșantioane ale semnalului audio digital, reprezentând în mod obișnuit un interval de timp fix, de ordinul milisecundelor (10-20ms) <- l Ο 1 4 - - 0 0 3 4 7 0 7 -05- 2014 • Speech Features - Vector de caracteristici audio - coeficienții cepstrali de frecvență (MFCC) și a alte măsuri ale semnalului din o fereastră audio, folosite pentru procesul de diarizare. Semnalul audio este reprezentat în procesul de diarizare ca o înșiruire de vectori de caracteristici consecutivi.
• Segment - Segment - un număr de vectori de caracteristici audio consecutivi, care au proprietăți similare • Cluster - Grup - un număr de segmente consecutive, care au proprietăți similare, de exemplu aparțin aceluiași vorbitor • Speaker model - Model audio - un model de mixtură Gaussiană (GMM) care aproximează caracteristicile vorbitorului. Un model de vorbitor poate fi antrenat folosind vectorii de caracteristici audio ai unui grup. Un GMM poate de asemenea să aproximeze clase mai largi de semnal audio, cum ar fi muzica, liniște, vorbire, voce de bărbat, voce de femeie, și altele.
Stadiul cunoscut al tehnicii, în ceea ce privește sistemele de diarizare automată, este analizat în [S. Galliano, G. Gravier, L. Chaubard, The ester 2 evaluation campaign forthe rich transcription of French radio broadcasts, In Proc. Interspeech, pp. 2583-2586, 2009], Unul din sistemele cele mai performante este dezvoltat de laboratoarele LIUM [S. Meignier, T. Merlin, “LIUM SpkDiarization: An Open Source Toolkit For Diarization,” in Proc. CMU SPUD Workshop, 2010.] Acesta procesează semnalul vocal în următoarele etape:
1. Extragerea vectorilor de caracteristici audio din semnalul audio
2. Segmentare
3. Agregarea segmentelor în grupuri
4. Antrenarea modelelor audio
5. Re-segmentarea Viterbi, folosind toate modelele identificate
6. Identificarea segmentelor care conțin vorbire
7. Identificarea bărbat/femeie, folosind modele pre-antrenate
8. Agregarea finală în grupuri a segmentelor care aparțin aceluiași vorbitor.
Așa cum se prezintă sistemele de diarizare cunoscute, dezavantajele lor sunt inabilitatea de a segmenta semnalul audio pe măsură ce acesta este primit de către ^-2014-- 0 0 3 4 70 7 -05- 2014 sistemul de diarizare. Sistemele cunoscute de diarizare nu pot determina caracteristicile segmentului (vorbitor, zgomot de fundal, etc) dacă nu au la dispoziție toate eșantioanele segmentului, astfel încât să poată antrena modelele audio necesare. Mai mult, sistemul de diarizare nu poate determina granița între două segmente dacă nu are la dispoziție toate eșantioanele pentru ambele segmente. în cazul ideal, diarizarea se face pe tot semnalul vocal, eliminând problemele enunțate, dar această metodă introduce întârzieri mari, inacceptabile pentru unele aplicații.
De exemplu, rezultatele diarizării sunt utile procesului de recunoaștere a vorbirii prin filtrarea vorbire/liniște sau informația despre vorbitor (pentru adaptarea modelului acustic), și este de dorit ca recunoașterea să aibă loc abia după terminarea diarizării. în multe aplicații, de exemplu cele care implică fluxuri audio foarte lungi, sau care necesită răspuns în timp real al sistemului de recunoașterea vorbirii, diarizarea pe tot semnalul vocal nu este o soluție viabilă și este necesară o soluție de diarizare în timp real, care să segmenteze semnalul audio pe măsură ce acesta este primit.
Invenția se referă la o metodă de diarizare în timp real a semnalelor vocale, care se realizează folosind, atât modele statice pre-antrenate de vorbitor, cât și o istorie de segmente și modele de vorbitor create dinamic, istoria fiind gestionată periodic prin actualizarea modelelor de vorbitor și prin eliminarea modelelor, folosind o funcție de cost bazată pe vechimea modelului și ponderea sa în istoria de diarizare, atunci când istoria de diarizare depășește o dimensiune prestabilită. Invenția se mai referă și la un sistem de diarizare în timp real, pentru implementarea metodei, care constă din module funcționale ce pot fi implementate ca programe software executabile pe un calculator sau circuite integrate, care mențin istoria de diarizare și comunică cu servicii externe de extragere a vectorilor de caracteristici audio, recunoaștere automată a vorbirii, actualizare a modelelor GMM.
Se prezintă în continuare, în detaliu, principiile și realizarea invenției, în legătură și cu figiurile de la 1 la 3, care reprezintă:
Fig.1 prezintă metoda de diarizare propusă, ce presupune folosirea unei istorii de diarizare, conținând modele dinamice de vorbitor, și modele statice de vorbitor, pentru segmentarea unui flux de caracteristici de vorbire.
Fig. 2 prezintă metoda de gestiune a istoriei de diarizare, prin care segmente noi sunt adăugate și, atunci când istoria depășește o dimensiune dată, sunt
ÎV 2 O U - - 0 0 3 4 70 7 -05-2014 eliminate segmente și modele de vorbitor.
Fig. 3 prezintă un sistem de diarizare construit pe baza metodei propuse, constând din memorii pentru istoria de diarizare, și componente pentru gestiunea acestei istorii.
Invenția se referă la o metodă pentru separarea unui semnal audio în segmente omogene din punctul de vedere al proprietăților audio (diarizare), incluzând separarea segmentelor de vorbire de segmentele audio de liniște și, separarea segmentelor de vorbire în funcție de vorbitor. Metoda propusă are la bază faptul că segmentarea se face fără a aștepta primirea întregului fișier audio, iar segmentele rezultate dintr-o anumită porțiune a fluxului audio sunt calculate și livrate utilizatorului în timp real, cu o întârziere fixă, relativ la fluxul audio.
Metoda propusă pentru diarizare în timp real este prezentată în Figura 1. Metoda se bazează pe citirea, la fiecare T secunde, a unui număr N de vectori de caracteristici audio dintr-o memorie tampon 101. Vectorii sunt segmentați folosind un serviciu extern de segmentare 102. Modelele audio folosite pentru segmentare sunt stocate în istoria de diarizare 103 sau în memoria statică de modele pre-calculate 104. Istoria 103 acoperă ultimele S secunde de semnal audio, și conține, atât segmentele, cât și grupurile de segmente împreună cu modelele audio asociate grupurilor. Memoria statică 104 de modele pre-calculate conține modele precalculate pentru vorbitori considerați a fi importanți, a căror recunoaștere este esențială (persoane publice cunoscute, , VIP)
Segmentele rezultate din diarizarea de la pasul curent sunt adăugate la istoria de diarizare 103 și modelele vechi sunt eliminate din istoria 103 conform unei metode 105 de gestiune a istoriei de diarizare. Actualizarea modelelor de vorbitor din istoria 103, folosind informația audio de la pasul curent, este realizată de un serviciu extern. Vectorii audio corespunzători tuturor segmentelor, în afară de ultimul, sunt apoi transmise către utilizator. Vectorii audio din ultimul segment sunt păstrați și folosiți ca parte a următorului set de N vectori de caracteristici audio ce vor fi procesați.
Metoda propusă pentru gestiunea istoriei de diarizare este ilustrată în Figura
2. Istoria de diarizare este compusă din trei memorii distincte:
¢-2014-- 003470 7 -05- 2014 • memoria pentru segmente (MS) 201, ce conține caracteristicile de vorbire corespunzătoare segmentelor identificate anterior prin diarizare, • memoria pentru grupuri de segmente (MG) 202, ce conține grupurile identificate anterior prin diarizare, și • memoria pentru modele GMM (MM) 203, ce conține modelele de mixtură gaussiană calculate pentru fiecare grup de segmente în parte.
în urma diarizării unei ferestre audio, segmentele sunt adăugate istoriei de diarizare 103. Se încearcă asocierea fiecărui segment cu unul din modelele de vorbitor existente, la pasul 204. Dacă asocierea există, se actualizează grupurile de segmente la pasul 205 și se actualizează modelele de vorbitor ale grupurilor respective, la pasul 206. Dacă asocierea nu există, se crează un grup nou la care segmentul este adăugat, și se generează modelul de vorbitor pentru grupul nou creat. Atât noul grup, cât și modelul său de vorbitor, sunt adăugate istoriei de diarizare.
Dacă istoria de diarizare depășește o dimensiune D prestabilită de către utilizator, se execută o procedură de curățare a acesteia:
• Se verifică dacă există grupuri în care toate segmentele au vechime mai mare de S secunde, unde S este o valoare specificată de utilizator. Aceste grupuri sunt eliminate din istoria de diarizare la pasul 207.
Dacă pasul anterior nu a dus la scăderea dimensiunii istoriei de diarizare sub dimensiunea D, se calculează o funcție de cost la pasul 208 pentru fiecare grup/model, în felul următor:
• Se calculează o valoare de cost CV a vechimii modelului, proporțională cu numărul de secunde de la ultima actualizare a modelului • Se calculează o valoare de cost CD a dimensiunii grupului asociat modelului, invers proporțională cu numărul de segmente conținute de grupul respectiv • Se calculează o valoare de cost total CT prin mediere ponderată a CV și CD, cu ponderi alese de utilizator
Ο 1 4 - - 003470 7 -05- 2014
Modelele sunt ordonate în funcție de vâloarea de cost total CT asociată fiecăruia, în lista 209. în mod repetitiv, modelul cu valoarea cea mai mare de cost este eliminat din istoria de diarizare, împreună cu segmentele și grupul asociate modelului, până când dimensiunea istoriei de diarizare scade sub pragul D.
Sistemul propus pentru diarizare în timp real a unui flux audio este ilustrat în Figura 3. Istoria de diarizare este conținută în memorii RAM. Gestiunea istoriei de diarizare, incluzând scrierea și citirea memoriilor 201, 202, și 203 care formează istoria de diarizare, este realizată de un automat finit de control 301 ce poate fi implementat ca un circuit sau ca un program executat pe un microcontroler. Sistemul include o memorie RAM suplimentara pentru vectori audio, 302, care conține vectori de caracteristici audio citiți dintr-o memorie tampon 303, atât timp cât este necesar pentru diarizare, vectori care apoi sunt scriși în memoria tampon 304. întregul proces este controlat de un automat finit de control ce poate fi implementat ca un circuit sau ca un program executat pe un microcontroler sau un microprocesor.
Invenția prezentată are multiple avantaje față de stadiul tehnicii:
• Metoda propusă, folosind istoria de diarizare, permite execuția în timp real a procesului de diarizare, prin menținerea unui număr relativ mic de modele de vorbitor și actualizarea acestora pe măsură ce rezultatele diarizării sunt produse. Efortul computațional pentru recunoașterea vorbitorului prezent în fiecare segment de vorbire este proporțional cu numărul de modele de vorbitor avute în vedere, prin urmare reducerea numărului de modele reduce efortul computațional.
• Metoda propusă ocupă o cantitate mai mică de resurse de memorie, prin mecanismul de gestiune care elimină modelele de vorbitor, împreună cu segmentele asociate, folosind o funcție de cost ce ține cont de vechimea modelului și ponderea sa în istoria de diarizare. Datorită faptului că necesarul de memorie pentru metoda de diarizare propusă este fix, indiferent de lungimea fluxului audio diarizat și numărul de vorbitori din acest flux, iar dimensiunea efectivă poate fi setată arbitrar de mic, metoda propusă se pretează în special sistemelor încorporate și implementărilor folosind resurse limitate.
Claims (5)
- Revendicări1. Metodă de diarizare în timp real a semnalelor vocale prin identificarea și marcarea de segmente din fluxul audio vocal ce aparțin aceluiași vorbitor sau aceleiași clase audio, metoda fiind caracterizată prin aceea că diarizarea este realizată folosind, atât modele statice pre-antrenate de vorbitor, cât și o istorie de segmente și modele de vorbitor create dinamic, istoria fiind gestionată periodic atunci când istoria de diarizare depășește o dimensiune prestabilită, menținându-se astfel un necesar fix de memorie indiferent de lungimea fluxului audio și de numărul de vorbitori.
- 2. Metodă de diarizare conform revendicării 1, în care se realizează gestionarea istoriei de diarizare, ce conține modele statistice caracteristice pentru vorbitorii identificați, modele ce pot fi create sau actualizate în procesul de diarizare, metoda fiind caracterizată prin aceea că, atunci când istoria de diarizare depășește o dimensiune prestabilită D, sunt eliminate toate modelele statistice pentru vorbitorii care nu au mai apărut în fluxul audio de cel puțin S secunde.
- 3. Metodă de diarizare conform revendicării 1, caracterizată prin aceea că, atunci când istoria de diarizare depășește o dimensiune prestabilită D, se calculează o funcție de cost CT pentru modelele statistice dinamice de vorbitor și se elimină iterativ câte un model statistic din istoria de diarizare, alegându-se de fiecare dată modelul care are costul cel mai mare, până când dimensiunea istoriei de diarizare scade sub pragul D.
- 4. Metodă de diarizare conform revendicării 3, folosită pentru eliminarea selectivă a modelelor statistice de vorbitor din istoria de diarizare, metoda fiind caracterizată prin aceea că funcția de cost CT reprezintă o medie ponderată între costul CV dat de vechimea modelului în istoria de diarizare, unde costul CV este direct proporțional cu vechimea modelului, și costul CD dat de ponderea segmentelor asociate modelului în istoria de diarizare, unde costul CD este invers proporțional cu această pondere.¢^2014-- 0 0 3 4 7 0 7 -05- 2014
- 5. Sistem de diarizare în timp real ce implementează metoda conform revendicării 1, caracterizat prin aceea că sistemul constă din memorii și automate finite de control, ce pot fi implementate ca programe software executabile pe un calculator sau circuite integrate, care mențin istoria de diarizare și comunică cu servicii externe de extragere a vectorilor de caracteristici audio, recunoaștere automată a vorbirii, actualizare a modelelor GMM și diarizare preliminară.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| ROA201400347A RO130883B1 (ro) | 2014-05-07 | 2014-05-07 | Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| ROA201400347A RO130883B1 (ro) | 2014-05-07 | 2014-05-07 | Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| RO130883A2 true RO130883A2 (ro) | 2016-01-29 |
| RO130883B1 RO130883B1 (ro) | 2019-02-28 |
Family
ID=55171045
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ROA201400347A RO130883B1 (ro) | 2014-05-07 | 2014-05-07 | Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului |
Country Status (1)
| Country | Link |
|---|---|
| RO (1) | RO130883B1 (ro) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10614797B2 (en) | 2016-12-01 | 2020-04-07 | International Business Machines Corporation | Prefix methods for diarization in streaming mode |
-
2014
- 2014-05-07 RO ROA201400347A patent/RO130883B1/ro unknown
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10614797B2 (en) | 2016-12-01 | 2020-04-07 | International Business Machines Corporation | Prefix methods for diarization in streaming mode |
Also Published As
| Publication number | Publication date |
|---|---|
| RO130883B1 (ro) | 2019-02-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11024295B2 (en) | Filtering data in an audio stream | |
| US11341986B2 (en) | Emotion detection in audio interactions | |
| JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
| CN108682420B (zh) | 一种音视频通话方言识别方法及终端设备 | |
| US9685173B2 (en) | Method for non-intrusive acoustic parameter estimation | |
| US8543402B1 (en) | Speaker segmentation in noisy conversational speech | |
| WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
| US8165874B2 (en) | System, method, and program product for processing speech ratio difference data variations in a conversation between two persons | |
| US9401146B2 (en) | Identification of communication-related voice commands | |
| US9711167B2 (en) | System and method for real-time speaker segmentation of audio interactions | |
| US20150073785A1 (en) | Method for voicemail quality detection | |
| US8620670B2 (en) | Automatic realtime speech impairment correction | |
| CN103700370A (zh) | 一种广播电视语音识别系统方法及系统 | |
| CN106847305B (zh) | 一种处理客服电话的录音数据的方法及装置 | |
| EP2936489A1 (en) | Audio processing apparatus and audio processing method | |
| US8315867B1 (en) | Systems and methods for analyzing communication sessions | |
| WO2018192186A1 (zh) | 语音识别方法及装置 | |
| CN1714390B (zh) | 语音识别设备和方法 | |
| CN109376224B (zh) | 语料过滤方法与装置 | |
| RO130883A2 (ro) | Metodă şi sistem pentru diarizare în timp real a semnalelor audio, utilizate pentru recunoaşterea automată a vorbirii şi a vorbitorului | |
| CN112216270B (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
| CN113921042A (zh) | 语音脱敏方法、装置、电子设备及存储介质 | |
| CN114155845A (zh) | 服务确定方法、装置、电子设备及存储介质 | |
| CN114333767A (zh) | 发声者语音抽取方法、装置、存储介质及电子设备 | |
| CN112820276A (zh) | 语音的处理方法、装置、计算机可读存储介质与处理器 |