LU600124B1

LU600124B1 - Voice emotion recognition method and system

Info

Publication number: LU600124B1
Application number: LU600124A
Authority: LU
Inventors: Hexing Wang; Yanjun Chen
Original assignee: Univ Northeastern Qinhuangdao
Priority date: 2025-01-24
Filing date: 2025-01-24
Publication date: 2025-07-25

Claims

LU6001 24 PATENTANSPRÜCHE

1. Verfahren zur Erkennung von Emotionen in der Stimme, umfassend: Erfassen eines Stimmsignals und Vorverarbeiten des Stimmsignals, um ein vorverarbeitetes Stimmsignal zu erhalten; Extrahieren akustischer Parameter aus dem vorverarbeiteten Stimmsignal, um einen Satz akustischer Parameter zu erhalten: Erfassen von Attributinformationen eines Sprechers und Auswählen eines entsprechenden Stimmen-Emotionsmodells aus einer vorgebildeten Stimmen-Emotionsmodell-Basis gemäß den Attributinformationen, wobei das Stimm-Emotionsmodell auf der Grundlage eines tiefen neuronalen Netzwerkmodells konstruiert und durch Trainieren eines Trainingssatzes erhalten wird, und der Trainingssatz Stimmdaten derselben Menschenmenge in verschiedenen emotionalen Zuständen umfasst; Eingeben des Satzes akustischer Parameter in das entsprechende Stimmen-Emotionsmodell und den Satz emotionaler Zustände gemäß dem entsprechenden Stimmen-Emotionsmodell; und Erfassen einer kulturellen Hintergrundinformation des Sprechers und Modifizieren des Satzes emotionaler Zustände gemäß der kulturellen Hintergrundinformation, um ein Emotionserkennungsergebnis zu erhalten.

2. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Erhalten des vorverarbeiteten Stimmsignals Folgendes umfasst: Umwandeln des Stimmsignals in ein digitales Signal, und Einrahmen des digitalen Signals; Berechnen einer Kurzzeitenergie und einer Kurzzeit-Nulldurchgangsrate jedes Rahmensignals und Beurteilen, ob jedes Rahmensignal ein Stimmrahmenl ist, gemäß der Kurzzeitenergie und der Kurzzeit-Nulldurchgangsrate;

LU6001 24 Entfernen eines stummen Teils entsprechend dem Stimmrahmenl, Erhalten des Stimmsignals, Entfernen des stummen Teils aus dem Stimmsignal, Durchführen einer Frequenzbereichstransformation, um ein Frequenzbereichssignal zu erhalten; und Entrauschen des Frequenzbereichssignals und Durchführen einer inversen Transformation, um das vorverarbeitete Stimmsignal zu erhalten.

3. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 2, wobei das Erhalten des Satzes akustischer Parameter Folgendes umfasst: Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Tonhôhenerkennungsalgorithmus, um Grundfrequenzparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Kurzzeitenergie-Analyseverfahrens, um Energieparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden einer linearen pradiktiven Codierungstechnologie, um Formantenparameter zu erhalten; und Erfassen des Satzes akustischer Parameter gemäß dem Grundfrequenzparameter, dem Energieparameter und dem Formantenparameter.

4. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Eingeben des akustischen Parametersatzes in das entsprechende Stimmemotionsmodell und das Erhalten des Satzes akustischer Parameter Folgendes umfasst: die Faltungsschicht des tiefen neuronalen Netzes extrahiert die lokalen Merkmale des Satzes akustischer Parameter, erfasst die Zeitfolgebeziehung des Satzes akustischer Parameter durch die Zirkulationsschicht und ordnet die lokalen Merkmale verschiedenen Emotionskategorien durch die vollständig verbundene Schicht zu, um die Wahrscheinlichkeitsverteilung der Emotionskategorien zu erhalten.

LU6001 24

5. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Verfahren ferner das Eingeben des Satzes akustischer Parameter in ein allgemeines Stimmen-Emotionsmodell umfasst, um einen Satz von Emotionszustanden zu erhalten, wenn es kein entsprechendes Stimmen-Emotionsmodell in der vorgefertigten Stimmen-Emotionsmodell-Basis gibt, wobei der Trainingssatz des allgemeinen Stimmen-Emotionsmodells Stimmdaten verschiedener Personen mit verschiedenen Emotionszuständen umfasst.

6. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Erhalten der kulturellen Hintergrundinformationen des Sprechers und das Modifizieren des Satzes von Emotionszustdnden gemäß den kulturellen Hintergrundinformationen Folgendes umfasst: Erfassen der kulturellen Hintergrundinformation entsprechend der Attributinformation:; Erhalten eines entsprechenden Emotionsausdruck-Merkmalsvektors aus einer Emotionsausdruck-Wissensbasis gemäß der kulturellen Hintergrundinformation; und Ausführen einer gewichteten Korrektur an jeder Emotionskategorie in dem Satz von Emotionszuständen gemäß dem Emotionsausdruck-Merkmalsvektor, um das Emotionserkennungsergebnis zu erhalten.

7. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 6, wobei die gewichtete Korrektur jeder Emotionskategorie in dem Satz von Emotionszustanden gemäß dem Emotionsausdruck-Merkmalsvektor Folgendes umfasst: Durchführen einer Übereinstimmungsberechnung für den Satz von Emotionszuständen und den Emotionsausdruck-Merkmalsvektor und Beurteilen, ob eine Korrektur durch einen Ahnlichkeitsschwellenwert erforderlich ist:

LU6001 24 wenn ja, Durchführen einer gewichteten Korrektur jeder Emotionskategorie dem Satz von Emotionszuständen gemäß dem Emotionsausdruck-Merkmalsvektor, und Verarbeiten des korrigierten Satzes von Emotionszuständen durch eine Softmax-Normalisierungsfunktion, um das Emotionserkennungsergebnis zu erhalten.

8. System fur Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, umfassend ein Vorverarbeitungsmodul, ein Modul zur Extraktion akustischer Parameter, ein Modul zur Auswahl eines Stimmen-Emotionsmodells, ein Modul zur Erkennung von Stimmemotionen und ein Modul zur Korrektur des Erkennungsergebnisses; das Vorverarbeitungsmodul wird zum Erfassen und Vorverarbeiten eines Stimmsignals verwendet, um das vorverarbeitete Stimmsignal zu erfassen; das Modul zur Extraktion akustischer Parameter wird zum Extrahieren akustischer Parameter aus dem vorverarbeiteten Stimmsignal verwendet wird, um einen Satz akustischer Parameter zu erhalten; das Modul zur Auswahl eines Stimmen-Emotionsmodell wird verwendet, um die Attributinformationen eines Sprechers zu erfassen und ein entsprechendes Stimmen-Emotionsmodell aus einer vorgefertigten Stimmen-Emotionsmodell-Basis gemäß den Attributinformationen auszuwählen, wobei das Stimmen-Emotionsmodell auf der Grundlage eines tiefen neuronalen Netzwerkmodells konstruiert und durch Training eines Trainingssatzes erhalten wird, und der Trainingssatz Stimmdaten derselben Menschenmenge in verschiedenen Emotionszuständen umfasst; das Modul zur Erkennung von Stimmemotionen wird zum Eingeben des Satzes akustischer Parameter in das entsprechende Stimmen-Emotionsmodell gemäß dem entsprechenden Stimmen-Emotionsmodell verwendet wird, um einen Satz von Emotionszuständen zu erhalten;

LU6001 24 und das Modul zur Korrektur des Erkennungsergebnisses wird verwendet, um die kulturellen Hintergrundinformationen des Sprechers zu erhalten und den Satz von Emotionszustanden gemäß den kulturellen Hintergrundinformationen zu korrigieren, um ein Emotionserkennungsergebnis zu erhalten.

9. System nach Anspruch 8, wobei das Erhalten des vorverarbeiteten Stimmsignals Folgendes umfasst: Umwandeln des Sprachsignals in ein digitales Signal und Einrahmen des digitalen Signals; Berechnen der Kurzzeitenergie und der Kurzzeit-Nulldurchgangsrate jedes Rahmensignals, und Beurteilen, ob jedes Rahmensignal gemäß der Kurzzeitenergie und der Kurzzeit-Nulldurchgangsrate ein Stimmrahmen ist; Entfernen des stummen Teils entsprechend dem Stimmrahmen, Erhalten eines Stimmsignals, Entfernen des stummen Teils aus dem Stimmsignal, Durchführen einer Frequenzbereichstransformation, um ein Frequenzbereichssignal zu erhalten; und Entrauschen des Frequenzbereichssignals und Durchführen einer inversen Transformation, um das vorverarbeitete Sprachsignal zu erhalten.

LU6001 24

10. System nach Anspruch 8, wobei das Erhalten des Satzes akustischer Parameter Folgendes umfasst: Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Tonhôhenerkennungsalgorithmus, um Grundfrequenzparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Kurzzeitenergie-Analyseverfahrens, um Energieparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden einer linearen pradiktiven Codierungstechnologie, um Formantenparameter zu erhalten; und Erfassen des Satzes akustischer Parameter gemäß dem Grundfrequenzparameter, dem Energieparameter und dem Formantenparameter.