LU600124B1 - Voice emotion recognition method and system - Google Patents
Voice emotion recognition method and systemInfo
- Publication number
- LU600124B1 LU600124B1 LU600124A LU600124A LU600124B1 LU 600124 B1 LU600124 B1 LU 600124B1 LU 600124 A LU600124 A LU 600124A LU 600124 A LU600124 A LU 600124A LU 600124 B1 LU600124 B1 LU 600124B1
- Authority
- LU
- Luxembourg
- Prior art keywords
- voice
- emotion
- signal
- voice signal
- model
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Acoustics & Sound (AREA)
- Computing Systems (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Child & Adolescent Psychology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Claims (10)
1. Verfahren zur Erkennung von Emotionen in der Stimme, umfassend: Erfassen eines Stimmsignals und Vorverarbeiten des Stimmsignals, um ein vorverarbeitetes Stimmsignal zu erhalten; Extrahieren akustischer Parameter aus dem vorverarbeiteten Stimmsignal, um einen Satz akustischer Parameter zu erhalten: Erfassen von Attributinformationen eines Sprechers und Auswählen eines entsprechenden Stimmen-Emotionsmodells aus einer vorgebildeten Stimmen-Emotionsmodell-Basis gemäß den Attributinformationen, wobei das Stimm-Emotionsmodell auf der Grundlage eines tiefen neuronalen Netzwerkmodells konstruiert und durch Trainieren eines Trainingssatzes erhalten wird, und der Trainingssatz Stimmdaten derselben Menschenmenge in verschiedenen emotionalen Zuständen umfasst; Eingeben des Satzes akustischer Parameter in das entsprechende Stimmen-Emotionsmodell und den Satz emotionaler Zustände gemäß dem entsprechenden Stimmen-Emotionsmodell; und Erfassen einer kulturellen Hintergrundinformation des Sprechers und Modifizieren des Satzes emotionaler Zustände gemäß der kulturellen Hintergrundinformation, um ein Emotionserkennungsergebnis zu erhalten.
2. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Erhalten des vorverarbeiteten Stimmsignals Folgendes umfasst: Umwandeln des Stimmsignals in ein digitales Signal, und Einrahmen des digitalen Signals; Berechnen einer Kurzzeitenergie und einer Kurzzeit-Nulldurchgangsrate jedes Rahmensignals und Beurteilen, ob jedes Rahmensignal ein Stimmrahmenl ist, gemäß der Kurzzeitenergie und der Kurzzeit-Nulldurchgangsrate;
LU6001 24 Entfernen eines stummen Teils entsprechend dem Stimmrahmenl, Erhalten des Stimmsignals, Entfernen des stummen Teils aus dem Stimmsignal, Durchführen einer Frequenzbereichstransformation, um ein Frequenzbereichssignal zu erhalten; und Entrauschen des Frequenzbereichssignals und Durchführen einer inversen Transformation, um das vorverarbeitete Stimmsignal zu erhalten.
3. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 2, wobei das Erhalten des Satzes akustischer Parameter Folgendes umfasst: Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Tonhôhenerkennungsalgorithmus, um Grundfrequenzparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Kurzzeitenergie-Analyseverfahrens, um Energieparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden einer linearen pradiktiven Codierungstechnologie, um Formantenparameter zu erhalten; und Erfassen des Satzes akustischer Parameter gemäß dem Grundfrequenzparameter, dem Energieparameter und dem Formantenparameter.
4. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Eingeben des akustischen Parametersatzes in das entsprechende Stimmemotionsmodell und das Erhalten des Satzes akustischer Parameter Folgendes umfasst: die Faltungsschicht des tiefen neuronalen Netzes extrahiert die lokalen Merkmale des Satzes akustischer Parameter, erfasst die Zeitfolgebeziehung des Satzes akustischer Parameter durch die Zirkulationsschicht und ordnet die lokalen Merkmale verschiedenen Emotionskategorien durch die vollständig verbundene Schicht zu, um die Wahrscheinlichkeitsverteilung der Emotionskategorien zu erhalten.
LU6001 24
5. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Verfahren ferner das Eingeben des Satzes akustischer Parameter in ein allgemeines Stimmen-Emotionsmodell umfasst, um einen Satz von Emotionszustanden zu erhalten, wenn es kein entsprechendes Stimmen-Emotionsmodell in der vorgefertigten Stimmen-Emotionsmodell-Basis gibt, wobei der Trainingssatz des allgemeinen Stimmen-Emotionsmodells Stimmdaten verschiedener Personen mit verschiedenen Emotionszuständen umfasst.
6. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Erhalten der kulturellen Hintergrundinformationen des Sprechers und das Modifizieren des Satzes von Emotionszustdnden gemäß den kulturellen Hintergrundinformationen Folgendes umfasst: Erfassen der kulturellen Hintergrundinformation entsprechend der Attributinformation:; Erhalten eines entsprechenden Emotionsausdruck-Merkmalsvektors aus einer Emotionsausdruck-Wissensbasis gemäß der kulturellen Hintergrundinformation; und Ausführen einer gewichteten Korrektur an jeder Emotionskategorie in dem Satz von Emotionszuständen gemäß dem Emotionsausdruck-Merkmalsvektor, um das Emotionserkennungsergebnis zu erhalten.
7. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 6, wobei die gewichtete Korrektur jeder Emotionskategorie in dem Satz von Emotionszustanden gemäß dem Emotionsausdruck-Merkmalsvektor Folgendes umfasst: Durchführen einer Übereinstimmungsberechnung für den Satz von Emotionszuständen und den Emotionsausdruck-Merkmalsvektor und Beurteilen, ob eine Korrektur durch einen Ahnlichkeitsschwellenwert erforderlich ist:
LU6001 24 wenn ja, Durchführen einer gewichteten Korrektur jeder Emotionskategorie dem Satz von Emotionszuständen gemäß dem Emotionsausdruck-Merkmalsvektor, und Verarbeiten des korrigierten Satzes von Emotionszuständen durch eine Softmax-Normalisierungsfunktion, um das Emotionserkennungsergebnis zu erhalten.
8. System fur Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, umfassend ein Vorverarbeitungsmodul, ein Modul zur Extraktion akustischer Parameter, ein Modul zur Auswahl eines Stimmen-Emotionsmodells, ein Modul zur Erkennung von Stimmemotionen und ein Modul zur Korrektur des Erkennungsergebnisses; das Vorverarbeitungsmodul wird zum Erfassen und Vorverarbeiten eines Stimmsignals verwendet, um das vorverarbeitete Stimmsignal zu erfassen; das Modul zur Extraktion akustischer Parameter wird zum Extrahieren akustischer Parameter aus dem vorverarbeiteten Stimmsignal verwendet wird, um einen Satz akustischer Parameter zu erhalten; das Modul zur Auswahl eines Stimmen-Emotionsmodell wird verwendet, um die Attributinformationen eines Sprechers zu erfassen und ein entsprechendes Stimmen-Emotionsmodell aus einer vorgefertigten Stimmen-Emotionsmodell-Basis gemäß den Attributinformationen auszuwählen, wobei das Stimmen-Emotionsmodell auf der Grundlage eines tiefen neuronalen Netzwerkmodells konstruiert und durch Training eines Trainingssatzes erhalten wird, und der Trainingssatz Stimmdaten derselben Menschenmenge in verschiedenen Emotionszuständen umfasst; das Modul zur Erkennung von Stimmemotionen wird zum Eingeben des Satzes akustischer Parameter in das entsprechende Stimmen-Emotionsmodell gemäß dem entsprechenden Stimmen-Emotionsmodell verwendet wird, um einen Satz von Emotionszuständen zu erhalten;
LU6001 24 und das Modul zur Korrektur des Erkennungsergebnisses wird verwendet, um die kulturellen Hintergrundinformationen des Sprechers zu erhalten und den Satz von Emotionszustanden gemäß den kulturellen Hintergrundinformationen zu korrigieren, um ein Emotionserkennungsergebnis zu erhalten.
9. System nach Anspruch 8, wobei das Erhalten des vorverarbeiteten Stimmsignals Folgendes umfasst: Umwandeln des Sprachsignals in ein digitales Signal und Einrahmen des digitalen Signals; Berechnen der Kurzzeitenergie und der Kurzzeit-Nulldurchgangsrate jedes Rahmensignals, und Beurteilen, ob jedes Rahmensignal gemäß der Kurzzeitenergie und der Kurzzeit-Nulldurchgangsrate ein Stimmrahmen ist; Entfernen des stummen Teils entsprechend dem Stimmrahmen, Erhalten eines Stimmsignals, Entfernen des stummen Teils aus dem Stimmsignal, Durchführen einer Frequenzbereichstransformation, um ein Frequenzbereichssignal zu erhalten; und Entrauschen des Frequenzbereichssignals und Durchführen einer inversen Transformation, um das vorverarbeitete Sprachsignal zu erhalten.
LU6001 24
10. System nach Anspruch 8, wobei das Erhalten des Satzes akustischer Parameter Folgendes umfasst: Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Tonhôhenerkennungsalgorithmus, um Grundfrequenzparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Kurzzeitenergie-Analyseverfahrens, um Energieparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden einer linearen pradiktiven Codierungstechnologie, um Formantenparameter zu erhalten; und Erfassen des Satzes akustischer Parameter gemäß dem Grundfrequenzparameter, dem Energieparameter und dem Formantenparameter.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| LU600124A LU600124B1 (en) | 2025-01-24 | 2025-01-24 | Voice emotion recognition method and system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| LU600124A LU600124B1 (en) | 2025-01-24 | 2025-01-24 | Voice emotion recognition method and system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| LU600124B1 true LU600124B1 (en) | 2025-07-25 |
Family
ID=96547871
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| LU600124A LU600124B1 (en) | 2025-01-24 | 2025-01-24 | Voice emotion recognition method and system |
Country Status (1)
| Country | Link |
|---|---|
| LU (1) | LU600124B1 (de) |
-
2025
- 2025-01-24 LU LU600124A patent/LU600124B1/en active IP Right Grant
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Venkataramanan et al. | Emotion recognition from speech | |
| CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
| CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
| CN116665669A (zh) | 一种基于人工智能的语音交互方法及系统 | |
| CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
| CN107767881B (zh) | 一种语音信息的满意度的获取方法和装置 | |
| Hu et al. | Pitch‐based gender identification with two‐stage classification | |
| CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
| US11495234B2 (en) | Data mining apparatus, method and system for speech recognition using the same | |
| CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
| CN114121023A (zh) | 说话人分离方法、装置、电子设备及计算机可读存储介质 | |
| CN118173092A (zh) | 一种基于ai语音交互的在线客服平台 | |
| CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
| CN108682432B (zh) | 语音情感识别装置 | |
| CN113516987B (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
| CN119517012A (zh) | 一种智能语音机器人的语音识别方法及系统 | |
| CN114512133B (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
| CN116206593A (zh) | 一种语音质检方法、装置和设备 | |
| CN117831544A (zh) | 一种面向复杂声景的鸟声特征提取和识别的方法与系统 | |
| CN118486297B (zh) | 一种基于语音情感识别的响应方法及智能语音助手系统 | |
| LU600124B1 (en) | Voice emotion recognition method and system | |
| Hasan et al. | Bengali speech emotion recognition: A hybrid approach using B-LSTM | |
| Merzougui et al. | Diagnosing spasmodic dysphonia with the power of AI | |
| CN118762718A (zh) | 一种能动态跟踪识别个人音色长期渐进性变化的方法与系统 | |
| CN117457005A (zh) | 一种基于动量对比学习的声纹识别方法和设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FG | Patent granted |
Effective date: 20250725 |