LU600124B1 - Voice emotion recognition method and system - Google Patents

Voice emotion recognition method and system

Info

Publication number
LU600124B1
LU600124B1 LU600124A LU600124A LU600124B1 LU 600124 B1 LU600124 B1 LU 600124B1 LU 600124 A LU600124 A LU 600124A LU 600124 A LU600124 A LU 600124A LU 600124 B1 LU600124 B1 LU 600124B1
Authority
LU
Luxembourg
Prior art keywords
voice
emotion
signal
voice signal
model
Prior art date
Application number
LU600124A
Other languages
English (en)
Inventor
Hexing Wang
Yanjun Chen
Original Assignee
Univ Northeastern Qinhuangdao
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Northeastern Qinhuangdao filed Critical Univ Northeastern Qinhuangdao
Priority to LU600124A priority Critical patent/LU600124B1/en
Application granted granted Critical
Publication of LU600124B1 publication Critical patent/LU600124B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Claims (10)

LU6001 24 PATENTANSPRÜCHE
1. Verfahren zur Erkennung von Emotionen in der Stimme, umfassend: Erfassen eines Stimmsignals und Vorverarbeiten des Stimmsignals, um ein vorverarbeitetes Stimmsignal zu erhalten; Extrahieren akustischer Parameter aus dem vorverarbeiteten Stimmsignal, um einen Satz akustischer Parameter zu erhalten: Erfassen von Attributinformationen eines Sprechers und Auswählen eines entsprechenden Stimmen-Emotionsmodells aus einer vorgebildeten Stimmen-Emotionsmodell-Basis gemäß den Attributinformationen, wobei das Stimm-Emotionsmodell auf der Grundlage eines tiefen neuronalen Netzwerkmodells konstruiert und durch Trainieren eines Trainingssatzes erhalten wird, und der Trainingssatz Stimmdaten derselben Menschenmenge in verschiedenen emotionalen Zuständen umfasst; Eingeben des Satzes akustischer Parameter in das entsprechende Stimmen-Emotionsmodell und den Satz emotionaler Zustände gemäß dem entsprechenden Stimmen-Emotionsmodell; und Erfassen einer kulturellen Hintergrundinformation des Sprechers und Modifizieren des Satzes emotionaler Zustände gemäß der kulturellen Hintergrundinformation, um ein Emotionserkennungsergebnis zu erhalten.
2. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Erhalten des vorverarbeiteten Stimmsignals Folgendes umfasst: Umwandeln des Stimmsignals in ein digitales Signal, und Einrahmen des digitalen Signals; Berechnen einer Kurzzeitenergie und einer Kurzzeit-Nulldurchgangsrate jedes Rahmensignals und Beurteilen, ob jedes Rahmensignal ein Stimmrahmenl ist, gemäß der Kurzzeitenergie und der Kurzzeit-Nulldurchgangsrate;
LU6001 24 Entfernen eines stummen Teils entsprechend dem Stimmrahmenl, Erhalten des Stimmsignals, Entfernen des stummen Teils aus dem Stimmsignal, Durchführen einer Frequenzbereichstransformation, um ein Frequenzbereichssignal zu erhalten; und Entrauschen des Frequenzbereichssignals und Durchführen einer inversen Transformation, um das vorverarbeitete Stimmsignal zu erhalten.
3. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 2, wobei das Erhalten des Satzes akustischer Parameter Folgendes umfasst: Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Tonhôhenerkennungsalgorithmus, um Grundfrequenzparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Kurzzeitenergie-Analyseverfahrens, um Energieparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden einer linearen pradiktiven Codierungstechnologie, um Formantenparameter zu erhalten; und Erfassen des Satzes akustischer Parameter gemäß dem Grundfrequenzparameter, dem Energieparameter und dem Formantenparameter.
4. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Eingeben des akustischen Parametersatzes in das entsprechende Stimmemotionsmodell und das Erhalten des Satzes akustischer Parameter Folgendes umfasst: die Faltungsschicht des tiefen neuronalen Netzes extrahiert die lokalen Merkmale des Satzes akustischer Parameter, erfasst die Zeitfolgebeziehung des Satzes akustischer Parameter durch die Zirkulationsschicht und ordnet die lokalen Merkmale verschiedenen Emotionskategorien durch die vollständig verbundene Schicht zu, um die Wahrscheinlichkeitsverteilung der Emotionskategorien zu erhalten.
LU6001 24
5. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Verfahren ferner das Eingeben des Satzes akustischer Parameter in ein allgemeines Stimmen-Emotionsmodell umfasst, um einen Satz von Emotionszustanden zu erhalten, wenn es kein entsprechendes Stimmen-Emotionsmodell in der vorgefertigten Stimmen-Emotionsmodell-Basis gibt, wobei der Trainingssatz des allgemeinen Stimmen-Emotionsmodells Stimmdaten verschiedener Personen mit verschiedenen Emotionszuständen umfasst.
6. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, wobei das Erhalten der kulturellen Hintergrundinformationen des Sprechers und das Modifizieren des Satzes von Emotionszustdnden gemäß den kulturellen Hintergrundinformationen Folgendes umfasst: Erfassen der kulturellen Hintergrundinformation entsprechend der Attributinformation:; Erhalten eines entsprechenden Emotionsausdruck-Merkmalsvektors aus einer Emotionsausdruck-Wissensbasis gemäß der kulturellen Hintergrundinformation; und Ausführen einer gewichteten Korrektur an jeder Emotionskategorie in dem Satz von Emotionszuständen gemäß dem Emotionsausdruck-Merkmalsvektor, um das Emotionserkennungsergebnis zu erhalten.
7. Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 6, wobei die gewichtete Korrektur jeder Emotionskategorie in dem Satz von Emotionszustanden gemäß dem Emotionsausdruck-Merkmalsvektor Folgendes umfasst: Durchführen einer Übereinstimmungsberechnung für den Satz von Emotionszuständen und den Emotionsausdruck-Merkmalsvektor und Beurteilen, ob eine Korrektur durch einen Ahnlichkeitsschwellenwert erforderlich ist:
LU6001 24 wenn ja, Durchführen einer gewichteten Korrektur jeder Emotionskategorie dem Satz von Emotionszuständen gemäß dem Emotionsausdruck-Merkmalsvektor, und Verarbeiten des korrigierten Satzes von Emotionszuständen durch eine Softmax-Normalisierungsfunktion, um das Emotionserkennungsergebnis zu erhalten.
8. System fur Verfahren zur Erkennung von Emotionen in der Stimme nach Anspruch 1, umfassend ein Vorverarbeitungsmodul, ein Modul zur Extraktion akustischer Parameter, ein Modul zur Auswahl eines Stimmen-Emotionsmodells, ein Modul zur Erkennung von Stimmemotionen und ein Modul zur Korrektur des Erkennungsergebnisses; das Vorverarbeitungsmodul wird zum Erfassen und Vorverarbeiten eines Stimmsignals verwendet, um das vorverarbeitete Stimmsignal zu erfassen; das Modul zur Extraktion akustischer Parameter wird zum Extrahieren akustischer Parameter aus dem vorverarbeiteten Stimmsignal verwendet wird, um einen Satz akustischer Parameter zu erhalten; das Modul zur Auswahl eines Stimmen-Emotionsmodell wird verwendet, um die Attributinformationen eines Sprechers zu erfassen und ein entsprechendes Stimmen-Emotionsmodell aus einer vorgefertigten Stimmen-Emotionsmodell-Basis gemäß den Attributinformationen auszuwählen, wobei das Stimmen-Emotionsmodell auf der Grundlage eines tiefen neuronalen Netzwerkmodells konstruiert und durch Training eines Trainingssatzes erhalten wird, und der Trainingssatz Stimmdaten derselben Menschenmenge in verschiedenen Emotionszuständen umfasst; das Modul zur Erkennung von Stimmemotionen wird zum Eingeben des Satzes akustischer Parameter in das entsprechende Stimmen-Emotionsmodell gemäß dem entsprechenden Stimmen-Emotionsmodell verwendet wird, um einen Satz von Emotionszuständen zu erhalten;
LU6001 24 und das Modul zur Korrektur des Erkennungsergebnisses wird verwendet, um die kulturellen Hintergrundinformationen des Sprechers zu erhalten und den Satz von Emotionszustanden gemäß den kulturellen Hintergrundinformationen zu korrigieren, um ein Emotionserkennungsergebnis zu erhalten.
9. System nach Anspruch 8, wobei das Erhalten des vorverarbeiteten Stimmsignals Folgendes umfasst: Umwandeln des Sprachsignals in ein digitales Signal und Einrahmen des digitalen Signals; Berechnen der Kurzzeitenergie und der Kurzzeit-Nulldurchgangsrate jedes Rahmensignals, und Beurteilen, ob jedes Rahmensignal gemäß der Kurzzeitenergie und der Kurzzeit-Nulldurchgangsrate ein Stimmrahmen ist; Entfernen des stummen Teils entsprechend dem Stimmrahmen, Erhalten eines Stimmsignals, Entfernen des stummen Teils aus dem Stimmsignal, Durchführen einer Frequenzbereichstransformation, um ein Frequenzbereichssignal zu erhalten; und Entrauschen des Frequenzbereichssignals und Durchführen einer inversen Transformation, um das vorverarbeitete Sprachsignal zu erhalten.
LU6001 24
10. System nach Anspruch 8, wobei das Erhalten des Satzes akustischer Parameter Folgendes umfasst: Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Tonhôhenerkennungsalgorithmus, um Grundfrequenzparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden eines Kurzzeitenergie-Analyseverfahrens, um Energieparameter zu erhalten; Extrahieren des vorverarbeiteten Stimmsignals durch Anwenden einer linearen pradiktiven Codierungstechnologie, um Formantenparameter zu erhalten; und Erfassen des Satzes akustischer Parameter gemäß dem Grundfrequenzparameter, dem Energieparameter und dem Formantenparameter.
LU600124A 2025-01-24 2025-01-24 Voice emotion recognition method and system LU600124B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
LU600124A LU600124B1 (en) 2025-01-24 2025-01-24 Voice emotion recognition method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
LU600124A LU600124B1 (en) 2025-01-24 2025-01-24 Voice emotion recognition method and system

Publications (1)

Publication Number Publication Date
LU600124B1 true LU600124B1 (en) 2025-07-25

Family

ID=96547871

Family Applications (1)

Application Number Title Priority Date Filing Date
LU600124A LU600124B1 (en) 2025-01-24 2025-01-24 Voice emotion recognition method and system

Country Status (1)

Country Link
LU (1) LU600124B1 (de)

Similar Documents

Publication Publication Date Title
Venkataramanan et al. Emotion recognition from speech
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN107767881B (zh) 一种语音信息的满意度的获取方法和装置
Hu et al. Pitch‐based gender identification with two‐stage classification
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
US11495234B2 (en) Data mining apparatus, method and system for speech recognition using the same
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN114121023A (zh) 说话人分离方法、装置、电子设备及计算机可读存储介质
CN118173092A (zh) 一种基于ai语音交互的在线客服平台
CN110136726A (zh) 一种语音性别的估计方法、装置、系统及存储介质
CN108682432B (zh) 语音情感识别装置
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
CN119517012A (zh) 一种智能语音机器人的语音识别方法及系统
CN114512133B (zh) 发声对象识别方法、装置、服务器及存储介质
CN116206593A (zh) 一种语音质检方法、装置和设备
CN117831544A (zh) 一种面向复杂声景的鸟声特征提取和识别的方法与系统
CN118486297B (zh) 一种基于语音情感识别的响应方法及智能语音助手系统
LU600124B1 (en) Voice emotion recognition method and system
Hasan et al. Bengali speech emotion recognition: A hybrid approach using B-LSTM
Merzougui et al. Diagnosing spasmodic dysphonia with the power of AI
CN118762718A (zh) 一种能动态跟踪识别个人音色长期渐进性变化的方法与系统
CN117457005A (zh) 一种基于动量对比学习的声纹识别方法和设备

Legal Events

Date Code Title Description
FG Patent granted

Effective date: 20250725