TWI473080B - The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals - Google Patents
The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals Download PDFInfo
- Publication number
- TWI473080B TWI473080B TW101112660A TW101112660A TWI473080B TW I473080 B TWI473080 B TW I473080B TW 101112660 A TW101112660 A TW 101112660A TW 101112660 A TW101112660 A TW 101112660A TW I473080 B TWI473080 B TW I473080B
- Authority
- TW
- Taiwan
- Prior art keywords
- age
- gender
- degree
- speech
- emotion
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Description
本發明係與性別與年齡之分類技術有關,特別是指一種運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法。
利用人類本身之生物特徵進行身份辨識的技術為近年發展的趨勢,相較於傳統上使用晶片卡或是密碼之身份認證方法,可能會有遺失晶片卡或是密碼被盜用的風險。傳統商業上利用指紋來辨識身份的方式,由於其裝置本身的解析度牽涉到辨識的正確率,且人員手指需與感測器接觸之距離問題以及衛生問題,因此仍有其使用上的限制。而利用電子裝置進行個人資料分析,例如情緒、性別、年齡之辨識將可提供較高之便利性以及更多的辨識選擇,也可降低遺失晶片卡或密碼被盜用的風險。
美國US 7,881,933 B2號專利,揭露了一種利用語音處理技術來將接收的語音信號進行年齡辨識的技術,該案揭露了一接收輸入語音信號到配置邏輯裝置的儀器,經過判斷並計算信心指數後輸出年齡偵測的結果。
美國US 5,953,701號專利,揭露了一種性別相關的語音辨識系統,其使用預處理器將語音信號轉換成聲學資料,並利用事先建立好存在記憶體中的電話狀態模式讓處理分析判斷相關之語音狀態模型,進而將性別辨識結果輸出。
由上可知,現有技術中已有針對語音處理技術進行年齡辨識與性別辨識的技術。然而,語音資訊多半會帶有說話者之情緒或激動程度,由於說話當下情緒狀況或激動程度的不同,其語音信號所代表之特質也有所不同,因此在進行分析時也隨著不同情緒的特質或激動的程度而使得辨識結果有所不同。目前而言,並未有使用語音信號中的情緒或激動程度資訊做為輔助,而將語音信號之情緒分類出來或激動程度分析出來,之後再進行年齡與性別辨識的技術。
本發明之主要目的在於提供一種運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其可使用語音信號中的情緒或激動程度資訊,來輔助對該語音信號進行年齡與性別的辨識。
為了達成前述目的,依據本發明所提供之一種運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,包含有下列步驟:A)將一語音信號分段成為複數語音片段;B)對前述複數語音片段中的第一個語音片段進行擷取,進而取得該語音片段的情緒特徵或激動程度二者中的至少一者;C)對該語音片段之情緒特徵或激動程度二者中的至少一者進行判斷,若判斷的對象為情緒特徵時,則判斷該情緒特徵是否與一特定情緒相同,若判斷的對象為激動程度時,則判斷該語音片段之激動程度是否大於或小於某一門檻值;若至少一者為是,則進入步驟D);若沒有任何一者為是,則回到步驟B)並針對下一語音片段進行擷取;D)對該語音片段進行性別或年齡的特徵擷取,進而取得對應於性別或年齡的至少一特徵參數;以及E)依一性別或年齡辨識手段對該至少一特徵參數進行辨識,進而判斷出該語音片段之發話人的性別或年齡;接著針對下一語音片段進行步驟B)之動作。藉此,可使用語音信號中的情緒或激動程度資訊,來輔助對該語音信號進行年齡與性別的辨識。
為了詳細說明本發明之構造及特點所在,茲舉以下之較佳實施例並配合圖式說明如後,其中:如第一圖至第三圖所示,本發明一較佳實施例所提供之一種運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,主要具有下列步驟:
A)藉由一分段單元11,將一語音信號分段成為複數語音片段。
B)藉由一擷取單元13對前述複數語音片段中的第一個語音片段進行擷取,進而取得該語音片段的情緒特徵或激動程度二者中的至少一者,於本實施例中係以二者均取得為例;再藉由一第一分類器15進行一第一分類動作,藉以將該語音片段的情緒特徵及激動程度進行分類,而將情緒特徵分類為某一特定情緒,並將激動程度分類為高激動程度或低激動程度。其中該特定情緒係為正、負向情緒程度的表現,該激動程度則為情緒激動程度量化的表現。如第二圖所示,語音信號係分類為常見的六類情緒,即生氣、高興、驚訝、害怕、平靜以及悲傷。此外在第二圖中Y軸代表激動程度,X軸代表正、負向情緒的程度,不同的情緒心情可有不同的激動程度與正、負向情緒的表現。前述對情緒或激動程度之特徵擷取,取出之特徵係如表1所示。其中之頻譜質心(spectral Centroid,SC)、頻譜展延(spectral Spread,SS)、過零率(Zero Crossing Rate,ZCR)、期間(Duration)及基頻(Fundamental Frequency,F0)係詳述於步驟D)中。
C)藉由一判斷單元19來判斷該語音片段之情緒特徵是否與一特定情緒相同,並且判斷該語音片段之激動程度是否大於或小於某一門檻值;若其中一者或兩者的判斷結果為是,則進入步驟D);若沒有任何一者為是,則回到步驟B)並針對下一語音片段進行擷取。
D)藉由一參數擷取單元21對該語音片段進行性別或年齡的特徵擷取,進而取得對應於性別或年齡的至少一特徵參數;再藉由一第二分類器23進行一第二分類動作,其係對該至少一特徵參數依時域或頻域來分類,進而分類為顯著或不顯著。其中,該至少一特徵參數在時域或頻域上是否顯著,是以是否大於一均值或標準差值來判斷,該均值或標準差值係指複數發話人樣本所對應之特徵參數之均值或標準差值。
於本實施例中,該至少一特徵參數係為頻譜質心(spectral Centroid,SC)、頻譜展延(spectral Spread,SS)、過零率(Zero Crossing Rate,ZCR)、期間(Duration)、快速傅立葉轉換(FFT Coefficients)、顫動(Jitter)以及基頻(Fundamental Frequency,F0)之中的一種。該至少一特徵參數為複數時,係分別為頻譜質心、頻譜展延、過零率、期間、快速傅立葉轉換、顫動以及基頻之中的一種而彼此不同。其中,過零率及期間屬時域,而頻譜質心、頻譜展延、快速傅立葉轉換、顫動以及基頻屬頻域。此外,頻譜質心、頻譜展延、過零率、期間、快速傅立葉轉換以及顫動係用以供辨識年齡;基頻與快速傅立葉轉換係用以供辨識性別。
頻譜質心,係經由傅立葉轉換後之頻譜的質量中心,各點的頻率乘上其功率函數總和與功率函數總和的比值,比值愈大,高頻音框所佔的比例愈高,其中p(k)為計算k點的功率運算,f(k)表示計算k點的傅立葉轉換運算,其計算式如下方式(1)所示。
頻譜展延,係計算語音片段中各音框頻率與頻譜質心的差,並將差值與功率相乘積,再除以功率函數的總和,其計算式如下方式(2)所示。
過零率,係指在每個音框中音訊通過零點的次數,一般而言雜訊及氣音的過零率均大於聲音,過零率之計算式如下方式(3)所示。其中Sgn()為符號函數,X(m)為已經切好音框之輸入信號。
期間,係指在時域上音節間說話速度的密度特性,也可視為計算相鄰間高能量音框間的時間間距。其中該音框能量若超過臨界值THR則視為高能量音框,臨界值THR之計算式如下方式(4)所示。其中Amax
為語音片段中能量最高的音框,Amin
為語音片段中能量最低的音框。
快速傅立葉轉換,係指語音訊號在各頻帶的能量分佈情形,其計算式如下方式(5)所示。其中j=0,1,...,n-1。
顫動,係指在語音信號上,相鄰兩音框時間差與所有加總的音框時間之比值,其計算式如下方式(6)所示。其中T為音框時間長短。
基頻,係用來反應出語音信號的音調高低,可以用來區別男性與女性的語音信號。
前述對年齡的特徵擷取,取出之特徵係如表2所示。
前述對性別的特徵擷取,取出之特徵係如表3所示。
E)依一性別或年齡辨識手段對該至少一特徵參數進行辨識,進而判斷出該語音片段之發話人的性別或年齡;接著針對下一語音片段進行步驟B)之動作。其中,該性別或年齡辨識手段係為採用在時域或頻域上屬於顯著的該至少一特徵參數,再依該至少一特徵參數判斷出該語音片段之發話人的性別或年齡。而當該至少一特徵參數為複數時,係組合該等特徵參數後再進行發話人的性別或年齡的判斷。
前述之步驟A)~步驟E)係在一電腦上執行。此外,由於分段單元11、擷取單元13、第一分類器15、判斷單元19、參數擷取單元21以及第二分類器23等元件均屬於在電腦上執行之程式,因此在第三圖中僅列出各元件及其對應之標號。
由於人類聲音在不同情緒情況下說話時,其聲音特質會隨著情緒有所不同,因此本發明可藉由上述步驟來運用語音信號中的情緒資訊做為輔助,來辨識出該語音信號的性別或年齡。
值得補充的一點是,在前述實施例中,步驟B)中擷取了情緒特徵及激動程度二者,而在步驟C)中係對情緒特徵及激動程度兩者分別進行了判斷。亦即,在步驟B)及C)係在情緒特徵及激動程度兩者都有的情況下所進行的擷取及判斷。
然而,情緒特徵及激動程度亦可只取其一,也就是說,可在步驟B)中僅擷取情緒特徵,而在步驟C)中僅針對情緒特徵進行判斷。或者,可在步驟B)中僅擷取激動程度,而在步驟C)中僅針對激動程度進行判斷。只取其一的方式同樣可以達到運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的功效,只是由於判斷的條件只有一種,因此在判斷的正確性上會較前述實施例略差些。
11...分段單元
13...擷取單元
15...第一分類器
19...判斷單元
21...參數擷取單元
23...第二分類器
第一圖係本發明一較佳實施例之流程圖。
第二圖係本發明一較佳實施例之情緒分類示意圖。
第三圖係本發明一較佳實施例之元件示意圖。
Claims (15)
- 一種運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,包含有下列步驟:A)將一語音信號分段成為複數語音片段;B)對前述複數語音片段中的第一個語音片段進行擷取,進而取得該語音片段的情緒特徵或激動程度二者中的至少一者;C)對該語音片段之該情緒特徵或該激動程度二者中的至少一者進行判斷,若判斷的對象為該情緒特徵時,則判斷該情緒特徵是否與一特定情緒相同,若判斷的對象為該激動程度時,則判斷該語音片段之該激動程度是否大於或小於某一門檻值;若至少一者為是,則進入步驟D);若沒有任何一者為是,則回到步驟B)並針對下一語音片段進行擷取;D)對該語音片段進行性別或年齡的特徵擷取,進而取得對應於該性別或該年齡的至少一特徵參數;以及E)依一性別或年齡辨識手段對該至少一特徵參數進行辨識,進而判斷出該語音片段之發話人的性別或年齡;接著針對下一語音片段進行步驟B)之動作。
- 依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:於步驟A)中,係藉由一分段單元來進行分段動作。
- 依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中: 於步驟B)中,在擷取動作進行後,更進行一第一分類動作,藉以將該語音片段的該情緒特徵或該激動程度二者中的至少一者進行分類,而將該情緒特徵分類為某一特定情緒或是將該激動程度分類為高激動程度或低激動程度。
- 依據申請專利範圍第3項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:於步驟B)中,係藉由一擷取單元來進行擷取,在分類時係藉由一第一分類器來進行分類。
- 依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:於步驟C)中,該特定情緒係為正、負向情緒程度的表現,該激動程度係為情緒激動程度量化的表現。
- 依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:於步驟C)中,係藉由一判斷單元來判斷該語音片段之該情緒特徵是否與該特定情緒相同,或是判斷該語音片段之該激動程度是否大於或小於該門檻值。
- 依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:於步驟D)中,在擷取出該至少一特徵參數後,更進行一第二分類動作,其係對該至少一特徵參數依時域或頻域來分類,進而分類為顯著或不顯著。
- 依據申請專利範圍第7項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中: 於步驟D)中,係藉由一參數擷取單元來取出該至少一特徵參數,在分類時係藉由一第二分類器來進行該第二分類動作。
- 依據申請專利範圍第7項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:於步驟E)中,該性別或年齡辨識手段係為採用在時域或頻域上屬於顯著的該至少一特徵參數,再依該至少一特徵參數判斷出該語音片段之發話人的性別或年齡。
- 依據申請專利範圍第9項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:於步驟E)中,該至少一特徵參數為複數時,係組合該等特徵參數後再進行發話人的性別或年齡的判斷。
- 依據申請專利範圍第7項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:於步驟D)中,該至少一特徵參數在時域或頻域上是否顯著,是以是否大於一均值或標準差值來判斷,該均值係指複數發話人樣本所對應之特徵參數之均值。
- 依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:於步驟D)中,該至少一特徵參數係為頻譜質心、頻譜展延、過零率、期間、快速傅立葉轉換、顫動以及基頻之中的一種;該至少一特徵參數為複數時,係分別為頻譜質心、頻譜展延、過零率、期間、快速傅立葉轉換、顫動以及基頻之中的一種而彼此不同。
- 依據申請專利範圍第12項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:頻譜質心、頻譜展延、快速傅立葉轉換、顫動以及基頻屬頻域,而過零率及期間屬時域。
- 依據申請專利範圍第12項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:頻譜質心、頻譜展延、過零率、期間、快速傅立葉轉換以及顫動係用以供辨識年齡;基頻與快速傅立葉轉換係用以供辨識性別。
- 依據申請專利範圍第1項所述之運用語音情緒或激動程度來輔助分辨語音信號之性別或年齡的方法,其中:步驟A)~步驟E)係在一電腦上執行。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101112660A TWI473080B (zh) | 2012-04-10 | 2012-04-10 | The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals |
US13/560,596 US9123342B2 (en) | 2012-04-10 | 2012-07-27 | Method of recognizing gender or age of a speaker according to speech emotion or arousal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101112660A TWI473080B (zh) | 2012-04-10 | 2012-04-10 | The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201342365A TW201342365A (zh) | 2013-10-16 |
TWI473080B true TWI473080B (zh) | 2015-02-11 |
Family
ID=49293018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101112660A TWI473080B (zh) | 2012-04-10 | 2012-04-10 | The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals |
Country Status (2)
Country | Link |
---|---|
US (1) | US9123342B2 (zh) |
TW (1) | TWI473080B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI602174B (zh) * | 2016-12-27 | 2017-10-11 | 李景峰 | 基於聲音辨識的情緒紀錄與管理裝置、系統以及方法 |
TWI755328B (zh) * | 2021-05-24 | 2022-02-11 | 中華電信股份有限公司 | 孩童聲音偵測系統、方法及電腦可讀媒介 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9257122B1 (en) * | 2012-08-06 | 2016-02-09 | Debra Bond Cancro | Automatic prediction and notification of audience-perceived speaking behavior |
TWI489451B (zh) * | 2012-12-13 | 2015-06-21 | Univ Nat Chiao Tung | 基於語音情感辨識之音樂播放系統及其方法 |
JP6450312B2 (ja) * | 2013-07-10 | 2019-01-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者識別方法及び話者識別システム |
US20150154002A1 (en) * | 2013-12-04 | 2015-06-04 | Google Inc. | User interface customization based on speaker characteristics |
TWI603213B (zh) * | 2014-01-23 | 2017-10-21 | 國立交通大學 | 基於臉部辨識的音樂選取方法、音樂選取系統及電子裝置 |
US9363378B1 (en) | 2014-03-19 | 2016-06-07 | Noble Systems Corporation | Processing stored voice messages to identify non-semantic message characteristics |
KR20150123579A (ko) * | 2014-04-25 | 2015-11-04 | 삼성전자주식회사 | 사용자 음성으로부터 감정정보를 확인하는 방법 및 장치 |
US9659564B2 (en) * | 2014-10-24 | 2017-05-23 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi | Speaker verification based on acoustic behavioral characteristics of the speaker |
GB2538043B (en) | 2015-03-09 | 2017-12-13 | Buddi Ltd | Activity monitor |
US10529328B2 (en) * | 2015-06-22 | 2020-01-07 | Carnegie Mellon University | Processing speech signals in voice-based profiling |
CN105632486B (zh) * | 2015-12-23 | 2019-12-17 | 北京奇虎科技有限公司 | 一种智能硬件的语音唤醒方法和装置 |
GB2552067A (en) * | 2016-05-24 | 2018-01-10 | Graco Children's Products Inc | Systems and methods for autonomously soothing babies |
JP6612707B2 (ja) * | 2016-09-30 | 2019-11-27 | 本田技研工業株式会社 | 情報提供装置 |
CN108039181B (zh) * | 2017-11-02 | 2021-02-12 | 北京捷通华声科技股份有限公司 | 一种声音信号的情感信息分析方法和装置 |
US11138334B1 (en) | 2018-10-17 | 2021-10-05 | Medallia, Inc. | Use of ASR confidence to improve reliability of automatic audio redaction |
CN109616099A (zh) * | 2018-12-13 | 2019-04-12 | 南京工程学院 | 一种基于基音频率及平滑处理的男女语音性别识别方法 |
US11398239B1 (en) | 2019-03-31 | 2022-07-26 | Medallia, Inc. | ASR-enhanced speech compression |
CN110021308B (zh) * | 2019-05-16 | 2021-05-18 | 北京百度网讯科技有限公司 | 语音情绪识别方法、装置、计算机设备和存储介质 |
CN110246507B (zh) * | 2019-08-05 | 2021-08-24 | 上海优扬新媒信息技术有限公司 | 一种语音的识别方法和装置 |
CN111261196A (zh) * | 2020-01-17 | 2020-06-09 | 厦门快商通科技股份有限公司 | 一种年龄预估方法和装置以及设备 |
US20220115033A1 (en) * | 2020-10-08 | 2022-04-14 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5953701A (en) * | 1998-01-22 | 1999-09-14 | International Business Machines Corporation | Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence |
JP2002215183A (ja) * | 2001-01-16 | 2002-07-31 | Agi:Kk | 感性発生方法及び感性発生装置並びにソフトウェア |
US7373301B2 (en) * | 2001-08-02 | 2008-05-13 | Sony Deutschland Gmbh | Method for detecting emotions from speech using speaker identification |
US7451079B2 (en) * | 2001-07-13 | 2008-11-11 | Sony France S.A. | Emotion recognition method and device |
US7881933B2 (en) * | 2007-03-23 | 2011-02-01 | Verizon Patent And Licensing Inc. | Age determination using speech |
TWI342746B (en) * | 2008-12-24 | 2011-06-01 | Ind Tech Res Inst | Method and system for vocal recognition and interaction with pets |
TW201214413A (en) * | 2010-07-16 | 2012-04-01 | Ibm | Modification of speech quality in conversations over voice channels |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5623609A (en) * | 1993-06-14 | 1997-04-22 | Hal Trust, L.L.C. | Computer system and computer-implemented process for phonology-based automatic speech recognition |
US7222075B2 (en) * | 1999-08-31 | 2007-05-22 | Accenture Llp | Detecting emotions using voice signal analysis |
US6353810B1 (en) * | 1999-08-31 | 2002-03-05 | Accenture Llp | System, method and article of manufacture for an emotion detection system improving emotion recognition |
EP1300831B1 (en) * | 2001-10-05 | 2005-12-07 | Sony Deutschland GmbH | Method for detecting emotions involving subspace specialists |
WO2004027685A2 (en) * | 2002-09-19 | 2004-04-01 | The Penn State Research Foundation | Prosody based audio/visual co-analysis for co-verbal gesture recognition |
US8321427B2 (en) * | 2002-10-31 | 2012-11-27 | Promptu Systems Corporation | Method and apparatus for generation and augmentation of search terms from external and internal sources |
US7881934B2 (en) * | 2003-09-12 | 2011-02-01 | Toyota Infotechnology Center Co., Ltd. | Method and system for adjusting the voice prompt of an interactive system based upon the user's state |
US8214214B2 (en) * | 2004-12-03 | 2012-07-03 | Phoenix Solutions, Inc. | Emotion detection device and method for use in distributed systems |
US7363227B2 (en) * | 2005-01-10 | 2008-04-22 | Herman Miller, Inc. | Disruption of speech understanding by adding a privacy sound thereto |
US7860705B2 (en) * | 2006-09-01 | 2010-12-28 | International Business Machines Corporation | Methods and apparatus for context adaptation of speech-to-speech translation systems |
DE102006055864A1 (de) * | 2006-11-22 | 2008-05-29 | Deutsche Telekom Ag | Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung |
DE602006002132D1 (de) * | 2006-12-14 | 2008-09-18 | Harman Becker Automotive Sys | beitung |
EP2122610B1 (en) * | 2007-01-31 | 2018-12-26 | Telecom Italia S.p.A. | Customizable method and system for emotional recognition |
US20110022395A1 (en) * | 2007-02-15 | 2011-01-27 | Noise Free Wireless Inc. | Machine for Emotion Detection (MED) in a communications device |
EP2216775B1 (en) * | 2009-02-05 | 2012-11-21 | Nuance Communications, Inc. | Speaker recognition |
-
2012
- 2012-04-10 TW TW101112660A patent/TWI473080B/zh active
- 2012-07-27 US US13/560,596 patent/US9123342B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5953701A (en) * | 1998-01-22 | 1999-09-14 | International Business Machines Corporation | Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence |
JP2002215183A (ja) * | 2001-01-16 | 2002-07-31 | Agi:Kk | 感性発生方法及び感性発生装置並びにソフトウェア |
US7451079B2 (en) * | 2001-07-13 | 2008-11-11 | Sony France S.A. | Emotion recognition method and device |
US7373301B2 (en) * | 2001-08-02 | 2008-05-13 | Sony Deutschland Gmbh | Method for detecting emotions from speech using speaker identification |
US7881933B2 (en) * | 2007-03-23 | 2011-02-01 | Verizon Patent And Licensing Inc. | Age determination using speech |
TWI342746B (en) * | 2008-12-24 | 2011-06-01 | Ind Tech Res Inst | Method and system for vocal recognition and interaction with pets |
TW201214413A (en) * | 2010-07-16 | 2012-04-01 | Ibm | Modification of speech quality in conversations over voice channels |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI602174B (zh) * | 2016-12-27 | 2017-10-11 | 李景峰 | 基於聲音辨識的情緒紀錄與管理裝置、系統以及方法 |
TWI755328B (zh) * | 2021-05-24 | 2022-02-11 | 中華電信股份有限公司 | 孩童聲音偵測系統、方法及電腦可讀媒介 |
Also Published As
Publication number | Publication date |
---|---|
US9123342B2 (en) | 2015-09-01 |
US20130268273A1 (en) | 2013-10-10 |
TW201342365A (zh) | 2013-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI473080B (zh) | The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
Likitha et al. | Speech based human emotion recognition using MFCC | |
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
Fallah et al. | A new online signature verification system based on combining Mellin transform, MFCC and neural network | |
US20170154640A1 (en) | Method and electronic device for voice recognition based on dynamic voice model selection | |
Prabakaran et al. | A review on performance of voice feature extraction techniques | |
CN110299142A (zh) | 一种基于网络融合的声纹识别方法及装置 | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
Wang et al. | Speaker recognition based on MFCC and BP neural networks | |
WO2013124862A1 (en) | Modified mel filter bank structure using spectral characteristics for sound analysis | |
WO2018095167A1 (zh) | 声纹识别方法和声纹识别系统 | |
Renjith et al. | Speech based emotion recognition in Tamil and Telugu using LPCC and hurst parameters—A comparitive study using KNN and ANN classifiers | |
Zhang et al. | Multimodal Deception Detection Using Automatically Extracted Acoustic, Visual, and Lexical Features. | |
Sukhwal et al. | Comparative study of different classifiers based speaker recognition system using modified MFCC for noisy environment | |
Partila et al. | Fundamental frequency extraction method using central clipping and its importance for the classification of emotional state | |
Abualadas et al. | Speaker identification based on hybrid feature extraction techniques | |
Vasquez-Correa et al. | Wavelet-based time-frequency representations for automatic recognition of emotions from speech | |
Aggarwal et al. | Characterization between child and adult voice using machine learning algorithm | |
Mishra et al. | Speaker identification, differentiation and verification using deep learning for human machine interface | |
Rabiei et al. | A methodology for recognition of emotions based on speech analysis, for applications to human-robot interaction. An exploratory study | |
Imam et al. | Speaker recognition using automated systems | |
Vieira et al. | Non-Stationarity-based Adaptive Segmentation applied to Voice Disorder Discrimination |