TWI456515B

TWI456515B - 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人

Info

Publication number: TWI456515B
Application number: TW101125278A
Authority: TW
Inventors: Kai Tai Song; Shuo Cheng Chien; chao yu Lin; Yi Wen Chen; Sin Horng Chen; Chen Yu Chang; Yi Chiao Wu
Original assignee: Univ Nat Chiao Tung
Priority date: 2012-07-13
Filing date: 2012-07-13
Publication date: 2014-10-11
Also published as: TW201403498A; US20140016835A1; US8879799B2

Claims

一種融合人臉辨識及語音辨識之身份辨識系統，係包含：一人臉辨識模組，係擷取一影像，並對該影像執行一人臉偵測以產生一人臉影像，再對該人臉影像執行一人臉辨識，以獲得對應於預設之複數個成員的複數個人臉辨識分數；一語音辨識模組，係擷取一聲音資料，並偵測該聲音資料中的語音，以產生一語音資料，再對該語音資料執行一語音辨識，以獲得對應於該複數個成員的複數個語音辨識分數；一信心指數計算模組，係計算該人臉辨識的可靠度及該語音辨識的可靠度，以產生一人臉辨識信心指數及一語音辨識信心指數；以及一處理模組，係根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數產生一身份辨識結果；其中，該信心指數計算模組係根據一亮度因子及一辨識分數差異性因子來計算該人臉辨識信心指數。
如申請專利範圍第1項所述之融合人臉辨識及語音辨識之身份辨識系統，其中當該人臉辨識信心指數超過一預設門檻值時而該語音辨識信心指數未超過該預設門檻值時，該處理模組則根據該複數個人臉辨識分數產生該身份辨識結果。
如申請專利範圍第2項所述之融合人臉辨識及語音辨識之身份辨識系統，其中當該語音辨識信心指數超過該預設門檻值時而該人臉辨識信心指數未超過該預設門檻值時，該處理模組則根據該複數個語音辨識分數產生該身份辨識結果。
如申請專利範圍第3項所述之融合人臉辨識及語音辨識之身份辨識系統，當該人臉辨識信心指數及該語音辨識信心指數均未超過該預設門檻值時，該處理模組則判定該身份辨識結果為無法識別。
如申請專利範圍第4項所述之融合人臉辨識及語音辨識之身份辨識系統，其中當該人臉辨識信心指數及該語音辨識信心指數均超過該預設門檻值時，該處理模組則根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數進行一融合計算，以產生該身份辨識結果。
如申請專利範圍第5項所述之融合人臉辨識及語音辨識之身份辨識系統，其中該融合計算係由該處理模組將各個該複數個成員的該人臉辨識分數乘上該人臉辨識信心指數以產生一最終人臉辨識分數，並將各個該成員的該語音辨識分數乘上該語音辨識信心指數以產生一最終語音辨識分數，再將對應的該最終人臉辨識分數及該最終語音辨識分數相加以產生對應於各個該成員的一身份辨識分數，並根據該身份辨識分數產生該身份辨識結果。
如申請專利範圍第1項所述之融合人臉辨識及語音辨識之身份辨識系統，其中該亮度因子係符合下列關係式：；其中，C1為該亮度因子，Thigh為該影像之灰階值經正規化至0~1範圍後之正常亮度之門檻值上限，Tlow為該影像灰階值經正規化至0~1範圍後對應於正常亮度之門檻值下限，Gavg為該影像之灰階值經正規化至0~1範圍後的平均值。
如申請專利範圍第7項所述之融合人臉辨識及語音辨識之身份辨識系統，其中該辨識分數差異性因子係符合下列關係式：其中，C2為該辨識分數差異性因子，T為該複數個人臉辨識分數中最高分數與最低分數的一差距門檻值，Y1st為該複數個人臉辨識分數中最高分數，Y2nd為該複數個人臉辨識分數中次高分數。
如申請專利範圍第8項所述之融合人臉辨識及語音辨識之身份辨識系統，其中該人臉辨識信心指數係符合下列關係式：C=C1×C2；其中，C為該人臉辨識信心指數。
如申請專利範圍第9項所述之融合人臉辨識及語音辨識之身份辨識系統，其中該信心指數計算模組係根據一信心指數曲線來計算該語音辨識信心指數，該信心指數曲線係符合下列關係式：y=FR(x)-(1-FE(x))；其中，FR(x)係為經由事前訓練所獲得的辨識正確分數的累積分佈函數，FE(x)係為經由事前訓練所獲得的辨識錯誤分數的累積分佈函數，該信心指數曲線之x軸代表經過正規化至0~1後之該語音辨識分數，該信心指數曲線之y軸則代表經過正規化至0~1後之該語音辨識信心指數。
一種融合人臉辨識及語音辨識之身份辨識方法，係包含下列步驟：利用一人臉辨識模組擷取一影像，並對該影像執行一人臉偵測以產生一人臉影像，再對該人臉影像執行一人臉辨識，以獲得對應於預設之複數個成員的複數個人臉辨識分數；藉由一語音辨識模組擷取一聲音資料，並偵測該聲音資料中的語音，以產生一語音資料，再對該語音資料執行一語音辨識，以獲得對應於該複數個成員的複數個語音辨識分數；經由一信心指數計算模組計算該人臉辨識的可靠度及該語音辨識的可靠度，以產生一人臉辨識信心指數及一語音辨識信心指數；透過一處理模組根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數產生一身份辨識結果；以及利用該信心指數計算模組根據一亮度因子及一辨識分數差異性因子來計算該人臉辨識信心指數。
如申請專利範圍第11項所述之融合人臉辨識及語音辨識之身份辨識方法，更包含下列步驟：利用該處理模組在當該人臉辨識信心指數超過一預設門檻值時而該語音辨識信心指數未超過該預設門檻值時，根據該複數個人臉辨識分數產生該身份辨識結果。
如申請專利範圍第12項所述之融合人臉辨識及語音辨識之身份辨識方法，更包含下列步驟：利用該處理模組在當該語音辨識信心指數超過該預設門檻值時而該人臉辨識信心指數未超過該預設門檻值時，根據該複數個語音辨識分數產生該身份辨識結果。
如申請專利範圍第13項所述之融合人臉辨識及語音辨識之身份辨識方法，更包含下列步驟：經由該處理模組在當該人臉辨識信心指數及該語音辨識信心指數均未超過該預設門檻值時，判定該身份辨識結果為無法識別。
如申請專利範圍第14項所述之融合人臉辨識及語音辨識之身份辨識方法，更包含下列步驟：由該處理模組在當該人臉辨識信心指數及該語音辨識信心指數均超過該預設門檻值時，根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數進行一融合計算，以產生該身份辨識結果。
如申請專利範圍第15項所述之融合人臉辨識及語音辨識之身份辨識方法，更包含下列步驟：透過該處理模組將各個該複數個成員的該人臉辨識分數乘上該人臉辨識信心指數以產生一最終人臉辨識分數，並將各個該成員的該語音辨識分數乘上該語音辨識信心指數以產生一最終語音辨識分數，再將對應的該最終人臉辨識分數及該最終語音辨識分數相加以進行一融合計算，以產生對應於各個該成員的一身份辨識分數，並根據該身份辨識分數產生該身份辨識結果。
如申請專利範圍第11項所述之融合人臉辨識及語音辨識之身份辨識方法，其中該亮度因子係符合下列關係式：其中，C1為該亮度因子，Thigh為該影像之灰階值經正規化至0~1範圍後之正常亮度之門檻值上限，Tlow為該影像之灰階值經正規化至0~1範圍後之正常亮度之門檻值下限，Gavg為該影像之灰階值經正規化至0~1範圍後的平均值。
如申請專利範圍第17項所述之融合人臉辨識及語音辨識之身份辨識方法，其中該辨識分數差異性因子係符合下列關係式：其中，C2為該辨識分數差異性因子，T為該複數個人臉辨識分數中最高分數與最低分數的一差距門檻值，Y1st為該複數個人臉辨識分數中最高分數，Y2nd為該複數個人臉辨識分數中次高分數。
如申請專利範圍第18項所述之融合人臉辨識及語音辨識之身份辨識方法，其中該人臉辨識信心指數係符合下列關係式：C=C1×C2；其中，C為該人臉辨識信心指數。
如申請專利範圍第19項所述之融合人臉辨識及語音辨識之身份辨識方法，其中該信心指數計算模組係根據一信心指數曲線來計算該語音辨識信心指數，該信心指數曲線係符合下列關係式：y=FR(x)-(1-FE(x))；其中，FR(x)係為經由事前訓練所獲得的辨識正確分數的累積分佈函數，FE(x)係為經由事前訓練所獲得的辨識錯誤分數的累積分佈函數，該信心指數曲線之x軸代表經過正規化至0~1後之該語音辨識分數，該信心指數曲線之y軸則代表經過正規化至0~1後之該語音辨識信心指數。
一種服務型機器人，係包含一電源供應器及一融合人臉辨識及語音辨識之身份辨識系統，該服務型機器人係利用該融合人臉辨識及語音辨識之身份辨識系統辨識一使用者之身份，以決定該使用者之使用權限，該融合人臉辨識及語音辨識之身份辨識系統係如申請專利範圍第1項至第10項中之任一項之所述。