TWI456515B - 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人 - Google Patents

融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人 Download PDF

Info

Publication number
TWI456515B
TWI456515B TW101125278A TW101125278A TWI456515B TW I456515 B TWI456515 B TW I456515B TW 101125278 A TW101125278 A TW 101125278A TW 101125278 A TW101125278 A TW 101125278A TW I456515 B TWI456515 B TW I456515B
Authority
TW
Taiwan
Prior art keywords
recognition
confidence index
score
face recognition
face
Prior art date
Application number
TW101125278A
Other languages
English (en)
Other versions
TW201403498A (zh
Inventor
Kai Tai Song
Shuo Cheng Chien
chao yu Lin
Yi Wen Chen
Sin Horng Chen
Chen Yu Chang
Yi Chiao Wu
Original Assignee
Univ Nat Chiao Tung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Chiao Tung filed Critical Univ Nat Chiao Tung
Priority to TW101125278A priority Critical patent/TWI456515B/zh
Priority to US13/675,590 priority patent/US8879799B2/en
Publication of TW201403498A publication Critical patent/TW201403498A/zh
Application granted granted Critical
Publication of TWI456515B publication Critical patent/TWI456515B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Claims (21)

  1. 一種融合人臉辨識及語音辨識之身份辨識系統,係包含:一人臉辨識模組,係擷取一影像,並對該影像執行一人臉偵測以產生一人臉影像,再對該人臉影像執行一人臉辨識,以獲得對應於預設之複數個成員的複數個人臉辨識分數;一語音辨識模組,係擷取一聲音資料,並偵測該聲音資料中的語音,以產生一語音資料,再對該語音資料執行一語音辨識,以獲得對應於該複數個成員的複數個語音辨識分數;一信心指數計算模組,係計算該人臉辨識的可靠度及該語音辨識的可靠度,以產生一人臉辨識信心指數及一語音辨識信心指數;以及一處理模組,係根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數產生一身份辨識結果;其中,該信心指數計算模組係根據一亮度因子及一辨識分數差異性因子來計算該人臉辨識信心指數。
  2. 如申請專利範圍第1項所述之融合人臉辨識及語音辨識之身份辨識系統,其中當該人臉辨識信心指數超過一預設門檻值時而該語音辨識信心指數未超過該預設門檻值時,該處理模組則根據該複數個人臉辨識分數產生該身份辨識結果。
  3. 如申請專利範圍第2項所述之融合人臉辨識及語音辨識之身份辨識系統,其中當該語音辨識信心指數超過該預設門檻值時而該人 臉辨識信心指數未超過該預設門檻值時,該處理模組則根據該複數個語音辨識分數產生該身份辨識結果。
  4. 如申請專利範圍第3項所述之融合人臉辨識及語音辨識之身份辨識系統,當該人臉辨識信心指數及該語音辨識信心指數均未超過該預設門檻值時,該處理模組則判定該身份辨識結果為無法識別。
  5. 如申請專利範圍第4項所述之融合人臉辨識及語音辨識之身份辨識系統,其中當該人臉辨識信心指數及該語音辨識信心指數均超過該預設門檻值時,該處理模組則根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數進行一融合計算,以產生該身份辨識結果。
  6. 如申請專利範圍第5項所述之融合人臉辨識及語音辨識之身份辨識系統,其中該融合計算係由該處理模組將各個該複數個成員的該人臉辨識分數乘上該人臉辨識信心指數以產生一最終人臉辨識分數,並將各個該成員的該語音辨識分數乘上該語音辨識信心指數以產生一最終語音辨識分數,再將對應的該最終人臉辨識分數及該最終語音辨識分數相加以產生對應於各個該成員的一身份辨識分數,並根據該身份辨識分數產生該身份辨識結果。
  7. 如申請專利範圍第1項所述之融合人臉辨識及語音辨識之身份辨識系統,其中該亮度因子係符合下列關係式:;其中,C1為該亮度因子,Thigh為該影像之灰階值經正規化至0~1範圍後之正常亮度之門檻值上限,Tlow為該影像灰階值經正規化 至0~1範圍後對應於正常亮度之門檻值下限,Gavg為該影像之灰階值經正規化至0~1範圍後的平均值。
  8. 如申請專利範圍第7項所述之融合人臉辨識及語音辨識之身份辨識系統,其中該辨識分數差異性因子係符合下列關係式: 其中,C2為該辨識分數差異性因子,T為該複數個人臉辨識分數中最高分數與最低分數的一差距門檻值,Y1st為該複數個人臉辨識分數中最高分數,Y2nd為該複數個人臉辨識分數中次高分數。
  9. 如申請專利範圍第8項所述之融合人臉辨識及語音辨識之身份辨識系統,其中該人臉辨識信心指數係符合下列關係式:C=C1×C2;其中,C為該人臉辨識信心指數。
  10. 如申請專利範圍第9項所述之融合人臉辨識及語音辨識之身份辨識系統,其中該信心指數計算模組係根據一信心指數曲線來計算該語音辨識信心指數,該信心指數曲線係符合下列關係式:y=FR(x)-(1-FE(x));其中,FR(x)係為經由事前訓練所獲得的辨識正確分數的累積分佈函數,FE(x)係為經由事前訓練所獲得的辨識錯誤分數的累積分佈函數,該信心指數曲線之x軸代表經過正規化至0~1後之該語音辨識分數,該信心指數曲線之y軸則代表經過正規化至0~1後之該語音辨識信心指數。
  11. 一種融合人臉辨識及語音辨識之身份辨識方法,係包含下列步驟:利用一人臉辨識模組擷取一影像,並對該影像執行一人臉偵測以 產生一人臉影像,再對該人臉影像執行一人臉辨識,以獲得對應於預設之複數個成員的複數個人臉辨識分數;藉由一語音辨識模組擷取一聲音資料,並偵測該聲音資料中的語音,以產生一語音資料,再對該語音資料執行一語音辨識,以獲得對應於該複數個成員的複數個語音辨識分數;經由一信心指數計算模組計算該人臉辨識的可靠度及該語音辨識的可靠度,以產生一人臉辨識信心指數及一語音辨識信心指數;透過一處理模組根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數產生一身份辨識結果;以及利用該信心指數計算模組根據一亮度因子及一辨識分數差異性因子來計算該人臉辨識信心指數。
  12. 如申請專利範圍第11項所述之融合人臉辨識及語音辨識之身份辨識方法,更包含下列步驟:利用該處理模組在當該人臉辨識信心指數超過一預設門檻值時而該語音辨識信心指數未超過該預設門檻值時,根據該複數個人臉辨識分數產生該身份辨識結果。
  13. 如申請專利範圍第12項所述之融合人臉辨識及語音辨識之身份辨識方法,更包含下列步驟:利用該處理模組在當該語音辨識信心指數超過該預設門檻值時而該人臉辨識信心指數未超過該預設門檻值時,根據該複數個語音辨識分數產生該身份辨識結果。
  14. 如申請專利範圍第13項所述之融合人臉辨識及語音辨識之身份辨識方法,更包含下列步驟:經由該處理模組在當該人臉辨識信心指數及該語音辨識信心指數 均未超過該預設門檻值時,判定該身份辨識結果為無法識別。
  15. 如申請專利範圍第14項所述之融合人臉辨識及語音辨識之身份辨識方法,更包含下列步驟:由該處理模組在當該人臉辨識信心指數及該語音辨識信心指數均超過該預設門檻值時,根據該複數個人臉辨識分數、該人臉辨識信心指數、該複數個語音辨識分數及該語音辨識信心指數進行一融合計算,以產生該身份辨識結果。
  16. 如申請專利範圍第15項所述之融合人臉辨識及語音辨識之身份辨識方法,更包含下列步驟:透過該處理模組將各個該複數個成員的該人臉辨識分數乘上該人臉辨識信心指數以產生一最終人臉辨識分數,並將各個該成員的該語音辨識分數乘上該語音辨識信心指數以產生一最終語音辨識分數,再將對應的該最終人臉辨識分數及該最終語音辨識分數相加以進行一融合計算,以產生對應於各個該成員的一身份辨識分數,並根據該身份辨識分數產生該身份辨識結果。
  17. 如申請專利範圍第11項所述之融合人臉辨識及語音辨識之身份辨識方法,其中該亮度因子係符合下列關係式: 其中,C1為該亮度因子,Thigh為該影像之灰階值經正規化至0~1範圍後之正常亮度之門檻值上限,Tlow為該影像之灰階值經正規化至0~1範圍後之正常亮度之門檻值下限,Gavg為該影像之灰階值經正規化至0~1範圍後的平均值。
  18. 如申請專利範圍第17項所述之融合人臉辨識及語音辨識之身份辨 識方法,其中該辨識分數差異性因子係符合下列關係式: 其中,C2為該辨識分數差異性因子,T為該複數個人臉辨識分數中最高分數與最低分數的一差距門檻值,Y1st為該複數個人臉辨識分數中最高分數,Y2nd為該複數個人臉辨識分數中次高分數。
  19. 如申請專利範圍第18項所述之融合人臉辨識及語音辨識之身份辨識方法,其中該人臉辨識信心指數係符合下列關係式:C=C1×C2;其中,C為該人臉辨識信心指數。
  20. 如申請專利範圍第19項所述之融合人臉辨識及語音辨識之身份辨識方法,其中該信心指數計算模組係根據一信心指數曲線來計算該語音辨識信心指數,該信心指數曲線係符合下列關係式:y=FR(x)-(1-FE(x));其中,FR(x)係為經由事前訓練所獲得的辨識正確分數的累積分佈函數,FE(x)係為經由事前訓練所獲得的辨識錯誤分數的累積分佈函數,該信心指數曲線之x軸代表經過正規化至0~1後之該語音辨識分數,該信心指數曲線之y軸則代表經過正規化至0~1後之該語音辨識信心指數。
  21. 一種服務型機器人,係包含一電源供應器及一融合人臉辨識及語音辨識之身份辨識系統,該服務型機器人係利用該融合人臉辨識及語音辨識之身份辨識系統辨識一使用者之身份,以決定該使用者之使用權限,該融合人臉辨識及語音辨識之身份辨識系統係如申請專利範圍第1項至第10項中之任一項之所述。
TW101125278A 2012-07-13 2012-07-13 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人 TWI456515B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW101125278A TWI456515B (zh) 2012-07-13 2012-07-13 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人
US13/675,590 US8879799B2 (en) 2012-07-13 2012-11-13 Human identification system by fusion of face recognition and speaker recognition, method and service robot thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101125278A TWI456515B (zh) 2012-07-13 2012-07-13 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人

Publications (2)

Publication Number Publication Date
TW201403498A TW201403498A (zh) 2014-01-16
TWI456515B true TWI456515B (zh) 2014-10-11

Family

ID=49914031

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101125278A TWI456515B (zh) 2012-07-13 2012-07-13 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人

Country Status (2)

Country Link
US (1) US8879799B2 (zh)
TW (1) TWI456515B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI661363B (zh) * 2017-08-05 2019-06-01 鴻海精密工業股份有限公司 智慧型機器人及人機交互方法

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014169287A1 (en) * 2013-04-12 2014-10-16 Sciometrics Llc The identity caddy: a tool for real-time determination of identity in the mobile environment
US9165182B2 (en) * 2013-08-19 2015-10-20 Cisco Technology, Inc. Method and apparatus for using face detection information to improve speaker segmentation
US9652915B2 (en) * 2014-02-28 2017-05-16 Honeywell International Inc. System and method having biometric identification intrusion and access control
US10304458B1 (en) * 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
KR102222318B1 (ko) * 2014-03-18 2021-03-03 삼성전자주식회사 사용자 인식 방법 및 장치
US9349193B2 (en) 2014-03-31 2016-05-24 National Taipei University Of Technology Method and apparatus for moving object detection using principal component analysis based radial basis function network
US9904851B2 (en) 2014-06-11 2018-02-27 At&T Intellectual Property I, L.P. Exploiting visual information for enhancing audio signals via source separation and beamforming
CN104834849B (zh) * 2015-04-14 2018-09-18 北京远鉴科技有限公司 基于声纹识别和人脸识别的双因素身份认证方法及系统
US9996732B2 (en) * 2015-07-20 2018-06-12 International Business Machines Corporation Liveness detector for face verification
CN105224849B (zh) * 2015-10-20 2019-01-01 广州广电运通金融电子股份有限公司 一种多生物特征融合身份鉴别方法以及装置
GR1008860B (el) * 2015-12-29 2016-09-27 Κωνσταντινος Δημητριου Σπυροπουλος Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα
US20190066676A1 (en) * 2016-05-16 2019-02-28 Sony Corporation Information processing apparatus
US10916254B2 (en) * 2016-08-22 2021-02-09 Telefonaktiebolaget Lm Ericsson (Publ) Systems, apparatuses, and methods for speaker verification using artificial neural networks
CN106570491A (zh) * 2016-11-11 2017-04-19 华南智能机器人创新研究院 一种机器人智能互动的方法及智能机器人
US10421188B2 (en) * 2016-12-14 2019-09-24 Centurylink Intellectual Property Llc Robot fingerprint
US10522134B1 (en) * 2016-12-22 2019-12-31 Amazon Technologies, Inc. Speech based user recognition
US10455353B2 (en) * 2016-12-22 2019-10-22 Motorola Solutions, Inc. Device, method, and system for electronically detecting an out-of-boundary condition for a criminal origanization
CA3065806A1 (en) 2017-06-01 2018-12-06 Alarm.Com Incorporated Control access utilizing video analytics
KR102433393B1 (ko) 2017-12-12 2022-08-17 한국전자통신연구원 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
TWI661329B (zh) * 2017-12-15 2019-06-01 鴻海精密工業股份有限公司 身份資訊關聯系統與方法、電腦存儲介質及使用者設備
US10423964B2 (en) * 2017-12-29 2019-09-24 Scott Kimmel User controlled event record system
EP3794587A1 (en) * 2018-10-08 2021-03-24 Google LLC Selective enrollment with an automated assistant
US11238294B2 (en) * 2018-10-08 2022-02-01 Google Llc Enrollment with an automated assistant
TWI679584B (zh) * 2018-11-09 2019-12-11 浩鑫股份有限公司 基於資料融合的人員辨識方法
KR20200073733A (ko) 2018-12-14 2020-06-24 삼성전자주식회사 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치
CN109886247A (zh) * 2019-03-05 2019-06-14 哈尔滨理工大学 具有人眼专注度辨识功能的导游机器人脸部装置及控制
US11899566B1 (en) 2020-05-15 2024-02-13 Google Llc Training and/or using machine learning model(s) for automatic generation of test case(s) for source code

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US20100158324A1 (en) * 2008-12-19 2010-06-24 Micro-Star Internationa'l Co., Ltd. Method for adjusting light source threshold value for face recognition
US20100271507A1 (en) * 2009-04-24 2010-10-28 Qualcomm Incorporated Image capture parameter adjustment using face brightness information

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US20050027530A1 (en) 2003-07-31 2005-02-03 Tieyan Fu Audio-visual speaker identification using coupled hidden markov models
US9633186B2 (en) * 2012-04-23 2017-04-25 Apple Inc. Systems and methods for controlling output of content based on human recognition data detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US20100158324A1 (en) * 2008-12-19 2010-06-24 Micro-Star Internationa'l Co., Ltd. Method for adjusting light source threshold value for face recognition
US20100271507A1 (en) * 2009-04-24 2010-10-28 Qualcomm Incorporated Image capture parameter adjustment using face brightness information

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI661363B (zh) * 2017-08-05 2019-06-01 鴻海精密工業股份有限公司 智慧型機器人及人機交互方法
US10482886B2 (en) 2017-08-05 2019-11-19 Fu Tai Hua Industry (Shenzhen) Co., Ltd. Interactive robot and human-robot interaction method

Also Published As

Publication number Publication date
US20140016835A1 (en) 2014-01-16
TW201403498A (zh) 2014-01-16
US8879799B2 (en) 2014-11-04

Similar Documents

Publication Publication Date Title
TWI456515B (zh) 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人
Lucey et al. Automatically detecting pain using facial actions
CN104915649B (zh) 一种应用于人脸识别的活体检测方法
TWI646444B (zh) 一種喚醒智慧機器人的方法及智慧機器人
PH12021551836A1 (en) Biometric authentication in connection with camera-equipped devices
WO2019127262A1 (zh) 基于云端的人脸活体检测方法、电子设备和程序产品
TW201201115A (en) Facial expression recognition systems and methods and computer program products thereof
US8897568B2 (en) Device and method that compare facial images
US11062126B1 (en) Human face detection method
CN103324918A (zh) 一种人脸识别与唇形识别相配合的身份认证方法
BR112021018149A2 (pt) Detecção de falsificação de reconhecimento facial com dispositivos móveis
CN104021397A (zh) 人脸识别比对方法及装置
CN102831408A (zh) 人脸识别方法
CN104102903A (zh) 一种基于src的二次人脸识别方法
CN107704813A (zh) 一种人脸活体识别方法及系统
CN104008364A (zh) 人脸识别方法
Ho et al. MMU GASPFA: a COTS multimodal biometric database
CN113609963B (zh) 一种实时多人体角度的抽烟行为检测方法
Mollaret et al. Perceiving user's intention-for-interaction: A probabilistic multimodal data fusion scheme
TW200707310A (en) Facial recognition method based on recognition of facial features
TWI424359B (zh) Two - stage Face Recognition System and Method
CN108694353A (zh) 一种人脸识别和虹膜识别的多模态身份识别方法
CN107016382A (zh) 一种具有通讯装置的眼镜
EP1990758A3 (en) System and method for verifying face of user using light masks
TWI620076B (zh) 人體動作的分析系統

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees