TWI704490B - 語音控制裝置及方法 - Google Patents
語音控制裝置及方法 Download PDFInfo
- Publication number
- TWI704490B TWI704490B TW107119177A TW107119177A TWI704490B TW I704490 B TWI704490 B TW I704490B TW 107119177 A TW107119177 A TW 107119177A TW 107119177 A TW107119177 A TW 107119177A TW I704490 B TWI704490 B TW I704490B
- Authority
- TW
- Taiwan
- Prior art keywords
- user
- voice control
- image
- control device
- identification data
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本發明公開一種語音控制裝置,其包括用戶資料庫、第一影像擷取模組、語音命令模組以及管理模組。用戶資料庫儲存有第一使用者帳戶的第一用戶識別資料。第一影像擷取模組用以擷取環境影像。語音命令模組用以被致能以接收語音命令控制該語音控制裝置。管理模組用以從該環境影像辨識是否具有至少一人臉影像,並辨識該人臉影像是否符合該第一用戶識別資料,於該人臉影像符合該第一用戶識別資料時,登入該第一使用者帳戶並致能該語音命令模組。
Description
本發明涉及一種語音控制裝置及方法,特別是涉及一種能利用人臉偵測辨識免除喚醒詞並自動切換使用者帳戶的語音控制裝置及方法。
現有的智慧型多媒體裝置雖然能讓使用者以語音命令操作,且廣受歡迎,然而使用者每次在說語音命令前必須先說喚醒詞,例如,Amazon Echo的“Hey Alexa”,或Google Home的“OK Google”,以喚醒智能音箱。然而,這會讓使用者感覺累贅和厭煩,也造成此等裝置於家庭使用上以及普及性受到局限。
而目前雖有某些智慧型多媒體裝置為此做了改良,例如,在一段對話結束後的限定時間之內(例如5秒鐘內),使用者可以直接說語音命令而不必先說喚醒詞。雖然使用者僅須說一次喚醒詞即可,然而,若超過限定時間,仍然得先說喚醒詞才能使用語音命令。
此外,大部分現有的智慧型多媒體裝置並不支援多重使用者操作,或雖有支援,但是切換使用者的介面不夠直覺。倘若使用者未加留意,容易讓他人誤操作自己的帳號導致個人資訊外洩,更嚴重的是造成個人權益或金錢的損失。
故,如何通過針對喚醒與安全機制的改良,來提供一種直覺、方便的操作方式,並克服上述的缺陷,已成為該項事業所欲解決 的重要課題之一。
本發明目的在於提供一種語音控制裝置,其包括用戶資料庫、第一影像擷取模組、語音命令模組以及管理模組。用戶資料庫儲存有第一使用者帳戶的第一用戶識別資料。第一影像擷取模組用以擷取環境影像。語音命令模組用以被致能以接收語音命令控制語音控制裝置。管理模組用以從環境影像辨識是否具有至少一人臉影像,並辨識人臉影像是否符合第一用戶識別資料,於人臉影像符合第一用戶識別資料時,登入第一使用者帳戶並致能語音命令模組。
本發明亦提供一種語音控制方法,其包括以用戶資料庫儲存第一使用者帳戶的第一用戶識別資料;擷取至少一環境影像;從環境影像辨識是否具有至少一人臉影像,並辨識人臉影像是否符合第一用戶識別資料,於人臉影像符合第一用戶識別資料時,登入第一使用者帳戶;以及致能語音控制裝置於第一使用者帳戶登入時以接收語音命令。
本發明的其中一有益效果在於,本發明所提供的語音控制裝置,其能通過“影像擷取模組”以及“管理模組”的技術方案,以利用人臉偵測辨識自動登入使用者帳戶,人臉被成功偵測的期間,使用者即可發出語音命令,而不需要任何喚醒詞,因而省略了須重複喚醒詞或者擔憂限定時間已過的困擾,並以直覺的方式支援多重使用者操作,且可避免讓他人誤操作自己的帳號導致個人資訊外洩,進而可避免造成個人權益或金錢的損失。
為使能更進一步瞭解本發明的特徵及技術內容,請參閱以下有關本發明的詳細說明與圖式,然而所提供的圖式僅用於提供參考與說明,並非用來對本發明加以限制。
1、1’、2、2’‧‧‧語音控制裝置
100、200‧‧‧處理器
102‧‧‧攝影機
104、204‧‧‧顯示模組
106、206‧‧‧儲存裝置
108、208‧‧‧電源供應裝置
110、210‧‧‧音訊接收裝置
112、212‧‧‧音訊播放裝置
114、214‧‧‧通訊裝置
10、20‧‧‧用戶資料庫
12、22-1‧‧‧第一影像擷取模組
14、24‧‧‧語音命令模組
16、26‧‧‧管理模組
202-1‧‧‧第一攝影機
202-2‧‧‧第二攝影機
22-2‧‧‧第二影像擷取模組
25‧‧‧提示模組
28‧‧‧通訊模組
29‧‧‧網路
30‧‧‧雲端伺服器
A0‧‧‧第一使用者帳戶
A1‧‧‧第一用戶識別資料
A2‧‧‧第一使用者配置
B0‧‧‧第二使用者帳戶
B1‧‧‧第二用戶識別資料
B2‧‧‧第二使用者配置
IMG1‧‧‧環境影像
IMG2‧‧‧第一環境影像
IMG3‧‧‧第二環境影像
USER1、USER2‧‧‧人物
R1、R2‧‧‧影像擷取範圍
HF1、HF1’、HF2、HF2’‧‧‧人臉影像
圖1為本發明第一實施例的語音控制裝置的功能方塊圖。
圖2為本發明第一實施例的語音控制裝置的裝置架構圖。
圖3A為本發明第一實施例的人臉偵測辨識的操作示意圖。
圖3B為本發明第一實施例的人臉偵測辨識的環境影像示意圖。
圖4為本發明第二實施例的語音控制裝置的功能方塊圖。
圖5為本發明第二實施例的語音控制裝置的裝置架構圖。
圖6A為本發明第二實施例的人臉偵測辨識的操作示意圖。
圖6B為本發明第二實施例的人臉偵測辨識的第一環境影像及第二環境影像示意圖。
圖7為本發明第三實施例的語音控制方法的流程圖。
圖8為本發明第三實施例的語音控制裝置的另一流程圖。
以下是通過特定的具體實施例來說明本發明所公開有關“語音控制裝置及方法”的實施方式,本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用,本說明書中的各項細節也可基於不同觀點與應用,在不悖離本發明的構思下進行各種修改與變更。另外,本發明的附圖僅為簡單示意說明,並非依實際尺寸的描繪,事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容,但所公開的內容並非用以限制本發明的保護範圍。
應當可以理解的是,雖然本文中可能會使用到“第一”、“第二”、“第三”等術語來描述各種元件或者訊號,但這些元件或者訊號不應受這些術語的限制。這些術語主要是用以區分一元件與另一元件,或者一訊號與另一訊號。另外,本文中所使用的術語“或”,應視實際情況可能包括相關聯的列出項目中的任 一個或者多個的組合。
[第一實施例]
圖1為本發明第一實施例的語音控制裝置的功能方塊圖,圖2為本發明第一實施例的語音控制裝置的裝置架構圖,圖3A為本發明第一實施例的人臉偵測辨識的操作示意圖,圖3B為本發明第一實施例的人臉偵測辨識的環境影像示意圖。參閱圖1至圖3B所示,本發明第一實施例提供一種語音控制裝置1,包括用戶資料庫10、第一影像擷取模組12、語音命令模組14以及管理模組16。
本實施例的語音控制裝置1可由圖2的語音控制裝置1’來實現,語音控制裝置1’的具體架構包括處理器100、攝影機102、顯示模組104、儲存裝置106、電源供應裝置108,音訊接收裝置110、音訊播放裝置112及通訊裝置114,以下將針對語音控制裝置1、1’中的功能對應關係進行說明。
在本實施例中,儲存裝置106用以儲存本發明各實施例所述之資料,例如用戶資料庫10,並且提供處理器100讀取並執行之,以使語音控制裝置1可實現本發明各實施例所述之多媒體應用操作。在本實施例中,儲存裝置106例如是動態隨機存取記憶體(Dynamic Random Access Memory,DRAM)、快閃記憶體(Flash memory)或非揮發性隨機存取記憶體(Non-Volatile Random Access Memory,NVRAM)等。詳細而言,儲存裝置106包含用戶資料庫10可儲存有第一使用者帳戶A0的第一用戶識別資料A1以及第一使用者配置A2。
在本實施例中,處理器100為系統單晶片(System on Chip,SOC),但本發明並不限於此,在其他實施例中,處理器100也可例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(microprocessor)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特 殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)、其他類似處理器或這些裝置的組合。
在本實施例中,第一影像擷取模組12主要用以擷取環境影像。更具體而言,第一影像擷取模組12可包含攝影機102,並且可通過語音控制裝置1’的處理器100或其他內建處理器來進行攝影機102的功能控制,例如控制攝影機102擷取環境影像的焦距、範圍、方向、對比度、白平衡等可用於輔助偵測環境影像中的人臉影像,以便於提昇後續人臉辨識的精確度。
續言之,語音命令模組14用以被致能以接收語音命令來控制語音控制裝置1。詳細而言,語音命令模組14可包含音訊接收裝置110,並可由處理器100、儲存裝置106及音訊接收裝置110來實現其功能。舉例而言,儲存裝置106可儲存有音訊辨識演算法,並由處理器100來執行。其中,音訊接收裝置110可例如為麥克風,當麥克風接收到環境音效時,透過音訊辨識演算法將此環境音效進行解碼並辨識此環境音效中是否包括語音命令,並進一步辨識語音命令所對應要執行的功能,並以處理器100依據此功能來執行對應的操作。
此外,語音控制裝置1還包括管理模組16,用以從第一影像擷取模組12所擷取的環境影像來辨識是否具有至少一人臉影像,並辨識人臉影像是否符合第一用戶識別資料A1,於人臉影像符合第一用戶識別資料A1時,登入第一使用者帳戶A0並致能語音命令模組14。其中,管理模組16可包含處理器100,並可由處理器100、儲存裝置106及攝影機102來實現其功能。舉例而言,儲存裝置106可儲存有人臉辨識演算法,並由處理器100來執行。其中,當攝影機102擷取到環境影像時,透過人臉辨識演算法辨識此環境影像中是否包括人臉影像,並進一步辨識此人臉影像是否與用戶資料庫10中的資料符合,例如,是否符合第一用戶識別資 料A1。當人臉影像符合第一用戶識別資料A1時,登入第一使用者帳戶A0並以處理器100致能音訊接收裝置110,以接受語音控制。此處,第一用戶識別資料A1可包括特定使用者的一或多個面部影像及其特徵,並可於使用者建立第一使用者帳戶A1的同時建立對應的面部影像及其特徵資料。
在本實施例中,語音控制裝置1’還包括電源供應裝置108,用以提供電壓訊號至處理裝置100,以致能處理裝置100而執行本發明各實施例之語音控制操作。並且,本實施例的電源供應裝置108可包括直流對直流電壓轉換器(DC to DC converter,DC/DC),以轉換由外部電源或內部電池提供的直流電壓大小,但本發明並不加以限制。
在本實施例中,語音控制裝置1’還包括音訊播放裝置112,音訊播放裝置112可包括電動式揚聲器、電磁式揚聲器、壓電式揚聲器、電極式揚聲器和電漿體揚聲器,本發明並不加以限制。
在本實施例中,語音控制裝置1’還包括顯示模組104,顯示模組104可例如包括一或多個被動式有機發光二極體顯示器(Passive Matrix Organic Light Emitting Diode,PMOLED)、電子紙顯示器(electronic paper display,EPD)、液晶顯示器(liquid crystal display,LCD)、發光二極體(light-emitting diode,LED)、場發射顯示器(field emission display,FED)或是其他種類的顯示器,但本發明並不限於此。
在一些實施例中,可以通過登入第一使用者帳戶A0來存取由第一使用者建立的第一使用者配置A2並儲存於用戶資料庫10,第一使用者配置A2可包含媒體播放列表、裝置設定及個人資訊。例如,媒體播放列表可包含喜愛頻道列表或歌曲播放列表。在實施例中,登入第一使用者帳戶A0可以預設語音控制裝置1’將用戶建立的喜愛頻道列表及歌曲播放列表顯示在顯示模組104上,藉以控制語音控制裝置1’以顯示模組104搭配音訊播放裝置112來 播放列表中的頻道或歌曲。第一使用者配置A2可進一步包括裝置設定如DVR記錄、頻道、歌曲、分級(rating)、演出、主題、顯示設置及/或音量設置。第一使用者配置A2更可包括個人資訊如特定線上收聽音樂或線上收看影片的供應商相關的網站登入資訊,且登入資訊可包括個人消費資料。並且,可以在偵測環境影像中的使用者臉部影像來確認使用者的身份後並登入第一使用者帳戶A0來存取上述第一使用者配置A2。
在本實施例中,語音控制裝置1’還包括通訊裝置114,通訊裝置114可例如是無線傳輸裝置,並可包括支援無線相容認證(Wireless fidelity,Wi-Fi)、全球互通微波存取(Worldwide Interoperability for Microwave Access,WiMAX)、藍芽(Bluetooth)、超寬頻(Ultra-Wideband,UWB)或射頻識別(Radio-frequency identification,RFID)等通訊協定的裝置。在一些實施例中,通訊裝置114可藉由無線傳輸的方式和另一具有無線傳輸裝置的電子裝置或雲端系統彼此對應而建立無線連結。
在有網路連接能力的環境下,於語音控制裝置1’登入第一使用者帳戶A0後,使用者可直接通過語音命令進行網路消費操作。
請一併參照圖3A及3B,提供了人臉偵測辨識的操作示意圖及擷取的環境影像示意圖。如圖所示,在此情境下,人物USER1及USER2進入了攝影機102的影像擷取範圍R1,並且由攝影機102擷取到了環境影像IMG1。此處,人物USER1距離語音控制裝置1’較人物USER2近,因此,在環境影像IMG1中,人物USER1的影像將會比人物USER2的影像大,因此,在處理器100通過執行人臉辨識演算法辨識此環境影像IMG1,並分別取得人物USER1及USER2的人臉影像HF1及HF2,人臉影像HF1的面積將大於人臉影像HF2。進一步,處理器100通過執行人臉辨識演算法辨識將僅針對面積最大的人臉影像HF1進行辨識,並判定此人臉影像HF1是否與用戶資料庫10中的資料符合,例如,是否符合第一 用戶識別資料A1。當人臉影像符合第一用戶識別資料A1時,登入第一使用者帳戶A0並以處理器100致能音訊接收裝置110,以開始接受語音控制。並且,在人臉影像HF1被成功偵測的期間,第一使用者帳戶A0保持在登入狀態,因此,使用者在控制距離內可以連續發出語音命令,而不需要任何喚醒詞,因而省略了須重複喚醒詞或者擔憂限定時間已過的困擾。
另一方面,當管理模組16辨識到符合第一用戶識別資料A0的人臉影像HF1於環境影像IMG1中消失時或者是USER2的人臉影像HF2’大於人臉影像HF1’,管理模組16將禁能語音命令模組14與登出第一使用者帳戶A0。也就是說,人臉影像HF1於環境影像IMG1中消失時,或影像面積最大的人臉影像不符合第一用戶識別資料A1時,處理器100將登出第一使用者帳戶A0,並使音訊接收裝置110禁能,以停止接收語音命令,進一步登出第一使用者帳戶A0。影像面積最大的人臉影像不符合第一用戶識別資料A1時,處理器100將登出第一使用者帳戶A0,管理模組16需重新辨識USER2的人臉影像HF2’是否符合資料庫中的用戶識別資料判斷是否登入為另一使用者帳戶,並進行相同程序,以達到切換使用者帳戶的目的。如此,使用者無須擔憂個人資訊遭到洩漏或損害權益。
本實施例已針對本發明的核心概念做示例性的描述,以下將根據附圖在下列實施例中做更詳細的描述。
[第二實施例]
圖4為本發明第二實施例的語音控制裝置的功能方塊圖,圖5為本發明第二實施例的語音控制裝置的裝置架構圖,圖6A為本發明第二實施例的人臉偵測辨識的操作示意圖,而圖6B為本發明第二實施例的人臉偵測辨識的第一環境影像及第二環境影像示意圖。參閱圖4至圖6B所示,本發明第二實施例提供一種語音控制 裝置2,包括用戶資料庫20、第一攝影機22-1、第二攝影機22-2、語音命令模組24、提示模組25、管理模組26以及通訊模組28。本實施例的語音控制裝置2可由圖5的語音控制裝置2’來實現,語音控制裝置2’的具體架構包括處理器200、第一攝影機202-1、第二攝影機202-2、顯示模組204、儲存裝置206、電源供應裝置208,音訊接收裝置210、音訊播放裝置212及通訊裝置214,以下將針對語音控制裝置2、2’中的功能對應關係進行說明。在本實施例中,類似的元件使用類似的元件符號,故省略重複敘述。
更進一步的,在本實施例中,語音控制裝置2還包括通訊模組28,通過網路29連接於用戶資料庫20。用戶資料庫20可儲存有第一使用者帳戶A0的第一用戶識別資料A1以及第一使用者配置A2,以及第二使用者帳戶B0的第二用戶識別資料B1以及第二使用者配置B2。更具體而言,語音控制裝置2’可通過通訊裝置214與網路29連接,以進一步與一雲端伺服器30連接,雲端伺服器30可包括上述的用戶資料庫20。因此,管理模組26可通過通訊模組28從用戶資料庫20取得第一使用者帳戶A0的第一用戶識別資料A1,以及第二使用者帳戶B0的第二用戶識別資料B1,以辨識所擷取的人臉影像是否符合第一用戶識別資料A1或第二用戶識別資料B1。
在本實施例中,語音控制裝置2’可包含多個攝影機,用以取得多個環境影像。例如,可包含第一攝影機202-1及第二攝影機202-2。當該等環境影像被辨識出多個人臉影像時,管理模組26僅辨識影像面積最大的人臉影像是否與用戶資料庫20中的用戶識別資料相符合。例如,辨識影像面積最大的人臉影像是否符合第一用戶識別資料A1或第二用戶識別資料A2。
此外,語音控制裝置2更包括提示模組25,用於當第一使用者帳戶A0或第二使用者帳戶B0登入時,啟動第一提示操作以提示第一使用者帳戶A0或第二使用者帳戶B0目前狀態為使用或非 使用中。詳細而言,提示模組25的功能可由處理器200、音訊播放裝置212及顯示模組204來執行,第一提示操作可包括以聲音、影像、或燈號等提示使用者,並且,可依據現在所登入的為第一使用者帳戶A0或第二使用者帳戶B0,而有不同的提示方式。
為說明如何切換使用者帳戶,請一併參照圖6A及6B,提供了人臉偵測辨識的操作示意圖及擷取的環境影像示意圖。如圖所示,在此情境下,人物USER1及USER2分別進入了第一攝影機202-1的影像擷取範圍R1及第二攝影機202-2的影像擷取範圍R2,並且由第一攝影機202-1擷取到了第一環境影像IMG2,以及由第二攝影機202-2擷取到了第二環境影像IMG3。此處,本實施例係以距離較近的人物取得控制權,相同拍攝條件下,在第一環境影像IMG2中的人物USER1的影像比第二環境影像IMG3中的人物USER2的影像大,也就是人物USER1距離語音控制裝置1’較人物USER2近。因此,在處理器200通過執行人臉辨識演算法辨識第一環境影像IMG2及第二環境影像IMG3,並分別取得人物USER1及USER2的人臉影像HF1’及HF2’,並判斷人臉影像HF1’的面積大於人臉影像HF2’。
進一步,處理器200通過執行人臉辨識演算法辨識將僅針對面積最大的人臉影像HF1’進行辨識,並判定此人臉影像HF1’是否與用戶資料庫20中的資料符合,例如,是否符合第一用戶識別資料A1。當人臉影像符合第一用戶識別資料A1時,登入第一使用者帳戶A0並以處理器200致能音訊接收裝置210,以開始接受語音控制,同時執行第一提示操作以聲音、影像、或燈號等提示使用者目前第一使用者帳戶A0為使用中。並且,在人臉影像HF1’被成功偵測的期間,第一使用者帳戶A0保持在登入狀態,因此,使用者可以連續發出語音命令,而不需要任何喚醒詞,因而省略了須重複喚醒詞或者擔憂限定時間已過的困擾。
與第一實施例略有不同,當管理模組16辨識到USER2的人 臉影像HF2’大於人臉影像HF1’,管理模組26先登出第一使用者帳戶A0。也就是說,管理模組16需重新辨識USER2的人臉影像HF2’是否符合資料庫中的用戶識別資料中的用戶識別資料判斷是否登入為另一使用者帳戶,以達到切換使用者帳戶的目的。可以設想的,當管理模組26辨識到更接近的USER2的人臉影像HF2’符合資料庫中的第二用戶識別資料時,登出第一使用者帳戶A0並登入為另一使用者帳戶,如不符合資料庫中的第二用戶識別資料,再使音訊接收裝置110禁能,以停止接收語音命令。如此,使用者無須擔憂個人資訊遭到洩漏或損害權益。
因此,通過上述配置,本發明的語音控制裝置以直覺的方式支援多重使用者操作,且可避免讓他人誤操作自己的帳號導致個人資訊外洩,進而可避免造成個人權益或金錢的損失。
[第三實施例]
圖7為本發明第三實施例的語音控制方法的流程圖,圖8為本發明第三實施例的語音控制裝置的另一流程圖。本實施例所述的方法可以在圖1至圖6B所示的語音控制裝置1、1’、2或2’上執行,因此,請一併照圖1至圖6B以利理解,而語音控制方法包括以下步驟:
步驟S100:以用戶資料庫儲存第一使用者帳戶的第一用戶識別資料。
步驟S102:擷取環境影像。
步驟S104:從環境影像辨識是否具有至少一人臉影像。若是,則進入步驟S106:辨識人臉影像是否符合第一用戶識別資料。
於人臉影像符合第一用戶識別資料時,執行步驟S108:登入第一使用者帳戶並致能語音命令模組接收語音命令。
若於步驟S104中,從環境影像辨識不具有人臉影像,或於步驟S106,辨識人臉影像不符合第一用戶識別資料時,則回到步驟 S102,重新擷取環境影像。
另一方面,在步驟S108之後,可進一步執行步驟S110,啟動第一提示操作,如先前實施例所描述的,第一提示操作可包括以聲音、影像、或燈號等提示使用者目前的第一使用帳戶狀態。
步驟S112:配置管理模組辨識符合第一用戶識別資料的人臉影像是否於環境影像中消失,若否,則執行步驟S108,維持登入第一使用者帳戶,若是,則執行步驟S114,禁能語音命令模組,並登出第一使用者帳戶,進而回到步驟S102,重新擷取環境影像。
因此,通過上述流程,使用者可以連續發出語音命令,而不需要任何喚醒詞,因而省略了須重複喚醒詞或者擔憂限定時間已過的困擾。
另一方面,請參照圖8,提供了語音控制方法的另一流程圖。語音控制方法包括以下步驟:
步驟S200:以用戶資料庫儲存多個使用者帳戶的用戶識別資料及使用者配置,例如可包括前述實施例所描述的第一使用者帳戶的第一用戶識別資料、第一使用者配置及第二使用者帳戶的第二用戶識別資料及第二使用者配置。
步驟S202:擷取多個環境影像。
步驟S204:從多個環境影像辨識是否具有至少一人臉影像。若是,則進入步驟S206:判斷是否有多個人臉影像。若是,則進入步驟S208,僅辨識影像面積最大的人臉影像。並進入步驟S210,辨識人臉影像是否符合第一用戶識別資料。若在步驟S206中,管理模組判斷僅有一個人臉影像,則直接進入步驟S210。
在步驟S210中,於人臉影像符合第一用戶識別資料時,執行步驟S212:登入對應的使用者帳戶、致能語音命令模組接收語音命令並啟用對應的使用者配置。
若於步驟S204中,管理模組從環境影像辨識不具有人臉影像,或於步驟S210,辨識人臉影像不符合任何用戶識別資料,則 回到步驟S202,第一及第二影像擷取模組擷取第一及第二環境影像。
另一方面,在步驟S212之後,可進一步執行步驟S214,配置提示模組啟動第一提示操作,第一提示操作可包括以聲音、影像、或燈號等提示使用者目前的使用帳戶狀態。
步驟S216:辨識符合用戶識別資料的人臉影像是否於環境影像中消失,若是,則執行步驟S218,禁能語音命令模組,並登出對應的使用者帳戶,並回到步驟S202,第一及第二影像擷取模組擷取第一及第二環境影像。若否,則進入步驟S217,判斷符合用戶識別資料的人臉影像是否為面積最大的人臉影像。
若於步驟S217中,判斷符合用戶識別資料的人臉影像為面積最大的人臉影像,則執行步驟S212,維持登入對應的使用者帳戶。若判斷符合用戶識別資料的人臉影像並非為面積最大的人臉影像,則回到步驟S208,僅辨識人臉影像面積最大者。
因此,通過上述流程,本發明的語音控制方法以直覺的方式支援多重使用者操作,且可避免讓他人誤操作自己的帳號導致個人資訊外洩,進而可避免造成個人權益或金錢的損失。
[實施例的有益效果]
本發明的其中一有益效果在於,本發明所提供的語音控制裝置,其能通過“影像擷取模組”以及“管理模組”的技術方案,以利用人臉偵測辨識自動登入使用者帳戶,在人臉被成功偵測的期間,使用者可以直接發出語音命令,而不需要任何喚醒詞,因而省略了須重複喚醒詞或者擔憂限定時間已過的困擾,同時,以直覺的方式支援多重使用者操作,且可避免讓他人誤操作自己的帳號導致個人資訊外洩,進而可避免造成個人權益或金錢的損失。
以上所公開的內容僅為本發明的優選可行實施例,並非因此侷限本發明的申請專利範圍,所以凡是運用本發明說明書及圖式 內容所做的等效技術變化,均包含於本發明的申請專利範圍內。
1‧‧‧語音控制裝置
10‧‧‧用戶資料庫
12‧‧‧第一影像擷取模組
14‧‧‧語音命令模組
16‧‧‧管理模組
A0‧‧‧第一使用者帳戶
A1‧‧‧第一用戶識別資料
A2‧‧‧第一使用者配置
Claims (17)
- 一種語音控制裝置,其包括:一用戶資料庫,儲存有一第一使用者帳戶的一第一用戶識別資料;一影像擷取模組,用以擷取一環境影像;一語音命令模組,用以被致能以接收一語音命令控制該語音控制裝置;以及一管理模組,用以從該環境影像辨識是否具有至少一人臉影像,並辨識該人臉影像是否符合該第一用戶識別資料,於該人臉影像符合該第一用戶識別資料時,登入該第一使用者帳戶並致能該語音命令模組,其中該影像擷取模組包括設置於該語音控制裝置兩側的一第一攝影機及一第二攝影機,用以從該語音控制裝置兩側通過該第一攝影機的影像擷取範圍及該第二攝影機的影像擷取範圍在相同拍攝條件下分別取得包括一第一環境影像及一第二環境影像的多個環境影像,且該管理模組用以從該些環境影像辨識是否具有至少一人臉影像,當該些環境影像被辨識出多個該人臉影像時,依據該些環境影像中辨識的多個該人臉影像的面積取得多個該人臉影像中具有最大面積的其中之一,該管理模組辨識影像面積最大的該人臉影像是否符合該第一用戶識別資料;其中當該語音控制裝置登入該第一使用者帳戶時,該管理模組更辨識符合該第一用戶識別資料的該人臉影像是否於該些環境影像中消失,若否,則進一步判斷符合該第一用戶識別資料的該人臉影像是否為面積最大的該人臉影像;其中該用戶資料庫儲存一第二使用者帳戶的一第二用戶識別資料,當該語音控制裝置登入該第一使用者帳戶時,如影像 面積最大的該人臉影像符合該第二用戶識別資料,則登出該第一使用者帳戶並登入該第二使用者帳戶。
- 如請求項1所述的語音控制裝置,更包括一提示模組,用以提供一第一提示操作以提示目前的該第一使用者帳戶的狀態,該第一提示操作包括聲音、影像、或燈號。
- 如請求項1所述的語音控制裝置,其中該語音命令模組包含一音訊接收裝置,以接收該語音命令。
- 如請求項1所述的語音控制裝置,其中該第一用戶識別資料可包括一使用者的一或多個面部影像及其特徵。
- 如請求項1所述的語音控制裝置,其中該用戶資料庫還儲存有關聯於該第一使用者帳戶的一第一使用者配置,該管理模組於該第一使用者帳戶時,對應存取該第一使用者配置。
- 如請求項5所述的語音控制裝置,其中該第一使用者配置包含媒體播放列表、裝置設定或個人資訊。
- 如請求項1所述的語音控制裝置,其中該管理模組辨識到符合該第一用戶識別資料的該人臉影像消失時,該語音控制裝置登出該第一使用者帳戶並禁能該語音命令模組。
- 如請求項1所述的語音控制裝置,其中該環境影像被辨識出多個該人臉影像時,該管理模組辨識影像面積最大的該人臉影像是否符合該第一用戶識別資料。
- 如請求項1或8所述的語音控制裝置,其中該語音控制裝置登入該第一使用者帳戶時,如影像面積最大的該人臉影像不符合該第一用戶識別資料,則登出該第一使用者帳戶並禁能該語音命令模組。
- 如請求項1所述的語音控制裝置,更包括一通訊模組,用以經過網路連接於該用戶資料庫。
- 如請求項1所述的語音控制裝置,更包括一處理器、一電源供應器、一儲存裝置或顯示模組及其組合。
- 一種語音控制方法,應用於一語音控制裝置,其包括:以一用戶資料庫儲存一第一使用者帳戶的一第一用戶識別資料;以多個攝影機擷取多個環境影像,其中該些攝影機包括設置於該語音控制裝置兩側的一第一攝影機及一第二攝影機,且該些環境影像係包括從該語音控制裝置兩側通過該第一攝影機的影像擷取範圍及該第二攝影機的影像擷取範圍在相同拍攝條件下分別取得的一第一環境影像及一第二環境影像;從該些環境影像辨識是否具有至少一人臉影像,並辨識該人臉影像是否符合該第一用戶識別資料,於該人臉影像符合該第一用戶識別資料時,登入該第一使用者帳戶;致能該語音控制裝置於該第一使用者帳戶登入時接收一語音命令,其中於該些環境影像辨識出多個該人臉影像時,依據該些環境影像中辨識的多個該人臉影像的面積取得多個該人臉影像中具有最大面積的其中之一,並辨識影像面積最大的該人臉影像是否符合該第一用戶識別資料;當該語音控制裝置登入該第一使用者帳戶時,以該管理模組辨識符合該第一用戶識別資料的該人臉影像是否於該些環境影像中消失,若否,則進一步判斷符合該第一用戶識別資料的該人臉影像是否為面積最大的該人臉影像;以及以該用戶資料庫儲存一第二使用者帳戶的一第二用戶識別資料,當該語音控制裝置登入該第一使用者帳戶時,如影像面積最大的該人臉影像符合該第二用戶識別資料,則登出該第一使用者帳戶並登入該第二使用者帳戶。
- 如請求項12所述的語音控制方法,更包括啟動該語音控制裝置的一第一提示操作以提示目前狀態。
- 如請求項12所述的語音控制方法,更包括從該環境影像辨識到符合該第一用戶識別資料的該人臉影像於消失時,該語音控 制裝置登出該第一使用者帳戶並禁能語音命令功能。
- 如請求項12所述的語音控制方法,更包括:配置該用戶資料庫儲存關聯於該第一使用者帳戶的一第一使用者配置;以及於該第一使用者帳戶登入時,對應啟用該第一使用者配置。
- 如請求項12所述的語音控制方法,更包括於該環境影像辨識出多個該人臉影像時,僅辨識影像面積最大的該人臉影像是否符合該第一用戶識別資料。
- 如請求項12所述的語音控制方法,更包括:通過網路從該用戶資料庫取得該第一使用者帳戶的該第一用戶識別資料。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107119177A TWI704490B (zh) | 2018-06-04 | 2018-06-04 | 語音控制裝置及方法 |
CN201910192532.2A CN110555294A (zh) | 2018-06-04 | 2019-03-14 | 语音控制装置及方法 |
US16/384,192 US11158314B2 (en) | 2018-06-04 | 2019-04-15 | Voice control device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107119177A TWI704490B (zh) | 2018-06-04 | 2018-06-04 | 語音控制裝置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202004532A TW202004532A (zh) | 2020-01-16 |
TWI704490B true TWI704490B (zh) | 2020-09-11 |
Family
ID=68694146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107119177A TWI704490B (zh) | 2018-06-04 | 2018-06-04 | 語音控制裝置及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11158314B2 (zh) |
CN (1) | CN110555294A (zh) |
TW (1) | TWI704490B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402900B (zh) * | 2018-12-29 | 2024-04-23 | 华为技术有限公司 | 一种语音交互方法,设备和系统 |
US11521607B2 (en) * | 2019-10-01 | 2022-12-06 | Lenovo (Singapore) Pte. Ltd. | Login based command activation |
CN111443717B (zh) * | 2020-04-24 | 2021-07-06 | 南京硅基智能科技有限公司 | 一种基于语音识别控制的巡检机器人系统 |
CN112164395A (zh) * | 2020-09-18 | 2021-01-01 | 北京百度网讯科技有限公司 | 车载语音启动方法、装置、电子设备和存储介质 |
US11647147B2 (en) * | 2020-12-28 | 2023-05-09 | Meta Platforms, Inc. | User-specific customization of video conferences using multimodal biometric characterization |
CN114999137B (zh) * | 2022-06-13 | 2023-05-30 | 江门市征极光兆科技有限公司 | 一种基于离线语音实现分组控制的遥控器、受控设备及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040151347A1 (en) * | 2002-07-19 | 2004-08-05 | Helena Wisniewski | Face recognition system and method therefor |
TW201220214A (en) * | 2010-11-08 | 2012-05-16 | Inst Information Industry | Facial gender identification system and method and computer program products thereof |
CN105068460A (zh) * | 2015-07-30 | 2015-11-18 | 北京智网时代科技有限公司 | 一种智能控制系统 |
CN106203369A (zh) * | 2016-07-18 | 2016-12-07 | 三峡大学 | 用于防假冒人脸识别的主动式随机动态指令生成系统 |
CN107147609A (zh) * | 2016-03-01 | 2017-09-08 | 中兴通讯股份有限公司 | 一种提升云终端安全节能的方法及云终端、云服务器 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6243683B1 (en) * | 1998-12-29 | 2001-06-05 | Intel Corporation | Video control of speech recognition |
US20030171932A1 (en) * | 2002-03-07 | 2003-09-11 | Biing-Hwang Juang | Speech recognition |
US8539357B2 (en) | 2007-11-21 | 2013-09-17 | Qualcomm Incorporated | Media preferences |
EP2595031A3 (en) * | 2011-11-16 | 2016-01-06 | Samsung Electronics Co., Ltd | Display apparatus and control method thereof |
CN102945672B (zh) * | 2012-09-29 | 2013-10-16 | 深圳市国华识别科技开发有限公司 | 一种多媒体设备语音控制系统及方法 |
CN103218555A (zh) * | 2013-03-04 | 2013-07-24 | 北京百纳威尔科技有限公司 | 应用程序登录方法及装置 |
WO2015076828A1 (en) | 2013-11-22 | 2015-05-28 | Intel Corporation | Apparatus and method for voice based user enrollment with video assistance |
DE102014107163A1 (de) * | 2014-05-21 | 2015-11-26 | Vorwerk & Co. Interholding Gmbh | Elektrisch betriebenes Haushaltsgerät |
US9253443B1 (en) * | 2015-03-03 | 2016-02-02 | International Business Machines Corporation | Filtering video for video telephony and video conferencing |
CN104879882B (zh) * | 2015-04-30 | 2017-09-22 | 广东美的制冷设备有限公司 | 空调器的控制方法和系统 |
CN104820556A (zh) | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
CN105700363B (zh) * | 2016-01-19 | 2018-10-26 | 深圳创维-Rgb电子有限公司 | 一种智能家居设备语音控制装置的唤醒方法及系统 |
CN107368720A (zh) | 2016-05-11 | 2017-11-21 | 中华映管股份有限公司 | 直觉化互动装置及其互动方法 |
US10810912B2 (en) * | 2017-03-15 | 2020-10-20 | Aether Inc. | Face recognition triggered digital assistant and LED light ring for a smart mirror |
US10178432B2 (en) * | 2017-05-18 | 2019-01-08 | Sony Corporation | Identity-based face and voice recognition to regulate content rights and parental controls using consumer profiles |
CN107944247B (zh) * | 2017-12-13 | 2020-03-24 | 联想(北京)有限公司 | 解锁控制方法、装置及电子设备 |
-
2018
- 2018-06-04 TW TW107119177A patent/TWI704490B/zh active
-
2019
- 2019-03-14 CN CN201910192532.2A patent/CN110555294A/zh active Pending
- 2019-04-15 US US16/384,192 patent/US11158314B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040151347A1 (en) * | 2002-07-19 | 2004-08-05 | Helena Wisniewski | Face recognition system and method therefor |
TW201220214A (en) * | 2010-11-08 | 2012-05-16 | Inst Information Industry | Facial gender identification system and method and computer program products thereof |
CN105068460A (zh) * | 2015-07-30 | 2015-11-18 | 北京智网时代科技有限公司 | 一种智能控制系统 |
CN107147609A (zh) * | 2016-03-01 | 2017-09-08 | 中兴通讯股份有限公司 | 一种提升云终端安全节能的方法及云终端、云服务器 |
CN106203369A (zh) * | 2016-07-18 | 2016-12-07 | 三峡大学 | 用于防假冒人脸识别的主动式随机动态指令生成系统 |
Also Published As
Publication number | Publication date |
---|---|
US11158314B2 (en) | 2021-10-26 |
CN110555294A (zh) | 2019-12-10 |
US20190371323A1 (en) | 2019-12-05 |
TW202004532A (zh) | 2020-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI704490B (zh) | 語音控制裝置及方法 | |
US11869527B2 (en) | Noise mitigation for a voice interface device | |
US11670297B2 (en) | Device leadership negotiation among voice interface devices | |
US20230045838A1 (en) | Multi-user personalization at a voice interface device | |
CN107277754B (zh) | 一种蓝牙连接的方法及蓝牙外围设备 | |
JP6883119B2 (ja) | オーディオ透かしによるキーフレーズ検出 | |
US9167520B2 (en) | Controlling applications in a mobile device based on environmental context | |
US20140195235A1 (en) | Remote control apparatus and method for controlling power | |
CN103632165A (zh) | 一种图像处理的方法、装置及终端设备 | |
WO2020119542A1 (zh) | 一种语音交互方法、装置及系统 | |
CA2939001A1 (en) | Performing actions associated with individual presence | |
WO2017166603A1 (zh) | 一种音质调整方法、终端、电子设备及非易失性计算机存储介质 | |
WO2016082513A1 (zh) | 一种提示通话请求的方法和装置 | |
CN105049923A (zh) | 唤醒电子设备的方法及装置 | |
CN103761840A (zh) | 遥控器寻找方法、装置、设备及系统 | |
WO2020119541A1 (zh) | 一种语音数据的识别方法、装置及系统 | |
CN104616241A (zh) | 进行视频截图的方法和装置 | |
US20130089216A1 (en) | Method and apparatus for recognizing an earphone in a portable device | |
CN106453528A (zh) | 推送消息的方法及装置 | |
WO2019227370A1 (zh) | 一种多语音助手控制方法、装置、系统及计算机可读存储介质 | |
WO2020135241A1 (zh) | 一种基于语音的数据传输控制方法、智能电视及存储介质 | |
KR20200024068A (ko) | 인텔리전트 서비스를 위해, 복수의 음성 데이터 수신 장치들을 선택적으로 이용하는 방법, 장치, 및 시스템 | |
WO2022088963A1 (zh) | 一种电子设备解锁方法和装置 | |
US11443060B2 (en) | Note taking at a device based on whether the user is a known user, unknown user, or owner | |
TWM596948U (zh) | 防丟搜尋裝置 |