TWI519122B

TWI519122B - 行動資訊裝置與利用語音控制行動資訊裝置的方法

Info

Publication number: TWI519122B
Application number: TW101142035A
Authority: TW
Inventors: 周理玲; 何宇立
Original assignee: 輝達公司
Priority date: 2012-11-12
Filing date: 2012-11-12
Publication date: 2016-01-21
Also published as: TW201419825A; US20140136211A1

Description

行動資訊裝置與利用語音控制行動資訊裝置的方法

本發明係關於行動資訊裝置，特別是關於行動資訊裝置上的語音控制。

透過使用者的語音輸入來控制裝置的概念已經存在許久。舉例來說，1989年所發展出來的Konica Kanpai，號稱是第一台聲控底片相機(film camera)。另一方面，Samsung Electronics公司近期所推出的行動電話Galaxy SIII，也提供了聲控撥號、聲控拍照等功能。

本發明的一方面，係提出一種在行動資訊裝置上新穎的語音控制。

特別是考量到現今的行動資訊裝置所提供的功能愈來愈複雜，並且提供許多功能參數，供使用者根據其喜好或是需求，而可對功能執行(例如拍照或是播放多媒體)的方式進行動態調整。一般習知係透過觸覺式的控制方式，分別提供功能參數的設定控制以及功能執行的觸發控制，例如提供不同的按鍵。現有的語音控制並無對上述兩種控制加以區分，或是僅用對於後者的控制。相對於現有技術，本發明實施例係利用使用者一次語音輸入中的不同部份，分別作為功能參數的設定控制以及功能執行的觸發控制。

本文中所謂的功能參數係供功能模組(可包含軟硬體的組合)用來決定進行一特定功能作業時的硬體設定參數或是所使用的軟體演算法參數，其中功能模組可根據使用者的需求而採用不同的功能參數值而進行相同的功能作業。

本發明實施例提出一種在一行動資訊裝置提供個人化使用者介面的方法，其包含：●等待使用者預定之一語音輸入；●因應該語音輸入中之一第一部份，控制該行動資訊裝置中一功能模組對一功能參數在一預設範圍中決定出一值；以及●因應該語音輸入中在該第一部份後之一第二部份，該功能模組根據所決定之功能參數執行一功能作業。

本發明另一實施例中提出一種行動資訊裝置，包含：●一記憶體單元，儲存一聲控程式；●一中央處理單元，其電性連接於該記憶體單元，用以執行該聲控程式，以等待使用者預定之一語音輸入；●一功能模組，其電性連接於該中央處理單元；●其中因應該語音輸入中之一第一部份，該聲控程式控制該功能模組對一功能參數在一預設範圍中決定出一值；●其中因應該語音輸入中在該第一部份後之一第二部份，該聲控程式控制該功能模組根據所決定之值執行一功能作業。

本說明書中所提及的特色、優點、或類似表達方式並不表示，可以本發明實現的所有特色及優點應在本發明之任何單一的具體實施例內。而是應明白，有關特色及優點的表達方式是指結合具體實施例所述的特定特色、優點、或特性係包含在本發明的至少一具體實施例內。因此，本說明書中對於特色及優點、及類似表達方式的論述與相同具體實施例有關，但亦非必要。

參考以下說明及隨附申請專利範圍或利用如下文所提之本發明的實施方式，即可更加明瞭本發明的這些特色及優點。

於以下本發明的相關敘述會參照依據本發明具體實施例之系統、裝置、方法及電腦程式產品之流程圖及/或方塊圖來進行說明。當可理解每一個流程圖及/或方塊圖中的每一個方塊，以及流程圖及/或方塊圖中方塊的任何組合，可以使用電腦程式指令來實施。這些電腦程式指令可供通用型電腦或特殊電腦的處理器或其他可程式化資料處理裝置所組成的機器來執行，而指令經由電腦或其他可程式化資料處理裝置處理以便實施流程圖及/或方塊圖中所說明之功能或操作。

這些電腦程式指令亦可被儲存在電腦可讀取媒體上，以便指示電腦或其他可程式化資料處理裝置來進行特定的功能，而這些儲存在電腦可讀取媒體上的指令構成一製成品，其內包括之指令可實施流程圖及/或方塊圖中所說明之功能或操作。

電腦程式指令亦可被載入到電腦上或其他可程式化資料處理裝置，以便於電腦或其他可程式化裝置上進行一系統操作步驟，而於該電腦或其他可程式化裝置上執行該指令時產生電腦實施程序以達成流程圖及/或方塊圖中所說明之功能或操作。

請參照圖1至圖2，在圖式中顯示依據本發明各種實施例的行動資訊裝置、方法及電腦程式產品可實施的架構、功能及操作之流程圖及方塊圖。因此，流程圖或方塊圖中的每個方塊可表示一模組、區段、或部分的程式碼，其包含一個或多個可執行指令，以實施指定的邏輯功能。另當注意者，某些其他的實施例中，方塊所述的功能可以不依圖中所示之順序進行。舉例來說，兩個圖示相連接的方塊事實上亦可以同時執行，或依所牽涉到的功能在某些情況下亦可以依圖示相反的順序執行。此外亦需注意者，每個方塊圖及/或流程圖的方塊，以及方塊圖及/或流程圖中方塊之組合，可藉由基於特殊目的硬體的系統來實施，或者藉由特殊目的硬體與電腦指令的組合，來執行特定的功能或操作。

<硬體架構>

圖1之方塊圖係顯示一實施例中之行動資訊裝置10之硬體架構，該行動資訊裝置10包含觸控螢幕20、語音輸入裝置30、功能模組35、處理器40、記憶體50。記憶體50較佳為快閃記憶體，儲存有行動資訊裝置10的作業系統OS、聲控程式APP_V。處理器40可存取記憶體50以執行作業系統OS與聲控程式APP_V。

功能模組35可例如，但不限於，是一照相模組或是一多媒體播放模組，其可包含軟硬體的組合。如同現有的功能模組，其可透過行動資訊裝置10上的實體按鍵，或是透過作業系統OS或其他軟體程式所提供一視覺介面而呈現在觸控螢幕20供使用者進行觸覺式操作。此部份應為熟此技藝者所習知，在此不予贅述。

需說明的是，在本實施例中，相對於作業系統OS，聲控程式APP_V可為獨立(Stand-alone)的應用程式，係可由使用者選擇性地加入至記憶體50與作業系統OS之中，或是從記憶體50與作業系統OS中移除。但在其他實施例中，聲控程式APP_V亦可與作業系統OS加以整合(integrated)。另一方面，若功能模組35本身含有上述的視覺介面程式或其他軟體程式，亦可與聲控程式APP_V彼此獨立或互相整合。

關於行動資訊裝置10與本發明較無相關之硬體架構，可參考例如Apple公司的的產品iPhone或iPad，或是Samsung Electronics公司的產品Galaxy SIII。

<操作流程>

圖2為本發明一實施例之流程圖，配合圖1簡要地說明本發明。

●步驟200：聲控程式APP_V係提供使用者錄製個人化語音訊息作為語音樣本，儲存於記憶體50(或是行動資訊裝置 10可存取的雲端儲存設備)，但此並非本發明之必要，在其他實施例中，聲控程式APP_V亦可預先內建語音樣本，而不一定需要使用者自行錄製。此部份應為熟此技藝者所習知，在此不予贅述。

另一方面，聲控程式APP_V可提供一設定環境，供使用者將各語音樣本關聯至其所要控制的對象(即功能參數的設定控制以及功能執行的觸發控制)，如下表1的範例所示。由於功能參數係與特定功能相匹配，因此聲控程式APP_V亦可將功能參數的語音樣本與相對應功能執行的語音樣本進行匹配，而有利於後續的比對。更多的細節將描述於後。

●步驟202：較佳地，聲控程式APP_V係以常駐模式在背景執行。若聲控程式APP_V並非以背景模式常駐的情況下，則可由使用者透過點擊聲控程式APP_V呈現在觸控螢幕20上特定圖示或是按壓行動資訊裝置10上一實體按鈕(圖1中皆未示)的方式來啟動聲控程式APP_V。

而當聲控程式APP_V被啟動後，其係語音輸入裝置30(例如一麥克風)連結，以等待使用者透過語音輸入裝置30之語音輸入。較佳地，若行動資訊裝置10實施為行動電話，則語音輸入裝置30即為行動電話通話時使用者所使用的麥克風，因此不需要額外的語音輸入裝置。

此外，若聲控程式APP_V並非以背景模式常駐，則在被啟動後，可設定一等待時間，若該等待期間其間，使用者並無語音輸入，則聲控程式APP_V可自動關閉，可節省裝置的耗電。

●步驟204：當接收到使用者的語音輸入後，則聲控程式APP_V將使用者的語音輸入進行分析。

在一實施例中，聲控程式APP_V可將使用者的語音輸入進行分析，並區分出兩個以上不同的部份(例如透過音節(syllables)或音調(intonations)等等)。關於對使用者的語音輸入進行分析的作法，應為熟此技藝者所習知，本發明對此並不欲限定。

較佳地，使用者的語音輸入係為詞句(phrase)，其中至少包含兩個字(word)以上。而聲控程式APP_V可從詞句中區分出兩個以上不同的字(如表1中的語音樣本所示)，而關於對使用者的詞句輸入分析所包含的字的作法，應為熟此技藝者所習知，在此不予贅述。

●步驟206：在聲控程式APP_V將使用者的語音輸入區分出兩個以上不同的部份後，則可將各個不同部份與步驟200的語音樣本進行比對。針對語音輸入中在先的部份，聲控程式APP_V將與關聯至功能參數的語音樣本進行比對，若有相符，則控制功能模組35對功能參數在預設範圍中決定出一值(步驟208)，後續並進行至步驟210。以下將透過範例加以說明。若否則回到步驟204重新等待語音輸入。

在一實施例中，功能模組35係實施為一攝影模組，係提供可提供靜態照相或是動態攝影功能。攝影模組35在提供上述功能時，需要考量許多功能參數，例如焦距、光圈、iso值、焦點位置、照片解析度、白平衡值、編碼解碼等等。以光圈為例，攝影模組35係提供f/2.4至f/4.8的調整範圍。

在此實施例中，使用者的語音輸入為口述詞句“one,two,three,cheese.”，而當聲控程式APP_VI判斷出口述詞句中一在先的部份(即“one,two,three”)，與步驟200中關聯至光圈的語音樣本相符，則控制攝影模組35對光圈參數在f/2.4至f/4.8的範圍中決定出一值，例如f/3.2。在此例中，聲控程式APP_V可控制攝影模組35依據一預定方式決定出適合的光圈值(即自動判斷)，相似地，亦可控制攝影模組35進行自動對焦、自動ISO值設定、自動白平衡等。需說明的是，在此『自動』係指決定出功能參數值的方式，但此攝影模組35的自動決定仍需要透過聲控程式APP_V予以觸發啟動。

在另一實施例中，功能模組35係實施為一多媒體播放模組，係可提供音樂或是動畫播放功能。多媒體播放模組35在提供上述功能時，需要考量許多功能參數，例如音量、音頻分佈、畫面尺寸等等。以音量為例，多媒體播放模組35係提供1至10的預設調整範圍。此外與上述攝影模組範例不同的是，在此範例中，步驟200中語音樣本係進一步關聯至音量參數的特定值，例如9。

在此實施例中，使用者的語音輸入為口述詞句“loud music”。因此當聲控程式APP_VI判斷出口述詞句中一在先的部份(即“loud”)，與關聯至音量值9的語音樣本相符，則控制多媒體播放模組35直接將音量參數之值設定為9，而不是如上述攝影模組範例中，需要攝影模組35自行決定功能參數值。

●步驟210：當聲控程式APP_V控制功能模組35對功能參數在預設範圍中決定出一值(例如光圈值為f/3.2或音量值為9)後，聲控程式APP_V則進一步針對語音輸入中在後的部份與步驟200中關聯至功能執行的語音樣本進行比對。若有相符，則控制功能模組35根據步驟208所決定之功能參數值執行一功能作業(步驟212)。若否則回到步驟204重新等待使用者的語音輸入。

若在步驟200中聲控程式APP_V已預先將功能參數的語音樣本與相對應功能執行的語音樣本進行匹配，則聲控程式APP_V可根據步驟208中被判斷為相符的語音樣本(關聯至功能參數)，快速找到關聯至相對應功能執行的語音樣本，並用來與使用者語音輸入中在後的部份進行比對。藉此，聲控程式APP_V不需要對所有的語音樣本都進行比對，而因此可增加比對的速度。

配合表1所示，在使用者的語音輸入為詞句“one,two,three,cheese.”而功能模組35係實施為攝影模組的範例中，當聲控程式APP_V判斷出語音輸入中在後的部份(即“cheese”)，與步驟200中關聯至靜態照相的語音樣本相符，則控制攝影模組35以步驟208中所決定出的光圈參數值f/3.2進行靜態照相以產生一影像。

相似地，在在使用者的語音輸入為詞句“loud music”而功能模組35係實施為多媒體播放模組的範例中，當聲控程式APP_V判斷出語音輸入中在後的部份(即“music”)，與步驟200中關聯至播放音樂的語音樣本相符，則控制多媒體播放模組35以步驟208中所決定出的音量參數值9播放音樂。

在步驟210的另一實施例中，聲控程式APP_V除了判斷使用者之語音輸入中在後的部份與關聯至功能執行的語音樣本相符之外，聲控程式APP_V還進一步判斷使用者語音輸入(例如“one,two,three,cheese”)中在後的部份(即“cheese”)是否在先前的部份(即“one,two,three”)後一預定時間(例如3秒)內輸入，若否則不控制功能模組35執行功能作業，反之係回到步驟204重新等待語音輸入。

在不脫離本發明精神或必要特性的情況下，可以其他特定形式來體現本發明。應將所述具體實施例各方面僅視為解說性而非限制性。因此，本發明的範疇如隨附申請專利範圍所示而非如前述說明所示。所有落在申請專利範圍之等效意義及範圍內的變更應視為落在申請專利範圍的範疇內。

10‧‧‧行動資訊裝置

20‧‧‧觸控螢幕

30‧‧‧語音輸入裝置

35‧‧‧功能模組

40‧‧‧處理器

50‧‧‧記憶體

OS‧‧‧作業系統

APP_V‧‧‧聲控程式

為了立即瞭解本發明的優點，請參考如附圖所示的特定具體實施例，詳細說明上文簡短敘述的本發明。在瞭解這些圖示僅描繪本發明的典型具體實施例並因此不將其視為限制本發明範疇的情況下，參考附圖以額外的明確性及細節來說明本發明，圖式中：圖1顯示本發明一實施例的行動資訊裝置；圖2顯示本發明一實施例之方法流程圖。

Claims

一種行動資訊裝置，包含：一記憶體單元，儲存一聲控程式；一中央處理單元，其電性連接於該記憶體單元，用以執行該聲控程式，以等待使用者預定之一語音輸入；一功能模組，其電性連接於該中央處理單元；其中因應該語音輸入中之一第一部份，該聲控程式控制該功能模組對一功能參數在一預設範圍中決定出一值；其中因應該語音輸入中在該第一部份後之一第二部份，該聲控程式控制該功能模組根據所決定之值執行一功能作業。
如請求項1所述之行動資訊裝置，該功能模組係根據第一部份決定該值。
如請求項1所述之行動資訊裝置，其中該語音輸入係為一詞句，而該第一部份至少包含一第一字，而該第二部份至少包含一第二字。
如請求項1所述之行動資訊裝置，其中該聲控程式係可由使用者選擇性地加入至該記憶體單元，或是從該記憶體單元中移除。
如請求項1所述之行動資訊裝置，其中該功能模組係一攝影模組，該功能參數係一攝影參數，而該功能係為一攝影功能。
如請求項5所述之行動資訊裝置，其中該攝影參數為該攝影模組之一光圈。
如請求項1所述之行動資訊裝置，其中該功能模組係一多媒體播放模組，該功能參數係一播放參數，而該功能係為一多媒體播放功能。
如請求項7所述之行動資訊裝置，其中該播放參數為該多媒體播放模組之一音量。
如請求項1所述之行動資訊裝置，其中該功能參數係為一硬體設定參數。
一種利用語音控制一行動資訊裝置的方法，包含：(a)等待使用者預定之一語音輸入；(b)因應該語音輸入中之一第一部份，控制該行動資訊裝置中一功能模組對一功能參數在一預設範圍中決定出一值；以及(c)因應該語音輸入中在該第一部份後之一第二部份，控制該功能模組根據所決定之功能參數執行一功能作業。
如請求項10所述之方法，其中在步驟(c)中，該第二部份係在該第一部份後一預定時間內。