TW201512968A

TW201512968A - 以語音辨識來發生事件裝置及方法

Info

Publication number: TW201512968A
Application number: TW103110847A
Authority: TW
Inventors: Jong-Won Shin; Se-Mi Kim; Kang-Lae Jung; Jeong-In Doh; Jeh-Seon Youn; Kyeong-Sun Kim
Original assignee: Diotek Co Ltd
Priority date: 2013-09-24
Filing date: 2014-03-24
Publication date: 2015-04-01
Also published as: US20150088524A1; CN104464730A; EP2852183A1; KR101474856B1

Abstract

本發明涉及一種以語音辨識來事件發生裝置及方法，本發明的事件發生裝置是以語音辨識來發生事件（event）的裝置，其特徵在於，包括一個以上的處理裝置，所述一個以上的處理裝置，其構成為，基於用戶的語音獲取輸入資訊，基於應用程式的畫面資訊來獲取的至少一個的識別資訊與輸入資訊匹配，在識別資訊中獲取與輸入資訊匹配的匹配識別資訊，在與匹配識別資訊對應領域中，至少在一部分領域中發生事件；在使用用戶事前未內置控制指令的應用程式時，也可以通過語音辨識來控制電子裝置，具有可提高該電子裝置的用戶接近性的效果。

Description

以語音辨識來發生事件裝置及方法

本發明涉及一種以語音辨識來發生事件的裝置和方法，尤其是利用基於應用程式畫面資訊而獲取的識別資訊，通過語音辨識發生事件的裝置和方法。

隨著使用電腦、筆記型電腦、智慧型手機、平板電腦、汽車導航儀等電子裝置的用戶越來越多，這些電子裝置與用戶間易於人機交互的用戶介面的重要性也越來越高。

一般的用戶介面多是通過鍵盤、滑鼠、觸控螢幕等輸入裝置進行物理性輸入，但是對於無法看到顯示畫面的視覺殘疾人，或是不便於使用操作鍵盤、滑鼠、觸控螢幕等輸入裝置的用戶來說，通過上述的用戶介面來操作電子裝置是不容易的。

另外，對於沒有殘疾的人來說，在駕駛中或是雙手拿著行李不便於或是很難對電子裝置進行操作時，通過上述用戶介面不易於操作電子裝置。

由此可見，開發出可提高電子裝置接近性的用戶介面勢在必行。可提高電子裝置接近性的用戶介面中，如分析用戶語音控制電子裝置的語音辨識技術就屬其一。

為了實現電子裝置利用語音辨識技術，通過用戶的語音來進行控制，需要事先將可與用戶語音匹配的控制指令內置在電子裝置中。

在將可與用戶語音匹配的控制指令內置在平臺端時，通過語音辨識，可對相關電子裝置的基本設定，如電子裝置的音量或亮度等進行控制。

此外，為了通過語音辨識對個性的應用程式進行控制，在各個應用程式上，必須內置可與用戶語音匹配的控制指令。

因此，為了在不支援語音辨識的應用程式中進行語音辨識，或是為了添加語音辨識功能，需要對應用程式進行新的開發或是升級，以便在相關的應用程式上內置與用戶語音匹配的控制指令。

但是，電子裝置和各個電子裝置所搭載的應用程式日新月異、多種多樣，在所有的應用程式上內置與用戶語音匹配的控制指令並不容易，在多種多樣的應用程式中實現可聯動通用的語音辨識系統就更為不易。

綜上所述，支援語音辨識的應用程式很少，即使支援語音辨識，通過語音辨識而執行的動作也很有限，實質上提高電子裝置的接近性也是非常有限的。

由此可見，開發通過語音辨識來提高電子裝置接近性的技術，是勢在必行的。

為了解決上述技術問題，本發明的目的在於，提供一種在使用用戶事前未內置控制指令的應用程式時，也可以通過語音辨識控制電子裝置的裝置及方法。

為了解決上述技術問題，本發明的另一目的在於，提供一種利用應用程式的畫面資訊，提供直觀的語音辨識系統的裝置及方法。

本發明的發明目的並不侷限於此，在此未提及的其他發明目的通過本說明書的記載，是本技術領域的技術人員顯而易見的。

本發明實現上述目的的技術方案是：一種事件發生裝置，是以語音辨識來發生事件（event）的裝置，其特徵在於，包括一個以上的處理裝置；所述一個以上的處理裝置，基於用戶的語音獲取輸入資訊，基於應用程式的畫面資訊來獲取的至少一個的識別資訊與所述輸入資訊匹配；在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊；在與所述匹配識別資訊對應的領域中，至少在一部分領域中發生事件。

本發明的另一技術特徵是：所述識別資訊是通過光學字元辨識（OCR: optical character recognition）而獲取的。

本發明的另一技術特徵是：所述輸入資訊包括分析所述用戶的語音特徵而獲取的語音模式資訊；所述識別資訊和所述輸入資訊的匹配包括所述識別資訊和所述語音模式資訊的匹配。

本發明的另一技術特徵是：所述輸入資訊包括通過語音辨識，由所述用戶的語音而識別的文本（Text）；所述識別資訊和所述輸入資訊的匹配包括所述識別資訊和所述文本的匹配。

本發明的另一技術特徵是：所述一個以上的處理裝置，基於用戶語音獲取附加輸入資訊，基於所述附加輸入資訊決定所述事件的類型。

本發明實現上述目的的另一技術方案是：一種事件發生裝置，是以語音辨識來發生事件（event）的裝置，其特徵在於，包括一個以上的處理裝置；所述一個以上的處理裝置，基於用戶的語音獲取輸入資訊，基於應用程式的畫面資訊來獲取的至少一個的識別資訊與輸入資訊匹配；在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊；與所述匹配識別資訊對應，生成控制客體；發生所述控制客體的事件。

本發明實現上述目的的另一技術方案是：一種事件發生方法，是以語音辨識來發生事件（event）的方法，其特徵在於，包括：基於用戶的語音獲取輸入資訊的步驟；基於應用程式的畫面資訊來獲取的至少一個的識別資訊與所述輸入資訊匹配的步驟；在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊的步驟；及在與匹配識別資訊對應的領域中，至少在一部分領域中發生事件的步驟。

本發明的另一技術特徵是：包括：基於用戶語音獲取附加輸入資訊的步驟；及基於所述附加輸入資訊決定所述事件的類型的步驟。

本發明實現上述目的的另一技術方案是：一種事件發生方法，是以語音辨識來發生事件（event）的裝置，其特徵在於，包括：基於用戶的語音獲取輸入資訊的步驟；基於應用程式的畫面資訊來獲取的至少一個的識別資訊與輸入資訊匹配的步驟；基於所述識別資訊生成控制客體的步驟；在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊的步驟；發生所述控制客體的事件的步驟。

本發明實現上述目的的另一技術方案是：一種可電腦判讀的媒體，是包括指令集的可電腦判讀的媒體，其特徵在於，所述指令集因電腦裝置而被執行時，可讓所述電腦裝置獲取基於用戶語音的輸入資訊，基於應用程式畫面資訊獲取的至少一個的識別資訊與所述輸入資訊匹配，在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊，在與所述匹配識別資訊對應的領域中，至少在一部分領域中發生事件。

其他實施方式的具體內容包含在本發明的詳細說明及說明書附圖中。

本發明的有益效果是：依據本發明，在使用用戶事前未內置控制指令的應用程式時，也可以通過語音辨識控制電子裝置，具有提高相關電子裝置接近性的效果。

依據本發明，利用應用程式畫面資訊，可提供直觀的語音辨識系統，因此具有通過語音辨識提高用戶與相關電子裝置接近性的效果。

本發明的效果並不侷限於上述內容，本發明還具有其他多種效果。

本發明的優點及特徵，以及實現其優點及特徵的方法，將結合本發明的附圖，通過以下的實施方式進行明確的說明。但是，本發明並不侷限於以下的實施方式，可為多種形態，本發明的實施方式用於說明本發明的特徵，用於在本發明的技術領域，向相關技術人員說明本發明的範圍，本發明的範圍取決於本發明的請求項的範圍。

“第一”、“第二”等表現用於說明多種構成要素，但是本發明的構成要素並不侷限於此。這中表現只用來區分不同的構成要素，也就是說，本發明中的第一構成要素也可以被稱為第二構成要素。

在說明書中所標記的相同的符號是指相同的構成要素。

本發明的多個實施方式的各自特徵可部分或全部的結合或組合，本發明技術領域的技術人員可通過充分理解其內容，進行多種多樣的技術性聯動或驅動，各實施方式可相對獨立，也可結合實施。

在本說明書中，在任何一個構成要素向其他構成要素“傳送”資料或信號時，可以是直接傳送所述資料或信號，也可以是通過至少一個以上的其他構成要素來傳送資料和信號。

為了說明本發明，以下對用於進行定義。

“語音辨識”一般是指用戶所發出的聲音被電子裝置分析，並以文本來識別的作業。具體來說，用戶所發出聲音的波形被輸入電子裝置時，參照音響型號等，語音波形被分析，從而獲取語音模式資訊。另外，所獲取的語音模式資訊與識別資訊進行對比，從而識別出識別資訊中一致機率最高的文本。

“事件”是指程式中所偵測的活動或事件，按照事件的類型，舉例來說有用於處理輸入的輸入事件、用於處理輸出的輸出事件、用於選擇特定客體的選擇事件等。

在此，輸入事件通常是通過滑鼠、觸控板、觸控螢幕、鍵盤等輸入裝置，進行點擊、觸控、鍵入等輸入時而發生的，但是即使不通過上述輸入裝置進行實際輸入，也可以處理虛擬的輸入，發生輸入事件。

另外，輸入事件一般來說是通過滑鼠、觸控面板、觸控螢幕、鍵盤等輸入裝置進行點擊、觸控、鍵入等輸入，但是即使不通過上述的輸入裝置進行實質性的輸入，進行虛擬的輸入時，也可以發生輸入事件。

此外，輸入事件依據輸入裝置，其輸入類型也有所不同。比如說，可以是左點擊事件、右點擊事件、按兩下事件、滾輪事件等。在觸控面板或觸控螢幕等輸入裝置上，也可以是觸擊事件、長觸擊事件、雙觸擊事件等。

這些輸入事件基於輸入裝置、輸入模式、輸入位置、輸入維持時間等資訊而發生。

另外，選擇事件為了選擇控制客體而發生，將控制客體作為目標（target）發生選擇事件時，該控制客體被選擇。或是發生控制客體的上述輸入事件時，控制可會被選擇。

事件不侷限於上述的輸入事件、選擇事件、輸出事件，還可以包括在程式中被偵測到的多種事件。

在本說明書中，“輸入資訊”是指基於用戶的語音，經過前述的部分或是全部的語音辨識過程而獲取的資訊。比如說，輸入資訊可以是分析用戶的語音波形而獲取的語音模式資訊。這種語音模式資訊為了表現聲學特徵，由按照短區間從用戶的語音中提取的語音特徵係數構成。

在本說明書中，“應用程式的畫面資訊”是指在控制客體選擇裝置所執行的應用程式中，顯示特定畫面時所使用的資訊。

在本說明書中，“識別資訊”是通過事件發生裝置基於應用程式畫面資訊自動獲取的文本。分析用戶的語音而獲取的語音模式資訊若與文本的識別資訊匹配，識別資訊中一致機率最高的識別資訊可被識別。

識別資訊中與用戶的語音一致機率最高的識別資訊被識別時，與所識別的識別資訊對應的控制客體會被選擇。因此，即使未內置與用戶的語音相匹配的控制指令，也會因事件發生裝置發生事件。

在本說明書中，“控制客體”是指在控制客體選擇裝置的畫面上顯示出來，可接收用戶輸入的按鍵等介面，在顯示出來的控制客體上，完成用戶輸入後，控制客體選擇裝置可執行事先決定的控制動作。

控制客體可以是用戶通過對按鍵、確認欄、文字輸入欄等的點擊、輸入來選擇的介面，但並不侷限於此，控制客體不表現為圖像或透明顯示時，也可以是用戶通過滑鼠或觸控螢幕等輸入裝置選擇的介面控制客體。

接下來，參照說明書附圖，對本發明的多種實施方式進行詳細的說明。

圖 1 是本發明一實施方式的事件發生裝置的方塊圖。

如圖 1 所示，本發明的一實施方式的事件發生裝置 100 包括：處理器 120、記憶體控制器 122、記憶體 124。還包括：介面 110、話筒 140、揚聲器 142、顯示部 130。

本發明一實施方式的事件發生裝置 100 是可通過語音辨識選擇控制客體的電腦裝置，包括一個以上的處理裝置，可以是具備音響輸入功能的電腦、筆記型電腦、智慧型手機、平板電腦、汽車導航儀、掌上型電腦、可擕式媒體播放機、MP3播放機、電子詞典等終端設備，或是與這些終端設備連接的伺服器或由多個電腦構成的分散電腦系統。在此，一個以上的處理裝置可包括至少一個以上的處理器 120 和記憶體 124，複數個處理器 120 可共用相互的記憶體 124。

記憶體 124 儲存程式或指令集等，記憶體 124 可包括隨機存取記憶體（RAM; random access memory）、唯讀記憶體（ROM; read-only memory）、磁片裝置、光碟裝置、快閃記憶體等。

處理裝置基於用戶的語音獲取輸入資訊，基於應用程式加冕資訊獲取的至少一個的識別資訊與輸入資訊匹配，在識別資訊中，獲取與輸入資訊匹配的匹配識別資訊，在匹配的識別資訊對應的領域中，至少一部分領域中發生事件。

記憶體控制器 122 控制處理器 120 或介面 110 等其他元件被格式化成記憶體 124。

處理器 120 可執行儲存在記憶體 124 上的程式或指令集進行實行等的演算。

介面 110 將控制客體選擇裝置 100 的話筒 140 或揚聲器 142等輸入輸出裝置 100 連接在處理器 120 及記憶體 124 上。

話筒 140 可接收語音信號，將接收的語音信號轉換成電子信號，提供給介面 110。揚聲器 142 接收來自介面 110 的電子信號，並將其轉換成語音信號後輸出。

顯示部 130 向用戶顯示視覺性的圖像資訊，顯示部 130 可包括偵測觸控輸入的觸控螢幕顯示。

本發明的一實施方式的事件發生裝置 100，儲存在記憶體 124 上，利用由處理器 120 實行的程式（以下稱為“事件發生引擎”），通過語音辨識發送事件。

事件發生引擎是在事件發生裝置 100 的背景或格式下而實行的，利用在事件發生裝置 100 上實行的應用程式畫面資訊，通過語音辨識讓事件發生裝置 100 發生事件。

圖 2 是本發明一實施方式的事件發生方法的流程圖；為了便於說明，連同圖 3 一併參照。圖 3 圖示了本發明一實施方式的基於應用程式畫面資訊獲取的識別資訊。

如圖 3 所示，舉例來說，在事件發生裝置 100 上可實行遊戲應用程式 150。

首先，事件發生裝置基於用戶的語音獲取輸入資訊 S100。

在此，輸入資訊是指分析用戶的語音特徵而獲取的語音模式資訊，但並不侷限於此，可以是基於用戶語音，在語音辨識過程中獲取的一部分或全部的資訊。

獲取輸入資訊後，事件發生裝置將基於應用程式的畫面資訊而獲取的至少一個的識別資訊與輸入資訊進行匹配 S110。

應用程式畫面資訊的光學字元辨識被實行時，在該應用程式畫面資訊顯示的畫面中，可獲取以文本識別的識別資訊。在此，基於應用程式畫面資訊的識別資訊的獲取不侷限於光學字元辨識，可以為磁墨文字識別等多種方法。

如圖 3 所示，撲克遊戲應用程式 150 的畫面上，顯示著“重新開始 151A”、“繼續遊戲 152A”、“設定 153A”、“瀏覽排序 154A”等文本，自該應用程式 150 的應用程式畫面資訊，可獲取“重新開始 151A”、“繼續遊戲 152A”、“設定 153A”、“瀏覽排序 154A”等識別資訊。

所獲取的識別資訊，可包括與該識別資訊對應的文本在應用程式畫面上所顯示的位置或領域等資訊，這些資訊可用於決定後面的事件發生的位置和領域。

識別資訊和輸入資訊的匹配，也就是通過識別資訊和語音模式資訊的匹配，將獲取的語音模式與識別資訊進行對比，判斷具有與該語音模式相同或最近似的模式的識別資訊。

另外，識別資訊也可以以來自用戶語音的語音模式資訊代碼化的方式，代碼化成音素或特定的區間單位，從而使語音模式資訊和識別資訊互相匹配。識別資訊和語音模式資訊匹配時，可使用靜止匹配（static matching）、餘弦相似度（cosine similarity）對比、彈性匹配（elastic matching）等。

事件發生裝置，按照所獲取的識別資訊和輸入資訊的匹配結果，判斷是否有與輸入資訊匹配的識別資訊 S120。

如上所述，判斷具有與所獲取的語音模式相同或最近似的模式的識別資訊是否是匹配識別資訊。

如果判斷出沒有與輸入資訊匹配的識別資訊時，控制客體選擇裝置在重新獲取輸入資訊前會待機或體現出要求用戶重新發出語音的要求。

若判斷有與輸入資訊匹配的識別資訊時，事件發生裝置獲取該匹配識別資訊 S130。

如圖 3 所示，自用戶語音獲取“重新開始”的輸入資訊時，在“重新開始 151B”、“繼續遊戲 152B”、“設定 153B”、“瀏覽排序 154B”的識別資訊中，“重新開始 151B”識別資訊屬於該識別資訊。

另外，所獲取的匹配識別資訊為複數時，對應匹配識別資訊的複數個領域間，指定優先順序，對於對應匹配識別資訊的複數個領域及優先順序，將結合圖 7 後述說明。

獲取匹配識別資訊後，事件發生裝置在匹配識別資訊對應的領域中的一部分領域內發生事件 S140。

對應匹配識別資訊的領域是指與匹配識別資訊對應的文本在應用程式畫面上的位置，比如說，可以是該文本所位於的區段，也可以是該文本在應用程式畫面上所位於的領域和事前決定的範圍隔開的領域等。

事件發生的位置可以是匹配識別資訊對應的領域內的一座標，也可以是構成一領域的複數座標。

由此可見，“重新開始 151B”識別資訊屬於匹配識別資訊時，如圖 3 所示，“重新開始 151B”對應的領域，比如說，“重新開始 151B”識別資訊對應的文本 151A 在撲克遊戲應用程式 150 的畫面上所位於的領域內發生事件 E。

在此，事件 E 是輸入事件時，實質上發生與該領域內進行輸入一樣的效果。比如說，事件設定為觸擊事件時，在該領域發生實現觸擊相同的效果。進一步，輸入事件所發生的位置上存在控制客體時，該控制客體可被選擇。

上述事件的類型是事先決定的，也可以是基於附加輸入資訊決定的。比如說，和如上所述的輸入資訊一起，“雙觸擊”、“長觸擊”、“重擊”、“pinch-in”或“pinch-out”等附加輸入資訊被獲取時，在匹配識別資訊對應的領域中，分別實行雙觸擊、長觸擊、重擊、pinch-in或pinch-out。

圖 4 圖示了本發明另一實施方式的基於應用程式畫面資訊獲取的識別資訊

如圖 4 所示，撲克遊戲應用程式 150 可包括對話方塊 157 和控制客體 155A、156A。在此，對話方塊 157 屬於向用戶提供資訊並由用戶選擇的客體，控制客體 155A、156A 是由用戶選擇的介面。

如圖 4 所示，基於撲克遊戲應用程式 150 的應用程式畫面資訊，可獲取“進行中的 157A”、“遊戲 157B”、“還在進行 157C”、“重新開始 157D”、“需要實行嗎 157E”、“重新開始 155B”、“繼續遊戲 156B”等識別資訊。

如圖 4 所示，自用戶獲取“重新開始”的輸入資訊後，與獲取的輸入資訊對應的第一匹配識別資訊 157D 和第二匹配識別資訊 155B 所對應的領域位於對話方塊 157 和“重新開始”控制客體 155A 內。

如上所述，獲取複數個匹配識別資訊時，決定滿足實現決定條件的匹配識別資訊，在與決定的匹配識別資訊對應的領域內發生事件。

比如說，作為事前決定的條件，可要求匹配識別資訊對應的領域中至少一部分領域內有控制客體。

因此，自用戶語音獲取“重新開始”輸入資訊時，在第一及第二匹配識別資訊 157D、155B 中，在第二匹配識別資訊 155B 對應的領域中至少一部分領域上有控制客體 155A，因此可在第二匹配識別資訊 155B 對應的領域內發生事件 E。

在“重新開始”控制客體 155A 內發生輸入事件 E 時，應答輸入事件 E，可選擇“重新開始”控制客體 155A。

如上所述，依據本發明的一實施方式的事件發生裝置，獲取複數個匹配識別資訊時，可在用戶希望的地方發生事件。

尤其是，在網頁瀏覽中，顯示一般文本和超連結文本時，僅發生超連結文本的事件，通過用戶的語音辨識可便利地控制網頁瀏覽。

另外，本發明一實施方式的事件發生裝置，基於獲取的識別資訊生成控制客體，發生所生成的控制客體的事件，具有與在控制客體位於的位置上發生事件相同的效果。關於生成控制客體發生事件，參照圖 5 詳細說明。

圖 5 圖示了本發明一實施方式的與所獲取識別資訊對應的控制客體的生成模樣。

如圖 5 所示，基於應用程式畫面資訊獲取識別資訊 151B、152B、153B、154B 時，可生成與該識別資訊 151B、152B、153B、154B 對應的控制客體 C1、C2、C3、C4。

在此，是指控制客體對應識別資訊而生成，這是本發明的一實施方式，控制客體也可在獲取與輸入資訊匹配的匹配識別資訊後，對應匹配識別資訊生成。在獲取與輸入資訊匹配的匹配識別資訊後，對應匹配識別資訊生成控制客體時，與對應所有識別資訊的控制客體被生成相比，可以減少裝置的負荷。

所生成的控制客體的資訊 200 可包括控制客體的位置資訊 251、252、253、254 和說明資訊 261、262、263、264。

控制客體的位置資訊 251、252、253、254 是在應用程式 150 畫面上有關控制客體 C1、C2、C3、C4 而設定的位置資訊，此時，控制客體 C1、C2、C3、C4 對應的領域，比如說，識別資訊 151B、152B、153B、154B 對應的文本 151A、152A、153A、154A 對應該應用程式 150 畫面上的位置領域。

控制客體的位置資訊 251、252、253、254 如圖 5 所示，可表現為 width”項目、“height”項目、“left”項目及“top”項目的值。

說明資訊 261、262、263、264 是控制客體 C1、C2、C3、C4 的標籤，可直接表現基於應用程式畫面資訊而獲取的識別資訊 151B、152B、153B、154B。

控制客體 C1、C2、C3、C4 被生成後，可發生包括識別資訊對應的控制客體，即屬於識別資訊的匹配識別資訊的控制客體的事件。

在此，控制客體的事件是該控制客體位於的領域的輸入事件或將該控制客體作為目標物件的選擇事件。

另外，所生成的控制客體 C1、C2、C3、C4 如圖 5 所示，可顯示為邊框，為了維持生成控制客體 C1、C2、C3、C4 的之前畫面，邊框不被顯示。

另外，本發明一實施方式的事件發生裝置，可臨時儲存所生成的控制客體在緩衝器上，在事前決定的時間或事前決定的條件下，可使用所生成的控制客體。所生成的控制客體被臨時儲存在緩衝器上的內容，將參照圖 6 進行詳細說明。

圖 6 是本發明一實施方式的事件的發生裝置的一示例圖。

如圖 6 所示，在事件發生裝置 100 上實行地圖應用程式 160，基於該應用程式 160 的應用程式畫面資訊，可獲取“江南車醫院”、“新論峴站”、“江南站十字路口”、“江南站”、“驛三站”、“萊美樂賓館”等識別資訊。

進一步，如圖 6 所示，可生成所獲取的識別資訊對應的控制客體 161 至 166。

如圖 6 所示，在事件發生裝置 100 上沒有實行地圖應用程式 160 時，通過滾動、擴大及縮小等控制可以頻繁地改變畫面，由此生成變化的畫面所獲取的識別資訊對應的控制客體，持續儲存所生成控制客體時可導致該裝置 100 過度負荷。

因此，依據本發明一實施方式的時間發生裝置，對應識別資訊而生成的控制客體被儲存在緩衝器上，或是與輸入資訊匹配的匹配識別資訊被獲取後對應匹配識別資訊生成控制客體，從而可防止裝置的過度負荷。

另外，所獲取的識別資訊為複數時，對應匹配識別資訊的複數個領域或對應匹配識別資訊的各個控制客體間指定優選順序，根據優先順序發生事件。根據優先順序發生事件的內容參照圖 7 進行詳細說明。

圖 7 是本發明一實施方式的事件的發生裝置的另一示例圖。如圖 7 所示，自用戶語音獲取“江南”這一輸入資訊後，與該輸入資訊匹配的識別資訊可為“江南車醫院”、“江南站路口”、“江南站”等，此時，對應該匹配識別資訊的領域中至少一部分領域內或對應該匹配識別資訊的控制客體 162、165、166 發生事件。

如上所述，獲取複數個匹配識別資訊時，對應複數個匹配識別資訊的各個領域內全部發生事件，或是對應複數個匹配識別資訊的各個控制客體上全部發生事件時，會導致用戶所希望的事件沒有發生這樣的問題。

由此可見，獲取複數個匹配識別資訊時，複數個匹配識別資訊對應的各個領域或匹配識別資訊對應的各個控制客體上指定優先順序。

如圖 7 所示，優先順序可按照匹配識別資訊對應的領域的位置或匹配識別資訊對應的控制客體的位置的上下順序來指定。

在此，所指定的最前的優先順序，僅在“江南車醫院”識別資訊對應的領域或“江南車醫院”識別資訊對應的控制客體 162 上發生事件，如圖 7 所示，為了使用戶更加準確的選擇，依照優先順序可提供瀏覽 167、168、169，在瀏覽 167、168、169 中的選擇可以通過語音辨識來實現。

優先順序如上所述，可以依據匹配識別資訊對應的領域或匹配識別資訊對應的控制客體的位置來指定，也可以通過如輸入歷史等來指定，其方式法多種多樣，不受侷限。

另外，依據本發明一實施方式，輸入資訊也可以是通過自用戶語音獲取的語音模式資訊與語言模式資料庫對比的過程而被識別的文本。

輸入資訊通過語音辨識，自用戶的語音辨識文本時，輸入資訊和識別資訊的匹配因識別的文本和識別資訊自身的比較而被實行。

參附的方塊圖的各方塊和流程圖的各步驟的組合，可因電腦指令而實行。這些電腦指令可以搭載在常用電腦、特殊電腦或其它軟體資料處理裝備的處理機上，通過電腦或其它軟體資料處理裝備的處理機而實行的指令生成在方塊圖的各方塊或流程圖的各步驟中實行說明功能的手段。這些電腦軟體指令為了以特定的方式體現功能，可在電腦或其它軟體資料處理裝備的可用於電腦或電腦可讀的記憶體上儲存，因此，在可用於電腦或電腦可讀的記憶體上所儲存的指令包括各方塊圖的方塊或流程圖的各步驟中實行的說明功能的指令手段。電腦軟體指令也可搭載在電腦或其它軟體資料處理裝備上，電腦或其它軟體資料處理裝備上，相關的動作步驟被實行，生成電腦實行的處理器，實行電腦或其它軟體資料處理裝備的指令可提供方塊圖各方塊及流程圖各步驟中用於說明功能的步驟。

在本說明書中，各方塊可以為包括用於實現特定的論理功能的一個以上可實行指令的模組、程式或代碼的一部分。另外，在幾種代替實行的舉例中，在方塊圖中所提及的功能也可以是脫離順序而發生的。舉例來說，陸續被圖示的兩個方塊也可能是實質上同時實行的，也可以是該方塊有時隨著功能而逆順序實行。

與本說明書中所記載的實施方式相關，並被說明的方法或演算法的步驟，可以是處理器實行的硬體、軟體模組或其結合直接體現的。軟體模組可為在RAM記憶體、快閃記憶體、ROM記憶體、EPROM記憶體、EEPROM記憶體、暫存器、硬碟、可卸式記憶碟、CD-ROM或本技術領域內公知的任意形態的儲存媒體。示例性的儲存媒體在處理器上聯合，處理器可判讀來自媒體的資訊，並在儲存媒體上記入資訊。採用其他方法，儲存媒體可與處理器為一體。處理器及儲存媒體可設在ASIC積體電路內。ASIC可設置的用戶終端機內。採用其他方法，處理器及儲存媒體可各自設置在用戶終端機內。

以上結合本發明的實施方式，對本發明作了更加詳細的說明，但是本發明並不侷限於此，在本發明技術思想的範圍內可進行多種變形。由此可見，本發明所記載的實施方式並不用於限定本發明的思想，僅用於說明本發明，本發明的技術思想並不受即時方式的限制。本發明的保護範圍在申請專利範圍書中的請求項內，在其同等範圍內的所有技術思想均被看作屬於本發明的權利範疇之內。

100‧‧‧控制客體選擇裝置

110‧‧‧介面

120‧‧‧處理器

122‧‧‧記憶體控制器

124‧‧‧記憶體

130‧‧‧顯示部

140‧‧‧話筒

142‧‧‧揚聲器

150、160‧‧‧應用程式

151A、152A、153A、154A‧‧‧文本

151B、152B、153B、154B‧‧‧識別資訊

155A、155B、156A、156B、C1、C2、C3、C4、161、162、163、164、165、166‧‧‧控制客體

157A-157E‧‧‧對話

167、168、169‧‧‧瀏覽

200‧‧‧控制客體的資訊

251、252、253、254‧‧‧控制客體的位置資訊

231、232、233、234‧‧‧控制客體的說明資訊

S100-S140‧‧‧步驟

E‧‧‧事件

圖 1 是本發明一實施方式的事件發生裝置的方塊圖；

圖 2 是本發明一實施方式的事件發生方法的流程圖；

圖 3 圖示了本發明一實施方式的基於應用程式畫面資訊獲取的識別資訊；

圖 4 圖示了本發明另一實施方式的基於應用程式畫面資訊獲取的識別資訊；

圖 5 圖示了本發明一實施方式的與所獲取識別資訊對應的控制客體的生成模樣；

圖 6 是本發明一實施方式的事件的發生裝置的一示例圖；

圖 7 是本發明一實施方式的事件的發生裝置的另一示例圖。

S100-S140‧‧‧步驟

Claims

一種事件發生裝置，是以語音辨識來發生事件（event）的裝置，其特徵在於，包括一個以上的處理裝置；所述一個以上的處理裝置，基於用戶的語音獲取輸入資訊，基於應用程式的畫面資訊來獲取的至少一個的識別資訊與所述輸入資訊匹配；在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊；在與所述匹配識別資訊對應的領域中，至少在一部分領域中發生事件。
根據請求項1所述的事件發生裝置，其特徵在於，所述識別資訊是通過光學字元辨識（OCR: optical character recognition）而獲取的。
根據請求項1所述的事件發生裝置，其特徵在於，所述輸入資訊包括分析所述用戶的語音特徵而獲取的語音模式資訊；所述識別資訊和所述輸入資訊的匹配包括所述識別資訊和所述語音模式資訊的匹配。
根據請求項1所述的事件發生裝置，其特徵在於，所述輸入資訊包括通過語音辨識，由所述用戶的語音而識別的文本（Text）；所述識別資訊和所述輸入資訊的匹配包括所述識別資訊和所述文本的匹配。
根據請求項1所述的事件發生裝置，其特徵在於，所述一個以上的處理裝置，基於用戶語音獲取附加輸入資訊，基於所述附加輸入資訊決定所述事件的類型。
一種事件發生裝置，是以語音辨識來發生事件（event）的裝置，其特徵在於，包括一個以上的處理裝置；所述一個以上的處理裝置，基於用戶的語音獲取輸入資訊，基於應用程式的畫面資訊來獲取的至少一個的識別資訊與輸入資訊匹配；在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊；與所述匹配識別資訊對應，生成控制客體；發生所述控制客體的事件。
一種事件發生方法，是以語音辨識來發生事件（event）的方法，其特徵在於，包括：基於用戶的語音獲取輸入資訊的步驟；基於應用程式的畫面資訊來獲取的至少一個的識別資訊與所述輸入資訊匹配的步驟；在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊的步驟；及在與匹配識別資訊對應的領域中，至少在一部分領域中發生事件的步驟。
根據請求項7所述的事件發生方法，其特徵在於，所述識別資訊是通過光學字元辨識（OCR: optical character recognition）而獲取的。
根據請求項7所述的事件發生方法，其特徵在於，所述輸入資訊包括分析所述用戶的語音特徵而獲取的語音模式資訊；所述識別資訊和所述輸入資訊的匹配包括所述識別資訊和所述語音模式資訊的匹配。
根據請求項7所述的事件發生方法，其特徵在於，所述輸入資訊包括通過語音辨識，由所述用戶的語音而識別的文本（Text）；所述識別資訊和所述輸入資訊的匹配包括所述識別資訊和所述文本的匹配。
根據請求項7所述的事件發生方法，其特徵在於，包括：基於用戶語音獲取附加輸入資訊的步驟；及基於所述附加輸入資訊決定所述事件的類型的步驟。
一種事件發生方法，是以語音辨識來發生事件（event）的裝置，其特徵在於，包括：基於用戶的語音獲取輸入資訊的步驟；基於應用程式的畫面資訊來獲取的至少一個的識別資訊與輸入資訊匹配的步驟；基於所述識別資訊生成控制客體的步驟；在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊的步驟；發生所述控制客體的事件的步驟。
一種可電腦判讀的媒體，是包括指令集的可電腦判讀的媒體，其特徵在於，所述指令集因電腦裝置而被執行時，可讓所述電腦裝置獲取基於用戶語音的輸入資訊，基於應用程式畫面資訊獲取的至少一個的識別資訊與所述輸入資訊匹配，在所述識別資訊中獲取與所述輸入資訊匹配的匹配識別資訊，在與所述匹配識別資訊對應的領域中，至少在一部分領域中發生事件。