TWI515719B

TWI515719B - 基於目標名稱辨識之共用語音操控方法、裝置、其記錄媒體與程式產品

Info

Publication number: TWI515719B
Application number: TW101151139A
Authority: TW
Inventors: 張信常; 涂家章; 洪健詠; 郭志忠
Original assignee: 財團法人工業技術研究院
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2016-01-01
Also published as: CN103915094A; US20140188482A1; TW201426734A

Description

基於目標名稱辨識之共用語音操控方法、裝置、其記錄媒體與程式產品

本揭露是有關於一種基於目標名稱辨識之共用語音操控方法、裝置與其記錄媒體。

行動裝置，比如手機(特別是智慧型手機)或平板電腦等，已成為人們日常生活不可或缺。傳統的操控而言，人們以按鍵/觸控方式來操控手機/平板電腦。但如果能以聲控方式來操控行動裝置的話，對於人們對講會更加方便。

以目前來說，已有多種方法可在手機上實現聲控。比如，階層式設計、單一層設計(單一介面)或大詞彙連續語音辨識等。

以階層式設計而言，具有語音辨識功能的應用軟體(application)才能支援語音操控。當使用者選取支援語音辨識功能的應用軟體後，使用者可下達語音指令來操控此應用軟體。然而，以這類設計而言，應用軟體的開發商需自行開發語音辨識功能，使用者也需要逐一學習個別軟體操作流程。

單一層設計則採用單一入口(單一介面)，所有的應用軟體可共用此單一介面並共用同一個語音辨識軟體。使用者在選擇此單一介面後，說出特定語音指令與目標名稱。比如，應用軟體的語音指令格式為「公車查詢」+「目的地」，則語音輸入為「公車查詢台北」的話，則可正確操作此應用軟體。若語音輸入為「公車搜查台北」或「台北公車查詢」的話，則不符合其語音指令格式而無法正確操作此應用軟體。故而，造成操作方便性下降或無法操作。另外，若語音可操控軟體愈多時，將造成使用者較大心智負荷。

至於大詞彙連續語音辨識，以蘋果電腦公司所開發出的“Siri”為例，使用者可以較口語化的方式說出語音指令即可進行語音操控。但以這類語音操控而言，其所操控的應用軟體無須具有語音辨識功能，使用者也無需額外記憶特殊語音指令。但是，由系統開發商(比如蘋果電腦公司)來決定哪些應用軟體可以被放到行動裝置內，造成其它軟體開發商額外的負擔。

故而，本案揭露基於目標名稱辨識之共用語音操控方法、裝置與其記錄媒體，其可改善上述缺點並達成其他優點。

根據本揭露之一示範性實施例，提出一種基於目標名稱辨識之共用語音操控方法。接收至少一目標名稱-動作提示對應文件以整理成一目標名稱-動作提示對應文件集，該目標名稱-動作提示文件定義至少一目標名稱與對應的至少一動作提示。整理該目標名稱-動作提示對應文件集以建立一目標名稱-動作提示對應清單。辨識一輸入語音，輸出一或多個語音辨識結果以產生一或多個候選目標名稱。根據該或該些候選目標名稱和該目標名稱-動作提示對應清單，輸出對應之至少一候選動作提示。接收一被選取動作提示，並通知提供該被選取動作提示的一應用軟體或一硬體以執行一相關動作及/或功能。

根據本揭露之一示範性實施例，提出一種基於目標名稱辨識之共用語音操控裝置，包括：一目標名稱-動作提示對應文件集處理模組、一目標名稱合併模組、一語音辨識模組與一動作提示輸出模組。目標名稱-動作提示對應文件集處理模組接收至少一目標名稱-動作提示對應文件以整理成一目標名稱-動作提示對應文件集，該目標名稱-動作提示文件定義至少一目標名稱與對應的至少一動作提示。目標名稱合併模組整理該目標名稱-動作提示對應文件集以建立一目標名稱-動作提示對應清單。語音辨識模組辨識一輸入語音，輸出一或多個語音辨識結果以產生一或多個候選目標名稱。動作提示輸出模組，根據該或該些候選目標名稱和該目標名稱-動作提示對應清單，輸出對應之至少一動作提示。該動作提示輸出模組接收一被選取動作提示，並通知提供該被選取動作提示的一應用軟體或一硬體以執行相關動作及/或功能。

根據本揭露之一示範性實施例，提出一種電腦可讀取記錄媒體，被一裝置讀取後，該裝置可執行如上所述之共用語音操控方法。

根據本揭露之一示範性實施例，提出一種電腦程式產品，經由一或多個裝置載入該程式後，該或該些裝置可執行如上所述之共用語音操控方法。

為了對本案之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式，作詳細說明如下：

裝置(比如但不受限於，手持裝置，如智慧型手機、平板電腦等)的系統預先合併至少一應用軟體所提供的「目標名稱」與「動作提示」的對應關係，以整理出同一「目標名稱」所對應的「動作提示」。使用者說出「目標名稱」，系統利用語音辨識來辨識使用者語音並找出候選目標名稱，並將對應的「動作提示」，如導航、打電話、公車資訊、特價資訊…等，提供給使用者，讓使用者挑選。使用者在語音操控時，僅需說出較易記憶且較符日常生活慣用語的「目標名稱」。

現請參考第1圖，其顯示根據本案一實施例之基於目標名稱辨識之共用語音操控裝置之功能方塊示意圖。如第1圖所示，共用語音操控裝置100包括：目標名稱-動作提示對應文件集處理模組105、目標名稱(object name)合併模組120、語音辨識模組130與動作提示(action prompt)輸出模組140。

目標名稱-動作提示對應文件集處理模組105接收由至少一應用軟體App 1 150_1~App N 150_N及/或至少一硬體160所傳來的一或多個目標名稱-動作提示對應文件，以整理成一目標名稱-動作提示對應文件集110，該些目標名稱-動作提示文件定義至少一目標名稱與對應的至少一動作提示。在本案說明書中，「至少一」所代表是一或複數，其皆在本案精神範圍內。目標名稱-動作提示對應文件之細節將於底下說明之。在本案中，「基於目標名稱辨識之共用語音」所指的乃是，應用軟體App 1 150_1~App N 150_N及硬體160可以共用第1圖中的目標名稱-動作提示對應文件集處理模組105、目標名稱合併模組120、語音辨識模組130與動作提示(action prompt)輸出模組140。另一方面，系統可提供一個共用語音操控介面給應用軟體App 1 150_1~App N 150_N及硬體160，以使得使用者能透過此共用語音操控介面來以語音操控應用軟體App 1 150_1~App N 150_N及硬體160。

對於一目標名稱，目標名稱合併模組120將目標名稱-動作提示對應文件集110內之至少一目標名稱-動作提示對應文件進行合併，以找出並合併對應此目標名稱的所有對應動作提示。目標名稱合併模組120對目標名稱-動作提示對應文件集110進行目標名稱合併，以將相同目標名稱所對應的至少一動作提示合併，以整理成目標名稱-動作提示對應清單170。換言之，目標名稱合併模組120從目標名稱-動作提示對應文件集110取出並合併同一目標名稱所對應的一或多個動作提示，建立目標名稱-動作提示對應清單170。在目標名稱-動作提示對應清單170中，每個目標名稱出現一次，且對應至少一動作提示。目標名稱合併模組120可以對所有的目標名稱進行上述操作。

語音辨識模組130辨識使用者語音以產生語音辨識結果，並對目標名稱-動作提示對應清單170內的目標名稱進行精準比對或模糊比對，找出對應之候選目標名稱。

根據目標名稱-動作提示對應清單170，動作提示輸出模組140從目標名稱-動作提示對應清單170中找出候選目標名稱所對應的一或多個候選動作提示，將候選目標名稱所對應的至少一動作提示輸出給使用者，以讓使用者來選擇/確認所欲執行的動作。在使用者選擇後，動作提示輸出模組140依據使用者選擇來啟動相關的應用軟體/硬體，以讓應用軟體/硬體執行相關操作。

現請參考第2圖，其顯示根據本案一實施例之目標名稱-動作提示對應文件集110之一例。在應用軟體App 1 150_1所提供的目標名稱-動作提示對應文件110A中，目標名稱A1~An對應動作提示ap1。這所代表的意涵乃是，對於應用軟體App 1 150_1而言，如果所辨識出的目標名稱為A1~An之一的話，則應用軟體App 1 150_1會提供動作提示ap1。

相似地，在應用軟體App 2 150_2所提供的目標名稱-動作提示對應文件110B中，目標名稱B1~Bn對應至動作提示ap2；目標名稱Bn+1~Bn+m對應至動作提示ap3；目標名稱B1與Bn+1對應至動作提示ap4。也就是說，在本案實施例中，一個目標名稱可能對應至一或多個動作提示，而一個動作提示則可能對應至一或多個目標名稱。

在應用軟體App 3 150_3所提供的目標名稱-動作提示對應文件110C中，目標名稱C1~Cn對應至動作提示ap5。在應用軟體App N 150_N所提供的目標名稱-動作提示對應文件110N中，目標名稱N1~Nn對應至動作提示ap6；目標名稱Nn+1~Nn+m對應至動作提示ap7。

在硬體160所提供的目標名稱-動作提示對應文件110M中，目標名稱M1~Mn對應動作提示ap10；目標名稱Mn+1~Mn+m對應動作提示ap11。

第3圖顯示根據本案實施例之目標名稱合併模組120 之示意圖。針對每一個目標名稱，目標名稱合併模組120將其對應的所有動作提示進行整理與合併，以整理成目標名稱-動作提示對應清單170。如第2圖與第3圖所示，如果目標名稱A2、B5與C10為相同(A2=B5=C10)的話，目標名稱A2、B5與C10分別對應至動作提示ap1、ap2與ap5。故而，目標名稱合併模組120進行合併，以得到此目標名稱(A2=B5=C10)所對應的動作提示為ap1、ap2與ap5。

舉例來說，對於目標名稱「周杰倫」，假設有一個應用軟體所提供的動作提示為「歌手」與「專輯」，而另一個應用軟體所提供的動作提示為「活動特報」，則經過目標名稱合併模組120的合併後，目標名稱「周杰倫」對應至動作提示「歌手」、「專輯」與「活動特報」。

現請參考第4圖，其顯示本案一實施例之動作提示輸出示意圖。如第4圖所示，在接收到使用者語音輸入後，語音辨識模組130進行語音辨識，以得到語音辨識結果VR並比對目標名稱-動作提示對應清單170，以找出候選目標名稱。比如，語音辨識結果VR比如包括三個候選目標名稱B1、A2與B2。動作提示輸出模組140根據候選目標名稱，從目標名稱合併模組120所整理出的目標名稱-動作提示對應清單170進行比對，以得到候選目標名稱所對應的動作提示並輸出給使用者。比如，目標名稱B1對應至動作提示ap2、目標名稱A2對應至動作提示ap1、ap2與ap5，而目標名稱B2對應至動作提示ap2，系統將目標名稱與動作提示的組合ap2+B1、ap1+A2、ap2+A2, ap5+A2與ap2+B2輸出給使用者，以供使用者選擇。使用者選擇後，動作提示輸出模組140令相關的應用軟體/硬體執行相關動作及/或功能。使用者可能是按下裝置的按鍵或觸摸觸控面板來進行選擇，或是以語音講出其選擇，此皆在本案精神範圍內。

為方便使用者了解，舉例說明第4圖的操作，比如，語音辨識結果VR有三個候選答案：「台北101」、「台北火車站」與「台北衣蝶」。在查詢目標名稱合併模組120的目標名稱合併結果後，得到此三個候選目標名稱所對應的動作提示分別為「台北101 今日活動特報」、「台北101 今天的天氣」、「導航到台北101」、「導航到台北火車站」、「導航到台北衣蝶」。動作提示輸出模組140輸出這些動作提示「台北101 今日活動特報」、「台北101 今天的天氣」、「導航到台北101」、「導航到台北火車站」、「導航到台北衣蝶」，供使用者選擇。

此外，在本案實施例中，動作提示輸出模組140所列出的動作提示數量、目標名稱與動作提示的組合及其排列方式可由裝置/系統依需要而調整之。

茲舉例說明本案實施例的完整操作。使用者語音輸入：「台北101」。系統辨識並找出目標名稱「台北101」，此比如語音辨識模組130所執行。之後，系統的動作提示輸出模組140輸出有關「台北101」的動作提示：「公車查詢」、「活動特搜」、「地點」與「天氣」選項供使用者選擇。在本案實施例中，動作提示輸出模組140輸出可為文字顯示、圖形圖示或語音播放等，此皆在本案精神範圍內，只要能讓使用者了解到目前系統所輸出的動作提示即可。如果使用者選擇「台北101 天氣」(代表使用者想知道台北101附近的天氣。系統會自動啟動「天氣查詢應用軟體」。之後，應用軟體自行決定想要輸出給使用者的資料。比如，天氣查詢應用軟體顯示出：「台北101氣溫25-30度，降雨機率90%」；或者天氣查詢應用軟體語音播報「台北101氣溫25-30度，降雨機率90%」；或者，天氣查詢應用軟體語音播報「台北101今日氣溫25-30度，降雨機率90%，明日有颱風，預估凌晨1點發佈陸上颱風警報」。

也就是說，由上述實施例可知，使用者在進行語音操控時，使用者並不需要去選擇其想要啟動的應用軟體，只要語音輸入目標名稱後，系統辨識出此目標名稱，由系統輸出與此目標名稱相關的動作提示給使用者，讓使用者選擇，並由系統令提供被選動作提示的一應用軟體/硬體執行該動作提示所對應之動作及功能。

在上述實施例中，使用者乃是以語音操控應用軟體。但在本案另一可能實施例中，使用者甚至可以以語音操控硬體。在此假設使用者想要打開電視來收看電視節目「食尚玩家」。使用者可先以語音輸入「食尚玩家」。系統辨識出「食尚玩家」，此比如由語音辨識模組所執行。接著，系統列出有關於「食尚玩家」的動作提示：比如但不受限於「電視選台」(此動作提示由電視硬體所提供)、「電視節目介紹」(此動作提示由電視節目介紹應用軟體所提供)、「美食地圖」(此動作提示由美食地圖應用軟體所提供)供使用者選擇，此比如由動作提示輸出模組所執行。之後，使用者選擇「播放電視節目食尚玩家」這個動作提示。系統接收到使用者選擇後，系統啟動「電視」。之後，電視自行決定呈現及顯示資訊，比如，電視播放/切換至電視節目「食尚玩家」。

在此例中，電視(硬體)提供目標名稱-動作提示對應文件(如「食尚玩家」-「播放電視節目」)給系統。系統依此建立文件集，及合併目標名稱，其細節可如上述。

現請參考第5A圖與第5B圖，其顯示根據本案一實施例之基於目標名稱辨識之共用語音操控方法之流程圖。第5A圖顯示於本案實施例中，如何整理出目標名稱-動作提示對應文件清單170。第5B圖則顯示於本案實施例中，如何執行共用語音操控。

如第5A圖所示，於步驟510中，接收由被操控的至少一應用軟體及/或至少一硬體所提供的至少一目標名稱-動作提示對應文件以整理成一目標名稱-動作提示對應文件集，該些目標名稱-動作提示文件定義至少一目標名稱與對應的至少一動作提示。

於步驟520中，對該目標名稱-動作提示對應文件集進行目標名稱合併，以將相同目標名稱所對應的至少一動作提示合併，以整理成目標名稱-動作提示對應清單。

如第5B圖所示，於步驟530中，使用者輸入語音。於步驟540中，辨識使用者輸入語音，以輸出一或多個語音辨識結果。於步驟550中，根據語音辨識結果，以精準比對或模糊比對從該目標名稱-動作提示對應清單中找出與該或該些語音辨識結果相關的至少一候選目標名稱。

於步驟560中，根據候選目標名稱和目標名稱-動作提示對應清單提供一或多個候選動作提示，並取得使用者選擇之動作提示。於步驟570中，令提供被選的該動作提示的該應用軟體及/或該硬體執行該動作提示所對應之一動作及/或一功能。

步驟510~570之細節可如上述般，於此不重述。

本案其他實施例揭露一種電腦可讀取記錄媒體，被一裝置讀取後，該裝置可執行如上所述之共用語音操控方法。其細節於此不再重述。

本案其他實施例揭露一種電腦程式產品，經由一或多個裝置載入該程式後，該或該些裝置可執行如上所述之共用語音操控方法。其細節於此不再重述。

於上述實施例中，使用者在進行語音操控時，說出「目標名稱」即已足夠。故而，使用者不用費心記憶「特定語音指令」的格式與其語法，故而，能大幅降低使用者的心智負擔。之後，使用者從所看到/聽到的動作提示中選取其想要者，即可令系統自動執行相對應的應用軟體/硬體。

對於應用軟體開發者/硬體開發者而言，由於系統提供共用的語音辨識輸入介面，應用軟體開發者/硬體開發者提供目標名稱及動作提示對應文件，而不需自行在應用軟體/硬體裡搭建語音辨識功能，大幅降低應用軟體開發者/硬體開發者支援語音操控功能的門檻。

對於系統開發商，本案上述實施例能提供單一語音操控入口，並開發給應用軟體開發商/硬體開發者使用。在語音辨識技術上，由於系統開發商只需辨識出使用者所說出的「目標名稱」，其技術複雜度與技術困難度較低。

綜上所述，雖然本案已以實施例揭露如上，然其並非用以限定本案。本案所屬技術領域中具有通常知識者，在不脫離本案之精神和範圍內，當可作各種之更動與潤飾。因此，本案之保護範圍當視後附之申請專利範圍所界定者為準。

100‧‧‧共用語音操控裝置

105‧‧‧目標名稱-動作提示對應文件集處理模組

110‧‧‧目標名稱-動作提示對應文件集

120‧‧‧目標名稱合併模組

130‧‧‧語音辨識模組

140‧‧‧動作提示輸出模組

150_1~150_N‧‧‧應用軟體

160‧‧‧硬體

170‧‧‧目標名稱-動作提示對應清單

110A、110B、110C、110N、110M‧‧‧目標名稱-動作提示對應文件

510~570‧‧‧步驟

第1圖顯示根據本案一實施例之基於目標名稱辨識之共用語音操控裝置之功能方塊示意圖。

第2圖顯示根據本案一實施例之目標名稱-動作提示對應文件集之一例。

第3圖顯示根據本案一實施例之目標名稱合併模組之示意圖。

第4圖顯示本案一實施例之動作提示輸出示意圖。

第5A圖與第5B圖顯示根據本案一實施例之基於目標名稱辨識之共用語音操控方法之流程圖。