TWI511125B - 語音操控方法、行動終端裝置及語音操控系統 - Google Patents

語音操控方法、行動終端裝置及語音操控系統 Download PDF

Info

Publication number
TWI511125B
TWI511125B TW102138139A TW102138139A TWI511125B TW I511125 B TWI511125 B TW I511125B TW 102138139 A TW102138139 A TW 102138139A TW 102138139 A TW102138139 A TW 102138139A TW I511125 B TWI511125 B TW I511125B
Authority
TW
Taiwan
Prior art keywords
voice
application
recognition result
parameter
software development
Prior art date
Application number
TW102138139A
Other languages
English (en)
Other versions
TW201440037A (zh
Inventor
guo-feng Zhang
Original Assignee
Via Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Via Tech Inc filed Critical Via Tech Inc
Publication of TW201440037A publication Critical patent/TW201440037A/zh
Application granted granted Critical
Publication of TWI511125B publication Critical patent/TWI511125B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72484User interfaces specially adapted for cordless or mobile telephones wherein functions are triggered by incoming communication events
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Stored Programmes (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

語音操控方法、行動終端裝置及語音操控系統
本發明是有關於一種語音操控方法,且特別是有關於一種透過語音操控應用程式的語音操控方法、行動終端裝置及語音操控系統。
隨著科技的發展,具有語音系統的行動終端裝置已日漸普及。上述的語音系統是透過語音理解技術,讓使用者與行動終端裝置進行溝通。舉例來說,使用者只要對上述的行動終端裝置講出某項要求,例如想要查車次、查天氣或是欲撥打電話等,系統便會依據使用者的語音信號,採取對應的動作。
基於語音理解技術的實用性,目前許多開發者已推出語音軟體開發包(Speech Software Development Kit,SDK)來執行上述語音理解技術,例如實現從語音中識別出漢字,進行語音合成,實現語音朗讀等等。透過語音軟體開發包,開發者或使用者需將會被使用到的功能函數或應用程式加入語音軟體開發包,而語音軟體開發包便可根據使用者的語音信號來執行對應的動作。
雖然使用者可透過語音軟體開發包來操控行動終端裝置,然而對於未加入語音軟體開發包的功能函數或應用程式,則會失去與使用者進行語音交互的能力。換言之,倘若應用程式未被加入語音軟體開發包,則使用者將無法透過語音來操控應用程式執行對應的動作,故對於使用者來說將造成許多的不便。
基此,如何改進上述的這些缺點,成為亟待解決的議題。
本發明提供一種語音操控方法、行動終端裝置以及語音操控系統,其可讓使用者透過語音的方式來操控行動終端裝置中的應用程式,藉以提升使用行動終端裝置的便利性。
本發明提出一種語音操控方法,用於行動終端裝置,其中行動終端裝置具有第一應用程式。在語音操控方法中,第一應用程式提供至少一操作參數至語音軟體開發模組。接收語音信號並傳送至語音軟體開發模組,語音軟體開發模組解析語音信號以獲得語音辨識結果,當語音辨識結果符合操作參數時,語音軟體開發模組根據語音辨識結果提供操作指令至應用程式。應用程式接收操作指令並執行對應操作。
本發明另提出一種語音操控方法,用於語音軟體開發模組。在語音操控方法中,自應用程式接收至少一操作參數。接收並解析語音信號,以獲得語音辨識結果。判斷語音辨識結果是否符合操作參數。當語音辨識結果符合操作參數時,根據語音辨識 結果,提供操作指令至應用程式。
本發明另提出一種語音操控方法,用於行動終端裝置與語音軟體開發模組,其中行動終端裝置具有應用程式。在語音操控方法中,應用程式提供至少一操作參數至語音軟體開發模組。語音軟體開發模組透過語音接收單元接收語音信號並解析語音信號,以獲得語音辨識結果。語音軟體開發模組判斷語音辨識結果是否符合操作參數。當語音辨識結果符合操作參數時,語音軟體開發模組根據語音辨識結果,提供操作指令至應用程式。
本發明另提出一種語音操控系統,其包括行動終端裝置以及伺服器。行動終端裝置包括語音接收單元以及應用程式模組。語音接收單元用以接收語音信號,而應用程式模組用以提供應用程式。伺服器適與行動終端裝置連線,且伺服器具有語音軟體開發模組。其中,應用程式提供至少一操作參數至語音軟體開發模組。語音軟體開發模組透過語音接收單元接收語音信號,並解析語音信號以獲得語音辨識結果。語音軟體開發模組判斷語音辨識結果是否符合操作參數。當語音辨識結果符合操作參數時,語音軟體開發模組根據語音辨識結果,提供操作指令至應用程式。
本發明另提出一種行動終端裝置,其連線於語音軟體開發模組。行動終端裝置包括語音接收單元以及應用程式模組。語音接收單元用以接收語音信號。應用程式模組用以提供應用程式。其中,應用程式提供至少一操作參數至語音軟體開發模組。語音軟體開發模組自語音接收單元接收語音信號並解析語音信 號,以獲得語音辨識結果。語音軟體開發模組判斷語音辨識結果是否符合操作參數。當語音辨識結果符合操作參數時,語音軟體開發模組根據語音辨識結果,提供操作指令至應用程式。
基於上述,在本發明的語音操控方法、行動終端裝置以及語音操控系統中,應用程式會提供操作參數至語音軟體開發模組,而語音軟體開發模組會解析來自使用者的語音信號而獲得語音辨識結果。當語音軟體開發模組判斷語音辨識結果符合操作參數時,語音軟體開發模組則會提供操作指令至所述應用程式。藉此,本發明可讓使用者以語音的方式來操控應用程式,藉以提升行動終端裝置的使用便利性。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
100、500‧‧‧行動終端裝置
110、510‧‧‧語音接收單元
120、520‧‧‧應用程式模組
122、124、126、522、524、526‧‧‧應用程式
130、530‧‧‧語音軟體開發模組
132、532‧‧‧呼叫接口
134、534‧‧‧通知接口
136、536‧‧‧語義資料庫
40‧‧‧伺服器
4000‧‧‧語音操控系統
P1、P2、P3‧‧‧操作參數
S‧‧‧操作指令
S202、S204、S206、S302、S304、S306、S308、S310、S402、S404、S406、S408、S410、S412、S414‧‧‧語音操控方法的各步驟
圖1是依照本發明一實施例所繪示的語音操控系統的方塊圖。
圖2是依照本發明一實施例所繪示的語音操控方法的流程圖。
圖3是依照本發明一實施例所繪示的語音操控方法的流程圖。
圖4是依照本發明一實施例所繪示的語音操控方法的方塊 圖。
圖5是依照本發明一實施例所繪示的行動終端裝置的流程圖。
雖然現今的行動終端裝置已可提供語音系統,以讓使用者發出語音來和行動終端裝置溝通,但若應用程式本身不具有語音理解功能,則使用者無法透過語音的方式來操控應用程式執行對應的操作功能。為此,本發明提出一種語音操控方法、行動終端裝置及語音操控系統,讓使用者能夠更便捷地透過語音的方式來操控行動終端裝置中的應用程式,以提升使用行動終端裝置的便利性。為了使本發明之內容更為明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。
圖1是依照本發明一實施例所繪示的語音操控系統1000的方塊圖。請參照圖1,語音操控系統1000具有行動終端裝置100以及伺服器10,且行動終端裝置100可連線於伺服器10。伺服器10例如是雲端伺服器,而伺服器10包括語音軟體開發模組130。行動終端裝置100例如為行動電話(Cell phone)、個人數位助理(Personal Digital Assistant,PDA)手機、智慧型手機(Smart phone),或是安裝有通訊軟體的掌上型電腦(Pocket PC)、平板型電腦(Tablet PC)或筆記型電腦等等。行動終端裝置100可以是任何具備通訊功能的可攜式(Portable)行動裝置,在此並不限制 其範圍。此外,行動終端裝置100包括語音接收單元110以及應用程式模組120。
在語音操控系統1000中,一個或多個操作參數由行動終端裝置100傳送至伺服器10的語音軟體開發模組130。當行動終端裝置100透過語音接收單元110接收到來自使用者的語音信號時,行動終端裝置100可將此語音信號傳送至伺服器10中的語音軟體開發模組130,而語音軟體開發模組130便可對此語音信號進行解析而獲得語音辨識結果。此時,語音軟體開發模組130可根據語音辨識結果,判斷此語音辨識結果是否符合上述的操作參數,若是,語音軟體開發模組130便會發送對應的操作指令至行動終端裝置100中的應用程式模組120,使得應用程式模組120啟動對應此操作指令的應用程式,或使此應用程式執行對應的操作功能。底下將詳述上述模組的功能。
語音接收單元110用以接收來自使用者的語音信號,此語音接收單元110例如為麥克風(Microphone)等接收音訊的裝置。
應用程式模組120用以提供一個或多個應用程式。應用程式例如桌面應用程式、瀏覽器應用程式、文書處理應用程式或影像擷取應用程式等,不限於上述。圖1繪示應用程式122、124及126為例,但本實施例並不限制應用程式的數量。
語音軟體開發模組130例如為語音軟體開發工具包(software development kit,SDK)。語音軟體開發模組130可提供語音識別(Speech Recognition)、語音合成(Speech Synthesis)或其 他語音編譯等功能。
需說明的是,上述的應用程式模組120與語音軟體開發模組130可由一個或數個邏輯閘組合而成的硬體電路來實作,亦可以是以電腦程式碼來實作,並藉由行動終端裝置100的中央處理器來執行。
伺服器10中的語音軟體開發模組130用以根據語音信號而產生操作指令。詳細而言,語音軟體開發模組130可提供呼叫接口132、通知接口134以及語義資料庫136。其中,呼叫接口132用以接收來自應用程式122、124及126的多個操作參數。通知接口134用以輸出操作指令至應用程式122、124及126,使應用程式122、124及126依據操作指令來執行對應的操作功能。語音軟體開發模組130可根據語義資料庫136而解析出語音信號中的請求資訊。具體來說,應用程式122、124及126會提供操作參數至語音軟體開發模組130,而語音軟體開發模組130可將語音接收單元110所接收的語音信號根據語義資料庫136進行解析,而獲得語音辨識結果,並且判斷此語音辨識結果是否符合應用程式122、124及126所提供的操作參數。倘若此語音辨識結果符合操作參數,則語音軟體開發模組130會透過通知接口134來輸出對應於語音辨識結果的操作指令至應用程式122、124及126。其中,操作指令具有對應於音信號中的請求資訊的命令,因此應用程式122、124及126接收操作指令,可執行對應的操作功能。舉例來說,當語音軟體開發模組130所產生的操作指令為「Previous」時, 表示控制應用程式執行翻上一頁的動作。或者,當操作指令為「Goto,3」時,表示控制應用程式執行翻到第“3”頁的動作。或者,當操作指令為「Brighter」時,表示控制應用程式執行將顯示器的亮度調亮一點的動作。或者,當操作指令為「Darker」時,表示控制應用程式執行將顯示器的亮度調暗一點的動作。或者,當操作指令為「Colorful」時,表示控制應用程式執行將顯示器的亮度調鮮豔一點的動作。上述的操作指令為舉例說明,本實施例的操作指令並不限於此。在此說明的是,上述的操作指令例如是應用程式122、124及126可執行的文件或程式檔,例如是具有「*exe」、「*lib」或「*obj」檔案格式的檔案。因此,當語音辨識結果符合應用程式122、124及126至少其中之一所提供的操作參數時,語音軟體開發模組130可根據此語音辨識結果產生對應的操作指令,並傳送至行動終端裝置100中對應的應用程式,使得此應用程式載入並執行這個操作指令,藉以控制這個應用程式。
值得一提的是,開發者或使用者也可自行定義語音軟體開發模組130的功能函數,來對行動終端裝置100進行語音命令控制或對話。在此,開發者可定義語音軟體開發模組130依據語音辨識結果,透過通知接口134傳送定義的操作指令至應用程式模組120,使得應用程式模組120啟動對應於定義的操作指令的應用程式。舉例來說,開發者可使語音軟體開發模組130根據具有相同請求資訊的語音辨識結果,來輸出一個特定的操作指令至應用程式模組120,以啟動此特定的操作指令所對應的應用程式,並 且使此應用程式執行對應於特定的操作指令的操作功能。例如,當使用者說「我看完了」、「換頁」、「下張」或「下一頁」等用以命令瀏覽器應用程式進行切換網頁頁面的語音信號時,語音軟體開發模組130可解析出上述的語音信號是包括具有「命令瀏覽器應用程式進行切換頁面」這個請求資訊的語音辨識結果,則語音軟體開發模組130會產生一個特定的操作指令(例如「Next」)(亦即,對應於「命令瀏覽器應用程式進行切換頁面」的這個操作指令)。並且,語音軟體開發模組130會將此操作指令傳送至應用程式模組120中的瀏覽器應用程式,以使瀏覽器應用程式進行切換頁面。又例如,當使用者說「第一頁」、「第一張」、「第一首」等用以命令媒體播放應用程式播放第一個影音檔案時,語音軟體開發模組130可解析出上述的語音信號是包括具有「媒體播放應用程式播放第一個影音檔案」這個請求資訊的語音辨識結果,則語音軟體開發模組130會產生一個特定的操作指令(例如「First」)(亦即,對應於「命令媒體播放應用程式播放第一個影音檔案」的這個操作指令)。並且,語音軟體開發模組130會將此操作指令傳送至應用程式模組120中的媒體播放應用程式,以使媒體播放應用程式播放第一個影音檔案。
也就是說,當使用者以多種語音信號來表達同一種請求資訊時,語音軟體開發模組130便可傳送單一個特定的操作命令至對應的應用程式,而此對應的應用程式可根據這個特定操作命令來執行對應的操作功能。故本實施例的應用程式本身可不需提 供語音理解的功能(例如語音辨識或語音合成等),而當使用者欲透過語音來操控應用程式時,語音軟體開發模組130會解析使用者的語音,藉以判斷是否輸出對應的指令至應用程式。如此一來,當應用程式接收到來自語音軟體開發模組130的操作指令時,應用程式可進而執行對應的操作功能。換言之,雖然應用程式本身可具備或不具備接收(或解析)語音信號功能,但應用程式載入語音軟體開發模組130所產生的操作指令之後,便如同一個具有接收(或解析)語音信號功能的應用程式,藉此,使用者可便利地透過語音的方式來操控應用程式。
以下即搭配上述的語音操控系統1000來說明語音操控方法,其中以應用程式122為例來進行說明。圖2是依照本發明一實施例所繪示的語音操控方法的流程圖。請同時參照圖1及圖2,於步驟S202中,應用程式122會提供至少一操作參數P1至語音軟體開發模組130。在本實施例中,應用程式122可透過提供操作參數P1來呼叫語音軟體開發模組130,而當語音軟體開發模組130接收到語音信號後可開始進行語音理解。此外,應用程式開發者可自行設定使用者可能會使用到的應用程式122的操作參數,使得應用程式122依據所述設定的操作參數來提供至語音軟體開發模組130。
上述操作參數P1例如是應用程式122用以表示其可接收到的命令、文字序列或物件的位置資訊等輸入值,例如命令、字串參數以及位置參數,不限於此。因此,語音軟體開發模組130 根據應用程式122所提供的操作參數P1,可判斷出應用程式122所需要的輸入值是屬於命令、文字序列或位置資訊。舉例來說,假設應用程式122為瀏覽器應用程式,則應用程式122所提供的操作參數P1例如是對應於「上一頁」、「下一頁」、「放大頁面」或「縮小頁面」等命令,不限於此。假設應用程式122為筆記本應用程式,則應用程式122所提供的操作參數P1例如是對應於「新增筆記」、「刪除筆記」等命令,或者是對應於讀取文字序列的字串參數,不限於此。此外,假設應用程式122為郵件應用程式,則應用程式122所提供的操作參數P1例如是對應於「新增郵件」等命令、對應於讀取文字序列的字串參數,或者是上載檔案時所需的檔案的位置參數,不限於此。
接著,於步驟S204中,行動終端裝置100會透過語音接收單元110接收語音信號,並傳送至語音軟體開發模組130。其中語音軟體開發模組130會解析語音信號以獲得語音辨識結果,且當語音辨識結果符合操作參數P1時,語音軟體開發模組130根據語音辨識結果提供操作指令S。上述的語音信號例如是來自使用者所說的語音,且語音信號具有使用者的請求信息。具體而言,來自使用者的語音信號可以是命令句或詢問句等,例如「看上一頁」、「放大第三行第四列」、「聲音稍微大一點」、「把照片發送到我的微博」、「把這條簡訊發送給王大同」或「今天會不會下雨?」等等。
最後,於步驟S206中,應用程式122會接收操作指令S。 在此,由於語音軟體開發模組130依據語音辨識結果中所符合的操作參數P1來產生不同的操作指令S,藉以控制應用程式122,因此應用程式122載入語音軟體開發模組130所產生的操作指令S之後,便如同一個具有接收(或解析)語音信號功能的應用程式122,藉此,使用者可便利地透過語音的方式來操控應用程式122。
底下再舉一實施例來詳細說明本實施例的語音操控方法。以下仍搭配上述的語音操控系統1000來說明語音操控方法,其中仍以應用程式122為例來進行說明。圖3是依照本發明一實施例所繪示的語音操控方法的流程圖。請同時參照圖1及圖3,於步驟S302中,語音軟體開發模組130會自應用程式122接收至少一操作參數P1。
於步驟S304中,語音軟體開發模組130會接收並解析語音信號,以獲得語音辨識結果。
在本實施例中,語音軟體開發模組130會解析來自使用者的語音信號而獲得語音信號的一個或多個特徵語義,並且語音軟體開發模組130會根據這些特徵語義來產生語音辨識結果。具體而言,特徵語義例如是語音軟體開發模組130解析語音信號後所得到的關鍵詞等,而語音軟體開發模組130根據特徵語義可獲得使用者的請求資訊。舉例來說,當語音信號為「看上一頁」時,語音軟體開發模組130經解析所獲得的特徵語義例如是「『看』、『上一頁』」。又例如,當語音信號為「聲音稍微大一點」時,語音軟體開發模組130經解析所獲得的特徵語義例如是「『聲音』、『稍 微』、『大一點』」。或者,當語音信號為「把照片發送到我的微博」時,語音軟體開發模組130經解析所獲得的特徵語義例如是「『照片』、『發送到』、『我的微博』」。
進一步地說,語音軟體開發模組130可依據特徵語義自語義資料庫136查詢此特徵語義對應的類別,其中類別例如是命令、物件、時間、文字序列或位置資訊等。更具體而言,語義資料庫136可記錄有特徵語義與對應的類別之關係。因此,語音軟體開發模組130可根據語義資料庫136而解析出語音信號中的請求資訊,據以做為語音辨識結果。
舉例來說,當語音信號為「看上一頁」時,語音軟體開發模組130會先解析出特徵語義分別為「『看』、『上一頁』」,接著,語音軟體開發模組130可根據語義資料庫136而判斷出「『看』、『上一頁』」是使行動終端裝置100執行「將網頁回到上一頁」的命令。又例如,當語音信號為「聲音稍微大一點」時,語音軟體開發模組130會先解析出特徵語義分別為「『聲音』、『稍微』、『大一點』」,且語音軟體開發模組130可根據語義資料庫136而判斷出此語音信號,是使行動終端裝置100執行「調升音量」的命令。
接後,於步驟S306中,語音軟體開發模組130會判斷語音辨識結果是否符合操作參數P1。具體來說,本實施例的語義資料庫136也可儲存特徵語義所對應的類別與操作參數之間的關係,例如,語義資料庫136可記錄特徵語義所對應的類別是對應於哪一種操作參數。因此,語音軟體開發模組130便可藉由查詢 語義資料庫136,來判斷出語音辨識結果是否符合操作參數P1。
舉例來說,當應用程式122提供給語音軟體開發模組130的操作參數P1包括「調升音量」、「調降音量」、「靜音」、「調升亮度」或「調降亮度」,而語音辨識結果為使行動終端裝置100執行「調升音量」的命令時,語音軟體開發模組130則會判斷「調升音量」這個命令,是否符合「調升音量」、「調降音量」、「靜音」、「調升亮度」或「調降亮度」這些操作參數P1的其中之一。
當語音軟體開發模組130判斷語音辨識結果符合操作參數時,則如步驟S308所示,語音軟體開發模組130會根據語音辨識結果,提供操作指令S至應用程式122。詳細而言,由於語音軟體開發模組130可提供不同的功能函數,而這些功能函數可接收不同的輸入值以產生對應的輸出,因此依據不同的語音辨識結果中所符合的操作參數P1,語音軟體開發模組130會產生不同的操作指令S。
在本實施例中,語音軟體開發模組130所提供的功能函數可根據開發者或使用者而被定義,亦即,開發者或使用者可定義語音軟體開發模組130依據不同的語音辨識結果,而產生語音辨識結果所對應的操作指令S。藉此,當語音辨識結果符合操作參數P1時,語音軟體開發模組130可將所產生的操作指令S,傳送至提供操作參數P1的應用程式122,進而透過操作指令S來操控應用程式122。
在本實施例中,應用程式接收到操作指令S之後,可依 據操作指令S而執行對應的操作功能。由於操作功能是對應於應用程式所提供的操作參數,因此語音軟體開發模組130會透過操作指令S來操控應用程式122,使應用程式122執行對應於操作參數P1的操作功能。舉例而言,當語音辨識結果為使行動終端裝置100執行「調升音量」的命令,且此命令符合操作參數P1時,行動終端裝置100則會產生對應於「調升音量」的操作指令S,並將此操作指令S傳送至應用程式122,使應用程式122進行音量的調升。值得一提的是,應用程式122接收到操作指令S之後,可依據應用程式122目前的狀態,以判斷是否進行操作指令S所對應的操作功能。舉例而言,倘若應用程式判斷行動終端裝置100目前的音量已達最大值,則應用程式122不會依據操作指令S而對音量進行調升。
返回步驟S306,當語音軟體開發模組130判斷語音辨識結果不符合操作參數P1時,則如步驟S310所示,語音軟體開發模組130會依據語音辨識結果傳送預設指令至應用程式模組124,使其依據預設指令啟動另一應用程式並接收此預設指令。舉例來說,當語音信號為「明天會下雨嗎?」(其語音辨識結果例如是使行動終端裝置100執行查詢天氣的命令),倘若應用程式122未提供對應於「查詢天氣」的操作參數P1至語音軟體開發模組130,則語音軟體開發模組130便會判斷語音辨識結果不符合操作參數P1。在此,語音軟體開發模組130會傳送預設指令至應用程式模組124,而應用程式模組124便會啟動搜尋引擎應用程式(例 如在行動終端裝置100的螢幕上顯示搜尋引擎應用程式),以查詢明天的天氣。如此一來,若使用者所啟動的應用程式122未提供符合語音辨識結果的操作參數P1,行動終端裝置100可自動傳送預設指令至符合語音辨識結果的應用程式。
為了詳細說明本實施例的語音操控方法,底下舉一實施例來詳細說明。假設使用者啟動應用程式122,此應用程式122例如為瀏覽器應用程式。首先,應用程式122會提供「看上一頁」、「看下一頁」、「放大頁面」或「縮小頁面」等類別為命令的操作參數P1至語音軟體開發模組130。接著,若使用者的語音信號為「看上一頁」,則語音軟體開發模組130解析此語音信號後,可判斷出這個語音信號是使應用程式122執行回到上一個網頁的命令(即語音辨識結果)。由於此語音辨識結果符合「看上一頁」這個操作參數P1,因此語音軟體開發模組130會傳送操作指令S至應用程式122,其中操作指令S用以操控應用程式122執行回到上一個網頁的動作。如此一來,使用者可透過語音的方式,來操控應用程式122返回上一個網頁。
在另一實施例中,語音軟體開發模組130在提供操作指令S至應用程式122時,還可將語音信號中所對應的文字序列傳送至應用程式122,使得應用程式122讀取語音信號中所對應的文字序列,並使應用程式122依據此文字序列來執行對應於操作指令S的操作功能。底下即搭配圖1的語音操控系統1000與圖3的語音操控方法各步驟,並以應用程式122為例來進行說明。
首先,語音軟體開發模組130會自應用程式122接收至少一操作參數P1(步驟S302)。接著,語音軟體開發模組130會接收並解析此語音信號,以獲得語音辨識結果(步驟S304)。語音軟體開發模組130在判斷語音辨識結果是否符合操作參數P1時(步驟S306),語音軟體開發模組130可進一步判斷應用程式122所提供的操作參數P1是否具有字串參數,亦即判斷應用程式122所需要的輸入值是否屬於文字序列。
詳細而言,當應用程式122所提供的操作參數P1具有字串參數時,語音軟體開發模組130可將解析後的語音信號視為文字序列,並依據此文字序列提供操作指令S至應用程式122。此外,於一實施例中,語音軟體開發模組130可進一步判斷語音辨識結果中是否具有對應於字串參數的文字序列。在此,倘若語音軟體開發模組130判斷語音辨識結果中有對應於字串參數的文字序列,則語音軟體開發模組130在提供操作指令S至應用程式122時(步驟S308),會將語音辨識結果中的文字序列傳送至提供的應用程式122。
另一方面,倘若語音軟體開發模組130判斷語音辨識結果不具有對應於字串參數的文字序列,語音軟體開發模組130不會將此文字序列傳送至應用程式122。或者,當語音軟體開發模組130判斷語音辨識結果不符操作參數P1時,語音軟體開發模組130不會傳送操作指令S至應用程式,或者傳送預設指令至另一應用程式(步驟S310)。如此一來,使用者不僅可透過語音來操控應用 程式,且亦可操控應用程式122讀取語音中對應的文字序列。
舉例來說,假設應用程式122為筆記本應用程式,則當使用者啟動應用程式122時(例如點選應用程式122或者透過語音方式來喚醒應用程式122),應用程式122會提供「新增筆記」、「刪除筆記」、「修改筆記」、「標記筆記」等類別為命令的操作參數P1以及類別為字串參數的操作參數P1至語音軟體開發模組130。上述操作參數P1為舉例說明,並不限於此。此時,若語音接收單元110接收到使用者的語音信號為「新增筆記,內容為『明天下午一點開會』」,則語音軟體開發模組130會將語音接收單元110所接收的語音信號進行解析而獲得「『新增』、『筆記』、『內容為』、『明天』、『下午』、『一點』、『開會』」這些特徵語義。在此,語音軟體開發模組130會判斷「『新增』、『筆記』、『內容為』」這些特徵語義是類別為命令的操作參數P1(即「新增筆記」),且語音軟體開發模組130可判斷出現在「內容為」之後的語音信號(即「明天下午一點開會」)為對應於字串參數的文字序列,即語音辨識結果符合類別為字串參數的操作參數P1。之後,語音軟體開發模組130會依據語音辨識結果中相符合的操作參數P1(即「新增筆記」)傳送操作指令S,以及傳送語音辨識結果中的文字序列(即「明天下午一點開會」)至應用程式122。由於操作指令S是對應於「新增筆記」這個操作參數,因此應用程式122會新增一個筆記資料,並且在此筆記中記錄「明天下午一點開會」這個文字序列。如此一來,使用者可直接透過語音的方式,命令應用程式122讀取使 用者說的語音所對應的文字序列。
在另一實施例中,上述語音軟體開發模組130在提供操作指令S至應用程式122時,還可將語音信號中所指的物件的位置資訊傳送給應用程式122,使得應用程式122可取得此物件所在的物件路徑。底下即搭配圖1的語音操控系統1000與圖3的語音操控方法各步驟,並以應用程式122為例來進行說明。
首先,語音軟體開發模組130會自應用程式122接收至少一操作參數P1(步驟S302)。接著,語音軟體開發模組130會接收並解析此語音信號,以獲得語音辨識結果(步驟S304)。語音軟體開發模組130在判斷語音辨識結果是否符合操作參數P1時(步驟S306),可進一步判斷應用程式122所提供的操作參數P1是否具有位置參數,亦即判斷應用程式122所需要的輸入值是否屬於路徑(例如位址或網址等)。並且,語音軟體開發模組130會進一步判斷語音辨識結果中所解析出的特徵語義是否具有位置資訊。
在此說明的是,若語音軟體開發模組130解析語音信號而辨識出物件,則上述所指的位置資訊指的是表示此物件相對於應用程式122的位置。舉例來說,若應用程式122為影像瀏覽應用程式,則其位置資訊可以是指應用程式122顯示當前的影像的位置(例如應用程式122的顯示畫面中的中間區域)。又例如,位置資訊可以是指應用程式122顯示部分區域的位置,不限上述。
在本實施例中,語音軟體開發模組130解析語音信號時,可查詢語義資料庫136來獲取位置資訊。具體來說,本實施例的 語義資料庫136中可記錄位置關鍵詞與位置資訊的關係,其中位置關鍵詞例如是使用者指稱此物件時所說的關鍵詞。例如,若使用者正在操作影像瀏覽應用程式並開啟多個影像,則上述的位置關鍵詞例如是「這張」、「全部」或「左上角」等。在此,語義資料庫136可記錄哪些位置關鍵詞是對應於應用程式122所指的哪個位置。例如,當位置關鍵詞為「這張」時,語義資料庫136會記錄「這張」是對應於應用程式122在其顯示畫面當前所顯示的影像,而此影像例如是位於應用程式122的顯示畫面中的中間區域。又例如,當位置關鍵詞為「左上角」時,語義資料庫136會記錄「左上角」是對應於應用程式122在其顯示畫面的左上角所顯示的影像。藉此,根據語音信號中所述物件的位置關鍵詞,語音軟體開發模組130可判斷出語音信號中所指的物件是位在相對於應用程式122的哪個位置(即物件的位置資訊)。
在本實施例中,當語音辨識結果具有位置資訊,則語音軟體開發模組130會依據位置資訊取得物件的物件路徑。物件路徑是表示此物件的位置來源(例如物件所在的位址或網址等)。舉例來說,對於儲存在行動終端裝置100的物件來說,其物件路徑例如是物件的檔案路徑。對於網際網路中的物件來說,其物件路徑例如是開啟此物件的網址。換言之,語音軟體開發模組130可根據位置資訊而取得應用程式122中的物件的物件路徑。
如此一來,當應用程式122所提供的操作參數P1具有位置參數,且語音軟體開發模組130判斷語音辨識結果符合應用 程式122所提供的操作參數P1時(即語音辨識結果中具有對應於位置參數的位置資訊),語音軟體開發模組130會提供操作指令S至應用程式122,使應用程式122取得對應於位置資訊的物件路徑,並根據物件路徑取得物件。值得一提的是,由於語音軟體開發模組130解析語音信號後,可獲得不同的特徵語義,因此依據特徵語義,語音軟體開發模組130可判斷語音信號中所指的目標資訊,其中目標資訊中具有目標端的信息。藉此,語音軟體開發模組130可提供操作指令S至應用程式122,使得應用程式122根據上述物件路徑取得物件,以及依據目標資訊將此物件傳送至目標端。底下再舉一例來進行說明。
假設應用程式122為影像瀏覽應用程式,則使用者在啟動此應用程式122來瀏覽影像時,應用程式122會將「新增影像」、「刪除影像」、「傳送影像」或「編輯影像」等這些操作參數P1傳送至語音軟體開發模組130。若使用者所說的語音信號為「把當前的照片傳送到我的微博」,語音軟體開發模組130可從語音信號解析出「『當前的』、『照片』、『傳送到』、『我的微博』」這些特徵語義。在此,由於語義資料庫136中可記錄特徵語義所對應的關鍵詞與命令、位置資訊或目標資訊等之間的關係,因此語音軟體開發模組130會根據特徵語義所對應的關鍵詞,而解析出哪些特徵語義是對應於命令、哪些特徵語義是對應於物件的位置資訊,或者哪些特徵語義是對應於目標資訊的這些語音辨識結果。故對於上述的語音信號而言,語音軟體開發模組130可解析出「當前的」 為位置資訊,「照片」為物件,「傳送到」為命令,以及「我的微博」為目標資訊。亦即,語音軟體開發模組130解析語音信號所得到的語音辨識結果符合應用程式122所提供的操作參數P1(即「傳送影像」),且語音辨識結果中所解析出的特徵語義是對應於物件、位置資訊以及目標資訊。
接著,語音軟體開發模組130可傳送操作指令S至應用程式122(步驟S308),其中操作指令S具有上述命令、物件的位置資訊以及目標資訊。因此,應用程式122會依據位置資訊(即「當前的」)取得物件的物件路徑(例如是照片儲存在行動終端裝置100的檔案路徑,或者應用程式122開啟此照片的網址),並將物件傳送到目標端(即「我的微博」)。如此一來,使用者可直接透過語音的方式,命令應用程式122取得物件的物件路徑,藉以執行應用程式122的操作功能。
值得一提的是,當語音軟體開發模組130判斷語音辨識結果不符合操作參數時,語音軟體開發模組130可根據語音辨識結果,提供操作指令S至符合語音辨識結果的另一應用程式,進而操控所述另一應用程式執行對應於操作指令S的操作功能。底下再舉一實施例來進行說明。
圖4是依照本發明一實施例所繪示的語音操控方法的流程圖。請同時參照圖1、圖3與圖4,本實施例的語音操控方法與圖3的步驟相似(圖4的步驟S402~S408對應於圖3的步驟S302~S308),其不同之處在於:於圖4的步驟S406中,當語音 軟體開發模組130判斷語音辨識結果不符合操作參數P1時,則如步驟S410所示,語音軟體開發模組130會判斷語音辨識結果是否符合其他應用程式(例如為應用程式124)所提供的操作參數P2,其中應用程式124例如是已被使用者啟動而在背景模式中執行。
當語音軟體開發模組130判斷語音辨識結果符合應用程式124所提供的操作參數P2時,則如步驟S412所示,語音軟體開發模組130會提供操作指令S至應用程式124,進而使應用程式124執行對應的操作功能。
反之,當語音軟體開發模組130判斷語音辨識結果不符合應用程式122、124及其他應用程式所提供的操作參數時,則如步驟S414所示,語音軟體開發模組130會自網際網路下載符合語音辨識結果的應用程式(例如為應用程式126),其中應用程式126可提供符合語音辨識結果的操作參數P3。並且,語音軟體開發模組130會提供操作指令S至應用程式126,使應用程式126執行對應的操作功能。底下再舉一例來進行說明。
在此,假設使用者所說的語音信號為「把當前的照片傳送到我的微博」,其中語音軟體開發模組130解析語音信號所獲得的語音辨識結果具有「傳送到」這個命令。並且,假設應用程式122提供至語音軟體開發模組130的操作參數P1不具有對應於「傳送到」這個操作參數。在本實施例中,語音軟體開發模組130會判斷其他應用程式所提供的操作參數是否具有對應於「傳送到」這個命令的這個操作參數。倘若應用程式124已被使用者啟動而 已提供符合「傳送到」這個命令的操作參數P2至語音軟體開發模組130,則語音軟體開發模組130會提供操作指令S至應用程式124。另一方面,倘若應用程式122、124或其他應用程式未提供對應於「傳送到」這個命令的這個操作參數至語音軟體開發模組130,則語音軟體開發模組130會依據「傳送到」這個命令,自網際網路下載可提供符合「傳送到」的操作參數的應用程式126。藉此,語音軟體開發模組130便可提供操作指令S至應用程式126。如此一來,語音軟體開發模組130可依據解析語音信號所獲得的語音辨識結果,自動判斷符合語音辨識結果的操作參數所對應的應用程式,並將操作指令傳送至應用程式,藉以讓使用者可更方便的透過語音的方式來操控應用程式。
需說明的是,上諸實施例中的語音軟體開發模組130也可配置於行動終端裝置上,據以實現本發明的語音操控方法。底下再舉一實施例來進行說明。
圖5是依照本發明一實施例所繪示的行動終端裝置500的方塊圖。請參照圖5與圖1,行動終端裝置500與圖1的行動終端裝置100相似,惟不同之處在於:語音軟體開發模組530是配置於行動終端裝置500中。本實施例的行動終端裝置500亦可執行圖2的步驟S202~S206、圖3的步驟S302~S310與圖4的步驟S402~S414,故其詳細內容在此不再贅述。
值得一提的是,上諸實施例中的語音軟體開發模組也可搭配其他具有應用程式的電子裝置進行運作,或者配置於此電子 裝置中,而此電子裝置例如是電器設備,例如:洗衣機、洗碗機、冷機機、吸塵器、電視機、冰箱等等,不限於上述。也就是說,使用者可直接透過語音來控制電子裝置執行對應的操作功能。具體而言,上述電子裝置提供一個語音接收裝置,比如麥克風;一個網路連接裝置以及一個存儲有應用程式的存儲裝置即可。其中的應用程式可提供操作參數至語音軟體開發模組(例如,語音軟體開發模組可以伺服器端,通過WiFi(Wireless Fidelity)通訊協定與電子裝置連接,或者直接置於上述電子裝置的上述存儲裝置中),而當使用者提供語音信號時,語音軟體開發模組便可接收並解析此語音信號以獲得語音辨識結果。倘若語音軟體開發模組判斷此語音辨識結果符合應用程式所提供的操作參數,則可產生操作指令並傳送至對應的應用程式,進而使應用程式執行對應的操作功能。舉例來說,對於冷氣機而言,冷氣機中的應用程式可提供對應於「調高溫度」這個操作參數至語音軟體開發模組,而當使用者說「溫度調高一點」這個語音信號時,語音軟體開發模組便可判斷此語音信號是對應於「調高溫度」這個操作參數,故會產生對應的操作指令至冷氣機中的應用程式,而冷氣機中的應用程式載入此操作參數之後,便可會將冷氣機的設定溫度調升。如此一來,對於一般具有簡易功能或特殊功能的電器設備而言,電器設備只需要接收語音軟體開發模組所產生的操作指令,便可根據使用者的語音來運作。藉此,使用者可方便地透過語音的方式來操控電器設備。
綜上所述,在本發明的語音操控方法、行動終端裝置以及語音操控系統中,應用程式會提供操作參數至語音軟體開發模組,而語音軟體開發模組會解析來自使用者的語音信號而獲得語音辨識結果。在此,語音軟體開發模組會判斷語音辨識結果是否符合操作參數,因此當語音辨識結果符合時,語音軟體開發模組則會提供操作指令至所述應用程式。其中,語音軟體開發模組可依據語音辨識結果中的命令、文字序列、物件的位置資訊等請求訊息傳送至所述應用程式,使此應用程式執行對應於操作指令的操作功能。由於語音軟體開發模組會進行語音辨識,據以提供指令來操控應用程式,因此應用程式在不進行語音理解(例如語音辨識或者語音合成)的情況下,亦可執行使用者的語音信號所對應的操作功能。如此一來,透過語音軟體開發模組,本發明可讓使用者以語音的方式來操控應用程式,進而可執行各種應用程式所提供的動作與工作,藉以提升使用行動終端裝置的便利性。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
S302、S304、S306、S308、S310‧‧‧語音操控方法的各步驟

Claims (40)

  1. 一種語音操控方法,用於一行動終端裝置,其中該行動終端裝置具有一第一應用程式,該方法包括:該第一應用程式提供至少一操作參數至一語音軟體開發模組;該行動終端裝置接收一語音信號並傳送至該語音軟體開發模組,其中該語音軟體開發模組解析該語音信號以獲得一語音辨識結果,且當該語音辨識結果符合該第一應用程式提供的該操作參數之一時,該語音軟體開發模組根據該語音辨識結果提供一操作指令;以及該第一應用程式接收該操作指令。
  2. 如申請專利範圍第1項所述的語音操控方法,更包括:該第一應用程式根據該操作指令執行對應於該操作指令的一操作功能。
  3. 如申請專利範圍第1項所述的語音操控方法,其中該操作參數包括一命令、一字串參數以及一位置參數至少其中之一。
  4. 如申請專利範圍第3項所述的語音操控方法,其中當該操作參數具有該字串參數,且該語音辨識結果具有對應於該字串參數的一文字序列時,該第一應用程式接收該操作指令的步驟更包括接收該語音辨識結果中的該文字序列。
  5. 如申請專利範圍第3項所述的語音操控方法,其中當該操作參數具有該位置參數,且該語音辨識結果具有對應於該位置參 數的一位置資訊時,該第一應用程式接收該操作指令的步驟更包括根據該操作指令取得對應於該位置資訊的一物件路徑,以及根據該物件路徑取得一物件。
  6. 如申請專利範圍第5項所述的語音操控方法,其中該語音辨識結果更具有一目標資訊,該語音操控方法更包括:該第一應用程式根據該操作指令,執行對應於該語音辨識結果的該操作功能,其中該操作功能包括依據該目標資訊將該物件傳送至一目標端。
  7. 如申請專利範圍第1項所述的語音操控方法,其中該行動終端裝置還具有一第二應用程式,且當該語音辨識結果不符合該第一應用程式所提供的該操作參數時,該語音操控方法更包括:該第二應用程式接收該操作指令,並執行對應於該操作指令的該操作功能,其中該第二應用程式符合該語音辨識結果。
  8. 如申請專利範圍第1項所述的語音操控方法,其中當該語音辨識結果不符合該操作參數時,該語音操控方法更包括:該行動終端裝置自該語音軟體開發模組接收符合該語音辨識結果的一第三應用程式;以及該第三應用程式接收該操作指令,並執行對應於該操作指令的該操作功能。
  9. 一種語音操控方法,用於一語音軟體開發模組,該方法包括:自一第一應用程式接收至少一操作參數; 接收並解析一語音信號,以獲得一語音辨識結果;判斷該語音辨識結果是否符合該操作參數;以及當該語音辨識結果符合該操作參數時,根據該語音辨識結果,提供一操作指令至該第一應用程式。
  10. 如申請專利範圍第9項所述的語音操控方法,更包括:該第一應用程式根據該操作指令執行對應於該操作指令的一操作功能。
  11. 如申請專利範圍第9項所述的語音操控方法,其中該操作參數包括一命令、一字串參數以及一位置參數至少其中之一。
  12. 如申請專利範圍第11項所述的語音操控方法,更包括:判斷該第一應用程式所提供的該操作參數是否具有該字串參數;以及當該操作參數具有該字串參數,且該語音辨識結果具有對應於該字串參數的一文字序列時,將該語音辨識結果中的該文字序列傳送至該第一應用程式。
  13. 如申請專利範圍第11項所述的語音操控方法,更包括:判斷該第一應用程式所提供的該操作參數是否具有該位置參數;以及當該操作參數具有該位置參數,且該語音辨識結果具有對應於該位置參數的一位置資訊時,提供該操作指令至該第一應用程式,使該第一應用程式取得對應於該位置資訊的一物件路徑,並根據該物件路徑取得一物件。
  14. 如申請專利範圍第13項所述的語音操控方法,其中該語音辨識結果更具有一目標資訊,該語音操控方法更包括:該第一應用程式根據該操作指令,執行對應於該語音辨識結果的該操作功能,其中該操作功能包括依據該目標資訊將該物件傳送至一目標端。
  15. 如申請專利範圍第9項所述的語音操控方法,更包括:當該語音辨識結果不符合該第一應用程式所提供的該操作參數時,提供該操作指令至符合該語音辨識結果的一第二應用程式,使該第二應用程式執行對應於該操作指令的該操作功能。
  16. 如申請專利範圍第9項所述的語音操控方法,更包括:當該語音辨識結果不符合該操作參數時,自一網際網路下載符合該語音辨識結果的一第三應用程式,並提供該操作指令至該第三應用程式,使該第三應用程式執行對應於該操作指令的該操作功能。
  17. 一種語音操控方法,用於一行動終端裝置,其中該行動終端裝置具有一第一應用程式,該方法包括:該第一應用程式提供至少一操作參數至一語音軟體開發模組;該語音軟體開發模組透過一語音接收單元接收一語音信號並解析該語音信號,以獲得一語音辨識結果;該語音軟體開發模組判斷該語音辨識結果是否符合該操作參數;以及 當該語音辨識結果符合該操作參數時,該語音軟體開發模組根據該語音辨識結果,提供一操作指令至該第一應用程式。
  18. 如申請專利範圍第17項所述的語音操控方法,更包括:該第一應用程式根據該操作指令執行對應於該操作指令的一操作功能。
  19. 如申請專利範圍第17項所述的語音操控方法,其中該操作參數包括一命令、一字串參數以及一位置參數至少其中之一。
  20. 如申請專利範圍第19項所述的語音操控方法,更包括:該語音軟體開發模組判斷該第一應用程式所提供的該操作參數是否具有該字串參數;以及當該操作參數具有該字串參數,且該語音辨識結果具有對應於該字串參數的一文字序列時,該語音軟體開發模組將該語音辨識結果中的該文字序列傳送至該第一應用程式。
  21. 如申請專利範圍第19項所述的語音操控方法,更包括:該語音軟體開發模組判斷該第一應用程式所提供的該操作參數是否具有該位置參數;以及當該操作參數具有該位置參數,且該語音辨識結果具有對應於該位置參數的一位置資訊時,該語音軟體開發模組提供該操作指令至該第一應用程式,使該第一應用程式取得對應於該位置資訊的一物件路徑,並根據該物件路徑取得一物件。
  22. 如申請專利範圍第21項所述的語音操控方法,其中該語音辨識結果更具有一目標資訊,該語音操控方法更包括: 該第一應用程式根據該操作指令,執行對應於該語音辨識結果的該操作功能,其中該操作功能包括依據該目標資訊將該物件傳送至一目標端。
  23. 如申請專利範圍第17項所述的語音操控方法,更包括:當該語音辨識結果不符合該第一應用程式所提供的該操作參數時,該語音軟體開發模組提供該操作指令至符合該語音辨識結果的一第二應用程式,使該第二應用程式執行對應於該操作指令的該操作功能。
  24. 如申請專利範圍第17項所述的語音操控方法,更包括:當該語音辨識結果不符合該操作參數時,該語音軟體開發模組自一網際網路下載符合該語音辨識結果的一第三應用程式,並提供該操作指令至該第三應用程式,使該第三應用程式執行對應於該操作指令的該操作功能。
  25. 一種語音操控系統,包括:一種行動終端裝置,包括:一語音接收單元,用以接收一語音信號;以及一應用程式模組,用以提供一第一應用程式;以及一伺服器,適與該行動終端裝置連線,該伺服器具有一語音軟體開發模組,其中該第一應用程式提供至少一操作參數至該語音軟體開發模組,該語音軟體開發模組透過該語音接收單元接收該語音信號,並解析該語音信號以獲得一語音辨識結果,該語音軟體開發模組判斷該語音辨識結果是否符合該操作參數,以及當 該語音辨識結果符合該操作參數時,該語音軟體開發模組根據該語音辨識結果,提供一操作指令至該第一應用程式。
  26. 如申請專利範圍第25項所述的語音操控系統,其中該第一應用程式根據該操作指令執行對應於該操作指令的一操作功能。
  27. 如申請專利範圍第25項所述的語音操控系統,其中該操作參數包括一命令、一字串參數以及一位置參數至少其中之一。
  28. 如申請專利範圍第27項所述的語音操控系統,其中該語音軟體開發模組判斷該第一應用程式所提供的該操作參數的是否具有該字串參數,以及當該操作參數具有該字串參數,且該語音辨識結果具有對應於該字串參數的一文字序列時,該語音軟體開發模組將該語音辨識結果中的該文字序列傳送至該第一應用程式。
  29. 如申請專利範圍第27項所述的語音操控系統,其中該語音軟體開發模組判斷該第一應用程式所提供的該操作參數的是否具有該位置參數,以及當該操作參數具有該位置參數,且該語音辨識結果具有對應於該位置參數的一位置資訊時,該語音軟體開發模組提供該操作指令至該第一應用程式,使該第一應用程式取得對應於該位置資訊的一物件路徑,並根據該物件路徑取得一物件。
  30. 如申請專利範圍第29項所述的語音操控系統,其中該語音辨識結果更具有一目標資訊,且該第一應用程式根據該操作指 令,執行對應於該語音辨識結果的該操作功能,其中該操作功能包括依據該目標資訊將該物件傳送至一目標端。
  31. 如申請專利範圍第25項所述的語音操控系統,其中當該語音辨識結果不符合該第一應用程式所提供的該操作參數時,該語音軟體開發模組提供該操作指令至符合該語音辨識結果的一第二應用程式,使該第二應用程式執行對應於該操作指令的該操作功能。
  32. 如申請專利範圍第25項所述的語音操控系統,其中當該語音辨識結果不符合該操作參數時,該語音軟體開發模組自一網際網路下載符合該語音辨識結果的一第三應用程式至該行動終端裝置,並提供該操作指令至該第三應用程式,使該第三應用程式執行對應於該操作指令的該操作功能。
  33. 一種行動終端裝置,連線於一語音軟體開發模組,該包括:一語音接收單元,用以接收一語音信號;以及一應用程式模組,用以提供一第一應用程式,其中該第一應用程式提供至少一操作參數至該語音軟體開發模組,該語音軟體開發模組自該語音接收單元接收該語音信號並解析該語音信號,以獲得一語音辨識結果,該語音軟體開發模組判斷該語音辨識結果是否符合該操作參數,以及當該語音辨識結果符合該操作參數時,該語音軟體開發模組根據該語音辨識結果,提供一操作指令至該第一應用程式。
  34. 如申請專利範圍第33項所述的行動終端裝置,其中該第 一應用程式根據該操作指令執行對應於該操作指令的一操作功能。
  35. 如申請專利範圍第33項所述的行動終端裝置,其中該操作參數包括一命令、一字串參數以及一位置參數至少其中之一。
  36. 如申請專利範圍第35項所述的行動終端裝置,其中該語音軟體開發模組判斷該應用程式所提供的該操作參數的是否具有該字串參數,以及當該操作參數具有該字串參數,且該語音辨識結果具有對應於該字串參數的一文字序列時,該語音軟體開發模組將該語音辨識結果中的該文字序列傳送至該第一應用程式。
  37. 如申請專利範圍第35項所述的行動終端裝置,其中該語音軟體開發模組判斷該應用程式所提供的該操作參數的是否具有該位置參數,以及當該操作參數具有該位置參數,且該語音辨識結果具有對應於該位置參數的一位置資訊時,該語音軟體開發模組提供該操作指令至該應用程式,使該應用程式取得對應於該位置資訊的一物件路徑,並根據該物件路徑取得一物件。
  38. 如申請專利範圍第37項所述的行動終端裝置,其中該語音辨識結果更具有一目標資訊,且該應用程式根據該操作指令,執行對應於該語音辨識結果的該操作功能,其中該操作功能包括依據該目標資訊將該物件傳送至一目標端。
  39. 如申請專利範圍第33項所述的行動終端裝置,其中當該語音辨識結果不符合該第一應用程式所提供的該操作參數時,該語音軟體開發模組提供該操作指令至符合該語音辨識結果的一第 二應用程式,使該第二應用程式執行對應於該操作指令的該操作功能。
  40. 如申請專利範圍第33項所述的行動終端裝置,其中當該語音辨識結果不符合該操作參數時,該語音軟體開發模組自一網際網路下載符合該語音辨識結果的一第三應用程式,並提供該操作指令至該第三應用程式,使該第三應用程式執行對應於該操作指令的該操作功能。
TW102138139A 2013-04-10 2013-10-22 語音操控方法、行動終端裝置及語音操控系統 TWI511125B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2013101225991A CN103200329A (zh) 2013-04-10 2013-04-10 语音操控方法、移动终端装置及语音操控系统
CN2013103492037A CN103442130A (zh) 2013-04-10 2013-08-12 语音操控方法、移动终端装置及语音操控系统

Publications (2)

Publication Number Publication Date
TW201440037A TW201440037A (zh) 2014-10-16
TWI511125B true TWI511125B (zh) 2015-12-01

Family

ID=48722679

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102138139A TWI511125B (zh) 2013-04-10 2013-10-22 語音操控方法、行動終端裝置及語音操控系統

Country Status (3)

Country Link
US (1) US10074365B2 (zh)
CN (3) CN103200329A (zh)
TW (1) TWI511125B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103442138A (zh) * 2013-08-26 2013-12-11 华为终端有限公司 语音控制方法、装置及终端
CN103885783A (zh) * 2014-04-03 2014-06-25 深圳市三脚蛙科技有限公司 一种应用程序的语音控制方法及装置
WO2015149359A1 (zh) * 2014-04-04 2015-10-08 华为终端有限公司 一种自动调节音量的方法、音量调节装置及电子设备
TWI621340B (zh) * 2015-02-26 2018-04-11 默科資訊股份有限公司 偵測空氣波動的控制系統與其控制方法
TWI613919B (zh) * 2015-09-16 2018-02-01 新唐科技股份有限公司 家電控制系統及其控制方法
CN105487668B (zh) * 2015-12-09 2020-06-16 腾讯科技(深圳)有限公司 终端设备的展示方法和装置
CN105549948A (zh) * 2015-12-18 2016-05-04 合肥寰景信息技术有限公司 一种应用于网络社区的语音操作方法
TWI584270B (zh) * 2016-06-15 2017-05-21 瑞昱半導體股份有限公司 語音控制系統及其方法
CN106293600A (zh) * 2016-08-05 2017-01-04 三星电子(中国)研发中心 一种语音控制方法及系统
CN106559295A (zh) * 2016-10-25 2017-04-05 北京光年无限科技有限公司 一种用于机器人的移动端查询方法
CN106375594A (zh) * 2016-10-25 2017-02-01 乐视控股(北京)有限公司 一种设备调节方法和装置及电子设备
CN106792855A (zh) * 2016-12-27 2017-05-31 上海庆科信息技术有限公司 一种WiFi设备的配置方法及装置
TWI617766B (zh) * 2017-02-02 2018-03-11 耀晶電子有限公司 語音互動檯燈
CN107172620B (zh) * 2017-03-30 2020-02-21 中国移动通信集团江苏有限公司 一种无线局域网认证方法和装置
CN107038052A (zh) * 2017-04-28 2017-08-11 陈银芳 语音卸载文件的方法及终端
CN107277225B (zh) * 2017-05-04 2020-04-24 北京奇虎科技有限公司 语音控制智能设备的方法、装置和智能设备
CN107148068B (zh) * 2017-05-25 2020-10-16 上海连尚网络科技有限公司 一种用于连接无线接入点的方法与设备
CN107146616B (zh) * 2017-06-13 2020-05-08 Oppo广东移动通信有限公司 设备控制方法及相关产品
CN107329843B (zh) * 2017-06-30 2021-06-01 百度在线网络技术(北京)有限公司 应用程序语音控制方法、装置、设备以及存储介质
CN109218035A (zh) * 2017-07-05 2019-01-15 阿里巴巴集团控股有限公司 群组信息的处理方法、电子设备、服务器及视频播放设备
CN107436748B (zh) * 2017-07-13 2020-06-30 普联技术有限公司 处理第三方应用消息的方法、装置、终端设备及可读介质
CN109389974A (zh) * 2017-08-09 2019-02-26 阿里巴巴集团控股有限公司 一种语音操作的方法及装置
TWI658404B (zh) * 2018-02-09 2019-05-01 宏碁股份有限公司 語音辨識系統及其方法
KR102508863B1 (ko) * 2018-03-19 2023-03-10 삼성전자 주식회사 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버
JP7262565B2 (ja) * 2018-04-25 2023-04-21 グーグル エルエルシー ネットワーク化環境における遅延2要素認証
CN108920128B (zh) * 2018-07-12 2021-10-08 思必驰科技股份有限公司 演示文稿的操作方法及系统
KR20200048701A (ko) * 2018-10-30 2020-05-08 삼성전자주식회사 사용자 특화 음성 명령어를 공유하기 위한 전자 장치 및 그 제어 방법
US10908883B2 (en) 2018-11-13 2021-02-02 Adobe Inc. Voice interaction development tool
CN109741740B (zh) * 2018-12-26 2021-04-16 苏州思必驰信息科技有限公司 基于外部触发的语音交互方法及装置
US11017771B2 (en) 2019-01-18 2021-05-25 Adobe Inc. Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
US10964322B2 (en) * 2019-01-23 2021-03-30 Adobe Inc. Voice interaction tool for voice-assisted application prototypes
CN110575040B (zh) * 2019-09-09 2021-08-20 珠海格力电器股份有限公司 智能窗帘的控制方法、控制终端和智能窗帘控制系统
CN110728981A (zh) * 2019-10-09 2020-01-24 北京达佳互联信息技术有限公司 一种交互功能的执行方法、装置、电子设备及存储介质
CN110728982A (zh) * 2019-10-11 2020-01-24 上海博泰悦臻电子设备制造有限公司 基于语音触屏的信息交互方法、系统、存储介质、车载终端
CN110851104A (zh) * 2019-10-28 2020-02-28 爱钱进(北京)信息科技有限公司 语音控制应用程序的方法、装置以及存储介质
CN111176618B (zh) * 2019-12-10 2023-09-01 武汉学子明灯科技有限责任公司 一种语音唤醒开发程序的方法及系统
CN111292742A (zh) * 2020-01-14 2020-06-16 京东数字科技控股有限公司 数据处理方法、装置、电子设备和计算机存储介质
CN111554278A (zh) * 2020-05-07 2020-08-18 Oppo广东移动通信有限公司 视频录制方法、装置、电子设备以及存储介质
CN114007117B (zh) * 2020-07-28 2023-03-21 华为技术有限公司 一种控件显示方法和设备
CN113096668B (zh) * 2021-04-15 2023-10-27 国网福建省电力有限公司厦门供电公司 一种构建协作语音交互引擎簇的方法及装置
CN113595869B (zh) * 2021-06-28 2023-10-24 青岛海尔科技有限公司 语音播放方法和装置、存储介质及电子装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221879A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907397B2 (en) * 2002-09-16 2005-06-14 Matsushita Electric Industrial Co., Ltd. System and method of media file access and retrieval using speech recognition
FR2871978B1 (fr) * 2004-06-16 2006-09-22 Alcatel Sa Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
CN101656071A (zh) * 2008-08-22 2010-02-24 环达电脑(上海)有限公司 语音命令系统及其方法
CN102223367B (zh) * 2011-06-10 2014-04-23 安徽科大讯飞信息科技股份有限公司 移动用户访问网站的方法、设备及系统
CN102520788B (zh) * 2011-11-16 2015-01-21 歌尔声学股份有限公司 一种语音识别控制方法
CN102520792A (zh) * 2011-11-30 2012-06-27 江苏奇异点网络有限公司 用于网络浏览器的语音式交互方法
US8811938B2 (en) * 2011-12-16 2014-08-19 Microsoft Corporation Providing a user interface experience based on inferred vehicle state
US9384732B2 (en) * 2013-03-14 2016-07-05 Microsoft Technology Licensing, Llc Voice command definitions used in launching application with a command

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221879A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility

Also Published As

Publication number Publication date
CN106878566B (zh) 2019-11-22
CN103200329A (zh) 2013-07-10
US20140310004A1 (en) 2014-10-16
CN106878566A (zh) 2017-06-20
CN103442130A (zh) 2013-12-11
US10074365B2 (en) 2018-09-11
TW201440037A (zh) 2014-10-16

Similar Documents

Publication Publication Date Title
TWI511125B (zh) 語音操控方法、行動終端裝置及語音操控系統
JP6811758B2 (ja) 音声対話方法、装置、デバイス及び記憶媒体
US9953648B2 (en) Electronic device and method for controlling the same
KR102309540B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
CN107210033B (zh) 基于众包来更新用于数字个人助理的语言理解分类器模型
US20200349940A1 (en) Server for determining target device based on speech input of user and controlling target device, and operation method of the server
US11373645B1 (en) Updating personalized data on a speech interface device
US9218052B2 (en) Framework for voice controlling applications
CN110634483A (zh) 人机交互方法、装置、电子设备及存储介质
WO2020119569A1 (zh) 一种语音交互方法、装置及系统
US8340797B2 (en) Method and system for generating and processing digital content based on text-to-speech conversion
EP3523718B1 (en) Creating a cinematic storytelling experience using network-addressable devices
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
CN108882101B (zh) 一种智能音箱的播放控制方法、装置、设备及存储介质
JP2003263188A (ja) 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体
JP2021121969A (ja) アプリケーションプログラムの操作ガイダンス方法、装置、機器及び読み取り可能な記憶媒体
WO2020119541A1 (zh) 一种语音数据的识别方法、装置及系统
KR102358012B1 (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
JP2020038709A (ja) 人工知能機器における連続会話機能
CN111028828A (zh) 一种基于画屏的语音交互方法、画屏及存储介质
US11151995B2 (en) Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command
CN108492826B (zh) 音频处理方法、装置、智能设备及介质
US10693944B1 (en) Media-player initialization optimization
CN110956960A (zh) 智能语音系统及利用智能语音系统控制投影机的方法
US11373634B2 (en) Electronic device for recognizing abbreviated content name and control method thereof