TWI497408B

TWI497408B - 語音交互系統、行動終端裝置及語音通信的方法

Info

Publication number: TWI497408B
Application number: TW102121754A
Authority: TW
Inventors: guo-feng Zhang
Original assignee: Via Tech Inc
Priority date: 2012-12-31
Filing date: 2013-06-19
Publication date: 2015-08-21
Also published as: CN103095813A; CN103281466B; TW201426532A; CN103281466A

Description

語音交互系統、行動終端裝置及語音通信的方法

本發明是有關於一種語音操控的技術，且特別是有關於一種語音交互系統、行動終端裝置及語音通信的方法。

隨著科技的發展，具有語音系統之行動終端裝置已日漸普及。上述的語音系統是透過語音理解技術，讓使用者與行動終端裝置進行溝通。舉例來說，使用者只要對上述的行動終端裝置講出某項要求，例如想要查車次、查天氣或是欲撥打電話等，系統便會依據使用者的語音信號，採取對應的動作。上述的動作可能是以語音方式回答使用者問題或是依照使用者指令去驅使行動終端裝置的系統進行動作。

然而，在語音系統的技術發展過程中，卻面臨一些問題亟待解決。例如：語音結合雲端伺服器之資料安全性、語音系統啟動的便捷性等問題。

以語音結合雲端伺服器之資料安全性來說，目前是以語音交互系統結合雲端技術的概念，將複雜而需要強大運算能力支援的語音處理過程交由雲端伺服器來執行。雖然這樣的方式可大幅降低行動終端裝置所需配置硬體的成本。但是，對於需要透過通訊錄進行通話、傳簡訊等動作來說，由於需藉由上傳通訊錄至雲端伺服器中以找尋通話或傳簡訊的對象，因此通訊錄的保密將是一個重要的議題。雖然雲端伺服器可以採用加密連線，並且採取即用即傳、不保存的方式，還是難以消除使用者對上述作法的擔憂。

另一方面，以語音系統啟動的便捷性來說，目前大都是觸發行動終端裝置的螢幕其所顯示的應用程式來啟動，或者透過行動終端裝置所設置的實體按鍵來啟動。上述的設計皆須透過行動終端裝置本身來啟動，但是在某些場合，上述的設計卻是相當的不便。比如說：在行車期間，而行動終端裝置被放置於口袋或是提袋中，或者在廚房做菜時，需要撥打位於客廳的行動電話，以詢問友人食譜細節等使用者無法立即觸及行動終端裝置，但需使語音系統開啟的情況。

此外，行動終端裝置中的擴音功能同樣也有類似的問題。雖然目前使用者可以透過手指操作行動電話，或是用單手持握行動電話以將行動電話貼近耳朵以啟動擴音功能。但是，當使用者無法立即觸及行動終端裝置，但需使擴音功能時，目前需透過行動終端裝置本身來啟動的設計仍將造成使用者的不便。

因此，如何改進上述的這些缺點，成為亟待解決的議題。

本發明提供一種語音交互系統、行動終端裝置及語音通信的方法，可更快速地提供語音服務。

本發明提出一種語音交互系統，此語音交互系統包括一行動終端裝置與一雲端伺服器。上述行動終端裝置包括一語音系統、一通訊模組與一處理單元。上述語音系統分別接收第一語音信號與第二語音信號。上述通訊模組，分別傳送第一語音信號與第二語音信號。上述處理單元耦接通訊模組以及語音系統。通訊模組傳送第一語音信號至雲端伺服器，並且雲端伺服器依據第一語音信號解析出通信目標與通信指令。處理單元接收通信目標，並依據通信目標搜尋位於行動終端裝置的一通訊錄，以獲得符合通信目標的一選擇列表。在語音系統接收第二語音信號時，透過通訊模組同時傳送第二語音信號與選擇列表至雲端伺服器以產生一選擇目標。處理單元接收並執行通信指令與選擇目標。

本發明另提出一種行動終端裝置，適與一雲端伺服器溝通，此行動終端裝置包括一語音系統、一通訊模組與一處理單元，上述處理單元耦接通訊模組以及語音系統。通訊模組傳送第一語音信號至雲端伺服器，而雲端伺服器依據第一語音信號解析出通信目標與通信指令。處理單元接收通信目標，並依據通信目標搜尋位於行動終端裝置的一通訊錄，以獲得符合通信目標的一選擇列表。在語音系統接收第二語音信號時，透過通訊模組同時傳送第二語音信號與選擇列表至雲端伺服器以產生一選擇目標。處理單元接收並執行通信指令與選擇目標。

本發明提出一種語音通信的方法，用於一行動終端裝置。此方法係先接收一第一語音信號，並傳送該第一語音信號至一雲端伺服器。接著，自雲端伺服器接收從第一語音信號所解析出的一通信目標。然後，依據通信目標搜尋行動終端裝置中的一通訊錄，以獲得符合通信目標的一選擇列表。之後，接收一第二語音信號，同時傳送第二語音信號與選擇列表至雲端伺服器。自雲端伺服器接收並執行一通信指令與一選擇目標。。

基於上述，本發明透過同時將選擇列表與對應的選擇傳送至雲端伺服器的方式，改善語音服務的品質。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

100、200‧‧‧語音操控系統

110‧‧‧輔助啟動裝置

112、122‧‧‧無線傳輸模組

114‧‧‧觸發模組

116‧‧‧無線充電電池

1162‧‧‧電池單元

1164‧‧‧無線充電模組

120、220、420‧‧‧行動終端裝置

121、426‧‧‧語音系統

124、610‧‧‧語音取樣模組

127‧‧‧語音輸出介面

128、424‧‧‧通訊模組

130、410‧‧‧(雲端)伺服器

132‧‧‧語音理解模組

1322‧‧‧語音辨識模組

1324‧‧‧語音處理模組

400‧‧‧語音交互系統

412、422、660‧‧‧處理單元

414‧‧‧傳輸模組

428‧‧‧儲存單元

429‧‧‧通訊錄

330‧‧‧顯示單元

620‧‧‧輸入單元

630‧‧‧撥接單元

640‧‧‧聽筒

650‧‧‧擴音設備

670‧‧‧耳機

S302~S312、S501~S519、S710~S770‧‧‧步驟

DRC‧‧‧通話接收資料

DTC‧‧‧通話傳送資料

SAI‧‧‧輸入音頻信號

SAO‧‧‧輸出音頻信號

SIO‧‧‧輸入操作信號

圖1是依照本發明一實施例所繪示之語音操控系統的方塊圖。

圖2是依照本發明另一實施例所繪示之語音操控系統的方塊圖。

圖3是依照本發明一實施例所繪示之語音操控方法的流程圖。

圖4是依照本發明一實施例之語音交互系統的方塊圖。

圖5是依照本發明一實施例之用於語音交互系統的語音通信流程的示意圖。

圖6為依據本發明一實施例的行動終端裝置的系統示意圖。

圖7為依據本發明一實施例的行動終端裝置的通話擴音功能的自動啟動方法的流程圖。

雖然現今的行動終端裝置已可提供語音系統，以讓使用者發出語音來和行動終端裝置溝通，但使用者在啟動此語音系統時，仍必須透過行動終端裝置本身來啟動。因此在使用者無法立即觸及行動終端裝置，但需使語音系統開啟的情況，往往無法滿足使用者立即的需求。為此，本發明提出一種輔助語音系統開啟的裝置及其對應的方法，讓使用者能夠更便捷地開啟語音系統。為了使本發明之內容更為明瞭，以下特舉實施例作為本發明確實能夠據以實施的範例。

圖1是依照本發明一實施例所繪示之語音操控系統的方塊圖。請參照圖1，語音操控系統100包括輔助啟動裝置110、行動終端裝置120以及伺服器130。在本實施例中，輔助啟動裝置110會透過無線傳輸信號，來啟動行動終端裝置120的語音系統，使得行動終端裝置120根據語音信號與伺服器130進行溝通。

詳細而言，輔助啟動裝置110包括第一無線傳輸模組112 以及觸發模組114，其中觸發模組114耦接於第一無線傳輸模組112。第一無線傳輸模組112例如是支援無線相容認證(Wireless fidelity，Wi-Fi)、全球互通微波存取(Worldwide Interoperability for Microwave Access，WiMAX)、藍芽(Bluetooth)、超寬頻(ultra-wideband，UWB)或射頻識別(Radio-frequency identification，RFID)等通訊協定的裝置，其可發出無線傳輸信號，以和另一無線傳輸模組彼此對應而建立無線連結。觸發模組114例如為按鈕、按鍵等。在本實施例中，當使用者按壓此觸發模組114產生一觸發信號後，第一無線傳輸模組112接收此觸發信號而啟動，此時第一無線傳輸模組112會發出無線傳輸信號，並透過第一無線傳輸模組112傳送此無線傳輸信號至行動終端裝置120。在一實施例中，上述的輔助啟動裝置110可為一藍牙耳機。

值得注意的是，雖然目前有些免持的耳機/麥克風亦具有啟動行動終端裝置120某些功能的設計，但本發明的另一實施例中，輔助啟動裝置110可以不同於上述的耳機/麥克風。上述的耳機/麥克風藉由與行動終端裝置的連線，以取代行動終端裝置120上的耳機/麥克風而進行聽/通話，啟動功能為附加設計，但本案之輔助啟動裝置110“僅”用於開啟行動終端裝置120中的語音系統，並不具有聽/通話的功能，故內部的電路設計可簡化，成本也較低。換言之，相對於上述的免持耳機/麥克風而言，輔助啟動裝置110是另外裝置，即使用者可能同時具備免持的耳機/麥克風以及本案的輔助啟動裝置110。

此外，上述的輔助啟動裝置110的形體可以是使用者隨手可及的用品，例如戒指、手錶、耳環、項鍊、眼鏡等裝飾品，即各種隨身可攜式物品，或者是安裝構件，例如為配置於方向盤上的行車配件，不限於上述。也就是說，輔助啟動裝置110為“生活化”的裝置，透過內部系統的設置，讓使用者能夠輕易地觸碰到觸發模組114，以開啟語音系統。舉例來說，當輔助啟動裝置110的形體為戒指時，使用者可輕易地移動手指來按壓戒指的觸發模組114使其被觸發。另一方面，當輔助啟動裝置110的形體為配置於行車配件的裝置時，使用者亦能夠在行車期間輕易地觸發行車配件裝置的觸發模組114。此外，相較於配戴耳機/麥克風進行聽/通話的不舒適感，使用本案之輔助啟動裝置110可以將行動終端裝置120中的語音系統開啟，甚至進而開啟擴音功能(後將詳述)，使得使用者在不需配戴耳機/麥克風，仍可直接透過行動終端裝置120進行聽/通話。另外，對於使用者而言，這些“生活化”的輔助啟動裝置110為原本就會配戴或使用的物品，故在使用上不會有不習慣或是不舒適感的問題，即不需要花時間適應。舉例來說，當使用者在廚房做菜時，需要撥打放置於客廳的行動電話時，假設其配戴具有戒指、項鍊或手錶形體之本發明的輔助啟動裝置110，就可以輕觸戒指、項鍊或手錶以開啟語音系統以詢問友人食譜細節。雖然目前部份具有啟動功能的耳機/麥克風亦可以達到上述的目的，但是在每次做菜的過程中，並非每次都需要撥打電話請教友人，故對於使用者來說，隨時配戴耳機/麥克風做菜，以備隨時操控行動終端裝置可說是相當的不方便。

在其他實施例中，輔助啟動裝置110還可配置有無線充電電池116，用以驅動第一無線傳輸模組112。進一步而言，無線充電電池116包括電池單元1162以及無線充電模組1164，其中無線充電模組1164耦接於電池單元1162。在此，無線充電模組1164可接收來自一無線供電裝置(未繪示)所供應的能量，並將此能量轉換為電力來對電池單元1162充電。如此一來，輔助啟動裝置110的第一無線傳輸模組112可便利地透過無線充電電池116來進行充電。

另一方面，行動終端裝置120例如為行動電話(Cell phone)、個人數位助理(Personal Digital Assistant，PDA)手機、智慧型手機(Smart phone)，或是安裝有通訊軟體的掌上型電腦(Pocket PC)、平板型電腦(Tablet PC)或筆記型電腦等等。行動終端裝置120可以是任何具備通訊功能的可攜式(Portable)行動裝置，在此並不限制其範圍。此外，行動終端裝置120可使用Android作業系統、Microsoft作業系統、Android作業系統、Linux作業系統等等，不限於上述。

行動終端裝置120包括第二無線傳輸模組122，第二無線傳輸模組122能與輔助啟動裝置110的第一無線傳輸模組112相匹配，並採用相對應的無線通訊協定(例如無線相容認證、全球互通微波存取、藍芽、超寬頻通訊協定或射頻識別等通訊協定)，藉以與第一無線傳輸模組112建立無線連結。值得注意的是，在此所述的“第一”無線傳輸模組112、“第二”無線傳輸模組122係用以說明無線傳輸模組配置於不同的裝置，並非用以限定本發明。

在其他實施例中，行動終端裝置120還包括語音系統121，此語音系統121耦接於第二無線傳輸模組122，故使用者觸發輔助啟動裝置110的觸發模組114後，能透過第一無線傳輸模組112與第二無線傳輸模組122無線地啟動語音系統121。在一實施例中，此語音系統121可包括語音取樣模組124以及語音輸出介面127。語音取樣模組124用以接收來自使用者的語音信號，此語音取樣模組124例如為麥克風(Microphone)等接收音訊的裝置。上述的語音輸出介面127例如為喇叭或耳機等。

另外，行動終端裝置120還可配置有通訊模組128。通訊模組128例如是能傳遞與接收無線訊號的元件，如射頻收發器。進一步而言，通訊模組128能夠讓使用者透過行動終端裝置120接聽或撥打電話或使用電信業者所提供的其他服務。在本實施例中，通訊模組128可透過網際網路接收來自伺服器130的應答資訊，並依據此應答資訊建立行動終端裝置120與至少一電子裝置之間的通話連線，其中所述電子裝置例如為另一行動終端裝置(未繪示)。

伺服器130例如為網路伺服器或雲端伺服器等，其具有語音理解模組132。在本實施例中，語音理解模組132包括語音辨識模組1322以及語音處理模組1324，其中語音處理模組1324耦接於語音辨識模組1322。在此，語音辨識模組1322會接收從語音取樣模組124傳來的語音信號，以將語音信號轉換成多個分段語義(例如詞彙或字句等)。語音處理模組1324則可依據這些分段語義而解析出這些分段語義所代表的意指(例如意圖、時間、地點等)，進而判斷出上述語音信號中所表示的意思。此外，語音處理模組1324還會根據所解析的結果產生對應的應答資訊。在本實施例中，語音理解模組132可由一個或數個邏輯閘組合而成的硬體電路來實作，亦可以是以電腦程式碼來實作。值得一提的是，在另一實施例中，語音理解模組132可配置於行動終端裝置220中，如圖2所示之語音操控系統200。

以下即搭配上述語音操控系統100來說明語音操控的方法。圖3是依照本發明一實施例所繪示之語音操控方法的流程圖。請同時參照圖1及圖3，於步驟302中，輔助啟動裝置110發送無線傳輸信號至行動終端裝置120。詳細的說明是，當輔助啟動裝置110的第一無線傳輸模組112因接收到一觸發信號被觸發時，此輔助啟動裝置110會發送無線傳輸信號至行動終端裝置120。具體而言，當輔助啟動裝置110中的觸發模組114被使用者按壓時，此時觸發模組114會因觸發信號被觸發，而使第一無線傳輸模組112發送無線傳輸信號至行動終端裝置120的第二無線傳輸模組122，藉以使得第一無線傳輸模組112透過無線通訊協定與第二無線傳輸模組122連結。上述的輔助啟動裝置110僅用於開啟行動終端裝置120中的語音系統，並不具有聽/通話的功能，故內部的電路設計可簡化，成本也較低。換言之，相對於一般行動終端裝置120所附加的免持耳機/麥克風而言，輔助啟動裝置110是另一裝置，即使用者可能同時具備免持的耳機/麥克風以及本案的輔助啟動裝置110。

值得一提的是，上述的輔助啟動裝置110的形體可以是使用者隨手可及的用品，例如戒指、手錶、耳環、項鍊、眼鏡等各種隨身可攜式物品，或者是安裝構件，例如為配置於方向盤上的行車配件，不限於上述。也就是說，輔助啟動裝置110為“生活化”的裝置，透過內部系統的設置，讓使用者能夠輕易地觸碰到觸發模組114，以開啟語音系統121。因此，使用本案之輔助啟動裝置110可以將行動終端裝置120中的語音系統121開啟，甚至進而開啟擴音功能(後將詳述)，使得使用者在不需配戴耳機/麥克風，仍可直接透過行動終端裝置120進行聽/通話。此外，對於使用者而言，這些“生活化”的輔助啟動裝置110為原本就會配戴或使用的物品，故在使用上不會有不習慣或是不舒適感的問題。

此外，第一無線傳輸模組112與第二無線傳輸模組122皆可處於睡眠模式或工作模式。其中，睡眠模式指的是無線傳輸模組為關閉狀態，亦即無線傳輸模組不會接收/偵測無線傳輸信號，而無法與其它無線傳輸模組連結。工作模式指的是無線傳輸模組為開啟狀態，亦即無線傳輸模組可不斷地偵測無線傳輸信號，或隨時發送無線傳輸信號，而能夠與其它無線傳輸模組連結。在此，當觸發模組114被觸發時，倘若第一無線傳輸模組112處於睡眠模式，則觸發模組114會喚醒第一無線傳輸模組112，使第一無線傳輸模組112進入工作模式，並使第一無線傳輸模組112發送無線傳輸信號至第二無線傳輸模組122，而讓第一無線傳輸模組112透過無線通訊協定與行動終端裝置120的第二無線傳輸模組122連結。

另一方面，為了避免第一無線傳輸模組112持續維持在工作模式而消耗過多的電力，在第一無線傳輸模組112進入工作模式後的預設時間(例如為5分鐘)內，倘若觸發模組114未再被觸發，則第一無線傳輸模組112會自工作模式進入睡眠模式，並停止與行動終端裝置120的第二無線傳輸模組120連結。

之後，於步驟304中，行動終端裝置120的第二無線傳輸模組122會接收無線傳輸信號，以啟動語音系統121。接著，於步驟S306，當第二無線傳輸模組122偵測到無線傳輸信號時，行動終端裝置120可啟動語音系統121，而語音系統的121取樣模組124可開始接收語音信號，例如「今天溫度幾度？」、「打電話給老王。」、「請查詢電話號碼。」等等。

於步驟S308，語音取樣模組124會將上述語音信號傳送至伺服器130中的語音理解模組132，以透過語音理解模組132解析語音信號以及產生應答資訊。進一步而言，語音理解模組132中的語音辨識模組1322會接收來自語音取樣模組124的語音信號，並將語音信號分割成多個分段語義，而語音處理模組1324則會對上述分段語義進行語音理解，以產生用以回應語音信號的應答資訊。

在本發明之另一實施例中，行動終端裝置120更可接收語音處理模組1324所產生的應答資訊，據以透過語音輸出介面127輸出應答資訊中的內容或執行應答資訊所下達的操作。於步驟S310，行動終端裝置120會接收語音理解模組132所產生的應答資訊，並依據應答資訊中的內容(例如詞彙或字句等)產生語音應答。並且，於步驟S312，語音輸出介面127會接收並輸出此語音應答。

舉例而言，當使用者按壓輔助啟動裝置110中的觸發模組114時，第一無線傳輸模組112則會發送無線傳輸信號至第二無線傳輸模組122，使得行動終端裝置120啟動語音系統121的語音取樣模組124。在此，假設來自使用者的語音信號為一詢問句，例如「今天溫度幾度？」，則語音取樣模組124便會接收並將此語音信號傳送至伺服器130中的語音理解模組132進行解析，且語音理解模組132可將解析所產生的應答資訊傳送回行動終端裝置120。假設語音理解模組132所產生的應答資訊中的內容為「30℃」，則語音輸出介面127能將此語音應播報給使用者。

在另一實施例中，假設來自使用者的語音信號為一命令句，例如「打電話給老王。」，則語音理解模組132中可辨識出此命令句為「撥電話給老王的請求」。此外，語音理解模組132會再產生新的應答資訊，例如「請確認是否撥給老王」，並將此新的應答資訊傳送至行動終端裝置120。在此，此新的應答資訊透過語音輸出介面127播報於使用者。更進一步地說，當使用者的應答為「是」之類的肯定答案時，類似地，語音取樣模組124可接收並傳送此語音信號至伺服器130，以讓語音理解模組132進行解析。語音理解模組132解析結束後，便會在應答資訊記錄有一撥號指令資訊，並傳送至行動終端裝置120。此時，通訊模組128則會依據電話資料庫所記錄的聯絡人資訊，查詢出「老王」的電話號碼，以建立行動終端裝置120與另一電子裝置之間的通話連線，亦即撥號給「老王」。

在其他實施例中，除上述的語音操控系統100外，亦可利用語音操控系統200或其他類似的系統，進行上述的操作方法，並不以上述的實施例為限。

綜上所述，在本實施例之語音操控系統與方法中，輔助啟動裝置能夠無線地開啟行動終端裝置的語音功能。而且，此輔助啟動裝置的形體可以是使用者隨手可及的“生活化”的用品，例如戒指、手錶、耳環、項鍊、眼鏡等裝飾品，即各種隨身可攜式物品，或者是安裝構件，例如為配置於方向盤上的行車配件，不限於上述。如此一來，相較於目前另外配戴免持耳機/麥克風的不舒適感，使用本案之輔助啟動裝置110來開啟行動終端裝置120中的語音系統將更為便利。

值得注意的是，上述具有語音理解模組的伺服器130可能為網路伺服器或雲端伺服器，而雲端伺服器可能會涉及到使用者的隱私權的問題。例如，使用者需上傳完整的通訊錄至雲端伺服器，才能完成如撥打電話、發簡訊等與通訊錄相關的操作。即使雲端伺服器採用加密連線，並且即用即傳不保存，還是難以消除使用者的擔優。據此，以下提供另一種語音操控的方法及其對應的語音交互系統，行動終端裝置可在不上傳完整通訊錄的情況下，與雲端伺服器來執行語音交互服務。為了使本發明之內容更為明瞭，以下特舉實施例作為本發明確實能夠據以實施的範例。

圖4是依照本發明一實施例之語音交互系統的方塊圖。請參照圖4，語音交互系統400可包括雲端伺服器410以及行動終端裝置420，雲端伺服器410以及行動終端裝置420可相互連線。語音交互系統400是透過雲端伺服器410來進行語音交互服務。即，由具有強大運算能力的雲端伺服器410來處理語音識別，藉此降低行動終端裝置420的資料處理負載，還可提升語音識別的準確性及識別速度。

在行動終端裝置420中，包括處理單元422、通訊模組424、語音系統426、儲存單元428。在一實施例中，行動終端裝置420還配置有一顯示單元430。其中，處理單元422耦接至通訊模組424、語音系統426、儲存單元428以及顯示單元430。儲存單元428中更儲存有一通訊錄429。

上述處理單元422為具備運算能力的硬體(例如晶片組、處理器等)，用以控制行動終端裝置420的整體運作。處理單元422例如是中央處理單元(Central Processing Unit，CPU)，或是其他可程式化之微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits，ASIC)、可程式化邏輯裝置(Programmable Logic Device，PLD)或其他類似裝置。

上述通訊模組424例如為網路卡，其可以是經由有線傳輸或無線傳輸與雲端伺服器410進行溝通。而上述語音系統426至少包括麥克風等收音器，以將聲音轉換為電子信號。上述儲存單元428例如為隨機存取記憶體(Random Access Memory，RAM)、唯讀記憶體(Read-Only Memory，ROM)、快閃記憶體(Flash memory)或磁碟儲存裝置(Magnetic disk storage device)等。上述顯示單元430例如為液晶顯示器(Liquid Crystal Display，LCD)或是具有觸控模組的觸控螢幕(touch screen)等。

另一方面，雲端伺服器410為具有強大運算能力的實體主機，或者可以是由一群實體主機組成的一個超級虛擬電腦，藉以來執行大型任務。在此，雲端伺服器410包括處理單元412及通訊模組414。在此，雲端伺服器410的通訊模組414，耦接至其處理單元412。通訊模組414用以與行動終端裝置420的通訊模組424進行溝通。通訊模組414，例如為網路卡，其可以是經由有線傳輸或無線傳輸與行動終端裝置420進行溝通。

另外，雲端伺服器410中的處理單元412為具有更強大的運算能力，例如為多核心的CPU、或者由多個CPU所組成CPU陣列。雲端伺服器410的處理單元412例如至少包括如圖1所示的語音理解模組132。處理單元412可透過語音理解模組來對自行動終端裝置420所接收的語音信號進行解析。而雲端伺服器410透過通訊模組414將解析的結果傳送至行動終端裝置420，使得行動終端裝置420得以依據結果來執行對應的動作。

以下即搭配上述圖4來說明於語音交互系統的語音交換流程。

圖5是依照本發明一實施例之用於語音交互系統的語音通信流程的示意圖。請同時參照圖4及圖5，在步驟S501中，於行動終端裝置420中，透過語音系統426接收第一語音信號，並且在步驟S503中，透過通訊模組424將第一語音信號傳送至雲端伺服器410。在此，行動終端裝置420例如是透過語音系統426中的麥克風等元件而自使用者接收第一語音信號。舉例來說，假設行動終端裝置420為手機，使用者對著手機說出“打電話給老王”，則語音系統426在接收此語音信號”打電話給老王”後，會透過通訊模組424將此語音信號“打電話給老王”傳送至雲端伺服器410。在一實施例中，上述的語音系統426可藉由圖1~圖3所示之輔助啟動裝置進行啟動。

接著，在步驟S505中，於雲端伺服器410中，處理單元412利用語音理解模組來解析第一語音信號，並且，在步驟S507中，處理單元412將由第一語音信號所獲得的通信目標，透過通訊模組414傳送至行動終端裝置420。以第一語音信號的內容“打電話給老王”為例，雲端伺服器410的處理單元412可利用語音理解模組來解析第一語音信號，藉此獲得通信指令與通信目標。即，語音理解模組可解析出第一語音信號包括“打電話”與“老王”，據此，雲端伺服器410的處理單元412便能夠判斷出通信指令為撥號指令，以及通信目標為“老王”，並透過通訊模組414傳送至行動終端裝置420。

然後，在步驟S509中，於行動終端裝置420中，行動終端裝置420的處理單元422依據通信目標搜尋儲存單元428中的通訊錄429，並獲得符合通信目標的選擇列表。例如，行動終端裝置420的處理單元422在搜尋通訊錄的過程中，找到多筆具有“王”的聯絡人資訊，因而產生選擇列表，並顯示於顯示單元430中，以供使用者進行選擇。

舉例來說，選擇列表例如底下表1所示，在通訊錄中搜尋符合通信目標“老王”的聯絡人資訊。在此例中，假設找到4筆符合的聯絡人資訊，並且將聯絡人資訊中的聯絡人名稱，即“王聰明”、“王五”、“王安石”以及“王維”，寫入至選擇列表中。

而倘若使用者對著行動終端裝置420說話，如步驟S511 所示，行動終端裝置420會透過語音系統426而接收到第二語音信號。而在行動終端裝置420接收到第二語音信號的同時，在步驟S513中，行動終端裝置420會將第二語音信號與選擇列表透過通訊模組424同時傳送至雲端伺服器410。例如：使用者在觀看到選擇列表之後而對著行動終端裝置420說出“第1筆”或“王聰明”等內容，而形成第二語音信號時，行動終端裝置420便會將第二語音信號與選擇列表一起傳送至雲端伺服器410。

另外，使用者亦可隨意說出其他內容，也就是說，不管使用者說出的內容為何，只要行動終端裝置420接收到第二語音信號，便會同時將第二語音信號與選擇列表傳送至雲端伺服器410。

值得一提的是，在本案中，並未將“完整”的通訊錄上傳至雲端伺服器410，而只將符合通信目標以“選擇列表”的形式，上傳至雲端伺服器410以進行第二次語音信號分析。換言之，只有“部份”的聯絡人資料會被上傳。在一實施例中，行動終端裝置420上傳至雲端伺服器410的選擇列表中可以只包括聯絡人名稱，而不包括電話號碼或其他資訊。所上傳之選擇列表的內容可依使用者的需求而進行設定。

此外，值得注意的是，在本案中，第二語音信號與選擇列表同時傳送至雲端伺服器410，相較於目前不需上傳通訊錄的通信方法係需分次解析每一個語音信號及每一個列表，即一步驟僅包含一項資訊，本案的語音交換方法更為快速。

接著，於雲端伺服器410中，處理單元412會利用語音理解模組來解析第二語音信號，如步驟S515所示。例如，利用語音理解模組解析出第二語音信號所包括的內容為“第3個”，則雲端伺服器410的處理單元412便可進一步去比對自行動終端裝置420所接收的選擇列表中的第3個聯絡人資訊。以表1為例，第3個聯絡人資訊即為“王安石”。

值得注意的是，透過如圖1所示的語音理解模組132的設計，使用者不需完整講出選擇列表的內容作為第二語音信號，如“第1筆王聰明”，僅需講出部份選擇列表的內容，如“第1筆”或“王聰明”作為第二語音信號，並同時搭配選擇列表上傳至雲端伺服器的語音理解模組132，即可解析出選擇目標。換言之，選擇列表內容包含多個項目資訊，且每一個項目資訊至少具有編號及對應此編號的內容(如：姓名、電話號碼等)，而第二語音信號來自於對應此編號的部份內容或編號。

之後，在步驟S517中，雲端伺服器410透過其通訊模組414將通信指令與選擇目標傳送至行動終端裝置420。而在其他實施例中，雲端伺服器410亦可在步驟S505解析完第一語音信號之後，即先傳送通信指令至行動終端裝置420儲存，之後再傳送選擇目標，在此並不限定通信指令的傳送時間點。

在行動終端裝置420接收到通信指令與選擇目標之後，在步驟S519中，行動終端裝置420透過其處理單元422對選擇目標，執行通信指令對應的通信動作。上述通信指令例如為撥號指令或傳訊指令等需使用該通訊錄內容的指令，而通信指令是由雲端伺服器410基於第一語音信號而獲得。例如，假設第一語音信號的內容為“打電話給老王”，則雲端伺服器410由“打電話”而判斷出通信指令為撥號指令。又例如，假設第一語音信號的內容為“傳簡訊給老王”，則雲端伺服器410由“傳簡訊”而判斷出通信指令為傳訊指令。另外，上述選擇目標則是由雲端伺服器410基於第二語音信號以及選擇列表而獲得。以上述表1所示的選擇列表為例，假設第二語音信號的內容為“第3個”，則雲端伺服器410便可判斷出選擇目標為“王安石”。例如，撥打電話給選擇目標，或是啟動一傳訊介面，以傳送簡訊給選擇目標。

值得注意的是，行動終端裝置420在上述步驟S509所獲得的選擇列表中可以只包括聯絡人名稱，而不包括電話號碼或其他資訊。因此，當行動終端裝置420自雲端伺服器410接收到通信指令與選擇目標時，行動終端裝置420的處理單元422會自通訊錄中取出對應選擇目標的電話號碼，並依據電話號碼來執行通信指令對應的通信動作。

另外，在其他實施例中，行動終端裝置420在上述步驟S509所獲得的選擇列表中亦可同時包括聯絡人名稱與電話號碼，或者更可包括其他資訊。因此，在步驟S515中，雲端伺服器410的處理單元412便能夠基於第二語音信號以及選擇列表，而獲得選擇目標的電話號碼，並且在步驟S517中，將通信指令與電話號碼傳送至行動終端裝置420。據此，在步驟S519中，行動終端裝置420依據電話號碼來執行通信指令對應的通信動作。

綜上所述，本案利用同時上傳第一語音所產生的選擇列表、第二語音信號所產生的選擇目標的方式至具有強大運算能力的雲端伺服器來執行語音理解程序，且此選擇列表僅包含部份的通訊錄。因此，本案的語音操控系統可同時保有較高的處理效能及較佳的安全性。

另一方面，值得注意的是，雖然上述的輔助啟動裝置解決了使用者無法立即觸及行動終端裝置，但需使用語音系統問題，使得使用者可以藉由語音理解技術，讓使用者與行動終端裝置進行問答。然而，對於需要擴音功能開啟的情況，目前仍需透過行動終端裝置本身來啟動擴音功能，當使用者無法立即觸及行動終端裝置，但需使擴音功能時，目前需透過行動終端裝置本身來啟動的設計仍將造成使用者的不便。為此，本發明提出一種開啟擴音功能的方法及其對應的裝置，讓使用者能夠更便捷地開啟擴音功能。為了使本發明之內容更為明瞭，以下特舉實施例作為本發明確實能夠據以實施的範例。

圖6為依據本發明一實施例的行動終端裝置的系統示意圖。請參照圖6，在本實施例中，行動終端裝置600包括語音系統、輸入單元620、撥接單元630、聽筒640、擴音設備650及處理單元660。在本發明的另一實施例中，行動終端裝置600更可包括耳機670。行動終端裝置600可以是行動電話或其他類似的電子裝置，其類似於圖1的行動終端裝置120，其詳細內容可參照前述內容，於此不再贅述。處理單元660耦接語音取樣模組610、輸入單元620、撥接單元630、聽筒640、擴音設備650、耳機670。語音系統包括語音取樣模組610，此語音取樣模組610將聲音轉換為輸入語音信號SAI，上述的語音取樣模組610可以是麥克風或類似的電子元件。換言之，語音取樣模組610可視為語音系統的一部份，而此所述的語音系統類似於圖1的語音系統121，其詳細內容可參照前述內容，於此不再贅述。輸入單元620對應使用者的操作提供輸入操作信號SIO，且輸入單元620可以是鍵盤、觸控面板或類似的電子元件。撥接單元630用以受控於處理單元660執行撥接功能。聽筒640、擴音設備650、耳機670用以將處理單元660提供的輸出語音信號SAO轉換為聲音，故可視為聲音輸出介面。上述的擴音設備650例如是揚聲器等。上述的耳機670可以是有線耳機及無線耳機的至少其中之一。

由上可知，語音功能的開啟可以透過按壓行動通訊裝置的實體按鍵、操控螢幕或是利用本發明之輔助啟動裝置。在假設語音功能已開啟的情況下，當使用者對著行動終端裝置600講話時，透過語音取樣模組610可將聲音轉換為輸入語音信號SAI，處理單元660可依照輸入語音信號SAI，針對通訊錄中的聯絡人名稱或電話號碼等資訊進行內容匹配時，當通訊錄中的資訊與輸入語音信號SAI相符時，處理單元660則可開啟撥接單元630的撥接功能及擴音設備650，以便接通後，使用者可與聯絡人的通話。詳細的說明是，處理單元660會將輸入語音信號SAI轉換為一輸入字串，並且將輸入字串與通訊錄中的多個聯絡人名稱、多個電話號碼等資訊比較。當輸入字串符合這些聯絡人名稱、這些電話號碼等資訊的其中之一時，處理單元660開啟撥接單元630的撥接功能。相反地，當輸入字串不符合這些聯絡人名稱及這些電話號碼時，處理單元660不開啟撥接單元630的撥接功能。

換言之，本實施例中，當處理單元660確認輸入語音信號SAI與通訊錄中的內容匹配時，處理單元660會提供啟動信號，以便自動開啟行動終端裝置600的通話擴音功能。詳言之，處理單元660會自動提供啟動信號至擴音設備650，並且將輸入語音信號SAI轉換為通話傳送資料DTC，並透過撥接單元630傳送通話傳送資料DTC至聯絡人(另一行動終端裝置，未繪示)。同時，處理單元660會透過撥接單元630接收通話接收資料DRC，並依據通話接收資料DRC提供輸出音頻信號SAO至擴音設備650，以將輸出音頻信號SAO轉換為聲音，並以擴音的方式將聲音輸出。

值得一提的是，以目前啟動擴音功能的方式來說，仍是採用透過行動終端裝置本身來啟動的方式進行，但當使用者無法立即觸及行動終端裝置，卻需使用擴音功能時，目前的設計將造成使用者的不便。所以，在本實施例中，在語音系統開啟的情況下，可以透過語音撥接的動作，進一步開啟擴音功能，方便使用者進行通話。

在又一實施例中，當擴音設備650與耳機670皆與行動終端裝置600連線的情況下(即擴音設備650與耳機670皆耦接處理單元)，若提供至處理單元660為輸入語音信號SAI，處理單元660可依使用者的設定，使耳機670通話為第一優先的通話方式(預設值)，擴音設備650為第二優先的通話方式。或者，將擴音設備650設為第一優先的通話方式(預設值)，耳機670通話設為第二優先的通話方式。設定上述通話方式的順序，是因為使用者可能無法立即觸及移動終端裝置，故使用擴音設備650與耳機670皆來進行通話。

此外，在另一實施例中，當使用者透過輸入單元620提供輸入操作信號SIO時，表示使用者並沒有無法立即觸及行動終端裝置的問題，故在處理單元660依據輸入操作信號SIO進行通訊錄資料匹配後，透過處理單元660、撥接單元630可將輸出音頻信號SAO傳送至擴音設備650、聽筒640或耳機670等聲音輸出介面，其端視使用者預設的輸出介面(預設值)而定。

舉例來說，當使用者對著行動終端裝置說“打電話給老王”，此時語音取樣模組610接收此聲音後，將其轉成輸入語音信號SAI，而此輸入語音信號SAI透過語音理解模組的解析，得到通信指令(例如：打電話)與通信目標(例如：老王)，並進而得到選擇目標(例如：王安石)。由於是來自“語音”所解析的通信指令，故處理單元660自動提供啟動信號而開啟擴音設備650，以利後續之擴音通話。也就是說，當撥接單元完成撥接後，使用者可利用擴音設備直接與老王對話。或者，在另一例子中，當使用者對著行動終端裝置說“接電話”，此時語音取樣模組610接收此聲音後，將其轉成輸入語音信號SAI，而此輸入語音信號SAI透過語音理解模組的解析，得到通信指令(如：接電話)。由於是來自“語音”所解析的通信指令，故處理單元660自動提供啟動信號而開啟擴音設備650，以利使用者可利用擴音設備直接與老王對話。關於上述語音理解模組的配置方式與相關細節已描述於前面的實施例，於此不再贅述。另外，關於通訊目標以及最後所得到的選擇目標，其實施方式可以採取前述利用雲端伺服器的方法或其他類似的方法，於此不再贅述。當然，如上所述，當擴音設備650與耳機670並存的情況下，處理單元660可依使用者的設定，使耳機670通話為第一優先的通話方式，擴音設備650為第二優先的通話方式。

在另一個例子中，若使用者透過類似圖4的顯示單元430，以利用按鍵或是觸控選擇通訊錄中的“王安石”時，由於是透過輸入單元620提供輸入操作信號SIO時，處理單元660會依據輸入操作信號SIO進行通訊錄資料匹配，並透過處理單元660、撥接單元630及使用者之設定，將輸出音頻信號SAO傳送至擴音設備650、聽筒640或耳機670等聲音輸出介面，使得使用者可與王安石對話。

依據上述，可彙整出一行動終端裝置的一種通話擴音功能的自動啟動方法。圖7為依據本發明一實施例的行動終端裝置的通話擴音功能的自動啟動方法的流程圖。請同時參照圖7，在本實施例中，判斷行動終端裝置600的處理單元660是否將開啟撥接功能(步驟S710)。換言之，來自輸入單元620的輸入操作信號SIO、或語音取樣模組610的輸入語音信號SAI未必與撥接有關，其有可能是進行其他的操作。比如：啟用行動終端裝置中的計算機功能、或是利用語音系統詢問天氣等。當處理單元660依據輸入信號判斷將開啟撥接單元630的撥接功能時，亦即輸入信號與一撥接動作有關，步驟S710的判斷結果為“是”，則執行步驟S720；反之，當處理單元660依據輸入信號判斷將不會撥接功能時，亦即步驟S710的判斷結果為“否”，則結束此通話擴音功能的自動啟動方法。

接著，在步驟S720中，判斷處理單元660是否接收用以開啟撥接功能的輸入語音信號SAI。當處理單元660接收來自語音取樣模組610的用以開啟撥接功能的輸入語音信號SAI時，亦即步驟S720的判斷結果為“是”，會檢測處理單元660是否與耳機670連接(步驟S730)。當處理單元660與耳機670連接時，亦即步驟S730的判斷結果為“是”，處理單元660自動提供啟動信號以啟動耳機，並輸出音頻信號SAO至耳機670(步驟S740)；反之，當處理單元660未與耳機670連接時，亦即步驟S730的判斷結果為“否”，處理單元660自動提供啟動信號以啟動擴音設備650，並輸出語音信號SAO至行動終端裝置600的擴音設備650，以開啟行動終端裝置600的通話擴音功能(步驟S750)。值得一提的是，當處理單元660接收用以開啟撥接功能的輸入語音信號時，上述的步驟730~步驟750是在使用者將耳機670設定為優先的聲音輸出介面(假設擴音設備650與耳機670皆連線)的情況下進行。在其他實施例中，使用者也可以將擴音設備650設定為優先的聲音輸出介面。當然，在耳機670與擴音設備650僅有其中之一連線時，則可設定已連線的設備作為優先的聲音輸出介面。上述的實施步驟為熟知技術者可依其需求作對應的變動。

另一方面，當處理單元660並未接收來自語音取樣模組610的用以開啟撥接功能的輸入語音信號SAI時，亦即步驟S720的判斷結果為“否”，會接著檢測處理單元660是否與耳機670連接(步驟S760)。詳言之，處理單元660未接收來自語音取樣模組610的輸入語音信號SAI，但處理單元又將開啟撥接功能，表示處理單元660接收來自輸入單元620的輸入操作信號SIO，且此輸入操作信號SIO與一撥接動作有關。當處理單元660與耳機670連接時，亦即步驟S760的判斷結果為“是”，處理單元660會自動提供啟動信號以啟動耳機670，並輸出語音信號SAO至耳機670(步驟S740)。反之，當處理單元660未與耳機670連接時，亦即步驟S760的判斷結果為“否”，處理單元660依據一預設值提供輸出語音信號SAO至擴音設備及聽筒的其中之一(步驟S770)。其中，上述步驟的順序係做為說明之用，本發明實施例不以此為限。值得一提的是，當步驟760判斷為“是”，則將提供輸出音頻信號SAO至耳機670，上述狀況為使用者將耳機670設定為優先的聲音輸出介面(假設聽筒640、擴音設備650、耳機670皆連線)的狀況。在其他實施例中，使用者也可以將聽筒640或擴音設備650設定為優先的聲音輸出介面。當然，在聽筒640、擴音設備650、耳機670設備僅有其中之一連線時，則可設定已連線的設備作為優先的聲音輸出介面。上述的實施步驟為熟知技術者可依其需求作對應的變動。

綜上所述，本發明實施例的行動終端裝置及其通話擴音功能的自動啟動方法，當處理單元接收用以開啟撥接功能的輸入語音信號時，除開啟撥接功能之外，更可自動開啟擴音功能，以將輸出語音信號至擴音設備。如此一來，當使用者無法立即觸及行動終端裝置，但需使擴音功能時，可透過語音系統來啟動擴音功能，以提高行動終端的使用便利性。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，故本發明之保護範圍當視後附之申請專利範圍所界定者為準。

S501~S519‧‧‧本發明語音通信的方法各步驟

Claims

一種語音交互系統，包括：一行動終端裝置，包括：一語音系統，分別接收一第一語音信號與一第二語音信號；一第一通訊模組，分別傳送該第一語音信號與該第二語音信號；以及一第一處理單元，耦接該第一通訊模組以及該語音系統；以及一雲端伺服器，適與該行動終端裝置連線，其中該雲端伺服器接收來自該第一通訊模組的該第一語音信號，並且依據該第一語音信號解析出一通信目標與一通信指令；該第一處理單元接收該通信目標，並依據該通信目標搜尋位於該行動終端裝置的一通訊錄，以獲得符合該通信目標的一選擇列表，並且在該語音系統接收該第二語音信號時，透過該第一通訊模組同時傳送該第二語音信號與該選擇列表至該雲端伺服器以產生一選擇目標；該第一處理單元接收並執行該通信指令與該選擇目標。
如申請專利範圍第1項所述之語音交互系統，其中該通信指令為需使用該通訊錄內容的指令。
如申請專利範圍第2項所述之語音交互系統，其中該通信指令包括撥號、傳簡訊。
如申請專利範圍第1項所述之語音交互系統，其中該選擇列表包括多個項目資訊，每一項目資訊包括一編號及對應該編號的內容，該第二語音信號與對應該編號的部份內容或該編號相關。
如申請專利範圍第1項所述之語音交互系統，其中依據該通信目標，該選擇列表包括部份的通訊錄內容。
如申請專利範圍第1項所述之語音交互系統，更包括一儲存單元，用以儲存該通訊錄。
如申請專利範圍第1項所述之語音交互系統，更包括一顯示單元，以顯示該選擇列表提供使用者進行一選擇，並基於該選擇產生該第二語音信號。
如申請專利範圍第1項所述之語音交互系統，其中該雲端伺服器包括：一第二處理單元，具有一語音處理模組，透過該語音處理模組來解析該第一語音信號與該第二語音信號，並且基於該第二語音信號以及該選擇列表而獲得該選擇目標；以及一第二通訊模組，耦接至該第二處理單元，並且與該第一通訊模組進行溝通；其中，該雲端伺服器透過該第二通訊模組傳送該通信指令與該選擇目標至該行動終端裝置，使得該行動終端裝置依據該選擇目標來執行該通信指令對應的一通信動作。
如申請專利範圍第1項所述之語音交互系統，其中該雲端伺服器基於該第二語音信號以及該選擇列表而獲得該選擇目標的一電話號碼，並傳送該通信指令與該電話號碼至該行動終端裝置，使得該行動終端裝置依據該電話號碼來執行該通信指令對應的該通信動作。
如申請專利範圍第1項所述之語音交互系統，其中在該行動終端裝置中，該第一處理單元自該通訊錄中取出對應該選擇目標的電話號碼，以依據該電話號碼來執行該通信指令對應的該通信動作。
一種行動終端裝置，適與一雲端伺服器連線，包括：一語音系統，分別接收一第一語音信號與一第二語音信號；一通訊模組，分別傳送該第一語音信號與該第二語音信號；以及一處理單元，耦接該通訊模組以及該語音系統，其中該通訊模組傳送該第一語音信號至該雲端伺服器，並且該雲端伺服器依據該第一語音信號解析出一通信目標與一通信指令；該處理單元接收該通信目標，並依據該通信目標搜尋位於該行動終端裝置的一通訊錄，以獲得符合該通信目標的一選擇列表，並且在該語音系統接收該第二語音信號時，透過該通訊模組同時傳送該第二語音信號與該選擇列表至該雲端伺服器以產生一選擇目標；該處理單元接收並執行該通信指令與該選擇目標。
如申請專利範圍第11項所述之行動終端裝置，其中該通信指令為需使用該通訊錄內容的指令。
如申請專利範圍第12項所述之行動終端裝置，其中該通信指令包括撥號、傳簡訊。
如申請專利範圍第11項所述之行動終端裝置，其中該選擇列表包括多個項目資訊，每一項目資訊包括一編號及對應該編號的內容，該第二語音信號與對應該編號的部份內容或該編號相關。
如申請專利範圍第11項所述之行動終端裝置，其中依據該通信目標，該選擇列表包括部份的通訊錄內容。
如申請專利範圍第11項所述之行動終端裝置，更包括一儲存單元，用以儲存該通訊錄。
如申請專利範圍第11項所述之行動終端裝置，更包括一顯示單元，以顯示該選擇列表提供使用者進行一選擇，並基於該選擇產生該第二語音信號。
如申請專利範圍第11項所述之行動終端裝置，其中該雲端伺服器基於該第二語音信號以及該選擇列表而獲得該選擇目標的一電話號碼，並傳送該通信指令與該電話號碼至該行動終端裝置，使得該行動終端裝置依據該電話號碼來執行該通信指令對應的該通信動作。
如申請專利範圍第11項所述之行動終端裝置，其中在該行動終端裝置中，該處理單元自該通訊錄中取出對應該選擇目標的電話號碼，以依據該電話號碼來執行該通信指令對應的該通信動作。
一種語音通信的方法，用於一行動終端裝置，該方法包括：接收一第一語音信號，並傳送該第一語音信號至一雲端伺服器；自該雲端伺服器接收從該第一語音信號所解析出的一通信目標；依據該通信目標搜尋該行動終端裝置中的一通訊錄，以獲得符合該通信目標的一選擇列表；接收一第二語音信號，同時傳送該第二語音信號與該選擇列表至該雲端伺服器；以及自該雲端伺服器接收並執行一通信指令與一選擇目標。
如申請專利範圍第20項所述之語音通信的方法，其中該通信指令為需使用該通訊錄內容的指令。
如申請專利範圍第21項所述之語音通信的方法，其中該通信指令包括撥號、傳簡訊。
如申請專利範圍第20項所述之語音通信的方法，其中該選擇列表包括多個項目資訊，每一項目資訊包括一編號及對應該編號的內容，該第二語音信號與對應該編號的部份內容或該編號相關。
如申請專利範圍第20項所述之語音通信的方法，其中依據該通信目標，該選擇列表包括部份的通訊錄內容。
如申請專利範圍第20項所述之語音通信的方法，其中該通信指令是由該雲端伺服器基於該第一語音信號而獲得，而該選擇目標是由該雲端伺服器基於該第二語音信號以及該選擇列表而獲得。
如申請專利範圍第20項所述之語音通信的方法，其中依據該通信目標搜尋該行動終端裝置中的該通訊錄，以獲得符合該通信目標的該選擇列表的步驟包括：在該通訊錄中搜尋符合該通信目標的聯絡人資訊；以及寫入該聯絡人資訊至該選擇列表，其中該聯絡入資訊至少包括一聯絡人名稱。
如申請專利範圍第20項所述之語音通信的方法，其中在依據該通信目標搜尋該行動終端裝置中的該通訊錄，以獲得符合該通信目標的該選擇列表的步驟之後，更包括：顯示該選擇列表，以供一使用者進行一選擇，並基於該選擇產生該第二語音信號；以及接收該第二語音信號。
如申請專利範圍第20項所述之語音通信的方法，其中在接收到該第二語音信號時，同時傳送該第二語音信號與該選擇列表至該雲端伺服器的步驟之後，更包括：自該雲端伺服器接收該選擇目標的一電話號碼，以依據該電話號碼來執行該通信指令對應的一通信動作。
如申請專利範圍第20項所述之語音通信的方法，更包括：當自該雲端伺服器接收到該通信指令與該選擇目標時，自該通訊錄中取出對應該選擇目標的電話號碼，以依據該電話號碼來執行該通信指令對應的一通信動作。