TWI657355B

TWI657355B - 語音控制連接不同雲端伺服器的方法與系統

Info

Publication number: TWI657355B
Application number: TW107116595A
Authority: TW
Inventors: 伍自強; 李永輝
Original assignee: 中孚創聯科技有限公司
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2019-04-21
Also published as: TW201947359A

Abstract

本發明提供一種語音控制連接不同雲端伺服器的方法與系統，其中一終端裝置接收到一語音訊息後，將該語音訊息轉換為一文本，再檢查該文本中是否包含喚醒指令。當該文本中包含一第一喚醒指令，則將該語音訊息透過一網路傳送至一第一雲端伺服器；當該文本中包含一第二喚醒指令，則將該語音訊息透過一網路傳送至一第二雲端伺服器。

Description

語音控制連接不同雲端伺服器的方法與系統

本發明係與語音控制技術有關，特別是關於一種語音控制連接不同雲端伺服器的方法。

資策會產業情報研究所(Market Intelligence & Consulting Institute,MIC)於2016年底對2017年網路通訊產業提出九大重要的發展趨勢，分別是5G增速風、汽車聯網風、跨域併購風、影視精準風、行動物聯風、網聯合縱風、人機對話風、穿精戴螢風、乍暖還寒風，其中九大趨勢當中所提到的人機對話正是目前市場上討論熱度持續攀升的人工智慧語音助理服務，從Google搜尋趨勢(Google Trends)的圖表中就可以看出，將時間軸設定為2012年到2017年四月，語音助理在網路上維持一定的討論熱度，但近年來有明顯上升的趨勢，代表語音助理市場開始逐漸成形，各家廠商積極擴展海外市場，為了分食全球龐大的語音助理市場以及搶佔全球市佔率。

目前人工智慧技術應用發展主要以「語音辨識」與「影像辨識」為兩大發展主軸。根據國際數據資訊IDC(以下以IDC表示)研究預測，2016年人工智慧市場規模將由2016年80億美元，快速成長至2020年的470億美元，年複合成長率高達55.1%。工研院產經中心IEK指出，2017年人工智慧產業已進入加速階段，如機器視覺、語音助理、影像辨識、醫學診斷等，進而促使相關產業鏈開始變革，預期從2017年起，相關的人工智慧終端裝置產品將開始爆炸性成長。

IDC表示，幾乎所有產業都可望透過人工智慧處理資料能力背後所帶來的利潤，注入一股活水，再次帶動產業的成長。現階段已經採用人工智慧系統主要的產業為金融業、零售業、醫療與離散製造業為主，光這四大產業的合計產值已佔去2016市場規模的50%，未來將加速往更廣泛的領域發展。

IDC研究顯示，若以地區市場來區分，北美地區以62億美元市場規模佔據全球市場的78%產值。而歐洲、中東與非洲則佔居第二，雖然目前亞太區相對於其他地區起步發展較慢，但快速成長的速度可望在2020年前拿下市場規模的第二席次。若以成長速度來看，預測日本市場將從2015至2020年期間的年複合成長率高達114.9%居冠，亞太除日本外地區63.9%居次，南美洲56.2%第三，美國54.5%、西歐50.1%。如果要搶佔語音助理所帶來的龐大市場，將取於系統是否提供多國語言的辨識能力。

語音裝置是各大品牌爭相競逐的市場，也被視為電腦、智慧型手機後的下一個計算平台。目前市面上主要提供語音辨識服務的廠商包括：Amazon.com的Alexa、Apple的Siri、Facebook的Facebook M、Google的Google Assistant，以及Samsung的Bixby。各家廠商的語音助理均有其強項，亦有其不足之處。然而，目前市面上出現的終端設備大多僅能使用某一廠商的語音助理，而不能跨平台使用。這並不是一個最佳的使用環境。

本發明之主要發明目的在於提供一種語音控制連接不同雲端伺服器的方法與系統，其可於單一終端裝置上利用語音控制連接不同的網路伺服器。

為達上述目的及功效，本發明所揭示的語音控制連接不同雲端伺服器的方法一種語音控制連接不同雲端伺服器的方法，供一使用者使用一終端裝置，利用語音控制而連接至一第一雲端伺服器或是一第二雲端伺服器，包含下列步驟：一、提供一語音訊息給一終端裝置；二、在該終端裝置中轉換該語音訊息為一文本；三、檢查該文本是否包含一第一喚醒指令或是一第二喚醒指令；四、如該文本中包含一第一喚醒指令，將該語音訊息傳送至一第一雲端伺服器；如該文本中包含一第二喚醒指令，將該語音訊息傳送至一第二雲端伺服器；如該文本中不包含該第一喚醒指令與該第二喚醒指令，重複步驟一至步驟四。

在一實施例中，該終端裝置接收到該語音訊息後，將該語音訊息暫存於一緩衝單元中。

在一實施例中，該語音訊息轉換為該文本後，該文本暫存於該緩衝單元中。

在一實施例中，該語音訊息透過一網路傳送至該第一雲端伺服器或該第二雲端伺服器。

本發明更提供一種語音控制連接不同雲端伺服器的系統，包含有：一終端裝置、一網路、一第一雲端伺服器，以及一第二雲端伺服器。

該終端裝置包含有：一音訊接收單元，接收語音訊息；一音訊轉換單元，將該語音訊息轉換為一文本；一比對單元，檢查該文本是否包含一第一喚醒指令或是一第二喚醒指令；一網路連接單元，如該文本中包含該第一喚醒指令，將該語音訊息透過該網路傳送至一第一雲端伺服器；如該文本中包含該第二喚醒指令，將該語音訊息透過該網路傳送至一第二雲端伺服器。

在一實施例中，該終端裝置更包含有一緩衝單元，儲存該語音訊息與該文本。

在一實施例中，該終端裝置更包含有一睡眠喚醒單元以及一中央處理單元，當該比對單元發現該文本中包含該第一喚醒指令或是該第二喚醒指令，該睡眠喚醒單元喚醒在休眠模式中的該中央處理單元，該中央處理單元會在該緩衝單元中擷取該語音訊息，透過該網路連接單元連接至該網路，將該語音訊息傳送至該第一雲端伺服器或是該第二雲端伺服器。

而本發明上述之目的及優點，可從下述所選用實施例之詳細說明與附圖中獲得深入了解。

10‧‧‧終端裝置

12‧‧‧網路

14‧‧‧第一雲端伺服器

16‧‧‧第二雲端伺服器

18‧‧‧第三雲端伺服器

20‧‧‧音訊接收單元

22‧‧‧緩衝單元

24‧‧‧音訊轉換單元

26‧‧‧比對單元

28‧‧‧睡眠喚醒單元

30‧‧‧中央處理單元

32‧‧‧網路連接單元

34‧‧‧冷氣機

第1圖係本發明一較佳實施例的示意圖。

第2圖係本發明一較佳實施例的中語音辨識系統的方塊圖。

第3圖係本發明一較佳實施例的流程圖。

第4圖係本發明一較佳實施例的示意圖，顯示語音操作第一雲端伺服器的狀態。

第5圖係本發明一較佳實施例的示意圖，顯示語音操作第二雲端伺服器的狀態。

第6圖係本發明一較佳實施例的示意圖，顯示語音操作第三雲端伺服器的狀態。

第1圖顯示本發明一較佳實施例所提供之語音控制系統的示意圖，包含有一終端裝置10、一網路12，以及複數個雲端伺服器14,16,18。其中，該終端裝置10可以為一種電子裝置，例如：智慧型手機(smart phone)、平板電腦(tablet)、筆記型電腦(laptop computer)、桌上型電腦(desktop computer)、個人數位助理(personal digital assistant,PDA)，或是其他特定的電子產品。請參閱第2圖所示，在本實施例中，該終端裝置10為一智慧型手機，至少具有：一音訊接收單元20、一緩衝單元22、一音訊轉換單元24、一比對單元26、一睡眠喚醒單元28、一中央處理單元30，以及一網路連接單元32。此外，在該終端裝置10中安裝有一應用程式(Application,APP)(圖未示)，用以執行以下所述之各項動作。

在本實施例中，該音訊接收單元20可為一麥克風(microphone)或是其他等效的裝置，用來接收語音訊息。該音訊接收單元20所接收到的語音訊息包含環境音以及使用者所發出的聲音。該音訊接收單元20所接收到的語音訊息可先暫存於該緩衝單元22，或是直接傳送至該音訊轉換單元24進行相關的處理。

該音訊轉換單元24主要的作用是將該音訊接收單元20所接收到的語音訊息轉換為文本(text)。該音訊接收單元20所接收到的語音訊息是一種類比訊號，所以，當該音訊轉換單元24接收到該音訊接收單元20所傳來的語音訊息後，首先會先將類比語音訊息轉換為數位語音訊息，接著，一數位濾波器將此數位語音訊息中的環境音過濾掉，留下使用者所發出的聲音。最後，該音訊轉換單元24在將過濾後的數位語音訊息轉換為文本，並將該文本暫存於該緩衝單元22。以上所述的內容為一般習知的語音辨識技術(speech recognition technique)，是為本技術領域中具有通常知識者所熟知的技術，在此容不詳述其內容。

該比對單元26的作用在於檢查該文本中是否存在特定的喚醒指令。一般可執行的語音訊息通常包含兩的部分，開頭為「喚醒指令」，其後則接續著「執行指令」。例如：「Siri，打電話給王大頭」。其中的「Siri」為喚醒指令，將終端裝置10由休眠狀態喚醒而轉換為工作狀態；「打電話給王大頭」為執行指令，命令該終端裝置10由聯絡人中將王大頭的電話號碼提出，並進行撥號的動作。

在本實施例中，吾人設定可連接的雲端伺服器有三，分別定義為：一第一雲端伺服器14、一第二雲端伺服器16，以及一第三雲端伺服器18。該音訊轉換單元24中預先儲存有三個喚醒指令，分別為一第一喚醒指令、一第二喚醒指令，以及一第三喚醒指令。該比對單元26首先檢查該文本中是否存在該第一喚醒指令，如檢查的結果為該文本中具有該第一喚醒指令，則會命令該睡眠喚醒單元28喚醒在休眠模式中的該中央處理單元30。由休眠模式轉換為工作模式的該中央處理單元30會在該緩衝單元22中擷取該語音訊息，透過該網路連接單元32連接至網路12，將該語音訊息傳送至該第一雲端伺服器14。如果檢查的結果為該文本中不具有該第一喚醒指令，該比對單元26則接著檢查該文本中是否具有該第二喚醒指令。

與前相同，如檢查的結果為該文本中具有該第二喚醒指令，則會命令該睡眠喚醒單元28喚醒在休眠模式中的該中央處理單元30。由休眠模式轉換為工作模式的該中央處理單元30會在該緩衝單元22中擷取該語音訊息，透過該網路連接單元32連接至網路12，將該語音訊息傳送至該第二雲端伺服器16。如果檢查的結果為該文本中不具有該第二喚醒指令，該比對單元26則接著檢查該文本中是否具有該第二喚醒指令。如果檢查的結果為該文本中不具有該第二喚醒指令，該比對單元26則接著檢查該文本中是否具有該第三喚醒指令。如檢查的結果為該文本中具有該第三喚醒指令，則會命令該睡眠喚醒單元28喚醒在休眠模式中的該中央處理單元30。由休眠模式轉換為工作模式的該中央處理單元30會在該緩衝單元22中擷取該語音訊息，透過該網路連接單元32連接至網路12，將該語音訊息傳送至該第三雲端伺服器18。

如果該比對單元26的檢查結果為該文本中並未包含該第一、該第二與該第三喚醒指令，則不採取任何動作，系統仍保持在休眠模式，而該音訊接收單元20則持續接收語音訊息，並重複之前所述之各步驟。

在此要特別提出說明的是，該第一、該第二與該第三喚醒指令可為使用者自定內容，例如：「Hello，智能音箱！」或是由該雲端伺服器所指定的內容，例如：假設該第一雲端伺服器14為蘋果公司(Apple Inc.)的雲端伺服器，則該第一喚醒指令可為「Siri」。

在一實施例中，吾人設定該第一雲端伺服器14為亞馬遜公司(Amazon.com)的雲端伺服器，該第一喚醒指令為「Alexa」。當一使用者說出「Alexa，播放The Carpenters的Yesterday Once More」。該音訊接收單元20收到該與音訊息後，經由該音訊轉換單元24將其轉換為一文本。接著，該比對單元26檢視該文本的內容，發現包含有該第一喚醒指令(Alexa)，因此，該喚醒單元28會喚醒該中央處理單元30，使其由休眠模式轉換為工作模式。接著該中央處理單元30自該緩衝單元22中提取該語音訊息，透過該網路連接單元32上傳至該亞馬遜公司的雲端伺服器。經該伺服器執行該執行指令(播放The Carpenters 的”Yesterday Once More)，取得該歌曲得音訊檔案後傳回該終端裝置10，並開啟該終端裝置10的播放程式播放歌曲。

在一實施例中，吾人設定該第二雲端伺服器16為蘋果公司(Apple Inc.)的雲端伺服器，該第二喚醒指令為「Siri」。當一使用者說出「Hi Siri，導航至臺北市大安區辛亥路2段185號」。該音訊接收單元20收到該與音訊息後，經由該音訊轉換單元24將其轉換為一文本。接著，該比對單元26檢視該文本的內容，發現包含有該第二喚醒指令(Siri)，因此，該喚醒單元28會喚醒該中央處理單元30，使其由休眠模式轉換為工作模式。接著該中央處理單元30自該緩衝單元22中提取該語音訊息，透過該網路連接單元32上傳至該蘋果公司的雲端伺服器。經該伺服器執行該執行指令(導航至臺北市大安區辛亥路2段185號)，叫出對應的地圖回傳至該終端裝置10，再透過該終端裝置10本身的GPS訊號，在該地圖上標是該終端裝置10的所在位置，進行導航之工作。

在一實施例中，吾人設定該第三雲端伺服器18為一遠端控制電器的伺服器，可透過網路12，對使用者家中各電器進行相關控制，該第三喚醒指令為「Skill platform」。當一使用者說出「Skill platform，打開冷氣機並調整溫度至25℃」。該音訊接收單元20收到該與音訊息後，經由該音訊轉換單元24將其轉換為一文本。接著，該比對單元26檢視該文本的內容，發現包含有該第三喚醒指令(Skill platform)，因此，該喚醒單元28會喚醒該中央處理單元30，使其由休眠模式轉換為工作模式。接著該中央處理單元30自該緩衝單元22中提取該語音訊息，透過該網路連接單元32上傳至該遠端遙控伺服器。經該伺服器執行該執行指令(打開冷氣機並調整溫度至25℃)，透過網路12連接至冷氣機34，打開該冷氣機34的電源使其開始運轉，並調整溫度至25℃。

以上所述僅為說明本發明的例示，並非對本發明做任何形式上的限制，本發明所主張之權利範圍自應以申請專利範圍所述為準，而非僅限於上述實施例。任何所屬技術領域中具有通常知識者，在不脫離本發明技術方案的範圍內，當可利用上述揭示的技術內容做出些許更動或修飾為等同變化的等效實施例，但凡是未脫離本發明之技術方案的內容，均仍屬於本發明技術方案的範圍內。

Claims

一種語音控制連接不同雲端伺服器的方法，供一使用者使用一終端裝置，利用語音控制而連接至一第一雲端伺服器與一第二雲端伺服器，包含下列步驟：一、提供一語音訊息給一終端裝置；二、在該終端裝置中轉換該語音訊息為一文本；三、檢查該文本是否包含一第一喚醒指令或是一第二喚醒指令；四、如該文本中包含一第一喚醒指令，將該語音訊息傳送至一第一雲端伺服器，並由該第一雲端伺服器對該語音訊息進行辨識，並執行該語音訊息中所包含之執行指令；如該文本中包含一第二喚醒指令，將該語音訊息傳送至一第二雲端伺服器，並由該第二雲端伺服器對該語音訊息進行辨識，並執行該語音訊息中所包含之執行指令；如該文本中不包含該第一喚醒指令與該第二喚醒指令，重複步驟一至步驟四。
如申請專利範圍第1所述之語音控制連接不同雲端伺服器的方法，其中在步驟一中，該終端裝置接收到該語音訊息後，將該語音訊息暫存於一緩衝單元中。
如申請專利範圍第2項所述之語音控制連接不同雲端伺服器的方法，其中在步驟一中，該語音訊息轉換為該文本後，該文本暫存於該緩衝單元中。
如申請專利範圍第1所述之語音控制連接不同雲端伺服器的方法，其中在步驟四中，該語音訊息透過一網路傳送至該第一雲端伺服器或該第二雲端伺服器。
一種語音控制連接不同雲端伺服器的系統，包含有：一終端裝置、一網路、一第一雲端伺服器，以及一第二雲端伺服器，其中該終端裝置包含有：一音訊接收單元，接收語音訊息；一音訊轉換單元，將該語音訊息轉換為一文本；一比對單元，檢查該文本是否包含一第一喚醒指令或是一第二喚醒指令；一網路連接單元，如該文本中包含該第一喚醒指令，將該語音訊息透過該網路傳送至一第一雲端伺服器，並由該第一雲端伺服器對該語音訊息進行辨識，並執行該語音訊息中所包含之執行指令；如該文本中包含該第二喚醒指令，將該語音訊息透過該網路傳送至一第二雲端伺服器，並由該第二雲端伺服器對該語音訊息進行辨識，並執行該語音訊息中所包含之執行指令。
如申請專利範圍第5所述之語音控制連接不同雲端伺服器的系統，其中該終端裝置更包含有一緩衝單元，儲存該語音訊息與該文本。
如申請專利範圍第5所述之語音控制連接不同雲端伺服器的系統，其中該終端裝置更包含有一睡眠喚醒單元以及一中央處理單元，當該比對單元發現該文本中包含該第一喚醒指令或是該第二喚醒指令，該睡眠喚醒單元喚醒在休眠模式中的該中央處理單元，該中央處理單元會在該緩衝單元中擷取該語音訊息，透過該網路連接單元連接至該網路，將該語音訊息傳送至該第一雲端伺服器或是該第二雲端伺服器。