TW202025139A

TW202025139A - 語音互動方法、裝置及系統

Info

Publication number: TW202025139A
Application number: TW108130389A
Authority: TW
Inventors: 姜迪建; 袁英燦; 祝俊; 徐賢仲; 王德淼; 孟偉; 吳逸超
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-12-11
Filing date: 2019-08-26
Publication date: 2020-07-01
Also published as: CN111383631A; CN111383631B; WO2020119569A1

Abstract

本發明公開了一種語音互動方法、裝置及系統。其中，語音互動方法包括步驟：獲取語音指令和顯示頁面上的至少一個對象；根據所獲取的對象對語音指令進行識別，以得到識別結果；基於至少一個預設語料，從所獲取的對象中為識別結果匹配到一個目標對象；以及基於目標對象產生回應指令。本發明一併公開了相應的計算設備。

Description

語音互動方法、裝置及系統

本發明涉及語音處理技術領域，尤其涉及一種語音互動方法、裝置及系統。

過去十幾年來，網際網路在人們生活的各個領域不斷深化，人們可以通過網際網路方便地進行購物、社交、娛樂、理財等活動。同時，為提高用户體驗，研究人員實現了很多互動方案，如文字輸入、手勢輸入、語音輸入等。其中，智慧語音互動由於其操作的便捷性而成為新一代互動模式的研究熱點。當前，隨著物聯網及智慧化的快速發展，市場上出現了一些智慧語音設備，例如智慧音箱、包含智慧互動模組的各種智慧電子設備（如移動設備、智慧電視、智慧冰箱等）。在一些使用場景中，智慧語音設備可以通過語音辨識技術來識別用户輸入的語音資料，進而為用户提供個性化服務。但現有技術中，語音互動尚存在一些局限，例如，用户輸入的互動指令要有固定的範本，又如，無法準確地識別含義歧義的語音指令（如語音指令中出現各種同音字、近音字），等等，這些勢必會影響用户的互動體驗。因此，需要一種優化的語音互動方案，以提升用户體驗。

為此，本發明提供了一種語音互動方法、裝置及系統，以力圖解決或至少緩解上面存在的至少一個問題。根據本發明的一個態樣，提供了一種語音互動方法，包括步驟：獲取語音指令和顯示頁面上的至少一個對象；根據所獲取的對象對語音指令進行識別，以得到識別結果；基於至少一個預設語料，從至少一個對象中為識別結果匹配到一個目標對象；以及基於目標對象產生回應指令。可選地，在根據本發明的方法中，預設語料與顯示頁面相關聯。可選地，在根據本發明的方法中，基於至少一個預設語料，從至少一個對象中為識別文本匹配到一個目標對象的步驟包括：利用預設語料與至少一個對象產生至少一條候選結果；將各候選結果與識別結果分別進行匹配處理；以及若候選結果與識別結果中有連續的預定數目個字匹配一致，則確認產生該候選結果的對象為目標對象。可選地，在根據本發明的方法中，獲取語音指令和顯示頁面上的至少一個對象的步驟還包括：獲取顯示頁面的屬性資訊。可選地，根據本發明的方法還包括步驟：基於顯示頁面的屬性資訊，判斷語音指令是否可信；若語音指令可信，則基於預設語料，從至少一個對象中為該識別結果匹配到一個目標對象。可選地，在根據本發明的方法中，基於顯示頁面的屬性資訊，判斷語音指令是否可信的步驟包括：根據顯示頁面的屬性資訊判斷顯示頁面是否安全；若確認顯示頁面安全，則判斷是否存在顯示頁面的頁面標識；以及若存在顯示頁面的頁面標識，則確認語音指令可信。可選地，根據本發明的方法還包括步驟：根據顯示頁面上的至少一個對象產生語音辨識模型。可選地，在根據本發明的方法中，根據所獲取的對象對語音指令進行識別，以得到識別結果的步驟還包括：利用語音辨識模型對語音指令進行識別，以得到識別結果。可選地，根據本發明的方法還包括步驟：若經判斷確認語音指令不可信，則從至少一個對象中為識別結果匹配到一個目標對象。根據本發明的另一個態樣，提供了一種語音互動方法，包括步驟：獲取語音指令和顯示頁面上的至少一個對象；基於至少一個預設語料，從所獲取的對象中為該語音指令匹配到一個目標對象；以及基於目標對象產生回應指令。根據本發明的另一個態樣，提供了一種語音互動方法，包括步驟：獲取來自用戶端的語音指令和頁面資訊；根據頁面資訊對語音指令進行識別，以得到識別結果；基於至少一個預設語料和頁面資訊，對識別結果進行處理，以確定目標對象；以及根據目標對象產生回應指令，並返回給用戶端。可選地，在根據本發明的方法中，頁面資訊被配置為在用戶端接收到用户輸入的語音指令時被獲取，且頁面資訊包含用戶端上顯示頁面的屬性資訊及顯示頁面的至少一個被顯示對象；另外，頁面資訊還被配置為在用戶端檢測到顯示頁面被切換時被獲取，且頁面資訊還包含用戶端上顯示頁面的至少一個對象。根據本發明的又一態樣，提供了一種語音互動裝置，包括：連接管理單元，適於獲取語音指令和顯示頁面上的至少一個對象；第一處理單元，適於根據所獲取的對象對語音指令進行識別，以得到識別結果；第二處理單元，適於基於至少一個預設語料，從至少一個對象中為識別結果匹配到一個目標對象，還適於基於目標對象產生回應指令。可選地，在根據本發明的裝置中，第二處理單元包括：產生模組，適於利用預設語料與至少一個對象產生至少一條候選結果；匹配模組，適於將各候選結果與識別結果分別進行匹配處理，以及，在候選結果與識別結果中有連續的預定數目個字匹配一致時，確認產生該候選結果的對象為目標對象。根據本發明的再一個態樣，提供了一種語音互動系統，包括：用戶端，適於接收用户的語音指令；以及伺服器，包括如上所述的語音互動裝置，適於對來自用戶端的語音指令進行處理，以返回回應指令給該用戶端。可選地，在根據本發明的系統中，用戶端是智慧音箱。根據本發明的又一態樣，提供了一種智慧音箱，包括：介面單元，適於獲取語音指令和顯示頁面上的至少一個對象；處理單元，適於基於至少一個預設語料，從所獲取的對象中為語音指令匹配到一個目標對象，並基於目標對象產生回應指令。根據本發明的再一個態樣，提供了一種計算設備，包括：至少一個處理器；和儲存有程式指令的記憶體，其中，程式指令被配置為適於由至少一個處理器執行，程式指令包括用於執行如上所述任一方法的指令。根據本發明的再一個態樣，提供了一種儲存有程式指令的可讀儲存媒體，當程式指令被計算設備讀取並執行時，使得計算設備執行如上所述的任一方法。根據本發明的語音互動方案，用户在瀏覽網頁時，可以直接將從顯示頁面上看到的感興趣內容，通過語音“告訴”用戶端。由其根據顯示頁面的頁面資訊對用户的語音指令進行處理，最終從顯示頁面中確定用户的目標對象，進而輸出回應給用户。為用户提供了一種所見即可說的互動體驗。上述說明僅是本發明技術方案的概述，為了能夠更清楚瞭解本發明的技術手段，而可依照說明書的內容予以實施，並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂，以下特舉本發明的具體實施方式。

下面將參照圖式更詳細地描述本公開的示例性實施例。雖然圖式中顯示了本公開的示例性實施例，然而應當理解，可以以各種形式實現本公開而不應被這裡闡述的實施例所限制。相反，提供這些實施例是為了能夠更透徹地理解本公開，並且能夠將本公開的範圍完整的傳達給本領域的技術人員。圖1示出了根據本發明一些實施例的語音互動系統100的場景示意圖。如圖1所示，系統100中包括用戶端110和伺服器120。應當指出，圖1所示的系統100僅作為一個示例，本領域技術人員可以理解，在實際應用中，系統100通常包括多個用戶端110和伺服器120，本發明對系統100中所包括的用戶端110和伺服器120的數量不做限制。用戶端110為具有語音互動模組的設備，其可以接收用户發出的語音指令，以及向用户返回相應的回應，該回應中可以包含語音或非語音的資訊。一個典型的語音互動模組包括麥克風等語音輸入單元、揚聲器等語音輸出單元以及處理器。語音互動模組可以內置在用戶端110中，也可以作為一個獨立的模組與用戶端110配合使用（例如經由API或通過其它方式與用戶端110進行通訊，調用用戶端110上的功能或應用介面的服務），本發明的實施例對此不做限制。此外，用戶端110上還佈置有支援顯示輸出的模組（如觸摸顯示幕、投影模組，不限於此），用於向用户展示資訊，以及，接收用户的觸摸輸入。用戶端110例如可以是具有語音互動模組的移動設備、智慧音箱、智慧型機器人、智慧家電（包括智慧電視、智慧冰箱、智慧微波爐等）等，但不限於此。用戶端110的一個應用場景為家用場景，即，用戶端110放置於用户家中，用户可以向用戶端110發出語音指令以實現某些功能，例如上網、點播歌曲、購物、瞭解天氣預報、對家中的其他智慧家居設備進行控制，等等。在一些優選的實施例中，用户還可以通過用戶端110上的觸摸顯示幕來瀏覽資訊，當用户看到某個感興趣內容時，通過語音指令來控制用戶端110，實現互動。伺服器120與用戶端110通過網路進行通訊，其例如可以是物理上位於一個或多個地點的雲伺服器。伺服器120中包含語音互動裝置500，用於為用戶端110上接收的語音指令提供識別服務，以得到用户輸入的語音指令的文本表示（當然，本發明實施例並不限於用文本表示語音指令），以及，在基於文本表示得到用户意圖的表示後，產生回應指令並返回給用戶端110。根據本發明的實施方式，伺服器120上預存了各種場景下用户可能輸入的語音指令，作為預設語料。例如，在播放視頻的場景下，用户可能會輸入——“我要看***”、“我要***”、“請播放***”等語音指令。又如，在健身的場景下，用户可能會輸入——“我要練***”、“請為我搜索***”、“設置時間***”等語音指令。更具體地，在購物場景中，在商品清單頁面、商品詳情頁面、商品下單頁面等顯示頁面上，用户可能會輸入各種不同的語音指令。例如在商品清單頁面，用户可能會輸入——“搜索***（***可以是店鋪、也可以是商品名稱）”，在商品下單頁面，用户可能會輸入——“購買***（***可以是商品尺寸、數量等）”。鑒於此，伺服器120通過顯示頁面來區分不同的預設語料，將這些語音指令分別作為不同顯示頁面下對應的預設語料進行緩存，以構成與各顯示頁面相關聯的預設語料集。預設語料可以看作是在當前的顯示頁面下，對用户意圖的表示。用戶端110在監測到滿足預設的觸發條件時（觸發條件例如是當前的顯示頁面被切換、用户輸入包含預設詞的語音指令，不限於此），獲取顯示頁面的頁面資訊，並連同用户的語音指令一併傳送至與其相連的伺服器120。其中，頁面資訊包含頁面上至少一個對象及頁面的屬性資訊，例如頁面所屬應用的應用包名、頁面標識等。伺服器120根據所獲取的對象、預設語料集等對該語音指令進行識別，得到識別結果。而後，伺服器120根據識別結果，從所獲取的對象中匹配出目標對象，並基於目標對象產生回應指令，返回給用戶端110。以下以用戶端110被實現為智慧音箱為例，概括說明根據本發明實施例的語音互動方案。除基本的配置外，根據本發明一個實施例的智慧音箱還包括：介面單元和控制單元。其中，介面單元獲取用户輸入的語音指令和顯示頁面上的至少一個對象；控制單元獲取通過至少一個預設語料，從這些對象中為該語音指令匹配到的目標對象，並基於該目標對象產生回應指令。在一些實施例中，介面單元可以將所獲取的語音指令和顯示頁面上的對象傳送給伺服器120，以便伺服器120基於至少一個預設語料，從這些對象中為該語音指令匹配到一個目標對象（關於匹配到目標對象的過程，可參見下文方法300中步驟S320和步驟S350的相關描述）。而後，控制單元再基於該目標對象產生回應指令給用户。當然，也可以由伺服器120基於目標對象產生回應指令給智慧音箱，由智慧音箱直接輸出回應給用户。本發明的實施例對此不做過多限制。應當指出，在根據本發明的另一些實施方式中，伺服器120也可以實現為通過網路與用戶端110相連的其他電子設備（如，同處於一個物聯網環境中的其他計算設備）。甚至，當用戶端110具有足夠的儲存空間和算力的條件下，伺服器120也可以實現為用戶端110本身。根據本發明的實施方式，用戶端110和伺服器120均可以通過如下所述的計算設備200來實現。圖2示出了根據本發明一個實施例的計算設備200的示意圖。如圖2所示，在基本的配置202中，計算設備200典型地包括系統記憶體206和一個或者多個處理器204。記憶體匯流排208可以用於在處理器204和系統記憶體206之間的通訊。取決於期望的配置，處理器204可以是任何類型的處理，包括但不限於：微處理器（µP）、微控制器（µC）、數位資訊處理器（DSP）或者它們的任何組合。處理器204可以包括諸如一級快取記憶體210和二級快取記憶體212之類的一個或者多個級別的快取記憶體、處理器核心214和暫存器216。示例的處理器核心214可以包括運算邏輯單元（ALU）、浮點數單元（FPU）、數位信號處理核心（DSP核心）或者它們的任何組合。示例的記憶體控制器218可以與處理器204一起使用，或者在一些實現中，記憶體控制器218可以是處理器204的一個內部部分。取決於期望的配置，系統記憶體206可以是任意類型的記憶體，包括但不限於：揮發性記憶體（諸如RAM）、非揮發性記憶體（諸如ROM、快閃記憶體等）或者它們的任何組合。系統記憶體206可以包括作業系統220、一個或者多個應用222以及程式資料224。在一些實施方式中，應用222可以佈置為在作業系統上由一個或多個處理器204利用程式資料224執行指令。計算設備200還可以包括有助於從各種周邊設備（例如，輸出設備242、外設介面244和通訊設備246）到基本配置202經由匯流排/介面控制器230的通訊的介面匯流排240。示例的輸出設備242包括圖形處理單元248和音訊處理單元250。它們可以被配置為有助於經由一個或者多個A/V埠252與諸如顯示器或者揚聲器之類的各種外部設備進行通訊。示例外設介面244可以包括序列介面控制器254和平行介面控制器256，它們可以被配置為有助於經由一個或者多個I/O埠258和諸如輸入裝置（例如，鍵盤、滑鼠、筆、語音輸入裝置、觸摸輸入裝置）或者其他外設（例如印表機、掃描器等）之類的外部設備進行通訊。示例的通訊設備246可以包括網路控制器260，其可以被佈置為便於經由一個或者多個通訊連接埠264與一個或者多個其他計算設備262通過網路通訊鏈路的通訊。網路通訊鏈路可以是通訊媒體的一個示例。通訊媒體通常可以體現為在諸如載波或者其他傳輸機制之類的調製資料信號中的電腦可讀指令、資料結構、程式模組，並且可以包括任何資訊遞送媒體。“調製資料信號”可以是這樣的信號，它的資料集中的一個或者多個或者它的改變可以在信號中編碼資訊的方式進行。作為非限制性的示例，通訊媒體可以包括諸如有線網路或者專線網路之類的有線媒體，以及諸如聲音、射頻（RF）、微波、紅外（IR）或者其它無線媒體在內的各種無線媒體。這裡使用的術語電腦可讀媒體可以包括儲存媒體和通訊媒體二者。計算設備200可以實現為伺服器，例如檔案伺服器、資料庫伺服器、應用程式伺服器和WEB伺服器等，也可以實現為包括桌上型電腦和筆記本電腦配置的個人電腦。當然，計算設備200也可以實現為小尺寸便攜（或者移動）電子設備的一部分。在根據本發明的實施例中，計算設備200被配置為執行根據本發明的語音互動方法。計算設備200的程式資料224中包含執行根據本發明的互動方法的多條程式指令。圖3示出了根據本發明一些實施例的語音互動方法300的流程圖。該互動方法300適於在系統100的伺服器120中執行。如圖3所示，方法300始於步驟S310。在步驟S310中，獲取語音指令和顯示頁面上的至少一個對象。在根據本發明的一些實施例中，語音指令和顯示頁面上的至少一個對象可以是從用戶端110上獲取的。在一種實施場景中，用戶端110在檢測到當前的顯示頁面被切換時，獲取切換後所顯示的頁面的資訊。一般地，所獲取的頁面資訊包括該顯示頁面上的至少一個對象。應當理解，當顯示頁面較大時，當前顯示螢幕並不能完全展示該顯示頁面，可能需要通過上下滑動、左右滑動等方式來顯示頁面上的資訊。也就是說，顯示頁面上的對象，有一些在當前顯示幕上被顯示了，有一些在當前顯示幕上尚未被顯示。在根據本發明的實施例中，當檢測到顯示頁面被切換時，所獲取的對象既包括已經在當前顯示螢幕上顯示的對象，還包括尚未在當前顯示螢幕上顯示出來的對象。而後，用戶端110將上述對象傳送給伺服器120，由伺服器120根據顯示頁面上的這些對象，來產生語音辨識模型。該語音辨識模型主要是為了解決當顯示頁面上的對象與其他對象有歧義時，優先識別為顯示頁面上的對象。例如，顯示頁面上有一個對象——“笑話大全”，用户輸入語音——“我想看笑話”，有可能會被理解為——“我想看校花”，此時，通過該語音辨識模型就可以將其優先識別為顯示頁面上的對象，即“我想看笑話”，更符合用户意圖。在一種實施例中，伺服器120可以利用神經網路的方法來產生語音辨識模型。應當指出，本發明的實施例對具體採用何種演算法來產生語音辨識模型並不做過多限制。同時，用戶端110在接收到用户輸入的語音指令時，獲取當前顯示頁面的頁面資訊。通常在用戶端110中，語音互動模組的麥克風持續接收外部聲音，當用户要使用用戶端110進行語音互動時，需要先說出相應的喚醒詞來喚醒用戶端110。用戶端110只有在收到包含相應喚醒詞的語音指令時，才被觸發獲取當前顯示頁面的頁面資訊。喚醒詞可以在用戶端110出廠時預先設置，也可以由用户在使用用戶端110的過程中自行設置，本發明對喚醒詞的長短、內容均不做限制。另外，所獲取的頁面資訊包括該顯示頁面上，至少一個被顯示的對象。而後，用戶端110將所獲取的對象和語音指令傳送給伺服器120。在一些優選的實施例中，用戶端110還會將該顯示頁面的屬性資訊一併傳送給伺服器120。應當指出，伺服器120亦可以在獲取到顯示頁面的對象和語音指令後，再從用戶端110上獲取該顯示頁面的屬性資訊。本發明的實施例對此不做限制。其中，屬性資訊例如是顯示頁面所屬應用的應用包名、頁面標識，但不限於此。綜上，伺服器120所獲取的顯示頁面上的對象包含兩部分：一部分是在發生切換顯示頁面的操作時，獲取的顯示頁面上已經被顯示的和尚未顯示的對象；另一部分是在接收到用户的喚醒語音指令時，獲取的顯示頁面上正在顯示的對象。在獲取到上述各種對象後，在步驟S320中，根據所獲取的對象對語音指令進行識別，以得到識別結果。通常，伺服器120通過ASR（Automatic Speech Recognition）技術對語音指令進行識別，伺服器120可以先將語音指令表示為文本資料，再對文本資料進行分詞處理，得到識別文本，作為識別結果。典型的語音辨識方法例如可以是：基於聲道模型和語音知識的方法、範本匹配的方法以及利用神經網路的方法等，本發明的實施例對採用何種ASR技術進行語音辨識並不做過多限制。另外，伺服器120在通過ASR技術進行識別時，還可以包括對語音指令的一些預處理操作，如：採樣、量化、去除不包含語音內容的語音資料（如，靜默的語音資料）、對語音資料進行分框、加窗等處理，等等。本發明的實施例在此處不做過多展開。在根據本發明的實施例中，伺服器120為顯示頁面產生了相應的語音辨識模型。故，在識別語音指令時，伺服器120利用該語音辨識模型，對用户輸入的語音指令進行識別，以得到優化的識別結果。如前文所述，該語音辨識模型可以在語音指令中包含有歧義的對象時，將其優先識別為顯示頁面上的對象。例如，用户輸入語音指令——“我喜歡大山”，對於一些用户，“大三”和“大山”的發音是一樣的，都是“da san”，此時，伺服器120就可以利用語音辨識模型來決策，識別結果應該是在顯示頁面上已存在的對象： “大山”。在一些優選的實施例中，語音辨識模型可以優先從顯示頁面上已顯示的對象中進行匹配，當在已顯示的對象中匹配不到合適的對象時，再從顯示頁面上尚未顯示的對象中進行匹配，最終產生識別結果。當然，本發明的實施例不限於此，也可以通過設置匹配度值來篩選出最匹配的對象。根據本發明的實施例，為避免不信任的頁面惡意偽造頁面對象，干擾用户正常的語音會話，故在基於識別結果理解用户意圖之前，會先執行步驟S330，基於所獲取的顯示頁面的屬性資訊，判斷語音指令是否可信。根據本發明的一種實施例，採用如下方式來判斷語音指令是否可信。（1）根據顯示頁面的屬性資訊判斷顯示頁面是否安全。例如，用所獲取的顯示頁面的應用包名，與伺服器120中預存的應用包名進行比對，以此來判斷該顯示頁面是否安全。（2）若確認顯示頁面安全，則判斷伺服器120中是否存在顯示頁面的頁面標識。（3）若存在顯示頁面的頁面標識，則確認語音指令可信。在經判斷確認該語音指令不可信時（例如，在新聞資訊的顯示頁面上，出現了被篡改的商品展示資訊），執行步驟S340，按照通用的語義理解方法，得到識別結果的用户意圖表示，並從所獲取的對象中為識別結果匹配出一個目標對象，作為意圖的參數。本發明的實施例對採用何種語義理解方法並不做過多限制。在經判斷確認該語音指令可信時，執行步驟S350，基於至少一個預設語料，從至少一個對象中為識別結果匹配到一個目標對象。在根據本發明的實施例中，預設語料與顯示頁面相關聯，例如，在伺服器120中，關聯儲存各顯示頁面的頁面標識與至少一條預設語料。預設語料是該顯示頁面下，用户可能輸入的意圖表示。例如，顯示頁面是與播放音樂相關的頁面，則預設語料可以是：“我要聽***”、“請為我播放***”、“上一首”、“下一首”等。根據一種實施例，步驟S350可以按照如下步驟執行。第一步，利用預設語料與所獲取的對象產生至少一條候選結果。以播放視頻的顯示頁面為例，如表1示出了顯示頁面上的部分對象和部分預設語料。需要說明的是，表1所示出的僅作為示例，以便於更好地說明根據本發明實施例的互動方法，本發明實施例不受限於此。表1 顯示頁面上的對象和預設語料示例（部分）

對象	預設語料
三生三世十里桃花天龍八部射雕英雄傳鹿鼎記 …	我要看…… 請播放…… 我要…… 上一頁下一頁 …

將給顯示頁面對應的每條預設語料和每個對象一一對應，就產生了多個候選結果。如表1，可以產生以下候選結果：“我要看三生三世十里桃花”，“我要看天龍八部”，“我要看射雕英雄傳”，“我要看鹿鼎記”，“請播放三生三世十里桃花”，…，以此類推。第二步，將各候選結果與經步驟S320得到的識別結果，分別進行匹配處理。當候選結果與識別結果中有連續的預定數目個字匹配一致，就確認產生該候選結果的對象為目標對象。在一些優選的實施例中，伺服器120通過對識別結果和候選結果的匹配，首先匹配出用户意圖（即，播放、暫停、切換），而後抽取意圖的參數，若候選結果中表示意圖的參數（即，顯示頁面上的對象）與識別結果中表示意圖的參數，有連續的預定數目個字匹配一致，則確認產生該候選結果的對象為目標對象。例如，用户在瀏覽顯示頁面時，看到“三生三世十里桃花”，但這個對象名稱太長了，用户不一定有耐心將其念完，大多數情況下，用户可能只會輸入前面的幾個字，如，用户輸入語音指令——“播放三生三世”。伺服器120經處理後得到的識別結果是“播放三生三世”。從識別結果中判斷出用户意圖是——“播放”，抽取出表示意圖的參數是——“三生三世”。接著，遍歷顯示頁面上的對象，可以在有連續的預定數目個字匹配一致時，就確認用户想輸入的就是這個對象。預定數目例如取4，這個時候，用户輸入的“三生三世”與候選結果中的對象“三生三世十里桃花”相匹配，即，確認“三生三世十里桃花”就是目標對象。隨後，在步驟S360中，基於所確定的目標對象產生回應指令，並返回給用戶端110。根據一種實施例，根據目標對象（“三生三世十里桃花”）產生回應指令，類比點擊事件的效果。用戶端110接收到回應指令，點擊對象“三生三世十里桃花”對應的位置，進入播放介面，開始播放。應當指出，伺服器120亦可以直接將所確定的目標對象和用户意圖返回給用戶端110，由用戶端根據相應的規則產生回應的操作，如點擊操作。本發明的實施例對此不做限制。根據本發明的語音互動方案，當用户在觀看視頻、播放音樂、購物、打電話、健身、玩小遊戲等時，可以直接將從顯示頁面上看到的感興趣內容，通過語音“告訴”用戶端110。與用戶端110相連的伺服器120會根據顯示頁面的頁面資訊對用户的語音指令進行處理，最終從顯示頁面中確定用户的目標對象，進而輸出回應給用户。為用户提供了一種新的“所見即可說”的互動體驗。另外，考慮到顯示頁面上的一些對象名稱太長，用户可以只說出連續的幾個字，只要顯示頁面中有包含這幾個字的對象，該對象就會被匹配到，作為目標對象。圖4示出了根據本發明另一些實施例的語音互動方法400的流程示意圖。方法400適於在伺服器120中執行，是對方法300的進一步闡述。如圖4所示，方法400始於步驟S410。在步驟S410中，獲取來自用戶端110的語音指令和頁面資訊。根據一種實施例，頁面資訊被配置為，在用戶端110接收到用户輸入的語音指令時被獲取，且頁面資訊包含用戶端110上顯示頁面的屬性資訊及顯示頁面的至少一個被顯示對象。通常在用戶端110中，語音互動模組的麥克風持續接收外部聲音，當用户要使用用戶端110進行語音互動時，需要先說出相應的喚醒詞來喚醒用戶端110。用戶端110只有在收到包含相應喚醒詞的語音指令時，才被觸發獲取當前顯示頁面的頁面資訊。另外，所獲取的頁面資訊包括該顯示頁面上，至少一個被顯示的對象、以及顯示頁面的屬性資訊。根據另一種實施例，頁面資訊還被配置為在用戶端110檢測到顯示頁面被切換時被獲取，且頁面資訊還包含用戶端110上顯示頁面的至少一個對象。用戶端110在檢測到當前的顯示頁面被切換時，獲取切換後所顯示的頁面的資訊。一般地，所獲取的頁面資訊包括該顯示頁面上的至少一個對象。應當理解，當顯示頁面較大時，當前顯示螢幕並不能完全展示該顯示頁面，可能需要通過上下滑動、左右滑動等方式來顯示頁面上的資訊。也就是說，顯示頁面上的對象，有一些在當前顯示幕上被顯示了，有一些在當前顯示幕上尚未被顯示。在根據本發明的實施例中，當檢測到顯示頁面被切換時，所獲取的對象既包括已經在當前顯示螢幕上顯示的對象，還包括尚未在當前顯示螢幕上顯示出來的對象。當檢測到用户的語音指令時，所獲取的對象只包含已經在當前顯示螢幕上顯示的對象。更多關於獲取頁面資訊的內容可參見前文步驟S310的相關描述，此處不再贅述。隨後在步驟S420中，根據頁面資訊對語音指令進行識別，以得到識別結果。在根據本發明的實施例中，伺服器120為顯示頁面產生了相應的語音辨識模型。故，在識別語音指令時，伺服器120利用該語音辨識模型，對用户輸入的語音指令進行識別，使得得到的識別結果更貼近顯示頁面上的資訊。隨後，在步驟S430中，基於至少一個預設語料和頁面資訊，對識別結果進行處理，以確定目標對象。隨後在步驟S440中，根據目標對象產生回應指令，並返回給用戶端110。關於方法400中的具體實施過程可參考前文圖1、圖3的相關描述，篇幅所限，此處不做贅述。圖5示出了根據本發明一些實施例的語音互動裝置500的示意圖。語音互動裝置500佈置在伺服器120中，以便伺服器120執行方法300或方法400，實現根據本發明實施方式的語音互動方案。如圖5所示，裝置500至少包括：連接管理單元510、第一處理單元520和第二處理單元530。連接管理單元510獲取語音指令、和顯示頁面上的至少一個對象。第一處理單元520根據所獲取的對象對語音指令進行識別，以得到識別結果。第二處理單元530基於至少一個預設語料，從至少一個對象中為識別結果匹配到一個目標對象。根據本發明的實施例，第二處理單元530包括：產生模組532和匹配模組534。其中，產生模組532利用預設語料與所獲取的至少一個對象產生至少一條候選結果。匹配模組534將各候選結果與識別結果分別進行匹配處理，並且在候選結果與識別結果中有連續的預定數目個字匹配一致時，就確認產生該候選結果的對象為目標對象。同時，第二處理單元530還可以基於目標對象產生回應指令。最後經由連接管理單元510，返回回應指令。關於互動裝置500中各部分所執行操作的具體描述可參見前文關於圖1、圖3的相關內容，此處不再贅述。這裡描述的各種技術可結合硬體或軟體，或者它們的組合一起實現。從而，本發明的方法和設備，或者本發明的方法和設備的某些方面或部分可採取嵌入有形媒介，例如可移動硬碟、USB、軟碟、CD-ROM或者其它任意機器可讀的儲存媒體中的程式碼(即指令)的形式，其中當程式被載入諸如電腦之類的機器，並被所述機器執行時，所述機器變成實踐本發明的設備。在程式碼在可程式設計電腦上執行的情況下，計算設備一般包括處理器、處理器可讀的儲存媒體(包括揮發性和非揮發性記憶體和/或記憶元件)，至少一個輸入裝置，和至少一個輸出裝置。其中，記憶體被配置用於儲存程式碼；處理器被配置用於根據該記憶體中儲存的所述程式碼中的指令，執行本發明的方法。以示例而非限制的方式，可讀媒體包括可讀儲存媒體和通訊媒體。可讀儲存媒體儲存諸如電腦可讀指令、資料結構、程式模組或其它資料等資訊。通訊媒體一般以諸如載波或其它傳輸機制等已調變資料信號來體現電腦可讀指令、資料結構、程式模組或其它資料，並且包括任何資訊傳遞媒體。以上的任一種的組合也包括在可讀媒體的範圍之內。在此處所提供的說明書中，演算法和顯示不與任何特定電腦、虛擬系統或者其它設備固有相關。各種通用系統也可以與本發明的示例一起使用。根據上面的描述，構造這類系統所要求的結構是顯而易見的。此外，本發明也不針對任何特定程式設計語言。應當明白，可以利用各種程式設計語言實現在此描述的本發明的內容，並且上面對特定語言所做的描述是為了披露本發明的最佳實施方式。在此處所提供的說明書中，說明了大量具體細節。然而，能夠理解，本發明的實施例可以在沒有這些具體細節的情況下被實踐。在一些實例中，並未詳細示出公知的方法、結構和技術，以便不模糊對本說明書的理解。類似地，應當理解，為了精簡本公開並幫助理解各個發明方面中的一個或多個，在上面對本發明的示例性實施例的描述中，本發明的各個特徵有時被一起分組到單個實施例、圖、或者對其的描述中。然而，並不應將該公開的方法解釋成反映如下意圖：即所要求保護的本發明要求比在每個申請專利範圍中所明確記載的特徵更多特徵。更確切地說，如下面的申請專利範圍所反映的那樣，發明方面在於少於前面公開的單個實施例的所有特徵。因此，遵循具體實施方式的申請專利範圍由此明確地併入該具體實施方式，其中每個申請專利範圍本身都作為本發明的單獨實施例。本領域那些技術人員應當理解在本文所公開的示例中的設備的模組或單元或元件可以佈置在如該實施例中所描述的設備中，或者可替換地可以定位在與該示例中的設備不同的一個或多個設備中。前述示例中的模組可以組合為一個模組或者此外可以分成多個子模組。本領域那些技術人員可以理解，可以對實施例中的設備中的模組進行自我調整性地改變並且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模組或單元或元件組合成一個模組或單元或元件，以及此外可以把它們分成多個子模組或子單元或子元件。除了這樣的特徵和/或過程或者單元中的至少一些是相互排斥之外，可以採用任何組合對本說明書（包括伴隨的申請專利範圍、摘要和圖式）中公開的所有特徵以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述，本說明書（包括伴隨的申請專利範圍、摘要和圖式）中公開的每個特徵可以由提供相同、等同或相似目的的替代特徵來代替。此外，本領域的技術人員能夠理解，儘管在此所述的一些實施例包括其它實施例中所包括的某些特徵而不是其它特徵，但是不同實施例的特徵的組合意味著處於本發明的範圍之內並且形成不同的實施例。例如，在下面的申請專利範圍中，所要求保護的實施例的任意之一都可以以任意的組合方式來使用。此外，所述實施例中的一些在此被描述成可以由電腦系統的處理器或者由執行所述功能的其它裝置實施的方法或方法元素的組合。因此，具有用於實施所述方法或方法元素的必要指令的處理器形成用於實施該方法或方法元素的裝置。此外，裝置實施例的在此所述的元素是如下裝置的例子：該裝置用於實施由為了實施該發明的目的的元素所執行的功能。如在此所使用的那樣，除非另行規定，使用序數詞“第一”、“第二”、“第三”等等來描述普通對象僅僅表示涉及類似對象的不同實例，並且並不意圖暗示這樣被描述的對象必須具有時間上、空間上、排序方面或者以任意其它方式的給定順序。儘管根據有限數量的實施例描述了本發明，但是受益於上面的描述，本技術領域內的技術人員明白，在由此描述的本發明的範圍內，可以設想其它實施例。此外，應當注意，本說明書中使用的語言主要是為了可讀性和教導的目的而選擇的，而不是為了解釋或者限定本發明的主題而選擇的。因此，在不偏離所附申請專利範圍的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。對於本發明的範圍，對本發明所做的公開是說明性的而非限制性的，本發明的範圍由所附申請專利範圍限定。

100:系統 110:用戶端 120:伺服器 200:計算設備 202:基本配置 204:處理器 206:系統記憶體 208:記憶體匯流排 210:一級快取記憶體 212:二級快取記憶體 214:處理器核心 216:暫存器 218:記憶體控制器 220:作業系統 222:應用 224:程式資料 230:匯流排/介面控制器 240:介面匯流排 242:輸出設備 244:外設介面 246:通訊設備 248:圖形處理單元 250:音訊處理單元 252:A/V埠 254:串行介面控制器 256:並行介面控制器 258:I/O埠 260:網路控制器 262:其他計算設備 264:通訊連接埠 300、400:方法 500:語音互動裝置 510:連接管理單元 520:第一處理單元 530:第二處理單元 532:產生模組 534:匹配模組 S310、S320、S330、S340、S350、S360、S410、S420、S430、S440:步驟

為了實現上述以及相關目的，本文結合下面的描述和圖式來描述某些說明性態樣，這些態樣指示了可以實踐本文所公開的原理的各種方式，並且所有態樣及其等效態樣旨在落入所要求保護的主題的範圍內。通過結合圖式閱讀下面的詳細描述，本公開的上述以及其它目的、特徵和優勢將變得更加明顯。遍及本公開，相同的元件編號通常指代相同的部件或元素。圖1示出了根據本發明一些實施例的語音互動系統100的場景示意圖；圖2示出了根據本發明一些實施例的計算設備200的示意圖；圖3示出了根據本發明一些實施例的語音互動方法300的流程圖；圖4示出了根據本發明另一些實施例的語音互動方法400的流程圖；以及圖5示出了根據本發明一些實施例的語音互動裝置500的示意圖。

Claims

一種語音互動方法，包括步驟：獲取語音指令和顯示頁面上的至少一個對象；根據所獲取的對象對所述語音指令進行識別，以得到識別結果；基於至少一個預設語料，從所述至少一個對象中為所述識別結果匹配到一個目標對象；以及基於所述目標對象產生回應指令。
如申請專利範圍第1項所述的方法，其中，所述預設語料與所述顯示頁面相關聯。
如申請專利範圍第1或2項所述的方法，其中，所述基於至少一個預設語料，從至少一個對象中為識別文本匹配到一個目標對象的步驟包括：利用預設語料與所述至少一個對象產生至少一條候選結果；將各候選結果與所述識別結果分別進行匹配處理；以及若候選結果與識別結果中有連續的預定數目個字匹配一致，則確認產生該候選結果的對象為目標對象。
如申請專利範圍第1-3項中任一項所述的方法，其中，所述獲取語音指令和顯示頁面上的至少一個對象的步驟還包括：獲取所述顯示頁面的屬性資訊。
如申請專利範圍第4項所述的方法，其中，在所述基於至少一個預設語料，從至少一個對象中為所述識別結果匹配到一個目標對象的步驟之前，還包括步驟：基於所述顯示頁面的屬性資訊，判斷所述語音指令是否可信；若所述語音指令可信，則基於預設語料，從至少一個對象中為所述識別結果匹配到一個目標對象。
如申請專利範圍第5項所述的方法，其中，所述基於顯示頁面的屬性資訊，判斷語音指令是否可信的步驟包括：根據顯示頁面的屬性資訊判斷所述顯示頁面是否安全；若確認所述顯示頁面安全，則判斷是否存在所述顯示頁面的頁面標識；以及若存在所述顯示頁面的頁面標識，則確認所述語音指令可信。
如申請專利範圍第1-6項中任一項所述的方法，其中，所述獲取語音指令和顯示頁面上的至少一個對象的步驟，還包括：根據所述顯示頁面上的至少一個對象產生語音辨識模型。
如申請專利範圍第7項所述的方法，其中，所述根據所獲取的對象對所述語音指令進行識別，以得到識別結果的步驟還包括：利用語音辨識模型對所述語音指令進行識別，以得到識別結果。
如申請專利範圍第5項所述的方法，還包括步驟：若經判斷確認所述語音指令不可信，則從所述至少一個對象中為所述識別結果匹配到一個目標對象。
一種語音互動方法，包括步驟：獲取語音指令和顯示頁面上的至少一個對象；基於至少一個預設語料，從所獲取的對象中為所述語音指令匹配到一個目標對象；以及基於所述目標對象產生回應指令。
一種語音互動方法，包括步驟：獲取來自用戶端的語音指令和頁面資訊；根據所述頁面資訊對所述語音指令進行識別，以得到識別結果；基於至少一個預設語料和頁面資訊，對所述識別結果進行處理，以確定目標對象；以及根據所述目標對象產生回應指令，並返回給用戶端。
如申請專利範圍第11項所述的方法，其中，所述頁面資訊被配置為在所述用戶端接收到用户輸入的語音指令時被獲取，且所述頁面資訊包含所述用戶端上顯示頁面的屬性資訊及顯示頁面的至少一個被顯示對象。
如申請專利範圍第12項所述的方法，其中，所述頁面資訊還被配置為在所述用戶端檢測到顯示頁面被切換時被獲取，且所述頁面資訊還包含所述用戶端上顯示頁面的至少一個對象。
一種語音互動裝置，包括：連接管理單元，適於獲取語音指令和顯示頁面上被顯示的至少一個對象；第一處理單元，適於根據所獲取的對象對所述語音指令進行識別，以得到識別結果；以及第二處理單元，適於基於至少一個預設語料，從所述至少一個對象中為所述識別結果匹配到一個目標對象，還適於基於所述目標對象產生回應指令。
如申請專利範圍第14項所述的裝置，其中，所述第二處理單元包括：產生模組，適於利用預設語料與所述至少一個對象產生至少一條候選結果；匹配模組，適於將各候選結果與所述識別結果分別進行匹配處理，以及，在候選結果與識別結果中有連續的預定數目個字匹配一致時，確認產生該候選結果的對象為目標對象。
一種語音互動系統，包括：用戶端，適於接收用户的語音指令；以及伺服器，包括如申請專利範圍第14或15項所述的語音互動裝置，適於對來自所述用戶端的語音指令進行處理，以返回回應指令給所述用戶端。
如申請專利範圍第16項所述的系統，其中，所述用戶端是智慧音箱。
一種智慧音箱，包括：介面單元，適於獲取語音指令和顯示頁面上的至少一個對象；控制單元，適於獲取通過至少一個預設語料，從所述對象中為所述語音指令匹配到的目標對象，並基於所述目標對象產生回應指令。
一種計算設備，包括：至少一個處理器；和儲存有程式指令的記憶體，其中，所述程式指令被配置為適於由所述至少一個處理器執行，所述程式指令包括用於執行如申請專利範圍第1至13項中任一項所述方法的指令。
一種儲存有程式指令的可讀儲存媒體，當所述程式指令被計算設備讀取並執行時，使得所述計算設備執行如申請專利範圍第1至13項中任一項所述的方法。