TW202022851A

TW202022851A - 語音互動方法和裝置

Info

Publication number: TW202022851A
Application number: TW108130243A
Authority: TW
Inventors: 孫堯
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-12-06
Filing date: 2019-08-23
Publication date: 2020-06-16
Also published as: CN111292733A; WO2020114384A1

Abstract

本發明公開了一種語音互動方法和裝置。方法包括：接收用戶輸入的語音指令；從所述語音指令中提取第一聲紋特徵，並根據所述第一聲紋特徵確定所述用戶的身分資訊；根據所述用戶的身分資訊，以及對所述語音指令的識別結果，向所述用戶提供個性化服務。

Description

語音互動方法和裝置

本發明涉及電腦技術領域，尤其涉及一種語音互動方法和裝置。

隨著科技的發展，智慧設備的智慧化程度越來越高。實際應用中，智慧設備可以根據用戶的歷史使用資料、習慣、偏好等，為用戶提供個性化服務。但是，針對於遠場語音互動的共用型智慧設備，由於面向的用戶可能為多個，如何為每個用戶都可以提供個性化服務，是當前需要考慮的問題。因此，需要一種更加有效的語音互動方法。

本說明書實施例提供一種語音互動方法和設備，用於實現共用型智慧設備為不同用戶提供符合用戶需求的個性化服務。第一方面，本說明書實施例提供了一種語音互動方法，包括：接收用戶輸入的語音指令；從所述語音指令中提取第一聲紋特徵，並根據所述第一聲紋特徵確定所述用戶的身分資訊；根據所述用戶的身分資訊，以及對所述語音指令的識別結果，向所述用戶提供個性化服務。第二方面，本說明書實施例還提供了一種語音互動裝置，用於執行如第一方面所述的語音互動方法，所述裝置包括：接收模組，接收用戶輸入的語音指令；確定模組，從所述語音指令中提取第一聲紋特徵，並根據所述第一聲紋特徵確定所述用戶的身分資訊；服務模組，根據所述用戶的身分資訊，以及對所述語音指令的識別結果，向所述用戶提供個性化服務。第三方面，本說明書實施例還提供了一種電子設備，包括：記憶體，存放程式；處理器，執行所述記憶體儲存的程式，並具體執行如第一方面所述的語音互動方法。第四方面，本說明書實施例還提供了一種電腦可讀儲存媒體，所述電腦可讀儲存媒體儲存一個或多個程式，所述一個或多個程式當被包括多個應用程式的電子設備執行時，使得所述電子設備執行如第一方面所述的語音互動方法。本說明書實施例採用的上述至少一個技術方案能夠達到以下有益效果：接收用戶輸入的語音指令，從語音指令中提取第一聲紋特徵，並根據第一聲紋特徵確定用戶的身分資訊，進而根據用戶的身分資訊，以及對語音指令的識別結果，向用戶提供個性化服務，從而實現共用型智慧設備為不同用戶提供符合用戶需求的個性化服務。

下面結合本說明書具體實施例及相應的圖式對本發明技術方案進行清楚、完整地描述。顯然，所描述的實施例僅是本發明一部分實施例，而不是全部的實施例。基於本說明書中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬於本發明保護的範圍。以下結合圖式，詳細說明本說明書各實施例提供的技術方案。圖1為本說明書實施例提供的一種語音互動方法的流程示意圖。所述方法可以如下所示。步驟102，接收用戶輸入的語音指令。步驟104，從語音指令中提取第一聲紋特徵，並根據第一聲紋特徵確定用戶的身分資訊。步驟106，根據用戶的身分資訊，以及對語音指令的識別結果，向用戶提供個性化服務。針對於遠場語音互動的共用型智慧設備，麥克風模組接收到用戶輸入的語音指令之後，將語音指令傳輸至用戶畫像(UP，User Profile)模組，其中，UP模組部署在共用型智慧設備中，或者部署在共用型智慧設備對應的私有雲端伺服器上。聲紋(VP，Voice Print)是生物特徵的一種，用於描述攜帶言語資訊的聲波頻譜。鑒於每個人的聲紋特徵的相對穩定性和強區分性，可以將聲紋特徵作為識別一個人的重要特徵。 UP模組從語音指令中提取第一聲紋特徵，並根據第一聲紋特徵來確定用戶的身分資訊，進而可以實現根據用戶的身分資訊，為不同用戶提供符合用戶需求的個性化服務。本說明書實施例中，根據第一聲紋特徵確定用戶的身分資訊，包括：確定第一聲紋特徵資料庫，第一聲紋特徵資料庫中包括多個用戶身分標識，以及與多個用戶身分標識中任一用戶身分標識對應的第二聲紋特徵；將第一聲紋特徵與多個用戶身分標識中任一用戶身分標識對應的第二聲紋特徵進行匹配；根據匹配結果，確定用戶對應的目標用戶身分標識，目標用戶身分標識用於表示用戶的身分資訊；第一聲紋特徵與第二聲紋特徵為相同或不同的聲紋特徵。其中，透過以下方式確定得到第一聲紋特徵資料庫：獲取歷史語音指令集合，歷史語音指令集合中包括多個歷史語音指令；提取多個歷史語音指令中任一歷史語音指令對應的第三聲紋特徵；根據多個歷史語音指令中任一歷史語音指令對應的第三聲紋特徵，對多個歷史語音指令進行聲紋聚類，得到多個用戶身分標識，以及與多個用戶身分標識中任一用戶身分標識對應的歷史語音指令；根據多個用戶身分標識中任一用戶身分標識對應的歷史語音指令，確定該用戶身分標識對應的第二聲紋特徵；第二聲紋特徵和第三聲紋特徵為相同或不同的聲紋特徵。其中，聲紋特徵包括下述至少一種：語言、音色、音調、語速、口音，和頻譜。為了可以根據用戶的聲紋特徵來確定用戶的身分，UP模組首先根據共用型智慧設備中的歷史語音指令集合，透過聲紋聚類的方式，構建包括多個用戶身分標識，以及任一用戶身分標識對應的第二聲紋特徵的第一聲紋特徵資料庫(也可以稱為，聲紋池)。圖2為本說明書實施例提供的UP模組的示意圖。如圖2所示，用戶畫像(UP)模組200至少包括：聲紋提取單元201、聲紋聚類模型202、第一聲紋特徵資料庫203、用戶畫像(UP)資料單元204、自動語言識別(ASR，Automatic Speech Recognition)單元205、獲得標識單元206、新增標識單元207。 UP模組200構建第一聲紋特徵資料庫203的過程：首先，UP模組200獲取同一共用型智慧設備中的歷史語音指令集合，歷史語音指令集合中包括該共用型智慧設備上所有的歷史語音指令；其次，UP模組200中的聲紋提取單元201，從歷史語音指令集合中的多個歷史語音指令中，提取任一歷史語音指令對應的第三聲紋特徵，第三聲紋特徵包含但不限於：語言、音色、音調、語速、口音、頻譜，等。然後，UP模組200中的聲紋聚類模型202，根據任一歷史語音指令對應的第三聲紋特徵進行聲紋聚類，將聲紋特徵相似度很高的歷史語音指令歸為一類，確定為來自同一個用戶的歷史語音指令，並為每一類歷史語音指令打上一個用戶標籤，即用戶身分標識。例如，設備abc-用戶1的歷史語音指令，設備abc-用戶2的歷史語音指令，等。最後，UP模組200中的聲紋提取單元201，根據一個用戶身分標識對應的歷史語音指令，確定該用戶身分標識對應的第二聲紋特徵。進而將任一用戶身分標識，以及該用戶身分標識對應的第二聲紋特徵儲存在第一聲紋特徵資料庫203中。例如，設備abc-用戶1對應的第二聲紋特徵(語言、音色、音調、語速、口音、頻譜，等)，設備abc-用戶2對應的第二聲紋特徵(語言、音色、音調、語速、口音、頻譜，等)，等。在一實施例中，對於很久沒有使用共用型智慧設備的用戶，為了節約空間，UP模組200會在預設時長後刪除該用戶的資料，例如，該用戶對應的歷史語音指令，該用戶對應的用戶身分標識，以及該用戶身分標識對應的第二聲紋特徵，等。在另一實施例中，隨著時間的變化，一個人年齡的增長或生理發育的影響，都可能會導致聲音的變化。因此，UP模組200中的聲紋聚類模型202會定期更新第一聲紋資料庫203中儲存的用戶身分標識對應的第二聲紋特徵。本說明書實施例中，還包括：根據用戶身分標識對應的第二聲紋特徵，確定用戶身分標識對應的第一用戶畫像；用戶身分標識對應的第一用戶畫像，用於反映與用戶身分標識對應的用戶的年齡和/或性別。具體地，根據用戶身分標識對應的第二聲紋特徵，確定用戶身分標識對應的第一用戶畫像，包括：確定第二聲紋特徵資料庫，第二聲紋特徵資料庫中包括不同用戶畫像對應的第四聲紋特徵；將用戶身分標識對應的第二聲紋特徵，與不同用戶畫像對應的第四聲紋特徵進行匹配；根據匹配結果，確定用戶身分標識對應的第一用戶畫像；其中，第二聲紋特徵與第四聲紋特徵為相同或不同的聲紋特徵。第二聲紋特徵資料庫，也即共用型智慧設備對應的公有雲端伺服器中的公共聲紋特徵資料庫，其中包括不同用戶畫像對應的第四聲紋特徵，例如，不同性別的用戶對應的第四聲紋特徵、不同年齡的用戶對應的第四聲紋特徵，等。仍以上述圖2為例，針對UP模組200中第一聲紋特徵資料庫203中儲存的多個用戶身分標識以及任一用戶身分標識對應的第二聲紋特徵，UP模組200中的聲紋聚類模型202，將任一用戶身分標識對應的第二聲紋特徵與第二聲紋特徵資料庫中不同用戶畫像對應的第四聲紋特徵進行對比，從而判斷該用戶身分標識對應的第一用戶畫像(性別和/或年齡)，並將任一用戶身分標識對應的第一用戶畫像儲存在UP模組200中的UP資料單元204中。例如，UP資料單元204中儲存有，設備abc-用戶1：女性、年輕；設備abc-用戶2：男性、老年。本說明書實施例中，還包括：根據用戶身分標識對應的歷史語音指令，確定用戶身分標識對應的第二用戶畫像；用戶身分標識對應的第二用戶畫像，用於反映與用戶身分標識對應的用戶的個性化需求。具體地，根據用戶身分標識對應的歷史語音指令，確定用戶身分標識對應的第二用戶畫像，包括：將用戶身分標識對應的歷史語音指令轉換為文字指令；根據預設規則對文字指令進行分析；根據分析結果，確定用戶身分標識對應的第二用戶畫像。仍以上述圖2為例，為了更好地為不同用戶提供符合用戶需求的個性化服務，UP模組200確定與用戶的個性化需求相關的第二用戶畫像。具體地，首先，UP模組200中的ASR單元205，將同一用戶身分標識對應的歷史語音指令轉換為文字指令。例如，設備abc-用戶1對應的文字指令為：20180618播放周杰倫的青花瓷、20180619播放毛不易，等；設備abc-用戶2對應的文字指令為：20180618播放鄧麗君、20180619播放陳百強，等。然後，UP模組200中的UP資料單元204，根據預設規則，或特定的模型，對任一用戶身分標識對應的文字指令進行分析，確定該用戶身分標識對應，用於反映與該用戶身分標識對應的用戶的個性化需求的第二用戶畫像，以及將任一用戶身分標識對應的第二用戶畫像補充儲存在UP資料單元204中。例如，UP資料單元204中儲存有，設備abc-用戶1：女性、年輕、喜歡流行歌曲、特別喜歡周杰倫和毛不易；設備abc-用戶2：男性、老年、喜歡老歌、特別喜歡鄧麗君和陳百強；等。隨著時間的變化，不同用戶的喜好可能會發生變化，因此，UP模組會根據每個用戶身分標識對應的歷史語音指令，定期更新用戶身分標識對應的第二用戶畫像。仍以上述圖2為例，當共用型智慧設備中的麥克風模組接收到當前用戶輸入的語音指令之後，麥克風模組將該語音指令傳輸至UP模組200， UP模組200中的聲紋提取單元201從該語音指令中提取第一聲紋特徵，UP模組中的獲得標識單元206，將第一聲紋特徵與UP模組200中第一聲紋特徵資料庫203中儲存的，多個用戶身分標識中任一用戶身分標識對應的第二聲紋特徵，進行匹配，以及根據匹配結果，確定當前用戶對應的目標用戶身分標識，進而為當前用戶提供個性化服務。根據匹配結果確定用戶對應的目標用戶身分標識，進而為當前用戶提供個性化服務的具體過程包括下述至少兩種方式。第一種：本說明書實施例中，根據匹配結果，確定用戶對應的目標用戶身分標識，包括：當第一聲紋特徵與多個用戶身分標識中的一個用戶身分標識對應的第二聲紋特徵之間的匹配度大於預設閾值時，將用戶身分標識確定為目標用戶身分標識。仍以上述圖2為例，UP模組200中的獲得標識單元206，將聲紋提取單元201從當前用戶的語音指令中提取的第一聲紋特徵，與第一聲紋特徵資料庫203中儲存的任一用戶身分標識對應的第二聲紋特徵進行匹配，若第一聲紋特徵與設備abc-用戶1對應的第二聲紋特徵之間的匹配度大於預設閾值，因此，獲得標識單元206可以確定當前用戶的目標用戶身分標識為設備abc-用戶1。針對於單條語音指令，採用上述根據聲紋特徵來確定用戶身分的方式，使得召回率可以達到80%，準確率可以達到85%。其中，若可以排除音量過小、有噪音等干擾情況，召回率還會有所提高。需要說明的是，若用戶註冊了聲紋，則根據聲紋特徵確定用戶身分資訊的準確率將大大提高。本說明書實施例中，根據用戶的身分資訊，以及對語音指令的識別結果，向用戶提供個性化服務，包括：確定目標用戶身分標識對應的第一用戶畫像和/或第二用戶畫像；根據目標用戶身分標識對應的第一用戶畫像和第二用戶畫像，以及對語音指令的識別結果，向用戶提供個性化服務。仍以上述圖2為例，獲得標識單元206確定當前用戶的目標用戶身分標識之後，UP模組200從UP資料單元204中，確定與目標用戶身分標識對應的第一用戶畫像和/或第二用戶畫像。根據與目標用戶身分標識對應的第一用戶畫像和/或第二用戶畫像，可以瞭解到當前用戶的年齡、性別、個性化需求，等。若UP模組200為部署在共用型智慧設備中的模組，則UP模組200將當前用戶的語音指令、第一聲紋特徵、第一用戶畫像和/或第二用戶畫像等資訊傳輸至共用型智慧設備對應的公有雲端伺服器中的用戶畫像決策(UPD，User Profile Decision)模組，使得UPD模組根據上述相關資訊，為當前用戶提供個性化服務。需要說明的是，UPD模組為當前用戶提供個性化服務的過程中，當前用戶的隱私資訊不會洩露到公有雲端伺服器中，可以保證用戶使用共用型智慧設備的隱私安全性。針對於單條語音指令，採用上述根據確定當前用戶的用戶畫像的方式，在當前用戶對應的歷史語音指令資料充足的情況下(例如，一個月內有超過10條的歷史語音指令)，召回率可以達到85%，準確率可以達到90%。本說明書實施例中，圖1所示的語音互動方法應用於智慧音箱，向用戶提供個性化服務包括下述至少一種：音樂推薦和聊天。當共用型智慧設備為智慧音箱時，智慧音箱可以為用戶提供音樂推薦、聊天等個性化服務。當多個用戶共用一個智慧音箱時，每個人有自己的個性化需求和點播記錄。例如，老人愛聽鄧麗君，年輕人愛聽周杰倫，兒童愛聽兒歌，等。因此，部署在智慧音箱中的UP模組或部署在智慧音箱對應的私有雲端伺服器上的UP模組，確定使用智慧音箱的每個用戶對應的第二聲紋特徵、第一用戶畫像(年齡、性別)、第二用戶畫像(個人愛好)，等。在一實施例中，當接收到當前用戶的語音指令“我想聽歌”時，UP模組可以根據從當前用戶的語音指令中提取的第一聲紋特徵，確定當前用戶的身分資訊，從而確定當前用戶的第二用戶畫像(個人愛好)。使得UPD模組可以根據可以當前用戶的第二用戶畫像(個人愛好)，為當前用戶播放符合用戶個性化需求的歌曲。例如，為喜歡周杰倫的用戶播放周杰倫的歌曲，為喜歡鄧麗君的用戶播放鄧麗君的歌曲，等。在另一實施例中，當接收到當前用戶的語音指令“我想聽歌”時，UP模組可以根據從當前用戶的語音指令中提取的第一聲紋特徵，確定當前用戶的身分資訊，從而確定當前用戶的第一用戶畫像(年齡)、第二用戶畫像(個人愛好)。使得UPD模組可以根據可以當前用戶的第一用戶畫像(年齡)和第二用戶畫像(個人愛好)，為當前用戶播放符合用戶個性化需求的歌曲，以及主動問候當前用戶。例如，當前用戶為兒童時，UPD模組為當前用戶播放兒歌，並可以在播放兒歌之前主動問候當前用戶“寶貝，下面給你播放兒歌呦”。在另一實施例中，當接收到當前用戶的語音指令“今天心情不好”時，UP模組可以根據從當前用戶的語音指令中提取的第一聲紋特徵，確定當前用戶的身分資訊，從而確定當前用戶的第一用戶畫像(年齡、性別)、第二用戶畫像(個人愛好)。使得UPD模組可以根據可以當前用戶的第一用戶畫像(年齡、性別)和第二用戶畫像(個人愛好)，確定與當前用戶聊一些符合用戶個性化需求的話題。例如，與老人聊養生話題，與年輕人聊世界盃話題，與兒童聊幼稚園話題，等。針對同一智慧音箱，可以根據聲紋識別出當前用戶，從而實現智慧音箱為不同用戶提供符合用戶需求的個性化服務。第二種：本說明書實施例中，還包括：當第一聲紋特徵與多個用戶身分標識中任一用戶身分標識對應的第二聲紋特徵之間的匹配度均不大於預設閾值時，在第一聲紋特徵資料庫中增加一個新的用戶身分標識。仍以上述圖2為例，UP模組200中的獲得標識單元206，將聲紋提取單元201從當前用戶的語音指令中提取的第一聲紋特徵，與第一聲紋特徵資料庫203中儲存的任一用戶身分標識對應的第二聲紋特徵進行匹配，若第一聲紋特徵與第一聲紋特徵資料庫203中儲存的任一用戶身分標識對應的第二聲紋特徵之間的匹配度均不大於預設閾值，則獲得標識單元206可以確定當前用戶為新用戶。此時，新增標識單元207產生一個新的用戶身分標識，進而將該新的用戶身分標識確定為當前用戶的目標用戶身分標識。由於UP模組200中的UP資料單元204中，未儲存有與該新的用戶身分標識對應的第一用戶畫像和第二用戶畫像，因此，共用型智慧設備無法為當前用戶提供精準的個性化服務。但是，共用型智慧設備可以根據歷史服務資料，為當前用戶提供粗略的個性化服務。例如，針對智慧音箱，若當前用戶為新用戶，且根據智慧音箱中的歷史播放資料可知，使用該智慧音箱的用戶經常點播周杰倫和毛不易的歌曲時，則智慧音箱為新用戶播放周杰倫或毛不易的歌曲，而不會播放該智慧音箱從來沒有播放過的搖滾歌曲，等。從而實現為當前新用戶提供粗略的個性化服務。仍以上述圖2為例，針對於新增標識單元207產生的新的用戶身分標識，作為臨時用戶身分標識添加到聲紋聚類模型202中。若之後預設時間段內未接收到與該臨時用戶身分標識對應的用戶發送的語音指令，則UP模組200可以確定該與該臨時用戶身分標識對應的用戶僅為臨時出現的使用用戶，可以將其對應的相關資料刪除；若之後預設時間段內接收到與該臨時用戶身分標識對應的用戶發送的語音指令超過預設數量，則UP模組200可以確定共用型智慧設備新增加了一個穩定的使用用戶(例如，家庭中增加了保姆、配偶、子女等新成員)，則將該臨時用戶身分標識升級為一個穩定的用戶身分標識，並將該用戶身分標識添加到第一聲紋特徵資料庫203中，以及在UP資料單元204中確定與其對應的第一用戶畫像和/或第二用戶畫像，等。本說明書實施例記載的技術方案，接收用戶輸入的語音指令，從語音指令中提取第一聲紋特徵，並根據第一聲紋特徵確定用戶的身分資訊，進而根據用戶的身分資訊，以及對語音指令的識別結果，向用戶提供個性化服務，從而實現共用型智慧設備為不同用戶提供符合用戶需求的個性化服務。圖3為本說明書實施例提供的一種電子設備的結構示意圖。如圖3所示，在硬體層面，該電子設備包括處理器，可選地還包括內部匯流排、網路介面、記憶體。其中，記憶體可能包含內部記憶體，例如高速隨機存取記憶體(Random-Access Memory，RAM)，也可能還包括非易失性記憶體(non-volatile memory)，例如至少1個磁碟記憶體等。當然，該電子設備還可能包括其他業務所需要的硬體。處理器、網路介面和記憶體可以透過內部匯流排相互連接，該內部匯流排可以是ISA(Industry Standard Architecture，工業標準架構)匯流排、PCI(Peripheral Component Interconnect，外設部件互連標準)匯流排或EISA(Extended Industry Standard Architecture，延伸工業標準架構)匯流排等。所述匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。為便於表示，圖3中僅用一個雙向箭頭表示，但並不表示僅有一根匯流排或一種類型的匯流排。記憶體，存放程式。具體地，程式可以包括程式碼，所述程式碼包括電腦操作指令。記憶體可以包括內部記憶體和非易失性記憶體，並向處理器提供指令和資料。處理器從非易失性記憶體中讀取對應的電腦程式到內部記憶體中然後運行，在邏輯層面上形成語音互動裝置。處理器，執行記憶體所存放的程式，並具體執行圖1所示的方法實施例的步驟。上述如圖1所述的方法可以應用於處理器中，或者由處理器實現。處理器可能是一種積體電路晶片，具有信號的處理能力。在實現過程中，上述方法的各步驟可以透過處理器中的硬體的積體邏輯電路或者軟體形式的指令完成。上述的處理器可以是通用處理器，包括中央處理器(Central Processing Unit，CPU)、網路處理器(Network Processor，NP)等；還可以是數位訊號處理器(Digital Signal Processor，DSP)、專用積體電路(Application Specific Integrated Circuit，ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array，FPGA)或者其他可程式設計邏輯裝置、分立閘或者電晶體邏輯裝置、分立硬體元件。可以實現或者執行本說明書實施例中的公開的各方法、步驟及邏輯方塊圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。結合本說明書實施例所公開的方法的步驟可以直接體現為硬體解碼處理器執行完成，或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體，快閃記憶體、唯讀記憶體，可程式設計唯讀記憶體或者電可讀寫可程式設計記憶體、暫存器等本領域成熟的儲存媒體中。該儲存媒體位於記憶體，處理器讀取記憶體中的資訊，結合其硬體完成上述方法的步驟。該電子設備可執行圖1所示方法實施例執行的方法，並實現上述圖1所示方法實施例的功能，本說明書實施例在此不再贅述。本說明書實施例還提出了一種電腦可讀儲存媒體，該電腦可讀儲存媒體儲存一個或多個程式，該一個或多個程式包括指令，該指令當被包括多個應用程式的電子設備執行時，能夠使該電子設備執行圖1所示實施例中的語音互動方法，並具體執行圖1所示方法實施例的步驟。圖4為本說明書實施例提供的一種語音互動裝置的結構示意圖。圖4所示的裝置400可以用於執行上述圖1-圖2所示實施例的方法，裝置400包括：接收模組401，接收用戶輸入的語音指令；確定模組402，從語音指令中提取第一聲紋特徵，並根據第一聲紋特徵確定用戶的身分資訊；服務模組403，根據用戶的身分資訊，以及對語音指令的識別結果，向用戶提供個性化服務。可選地，確定模組402，進一步包括：第一確定單元，確定第一聲紋特徵資料庫，第一聲紋特徵資料庫中包括多個用戶身分標識，以及與多個用戶身分標識中任一用戶身分標識對應的第二聲紋特徵；匹配單元，將第一聲紋特徵與多個用戶身分標識中任一用戶身分標識對應的第二聲紋特徵進行匹配；第二確定單元，根據匹配結果，確定用戶對應的目標用戶身分標識，目標用戶身分標識用於表示用戶的身分資訊；其中，第一聲紋特徵與第二聲紋特徵為相同或不同的聲紋特徵。可選地，透過以下方式確定得到第一聲紋特徵資料庫：獲取歷史語音指令集合，歷史語音指令集合中包括多個歷史語音指令；提取多個歷史語音指令中任一歷史語音指令對應的第三聲紋特徵；根據多個歷史語音指令中任一歷史語音指令對應的第三聲紋特徵，對多個歷史語音指令進行聲紋聚類，得到多個用戶身分標識，以及與多個用戶身分標識中任一用戶身分標識對應的歷史語音指令；根據多個用戶身分標識中任一用戶身分標識對應的歷史語音指令，確定用戶身分標識對應的第二聲紋特徵；其中，第二聲紋特徵和第三聲紋特徵為相同或不同的聲紋特徵。可選地，第二確定單元，具體用於：當第一聲紋特徵與多個用戶身分標識中的一個用戶身分標識對應的第二聲紋特徵之間的匹配度大於預設閾值時，將該用戶身分標識確定為目標用戶身分標識。可選地，第二確定單元，具體用於：當第一聲紋特徵與多個用戶身分標識中任一用戶身分標識對應的第二聲紋特徵之間的匹配度均不大於預設閾值時，在第一聲紋特徵資料庫中增加一個新的用戶身分標識。可選地，確定模組402，還用於：根據用戶身分標識對應的第二聲紋特徵，確定用戶身分標識對應的第一用戶畫像；用戶身分標識對應的第一用戶畫像，用於反映與用戶身分標識對應的用戶的年齡和/或性別。可選地，確定模組402，具體用於：確定第二聲紋特徵資料庫，第二聲紋特徵資料庫中包括不同用戶畫像對應的第四聲紋特徵；將用戶身分標識對應的第二聲紋特徵，與不同用戶畫像對應的第四聲紋特徵進行匹配；根據匹配結果，確定用戶身分標識對應的第一用戶畫像；其中，第二聲紋特徵與第四聲紋特徵為相同或不同的聲紋特徵。可選地，確定模組402，還用於：根據用戶身分標識對應的歷史語音指令，確定用戶身分標識對應的第二用戶畫像；用戶身分標識對應的第二用戶畫像，用於反映與用戶身分標識對應的用戶的個性化需求。可選地，確定模組402，具體用於：將用戶身分標識對應的歷史語音指令轉換為文字指令；根據預設規則對文字指令進行分析；根據分析結果，確定用戶身分標識對應的第二用戶畫像。可選地，服務模組403，具體用於：確定目標用戶身分標識對應的第一用戶畫像和第二用戶畫像；根據目標用戶身分標識對應的第一用戶畫像和第二用戶畫像，以及對語音指令的識別結果，向用戶提供個性化服務。可選地，裝置400為智慧音箱，向用戶提供個性化服務包括下述至少一種：音樂推薦和聊天。可選地，聲紋特徵包括下述至少一種：語言、音色、音調、語速、口音，和頻譜。根據語音互動裝置，接收模組接收用戶輸入的語音指令；確定模組從語音指令中提取第一聲紋特徵，並根據第一聲紋特徵確定用戶的身分資訊；服務模組根據用戶的身分資訊，以及對語音指令的識別結果，向用戶提供個性化服務，從而實現共用型智慧設備為不同用戶提供符合用戶需求的個性化服務。在20世紀90年代，對於一個技術的改進可以很明顯地區分是硬體上的改進(例如，對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而，隨著技術的發展，當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都透過將改進的方法流程程式設計到硬體電路中來得到相應的硬體電路結構。因此，不能說一個方法流程的改進就不能用硬體實體模組來實現。例如，可程式設計邏輯裝置(Programmable Logic Device, PLD)(例如現場可程式設計閘陣列(Field Programmable Gate Array，FPGA))就是這樣一種積體電路，其邏輯功能由用戶對裝置程式設計來確定。由設計人員自行程式設計來把一個數位系統“集成”在一片PLD上，而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且，如今，取代手工地製作積體電路晶片，這種程式設計也多半改用“邏輯編譯器(logic compiler)”軟體來實現，它與程式開發撰寫時所用的軟體編譯器相類似，而要編譯之前的原始程式碼也得用特定的程式設計語言來撰寫，此稱之為硬體描述語言(Hardware Description Language，HDL)，而HDL也並非僅有一種，而是有許多種，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚，只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式設計並程式設計到積體電路中，就可以很容易得到實現該邏輯方法流程的硬體電路。控制器可以按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit，ASIC)、可程式設計邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以透過將方法步驟進行邏輯程式設計來使得控制器以邏輯閘、開關、專用積體電路、可程式設計邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的，電腦例如可以為個人電腦、膝上型電腦、行動電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。為了描述的方便，描述以上裝置時以功能分為各種單元分別描述。當然，在實施本發明時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。本領域內的技術人員應明白，本發明的實施例可提供為方法、系統或電腦程式產品。因此，本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器，使得透過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上，使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。在一個典型的配置中，計算設備包括一個或多個處理器 (CPU)、輸入/輸出介面、網路介面和內部記憶體。內部記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體 (RAM) 和/或非易失性記憶體等形式，如唯讀記憶體 (ROM) 或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體 (PRAM)、靜態隨機存取記憶體 (SRAM)、動態隨機存取記憶體 (DRAM)、其他類型的隨機存取記憶體 (RAM)、唯讀記憶體 (ROM)、電可擦除可程式設計唯讀記憶體 (EEPROM)、快閃記憶體或其他內部記憶體技術、唯讀光碟唯讀記憶體 (CD-ROM)、數位多功能光碟 (DVD) 或其他光學儲存、磁盒式磁帶，磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒體不包括暫存電腦可讀媒體 (transitory media)，如調變的資料信號和載波。還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。本發明可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式運算環境中實踐本發明，在這些分散式運算環境中，由透過通信網路而被連接的遠端處理設備來執行任務。在分散式運算環境中，程式模組可以位於包括存放裝置在內的本地和遠端電腦儲存媒體中。本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。以上所述僅為本發明的實施例而已，並不用於限制本發明。對於本領域技術人員來說，本發明可以有各種更改和變化。凡在本發明的精神和原理之內所作的任何修改、等同替換、改進等，均應包含在本發明的申請專利範圍之內。

200:用戶畫像模組 201:聲紋提取單元 202:聲紋聚類模型 203:第一聲紋特徵資料庫 204:用戶畫像資料單元 205:自動語言識別單元 206:獲得標識單元 207:新增標識單元 400:裝置 401:接收模組 402:確定模組 403:服務模組

此處所說明的圖式用來提供對本發明的進一步理解，構成本發明的一部分，本發明的示意性實施例及其說明用於解釋本發明，並不構成對本發明的不當限定。在圖式中：圖1為本說明書實施例提供的一種語音互動方法的流程示意圖；圖2為為本說明書實施例提供的用戶畫像模組的示意圖；圖3為本說明書實施例提供的一種電子設備的結構示意圖；圖4為本說明書實施例提供的一種語音互動裝置的結構示意圖。

Claims

一種語音互動方法，包括：接收用戶輸入的語音指令；從該語音指令中提取第一聲紋特徵，並根據該第一聲紋特徵確定該用戶的身分資訊；根據該用戶的身分資訊，以及對該語音指令的識別結果，向該用戶提供個性化服務。
如申請專利範圍第1項所述的方法，根據該第一聲紋特徵確定該用戶的身分資訊，包括：確定第一聲紋特徵資料庫，該第一聲紋特徵資料庫中包括多個用戶身分標識，以及與該多個用戶身分標識中任一用戶身分標識對應的第二聲紋特徵；將該第一聲紋特徵與該多個用戶身分標識中任一用戶身分標識對應的該第二聲紋特徵進行匹配；根據匹配結果，確定該用戶對應的目標用戶身分標識，該目標用戶身分標識用於表示該用戶的身分資訊；其中，該第一聲紋特徵與該第二聲紋特徵為相同或不同的聲紋特徵。
如申請專利範圍第2項所述的方法，透過以下方式確定得到該第一聲紋特徵資料庫：獲取歷史語音指令集合，該歷史語音指令集合中包括多個歷史語音指令；提取該多個歷史語音指令中任一歷史語音指令對應的第三聲紋特徵；根據該多個歷史語音指令中任一歷史語音指令對應的該第三聲紋特徵，對該多個歷史語音指令進行聲紋聚類，得到該多個用戶身分標識，以及與該多個用戶身分標識中任一用戶身分標識對應的歷史語音指令；根據該多個用戶身分標識中任一用戶身分標識對應的歷史語音指令，確定該用戶身分標識對應的該第二聲紋特徵；其中，該第二聲紋特徵和該第三聲紋特徵為相同或不同的聲紋特徵。
如申請專利範圍第3項所述的方法，根據匹配結果，確定該用戶對應的目標用戶身分標識，包括：當該第一聲紋特徵與該多個用戶身分標識中的一個用戶身分標識對應的該第二聲紋特徵之間的匹配度大於預設閾值時，將該用戶身分標識確定為該目標用戶身分標識。
如申請專利範圍第4項所述的方法，還包括：當該第一聲紋特徵與該多個用戶身分標識中任一用戶身分標識對應的該第二聲紋特徵之間的匹配度均不大於該預設閾值時，在該第一聲紋特徵資料庫中增加一個新的用戶身分標識。
如申請專利範圍第3項所述的方法，還包括：根據該用戶身分標識對應的該第二聲紋特徵，確定該用戶身分標識對應的第一用戶畫像；該用戶身分標識對應的第一用戶畫像，用於反映與該用戶身分標識對應的用戶的年齡和/或性別。
如申請專利範圍第6項所述的方法，根據該用戶身分標識對應的該第二聲紋特徵，確定該用戶身分標識對應的第一用戶畫像，包括：確定第二聲紋特徵資料庫，該第二聲紋特徵資料庫中包括不同用戶畫像對應的第四聲紋特徵；將該用戶身分標識對應的該第二聲紋特徵，與該不同用戶畫像對應的該第四聲紋特徵進行匹配；根據匹配結果，確定該用戶身分標識對應的第一用戶畫像；其中，該第二聲紋特徵與該第四聲紋特徵為相同或不同的聲紋特徵。
如申請專利範圍第7項所述的方法，還包括：根據該用戶身分標識對應的歷史語音指令，確定該用戶身分標識對應的第二用戶畫像；該用戶身分標識對應的第二用戶畫像，用於反映與該用戶身分標識對應的用戶的個性化需求。
如申請專利範圍第8項所述的方法，根據該用戶身分標識對應的歷史語音指令，確定該用戶身分標識對應的第二用戶畫像，包括：將該用戶身分標識對應的歷史語音指令轉換為文字指令；根據預設規則對該文字指令進行分析；根據分析結果，確定該用戶身分標識對應的第二用戶畫像。
如申請專利範圍第9項所述的方法，根據該用戶的身分資訊，以及對該語音指令的識別結果，向該用戶提供個性化服務，包括：確定該目標用戶身分標識對應的第一用戶畫像和第二用戶畫像；根據該目標用戶身分標識對應的第一用戶畫像和第二用戶畫像，以及對該語音指令的識別結果，向該用戶提供個性化服務。
如申請專利範圍第10項所述的方法，其特徵在於，該方法應用於智慧音箱，向該用戶提供個性化服務包括下述至少一種：音樂推薦和聊天。
如申請專利範圍第2、3、7項中任一項所述的方法，其中，該聲紋特徵包括下述至少一種：語言、音色、音調、語速、口音，和頻譜。
一種語音互動裝置，用於執行如申請專利範圍第1至12項中任一項所述的語音互動方法，該裝置包括：接收模組，接收用戶輸入的語音指令；確定模組，從該語音指令中提取第一聲紋特徵，並根據該第一聲紋特徵確定該用戶的身分資訊；服務模組，根據該用戶的身分資訊，以及對該語音指令的識別結果，向該用戶提供個性化服務。
一種電子設備，包括：記憶體，存放程式；處理器，執行該記憶體儲存的程式，並具體執行如申請專利範圍第1至12項中任一項所述的語音互動方法。
一種電腦可讀儲存媒體，該電腦可讀儲存媒體儲存一個或多個程式，該一個或多個程式當被包括多個應用程式的電子設備執行時，使得該電子設備執行如申請專利範圍第1至12項中任一項所述的語音互動方法。