TW202032534A

TW202032534A - 語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品

Info

Publication number: TW202032534A
Application number: TW109102123A
Authority: TW
Inventors: 王杰; 鍾貴平; 李寶祥; 吳本谷; 陳江
Original assignee: 大陸商北京獵戶星空科技有限公司
Priority date: 2019-01-30
Filing date: 2020-01-21
Publication date: 2020-09-01
Also published as: CN111508497A; TWI752406B; WO2020156342A1; CN111508497B

Abstract

本發明為一種語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品，該方法包括：獲取輸入語音以及輸入語音對應的使用者ID；根據使用者ID，在解碼網路中，搜索輸入語音對應的最優路徑，解碼網路中各詞節點之間的路徑標記有使用者ID；根據最優路徑確定輸入語音對應的文本資訊。本發明實施例提供的技術方案，基於一套解碼網路，即可為使用者提供個性化的語音辨識服務，同時大大節省了硬體資源。

Description

語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品

本發明屬於語音辨識技術領域，尤其關於一種語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品。

語音辨識系統中主要包含一套聲學模型、語言模型和解碼器。語音辨識的準確度主要依賴於語言模型，隨著使用者個性化需要越來越高，需要為不同的使用者訓練不同的語言模型，以提供專有的語音辨識服務。目前，個性化語言模型的訓練方法都是利用使用者自身的語料對通用語言模型進行訓練，以生成使用者專有的語言模型，並針對每個使用者部署一套專門的語音辨識服務，通過週期性更新語言模型來滿足使用者個性化需求。

本發明實施例提供一種語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品，以解決現有技術中為滿足使用者個性化定制的需求，需要為每個使用者部署一套專門的語音辨識服務，造成資源的嚴重浪費的問題。

第一方面，本發明一實施例提供了一種語音辨識方法，包括：獲取輸入語音以及輸入語音對應的使用者ID；根據使用者ID，在解碼網路中，搜索輸入語音對應的最優路徑，解碼網路中各詞節點之間的路徑標記有使用者ID；根據最優路徑確定輸入語音對應的文本資訊。

可選地，該根據該使用者ID，在解碼網路中，搜索該輸入語音對應的最優路徑，包括：根據該解碼網路中各詞節點之間的路徑標記的該使用者ID對應的概率分值，確定該輸入語音對應的最優路徑。

可選地，該根據該使用者ID，在解碼網路中，搜索該輸入語音對應的最優路徑，包括：根據該使用者ID，獲取該使用者ID對應的語言模型；根據該使用者ID對應的語言模型，在該解碼網路中，搜索該輸入語音對應的最優路徑。

可選地，該解碼網路是基於全量詞典構建得到的。

可選地，通過如下方式更新該使用者ID對應的語言模型：確定該使用者ID對應的語言模型需要更新；根據該使用者ID對應的語料庫中的語料，更新該語言模型，並確定該解碼網路中各詞節點之間的路徑對應的最新概率得分；根據該最新概率得分，更新該解碼網路中對應的詞節點之間的路徑標記的該使用者ID對應的概率得分。

可選地，該確定該使用者ID對應的語言模型需要更新，包括：檢測該使用者ID對應的語料庫是否有更新；若該使用者ID對應的語料庫有更新，確定該使用者ID對應的語言模型需要更新。

可選地，該檢測該使用者ID對應的語料庫是否有更新，包括：計算該使用者ID對應的語料庫中的所有語料的第一摘要值；將該第一摘要值與第二摘要值進行比較，若不相同，則確認該使用者ID對應的語料庫有更新，該第二摘要值為最近一次更新後該使用者ID對應的語料庫中所有語料的摘要值。

可選地，在確定該使用者ID對應的語言模型需要更新之後，還包括：根據該解碼網路中各詞節點在該使用者ID對應的語料庫中出現的頻率，得到各個詞節點對應該使用者ID的出現頻率分值；針對該解碼網路中的每個音素節點，選擇該音素節點對應的目標詞節點對應該使用者ID的出現頻率分值中的最大值，確定為該音素節點到該各目標詞節點的路徑對應該使用者ID的最新前瞻概率；根據該最新前瞻概率，更新該解碼網路中的音素節點到目標詞節點的路徑的與該使用者ID對應的前瞻概率。

可選地，根據該解碼網路中各詞節點在該使用者ID對應的語料庫中出現的頻率，得到各個詞節點對應的出現頻率分值，包括：確定該解碼網路中與該使用者ID對應的語料庫中的語料對應的詞節點在該語料庫中出現的頻率；針對該語料庫中的語料對應的詞節點，對該詞節點的頻率進行歸一化，得到該詞節點對應的出現頻率分值。

第二方面，本發明一實施例提供了一種語音辨識裝置，包括：獲取模組，用於獲取輸入語音以及輸入語音對應的使用者ID；解碼模組，用於根據使用者ID，在解碼網路中，搜索輸入語音對應的最優路徑，解碼網路中各詞節點之間的路徑標記有使用者ID；確定模組，用於根據最優路徑確定輸入語音對應的文本資訊。

可選地，該解碼模組具體用於：根據該解碼網路中各詞節點之間的路徑標記的該使用者ID對應的概率分值，確定該輸入語音對應的最優路徑。

可選地，該解碼模組具體用於：根據該使用者ID，獲取該使用者ID對應的語言模型；根據該使用者ID對應的語言模型，在該解碼網路中，搜索該輸入語音對應的最優路徑。

可選地，該解碼網路是基於全量詞典構建得到的。

可選地，還包括模型更新模組，用於：確定該使用者ID對應的語言模型需要更新；根據該使用者ID對應的語料庫中的語料，更新該語言模型，並確定該解碼網路中各詞節點之間的路徑對應的最新概率得分；根據該最新概率得分，更新該解碼網路中對應的詞節點之間的路徑標記的該使用者ID對應的概率得分。

可選地，該模型更新模組具體用於：檢測該使用者ID對應的語料庫是否有更新；若該使用者ID對應的語料庫有更新，確定該使用者ID對應的語言模型需要更新。

可選地，該模型更新模組具體用於：計算該使用者ID對應的語料庫中的所有語料的第一摘要值；將該第一摘要值與第二摘要值進行比較，若不相同，則確認該使用者ID對應的語料庫有更新，該第二摘要值為最近一次更新後該使用者ID對應的語料庫中所有語料的摘要值。

可選地，該模型更新模組還用於：根據該解碼網路中各詞節點在該使用者ID對應的語料庫中出現的頻率，得到各個詞節點對應該使用者ID的出現頻率分值；針對該解碼網路中的每個音素節點，選擇該音素節點對應的目標詞節點對應該使用者ID的出現頻率分值中的最大值，確定為該音素節點到該各目標詞節點的路徑對應該使用者ID的最新前瞻概率；根據該最新前瞻概率，更新該解碼網路中的音素節點到目標詞節點的路徑的與該使用者ID對應的前瞻概率。

可選地，該模型更新模組具體用於：確定該解碼網路中與該使用者ID對應的語料庫中的語料對應的詞節點在該語料庫中出現的頻率；針對該語料庫中的語料對應的詞節點，對該詞節點的頻率進行歸一化，得到該詞節點對應的出現頻率分值。

第三方面，本發明一實施例提供了一種電子設備，包括收發機、記憶體、處理器及存儲在記憶體上並可在處理器上運行的電腦程式，其中，收發機用於在處理器的控制下接收和發送資料，處理器執行程式時實現上述任一種方法的步驟。

第四方面，本發明一實施例提供了一種電腦可讀存儲介質，其上存儲有電腦程式指令，該程式指令被處理器執行時實現上述任一種方法的步驟。

第五方面，本發明還提供了一種電腦程式產品，該電腦程式產品包括存儲在電腦可讀存儲介質上的電腦程式，該電腦程式包括程式指令，該程式指令被處理器執行時實現上述任一語音辨識方法的步驟。

本發明實施例提供的技術方案，在構建的解碼網路中各詞節點之間的路徑上標記使用者ID，使得在利用解碼網路識別語音的過程中，能夠根據使用者ID，僅搜索標記有該使用者ID的路徑，在從搜索到的多條路徑中選出最優路徑，根據最優路徑確定輸入語音對應的文本資訊，使得不同使用者能夠基於同一解碼網路得到不同的識別結果。因此，在伺服器端僅需部署一套解碼網路，該解碼網路融合了多個使用者專屬的語言模型，能夠為多個使用者提供個性化的語音辨識服務，同時節省了硬體資源。

10:使用者

11:智慧設備

12:伺服器

80:語音辨識裝置

801:獲取模組

802:解碼模組

803:確定模組

90:電子設備

901:處理器

902:記憶體

903:收發機

SA₁-SA₃:聲學得分

ID₁-ID₃:使用者ID

SL₁-SL₃:路徑的概率得分

LA₁-LA₃:前瞻概率

S201-S203:步驟

S701-S703:步驟

圖1為本發明實施例提供的語音辨識方法的應用場景示意圖；

圖2為本發明一實施例提供的語音辨識方法的流程示意圖；

圖3為本發明實施例提供的解碼網路中局部網路的一個示例；

圖4為本發明實施例提供的解碼網路中詞節點間的路徑的一個示例；

圖5為本發明實施例提供的解碼網路中局部網路的另一個示例；

圖6為本發明實施例提供的基於多個使用者的語言模型構建的解碼網路中局部網路的一個示例；

圖7為本發明實施例提供的更新一個使用者ID對應的語言模型的方法的流程示意圖；

圖8為本發明一實施例提供的語音辨識裝置的結構示意圖；

圖9為本發明一實施例提供的電子設備的結構示意圖。

為利貴審查委員了解本發明之技術特徵、內容與優點及其所能達到之功效，茲將本發明配合附圖，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍，合先敘明。

為了方便理解，下面對本發明實施例中涉及的名詞進行解釋：語言模型(Language Model，LM)的目的是建立一個能夠描述給定詞序列在語言中的出現的概率的分佈。也就是說，語言模型是描述詞彙概率分佈的模型，一個能可靠反應語言識別時用詞的概率分佈的模型。語言模型在自然語言處理中佔有重要的地位，在語音辨識、機器翻譯等領域得到了廣泛應用。例如，利用語言模型能夠得到語音辨識多種詞序列中可能性最大的一個詞序列，或者給定若干詞，預測下一個最可能出現的詞語等。常用的語言模型包括N-Gram LM(N元語言模型)、Big-Gram LM(二元語言模型)、Tri-Gram LM(三元語言模型)。

聲學模型(AM，Acoustic model)是語音辨識系統中最為重要的部分之一，是把語音的聲學特徵分類對應到音素的模型。目前的主流系統多採用隱瑪律科夫模型進行建模。

詞典是字詞對應的音素集合，描述了詞彙和音素之間的映射關係。

音素(phone)，是語音中的最小的單位，依據音節裡的發音動作來分析，一個動作構成一個音素。漢語中的音素分為聲母、韻母兩大類，例如，聲母包括：b、p、m、f、d、t、等，韻母包括：a、o、e、i、u、ü、ai、ei、ao、an、ian、ong、iong等。英語中的音素分為母音、輔音兩大類，例如，母音有a、e、ai等，輔音有p、t、h等。

前瞻概率(look-ahead probability)：為了在解碼的中間過程中不會裁剪掉聲學得分較低的路徑，一般採取將基於語言模型得到的表徵各個詞出現的頻率的出現概率分值分解至樹杈的技術即語言模型look-ahead技術，即在解碼網路中音素節點到詞節點的路徑上就引入詞節點對應的出現概率分值，並且將出現概率分值中的最大值作為音素節點到所有能夠到達的詞節點的路徑上的前瞻概率，在計算音素節點到詞節點的路徑的得分時，將前瞻概率增加到該路徑的得分中，這樣可顯著提高一些聲學得分較低但概率得分較高的路徑的得分，以避免剪枝過程中剪去這類路徑。

附圖中的任何元素數量均用於示例而非限制，以及任何命名都僅用於區分，而不具有任何限制含義。

在具體實踐過程中，個性化語言模型的訓練方法都是利用使用者自身的語料對通用語言模型進行訓練，以生成使用者專有的語言模型，並針對每個使用者部署一套專門的語音辨識服務，通過週期性更新語言模型來滿足使用者個性化需求。但是，為每個使用者部署一套專門的語音辨識服務的方式，會造成資源的嚴重浪費，產生巨大的開銷。

為此，本發明的發明人考慮到，在構建的解碼網路中各詞節點之間的路徑上標記使用者ID，使得在利用解碼網路識別語音的過程中，能夠根據使用者ID，僅搜索標記有該使用者ID的路徑，在從搜索到的多條路徑中選出最優路徑，根據最優路徑確定輸入語音對應的文本資訊，使得不同使用者能夠基於同一解碼網路得到不同的識別結果。因此，在伺服器端僅需部署一套解碼網路，該解碼網路融合了多個使用者專屬的語言模型，能夠為多個使用者提供個性化的語音辨識服務，同時節省了硬體資源。

此外，採用全量詞表構建解碼網路，使得構建的解碼網路能夠適用於多個使用者，在添加新使用者時，不需要重新構建解碼網路，也就不需要重啟解碼器，從而實現了線上新添加新使用者，保證使用者能不間斷地獲取到語音辨識服務，提高使用者體驗。基於全量詞表構建的解碼網路，還能夠實現線上更新各個使用者對應的語言模型，當某一使用者的語言模型需要更新時，只需要根據該使用者更新後的語言模型重新計算解碼網路中詞節點間路徑的概率得分，並基於解碼網路中的使用者ID更新該使用者在解碼網路中的概率得分，就可以將更新後的語言模型帶來的變化引入解碼網路，解碼網路通過更新概率得分後的解碼網路進行路徑搜索，從而得到符合該使用者個性化需求的識別結果。因此，在伺服器端僅需部署一套解碼器，即可為各個使用者訓練出其專屬的語言模型，為使用者提供個性化的語音辨識服務，並且實現了語言模型的線上更新，及時更新使用者的語言模型，並保證使用者能不間斷地獲取到語音辨識服務，提高使用者體驗。

在介紹了本發明的基本原理之後，下面具體介紹本發明的各種非限制性實施方式。

首先參考圖1，其為本發明實施例提供的語音辨識方法的應用場景示意圖。多個使用者10共同使用同一伺服器12中的解碼器提供的語音辨識服務。使用者10與智慧設備11互動過程中，智慧設備11將使用者10輸入的語音信號發送給伺服器12，伺服器12通過解碼器中的解碼網路對語音信號進行解碼處理，得到語音信號對應的文本資訊，並將解碼得到的文本資訊回饋給智慧設備11，完成語音辨識服務。

這種應用場景下，智慧設備11和伺服器12之間通過網路進行通信連接，該網路可以為局域網、廣域網路等。智慧設備11可以為智慧音箱、機器人等，也可以為可攜式裝置(例如：手機、平板、筆記型電腦等)，還可以為個人電腦(PC，Personal Computer)，伺服器12可以為任何能夠提供語音辨識服務的伺服器設備。

下面結合圖1所示的應用場景，對本發明實施例提供的技術方案進行說明。

參考圖2，本發明實施例提供一種語音辨識方法，包括以下步驟：

S201、獲取輸入語音以及輸入語音對應的使用者ID。

具體實施時，可由智慧終端機將採集到的輸入語音以及使用者ID發送給伺服器，由伺服器根據使用者ID對輸入語音進行語音辨識。本實施例中，一個使用者ID對應一個語言模型，並利用各個使用者ID對應的語料庫中的語料，訓練各個使用者專用的語言模型。

本實施例中的使用者ID可以企業級的，即使用者ID用於標識一個不同的企業，一個企業對應的一個語言模型，該企業下的智慧設備使用一個語言模型。使用者ID還可以是設備級的，即使用者ID用於標識一類或一個設備，一類設備或一個設備對應一個語言模型，例如智慧音箱對應一個關於音樂的語言模型，聊天機器人對一個關於聊天的語言模型，這樣不同的設備可使用同一解碼網路。使用者ID還可以是應用級的，即不同應用對應一個語言模型，該應用下的智慧設備使用一個語言模型。等等。本發明實施例中不對使用者ID的具體實現進行限定，可根據實際應用場景或需求進行配置。

S202、根據使用者ID，在解碼網路中，搜索輸入語音對應的最優路徑，解碼網路中各詞節點之間的路徑標記有使用者ID。

本實施例中，多個使用者ID共同使用一個解碼網路。解碼網路為表示音素與詞以及詞與詞之間關係的網路圖。

為實現多個使用者共用一個解碼網路，可基於聲學模型以及這多個使用者對應的語料庫和語言模型來構建解碼網路，具體構建方法如下：

第一步，基於各使用者ID對應的語料庫中的語料，得到包含語料庫中所有詞彙的詞典，把詞典中的詞彙轉換為音素串，例如，「開」的音素串為「k-ai」，「北京」的音素串為「b-ei-j-ing」，一個詞彙的音素串以及該詞彙組成一條路徑，例如，「開」對應的路徑為「k-ai-開」，「北京」對應的路徑為「b-ei-j-ing- 北京」。

第二步，對詞典中所有詞彙對應的路徑中的節點進行合併，即將各路徑中相同的音素合併為一個節點，以將所有詞彙對應的音素串組成一個網路，一個音素作為該網路中的一個音素節點。

圖3給出了解碼網路中局部網路的一個示例。其中，「卡」、「開」、「科」等詞的音素串中的「k」合併為一個網路中的一個節點。網路中每條路徑的最後一個節點對應該條路徑上的音素組成的音素串對應的詞彙，如圖3中，「k-a-卡」對應的詞彙為「卡」，「k-a-ch-e-卡車」對應的詞彙為「卡車」。

為描述方便，本實施例中，將解碼網路中的音素對應的節點稱為音素節點，將詞彙對應的節點稱為詞節點。

由於大量相同的節點被合併在一起，因此可以顯著降低搜索空間的規模，減少解碼過程的運算量。基於詞典生成解碼網路的方法為現有技術，不再贅述。

第三步，根據聲學模型確定上述第二步中構建的解碼網路中相連的音素節點間的聲學得分。

本實施例中，多個使用者可共用一個聲學模型。

第四步，針對各使用者ID，根據該使用者ID的語言模型，確定詞典中詞和詞之間的連接關係和概率得分，根據連接關係在上述第二步中構建的解碼網路中建立詞與詞之間的連接路徑，並在詞節點之間的路徑上標記使用者ID以及該使用者的概率得分。

具體實施時，根據語言模型能夠確定在一個詞W₁之後出現另一個詞W₂的條件概率p(W₂|W₁)，將條件概率p(W₂|W₁)作為從詞W₁到W₂的概率得分。

例如，訓練語言模型的語料中包括「我家在北京」，語料中的詞彙包括「我」、「家」、「在」、「北京」，則在解碼網路中，詞節點「我」和「家」之間相連，「家」和「在」之相連，「在」和「北京」之間建立連接，再根據語言模型確定「我」和「家」、「家」和「在」、「在」和「北京」之間的概率得分。如圖4為解碼網路中詞節點間的路徑的一個示例，圖4中隱去了音素節點和詞節點間的網路關係。需要說明的是，解碼網路中詞節點和詞節點之間實際的連接方式如圖5所示，詞節點「我」與「家」的第一個音素節點連接，SA₁、SA₂、SA₃表示聲學得分，SL₁表示使用者ID₁對應的詞節點「我」到「家」的路徑的概率得分，SL₂表示使用者ID₂對應的詞節點「我」到「家」的路徑的概率得分。

通過第四步，將各使用者ID的概率得分標記到解碼網路中對應的路徑上，使得解碼時，能夠根據使用者ID，選擇該使用者對應的路徑，並基於對應路徑上的概率得分，確定輸入語音的最優路徑。

通過上述四個步驟就可以得到可供多個使用者共同使用的一個解碼網路。將構建好的解碼網路預先載入到伺服器的解碼器中，即可為這多個使用者提供語音辨識服務。

S203、根據最優路徑確定輸入語音對應的文本資訊。

基於上述任一實施例，語音辨識的過程包括：對語音信號進行預處理，提取語音信號的聲學特徵向量，然後，將聲學特徵向量輸入聲學模型，得到音素序列；基於音素序列和語音信號對應的使用者ID，在解碼網路中搜索一條得分最高的路徑作為最優路徑，將最優路徑對應的文字序列確定為該語音信號的識別結果。其中，根據各條路徑的總得分確定最優路徑，路徑的總得分根據路徑上的聲學得分和使用者ID對應的概率得分確定，具體可通過以下公式計算一條路徑上的解碼得分：

其中，L為一條解碼路徑，SA _i為路徑L上的第i個聲學得分，SL _j,x為路徑L上的使用者ID為x的使用者對應的第j個概率得分。以圖5為例，使用者ID₁對應的解碼結果「我家」的得分為(logSA₁+logSA₂+logSA₃+logSL₁)。

本發明實施例的方法，在解碼網路中各詞節點之間的路徑上標記了使用者ID，在搜索路徑時，根據路徑上的使用者ID選擇該使用者可使用的路徑，使得不同使用者能夠基於同一解碼網路得到不同的識別結果。參考圖6，為基於多個使用者的語言模型生成的解碼網路的局部示例，由於篇幅限制，圖6中部分音素節點未示出。以圖6為例，在對使用者ID₁的語音信號進行識別時，詞節點「在」和「北京」之間的路徑標記有「ID₁」，此時，選擇的路徑是「在-北京」，而不會選擇圖6中的其它兩條路徑；在對使用者ID₂的語音信號進行識別時，選擇的路徑是「在-蘇州」和「在-江蘇」這兩條標記有ID₂的路徑。

因此，本發明實施例的語音辨識方法，在伺服器端僅需部署一套解碼網路，該解碼網路融合了多個使用者專屬的語言模型，能夠為多個使用者提供個性化的語音辨識服務，同時節省了硬體資源。

作為一種可能的實現方式，步驟S202具體包括：根據解碼網路中各詞節點之間的路徑標記的使用者ID對應的概率分值，確定輸入語音對應的最優路徑。

具體地，根據不同使用者的語言模型會得到不同的概率得分，對同一路徑來說，不同的概率得分會導致出現完全不同的識別結果。因此，本發明實施例在解碼網路中利用使用者ID對不同使用者的概率得分進行區分，使得多個使用者能共用一個解碼網路。解碼時，根據當前使用解碼網路的使用者的使用者ID，取解碼網路路徑上標記有該使用者ID的概率得分計算各條路徑的總得分，選擇總得分最高的路徑作為最優路徑，基於最優路徑上的詞節點對應的詞彙，得到語音辨識結果。參考圖6，「在」和「北京」之間標注有「ID₁」和「SL₁」，表示解碼時只有使用者ID₁可以使用該路徑，且對應的概率得分為SL₁；「在」和「蘇州」之間標注有「ID₂」和「SL₂」，表示解碼時只有使用者ID₂可以使用該路徑，且對應的概率得分為SL₂；「在」和「江蘇」之間標注有「ID₂」、「SL₂」、「ID₃」、「SL₃」，表示解碼時使用者ID₂和ID₃都使用該路徑，且使用者ID₂通過該路徑時的概率得分為SL₂，使用者ID₃通過該路徑時的概率得分為SL₃。

作為一種可能的實現方式，步驟S202具體包括：根據使用者ID，在解碼網路中，搜索輸入語音對應的最優路徑，包括：根據使用者ID，獲取使用者ID對應的語言模型；根據使用者ID對應的語言模型，在解碼網路中，搜索輸入語音對應的最優路徑。

具體實施時，每個使用者ID對應一個語言模型，該語言模型是基於使用者ID對應的語料庫中的語料訓練得到的，基於輸入語音對應的使用者ID獲取到使用者ID對應的語言模型，利用使用者ID對應的語言模型，在解碼網路中，搜索輸入語音對應的最優路徑，為不同使用者提供個性化的語音辨識服務。由於在進行語音辨識服務的時候，會提前根據使用者ID將其獨有的語言模型載入到解碼器中，而其他使用者ID的語言模型無法載入到解碼器中，以此來達到多個使用者共用一套通用解碼網路，而又保持自己特色的語言模型的服務方式。

在上述任一實施例的基礎上，為了使得構建的解碼網路能夠適用於更多的使用者，本發明實施例採用全量詞典構建多個使用者共用的解碼網路。

本發明實施例中的全量詞典為包含大量常用詞彙的詞典。具體實施時，全量詞典包含的詞彙的數量在10萬以上，能夠涵蓋多個領域不同的主題，全量詞典中的詞彙包括字和詞語。全量詞典能夠覆蓋所有使用者ID對應的語料庫中包含的詞彙。

基於全量詞典構建多個使用者共用的解碼網路的方法，與上述基於多個使用者對應的語料庫構建解碼網路的方法類似，不再贅述。

當有新的使用者需要使用解碼網路時，只需要根據該使用者對應的語料庫中的語料訓練通用語言模型，得到該使用者專屬的語言模型，然後，根據該使用者的語言模型，確定解碼網路中各詞節點之間的路徑對應的概率得分，在解碼網路中各詞節點之間的路徑上，標記該使用者的使用者ID和對應的概率得分。

本發明實施例的方法，採用全量詞典構建解碼網路，使得構建的解碼網路能夠適用於更多使用者，此外，在添加新使用者時，解碼網路中的節點(包括詞節點和音素節點)不需要重構，即，不需要重新構建解碼網路，也就不需要重啟解碼器，從而實現了線上新添加新使用者，保證使用者能不間斷地獲取到語音辨識服務，提高使用者體驗。

基於上述任一實施例，如圖7所示，基於全量詞典構建的解碼網路，本發明實施例可通過如下步驟更新每個使用者ID對應的語言模型：S701、確定使用者ID對應的語言模型需要更新。

進一步地，可通過如下步驟確定使用者ID對應的語言模型需要更新：檢測使用者ID對應的語料庫是否有更新；若使用者ID對應的語料庫有更新，確定使用者ID對應的語言模型需要更新。

具體實施時，收集各個使用者ID對應的語料，並將語料存儲到該使用者ID對應的語料庫中，例如，針對智慧音箱，可收集音樂相關的語料；對於個人使用者，可收集該使用者使用智慧設備時輸入的語料，存儲到該使用者的語料庫中，以不斷更新該使用者的語言模型，提高語音辨識的準確度。可定時或週期性檢測各個使用者ID對應的語料庫中的語料是否有更新，若檢測到某一使用者ID對應的語料庫中的語料有更新，則利用該使用者ID對應的語料庫中的語料對該使用者ID對應的語言模型進行訓練，以更新該使用者ID對應的語言模型。其中，檢測的時間或檢測週期可根據實際情況進行設置，本實施例不作限定。通過設置定時或週期性檢測的任務，能夠定時檢測語料庫是否有更新，並及時更新語言模型，使得模型更新的過程更加自動化，節省了人力。

作為一種可能的實現方式，可通過如下步驟檢測語料庫中的語料是否有更新：計算使用者ID對應的語料庫中的所有語料的第一摘要值；將第一摘要值與第二摘要值進行比較，若第一摘要值與第二摘要值不相同，則確認使用者ID對應的語料庫有更新；若第一摘要值與第二摘要值相同，則確認使用者ID對應的語料庫未更新，不需要更新該使用者ID對應的語言模型。其中，第二摘要值為最近一次更新後使用者ID對應的語料庫中所有語料的摘要值。

具體實施時，可採用MD5消息摘要演算法(MD5 Message-Digest Algorithm)生成語料庫中所有語料的摘要值。每次更新完一個使用者ID對應的語言模型後，可存儲該使用者ID對應的語料庫的第一摘要值，作為下一次檢測該語料庫是否有更新時使用的第二摘要值。

S702、根據使用者ID對應的語料庫中的語料，更新語言模型，並確定解碼網路中各詞節點之間的路徑對應的最新概率得分。

S703、根據最新概率得分，更新解碼網路中對應的詞節點之間的路徑標記的使用者ID對應的概率得分。

具體實施時，根據使用者ID對應的語料庫中的語料更新語言模型，並根據更新後的語言模型重新確定使用者ID對應的語料庫中出現的各個詞之間的條件概率，作為對應的各詞節點之間的路徑對應的最新概率得分，根據最新概率得分，更新解碼網路中對應的詞節點之間的路徑標記的使用者ID對應的概率得分。當使用者ID對應的語言模型更新後，若新增了一條可使用的路徑，則可在解碼網路對應的路徑上增加該使用者的使用者ID和該路徑對應的概率得分。以圖6為例，若使用者ID₁的語言模型更新後，新增了「在」到「蘇州」的路徑，則在「在」到「蘇州」的路徑標記上該使用者的ID₁以及對應的概率得分。

基於上述任一實施例，基於使用者ID對應的更新後的語言模型進行語音辨識的過程大致為：對使用者ID對應的語音信號進行預處理，提取該語音信號的聲學特徵向量，然後，將聲學特徵向量輸入聲學模型，得到音素序列；基於音素序列，根據使用者ID，在解碼網路中搜索一條得分最高的路徑作為最優路徑，最優路徑對應的文字序列確定為該語音信號的識別結果。

其中，路徑的得分根據路徑上的聲學得分和使用者ID對應的概率得分確定，具體可通過以下公式計算一條路徑上的解碼得分：

其中，L為一條解碼路徑，SA _i為路徑L上的第i個聲學得分，SL _j,x為路徑L上使用者ID為x的第j個概率得分。以圖5為例，使用者ID為ID₁的使用者對應的解碼結果「我家」的得分為(logSA₁+logSA₂+logSA₃+logSL₁)。本實施例中，由於各使用者ID使用同一聲學模型，因此，每個使用者ID使用相同的聲學得分。

由於已經預先將解碼網路預先載入到解碼器中，一旦檢測到需要更新某一使用者ID對應的語言模型，只需要根據使用者ID對應的更新後的語言模型重新計算解碼網路中各詞節點間路徑上的概率得分，就可以將更新後的語言模型帶來的變化引入解碼網路，解碼器利用更新概率得分後的解碼網路進行路徑搜索，就可以解出正確結果。

本發明實施例的方法，在構建的解碼網路的路徑上標記有使用者ID，當某一使用者的語言模型需要更新時，只需要根據該使用者ID對應的更新後的語言模型重新計算解碼網路中詞節點間路徑的概率得分，並基於解碼網路中的使用者ID更新該使用者在解碼網路中的概率得分，就可以將更新後的語言模型帶來的變化引入解碼網路，解碼器通過更新概率得分後的解碼網路進行路徑搜索，從而解出符合該使用者個性化需求的結果，因此，在伺服器端僅需部署一套解碼器，即可為各個使用者訓練出其獨有的語言模型，為使用者提供個性化的語音辨識服務，同時大大節省了硬體資源。

本發明實施例的方法，採用全量詞表構建解碼網路，使得構建的解碼網路能夠適用於多個使用者，此外，在語言模型更新時，解碼網路中的節點(包括詞節點和音素節點)不需要重構，也就是說，不需要重新構建解碼網路，也就不需要重啟解碼器，從而實現了語言模型的線上更新，保證使用者能不間斷地獲取到語音辨識服務，提高使用者體驗。

基於上述任一實施例，解碼網路中各個音素節點到該音素節點能夠到達的所有詞節點的路徑上還包括各個使用者ID對應的前瞻概率。參考圖6，音素節點「b」和詞節點「北京」之間的路徑上標注有「ID₁」和「LA₁」，表示在這條路徑上，使用者ID₁對應的前瞻概率為SL₁；「s」和「蘇州」之間標注有「ID₂」和「SL₂」，表示在這條路徑上，使用者ID2對應的前瞻概率為LA₂；「j」和「江蘇」之間標注有「ID₂」、「SL₂」、「ID₃」、「SL₃」，表示在這條路徑上，使用者ID₂對應的前瞻概率為LA₂，使用者ID₃對應的前瞻概率為LA₃。

基於使用者ID對應的前瞻概率，在根據音素序列搜索對應的詞序列的過程中，路徑的得分需要加上該路徑上的前瞻概率，即，在路徑搜索時，路徑L的中間得分為：

其中，SA _i為路徑L上的第i個聲學得分，SL _j,x為路徑L上使用者ID為x的使用者對應的第j個概率得分，LA _n,x為路徑L上使用者ID為x的使用者對應的第n個前瞻概率。引入前瞻概率後，就可以在剪枝過程中提高一些路徑的得分，防止其被裁剪掉，然後，在搜索到各條可能的路徑後，再減去路徑上的前瞻概率，得到各條路徑對應的得分，即路徑的最終得分為：

最後，選取Score值最高的路徑作為解碼結果。

在構建解碼網路時，根據使用者ID對應的語言模型確定解碼網路中，各使用者ID對應的各個音素節點到該音素節點能夠到達的所有詞節點的路徑的前瞻概率。具體地，針對各使用者ID對應的前瞻概率，可通過以下公式計算得到：

其中，W(s)是指從解碼網路中的一個音素節點s開始可以到達的詞節點對應的詞的集合，h為訓練該使用者ID對應的語言模型使用的語料，p(w|h)為集合W(s)中的詞w對應的出現頻率分值，該出現頻率分值用於表徵詞w在該使用者ID對應的語料庫中出現的頻率。

本實施例中，將W(s)中的詞在解碼網路中對應的詞節點稱為音素節點s對應的目標詞節點。作為一種可能的實現方式，通過如下方式確定各個詞節點對應的出現頻率分值：確定解碼網路中與使用者ID對應的語料庫中的語料對應的詞節點在語料庫中出現的頻率；針對語料庫中的語料對應的詞節點，對該詞節點的頻率進行歸一化，得到該詞節點對應的出現頻率分值。

本實施例中，每個詞節點對應的出現頻率分值的取值在[0,1]範圍內。

舉例說明，以圖3中的節點「k」為例，針對每個使用者ID，以節點「k」為路徑的起點可到達的目標詞節點對應的詞的集合為{卡，卡車，開，開門，凱旋，科，課}，基於該使用者ID對應的語料庫，統計集合{卡，卡車，開，開門，凱旋，科，課}中的各個詞在語料庫中出現的頻率，對集合{卡，卡車，開，開門，凱旋，科，課}中的各個詞的頻率進行歸一化，得到各個詞對應的出現頻率分值p(卡|h)、p(卡車|h)、p(開|h)、p(開門|h)、p(凱旋|h)、p(科|h)、p(課|h)，取這些出現頻率分值中最大的出現頻率分值，作為在解碼網路中，節點「k」到集合{卡，卡車，開，開門，凱旋，科，課}中的各個詞節點的路徑上的該使用者ID對應的前瞻概率，利用根據該使用者ID對應的語言模型確定出的節點「k」對應的所有目標詞節點的出現頻率分值中的最大值，作為節點「k」到所有目標詞節點的所有路徑的前瞻概率，以避免在利用解碼網路解碼的過程中剪去節點「k」對應的路徑中聲學得分較低的路徑。

相應地，在確定語言模型需要更新之後，本發明實施例的模型更新方法還包括以下步驟：根據解碼網路中各詞節點在使用者ID對應的語料庫中出現的頻率，得到各個詞節點對應使用者ID的出現頻率分值；針對解碼網路中的每個音素節點，選擇音素節點對應的目標詞節點對應使用者ID的出現頻率分值中的最大值，確定為音素節點到各目標詞節點的路徑對應使用者ID的最新前瞻概率；根據最新前瞻概率，更新解碼網路中的音素節點到目標詞節點的路徑的與使用者ID對應的前瞻概率。

進一步地，根據解碼網路中各詞節點在語料庫中出現的頻率，得到各個詞節點對應的出現頻率分值，包括：確定解碼網路中與使用者ID對應的語料庫中的語料對應的詞節點在語料庫中出現的頻率；針對語料庫中的語料對應的詞節點，對該詞節點的頻率進行歸一化，得到該詞節點對應的出現頻率分值。

同樣，在更新解碼網路中的各使用者ID對應的前瞻概率時，不需要修改解碼網路中的節點(包括詞節點和音素節點)。一旦檢測到某一使用者ID對應的語言模型需要更新時，只需要根據更新後的語言模型重新計算解碼網路中各音素節點到目標詞節點的路徑的前瞻概率，然後，就可以將更新後的語言模型帶來的變化引入解碼網路，防止在路徑修剪時裁剪掉聲學得分較低的路徑，解碼器利用更新了前瞻概率後的解碼網路進行路徑搜索，就可以解出正確結果。

本發明實施例的語音辨識方法，可用於識別任意一門語言，例如漢語、英語、日語、德語等。本發明實施例中主要是以對漢語的語音辨識為例進行說明的，對其他語言的語音辨識方法與此類似，本發明實施例中不再一一舉例說明。

如圖8所示，基於與上述語音辨識方法相同的發明構思，本發明實施例還提供了一種語音辨識裝置80，包括獲取模組801、解碼模組802和確定模組803。

獲取模組801，用於獲取輸入語音以及輸入語音對應的使用者ID。

解碼模組802，用於根據使用者ID，在解碼網路中，搜索輸入語音對應的最優路徑，解碼網路中各詞節點之間的路徑標記有使用者ID。

確定模組803，用於根據最優路徑確定輸入語音對應的文本資訊。

進一步地，解碼模組802具體用於：根據解碼網路中各詞節點之間的路徑標記的使用者ID對應的概率分值，確定輸入語音對應的最優路徑。

進一步地，解碼模組802具體用於：根據使用者ID，獲取使用者ID對應的語言模型；根據使用者ID對應的語言模型，在解碼網路中，搜索輸入語音對應的最優路徑。

基於上述任一實施例，解碼網路是基於全量詞典構建得到的。

進一步地，本發明實施例的語音辨識裝置80還包括模型更新模組，用於：確定使用者ID對應的語言模型需要更新；根據使用者ID對應的語料庫中的語料，更新語言模型，並確定解碼網路中各詞節點之間的路徑對應的最新概率得分；根據最新概率得分，更新解碼網路中對應的詞節點之間的路徑標記的使用者ID對應的概率得分。

進一步地，模型更新模組具體用於：檢測使用者ID對應的語料庫是否有更新；若使用者ID對應的語料庫有更新，確定使用者ID對應的語言模型需要更新。

進一步地，模型更新模組具體用於：計算使用者ID對應的語料庫中的所有語料的第一摘要值；將第一摘要值與第二摘要值進行比較，若不相同，則確認使用者ID對應的語料庫有更新，第二摘要值為最近一次更新後使用者ID對應的語料庫中所有語料的摘要值。

基於上述任一實施例，模型更新模組還用於：根據解碼網路中各詞節點在使用者ID對應的語料庫中出現的頻率，得到各個詞節點對應使用者ID的出現頻率分值；針對解碼網路中的每個音素節點，選擇音素節點對應的目標詞節點對應使用者ID的出現頻率分值中的最大值，確定為音素節點到各目標詞節點的路徑對應使用者ID的最新前瞻概率；根據最新前瞻概率，更新解碼網路中的音素節點到目標詞節點的路徑的與使用者ID對應的前瞻概率。

進一步地，模型更新模組具體用於：確定解碼網路中與使用者ID對應的語料庫中的語料對應的詞節點在語料庫中出現的頻率；針對語料庫中的語料對應的詞節點，對該詞節點的頻率進行歸一化，得到該詞節點對應的出現頻率分值。

本發明實施例提的語音辨識裝置與上述語音辨識方法採用了相同的發明構思，能夠取得相同的有益效果，在此不再贅述。

基於與上述語音辨識方法相同的發明構思，本發明實施例還提供了一種電子設備，該電子設備具體可以為智慧設備(如機器人，智慧音箱等)的控制器，也可以為桌上型電腦、可擕式電腦、智慧手機、平板電腦、個人數位助理(Personal Digital Assistant，PDA)、伺服器等。如圖9所示，該電子設備90可以包括處理器901、記憶體902和收發機903。收發機903用於在處理器901的控制下接收和發送資料。

記憶體902可以包括唯讀記憶體(ROM)和隨機存取記憶體(RAM)，並向處理器提供記憶體中存儲的程式指令和資料。在本發明實施例中，記憶體可以用於存儲語音辨識方法的程式。

處理器901可以是CPU(中央處埋器)、ASIC(Application Specific Integrated Circuit，特殊應用積體電路)、FPGA(Field-Programmable Gate Array，現場可程式化閘陣列)或CPLD(Complex Programmable Logic Device，複雜可程式設計邏輯器件)處理器通過調用記憶體存儲的程式指令，按照獲得的程式指令實現上述任一實施例中的語音辨識方法。

本發明實施例提供了一種電腦可讀存儲介質，用於儲存為上述電子設備所用的電腦程式指令，其包含用於執行上述語音辨識方法的程式。

上述電腦存儲介質可以是電腦能夠存取的任何可用介質或資料存放裝置，包括但不限於磁性記憶體(例如軟碟、硬碟、磁帶、磁光碟(MO)等)、光學記憶體(例如CD、DVD、BD、HVD等)、以及半導體記憶體(例如ROM、EPROM、EEPROM、非易失性記憶體(NAND FLASH)、固態硬碟(SSD))等。

上列詳細說明係針對本發明之可行實施例之具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。

S201-S203:步驟

Claims

一種語音辨識方法，包括：

獲取輸入語音以及該輸入語音對應的使用者ID；

根據該使用者ID，在解碼網路中，搜索該輸入語音對應的最優路徑，該解碼網路中各詞節點之間的路徑標記有使用者ID；

根據該最優路徑確定該輸入語音對應的文本資訊。
如申請專利範圍第1項所述的語音辨識方法，該根據該使用者ID，在解碼網路中，搜索該輸入語音對應的最優路徑，包括：

根據該解碼網路中各詞節點之間的路徑標記的該使用者ID對應的概率分值，確定該輸入語音對應的最優路徑。
如申請專利範圍第1項所述的語音辨識方法，該根據該使用者ID，在解碼網路中，搜索該輸入語音對應的最優路徑，包括：

根據該使用者ID，獲取該使用者ID對應的語言模型；

根據該使用者ID對應的語言模型，在該解碼網路中，搜索該輸入語音對應的最優路徑。
如申請專利範圍第1至3項中任一項所述的語音辨識方法，該解碼網路是基於全量詞典構建得到的。
如申請專利範圍第4項所述的語音辨識方法，通過如下方式更新該使用者ID對應的語言模型：

確定該使用者ID對應的語言模型需要更新；

根據該使用者ID對應的語料庫中的語料，更新該語言模型，並確定該解碼網路中各詞節點之間的路徑對應的最新概率得分；

根據該最新概率得分，更新該解碼網路中對應的詞節點之間的路徑標記的該使用者ID對應的概率得分。
如申請專利範圍第5項所述的語音辨識方法，該確定該使用者ID對應的語言模型需要更新，包括：

檢測該使用者ID對應的語料庫是否有更新；

若該使用者ID對應的語料庫有更新，確定該使用者ID對應的語言模型需要更新。
如申請專利範圍第6項所述的語音辨識方法，該檢測該使用者ID對應的語料庫是否有更新，包括：

計算該使用者ID對應的語料庫中的所有語料的第一摘要值；

將該第一摘要值與第二摘要值進行比較，若不相同，則確認該使用者ID對應的語料庫有更新，該第二摘要值為最近一次更新後該使用者ID對應的語料庫中所有語料的摘要值。
如申請專利範圍第5項所述的語音辨識方法，在確定該使用者ID對應的語言模型需要更新之後，還包括：

根據該解碼網路中各詞節點在該使用者ID對應的語料庫中出現的頻率，得到各個詞節點對應該使用者ID的出現頻率分值；

針對該解碼網路中的每個音素節點，選擇該音素節點對應的目標詞節點對應該使用者ID的出現頻率分值中的最大值，確定為該音素節點到該各目標詞節點的路徑對應該使用者ID的最新前瞻概率；

根據該最新前瞻概率，更新該解碼網路中的音素節點到目標詞節點的路徑的與該使用者ID對應的前瞻概率。
如申請專利範圍第8項所述的語音辨識方法，根據該解碼網路中各詞節點在該使用者ID對應的語料庫中出現的頻率，得到各個詞節點對應的出現頻率分值，包括：

確定該解碼網路中與該使用者ID對應的語料庫中的語料對應的詞節點在該語料庫中出現的頻率；

針對該語料庫中的語料對應的詞節點，對該詞節點的頻率進行歸一化，得到該詞節點對應的出現頻率分值。
一種語音辨識裝置，包括：

獲取模組，用於獲取輸入語音以及該輸入語音對應的使用者ID；

解碼模組，用於根據該使用者ID，在解碼網路中，搜索該輸入語音對應的最優路徑，該解碼網路中各詞節點之間的路徑標記有使用者ID；確定模組，用於根據該最優路徑確定該輸入語音對應的文本資訊。
一種電子設備，包括收發機、記憶體、處理器及存儲在記憶體上並可在處理器上運行的電腦程式，該收發機用於在該處理器的控制下接收和發送資料，該處理器執行該程式時實現如申請專利範圍第1至9項中任一項所述的該語音辨識方法的步驟。
一種電腦可讀存儲介質，其上存儲有電腦程式指令，該程式指令被處理器執行時實現如申請專利範圍第1至9項中任一項所述的該語音辨識方法的步驟。
一種電腦程式產品，該電腦程式產品包括存儲在電腦可讀存儲介質上的電腦程式，該電腦程式包括程式指令，該程式指令被處理器執行時實現如申請專利範圍第1至9項中任一項所述的該語音辨識方法的步驟。