TW201939318A

TW201939318A - 詞向量產生方法、裝置以及設備

Info

Publication number: TW201939318A
Application number: TW107145888A
Authority: TW
Inventors: 曹紹升; 周俊
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-02-05
Filing date: 2018-12-19
Publication date: 2019-10-01
Also published as: CN110119507A; US20200279080A1; TWI686713B; WO2019149076A1; US10824819B2; SG11202004446PA

Abstract

本說明書實施例揭露詞向量產生方法、裝置以及設備。所述方法包括：獲取對語料分詞得到的各詞，基於n元字元建立各詞的特徵向量，根據各詞的特徵向量，以及各詞在語料中的上下文詞的特徵向量，對循環神經網路進行訓練，根據各詞的詞向量和訓練後的循環神經網路，產生各詞的詞向量。

Description

詞向量產生方法、裝置以及設備

本說明書係關於電腦軟體之技術領域，特別是相關於詞向量產生方法、裝置以及設備。

如今的自然語言處理的解決方案，大都採用基於神經網路的架構，而在這種架構下一個重要的基礎技術就是詞向量。詞向量是將詞映射到一個固定維度的向量，該向量表徵了該詞的語義資訊。
在現有技術中，常見的用於產生詞向量的演算法比如包括：谷歌公司的詞向量演算法、微軟公司的深度神經網路演算法等。
基於現有技術，需要一種更準確的詞向量產生方案。

本說明書實施例提供詞向量產生方法、裝置以及設備，用以解決如下技術問題：需要一種更準確的詞向量產生方案。
為解決上述技術問題，本說明書實施例是這樣實現的：
本說明書實施例提供的一種詞向量產生方法，包括：
獲取對語料分詞得到的各詞；
根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，所述n元字元表徵其對應的詞的連續n個字元；
根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練；
根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量。
本說明書實施例提供的一種詞向量產生裝置，包括：
獲取模組，獲取對語料分詞得到的各詞；
建立模組，根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，所述n元字元表徵其對應的詞的連續n個字元；
訓練模組，根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練；
產生模組，根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量。
本說明書實施例提供的另一種詞向量產生方法，包括：
步驟1，建立通過對語料分詞得到的各詞構成的詞彙表，所述各詞不包括在所述語料中出現次數少於設定次數的詞；跳至步驟2；
步驟2，確定各詞對應的各n元字元的總數量，相同的n元字元只計一次，所述n元字元表徵其對應的詞的連續n個字元；跳至步驟3；
步驟3，根據所述各詞對應的各n元字元，為各詞分別建立維度為所述總數量的特徵向量，所述特徵向量的每維分別對應一個不同的n元字元，所述每維的取值表明其對應的n元字元是否對應於所述特徵向量對應的詞；跳至步驟4；
步驟4，遍歷分詞後的所述語料，對遍歷到的當前詞執行步驟5，若遍歷完成則執行步驟6，否則繼續遍歷；
步驟5，以當前詞為中心，向兩側分別滑動至多個詞建立窗口，將窗口中除當前詞以外的詞作為上下文詞，並將所有上下文詞的特徵向量構成的序列輸入循環神經網路的序列表示層進行循環計算，得到第一向量；將當前詞以及在所述語料中選擇的負樣例詞的特徵向量輸入所述循環神經網路的全連接層進行計算，分別得到第二向量和第三向量；根據所述第一向量、所述第二向量、所述第三向量，以及指定的損失函數，更新所述循環神經網路的參數；
所述循環計算按照如下公式進行：

所述損失函數包括：

其中，表示序列表示層在時刻的輸入單元，即當前詞的第個上下文詞的特徵向量，表示序列表示層在時刻的隱藏單元，表示對當前詞的前個上下文詞的特徵向量進行循環計算得到的向量，、、表示序列表示層的權重參數，表示激勵函數，表示所述第一向量，表示所述第二向量，表示第個負樣例詞對應的所述第三向量，表示全連接層的權重參數，表示全連接層的偏移參數，表示超參數，表示相似度計算函數，表示負樣例詞的數量；
步驟6，將所述各詞的特徵向量分別輸入訓練後的所述循環神經網路的全連接層進行計算，得到對應的詞向量。
本說明書實施例提供的一種詞向量產生設備，包括：
至少一個處理器；以及，
與所述至少一個處理器通信連接的記憶體；其中，
所述記憶體儲存有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠：
獲取對語料分詞得到的各詞；
根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，所述n元字元表徵其對應的詞的連續n個字元；
根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練；
根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量。
本說明書實施例採用的上述至少一個技術方案能夠達到以下有益效果：循環神經網路可以通過循環計算，對詞的上下文整體語義資訊進行刻畫，提取更多的上下文語義資訊，而且n元字元能夠更精細地對詞進行表達，因此，有助於更準確地產生詞向量。

本說明書實施例提供詞向量產生方法、裝置以及設備。
為了使本技術領域的人員更好地理解本說明書中的技術方案，下面將結合本說明書實施例中的附圖，對本說明書實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請一部分實施例，而不是全部的實施例。基於本說明書實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例，都應當屬於本申請保護的範圍。
圖1為本說明書的方案在一種實際應用場景下相關的一種整體架構示意圖。該整體架構中，主要相關於訓練循環神經網路用以產生詞向量的伺服器。可以基於n元字元建立各詞的特徵向量，並利用特徵向量和詞的上下文關係訓練循環神經網路。其中，特徵向量可以由該伺服器或者另一設備來建立。
本說明書的方案適用於由字母構成的語言，比如英文、法文、德文、西班牙文等，也適用於由非字母元素構成但是能夠便利地映射為字母的語言，比如中文(可以映射為拼音字母)、日文(可以映射為羅馬字母)等。為了便於描述，以下各實施例主要針對英文的場景，對本說明書的方案進行說明。
圖2為本說明書實施例提供的一種詞向量產生方法的流程示意圖。從設備角度而言，該流程的執行主體比如包括以下至少一種設備：個人電腦、大中型電腦、電腦叢集、手機、平板電腦、智慧型可穿戴設備、車輛等。
圖2中的流程可以包括以下步驟：
S202：獲取對語料分詞得到的各詞。
在本說明書實施例中，所述各詞具體可以是：語料中至少出現過一次的詞中的至少部分詞。為了便於後續處理，可以將各詞保存在詞彙表中，需要使用時從詞彙表中讀取詞即可。
需要說明的是，考慮到若某詞在語料中出現的次數太少，則後續處理時相應的迭代次數也少，訓練結果可信度相對低，因此，可以將這種詞移除，使其不包含在所述各詞中。在這種情況下，所述各詞具體是：語料中至少出現過一次的詞中的部分詞。
S204：根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，所述n元字元表徵其對應的詞的連續n個字元。
在本說明書實施例中，詞的字元可以包括構成該詞的字元，或者構成該詞的字元所映射的其他字元。以詞“boy”為例，“b”、“o”、“y”均為構成詞“boy”的字元。
為了表現詞序，可以按照一定的規則在原始的詞中添加一些標記字元，可以將這些標記字元也視為詞的字元，比如，可以在原始的詞的起始位置及/或結束位置等位置添加標注字元，在標注後，詞“boy”比如記作“#boy#”，可以將這兩個“#”也視為詞“boy”的字元。
進一步地，n為不小於1的整數。以“#boy#”為例，其3元字元包括“#bo”(第1~3個字元)、“boy”(第2~4個字元)、“oy#”(第3~5個字元)，其4元字元包括“#boy”(第1~4個字元)、“boy#(第2~5個字元)”。
在本說明書實施例中，n的取值可以是動態可調的。對於同一個詞，在確定該詞對應的n元字元時，n的取值可以只取1個(比如，只確定該詞對應的3元字元)，也可以取多個(比如，確定該詞對應的3元字元和4元字元等)。
為了便於電腦處理，n元字元可以基於指定的碼(比如，數字等)進行表示。比如，可以將不同的字元或者不同的n元字元分別用一個不同的碼或者碼串表示。
在本說明書實施例中，可以使詞的特徵向量通過各維的取值，指示該詞對應的n元字元。更精確地，還可以使詞的特徵向量指示該詞對應的n元字元的順序。
S206：根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練。
在本說明書實施例中，循環神經網路的序列表示層用於處理序列，以得到序列的全域資訊，全域資訊的內容也會受到序列中各元素順序的影響。具體到本說明書的場景，序列由當前詞(各詞可以分別作為當前詞)的各上下文詞的特徵向量作為元素構成，全域資訊可以指當前詞的全部上下文詞的整體語義。
S208：根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量。
通過訓練循環神經網路，能夠為循環神經網路確定合理的參數，使得循環神經網路能夠較為準確地刻畫上下文詞的整體語義，以及對應的當前詞的語義。所述參數比如包括權重參數和偏移參數等。
利用訓練後的循環神經網路對特徵向量進行推理，能夠獲得詞向量。
通過圖2的方法，循環神經網路可以通過循環計算，對詞的上下文整體語義資訊進行刻畫，提取更多的上下文語義資訊，而且n元字元能夠更精細地對詞進行表達，因此，有助於更準確地產生詞向量。
基於圖2的方法，本說明書實施例還提供了該方法的一些具體實施方案，以及擴展方案，下面進行說明。
在本說明書實施例中，對於步驟S204，所述根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，具體可以包括：
確定所述各詞對應的各n元字元中不同n元字元的總數量；分別為所述各詞建立根據所述總數量確定維度的特徵向量，所述特徵向量通過各維的取值指示了其對應的詞所對應的各n元字元。
例如，對各詞對應的全部n元字元逐一進行編號，編號從0開始，依次加1，相應的n元字元編號相同，假定總數量為，則最後一個n元字元的編號為。分別為各詞建立一個維度為特徵向量，具體地，假定n=3，某詞對應的全部3元字元編號分別為2、34、127，則為其建立的特徵向量中第2、34、127個元素可以為1，其餘元素為0。
更直觀地，基於上例，本說明書實施例提供實際應用場景下，一個英文詞的特徵向量示意圖，如圖3所示。該英文詞為“boy”，起始位置和結束位置分別添加有一個標注字元“#”，表示根據詞建立特徵向量的處理過程，特徵向量比如是一個列向量，根據“boy”的各3元字元建立，可以看到，特徵向量中有3個元素的取值為1，分別指示了3元字元“#bo”、“boy”、“oy#”，其他元素的取值為0，表示“boy”未對應於其他3元字元。
在本說明書實施例中，在對循環神經網路進行訓練時，目標是使得當前詞與上下文詞的特徵向量在經過訓練後的循環神經網路推理後，相似度能夠相對變高。
進一步地，將上下文詞視為正樣例詞，作為對照，還可以按照一定的規則選擇當前詞的一個或者多個負樣例詞也參與訓練，如此有利於訓練快速收斂以及獲得更為準確的訓練結果。這種情況下，所述目標還可以包括使得當前詞與負樣例詞的特徵向量在經過訓練後的循環神經網路推理後，相似度能夠相對變低。負樣例詞比如可以在語料中隨機選擇得到，或者在非上下文詞中選擇得到，等等。本說明書對計算相似度的具體方式並不做限定，比如，可以基於向量的夾角餘弦運算計算相似度，可以基於向量的平方和運算計算相似度，等等。
根據上一段的分析，對於步驟S206，所述根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練。具體可以包括：
根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量，對循環神經網路進行訓練。
在本說明書實施例中，循環神經網路的訓練過程可以是迭代進行的，比較簡單的一種方式是對分詞後的語料進行遍歷，每遍歷到上述各詞中的一個詞即進行一次迭代，直到遍歷完畢，可以視為已經利用該語料訓練過循環神經網路了。
具體地，所述根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量，對循環神經網路進行訓練，可以包括：
對分詞後的所述語料進行遍歷，對遍歷到的當前詞執行(執行內容即為一次迭代過程)：
確定當前詞在分詞後的所述語料中的一個或多個上下文詞以及負樣例詞；將當前詞的上下文詞的特徵向量構成的序列輸入循環神經網路的序列表示層進行循環計算，得到第一向量；將當前詞的特徵向量輸入所述循環神經網路的全連接層進行計算，得到第二向量，以及將當前詞的負樣例詞的特徵向量輸入所述循環神經網路的全連接層進行計算，得到第三向量；根據所述第一向量、所述第二向量、所述第三向量，以及指定的損失函數，更新所述循環神經網路的參數。
更直觀地，結合圖4進行說明。圖4為本說明書實施例提供的實際應用場景下，基於循環神經網路的詞向量產生方法的原理示意圖。
圖4的循環神經網路主要包括序列表示層、全連接層，以及Softmax層。在訓練循環神經網路的過程中，上下文詞的特徵向量由序列表示層進行處理，以提取上下文詞整體的詞義資訊，而當前詞及其負樣例詞的特徵向量則可以由全連接層進行處理。下面分別詳細說明。
在本說明書實施例中，假定採用滑動窗口來確定上下文詞，滑動窗口的中心為遍歷到的當前詞，滑動窗口中除當前詞以外的其他詞為上下文詞。將全部上下文詞的特徵向量依次(每個上下文詞的特徵向量分別是上述序列中的一個元素)輸入序列表示層，進而可以按照如下公式，進行循環計算：

其中，表示序列表示層在時刻的輸入單元，即當前詞的第個上下文詞的特徵向量，表示序列表示層在時刻的隱藏單元，表示對當前詞的前個上下文詞的特徵向量進行循環計算得到的向量，、、表示序列表示層的權重參數，表示激勵函數，比如，tanh函數或者ReLU函數等。公式中參數的下標可以從0開始。
為了便於理解循環計算所使用的公式，本說明書實施例還提供了循環神經網路的序列表示層的結構示意圖，如圖5所示。
在圖5左側，表示序列表示層的輸入單元，表示序列輸入層的隱藏單元，表示序列輸入層的輸出單元，隱藏單元會利用激活函數處理輸入的資料，輸出單元會用函數處理輸入的資料。隱藏單元前一時刻計算輸出的資料會以一定的權重向下一時刻隱藏單元的輸入進行反饋，從而，使得依次輸入的整個序列的內容都會反映在序列表示層最終輸出的資料中，表示從輸入單元至隱藏單元的權重參數，表示從隱藏單元反饋至下一時刻的隱藏單元的權重參數，表示從隱藏單元至輸出單元的權重參數。
在圖5右側，對左側的結構進行了展開，示出了連續的三個時刻序列輸入層的結構，以及對序列依次輸入的三個元素進行處理的原理。可以看到，在時刻，隱藏單元計算輸出的資料表示為；在時刻，輸入的是當前詞的第個上下文詞的特徵向量，隱藏單元計算輸出的資料表示為，輸出單元計算輸出的資料表示為；在時刻，輸入的是當前詞的第個上下文詞的特徵向量，隱藏單元計算輸出的資料表示為，輸出單元計算輸出的資料表示為。以此類推，當前詞的最後一個上下文詞的特徵向量輸入後，即能夠輸出對應的第一向量。
圖4還示例性地示出了某語料中的某個當前詞“liquid”、該當前詞在該語料中的6個上下文詞“as”、“the”、“vegan”、“gelatin”、“substitute”、“absorbs”，以及該當前詞在該語料中的兩個負樣例詞“year”、“make”。圖4中示出了序列表示層對應於當前詞“liquid”的最後一個上下文詞“absorbs”的輸出單元，該輸出單元輸出當前詞“liquid”對應的第一向量。
對於當前詞，其特徵向量可以輸入全連接層，比如按照以下公式進行計算：

其中，表示全連接層對當前詞的特徵向量處理後輸出的所述第二向量，表示全連接層的權重參數，表示當前詞的特徵向量，表示全連接層的偏移參數。
類似地，對於每個負樣例詞，其特徵向量可以分別輸入全連接層，參照當前詞的方式進行處理，得到所述第三向量，將第個負樣例詞對應的所述第三向量表示為。
進一步地，所述根據所述第一向量、所述第二向量、所述第三向量，以及指定的損失函數，更新所述循環神經網路的參數，比如可以包括：計算所述第二向量與所述第一向量的第一相似度，以及所述第三向量與所述第一向量的第二相似度；根據所述第一相似度、所述第二相似度，以及指定的損失函數，更新所述循環神經網路的參數。
列舉一種損失函數作為示例。所述損失函數比如可以是：

其中，表示所述第一向量，表示所述第二向量，表示第個負樣例詞對應的所述第三向量，、、表示序列表示層的權重參數，表示全連接層的權重參數，表示全連接層的偏移參數，表示超參數，表示相似度計算函數，表示負樣例詞的數量。
在實際應用中，若未採用負樣例詞，則採用的損失函數中可以相應地去掉計算第一向量與第三向量的相似度的項。
在本說明書實施例中，在循環神經網路訓練後，可以通過對特徵向量進行推理，以產生詞向量。具體地，對於步驟S208，所述根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量，具體可以包括：
將所述各詞的特徵向量分別輸入訓練後的所述循環神經網路的全連接層進行計算，獲得計算後輸出的向量，作為對應的詞向量。
基於同樣的思路，本說明書實施例提供了另一種詞向量產生方法，其為圖2中的詞向量產生方法示例性的一種具體實施方案。圖6為該另一種詞向量產生方法的流程示意圖。
圖6中的流程可以包括以下步驟：
步驟1，建立通過對語料分詞得到的各詞構成的詞彙表，所述各詞不包括在所述語料中出現次數少於設定次數的詞；跳至步驟2；
步驟2，確定各詞對應的各n元字元的總數量，相同的n元字元只計一次，所述n元字元表徵其對應的詞的連續n個字元；跳至步驟3；
步驟3，根據所述各詞對應的各n元字元，為各詞分別建立維度為所述總數量的特徵向量，所述特徵向量的每維分別對應一個不同的n元字元，所述每維的取值表明其對應的n元字元是否對應於所述特徵向量對應的詞；跳至步驟4；
步驟4，遍歷分詞後的所述語料，對遍歷到的當前詞執行步驟5，若遍歷完成則執行步驟6，否則繼續遍歷；
步驟5，以當前詞為中心，向兩側分別滑動至多個詞建立窗口，將窗口中除當前詞以外的詞作為上下文詞，並將所有上下文詞的特徵向量構成的序列輸入循環神經網路的序列表示層進行循環計算，得到第一向量；將當前詞以及在所述語料中選擇的負樣例詞的特徵向量輸入所述循環神經網路的全連接層進行計算，分別得到第二向量和第三向量；根據所述第一向量、所述第二向量、所述第三向量，以及指定的損失函數，更新所述循環神經網路的參數；
所述循環計算按照如下公式進行：

所述損失函數包括：

其中，表示序列表示層在時刻的輸入單元，即當前詞的第個上下文詞的特徵向量，表示序列表示層在時刻的隱藏單元，表示對當前詞的前個上下文詞的特徵向量進行循環計算得到的向量，、、表示序列表示層的權重參數，表示激勵函數，表示所述第一向量，表示所述第二向量，表示第個負樣例詞對應的所述第三向量，表示全連接層的權重參數，表示全連接層的偏移參數，表示超參數，表示相似度計算函數，表示負樣例詞的數量；
步驟6，將所述各詞的特徵向量分別輸入訓練後的所述循環神經網路的全連接層進行計算，得到對應的詞向量。
該另一種詞向量產生方法中各步驟可以由相同或者不同的模組執行，本說明書對此並不做具體限定。
上面對本說明書實施例提供的詞向量產生方法進行了說明，基於同樣的思路，本說明書實施例還提供了對應的裝置，如圖7所示。
圖7為本說明書實施例提供的對應於圖2的一種詞向量產生裝置的結構示意圖，該裝置可以位於圖2中流程的執行主體，包括：
獲取模組701，獲取對語料分詞得到的各詞；
建立模組702，根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，所述n元字元表徵其對應的詞的連續n個字元；
訓練模組703，根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練；
產生模組704，根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量。
可選地，所述詞的字元包括構成所述詞的各字元，以及添加於所述詞的起始位置及/或結束位置的標注字元。
可選地，所述建立模組702根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，具體包括：
所述建立模組702確定所述各詞對應的各n元字元中不同n元字元的總數量；
分別為所述各詞建立根據所述總數量確定維度的特徵向量，所述特徵向量通過各維的取值指示了其對應的詞所對應的各n元字元。
可選地，所述訓練模組703根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練，具體包括：
所述訓練模組703根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量，對循環神經網路進行訓練。
可選地，所述訓練模組703根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量，對循環神經網路進行訓練，具體包括：
所述訓練模組703對分詞後的所述語料進行遍歷，對遍歷到的當前詞執行：
確定當前詞在分詞後的所述語料中的一個或多個上下文詞以及負樣例詞；
將當前詞的上下文詞的特徵向量構成的序列輸入循環神經網路的序列表示層進行循環計算，得到第一向量；
將當前詞的特徵向量輸入所述循環神經網路的全連接層進行計算，得到第二向量，以及將當前詞的負樣例詞的特徵向量輸入所述循環神經網路的全連接層進行計算，得到第三向量；
根據所述第一向量、所述第二向量、所述第三向量，以及指定的損失函數，更新所述循環神經網路的參數。
可選地，所述訓練模組703進行循環計算，具體包括：
所述訓練模組703按照如下公式，進行循環計算：

其中，表示序列表示層在時刻的輸入單元，即當前詞的第個上下文詞的特徵向量，表示序列表示層在時刻的隱藏單元，表示對當前詞的前個上下文詞的特徵向量進行循環計算得到的向量，、、表示序列表示層的權重參數，表示激勵函數。
可選地，所述訓練模組703根據所述第一向量、所述第二向量、所述第三向量，以及指定的損失函數，更新所述循環神經網路的參數，具體包括：
所述訓練模組703計算所述第二向量與所述第一向量的第一相似度，以及所述第三向量與所述第一向量的第二相似度；
根據所述第一相似度、所述第二相似度，以及指定的損失函數，更新所述循環神經網路的參數。
可選地，所述損失函數具體包括：

其中，表示所述第一向量，表示所述第二向量，表示第個負樣例詞對應的所述第三向量，、、表示序列表示層的權重參數，表示全連接層的權重參數，表示全連接層的偏移參數，表示超參數，表示相似度計算函數，表示負樣例詞的數量。
可選地，所述產生模組704根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量，具體包括：
所述產生模組704將所述各詞的特徵向量分別輸入訓練後的所述循環神經網路的全連接層進行計算，獲得計算後輸出的向量，作為對應的詞向量。
基於同樣的思路，本說明書實施例還提供了對應的一種詞向量產生設備，包括：
至少一個處理器；以及，
與所述至少一個處理器通信連接的記憶體；其中，
所述記憶體儲存有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠：
獲取對語料分詞得到的各詞；
根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，所述n元字元表徵其對應的詞的連續n個字元；
根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練；
根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量。
基於同樣的思路，本說明書實施例還提供了對應的一種非揮發性電腦儲存媒體，儲存有電腦可執行指令，所述電腦可執行指令設置為：
獲取對語料分詞得到的各詞；
根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，所述n元字元表徵其對應的詞的連續n個字元；
根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練；
根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量。
上述對本說明書特定實施例進行了描述。其它實施例在所附請求項申請專利範圍的範圍內。在一些情況下，在請求項申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。
本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於裝置、設備、非揮發性電腦儲存媒體實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。
本說明書實施例提供的裝置、設備、非揮發性電腦儲存媒體與方法是對應的，因此，裝置、設備、非揮發性電腦儲存媒體也具有與對應方法類似的有益技術效果，由於上面已經對方法的有益技術效果進行了詳細說明，因此，這裡不再贅述對應裝置、設備、非揮發性電腦儲存媒體的有益技術效果。
在20世紀90年代，對於一個技術的改進可以很明顯地區分是硬體上的改進(例如，對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而，隨著技術的發展，當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都通過將改進的方法流程程式化到硬體電路中來得到相應的硬體電路結構。因此，不能說一個方法流程的改進就不能用硬體實體模組來實現。例如，可程式化邏輯裝置(Programmable Logic Device, PLD)(例如現場可程式化閘陣列(Field Programmable Gate Array，FPGA))就是這樣一種積體電路，其邏輯功能由使用者對裝置程式化來確定。由設計人員自行程式化來把一個數位系統“整合”在一片PLD上，而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且，如今，取代手工地製作積體電路晶片，這種程式化也多半改用“邏輯編譯器(logic compiler)”軟體來實現，它與程式開發撰寫時所用的軟體編譯器相類似，而要編譯之前的原始碼也得用特定的程式化語言來撰寫，此稱之為硬體描述語言(Hardware Description Language，HDL)，而HDL也並非僅有一種，而是有許多種，如ABEL (Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL (Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware
Description Language)等，目前最普遍使用的是VHDL (Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚，只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式化並程式化到積體電路中，就可以很容易得到實現該邏輯方法流程的硬體電路。
控制器可以按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit，ASIC)、可程式化邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip
PIC18F26K20以及Silicone Labs C8051F320，記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以通過將方法步驟進行邏輯程式化來使得控制器以邏輯閘、開關、專用積體電路、可程式化邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。
上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的，電腦例如可以為個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲主機、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。
為了描述的方便，描述以上裝置時以功能分為各種單元分別描述。當然，在實施本說明書時可以把各單元的功能在同一個或多個軟體及/或硬體中實現。
本領域內的技術人員應明白，本說明書實施例可提供為方法、系統、或電腦程式產品。因此，本說明書實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本說明書實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本說明書是參照根據本說明書實施例的方法、設備(系統)、和電腦程式產品的流程圖及/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖及/或方塊圖中的每一流程及/或方塊、以及流程圖及/或方塊圖中的流程及/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式化資料處理設備的處理器以產生一個機器，使得通過電腦或其他可程式化資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程式化資料處理設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式化資料處理設備上，使得在電腦或其他可程式化設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式化設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和內部記憶體。
內部記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)及/或非揮發性內部記憶體等形式，如唯讀記憶體(ROM)或快閃隨機存取記憶體(flash RAM)。內部記憶體是電腦可讀媒體的示例。
電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體或其他內部記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁碟儲存器或其他磁性儲存設備或任何其他非傳輸媒體，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒體不包括暫態媒體(transitory media)，如調變的資料信號和載波。
還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白，本說明書實施例可提供為方法、系統或電腦程式產品。因此，本說明書可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本說明書可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本說明書可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、組件、資料結構等等。也可以在分散式計算環境中實踐本說明書，在這些分散式計算環境中，由通過通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中，程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。
本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。
以上所述僅為本說明書實施例而已，並不用於限制本申請。對於本領域技術人員來說，本申請可以有各種更改和變化。凡在本申請的精神和原理之內所作的任何修改、等同替換、改進等，均應包含在本申請的申請專利範圍之範疇之內。

S201, S203, S205‧‧‧步驟

S1, S3, S5, S7‧‧‧步驟

501‧‧‧文件確定模組

502‧‧‧分段讀取模組

503‧‧‧快取模組

504‧‧‧資料清除模組

為了更清楚地說明本說明書實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本說明書中記載的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。

圖1為本說明書的方案在一種實際應用場景下相關的一種整體架構示意圖；

圖2為本說明書實施例提供的一種詞向量產生方法的流程示意圖；

圖3為本說明書實施例提供的實際應用場景下，一個英文詞的特徵向量示意圖；

圖4為本說明書實施例提供的實際應用場景下，基於循環神經網路的詞向量產生方法的原理示意圖；

圖5為本說明書實施例提供的循環神經網路的序列表示層的結構示意圖；

圖6為本說明書實施例提供的另一種詞向量產生方法的流程示意圖；以及

圖7為本說明書實施例提供的對應於圖2的一種詞向量產生裝置的結構示意圖。

Claims

一種詞向量產生方法，包括：獲取對語料分詞得到的各詞；根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，所述n元字元表徵其對應的詞的連續n個字元；根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練；以及根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量。
如請求項1所述的方法，所述詞的字元包括構成所述詞的各字元，以及添加於所述詞的起始位置及/或結束位置的標注字元。
如請求項1所述的方法，所述根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，具體包括：確定所述各詞對應的各n元字元中不同n元字元的總數量；以及分別為所述各詞建立根據所述總數量確定維度的特徵向量，所述特徵向量通過各維的取值指示了其對應的詞所對應的各n元字元。
如請求項1所述的方法，所述根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練，具體包括：根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量，對循環神經網路進行訓練。
如請求項4所述的方法，所述根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量，對循環神經網路進行訓練，具體包括：對分詞後的所述語料進行遍歷，對遍歷到的當前詞執行：確定當前詞在分詞後的所述語料中的一個或多個上下文詞以及負樣例詞；將當前詞的上下文詞的特徵向量構成的序列輸入循環神經網路的序列表示層進行循環計算，得到第一向量；將當前詞的特徵向量輸入所述循環神經網路的全連接層進行計算，得到第二向量，以及將當前詞的負樣例詞的特徵向量輸入所述循環神經網路的全連接層進行計算，得到第三向量；以及根據所述第一向量、所述第二向量、所述第三向量，以及指定的損失函數，更新所述循環神經網路的參數。
如請求項5所述的方法，所述進行循環計算，具體包括：按照如下公式，進行循環計算：其中，表示序列表示層在時刻的輸入單元，即當前詞的第個上下文詞的特徵向量，表示序列表示層在時刻的隱藏單元，表示對當前詞的前個上下文詞的特徵向量進行循環計算得到的向量，、、表示序列表示層的權重參數，表示激勵函數。
如請求項5所述的方法，所述根據所述第一向量、所述第二向量、所述第三向量，以及指定的損失函數，更新所述循環神經網路的參數，具體包括：計算所述第二向量與所述第一向量的第一相似度，以及所述第三向量與所述第一向量的第二相似度；以及根據所述第一相似度、所述第二相似度，以及指定的損失函數，更新所述循環神經網路的參數。
如請求項5所述的方法，所述損失函數具體包括：其中，表示所述第一向量，表示所述第二向量，表示第個負樣例詞對應的所述第三向量，、、表示序列表示層的權重參數，表示全連接層的權重參數，表示全連接層的偏移參數，表示超參數，表示相似度計算函數，表示負樣例詞的數量。
如請求項1所述的方法，所述根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量，具體包括：將所述各詞的特徵向量分別輸入訓練後的所述循環神經網路的全連接層進行計算，獲得計算後輸出的向量，作為對應的詞向量。
一種詞向量產生裝置，包括：獲取模組，獲取對語料分詞得到的各詞；建立模組，根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，所述n元字元表徵其對應的詞的連續n個字元；訓練模組，根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練；以及產生模組，根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量。
如請求項10所述的裝置，所述詞的字元包括構成所述詞的各字元，以及添加於所述詞的起始位置及/或結束位置的標注字元。
如請求項10所述的裝置，所述建立模組根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，具體包括：所述建立模組確定所述各詞對應的各n元字元中不同n元字元的總數量；以及分別為所述各詞建立根據所述總數量確定維度的特徵向量，所述特徵向量通過各維的取值指示了其對應的詞所對應的各n元字元。
如請求項10所述的裝置，所述訓練模組根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練，具體包括：所述訓練模組根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量，對循環神經網路進行訓練。
如請求項13所述的裝置，所述訓練模組根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量，對循環神經網路進行訓練，具體包括：所述訓練模組對分詞後的所述語料進行遍歷，對遍歷到的當前詞執行：確定當前詞在分詞後的所述語料中的一個或多個上下文詞以及負樣例詞；將當前詞的上下文詞的特徵向量構成的序列輸入循環神經網路的序列表示層進行循環計算，得到第一向量；將當前詞的特徵向量輸入所述循環神經網路的全連接層進行計算，得到第二向量，以及將當前詞的負樣例詞的特徵向量輸入所述循環神經網路的全連接層進行計算，得到第三向量；以及根據所述第一向量、所述第二向量、所述第三向量，以及指定的損失函數，更新所述循環神經網路的參數。
如請求項14所述的裝置，所述訓練模組進行循環計算，具體包括：所述訓練模組按照如下公式，進行循環計算：其中，表示序列表示層在時刻的輸入單元，即當前詞的第個上下文詞的特徵向量，表示序列表示層在時刻的隱藏單元，表示對當前詞的前個上下文詞的特徵向量進行循環計算得到的向量，、、表示序列表示層的權重參數，表示激勵函數。
如請求項14所述的裝置，所述訓練模組根據所述第一向量、所述第二向量、所述第三向量，以及指定的損失函數，更新所述循環神經網路的參數，具體包括：所述訓練模組計算所述第二向量與所述第一向量的第一相似度，以及所述第三向量與所述第一向量的第二相似度；以及根據所述第一相似度、所述第二相似度，以及指定的損失函數，更新所述循環神經網路的參數。
如請求項14所述的裝置，所述損失函數具體包括：其中，表示所述第一向量，表示所述第二向量，表示第個負樣例詞對應的所述第三向量，、、表示序列表示層的權重參數，表示全連接層的權重參數，表示全連接層的偏移參數，表示超參數，表示相似度計算函數，表示負樣例詞的數量。
如請求項10所述的裝置，所述產生模組根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量，具體包括：所述產生模組將所述各詞的特徵向量分別輸入訓練後的所述循環神經網路的全連接層進行計算，獲得計算後輸出的向量，作為對應的詞向量。
一種詞向量產生方法，包括：步驟1，建立通過對語料分詞得到的各詞構成的詞彙表，所述各詞不包括在所述語料中出現次數少於設定次數的詞；跳至步驟2；步驟2，確定各詞對應的各n元字元的總數量，相同的n元字元只計一次，所述n元字元表徵其對應的詞的連續n個字元；跳至步驟3；步驟3，根據所述各詞對應的各n元字元，為各詞分別建立維度為所述總數量的特徵向量，所述特徵向量的每維分別對應一個不同的n元字元，所述每維的取值表明其對應的n元字元是否對應於所述特徵向量對應的詞；跳至步驟4；步驟4，遍歷分詞後的所述語料，對遍歷到的當前詞執行步驟5，若遍歷完成則執行步驟6，否則繼續遍歷；步驟5，以當前詞為中心，向兩側分別滑動至多個詞建立窗口，將窗口中除當前詞以外的詞作為上下文詞，並將所有上下文詞的特徵向量構成的序列輸入循環神經網路的序列表示層進行循環計算，得到第一向量；將當前詞以及在所述語料中選擇的負樣例詞的特徵向量輸入所述循環神經網路的全連接層進行計算，分別得到第二向量和第三向量；根據所述第一向量、所述第二向量、所述第三向量，以及指定的損失函數，更新所述循環神經網路的參數；所述循環計算按照如下公式進行：所述損失函數包括：其中，表示序列表示層在時刻的輸入單元，即當前詞的第個上下文詞的特徵向量，表示序列表示層在時刻的隱藏單元，表示對當前詞的前個上下文詞的特徵向量進行循環計算得到的向量，、、表示序列表示層的權重參數，表示激勵函數，表示所述第一向量，表示所述第二向量，表示第個負樣例詞對應的所述第三向量，表示全連接層的權重參數，表示全連接層的偏移參數，表示超參數，表示相似度計算函數，表示負樣例詞的數量；以及步驟6，將所述各詞的特徵向量分別輸入訓練後的所述循環神經網路的全連接層進行計算，得到對應的詞向量。
一種詞向量產生設備，包括：至少一個處理器；以及，與所述至少一個處理器通信連接的記憶體；其中，所述記憶體儲存有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠：獲取對語料分詞得到的各詞；根據所述各詞對應的各n元字元，建立所述各詞的特徵向量，所述n元字元表徵其對應的詞的連續n個字元；根據所述各詞的特徵向量，以及所述各詞在所述語料中的上下文詞的特徵向量，對循環神經網路進行訓練；以及根據所述各詞的特徵向量和訓練後的所述循環神經網路，產生所述各詞的詞向量。