TW201828105A

TW201828105A - 詞向量處理方法及裝置

Info

Publication number: TW201828105A
Application number: TW106138932A
Authority: TW
Inventors: 曹紹升; 李小龍
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-01-22
Filing date: 2017-11-10
Publication date: 2018-08-01
Also published as: SG11201906524TA; TWI685761B; EP3559823A1; CN108345580B; US10430518B2; US20200134262A1; CN111611798A; US10878199B2; CN111611798B; CN108345580A; JP6742653B2; KR102117799B1; PH12019501675A1; JP2020507155A; WO2018136870A1; US20180210876A1; KR20190107033A

Abstract

本申請案實施例公開了一種詞向量處理方法及裝置。所述方法包括：對語料分詞得到各詞；確定所述各詞對應的各n元筆劃，所述n元筆劃特徵化其對應的詞的連續n個筆劃；建立並初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量；根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練。利用本申請案實施例，可以實現通過詞對應的n元筆劃更精細地表現該詞的特徵，進而有利於提高中文詞的詞向量的準確度，實用效果較好。

Description

詞向量處理方法及裝置

本申請案涉及電腦軟體技術領域，尤其涉及一種詞向量處理方法及裝置。

如今的自然語言處理的解決方案，大都採用基於神經網路的架構，而在這種架構下一個重要的基礎技術就是詞向量。詞向量是將詞映射到一個固定維度的向量，該向量特徵化了該詞的語義資訊。　　在現有技術中，常見的用於生成詞向量的演算法是專門針對英文設計的。比如，谷歌公司的單詞向量演算法、臉書公司的n元字元演算法、微軟公司的深度神經網路演算法等。　　但是，現有技術的這些演算法或者無法用於中文，或者雖能用於中文，但是，所生成中文詞的詞向量的實用效果較差。

本申請案實施例提供一種詞向量處理方法及裝置，用以解決現有技術中用於生成詞向量的演算法或者無法用於中文，或者雖能用於中文，但是，所生成中文詞的詞向量的實用效果較差的問題。　　為解決上述技術問題，本申請案實施例是這樣實現的：　　本申請案實施例提供的一種詞向量處理方法，包括：　　對語料分詞得到各詞；　　確定所述各詞對應的各n元筆劃，所述n元筆劃特徵化其對應的詞的連續n個筆劃；　　建立並初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量；　　根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練。　　本申請案實施例提供的一種詞向量處理裝置，包括：　　分詞模組，對語料分詞得到各詞；　　確定模組，確定所述各詞對應的各n元筆劃，所述n元筆劃特徵化其對應的詞的連續n個筆劃；　　初始化模組，建立並初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量；　　訓練模組，根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練。　　本申請案實施例採用的上述至少一個技術方案能夠達到以下有益效果：可以實現通過詞對應的n元筆劃更精細地表現該詞的特徵，進而有利於提高中文詞的詞向量的準確度，實用效果較好，因此，可以部分或全部地解決現有技術中的問題。

本申請案實施例提供一種詞向量處理方法及裝置。　　為了使本技術領域的人員更好地理解本申請案中的技術方案，下面將結合本申請案實施例中的附圖，對本申請案實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請案一部分實施例，而不是全部的實施例。基於本申請案中的實施例，本領域普通技術人員在沒有作出進步性勞動前提下所獲得的所有其他實施例，都應當屬於本申請案保護的範圍。　　本申請案的方案適用於中文詞的詞向量，也適用於類似中文的其他語言的詞的詞向量，比如，日文等筆劃特徵較明顯的語言的詞的詞向量等。　　圖1為本申請案實施例提供的一種詞向量處理方法的流程示意圖，該流程的執行主體可以是具有詞向量生成功能和/或訓練功能的程式。從設備角度而言，該流程的執行主體可以包括但不限於可搭載所述程式的以下設備：個人電腦、大中型電腦、電腦集群、手機、平板電腦、智慧可穿戴設備、車機等。　　圖1中的流程可以包括以下步驟：　　S101：對語料分詞得到各詞。　　在本申請案實施例中，所述各詞具體可以是：語料中至少出現過一次的各詞中的至少部分詞。為了便於後續處理，可以將各詞保存在詞彙表中，需要使用時從詞彙表中讀取詞即可。　　S102：確定所述各詞對應的各n元筆劃，所述n元筆劃特徵化其對應的詞的連續n個筆劃。　　為了便於理解，以中文為例，對“n元筆劃”進一步地解釋。對於中文字或者詞，筆劃包括“橫”、“豎”、“撇”、“捺”、“折”、“點”、“提”等幾種，n元筆劃可以特徵化1個中文字或詞連續n個筆劃。　　例如，對於“珍”字。其對應的3元筆劃為：“橫、橫、豎”（第1～3個筆劃），“橫、豎、提”（第2～4個筆劃）、“豎、提、撇”等（第3～5個筆劃）；其對應的4元筆劃為：“橫、橫、豎、提”（第1～4個筆劃）、“橫、豎、提、撇”（第2～5個筆劃）等。　　又例如，對於詞“大人”。其對應的3元筆劃為：“橫、撇、捺”（第1～3個筆劃），“撇、捺、撇”（第2～4個筆劃）等；其對應的4元筆劃為：“橫、撇、捺、撇”（第1～4個筆劃）、“撇、捺、撇、捺”（第2～5個筆劃）等。　　在本申請案實施例中，n的取值可以是動態可調的。對於同一個詞，在確定該詞對應的各n元筆劃時，n的取值可以只取1個（比如，只確定該詞對應的各3元筆劃），也可以取多個（比如，確定該詞對應的各3元筆劃和各4元筆劃）。當n的取值為某個特定數值時，n元筆劃可能恰好為字的偏旁部首，當n的取值恰好為字或詞的總筆劃數時，n元筆劃恰好為該字或該詞。　　在本申請案實施例中，為了便於電腦處理，n元筆劃可以用指定的代碼進行表示。比如，可以將不同的筆劃分別用一個不同的數字表示，則n元筆劃相應地可以表示為數字串。　　S103：建立並初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量。　　在本申請案實施例中，為了保證方案的效果，在初始化詞向量和筆劃向量時，可能會有一些限制條件。比如，不能將各詞向量和各筆劃向量都初始化為相同的向量；又比如，某些詞向量或筆劃向量中的向量元素取值不能全為0；等等。　　在本申請案實施例中，可以採用隨機初始化的方式或者按照指定概率分佈初始化的方式，初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量，其中，相同n元筆劃的筆劃向量也相同。比如，所述指定概率分佈可以是0-1分佈等。　　另外，若之前已經基於其他語料，訓練過某些詞對應的詞向量及筆劃向量，則在進一步地基於圖1中的語料訓練這些詞對應的詞向量及筆劃向量時，可以不再重新建立並初始化這些詞對應的詞向量及筆劃向量，而是基於圖1中的語料和之前的訓練結果，再進行訓練即可。　　S104：根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練。　　在本申請案實施例中，所述訓練可以是通過神經網路實現的，所述神經網路包括但不限於淺層神經網路和深層神經網路。　　通過圖1的方法，可以實現通過詞對應的n元筆劃更精細地表現該詞的特徵，進而有利於提高中文詞的詞向量的準確度，實用效果較好，因此，可以部分或全部地解決現有技術中的問題。　　基於圖1的方法，本申請案實施例還提供了該方法的一些具體實施方案，以及擴展方案，下面進行說明。　　在本申請案實施例中，對於步驟S102，所述確定所述各詞對應的各n元筆劃，具體可以包括：根據對語料分詞的結果，確定在所述語料中出現至少一次的詞；　　分別針對所述確定的每個詞，執行：　　　　確定該詞對應的各n元筆劃，該詞對應的n元筆劃特徵化該詞連續的n個筆劃，n為一個正整數或多個不同的正整數。　　進一步地，考慮到若某個詞在語料中出現的次數太少，則基於該語料訓練時對應的訓練樣本與訓練次數也較少，會給訓練結果的可信度帶來不利影響，因此，可以將這類詞篩除，暫不訓練。後續可以在其他語料中進行訓練。　　基於這樣的思路，所述根據對語料分詞的結果，確定在所述語料中出現至少一次的詞，具體可以包括：根據對語料分詞的結果，確定在所述語料中出現次數不少於設定次數的詞，所述設定次數不小於1次。設定次數具體是多少次可以根據實際情況確定。　　在本申請案實施例中，對於步驟S104，具體的訓練方式可以有多種，比如基於上下文詞的訓練方式、基於指定近義詞或同義詞的訓練方式等，為了便於理解，以前一種方式為例進行詳細介紹。　　所述根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練，具體可以包括：確定分詞後的所述語料中的指定詞，以及所述指定詞在分詞後的所述語料中的一個或多個上下文詞；根據所述指定詞對應的各n元筆劃的筆劃向量，以及所述上下文詞的詞向量，確定所述指定詞與所述上下文詞的相似度；根據所述指定詞與所述上下文詞的相似度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。　　本申請案對確定相似度的具體方式並不做限定。比如，可以基於向量的夾角餘弦運算計算相似度，可以基於向量的平方和運算計算相似度，等等。　　所述指定詞可以有多個，指定詞可以重複而在語料中的位置不同，可以分別針對每個指定詞執行上一段中的處理動作。較佳地，可以分別將分詞後的語料中包含的每個詞都作為一個指定詞。　　在本申請案實施例中，步驟S104中的訓練可以使得：指定詞與上下文詞的相似度相對變高（在這裡，相似度可以反映關聯度，詞與其上下文詞的關聯度相對較高，而且詞義相同或相近的各詞分別對應的上下文詞往往也是相同或相近的），而指定詞與非上下文詞的相似度相對地變低，非上下文詞可以作為下述的負樣例詞，則上下文詞相對地可以作為正樣例詞。　　由此可見，在訓練過程中，需要確定一些負樣例詞作為對照。可以在分詞後的語料中隨機選擇一個或多個詞作為負樣例詞，也可以嚴格地選擇非上下文詞作為負樣例詞。以前一種方式為例，所述根據所述指定詞與所述上下文詞的相似度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新，具體可以包括：從所述各詞中選擇一個或多個詞，作為負樣例詞；確定所述指定詞與各所述負樣例詞的相似度；根據指定的損失函數、所述指定詞與所述上下文詞的相似度，以及所述指定詞與各所述負樣例詞的相似度，確定所述指定詞對應的損失特徵化值；根據所述損失特徵化值，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。　　其中，所述損失特徵化值用於衡量當前的向量值與訓練目標之間的誤差程度。所述損失函數的參數可以以上述的幾種相似度作為參數，具體的損失函數運算式本申請案並不做限定，後面會詳細舉例說明。　　在本申請案實施例中，對詞向量和筆劃向量更新實際上對所述誤差程度的修正。當採用神經網路實現本申請案的方案時，這種修正可以基於反向傳播和梯度下降法實現。在這種情況下，所述梯度即為損失函數對應的梯度。　　則所述根據所述損失特徵化值，對所述指定詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新，具體可以包括：根據所述損失特徵化值，確定所述損失函數對應的梯度；根據所述梯度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。　　在本申請案實施例中，對詞向量和筆劃向量的訓練過程可以是基於分詞後的語料中的至少部分詞反覆運算進行的，從而可以使詞向量和筆劃向量逐漸地收斂，直至完成訓練。　　以基於分詞後的語料中的全部詞進行訓練為例。對於步驟S104，所述根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練，具體可以包括：　　對分詞後的所述語料進行遍歷，分別對分詞後的所述語料中的每個詞執行：　　確定該詞在分詞後的所述語料中的一個或多個上下文詞；　　分別根據每個所述上下文詞，執行：　　　　根據該詞對應的各n元筆劃的筆劃向量，以及該上下文詞的詞向量，確定該詞與該上下文詞的相似度；　　　　根據該詞與該上下文詞的相似度，對該上下文詞的詞向量和該詞對應的各n元筆劃的筆劃向量進行更新。　　具體如何進行更新上面已經進行說明，不再贅述。　　進一步地，為了便於電腦處理，可以基於視窗實現上面的遍歷過程。　　例如，所述確定該詞在分詞後的所述語料中的一個或多個上下文詞，具體可以包括：在分詞後的所述語料中，通過以該詞為中心，向左和/或向右滑動指定數量個詞的距離，建立視窗；將所述視窗中該詞以外的詞確定為該詞的上下文詞。　　當然，也可以以分詞後的所述語料的第一個詞為開始位置，建立一個設定長度的視窗，視窗中包含第一個詞以及之後連續的設定數量個詞；處理完視窗內的各詞後，將視窗向後滑動以處理該語料中的下一批詞，直至遍歷完該語料。　　上面對本申請案實施例提供的一種詞向量處理方法進行了說明。為了便於理解，基於上述說明，本申請案實施例還提供了實際應用場景下，所述詞向量處理方法的一種具體實施方案的流程示意圖，如圖2所示。　　圖2中的流程主要包括以下步驟：　　　　步驟1，使用分詞工具對中文語料進行分詞，掃描分詞後的中文語料，統計所有出現過的詞以建立詞彙表，刪除出現次數小於次（也即，上述的設定次數）的詞語；跳轉步驟2；　　　　步驟2，逐一掃描詞彙表，提取每一個詞對應的n元筆劃，建立n元筆劃表，以及詞與對應的n元筆劃的映射表。其中，將筆劃定義為“橫”、“豎”、“撇”、“捺”、“折”（筆劃“鉤”、“點”、“提”等均看作是“折”）共5種，分別用數字1～5表示；跳轉步驟3；　　　　步驟3，針對詞彙表中每個詞語都建立一個維度為的詞向量，對n元筆劃表中的每個n元筆劃都建立一個維度也為的筆劃向量，隨機初始化建立的所有向量；跳轉步驟4；　　　　步驟4，從完成分詞的中文語料中，從第一個詞開始逐一滑動，每次選擇一個詞作為“當前詞（也即，上述的指定詞）”，若遍歷過整個語料所有詞，則結束；否則跳轉步驟5；　　　　步驟5，以當前詞為中心，向兩側滑動個詞建立視窗，從視窗內的第一個詞到最後一個詞（除當前詞以外），每次選擇一個詞作為“上下文詞”，若遍歷過視窗內的所有詞，則跳轉步驟4；否則，跳轉步驟6；　　　　步驟6，對於當前詞，根據步驟2中的詞與對應的n元筆劃映射表，找到當前詞對應的各n元筆劃，按照公式（1）計算當前詞與上下文詞的相似度：公式（1）　　　　其中，公式中表示步驟2中建立的n元筆劃表，表示步驟2中映射表裡當前詞所對應的n元筆劃集合，表示集合中的元素（即某個n元筆劃）。表示當前詞與上下文單詞的相似度得分；表示n元筆劃與上下文詞語的向量點積運算；跳轉步驟7；　　　　步驟7，隨機抽取個詞作為負樣例詞，並且按照公式（2）（也即，上述的損失函數）計算損失得分，損失得分即可以作為上述的損失特徵化值：公式（2）　　　　其中，是對數函數，是隨機抽取的負樣例詞語，而是指隨機抽取的負樣例詞滿足概率分佈的情況下，運算式的期望值，是神經網路激勵函數，詳細參見公式（3）：公式（3）　　　　其中，若是一個實數，則也是一個實數；根據的值計算梯度，更新n元筆劃向量和上下文詞語的向量；跳轉步驟5。　　上述步驟1～7中，步驟6和步驟7是較關鍵的步驟，為了便於理解，結合圖3，對這兩步舉例說明。　　圖3為本申請案實施例提供的圖2中流程所使用的部分語料的相關處理動作示意圖。　　如圖3所示，假定語料中有語句“治理霧霾刻不容緩”，分詞得到該語句中的三個詞語“治理”、“霧霾”、“刻不容緩”。　　假定此時選定“霧霾”為當前詞，選定“治理”為上下文詞，提取當前詞映射的所有n元筆劃，比如，“霧霾”映射的3元筆劃包括“145”“452”“524”等。然後，根據公式（1）、公式（2）和公式（3）計算損失得分，進而計算梯度，以更新的詞向量和對應的所有的筆劃向量。　　上面為本申請案實施例提供的一種詞向量處理方法，基於同樣的發明思路，本申請案實施例還提供了對應的裝置，如圖4所示。　　圖4為本申請案實施例提供的對應於圖1的一種詞向量處理裝置的結構示意圖，該裝置可以位於圖1中流程的執行主體，包括：　　分詞模組401，對語料分詞得到各詞；　　確定模組402，確定所述各詞對應的各n元筆劃，所述n元筆劃特徵化其對應的詞的連續n個筆劃；　　初始化模組403，建立並初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量；　　訓練模組404，根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練。　　可選地，所述確定模組402確定所述各詞對應的各n元筆劃，具體包括：　　所述確定模組402根據對語料分詞的結果，確定在所述語料中出現至少一次的詞；　　分別針對所述確定的每個詞，執行：　　　　確定該詞對應的各n元筆劃，該詞對應的n元筆劃特徵化該詞連續的n個筆劃，n為一個正整數或多個不同的正整數。　　可選地，所述確定模組402根據對語料分詞的結果，確定在所述語料中出現至少一次的詞，具體包括：　　所述確定模組402根據對語料分詞的結果，確定在所述語料中出現次數不少於設定次數的詞，所述設定次數不小於1次。　　可選地，所述初始化模組403初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量，具體包括：　　所述初始化模組403採用隨機初始化的方式或者按照指定概率分佈初始化的方式，初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量，其中，相同n元筆劃的筆劃向量也相同。　　可選地，所述訓練模組404根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練，具體包括：　　所述訓練模組404確定分詞後的所述語料中的指定詞，以及所述指定詞在分詞後的所述語料中的一個或多個上下文詞；　　根據所述指定詞對應的各n元筆劃的筆劃向量，以及所述上下文詞的詞向量，確定所述指定詞與所述上下文詞的相似度；　　根據所述指定詞與所述上下文詞的相似度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。　　可選地，所述訓練模組404根據所述指定詞與所述上下文詞的相似度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新，具體包括：　　所述訓練模組404從所述各詞中選擇一個或多個詞，作為負樣例詞；　　確定所述指定詞與各所述負樣例詞的相似度；　　根據指定的損失函數、所述指定詞與所述上下文詞的相似度，以及所述指定詞與各所述負樣例詞的相似度，確定所述指定詞對應的損失特徵化值；　　根據所述損失特徵化值，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。　　可選地，所述訓練模組404根據所述損失特徵化值，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新，具體包括：　　所述訓練模組404根據所述損失特徵化值，確定所述損失函數對應的梯度；　　根據所述梯度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。　　可選地，所述訓練模組404從所述各詞中選擇一個或多個詞，作為負樣例詞，具體包括：　　所述訓練模組404從所述各詞中隨機選擇一個或多個詞，作為負樣例詞。　　可選地，所述訓練模組404根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練，具體包括：　　所述訓練模組404對分詞後的所述語料進行遍歷，分別對分詞後的所述語料中的每個詞執行：　　確定該詞在分詞後的所述語料中的一個或多個上下文詞；　　分別根據每個所述上下文詞，執行：　　　　根據該詞對應的各n元筆劃的筆劃向量，以及該上下文詞的詞向量，確定該詞與該上下文詞的相似度；　　　　根據該詞與該上下文詞的相似度，對該上下文詞的詞向量和該詞對應的各n元筆劃的筆劃向量進行更新。　　可選地，所述訓練模組404確定該詞在分詞後的所述語料中的一個或多個上下文詞，具體包括：　　所述訓練模組404在分詞後的所述語料中，通過以該詞為中心，向左和/或向右滑動指定數量個詞的距離，建立視窗；　　將所述視窗中該詞以外的詞確定為該詞的上下文詞。　　可選地，所述詞為中文詞，所述詞向量為中文詞的詞向量。　　本申請案實施例提供的裝置與方法是一一對應的，因此，裝置也具有與其對應的方法類似的有益技術效果，由於上面已經對方法的有益技術效果進行了詳細說明，因此，這裡不再贅述對應裝置的有益技術效果。　　在20世紀90年代，對於一個技術的改進可以很明顯地區分是硬體上的改進（例如，對二極體、電晶體、開關等電路結構的改進）還是軟體上的改進（對於方法流程的改進）。然而，隨著技術的發展，當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都通過將改進的方法流程程式設計到硬體電路中來得到相應的硬體電路結構。因此，不能說一個方法流程的改進就不能用硬體實體模組來實現。例如，可程式設計邏輯器件（Programmable Logic Device, PLD）（例如現場可程式設計閘陣列（Field Programmable Gate Array, FPGA））就是這樣一種積體電路，其邏輯功能由使用者對器件程式設計來確定。由設計人員自行程式設計來把一個數位系統“集成”在一片PLD上，而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且，如今，取代手工地製作積體電路晶片，這種程式設計也多半改用“邏輯編譯器（logic compiler）”軟體來實現，它與程式開發撰寫時所用的軟體編譯器相類似，而要編譯之前的原始代碼也得用特定的程式設計語言來撰寫，此稱之為硬體描述語言（Hardware Description Language, HDL），而HDL也並非僅有一種，而是有許多種，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby Hardware Description Language）等，目前最普遍使用的是VHDL（Very-High-Speed Integrated Circuit Hardware Description Language）與Verilog。本領域技術人員也應該清楚，只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式設計並程式設計到積體電路中，就可以很容易得到實現該邏輯方法流程的硬體電路。　　控制器可以按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該（微）處理器執行的電腦可讀程式碼（例如軟體或韌體）的電腦可讀媒體、邏輯閘、開關、專用積體電路（Application Specific Integrated Circuit, ASIC）、可程式設計邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以通過將方法步驟進行邏輯程式設計來使得控制器以邏輯閘、開關、專用積體電路、可程式設計邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。　　上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的，電腦例如可以為個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。　　為了描述的方便，描述以上裝置時以功能分為各種單元分別描述。當然，在實施本申請案時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。　　本領域內的技術人員應明白，本發明的實施例可提供為方法、系統、或電腦程式產品。因此，本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體（包括但不限於磁碟記憶體、CD-ROM、光學記憶體等）上實施的電腦程式產品的形式。　　本發明是參照根據本發明實施例的方法、設備（系統）、和電腦程式產品的流程圖和／或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和／或方塊圖中的每一流程和／或方塊、以及流程圖和／或方塊圖中的流程和／或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器，使得通過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和／或方塊圖一個方塊或多個方塊中指定的功能的裝置。　　這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和／或方塊圖一個方塊或多個方塊中指定的功能。　　這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上，使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和／或方塊圖一個方塊或多個方塊中指定的功能的步驟。　　在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。　　記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。　　電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體，可用於儲存可以被計算設備訪問的資訊。按照本文中的界定，電腦可讀媒體不包括暫存電腦可讀媒體(transitory media)，如調製的資料信號和載波。　　還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。　　本領域技術人員應明白，本申請案的實施例可提供為方法、系統或電腦程式產品。因此，本申請案可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本申請案可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體（包括但不限於磁碟記憶體、CD-ROM、光學記憶體等）上實施的電腦程式產品的形式。　　本申請案可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、組件、資料結構等等。也可以在分散式運算環境中實踐本申請案，在這些分散式運算環境中，由通過通信網路而被連接的遠端處理設備來執行任務。在分散式運算環境中，程式模組可以位於包括存放裝置在內的本地和遠端電腦儲存媒體中。　　本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。　　以上所述僅為本申請案的實施例而已，並不用於限制本申請案。對於本領域技術人員來說，本申請案可以有各種更改和變化。凡在本申請案的精神和原理之內所作的任何修改、等同替換、改進等，均應包含在本申請案的申請專利範圍之內。

401‧‧‧分詞模組

402‧‧‧確定模組

403‧‧‧初始化模組

404‧‧‧訓練模組

為了更清楚地說明本申請案實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請案中記載的一些實施例，對於本領域普通技術人員來講，在不付出進步性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。　　圖1為本申請案實施例提供的一種詞向量處理方法的流程示意圖；　　圖2為本申請案實施例提供的實際應用場景下，所述詞向量處理方法的一種具體實施方案的流程示意圖；　　圖3為本申請案實施例提供的圖2中流程所使用的部分語料的相關處理動作示意圖；　　圖4為本申請案實施例提供的對應於圖1的一種詞向量處理裝置的結構示意圖。

Claims

一種詞向量處理方法，其特徵在於，包括：　　對語料分詞得到各詞；　　確定所述各詞對應的各n元筆劃，所述n元筆劃特徵化其對應的詞的連續n個筆劃；　　建立並初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量；　　根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練。
如申請專利範圍第1項所述的方法，其中，所述確定所述各詞對應的各n元筆劃，具體包括：　　根據對語料分詞的結果，確定在所述語料中出現至少一次的詞；　　分別針對所述確定的每個詞，執行：　　確定該詞對應的各n元筆劃，該詞對應的n元筆劃特徵化該詞連續的n個筆劃，n為一個正整數或多個不同的正整數。
如申請專利範圍第2項所述的方法，其中，所述根據對語料分詞的結果，確定在所述語料中出現至少一次的詞，具體包括：　　根據對語料分詞的結果，確定在所述語料中出現次數不少於設定次數的詞，所述設定次數不小於1次。
如申請專利範圍第1項所述的方法，其中，所述初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量，具體包括：　　採用隨機初始化的方式或者按照指定概率分佈初始化的方式，初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量，其中，相同n元筆劃的筆劃向量也相同。
如申請專利範圍第1項所述的方法，其中，所述根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練，具體包括：　　確定分詞後的所述語料中的指定詞，以及所述指定詞在分詞後的所述語料中的一個或多個上下文詞；　　根據所述指定詞對應的各n元筆劃的筆劃向量，以及所述上下文詞的詞向量，確定所述指定詞與所述上下文詞的相似度；　　根據所述指定詞與所述上下文詞的相似度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。
如申請專利範圍第5項所述的方法，其中，所述根據所述指定詞與所述上下文詞的相似度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新，具體包括：　　從所述各詞中選擇一個或多個詞，作為負樣例詞；　　確定所述指定詞與各所述負樣例詞的相似度；　　根據指定的損失函數、所述指定詞與所述上下文詞的相似度，以及所述指定詞與各所述負樣例詞的相似度，確定所述指定詞對應的損失特徵化值；　　根據所述損失特徵化值，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。
如申請專利範圍第6項所述的方法，其中，所述根據所述損失特徵化值，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新，具體包括：　　根據所述損失特徵化值，確定所述損失函數對應的梯度；　　根據所述梯度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。
如申請專利範圍第6項所述的方法，其中，所述從所述各詞中選擇一個或多個詞，作為負樣例詞，具體包括：　　從所述各詞中隨機選擇一個或多個詞，作為負樣例詞。
如申請專利範圍第1項所述的方法，其中，所述根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練，具體包括：　　對分詞後的所述語料進行遍歷，分別對分詞後的所述語料中的每個詞執行：　　確定該詞在分詞後的所述語料中的一個或多個上下文詞；　　分別根據每個所述上下文詞，執行：　　　　根據該詞對應的各n元筆劃的筆劃向量，以及該上下文詞的詞向量，確定該詞與該上下文詞的相似度；　　　　根據該詞與該上下文詞的相似度，對該上下文詞的詞向量和該詞對應的各n元筆劃的筆劃向量進行更新。
如申請專利範圍第9項所述的方法，其中，所述確定該詞在分詞後的所述語料中的一個或多個上下文詞，具體包括：　　在分詞後的所述語料中，通過以該詞為中心，向左和/或向右滑動指定數量個詞的距離，建立視窗；　　將所述視窗中該詞以外的詞確定為該詞的上下文詞。
如申請專利範圍第1～10項之任一項所述的方法，其中，所述詞為中文詞，所述詞向量為中文詞的詞向量。
一種詞向量處理裝置，其特徵在於，包括：　　分詞模組，對語料分詞得到各詞；　　確定模組，確定所述各詞對應的各n元筆劃，所述n元筆劃特徵化其對應的詞的連續n個筆劃；　　初始化模組，建立並初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量；　　訓練模組，根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練。
如申請專利範圍第12項所述的裝置，其中，所述確定模組確定所述各詞對應的各n元筆劃，具體包括：　　所述確定模組根據對語料分詞的結果，確定在所述語料中出現至少一次的詞；　　分別針對所述確定的每個詞，執行：　　　　確定該詞對應的各n元筆劃，該詞對應的n元筆劃特徵化該詞連續的n個筆劃，n為一個正整數或多個不同的正整數。
如申請專利範圍第13項所述的裝置，其中，所述確定模組根據對語料分詞的結果，確定在所述語料中出現至少一次的詞，具體包括：　　所述確定模組根據對語料分詞的結果，確定在所述語料中出現次數不少於設定次數的詞，所述設定次數不小於1次。
如申請專利範圍第12項所述的裝置，其中，所述初始化模組初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量，具體包括：　　所述初始化模組採用隨機初始化的方式或者按照指定概率分佈初始化的方式，初始化所述各詞的詞向量，以及所述各詞對應的各n元筆劃的筆劃向量，其中，相同n元筆劃的筆劃向量也相同。
如申請專利範圍第12項所述的裝置，其中，所述訓練模組根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練，具體包括：　　所述訓練模組確定分詞後的所述語料中的指定詞，以及所述指定詞在分詞後的所述語料中的一個或多個上下文詞；　　根據所述指定詞對應的各n元筆劃的筆劃向量，以及所述上下文詞的詞向量，確定所述指定詞與所述上下文詞的相似度；　　根據所述指定詞與所述上下文詞的相似度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。
如申請專利範圍第16項所述的裝置，其中，所述訓練模組根據所述指定詞與所述上下文詞的相似度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新，具體包括：　　所述訓練模組從所述各詞中選擇一個或多個詞，作為負樣例詞；　　確定所述指定詞與各所述負樣例詞的相似度；　　根據指定的損失函數、所述指定詞與所述上下文詞的相似度，以及所述指定詞與各所述負樣例詞的相似度，確定所述指定詞對應的損失特徵化值；　　根據所述損失特徵化值，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。
如申請專利範圍第17項所述的裝置，其中，所述訓練模組根據所述損失特徵化值，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新，具體包括：　　所述訓練模組根據所述損失特徵化值，確定所述損失函數對應的梯度；　　根據所述梯度，對所述上下文詞的詞向量和所述指定詞對應的各n元筆劃的筆劃向量進行更新。
如申請專利範圍第17項所述的裝置，其中，所述訓練模組從所述各詞中選擇一個或多個詞，作為負樣例詞，具體包括：　　所述訓練模組從所述各詞中隨機選擇一個或多個詞，作為負樣例詞。
如申請專利範圍第12項所述的裝置，其中，所述訓練模組根據分詞後的所述語料、所述詞向量，以及所述筆劃向量，對所述詞向量和所述筆劃向量進行訓練，具體包括：　　所述訓練模組對分詞後的所述語料進行遍歷，分別對分詞後的所述語料中的每個詞執行：　　確定該詞在分詞後的所述語料中的一個或多個上下文詞；　　分別根據每個所述上下文詞，執行：　　　　根據該詞對應的各n元筆劃的筆劃向量，以及該上下文詞的詞向量，確定該詞與該上下文詞的相似度；　　　　根據該詞與該上下文詞的相似度，對該上下文詞的詞向量和該詞對應的各n元筆劃的筆劃向量進行更新。
如申請專利範圍第20項所述的裝置，其中，所述訓練模組確定該詞在分詞後的所述語料中的一個或多個上下文詞，具體包括：　　所述訓練模組在分詞後的所述語料中，通過以該詞為中心，向左和/或向右滑動指定數量個詞的距離，建立視窗；　　將所述視窗中該詞以外的詞確定為該詞的上下文詞。
如申請專利範圍第12～21項之任一項所述的裝置，其中，所述詞為中文詞，所述詞向量為中文詞的詞向量。