TWI689831B - 詞向量產生方法、裝置以及設備 - Google Patents

詞向量產生方法、裝置以及設備 Download PDF

Info

Publication number
TWI689831B
TWI689831B TW107145884A TW107145884A TWI689831B TW I689831 B TWI689831 B TW I689831B TW 107145884 A TW107145884 A TW 107145884A TW 107145884 A TW107145884 A TW 107145884A TW I689831 B TWI689831 B TW I689831B
Authority
TW
Taiwan
Prior art keywords
word
vector
words
neural network
calculation
Prior art date
Application number
TW107145884A
Other languages
English (en)
Other versions
TW201935275A (zh
Inventor
曹紹升
周俊
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201935275A publication Critical patent/TW201935275A/zh
Application granted granted Critical
Publication of TWI689831B publication Critical patent/TWI689831B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本說明書實施例揭露詞向量產生方法、裝置以及設備。所述方法包括:獲取對語料分詞得到的各詞,基於n元字元建立各詞的特徵向量,根據各詞的特徵向量,以及各詞在語料中的上下文詞的特徵向量,對卷積神經網路進行訓練,根據各詞的特徵向量和訓練後的卷積神經網路,產生各詞的詞向量。

Description

詞向量產生方法、裝置以及設備
本說明書係關於電腦軟體之技術領域,特別是相關於詞向量產生方法、裝置以及設備。
如今的自然語言處理的解決方案,大都採用基於神經網路的架構,而在這種架構下一個重要的基礎技術就是詞向量。詞向量是將詞映射到一個固定維度的向量,該向量表徵了該詞的語義資訊。 在現有技術中,常見的用於產生詞向量的演算法比如包括:谷歌公司的詞向量演算法、微軟公司的深度神經網路演算法等。 基於現有技術,需要一種更準確的詞向量產生方案。
本說明書實施例提供詞向量產生方法、裝置以及設備,用以解決如下技術問題:需要一種更準確的詞向量產生方案。 為解決上述技術問題,本說明書實施例是這樣實現的: 本說明書實施例提供的一種詞向量產生方法,包括: 獲取對語料分詞得到的各詞; 根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,所述n元字元表徵其對應的詞的連續n個字元; 根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞的特徵向量,對卷積神經網路進行訓練; 根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量。 本說明書實施例提供的一種詞向量產生裝置,包括: 獲取模組,獲取對語料分詞得到的各詞; 建立模組,根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,所述n元字元表徵其對應的詞的連續n個字元; 訓練模組,根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞的特徵向量,對卷積神經網路進行訓練; 產生模組,根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量。 本說明書實施例提供的另一種詞向量產生方法,包括: 步驟1,建立通過對語料分詞得到的各詞構成的詞彙表,所述各詞不包括在所述語料中出現次數少於設定次數的詞;跳至步驟2; 步驟2,確定各詞對應的各n元字元的總數量,相同的n元字元只計一次,所述n元字元表徵其對應的詞的連續n個字元;跳至步驟3; 步驟3,根據所述各詞對應的各n元字元,為各詞分別建立維度為所述總數量的特徵向量,所述特徵向量的每維分別對應一個不同的n元字元,所述每維的取值表明其對應的n元字元是否對應於所述特徵向量對應的詞;跳至步驟4; 步驟4,遍歷分詞後的所述語料,對遍歷到的當前詞執行步驟5,若遍歷完成則執行步驟6,否則繼續遍歷; 步驟5,以當前詞為中心,向兩側分別滑動至多
Figure 02_image001
個詞建立窗口,將窗口中除當前詞以外的詞作為上下文詞,並將所有上下文詞的特徵向量輸入卷積神經網路的卷積層進行卷積計算,卷積計算結果輸入所述卷積神經網路的池化層進行池化計算,得到第一向量;將當前詞以及在所述語料中選擇的負樣例詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,分別得到第二向量和第三向量;根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數; 所述卷積計算按照如下公式進行:
Figure 02_image003
Figure 02_image005
所述池化計算按照如下公式進行:
Figure 02_image007
,或者
Figure 02_image009
所述損失函數包括:
Figure 02_image011
其中,
Figure 02_image013
表示第
Figure 02_image015
個上下文詞的特徵向量,
Figure 02_image017
表示將第
Figure 02_image015
~
Figure 02_image019
個上下文詞的特徵向量拼接得到的向量,
Figure 02_image021
表示通過所述卷積計算得到的向量的第
Figure 02_image015
個元素,
Figure 02_image023
表示卷積層的權重參數,
Figure 02_image025
表示卷積層的偏移參數,
Figure 02_image027
表示激勵函數,
Figure 02_image029
表示求最大值函數,
Figure 02_image031
表示求平均值函數,
Figure 02_image033
表示池化計算後得到的所述第一向量的第
Figure 02_image035
個元素,
Figure 02_image037
表示上下文詞的數量,
Figure 02_image039
表示所述第一向量,
Figure 02_image041
表示所述第二向量,
Figure 02_image043
表示第
Figure 02_image045
個負樣例詞對應的所述第三向量,
Figure 02_image023
表示卷積層的權重參數,
Figure 02_image025
表示卷積層的偏移參數,
Figure 02_image048
表示全連接層的權重參數,
Figure 02_image050
表示全連接層的偏移參數,
Figure 02_image052
表示超參數,
Figure 02_image054
表示相似度計算函數,
Figure 02_image056
表示負樣例詞的數量; 步驟6,將所述各詞的特徵向量分別輸入訓練後的所述卷積神經網路的全連接層進行計算,得到對應的詞向量。 本說明書實施例提供的一種詞向量產生設備,包括: 至少一個處理器;以及, 與所述至少一個處理器通信連接的記憶體;其中, 所述記憶體儲存有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠: 獲取對語料分詞得到的各詞; 根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,所述n元字元表徵其對應的詞的連續n個字元; 根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞的特徵向量,對卷積神經網路進行訓練; 根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量。 本說明書實施例採用的上述至少一個技術方案能夠達到以下有益效果:卷積神經網路可以通過卷積計算和池化計算,對詞的上下文整體語義資訊進行刻畫,提取更多的上下文語義資訊,而且n元字元能夠更精細地對詞進行表達,因此,有助於更準確地產生詞向量。
本說明書實施例提供詞向量產生方法、裝置以及設備。 為了使本技術領域的人員更好地理解本說明書中的技術方案,下面將結合本說明書實施例中的附圖,對本說明書實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基於本說明書實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本申請保護的範圍。 圖1為本說明書的方案在一種實際應用場景下相關的一種整體架構示意圖。該整體架構中,主要相關於訓練卷積神經網路用以產生詞向量的伺服器。可以基於n元字元建立各詞的特徵向量,並利用特徵向量和詞的上下文關係訓練卷積神經網路。其中,特徵向量可以由該伺服器或者另一設備來建立。 本說明書的方案適用於由字母構成的語言,比如英文、法文、德文、西班牙文等,也適用於由非字母元素構成但是能夠便利地映射為字母的語言,比如中文(可以映射為拼音字母)、日文(可以映射為羅馬字母)等。為了便於描述,以下各實施例主要針對英文的場景,對本說明書的方案進行說明。 圖2為本說明書實施例提供的一種詞向量產生方法的流程示意圖。從設備角度而言,該流程的執行主體比如包括以下至少一種設備:個人電腦、大中型電腦、電腦叢集、手機、平板電腦、智慧型可穿戴設備、車輛等。 圖2中的流程可以包括以下步驟: S202:獲取對語料分詞得到的各詞。 在本說明書實施例中,所述各詞具體可以是:語料中至少出現過一次的詞中的至少部分詞。為了便於後續處理,可以將各詞保存在詞彙表中,需要使用時從詞彙表中讀取詞即可。 需要說明的是,考慮到若某詞在語料中出現的次數太少,則後續處理時相應的迭代次數也少,訓練結果可信度相對低,因此,可以將這種詞移除,使其不包含在所述各詞中。在這種情況下,所述各詞具體是:語料中至少出現過一次的詞中的部分詞。 S204:根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,所述n元字元表徵其對應的詞的連續n個字元。 在本說明書實施例中,詞的字元可以包括構成該詞的字元,或者構成該詞的字元所映射的其他字元。以詞“boy”為例,“b”、“o”、“y”均為構成詞“boy”的字元。 為了表現詞序,可以按照一定的規則在原始的詞中添加一些標記字元,可以將這些標記字元也視為詞的字元,比如,可以在原始的詞的起始位置及/或結束位置等位置添加標注字元,在標注後,詞“boy”比如記作“#boy#”,可以將這兩個“#”也視為詞“boy”的字元。 進一步地,n為不小於1的整數。以“#boy#”為例,其3元字元包括“#bo”(第1~3個字元)、“boy”(第2~4個字元)、“oy#”(第3~5個字元),其4元字元包括“#boy”(第1~4個字元)、“boy#(第2~5個字元)”。 在本說明書實施例中,n的取值可以是動態可調的。對於同一個詞,在確定該詞對應的n元字元時,n的取值可以只取1個(比如,只確定該詞對應的3元字元),也可以取多個(比如,確定該詞對應的3元字元和4元字元等)。 為了便於電腦處理,n元字元可以基於指定的碼(比如,數字等)進行表示。比如,可以將不同的字元或者不同的n元字元分別用一個不同的碼或者碼串表示。 在本說明書實施例中,可以使詞的特徵向量通過各維的取值,指示該詞對應的n元字元。更精確地,還可以使詞的特徵向量指示該詞對應的n元字元的順序。 S206:根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞的特徵向量,對卷積神經網路進行訓練。 在本說明書實施例中,卷積神經網路的卷積層用於提取局部神經元的資訊,卷積神經網路的池化層用於綜合卷積層各個局部資訊進而得到全域資訊。具體到本說明書的場景,局部資訊可以指當前詞(各詞可以分別作為當前詞)的部分上下文詞的整體語義,全域資訊可以指當前詞的全部上下文詞的整體語義。 S208:根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量。 通過訓練卷積神經網路,能夠為卷積神經網路確定合理的參數,使得卷積神經網路能夠較為準確地刻畫上下文詞的整體語義,以及對應的當前詞的語義。所述參數比如包括權重參數和偏移參數等。 利用訓練後的卷積神經網路對特徵向量進行推理,能夠獲得詞向量。 通過圖2的方法,卷積神經網路可以通過卷積計算和池化計算,對詞的上下文整體語義資訊進行刻畫,提取更多的上下文語義資訊,而且n元字元能夠更精細地對詞進行表達,因此,有助於更準確地產生詞向量。 基於圖2的方法,本說明書實施例還提供了該方法的一些具體實施方案,以及擴展方案,下面進行說明。 在本說明書實施例中,對於步驟S204,所述根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,具體可以包括: 確定所述各詞對應的各n元字元中不同n元字元的總數量;分別為所述各詞建立根據所述總數量確定維度的特徵向量,所述特徵向量通過各維的取值指示了其對應的詞所對應的各n元字元。 例如,對各詞對應的全部n元字元逐一進行編號,編號從0開始,依次加1,相應的n元字元編號相同,假定總數量為
Figure 02_image058
,則最後一個n元字元的編號為
Figure 02_image060
。分別為各詞建立一個維度為
Figure 02_image058
特徵向量,具體地,假定n=3,某詞對應的全部3元字元編號分別為2、34、127,則為其建立的特徵向量中第2、34、127個元素可以為1,其餘元素為0。 更直觀地,基於上例,本說明書實施例提供實際應用場景下,一個英文詞的特徵向量示意圖,如圖3所示。該英文詞為“boy”,起始位置和結束位置分別添加有一個標注字元“#”,
Figure 02_image062
表示根據詞建立特徵向量的處理過程,特徵向量比如是一個列向量,根據“boy”的各3元字元建立,可以看到,特徵向量中有3個元素的取值為1,分別指示了3元字元“#bo”、“boy”、“oy#”,其他元素的取值為0,表示“boy”未對應於其他3元字元。 在本說明書實施例中,在對卷積神經網路進行訓練時,目標是使得當前詞與上下文詞的特徵向量在經過訓練後的卷積神經網路推理後,相似度能夠相對變高。 進一步地,將上下文詞視為正樣例詞,作為對照,還可以按照一定的規則選擇當前詞的一個或者多個負樣例詞也參與訓練,如此有利於訓練快速收斂以及獲得更為準確的訓練結果。這種情況下,所述目標還可以包括使得當前詞與負樣例詞的特徵向量在經過訓練後的卷積神經網路推理後,相似度能夠相對變低。負樣例詞比如可以在語料中隨機選擇得到,或者在非上下文詞中選擇得到,等等。本說明書對計算相似度的具體方式並不做限定,比如,可以基於向量的夾角餘弦運算計算相似度,可以基於向量的平方和運算計算相似度,等等。 根據上一段的分析,對於步驟S206,所述根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞的特徵向量,對卷積神經網路進行訓練。具體可以包括: 根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量,對卷積神經網路進行訓練。 在本說明書實施例中,卷積神經網路的訓練過程可以是迭代進行的,比較簡單的一種方式是對分詞後的語料進行遍歷,每遍歷到上述各詞中的一個詞即進行一次迭代,直到遍歷完畢,可以視為已經利用該語料訓練過卷積神經網路了。 具體地,所述根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量,對卷積神經網路進行訓練,可以包括: 對分詞後的所述語料進行遍歷,對遍歷到的當前詞執行(執行內容即為一次迭代過程): 確定當前詞在分詞後的所述語料中的一個或多個上下文詞以及負樣例詞;將當前詞的上下文詞的特徵向量輸入卷積神經網路的卷積層進行卷積計算;將卷積計算結果輸入所述卷積神經網路的池化層進行池化計算,得到第一向量;將當前詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,得到第二向量,以及將當前詞的負樣例詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,得到第三向量;根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數。 更直觀地,結合圖4進行說明。圖4為本說明書實施例提供的實際應用場景下,一種卷積神經網路的結構示意圖。 圖4的卷積神經網路主要包括卷積層、池化層、全連接層,以及Softmax層。在訓練卷積神經網路的過程中,上下文詞的特徵向量由卷積層和池化層進行處理,以提取上下文詞整體的詞義資訊,而當前詞及其負樣例詞的特徵向量則可以由全連接層進行處理。下面分別詳細說明。 在本說明書實施例中,假定採用滑動窗口來確定上下文詞,滑動窗口的中心為遍歷到的當前詞,滑動窗口中除當前詞以外的其他詞為上下文詞。將全部上下文詞的特徵向量輸入卷積層,進而可以按照如下公式,進行卷積計算:
Figure 02_image003
Figure 02_image005
其中,
Figure 02_image013
表示第
Figure 02_image015
個上下文詞的特徵向量(這裡假定
Figure 02_image013
是列向量),
Figure 02_image017
表示將第
Figure 02_image015
~
Figure 02_image019
個上下文詞的特徵向量拼接得到的向量,
Figure 02_image021
表示通過所述卷積計算得到的向量(卷積計算結果)的第
Figure 02_image015
個元素,
Figure 02_image023
表示卷積層的權重參數,
Figure 02_image025
表示卷積層的偏移參數,
Figure 02_image027
表示激勵函數,比如,Sigmoid函數,則
Figure 02_image075
。 進一步地,得到卷積計算結果後,可以輸入池化層進行池化計算,具體可以採用最大化池化計算或者平均池化計算等。 若採用最大化池化計算,比如採用以下公式:
Figure 02_image007
若採用平均池化計算,比如採用以下公式:
Figure 02_image009
其中,
Figure 02_image029
表示求最大值函數,
Figure 02_image031
表示求平均值函數,
Figure 02_image033
表示池化計算後得到的所述第一向量的第
Figure 02_image035
個元素,
Figure 02_image037
表示上下文詞的數量。 圖4還示例性地示出了某語料中的某個當前詞“liquid”、該當前詞在該語料中的6個上下文詞“as”、“the”、“vegan”、“gelatin”、“substitute”、“absorbs”,以及該當前詞在該語料中的兩個負樣例詞“year”、“make”。圖4中假定基於n元字元建立的特徵向量均為
Figure 02_image084
維,
Figure 02_image086
,表示卷積窗口的長度,則卷積計算時拼接得到的向量的維度為
Figure 02_image088
維。 對於當前詞,其特徵向量可以輸入全連接層,比如按照以下公式進行計算:
Figure 02_image090
其中,
Figure 02_image041
表示全連接層對當前詞的特徵向量處理後輸出的所述第二向量,
Figure 02_image048
表示全連接層的權重參數,
Figure 02_image094
表示當前詞的特徵向量,
Figure 02_image050
表示全連接層的偏移參數。 類似地,對於每個負樣例詞,其特徵向量可以分別輸入全連接層,參照當前詞的方式進行處理,得到所述第三向量,將第
Figure 02_image045
個負樣例詞對應的所述第三向量表示為
Figure 02_image043
。 進一步地,所述根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數,比如可以包括:計算所述第二向量與所述第一向量的第一相似度,以及所述第三向量與所述第一向量的第二相似度;根據所述第一相似度、所述第二相似度,以及指定的損失函數,更新所述卷積神經網路的參數。 列舉一種損失函數作為示例。所述損失函數比如可以是:
Figure 02_image011
其中,
Figure 02_image039
表示所述第一向量,
Figure 02_image041
表示所述第二向量,
Figure 02_image043
表示第
Figure 02_image045
個負樣例詞對應的所述第三向量,
Figure 02_image023
表示卷積層的權重參數,
Figure 02_image025
表示卷積層的偏移參數,
Figure 02_image048
表示全連接層的權重參數,
Figure 02_image050
表示全連接層的偏移參數,
Figure 02_image052
表示超參數,
Figure 02_image054
表示相似度計算函數,
Figure 02_image056
表示負樣例詞的數量。 在實際應用中,若未採用負樣例詞,則採用的損失函數中可以相應地去掉計算第一向量與第三向量的相似度的項。 在本說明書實施例中,在卷積神經網路訓練後,可以通過對特徵向量進行推理,以產生詞向量。具體地,對於步驟S208,所述根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量,具體可以包括: 將所述各詞的特徵向量分別輸入訓練後的所述卷積神經網路的全連接層進行計算,獲得計算後輸出的向量,作為對應的詞向量。 基於同樣的思路,本說明書實施例提供了另一種詞向量產生方法,其為圖2中的詞向量產生方法示例性的一種具體實施方案。圖5為該另一種詞向量產生方法的流程示意圖。 圖5中的流程可以包括以下步驟: 步驟1,建立通過對語料分詞得到的各詞構成的詞彙表,所述各詞不包括在所述語料中出現次數少於設定次數的詞;跳至步驟2; 步驟2,確定各詞對應的各n元字元的總數量,相同的n元字元只計一次,所述n元字元表徵其對應的詞的連續n個字元;跳至步驟3; 步驟3,根據所述各詞對應的各n元字元,為各詞分別建立維度為所述總數量的特徵向量,所述特徵向量的每維分別對應一個不同的n元字元,所述每維的取值表明其對應的n元字元是否對應於所述特徵向量對應的詞;跳至步驟4; 步驟4,遍歷分詞後的所述語料,對遍歷到的當前詞執行步驟5,若遍歷完成則執行步驟6,否則繼續遍歷; 步驟5,以當前詞為中心,向兩側分別滑動至多
Figure 02_image001
個詞建立窗口,將窗口中除當前詞以外的詞作為上下文詞,並將所有上下文詞的特徵向量輸入卷積神經網路的卷積層,進行卷積計算,卷積計算結果輸入所述卷積神經網路的池化層進行池化計算,得到第一向量;將當前詞以及在所述語料中選擇的負樣例詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,分別得到第二向量和第三向量;根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數; 所述卷積計算按照如下公式進行:
Figure 02_image003
Figure 02_image005
所述池化計算按照如下公式進行:
Figure 02_image007
,或者
Figure 02_image009
所述損失函數包括:
Figure 02_image011
其中,
Figure 02_image013
表示第
Figure 02_image015
個上下文詞的特徵向量,
Figure 02_image017
表示將第
Figure 02_image015
~
Figure 02_image019
個上下文詞的特徵向量拼接得到的向量,
Figure 02_image021
表示通過所述卷積計算得到的向量的第
Figure 02_image015
個元素,
Figure 02_image023
表示卷積層的權重參數,
Figure 02_image025
表示卷積層的偏移參數,
Figure 02_image027
表示激勵函數,
Figure 02_image029
表示求最大值函數,
Figure 02_image031
表示求平均值函數,
Figure 02_image033
表示池化計算後得到的所述第一向量的第
Figure 02_image035
個元素,
Figure 02_image037
表示上下文詞的數量,
Figure 02_image039
表示所述第一向量,
Figure 02_image041
表示所述第二向量,
Figure 02_image043
表示第
Figure 02_image045
個負樣例詞對應的所述第三向量,
Figure 02_image023
表示卷積層的權重參數,
Figure 02_image025
表示卷積層的偏移參數,
Figure 02_image048
表示全連接層的權重參數,
Figure 02_image050
表示全連接層的偏移參數,
Figure 02_image052
表示超參數,
Figure 02_image054
表示相似度計算函數,
Figure 02_image056
表示負樣例詞的數量; 步驟6,將所述各詞的特徵向量分別輸入訓練後的所述卷積神經網路的全連接層進行計算,得到對應的詞向量。 該另一種詞向量產生方法中各步驟可以由相同或者不同的模組執行,本說明書對此並不做具體限定。 上面對本說明書實施例提供的詞向量產生方法進行了說明,基於同樣的思路,本說明書實施例還提供了對應的裝置,如圖6所示。 圖6為本說明書實施例提供的對應於圖2的一種詞向量產生裝置的結構示意圖,該裝置可以位於圖2中流程的執行主體,包括: 獲取模組601,獲取對語料分詞得到的各詞; 建立模組602,根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,所述n元字元表徵其對應的詞的連續n個字元; 訓練模組603,根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞的特徵向量,對卷積神經網路進行訓練; 產生模組604,根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量。 可選地,所述詞的字元包括構成所述詞的各字元,以及添加於所述詞的起始位置及/或結束位置的標注字元。 可選地,所述建立模組602根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,具體包括: 所述建立模組602確定所述各詞對應的各n元字元中不同n元字元的總數量; 分別為所述各詞建立根據所述總數量確定維度的特徵向量,所述特徵向量通過各維的取值指示了其對應的詞所對應的各n元字元。 可選地,所述訓練模組603根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞的特徵向量,對卷積神經網路進行訓練,具體包括: 所述訓練模組603根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量,對卷積神經網路進行訓練。 可選地,所述訓練模組603根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量,對卷積神經網路進行訓練,具體包括: 所述訓練模組603對分詞後的所述語料進行遍歷,對遍歷到的當前詞執行: 確定當前詞在分詞後的所述語料中的一個或多個上下文詞以及負樣例詞; 將當前詞的上下文詞的特徵向量輸入卷積神經網路的卷積層進行卷積計算; 將卷積計算結果輸入所述卷積神經網路的池化層進行池化計算,得到第一向量; 將當前詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,得到第二向量,以及將當前詞的負樣例詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,得到第三向量; 根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數。 可選地,所述訓練模組603進行卷積計算,具體包括: 所述訓練模組603按照如下公式,進行卷積計算:
Figure 02_image003
Figure 02_image005
其中,
Figure 02_image013
表示第
Figure 02_image015
個上下文詞的特徵向量,
Figure 02_image017
表示將第
Figure 02_image015
~
Figure 02_image019
個上下文詞的特徵向量拼接得到的向量,
Figure 02_image021
表示通過所述卷積計算得到的向量的第
Figure 02_image015
個元素,
Figure 02_image023
表示卷積層的權重參數,
Figure 02_image025
表示卷積層的偏移參數,
Figure 02_image027
表示激勵函數。 可選地,所述訓練模組603進行池化計算,具體包括: 所述訓練模組603進行最大化池化計算或者平均池化計算。 可選地,所述訓練模組603根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數,具體包括: 所述訓練模組603計算所述第二向量與所述第一向量的第一相似度,以及所述第三向量與所述第一向量的第二相似度; 根據所述第一相似度、所述第二相似度,以及指定的損失函數,更新所述卷積神經網路的參數。 可選地,所述損失函數具體包括:
Figure 02_image011
其中,
Figure 02_image039
表示所述第一向量,
Figure 02_image041
表示所述第二向量,
Figure 02_image136
表示第
Figure 02_image138
個負樣例詞對應的所述第三向量,
Figure 02_image023
表示卷積層的權重參數,
Figure 02_image025
表示卷積層的偏移參數,
Figure 02_image048
表示全連接層的權重參數,
Figure 02_image050
表示全連接層的偏移參數,
Figure 02_image052
表示超參數,
Figure 02_image054
表示相似度計算函數,
Figure 02_image056
表示負樣例詞的數量。 可選地,所述產生模組604根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量,具體包括: 所述產生模組604將所述各詞的特徵向量分別輸入訓練後的所述卷積神經網路的全連接層進行計算,獲得計算後輸出的向量,作為對應的詞向量。 基於同樣的思路,本說明書實施例還提供了對應的一種詞向量產生設備,包括: 至少一個處理器;以及, 與所述至少一個處理器通信連接的記憶體;其中, 所述記憶體儲存有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠: 獲取對語料分詞得到的各詞; 根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,所述n元字元表徵其對應的詞的連續n個字元; 根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞的特徵向量,對卷積神經網路進行訓練; 根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量。 基於同樣的思路,本說明書實施例還提供了對應的一種非揮發性電腦儲存媒體,儲存有電腦可執行指令,所述電腦可執行指令設置為: 獲取對語料分詞得到的各詞; 根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,所述n元字元表徵其對應的詞的連續n個字元; 根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞的特徵向量,對卷積神經網路進行訓練; 根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量。 上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多任務處理和並行處理也是可以的或者可能是有利的。 本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於裝置、設備、非揮發性電腦儲存媒體實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。 本說明書實施例提供的裝置、設備、非揮發性電腦儲存媒體與方法是對應的,因此,裝置、設備、非揮發性電腦儲存媒體也具有與對應方法類似的有益技術效果,由於上面已經對方法的有益技術效果進行了詳細說明,因此,這裡不再贅述對應裝置、設備、非揮發性電腦儲存媒體的有益技術效果。 在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都通過將改進的方法流程程式化到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模組來實現。例如,可程式化邏輯裝置(Programmable Logic Device, PLD)(例如現場可程式化閘陣列(Field Programmable Gate Array,FPGA))就是這樣一種積體電路,其邏輯功能由使用者對裝置程式化來確定。由設計人員自行程式化來把一個數位系統“整合”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且,如今,取代手工地製作積體電路晶片,這種程式化也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程式開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始碼也得用特定的程式化語言來撰寫,此稱之為硬體描述語言(Hardware Description Language,HDL),而HDL也並非僅有一種,而是有許多種,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式化並程式化到積體電路中,就可以很容易得到實現該邏輯方法流程的硬體電路。 控制器可以按任何適當的方式實現,例如,控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit,ASIC)、可程式化邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限於以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道,除了以純電腦可讀程式碼方式實現控制器以外,完全可以通過將方法步驟進行邏輯程式化來使得控制器以邏輯閘、開關、專用積體電路、可程式化邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。 上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的,電腦例如可以為個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲主機、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。 為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本說明書時可以把各單元的功能在同一個或多個軟體及/或硬體中實現。 本領域內的技術人員應明白,本說明書實施例可提供為方法、系統、或電腦程式產品。因此,本說明書實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本說明書實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。 本說明書是參照根據本說明書實施例的方法、設備(系統)、和電腦程式產品的流程圖及/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖及/或方塊圖中的每一流程及/或方塊、以及流程圖及/或方塊圖中的流程及/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式化資料處理設備的處理器以產生一個機器,使得通過電腦或其他可程式化資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的裝置。 這些電腦程式指令也可儲存在能引導電腦或其他可程式化資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能。 這些電腦程式指令也可裝載到電腦或其他可程式化資料處理設備上,使得在電腦或其他可程式化設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式化設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的步驟。 在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和內部記憶體。 內部記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)及/或非揮發性內部記憶體等形式,如唯讀記憶體(ROM)或快閃隨機存取記憶體(flash RAM)。內部記憶體是電腦可讀媒體的示例。 電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體或其他內部記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存器、磁盒式磁帶,磁帶磁碟儲存器或其他磁性儲存設備或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,電腦可讀媒體不包括暫態媒體(transitory media),如調變的資料信號和載波。 還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。 本領域技術人員應明白,本說明書實施例可提供為方法、系統或電腦程式產品。因此,本說明書可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本說明書可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。 本說明書可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、組件、資料結構等等。也可以在分散式計算環境中實踐本說明書,在這些分散式計算環境中,由通過通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。 本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。 以上所述僅為本說明書實施例而已,並不用於限制本申請。對於本領域技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本申請的申請專利範圍之範疇之內。
S202‧‧‧步驟 S204‧‧‧步驟 S206‧‧‧步驟 S208‧‧‧步驟 601‧‧‧獲取模組 602‧‧‧建立模組 603‧‧‧訓練模組 604‧‧‧產生模組
為了更清楚地說明本說明書實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本說明書中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。 圖1為本說明書的方案在一種實際應用場景下相關的一種整體架構示意圖; 圖2為本說明書實施例提供的一種詞向量產生方法的流程示意圖; 圖3為本說明書實施例提供的實際應用場景下,一個英文詞的特徵向量示意圖; 圖4為本說明書實施例提供的實際應用場景下,一種卷積神經網路的結構示意圖; 圖5為本說明書實施例提供的另一種詞向量產生方法的流程示意圖;以及 圖6為本說明書實施例提供的對應於圖2的一種詞向量產生裝置的結構示意圖。

Claims (18)

  1. 一種詞向量產生方法,包括:獲取對語料分詞得到的各詞;根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,所述n元字元表徵其對應的詞的連續n個字元;根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量,對卷積神經網路進行訓練,其中,所述訓練包括:對分詞後的所述語料進行遍歷,對遍歷到的當前詞執行:確定當前詞在分詞後的所述語料中的一個或多個上下文詞以及負樣例詞;將當前詞的上下文詞的特徵向量輸入卷積神經網路的卷積層進行卷積計算;將卷積計算結果輸入所述卷積神經網路的池化層進行池化計算,得到第一向量;將當前詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,得到第二向量,以及將當前詞的負樣例詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,得到第三向量;以及根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數;以及根據所述各詞的特徵向量和訓練後的所述卷積神經網 路,產生所述各詞的詞向量。
  2. 如請求項1所述的方法,所述詞的字元包括構成所述詞的各字元,以及添加於所述詞的起始位置及/或結束位置的標注字元。
  3. 如請求項1所述的方法,所述根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,具體包括:確定所述各詞對應的各n元字元中不同n元字元的總數量;以及分別為所述各詞建立根據所述總數量確定維度的特徵向量,所述特徵向量通過各維的取值指示了其對應的詞所對應的各n元字元。
  4. 如請求項1所述的方法,所述進行卷積計算,具體包括:按照如下公式,進行卷積計算:
    Figure 107145884-A0305-02-0032-1
    其中,x i 表示第i個上下文詞的特徵向量,x ii+θ-1表示將第i~i+θ-1個上下文詞的特徵向量拼接得到的向量,y i 表示通過所述卷積計算得到的向量的第i個元素,ω表示卷積層的權重參數,ζ表示卷積層的偏移參數,σ表示激勵函數。
  5. 如請求項1所述的方法,所述進行池化計算,具體包括:進行最大化池化計算或者平均池化計算。
  6. 如請求項1所述的方法,所述根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數,具體包括:計算所述第二向量與所述第一向量的第一相似度,以及所述第三向量與所述第一向量的第二相似度;以及根據所述第一相似度、所述第二相似度,以及指定的損失函數,更新所述卷積神經網路的參數。
  7. 如請求項1所述的方法,所述損失函數具體包括:
    Figure 107145884-A0305-02-0033-2
    其中,c表示所述第一向量,w表示所述第二向量,
    Figure 107145884-A0305-02-0033-4
    表示第m個負樣例詞對應的所述第三向量,ω表示卷積層的權重參數,ζ表示卷積層的偏移參數,
    Figure 107145884-A0305-02-0033-13
    表示全連接層的權重參數,τ表示全連接層的偏移參數,γ表示超參數,s表示相似度計算函數,λ表示負樣例詞的數量。
  8. 如請求項1所述的方法,所述根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向 量,具體包括:將所述各詞的特徵向量分別輸入訓練後的所述卷積神經網路的全連接層進行計算,獲得計算後輸出的向量,作為對應的詞向量。
  9. 一種詞向量產生裝置,包括:獲取模組,獲取對語料分詞得到的各詞;建立模組,根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,所述n元字元表徵其對應的詞的連續n個字元;訓練模組,根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量,對卷積神經網路進行訓練,其中,所述訓練包括:所述訓練模組對分詞後的所述語料進行遍歷,對遍歷到的當前詞執行:確定當前詞在分詞後的所述語料中的一個或多個上下文詞以及負樣例詞;將當前詞的上下文詞的特徵向量輸入卷積神經網路的卷積層進行卷積計算;將卷積計算結果輸入所述卷積神經網路的池化層進行池化計算,得到第一向量;將當前詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,得到第二向量,以及將當前詞的負樣例詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,得到第三向量;以及 根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數;以及產生模組,根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量。
  10. 如請求項9所述的裝置,所述詞的字元包括構成所述詞的各字元,以及添加於所述詞的起始位置及/或結束位置的標注字元。
  11. 如請求項9所述的裝置,所述建立模組根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,具體包括:所述建立模組確定所述各詞對應的各n元字元中不同n元字元的總數量;以及分別為所述各詞建立根據所述總數量確定維度的特徵向量,所述特徵向量通過各維的取值指示了其對應的詞所對應的各n元字元。
  12. 如請求項9所述的裝置,所述訓練模組進行卷積計算,具體包括:所述訓練模組按照如下公式,進行卷積計算:
    Figure 107145884-A0305-02-0035-5
    其中,x i 表示第i個上下文詞的特徵向量,x ii+θ-1表示將第i~i+θ-1個上下文詞的特徵向量拼接得到的向量,y i 表示通過所述卷積計算得到的向量的第i個元素,ω表示卷積層的權重參數,ζ表示卷積層的偏移參數,σ表示激勵函數。
  13. 如請求項9所述的裝置,所述訓練模組進行池化計算,具體包括:所述訓練模組進行最大化池化計算或者平均池化計算。
  14. 如請求項9所述的裝置,所述訓練模組根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數,具體包括:所述訓練模組計算所述第二向量與所述第一向量的第一相似度,以及所述第三向量與所述第一向量的第二相似度;以及根據所述第一相似度、所述第二相似度,以及指定的損失函數,更新所述卷積神經網路的參數。
  15. 如請求項9所述的裝置,所述損失函數具體包括:
    Figure 107145884-A0305-02-0036-6
    其中,c表示所述第一向量,w表示所述第二向量,
    Figure 107145884-A0305-02-0036-7
    表示第m個負樣例詞對應的所述第三向量,ω表示卷積層的權重參數,ζ表示卷積層的偏移參數,
    Figure 107145884-A0305-02-0037-14
    表示全連接層的權重參數,τ表示全連接層的偏移參數,γ表示超參數,s表示相似度計算函數,λ表示負樣例詞的數量。
  16. 如請求項9所述的裝置,所述產生模組根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量,具體包括:所述產生模組將所述各詞的特徵向量分別輸入訓練後的所述卷積神經網路的全連接層進行計算,獲得計算後輸出的向量,作為對應的詞向量。
  17. 一種詞向量產生方法,包括:步驟1,建立通過對語料分詞得到的各詞構成的詞彙表,所述各詞不包括在所述語料中出現次數少於設定次數的詞;跳至步驟2;步驟2,確定各詞對應的各n元字元的總數量,相同的n元字元只計一次,所述n元字元表徵其對應的詞的連續n個字元;跳至步驟3;步驟3,根據所述各詞對應的各n元字元,為各詞分別建立維度為所述總數量的特徵向量,所述特徵向量的每維分別對應一個不同的n元字元,所述每維的取值表明其對應的n元字元是否對應於所述特徵向量對應的詞;跳至步驟4; 步驟4,遍歷分詞後的所述語料,對遍歷到的當前詞執行步驟5,若遍歷完成則執行步驟6,否則繼續遍歷;步驟5,以當前詞為中心,向兩側分別滑動至多k個詞建立窗口,將窗口中除當前詞以外的詞作為上下文詞,並將所有上下文詞的特徵向量輸入卷積神經網路的卷積層進行卷積計算,卷積計算結果輸入所述卷積神經網路的池化層進行池化計算,得到第一向量;將當前詞以及在所述語料中選擇的負樣例詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,分別得到第二向量和第三向量;根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數;所述卷積計算按照如下公式進行:
    Figure 107145884-A0305-02-0038-8
    所述池化計算按照如下公式進行:
    Figure 107145884-A0305-02-0038-9
    ,或者
    Figure 107145884-A0305-02-0038-10
    所述損失函數包括:
    Figure 107145884-A0305-02-0038-11
    其中,x i 表示第i個上下文詞的特徵向量,x ii+θ-1表示將第i~i+θ-1個上下文詞的特徵向量拼接得到的向量,y i 表示通過所述卷積計算得到的向量的第i個元素,ω表示卷積層的權重參數,ζ表示卷積層的偏移參數,σ表示激勵函數,max表示求最大值函數,average表示求平均值函數,c(j) 表示池化計算後得到的所述第一向量的第j個元素,t表示上下文詞的數量,c表示所述第一向量,w表示所述第二向量,
    Figure 107145884-A0305-02-0039-12
    表示第m個負樣例詞對應的所述第三向量,ω表示卷積層的權重參數,ζ表示卷積層的偏移參數,
    Figure 107145884-A0305-02-0039-17
    表示全連接層的權重參數,τ表示全連接層的偏移參數,γ表示超參數,s表示相似度計算函數,λ表示負樣例詞的數量;以及步驟6,將所述各詞的特徵向量分別輸入訓練後的所述卷積神經網路的全連接層進行計算,得到對應的詞向量。
  18. 一種詞向量產生設備,包括:至少一個處理器;以及,與所述至少一個處理器通信連接的記憶體;其中,所述記憶體儲存有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠:獲取對語料分詞得到的各詞;根據所述各詞對應的各n元字元,建立所述各詞的特徵向量,所述n元字元表徵其對應的詞的連續n個字元;根據所述各詞的特徵向量,以及所述各詞在所述語料中的上下文詞和負樣例詞的特徵向量,對卷積神經網路進行訓練,其中,所述訓練包括:對分詞後的所述語料進行遍歷,對遍歷到的當前詞執行: 確定當前詞在分詞後的所述語料中的一個或多個上下文詞以及負樣例詞;將當前詞的上下文詞的特徵向量輸入卷積神經網路的卷積層進行卷積計算;將卷積計算結果輸入所述卷積神經網路的池化層進行池化計算,得到第一向量;將當前詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,得到第二向量,以及將當前詞的負樣例詞的特徵向量輸入所述卷積神經網路的全連接層進行計算,得到第三向量;以及根據所述第一向量、所述第二向量、所述第三向量,以及指定的損失函數,更新所述卷積神經網路的參數;以及根據所述各詞的特徵向量和訓練後的所述卷積神經網路,產生所述各詞的詞向量。
TW107145884A 2018-02-05 2018-12-19 詞向量產生方法、裝置以及設備 TWI689831B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
??201810111369.8 2018-02-05
CN201810111369.8A CN110119505A (zh) 2018-02-05 2018-02-05 词向量生成方法、装置以及设备
CN201810111369.8 2018-02-05

Publications (2)

Publication Number Publication Date
TW201935275A TW201935275A (zh) 2019-09-01
TWI689831B true TWI689831B (zh) 2020-04-01

Family

ID=67479089

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107145884A TWI689831B (zh) 2018-02-05 2018-12-19 詞向量產生方法、裝置以及設備

Country Status (5)

Country Link
US (1) US11030411B2 (zh)
CN (1) CN110119505A (zh)
SG (1) SG11202004401UA (zh)
TW (1) TWI689831B (zh)
WO (1) WO2019149135A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705315B (zh) * 2019-10-09 2022-12-30 宁波深擎信息科技有限公司 一种基于通道和空间维度的词向量训练方法
CN112686035B (zh) * 2019-10-18 2024-07-16 北京沃东天骏信息技术有限公司 一种未登录词进行向量化的方法和装置
CN110879934B (zh) * 2019-10-31 2023-05-23 杭州电子科技大学 一种基于Wide&Deep深度学习模型的文本预测方法
CN111079442B (zh) * 2019-12-20 2021-05-18 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备
CN112069822B (zh) * 2020-09-14 2024-09-06 上海秒针网络科技有限公司 一种词向量表示的获取方法、装置、设备及可读介质
CN112989790B (zh) * 2021-03-17 2023-02-28 中国科学院深圳先进技术研究院 基于深度学习的文献表征方法及装置、设备、存储介质
CN113343676B (zh) * 2021-04-13 2022-12-06 山东师范大学 一种基于卷积神经网络的句子分类方法及系统
CN113297410A (zh) * 2021-07-26 2021-08-24 广东众聚人工智能科技有限公司 一种图像检索方法、装置、计算机设备及存储介质
CN113657109A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于模型的临床术语的标准化方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411687A (zh) * 2011-11-22 2012-04-11 华北电力大学 未知恶意代码的深度学习检测方法
US20170220904A1 (en) * 2015-04-02 2017-08-03 Tencent Technology (Shenzhen) Company Limited Training method and apparatus for convolutional neural network model
TW201732651A (zh) * 2016-02-29 2017-09-16 Alibaba Group Services Ltd 一種單詞的分割方法和裝置
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622134B1 (en) * 1999-01-05 2003-09-16 International Business Machines Corporation Method of constructing data classifiers and classifiers constructed according to the method
CN104834747B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN105760507B (zh) * 2016-02-23 2019-05-03 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN107220231A (zh) * 2016-03-22 2017-09-29 索尼公司 用于自然语言处理的电子设备和方法以及训练方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107168952B (zh) * 2017-05-15 2021-06-04 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411687A (zh) * 2011-11-22 2012-04-11 华北电力大学 未知恶意代码的深度学习检测方法
US20170220904A1 (en) * 2015-04-02 2017-08-03 Tencent Technology (Shenzhen) Company Limited Training method and apparatus for convolutional neural network model
TW201732651A (zh) * 2016-02-29 2017-09-16 Alibaba Group Services Ltd 一種單詞的分割方法和裝置
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法

Also Published As

Publication number Publication date
SG11202004401UA (en) 2020-06-29
US20200285811A1 (en) 2020-09-10
WO2019149135A1 (zh) 2019-08-08
TW201935275A (zh) 2019-09-01
US11030411B2 (en) 2021-06-08
CN110119505A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
TWI689831B (zh) 詞向量產生方法、裝置以及設備
TWI701588B (zh) 詞向量處理方法、裝置以及設備
TWI685761B (zh) 詞向量處理方法及裝置
TWI686713B (zh) 詞向量產生方法、裝置以及設備
CN111951805B (zh) 一种文本数据处理方法及装置
CN107957989B9 (zh) 基于集群的词向量处理方法、装置以及设备
CN108874765B (zh) 词向量处理方法及装置
CN108717409A (zh) 一种序列标注方法及装置
CN111401031A (zh) 一种目标文本确定方法、装置及设备
CN114972774B (zh) 特定区域的图像描述生成方法、装置、设备及存储介质
CN117034942B (zh) 一种命名实体识别方法、装置、设备及可读存储介质
JP2022106980A (ja) クエリ文の生成方法、装置、電子機器及び記憶媒体
CN107423269A (zh) 词向量处理方法及装置
CN107247704B (zh) 词向量处理方法、装置以及电子设备
CN107562716A (zh) 词向量处理方法、装置以及电子设备
CN108170663A (zh) 基于集群的词向量处理方法、装置以及设备
CN107577658B (zh) 词向量处理方法、装置以及电子设备
CN107562715B (zh) 词向量处理方法、装置以及电子设备
CN107844472B (zh) 词向量处理方法、装置以及电子设备
CN107577659A (zh) 词向量处理方法、装置以及电子设备
CN116451808B (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN116384396A (zh) 基于lstm与位置感知网络的实体关系抽取方法及系统