TWI698761B

TWI698761B - 針對訓練語料從詞頻表中進行負例採樣的方法及裝置

Info

Publication number: TWI698761B
Application number: TW108106638A
Authority: TW
Inventors: 林建濱; 周俊
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-06-01
Filing date: 2019-02-27
Publication date: 2020-07-11
Also published as: CN108875810A; WO2019228014A1; TW202004533A; CN108875810B

Abstract

本說明書實施例提供一種針對訓練語料從詞頻表中進行負例採樣的方法和裝置，根據該方法，首先從詞頻表獲取一個備選詞彙作為當前詞彙，並獲取剩餘採樣個數，剩餘採樣機率和當前採樣機率，基於當前詞彙在剩餘採樣個數和當前採樣機率條件下的二項分佈，確定當前詞彙被採樣次數，然後將當前詞彙按照被採樣次數添加到負例集中。由於對一個當前詞彙執行以上步驟的情況下，可以添加被採樣次數的當前詞彙到負例集，使總體的負例採樣次數減少，從而減少負例採樣的時間，進而能夠快速有效地進行負例採樣。

Description

針對訓練語料從詞頻表中進行負例採樣的方法及裝置

本說明書一個或多個實施例係關於電腦技術領域，尤其關於透過電腦針對訓練語料從詞頻表中進行負例採樣的方法和裝置。

雜訊對比估計NCE(Noise Contrastive Estimation)是Word2Vec、Node2Vec等無監督演算法中通常用到的損失函數。應用該損失函數時，需要先對訓練語料中每一個詞彙及其上下文產生一定數量的負例。其中，對訓練預料中的某個詞彙而言，該詞及其上下文詞彙之外的任一個詞都可以是一個負例。一般地，上述負例根據訓練語料的詞彙分佈隨機採樣，該詞彙分佈例如採用詞頻表近似表示。常規技術中，在使用負例時對相應詞彙產生負例。具體地，將詞彙分佈(如詞頻表)映射到一個區間上，產生區間內的數值，從而查找相對應的詞彙作為負例。在訓練預料中的字典中詞彙較多(例如數億級別)，需要負例數量較大的情況下，希望能有改進的方案，減少採樣的時間，從而能夠快速有效地進行負例採樣。

本說明書一個或多個實施例描述了一種方法和裝置，在訓練預料中的字典中詞彙較多(例如數億級別)，需要負例數量較大的情況下，可以減少採樣的時間，從而能夠快速有效地進行負例採樣。根據第一態樣，提供了一種針對訓練語料從詞頻表中進行負例採樣的方法，所述詞頻表包括多個備選詞彙和各個備選詞彙在所述訓練語料中的出現頻率，所述方法包括：從所述多個備選詞彙的未採樣詞彙集合中獲取當前詞彙，以及當前詞彙對應的出現頻率；獲取針對所述未採樣詞彙集合確定的剩餘採樣個數和剩餘採樣機率；基於所述當前詞彙對應的出現頻率和所述剩餘採樣機率，確定當前採樣機率；根據所述當前詞彙在所述剩餘採樣個數和所述當前採樣機率條件下的二項分佈，確定所述當前詞彙被採樣次數；將所述當前詞彙按照所述被採樣次數添加到負例集中；根據所述當前詞彙被採樣次數更新所述剩餘採樣個數，並根據所述當前詞彙對應的出現頻率更新所述剩餘採樣機率，用於對所述詞頻表中的其他備選詞彙進行採樣，直到檢測到預定條件得到滿足。在一個實施例中，基於所述當前詞彙對應的出現頻率和所述剩餘採樣機率，確定當前採樣機率包括：將所述當前採樣機率確定為，所述當前詞彙對應的出現頻率與所述剩餘採樣機率的比值。根據一個實施例，所述確定所述當前詞彙被採樣次數包括：模擬執行所述剩餘採樣個數次的採樣操作，其中，在各次採樣操作中，所述當前詞彙被採樣到的機率為所述當前採樣機率；確定所述被採樣次數為，所述當前詞彙在所述剩餘採樣個數次的採樣操作中被採樣到的次數。在一個實施方式中，根據所述當前詞彙被採樣次數更新所述剩餘採樣個數包括：將剩餘採樣個數更新為，所述剩餘採樣個數與所述被採樣次數的差。進一步地，在一個實施例中，所述預定條件包括：所述負例集中的負例個數達到預設數目；或者更新後的剩餘採樣個數為零；或者所述未採樣詞彙集合為空。在一個可能的實施例中，所述根據所述當前詞彙對應的出現頻率更新所述剩餘採樣機率包括：將剩餘採樣機率更新為，所述剩餘採樣機率與所述當前詞彙對應的出現頻率的差。根據一種可能的設計，所述方法還包括：在所述負例集中的負例個數滿足預定條件的情況下，輸出所述負例集。在一些可能的實施例中，所述方法還包括：針對訓練語料中的訓練詞彙，從所述負例集中選取負例。進一步地，在一些實施例中，從所述負例集中選取負例包括：產生預定區間上的亂數，其中，所述預定區間上的各個數值分別與所述負例集中的各個負例相對應，所述亂數取自所述各個數值；從所述負例集中獲取與所述亂數相對應的負例。根據一種實施方式，所述從所述負例集中獲取與所述亂數相對應的負例包括：比較所獲取的負例與所述訓練詞彙是否一致；在一致的情況下，重新執行所述產生預定區間上的亂數的步驟。根據一種可能的設計，所述方法還包括：檢測所述負例集的更新條件是否滿足；在所述更新條件滿足的情況下，重新產生負例集。根據第二態樣，提供一種針對訓練語料從詞頻表中進行負例採樣的裝置，所述詞頻表包括多個備選詞彙和各個備選詞彙在所述訓練語料中的出現頻率，所述裝置包括：第一獲取單元，配置為從所述多個備選詞彙的未採樣詞彙集合中獲取當前詞彙，以及當前詞彙對應的出現頻率；第二獲取單元，配置為獲取針對所述未採樣詞彙集合確定的剩餘採樣個數和剩餘採樣機率；第一確定單元，配置為基於所述當前詞彙對應的出現頻率和所述剩餘採樣機率，確定當前詞彙對應的當前採樣機率；第二確定單元，配置為根據所述當前詞彙在所述剩餘採樣個數和所述當前採樣機率條件下的二項分佈，確定所述當前詞彙被採樣次數；添加單元，配置為將所述當前詞彙按照所述被採樣次數添加到負例集中；更新單元，配置為根據所述當前詞彙被採樣次數更新所述剩餘採樣個數，根據所述當前詞彙對應的出現頻率更新所述剩餘採樣機率，用於對所述詞頻表中的其他備選詞彙進行採樣，直到檢測到所述負例集中的負例個數滿足預定條件。根據第三態樣，提供了一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行第一態樣的方法。根據第四態樣，提供了一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現第一態樣的方法。透過本說明書實施例提供的方法和裝置，針對訓練語料從詞頻表中進行負例採樣時，對於一個從詞頻表獲取一個備選詞彙作為當前詞彙，並獲取剩餘採樣個數和剩餘採樣機率，基於當前詞彙在剩餘採樣個數和當前採樣機率條件下的二項分佈，確定當前詞彙被採樣次數，然後將當前詞彙按照被採樣次數添加到負例集中。由於對一個當前詞彙執行以上步驟的情況下，可以添加被採樣次數的當前詞彙到負例集，使總體的負例採樣次數減少，從而減少負例採樣的時間，進而能夠快速有效地進行負例採樣。

下面結合附圖，對本說明書提供的方案進行描述。圖1為本說明書披露的一個實施例的實施場景示意圖。在一個無監督模型(例如Word2Vec、Node2Vec)訓練過程中，損失函數可以為雜訊對比估計NCE，運算式如下：

；其中：V表示字典；w_i 表示第i個訓練詞彙；c_i 表示與第i個詞彙相鄰的上下文詞彙；k表示w_i 對應的負例個數；w_ij 表示w_i 的第j個負例；c_j 表示與該第j個負例相鄰的上下文詞彙。由以上公式可知，在語料訓練過程中，對每個訓練詞彙w_i ，都需要從其在字典的機率分佈中進行k次隨機取樣，獲取k個負例。字典中的多個詞彙和各個詞彙在訓練語料中的出現頻率通常透過詞頻表來表示。往往將字典V對應的詞頻表投影到一個區間[0，1]上，區間中各段的長度和相應詞彙的出現頻率成正比。進一步地，在一種負例採樣方式中，將各個詞彙對應的區間段按照最小頻率單位劃分為多個“格子”，並記錄各個格子的編號作為索引。一個詞彙的出現頻率越大，對應的區間段越長，包含的格子數目越多。每次進行負例採樣時，產生索引中的亂數，並將索引為該亂數的相應詞彙作為負例。實際使用中，索引數量越多，對字典詞頻表的模擬越準確。例如，由於每個索引對應一個“格子”，為了保證每個詞彙都有對應的索引，出現頻率最小的詞彙對應的索引至少為1個，其他詞彙對應的頻率可能有多個，如詞彙1的出現頻率為0.03，詞彙2的出現頻率為詞彙0.001……，則可以使詞彙2對應1個索引，而詞彙1對應30個索引。當字典V中詞彙量較多(如以億計)時，索引數量更多。需要較大的儲存空間，甚至儲存到遠端伺服器，每次獲取負例花費額外通信時間。如圖1所示，本說明書實施例提供了一種方案，先透過詞頻表進行負例的預採樣，將採樣的詞彙加入到負例集中。在預採樣過程中，進行批量採樣，對詞頻表中的各個詞彙只採樣一次，而採樣的數量可以是多個，並保證最終各個詞彙的採樣數量與詞頻表中的出現頻率一致。如圖1中，對詞頻表中的詞彙w1採樣s1次，對詞彙w2採樣s2次，對詞彙w3採樣s3次，等等。如此，既減少了預採樣時的採樣次數，並保證負例集中各個詞彙的採樣數量與詞頻表中的出現頻率一致。在詞彙訓練過程中，如果需要負例，則從負例集中隨機獲取相應數量的負例即可。如圖1中，針對訓練詞彙u1從負例集中隨機取出k1個負例，對訓練詞彙u2從負例集中隨機取出k2個負例，對訓練詞彙u3從負例集中隨機取出k3個負例；等等。由於負例集中是預採樣的負例，其中各個詞彙的採樣數量與詞頻表中的出現頻率一致，因此使用時只需隨機取出相應數量負例即可，而無需考慮詞彙在詞彙表中的出現頻率，就可以保證對各個負例的取樣機率與詞頻表中相應詞彙的出現頻率一致。如此，運算複雜度大大降低。同時，預採樣的負例集可以多次使用，進一步提高模型訓練中負例採樣的有效性。可以理解，圖1中的計算平台可以是具有一定運算能力的各種裝置、設備，例如桌上型電腦、伺服器等等。可以理解，計算平台還可以是上述裝置、設備組成的設備集群。在該計算平台是多個設備或裝置的情況下，根據一種實施方式，可以由其中一些設備或裝置完成負例採樣操作，產生負例集，另一些設備或裝置獲取該負例集，在訓練詞彙時從該負例集中隨機取出負例。下面描述針對訓練語料從詞頻表中進行負例採樣的具體執行過程。圖2示出了本說明書一個實施例的針對訓練語料從詞頻表中進行負例採樣的方法流程圖。該方法的執行主體例如是圖1的計算平台。如圖2所示，該方法包括以下步驟：步驟21，從詞頻表的未採樣詞彙集合中獲取當前詞彙，以及當前詞彙對應的出現頻率；步驟22，獲取針對所述未採樣詞彙集合確定的剩餘採樣個數和剩餘採樣機率；步驟23，基於當前詞彙對應的出現頻率和所述剩餘採樣機率，確定當前詞彙對應的當前採樣機率；步驟24，根據當前詞彙在剩餘採樣個數和當前採樣機率條件下的二項分佈，確定當前詞彙被採樣次數；步驟25，將當前詞彙按照上述被採樣次數添加到負例集中；步驟26，根據當前詞彙被採樣次數更新上述剩餘採樣個數，以及根據當前詞彙對應的出現頻率更新上述剩餘採樣機率，用於對詞頻表中的其他備選詞彙進行採樣，直到檢測到預定條件得到滿足。下面描述以上各個步驟的具體執行過程。首先，在步驟21，從詞頻表的未採樣詞彙集合中獲取當前詞彙，以及當前詞彙對應的出現頻率。可以理解，詞頻表可以包括多個備選詞彙，以及各個備選詞彙在訓練預料中的出現頻率。這多個備選詞彙可以包括訓練預料中出現的所有詞彙。詞頻表可以是表格、向量、陣列、鍵值對(key-value)等各種形式，本說明書對此不作限定。各個備選詞彙在訓練語料中的出現次數各不相同，如此，詞頻表還可以透過出現頻率來衡量各個詞彙在訓練語料中的比重。一個備選詞彙的出現頻率可以包括，該備選詞彙在訓練語料中的總出現次數與訓練語料中的總詞彙數量的比值。其中，該總詞彙數量計算時不合併重複的詞彙，即：統計時，每個詞彙每出現一次，總詞彙數量增加1。如前所述，根據本說明實施例的方法，對於詞頻表中的各個備選詞彙，可以依次對其進行批量採樣。因此，詞頻表可以劃分為已採樣詞彙集合和未採樣詞彙集合，其各自包括已採樣的備選詞彙和未採樣的備選詞彙。在步驟21，從上述未採樣詞彙集合中獲取當前詞彙，以及當前詞彙對應的出現頻率，以便用於接下來對當前詞彙進行採樣。在一個實施例中，可以按照詞頻表中各個詞彙的儲存地址依次獲取一個備選詞彙作為當前詞彙，按這樣的順序取詞可以保證不會重複取詞重複採樣，即每次都是從未採樣的詞彙集合中獲取當前詞彙。例如，獲取詞頻表的儲存地址，根據各個備選詞彙相對於詞頻表的儲存地址的偏移量來獲取一個備選詞彙。此時，詞頻表的儲存地址加上偏移量就是各個備選詞彙的儲存地址。如上述偏移量在[0000-FFFF]之間，可以首先將偏移量為0000的備選詞彙獲取為當前詞彙，下一輪執行該流程時會獲取偏移量為0001的備選詞彙，以此類推。可選地，備選詞彙及其出現頻率可以儲存在同一個儲存地址對應的儲存單元中，此時，可以同時獲取當前詞彙及其出現頻率。另一種情況下，備選詞彙及其出現頻率可以儲存在不同的儲存單元，此時，可以按照備選詞彙的儲存地址獲取相關聯的出現頻率。在另一個實施例中，也可以按照詞頻表中各個備選詞彙的排列順序獲取一個備選詞彙作為當前詞彙，如此保證每次都是從未採樣詞彙集合中獲取當前詞彙。例如在詞頻表是表格的情況下，按照表格中的各行順序獲取備選詞彙，如第一輪執行該流程時獲取第一行的備選詞彙，第二輪獲取第二行的備選詞彙，等等。在表格有多個列的情況下，還可以按照第一列第一行、第一列第二行……這樣的順序這樣獲取一個備選詞彙。在步驟22中，獲取針對未採樣詞彙集合確定的剩餘採樣個數s和剩餘採樣機率r。剩餘採樣個數s可以是負例集中還需要的負例個數，也是未採樣詞彙集合中所有未採樣詞彙需要被採樣的總次數。初始地，剩餘採樣個數s是整個負例集所需要的總的負例個數S0。在一個實施例中，整個負例集所需要的負例個數S0可以是根據訓練語料中的詞彙數計算得到的，也可以是人工設定的，本申請對此不作限定。例如，在前述損失函數中，針對每個訓練詞彙需要取k個負例，假定訓練預料中包含n個詞彙，那麼可以將負例個數S0設定為S0=n*k。在另一實施例中，還可以將該初始需要的負例個數S0設定為訓練預料中詞彙數目的預定比例，等等。在初始設置之後，每對一個備選詞彙採樣完畢，會對剩餘採樣次數進行更新，即剩餘採樣次數減小相應次數。例如，由人工設定了負例集需要10000個負例，對備選詞彙w₀ 採樣了5次，則剩下的詞總共需要的採樣次數為10000-5=9995。剩餘採樣機率r，可以是所有未採樣詞彙在產生負例集的負例採樣過程中的總採樣機率。作為示例，假定詞頻表中的備選詞彙包括w₀ 、w₁ 、w₂ ……，對應出現頻率p₀ 、p₁ 、p₂ ……，剩餘採樣機率r表示，未採樣詞彙的總採樣機率。初始地，所有備選詞彙均未被採樣，此時剩餘採樣機率 r即為詞頻表中所有備選詞彙在產生負例集的負例採樣過程中的總採樣機率，因此，r的初始值為1。可以理解，為了保證最終負例集中的各個負例在負例集中的占比與相應的備選詞彙的出現頻率一致，每對一個備選詞彙採樣完畢，會對剩餘採樣機率也進行更新。例如，在第一個備選詞彙w₀ 採樣完畢的情況下，剩餘採樣機率會被更新為r＇=r- p₀ =1- p₀ ，以此類推，在第二個備選詞彙w₁ 採樣完畢的情況下，剩餘採樣機率會被更新為 r＇＇=r＇- p₁ =1- p₀ - p₁ ……。因此，如果當前詞彙wi為詞頻表中的第一個詞彙，那麼在步驟22，分別獲取負例集中需要的負例個數的初始值S0為所述剩餘採樣個數s，獲取初始值r=1為所述剩餘採樣機率r。如果當前詞彙w_i 不是詞彙表的第一個詞彙，那麼在步驟22，分別讀取在對前一詞彙w_i-1 採樣之後更新得到的剩餘採樣個數s和剩餘採樣機率r。步驟23，基於當前詞彙對應的出現頻率p_i 和所述剩餘採樣機率r，確定當前詞彙對應的當前採樣機率P。當前採樣機率P，可以是當前詞彙在整個未採樣集合中的採樣機率。可以理解，由於本實施例是針對各個備選詞彙批量採樣，換言之，要一次採集夠相應數量的某個備選詞彙。那麼，當一個備選詞彙採樣完畢後，其會被加入已採樣詞彙集合，後續被採樣到的機率是0。這樣，之後的採樣過程不需要考慮採樣過的備選詞彙，而是在未採樣詞彙集合中進行。其中，由於當前詞彙還未進行採樣，所以上述未採樣詞彙集合包括當前詞彙在內。仍然參考以上示例，容易理解，備選詞彙w₀ 、w₁ 、w₂ ……的出現頻率分別為p₀ 、p₁ 、p₂ ……。在對第一個備選詞彙w₀ 採樣的情況下，採樣機率為p₀ ，剩餘備選詞彙(未採樣詞彙集合)的總採樣機率為r=1- p₀ = p₁ + p₂ +…。第二個備選詞彙w₁ 的出現頻率為p₁ ，則其在剩餘備選詞彙(未採樣詞彙集合)中的採樣機率為p₁ /(p₁ + p₂ +…)=p₁ /1-p₀ 。以此類推，對於當前詞彙wi，當前採樣機率也可以表示為：P=p_i /r，即：當前詞彙對應的出現頻率p_i 和剩餘採樣機率r的比值。步驟24，根據當前詞彙w_i 在剩餘採樣個數s和當前採樣機率P條件下的二項分佈，確定當前詞彙w_i 的被採樣次數b。可以理解，詞頻表中的備選詞彙都對應一個被採樣次數，例如圖1所示的對詞彙w1採樣s1次，對詞彙w2採樣s2次，對詞彙w3採樣s3次，等等，以完成對備選詞彙批量採樣。可選地，當一個備選詞彙的出現頻率較小時，其被採樣次數可能為0。在一個實施例中，利用二項分佈確定上述被採樣次數。二項分佈是若干次獨立的伯努利試驗中成功的次數的離散機率分佈。在每次試驗中，只能出現兩個可能結果中的一個結果，並且各次實驗的實驗結果相互獨立。每個結果發生的機率在每一次獨立試驗中都保持不變，當試驗次數為1時，二項分佈服從0-1分佈，亦即，對其中的一個結果而言，要麼發生(成功)，要麼不發生。用ξ表示隨機試驗的結果。如果某個事件發生的機率是p，則不發生的機率q=1-p，用P表示n次獨立重複試驗中該事件發生k次的機率為： P(ξ=k)= C(n，k) × p^k × (1-p)^(n-k) ；其中：C(n，k) = n!/(k!×(n-k)!)。這個就是該事件在次數n和機率p條件下的二項分佈機率。具體到該步驟24中，在一個實施例中，調用二項分佈函數Binomial(s，P)來確定當前詞彙的被採樣次數b。可以看到，該二項分佈函數的參數為剩餘採樣個數s和當前採樣機率P，表示在s次採樣試驗，每次採樣到當前詞彙w_i 的機率為P的條件下，w_i 被採樣到的次數。上述二項分佈函數的執行可以包括，模擬執行剩餘採樣個數s次的採樣操作(伯努利試驗)，相當於採樣試驗，其中，這些採樣操作是針對剩餘的備選詞彙執行的。在各次採樣操作中，確保當前詞彙w_i 被採樣到(試驗成功)的機率為當前採樣機率P。統計當前詞彙被採樣到的次數，並確定當前詞彙的被採樣次數b為，當前詞彙在剩餘採樣個數s次的採樣操作中被採樣到的次數。在另一個實施例中，還可以從滿足二項分佈採樣條件的數值中隨機獲取一個值，作為當前詞彙被採樣次數。可以理解，根據二項分佈的含義，假設當前詞彙“財富”最終被採樣b次，則數值b滿足的條件可以為：與剩餘採樣個數的比值應與當前採樣機率一致。例如，剩餘採樣個數s為8000，當前採樣機率P為0.03，則可能當b在200-272範圍內時b/8000都可以四捨五入為0.03。如此，可以在200-272之間取一個亂數，作為當前詞彙“財富”的被採樣次數。在步驟25，將當前詞彙w_i 按照上述被採樣次數b添加到負例集中。這裡，步驟24確定的被採樣次數b是多少，就添加多少個當前詞彙到負例集。如以上示例中b的取值為232，則添加232個當前詞彙“財富”到負例集中。步驟26，根據當前詞彙被採樣次數b更新上述剩餘採樣個數s，根據當前詞彙對應的出現頻率p_i 更新上述剩餘採樣機率r。更新後的剩餘採樣次數s和剩餘採樣機率r可以用於對詞頻表中的其他備選詞彙進行採樣。例如對下一個備選詞彙而言，步驟22中所獲取的剩餘採樣個數和剩餘採樣機率是本步驟更新後的剩餘採樣個數和剩餘採樣機率。可以理解，對每個備選詞彙進行採樣後，可以將其從未採樣詞彙集合移動到已採樣詞彙集合中。如此，針對未採樣詞彙集合設置的剩餘採樣個數s會減少相應數量，剩餘採樣機率r也會發生改變。換句話說，對於下一個備選詞彙而言，採樣條件發生變化。例如，負例集需要10000個負例，則初始剩餘負例個數為10000，初始剩餘採樣頻率為1，當對一個出現頻率為0.03的備選詞彙w0採樣200次後，對下一個出現頻率為0.05的備選詞彙而言，是在剩餘負例個數為9800、剩餘採樣機率為0.97的情況下進行採樣。在一個實施例中，對當前詞彙採樣完成後，可以將剩餘採樣個數s更新為，原剩餘採樣個數與當前詞彙被採樣次數b的差。如實現邏輯為：s=s-b；其中，s為剩餘採樣個數，b為當前詞彙w_i 的被採樣次數。在一個實施例中，將剩餘採樣機率r更新為，原剩餘採樣機率與當前詞彙對應的出現頻率p_i 的差。如實現邏輯為：r=r-p_i ；其中，r為剩餘採樣機率，p_i 為當前詞彙w_i 的出現頻率。值得說明的是，由於負例集中需要的負例個數是有限的，因此，還可以預先設置與負例集中的負例個數相關的預定條件，當滿足該條件時，停止負例採樣，否則繼續針對詞頻表的其他備選詞彙執行以上採樣流程。該檢測步驟可以在更新步驟26之後進行，也可以和步驟26並列執行。其可以是步驟26的一部分，也可以是步驟26的後續步驟27。下面以後續步驟27的方式詳細說明該檢測步驟的具體實現。在該步驟27中，檢測預定條件是否得到滿足，在滿足預定條件的情況下，該負例採樣流程結束，在不滿足預定條件的情況下，根據更新後的剩餘採樣個數和剩餘採樣機率對詞頻表中的其他備選詞彙採樣。在一個實施例中，預定條件可以包括負例集中的負例總個數達到初始剩餘採樣個數，如人工設置的負例個數10000等。在另一個實施例中，預定條件可以包括更新後的剩餘採樣個數為0。此時，代表著已經不需要採集其他備選詞彙作為負例了。在另一實施例中，預定條件可以包括，未採樣詞彙集合為空。此時，已經對詞頻表中所有詞彙進行採樣。根據另一態樣的實施例，在上述預定條件得到滿足的情況下，還可以輸出該負例集。該負例集可以輸出到本地，也可以輸出到其他設備。負例集中的各個詞彙可以按照採樣順序排列，也可以隨機打亂順序排列，本申請對此不作限定。在進一步的實施例中，針對訓練語料中的訓練詞彙，可以從該負例集中選取負例。例如，針對訓練語料中的訓練詞彙U_i 需要k個負例的情況下，可以直接從該負例集中取出k個詞彙。根據一態樣的實施例，負例集中的詞彙可以和預定區間上的各個數值相對應，如圖3所示，將負例集31中的各個備選負例與數值區間32中的數值一一對應。假如負例集31中有10000個預採樣到的負例詞彙，可以選擇區間[1，10000]上的正整數，每個數值對應一個負例詞彙。對一個訓練詞彙選取負例時，產生這個預定區間上的亂數，例如數值區間32上的亂數5，則可以選擇負例集31中與數值5相對應的負例詞彙w₁ 。實踐中，需要多少個負例，則產生多少個亂數。可以一次產生一個亂數，獲取相應負例，也可以一次產生多個亂數，批量獲取相應負例，本申請對此不作限定。可以理解，在極小的機率下，所獲取的負例還可能與訓練詞彙本身或其關聯詞彙一致，上述關聯詞彙例如是，在上下文預測模型中訓練詞彙的上下文，在同義詞預測模型中訓練詞彙的同義詞等。在這樣的情況下，從負例集中選取的詞彙將不能作為該訓練詞彙的負例。因此，針對訓練詞彙從負例集選取負例時，在選取的詞彙與訓練詞彙本身或其關聯詞彙一致的情況下，重新執行產生預定區間上的亂數的步驟，產生新的亂數，獲取新的亂數對應的負例詞彙。根據另一態樣的實施例，負例集中的各個詞彙隨機打亂順序排列的情況下，還可以從一個選定位置開始按順序選定k個詞彙作為負例。該選定位置可以按照一定規則確定，也可以將產生的亂數對應的位置確定為選定位置。例如：查找到第一個和訓練詞彙相同的詞彙，將下一個詞彙的位置作為選定位置。再例如：上述預定區間的例子中，產生一個1-10000之間的亂數。這種情況下只需產生一個亂數，計算量較小。如圖4所示，對於負例集41而言，對一個訓練詞彙需要取出7個負例的情況下，可以產生一個數值區間42上的亂數，例如是數值5，則可以將數值5對應的位置作為選定位置，從該選定位置開始獲取負例集41中，區間43上的7個備選負例w₃ 、w₉ 、w₃ 、w₇ 、w₆ 、w₄ 、w₈ ，作為該訓練詞彙的負例。如此，針對訓練語料的訓練詞彙獲取負例的過程就簡化很多，獲取速度也得以提高。在一些可能的設計中，圖2所示的流程還可以包括以下步驟：檢測負例集的更新條件是否滿足；在更新條件滿足的情況下，重新執行針對訓練語料從詞頻表中進行負例採樣的方法，以重新產生負例集。可以理解，當需要的負例集中詞彙數量較多時，例如幾億，計算量也非常大，因此可以一次產生一個較小的負例集，例如1千萬，然後設定負例集更新條件(例如使用次數為1千萬等)，對負例集進行更新。由於上述方法執行過程中，針對每個備選詞彙，獲取被採樣次數時，會模擬執行剩餘採樣個數s次的採樣操作(伯努利試驗)，或者從滿足條件的數值中隨機獲取一個值，等等，因此，每次重新執行針對訓練語料從詞頻表中進行負例採樣的方法產生的負例集都可能不同。回顧以上過程，一方面，由於負例集中是預採樣的負例，使用時只需隨機取出相應數量負例即可，而無需考慮詞彙在詞彙表中的出現頻率，運算複雜度大大降低。另一方面，在預採樣過程中，進行批量採樣，對詞頻表中的各個詞彙只採樣一次，而採樣的數量可以是多個，從而減少負例採樣的時間，進而能夠快速有效地進行負例採樣。總之，圖2示出的流程可以提高負例採樣的有效性。根據另一態樣的實施例，還提供一種針對訓練語料從詞頻表中進行負例採樣的裝置。圖5示出根據一個實施例的用於針對訓練語料從詞頻表中進行負例採樣的裝置的示意性框圖。如圖5所示，用於針對訓練語料從詞頻表中進行負例採樣的裝置500包括：第一獲取單元51，配置為從詞頻表的未採樣詞彙集合中獲取當前詞彙，以及當前詞彙對應的出現頻率；第二獲取單元52，配置為獲取針對未採樣詞彙集合確定的剩餘採樣個數和剩餘採樣機率；第一確定單元53，配置為基於當前詞彙對應的出現頻率和剩餘採樣機率，確定當前採樣機率；第二確定單元54，配置為根據當前詞彙在剩餘採樣個數和當前採樣機率條件下的二項分佈，確定當前詞彙被採樣次數；添加單元55，配置為將所述當前詞彙按照被採樣次數添加到負例集中；更新單元56，配置為根據當前詞彙被採樣次數更新剩餘採樣個數，根據當前詞彙對應的出現頻率更新剩餘採樣機率，用於對詞頻表中的其他備選詞彙進行採樣，直到檢測到預定條件得到滿足。第一獲取單元51首先可以從詞頻表的多個備選詞彙的未採樣詞彙集合中，獲取一個備選詞彙作為當前詞彙，並獲取該當前詞彙對應的出現頻率。其中，該出現頻率可以是該當前詞彙在訓練語料中的出現頻率。第二獲取單元52，配置為獲取針對未採樣詞彙集合確定的剩餘採樣個數和剩餘採樣機率。剩餘採樣個數可以是負例集中還需要的負例個數。換句話說，就是未採樣詞彙在產生負例集的負例採樣過程中的總採樣次數。剩餘採樣機率，可以是未採樣詞彙在產生負例集的負例採樣過程中的總採樣機率。剩餘採樣機率為r的初始值一般為1。第一確定單元53可以基於當前詞彙對應的出現頻率和剩餘採樣機率，確定當前詞彙對應的當前採樣機率。當前採樣機率，可以是當前詞彙在未採樣詞彙集合中的採樣機率。在一個可選的實施例中，當前採樣機率可以是當前詞彙對應的出現頻率和剩餘採樣機率的比值。第二確定單元54可以根據當前詞彙在剩餘採樣個數和當前採樣機率條件下的二項分佈，確定當前詞彙被採樣次數。二項分佈是若干次獨立的伯努利試驗中成功的次數的離散機率分佈。具體到某個實施例，對於進行的待採樣負例個數次試驗，對於每次試驗，當前詞彙被採樣到的機率為當前採樣機率。第二確定單元54的主要作用在於：確定在s次試驗中，第i個詞彙成功被採樣的次數b。根據另一態樣的實施例，第二確定單元54可以模擬執行剩餘採樣個數次的採樣操作，在各次採樣操作中，確保當前詞彙被採樣到的機率為當前採樣機率。統計當前詞彙被採樣到的次數，並確定當前詞彙的被採樣次數為，當前詞彙被採樣到的次數。根據另一態樣的實施例，第二確定單元54還可以從滿足條件的數值中隨機獲取一個值，作為當前詞彙被採樣次數。這裡的數值滿足的條件可以為：與剩餘採樣個數的比值應與當前採樣機率一致。添加單元55，可以按照第二確定單元54確定的被採樣次數將當前詞彙添加到負例集中。被採樣次數是多少，就添加多少個當前詞彙到負例集。更新單元56，根據當前詞彙被採樣次數更新上述剩餘採樣個數，根據當前詞彙對應的出現頻率更新上述剩餘採樣機率。可以理解，對每個備選詞彙進行採樣後，剩餘採樣個數會減少相應數量，剩餘採樣機率也會發生改變。換句話說，對於下一個備選詞彙而言，採樣條件發生變化。在一些可能的設計中，更新單元56可以將剩餘採樣個數更新為，原剩餘採樣個數與當前詞彙被採樣次數的差。更新單元56將剩餘採樣機率更新為，原剩餘採樣機率與當前詞彙對應的出現頻率的差。

另一方面，由於負例集中需要的負例個數是有限的，因此，還可以預先設置預定條件，當滿足該條件時，停止負例採樣，否則繼續針對詞頻表的其他備選詞彙執行採樣流程。該檢測功能可以由更新單元56實現，也可以由一個獨立的檢測單元實現。由此，在一些實施例中，裝置500還包括檢測單元57，配置為在更新單元56更新完剩餘採樣個數和剩餘採樣機率後，檢測預定條件是否得到滿足，在不滿足預定條件的情況下，根據更新後的剩餘採樣個數和剩餘採樣機率對詞頻表中的其他備選詞彙採樣。這裡，預定條件可以包括負例集中的負例總個數達到初始剩餘採樣個數，也可以包括更新後的剩餘採樣個數為0，還可以包括未採樣詞彙集合為空。

在一些可能的設計中，裝置500還可以包括：輸出模組(未示出)，配置為在所述負例集中的負例個數滿足預定條件的情況下，輸出所述負例集。該負例集可以輸出到本地，也可以輸出到其他設備。在進一步的實施例中，裝置500還可以包括選擇單元(未示出)，配置為針對訓練語料中的訓練詞彙，可以從該負例集中選取負例。

根據一態樣的實施例，負例集中的詞彙可以和預定區間上的各個數值相對應，選擇單元進一步可以包括：產生模組，配置為產生預定區間上的亂數，其中，所產生亂數取自前述各個數值；獲取模組，配置為從負例集中獲取與上述亂數相對應的負例。

在一些實現中，所獲取的負例還可能與訓練詞彙或其上下文詞彙一致，此時，該負例詞彙將不是該訓練詞彙的負例。因此，獲取模組進一步可以配置為：比較所獲取的負例與訓練詞彙是否一致；在一致的情況下，由上述產生模組重新產生預定區間上的亂數。

根據一種可能的設計，裝置500還可以包括：檢測單元(未示出)，配置為檢測負例集的更新條件是否滿足；以使裝置500在更新條件滿足的情況下，重新產生負例集，從而對負例集進行更新。

透過以上裝置，一方面，可以產生預採樣的負例集，由於負例集中是預採樣的負例，使用時只需隨機取出相應數量負例即可，而無需考慮詞彙在詞彙表中的出現頻率，運算複雜度大大降低。另一方面，可以在預採樣過程中，進行批量採樣，對詞頻表中的各個詞彙只採樣一次，而採樣的數量可以是多個，從而減少負例採樣的時間，進而能夠快速有效地進行負例採樣。總之，圖5示出的裝置500可以提高負例採樣的而有效性。

根據另一態樣的實施例，還提供一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行結合圖2所描述的方法。

根據再一態樣的實施例，還提供一種計算設備，包括記憶體和處理器，所述記憶體中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現結合圖2所述的方法。

本領域技術人員應該可以意識到，在上述一個或多個示例中，本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時，可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或代碼進行傳輸。

以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用於限定本發明的保護範圍，凡在本發明的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本發明的保護範圍之內。

31‧‧‧負例集 32‧‧‧數值區間 41‧‧‧負例集 42‧‧‧數值區間 43‧‧‧區間 500‧‧‧針對訓練語料從詞頻表中進行負例採樣的裝置 51‧‧‧第一獲取單元 52‧‧‧第二獲取單元 53‧‧‧第一確定單元 54‧‧‧第二確定單元 55‧‧‧添加單元 56‧‧‧更新單元 57‧‧‧檢測單元

為了更清楚地說明本發明實施例的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其它的附圖。圖1示出本說明書披露的一個實施例的實施場景示意圖；圖2示出根據一個實施例的針對訓練語料從詞頻表中進行負例採樣的方法流程圖；圖3示出從負例集中選取負例的一個具體例子；圖4示出從負例集中選取負例的另一個具體例子；圖5示出根據一個實施例的用於針對訓練語料從詞頻表中進行負例採樣的裝置的示意性框圖。

Claims

一種針對訓練語料從詞頻表中進行負例採樣的方法，該詞頻表包括多個備選詞彙和各個備選詞彙在該訓練語料中的出現頻率，該方法包括：從該多個備選詞彙中的未採樣詞彙集合中獲取當前詞彙，以及當前詞彙對應的出現頻率p_i；獲取針對該未採樣詞彙集合確定的剩餘採樣個數s和剩餘採樣機率r；基於該當前詞彙對應的出現頻率p_i和該剩餘採樣機率r，確定該當前詞彙對應的當前採樣機率P；根據該當前詞彙在該剩餘採樣個數s和該當前採樣機率P條件下的二項分佈，確定該當前詞彙被採樣次數b；將該當前詞彙按照該被採樣次數b添加到負例集中；根據該被採樣次數b更新該剩餘採樣個數s，並根據該當前詞彙對應的出現頻率p_i更新該剩餘採樣機率r，用於對該詞頻表中的其他備選詞彙進行採樣，直到檢測到預定條件得到滿足。
根據請求項1所述的方法，其中，基於該當前詞彙對應的出現頻率p_i和該剩餘採樣機率r，確定當前採樣機率P包括：將該當前採樣機率P確定為，該當前詞彙對應的出現頻率p_i與該剩餘採樣機率r的比值。
根據請求項1所述的方法，其中，確定該當前詞彙被採樣次數b包括：模擬執行該剩餘採樣個數s次的採樣操作，其中，在各次採樣操作中，該當前詞彙被採樣到的機率為該當前採樣機率P；確定該被採樣次數b為，該當前詞彙在該剩餘採樣個數s次的採樣操作中被採樣到的次數。
根據請求項1所述的方法，其中，根據該當前詞彙被採樣次數b更新該剩餘採樣個數s包括：將剩餘採樣個數s更新為，該剩餘採樣個數s與該被採樣次數b的差。
根據請求項1所述的方法，其中，該預定條件包括：該負例集中的負例個數達到預設數目；或者更新後的剩餘採樣個數s為零；或者該未採樣詞彙集合為空。
根據請求項1所述的方法，其中，所述根據該當前詞彙對應的出現頻率p_i更新該剩餘採樣機率r包括：將剩餘採樣機率r更新為，該剩餘採樣機率r與該當前詞彙對應的出現頻率p_i的差。
根據請求項1所述的方法，其中，該方法還包括：在該預定條件得到滿足的情況下，輸出該負例集。
根據請求項7所述的方法，其中，該方法還包括：針對訓練語料中的訓練詞彙，從該負例集中選取負例。
根據請求項8所述的方法，其中從該負例集中選取負例包括：產生預定區間上的亂數，其中，該預定區間包括多個數值，各個數值分別與該負例集中的各個負例相對應，該亂數取自該多個數值；從該負例集中獲取與該亂數相對應的負例。
根據請求項9所述的方法，其中，所述從該負例集中獲取與該亂數相對應的負例包括：比較所獲取的負例與該訓練詞彙是否一致；在一致的情況下，重新執行所述產生預定區間上的亂數的步驟。
根據請求項1至10中任一項所述的方法，其中，該方法還包括：檢測該負例集的更新條件是否滿足；在該更新條件滿足的情況下，重新產生負例集。
一種針對訓練語料從詞頻表中進行負例採樣的裝置，該詞頻表包括多個備選詞彙和各個備選詞彙在該訓練語料中的出現頻率，該裝置包括：第一獲取單元，配置為從該多個備選詞彙中的未採樣詞彙集合中獲取當前詞彙，以及當前詞彙對應的出現頻率p_i；第二獲取單元，配置為獲取針對該未採樣詞彙集合確定的剩餘採樣個數s和剩餘採樣機率r；第一確定單元，配置為基於該當前詞彙對應的出現頻率p_i和該剩餘採樣機率r，確定該當前詞彙對應的當前採樣機率P；第二確定單元，配置為根據該當前詞彙在該剩餘採樣個數s和該當前採樣機率P條件下的二項分佈，確定該當前詞彙被採樣次數b；添加單元，配置為將該當前詞彙按照該被採樣次數b添加到負例集中；更新單元，配置為根據該當前詞彙被採樣次數b更新該剩餘採樣個數s，根據該當前詞彙對應的出現頻率p_i更新該剩餘採樣機率r，用於對該詞頻表中的其他備選詞彙進行採樣，直到檢測到預定條件得到滿足。
根據請求項12所述的裝置，其中，該第一確定單元進一步配置為：將該當前採樣機率P確定為，該當前詞彙對應的出現頻率p_i與剩餘採樣機率r的比值。
根據請求項12所述的裝置，其中，該第二確定單元包括：試驗模組，配置為模擬執行該剩餘採樣個數s次的採樣操作，其中，在各次採樣操作中，該當前詞彙被採樣到的機率為該當前採樣機率P；確定模組，配置為確定該被採樣次數b為，該當前詞彙在該剩餘採樣個數s次的採樣操作中被採樣到的次數。
根據請求項12所述的裝置，其中，該更新單元進一步配置為：將剩餘採樣個數s更新為，該剩餘採樣個數s與該被採樣次數b的差。
根據請求項12所述的裝置，其中，該預定條件包括：該負例集中的負例個數達到預設數目；或者更新後的剩餘採樣個數為零；或者該未採樣詞彙集合為空。
根據請求項12所述的裝置，其中，該更新單元還進一步配置為：將剩餘採樣機率r更新為，該剩餘採樣機率r與該當前詞彙對應的出現頻率p_i的差。
根據請求項12所述的裝置，其中，該裝置還包括：輸出模組，配置為在預定條件得到滿足的情況下，輸出該負例集。
根據請求項18所述的裝置，其中，該裝置還包括：選擇單元，配置為針對訓練語料中的訓練詞彙，從該負例集中選取負例。
根據請求項19所述的裝置，其中該選擇單元包括：產生模組，配置為產生預定區間上的亂數，其中，該預定區間包括多個數值，各個數值分別與該負例集中的各個負例相對應，該亂數取自該多個數值；獲取模組，配置為從該負例集中獲取與該亂數相對應的負例。
根據請求項20所述的裝置，其中，該獲取模組進一步配置為：比較所獲取的負例與該訓練詞彙是否一致；在一致的情況下，重新透過該產生模組執行所述產生預定區間上的亂數的步驟。
根據請求項12至21中任一項所述的裝置，其中，該裝置還包括：檢測單元，配置為檢測負例集的更新條件是否滿足；以使該裝置在該更新條件滿足的情況下，重新產生負例集。
一種電腦可讀儲存媒體，其上儲存有電腦程式，當該電腦程式在電腦中執行時，令電腦執行請求項1至11中任一項所述的方法。
一種計算設備，包括記憶體和處理器，其特徵在於，該記憶體中儲存有可執行代碼，該處理器執行該可執行代碼時，實現請求項1至11中任一項所述的方法。