TWI703460B

TWI703460B - 分散式圖嵌入方法、裝置、設備及系統

Info

Publication number: TWI703460B
Application number: TW108121473A
Authority: TW
Inventors: 石磊磊
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-08-24
Filing date: 2019-06-20
Publication date: 2020-09-01
Also published as: TW202029014A; US20210049209A1; CN109344295B; EP3779731A4; SG11202010746SA; EP3779731A1; CN109344295A; WO2020038141A1; US11074295B2

Abstract

本說明書實施例提供一種分散式圖嵌入方法、裝置、設備及系統，圖資料結構至少分佈於兩個計算節點，所述方法包括：在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用所述詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用所述更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。

Description

分散式圖嵌入方法、裝置、設備及系統

本說明書係關於資料處理領域，尤其關於分散式圖嵌入方法、裝置、設備及系統。

圖資料結構是一種抽象程度高，表達能力強的資料結構：頂點(又可以稱為節點)可用於表示現實世界的實體，而實體之間的關係則透過頂點之間的邊來體現。常用的圖資料結構有社交網路、商品網路、知識圖譜、用戶-商品網路等等。Graph embedding(圖嵌入)是一種圖計算的方法，是學習頂點的一種連續、稠密、低維的向量表示，可以透過向量的關係來衡量頂點之間的關係。例如，採用Deep Walk、node2vec等圖嵌入學習演算法，可以生成由圖資料結構中各頂點的向量構成的圖嵌入矩陣。圖嵌入技術因為其結果的通用性，經常被用作特徵提取，進一步將結果輸入給下游任務/項目。如社交媒體透過提取用戶的圖嵌入特徵進行反作弊檢測；電商透過商品的圖嵌入特徵優化商品推薦任務；內容分發商透過文章的圖嵌入特徵優化內容推薦任務等。然而，對圖資料結構進行大規模圖嵌入計算時，由於會將圖嵌入矩陣載入到記憶體進行計算，而圖嵌入矩陣的大小由圖資料結構中頂點數目和每個向量大小決定，在頂點數目較多、向量維度較大時，圖嵌入矩陣需要佔用大量記憶體，常常導致記憶體溢出。

為克服相關技術中存在的問題，本說明書提供了分散式圖嵌入方法、裝置、設備及系統。根據本說明書實施例的第一態樣，提供一種分散式圖嵌入方法，圖資料結構至少分佈於兩個計算節點，所述方法包括：在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，所述訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且所述訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用所述詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用所述更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。在一個實施例中，圖資料結構中頂點的當前嵌入向量儲存於頂點所在計算節點的圖頂點資料中。在一個實施例中，所述方法還包括：在訊息資料結構的資料長度未達到詞向量演算法所定義的窗口長度時，利用預設採樣演算法對與所述當前採樣頂點相鄰且連接的頂點進行採樣，將更新後的訊息資料結構發送至所確定的採樣頂點所在計算節點。在一個實施例中，所述訊息資料結構的資料長度上限值為窗口長度，所述方法還包括：在訊息資料結構的資料長度達到或大於詞向量演算法所定義的窗口長度時，刪除訊息資料結構中加入時間最早的採樣頂點的標識和當前嵌入向量。在一個實施例中，所述方法還包括：基於預設任務利用圖嵌入矩陣構建訓練樣本，並利用所構建的訓練樣本對預設模型進行訓練，獲得用於處理預設任務的模型。根據本說明書實施例的第二態樣，提供一種分散式圖嵌入裝置，圖資料結構至少分佈於兩個計算節點，所述裝置設於其中一個計算節點，包括：訊息更新模組，用於在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，所述訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且所述訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；梯度計算模組，用於在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用所述詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；向量更新模組，用於基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用所述更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；矩陣生成模組，用於達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。在一個實施例中，圖資料結構中頂點的當前嵌入向量儲存於頂點所在計算節點的圖頂點資料中。在一個實施例中，所述裝置還包括：頂點採樣模組，用於在訊息資料結構的資料長度未達到詞向量演算法所定義的窗口長度時，利用預設採樣演算法對與所述當前採樣頂點相鄰且連接的頂點進行採樣；資訊傳輸模組，用於將更新後的訊息資料結構發送至所確定的採樣頂點所在計算節點。在一個實施例中，所述訊息資料結構的資料長度上限值為窗口長度，所述訊息更新模組還用於：在訊息資料結構的資料長度達到或大於詞向量演算法所定義的窗口長度時，刪除訊息資料結構中加入時間最早的採樣頂點的標識和當前嵌入向量。根據本說明書實施例的第三態樣，提供一種分散式圖嵌入系統，所述系統至少包括兩個計算節點，圖資料結構分散式儲存在所述系統中，任意一個計算節點執行以下方法：在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，所述訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且所述訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用所述詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用所述更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。根據本說明書實施例的第四態樣，提供一種電腦設備，包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式，其中，圖資料結構至少分佈於兩個計算節點，所述處理器執行所述程式時實現如下方法：在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，所述訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且所述訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用所述詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用所述更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。本說明書的實施例提供的技術方案可以包括以下有益效果：應用本說明書實施例，透過將圖資料結構至少分佈於兩個計算節點，由多個計算節點來儲存和計算頂點的嵌入向量，無需在計算時由同一個計算節點儲存所有頂點的嵌入向量，可以最大程度的分散記憶體消耗，同時，採用訊息傳播的方式使分佈於不同計算節點的頂點，也能進行相應的向量計算。應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本說明書。

這裡將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本說明書相一致的所有實施方式。相反，它們僅是與如所附申請專利範圍中所詳述的、本說明書的一些態樣相一致的裝置和方法的例子。在本說明書使用的術語是僅僅出於描述特定實施例的目的，而非旨在限制本說明書。在本說明書和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式，除非上下文清楚地表示其他含義。還應當理解，本文中使用的術語“和/或”是指並包含一個或多個相關聯的列出項目的任何或所有可能組合。應當理解，儘管在本說明書可能採用術語第一、第二、第三等來描述各種資訊，但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如，在不脫離本說明書範圍的情況下，第一資訊也可以被稱為第二資訊，類似地，第二資訊也可以被稱為第一資訊。取決於語境，如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“回應於確定”。圖資料結構是一種抽象程度高，表達能力強的資料結構。通常，在圖計算中，基本的資料結構表達可以是：G =(V，E，D)，V=vertex(頂點或者節點)，E=edge(邊)，D= data(權重或其他屬性資訊)。對於許多物理世界的資料問題，都可以利用圖資料結構來抽象表達：比如社交網路、商品網路、知識圖譜、用戶-商品網路等等。圖資料結構很好的表達了資料之間的關聯性(relationships between data)，關聯性計算是大數據計算的核心——透過獲得資料的關聯性，可以從噪音很多的海量資料中抽取有用的資訊。比如，透過為購物者之間的關係建模，就能很快找到興趣相似的用戶，並為之推薦商品；或者在社交網路中，透過傳播關係發現意見領袖。例如，對於湊單業務，可以基於用戶購買行為構建graph，節點：商品，邊：商品間同時購買的行為，權重：同時購買的比重，可以是購買次數、購買時間、金額等特徵。圖1為本說明書一個或多個實施例提供的網路圖的一個示例。在該示例中，頂點A至頂點J用於表示商品，頂點間的連線可以用於表示商品間同時購買的行為。可以理解的是，圖1僅是為了示例，而實際網路圖可以根據業務需求確定。在基於用戶購買行為構建網路圖後，可以基於權重採樣作為正樣本的候選，負樣本從用戶非購買行為中隨機抽樣，利用樣本對有監督模型進行訓練，獲得用於對用戶進行湊單商品推薦的模型。 Graph embedding是一種圖計算的方法，能夠將圖中的頂點(節點)進行嵌入變成可計算的向量，各頂點向量可以構成圖向量矩陣。然而，相關技術中對圖資料結構進行大規模圖嵌入計算時，圖嵌入矩陣需要佔用大量記憶體，常常導致記憶體溢出。本說明書提供一種最大程度在分散式運算節點中分散記憶體消耗的方案，將大幅度降低計算中由於記憶體消耗導致的計算瓶頸。以下結合附圖對本說明書實施例進行示例說明。如圖2A所示，是本說明書根據一示例性實施例示出的一種分散式圖嵌入方法的流程圖，圖資料結構至少分佈於兩個計算節點，所述方法包括：在步驟202中，在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，所述訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且所述訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；在步驟204中，在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用所述詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；在步驟206中，基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用所述更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；在步驟208中，達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。本實施例分散式圖嵌入方法可以應用於至少包括兩個計算節點的分散式系統中。例如圖2B所示，為本說明書根據一示例性實施例示出的一種圖資料結構分佈示意圖。頂點A、B、C、D可以儲存在計算節點22上，頂點E、H、I、J可以儲存在計算節點24上，頂點G、F可以儲存在計算節點26上。透過將圖資料結構至少分佈於兩個計算節點，由多個計算節點來儲存和計算頂點的嵌入向量，無需在計算時由同一個計算節點儲存所有頂點的嵌入向量，可以最大程度的分散記憶體消耗，同時，採用訊息傳播的方式使分佈於不同計算節點的頂點，也能進行相應的向量計算。其中，圖資料結構可以基於不同的業務需求而創建，例如，可以是社交網路、商品網路、知識圖譜、用戶-商品網路等等。預設採樣演算法可以是挖掘頂點與頂點之間關係的演算法，透過預設採樣演算法可以採樣獲得頂點序列(又可以稱為節點序列)。例如，預設採樣演算法可以是Deep Walk形式的隨機採樣，也可以是node2vec形式的有傾向性採樣，或者其他採樣方法，該方案可適用於不同頂點/路徑採樣演算法。在利用預設採樣演算法對圖資料結構進行路徑採樣過程中，在確定當前採樣頂點時，可以將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構。其中，可以理解的是，為了區分，可以將當前採樣所確定的頂點稱為當前採樣頂點。標識可以是用於唯一標識當前採樣頂點的標識，例如，可以是頂點ID。當前嵌入向量可以是當前採樣頂點此刻所儲存的嵌入向量。例如，當前採樣頂點首次被採樣時，當前嵌入向量可以是初始嵌入向量。每個頂點的初始嵌入向量由初始化圖資料結構獲得。在訓練過程中會更新頂點的嵌入向量，因此，當前採樣頂點非首次被採樣時，當前嵌入向量可以是上一次更新獲得的嵌入向量。嵌入向量可以是向量化特徵表示。圖資料結構中頂點的當前嵌入向量儲存於頂點所在計算節點的圖頂點資料中，實現將圖嵌入向量直接儲存於圖頂點資料中，並分佈於全部計算節點，減少同一計算節點的記憶體消耗。關於訊息資料結構，訊息資料結構是用於在嵌入向量計算過程中傳遞資料的特定資料結構，也可以稱為路徑窗口訊息。例如，訊息資料結構可以是鏈表或列表等資料結構。由於圖資料結構分佈於至少兩個計算節點，不同計算節點分別儲存不同頂點的頂點資料，而同一頂點序列可能分佈於不同計算節點，因此，採用訊息資料結構傳播的方式，可以實現不同計算節點的資料傳遞，以便進行頂點嵌入向量更新。訊息資料結構中至少記錄有採樣頂點的標識以及當前嵌入向量，訊息資料結構可以在採樣頂點之間進行傳遞。例如，訊息資料結構可以由上一採樣頂點所在計算節點發送而獲得。若上一採樣頂點和當前採樣頂點在同一計算節點，則該計算節點可以直接將當前採樣頂點的標識和當前嵌入向量加入訊息資料結構；若上一採樣頂點和當前採樣頂點不在同一計算節點，則上一採樣頂點所在計算節點將訊息資料結構發送至當前採樣頂點所在計算節點，當前採樣頂點所在計算節點可以將當前採樣頂點的標識和當前嵌入向量加入訊息資料結構。例如，在一個實施例中，在訊息資料結構的資料長度未達到詞向量演算法所定義的窗口長度時，利用預設採樣演算法對與所述當前採樣頂點相鄰且連接的頂點進行採樣，將更新後的訊息資料結構發送至所確定的採樣頂點所在計算節點。可見，訊息資料結構可以在頂點之間進行傳遞，避免同一頂點序列分佈在不同計算節點而導致無法計算頂點嵌入向量的情況。訊息資料結構的作用之一是用於在計算同一頂點路徑中頂點的嵌入向量的更新梯度，因此，訊息資料結構中採樣頂點數目的上限值遠遠小於圖資料結構中所有頂點數目。將採樣頂點的標識和當前嵌入向量作為採樣頂點的一組資料，所謂訊息資料結構中採樣頂點數目，可以是資料的組數。在一個實施例中，訊息資料結構的資料長度上限值可以根據詞向量演算法所定義的窗口長度而確定。其中，訊息資料結構的資料長度可以是訊息資料結構中當前嵌入向量的個數。在一個例子中，訊息資料結構的資料長度上限值可以是為窗口長度；在另一個例子中，訊息資料結構的資料長度上限值可以稍大於窗口長度。訊息資料結構可以是一種動態鏈表或列表，可以隨著訊息傳遞執行添加或刪除操作，以保證訊息資料結構的當前長度不超過長度上限值。在一個實施例中，所述訊息資料結構的資料長度上限值為窗口長度，所述方法還包括：在訊息資料結構的資料長度達到或大於詞向量演算法所定義的窗口長度時，刪除訊息資料結構中加入時間最早的採樣頂點的標識和當前嵌入向量。在該實施例中，可以採用先進先刪除的原則，在訊息資料結構的資料長度達到或大於詞向量演算法所定義的窗口長度時，可以根據資料加入時間對訊息資料結構中的資料進行刪除操作。例如，刪除訊息資料結構中加入時間最早的採樣頂點的標識和當前嵌入向量，以實現只保留並通訊窗口長度內的頂點資料，並對其進行動態更新，降低儲存訓練樣本造成的不必要的記憶體消耗。進一步的，為了提高刪除效率，可以按加入順序儲存採樣頂點的標識和當前嵌入向量，例如，將首次加入的標識和當前嵌入向量加入訊息資料結構的頭部，然後將後續加入的標識和當前嵌入向量加入當前訊息資料結構的尾部，從而實現按加入順序對採樣頂點的標識和當前嵌入向量進行排列。在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，可以利用詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度。其中，詞向量演算法可以是用於進行詞向量計算的工具。例如，可以採用SkipGram或者CBoW演算法計算嵌入向量的更新梯度，還可以採用其他詞向量演算法，也可支援自訂的損失函數計算嵌入向量的更新梯度，由於詞向量演算法是常規的演算法，對其具體的計算方式不再詳述。基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並透過頂點所在計算節點利用更新梯度對採樣頂點的當前嵌入向量進行更新。每次訓練是對頂點嵌入向量的一次更新，經過多輪的訓練，可以將頂點的嵌入向量更新到相對穩定的狀態，因此，每次訓練需要將頂點的嵌入向量進行調整。透過計算嵌入向量的梯度(可以稱為更新梯度)，而梯度也是一個向量，將當前嵌入向量加上或減去該梯度，從而實現對當前嵌入向量的更新。其中，預設收斂條件可以是使嵌入向量達到穩定的條件。例如，可以是在所有頂點序列中滑動的窗口達到預設的訓練步數(反覆運算步數)。進一步的，不同頂點序列可以同時進行嵌入向量的更新。不同頂點序列可以是同一計算節點中的不同頂點序列，也可以是不同計算節點的不同頂點序列。由上述實施例可見，本說明書實施例可以將圖嵌入向量作為頂點資料的一部分，分佈儲存於各計算節點，避免由單一計算節點造成的記憶體瓶頸。同時，由於只保留並通訊窗口長度內的頂點資料，並對其進行動態更新，降低儲存訓練樣本造成的不必要的記憶體消耗。進一步的，本說明書還提供圖嵌入矩陣的應用。在一個實施例中，可以基於預設任務利用圖嵌入矩陣構建訓練樣本，並利用所構建的訓練樣本對預設模型進行訓練，獲得用於處理預設任務的模型。例如，如果圖資料結構是商品網路圖，則預設任務可以是商品推薦任務等。以上實施方式中的各種技術特徵可以任意進行組合，只要特徵之間的組合不存在衝突或矛盾，但是限於篇幅，未進行一一描述，因此上述實施方式中的各種技術特徵的任意進行組合也屬於本說明書公開的範圍。以下以一個應用實例進行示例說明。如圖3所示，是本說明書根據一示例性實施例示出的另一種分散式圖嵌入方法的示意圖。圖3中示出部分頂點，頂點1至頂點N+1可以分佈儲存於不同計算節點。初始化圖資料結構，獲得各頂點的初始嵌入向量，並將初始嵌入向量儲存於頂點資料結構中(步驟1)。利用預設採用演算法對圖資料結構進行路徑採樣，假設所確定的採樣頂點為頂點1，則頂點1所在計算節點將頂點1的頂點ID和初始嵌入向量加入訊息資料結構的頭部。在訊息資料結構的資料長度未達到Skip Gram/CboW演算法所定義的窗口長度時，繼續對鄰接頂點進行採樣，並將更新後的訊息資料結構發送至所確定的採樣頂點。假設採樣頂點為頂點2，則頂點1所在計算節點將更新後的訊息資料結構發送至頂點2所在計算節點(步驟2)。頂點2所在計算節點將頂點2的頂點ID和當前嵌入向量加入訊息資料結構的尾部，例如訊息資料結構為：頂點1的陣列(ID和當前嵌入向量)、頂點2的陣列(ID和當前嵌入向量)。在訊息資料結構的資料長度未達到Skip Gram/CboW演算法所定義的窗口長度時，繼續對鄰接頂點進行採樣，並將更新後的訊息資料結構發送至所確定的採樣頂點(步驟3)。重複訊息資料結構添加操作以及資料長度判斷操作，直到訊息資料結構的資料長度達到Skip Gram/CboW演算法所定義的窗口長度(步驟4)。假設頂點N所在計算節點將頂點N的頂點ID和當前嵌入向量加入訊息資料結構的尾部後，訊息資料結構的資料長度達到Skip Gram/CboW演算法所定義的窗口長度，則根據Skip Gram/CBoW演算法計算訊息資料結構中各頂點嵌入向量的更新梯度(步驟5)。頂點N所在計算節點將更新梯度發送至所對應頂點(步驟6)。所對應頂點所在計算節點收到更新梯度後，利用更新梯度對本頂點的嵌入向量進行更新(步驟7)。將訊息資料結構中頭部的頂點資料刪除，並將訊息資料結構發送至採樣所確定的頂點，以便該頂點所在計算節點將該頂點的標識和當前嵌入向量加入訊息資料結構(步驟8)。重複上述步驟3至8，直到規定訓練步數截止(步驟9)。由此可見，將圖嵌入向量直接儲存於圖頂點資料中，並分佈於全部計算節點，在圖上進行路徑採樣的同時，動態生成訓練樣本進行訓練，從而降低記憶體消耗。與前述分散式圖嵌入方法的實施例相對應，本說明書還提供了分散式圖嵌入裝置、系統及裝置所應用的電子設備的實施例。本說明書分散式圖嵌入裝置的實施例可以應用在電腦設備。裝置實施例可以透過軟體實現，也可以透過硬體或者軟硬體結合的方式實現。以軟體實現為例，作為一個邏輯意義上的裝置，是透過其所在電腦設備的處理器將非易失性記憶體中對應的電腦程式指令讀取到記憶體中運行形成的。從硬體層面而言，如圖4所示，為本說明書分散式圖嵌入裝置所在電腦設備的一種硬體結構圖，除了圖4所示的處理器410、網路介面420、記憶體430、以及非易失性記憶體440之外，實施例中分散式圖嵌入裝置431所在的電腦設備通常根據該設備的實際功能，還可以包括其他硬體，對此不再贅述。如圖5所示，是本說明書根據一示例性實施例示出的一種分散式圖嵌入裝置的框圖，圖資料結構至少分佈於兩個計算節點，所述裝置設於其中一個計算節點，包括：訊息更新模組52，用於在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，所述訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且所述訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；梯度計算模組54，用於在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用所述詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；向量更新模組56，用於基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用所述更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；矩陣生成模組58，用於達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。在一個實施例中，圖資料結構中頂點的當前嵌入向量儲存於頂點所在計算節點的圖頂點資料中。在一個實施例中，所述裝置還包括：頂點採樣模組，用於在訊息資料結構的資料長度未達到詞向量演算法所定義的窗口長度時，利用預設採樣演算法對與所述當前採樣頂點相鄰且連接的頂點進行採樣；資訊傳輸模組，用於將更新後的訊息資料結構發送至所確定的採樣頂點所在計算節點。在一個實施例中，所述訊息資料結構的資料長度上限值為窗口長度，所述訊息更新模組還用於：在訊息資料結構的資料長度達到或大於詞向量演算法所定義的窗口長度時，刪除訊息資料結構中加入時間最早的採樣頂點的標識和當前嵌入向量。在一個實施例中，所述裝置還包括任務模型確定模組，用於：基於預設任務利用圖嵌入矩陣構建訓練樣本，並利用所構建的訓練樣本對預設模型進行訓練，獲得用於處理預設任務的模型。對於裝置實施例而言，由於其基本對應於方法實施例，所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的，其中所述作為分離部件說明的模組可以是或者也可以不是物理上分開的，作為模組顯示的部件可以是或者也可以不是物理模組，即可以位於一個地方，或者也可以分佈到多個網路模組上。可以根據實際的需要選擇其中的部分或者全部模組來實現本說明書方案的目的。本領域普通技術人員在不付出創造性勞動的情況下，即可以理解並實施。相應的，本說明書實施例還提供一種電腦設備，包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式，其中，圖資料結構至少分佈於兩個計算節點，所述處理器執行所述程式時實現如下方法：在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，所述訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且所述訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用所述詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用所述更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於設備實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。相應的，本說明書實施例還提供一種電腦儲存媒體，所述儲存媒體中儲存有程式指令，所述程式指令包括：在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，所述訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且所述訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用所述詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用所述更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。相應的，本說明書實施例還提供一種分散式圖嵌入系統，所述系統至少包括兩個計算節點，圖資料結構分散式儲存在所述系統中，任意一個計算節點可以執行以下方法：在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，所述訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且所述訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用所述詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用所述更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。本說明書實施例可採用在一個或多個其中包含有程式碼的儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。電腦可用儲存媒體包括永久性和非永久性、可移動和非可移動媒體，可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括但不限於：相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體，可用於儲存可以被計算設備訪問的資訊。本領域技術人員在考慮說明書及實踐這裡申請的發明後，將容易想到本說明書的其它實施方案。本說明書旨在涵蓋本說明書的任何變型、用途或者適應性變化，這些變型、用途或者適應性變化遵循本說明書的一般性原理並包括本說明書未申請的本技術領域中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的，本說明書的真正範圍和精神由下面的申請專利範圍指出。應當理解的是，本說明書並不局限於上面已經描述並在附圖中示出的精確結構，並且可以在不脫離其範圍進行各種修改和改變。本說明書的範圍僅由所附的申請專利範圍來限制。以上所述僅為本說明書的較佳實施例而已，並不用以限制本說明書，凡在本說明書的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本說明書保護的範圍之內。

202~208：方法步驟 22：計算節點 24：計算節點 26：計算節點 410：處理器 420：網路介面 430：記憶體 431：分散式圖嵌入裝置 440：非易失性記憶體 52：訊息更新模組 54：梯度計算模組 56：向量更新模組 58：矩陣生成模組

此處的附圖被併入說明書中並構成本說明書的一部分，示出了符合本說明書的實施例，並與說明書一起用於解釋本說明書的原理。圖1為本說明書一個或多個實施例提供的網路圖的一個示例。圖2A為本說明書根據一示例性實施例示出的一種分散式圖嵌入方法的流程圖。圖2B為本說明書根據一示例性實施例示出的一種圖資料結構分佈示意圖。圖3為本說明書根據一示例性實施例示出的另一種分散式圖嵌入方法的示意圖。圖4為本說明書根據一示例性實施例示出的一種分散式圖嵌入裝置所在電腦設備的一種硬體結構圖。圖5為本說明書根據一示例性實施例示出的一種分散式圖嵌入裝置的框圖。

Claims

一種分散式圖嵌入方法，圖資料結構至少分佈於兩個計算節點，該方法包括：在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，該訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且該訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用該詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用該更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。
根據請求項1所述的方法，圖資料結構中頂點的當前嵌入向量儲存於頂點所在計算節點的圖頂點資料中。
根據請求項1所述的方法，該方法還包括：在訊息資料結構的資料長度未達到詞向量演算法所定義的窗口長度時，利用預設採樣演算法對與該當前採樣頂點相鄰且連接的頂點進行採樣，將更新後的訊息資料結構發送至所確定的採樣頂點所在計算節點。
根據請求項1所述的方法，該訊息資料結構的資料長度上限值為窗口長度，該方法還包括：在訊息資料結構的資料長度達到或大於詞向量演算法所定義的窗口長度時，刪除訊息資料結構中加入時間最早的採樣頂點的標識和當前嵌入向量。
根據請求項1至4任一項所述的方法，該方法還包括：基於預設任務利用圖嵌入矩陣構建訓練樣本，並利用所構建的訓練樣本對預設模型進行訓練，獲得用於處理預設任務的模型。
一種分散式圖嵌入裝置，圖資料結構至少分佈於兩個計算節點，該裝置設於其中一個計算節點，包括：訊息更新模組，用於在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，該訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且該訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；梯度計算模組，用於在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用該詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；向量更新模組，用於基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用該更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；矩陣生成模組，用於達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。
根據請求項6所述的裝置，圖資料結構中頂點的當前嵌入向量儲存於頂點所在計算節點的圖頂點資料中。
根據請求項6所述的裝置，該裝置還包括：頂點採樣模組，用於在訊息資料結構的資料長度未達到詞向量演算法所定義的窗口長度時，利用預設採樣演算法對與該當前採樣頂點相鄰且連接的頂點進行採樣；資訊傳輸模組，用於將更新後的訊息資料結構發送至所確定的採樣頂點所在計算節點。
根據請求項6所述的裝置，該訊息資料結構的資料長度上限值為窗口長度，該訊息更新模組還用於：在訊息資料結構的資料長度達到或大於詞向量演算法所定義的窗口長度時，刪除訊息資料結構中加入時間最早的採樣頂點的標識和當前嵌入向量。
一種分散式圖嵌入系統，該系統至少包括兩個計算節點，圖資料結構分散式儲存在該系統中，任意一個計算節點執行以下方法：在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，該訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且該訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用該詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用該更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。
一種電腦設備，包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式，其中，圖資料結構至少分佈於兩個計算節點，該處理器執行該程式時實現如下方法：在利用預設採樣演算法對圖資料結構進行路徑採樣時，將當前採樣頂點的標識和當前嵌入向量加入預定義的訊息資料結構，該訊息資料結構中記錄有採樣過程中採樣頂點的標識和當前嵌入向量、且該訊息資料結構由上一採樣頂點所在計算節點傳遞而獲得；在訊息資料結構的資料長度達到詞向量演算法所定義的窗口長度時，利用該詞向量演算法計算更新後的訊息資料結構中各採樣頂點的嵌入向量的更新梯度；基於更新後的訊息資料結構中的標識，將各更新梯度分別發送至相應頂點，並利用該更新梯度對歸屬當前計算節點的採樣頂點的當前嵌入向量進行更新；達到預設收斂條件後，將圖資料結構中各頂點的最終嵌入向量，構成圖嵌入矩陣。