TW202044110A - 無監督模型評估方法、裝置、伺服器及可讀儲存媒體 - Google Patents
無監督模型評估方法、裝置、伺服器及可讀儲存媒體 Download PDFInfo
- Publication number
- TW202044110A TW202044110A TW108123745A TW108123745A TW202044110A TW 202044110 A TW202044110 A TW 202044110A TW 108123745 A TW108123745 A TW 108123745A TW 108123745 A TW108123745 A TW 108123745A TW 202044110 A TW202044110 A TW 202044110A
- Authority
- TW
- Taiwan
- Prior art keywords
- node
- nodes
- neighbor
- sample
- unsupervised model
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明公開一種無監督模型評估方法、裝置、伺服器及可讀儲存媒體,在所述無監督模型評估方法中,在經過無監督模型得到的N個結點向量中確定出與S個結點對應的S個結點向量,確定所述S個結點中每個結點的鄰居結點,以及所述每個結點的非鄰居結點,將每個結點與鄰居結點的向量相似度作為正樣本,以及將每個結點與非鄰居結點的向量相似度作為負樣本,通過對正樣本以及負樣本進行評估來確定無監督模型的效果,不需要進行額外的模型訓練,使無監督模型的評估過程更加容易實現。
Description
本發明涉及電腦技術領域,尤其涉及一種無監督模型評估方法、裝置、伺服器及可讀儲存媒體。
隨著科學技術的不斷發展,無監督學習演算法得到了廣泛應用。無監督學習模型可以對圖資料進行計算,將圖資料中的每個結點都映射到一個向量空間中,得到計算後的結點向量。在對計算後得到的結點向量進行評估時時,通常採用有監督演算法評估,再訓練一個機器學習模型。但訓練機器學習模型需要耗費更多的資料和時間。
本說明書實施例提供及一種無監督模型評估方法、裝置、伺服器及電腦可讀儲存媒體。
第一態樣,本說明書實施例提供一種無監督模型評估方法,包括:
在經過無監督模型得到的N個結點向量中確定出與S個結點對應的S個結點向量;
確定所述S個結點中每個結點的鄰居結點,以及所述每個結點的非鄰居結點;
根據所述每個結點的鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的鄰居結點與所述每個結點的相似度作為正樣本的預測值;
根據所述每個結點的非鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的非鄰居結點與所述每個結點的相似度作為負樣本的預測值;
根據所述正樣本的預測值以及所述負樣本的預測值,對所述無監督模型進行評估。
第二態樣,本說明書實施例提供一種無監督模型評估裝置,包括:
第一確定模組,用於在經過無監督模型得到的N個結點向量中確定出與S個結點對應的S個結點向量,N和S均為正整數,N大於等於S;
第二確定模組,用於確定所述S個結點中每個結點的鄰居結點,以及所述每個結點的非鄰居結點;
正樣本預測值確定模組,用於根據所述每個結點的鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的鄰居結點與所述每個結點的相似度作為正樣本的預測值;
負樣本預測值確定模組,用於根據所述每個結點的非鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的非鄰居結點與所述每個結點的相似度作為負樣本的預測值;
評估模組,用於根據所述正樣本的預測值以及所述負樣本的預測值,對所述無監督模型進行評估。第三態樣,本說明書實施例提供一種伺服器,包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行上述任一項所述方法的步驟。
第四態樣,本說明書實施例提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現上述任一項所述方法的步驟。
本說明書實施例有益效果如下:
在本說明書實施例提供的無監督模型評估方法中,在經過無監督模型得到的N個結點向量中確定出與S個結點對應的S個結點向量,N和S均為正整數;確定所述S個結點中每個結點的鄰居結點,以及所述每個結點的非鄰居結點;根據所述每個結點的鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的鄰居結點與所述每個結點的相似度作為正樣本的預測值;根據所述每個結點的非鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的非鄰居結點與所述每個結點的相似度作為負樣本的預測值;根據所述正樣本的預測值以及所述負樣本的預測值,對所述無監督模型進行評估。本說明書實施例中的方案,將每個結點與鄰居結點的相似度作為正樣本,以及將每個結點與非鄰居結點的相似度作為負樣本,通過對正樣本以及負樣本進行評估來確定無監督模型的效果,不需要進行額外的模型訓練,使無監督模型的評估過程更加容易實現。
為了更好的理解上述技術方案,下面通過附圖以及具體實施例對本說明書實施例的技術方案做詳細的說明,應當理解本說明書實施例以及實施例中的具體特徵是對本說明書實施例技術方案的詳細的說明,而不是對本說明書技術方案的限定,在不衝突的情況下,本說明書實施例以及實施例中的技術特徵可以相互組合。
第一態樣,本說明書實施例提供一種無監督模型評估方法,如圖1所示,為本說明書實施例提供的無監督模型評估方法的流程圖,該方法包括以下步驟:
步驟S11:在經過無監督模型得到的N個結點向量中確定出與S個結點對應的S個結點向量,N和S均為正整數;
本說明書實施例中,N個結點向量可以是無監督模型對N個輸入資料進行計算得到的。其中,可以將N個輸入資料看作為N個結點。輸入資料可以是根據實際情況確定的資料,在一個實施例中,輸入資料可以是一定數量的用於表示詞語的向量,可以將每個詞語看作是一個結點,每個詞語可以用一個初始向量來表示,將詞語的初始向量作為無監督模型的輸入,通過無監督模型的計算,輸出與每個結點對應的embedding(嵌入向量),即輸出的結點向量。應理解的是,embedding可以看作是將結點由原始空間映射到另一個空間中,並且在另一個空間內保持結點在原始空間的結構資訊和距離資訊。
無監督模型可以根據實際需要進行選擇,在一個實施例中,無監督模型可以為Word2Vec模型,在對詞語進行處理時,通過Word2Vec模型將每個詞語映射到一個低維向量空間,得到與每個詞語結點對應的結點向量。
應理解的是,在無監督模型的計算過程中,最後輸出的結點向量可以由損失函數來確定。例如,NCE(Noise Contrastive Estimation,噪音對比估計)損失函數,通過NCE損失函數得到的結點向量能夠使該結點具有與其鄰居結點在向量空間中的距離更近,與非鄰居結點距離更遠的特點。
在確定S個結點時,可以在N個結點中選擇S個不同的結點,也可以在N個結點中隨機選取S個結點。S個結點可以是一次性選取的,也可以是多次選取的,這裡不做限定。
步驟S12:確定所述S個結點中每個結點的鄰居結點,以及所述每個結點的非鄰居結點;
本說明書實施例中,針對S個結點的每個結點來說,該結點可以包括多個鄰居結點以及多個非鄰居結點,可以在多個鄰居結點中隨機選出任意個數的鄰居結點以及在多個非鄰居結點中隨機選出任意個數的非鄰居結點。或者,可以設定選出的鄰居結點的個數以及設定選出非鄰居結點的個數。這裡不做限定。
一個結點的鄰居結點可以根據預設的鄰居結點生成規則進行生成,也可以將N個結點根據結點之間的關係構成一個圖,在構成的圖中進行鄰居結點的選擇。在一個實施例中,可以根據各個結點之間的關係進行邊連接,形成包括有結點之間連接關係的圖結構,在該圖結構中查找S個結點中每個結點的鄰居結點和非鄰居結點。在另一個實施例中,可以根據預設的鄰居生成演算法生成每個結點的鄰居結點。當然,還可以採用其他的方式來確定鄰居結點,本說明書實施例不做限定。非鄰居結點的確定與鄰居結點的確定類似,這裡就不再贅述了。
步驟S13:根據所述每個結點的鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的鄰居結點與所述每個結點的相似度作為正樣本的預測值;
步驟S14:根據所述每個結點的非鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的非鄰居結點與所述每個結點的相似度作為負樣本的預測值;
本說明書實施例中,在確定了每個結點的鄰居結點以及非鄰居結點之後,可以將鄰居結點作為正樣本,將非鄰居結點作為負樣本。針對每個結點,分別計算該結點與各個鄰居結點之間的相似度,作為鄰居結點的預測值,以及分別計算該結點與各個非鄰居結點之間的相似度,作為非鄰居結點的預測值。相似度的計算可以根據實際需要來選擇,在一個實施例中,可以通過計算向量之間的內積,並對內積做歸一化處理得到。
應理解的是,相似度可以是0到1之間的數,如果兩個結點之間的相似度越接近1,表明兩個結點互為鄰居結點的機率越大。
步驟S15:根據所述正樣本的預測值以及所述負樣本的預測值,對所述無監督模型進行評估。
本說明書實施例中,鄰居結點的預測值越接近1,非鄰居結點的預測值越接近0則表示無監督模型的效果越好。反之,鄰居結點即正樣本的預測值越接近0,非鄰居結點即負樣本的預測值越接近1,無監督模型的效果越差。因此,可以通過正樣本的預測值以及負樣本的預測值來評估無監督模型的好壞,這種方式更加通用以及易實現。
可選地,所述在經過無監督模型得到的N個結點向量中確定出與S個結點對應的S個結點向量,包括:確定結點集合,所述結點集合包含N個結點,所述N個結點與所述N個結點向量相對應;在所述結點集合中隨機選取一個結點作為採樣結點,共計選取S次,獲得所述S個結點。
本說明書實施例中,可以將經過無監督模型計算得到的N個結點向量對應的N個結點構成結點集合。在選擇S個結點時,可以在結點集合中有放回的選取S次,每次在N個結點中隨機選取一個作為採樣結點。
可選地,所述確定所述S個結點中每個結點的鄰居結點,以及所述每個結點的非鄰居結點,包括:針對所述S個結點中的每個結點,執行以下步驟:根據預設鄰居生成演算法,在N個結點中確定該結點的鄰居結點集合,以及該結點的非鄰居結點集合;在所述鄰居結點集合中確定一個或多個鄰居結點;在所述非鄰居結點集合中確定一個或多個非鄰居結點。
本說明書實施例中,針對S個結點中的每個結點,都可以採用預設鄰居生成演算法來獲取該結點的鄰居結點,預設鄰居生成演算法可以根據實際需要進行選擇,如一階鄰居演算法、隨機游走鄰居演算法等。在一個實施例中,為了保證生成的鄰居結點能夠與無監督模型的計算過程中採用的結點關係保持一致,預設鄰居生成演算法與無監督模型計算過程中採用的鄰居生成演算法相同。
在一個實施例中,當採用預設鄰居生成演算法生成一個結點的鄰居結點集合時,那麼非鄰居結點可以通過在結點集合中減去鄰居結點集合得到。應理解的是,對於每個結點來說,對應的鄰居結點集合所包含的元素個數可能不同,例如,第一結點擁有5個鄰居結點,第二結點擁有8個鄰居結點。在進行鄰居結點的選擇時,鄰居結點的個數可以是固定的,也可以是隨機的。
仍以上面第一結點和第二結點為例,在一個實施例中,針對每個結點選取相同個數的鄰居結點,例如,均選取1個,則可以在第一結點的5個鄰居結點中隨機選出1個鄰居結點,在第二結點的8個鄰居結點中隨機選出1個鄰居結點。在另一個實施例中,針對每個結點隨機確定鄰居結點的個數,如在第一結點中的5個鄰居結點中隨機選取2個鄰居結點,在第二結點中的8個鄰居結點中隨機選取3個鄰居結點等。當然,針對每個結點,不論使用哪種方式確定鄰居結點,確定的鄰居結點個數均小於或等於該結點實際對應的鄰居結點的總數。
對於每個結點對應的非鄰居結點,確定方式與上述鄰居結點的確定方式類似,非鄰居結點的數量可以根據實際需要進行設定,在一個實施例中,在每個非鄰居結點集合中可以隨機選取4~20個結點作為該結點的非鄰居結點。非鄰居結點的確定方式請參考上述確定鄰居結點的描述,這裡就不再贅述了。
在一種可選的實現方式中,所述根據所述正樣本的預測值以及所述負樣本的預測值,對所述無監督模型進行評估,包括:根據所述正樣本的預測值,以及正樣本標籤值,構建第一類二元組樣本;根據所述負樣本的預測值,以及負樣本標籤值,構建第二類二元組樣本;根據所述第一類二元組樣本以及所述第二類二元組樣本,對所述無監督模型進行評估。
本說明書實施例中,可以構建一個驗證集,通過驗證集來確定評估無監督模型的效果。在一個實施例中,驗證集初始可以設置為空集,在根據正樣本和負樣本構建二元組樣本後,將二元組樣本添加至初始的空集中,得到最終的驗證集。
為了對鄰居結點和非鄰居結點進行區分,本說明書實施例中可以通過設置正樣本標籤值以及負樣本標籤值來實現。在一個實施例中,正樣本標籤值設置為1,負樣本標籤值為0,那麼對於結點的一個鄰居結點來說,可以根據鄰居結點的正樣本的預測值以及正樣本標籤值來確定一個第一類二元組樣本,例如,一個鄰居結點的正樣本的預測值為0.9,則對應的第一類二元組樣本為(1,0.9)。對於結點的一個非鄰居結點來說,可以根據非鄰居結點的負樣本的預測值以及負樣本標籤值來確定一個第二類二元組樣本,例如,一個非鄰居結點的負樣本的預測值為0.3,則對應的第二類二元組樣本為(0,0.3)。
根據上述構建的驗證集,可以對無監督模型進行評估,如圖2所示,為本說明書實施例中根據第一類二元組樣本以及所述第二類二元組樣本,對所述無監督模型進行評估的方法流程圖,該方法包括以下步驟:
步驟S21:根據所述第一類二元組樣本以及所述第二類二元組樣本,確定目標受試者工作特徵曲線;
步驟S22:獲取所述目標受試者工作特徵曲線下的面積,以評估所述無監督模型。
在該實施例中,可以對第一類二元組樣本以及第二類二元組樣本組成的驗證集進行二分類,並通過確定目標受試者工作特徵曲線下的面積來評價二分類的優劣。
應理解的是,在該實施例中,預測值可以用來表示兩個結點互為鄰居結點的機率。在繪製目標受試者工作特徵(Receiver Operating Characteristic,ROC)曲線時,可以根據正樣本的預測值以及負樣本的預測值按照預測值的大小進行排序。通過選取不同的閾值來對排序好的樣本進行二分類,即,預測值大於或等於閾值的二元組樣本預測為正樣本,預測值小於該閾值的二元組樣本預測為負樣本。再根據二元組樣本中實際對應的標籤值來計算該閾值下的真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,FPR)。
在計算真正例率,假正例率時會涉及到以下四種情況:真正例(True positive,TP),假正例(False positive,FP),假反例(False negative,FN),真反例(True negative,TN)。其中,TP是指預測是正樣本,且預測對了,FP是指預測是正樣本,且預測錯了,FN是指預測是負樣本,且預測錯了,TN是指預測是負樣本,且預測對了。以上述二元組樣本為例,如果一個二元組樣本,預測值大於或等於閾值,則表明該二元組樣本被預測是正樣本,再查看該二元組樣本的標籤值,如果是正樣本標籤值,則表明該二元組樣本為TP,如果標籤值是負樣本標籤,則表明該二元組樣本為FP。如果一個二元組樣本,預測值小於閾值,則表明該二元組樣本被預測是負樣本,再查看該二元組樣本的標籤值,如果標籤值是正樣本標籤值,則該二元組樣本為FN,如果標籤值是負樣本標籤值,則該二元組樣本為TN。
計算真正例率TPR=TP/(TP+FN),以及假正例率FPR=FP/(TN+FP)。其中,真正例率代表預測為正樣本且預測對了的可能性,假正例率代表預測為正樣本但是預測錯了的可能性。
將真正例率作為縱軸,假正例率作為橫軸,得到一個構成ROC曲線的座標。在一個實施例中,可以將每個二元組樣本的預測值作為一個閾值,均計算該閾值下的真正例率以及假正例率。例如,如果二元組樣本的個數為M,則對應有M個預測值,將M個預測值按照大小順序進行排列,並將每個預測值作為一個閾值,當二元組樣本的預測值大於或等於這個閾值時,預測該二元組樣本為正樣本,當二元組樣本的預測值小於這個閾值時,預測該二元組樣本為負樣本。每選取一個閾值,就可以得到一組TPR和FPR,即ROC曲線上的一點。在該實施例中,一共得到M組TPR和FPR,根據這M個點可以繪製ROC曲線。
AUC曲線(Area Under ROC Curve)為ROC曲線下的面積,能夠反映ROC曲線表達的分類能,。通常來講,AUC的值越大,表明分類的效果越好,因此可以通過AUC來評估無監督模型的效果。應理解的是,除了使用AUC來評估無監督模型的效果,還可以使用其他方法,例如F1值等,這裡不做限定。
為了更好的理解本說明書實施例提供的無監督模型評估方法,下面以經過無監督模型得到的結點向量為例,來對本說明書實施例提供的無監督模型評估方法來進行說明。在該實施例中,經過無監督模型計算得到的結點集合為V,與結點集合對應的結點向量集合為E,結點的採樣數為S,驗證集T初始為空集,針對S個結點中的每個結點,均確定1個鄰居結點以及N個非鄰居結點構建目標驗證集。
步驟一,獲取結點集合V,結點向量集合E,目標驗證集T=∅,結點的採樣數S;
步驟二,設置循環次數i,i從1到S,在每次循環過程中,執行以下步驟:
從集合V中隨機採樣出一個結點,記為;
根據預設鄰居生成演算法,生成的鄰居結點集合以及的非鄰居結點集合,並從鄰居結點集合中隨機採樣1個鄰居結點,即為;
從集合E中查詢得到的向量,以及的向量,並計算兩個向量之間的相似度,即為;
構建二元組樣本(1,),加入驗證集T;
從非鄰居結點集合中隨機採樣N個非鄰居結點,記為集合;
從集合E中查詢得到結點的向量,以及中各結點的向量,然後計算的向量與中各結點向量之間的相似度,將得到的N個相似度值記為集合;
對於集合中的各元素,構造N個二元組(0,),加入驗證集T,其中,j的值為1~N。
步驟三:集合T中的每個二元組可視為由標籤值和預測值構成,因此可使用二分類指標,如AUC、F1值等對集合T進行評估,評估結果可以作為衡量該無監督模型的學習效果的指標。
第二態樣,基於同一發明構思,本說明書實施例提供一種無監督模型評估裝置,請參考圖3,包括:
第一確定模組31,用於在經過無監督模型得到的N個結點向量中確定出與S個結點對應的S個結點向量,N和S均為正整數;
第二確定模組32,用於確定所述S個結點中每個結點的鄰居結點,以及所述每個結點的非鄰居結點;
正樣本預測值確定模組33,用於根據所述每個結點的鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的鄰居結點與所述每個結點的相似度作為正樣本的預測值;
負樣本預測值確定模組34,用於根據所述每個結點的非鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的非鄰居結點與所述每個結點的相似度作為負樣本的預測值;
評估模組35,用於根據所述正樣本的預測值以及所述負樣本的預測值,對所述無監督模型進行評估。
在一種可選實現方式中,評估模組35,用於:
根據所述正樣本的預測值,以及正樣本標籤值,構建第一類二元組樣本;
根據所述負樣本的預測值,以及負樣本標籤值,構建第二類二元組樣本;
根據所述第一類二元組樣本以及所述第二類二元組樣本,對所述無監督模型進行評估。
在一種可選實現方式中,評估模組35,用於:
根據所述第一類二元組樣本以及所述第二類二元組樣本,確定目標受試者工作特徵曲線;
獲取所述目標受試者工作特徵曲線下的面積,以評估所述無監督模型。
在一種可選實現方式中,第二確定模組32,用於:
針對所述S個結點中的每個結點,執行以下步驟:
根據預設鄰居生成演算法,在N個結點中確定該結點的鄰居結點集合,以及該結點的非鄰居結點集合;
在所述鄰居結點集合中確定一個或多個鄰居結點;
在所述非鄰居結點集合中確定一個或多個非鄰居結點。
在一種可選實現方式中,第一確定模組31用於:
結點集合獲取模組,用於確定結點集合,所述結點集合包含N個結點,所述N個結點與所述N個結點向量相對應;
採樣結點獲取模組,用於在所述結點集合中隨機選取一個結點作為採樣結點,共計選取S次,獲得所述S個結點。
關於上述裝置,其中各個模組的具體功能已經在本發明實施例提供的無監督模型評估方法的實施例中進行了詳細描述,此處將不做詳細闡述說明。
第三態樣,基於與前述實施例中無監督模型評估方法同樣的發明構思,本發明還提供一種伺服器,如圖4所示,包括記憶體404、處理器402及儲存在記憶體404上並可在處理器402上運行的電腦程式,所述處理器402執行所述程式時實現前文所述無監督模型評估方法的任一方法的步驟。
其中,在圖4中,匯流排架構(用匯流排400來代表),匯流排400可以包括任意數量的互聯的匯流排和橋,匯流排400將包括由處理器402代表的一個或多個處理器和記憶體404代表的記憶體的各種電路鏈接在一起。匯流排400還可以將諸如週邊設備、穩壓器和功率管理電路等之類的各種其他電路鏈接在一起,這些都是本領域所公知的,因此,本文不再對其進行進一步描述。匯流排界面406在匯流排400和接收器401和發送器403之間提供介面。接收器401和發送器403可以是同一個元件,即收發機,提供用於在傳輸媒體上與各種其他裝置通信的單元。處理器402負責管理匯流排400和通常的處理,而記憶體404可以被用於儲存處理器402在執行操作時所使用的資料。
第四態樣,基於與前述實施例中基於無監督模型評估方法的發明構思,本發明還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現前文所述基於無監督模型評估方法的任一方法的步驟。
本說明書是參照根據本說明書實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可編程資料處理設備的處理器以產生一個機器,使得通過電腦或其他可編程資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的設備。
這些電腦程式指令也可儲存在能引導電腦或其他可編程資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令設備的製造品,該指令設備實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可編程資料處理設備上,使得在電腦或其他可編程設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
儘管已描述了本發明的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例作出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明範圍的所有變更和修改。
顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明申請專利範圍及其等同技術的範圍之內,則本發明也意圖包含這些改動和變型在內。
31:第一確定模組
32:第二確定模組
33:正樣本預測值確定模組
34:負樣本預測值確定模組
35:評估模組
400:匯流排
401:接收器
402:處理器
403:發送器
404:記憶體
406:匯流排界面
通過閱讀下文較佳實施方式的詳細描述,各種其他的優點和益處對於本領域普通技術人員將變得清楚明瞭。附圖僅用於示出較佳實施方式的目的,而並不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1為本說明書實施例第一態樣提供的一種無監督模型評估方法的流程圖;
圖2為本說明書實施例示出的根據二元組樣本對無監督模型進行評估的方法流程圖;
圖3為本說明書實施例第二態樣提供的無監督模型評估裝置的示意圖;
圖4為本說明書實施例第三態樣提供的伺服器的示意圖。
Claims (12)
- 一種無監督模型評估方法,所述方法包括: 在經過無監督模型得到的N個結點向量中確定出與S個結點對應的S個結點向量,N和S均為正整數; 確定所述S個結點中每個結點的鄰居結點,以及所述每個結點的非鄰居結點; 根據所述每個結點的鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的鄰居結點與所述每個結點的相似度作為正樣本的預測值; 根據所述每個結點的非鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的非鄰居結點與所述每個結點的相似度作為負樣本的預測值; 根據所述正樣本的預測值以及所述負樣本的預測值,對所述無監督模型進行評估。
- 根據申請專利範圍第1項所述的無監督模型評估方法,所述根據所述正樣本的預測值以及所述負樣本的預測值,對所述無監督模型進行評估,包括: 根據所述正樣本的預測值,以及正樣本標籤值,構建第一類二元組樣本; 根據所述負樣本的預測值,以及負樣本標籤值,構建第二類二元組樣本; 根據所述第一類二元組樣本以及所述第二類二元組樣本,對所述無監督模型進行評估。
- 根據申請專利範圍第2項所述的無監督模型評估方法,所述根據所述第一類二元組樣本以及所述第二類二元組樣本,對所述無監督模型進行評估,包括: 根據所述第一類二元組樣本以及所述第二類二元組樣本,確定目標受試者工作特徵曲線; 獲取所述目標受試者工作特徵曲線下的面積,以評估所述無監督模型。
- 根據申請專利範圍第1項所述的無監督模型評估方法,所述確定所述S個結點中每個結點的鄰居結點,以及所述每個結點的非鄰居結點,包括: 針對所述S個結點中的每個結點,執行以下步驟: 根據預設鄰居生成演算法,在N個結點中確定該結點的鄰居結點集合,以及該結點的非鄰居結點集合; 在所述鄰居結點集合中確定一個或多個鄰居結點; 在所述非鄰居結點集合中確定一個或多個非鄰居結點。
- 根據申請專利範圍第1項所述的無監督模型評估方法,所述在經過無監督模型得到的N個結點向量中確定出與S個結點對應的S個結點向量,包括: 確定結點集合,所述結點集合包含N個結點,所述N個結點與所述N個結點向量相對應; 在所述結點集合中隨機選取一個結點作為採樣結點,共計選取S次,獲得所述S個結點。
- 一種無監督模型評估裝置,所述裝置包括: 第一確定模組,用於在經過無監督模型得到的N個結點向量中確定出與S個結點對應的S個結點向量,N和S均為正整數; 第二確定模組,用於確定所述S個結點中每個結點的鄰居結點,以及所述每個結點的非鄰居結點; 正樣本預測值確定模組,用於根據所述每個結點的鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的鄰居結點與所述每個結點的相似度作為正樣本的預測值; 負樣本預測值確定模組,用於根據所述每個結點的非鄰居結點的結點向量,以及所述每個結點的結點向量,確定所述每個結點的非鄰居結點與所述每個結點的相似度作為負樣本的預測值; 評估模組,用於根據所述正樣本的預測值以及所述負樣本的預測值,對所述無監督模型進行評估。
- 根據申請專利範圍第6項所述的無監督模型評估裝置,所述評估模組,用於: 根據所述正樣本的預測值,以及正樣本標籤值,構建第一類二元組樣本; 根據所述負樣本的預測值,以及負樣本標籤值,構建第二類二元組樣本; 根據所述第一類二元組樣本以及所述第二類二元組樣本,對所述無監督模型進行評估。
- 根據申請專利範圍第7項所述的無監督模型評估裝置,所述評估模組,用於: 根據所述第一類二元組樣本以及所述第二類二元組樣本,確定目標受試者工作特徵曲線; 獲取所述目標受試者工作特徵曲線下的面積,以評估所述無監督模型。
- 根據申請專利範圍第6項所述的無監督模型評估裝置,所述第二確定模組,用於: 針對所述S個結點中的每個結點,執行以下步驟: 根據預設鄰居生成演算法,在N個結點中確定該結點的鄰居結點集合,以及該結點的非鄰居結點集合; 在所述鄰居結點集合中確定一個或多個鄰居結點; 在所述非鄰居結點集合中確定一個或多個非鄰居結點。
- 根據申請專利範圍第6項所述的無監督模型評估裝置,所述第一確定模組,用於: 確定結點集合,所述結點集合包含N個結點,所述N個結點與所述N個結點向量相對應; 在所述結點集合中隨機選取一個結點作為採樣結點,共計選取S次,獲得所述S個結點。
- 一種伺服器,包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現申請專利範圍第1-5項之任一項所述方法的步驟。
- 一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現申請專利範圍第1-5項之任一項所述方法的步驟。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811101769.7A CN109615080B (zh) | 2018-09-20 | 2018-09-20 | 无监督模型评估方法、装置、服务器及可读存储介质 |
CN201811101769.7 | 2018-09-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI710970B TWI710970B (zh) | 2020-11-21 |
TW202044110A true TW202044110A (zh) | 2020-12-01 |
Family
ID=66002678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108123745A TWI710970B (zh) | 2018-09-20 | 2019-07-05 | 無監督模型評估方法、裝置、伺服器及可讀儲存媒體 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10997528B2 (zh) |
CN (1) | CN109615080B (zh) |
SG (1) | SG11202010227TA (zh) |
TW (1) | TWI710970B (zh) |
WO (1) | WO2020057283A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615080B (zh) * | 2018-09-20 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 无监督模型评估方法、装置、服务器及可读存储介质 |
CN112597209A (zh) * | 2020-12-15 | 2021-04-02 | 深圳前海微众银行股份有限公司 | 数据的验证方法、装置、系统及计算机可读存储介质 |
CN112508115B (zh) * | 2020-12-15 | 2023-10-24 | 北京百度网讯科技有限公司 | 建立节点表示模型的方法、装置、设备和计算机存储介质 |
CN115329063B (zh) * | 2022-10-18 | 2023-01-24 | 江西电信信息产业有限公司 | 一种用户的意图识别方法及系统 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9017600D0 (en) * | 1990-08-10 | 1990-09-26 | British Aerospace | An assembly and method for binary tree-searched vector quanisation data compression processing |
US5317507A (en) * | 1990-11-07 | 1994-05-31 | Gallant Stephen I | Method for document retrieval and for word sense disambiguation using neural networks |
US5325298A (en) * | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
US6360227B1 (en) * | 1999-01-29 | 2002-03-19 | International Business Machines Corporation | System and method for generating taxonomies with applications to content-based recommendations |
US7389225B1 (en) * | 2000-10-18 | 2008-06-17 | Novell, Inc. | Method and mechanism for superpositioning state vectors in a semantic abstract |
US7047193B1 (en) * | 2002-09-13 | 2006-05-16 | Apple Computer, Inc. | Unsupervised data-driven pronunciation modeling |
US7330440B1 (en) * | 2003-05-20 | 2008-02-12 | Cisco Technology, Inc. | Method and apparatus for constructing a transition route in a data communications network |
US8441919B2 (en) * | 2006-01-18 | 2013-05-14 | Cisco Technology, Inc. | Dynamic protection against failure of a head-end node of one or more TE-LSPs |
US7881223B2 (en) * | 2006-03-31 | 2011-02-01 | Panasonic Corporation | Method for on demand distributed hash table update |
US7881474B2 (en) * | 2006-07-17 | 2011-02-01 | Nortel Networks Limited | System and method for secure wireless multi-hop network formation |
US8396582B2 (en) * | 2008-03-08 | 2013-03-12 | Tokyo Electron Limited | Method and apparatus for self-learning and self-improving a semiconductor manufacturing tool |
WO2011030889A1 (ja) * | 2009-09-14 | 2011-03-17 | 日本電気株式会社 | 通信システム、転送ノード、経路管理サーバ、通信方法およびプログラム |
US10535007B2 (en) * | 2012-04-24 | 2020-01-14 | International Business Machines Corporation | Determining a similarity between graphs |
US9912523B2 (en) * | 2015-01-20 | 2018-03-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Systems and methods for multi-variate attribute correlation |
WO2017018926A1 (en) * | 2015-07-24 | 2017-02-02 | Certis Cisco Security Pte Ltd | System and method for high speed threat intelligence management using unsupervised machine learning and prioritization algorithms |
CN106294621B (zh) * | 2016-08-02 | 2019-11-12 | 西南石油大学 | 一种基于复杂网络结点相似性的计算事件相似性的方法和系统 |
CN107291803A (zh) * | 2017-05-15 | 2017-10-24 | 广东工业大学 | 一种融合多类型信息的网络表示方法 |
CN107909119B (zh) * | 2017-12-11 | 2020-05-19 | 深圳先进技术研究院 | 集合间相似度的确定方法和装置 |
CN108536784B (zh) * | 2018-03-29 | 2021-08-24 | 阿里巴巴(中国)有限公司 | 评论信息情感分析方法、装置、计算机存储介质和服务器 |
CN109615080B (zh) * | 2018-09-20 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 无监督模型评估方法、装置、服务器及可读存储介质 |
-
2018
- 2018-09-20 CN CN201811101769.7A patent/CN109615080B/zh active Active
-
2019
- 2019-07-05 TW TW108123745A patent/TWI710970B/zh active
- 2019-08-07 WO PCT/CN2019/099668 patent/WO2020057283A1/zh active Application Filing
- 2019-08-07 SG SG11202010227TA patent/SG11202010227TA/en unknown
-
2020
- 2020-10-30 US US17/086,120 patent/US10997528B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN109615080B (zh) | 2020-05-26 |
WO2020057283A1 (zh) | 2020-03-26 |
SG11202010227TA (en) | 2020-11-27 |
US10997528B2 (en) | 2021-05-04 |
TWI710970B (zh) | 2020-11-21 |
CN109615080A (zh) | 2019-04-12 |
US20210049513A1 (en) | 2021-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI710970B (zh) | 無監督模型評估方法、裝置、伺服器及可讀儲存媒體 | |
Raskutti et al. | Learning directed acyclic graph models based on sparsest permutations | |
Ignatiev et al. | On validating, repairing and refining heuristic ML explanations | |
CN110009430B (zh) | 作弊用户检测方法、电子设备及计算机可读存储介质 | |
CN114117153B (zh) | 一种基于相似度重学习的在线跨模态检索方法及系统 | |
CN109829065B (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN109086291B (zh) | 一种基于MapReduce的并行异常检测方法及系统 | |
CN110705573A (zh) | 一种目标检测模型的自动建模方法及装置 | |
CN113704082A (zh) | 模型评测方法、装置、电子设备及存储介质 | |
CN116934385B (zh) | 用户流失预测模型的构建方法、用户流失预测方法及装置 | |
CN115545300B (zh) | 一种基于图神经网络进行用户行为预测的方法及装置 | |
Yang et al. | Streaming feature-based causal structure learning algorithm with symmetrical uncertainty | |
US11669565B2 (en) | Method and apparatus for tracking object | |
EP4009239A1 (en) | Method and apparatus with neural architecture search based on hardware performance | |
CN112598089B (zh) | 图像样本的筛选方法、装置、设备及介质 | |
US11295229B1 (en) | Scalable generation of multidimensional features for machine learning | |
CN117056902A (zh) | 物联网密码管理方法及系统 | |
Mourao et al. | Learning action effects in partially observable domains | |
CN117009863A (zh) | 免疫组库分类方法、装置、设备和存储介质 | |
CN112597699B (zh) | 一种融入客观赋权法的社交网络谣言源识别方法 | |
CN115278757A (zh) | 一种检测异常数据的方法、装置及电子设备 | |
JP6993250B2 (ja) | コンテンツ特徴量抽出装置、方法、及びプログラム | |
CN107888590B (zh) | 一种基于gpu与贝叶斯网络推理的未知木马的检测方法 | |
CN112527996A (zh) | 一种样本筛选方法、系统、电子设备及存储介质 | |
Aghdam et al. | Inferring gene regulatory networks by PCA-CMI using Hill climbing algorithm based on MIT score and SORDER method |