TW202044111A - 異常檢測的解釋特徵確定方法和裝置 - Google Patents
異常檢測的解釋特徵確定方法和裝置 Download PDFInfo
- Publication number
- TW202044111A TW202044111A TW108126301A TW108126301A TW202044111A TW 202044111 A TW202044111 A TW 202044111A TW 108126301 A TW108126301 A TW 108126301A TW 108126301 A TW108126301 A TW 108126301A TW 202044111 A TW202044111 A TW 202044111A
- Authority
- TW
- Taiwan
- Prior art keywords
- sample
- feature
- detection model
- model
- sample feature
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Abstract
本說明書實施例提供一種異常檢測的解釋特徵確定方法和裝置,其中,方法可以包括:對於輸入異常檢測模型的一個樣本,所述樣本包括至少一個樣本特徵,根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度;所述分佈參數用於表示該樣本特徵在所述異常檢測模型的訓練集資料中的分佈特點;所述異常檢測模型是無監督模型;根據所述樣本中的各個樣本特徵的偏移度,確定至少一個樣本特徵作為所述樣本對應的解釋特徵,所述解釋特徵用於解釋所述樣本與對應的所述異常檢測模型的模型輸出結果之間的關聯。
Description
本公開涉及大資料技術領域,特別涉及一種異常檢測的解釋特徵確定方法和裝置。
異常檢測是資料採擷中的較為重要的一部分,可以應用於入侵偵測、欺詐檢測、故障檢測、系統健康檢測、感測器網路事件檢測和生態系統干擾檢測等多種領域。在實際的異常檢測應用當中,其中一種演算法即為無監督的異常檢測模型。異常檢測模型往往是一個黑盒,使用者無法感知其內部工作狀態,為了提高使用模型的可信度,模型解釋就顯得至關重要。透過對模型解釋,可以進一步理解模型的輸出結果,例如究竟輸入樣本的哪些特徵對模型輸出影響最大。透過模型解釋能夠為異常檢測模型的輸出結果的原因提供分析方向。
有鑑於此,本說明書一個或多個實施例提供一種異常檢測的解釋特徵確定方法和裝置,以提高異常檢測的解釋特徵獲取的準確性。
具體地,本說明書一個或多個實施例是透過如下技術方案實現的:
第一態樣,提供一種異常檢測的解釋特徵確定方法,所述方法包括:
對於輸入異常檢測模型的一個樣本,所述樣本包括至少一個樣本特徵,根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度;所述分佈參數用於表示該樣本特徵在所述異常檢測模型的訓練集資料中的分佈特點;所述異常檢測模型是無監督模型;
根據所述樣本中的各個樣本特徵的偏移度,確定至少一個樣本特徵作為所述樣本對應的解釋特徵,所述解釋特徵用於解釋所述樣本與對應的所述異常檢測模型的模型輸出結果之間的關聯。
第二態樣,提供一種異常檢測的解釋特徵確定裝置,所述裝置包括:
偏移度計算模組,用於對於輸入異常檢測模型的一個樣本,所述樣本包括至少一個樣本特徵,根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度;所述分佈參數用於表示該樣本特徵在所述異常檢測模型的訓練集資料中的分佈特點;所述異常檢測模型是無監督模型;
特徵確定模組,用於根據所述樣本中的各個樣本特徵的偏移度,確定至少一個樣本特徵作為所述樣本對應的解釋特徵,所述解釋特徵用於解釋所述樣本與對應的所述異常檢測模型的模型輸出結果之間的關聯。
第三態樣,提供一種異常檢測的解釋特徵確定設備,所述設備包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現以下步驟:
對於輸入異常檢測模型的一個樣本,所述樣本包括至少一個樣本特徵,根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度;所述分佈參數用於表示該樣本特徵在所述異常檢測模型的訓練集資料中的分佈特點;所述異常檢測模型是無監督模型;
根據所述樣本中的各個樣本特徵的偏移度,確定至少一個樣本特徵作為所述樣本對應的解釋特徵,所述解釋特徵用於解釋所述樣本與對應的所述異常檢測模型的模型輸出結果之間的關聯。
本說明書一個或多個實施例的異常檢測的解釋特徵確定方法和裝置,透過根據分佈參數找到異常的解釋特徵,這是基於樣本特徵的特徵值本身的資料分佈特點,來找到解釋特徵,與模型無關且不依賴於模型,因此,模型相關資訊的不完善比如樣本不平衡性不會影響到解釋特徵的檢測,並且,利用分佈參數識別解釋特徵,符合異常檢測的異常點數據分佈特點,解釋特徵獲取的準確性較高。
為了使本技術領域的人員更好地理解本說明書一個或多個實施例中的技術方案,下面將結合本說明書一個或多個實施例中的圖式,對本說明書一個或多個實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是一部分實施例,而不是全部的實施例。基於本說明書一個或多個實施例,本領域普通技術人員在沒有做出進步性勞動前提下所獲得的所有其他實施例,都應當屬於本申請案保護的範圍。
異常檢測也稱為離群點檢測,離群點是一個明顯偏離其他資料點的物件,離群點和大部分的資料不太一樣,在整體的資料當中也只是占一小部分,異常檢測需要將這些離群點從資料中分辨出來。例如,可以用於識別異常交易。
本說明書至少一個實施例提供了一種異常檢測的解釋特徵確定方法,該方法可以應用於對無監督的異常檢測模型的解釋,並且該解釋方案可以無需引入額外的解釋模型,並且也不會依賴於異常檢測模型本身。
如下對該方法描述中涉及到的部分特徵進行說明:
樣本:該樣本可以是用於作為異常檢測模型的輸入,並且可以對應一個異常檢測模型的模型輸出結果。例如,可以將A輸入異常檢測模型,並得到模型輸出的B,那麼A即為所述樣本。
樣本特徵:一個樣本可以具有至少一個樣本特徵,該樣本特徵用於描述該樣本在不同態樣的屬性性質。例如,該樣本可以是使用者標識為1100的使用者,該樣本包括的至少一個樣本特徵可以包括:該使用者的年齡、住址、工作年限等。其中,年齡是一個樣本特徵,住址可以是另一個樣本特徵。
解釋特徵:機器學習任務中,不同的模型被提出,用以對問題進行建模。除了模型的直接輸出以外,我們還需要對結果進一步的理解,例如究竟哪些特徵對模型輸出影響最大,究竟是什麼因素決定了它所對應的輸出,這就需要對模型進行相應的解釋。本說明書實施例中用“解釋特徵”來表示能夠對異常檢測模型的模型輸出結果進行解釋的特徵,該解釋特徵可以用於解釋異常檢測模型的輸入樣本和模型輸出結果之間的關聯。比如,將樣本Y1輸入異常檢測模型得到模型輸出結果D1,且確定的解釋特徵是t1和t2,那麼,樣本Y1中包括的特徵t1和t2對輸出D1的貢獻值較高,可能是由於這兩個樣本特徵t1和t2才導致得到了D1。解釋特徵可以是由上述的樣本特徵中確定的部分特徵,例如,樣本特徵可以包括F1、F2和F3,解釋特徵可以是其中的F1和F2。
在上述特徵說明的基礎上,下面描述本說明書實施例的解釋特徵確定方法。
請參見圖1所示,異常檢測的過程包括“訓練”和“預測”兩個過程。其中,在“訓練”階段可以透過訓練集資料去訓練異常檢測模型。在“預測”階段,就可以將測試集資料中的某個樣本作為該異常檢測模型的輸入,以預測該輸入的樣本是否是異常資料。而本說明書至少一個實施例提供的對異常檢測模型的解釋方案中,與上述的訓練異常檢測模型和應用該模型進行預測是無關的,即,模型的解釋和模型的訓練預測是兩個獨立運行的部分。
請繼續參見圖1,並結合圖2所示,圖2描述了一種異常檢測的解釋特徵的確定方法。其中,首先需要說明的是,該方法在解釋異常檢測模型時,採用的是局部模型解釋,即針對某一條具體樣本的預測提供相應解釋。
如圖2所示,該方法可以包括:
在步驟200中,根據異常檢測模型的訓練集資料,分別獲得所述訓練集資料中各個樣本特徵的分佈參數。
本步驟中,該異常檢測模型可以是無監督模型。
所述的訓練集資料,可以是用於訓練異常檢測模型的資料,該訓練集資料中可以包括多個樣本,每個樣本中可以包括至少一個樣本特徵。
示例性的,該樣本可以是使用者標識為1100的使用者,該樣本中包括的至少一個樣本特徵可以包括:該使用者的年齡、住址、工作年限、年收入等。
每一個樣本特徵都可以得到一個對應的分佈參數,例如,樣本特徵“年齡”對應一個分佈參數S1,樣本特徵“工作年限”對應一個分佈參數S2。
而每個樣本特徵的分佈參數的獲得,可以是由所述訓練集資料的各個樣本中分別獲取相同的樣本特徵,該相同的樣本特徵可以稱為目標樣本特徵,進而得到包括多個目標樣本特徵的目標特徵集;並根據所述目標特徵集,確定所述目標樣本特徵的分佈參數。
例如,以樣本特徵“年收入”為例,訓練集資料中可以包括多個樣本,假設包括標識為1100的使用者、標識為1101的使用者以及標識為1102的使用者。每個使用者的樣本特徵中都包括該“年收入”。可以由各個樣本中分別獲取該“年收入”樣本特徵,該特徵可以稱為目標樣本特徵。可以得到一個目標特徵集,該目標特徵集中包括上述三個使用者的“年收入”。接著可以根據該目標特徵集中的“年收入”的特徵值,確定該特徵“年收入”對應的分佈參數。
分佈參數可以用於表示樣本特徵在異常檢測模型的訓練集資料中的分佈特點。例如,在異常檢測中,多元高斯模型是一種經典演算法,其資料假設為每維特徵分佈滿足正態分佈,在這個假設之下有一個著名的3-sigma原則,在均值附近3個方差區域範圍內包含了99.7%的資料,而在這個區域以外就可以被認為是一個異常點(outlier)。當然還可以有2-sigma原則、1-sigma原則等。
上述的描述即表示了一種資料分佈特點,異常檢測所要檢測識別的異常點,由分佈特點上來看,通常是偏離大多數資料所在區域的點,而所述的大多數資料所在區域是有一定特點的,比如,在均值附近3個方差的區域範圍內。
基於上述,例如,本步驟中計算的分佈參數可以包括:樣本特徵的均值和方差。例如,均值可以用u表示,方差可以用s表示。
在步驟202中,對於輸入異常檢測模型的一個樣本,所述輸入樣本包括至少一個樣本特徵,根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度。
本步驟中,所述的樣本是測試集資料中的一個樣本,測試集資料可以包括多個樣本,每個樣本可以包括至少一個樣本特徵。如前所述的,本方法對異常檢測的解釋方案,是應用於局部模型解釋,即對每一個具體樣本的異常檢測進行解釋。
例如,樣本Y1輸入訓練完成的異常檢測模型得到模型輸出結果D1,樣本Y2輸入異常檢測模型得到模型輸出結果D2,而本方法的模型解釋應用於分別解釋Y1和D1之間的關聯、以及Y2和D2之間的關聯。比如,Y1的哪些特徵對得到結果D1的貢獻較大,Y2的哪些特徵對得到D2的貢獻較大。因此,步驟202和步驟204可以是對測試集資料中的其中一個樣本執行。
與訓練集資料類似的,測試集資料中的每一個樣本也可以包括多個樣本特徵。本步驟中,對每個樣本特徵計算其對應的偏移度,該偏移度可以是一個用於衡量該樣本特徵是否處於上述的“大多數資料所在區域”的指標。
例如,可以基於如下原則來計算偏移度:對每一維特徵,可以計算每一個新樣本偏離訓練集上均值幾倍方差的距離,偏離越多則證明資料越異常。那麼,以分佈參數為均值和方差為例,如下的公式(1)可以作為偏移度的計算公式:
n=(v-u)/s…………(1)
在上述的公式(1)中,n是偏移度,該n可以為不同的樣本特徵提供一個統一的異常衡量指標。v是樣本中的一個樣本特徵在所述樣本中的實際特徵值;u是基於訓練集資料統計得到的該樣本特徵的均值;s是基於訓練集資料統計得到的該樣本特徵的方差。根據公式(1),確定所述實際值偏離所述均值幾倍方差的距離,作為所述偏移度。
在步驟204中,根據所述樣本中的各個樣本特徵的偏移度,確定至少一個樣本特徵作為所述樣本對應的本次異常檢測的解釋特徵。
其中,所述解釋特徵用於解釋在本次異常檢測中輸入的所述樣本和模型輸出結果之間的關聯。比如,將樣本Y1輸入異常檢測模型得到模型輸出結果D1,且確定的解釋特徵是t1和t2,那麼,樣本Y1中包括該特徵t1和t2,並且,該t1和t2對輸出D1的貢獻值較高,可能是由於這兩個樣本特徵t1和t2才導致得到了模型輸出結果D1。當然,還可以在解釋特徵的基礎上進一步詳細分析本次Y1對應的異常檢測輸出結果D1的原因。
例如,解釋特徵的獲得方法可以是:根據輸入模型的樣本中的各個樣本特徵的偏移度,將所述各個樣本特徵進行降冪排列,並將排序在前預設位數的至少一個樣本特徵作為所述解釋特徵。該方法是選取了幾個偏移度較高的樣本特徵作為解釋特徵。具體實施中,不局限於該方法,例如,還可以設定偏移度閾值,將偏移度高於該閾值的樣本特徵作為解釋特徵。
上述的各個步驟,可以分別在同一設備上執行,也可以在不同設備上執行。比如,步驟200可以在一個設備執行,屬於訓練階段,即異常檢測模型的訓練階段可以包括兩個部分,一部分是常規的異常檢測模型的訓練,另一部分是根據訓練集資料得到分佈參數。而步驟202和步驟204可以在另一個設備執行(也可以同一設備),屬於模型的預測階段,即異常檢測模型的預測階段也包括兩個部分,一部分是常規的利用模型進行預測是否異常,另一部分是根據分佈參數得到解釋特徵。在每個階段,訓練階段或者預測階段,模型解釋方案和模型的訓練預測方案,可以是獨立運行。當然,也可以是一邊訓練一邊計算分佈參數,或者一邊預測一邊根據輸入樣本計算解釋特徵。
本說明書至少一個實施例的異常檢測的解釋特徵的確定方法,透過根據分佈參數找到異常的解釋特徵,這是基於樣本特徵的特徵值本身的資料分佈特點,來找到解釋特徵,與模型無關且不依賴於模型,因此,模型相關資訊的不完善比如樣本不平衡性不會影響到解釋特徵的檢測,並且,利用分佈參數識別解釋特徵,符合異常檢測的異常點數據分佈特點,解釋特徵獲取的準確性較高。
圖3為本說明書一個或多個實施例提供的一種異常檢測的解釋特徵確定裝置,如圖3所示,該裝置可以包括:偏移度計算模組31和特徵確定模組32。
偏移度計算模組31,用於對於輸入異常檢測模型的一個樣本,所述樣本包括至少一個樣本特徵,根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度;所述分佈參數用於表示該樣本特徵在所述異常檢測模型的訓練集資料中的分佈特點;所述異常檢測模型是無監督模型;
特徵確定模組32,用於根據所述樣本中的各個樣本特徵的偏移度,確定至少一個樣本特徵作為所述樣本對應的解釋特徵,所述解釋特徵用於解釋所述樣本與對應的所述異常檢測模型的模型輸出結果之間的關聯。
圖4為本說明書一個或多個實施例提供的另一種異常檢測的解釋特徵確定裝置,如圖4所示,該裝置在圖3所示結構的基礎上,還可以包括:分佈計算模組33。
分佈計算模組33,用於由訓練集資料的各個樣本中分別獲取目標樣本特徵,得到包括多個目標樣本特徵的目標特徵集;根據所述目標特徵集,確定所述目標樣本特徵的分佈參數;所述訓練集資料包括多個樣本,每個樣本包括至少一個樣本特徵。
在另一個例子中,偏移度計算模組31,具體用於:對於所述異常檢測模型的測試集資料中所述樣本的其中一個樣本特徵,確定所述樣本特徵在所述樣本中的實際值;獲取所述樣本特徵在訓練集資料中的均值;確定所述實際值偏離所述均值幾倍方差的距離,作為所述偏移度;所述分佈參數包括:所述樣本特徵的均值和方差。
本說明書至少一個實施例還提供了一種異常檢測的解釋特徵確定設備,所述設備包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現以下步驟:
對於輸入異常檢測模型的一個樣本,所述樣本包括至少一個樣本特徵,根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度;所述分佈參數用於表示該樣本特徵在所述異常檢測模型的訓練集資料中的分佈特點;所述異常檢測模型是無監督模型;
根據所述樣本中的各個樣本特徵的偏移度,確定至少一個樣本特徵作為所述樣本對應的解釋特徵,所述解釋特徵用於解釋所述樣本與對應的所述異常檢測模型的模型輸出結果之間的關聯。
上述方法實施例中所示流程中的各個步驟,其執行順序不限制於流程圖中的順序。此外,各個步驟的描述,可以實現為軟體、硬體或者其結合的形式,例如,本領域技術人員可以將其實現為軟體代碼的形式,可以為能夠實現所述步驟對應的邏輯功能的電腦可執行指令。當其以軟體的方式實現時,所述的可執行指令可以儲存在記憶體中,並被設備中的處理器執行。
上述實施例闡明的裝置或模組,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦,電腦的具體形式可以是個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件收發設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任意幾種設備的組合。
為了描述的方便,描述以上裝置時以功能分為各種模組分別描述。當然,在實施本說明書一個或多個實施例時可以把各模組的功能在同一個或多個軟體和/或硬體中實現。
本領域內的技術人員應明白,本說明書一個或多個實施例可提供為方法、系統、或電腦程式產品。因此,本說明書一個或多個實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體態樣的實施例的形式。而且,本說明書一個或多個實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
這些電腦程式指令也可儲存在能引導電腦或其他可編程資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可編程資料處理設備上,使得在電腦或其他可編程設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本說明書一個或多個實施例可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、組件、資料結構等等。也可以在分散式運算環境中實踐本說明書一個或多個實施例,在這些分散式運算環境中,由透過通信網路而被連接的遠端處理設備來執行任務。在分散式運算環境中,程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。
本說明書中的各個實施例均採用漸進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於資料獲取設備或者資料處理設備實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在圖式中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多工處理和並行處理也是可以的或者可能是有利的。
以上所述僅為本說明書一個或多個實施例的較佳實施例而已,並不用以限制本公開,凡在本公開的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本公開保護的範圍之內。
31:偏移度計算模組
32:特徵確定模組
33:分佈計算模組
200:步驟
202:步驟
204:步驟
為了更清楚地說明本說明書一個或多個實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本說明書一個或多個實施例中記載的一些實施例,對於本領域普通技術人員來講,在不付出進步性勞動性的前提下,還可以根據這些圖式獲得其他的圖式。
圖1為本說明書一個或多個實施例提供的異常檢測的原理示意圖;
圖2為本說明書一個或多個實施例提供的異常檢測的解釋特徵的確定方法;
圖3為本說明書一個或多個實施例提供的一種異常檢測的解釋特徵的確定裝置的結構示意圖;
圖4為本說明書一個或多個實施例提供的另一種異常檢測的解釋特徵的確定裝置的結構示意圖。
Claims (10)
- 一種異常檢測的解釋特徵確定方法,所述方法包括: 對於輸入異常檢測模型的一個樣本,所述樣本包括至少一個樣本特徵,根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度;所述分佈參數用於表示該樣本特徵在所述異常檢測模型的訓練集資料中的分佈特點;所述異常檢測模型是無監督模型; 根據所述樣本中的各個樣本特徵的偏移度,確定至少一個樣本特徵作為所述樣本對應的解釋特徵,所述解釋特徵用於解釋所述樣本與對應的所述異常檢測模型的模型輸出結果之間的關聯。
- 根據申請專利範圍第1項所述的方法,所述根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度之前,所述方法還包括: 根據所述異常檢測模型的訓練集資料,分別獲得所述訓練集資料中各個樣本特徵的分佈參數。
- 根據申請專利範圍第2項所述的方法,所述分別獲得所述訓練集資料中各個樣本特徵的分佈參數,包括: 所述訓練集資料包括多個樣本,每個樣本包括至少一個樣本特徵; 由所述訓練集資料的各個樣本中分別獲取目標樣本特徵,得到包括多個目標樣本特徵的目標特徵集; 根據所述目標特徵集,確定所述目標樣本特徵的分佈參數。
- 根據申請專利範圍第1項所述的方法, 所述分佈參數包括:所述樣本特徵的均值和方差。
- 根據申請專利範圍第4項所述的方法,所述根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度,包括: 對於所述異常檢測模型的測試集資料中所述樣本的其中一個樣本特徵,確定所述樣本特徵在所述樣本中的實際值; 獲取所述樣本特徵在訓練集資料中的均值; 確定所述實際值偏離所述均值幾倍方差的距離,作為所述偏移度。
- 根據申請專利範圍第1項所述的方法,所述根據樣本中的各個樣本特徵的偏移度,確定至少一個樣本特徵作為所述樣本對應的解釋特徵,包括: 根據所述樣本中的各個樣本特徵的偏移度,將所述各個樣本特徵進行降冪排列,並將排序在前預設位數的所述至少一個樣本特徵作為所述解釋特徵。
- 一種異常檢測的解釋特徵確定裝置,所述裝置包括: 偏移度計算模組,用於對於輸入異常檢測模型的一個樣本,所述樣本包括至少一個樣本特徵,根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度;所述分佈參數用於表示該樣本特徵在所述異常檢測模型的訓練集資料中的分佈特點;所述異常檢測模型是無監督模型; 特徵確定模組,用於根據所述樣本中的各個樣本特徵的偏移度,確定至少一個樣本特徵作為所述樣本對應的解釋特徵,所述解釋特徵用於解釋所述樣本與對應的所述異常檢測模型的模型輸出結果之間的關聯。
- 根據申請專利範圍第7項所述的裝置,所述裝置還包括: 分佈計算模組,用於由訓練集資料的各個樣本中分別獲取目標樣本特徵,得到包括多個目標樣本特徵的目標特徵集;根據所述目標特徵集,確定所述目標樣本特徵的分佈參數;所述訓練集資料包括多個樣本,每個樣本包括至少一個樣本特徵。
- 根據申請專利範圍第7項所述的裝置, 偏移度計算模組,具體用於:對於所述異常檢測模型的測試集資料中所述樣本的其中一個樣本特徵,確定所述樣本特徵在所述樣本中的實際值;獲取所述樣本特徵在訓練集資料中的均值;確定所述實際值偏離所述均值幾倍方差的距離,作為所述偏移度;所述分佈參數包括:所述樣本特徵的均值和方差。
- 一種異常檢測的解釋特徵確定設備,所述設備包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現以下步驟: 對於輸入異常檢測模型的一個樣本,所述樣本包括至少一個樣本特徵,根據每個樣本特徵的分佈參數確定所述樣本特徵的偏移度;所述分佈參數用於表示該樣本特徵在所述異常檢測模型的訓練集資料中的分佈特點;所述異常檢測模型是無監督模型; 根據所述樣本中的各個樣本特徵的偏移度,確定至少一個樣本特徵作為所述樣本對應的解釋特徵,所述解釋特徵用於解釋所述樣本與對應的所述異常檢測模型的模型輸出結果之間的關聯。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811208609.2 | 2018-10-17 | ||
CN201811208609.2A CN109583470A (zh) | 2018-10-17 | 2018-10-17 | 一种异常检测的解释特征确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202044111A true TW202044111A (zh) | 2020-12-01 |
TWI723476B TWI723476B (zh) | 2021-04-01 |
Family
ID=65920123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108126301A TWI723476B (zh) | 2018-10-17 | 2019-07-25 | 異常檢測的解釋特徵確定方法、裝置和設備 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN109583470A (zh) |
TW (1) | TWI723476B (zh) |
WO (1) | WO2020078059A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583470A (zh) * | 2018-10-17 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 一种异常检测的解释特征确定方法和装置 |
CN112148763A (zh) * | 2019-06-28 | 2020-12-29 | 京东数字科技控股有限公司 | 无监督数据异常检测方法、装置及存储介质 |
CN111027607B (zh) * | 2019-11-29 | 2023-10-17 | 泰康保险集团股份有限公司 | 无监督高维数据特征重要性评估与选择的方法及装置 |
CN111340102B (zh) * | 2020-02-24 | 2022-03-01 | 支付宝(杭州)信息技术有限公司 | 评估模型解释工具的方法和装置 |
CN111262887B (zh) * | 2020-04-26 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于对象特征的网络风险检测方法、装置、设备及介质 |
CN111767938B (zh) * | 2020-05-09 | 2023-12-19 | 北京奇艺世纪科技有限公司 | 一种异常数据检测方法、装置及电子设备 |
CN116130095B (zh) * | 2023-04-04 | 2023-07-11 | 深圳市金瑞铭科技有限公司 | 一种基于传感技术的状态监测方法、装置及存储介质 |
CN116304641B (zh) * | 2023-05-15 | 2023-09-15 | 山东省计算中心(国家超级计算济南中心) | 基于参考点搜索和特征交互的异常检测解释方法及系统 |
CN116881724B (zh) * | 2023-09-07 | 2023-12-19 | 中国电子科技集团公司第十五研究所 | 一种样本标注方法、装置及设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2700498T3 (es) * | 2012-07-25 | 2019-02-18 | Theranos Ip Co Llc | Sistema para el análisis de una muestra |
US20140310277A1 (en) * | 2013-04-15 | 2014-10-16 | Flextronics Ap, Llc | Suspending user profile modification based on user context |
CN106776641B (zh) * | 2015-11-24 | 2020-09-08 | 华为技术有限公司 | 一种数据处理方法及装置 |
WO2018061842A1 (ja) * | 2016-09-27 | 2018-04-05 | 東京エレクトロン株式会社 | 異常検知プログラム、異常検知方法および異常検知装置 |
CN108108743B (zh) * | 2016-11-24 | 2022-06-24 | 百度在线网络技术(北京)有限公司 | 异常用户识别方法和用于识别异常用户的装置 |
CN108038211A (zh) * | 2017-12-13 | 2018-05-15 | 南京大学 | 一种基于上下文的无监督关系数据异常检测方法 |
CN108512827B (zh) * | 2018-02-09 | 2021-09-21 | 世纪龙信息网络有限责任公司 | 异常登录的识别和监督学习模型的建立方法、装置,设备和存储介质 |
CN109583470A (zh) * | 2018-10-17 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 一种异常检测的解释特征确定方法和装置 |
-
2018
- 2018-10-17 CN CN201811208609.2A patent/CN109583470A/zh active Pending
-
2019
- 2019-07-23 WO PCT/CN2019/097171 patent/WO2020078059A1/zh active Application Filing
- 2019-07-25 TW TW108126301A patent/TWI723476B/zh active
Also Published As
Publication number | Publication date |
---|---|
WO2020078059A1 (zh) | 2020-04-23 |
CN109583470A (zh) | 2019-04-05 |
TWI723476B (zh) | 2021-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI723476B (zh) | 異常檢測的解釋特徵確定方法、裝置和設備 | |
US9454454B2 (en) | Memory leak analysis by usage trends correlation | |
US20180196837A1 (en) | Root cause analysis of performance problems | |
TW202029079A (zh) | 異常群體識別方法及裝置 | |
JP2019061565A (ja) | 異常診断方法および異常診断装置 | |
US10504028B1 (en) | Techniques to use machine learning for risk management | |
KR20160121806A (ko) | 일시적 거래 한도 결정 | |
Arif et al. | A data mining approach for developing quality prediction model in multi-stage manufacturing | |
US11373189B2 (en) | Self-learning online multi-layer method for unsupervised risk assessment | |
US10311067B2 (en) | Device and method for classifying and searching data | |
CN110633989A (zh) | 一种风险行为生成模型的确定方法及装置 | |
Zhang et al. | A trust model stemmed from the diffusion theory for opinion evaluation | |
Lee et al. | Assessing the lifetime performance index of exponential products with step-stress accelerated life-testing data | |
CN112182508A (zh) | 一种合规业务指标的异常监测方法及装置 | |
Grbac et al. | Stability of software defect prediction in relation to levels of data imbalance | |
Reddy et al. | Performance of Maintainability Index prediction models: a feature selection based study | |
Malhotra et al. | Analyzing machine learning techniques for fault prediction using web applications | |
Gupta et al. | Eagle: User profile-based anomaly detection for securing Hadoop clusters | |
US10354192B2 (en) | Recommender system for exploratory data analysis | |
Avram et al. | Context quality impact in context-aware data mining for predicting soil moisture | |
Kim et al. | An adaptive step-down procedure for fault variable identification | |
US10320636B2 (en) | State information completion using context graphs | |
Yuan et al. | Enhancing Deep Learning-based Vulnerability Detection by Building Behavior Graph Model | |
CN108073629B (zh) | 通过网站访问数据识别购买模式的方法及装置 | |
US10482279B2 (en) | Pattern-less private data detection on data sets |