TW201941058A - 異常檢測方法及裝置 - Google Patents

異常檢測方法及裝置 Download PDF

Info

Publication number
TW201941058A
TW201941058A TW108100362A TW108100362A TW201941058A TW 201941058 A TW201941058 A TW 201941058A TW 108100362 A TW108100362 A TW 108100362A TW 108100362 A TW108100362 A TW 108100362A TW 201941058 A TW201941058 A TW 201941058A
Authority
TW
Taiwan
Prior art keywords
data
training set
abnormal
extended
detection model
Prior art date
Application number
TW108100362A
Other languages
English (en)
Inventor
周揚
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201941058A publication Critical patent/TW201941058A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3414Workload generation, e.g. scripts, playback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Abstract

公開了一種異常檢測方法及裝置。該方法包括:將系統正常運行時的取樣資料作為訓練集合中的正常樣本;獲取異常資料,循環執行如下步驟,直至異常檢測模型的識別效果達到預期,以便使用識別效果達到預期的異常檢測模型對待檢測資料進行異常檢測:對異常資料進行延伸,將異常資料和延伸的異常資料作為異常樣本增加在訓練集合中;根據訓練集合對異常檢測模型進行訓練,並確定異常檢測模型的識別效果;當異常檢測模型的識別效果低於預期時,獲取新的異常資料。以此得到更多的異常樣本,結合正常樣本得到正樣本和負樣本都比較充足的訓練集合,從而提高根據該訓練集合訓練的異常檢測模型進行檢測的故障識別的準確性。

Description

異常檢測方法及裝置
本說明書關於電腦技術領域,尤其關於一種異常檢測方法及裝置。
隨著科技的不斷的發展,資料處理系統需要應對規模越來越大的資料量,尤其是對於支援多種業務的系統。資料處理系統通常需要一定規模的伺服器協作來實現大規模的資料處理,對於提供多種業務的系統,一般還會分平臺來為不同的業務提供支援,每個平臺可以包括一個或多個伺服器。這就導致系統需要成百上千甚至跟多的伺服器來支援,伺服器的規模非常龐大。在系統運行時,這些伺服器的代碼、資料庫和配置等的變更會非常頻繁,每週的變更可能就會成千上萬甚至更多,由於任何一個環節的疏忽、錯誤,都可能引起平臺故障,甚至系統故障。在解決故障時,因為系統規模龐大,伺服器還可能分佈在不同地區,所以故障難定位,故障解決時間過長,造成巨大損失。由此,在系統出現故障時,精準、及時的識別出異常,可以在最短的時間內説明系統止血,降低損失。
目前通常採用的手段是,按分鐘計算的業務關鍵指標,形成時間序列,藉由識別時間序列的異常,來識別出故障。但是,此種方式主要依賴於系統運行時的歷史資料,由於系統運行時的歷史資料中異常通常較少,不足以作為故障識別的依據,所以一般藉由分析正常資料中的規律來識別異常,此種方式樣本單一,故障識別誤判、漏判率比較高。
針對上述技術問題,本說明書提供一種異常檢測方法及裝置。
具體地,本說明書是藉由如下技術方案實現的:
第一態樣,本說明書實施例提供了一種異常檢測方法。該方法包括:
獲取系統正常運行時的取樣資料,將所述取樣資料作為訓練集合中的正常樣本;
根據預制規則獲取異常資料,循環執行如下步驟,直至異常檢測模型的識別效果達到預期,以便使用識別效果達到預期的異常檢測模型對待檢測資料進行異常檢測:
對所述異常資料進行延伸,將所述異常資料和延伸的異常資料作為異常樣本增加在所述訓練集合中;
根據增加異常資料後的訓練集合對所述異常檢測模型進行訓練,並確定所述異常檢測模型的識別效果;
當所述異常檢測模型的識別效果低於預期時,根據所述預制規則獲取新的異常資料。
第二態樣,本說明書實施例提供了一種異常檢測裝置,其中,該裝置包括:
第一獲取單元,用於獲取系統正常運行時的取樣資料,將所述取樣資料作為訓練集合中的正常樣本;
第二獲取單元,用於根據預制規則獲取異常資料;
循環單元,用於循環執行下述延伸單元、訓練單元以及所述第二獲取單元執行的步驟,直至異常檢測模型的識別效果達到預期,以便使用識別效果達到預期的異常檢測模型對待檢測資料進行異常檢測;
所述延伸單元,用於對所述異常資料進行延伸,將所述異常資料和延伸的異常資料作為異常樣本增加在所述訓練集合中;
所述訓練單元,用於根據增加異常資料後的訓練集合對所述異常檢測模型進行訓練,並確定所述異常檢測模型的識別效果;
所述第二獲取單元還用於,當所述異常檢測模型的識別效果低於預期時,根據所述預制規則獲取新的異常資料。
第三態樣,本說明書實施例提供了一種電腦設備,包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,其中,所述處理器執行所述程式時實現前述第一態樣的方法步驟。
第四態樣,提供了一種電腦可讀儲存媒體,該電腦可讀儲存媒體上儲存有電腦程式,該電腦程式被處理器執行時實現上述第一態樣所述的方法。
第五態樣,提供了一種包含指令的電腦程式產品,當所述指令在電腦上運行時,使得電腦執行上述第一態樣所述的方法。
藉由本說明書實施例,可以獲取異常資料,並對異常資料進行延伸,以此得到更多的異常樣本,結合正常樣本得到正樣本和負樣本都比較充足的訓練集合,從而提高根據該訓練集合訓練的異常檢測模型進行檢測的故障識別的準確性。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,並不能限制本發明本說明書實施例。
此外,本發明本說明書實施例中的任一實施例並不需要達到上述的全部效果。
這裡將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述關於附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的元件。以下示例性實施例中所描述的實施方式並不代表與本說明書相一致的所有實施方式。相反,它們僅是與如所附申請專利範圍中所詳述的、本說明書的一些態樣相一致的裝置和方法的例子。
在本說明書使用的術語是僅僅出於描述特定實施例的目的,而非意於限制本說明書。在本說明書和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也意於包括多數形式,除非上下文清楚地表示其他含義。還應當理解,本文中使用的術語“和/或”是指並包含一個或多個相關聯的列出專案的任何或所有可能組合。取決於語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“回應於確定”。
資料處理系統需要應對規模越來越大的資料量,尤其是對於支援多業務的資料處理系統。資料處理系統通常需要藉由一定規模的伺服器協作來實現大規模的資料處理,對於支援多業務的系統,一般還會分平臺來為不同的業務提供支援,每個平臺可以包括一個或多個伺服器。
以資料處理系統為螞蟻金服業務資料處理系統為例進行說明。螞蟻金服業務主要關於便民生活、財富管理、資金往來以及購物娛樂等數百種業務,支援這些業務系統平臺數量就達數百。由於平臺的龐大數量使得代碼、資料庫和配置等的變更會非常頻繁,每週發生的變更可能會成千上萬次甚至更多。但是,螞蟻金服業務處理系統在運行過程中,實際出現故障的次數並不頻繁,甚至僅僅部分平臺出現過故障,這就導致螞蟻金服在運行過程中取樣的歷史資料中,異常資料的覆蓋面不夠,使得使用歷史資料作為依據進行異常檢測時,檢測效果不理想。另外,由於歷史異常資料的匱乏,識別出的異常資料很難與歷史異常資料中對應上,這樣就很難藉由歷史資料來分析的出現異常資料的根因,需要經驗豐富的技術人員來判斷,成本高且效率低。
針對以上問題,本說明書實施例提供一種異常檢測方法及裝置,下面首先對本說明書實施例方案的運行系統架構進行說明。參見圖1所示,本說明書實施例方案關於的實體包括:資料處理系統100以及電腦設備200,資料處理系統100中可以包括業務伺服器以及終端等等。該電腦設備200可以獨立於資料處理系統100,也可以藉由資料處理系統100中的設備實現其功能,例如,電腦設備200的功能可以由業務網路100中的業務伺服器實現。
在本說明書實施例中,藉由電腦設備200訓練異常檢測模型,並藉由訓練的異常檢測模型對資料處理系統100的待檢測資料進行異常檢測。
結合圖2所示,在一個示例中,電腦設備200藉由獲取異常資料並對異常資料進行延伸,以更新訓練集合中的異常樣本,在根據更新後的訓練集合對異常檢測模型進行訓練時,若訓練得到的異常檢測模型的識別效果未達到預期,則繼續獲取異常資料,並對異常資料進行延伸,以更新訓練集合中的異常樣本,直至根據更新後的訓練集合訓練得到的異常檢測模型的識別效果達到預期,則訓練結束,進而,使用經過訓練最終得到的異常檢測模型對資料處理系統的待檢測資料進行異常檢測。其中,每次更新訓練集合時,訓練集合中的異常樣本都會增加,以此可以獲取足夠多的異常樣本來作為異常檢測的依據。
在另一示例中,結合圖3所示,電腦設備200在每次更新訓練集合時,可以量化獲取以及延伸的異常資料,以實現訓練集合每次更新後,異常樣本增加指定數量或百分百。例如,可以藉由異常樣本的參數覆蓋率來控制每次訓練集合更新的異常樣本。
基於此,在本說明書實施例中,首先,藉由獲取異常資料並對異常資料進行延伸,以更新訓練集合中的異常樣本,接著,確定更新後的訓練集合中異常樣本的參數覆蓋率是否達到預期。
如果未達到,則繼續對異常樣本進行延伸。
若達到,則根據更新後的訓練集合對異常檢測模型進行訓練。若訓練得到的異常檢測模型的識別效果未達到預期,則繼續獲取異常資料,並對異常資料進行延伸,以更新訓練集合中的異常樣本,並確保更新後的訓練集合中的異常樣本的參數覆蓋率達到預期,直至根據更新後的訓練集合訓練得到的異常檢測模型的識別效果達到預期,則訓練結束。
在另一示例中,結合圖4所示,電腦設備200在每次更新訓練集合時,還可以結合識別效果來獲取異常樣本或者對異常樣本進行延伸。在一個示例中,可以根據識別效果來調整延伸異常樣本的方式,例如,訓練後的異常檢測模型對於某一業務對應的異常樣本識別效果較差時,在後續延伸異常樣本時,可以重點增加該業務對應的異常樣本的資料量或參數覆蓋率。
在本說明書實施例中,異常樣本的生成過程(包括異常資料的獲取以及延伸)可以認為是進攻閉環,而根據更新後的訓練集合訓練異常檢測模型可以認為是防守閉環。藉由進攻閉環可以獲得足夠多的異常樣本,藉由防守閉環可以有效訓練異常檢測模型,藉由攻防對抗可以有效的提高異常檢測模型的識別效果。進一步地,藉由異常樣本的參數覆蓋率或者資料量可以量化進攻,使得訓練異常檢測模型更容易迭代。
下面結合附圖對本發明的實施例進行進一步地介紹。
圖5為本說明書實施例提供的異常檢測方法的流程示意圖。該方法適用於電腦設備,如圖5所示,該方法具包括步驟510-560:
步驟510,獲取系統正常運行時的取樣資料,將取樣資料作為訓練集合中的正常樣本。
本說明書所提供的方案,可以在資料處理系統正常運行時週期性進行取樣,獲取資料處理系統正常運行時的取樣資料,例如,可以每分鐘對資料處理系統正常運行的資料進行取樣。接著,將獲取到的資料處理系統正常運行時的取樣資料標記為一類,作為訓練樣本中的正常樣本。例如,資料處理系統正常運行時的取樣資料類標為“0”,該類標“0”用於指示其標記的資料為正常樣本。
其中,在系統呼叫鏈路、參數、系統變更這個層級進行檢測得到系統正常運行時的多種明細資料,根據該明細資料進行異常檢測靈活性高,識別效果的理論上限高。這裡資料處理系統正常運行的資料包括呼叫資料、指標資料、變更資料以及運維資料中的一種或多種。
具體地,呼叫資料可以包括呼叫鏈路、介面名、入參、出參以及呼叫耗時等中的一項或多項。其中,呼叫鏈路可以為一個有向無環圖,點是呼叫介面、邊是呼叫關係。其中,該呼叫資料可以是針對呼叫請求來說的,例如,螞蟻金服資料處理系統中,終端呼叫支付服務的請求。
指標資料可以為資料處理系統的關鍵指標,例如,可以是以時間序列的形式按分鐘彙集的各個業務的系統呼叫量。
變更資料可以為代碼發佈以及資料處理系統組態修改等操作觸發變更的資訊。
運維資料可以包括硬體資料。例如,CPU佔用、網路延時以及記憶體佔用等等。
步驟520,根據預制規則獲取異常資料。
其中,預制規則可以根據實際需求確定,例如,預制規則可以為依次生成對資料處理系統中各個業務的故障請求,以使得得到的異常樣本對應資料處理系統中的各個業務,異常樣本的覆蓋率高。
在本說明書實施例提供的方案中,可以根據預制規則生成故障請求,獲取故障請求的上下文資料,將該故障請求的上下文資料作為異常樣本增加在訓練集合中。
其中,該故障請求的上下文資料可以為採集的資料處理系統在接收到故障請求後的運行資料。該上下文資料可以包括呼叫資料、指標資料、變更資料以及運維資料中的一種或多種。
循環執行步驟530-560,直至異常檢測模型的識別效果達到預期:
步驟530,對異常資料進行延伸,將異常資料和延伸的異常資料作為異常樣本增加在訓練集合中。
在一個示例中,可以藉由規則的延伸,以實現異常資料的延伸。基於此,首先可以將根據預制規則生成的異常檢測資料增減在訓練集合中,接著對預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取延伸的故障請求的上下文資料,將延伸的故障請求的上下文資料作為異常樣本增加在訓練集合中。
在另一個示例中,首先可以將根據預制規則生成的異常檢測資料增減在訓練集合中,接著循環執行如下步驟,直至訓練集合中的異常樣本的參數覆蓋率達到預期:對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取延伸的故障請求的上下文資料,將延伸的故障請求的上下文資料作為異常樣本增加在所述訓練集合中;判斷訓練集合中的異常樣本的參數覆蓋了是否達到預期,當訓練集合中的異常樣本的參數覆蓋率未達到預期時,將延伸後的預制規作為新的預制規則。例如,判斷訓練集合中的異常樣本的參數覆蓋了是否達到預期可藉由判斷訓練集合中的異常樣本是否遍佈各個業務,以及各個業務對應的異常樣本的數量是否達到臨限值來實現。
其中,當根據異常樣本的參數覆蓋率達到預期的訓練集合訓練異常檢測演算法時,該異常檢測演算法的識別效果未達到預期,此時可以提高異常樣本的參數覆蓋率的預期值。
對預制規則的延伸,可以結合業務規則,或採用取巧的方式進行延伸。例如,可以藉由以下一種或多種方式延伸:
根據資料處理系統運行過程中的歷史故障進行延伸;
根據故障請求同類型的歷史故障進行延伸;
根據用例庫可能出現的故障進行延伸;
智慧故障延伸,例如,可以將根據故障請求採集的上下文作為種子樣本,採用遺傳演算法來進行故障延伸。
另外,可以將故障請求的上下文資料標記為一類,作為訓練樣本中的異常樣本。例如,故障請求的上下文資料類標為“1”,該類標“1”用於指示其標記的資料為異常樣本。
步驟540,根據增加異常資料後的訓練集合對異常檢測模型進行訓練,並確定異常檢測模型的識別效果。
本說明書所提供的方案,首先,可以對訓練集合中的樣本進行特徵預處理。這裡可以採用多種特徵預處理方式,以得到參數表達、結構表達、指標匯聚以及變更表達中的一種或多種表達形式的特徵。每種特徵表達形式的特徵,可以對應一個或多個異常檢測模型,每種特徵表達形式的特徵對應的異常檢測模型不同。
接著,分別根據每種特徵表達形式的特徵訓練其對應的異常檢測模型。例如,根據指標匯聚特徵訓練時間序列異常檢測模型;根據結構表達的特徵可以訓練基於圖的異常檢測演算法;根據參數表達或變更表達的特徵,可以訓練基於臨近點的、線性的、基於子空間的和基於監督學習等的異常檢測模型。
其中,在訓練異常檢測模型時,可以確定異常檢測模型的識別效果,在識別效果恆定之後,該恆定的識別效果即為訓練後的異常檢測模型的識別效果。
另外,識別效果可以藉由識別準確率、識別覆蓋率以及KS值等中的一項或多項表示。
步驟550,判斷異常檢測模型的識別效果是否達到預期。
該預期可以為識別準確率、識別覆蓋率以及KS值等中的一項或多項對應的臨限值,例如,該預期可以為識別準確率不低於99.5%。
步驟560,當異常檢測模型的識別效果低於預期時,根據預制規則獲取新的異常資料。
在步驟560中的預制規則可以為延伸後的預制規則,也可以是初始預制規則,該初始預制規則可以是指未發生延伸的預制規則。
另外,在每次更新訓練集合時,還可以結合識別效果來獲取異常樣本或者對異常樣本進行延伸。在一個示例中,可以根據識別效果來調整延伸預制規則的方式,例如,訓練後的異常檢測模型對於某一業務對應的異常樣本識別效果較差時,延伸的預制規則可以重點增加針對該業務的故障請求的生成,以獲取該業務對應的更豐富的異常樣本,從而增加訓練得到的異常檢測模型在識別該業務對應的待檢測資料時的能力。
步驟570,當異常檢測模型的識別效果達到預期時,使用識別效果達到預期的異常檢測模型對待檢測資料進行異常檢測。
在本說明書實施例中,可以在資料處理系統接收到業務處理請求時,觸發根據識別效果達到預期的異常檢測模型進行異常檢測。在觸發異常檢測後,可以即時或週期性的採集業務處理請求產生的待檢測資料。該待檢測資料包括呼叫資料、指標資料、變更資料以及運維資料中的一種或多種。
在利用異常檢測模型檢測待檢測資料時,可以首先對待檢測資料進行特徵預處理,這裡可以採用多種特徵預處理方式,以得到參數表達、結構表達、指標匯聚以及變更表達中的一種或多種表達形式的特徵。
使用每種表達形式的特徵對應的異常檢測模型識別該特徵是否異常。當同一種表達形式的特徵對應多個異常檢測模型時,若該多個異常檢測模型得到的檢測結果不一致,可以藉由投票的方式確定該特徵是否異常。
藉由本說明書實施例,可以獲取異常資料,並對異常資料進行延伸,以此得到更多的異常樣本,結合正常樣本得到正樣本和負樣本都比較充足的訓練集合,從而提高根據該訓練集合訓練的異常檢測模型進行檢測的故障識別的準確性。
藉由對抗式構建攻防閉環,量化攻擊和防禦效果,使得迭代良性循環,解決了異常檢測迭代困難的問題。
藉由資料精細化識別與定位,提升了識別效果的空間,同時也給確定故障根因提供了基礎,更快説明系統定位到問題。可以在系統呼叫鏈路、參數、系統變更這個層級進行檢測,故障注入時採集的上下文切片可以保存精細化資料,可以較完整的還原系統故障時的情況,識別時融合多種明細資料來源,靈活性高、識別效果好,同時在定位故障時,結合精細化資料。
相應於上述方法實施例,本說明書實施例還提供一種異常檢測裝置,參見圖6所示,該裝置可以包括:
第一獲取單元601,用於獲取系統正常運行時的取樣資料,將所述取樣資料作為訓練集合中的正常樣本;
第二獲取單元602,用於根據預制規則獲取異常資料。
循環單元603,用於循環執行下述延伸單元、訓練單元以及所述第二獲取單元執行的步驟,直至異常檢測模型的識別效果達到預期,以便使用識別效果達到預期的異常檢測模型對待檢測資料進行異常檢測;
所述延伸單元604,用於對所述異常資料進行延伸,將所述異常資料和延伸的異常資料作為異常樣本增加在所述訓練集合中;
所述訓練單元605,用於根據增加異常資料後的訓練集合對所述異常檢測模型進行訓練,並確定所述異常檢測模型的識別效果;
第二獲取單元602還用於,當所述異常檢測模型的識別效果低於預期時,根據所述預制規則獲取新的異常資料。
在一個示例中,所述訓練集合中的樣本包括呼叫資料、指標資料、變更資料以及運維資料中的一種或多種。
在另一個示例中,訓練單元605具體用於,
將所述訓練集合中的樣本進行特徵預處理,得到參數表達、結構表達、指標匯聚以及變更表達中的一種或多種表達形式的特徵,其中,每種表達形式對應一個或多個異常檢測模型;
分別根據每種表達形式的特徵訓練對應的異常檢測模型。
在另一個示例中,第二獲取單元602具體用於,根據預制規則生成故障請求,獲取所述故障請求的上下文資料。
在另一個示例中,延伸單元604具體用於,對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料,將所述故障請求的上下文資料和所述延伸的故障請求的上下文資料作為異常樣本增加在所述訓練集合中。
在另一個示例中,延伸單元604具體用於:
循環執行如下步驟,直至訓練集合中的異常樣本的參數覆蓋率達到預期:
對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料,將所述故障請求的上下文資料和所述延伸的故障請求的上下文資料作為異常樣本增加在所述訓練集合中;
當訓練集合中的異常樣本的參數覆蓋率未達到預期時,將延伸後的預制規作為新的預制規則。
述裝置中各個模組的功能和作用的實現過程具體詳見上述方法中對應步驟的實現過程,在此不再贅述。
本說明書實施例還提供一種電腦設備,其至少包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,該電腦設備可以實現為異常檢測伺服器的形式。其中,處理器執行所述程式時實現前述的異常檢測方法。該方法至少包括:
獲取系統正常運行時的取樣資料,將所述取樣資料作為訓練集合中的正常樣本;
根據預制規則獲取異常資料,循環執行如下步驟,直至異常檢測模型的識別效果達到預期,以便使用識別效果達到預期的異常檢測模型對待檢測資料進行異常檢測:
對所述異常資料進行延伸,將所述異常資料和延伸的異常資料作為異常樣本增加在所述訓練集合中;
根據增加異常資料後的訓練集合對所述異常檢測模型進行訓練,並確定所述異常檢測模型的識別效果;
當所述異常檢測模型的識別效果低於預期時,根據所述預制規則獲取新的異常資料。
在一個示例中,所述訓練集合中的樣本包括呼叫資料、指標資料、變更資料以及運維資料中的一種或多種。
在另一個示例中,所述根據所述訓練集合對所述異常檢測模型進行訓練包括:
將所述訓練集合中的樣本進行特徵預處理,得到參數表達、結構表達、指標匯聚以及變更表達中的一種或多種表達形式的特徵,其中,每種表達形式對應一個或多個異常檢測模型;
分別根據每種表達形式的特徵訓練對應的異常檢測模型。
在另一個示例中,所述根據預制規則獲取異常資料包括:
根據預制規則生成故障請求,獲取所述故障請求的上下文資料。
在另一個示例中,對所述異常資料進行延伸,將所述異常資料和延伸的異常資料作為異常樣本增加在所述訓練集合中包括:
對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料,將所述故障請求的上下文資料和所述延伸的故障請求的上下文資料作為異常樣本增加在所述訓練集合中。
在另一個示例中,所述對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料包括:
循環執行如下步驟,直至訓練集合中的異常樣本的參數覆蓋率達到預期:
對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料,將所述故障請求的上下文資料和所述延伸的故障請求的上下文資料作為異常樣本增加在所述訓練集合中;
當訓練集合中的異常樣本的參數覆蓋率未達到預期時,將延伸後的預制規作為新的預制規則。
圖7顯示了本說明書實施例所提供的一種更為具體的電腦設備結構示意圖,該電腦設備可以包括:處理器710、記憶體720、輸入/輸出介面730、通訊介面740和匯流排750。其中處理器77、記憶體720、輸入/輸出介面730和通訊介面740藉由匯流排750實現彼此之間在設備內部的通訊連接。
處理器710可以採用通用的CPU(Central Processing Unit,中央處理器)、微處理器、特殊應用積體電路(Application Specific Integrated Circuit,ASIC)、或者一個或多個積體電路等方式實現,用於執行相關程式,以實現本說明書實施例所提供的技術方案。
記憶體720可以採用ROM(Read Only Memory,唯讀記憶體)、RAM(Random Access Memory,隨機存取記憶體)、靜態存放裝置,動態儲存裝置設備等形式實現。記憶體720可以儲存作業系統和其他應用程式,在藉由軟體或者韌體來實現本說明書實施例所提供的技術方案時,相關的程式碼保存在記憶體720中,並由處理器710來呼叫執行。
輸入/輸出介面730用於連接輸入/輸出模組,以實現資訊輸入及輸出。輸入輸出/模組可以作為元件配置在設備中(圖中未顯示),也可以外接於設備以提供相應功能。其中輸入裝置可以包括鍵盤、滑鼠、觸控式螢幕、麥克風、各類感測器等,輸出設備可以包括顯示器、揚聲器、振動器、指示燈等。
通訊介面740用於連接通訊模組(圖中未顯示),以實現本設備與其他設備的通訊互動。其中通訊模組可以藉由有線方式(例如USB、網線等)實現通訊,也可以藉由無線方式(例如行動網路、WIFI、藍牙等)實現通訊。
匯流排750包括一通路,在設備的各個元件(例如處理器710、記憶體720、輸入/輸出介面730和通訊介面740)之間傳輸資訊。
需要說明的是,儘管上述設備僅顯示了處理器710、記憶體720、輸入/輸出介面730、通訊介面740以及匯流排750,但是在具體實施過程中,該設備還可以包括實現正常運行所必需的其他元件。此外,本領域的技術人員可以理解的是,上述設備中也可以僅包含實現本說明書實施例方案所必需的組件,而不必包含圖中所示的全部元件。
本說明書實施例還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現前述的異常檢測方法。該方法至少包括:
獲取系統正常運行時的取樣資料,將所述取樣資料作為訓練集合中的正常樣本;
根據預制規則獲取異常資料,循環執行如下步驟,直至異常檢測模型的識別效果達到預期,以便使用識別效果達到預期的異常檢測模型對待檢測資料進行異常檢測:
對所述異常資料進行延伸,將所述異常資料和延伸的異常資料作為異常樣本增加在所述訓練集合中;
根據增加異常資料後的訓練集合對所述異常檢測模型進行訓練,並確定所述異常檢測模型的識別效果;
當所述異常檢測模型的識別效果低於預期時,根據所述預制規則獲取新的異常資料。
在一個示例中,所述訓練集合中的樣本包括呼叫資料、指標資料、變更資料以及運維資料中的一種或多種。
在另一個示例中,所述根據所述訓練集合對所述異常檢測模型進行訓練包括:
將所述訓練集合中的樣本進行特徵預處理,得到參數表達、結構表達、指標匯聚以及變更表達中的一種或多種表達形式的特徵,其中,每種表達形式對應一個或多個異常檢測模型;
分別根據每種表達形式的特徵訓練對應的異常檢測模型。
在另一個示例中,所述根據預制規則獲取異常資料包括:
根據預制規則生成故障請求,獲取所述故障請求的上下文資料。
在另一個示例中,對所述異常資料進行延伸,將所述異常資料和延伸的異常資料作為異常樣本增加在所述訓練集合中包括:
對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料,將所述故障請求的上下文資料和所述延伸的故障請求的上下文資料作為異常樣本增加在所述訓練集合中。
在另一個示例中,所述對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料包括:
循環執行如下步驟,直至訓練集合中的異常樣本的參數覆蓋率達到預期:
對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料,將所述故障請求的上下文資料和所述延伸的故障請求的上下文資料作為異常樣本增加在所述訓練集合中;
當訓練集合中的異常樣本的參數覆蓋率未達到預期時,將延伸後的預制規作為新的預制規則。
電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,電腦可讀媒體不包括暫態電腦可讀媒體(transitory media),如調變的資料訊號和載波。
藉由以上的實施方式的描述可知,本領域的技術人員可以清楚地瞭解到本說明書實施例可借助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解,本說明書實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品可以儲存在儲存媒體中,如ROM/RAM、磁碟、光碟等,包括若干指令用以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)執行本說明書實施例各個實施例或者實施例的某些部分所述的方法。
上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦,電腦的具體形式可以是個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件收發設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任意幾種設備的組合。
本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於裝置實施例而言,由於其基本相似於方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的模組可以是或者也可以不是實體上分開的,在實施本說明書實施例方案時可以把各模組的功能在同一個或多個軟體和/或硬體中實現。也可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。本領域普通技術人員在不付出進步性勞動的情況下,即可以理解並實施。
以上所述僅是本說明書實施例的具體實施方式,應當指出,對於本技術領域的普通技術人員來說,在不脫離本說明書實施例原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本說明書實施例的保護範圍。
100‧‧‧資料處理系統
200‧‧‧電腦設備
510-570‧‧‧步驟
601‧‧‧第一獲取單元
602‧‧‧第二獲取單元
603‧‧‧循環單元
604‧‧‧延伸單元
605‧‧‧訓練單元
710‧‧‧處理器
720‧‧‧記憶體
730‧‧‧輸入/輸出介面
740‧‧‧通訊介面
750‧‧‧匯流排
為了更清楚地說明本說明書實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本說明書實施例中記載的一些實施例,對於本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
圖1是本說明書實施例顯示的一種應用場景示意圖;
圖2是本說明書實施例顯示的一種異常檢測方法的示意圖;
圖3是本說明書實施例顯示的另一種異常檢測方法的示意圖;
圖4是本說明書實施例顯示的另一種異常檢測方法的示意圖;
圖5是本說明書實施例顯示的一種異常檢測方法的流程示意圖;
圖6是本說明書實施例顯示的一種異常檢測裝置的結構示意圖;
圖7是本說明書實施例顯示的一種電腦設備的結構示意圖。

Claims (13)

  1. 一種異常檢測方法,所述方法包括: 獲取系統正常運行時的取樣資料,將所述取樣資料作為訓練集合中的正常樣本; 根據預制規則獲取異常資料,循環執行如下步驟,直至異常檢測模型的識別效果達到預期,以便使用識別效果達到預期的異常檢測模型對待檢測資料進行異常檢測: 對所述異常資料進行延伸,將所述異常資料和延伸的異常資料作為異常樣本增加在所述訓練集合中; 根據增加異常資料後的訓練集合對所述異常檢測模型進行訓練,並確定所述異常檢測模型的識別效果; 當所述異常檢測模型的識別效果低於預期時,根據所述預制規則獲取新的異常資料。
  2. 根據申請專利範圍第1項所述的方法,其中,所述訓練集合中的樣本包括呼叫資料、指標資料、變更資料以及運維資料中的一種或多種。
  3. 根據申請專利範圍第2項所述的方法,其中,所述根據所述訓練集合對所述異常檢測模型進行訓練包括: 將所述訓練集合中的樣本進行特徵預處理,得到參數表達、結構表達、指標匯聚以及變更表達中的一種或多種表達形式的特徵,其中,每種表達形式對應一個或多個異常檢測模型; 分別根據每種表達形式的特徵訓練對應的異常檢測模型。
  4. 根據申請專利範圍第1項所述的方法,其中,所述根據預制規則獲取異常資料包括: 根據預制規則生成故障請求,獲取所述故障請求的上下文資料。
  5. 根據申請專利範圍第4項所述的方法,其中,對所述異常資料進行延伸,將所述異常資料和延伸的異常資料作為異常樣本增加在所述訓練集合中包括: 對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料,將所述故障請求的上下文資料和所述延伸的故障請求的上下文資料作為異常樣本增加在所述訓練集合中。
  6. 根據申請專利範圍第5項所述的方法,其中,所述對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料包括: 循環執行如下步驟,直至訓練集合中的異常樣本的參數覆蓋率達到預期: 對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料,將所述故障請求的上下文資料和所述延伸的故障請求的上下文資料作為異常樣本增加在所述訓練集合中; 當訓練集合中的異常樣本的參數覆蓋率未達到預期時,將延伸後的預制規則作為新的預制規則。
  7. 一種異常檢測裝置,所述裝置包括: 第一獲取單元,用於獲取系統正常運行時的取樣資料,將所述取樣資料作為訓練集合中的正常樣本; 第二獲取單元,用於根據預制規則獲取異常資料; 循環單元,用於循環執行下述延伸單元、訓練單元以及所述第二獲取單元執行的步驟,直至異常檢測模型的識別效果達到預期,以便使用識別效果達到預期的異常檢測模型對待檢測資料進行異常檢測; 所述延伸單元,用於對所述異常資料進行延伸,將所述異常資料和延伸的異常資料作為異常樣本增加在所述訓練集合中; 所述訓練單元,用於根據增加異常資料後的訓練集合對所述異常檢測模型進行訓練,並確定所述異常檢測模型的識別效果; 所述第二獲取單元還用於,當所述異常檢測模型的識別效果低於預期時,根據所述預制規則獲取新的異常資料。
  8. 根據申請專利範圍第7項所述的裝置,其中,所述訓練集合中的樣本包括呼叫資料、指標資料、變更資料以及運維資料中的一種或多種。
  9. 根據申請專利範圍第8項所述的裝置,其中,所述訓練單元具體用於, 將所述訓練集合中的樣本進行特徵預處理,得到參數表達、結構表達、指標匯聚以及變更表達中的一種或多種表達形式的特徵,其中,每種表達形式對應一個或多個異常檢測模型; 分別根據每種表達形式的特徵訓練對應的異常檢測模型。
  10. 根據申請專利範圍第7項所述的裝置,其中,所述第二獲取單元具體用於,根據預制規則生成故障請求,獲取所述故障請求的上下文資料。
  11. 根據申請專利範圍第10項所述的裝置,其中,所述延伸單元具體用於,對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料,將所述故障請求的上下文資料和所述延伸的故障請求的上下文資料作為異常樣本增加在所述訓練集合中。
  12. 根據申請專利範圍第11項所述的裝置,其中,所述延伸單元具體用於: 循環執行如下步驟,直至訓練集合中的異常樣本的參數覆蓋率達到預期: 對所述預制規則進行延伸,根據延伸後的預制規則生成延伸的故障請求,獲取所述延伸的故障請求的上下文資料,將所述故障請求的上下文資料和所述延伸的故障請求的上下文資料作為異常樣本增加在所述訓練集合中; 當訓練集合中的異常樣本的參數覆蓋率未達到預期時,將延伸後的預制規作為新的預制規則。
  13. 一種電腦設備,包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現以下步驟: 獲取系統正常運行時的取樣資料,將所述取樣資料作為訓練集合中的正常樣本; 根據預制規則獲取異常資料,循環執行如下步驟,直至異常檢測模型的識別效果達到預期,以便使用識別效果達到預期的異常檢測模型對待檢測資料進行異常檢測: 對所述異常資料進行延伸,將所述異常資料和延伸的異常資料作為異常樣本增加在所述訓練集合中; 根據增加異常資料後的訓練集合對所述異常檢測模型進行訓練,並確定所述異常檢測模型的識別效果; 當所述異常檢測模型的識別效果低於預期時,根據所述預制規則獲取新的異常資料。
TW108100362A 2018-03-19 2019-01-04 異常檢測方法及裝置 TW201941058A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810223680.1A CN108563548B (zh) 2018-03-19 2018-03-19 异常检测方法及装置
??201810223680.1 2018-03-19

Publications (1)

Publication Number Publication Date
TW201941058A true TW201941058A (zh) 2019-10-16

Family

ID=63532649

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108100362A TW201941058A (zh) 2018-03-19 2019-01-04 異常檢測方法及裝置

Country Status (3)

Country Link
CN (1) CN108563548B (zh)
TW (1) TW201941058A (zh)
WO (1) WO2019179248A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563548B (zh) * 2018-03-19 2020-10-16 创新先进技术有限公司 异常检测方法及装置
CN109614299B (zh) * 2018-09-25 2022-05-31 创新先进技术有限公司 一种系统异常检测方法、装置及电子设备
CN110991779A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 抽油机井的异常检测方法及装置
CN109885417B (zh) * 2018-12-28 2022-08-02 广州卓动信息科技有限公司 异常分析方法及电子设备、可读存储介质
CN109905362B (zh) * 2019-01-08 2022-05-13 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质
CN109936561B (zh) * 2019-01-08 2022-05-13 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质
CN109886290A (zh) * 2019-01-08 2019-06-14 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质
CN110113226B (zh) * 2019-04-16 2021-03-12 新华三信息安全技术有限公司 一种检测设备异常的方法及装置
CN111918280B (zh) * 2019-05-07 2022-07-22 华为技术有限公司 一种终端信息的处理方法、装置及系统
CN110399268B (zh) * 2019-07-26 2023-09-26 创新先进技术有限公司 一种异常数据检测的方法、装置及设备
CN111024708B (zh) * 2019-09-06 2022-02-22 腾讯科技(深圳)有限公司 产品缺陷检测数据处理方法、装置、系统和设备
CN112540842A (zh) * 2019-09-20 2021-03-23 北京国双科技有限公司 动态调整系统资源的方法及装置
CN112818066A (zh) * 2019-11-15 2021-05-18 深信服科技股份有限公司 一种时序数据异常检测方法、装置及电子设备和存储介质
CN111625516B (zh) * 2020-01-10 2024-04-05 京东科技控股股份有限公司 检测数据状态的方法、装置、计算机设备和存储介质
WO2021258348A1 (zh) * 2020-06-24 2021-12-30 深圳市欢太科技有限公司 异常流量检测方法和系统、及计算机存储介质
CN111813593B (zh) * 2020-07-23 2023-08-18 平安银行股份有限公司 一种数据处理方法、设备、服务器及存储介质
CN111832666B (zh) * 2020-09-15 2020-12-25 平安国际智慧城市科技股份有限公司 医疗影像数据扩增方法、装置、介质及电子设备
CN114386874B (zh) * 2022-01-21 2022-11-29 北京国讯医疗软件有限公司 一种基于多模块联动的医德医风综合管理方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339389B (zh) * 2011-09-14 2013-05-29 清华大学 一种基于密度的参数优化单分类支持向量机故障检测方法
CN103942453A (zh) * 2014-05-07 2014-07-23 华北电力大学 一种针对非技术性损失的智能用电异常检测方法
US9916194B2 (en) * 2015-10-01 2018-03-13 International Business Machines Corporation System component failure diagnosis
CN106886915B (zh) * 2017-01-17 2020-07-28 华南理工大学 一种基于时间衰减采样的广告点击预估方法
CN107291911B (zh) * 2017-06-26 2020-01-21 北京奇艺世纪科技有限公司 一种异常检测方法和装置
CN108563548B (zh) * 2018-03-19 2020-10-16 创新先进技术有限公司 异常检测方法及装置

Also Published As

Publication number Publication date
CN108563548B (zh) 2020-10-16
CN108563548A (zh) 2018-09-21
WO2019179248A1 (zh) 2019-09-26

Similar Documents

Publication Publication Date Title
TW201941058A (zh) 異常檢測方法及裝置
KR102146173B1 (ko) 서비스 호출 정보 처리 방법 및 디바이스
US9785535B2 (en) Multi-data analysis based proactive defect detection and resolution
CN108734304B (zh) 一种数据模型的训练方法、装置、及计算机设备
CN108491321B (zh) 测试用例范围确定方法、装置及存储介质
CN107124289B (zh) 网络日志时间对齐方法、装置及主机
US8631280B2 (en) Method of measuring and diagnosing misbehaviors of software components and resources
US11310140B2 (en) Mitigating failure in request handling
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
US10365905B1 (en) Systems and methods for evaluating application performance changes via comparative call graphs
CN111327466B (zh) 一种告警分析方法、系统、设备以及介质
Yu et al. TraceRank: Abnormal service localization with dis‐aggregated end‐to‐end tracing data in cloud native systems
CN110032505A (zh) 软件质量确定装置、软件质量确定方法和软件质量确定程序
JP2018060332A (ja) インシデント分析プログラム、インシデント分析方法、情報処理装置、サービス特定プログラム、サービス特定方法及びサービス特定装置
US10009246B1 (en) Monitoring service
CN110347572B (zh) 一种性能日志输出方法、装置、系统、设备及介质
CN113452533B (zh) 计费自巡检、自愈合方法、装置、计算机设备和存储介质
AU2018204545B2 (en) System and method for analysis of information technology production service support metrics
CN114676012A (zh) 一种服务链路监控方法、装置、电子设备及存储介质
CN110032488B (zh) 集群中特定节点的监控系统、方法、装置及业务服务器
US8510601B1 (en) Generating service call patterns for systems under test
US11758040B2 (en) Systems and methods for use in blocking of robocall and scam call phone numbers
CN110264211B (zh) 风控方法、系统、装置及设备
CN116820954A (zh) 前端风险测试方法及装置
CN117033203A (zh) 变更代码的关联影响的确定方法、装置和电子设备