TW201737084A - 異常監控方法及裝置 - Google Patents

異常監控方法及裝置 Download PDF

Info

Publication number
TW201737084A
TW201737084A TW106105604A TW106105604A TW201737084A TW 201737084 A TW201737084 A TW 201737084A TW 106105604 A TW106105604 A TW 106105604A TW 106105604 A TW106105604 A TW 106105604A TW 201737084 A TW201737084 A TW 201737084A
Authority
TW
Taiwan
Prior art keywords
task
abnormal
time
running
alarm
Prior art date
Application number
TW106105604A
Other languages
English (en)
Inventor
Lei Chen
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201737084A publication Critical patent/TW201737084A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本發明提供了異常監控方法及裝置。異常監控方法包括:根據任務調度系統中預先設定的基準任務,確定任務調度系統中的異常任務;根據預先設定的基準任務的基準完成時間,確定重新運行異常任務的最晚開始時間;根據重新運行異常任務的最晚開始時間和當前時間,對異常任務進行警報處理。本發明可以提高對異常任務警報的靈活性,降低出現警報不及時或非必要警報的機率,提高警報精度。

Description

異常監控方法及裝置
本發明涉及通信技術,尤其涉及一種異常監控方法及裝置。
在大數據時代,資料被越來越廣泛的分析和使用,但是由於資料量之大、收集過程複雜,難免會出現不穩定或錯誤的情況,特別是在分散式系統中,出錯重試更是難以避免。當出現問題時,如果能夠及時預警甚至提前預警,會極大的降低資料錯誤帶來的損失。
在任務調度系統中,為便於及時發現異常任務,一般採用任務監控方案。現有技術任務監控方案,基本上都是使用者配置繁雜的資訊,包括警報觸發條件、警報時間、警報物件、警報方式等,基於這些配置資訊,對任務運行過程進行監控,當發現符合警報觸發條件的任務時,在設定的警報時間,以設定的警報方式向設定的警報物件進行警報。在這種方式中,警報時間是預先配置好的,靈活性較差,容易引起警報不夠及時或者非必要的警報,導致警報精度較差。
本發明提供一種異常監控方法及裝置,用以提高對異常任務警報的靈活性,降低出現警報不及時或非必要警報的機率,提高警報精度。
為達到上述目的,本發明的實施例採用如下技術方案:第一方面,提供了一種異常監控方法,包括:根據任務調度系統中預先設定的基準任務,確定所述任務調度系統中的異常任務;根據預先設定的所述基準任務的基準完成時間,確定重新運行所述異常任務的最晚開始時間;根據重新運行所述異常任務的最晚開始時間和當前時間,對所述異常任務進行警報處理。
第二方面,提供了一種異常監控裝置,包括:異常任務確定模組,用於根據任務調度系統中預先設定的基準任務,確定所述任務調度系統中的異常任務;最晚時間確定模組,用於根據預先設定的所述基準任務的基準完成時間,確定重新運行所述異常任務的最晚開始時間;警報處理模組,用於根據重新運行所述異常任務的最晚開始時間和當前時間,對所述異常任務進行警報處理。
由上述技術方案可知,本發明預先設定任務調度系統中的基準任務及其基準完成時間,在任務調度過程中,根 據基準任務確定異常任務,進而根據基準任務的基準完成時間,確定重新運行異常任務的最晚開始時間,根據重新運行異常任務的最晚開始時間和當前時間,對異常任務進行警報處理,而不是像現有技術那樣必須在預先配置的警報時間到達時進行警報處理,靈活性較強,有利於降低出現警報不及時或非必要警報的機率,提高了警報精度。
上述說明僅是本發明技術方案的概述,為了能夠更清楚瞭解本發明的技術手段,而可依照說明書的內容予以實施,並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。
41‧‧‧異常任務確定模組
42‧‧‧最晚時間確定模組
43‧‧‧警報處理模組
411‧‧‧監控任務確定單元
412‧‧‧異常任務獲取單元
431‧‧‧第一警報處理單元
432‧‧‧第二警報處理單元
通過閱讀下文較佳實施方式的詳細描述,各種其他的優點和益處對於本領域普通技術人員將變得清楚明瞭。附圖僅用於示出較佳實施方式的目的,而並不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:圖1為本發明一實施例提供的異常監控方法的流程示意圖;圖2為本發明另一實施例提供的任務調度系統中任務依賴關係示意圖;圖3為本發明又一實施例提供的任務調度系統中任務依賴關係示意圖;圖4為本發明又一實施例提供的異常監控裝置的結構 示意圖;圖5為本發明又一實施例提供的異常監控裝置的結構示意圖。
下面將參照附圖更詳細地描述本發明的示例性實施例。雖然附圖中顯示了本發明的示例性實施例,然而應當理解,可以以各種形式實現本發明而不應被這裡闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本發明,並且能夠將本發明的範圍完整的傳達給本領域的技術人員。
任務調度系統是指按照事先設定好的方式和時間對一系列的指令或任務進行調度執行的系統。在現有任務調度系統中,為便於及時發現異常任務,一般採用任務監控方案。現有任務監控方案,基本上都是使用者配置繁雜的資訊,包括警報觸發條件、警報時間、警報物件、警報方式等,基於這些配置資訊,對任務運行過程進行監控,當發現符合警報觸發條件的任務時,在設定的警報時間,以設定的警報方式向設定的警報物件進行警報。在這種方式中,警報時間是預先配置好的,靈活性較差,容易引起警報不夠及時或者非必要的警報,導致警報精度較差。
針對上述技術問題,本發明提供一種解決方案,主要原理是:預先配置任務調度系統中的基準任務及其基準完成時間,根據基準任務確定異常任務,根據基準任務的基 準完成時間,確定重新運行異常任務的最晚開始時間,進而根據重新運行異常任務的最晚開始時間和當前時間,對異常任務進行警報處理,不再像現有技術那樣必須在預先配置的警報時間到達時進行警報處理,靈活性較強,有利於降低出現警報不及時或非必要警報的機率,提高了警報精度。
值得說明的是,本發明提供的技術方案適用於任務調度系統,並且較佳適用於資料倉庫開發過程中的離線任務調度系統,但不限於此。離線任務調度系統中調度的任務屬於離線任務,是相對線上或即時任務而言的,主要是指不需要立即應用到線上業務系統上,而是在經過一系列的非同步處理之後,再將獲得的資料回流到線上業務系統中的任務。
本發明以下實施例以離線任務調度系統為例進行說明,但對本領域技術人員來說,在本發明以下實施例給出的技術啟示的基礎上,很容易將本發明技術方案應用到線上任務調度系統中。
下面結合具體實施方式及附圖對本發明技術方案進行詳細說明。
圖1為本發明一實施例提供的異常監控方法的流程示意圖。如圖1所示,該方法包括:
101、根據任務調度系統中預先設定的基準任務,確定任務調度系統中的異常任務。
102、根據預先設定的基準任務的基準完成時間,確 定重新運行異常任務的最晚開始時間。
103、根據重新運行異常任務的最晚開始時間和當前時間,對異常任務進行警報處理。
本實施例提供一種異常監控方法,可由異常監控裝置來執行,用以更加靈活的對異常任務進行警報處理,降低出現警報不及時或非必要警報的機率,提高警報精度。
在任務調度系統中,任務之間有上下游依賴關係,下游任務需要等待上游任務執行完成之後方可執行。其中,任務調度系統中任務之間的依賴關係的一種示例如圖2所示。在圖2所示的任務調度系統中,包括任務A、任務B、任務C、任務D、任務E以及任務F。任務B和任務C依賴於任務A,任務A是任務B和任務C的上游任務,而任務B和任務C是任務A的下游任務;同理,任務F依賴於任務A和任務C,且任務A和任務C是任務F的上游任務,任務F是任務A和任務C的下游任務;任務D和任務E依賴任務A和任務B,任務A和任務B是任務D和任務E的上游任務,任務D和任務E是任務A和任務B的下游任務。
值得說明的是,在圖2所示的上下游任務關係中,包括直接上下游任務和間接上下游任務。例如,任務A是任務B和任務C的直接上游任務,而任務B和任務C是任務A的直接下游任務,而任務A是任務D、任務E和任務F的間接上游任務,任務D、任務E和任務F是任務A的間接下游任務。在本發明實施例中,並不細分直接上下 游任務和間接上下游任務。
由於在任務調度系統中任務之間存在上下游依賴關係,所以本實施例預先設定任務調度系統中的基準任務及其基準完成時間,將基準任務及其基準完成時間作為異常監控的基線,通過該基線完成異常任務監控及警報處理。
其中,基準任務的基準完成時間是指該基準任務的最晚完成時間,也就是說,需要保證基準任務必須在基準完成時間之前完成,否則會帶來嚴重的不利後果,例如可能導致整個任務調度系統報錯,或者影響依賴該任務調度系統的線上業務系統的正常運行等。
可選的,可以根據任務調度系統中各個任務的重要程度,確定基準任務,例如將最重程度滿足一定條件(例如最重要)的任務作為基準任務。或者,可以根據任務調度系統中各個任務之間的依賴關係,確定基準任務,例如將上游任務數量和下游任務數量均滿足一定條件(例如最多或大於指定數量)的任務作為基準任務。如果一個任務的上游任務數量和下游任務數量均較多,說明該任務比較核心,影響面較大,所以有必要保證該任務在最晚完成時間之前完成,因此將其設置為基準任務有利於保證更多工能夠按時運行。
相應的,在確定基準任務之後,可以根據基準任務的應用情況,確定基準任務的基準完成時間。例如,如果線上業務系統需要在每天早上9點調度該基準任務計算出的資料,則可以將基準任務的基準完成時間設置為9點,這 意味著該基準任務必須在每天9點之前完成。又例如,如果有關人員需要在每天早上10點查看由基準任務計算出的資料所產生的報表,那麼可以將該基準任務的基準完成時間設置為10點,這意味著該基準任務必須在10點之前完成。
在此說明,本實施例不限定基準任務的個數,可以是一個,也可以是多個。另外,在基準任務為多個的情況下,可以為不同基準任務設置不同的基準完成時間,也可以設置相同的基準完成時間。如圖2所示,位於方框中的任務D和任務E被設置為基準任務,這兩個基準任務均需要在早上6點之前完成,所以可以為這兩個基準任務設置相同的基準完成時間,例如6點。
在設定基準任務及其基準完成時間之後,可以根據基準任務與任務調度系統中其它任務之間的依賴關係,確定任務調度系統中的異常任務。
在一可選實施方式中,異常監控裝置可以根據基準任務與任務調度系統中其它任務之間的依賴關係,確定與該基準任務存在依賴關係的任務作為待監控任務;然後,對待監控任務的運行過程進行監控,從而獲取待監控任務中運行狀態異常的任務作為異常任務。
進一步,與基準任務存在依賴關係的任務包括其上游任務和其下游任務,但直接影響基準任務的開始時間及其完成時間的是基準任務的上游任務,而基準任務的下游任務對基準任務的影響相對較小,因此可以忽略其下游任 務。基於此,異常監控裝置可以確定任務調度系統中被該基準任務所依賴的任務作為待監控任務,然後,對待監控任務的運行過程進行監控,從而獲取待監控任務中運行狀態異常的任務作為異常任務。在該實施方式中,待監控任務的數量相對較少,有利於節約監控所消耗的各種資源,提高發現異常任務的效率。另外,在該實施方式中,只需預先設定基準任務,異常監控裝置可以根據任務之間的依賴關係反推出該基準任務的所有上游任務,進而自動監控該基準任務的所有上游任務,而不是像現有技術那樣需要針對所有的上游任務都配置一遍觸發條件、警報時間等,具有配置資訊較少而監控範圍較廣的優勢,尤其適用於任務數量較多的任務調度系統。
在上述獲取異常任務的過程中,異常任務是指運行狀態異常的待監控任務。運行狀態異常是相對於運行狀態正常而言的。
在一可選實施方式中,可以預先設定表示正常運行狀態的正常狀態條件。基於此,可以對待監控任務的運行過程進行監控,判斷待監控任務的運行狀態是否符合正常狀態條件;若判斷結果為符合,則確定該待監控任務的運行狀態正常;若判斷結果為不符合,則確定該待監控任務的運行狀態異常,將該待監控任務作為異常任務。或者,在另一可選實施方式中,可以預先設定表示異常運行狀態的異常狀態條件。基於此,可以對待監控任務的運行過程進行監控,判斷待監控任務的運行狀態是否符合異常 狀態條件;若判斷結果為不符合,則確定該待監控任務的運行狀態正常;若判斷結果為符合,則確定該待監控任務的運行狀態異常,將該待監控任務作為異常任務。
當然,在其他可選實施方式中,也可以同時設定表示正常運行狀態的正常狀態條件和表示異常運行狀態的異常狀態條件。
進一步可選的,上述異常狀態條件包括以下至少一個:運行出錯:表示運行出錯的任務屬於異常任務;運行速度變慢:表示運行速度變慢的任務屬於異常任務。
基於上述異常狀態條件,異常監控裝置可以通過以下至少一種操作,來獲取異常任務,具體如下:獲取待監控任務中運行出錯的任務作為異常任務;以及獲取待監控任務中運行速度變慢的任務作為異常任務。
進一步,可以通過任務的運行時長來確定任務的運行速度是否變慢。具體的,異常監控裝置可以獲取待監控任務中運行時長滿足指定時長條件的任務作為運行速度變慢的任務,即異常任務。
可選的,上述指定時長條件包括但不限於以下至少一個條件:大於預設時長臨界值:表示待監控任務的運行時長需 要大於預設時長臨界值時才有可能作為運行速度變慢的任務;比指定時間段內的平均運行時長多出指定比例:表示待監控任務的運行時長需要比指定時間段內的平均運行時長多出指定比例才有可能作為運行速度變慢的任務。
上述時長臨界值可以根據應用場景及任務屬性等適應性設置,例如可以是1小時、30分鐘或2小時等。相應的,上述指定時間段以及指定比例也可以根據應用場景及任務屬性等適應性設置,例如上述指定時間段可以是10天、15天或1個月等,上述指定比例可以是30%、20%或15%,甚至可以是一個比例範圍,例如15%-30%等。
經過上述操作,可以確定出任務調度系統中的異常任務。所述異常任務是指出現異常的任務,所以需要重新運行,另外,由於基準任務依賴於異常任務,且基準任務必須在基準完成時間之前完成,這決定了異常任務不能隨意重新運行,需要在某個最晚時間之前開始,以保證依賴於異常任務的基準任務能夠在基準完成時間之前完成。基於此,異常監控裝置可以根據預先設定的基準任務的基準完成時間,確定重新運行異常任務的最晚開始時間。
具體的,異常監控裝置可以根據基準任務與異常任務之間的依賴關係、基準任務的基準完成時間、基準任務的平均運行時長以及異常任務的平均運行時長進行反推,從而確定重新運行異常任務的最晚開始時間。
舉例說明,假設一種任務調度系統包括的任務及任務 之間的依賴關係如圖3所示,該任務調度系統包括任務A、任務B、任務C、任務D、任務E以及任務F。其中,任務B是任務A的直接下游任務,任務C、任務D和任務E分別是任務B的直接下游任務,任務F是任務E的直接下游任務。另外,在圖3所示的任務調度系統中,任務C和任務D被設置為一組基準任務,對應的基準完成時間是6:00,這意味著,任務C和任務D都需要在6:00之前完成;而任務E和任務F被設置為另一組基準任務,對應的基準完成時間是5:00,這意味著,任務E和任務F都需要在5:00前完成。
除上述資訊之外,還可以獲知各任務的平均執行時間,具體為:任務E的平均運行時長為0.5小時,任務F的平均運行時長為20分鐘,任務C的平均運行時長為1.5小時,任務D的平均運行時長為2小時,任務B的平均運行時長為2小時,任務A的平均運行時長為10分鐘。
假設監控到任務A為異常任務,則異常監控裝置可以根據上述已知資訊,從基準任務開始沿著依賴關係向上反推,首先確定異常任務A的下游任務,即任務B的最晚完成時間;然後,根據任務B的最晚完成時間,確定重新運行異常任務A的最晚開始時間。
具體的,對於任務E和任務F,若要任務E和任務F在基準完成時間之前完成,則任務E和任務F的最晚開始時間為:任務E和任務F的基準完成時間減去任務E和任務F的平均運行時長,即5:00-20分鐘-0.5小時=4:10 分,任務E和任務F的最晚開始時間也就是根據任務E和任務F計算出的任務B的最晚完成時間,為4:10分;對於任務C,若要任務C在基準完成時間之前完成,則任務C的最晚開始時間為:任務C的基準完成時間減去任務C的平均運行時長,即6:00-1.5小時=4:30分,任務C的最晚開始時間也就是根據任務C計算出的任務B的最晚完成時間,為4:30分;對於任務D,若要任務D在基準完成時間之前完成,則任務D的最晚開始時間為:任務D的基準完成時間減去任務D的平均運行時長,即6:00-2小時=4:00,任務D的最晚開始時間也就是根據任務D計算出的任務B的最晚完成時間,為4:00;由上述可以確定,任務B的最晚完成時間為4:00;接著,由於任務B需要在4:00之前完成,那麼意味著任務B的最晚開始時間應該為:任務B的最晚完成時間減去任務B的平均運行時長,即4:00-2小時=2:00,任務B的最晚開始時間也就是任務A的最晚完成時間;由於任務A需要在2:00之前完成,那麼意味著任務A的最晚開始時間應該為:任務A的最晚完成時間減去任務A的平均運行時長,即2:00-10分鐘=1:50。
當然,若知道當前時間,還可以計算出任務A的時間餘量,即任務A的最晚開始時間與當前時間的時間差。例如,若當前時間為1小時,則任務A的時間餘量為50分鐘。
當確定重新運行異常任務的最晚開始時間之後,異常監控裝置可以根據該最晚開始時間與當前時間,靈活的對異常任務進行警報處理。
例如,若最晚開始時間距離當前時間較近,則可以立即對異常任務進行警報處理,以便能夠及時對異常任務進行處理;若最晚開始時間距離當前時間較遠,則可以晚一點對異常任務進行警報處理,以便在合理時間進行警報,降低警報對使用者的打擾,減少非必要的警報。
對異常任務進行警報處理的關鍵是確定異常警報時間。其中,異常監控裝置主要依據重新運行異常任務的最晚開始時間和當前時間,確定異常警報時間,然後在異常警報時間到達時,對異常任務進行警報處理。
其中,重新運行異常任務的最晚開始時間和當前時間是影響異常警報時間的主要因素,當然還包括一些其它因素,例如需要及時警報的時間段以及異常任務的異常類型等。對於一些應用場景,可以預先指定需要及時警報的時間範圍,簡稱為指定時間範圍。指定時間範圍可以是工作時間,如9:00--20:00。
基於上述,異常監控裝置可以判斷當前時間是否處於指定時間範圍內,若判斷結果為是,即當前時間處於指定時間範圍內,則將當前時間作為異常警報時間,在異常警報時間到達時,對異常任務進行警報處理,也就是立即對異常任務進行警報處理;若判斷結果為否,即當前時間未處於指定時間範圍內,則可以根據異常任務的異常類型以 及重新運行異常任務的最晚開始時間,確定異常警報時間,在異常警報時間到達時,對異常任務進行警報處理。
可選的,以異常任務的異常類型包括運行出錯和運行速度變慢為例。
若異常任務的異常類型為運行出錯,則可以判斷重新運行異常任務的最晚開始時間是否晚於預設的第一時間,若判斷結果為是,即重新運行異常任務的最晚開始時間晚於預設的第一時間,則設置晚於當前時間但早於第一時間的第二時間作為異常警報時間;若判斷結果為否,也就是說重新運行異常任務的最晚開始時間早於或等於預設的第一時間,則設置當前時間作為異常警報時間,即立即對異常任務進行警報處理。其中,在第二時間到達時在進行警報處理,相當於延遲警報,有利於避開使用者的休息時間,可以減少對使用者的打擾,並且從長遠來看相當於拉大了兩次警報之間的時間間隔,有利於減少警報次數,節約資源;而將當前時間作為異常警報時間可以及時警報,避免警報不及時帶來的問題。
在此說明,本實施例並不限定第一時間和第二指定時間的取值,可以根據應用場景適應性設置。例如,預設的第一時間可以是11:00,相應的,若當前時間為9:00之前,則第二指定時間可以是9:00,但不限於此。
若異常任務的異常類型為運行速度變慢,可以判斷重新運行異常任務的最晚開始時間與當前時間的時間差是否大於預設的時差臨界值,若判斷結果為是,即重新運行異 常任務的最晚開始時間與當前時間的時間差大於預設的時差臨界值,則設置比重新運行異常任務的最晚開始時間早所述時差臨界值的第三時間作為異常警報時間;若判斷結果為否,即重新運行異常任務的最晚開始時間與當前時間的時間差小於或等於預設的時差臨界值,則設置當前時間作為異常警報時間。其中,將比重新運行異常任務的最晚開始時間早所述時差臨界值的第三時間作為異常警報時間,相當於延遲警報,有利於避開使用者的休息時間,可以減少對使用者的打擾,並且從長遠來看相當於拉大了兩次警報之間的時間間隔,有利於減少警報次數,節約資源;而將當前時間作為異常警報時間可以及時警報,避免警報不及時帶來的問題。
在此說明,本實施例並不限定上述時差臨界值的取值,可以根據應用場景適應性設置。例如,時差臨界值可以是2小時,但不限於此。
進一步,可以預先設置警報物件和警報方式。所述警報物件主要是指需要對異常任務進行處理的責任人或負責人,例如可以將警報物件配置在值班表中。所述警報方式包括以下至少一種:語音警報、短信警報、郵件警報、警報燈以及即時通訊警報等。基於此,上述對異常任務進行警報處理具體為:根據預先配置的值班表,以配置的警報方式向相應的責任人或負責人進行警報,例如向責任人或負責人的終端設備發短訊或郵件,或者對責任人或負責人進行語音提示,等。
由上述可見,異常監控裝置根據重新運行異常任務的最晚開始時間和當前時間,可以靈活確定異常警報時間,有利於在合適的時間對異常任務進行警報處理,而不用像現有技術那樣必須在預先配置的警報時間到達時進行警報處理,靈活性較強,既可以及時警報又可以減少不必要的警報,有利於降低出現警報不及時或非必要警報的機率,提高了警報精度,是一種智慧警報方案。
圖4為本發明又一實施例提供的異常監控裝置的結構示意圖。如圖4所示,該裝置包括:異常任務確定模組41、最晚時間確定模組42和警報處理模組43。
異常任務確定模組41,用於根據任務調度系統中預先設定的基準任務,確定任務調度系統中的異常任務。
最晚時間確定模組42,用於根據預先設定的基準任務的基準完成時間,確定重新運行異常任務的最晚開始時間。
警報處理模組43,用於根據重新運行異常任務的最晚開始時間和當前時間,對異常任務進行警報處理。
在一可選實施方式中,如圖5所示,異常任務確定模組41的一種實現結構包括:監控任務確定單元411和異常任務獲取單元412。
監控任務確定單元411,用於確定任務調度系統中的被基準任務所依賴的任務作為待監控任務;異常任務獲取單元412,用於獲取待監控任務中運行狀態異常的任務作為異常任務。
進一步,異常任務獲取單元412具體用於執行以下至少一種操作:獲取待監控任務中運行出錯的任務作為異常任務;獲取待監控任務中運行速度變慢的任務作為異常任務。
更進一步,異常任務獲取單元412在獲取待監控任務中運行速度變慢的任務作為異常任務時,具體用於:獲取待監控任務中運行時長滿足指定時長條件的任務作為異常任務;其中,指定時長條件包括以下至少一個:大於預設時長臨界值;比指定時間段內的平均運行時長多出指定比例。
在一可選實施方式中,如圖5所示,警報處理模組的一種實現結構包括:第一警報處理單元431和第二警報處理單元432。
第一警報處理單元431,用於在當前時間處於指定時間範圍內時,立即對異常任務進行警報處理。
第二警報處理單元432,用於在當前時間未處於指定時間範圍內時,根據異常任務的異常類型以及重新運行異常任務的最晚開始時間,確定異常警報時間,在異常警報時間到達時,對異常任務進行警報處理。
進一步,第二警報處理單元432具體用於:若異常任務的異常類型為運行出錯,則在重新運行異常任務的最晚開始時間晚於預設的第一時間時,設置晚於當前時間但早於第一時間的第二時間作為異常警報時間, 或者,在重新運行異常任務的最晚開始時間早於或等於第一時間時,設置當前時間作為異常警報時間;若異常任務的異常類型為運行速度變慢,則在重新運行異常任務的最晚開始時間與當前時間的時間差大於預設的時差臨界值時,設置比重新運行異常任務的最晚開始時間早時差臨界值的第三時間作為異常警報時間,或者,在重新運行異常任務的最晚開始時間與當前時間的時間差小於或等於時差臨界值時,設置當前時間作為異常警報時間。
本實施例提供的異常監控裝置,在任務調度過程中,根據預先設定的基準任務確定異常任務,進而根據預先設定的基準任務的基準完成時間,確定重新運行異常任務的最晚開始時間,根據重新運行異常任務的最晚開始時間和當前時間,對異常任務進行警報處理,而不是像現有技術那樣必須在預先配置的警報時間到達時進行警報處理,靈活性較強,有利於降低出現警報不及時或非必要警報的機率,提高了警報精度。
另外,採用本實施例提供的異常監控裝置,只需預先設定基準任務及其基準完成時間即可,本實施例提供的異常監控裝置可以根據基準任務與任務調度系統中其它任務之間的依賴關係反推出該基準任務的所有上游任務,進而自動監控該基準任務的所有上游任務,而不是像現有技術那樣需要針對所有的上游任務都配置一遍觸發條件、警報時間等,具有配置資訊較少而監控範圍較廣的優勢,尤其 適用於任務數量較多的任務調度系統。
本領域普通技術人員可以理解:實現上述各方法實施例的全部或部分步驟可以通過程式指令相關的硬體來完成。前述的程式可以儲存於一電腦可讀取儲存介質中。該程式在運行時,運行包括上述各方法實施例的步驟;而前述的儲存介質包括:ROM、RAM、磁碟或者光碟等各種可以儲存程式碼的介質。
最後應說明的是:以上各實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述各實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的範圍。

Claims (12)

  1. 一種異常監控方法,其包括:根據任務調度系統中預先設定的基準任務,確定該任務調度系統中的異常任務;根據預先設定的該基準任務的基準完成時間,確定重新運行該異常任務的最晚開始時間;根據重新運行該異常任務的最晚開始時間和當前時間,對該異常任務進行警報處理。
  2. 根據申請專利範圍第1項所述的方法,其中,所述根據任務調度系統中預先設定的基準任務,確定該任務調度系統中的異常任務,包括:確定該任務調度系統中的被該基準任務所依賴的任務作為待監控任務;獲取該待監控任務中運行狀態異常的任務作為該異常任務。
  3. 根據申請專利範圍第2項所述的方法,其中,所述獲取該待監控任務中運行狀態異常的任務作為該異常任務,包括以下至少一種操作:獲取該待監控任務中運行出錯的任務作為該異常任務;獲取該待監控任務中運行速度變慢的任務作為該異常任務。
  4. 根據申請專利範圍第3項所述的方法,其中,所述獲取該待監控任務中運行速度變慢的任務作為該異常任 務,包括:獲取該待監控任務中運行時長滿足指定時長條件的任務作為該異常任務;其中,該指定時長條件包括以下至少一個:大於預設時長臨界值;比指定時間段內的平均運行時長多出指定比例。
  5. 根據申請專利範圍第1-4項任一項所述的方法,其中,所述根據重新運行該異常任務的最晚開始時間和當前時間,對該異常任務進行警報處理,包括:若該當前時間處於指定時間範圍內,立即對該異常任務進行警報處理;若該當前時間未處於指定時間範圍內,根據該異常任務的異常類型以及重新運行該異常任務的最晚開始時間,確定異常警報時間,在該異常警報時間到達時,對該異常任務進行警報處理。
  6. 根據申請專利範圍第5項所述的方法,其中,所述根據該異常任務的異常類型以及重新運行該異常任務的最晚開始時間,確定異常警報時間,包括:若該異常任務的異常類型為運行出錯,則在重新運行該異常任務的最晚開始時間晚於預設的第一時間時,設置晚於當前時間但早於該第一時間的第二時間作為該異常警報時間,或者,在重新運行該異常任務的最晚開始時間早於或等於該第一時間時,設置當前時間作為該異常警報時間; 若該異常任務的異常類型為運行速度變慢,則在重新運行該異常任務的最晚開始時間與當前時間的時間差大於預設的時差臨界值時,設置比重新運行該異常任務的最晚開始時間早該時差臨界值的第三時間作為該異常警報時間,或者,在重新運行該異常任務的最晚開始時間與當前時間的時間差小於或等於該時差臨界值時,設置當前時間作為該異常警報時間。
  7. 一種異常監控裝置,其包括:異常任務確定模組,用於根據任務調度系統中預先設定的基準任務,確定該任務調度系統中的異常任務;最晚時間確定模組,用於根據預先設定的該基準任務的基準完成時間,確定重新運行該異常任務的最晚開始時間;警報處理模組,用於根據重新運行該異常任務的最晚開始時間和當前時間,對該異常任務進行警報處理。
  8. 根據申請專利範圍第7項所述的裝置,其中,該異常任務確定模組包括:監控任務確定單元,用於確定該任務調度系統中的被該基準任務所依賴的任務作為待監控任務;異常任務獲取單元,用於獲取該待監控任務中運行狀態異常的任務作為該異常任務。
  9. 根據申請專利範圍第8項所述的裝置,其中,該異常任務獲取單元具體用於執行以下至少一種操作:獲取該待監控任務中運行出錯的任務作為該異常任 務;獲取該待監控任務中運行速度變慢的任務作為該異常任務。
  10. 根據申請專利範圍第9項所述的裝置,其中,該異常任務獲取單元具體用於:獲取該待監控任務中運行時長滿足指定時長條件的任務作為該異常任務;其中,該指定時長條件包括以下至少一個:大於預設時長臨界值;比指定時間段內的平均運行時長多出指定比例。
  11. 根據申請專利範圍第7-10項任一項所述的裝置,其中,該警報處理模組包括:第一警報處理單元,用於在該當前時間處於指定時間範圍內時,立即對該異常任務進行警報處理;第二警報處理單元,用於在該當前時間未處於指定時間範圍內時,根據該異常任務的異常類型以及重新運行該異常任務的最晚開始時間,確定異常警報時間,在該異常警報時間到達時,對該異常任務進行警報處理。
  12. 根據申請專利範圍第11項所述的裝置,其中,該第二警報處理單元具體用於:若該異常任務的異常類型為運行出錯,則在重新運行該異常任務的最晚開始時間晚於預設的第一時間時,設置晚於當前時間但早於該第一時間的第二時間作為該異常警報時間,或者,在重新運行該異常任務的最晚開始時間早 於或等於該第一時間時,設置當前時間作為該異常警報時間;若該異常任務的異常類型為運行速度變慢,則在重新運行該異常任務的最晚開始時間與當前時間的時間差大於預設的時差臨界值時,設置比重新運行該異常任務的最晚開始時間早該時差臨界值的第三時間作為該異常警報時間,或者,在重新運行該異常任務的最晚開始時間與當前時間的時間差小於或等於該時差臨界值時,設置當前時間作為該異常警報時間。
TW106105604A 2016-03-28 2017-02-20 異常監控方法及裝置 TW201737084A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610184288.1A CN107241205A (zh) 2016-03-28 2016-03-28 异常监控方法及装置

Publications (1)

Publication Number Publication Date
TW201737084A true TW201737084A (zh) 2017-10-16

Family

ID=59963429

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106105604A TW201737084A (zh) 2016-03-28 2017-02-20 異常監控方法及裝置

Country Status (3)

Country Link
CN (1) CN107241205A (zh)
TW (1) TW201737084A (zh)
WO (1) WO2017167021A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108011782B (zh) * 2017-12-06 2020-10-16 北京百度网讯科技有限公司 用于推送告警信息的方法和装置
CN110113201B (zh) * 2019-04-30 2022-12-23 平安科技(深圳)有限公司 监控数据处理方法、装置及监控系统
CN110245127A (zh) * 2019-06-12 2019-09-17 成都九洲电子信息系统股份有限公司 一种基于流程控制的数据迁移方法
CN110348718B (zh) * 2019-06-28 2023-11-14 北京淇瑀信息科技有限公司 业务指标监控方法、装置及电子设备
CN112817686B (zh) * 2019-11-15 2023-07-25 北京百度网讯科技有限公司 检测虚拟机异常的方法、装置、设备和计算机存储介质
CN111010292A (zh) * 2019-11-26 2020-04-14 苏宁云计算有限公司 一种离线任务延时告警系统、方法及计算机系统
CN111324650A (zh) * 2020-02-16 2020-06-23 广州信安数据有限公司 任务处理效能实时评估预警方法、计算机可读存储介质及企业数据管理系统
CN111427748B (zh) * 2020-03-31 2023-06-23 携程计算机技术(上海)有限公司 任务告警方法、系统、设备及存储介质
CN111858065B (zh) * 2020-07-28 2023-02-03 中国平安财产保险股份有限公司 数据处理方法、设备、存储介质及装置
CN112328377B (zh) 2020-11-04 2022-04-19 北京字节跳动网络技术有限公司 基线监控方法、装置、可读介质及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8424003B2 (en) * 2006-05-31 2013-04-16 International Business Machines Corporation Unified job processing of interdependent heterogeneous tasks using finite state machine job control flow based on identified job type
CN100476739C (zh) * 2007-08-23 2009-04-08 南京联创科技股份有限公司 组任务管理的方法
CN101425024A (zh) * 2008-10-24 2009-05-06 中国移动通信集团山东有限公司 一种多任务处理方法及装置
CN102004973A (zh) * 2010-12-30 2011-04-06 用友软件股份有限公司 任务制定方法和装置
CN103034554B (zh) * 2012-12-30 2015-11-18 焦点科技股份有限公司 一种纠错重启以及自动判断启动的etl调度系统及方法

Also Published As

Publication number Publication date
WO2017167021A1 (zh) 2017-10-05
CN107241205A (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
TW201737084A (zh) 異常監控方法及裝置
US9720761B2 (en) System fault detection and processing method, device, and computer readable storage medium
US10558545B2 (en) Multiple modeling paradigm for predictive analytics
US8954971B2 (en) Data collecting method, data collecting apparatus and network management device
US9128777B2 (en) Operating and maintaining a cluster of machines
WO2014101487A1 (zh) 一种数据采集方法及装置
CN109558227B (zh) 一种基于任务执行预算的单调速率任务调度方法
WO2019047565A1 (zh) 任务处理方法、装置、计算机设备和存储介质
WO2015024336A1 (zh) 设备故障报警方法,装置与cim系统
CN114978883A (zh) 网络唤醒的管理方法、装置、电子设备及存储介质
CN112068940A (zh) 实时任务调度方法、装置、调度系统及存储介质
CN115099778A (zh) 一种工业制造设备的管控方法、系统、设备及介质
CN104765648B (zh) 一种基于实时计算系统的问题节点检测方法及装置
CN117194175A (zh) 一种日志告警监控方法、装置及计算机存储介质
CN109947015B (zh) 任务的执行方法及主控制器
CN109144851B (zh) 面向任务死限监控的多余度软件调试装置及调试方法
CN108154343B (zh) 一种企业级信息系统的应急处理方法及系统
US20120174122A1 (en) Method for Testing the Real-Time Capability of an Operating System
CN115629903A (zh) 任务延迟监控方法、装置、设备及存储介质
EP3396553B1 (en) Method and device for processing data after restart of node
CN101662382A (zh) 一种抑制网管系统中振荡告警上报的方法及系统
CN110096416B (zh) 异常报警方法、装置、计算机装置及可读存储介质
CN103678095A (zh) 一种告警检测方法
CN113656468B (zh) 基于nifi的任务流程触发方法及装置
CN117354202B (zh) 一种同步延迟检测方法及装置