TW201835764A - 監控服務設備之系統 - Google Patents

監控服務設備之系統 Download PDF

Info

Publication number
TW201835764A
TW201835764A TW106109495A TW106109495A TW201835764A TW 201835764 A TW201835764 A TW 201835764A TW 106109495 A TW106109495 A TW 106109495A TW 106109495 A TW106109495 A TW 106109495A TW 201835764 A TW201835764 A TW 201835764A
Authority
TW
Taiwan
Prior art keywords
monitoring
task
agent
task agent
queue
Prior art date
Application number
TW106109495A
Other languages
English (en)
Other versions
TWI621013B (zh
Inventor
洪建國
呂才興
陳俊宏
陳文廣
李振忠
Original Assignee
廣達電腦股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 廣達電腦股份有限公司 filed Critical 廣達電腦股份有限公司
Priority to TW106109495A priority Critical patent/TWI621013B/zh
Priority to CN201710243377.3A priority patent/CN108632106B/zh
Priority to US15/626,356 priority patent/US20180278497A1/en
Application granted granted Critical
Publication of TWI621013B publication Critical patent/TWI621013B/zh
Publication of TW201835764A publication Critical patent/TW201835764A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/14Arrangements for monitoring or testing data switching networks using software, i.e. software packages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一種設備監控系統,其具有通訊裝置、儲存裝置、以及控制器。通訊裝置提供連線至網際網路以及網際網路上之服務設備。儲存裝置儲存電腦可讀取之指令或程式碼。控制器載入並執行指令或程式碼以透過通訊裝置監控服務設備,所述監控包括以下步驟:以第一程序執行第一任務代理人以檢查服務設備中是否存在監控項目,若是,則產生監控任務;以第二程序執行第二任務代理人以根據監控任務對監控項目進行監控以取得監控數據;以第三程序執行第三任務代理人以決定監控數據是否符合關聯至監控任務之異常狀態定義規則,若是,則產生告警訊息;以及以第四程序執行第四任務代理人以根據告警規則決定是否將告警訊息傳送至監控項目所屬的服務設備之管理者。

Description

監控服務設備之系統
本申請主要關於設備監控技術,特別係有關於一種以多程序分工進行設備監控之系統及方法。
近年來,由於大眾對普適運算(ubiquitous computing)與網路通訊之需求大幅增長,各種無線技術紛紛問世,例如:全球行動通訊系統(Global System for Mobile communications,GSM)技術、通用封包無線服務(General Packet Radio Service,GPRS)技術、全球增強型數據傳輸(Enhanced Data rates for Global Evolution,EDGE)技術、寬頻分碼多工存取(Wideband Code Division Multiple Access,WCDMA)技術、分碼多工存取-2000(Code Division Multiple Access 2000,CDMA-2000)技術、分時同步分碼多工存取(Time Division-Synchronous Code Division Multiple Access,TD-SCDMA)技術、全球互通微波存取(Worldwide Interoperability for Microwave Access,WiMAX)技術、長期演進(Long Term Evolution,LTE)技術、以及分時長期演進(Time-Division LTE,TD-LTE)技術等。
隨著網路逐漸普及化,一般來說,服務供應商會 將服務設備架設於網際網路上運行,讓使用者可隨時隨地透過遍及的網路來存取各式的服務及應用,在此情況下,如何維持服務設備的穩定性是一個相當重要的議題。典型的解決方式是針對服務設備進行監控,以便在服務及應用發生問題或異常的初期時,能夠即時通知管理人員作處理,以避免問題擴大。然而,當監控需求及監控項目的數量逐漸增加時,監控系統將可能無法負荷大量的監控需求,因而造成錯誤處理的延遲。
以傳統的監控系統為例,通常會以同一個程序來執行對某一監控項目所進行的監控任務,然而,一個監控的程序包含許多階段,每個階段又環環相扣,前一個階段必須執行完畢才能輪到下一個階段的執行。因此,當執行負載偏重於其中的某個階段時,整個監控任務的效能瓶頸就會集中在該階段,而其餘階段則是一直處於閒置狀態。此時如果為了解決效能瓶頸的問題而擴展監控程序的數量,則會連程序中閒置的階段也一同擴展,另一方面,如果監控程序中的某個階段發生問題而需要重新執行,則必須整個程序從頭再執行一次。總的來說,傳統的監控方式就執行效率及資源使用效率而言,都是不盡理想的。
為了解決上述問題,本申請提出一種監控服務設備之系統及方法,能夠分別以不同的程序去獨立執行監控任務中的各個階段,並針對每個階段進行效能的管理,當某個階段的負載過重時,獨立對該階段的執行程序數量進行擴展,而當某個階段的負載偏低時,獨立對該階段回收執行的程序數量。 因此,能有效提升監控的效率及系統資源的使用效率。
本申請之一實施例提供了一種設備監控系統,包括一通訊裝置、一儲存裝置、以及一控制器。上述通訊裝置係用以提供連線至網際網路以及網際網路上之一或多個服務設備。上述儲存裝置係用以儲存電腦可讀取之指令或程式碼。上述控制器係用以載入並執行上述指令或程式碼以透過上述通訊裝置監控上述服務設備,所述監控包括以下步驟:以一第一程序(process)執行一第一任務代理人(agent)以檢查上述服務設備中是否存在一監控項目,若是,則產生一監控任務;以一第二程序執行一第二任務代理人以根據上述監控任務對上述監控項目進行監控以取得一監控數據;以一第三程序執行一第三任務代理人以決定上述監控數據是否符合關聯至上述監控任務之一異常狀態定義規則,若是,則產生一告警訊息;以及以一第四程序執行一第四任務代理人以根據一告警規則決定是否將上述告警訊息傳送至上述監控項目所屬的上述服務設備之一管理者。
關於本申請其他附加的特徵與優點,此領域之熟習技術人士,在不脫離本申請之精神和範圍內,當可根據本案實施方法中所揭露之設備監控系統以及監控服務設備之方法做些許的更動與潤飾而得到。
100‧‧‧設備監控環境
10‧‧‧設備監控系統
11‧‧‧通訊裝置
12‧‧‧儲存裝置
13‧‧‧控制器
20‧‧‧網際網路
30‧‧‧設備管理系統
40~60‧‧‧服務設備1~3
310‧‧‧監控設定模組
311‧‧‧監控目標定義
312‧‧‧監控規則定義
313‧‧‧異常狀態定義
314‧‧‧告警規則定義
320‧‧‧監控代理人模組
321‧‧‧監測啟動代理人
322‧‧‧監測數據收集代理人
323‧‧‧異常判斷代理人
324‧‧‧告警通知代理人
330‧‧‧代理人自動管理模組
331‧‧‧自動擴展模組
332‧‧‧自動回收模組
333‧‧‧作業容錯模組
S401~S405‧‧‧步驟編號
S501~S505‧‧‧步驟編號
S601~S608‧‧‧步驟編號
S701~S716‧‧‧步驟編號
第1圖係根據本申請一實施例所述之設備監控環境之示意圖。
第2圖係根據本申請一實施例所述之設備監控系統10之硬體架構示意圖。
第3圖係根據本申請一實施例所述以軟體來實作監控服務設備之方法之示意圖。
第4圖係根據本申請一實施例所述之監測啟動代理人321之作業流程圖。
第5圖係根據本申請一實施例所述之監測數據收集代理人322之作業流程圖。
第6圖係根據本申請一實施例所述之異常判斷代理人323之作業流程圖。
第7A及7B圖係根據本申請一實施例所述之告警通知代理人324之作業流程圖。
第8圖係根據第3圖之實施例所述之監控服務設備之方法之運作示意圖。
本章節所敘述的是實施本申請之最佳方式,目的在於說明本申請之精神而非用以限定本申請之保護範圍,應理解下列實施例可經由軟體、硬體、韌體、或上述任意組合來實現。
第1圖係根據本申請一實施例所述之設備監控環境之示意圖。設備監控環境100包括設備監控系統10、網際網路20、設備管理系統30、以及服務設備40~60,其中,設備監控系統10及設備管理系統30可透過網際網路20連接到服務設備40~60。
設備監控系統10可為一具備網路通訊功能之運算裝置,如:筆記型電腦、桌上型電腦、工作站、伺服器等,用以監控服務設備40~60,並於發現服務設備40~60有異常時發送告警訊息給設備管理系統30。
服務設備40~60可各別為一伺服器,用以執行並提供服務/應用,例如:電子郵件收發服務、行動推播服務、網頁服務、硬體設備服務、可監控設備服務或簡訊收發服務等。
設備管理系統30可為一具備網路通訊功能之運算裝置,如:筆記型電腦、桌上型電腦、工作站、伺服器等,用以提供設備管理者對服務設備40~60進行設定、檢查、除錯、等維運作業。
第2圖係根據本申請一實施例所述之設備監控系統10之硬體架構示意圖。設備監控系統10包括通訊裝置11、儲存裝置12、以及控制器13。
通訊裝置11係用以提供連線至網際網路20、以及網際網路20上的設備管理系統30以及服務設備40~60。通訊裝置11可依循至少一特定通訊技術提供有線或無線網路連線,例如:乙太網(Ethernet)技術、無線區網(Wireless Fidelity,Wi-Fi)技術、全球互通微波存取技術、全球行動通訊系統技術、寬頻分碼多工存取技術、或長期演進技術等。
儲存裝置12為非暫態(non-transitory)之電腦可讀取儲存媒體,例如:隨機存取記憶體(Random Access Memory,RAM)、快閃記憶體,或硬碟、光碟,或上述媒體之任意組合,用以儲存電腦可讀取之指令或程式碼,包括:應用 /通訊協定之程式碼、以及/或本申請之方法的程式碼及資料庫。
於一具體實施例中,儲存裝置12亦包括資料庫。
控制器13可為通用處理器、微處理器(Micro Control Unit,MCU)、應用處理器(Application Processor,AP)、或數位訊號處理器(Digital Signal Processor,DSP)等,其可包括各式電路邏輯,用以提供數據處理及運算之功能、控制通訊裝置11的運作以提供網路連線、從儲存裝置12讀取或儲存數據。特別是,控制器13係用以協調控制通訊裝置11以及儲存裝置12之運作,以執行本申請的監控服務設備之方法。
該領域之熟習技藝人士當可理解,控制器13中的電路邏輯通常可包括多個電晶體,用以控制該電路邏輯之運作以提供所需之功能及作業。更進一步的,電晶體的特定結構及其之間的連結關係通常是由編譯器所決定,例如:暫存器轉移語言(Register Transfer Language,RTL)編譯器可由處理器所運作,將類似組合語言碼的指令檔(script)編譯成適用於設計或製造該電路邏輯所需之形式。
當可理解的是,第2圖所示之元件僅用以提供一說明之範例,並非用以限制本申請之保護範圍。舉例來說,設備監控系統10還可包括:顯示螢幕(如:液晶顯示器(Liquid Crystal Display,LCD)、發光二極體顯示器(Liquid Crystal Display,LCD)、或電子紙顯示器(Electronic Paper Display,EPD)等)、輸入輸出裝置(如:一或多個按鈕、鍵盤、滑鼠、觸碰板、視訊鏡頭、麥克風、或喇叭)、電源供應器、以及/或全球定位系統(Global Positioning System,GPS)儀等。
第3圖係根據本申請一實施例所述之監控服務設備之方法之軟體架構圖。在此實施例,監控服務設備之方法係適用於設備監控系統10,明確來說,監控服務設備之方法可用程式碼實作為多個軟體模組,並由控制器13載入並執行,監控服務設備之方法的軟體架構可包括監控設定模組310、監控代理人(agent)模組320、以及代理人自動管理模組330。
監控設定模組310主要負責提供監控作業所需之設定及規則,其中這些設定及規則皆可依照服務設備40~60的變動而隨時更新,並儲存於資料庫中。監控設定模組310包括監控目標定義311、監控規則定義312、異常狀態定義313、以及告警規則定義314。
監控目標定義311用以設定需要監控的目標,例如指定哪個服務設備上的哪個服務/應用是需要監控的目標。
監控規則定義312用以設定監控作業的規則。在一實施例,可針對一監控目標定義多個時段,而每個時段皆遵循不同之規則。舉例來說,可先將時段的部分定義為每個星期一到五的早上八點到下午五點,然後定義多久要監控一次、可以重試的次數、間隔多久重試一次(所述重試係為了避免系統誤判,例如,因暫時性的系統負載突衝而造成的異常)。
異常狀態定義313用以設定各個監測目標的異常狀態定義規則,例如:當某服務設備的中央處理器的負載程度持續10分鐘達80%。需注意的是,異常狀態定義規則可以隨時新增與修改。
告警規則定義314用以設定當監控目標被判定發 生異常時是否要發送告警訊息的規則,例如:「有錯誤就發」、「相同錯誤只發一次」、「相同錯誤間隔多久再發」、「相同錯誤累計幾次再發」等選項。另外,告警訊息的發送可以是電子郵件或簡訊推播的形式。
監控代理人模組320包括監測啟動代理人321、監測數據收集代理人322、異常判斷代理人323、告警通知代理人324,其中每個任務代理人係分別由一或多個程序所執行,各自進行監控作業流程中的不同階段,以分工的方式完成整個監控作業。在一實施例,可以分別由不同的主機來各自提供一個程序的執行以實現一任務代理人。
監測啟動代理人321主要負責啟動一任務代理人,用以檢查服務設備40~60中是否存在監控項目,並針對監控項目產生監控任務。其中,任務代理人係由一程序所執行。
第4圖係根據本申請一實施例所述之監測啟動代理人321之作業流程圖。首先,監測啟動代理人321會定期查看資料庫中所維護的關聯至服務設備40~60的監控設定以及目前已設定的監控項目(步驟S401),然後決定監控項目的狀態是否設定為「重試」(步驟S402),若是,則決定目前時間是否已超過規定的重試時間間隔(也就是已達監控項目的重試時間)(步驟S403),若是,則產生監控任務以啟動監控作業進行重試,並將監控任務存入監控任務佇列中(步驟S404),流程結束。須說明的是,步驟S402係為選擇性之步驟,其目的在於前次的監控項目有可能發生錯誤,所以判斷此次是否為「重試」。
監控任務佇列為先入先出(First In First Out, FIFO)之佇列,也就是說,先存入佇列中的監控任務會先被監測數據收集代理人322讀取出來處理。
監控任務包括監控作業所需要的資料,包括:監控目標、監控類型、監控規則、異常狀態定義規則、以及告警規則等。產生的監控任務會被存入監控任務佇列中。
在步驟S402,如果監控項目的狀態並非設定「重試」,則決定目前時間是否符合監控設定中的啟動區間(步驟S405),若是,則流程進入步驟S404;反之,若否,則流程結束。
監測數據收集代理人322主要負責啟動一或多個任務代理人,用以根據監控任務佇列中的監控任務進行監控,並取得監控數據。其中,每個任務代理人係各自由一程序所執行。
第5圖係根據本申請一實施例所述之監測數據收集代理人322之作業流程圖。首先,監測數據收集代理人322從監控任務佇列中取出監控任務(步驟S501),然後決定監控任務的類型是否為屬於已定義的監控類型(步驟S502),若是,則根據監控類型對監控目標進行監控(步驟S503),接著,將監控取得之數據存入監控結果並將監控結果存入監控結果佇列中(步驟S504),流程結束。
舉例來說,監控類型可分為多種,監測數據收集代理人322可依序判斷監控任務是否為監控類型1、2、3、4等,同時根據不同的類型進行不同之監控。例如:監控類型1所指為監控目標的處理器負載,監控類型2所指為監控目標的記憶 體使用率,監控類型3所指為監控目標的磁碟使用率,監控類型4所指為監控目標的網路流量。
在步驟S502,如果監控任務的類型不屬於已定義的監控類型,則產生監控結果以指示監控任務屬於不支援的監控類型,並將監控結果存入監控結果佇列中(步驟S505),流程結束。
監控結果佇列為先入先出之佇列,也就是說,先存入佇列中的監控結果會先被異常判斷代理人323讀取出來處理。
異常判斷代理人323主要負責啟動一或多個任務代理人,用以判斷監控結果中的監控數據是否異常,並針對異常的監控數據產生告警訊息。其中,每個任務代理人係各自由一程序所執行。
第6圖係根據本申請一實施例所述之異常判斷代理人323之作業流程圖。首先,異常判斷代理人323從監控結果佇列中取出監控結果(步驟S601),然後決定監控結果中的監控數據是否符合異常狀態定義規則(步驟S602),若否,則將監控結果存入資料庫,並將此監控項目之狀態設定為「正常」,並將重試次數歸零(步驟S603),流程結束。
異常狀態定義規則係關聯至對應的監控任務,舉例來說,如果監控任務是指對一電子郵件伺服器的網路流量進行監控,則異常狀態定義規則可以是指該電子郵件伺服器的網路流量超過一上限值。
在步驟S602,如果監控數據符合異常狀態定義規 則,則決定對應之監控項目的狀態是否為「重試」(步驟S604),若是,則進一步決定該監控項目是否已重試達一上限值(步驟S605),若已達上限值,則產生告警訊息並將告警訊息存入告警訊息佇列中(步驟S606),然後將該監控項目的狀態設定為「正常」,並將重試次數歸零(步驟S607),流程結束。
須說明的是,步驟604與步驟605是為提高判斷監控數據符合異常狀態定義的正確率,避免僅為單次的異常監控數據,即認定監控項目出現問題,因有許多因素皆有可能使監控數據產生符合異常狀態定義的數值。所以設定重試上限之一預設值,例如三次或四次,則僅有監控數據產生符合異常狀態定義之次數達到重試上限之預設值,才認定監控項目真的出現問題,或確屬異常狀態(步驟S608),從而發出告警訊息(步驟S606),並重新將監控項目的狀態設定為「正常」,且將重試次數歸零(步驟S607)。
告警訊息佇列為先入先出之佇列,也就是說,先存入佇列中的告警訊息會先被告警通知代理人324讀取出來處理。
在步驟S605,如果該監控項目重試未達上限值,則將監控數據存入資料庫,並將該監控項目的狀態設定為「重試」,並將重試次數之計數加1(步驟S608),流程結束。
告警通知代理人324主要負責啟動一或多個任務代理人,用以判斷是否要將告警訊息傳送給服務設備之管理者。其中,每個任務代理人係各自由一程序所執行。
第7A及7B圖係根據本申請一實施例所述之告警通 知代理人324之作業流程圖。首先,告警通知代理人324從告警訊息佇列中取出告警訊息(步驟S701),然後根據告警規則來決定是否將告警訊息傳送給服務設備之管理者。
明確來說,先決定告警規則是否指示「有錯誤就發」(步驟S702),若是,則立即將告警訊息傳送給服務設備之管理者(步驟S703),流程結束。反之,若否,則接著決定告警規則是否指示「相同錯誤只發一次」(步驟S704),若是,則決定該監控項目的前次告警訊息是否與本次告警訊息相同(步驟S705)。
在步驟S705,如果前次告警訊息與本次相同,則不傳送本次告警訊息,流程結束。反之,如果前次告警訊息與本次不同,則將該監控項目的最新告警訊息更新為本次告警訊息(步驟S706),然後流程進入到步驟S703。
在步驟S704,如果告警規則並非指示「相同錯誤只發一次」,則接著決定告警規則是否指示「相同錯誤間隔多久再發」(步驟S707),若是,則決定該監控項目的前次告警訊息是否與本次告警訊息相同(步驟S708)。
在步驟S708,如果前次告警訊息與本次不同,則將該監控項目的最新告警訊息更新為本次告警訊息,並重新啟動重試計時器(步驟S709),然後流程進入到步驟S703;反之,如果前次告警訊息與本次相同,則決定對應的重試計時器是否屆期(重試計時器的屆期即表示前次告警訊息與本次告警訊息的時間間隔已達規定之時間長度)(步驟S710),若是,則重新啟動重試計時器(步驟S711),然後流程進入到步驟S703。若 否,則流程結束。
在步驟S707,如果告警規則並非指示「相同錯誤間隔多久再發」,則接著決定告警規則是否指示「相同錯誤累計幾次再發」(步驟S712),若否,則流程結束;反之,若是,則決定該監控項目的前次告警訊息是否與本次告警訊息相同(步驟S713)。
在步驟S713,如果前次告警訊息與本次不同,則將該監控項目的最新告警訊息更新為本次告警訊息,並重新啟動重試計數器(步驟S714),然後流程進入到步驟S703;反之,如果前次告警訊息與本次相同,則決定對應的重試計數器是否已達規定之次數(意即,相同的告警訊息是否已經累計達一定數量)(步驟S715),若是,則重新啟動重試計數器(步驟S716),然後流程進入到步驟S703;反之,若否,則流程結束。
回到第3圖,代理人自動管理模組330包括自動擴展模組331、自動回收模組332、以及作業容錯模組333。
自動擴展模組331係用以監控三個訊息佇列(即監控任務佇列、監控結果佇列、以及告警訊息佇列)的訊息數量,當任一個訊息佇列中的訊息數量超過對應的任務代理人(即監測數據收集代理人、異常判斷代理人、告警通知代理人)數量的高水位倍數時,則以新的程序增加一個新的任務代理人(即針對該任務代理人新增一副本),以加速處理訊息佇列中的訊息。舉例來說,當監控任務佇列中的訊息數量為監測數據收集代理人數量的10倍以上,則擴充監測數據收集代理人的數量。
自動回收模組332係用以監控三個訊息佇列的訊 息數量,當任一訊息佇列中的訊息數量低於對應的任務代理人數量的低水位倍數時,則回收該任務代理人之其一(即針對該任務代理人回收其中一副本),以節省系統資源。舉例來說,當監控結果佇列中的訊息數量為異常判斷代理人數量的5倍以下,則進行異常判斷代理人的回收作業。
作業容錯模組333係用以提供任務代理人監控作業的容錯機制。當任一任務代理人執行作業時若發生錯誤,會將錯誤記錄下來,並決定該任務代理人是否已經重試作業超過容錯限制次數,若沒超過,則復原執行過的動作,同時將取得的任務訊息標註重試次數後再丟回原訊息佇列中,等待下一次的重試;反之,若重試作業已超過容錯限制次數,則直接結束該次作業。
第8圖係根據第3圖之實施例所述之監控服務設備之方法之運作示意圖。如第8圖所示,監測啟動代理人321定期查看資料庫中所維護的關聯至服務設備40~60的監控設定以及目前已設定的監控項目,根據查看的結果產生監控任務並存入監控任務佇列中。
接著,監測數據收集代理人322根據監控任務佇列中的監控任務對服務設備40~60進行監控並取得監控數據,監控數據以監控結果紀錄並存入監控結果佇列中。
然後,異常判斷代理人323從監控結果佇列中取出監控結果,並且從資料庫中取得異常狀態定義規則,接著判斷監控結果中的監控數據是否符合異常狀態定義規則,針對異常的數據產生告警訊息並存入告警訊息佇列中。
之後,告警通知代理人324從告警訊息佇列中取出告警訊息,並且從資料庫中取得告警規則,接著根據告警規則決定是否將告警訊息傳送給設備管理系統30。
本申請雖以各種實施例揭露如上,然而其僅為範例參考而非用以限定本申請的範圍,任何熟習此項技藝者,在不脫離本申請之精神和範圍內,當可做些許的更動與潤飾。因此上述實施例並非用以限定本申請之範圍,本申請之保護範圍當視後附之申請專利範圍所界定者為準。

Claims (11)

  1. 一種設備監控系統,包括:一通訊裝置,用以提供連線至網際網路以及網際網路上之一或多個服務設備;一儲存裝置,用以儲存電腦可讀取之指令或程式碼;以及一控制器,用以載入並執行上述指令或程式碼以透過上述通訊裝置監控上述服務設備,所述監控包括以下步驟:以一第一程序(process)執行一第一任務代理人(agent)以檢查上述服務設備中是否存在一監控項目,若是,則產生一監控任務;以一第二程序執行一第二任務代理人以根據上述監控任務對上述監控項目進行監控以取得一監控數據;以一第三程序執行一第三任務代理人以決定上述監控數據是否符合關聯至上述監控任務之一異常狀態定義規則,若是,則產生一告警訊息;以及以一第四程序執行一第四任務代理人以根據一告警規則決定是否將上述告警訊息傳送至上述監控項目所屬的上述服務設備之一管理者。
  2. 如申請專利範圍第1項所述之設備監控系統,其中上述儲存裝置更包括一資料庫用以維護關聯至上述服務設備之一監控設定,上述第一任務代理人還決定一目前時間是否符合上述監控設定中之一啟動區間,若是,才產生上述監控任務。
  3. 如申請專利範圍第1項所述之設備監控系統,其中上述第一任務代理人還決定上述監控項目之一狀態是否為「重試」,若是,則決定一目前時間是否已達上述監控項目之一重試時間,若是,才產生上述監控任務。
  4. 如申請專利範圍第1項所述之設備監控系統,其中上述監控項目係上述服務設備之一者所執行之一服務,上述監控任務包括以下至少一者:一監控目標、一監控類型、一監控規則、上述異常狀態定義規則、以及上述告警規則。
  5. 如申請專利範圍第4項所述之設備監控系統,其中上述第二任務代理人係根據上述監控目標、上述監控類型、以及上述監控規則以進行對應之監控作業。
  6. 如申請專利範圍第1項所述之設備監控系統,其中上述第三任務代理人於上述監控數據不符合上述異常狀態定義規則時,將上述監控數據存入上述儲存裝置中之一資料庫並將上述監控項目之一狀態設定為「正常」,以及在上述監控數據符合上述異常狀態定義規則時,決定上述狀態設定是否為「重試」,若上述狀態設定非為「重試」,則將上述監控數據存入上述資料庫並將上述狀態設定為「重試」,若上述狀態設定為「重試」,則決定上述監控項目是否已重試達一上限值,若未達上述上限值,則將上述監控數據存入上述資料庫,若已達上述上限值,才產生上述告警訊息。
  7. 如申請專利範圍第1項所述之設備監控系統,其中上述 告警規則指示以下一者:有錯誤就傳送上述告警訊息、相同錯誤只傳送一次上述告警訊息、相同錯誤間隔一時間區間再傳送上述告警訊息、相同錯誤累計一預定次數再傳送上述告警訊息。
  8. 如申請專利範圍第1項所述之設備監控系統,其中上述第一任務代理人還將上述監控任務存入一第一佇列中等待上述第二任務代理人讀取,上述第二任務代理人還將上述監控數據存入一第二佇列中等待上述第三任務代理人讀取,上述第三任務代理人還將上述告警訊息存入一第三佇列中等待上述第四任務代理人讀取。
  9. 如申請專利範圍第8項所述之設備監控系統,其中監控上述服務設備之步驟還包括:當上述第一佇列中等待讀取的監控任務數量超過上述第二任務代理人所能處理之一第一預定數量時,新增另一程序以執行上述第二任務代理人之一副本;當上述第二佇列中等待讀取的監控數據數量超過上述第三任務代理人所能處理之一第二預定數量時,新增另一程序以執行上述第三任務代理人之一副本;以及當上述第三佇列中等待讀取的告警訊息數量超過上述第四任務代理人所能處理之一第三預定數量時,新增另一程序以執行上述第四任務代理人之一副本。
  10. 如申請專利範圍第9項所述之設備監控系統,其中監控上述服務設備之步驟還包括:當上述第一佇列中等待讀取的監控任務數量低於一第四 預定數量時,移除上述第二任務代理人之上述副本;當上述第二佇列中等待讀取的監控數據數量低於一第五預定數量時,移除上述第三任務代理人之上述副本;以及當上述第三佇列中等待讀取的告警訊息數量低於一第六預定數量時,移除上述第四任務代理人之上述副本。
  11. 如申請專利範圍第8項所述之設備監控系統,其中當上述第二任務代理人在對上述監控項目進行監控時若發生錯誤,則決定上述第二任務代理人是否已重試達一第一上限值,若未達上述第一上限值,則將上述監控任務存回上述第一佇列中;當上述第三任務代理人在決定是否產生上述告警訊息時若發生錯誤,則決定上述第三任務代理人是否已重試達一第二上限值,若未達上述第二上限值,則將上述監控數據存回上述第二佇列中;以及當上述第四任務代理人在決定是否傳送上述告警訊息時若發生錯誤,則決定上述第四任務代理人是否已重試達一第三上限值,若未達上述第三上限值,則將上述告警訊息存回上述第三佇列中。
TW106109495A 2017-03-22 2017-03-22 監控服務設備之系統 TWI621013B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW106109495A TWI621013B (zh) 2017-03-22 2017-03-22 監控服務設備之系統
CN201710243377.3A CN108632106B (zh) 2017-03-22 2017-04-14 监控服务设备的系统
US15/626,356 US20180278497A1 (en) 2017-03-22 2017-06-19 Systems for monitoring application servers

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW106109495A TWI621013B (zh) 2017-03-22 2017-03-22 監控服務設備之系統

Publications (2)

Publication Number Publication Date
TWI621013B TWI621013B (zh) 2018-04-11
TW201835764A true TW201835764A (zh) 2018-10-01

Family

ID=62639890

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106109495A TWI621013B (zh) 2017-03-22 2017-03-22 監控服務設備之系統

Country Status (3)

Country Link
US (1) US20180278497A1 (zh)
CN (1) CN108632106B (zh)
TW (1) TWI621013B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6972735B2 (ja) * 2017-07-26 2021-11-24 富士通株式会社 表示制御プログラム、表示制御方法及び表示制御装置
CN110062025B (zh) * 2019-03-14 2022-09-09 深圳绿米联创科技有限公司 数据采集的方法、装置、服务器及存储介质
CN111831503B (zh) * 2019-04-15 2024-04-05 北京京东尚科信息技术有限公司 一种基于监控代理的监控方法和监控代理装置
CN112256516A (zh) * 2019-07-22 2021-01-22 广州酷旅旅行社有限公司 一种酒店直连系统用数据分析处理方法
CN110460470A (zh) * 2019-08-15 2019-11-15 成都西加云杉科技有限公司 一种告警管理系统
CN111176879A (zh) * 2019-12-31 2020-05-19 中国建设银行股份有限公司 设备的故障修复方法及装置
CN112231174B (zh) * 2020-09-30 2024-02-23 中国银联股份有限公司 异常告警方法、装置、设备及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5061917A (en) * 1988-05-06 1991-10-29 Higgs Nigel H Electronic warning apparatus
US5655081A (en) * 1995-03-08 1997-08-05 Bmc Software, Inc. System for monitoring and managing computer resources and applications across a distributed computing environment using an intelligent autonomous agent architecture
TW312772B (en) * 1996-11-22 1997-08-11 Icp Das Co Ltd Isolated PC-based interface card
TW581944B (en) * 2000-08-25 2004-04-01 Shikoku Electric Power Co Ltd Remote control server, central server and the system constituted with the same
TWI240860B (en) * 2004-01-16 2005-10-01 Chunghwa Telecom Co Ltd Database monitoring and automatic problems reporting system
TW200537305A (en) * 2004-05-04 2005-11-16 Quanta Comp Inc Communication system, transmission device and the control method thereof
TWI331285B (en) * 2008-11-10 2010-10-01 Moxa Inc Active monitoring system and method thereof
TWI497975B (zh) * 2009-12-18 2015-08-21 Via Tech Inc 消費性電子裝置之保全監控模組及其保全監控方法
CN103123602B (zh) * 2011-11-18 2016-04-27 阿里巴巴集团控股有限公司 基于java的异常报警监控方法及其装置
CN103544093B (zh) * 2012-07-13 2016-04-27 深圳市快播科技有限公司 监控报警控制方法及其系统
CN103124070B (zh) * 2012-08-15 2015-03-25 中国电力科学研究院 一种微电网系统协调控制方法
TW201416855A (zh) * 2012-10-23 2014-05-01 Inventec Corp 系統啟動監控方法以及電子裝置
CN103067230A (zh) * 2013-01-23 2013-04-24 江苏天智互联科技有限公司 一种通过植入监控代码实现对http服务监控的方法
CN104125095A (zh) * 2014-06-25 2014-10-29 世纪禾光科技发展(北京)有限公司 一种事件故障实时监控的系统和方法
CN104657250B (zh) * 2014-12-16 2018-07-06 无锡华云数据技术服务有限公司 一种对云主机进行性能监控的监控系统及其监控方法
TWI542995B (zh) * 2015-05-08 2016-07-21 廣達電腦股份有限公司 資源監控系統與其方法
CN105225466B (zh) * 2015-09-16 2019-06-11 安康鸿天科技开发有限公司 一种数据传输及故障检测系统
CN105356612B (zh) * 2015-11-27 2018-11-06 国网北京市电力公司 数据传输系统和方法
TWM532085U (zh) * 2016-04-01 2016-11-11 Memxpro Inc 硬碟控制晶片及含其的硬碟
US9529634B1 (en) * 2016-05-06 2016-12-27 Live Nation Entertainment, Inc. Triggered queue transformation

Also Published As

Publication number Publication date
US20180278497A1 (en) 2018-09-27
CN108632106B (zh) 2020-11-24
CN108632106A (zh) 2018-10-09
TWI621013B (zh) 2018-04-11

Similar Documents

Publication Publication Date Title
TWI621013B (zh) 監控服務設備之系統
US10511480B2 (en) Message flow management for virtual networks
WO2022007552A1 (zh) 处理节点的管理方法、配置方法及相关装置
JP6325001B2 (ja) 階層データ構造のノードにおいて再帰的イベントリスナを用いる方法およびシステム
CN113742031B (zh) 节点状态信息获取方法、装置、电子设备及可读存储介质
WO2020228289A1 (zh) 日志获取方法、装置、终端及存储介质
US10936375B2 (en) Hyper-converged infrastructure (HCI) distributed monitoring system
US8438573B2 (en) Dependency on a resource type
JP2023504469A (ja) ノード管理方法、装置、機器、記憶媒体及びシステム
US20220182851A1 (en) Communication Method and Apparatus for Plurality of Administrative Domains
EP3422186A1 (en) Method, device and system for preventing memory data loss
TWI608377B (zh) 監控管理系統及方法
US11544091B2 (en) Determining and implementing recovery actions for containers to recover the containers from failures
US9575865B2 (en) Information processing system and monitoring method
CN109684611B (zh) 一种字典转码方法、装置、存储介质及终端
CN115567523A (zh) 资源管理方法及系统
CN111338580B (zh) 一种磁盘性能优化的方法和设备
CN110673793B (zh) 存储设备节点事件管理方法、系统及电子设备和存储介质
CN113419921A (zh) 一种任务监控方法、装置、设备以及存储介质
CN115328693A (zh) 一种业务进程恢复业务的方法、装置、设备及存储介质
EP4066117B1 (en) Managing provenance information for data processing pipelines
US20220308544A1 (en) Dynamic monitoring
WO2023003588A1 (en) Multi-layered correlation policy management apparatus and method
CN114064349A (zh) 一种数据处理方法、装置、设备和存储介质
CN115373894A (zh) 数据恢复方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees