TW201413467A - 管理雲端主機的監控系統及其監控方法 - Google Patents

管理雲端主機的監控系統及其監控方法 Download PDF

Info

Publication number
TW201413467A
TW201413467A TW101135838A TW101135838A TW201413467A TW 201413467 A TW201413467 A TW 201413467A TW 101135838 A TW101135838 A TW 101135838A TW 101135838 A TW101135838 A TW 101135838A TW 201413467 A TW201413467 A TW 201413467A
Authority
TW
Taiwan
Prior art keywords
monitoring
status information
cloud host
server
host
Prior art date
Application number
TW101135838A
Other languages
English (en)
Inventor
Jui-Tsung Hung
Ping-Hui Hsu
Original Assignee
Delta Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delta Electronics Inc filed Critical Delta Electronics Inc
Priority to TW101135838A priority Critical patent/TW201413467A/zh
Priority to US14/020,154 priority patent/US20140095703A1/en
Publication of TW201413467A publication Critical patent/TW201413467A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

一種管理雲端主機的監控系統及其監控方法,監控系統包括一雲端主機及複數監控伺服器,其中,每一台監控伺服器分別用以處理不同類別之資訊。雲端主機主要可偵測本身的各項主機狀態,並且據以產生複數狀態資訊,其中複數狀態資訊分別記錄不同類別的資訊。接著,雲端主機將該些不同類別的狀態資訊,分別傳送至相對應的監控伺服器,由複數監控伺服器來分類儲存雲端主機的狀態資訊,並且各自執行後續的處理動作。藉此,降低由單一伺服器來儲存、處理所有狀態資訊所造成的負擔。

Description

管理雲端主機的監控系統及其監控方法
本發明係有關於監控系統及監控方法,尤其更有關於可避免於雲端資料中心的單點伺服器或單點資料庫損壞時,造成監控機制失效之監控系統及監控方法。
一般來說,一個雲端的資料中心需具備各式各樣的主機,例如實體機器(Physical Machine,PM)、虛擬機器(Virtual Machine,VM)、網路交換機(Switch)、路由器(Routine)、不斷電系統(Uninterruptible Power Supply,UPS)、防火牆(Firewall)等,藉以分別處理不同之資訊。
為了方便管理並監控資料中心之狀態,管理人員通常會通過硬體或軟體的方式,在主機內部設置偵測器(sensor),以監控該些主機的各項資訊,例如溫度、溼度、風扇速率、CPU、記憶體、網路狀態及硬碟容量等。並且,將該些偵測所得之資訊定期回報並儲存於資料中心的一資料庫中,管理人員可進一步存取該資料庫,以監控資料中心內各主機的各項資訊。
現行的資料中心,多是由單點的監控伺服器與資料庫來和各主機進行連接,藉此,由各主機各自偵測本身的主機資訊、由單點的監控伺服器來監控該些主機資訊、並由單點的資料庫來儲存該些主機資訊。惟,該些主機需要持續地偵測本身之資訊,並且週期性地將資訊回報給該監控伺服器,並儲存於該資料庫中。因此,當雲端資料中心的主機數量過多、回報的頻率過於頻繁、或是同時間回報的資訊量太大時,都可能會使得監控伺服器或資料庫過載,進而造成資訊的遺失。並且如上所述,一般的雲端資料中心通常僅設置單點的監控伺服器與資料庫,因此當監控伺服器或資料庫損壞時,雲端資料中心的監控機制將逕而失效。
再者,若雲端資料中心內的主機數量太多,也可能會導致資料庫的儲存空間不足,因此會需要管理人員即時添加資料庫的容量,相當不便。
本發明的主要目的,在於提供一種管理雲端主機的監控系統及其監控方法,係通過分散的複數監控伺服器來分別監控、儲存並處理相對應的資訊,藉以避免在單點伺服器或單點資料庫損壞時,造成雲端資料中心的監控機制失效。
為達上述目的,本發明主要提供一監控系統,包括一雲端主機及複數監控伺服器,其中,每一台監控伺服器分別用以處理不同類別之資訊。雲端主機主要可偵測本身的各項主機狀態,並且據以產生複數狀態資訊,其中複數狀態資訊分別記錄不同類別的資訊。接著,雲端主機將該些不同類別的狀態資訊,分別傳送至相對應的監控伺服器,由複數監控伺服器來分類儲存雲端主機的狀態資訊,並且各自執行後續的處理動作。
本發明對照先前技術所能達成之功效在於,依據雲端資料中心的預定規則來規劃複數台的監控伺服器,並且讓每一台監控伺服器分別監控、儲存並處理雲端主機的不同類別之資訊,例如CPU、硬碟、記憶體、流量等等。藉此,可以解決傳統通過單點伺服器來監控並處理所有雲端主機的所有資訊時,伺服器的負擔太大而容易損壞的問題。
再者,傳統的雲端資料中心,主要是通過單點資料庫來儲存所有雲端主機的所有資訊,因此,當雲端主機的數量太多時,較容易發生資料庫的儲存空間不足,而需要擴充資料庫容量的問題。本發明讓每一台監控伺服器可以同時擔任資料庫的角色,也就是說,資料庫的數量即等同於監控伺服器的數量,這樣可以有效解決單一資料庫的儲存空間不足的問題。
由於本發明是通過多台監控伺服器,分別監控、儲存並處理對應類別的資訊,因此當任一監控伺服器損壞時,並不會影響其他監控伺服器的運作,系統只要重新建立一台新的監控伺服器,或是將雲端主機導向備用的監控伺服器即可。因此通過此一技術方案,實可以大幅降低監控伺服器損壞時對雲端資料中心所造成之影響。並且,每一台監控伺服器彼此知道其他監控伺服器所負責的資訊類別為何,因此當使用者要查詢雲端主機的特定資訊時,不會因為監控伺服器之分散而有查詢不到資料的問題。
茲就本發明之一較佳實施例,配合圖式,詳細說明如後。
首請參閱第一圖,為本發明的第一較佳具體實施例的系統架構圖。如圖所示,本發明的監控系統主要包括至少一台雲端主機1及複數台監控伺服器2,並且該複數監控伺服器2分別連接該至少一雲端主機1。本發明中,該複數監控伺服器2係用以監控該至少一雲端主機1的主機狀態,並且儲存、處理該至少一雲端主機1的狀態資訊。為方便說明,下面將於說明書內文中,僅以一台該雲端主機1為例來舉例說明,並且將該雲端主機1簡稱為該主機1。
該主機1及該些監控伺服器2皆可視為雲端資料中心內的一個端點(node),可由實體機器(Physical Machine,PM)或虛擬機器(Virtual Machine,VM)來實現,不加以限定。更甚者,該監控系統會依實際所需來指定任意一或多個端點當作該監控伺服器2之角色,因此,當以VM來實現時, 則同一台PM可同時擔任該主機1及該監控伺服器2之角色。也就是說,該主機1及該些監控伺服器2不一定得存在於PM中,也不一定要單獨存在,因為一台PM可以同時擔任多種角色,藉此讓本系統極具彈性。
續請參閱第二圖,為本發明的第一較佳具體實施例的時序示意圖。本發明中,該監控系統在指派複數端點的角色,以令複數端點成為該複數監控伺服器2時,即對該複數監控伺服器2進行分類,藉此,可由複數台該監控伺服器2來分別監控該主機1的不同類別的資訊。第二圖所示的實施例中,該複數監控伺服器2係以一第一監控伺服器201、一第二監控伺服器202及一第三監控伺服器203為例,然而,該複數監控伺服器2的數量,應視實際的分類狀況而定,不以三台為限。
舉例來說,可由該第一監控伺服器201來監控該主機1的CPU資訊、由該第二監控伺服器202來監控該主機1的硬碟資訊、由該第三監控伺服器203來監控該主機1的網路流量等。如此一來,若雲端資料中心具有一千台主機,則該一千台主機的CPU資訊皆由該第一監控伺服器201來監控、硬碟資訊皆由該第二監控伺服器202來監控、而網路流量資訊皆由該第三監控伺服器203來監控。
並且,該監控系統亦可通過大量的該監控伺服器2,將該主機1的資訊的類別再加以細分。舉例來說,可由該第一監控伺服器201來監控CPU的使用率、由該第二監控伺服器202來監控CPU的溫度、由該第三監控伺服器203來監控CPU的風扇轉速等,並由該三台監控伺服器201-203來共同監控該主機1的CPU資訊。然而,以上所述僅為本發明的較佳具體實例,不應以此為限。
如第二圖所示,當該主機1啟動後,係會先對外進行多重播送(Multicast)(步驟S10),同時發送封包至該監控系統中的所有該監控伺服器2。接著,由第一個接收該封包的監控伺服器(以該第一監控伺服器201為例)接受該主機1的註冊動作,並且於註冊完成後,該主機1會收到該第一控監伺服器201以單點播送(unicast)動作回覆的配置資訊(步驟S12)。值得一提的是,該主機1及該複數監控伺服器2分別具有一網路協定(Internet Protocol,IP)位址,彼此通過有線/無線網路來傳輸資料,因此,一般來說,當該主機1發出封包時,會由IP位址最接近該主機1的IP位址者,最先接收該封包。舉例來說,若該主機1的IP位址為1.1.1.1、該第一監控伺服器201的IP位址為1.1.1.5、該第二監控伺服器202的IP位址為1.1.3.1、該第三監控伺服器203的IP位址為1.7.1.1,可斷定該第一監控伺服器201的IP位址最接近該主機1的IP位址,因此會由該第一監控伺服器201最先接收到該封包,並且接受該主機1的註冊動作。
該主機1接收的該配置資訊中,主要包含了該第一監控伺服器201所提供的一分散雜湊表(如第第三圖中所示的分散雜湊表T1),該分散雜湊表T1中記錄了該複數監控伺服器2各自對應之類別。是以,該主機1可依據該分散雜湊表T1對本身的各項資訊進行分類,並且依照類別,分別傳送至對應的該些監控伺服器2(步驟S14)。例如前文所述,將CPU資訊傳送到該第一監控伺服器201、將硬碟資訊傳送到該第二監控伺服器202、將網路流量資訊傳送至該第三監控伺服器203。並且,各該監控伺服器2在被指派角色的同時,即已確定要負責監控、儲存與處理哪一個類別的資訊,因此其內部會被設定有對應該類別的資訊的規則。各該監控伺服器2在接收並儲存了該主機1傳來的資訊後,即可依據上述規則,各自對該些資訊進行後續的處理動作(步驟S16)。
如第二圖所示,本發明通過該複數監控伺服器2,分別監控、儲存並處理對應類別的資訊,因此可以有效解決傳統單一的伺服器或資料庫的負擔太大的問題。
參閱第三圖,為本發明的第一較佳具體實施例的雲端主機方塊圖。如圖所示,該主機1主要包括一第一控制單元11、一感測單元12、一第一傳輸單元13及一主機資料池14,其中該第一控制單元11連接該感測單元12、該第一傳輸單元13及該主機資料池14。該第一控制單元用以處理該主機1中之各項資訊。該感測單元12用以偵測該主機1本身的主機狀態,例如CPU、記憶體、硬碟及網路流量等,並且再依據偵測結果,產生複數的狀態資訊I1,其中,該複數狀態資訊I1係分別記錄不同類別的資訊。舉例來說,該主機1可產生四項類別的該狀態資訊I1,分別為CPU類別、記憶體類別、硬碟類別及網路類別,並且將該四項不同類別的狀態資訊I1,分別傳送至四台對應的該監控伺服器2中,藉以,通過該複數監控伺服器2來分類儲存該些狀態資訊I1。其中,每一個類別的該狀態資訊I1皆可為單筆或多筆,其數量並不以一為限。
該第一傳輸單元13用以連接該複數監控伺服器2,以將該些狀態資訊I1依類別傳送至對應的該複數監控伺服器2。該主機資料池(Storage pool) 14則用以暫存該感測單元12偵測所得的該些狀態資訊I1。如上所述,該主機1內部更具有該分散雜湊表T1,並且該分散雜湊表T1中記錄該複數監控伺服器2分別對應至哪一個類別的該狀態資訊I1。是以,當該主機1要對外傳送該些狀態資訊I1時,主要係參照該分散雜湊表T1,藉以將該些狀態資訊I1傳送至正確、對應的該複數監控伺服器2,以利該複數監控伺服器2分類儲存該些狀態資訊I1,並且依照預定規則,分別對該些狀態資訊I1進行後續處理。
請同時參閱第四圖,為本發明的第一較佳具體實施例的主機資料池方塊圖。如圖所示,該主機資料池14主要包括一佇列141及一本地端資料庫142,係分別連接該第一控制單元11。其中,該佇列141主要用以對待處理的資料進行排序,而該本地端資料庫142則用以暫存該主機1的該些狀態資訊I1。
更具體而言,當該複數監控伺服器2的其中之一損壞時,該主機1係可通過該本地端資料庫142,暫存該損壞的監控伺服器2對應的類別的該些狀態資訊I1。舉例來說,若該第一監控伺服器201用以儲存CPU的相關資訊,則當該第一監控伺服器201損壞時,該主機1會將CPU以外的該些狀態資訊I1依類別傳送至對應的該複數監控伺服器2,並將CPU的資訊暫存於該本地端資料庫142中。當該第一監控伺服器201被修復後,該主機1再將該本地端資料庫142內暫存的資訊傳送至該第一監控伺服器201。如此一來,不會因為該複數監控伺服器2損壞,而造成該主機1的該些狀態資訊I1遺失的問題。
參閱第五圖,為本發明的第一較佳具體實施例的監控伺服器方塊圖。如圖所示,該複數監控伺服器2中係分別包括一第二控制單元21、一資料庫22、一第二傳輸單元23、一分析單元24及一通知單元25,其中該第二控制單元21連接該資料庫22、該第二傳輸單元23、該分析單元24及該通知單元25。
該第二控制單元21用以處理該監控伺服器2內部的各項資訊。該第二傳輸單元23用以連接該主機1,藉以接收該主機1所傳送的對應類別的該些狀態資訊I1。該資料庫22用以儲存該第二傳輸單元23所接收的該些狀態資訊I1,因此,該監控系統中,不再需要設置額外的資料庫來儲存該主機1的資訊,而是將該複數監控伺服器2分別當作多台資料庫來使用。
值得一提的是,該複數監控伺服器2中分別具有一分散雜湊表T2,並且該分散雜湊表T2與該主機1中的該分散雜湊表T1具有一樣的內容。如上所述,該分散雜湊表T2中記錄該複數監控伺服器2所各自對應之類別,因此,每一台該監控伺服器2皆可查詢該分散雜湊表T2,得知其他的該監控伺服器2對應至哪一個類別的資訊。藉此,當任一台該監控伺服器2接受外部的查詢請求時,皆可通過該分散雜湊表T2的查詢,得知外部所要尋找的資訊存在哪一台該監控伺服器2中。雖然本發明是通過分散式的方式來監控、儲存並處理該主機1的多項狀態資訊I1,但是絕不會有找不到資料的問題。
該分析單元24用以對該資料庫22中儲存的該些狀態資訊I1進行分析,藉以判斷該主機1是否有異常事件發生,更具體而言,是判斷該主機1是否有對應類別的異常事件發生。舉例來說,若該第二監控伺服器202用以監控硬碟的相關資訊,則該第二監控伺服器202中的該分析單元24,即用以分析該主機1的硬碟資訊,並判斷該1是否有硬碟容量不足、壞軌或資料損毀等問題。
於一實施例中,各該監控伺服器2可依照類別來設定一預設門檻值,並且該分析單元24於該狀態資訊I1超過該預設門檻值時,判斷該主機1發生異常。例如,該第一監控伺服器201監控CPU的資訊,並設定CPU的溫度門檻值為60°C,於此實施例中,當該狀態資訊I1指出該主機1的CPU溫度超過60°C時,該第一監控伺服器201即判斷該主機1發生異常。然而以上所述僅為本發明的較佳具體實例,不應以此為限。
該通知單元25用以當該主機1被判定發生異常事件時,對外執行一通知程序。更具體而言,各該監控伺服器2可預先設定一預定規則,設定發生哪些狀況時,需要執行怎樣的通知程序。舉例來說,可由該預定規則規定,當該主機1的CPU溫度超過60°C時,發出一通知訊息給該主機1,並命令該主機1提高風扇的轉速;並且,由該預定規則規定,當該主機1的CPU溫度超過70°C時,發出另一通知訊息給該監控系統的管理人員,請管理人員至現場瞭解並排除狀況。然而以上所述僅為本發明的較佳具體實例,不應以此為限。
續請參閱第六圖,為本發明的第一較佳具體實施例的監控流程圖。要達到本發明的監控方法,則該主機1被啟動後,係需與該複數監控伺服器2取得連線。首先,該主機1先對外進行多重播送(步驟S20),接著,由該複數監控伺服器2中,最先接收該主機1的播送封包的該監控伺服器2來接受該主機1之註冊(步驟S22)。在該主機1註冊完成之後,該複數監控伺服器2即可為該主機1提供服務。並且,一般來說,會由IP位址最接近該主機1的IP位址者,最先接收到該播送封包,並接受該主機1之註冊,下述以該第一監控伺服器201為例來說明,但不加以限定。
當該第一監控伺服器201接受了該主機1的註冊之後,該主機1即可由該第一監控伺服器201得到相關的配置資訊(步驟S24),並且,該配置資訊中包含了該分散雜湊表T1。在該步驟S24之後,該主機1即可由該分散雜湊表T1來得知該複數監控伺服器2分別對應至哪一個類別,因此,該主機1不必再向其他的該監控伺服器2逐一進行註冊動作。
接著,該主機1即可通過內部的該感測單元12,偵測本身的主機狀態,並且依據偵測結果產生複數的該狀態資訊I1,其中該複數狀態資訊I1分別記錄不同類別的資訊(步驟S26)。最後,該主機1參照該分散雜湊表T1,將該些狀態資訊I1依類別傳送至對應的該複數監控伺服器2(步驟S28)。值得一提的是,在該主機1尚未被關閉(如運作於PM),或是尚未被刪除(如運作於VM)之前,該主機1都會持續偵測本身的狀態、產生該些狀態資訊I1、並依類別傳送至對應的該複數監控伺服器2。
接續請參閱第七圖,為本發明的第二較佳具體實施例的監控流程圖。當該主機1依類別來分別傳送該些狀態資訊I1後,該複數監控伺服器2將可分別接收自己所負責的類別的該些狀態資訊I1(步驟S30),並且,可通過內部的該資料庫22分別儲存該些同類別的狀態資訊I1(步驟S32)。接著,對該些狀態資訊I1進行分析,以判斷該主機1是否有異常事件發生(步驟S34)。
更具體而言,各該監控伺服器2內部分別為所負責的類別設定有上述的預設門檻值,各該監控伺服器2係分析該些狀態資訊I1是否超過該預設門檻值(步驟S36),並且於超過該預設門檻值時,認定該主機1發生異常事件。若分析後發現沒有異常,則回到該步驟S30,各該監控伺服器2持續接收該主機1傳來的該些狀態資訊I1。然而,若分析後發現該主機1發生異常事件,則該監控伺服器2依據上述的該預設規則,對外執行該通知程序(步驟S38),以直接控制該主機1,或是通知相關的管理人員。
接續請同時參閱第八圖及第九圖,分別為本發明的第二較佳具體實施例的系統架構圖,以及第一較佳具體實施例的查詢流程圖。如第八圖所示,該監控系統更可包括一應用程式介面(Application Programing Interface,API)伺服器3,連接該複數監控伺服器2。該API伺服器3主要是作為該監控系統的一查詢介面,接收外部終端4通過網路系統所傳來的查詢請求。該API伺服器3內部亦具有該分散雜湊表(圖未標示),因此,當該API伺服器3收到該外部終端4對於一特定類別(例如CPU)的該狀態資訊I1之查詢請求時,係可依據內部的分散雜湊表,連結到對應該特定類別的該監控伺服器2來進行查詢。
以該第三監控伺服器203為例,當該第三監控伺服器203收到一查詢請求時,會先判斷本身是否有儲存該特定類別(例如上述的CPU)的該狀態資訊I1,若有,則該第三監控伺服器203可直接以內部儲存的該狀態資訊I1回覆該查詢請求;若沒有,則該第三監控伺服器203會再參照該分散雜湊表T2,並建議該API伺服器3或該外部終端4可以到哪一台該監控伺服器2去尋找。
接著如第九圖所示,首先,當使用者要查詢該特定類別的該狀態資訊I1時,該API伺服器3會收到該外部終端4發出的該查詢請求(步驟S40),接著,即可依據該分散雜湊表,連結至對應該特定類別的該監控伺服器2中進行查詢(步驟S42)。當該監控伺服器2收到該查詢請求後,係需判斷其本身是否儲存有該特定類別的該狀態資訊I1(步驟S44)。若該監控伺服器2對應至該特定類別,則該監控伺服器2可直接以該特定類別的該狀態資訊I1回覆該查詢請求(步驟S46);若該監控伺服器2並非對應至該特定類別,則該監控伺服器2查詢內部的該分散雜湊表T2,並且建議該API伺服器3到可能對應該特定類別的其他監控伺服器2中進行查詢(步驟S48)。
前述實施例中,各該監控伺服器2係分別以單個端點(node)來實現,並且由該端點中的各個單元來分別執行各項工作。然而,若該監控系統中的該主機1數量過多,例如上萬台甚至數十萬台時,即使單一台該監控伺服器2只負責監控、儲存並處理單一類別的該狀態資訊I1,但仍可能發生過載的問題。是以,於另一實施例中,還可將各該監控伺服器2分別拆開,以多台實體或虛擬的伺服器來共同擔任一台該監控伺服器2的角色,藉此減低每一台伺服器的負擔。
參閱第十圖,為本發明的第三較佳具體實施例的系統架構圖。本實施例中,一監控伺服器5的角色,主要係由數台的伺服器來共同擔任。如圖中所示,該監控伺服器5主要包括了一代理伺服器51、一儲存伺服器52、一分析伺服器53及一通知伺服器54。然而,本實施例中係以四台伺服器為例,但應視該監控系統的實際所需而定,不應加以限定。
該代理伺服器51主要用以連接該主機1,並接收該主機1傳送的對應類別的該些狀態資訊I1,藉以,將該代理伺服器51做為該監控伺服器5與該主機1之間的連接介面。該儲存伺服器52用以儲存該代理伺服器51所接收的該些狀態資訊I1,藉以做為該監控伺服器5的一資料庫。
該分析伺服器53內部具有演算法及上述預定門檻值,主要係用以對該儲存伺服器52所儲存的該些狀態資訊I1進行分析,進而判斷該主機1是否有異常事件發生。其中,不同的該分析伺服器53內部具有的演算法及預定門檻值皆不相同,藉以,可由多台該分析伺服器53,分別分析該主機1的不同類別的該些狀態資訊I1。該通知伺服器54用以當該主機1被判定發生異常事件時,依據上述的預定規則,對外執行相對應的通知程序,例如,命令該主機1解決該異常事件,或通知管理人員到場進行瞭解與狀況排除等。
通過上述實施例之作法,可以將伺服器的負擔更進一步地分散,例如,若將該些狀態資訊I1分別五個類別,並且每一該監控伺服器5皆由四台伺服器來共同擔任,則該監控系統中,係由共二十台伺服器來監控、儲存並處理該主機1的該些狀態資訊I1。如此一來,絕不會發生單一伺服器或資料庫因過載而損壞的問題。
以上所述僅為本發明之較佳具體實例,非因此即侷限本發明之專利範圍,故舉凡運用本發明內容所為之等效變化,均同理皆包含於本發明之範圍內,合予陳明。
1...雲端主機
11...第一控制單元
12...感測單元
13...第一傳輸單元
14...主機資料池
141...佇列
142...本地端資料庫
2、5...監控伺服器
21...第二控制單元
22...資料庫
23...第二傳輸單元
24...分析單元
25...通知單元
3...應用程式介面伺服器
4...外部終端
51...代理伺服器
52...儲存伺服器
53...分析伺服器
54...通知伺服器
201...第一監控伺服器
202...第二監控伺服器
203...第三監控伺服器
I1...狀態資訊
T1、T2...分散雜湊表
S10~S16...步驟
S20~S28...步驟
S30~S38...步驟
S40~S48...步驟
第一圖為本發明的第一較佳具體實施例的系統架構圖。
第二圖為本發明的第一較佳具體實施例的時序示意圖。
第三圖為本發明的第一較佳具體實施例的雲端主機方塊圖。
第四圖為本發明的第一較佳具體實施例的主機資料池方塊圖。
第五圖為本發明的第一較佳具體實施例的監控伺服器方塊圖。
第六圖為本發明的第一較佳具體實施例的監控流程圖。
第七圖為本發明的第二較佳具體實施例的監控流程圖。
第八圖為本發明的第二較佳具體實施例的系統架構圖。
第九圖為本發明的第一較佳具體實施例的查詢流程圖。
第十圖為本發明的第三較佳具體實施例的系統架構圖。
1...雲端主機
201...第一監控伺服器
202...第二監控伺服器
203...第三監控伺服器
S10~S16...步驟

Claims (20)

  1. 一種管理雲端主機的監控系統,包括:
    一雲端主機,具有一感測單元,偵測該雲端主機的狀態,並依據偵測結果產生複數狀態資訊,該複數狀態資訊分別記錄不同類別的資訊;
    複數監控伺服器,分別連接該雲端主機,各該監控伺服器分別對應至該複數狀態資訊中之一個類別;
    其中,該雲端主機依據各該監控伺服器所對應之類別,將該複數狀態資訊分別傳送至對應的該複數監控伺服器,藉由該複數監控伺服器分類儲存該雲端主機的該些狀態資訊。
  2. 如申請專利範圍第1項所述的監控系統,其中該雲端主機具有一分散雜湊表,記錄該複數監控伺服器各自對應之類別,該雲端主機係依據該分散雜湊表,將該些狀態資訊依類別傳送至對應的該複數監控伺服器。
  3. 如申請專利範圍第2項所述的監控系統,其中該雲端主機包括:
    一第一傳輸單元,連接該複數監控伺服器,將該些狀態資訊依類別傳送至對應的該複數監控伺服器;
    一主機資料池,暫存偵測所得的該些狀態資訊;及
    一第一控制單元,連接該第一傳輸單元、該主機資料池及該感測單元,處理該雲端主機的各項資訊。
  4. 如申請專利範圍第3項所述的監控系統,其中該主機資料池包括一佇列及一本地端資料庫,該佇列對待處理的資料進行排序,並且當該複數監控伺服器的其中之一損壞時,該雲端主機通過該本地端資料庫暫存該損壞的監控伺服器對應的類別的該些狀態資訊。
  5. 如申請專利範圍第3項所述的監控系統,其中該複數監控伺服器分別包括:
    一第二傳輸單元,連接該雲端主機,接收該雲端主機傳送的對應類別的該些狀態資訊;
    一資料庫,儲存所接收的該些狀態資訊;及
    一第二控制單元,連接該第二傳輸單元及該資料庫,處理該監控伺服器的各項資訊。
  6. 如申請專利範圍第5項所述的監控系統,其中該複數監控伺服器分別包括該分散雜湊表,當該複數監控伺服器的其中之一接受該雲端主機之註冊時,將該分散雜湊表傳送至該雲端主機。
  7. 如申請專利範圍第6項所述的監控系統,其中該複數監控伺服器分別包括:
    一分析單元,連接該第二控制單元,對儲存的該些狀態資訊進行分析,判斷該雲端主機是否有異常事件發生;及
    一通知單元,連接該第二控制單元,當該雲端主機發生異常事件時,依據一預定規則對外執行一通知程序。
  8. 如申請專利範圍第7項所述的監控系統,其中更包括一應用程式介面(Application Programing Interface,API)伺服器,連接該複數監控伺服器,並具有該分散雜湊表,該應用程式介面監控伺服器接收外部終端對於一特定類別的狀態資訊之查詢請求時,係依據該分散雜湊表,至對應該特定類別的該監控伺服器進行查詢。
  9. 如申請專利範圍第3項所述的監控系統,其中該複數監控伺服器分別包括:
    一代理伺服器,連接該雲端主機,接收該雲端主機傳送的對應類別的該些狀態資訊;
    一儲存伺服器,儲存該代理伺服器接收的該些狀態資訊;
    一分析伺服器,對儲存的該些狀態資訊進行分析,判斷該雲端主機是否有異常事件發生;及
    一通知伺服器,當該雲端主機發生異常事件時,依據一預定規則對外執行一通知程序。
  10. 一種管理雲端主機的監控方法,包括:
    a)一雲端主機偵測本身的狀態,並產生複數狀態資訊,其中該複數狀態資訊分別記錄不同類別的資訊;
    b)連接複數監控伺服器,其中各該監控伺服器分別對應至該些狀態資訊中的一個類別;
    c)依據各該監控伺服器所對應之類別,將該些狀態資訊依類別傳送至對應的該複數監控伺服器。
  11. 如申請專利範圍第10項所述的監控方法,其中該步驟a之前包括下列步驟:
    a01)該雲端主機對外進行多重播送;
    a02)由最先接收該雲端主機播送的封包的該監控伺服器接受該雲端主機的註冊;
    a03)傳送一分散雜湊表至註冊完成的該雲端主機,其中該分散雜湊表記錄該複數監控伺服器各自對應之類別。
  12. 如申請專利範圍第11項所述的監控方法,其中該步驟a02中,係由該複數監控伺服器中,IP位址最接近該雲端主機的IP位址者最先接收該封包。
  13. 如申請專利範圍第10項所述的監控方法,其中更包括下列步驟:
    d)該複數監控伺服器分別接收對應類別的該些狀態資訊;
    e)儲存該些狀態資訊;
    f)分析該些狀態資訊,並判斷該雲端主機是否有異常事件發生;及
    g)當該雲端主機發生異常事件時,依據一預設規則對外執行一通知程序。
  14. 如申請專利範圍第13項所述的監控方法,其中該複數監控伺服器分別針對所對應的類別設置一預設門檻值,並且該步驟f包括:
    f1)分析該些狀態資訊是否超過該預設門檻值;及
    f2)當該些狀態資訊超過該預設門檻值時,認定該雲端主機發生異常事件。
  15. 如申請專利範圍第10項所述的監控方法,其中更包括下列步驟:
    h)該複數監控伺服器的其中之一接收一特定類別的狀態資訊之查詢請求;
    i)判斷該監控伺服器中是否儲存有該特定類別的狀態資訊;
    j)若該監控伺服器中儲存有該特定類別的狀態資訊,依據該狀態資訊回覆該查詢請求;及
    k)若該監控伺服器中沒有該特定類別的狀態資訊,該監控伺服器查詢一分散雜湊表,並建議發出該查詢請求之一外部終端至其他監控伺服器中查詢,其中該分散雜湊表記錄該複數監控伺服器各自對應之類別。
  16. 一種管理雲端主機的監控系統,包括:
    複數監控伺服器,分別對應處理不同類別的資訊,各該監控伺服器分別具有一分散雜湊表,記錄各該監控伺服器各自對應之類別;及
    一雲端主機,連接該複數監控伺服器,該雲端主機具有一感測單元,偵測該雲端主機的狀態,並依據偵測結果產生複數狀態資訊,其中該複數狀態資訊分別記錄不同類別的資訊;
    其中,該雲端主機由該複數監控伺服器的其中之一接收該分散雜湊表,並且依據該分散雜湊表,將該複數狀態資訊分別依類別傳送至對應的該複數監控伺服器,藉由該複數監控伺服器分類儲存該雲端主機的該些狀態資訊。
  17. 如申請專利範圍第16項所述的監控系統,其中更包括一應用程式介面(Application Programing Interface,API)伺服器,連接該複數監控伺服器,並具有該分散雜湊表,該應用程式介面監控伺服器接收外部終端對於一特定類別的狀態資訊之查詢請求時,係依據該分散雜湊表,連結到對應該特定類別的該監控伺服器進行查詢。
  18. 如申請專利範圍第16項所述的監控系統,其中該雲端主機包括:
    一第一傳輸單元,連接該複數監控伺服器,將該些狀態資訊依類別傳送至對應的該複數監控伺服器;
    一佇列,對待處理的該些狀態資訊進行排序;
    一本地端資料庫,當該複數監控伺服器的其中之一損壞時,暫存該損壞的監控伺服器對應的類別的該些狀態資訊;及
    一第一控制單元,連接該第一傳輸單元、該佇列、該本地端資料庫及該感測單元,處理該雲端主機的各項資訊。
  19. 如申請專利範圍第16項所述的監控系統,其中該複數監控伺服器分別包括:
    一第二傳輸單元,連接該雲端主機,接收該雲端主機傳送的對應類別的該些狀態資訊;
    一資料庫,儲存所接收的該些狀態資訊;
    一分析單元,對儲存的該些狀態資訊進行分析,判斷該雲端主機是否有異常事件發生;
    一通知單元,當該雲端主機發生異常事時,依據一預定規則對外執行一通知程序;及
    一第二控制單元,連接該第二傳輸單元、該資料庫、該分析單元及該通知單元,處理該監控伺服器的各項資訊。
  20. 如申請專利範圍第16項所述的監控系統,其中該複數監控伺服器分別包括:
    一代理伺服器,連接該雲端主機,接收該雲端主機傳送的對應類別的該些狀態資訊;
    一儲存伺服器,儲存該代理伺服器接收的該些狀態資訊;
    一分析伺服器,對儲存的該些狀態資訊進行分析,判斷該雲端主機是否有異常事件發生;及
    一通知伺服器,當該雲端主機發生異常事件時,依據一預定規則對外執行一通知程序。
TW101135838A 2012-09-28 2012-09-28 管理雲端主機的監控系統及其監控方法 TW201413467A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW101135838A TW201413467A (zh) 2012-09-28 2012-09-28 管理雲端主機的監控系統及其監控方法
US14/020,154 US20140095703A1 (en) 2012-09-28 2013-09-06 System for managing and monitoring cloud hosts and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101135838A TW201413467A (zh) 2012-09-28 2012-09-28 管理雲端主機的監控系統及其監控方法

Publications (1)

Publication Number Publication Date
TW201413467A true TW201413467A (zh) 2014-04-01

Family

ID=50386310

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101135838A TW201413467A (zh) 2012-09-28 2012-09-28 管理雲端主機的監控系統及其監控方法

Country Status (2)

Country Link
US (1) US20140095703A1 (zh)
TW (1) TW201413467A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI499918B (zh) * 2014-05-21 2015-09-11 Nat Univ Tsing Hua 執行應用於安卓系統之應用程式之雲端管理系統及其方法
TWI554882B (zh) * 2014-05-09 2016-10-21 萊芙麥斯公司 用於儲存網路強固性計算的方法、電腦可讀取媒體及電子裝置
CN107526671A (zh) * 2017-09-04 2017-12-29 安徽爱她有果电子商务有限公司 一种基于数据云的计算机状态监测系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022664A (zh) * 2015-06-10 2015-11-04 柳州市智融科技有限公司 互联网信息处理系统
CN107104852A (zh) * 2017-03-28 2017-08-29 深圳市神云科技有限公司 监控云平台虚拟网络环境的方法及装置
CN110740078B (zh) * 2019-09-26 2023-08-22 平安科技(深圳)有限公司 一种服务器的代理监测方法及相关产品
CN110784337B (zh) * 2019-09-26 2023-08-22 平安科技(深圳)有限公司 一种云服务质量监控方法及相关产品
CN111371841B (zh) * 2020-02-17 2023-04-07 平安科技(深圳)有限公司 一种数据监控的方法及装置
CN115733731A (zh) * 2022-11-18 2023-03-03 济南浪潮数据技术有限公司 一种云主机中gpu监控方法、装置、宿主机和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972578B2 (en) * 2011-12-16 2015-03-03 Microsoft Corporation Master data management system for monitoring cloud computing
US9069761B2 (en) * 2012-05-25 2015-06-30 Cisco Technology, Inc. Service-aware distributed hash table routing

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI554882B (zh) * 2014-05-09 2016-10-21 萊芙麥斯公司 用於儲存網路強固性計算的方法、電腦可讀取媒體及電子裝置
US9531610B2 (en) 2014-05-09 2016-12-27 Lyve Minds, Inc. Computation of storage network robustness
TWI499918B (zh) * 2014-05-21 2015-09-11 Nat Univ Tsing Hua 執行應用於安卓系統之應用程式之雲端管理系統及其方法
CN107526671A (zh) * 2017-09-04 2017-12-29 安徽爱她有果电子商务有限公司 一种基于数据云的计算机状态监测系统

Also Published As

Publication number Publication date
US20140095703A1 (en) 2014-04-03

Similar Documents

Publication Publication Date Title
TW201413467A (zh) 管理雲端主機的監控系統及其監控方法
US11463303B2 (en) Determining the health of other nodes in a same cluster based on physical link information
US10069642B2 (en) Method of autonomic representative selection in local area networks
US20160330067A1 (en) Network Service Fault Handling Method, Service Management System, and System Management Module
WO2017064766A1 (ja) 管理装置、管理方法、および、管理プログラム
US9438476B2 (en) Self-organization of a satellite grid
US10411742B2 (en) Link aggregation configuration for a node in a software-defined network
US11283907B2 (en) Determining state of virtual router instance
US20160156516A1 (en) Monitoring device, method, and medium
US11283638B1 (en) Determining the status of a node based on a distributed system
TWI647930B (zh) 判斷來自於網路裝置的操作資料的方法及發送操作資料給網路裝置的方法
JP6220625B2 (ja) 遅延監視システムおよび遅延監視方法
US20230059940A1 (en) Systems and methods for application health based network traffic routing in a geographically distributed cloud service
JP2012181744A (ja) 分散ファイルシステムにおける運用監視システム及び運用監視方法
TW201430584A (zh) 管理雲端主機的監控系統及其監控方法
US8458529B2 (en) Logical entity fault isolation in network systems management
TW202026879A (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法(三)
Cisco Monitoring Cisco Server Load Balancing Devices
Cisco Monitoring Cisco Sever Load Balancing Devices
JP6278868B2 (ja) 通信制御装置および計算装置
US11314573B2 (en) Detection of event storms
TWI685740B (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法(一)
JP6513001B2 (ja) 故障検知装置、故障検知方法、及びプログラム
US8719633B2 (en) Search device, search method, and search program
US20240106886A1 (en) Systems and methods for intelligent load balancing of hosted sessions