TW201423398A - 虛擬機至實體機之間相關性能問題的根源分析的方法與系統 - Google Patents
虛擬機至實體機之間相關性能問題的根源分析的方法與系統 Download PDFInfo
- Publication number
- TW201423398A TW201423398A TW101150186A TW101150186A TW201423398A TW 201423398 A TW201423398 A TW 201423398A TW 101150186 A TW101150186 A TW 101150186A TW 101150186 A TW101150186 A TW 101150186A TW 201423398 A TW201423398 A TW 201423398A
- Authority
- TW
- Taiwan
- Prior art keywords
- physical
- level
- application
- events
- event
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45591—Monitoring or debugging support
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
根據一實施例,一種根源分析的方法利用一應用-層級相依性發現及異常性偵測來找到一或多個虛擬機中的應用-層級相依性,並且產生一異常性應用-層級拓撲,然後將此異常性應用-層級拓撲轉換至一虛擬機層級相依性,將此虛擬機層級相依性經由一實體與虛擬資源對應轉換至一實體機層級相依性,並產生一組事件集合。此組事件集合藉由優先化而產生一優先順序的事件清單。
Description
本揭露係關於一種虛擬機(Virtual Machine,VM)至實體機(Physical Machine,PM)之間相關性能問題的根源分析的方法與系統。
網路通信和硬體/軟體技術的迅速發展帶來巨大的電子化服務,而豐富人類的日常生活。隨著虛擬化技術的成長和進步,這些服務可能會轉移到虛擬機上運行。有些技術可提供例如計算能力,資料存取,和網路轉型等服務設施來建立新的經濟模式。例如,的一個在雲端計算(could computation)領域被稱為基礎架構即服務(Infrastructure as a Service,IAAS)的模型。做為擁有一實體資料中心的IAAS提供商,監控整個實體資料中心來了解服務設施的狀況,例如冷卻系統和電源供應/不斷電(Uninterruptible Power Supply,UPS)系統、或是實體裝置的使用是絕對需要的,並且許多現有的監控系統,例如Zenoss與WhatsUp,可以支援這些需求。
一現有的技術揭露了一種以文字學習(Learning with Text,LWT)方法,來辨識虛擬機之間(inter-VM)相依性(dependency)。此方法集成於一Xen的虛擬機監視程式(hypervisor)且在一小型資料中心上執行。另一種技術介紹利用虛擬化的伺服器整合(server consolidation)的概念。為
了符合服務水平協議(Service Level Agreement,SLA),當性能問題被偵測到時,此技術根據一演算法,來遷移在一群實體機內的多個虛擬機。還有一技術提供一種在虛擬化環境中,控制應用性能和動態分配資源的系統。此技術預測資源需求來符合應用-層級(application-level)的性能要求。還有一技術揭露一種相關性警示(alarm correlation)演算法。此技術根據TCP/IP模式,並且此相關性警示(或相關性事件)是網路管理系統中的一關鍵功能(key function)。此技術根據每一TCP/IP協定的類型的一識別器,例如TCP中的入口數(port number)來分類多種警示,然後聚集這些警示,找出根源警示(root cause alarm)。
有一些既有的應用性能問題的根源分析技術,其中有一技術提到以監控具有多組件的交易來收集組件層級(component-level)的資訊,並且對於超過一臨界值的交易,可以分析來自單一組件所收集到的資料,以找出性能問題的潛在根源。另一技術揭露一監控系統,此系統包含了監控和報告性能參數的代理程式組件(agent components),例如響應時間,並且可使用一基於網站(web-based)的伺服器來顯示收集到的資料。還有一根源分析系統運用統計演算法來偵測一些特定參數的性能下降,並且使用一些預定的參數相依性規則來將此性能下降關連至問題的根源。還有一技術使用從代理程式收集到的交易的性能度量(performance metrics),並且與基準度量(baseline metrics)比較以自動地偵測異常性,並且藉由一監
控系統來報告超出可接受範圍(acceptable range)的交易的組件並且做為根源。
有一技術揭露一種稱為應用-層級的相依性發現和維護的中央伺服器、以及一集成在監督器((hypervisor)中的系統模組,用來為一特定的應用收集緒程粒度(thread granularity)的應用軌跡(application trajectory)和應用-層級的相依性地圖(dependency map)。第一圖是一應用軌跡的範例,此應用軌跡備有瀏覽器的一根節點(root node)、一開始時間、以及一結束時間。其中第一圖中的應用軌跡100從瀏覽器1開始,並且如果一應用A與另一應用B交換資料並且應用A是A連接到B的一客戶端,則應用A相依於應用B。例如,如果負載平衡器(應用A)與應用伺服器2(應用B)交換資料,則負載平衡器相依於應用伺服器2。換句話說,一應用軌跡可以相當於一軌跡的靜態圖(static view)。虛擬機或實體機的資訊可以添加到應用軌跡,來幫助對應用佈建的理解。
上述工作或技術只關注實體機的使用情況和工作量而忽略虛擬機資源分配的硬體問題、或者只關注實體機上的硬體問題或性能問題而沒有與虛擬化的概念整合。然而,現有的監控系統或網路監控系統(Network Monitoring System,NMS)可能無法診斷在實體資料中心運行的虛擬機之間的性能問題,而這些性能問題的根源可來自實體資料中心的硬體問題,例如有蟲的(buggy)磁碟機或是超載的
交換機等等。所以,解決虛擬機至實體機器之間的相關性能的問題是重要的。
本揭露實施例提供一種一種虛擬機至實體機之間相關性能問題的根源分析的方法與系統。
本揭露的一實施例是關於一種虛擬機至實體機之間相關性能問題的根源分析的方法,此方法適應於一實體資料中心並且可包含:利用一應用-層級相依性發現及異常性偵測(anomaly detection)來找出一或多個虛擬機中的應用-層級相依性,並且產生一異常性應用-層級拓撲(topology);將此異常性應用-層級拓撲轉換至一虛擬機層級相依性(VM-level dependency);將此虛擬機層級相依性經由一實體與虛擬資源對應(physical and virtual resource mapping)轉換至一實體機層級相依性(PM-level dependency),並且產生一組事件集合;以及將此組事件集合優先化而產生一優先化的(prioritized)事件清單(event list)。
本揭露的另一實施例是關於一種虛擬機至實體機之間相關性能問題的根源分析的系統,此系統可適應於一實體資料中心並且可包含一應用-層級異常性偵測模組(application-level anomaly detection module)、一摘取模組(abstraction module)、以及一事件產生與優先化模組(event
generation and prioritization module)。此應用-層級異常偵測模組配置來找出在此實體資料中心的一或多個實體機上運行的一或多個虛擬機的一應用-層級相依性,並且產生一異常性應用-層級拓撲。此摘取模組配置來將此異常性應用-層級拓撲摘取至一VM-層級相依性,然後將此VM-層級相依性轉換至一PM-層級相依性。此事件產生與優先化模組配置來取得一PM通訊拓撲,利用此PM通訊拓撲來產生一組事件集合,並且將此組事件集合優先化而產生一優先化的事件清單。
茲配合下列圖示、實施例之詳細說明及申請專利範圍,將上述及本發明之其他優點詳述於後。
本揭露實施例揭露一種虛擬機至實體機之間的相關性能問題的根源分析的技術。在本揭露中,使用一基礎架構即服務(IAAS),其中一或多個虛擬機可以在備有多個實體裝置的實體機、多個網路儲存器、以及多個交換機,之實體裝置的至少一資料中心上運行,並且此資料中心可以參考一實體資料中心。一個實施的情境範例如下所述。一虛擬資料中心營運商從實體資料中心營運商租用資源,以創建他/她自己的虛擬資料中心,發現在虛擬資料中心的應用性能問題。此應用性能問題可以是,但不限於,從一網站得到一個很長的回應時間。在此情境下,本揭露實施例可以監控此實體資料中心的這些實體裝置,其中多個虛擬
機正運行在這些實體裝置上,並且可藉由將性能問題關聯至硬體問題而找出在一同樣的虛擬資料中心的多個虛擬機之間的性能問題的根源。
根據本揭露實施例,將在一或多個實體機上運行的虛擬機的性能問題關聯至實體機的硬體問題,可能涉及到一些組件,例如是應用-層級相依性的發現和異常性的偵測、實體與虛擬資源對應、事件產生與強化的硬體監控、根源分析的事件優先化流程等。換句話說,本揭露實施例將虛擬機上的性能問題轉換至實體機上的硬體問題,來幫助找出和解決根源,並且此根源分析技術可以藉由使用應用-層級相依性、實體/虛擬資源對應、以及網路路由資訊來完成。
第二圖是根據本揭露一實施例,說明一種虛擬機至實體機之間相關性能問題的根源分析的方法。參考第二圖,此方法可使用一應用-層級相依性發現和異常性偵測來找出在一或多個虛擬機(VMs)中的應用-層級相依性,並產生一異常性應用-層級拓撲(步驟210),然後將此異常性應用-層級拓撲轉換至一虛擬機-層級相依性(步驟220)。此方法然後執行一實體與虛擬資源對應,將此虛擬機-層級相依性轉換至一實體機-層級(PM-level)相依性(步驟230)。此方法產生一組事件集合,還可將此組事件集合優先化而產生一優先化的事件清單(步驟240)。第二圖之根源分析方法的運作流程的可以推建給一實體資料中心的一管理者,來
分析客戶端的多個虛擬機之間相關性能問題的根源。以下進一步詳細描述所涉及的每一步驟。
在步驟210中,集成在一監督器中的一個稱為應用-層級相依性發現和維護(Application-level Dependency Discover and Maintenance,ADDM)的中央伺服器和一個系統模組可用來收集一特定應用其緒粒度(thread granularity)的應用軌跡以及應用-層級相依地圖。一個以瀏覽器為一根節點的應用軌跡的例如第一圖的範例,其開始時間等於0:00,結束時間等於4:00。虛擬機或實體機的資訊也可以添加到一應用軌跡,來幫助對應用佈建的理解。例如,在所揭露的一範例中,使用一往後追蹤(backward trace),可以獲得每一跳躍(hop)之相關的拖延時間(delay time)或延遲(lat ency)。在正常的環境下,它可多次收集整個應用的開始和結束的時間間隔來找出關於每一跳躍(稱為一訓練階段)的一平均延遲(average latency)。換句話說,在應用軌跡上的關於每一跳躍的一平均延遲可以在一訓練階段被找到。藉由加入一相對應的增量時間週期(作為一容忍度)於每一跳躍的平均延遲(或是只使用關於每一跳躍的平均延遲),可以產生每一跳躍的一基線延遲(baseline latency)。當一ADDM伺服器被要求來收集整個特定應用的目前回應時間時,此ADDM伺服器也可以檢查並決定關於每一跳躍的平均延遲是否超過其相對應的基線延遲。這些延遲超過其相對應的基線延遲的跳躍則被偵測為異常。
在步驟220中,虛擬機的實體資源使用可涉及到計算能力、資料存取、以及網路傳輸。在計算能力方面,本揭露實施例可使用一儲存庫(repository)來保持運行關於一特定虛擬機的哪一實體機的資訊。當建立一虛擬機或一虛擬機被遷移後,不管使用何種虛擬機建立/遷移演算法(例如資源分配演算法),此虛擬機正運行在哪一實體機上是可以被得知的。在資料存取方面,本揭露實施範例可使用一儲存庫來保存關於一虛擬卷(virtual volume)被附加的哪一虛擬機的資訊、以及可使用一儲存庫來保存關於一虛擬卷與哪一網路儲存裝置相關的資訊。換句話說,當建立虛擬卷時哪一虛擬卷被一特定虛擬機所使用、以及將這些虛擬卷附加於此特定虛擬機時這些卷是位於哪些網路儲存器(network storages)的資訊也可以被保存在儲存庫中。並且,保存儲存庫中的資訊可以與任何虛擬化演算法結合。
另一方面,在網路傳輸方面,本揭露實施例可使用至少一儲存庫來保存關於虛擬機的資料是如何被轉移至網際網路的資訊、或是資料是如何在相同虛擬資料中心的兩個虛擬機之間傳送的資訊。要知道此答案,本揭露實施例保存多個實體上每一對實體機之間的一路由路徑的資訊、以及多個實體機中每一實體機和多個實體裝置中每一實體裝置彼此之間的至少一路由路徑的資訊。這些資訊可以保存在至少一儲存庫中。一實體裝置可以是,但並不限於一閘道器,或是一網路裝置如一交換機、一實體儲存器
等。一對實體機之間的路由路徑是指一實體機發送封包/畫面(frame)至遵循此路徑的其他實體裝置。因為虛擬機運行在哪些實體機上是被知道的,所以,在兩虛擬機之間如何傳輸資料可以被得知。
第三圖是根據本揭露一實施例,說明設立在多個實體裝置的代理程式,用來接收/回應實體資料中心管理(Physical Data Center Management,PDCM)的請求。如第三圖所示,一代理程式可以安裝在每一受監控的實體裝置上,用來接收/回應實體資料中心管理(PDCM)的請求。此代理程式可以收集實體裝置的資訊,並且將此資訊保存在一相對應的儲存庫中。此實體裝置的資訊可以是,但不限於,製造廠、CPU/記憶體利用率、自由分割空間、介面位元/錯誤率、以及其他資訊。此代理程式可以由IPMI、SMART、或解析的系統記錄和系統命令如“top”或“xentop”的結果來得到實體資訊。當此代理程式從一伺服器,例如一PDCM伺服器300的監控模組310接收到一請求時,它可以將相對應的值送回至PDCM伺服器300來取得此PDCM伺服器的實體裝置資訊。一實體資料中心(Physical Data Center,PDC)的一管理員可以設置一探測週期(probing period),例如350秒,來發送請求給此實體資料中心中的每一實體裝置,並且在每一探測週期(即350秒)得到對應於每一實體裝置(如在一實體機PM1的一中央處理單元(CPU)溫度50℃)的一最後值(a last value)。
在步驟230中,本揭露實施例也可以設置不同的門檻值(threshold)來提供給對應於不同的實體裝置的不同的最後值。當所取得的值超過其相對應的給定的門檻值時,此伺服器例如一PDCM伺服器,可以產生相對應的實體裝置的相對應的事件來通知此實體資料中心。並且,PING請求可以用來檢查一實體裝置是否可連繫的(reachable)。監控模組已經被商業化,例如Zenoss或WhatsUp。所產生的事件中有些事件可能有相關性,其中,一組事件可能有一同樣的根源。當相關的事件產生後,本揭露實施例也可以使用現有的演算法來強化此組事件。
在步驟240中,根據一事件優先化演算法(event prioritization algorithm)可以將該組事件集合優先化,稍後將描述。在優先化事件清單中,具有一前面順序(former order)的事件有更高的機率是性能問題的根源,並且它們應該要比有一後面順序(later order)的那些事件較快解決。結合上述在210~240步驟中所涉及的組件,以下說明一應用範例(exemplary application)的整體運作流程,此運作流程藉由將一同樣的虛擬資料中心中的虛擬機之間的性能問題關連至硬體問題,來分析性能問題的根源。
根據步驟210,可請求一ADDM伺服器來取得一虛擬資料中心中的多個應用的目前延遲,以及偵測異常性。第四圖是根據本揭露一實施例,說明在一虛擬資料中心裡的一應用相依拓撲的範例。如第四圖中的應用相依拓撲所
示,此ADDM伺服器也判斷出正被這些應用運行的虛擬機,並且檢查來判定這些應用之間每一跳躍得到的目前延遲是否超過其相對應的基線。第五圖是根據本揭露一實施例,說明第四圖之應用-層級相依圖中的應用正運行其上的虛擬機以及被偵測到的異常。例如,虛線箭頭表示從虛擬機VM1的瀏覽器到虛擬機VM2的DNS伺服器的跳躍被偵測到異常,並且在應用-層級相依地圖中有四個被偵測到異常。此四個異常所對應的虛擬機(以VM1、VM2、VM3、及VM4表示)的資訊可以被送至一PDCM伺服器。
根據步驟220,被虛擬機使用的虛擬卷可以從資源庫取得並且應用-層級至虛擬機層級也被摘取。所以,VM1、VM2、VM3、及VM4中每一虛擬機被附加的虛擬卷被找到,如第六圖所示,並且在PDCM服務器中,從應用-層級的觀點摘述至虛擬機層級的觀點。並且,任何兩虛擬機,例如VMA和VMB,有相互之間的通訊,是指在此兩虛擬機上運行的應用有相互之間的通訊。例如,第六圖中的VM2和VM3具有相互之間的通訊。其理由是VM2上的Web服務器和VM3上的負載均衡器相互通訊。並且,此兩虛擬機被認定是有相互通訊,從而VM2和VM3之間存在一鏈結(link),如第六圖所示。一虛擬機和一卷之間的鏈結表示此卷被附加至此虛擬機。例如,卷2被附加至虛擬機VM2。
根據步驟230,實體機和實體裝置例如儲存裝置的資
訊可以從儲存庫中取得,並且此虛擬機層級被摘取至一實體機層級。所以,第六圖中虛擬機層級的觀點還被摘取至實體機層級的觀點。換句話說,虛擬機或虛擬卷正在運行或保留其上的哪一實體機或實體儲存器可以在至少一儲存庫中找到。第七圖是根據揭露一實施例,說明從第六圖中的虛擬機層級摘取至實體機層級的一示意圖。任何兩實體機,例如PMA和PMB,有相互之間的通訊,是指在此實體機上運行的虛擬機有相互之間的通訊。例如,第七圖中的PM1和PM3有相互之間的通訊。其理由是PM1中的VM2和PM3中的VM3相互通訊。一實體機與一實體儲存器有相互之間的通訊,是指在實體機上運行的虛擬機和附加到實體儲存器的卷有相互之間的通訊。例如,PM3中的VM3和實體儲存器3的卷3有相互之間的通訊。
經過第七圖的摘取程序後,在第五圖之虛擬資料中心的原來的應用-層級相依性被轉換成一實體資料中心的實體機層級相依性。第八圖是根據揭露一實施例,說明在實體資料中心的實體機和實體網路儲存器之間的通訊。其中,在PM通訊拓撲800中,兩實體機之間的鏈結是指兩實體機有相互之間的通訊,並且一實體機和一實體儲存器之間的鏈結是指此實體機和此實體儲存器有相互之間的通訊。
如之前所述,本揭露實施例可使用至少一儲存庫來保存多個實體機的每一對實體機之間的路由路徑的資訊,以
及多個實體機的每一實體機和多個實體裝置的每一實體裝置之間的至少一路由路徑的資訊。依此,對於被認定是有相互通訊的任何兩實體機,本揭露實施例可以從儲存庫中取得兩實體機之間的路由路徑(即資料傳輸路徑),並且取得相對應的事件。例如,第九圖是根據本揭露一實施例,說明兩個彼此通訊的實體機(例如PMA與PMB)之間的路由路徑910,和所得到的相對應的事件920。如第九圖所示,從PMA到PMB的路由路徑910經過交換機A、交換機B、然後交換機C。將資料傳輸路徑中關係到實體裝置的所有目前事件(這些事件已經被整理過的)收集後,形成PMA_PMB對(pair)的一事件集合。此PMA_PMB對的事件集合包括PMA的事件、交換機A的事件、交換機B的事件、交換機C的事件和PMB的事件。
依此,對於任何兩個被認定為有彼此通訊的實體機,本揭露實施例可以取得一相對應的事件集合。所以,藉由利用實體機通訊拓撲可以形成一組事件集合。第十圖是根據本揭露一實施例,說明第八圖中實體機通訊拓撲圖800的一組事件集合1000。在第十圖中,此一組事件集合1000可包括PM1_PS1對的一事件集合、PM1_PM3對的一事件集合、PM2_PM3對的一事件集合、PM3_PS2對的一事件集合、以及PM2_PS3對的一事件集合,其中PM代表實體機以及PS代表實體儲存器。可以看出,一組事件集合的事
件集合的數量等於實體機通訊拓撲中的鏈結的數量。換句話說,此PM-層級相依性是一PM通訊拓撲,並且藉由利用此PM通訊拓撲可以產生此組事件集合。
根據步驟240,一組事件集合還可依據一事件優先化演算法將其優先化。依據此事件優先化演算法的一實施範例,對於此組事件集合中的一事件,當此事件包含於兩個事件集合中,可定義此事件的一支持計數(support count)。一事件的支持計數可以被定義為出現此事件的事件集合的數量。所以,在一組事件集合中的每一事件的支持計數可以算出,然後將所有相對應的事件依其支持計數的一漸減順序(decreasing order)來排序。當兩事件有相同的支持計數時,可根據事件嚴重度(event severity)將它們排序。第十一圖是根據本揭露一實施例,說明來自第十圖中的一組事件集合的已優先化的一組事件清單1100。此組事件清單1100還可被送至實體資料中心。
如第十一圖中所示,在事件清單1100中的每一事件可關聯一裝置,例如一實體機或一實體裝置,並且具有此裝置的一關聯訊息,此關聯訊息對應此裝置的一硬體問題。如前面提及的,具有一前面順序的事件有更高的機率是性能問題的根源,並且比一個後面順序的事件更快解決此前面順序的事件的性能問題是更好的。例如,事件A相關聯的裝置名為SwitchA具有CPU利用率超過85%的一
訊息,並且此CPU利用率超過85%具有最高的機率是性能問題的根源。
上述優先化此組事件集合1000的原則是一通用的硬體問題,例如,一交換機的過載,是在同樣的虛擬資料中心的虛擬機之間的相對應性能問題的瓶頸並且以較高的優先權來解決是可以加快強化性能。此組事件集合中的事件超過次數的計數是優先化的基本思路。一組事件集合的事件優先化演算法可以有很多變化。例如,對於事件的每一種類,可以考慮事件的嚴重度和裝置型態(device type)給予一特定的權重(而不是1),並且藉由利用加權的(weighted)支持計數將事件優先化。
所以,根據本揭露實施例,根源分析的事件優先化的運作流程如第十二圖所示。其中此運作流程可包括一應用-層級的異常偵測(步驟1210)以得到異常性應用-層級拓撲,一第一摘取程序(Abstraction procedure)(從應用-層級至VM-層級)(步驟1220)以取得一VM-層級相依性,一第二摘取程序(從VM-層級至PM-層級)(步驟1230),以取得一PM-層級相依性,從PM-層級相依性產生一組事件集合(步驟1240),和一事件優先化(步驟1250)以產生一優先事件清單。其中,於兩摘取程序的期間,可使用至少一儲存庫來保存PM/VM對應的資訊並且產生此組事件集合。本揭露實施例可使用一監控模組來產生此組事件集合的每一事件。
本揭露實施例的根源分析可適應於具有多個實體機、一或多個網路儲存器、以及一或多個網路裝置的一實體資料中心(PDC)。一實體資料中心管理模組可用來連續監控此實體機、此網路儲存器、以及此網路裝置,並且產生硬體組件的事件來分析硬體組件相對應的性能問題。本揭露實施例可使用至少一儲存庫來保存正在被虛擬機運行的哪一實體機、一虛擬卷附加在哪一虛擬機、一虛擬卷是與哪一些網路儲存器有關連、以及任何兩實體裝置之間的路由路徑的資訊。
所以,根據一實施範例,一種虛擬機至實體機之間相關性能問題的根源分析的系統如第十三圖所示。參考第十三圖,虛擬機至實體機之間相關性能問題的根源分析的系統1300可以適應於一實體資料中心,並且可包含一應用-層級異常偵測模組1310、一摘取模組1320、以及一事件產生和優先化模組1330。應用-層級異常偵測模組1310配置來找出在此實體資料中心的多個實體機(PMs)上運行的一或多個虛擬機(VMs)中的應用-層級相依性,並且產生一異常性應用-層級拓撲。摘取模組1320配置來將此異常性應用-層級拓撲摘取至一VM-層級(VM-level)相依性,將此VM-層級相依性轉換至一PM-層級(PM-level)相依性。事件產生和優先化模組1330配置來得到一PM通訊拓撲,藉由利用此PM通訊拓撲來產生一組事件集合,並且將此組事件集合優先化而產生一優先化的事件清單。
系統1300可以集成在一實體資料中心管理系統模組以連續地監視此此實體資料中心中的多個實體機、以及一或多個實體裝置。一實體裝置可以是,但並不限於,一閘道器、或是一網路裝置如一交換機,一實體儲存器等。系統1300還可包括至少一儲存庫來保存多個實體機的每一對實體機之間的路由路徑的資訊、以及此多個實體機的每一實體機和此多個實體裝置每一實體裝置之間的至少一路由路徑的資訊。提取模組1320可以從儲存庫中取得虛擬機使用的虛擬卷的資訊,並且可以從儲存庫中取得此多個PM和一或多個實體儲存器的資訊,以摘取VM-層級相依性至PM-層級相依性。此事件產生和優先化模組可以從儲存庫中取得此多個實體機的每一對實體機之間的路由路徑的資訊,用來產生路由路徑上對應於多個實體裝置的多個事件。一組事件集合的優先化演算法的範例已被描述過,此處省略。
綜上所述,本揭露實施例提供了一種技術,此技術藉由利用應用-層級相依性、實體/虛擬資源對應、以及網路路由資訊來完成根源分析。此技術使用一應用-層級異常偵測而得到一異常性應用-層級拓撲,執行一摘取程序(從應用-層級至VM-層級)而得到一VM-層級相依性,以及一摘取程序(從VM-層級至PM-層級)而得到一PM通訊拓撲,然後從PM通訊拓撲產生一組事件集合。並且,此技術執行一優先化演算法來產生一優先事件清單。
以上所述者僅為本揭露實施例,當不能依此限定本揭露實施之範圍。即舉凡本發明申請專利範圍所作之均等變化與修飾,皆應仍屬本發明專利涵蓋之範圍。
100‧‧‧應用軌跡
210‧‧‧使用一應用-層級相依性發現和異常性偵測來找出在一或多個虛擬機(VMs)中的應用-層級相依性,並產生一異常性應用-層級拓撲
220‧‧‧將此異常性應用-層級拓撲轉換至一虛擬機-層級相依性
230‧‧‧執行一實體與虛擬資源對應,將此虛擬機-層級相依性轉換至一實體機-層級相依性
240‧‧‧產生一組事件集合,並且將此組事件集合優先化而產生一優先化的事件清單
300‧‧‧實體資料中心管理伺服器
310‧‧‧監控模組
PM1~PM3‧‧‧實體機
VM1~VM4‧‧‧虛擬機
800‧‧‧實體機通訊拓撲圖
910‧‧‧路由路徑
PMA~PMB‧‧‧實體機
1000‧‧‧一組事件集合
PS‧‧‧實體儲存器
1100‧‧‧事件清單
1210‧‧‧應用-層級的異常偵測
1220‧‧‧摘取程序(從應用-層級至VM-層級)
1230‧‧‧摘取程序(從VM-層級至PM-層級)
1240‧‧‧產生一組事件集合
1250‧‧‧事件優先化
1300‧‧‧虛擬機至實體機之間相關性能問題的根源分析的系統
1310‧‧‧應用-層級異常偵測模組
1320‧‧‧提取模組
1330‧‧‧事件產生和優先化模組
第一圖是一種應用軌跡的一範例示意圖。
第二圖是根據本揭露一實施例,說明一種虛擬機至實體機之間相關性能問題的根源分析的方法。
第三圖是根據本揭露一實施例,說明設立在多個實體裝置的代理程式,用來接收/回應PDCM請求。
第四圖是根據本揭露一實施例,說明在一虛擬資料中心裡的一應用相依拓撲的範例。
第五圖是根據本揭露一實施例,說明第四圖之應用-層級相依圖中的應用正運行其上的虛擬機以及被偵測到的異常。
第六圖是根據揭露一實施例,說明第五圖中虛擬機之間的通訊和虛擬卷。
第七圖是根據揭露一實施例,說明從第六圖中的虛擬機層級摘取至實體機層級的一示意圖。
第八圖是根據揭露一實施例,說明在實體資料中心的實體機和實體網路儲存器之間的通訊。
第九圖是根據本揭露一實施例,說明兩個彼此通訊的實體機之間的路由路徑,和所得到的相對應的事件。
第十圖是根據本揭露一實施例,說明第八圖中實體機通訊拓撲圖的一組事件集合。
第十一圖是根據本揭露一實施例,說明來自第十圖中的一組事件集合的已優先化的一組事件清單的範例。
第十二圖是根據本揭露一實施例,說明根源分析的事件優先化的運作流程。
第十三圖是根據本揭露一實施例的,說明一種虛擬機至實體機之間相關性能問題的根源分析的系統。
210‧‧‧使用一應用-層級相依性發現和異常性偵測來找出在一或多個虛擬機(VMs)中的應用-層級相依性,並產生一異常性應用-層級拓撲
220‧‧‧將此異常性應用-層級拓撲轉換至一虛擬機-層級相依性
230‧‧‧執行一實體與虛擬資源對應,將此虛擬機-層級相依性轉換至一實體機-層級相依性
240‧‧‧產生一組事件集合,並且將此組事件集合優先化而產生一優先化的事件清單
Claims (18)
- 一種虛擬機(VM)至實體機(PM)之間相關性能問題的根源分析的方法,適應於一實體資料中心,並且包含:利用一應用-層級相依性發現和異常性偵測來找到在該實體資料中心的多個PMs上運行的一或多個VMs中的應用-層級相依性,並產生一異常性應用-層級拓撲;將該異常性應用-層級拓撲轉換至一VM-層級相依性;將該虛擬機層級相依性經由一實體與虛擬資源對應轉換至一PM-層級相依性,並且產生一組事件集合;以及將該組事件集合優先化而產生一優先化的事件清單。
- 如申請專利範圍第1項所述之方法,其中該應用-層級相依性發現和異常性偵測還包括:在一訓練階段中,找到在一應用軌跡上的多個跳躍的每一跳躍的一平均延遲;以及加入一相對應的增量時間週期作為一容忍度於該每一跳躍的該平均延遲,並且產生該每一跳躍的一相對應的基線延遲。
- 如申請專利範圍第2項所述之方法,其中該方法還決定該多個跳躍的每一跳躍的該平均延遲是否超過其相對應的基線延遲,並且對於超過其相對應基線延遲的一或多個跳躍被偵測為一異常。
- 如申請專利範圍第1項所述之方法,其中該方法使用一或多個儲存庫來保存一或多個虛擬機在一實體資源使用的至少一資訊。
- 如申請專利範圍第1項所述之方法,其中該方法還使用 至少一儲存庫來保存多個實體機的每一對實體機之間的一路由路徑的一第一資訊,以及該多個實體機的每一實體機與多個實體裝置的每一實體裝置之間的至少一路由路徑的一第二資訊。
- 如申請專利範圍第1項所述之方法,其中該優先化的事件清單中的每一事件關連至一裝置,並且具有對應至該裝置的一硬體問題的一相關連的訊息。
- 如申請專利範圍第6項所述之方法,其中該每一事件關連的該裝置是一實體機和一實體裝置的其中之一,並且該實體裝置是一實體機、一網路儲存器、以及一網路裝置的前述裝置的其中之一。
- 如申請專利範圍第1項所述之方法,其中該實體與虛擬資源對應還包括:從至少一儲存庫取得至少一實體機和至少一實體裝置的一資訊,並且將該VM-層級相依性轉換至該PM-層級相依性。
- 如申請專利範圍第1項所述之方法,產生該組事件集合還包括:對於多個PMs的每一對PMs,取得該對PMs間的一路由路徑及該對PMs的一第一相對應事件集合;以及對於該多個PMs的每一對PMs和至少一實體儲存器的一實體儲存器,取得該PM和該實體儲存器的一第二相對應事件集合。。
- 如申請專利範圍第1項所述之方法,其中該PM-層級相依性是一PM通訊拓撲,並且藉由利用該PM通訊拓 撲來產生該組事件集合。
- 一種虛擬機(VM)至實體機(PM)之間相關性能問題的根源分析的系統,適應於一實體資料中心,並且包含:一應用-層級異常性偵測模組,配置來找出在該實體資料中心的一或多個PMs上運行的一或多個VMs的一應用-層級相依性,並且產生一異常性應用-層級拓撲;一摘取模組,配置來將該異常性應用-層級拓撲摘取至一VM-層級相依性,然後將該VM-層級相依性轉換至一PM-層級相依性;以及一事件產生與優先化模組,配置來取得一PM通訊拓撲,利用該PM通訊拓撲來產生一組事件集合,並且將該組事件集合優先化而產生一優先化的事件清單。
- 如申請專利範圍第11項所述之系統,其中該系統被集成在一實體資料中心管理系統模組,來連續地監視該實體資料中心中的該多個PMs和一或多個實體裝置。
- 如申請專利範圍第11項所述之系統,其中該系統還包括至少一儲存庫來保存多個實體機的每一對實體機之間的一路由路徑的一第一資訊,以及該多個實體機的每一實體機與多個實體裝置的每一實體裝置之間的至少一路由路徑的一第二資訊。
- 如申請專利範圍第12項所述之系統,其中該優先化的事件清單中的每一事件關連至一裝置,並且具有對應至該裝置的一硬體問題的一相關連的訊息。
- 如申請專利範圍第11項所述之系統,其中該摘取模組從至少一儲存庫取得一或多個VMs的一或多個使用 的虛擬卷的一資訊,用來將該異常性應用-層級拓撲摘取至該VM-層級相依性。
- 如申請專利範圍第11項所述之系統,其中該摘取模組從至少一儲存庫取得多個PMs和一或多個實體儲存器的一資訊,用來將該VM-層級相依性摘取至該PM-層級相依性。
- 如申請專利範圍第11項所述之系統,其中該事件產生和優先化模組取得該多個PMs的每一對PMs之間的一路由路徑,用來產生對應於該路由路徑上的多個實體裝置的多個事件。
- 如申請專利範圍第11項所述之系統,其中該摘取模組將該VM-層級相依性轉換至該PM通訊拓撲。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/707,038 US9183033B2 (en) | 2012-12-06 | 2012-12-06 | Method and system for analyzing root causes of relating performance issues among virtual machines to physical machines |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201423398A true TW201423398A (zh) | 2014-06-16 |
TWI497286B TWI497286B (zh) | 2015-08-21 |
Family
ID=50861311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101150186A TWI497286B (zh) | 2012-12-06 | 2012-12-26 | 虛擬機至實體機之間相關性能問題的根源分析的方法與系統 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9183033B2 (zh) |
CN (1) | CN103853627B (zh) |
TW (1) | TWI497286B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI793910B (zh) * | 2021-12-09 | 2023-02-21 | 中華電信股份有限公司 | 偵測異常及提供修復策略的微服務監控系統及其方法 |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779260B1 (en) | 2012-06-11 | 2017-10-03 | Dell Software Inc. | Aggregation and classification of secure data |
US10333820B1 (en) | 2012-10-23 | 2019-06-25 | Quest Software Inc. | System for inferring dependencies among computing systems |
US9405605B1 (en) * | 2013-01-21 | 2016-08-02 | Amazon Technologies, Inc. | Correction of dependency issues in network-based service remedial workflows |
US9183092B1 (en) * | 2013-01-21 | 2015-11-10 | Amazon Technologies, Inc. | Avoidance of dependency issues in network-based service startup workflows |
US9503341B2 (en) * | 2013-09-20 | 2016-11-22 | Microsoft Technology Licensing, Llc | Dynamic discovery of applications, external dependencies, and relationships |
US9519513B2 (en) | 2013-12-03 | 2016-12-13 | Vmware, Inc. | Methods and apparatus to automatically configure monitoring of a virtual machine |
US9678731B2 (en) | 2014-02-26 | 2017-06-13 | Vmware, Inc. | Methods and apparatus to generate a customized application blueprint |
US11005738B1 (en) | 2014-04-09 | 2021-05-11 | Quest Software Inc. | System and method for end-to-end response-time analysis |
US20150378763A1 (en) | 2014-06-30 | 2015-12-31 | Vmware, Inc. | Methods and apparatus to manage monitoring agents |
EP2990950B1 (en) * | 2014-08-25 | 2021-05-12 | Tata Consultancy Services Limited | Monitoring activities of a software application |
TWI548236B (zh) * | 2014-10-06 | 2016-09-01 | 研華股份有限公司 | 具置入型管理機制的網路裝置、系統與管理暨監控方法 |
CN105591784A (zh) * | 2014-10-24 | 2016-05-18 | 中兴通讯股份有限公司 | 告警处理方法及装置 |
US10291493B1 (en) | 2014-12-05 | 2019-05-14 | Quest Software Inc. | System and method for determining relevant computer performance events |
CN105812170B (zh) * | 2014-12-31 | 2019-01-18 | 华为技术有限公司 | 基于数据中心的故障分析方法和装置 |
US9996577B1 (en) | 2015-02-11 | 2018-06-12 | Quest Software Inc. | Systems and methods for graphically filtering code call trees |
JP2017187813A (ja) * | 2015-02-24 | 2017-10-12 | 株式会社野村総合研究所 | 稼働状況表示システム |
US10326748B1 (en) | 2015-02-25 | 2019-06-18 | Quest Software Inc. | Systems and methods for event-based authentication |
US10417613B1 (en) | 2015-03-17 | 2019-09-17 | Quest Software Inc. | Systems and methods of patternizing logged user-initiated events for scheduling functions |
US10270668B1 (en) * | 2015-03-23 | 2019-04-23 | Amazon Technologies, Inc. | Identifying correlated events in a distributed system according to operational metrics |
US9842220B1 (en) | 2015-04-10 | 2017-12-12 | Dell Software Inc. | Systems and methods of secure self-service access to content |
WO2016175845A1 (en) * | 2015-04-30 | 2016-11-03 | Hewlett Packard Enterprise Development Lp | Aggregation based event identification |
US10187260B1 (en) | 2015-05-29 | 2019-01-22 | Quest Software Inc. | Systems and methods for multilayer monitoring of network function virtualization architectures |
WO2017011708A1 (en) * | 2015-07-14 | 2017-01-19 | Sios Technology Corporation | Apparatus and method of leveraging machine learning principals for root cause analysis and remediation in computer environments |
US10536352B1 (en) | 2015-08-05 | 2020-01-14 | Quest Software Inc. | Systems and methods for tuning cross-platform data collection |
US10200252B1 (en) | 2015-09-18 | 2019-02-05 | Quest Software Inc. | Systems and methods for integrated modeling of monitored virtual desktop infrastructure systems |
US10157358B1 (en) | 2015-10-05 | 2018-12-18 | Quest Software Inc. | Systems and methods for multi-stream performance patternization and interval-based prediction |
US10218588B1 (en) | 2015-10-05 | 2019-02-26 | Quest Software Inc. | Systems and methods for multi-stream performance patternization and optimization of virtual meetings |
CN105446861A (zh) * | 2015-11-11 | 2016-03-30 | 浪潮电子信息产业股份有限公司 | 一种基于linux的IPMI接口负载稳定性监测方法 |
US9537720B1 (en) * | 2015-12-10 | 2017-01-03 | International Business Machines Corporation | Topology discovery for fault finding in virtual computing environments |
CN110865867B (zh) * | 2015-12-21 | 2023-08-25 | 华为云计算技术有限公司 | 应用拓扑关系发现的方法、装置和系统 |
CN106909436B (zh) * | 2015-12-23 | 2020-07-21 | 财团法人工业技术研究院 | 产生虚拟机消息队列应用程序的相关关系的方法与系统 |
US10142391B1 (en) * | 2016-03-25 | 2018-11-27 | Quest Software Inc. | Systems and methods of diagnosing down-layer performance problems via multi-stream performance patternization |
US10230601B1 (en) | 2016-07-05 | 2019-03-12 | Quest Software Inc. | Systems and methods for integrated modeling and performance measurements of monitored virtual desktop infrastructure systems |
US10261839B2 (en) * | 2016-11-02 | 2019-04-16 | International Business Machines Corporation | Outlier and root cause determination of excessive resource usage in a virtual machine environment |
GB2556132B (en) * | 2016-11-10 | 2018-11-14 | Metaswitch Networks Ltd | Modelling a network by combining physical and virtual dependency models |
GB2540902B (en) | 2016-11-10 | 2017-07-19 | Metaswitch Networks Ltd | Optimising a mapping of virtualised network functions onto physical resources in a network using dependency models |
US10873794B2 (en) * | 2017-03-28 | 2020-12-22 | Cisco Technology, Inc. | Flowlet resolution for application performance monitoring and management |
US11165856B2 (en) * | 2017-04-25 | 2021-11-02 | Citrix Systems, Inc. | Detecting uneven load balancing through multi-level outlier detection |
CN107231352A (zh) * | 2017-05-27 | 2017-10-03 | 郑州云海信息技术有限公司 | 一种面向Xen虚拟化环境的系统日志监控方法及装置 |
US10887156B2 (en) | 2019-01-18 | 2021-01-05 | Vmware, Inc. | Self-healing Telco network function virtualization cloud |
US10924329B2 (en) * | 2019-01-18 | 2021-02-16 | Vmware, Inc. | Self-healing Telco network function virtualization cloud |
US11126492B1 (en) | 2019-11-05 | 2021-09-21 | Express Scripts Stategic Development, Inc. | Systems and methods for anomaly analysis and outage avoidance in enterprise computing systems |
US11966319B2 (en) * | 2021-02-23 | 2024-04-23 | Mellanox Technologies, Ltd. | Identifying anomalies in a data center using composite metrics and/or machine learning |
CN116866154B (zh) * | 2023-09-05 | 2023-11-28 | 湖北华中电力科技开发有限责任公司 | 一种基于虚拟机集群的配电网通讯服务智能调度管理系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6738933B2 (en) | 2001-05-09 | 2004-05-18 | Mercury Interactive Corporation | Root cause analysis of server system performance degradations |
US20070271560A1 (en) * | 2006-05-18 | 2007-11-22 | Microsoft Corporation | Deploying virtual machine to host based on workload characterizations |
US8484336B2 (en) * | 2006-11-15 | 2013-07-09 | Cisco Technology, Inc. | Root cause analysis in a communication network |
US7818418B2 (en) | 2007-03-20 | 2010-10-19 | Computer Associates Think, Inc. | Automatic root cause analysis of performance problems using auto-baselining on aggregated performance metrics |
US8032867B2 (en) | 2007-06-05 | 2011-10-04 | Computer Associates Think, Inc. | Programmatic root cause analysis for application performance management |
GB2457344B (en) * | 2007-07-20 | 2012-09-12 | Eg Innovations Pte Ltd | Monitoring system for virtual application environments |
US8208381B2 (en) * | 2007-07-27 | 2012-06-26 | Eg Innovations Pte. Ltd. | Root-cause approach to problem diagnosis in data networks |
US8180723B2 (en) | 2008-01-14 | 2012-05-15 | Hewlett-Packard Development Company, L.P. | Root cause analysis in a system having a plurality of inter-related elements |
TW201025065A (en) * | 2008-12-29 | 2010-07-01 | Lei Wang | Expandable secure server alternate system |
US8862727B2 (en) * | 2012-05-14 | 2014-10-14 | International Business Machines Corporation | Problem determination and diagnosis in shared dynamic clouds |
JP2014007609A (ja) * | 2012-06-25 | 2014-01-16 | Hitachi Ltd | 仮想化システム、通信装置及びネットワーク障害監視方法 |
-
2012
- 2012-12-06 US US13/707,038 patent/US9183033B2/en active Active
- 2012-12-18 CN CN201210551601.2A patent/CN103853627B/zh active Active
- 2012-12-26 TW TW101150186A patent/TWI497286B/zh active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI793910B (zh) * | 2021-12-09 | 2023-02-21 | 中華電信股份有限公司 | 偵測異常及提供修復策略的微服務監控系統及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103853627A (zh) | 2014-06-11 |
US9183033B2 (en) | 2015-11-10 |
US20140165054A1 (en) | 2014-06-12 |
CN103853627B (zh) | 2017-03-01 |
TWI497286B (zh) | 2015-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI497286B (zh) | 虛擬機至實體機之間相關性能問題的根源分析的方法與系統 | |
Zhu et al. | SDN controllers: Benchmarking & performance evaluation | |
US10797973B2 (en) | Server-client determination | |
US20200167258A1 (en) | Resource allocation based on applicable service level agreement | |
EP3278506B1 (en) | Methods and devices for monitoring of network performance for container virtualization | |
CN107925588B (zh) | 用于平台处理核心配置的方法、设备、装置及介质 | |
CN110865867B (zh) | 应用拓扑关系发现的方法、装置和系统 | |
Hu et al. | Net-cohort: Detecting and managing vm ensembles in virtualized data centers | |
CN109074280B (zh) | 网络功能虚拟化 | |
US9639379B1 (en) | Dynamic configuration of virtual machines | |
CN113867884B (zh) | 用于计算机网络的方法和系统及存储介质 | |
El-Shamy et al. | Anomaly detection and bottleneck identification of the distributed application in cloud data center using software–defined networking | |
Marangozova-Martin et al. | Multi-level elasticity for data stream processing | |
John et al. | Scalable software defined monitoring for service provider devops | |
Sandur et al. | Jarvis: Large-scale server monitoring with adaptive near-data processing | |
Choi et al. | Iris-coman: Scalable and reliable control and management architecture for sdn-enabled large-scale networks | |
Ben-Yehuda et al. | NAP: a building block for remediating performance bottlenecks via black box network analysis | |
Qiao et al. | Doopnet: An emulator for network performance analysis of Hadoop clusters using Docker and Mininet | |
Guay et al. | dFtree: a fat-tree routing algorithm using dynamic allocation of virtual lanes to alleviate congestion in infiniband networks | |
Kumar et al. | Loosely coupled coordinated management in virtualized data centers | |
Yao et al. | Aquarius—Enable Fast, Scalable, Data-Driven Service Management in the Cloud | |
Velrajan et al. | QoS management in multi-access edge compute | |
Lin | Monarch: Scalable monitoring and analytics for visibility and insights in virtualized heterogeneous cloud infrastructure | |
Martinez-Julia et al. | Achieving the autonomic adaptation of resources in virtualized network environments | |
JP6775452B2 (ja) | 監視システム、プログラムおよび監視方法 |