TWI691852B - 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品 - Google Patents

用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品 Download PDF

Info

Publication number
TWI691852B
TWI691852B TW107123624A TW107123624A TWI691852B TW I691852 B TWI691852 B TW I691852B TW 107123624 A TW107123624 A TW 107123624A TW 107123624 A TW107123624 A TW 107123624A TW I691852 B TWI691852 B TW I691852B
Authority
TW
Taiwan
Prior art keywords
fault
failure
event
hierarchical system
events
Prior art date
Application number
TW107123624A
Other languages
English (en)
Other versions
TW202006564A (zh
Inventor
梁德容
李彥霖
王尉任
Original Assignee
國立中央大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立中央大學 filed Critical 國立中央大學
Priority to TW107123624A priority Critical patent/TWI691852B/zh
Priority to US16/252,733 priority patent/US10831579B2/en
Publication of TW202006564A publication Critical patent/TW202006564A/zh
Application granted granted Critical
Publication of TWI691852B publication Critical patent/TWI691852B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Abstract

一種用於偵測階層式系統故障之偵錯裝置,該偵錯裝置包括:一偵測信號接收介面及一處理器,該偵測信號接收介面接收該階層式系統所發生之一起始診斷故障事件,若該處理器診斷該起始診斷故障事件為故障狀態,則該偵測信號接收介面接收該階層式系統所發生之被該起始診斷故障事件相依之一次一診斷故障事件,若該處理器診斷該起始診斷故障事件不為故障狀態,則該偵測信號接收介面接收該階層式系統所發生之相依於該起始診斷故障事件之該次一診斷故障事件,依序診斷直到該二元搜尋樹狀結構中最底層之故障事件。

Description

用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品
本發明有關於電腦領域,特別有關於一種用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品。
隨著科技、資訊產業的蓬勃發展,一個機器或系統的故障將會在停機的這段時間中造成巨大的損失,對於企業來說,尋找減少停機時間的方法已經刻不容緩,所以容錯、高可用性系統的重要性也日益增加。
現今有許多提供階層式系統容錯、高可用性服務的診斷系統,該診斷系統的基礎流程大多是遵循偵測錯誤後執行回復機制的方式,而其可處理的錯誤大多不只一個,這些錯誤有些彼此獨立,但是有些卻存在相依性,也就是說,當一種錯誤發生時,也同時會引發其它種錯誤的錯誤症狀,這時若沒有加以分辨則會導致誤判的情形發生。
對於上述情況,在現有的階層式系統中大多採用檢測所有錯誤症狀以後再一起分析的方式,如此雖然確保正確性,但是無疑地增加許多的偵測時間;此外,還有一些錯誤可能是暫時性錯誤,這種錯誤通常需要足夠長的偵測時間才能確定是暫時性或永久性,而所需的偵測時間也大多是其它錯誤的偵測時間的好幾倍。
鑑於上述,本發明之目的在於提供一種用於偵測階層式系統故障之偵錯 裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品,以二元搜尋樹演算法對階層式系統之錯誤相依性快速診斷出錯誤根本原因,並將分辨暫時性錯誤與永久性錯誤的部分從診斷流程中移出,等到診斷出為暫時性錯誤再進行偵測,如此可極大地減少總平均偵測時間。
本發明之第一態樣係提供一種用於偵測階層式系統故障之偵錯裝置,該階層式系統之複數個故障事件具有相依性,該偵錯裝置包括:一偵測信號接收介面,接收該階層式系統所發生之該等故障事件中相依性最高之故障事件;以及一處理器,根據該偵測信號接收介面接收之相依性最高之故障事件,以一二元搜尋樹演算法診斷該階層式系統所發生之一故障原因;其中當該處理器診斷相依性最高之故障事件為故障狀態時,該偵測信號接收介面接收該階層式系統所發生之以該二元搜尋樹演算法所建立之一二元搜尋樹狀結構中之一起始診斷故障事件,若該處理器診斷該起始診斷故障事件為故障狀態,則該偵測信號接收介面接收該階層式系統所發生之該二元搜尋樹狀結構中被該起始診斷故障事件相依之一次一診斷故障事件,若該處理器診斷該起始診斷故障事件不為故障狀態,則該偵測信號接收介面接收該階層式系統所發生之該二元搜尋樹狀結構中相依於該起始診斷故障事件之該次一診斷故障事件,依序診斷直到該二元搜尋樹狀結構中最底層之故障事件。
本發明之第二態樣係提供一種用於偵測階層式系統故障之偵錯方法,該階層式系統之複數個故障事件具有相依性,該偵錯方法包括下列步驟:由一偵測信號接收介面接收該階層式系統所發生之該等故障事件中相依性最高之故障事件;以及 由一處理器根據該偵測信號接收介面接收之相依性最高之故障事件,以一二元搜尋樹演算法診斷該階層式系統所發生之一故障原因;其中當該處理器診斷相依性最高之故障事件為故障狀態時,該偵測信號接收介面接收該階層式系統所發生之以該二元搜尋樹演算法所建立之一二元搜尋樹狀結構中之一起始診斷故障事件,若該處理器診斷該起始診斷故障事件為故障狀態,則該偵測信號接收介面接收該階層式系統所發生之該二元搜尋樹狀結構中被該起始診斷故障事件相依之一次一診斷故障事件,若該處理器診斷該起始診斷故障事件不為故障狀態,則該偵測信號接收介面接收該階層式系統所發生之該二元搜尋樹狀結構中相依於該起始診斷故障事件之該次一診斷故障事件,依序診斷直到該二元搜尋樹狀結構中最底層之故障事件。
本發明之第三態樣係提供一種內儲一程式之電腦可讀取之記錄媒體,當用於偵測階層式系統故障之偵錯裝置於該電腦可讀取之記錄媒體載入該程式並執行後,可完成本發明之第二態樣之方法。
本發明之第四態樣係提供一種內儲一程式之電腦程式產品,當用於偵測階層式系統故障之偵錯裝置於電腦程式產品載入該程式並執行後,可完成本發明之第二態樣之方法。
10:偵錯裝置
12:處理器
14:記憶體
16:偵測信號接收介面
20:待偵測系統1
22:階層式系統
24:IPMI單元
26:IPMI埠
28:網路介面
30:待偵測系統2
32:階層式系統
34:網路介面
圖1為本發明之用於偵測階層式系統故障之偵錯裝置之方塊圖;圖2為本發明之階層式系統之架構示意圖;圖3為本發明之二元搜尋樹狀結構之示意圖;以及圖4為本發明之用於偵測階層式系統故障之偵錯方法之流程圖。
為使熟習本發明所屬技術領域之一般技藝者能更進一步了解本發明,下文特列舉本發明之較佳實施例,並配合所附圖式,詳細說明本發明的構成內容及所欲達成之功效。
圖1為本發明之用於偵測階層式系統故障之偵錯裝置之方塊圖。在圖1中,偵錯裝置10藉由有線或無線網路接收包括有階層式系統22之待偵測系統1 20及包括有階層式系統32之待偵測系統2 30之故障事故。在圖1中,待偵測系統1 20及待偵測系統2 30僅作為例示之用,並非侷限本發明之應用。
圖2為本發明之階層式系統之架構示意圖。在圖2之例示性階層式系統之架構中,主機硬體位於階層式系統之最底層,主機作業系統架構在主機硬體之上,主機網路架構在主機作業系統之上,如此由下往上依序架構為伺服器、虛擬機器硬體、虛擬機器作業系統、虛擬機器網路、Docker及Containers。在本實施例中之階層式系統之架構僅作為例示之用,並非侷限本發明之應用。
在圖2之例示中,主機硬體所發生之故障事件以F1表示,主機作業系統所發生之故障事件以F2表示,主機網路所發生之故障事件以F3表示,如此由下往上依序架構之伺服器、虛擬機器硬體、虛擬機器作業系統、虛擬機器網路、Docker及Containers所發生之故障事件分別以F4至F9表示。
由於主機作業系統、主機網路、伺服器、虛擬機器硬體、虛擬機器作業系統、虛擬機器網路、Docker及Containers皆架構在主機硬體之上,例如當主機硬體發生故障時,主機作業系統、主機網路、伺服器、虛擬機器硬體、虛擬機器作業系統、虛擬機器網路、Docker及Containers皆會出現故障症狀,亦即主機作業系統、主機網路、伺服器、虛擬機器硬體、虛擬機器作業系統、虛擬機器網路、Docker及Containers相依 於主機硬體,當主機作業系統發生故障時,主機網路、伺服器、虛擬機器硬體、虛擬機器作業系統、虛擬機器網路、Docker及Containers皆會出現故障症狀,而主機硬體不會出現故障症狀,亦即主機網路、伺服器、虛擬機器硬體、虛擬機器作業系統、虛擬機器網路、Docker及Containers相依於主機作業系統,因此當Containers發生故障時,主機硬體、主機作業系統、主機網路、伺服器、虛擬機器硬體、虛擬機器作業系統、虛擬機器網路及Docker皆不會出現故障症狀,亦即Containers在階層式系統中相依性最高,只要階層式系統中任一層發生故障,Containers都會出現故障症狀。
再次參考圖1,待偵測系統1 20包括階層式系統22、IPMI(Intelligent Platform Management Interface,智慧型平台管理介面)單元24、IPMI埠26及網路介面28。
IPMI單元24即智慧型平台管理介面是使硬體管理具備「智慧型」的新一代通用介面標準。用戶可以利用IPMI監視伺服器的物理特徵,如溫度、電壓、風扇工作狀態、電源供應以及機箱入侵等。在IPMI單元24檢測到階層系統22中之伺服器發生故障的情況下,IPMI單元24將伺服器所發生之故障事件經由IPMI埠26傳送至外部網路。
例如當主機失去與虛擬機器網路連結時,階層系統22中之主機網路就會出現故障症狀,例如採用TCP/IP協定將主機網路所發生之故障事件經由網路介面28傳送至外部網路。同樣地,待偵測系統2 30之階層系統32中之主機網路就會出現故障症狀,亦即採用TCP/IP協定將主機網路所發生之故障事件經由網路介面34傳送至外部網路。
偵錯裝置10包括處理器12、記憶體14及偵測信號接收介面16。偵測信號接收介面16接收待偵測系統1 20之IPMI埠26或網路介面28有關階層式系統22所發生之故障事件或者接收待偵測系統2 30之網路介面34有關階層式系統32所發生之故障事 件。處理器12根據偵測信號接收介面16接收之故障事件,以在記憶體14中之二元搜尋樹演算法診斷階層式系統22、32所發生之故障原因。
階層式系統22、32所發生之故障事件包含一永久性故障或一暫時性故障。在本實例中,將暫時性故障之診斷故障時間長度分成一檢測時間及一恢復時間,處理器12先診斷暫時性故障之檢測部分。例如採用heartbeating診斷出暫時性故障需要30秒,將暫時性故障分割成約2秒之檢測時間及約28秒之恢復時間。
當處理器12診斷階層式系統22、32所發生之故障原因為暫時性故障時,處理器12等待暫時性故障之恢復時間以等待階層式系統22、32復原成功。當處理器12診斷階層式系統22、32所發生之故障原因為永久性故障或處理器等待階層式系統而無法復原成功時,該處理器依據該故障原因對該階層式系統進行復原。
二元搜尋樹演算法之二元搜尋樹狀結構之建立如下:將階層式系統22、32所發生之故障事件依其彼此的相依性排列具有相依性高低之一故障事件序列,以圖2為例,主機硬體之故障事件F1之相依性最低,主機作業系統之故障事件F2之相依性其次,依相依性高低排列,而Containers之故障事件F9之相依性最高;定義階層式系統22、32所發生之每一故障事件之一執行機率及一檢測時間,例如檢測時間為3秒;以該故障事件序列建構多種彼此具有相依性連結之故障事件之二元搜尋樹狀結構,以圖3為本發明之二元搜尋樹狀結構之示意圖作為說明例(圖3中節點編號等同於故障事兼編號),以階層式系統22、32中節點5之故障事件F5作為二元搜尋樹狀結構的頂點節點,相依於故障事件F5之故障事件(如故障事件F6、F7、F8、F9)構成二元搜尋樹狀結構之右邊分支的各節點,為故障事件F5所相依之故障事件(如故障事件F1、F2、F3、 F4)構成二元搜尋樹狀結構之左邊分支的各節點,其它子分支的各節點之排列方式如前所述,以每一故障事件之執行機率及檢測時間計算每一種排列之二元搜尋樹狀結構之一平均偵測時間,以找出該平均偵測時間為最小值之二元搜尋樹狀結構。
其中,計算每一種排列之二元搜尋樹狀結構之平均偵測時間之公式如下:
Figure 107123624-A0305-02-0009-1
其中,x代表階層式系統22、32中之故障事件之編號1~N-1,N為該等故障事件中相依性最高之故障事件之編號,在二元搜尋樹狀結構中不需要再放入編號N,p(x)代表階層式系統22、32中之故障事件中之故障事件x之執行機率,t(x)代表該等故障事件中之故障事件x之該檢測時間。
其中,計算平均偵測時間中之執行機率p(x)之公式如下:
Figure 107123624-A0305-02-0009-2
h(i)代表故障事件i的發生機率,而i代表建構二元搜尋樹時以x為樹根的子樹所包含的各故障事件編號,編號從j~k+1。從二元搜尋樹的結構來看,故障事件所在節點位置上層的右邊節點編號即為k+1而左邊節點編號即為j-1(需依據二元搜尋樹狀結構去找)。所以只要將上層的左邊節點編號加1則可得j。
整個公式的概念就是:故障事件x的偵測方法的被執行機率(p(x))為其所在的二元搜尋樹節點底下所包含的故障的發生機率的總和。
再次參考圖1,當處理器12診斷相依性最高之故障事件F9(如圖2所示)為故障狀態時,以圖3中之二元搜尋樹狀結構中之頂點節點5之故障事件F5作為起始診 斷的故障事件,處理器12發出請求或等候由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32所發生之故障事件F5。
若處理器12診斷故障事件F5為故障狀態,處理器12繼續診斷故障事件F5相依之次一診斷節點3的故障事件F3(圖3之左邊分支),則處理器12發出請求或等候由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32所發生之故障事件F3;若處理器12診斷故障事件F5不為故障狀態,處理器12繼續診斷相依於故障事件F5之次一診斷節點7的故障事件F7(圖3之右邊分支),則處理器12發出請求或等候由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32所發生之故障事件F7。
若處理器12診斷故障事件F7為故障狀態,處理器12繼續診斷故障事件F7相依之次一診斷節點6的故障事件F6(圖3之右邊分支),則處理器12發出請求或等候由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32所發生之故障事件F6;若處理器12診斷故障事件F7不為故障狀態,處理器12繼續診斷相依於故障事件F7之次一診斷節點8的故障事件F8(圖3之右邊分支),則處理器12發出請求或等候由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32所發生之故障事件F8。
若處理器12診斷故障事件F8為故障狀態,在圖3中由於故障事件F8為故障狀態且無相依之故障事件,因此故障事件F8係位於二元搜尋樹狀結構中之最低層,所以處理器12診斷出階層式系統22、32真正故障原因在於Docker層,而對Docker層以習知技術進行復原程序;若處理器12診斷故障事件F8不為故障狀態,在圖3中由於相依於故障事件F8之故障事件F9,且故障事件F9無相依之故障事件,因此故障事件F9係位於二元搜尋樹狀結構中之最低層,所以處理器12診斷出階層式系統22、32真正故障原 因在於Containers層,而對Containers層以習知之技術進行復原程序。
同樣地,以上述二元搜尋樹狀結構中相依於或被相依之故障事件,依序診斷至二元搜尋樹狀結構中最底層之故障事件,以診斷出階層式系統22、32真正故障原因之相應故障事件之故障層,以對該故障層進行復原程序。
本發明圖3之二元搜尋樹狀結構之建立係二元搜尋樹演算法首先需要提供一個除了相依性最高階層故障事件的其他階層故障事件的故障檢測時間與故障發生機率,因為這些故障檢測時間會被納入建立二元搜尋樹狀結構時的考量,以圖3來說明,則是需要提供故障檢測時間[1,4,1,3,1,1,1,3](分別代表故障事件F1~F8的故障檢測時間)與故障發生機率[1/9,1/9,1/9,1/9,1/9,1/9,1/9,1/9,1/9](分別代表故障事件F1~F9的故障發生機率)這樣的資料,接著透過二元搜尋樹演算法遞迴地算出具有最短平均偵測時間的二元搜尋樹狀架構。
而當需要計算平均偵測時間時,計算方法是從二元搜尋樹狀結構中找到每種故障事件檢測的節點位置,然後計算從該節點位置往下會包含多少種故障事件,將包含的故障的發生機率加總作為執行機率p(x)與該故障事件的檢測時間t(x)相乘,最後全部加總。執行機率p(x)的算法也可以故障事件所在節點位置上層的右邊節點編號與掉左邊節點編號(需依據二元搜尋樹狀結構去找),接著將這兩編號之間的所有故障發生機率加總(不包含左邊編號),以圖3說明如下。前述計算執行機率的方法係用每種故障發生機率相同的情況,如果故障發生機率不同則計算方法會有些許改變,然而不同故障發生機率的情況都應包含在本發明之專利保護範圍中。
故障事件F1位於節點1的位置,其底下之最底層包含故障事件F1、F2、F3,其執行機率p(x)是1/9+1/9+1/9=3/9;從節點1的位置往上層右邊找可找到節點3,而節點1的上層左邊則沒有節點,可以假設節點1到節點8的更左邊與更右邊分別是節點0 與節點9(未圖示),所以節點1的上層左邊就是節點0,那麼編號3與0之間包含編號1、2、3,各自的發生機率加總為3/9,即為執行機率p(x)。而故障事件F1的檢測時間t(x)為1秒,所以3/9*1=3/9。
故障事件F2位於節點2的位置,其底下之最底層包含故障事件F2、F3,其執行機率p(x)是1/9+1/9=2/9;節點2的位置之上層左邊是節點1,節點2的位置之上層右邊是節點3,之間包含的節點為2、3,執行機率p(x)是2/9。而故障事件F2的檢測時間t(x)為4秒,所以2/9*4=8/9。
故障事件F3位於節點3的位置,其底下之最底層包含故障事件F1~F5,其執行機率p(x)是5/9;節點3的位置之上層左邊是節點0(假設節點),節點3的位置之上層右邊是節點5,之間包含的節點為1~5,執行機率p(x)是5/9。而故障事件F3的檢測時間t(x)為1秒,所以5/9*1=5/9。
故障事件F4位於節點4的位置,其底下之最底層包含故障事件F4、F5,其執行機率p(x)是2/9;節點4的位置之上層左邊是節點3,節點4的位置之上層右邊是節點5,之間包含的節點為4、5,執行機率p(x)是2/9。而故障事件F4的檢測時間t(x)為3秒,所以2/9*3=6/9。
故障事件F5位於節點5的位置,其底下之最底層包含故障事件F1~F9,其執行機率p(x)是9/9=1;節點5的位置之上層左邊是節點0(假設節點),節點5的位置之上層右邊是9,之間包含的節點為1~9,執行機率p(x)是9/9=1。而故障事件F5的檢測時間t(x)為1秒,所以1*1=1。
故障事件F6位於節點6的位置,其底下之最底層包含故障事件F6、F7,其執行機率p(x)是2/9;節點6的位置之上層左邊是節點5,節點6的位置之上層右邊是節點7,之間包含的節點為6、7,執行機率p(x)是2/9。而故障事件F6的檢測時間t(x)為1秒, 所以2/9*1=2/9。
故障事件F7位於節點7的位置,其底下之最底層包含故障事件F6~F9,其執行機率p(x)是4/9;節點7的位置之上層左邊是節點5,節點7的位置之上層右邊是節點9,之間包含的節點為6~9,執行機率p(x)是4/9。而故障事件F7的檢測時間t(x)為1秒,所以4/9*1=4/9。
故障事件F8位於節點8的位置,其底下之最底層包含故障事件F8、F9,其執行機率p(x)是2/9;節點8的位置之上層左邊是節點7,節點8的位置之上層右邊是節點9,之間包含的節點為8、9,執行機率p(x)是2/9。而故障事件F8的檢測時間t(x)為3秒,所以2/9*3=6/9。
所以圖3之二元搜尋樹狀結構中所有節點將執行機率p(x)乘上檢測時間t(x)再加總後為3/9+8/9+5/9+6/9+9/9+2/9+4/9+6/9=43/9秒,約為4.78秒平均偵測時間。由此可發現,以本發明之二元搜尋樹演算法診斷階層式系統診斷故障原因可大幅減少偵測時間。
圖4為本發明之用於偵測階層式系統故障之偵錯方法之流程圖。在說明圖4之流程步驟時參考圖1之方塊圖、圖2之階層式系統之示意圖及圖3之二元搜尋樹狀結構之示意圖。
在圖4中,由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32之相依性最高之Containers層之故障事件F9(如圖2所示),並將所接收之故障事件F9傳送至處理器12(步驟S40)。
由處理器12診斷故障事件F9是否發生故障(步驟S42)。若診斷故障事件F9沒有發生故障,則回到步驟S40,由偵測信號接收介面16接收相依性最高之故障事件F9。
若診斷故障事件F9發生故障,則由處理器12以二元搜尋樹演算法診斷階層式系統22、32所發生之真正的故障原因(步驟S44)。
以圖3為例,當處理器12診斷相依性最高之故障事件F9為故障狀態時,以上述之二元搜尋樹狀結構中之頂點節點5之故障事件F5作為起始診斷的故障事件,處理器12發出請求或等候由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32所發生之故障事件F5。
若處理器12診斷故障事件F5為故障狀態,處理器12繼續診斷故障事件F5相依之次一診斷節點3的故障事件F3(圖3之左邊分支),則處理器12發出請求或等候由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32所發生之故障事件F3;若處理器12診斷故障事件F5不為故障狀態,處理器12繼續診斷相依於故障事件F5之次一診斷節點7的故障事件F7(圖3之右邊分支),則處理器12發出請求或等候由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32所發生之故障事件F7。
因此,若處理器12診斷該故障事件為故障狀態,處理器12繼續診斷該故障事件相依之次一診斷節點的故障事件,且處理器12發出請求或等候由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32所發生之次一診斷節點的故障事件,其被該故障事件所相依;若處理器12診斷該故障事件不為故障狀態,處理器12繼續診斷相依於該故障事件之次一診斷節點的故障事件,則處理器12發出請求或等候由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32所發生之次一診斷節點的故障事件,其相依於該故障事件。如此,處理器12依序診斷故障事件,直到圖3之二元搜尋樹狀結構中最底層之故障事件F1~F9中一個真正發生故障之故障事件。
當處理器12診斷出真正發生故障之故障事件時,由處理器12判斷該故障事件是否為暫時性故障(步驟S46)。若處理器12判斷該故障事件不為暫時性故障,亦即故障事件為永久性故障(例如主機作業系統故障),則針對該故障事件之故障原因進行習知相應之復原程序(步驟S48)。之後,回到步驟S40,由偵測信號接收介面16接收相依性最高之故障事件F9。
若處理器12判斷該故障事件為暫時性故障,則等待暫時性故障之一恢復時間,再由處理器12發出請求或等候由偵測信號接收介面16接收經由網路介面28、34所傳送之階層式系統22、32之故障層所發生之暫時性故障事件,由處理器12判斷相應該暫時性故障事件之故障層是否已復原成功(步驟S50)。
若處理器12判斷相應該暫時性故障事件之故障層已復原成功,則回到步驟S40,由偵測信號接收介面16接收相依性最高之故障事件F9;若處理器12判斷相應該暫時性故障事件之故障層未復原成功,則進行步驟S48,針對該暫時性故障事件之故障原因進行習知相應之復原程序。
本發明之上述階層式系統之偵錯方法可以一程式型態來完成,並可將該程式儲存於一電腦可讀取之記錄媒體,當用於偵測階層式系統故障之偵錯裝置於該電腦可讀取之記錄媒體載入該程式並執行後,便可完成如上述說明及圖式中所示之方法步驟。
同樣地,本發明之階層式系統之偵錯方法可以一電腦程式產品來完成,當用於偵測階層式系統故障之偵錯裝置例如從網路下載該電腦程式產品並執行後,便可完成如上述說明及圖式中所示之方法步驟。
本發明係提供一種用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品,其特點在於以二元搜尋樹演算法對階層式系統 之錯誤相依性快速診斷出錯誤根本原因,並將分辨暫時性錯誤與永久性錯誤的部分從診斷流程中移出,等到診斷出為暫時性錯誤再進行偵測,如此可極大地減少總平均偵測時間。
雖然本發明已參照較佳具體例及舉例性附圖敘述如上,惟其應不被視為係限制性者。熟悉本技藝者對其形態及具體例之內容做各種修改、省略及變化,均不離開本發明之請求項之所主張範圍。
10‧‧‧偵錯裝置
12‧‧‧處理器
14‧‧‧記憶體
16‧‧‧偵測信號接收介面
20‧‧‧待偵測系統1
22‧‧‧階層式系統
24‧‧‧IPMI單元
26‧‧‧IPMI埠
28‧‧‧網路介面
30‧‧‧待偵測系統2
32‧‧‧階層式系統
34‧‧‧網路介面

Claims (14)

  1. 一種用於偵測階層式系統故障之偵錯裝置,該階層式系統之複數個故障事件具有相依性,該偵錯裝置包括:一偵測信號接收介面,接收該階層式系統所發生之該等故障事件中相依性最高之故障事件;以及一處理器,根據該偵測信號接收介面接收之相依性最高之故障事件,以一二元搜尋樹演算法診斷該階層式系統所發生之一故障原因;其中當該處理器診斷相依性最高之故障事件為故障狀態時,該偵測信號接收介面接收該階層式系統所發生之以該二元搜尋樹演算法所建立之一二元搜尋樹狀結構中之一起始診斷故障事件,若該處理器診斷該起始診斷故障事件為故障狀態,則該偵測信號接收介面接收該階層式系統所發生之該二元搜尋樹狀結構中被該起始診斷故障事件相依之一次一診斷故障事件,若該處理器診斷該起始診斷故障事件不為故障狀態,則該偵測信號接收介面接收該階層式系統所發生之該二元搜尋樹狀結構中相依於該起始診斷故障事件之該次一診斷故障事件,依序診斷直到該二元搜尋樹狀結構中最底層之故障事件。
  2. 如請求項1之偵錯裝置,其中,該等故障事件包含一永久性故障或一暫時性故障。
  3. 如請求項2之偵錯裝置,其中,將該暫時性故障之診斷故障時間長度分成一檢測時間及一恢復時間,該處理器之診斷包含該檢測時間。
  4. 如請求項3之偵錯裝置,其中,當該處理器診斷該階層式系統所發生之該故障原因為該暫時性故障 時,該處理器等待該暫時性故障之該恢復時間以等待該階層式系統復原成功;以及當該處理器診斷該階層式系統所發生之該故障原因為該永久性故障或該處理器等待該階層式系統而無法復原成功時,依據該故障原因對該階層式系統進行復原。
  5. 如請求項1之偵錯裝置,其中,該二元搜尋樹狀結構之建立如下:將該等故障事件依其彼此的相依性排列具有相依性高低之一故障事件序列;定義該等故障事件之每一者之一執行機率及一檢測時間;以該故障事件序列建構多種彼此具有相依性連結之故障事件之該二元搜尋樹狀結構,以該等故障事件之每一者之該執行機率及該檢測時間計算每一種該二元搜尋樹狀結構之一平均偵測時間,以找出該平均偵測時間為最小值之該二元搜尋樹狀結構。
  6. 如請求項5之偵錯裝置,其中,計算每一種該二元搜尋樹狀結構之該平均偵測時間之公式如下:
    Figure 107123624-A0305-02-0018-3
    其中,x代表該等故障事件之編號1~N-1,N為該等故障事件中相依性最高之故障事件之編號,在該二元搜尋樹狀結構中不需要再放入編號N,p(x)代表該等故障事件中之故障事件x之該執行機率,t(x)代表該等故障事件中之故障事件x之該檢測時間,其中,計算該平均偵測時間中之該執行機率p(x)之公式如下:
    Figure 107123624-A0305-02-0019-4
    h(i)代表故障事件i之一發生機率,而i代表建構二元搜尋樹時以x為樹根的子樹所包含的各故障事件編號,編號從j~k+1。
  7. 一種用於偵測階層式系統故障之偵錯方法,該階層式系統之複數個故障事件具有相依性,該偵錯方法包括下列步驟:由一偵測信號接收介面接收該階層式系統所發生之該等故障事件中相依性最高之故障事件;以及由一處理器根據該偵測信號接收介面接收之相依性最高之故障事件,以一二元搜尋樹演算法診斷該階層式系統所發生之一故障原因;其中當該處理器診斷相依性最高之故障事件為故障狀態時,該偵測信號接收介面接收該階層式系統所發生之以該二元搜尋樹演算法所建立之一二元搜尋樹狀結構中之一起始診斷故障事件,若該處理器診斷該起始診斷故障事件為故障狀態,則該偵測信號接收介面接收該階層式系統所發生之該二元搜尋樹狀結構中被該起始診斷故障事件相依之一次一診斷故障事件,若該處理器診斷該起始診斷故障事件不為故障狀態,則該偵測信號接收介面接收該階層式系統所發生之該二元搜尋樹狀結構中相依於該起始診斷故障事件之該次一診斷故障事件,依序診斷直到該二元搜尋樹狀結構中最底層之故障事件。
  8. 如請求項7之偵錯方法,其中,該等故障事件包含一永久性故障或一暫時性故障。
  9. 如請求項8之偵錯方法,其中,將該暫時性故障之診斷故障時間長度分 成一檢測時間及一恢復時間,該處理器之診斷包含該檢測時間。
  10. 如請求項9之偵錯方法,其中,在由該處理器診斷該階層式系統所發生之該故障原因之步驟之後,更包括下列步驟:當該處理器診斷該階層式系統所發生之該故障原因為該暫時性故障時,由該處理器等待該暫時性故障之該恢復時間以等待該階層式系統復原成功;以及當該處理器診斷該階層式系統所發生之該故障原因為該永久性故障或該處理器等待該階層式系統而無法復原成功時,依據該故障原因對該階層式系統進行復原。
  11. 如請求項7之偵錯方法,其中,該二元搜尋樹狀結構之建立如下:將該等故障事件依其彼此的相依性排列具有相依性高低之一故障事件序列;定義該等故障事件之每一者之一執行機率及一檢測時間;以該故障事件序列建構多種彼此具有相依性連結之故障事件之該二元搜尋樹狀結構,以該等故障事件之每一者之該執行機率及該檢測時間計算每一種該二元搜尋樹狀結構之一平均偵測時間,以找出該平均偵測時間為最小值之該二元搜尋樹狀結構。
  12. 如請求項11之偵錯方法,其中,計算每一種該二元搜尋樹狀結構之該平均偵測時間之公式如下:
    Figure 107123624-A0305-02-0020-5
    其中,x代表該等故障事件之編號1~N-1,N為該等故障事件中相依性最高 之故障事件之編號,在該二元搜尋樹狀結構中不需要再放入編號N,p(x)代表該等故障事件中之故障事件x之該執行機率,t(x)代表該等故障事件中之故障事件x之該檢測時間,其中,計算該平均偵測時間中之該執行機率p(x)之公式如下:
    Figure 107123624-A0305-02-0021-6
    h(i)代表故障事件i之一發生機率,而i代表建構二元搜尋樹時以x為樹根的子樹所包含的各故障事件編號,編號從j~k+1。
  13. 一種內儲一程式之電腦可讀取之記錄媒體,當用於偵測階層式系統故障之偵錯裝置於該電腦可讀取之記錄媒體載入該程式並執行後,可完成請求項7至12中任一項之方法。
  14. 一種內儲一程式之電腦程式產品,當用於偵測階層式系統故障之偵錯裝置於該電腦程式產品載入該程式並執行後,可完成請求項7至12中任一項之方法。
TW107123624A 2018-07-09 2018-07-09 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品 TWI691852B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW107123624A TWI691852B (zh) 2018-07-09 2018-07-09 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品
US16/252,733 US10831579B2 (en) 2018-07-09 2019-01-21 Error detecting device and error detecting method for detecting failure of hierarchical system, computer readable recording medium, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107123624A TWI691852B (zh) 2018-07-09 2018-07-09 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品

Publications (2)

Publication Number Publication Date
TW202006564A TW202006564A (zh) 2020-02-01
TWI691852B true TWI691852B (zh) 2020-04-21

Family

ID=69101667

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107123624A TWI691852B (zh) 2018-07-09 2018-07-09 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品

Country Status (2)

Country Link
US (1) US10831579B2 (zh)
TW (1) TWI691852B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7415714B2 (ja) * 2020-03-23 2024-01-17 富士通株式会社 障害原因特定システム、障害原因特定方法および障害原因特定プログラム
TWI774060B (zh) 2020-09-15 2022-08-11 國立中央大學 用於階層式系統之故障排除之裝置、方法及電腦程式產品
CN114528132A (zh) * 2020-10-30 2022-05-24 伊姆西Ip控股有限责任公司 存储系统故障的深层次原因分析
CN112579337A (zh) * 2021-01-05 2021-03-30 株洲中车时代电气股份有限公司 一种表决错误信息的定位方法、系统及存储介质
TWI814481B (zh) * 2021-07-20 2023-09-01 奧義智慧科技股份有限公司 用於輔助入侵偵測的資安事件診斷系統與相關的電腦程式產品
CN115600045B (zh) * 2022-11-30 2023-03-21 中国人民解放军海军工程大学 采用通用检测工具检测的平均检测时间计算方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200515174A (en) * 2003-07-31 2005-05-01 Ibm Dynamically configurable fault tolerance in autonomic computing with multiple service points
TW200814695A (en) * 2006-04-13 2008-03-16 Ibm Computer hardware fault diagnosis
CN102986163A (zh) * 2010-03-05 2013-03-20 交互数字专利控股公司 给设备提供安全性的方法和装置
US8892627B2 (en) * 1996-11-29 2014-11-18 Frampton E. Ellis Computers or microchips with a primary internal hardware firewall and with multiple internal harware compartments protected by multiple secondary interior hardware firewalls

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6883170B1 (en) * 2000-08-30 2005-04-19 Aspect Communication Corporation Method and system to maintain a hierarchy of instantiated application objects and to enable recovery from an applications failure
US7055074B2 (en) 2001-04-25 2006-05-30 Hewlett-Packard Development Company, L.P. Device to inhibit duplicate cache repairs
US7203743B2 (en) * 2001-12-28 2007-04-10 Nortel Networks Limited Hierarchical tree-based protection scheme for mesh networks
US7657779B2 (en) 2002-09-18 2010-02-02 International Business Machines Corporation Client assisted autonomic computing
US7194445B2 (en) 2002-09-20 2007-03-20 Lenovo (Singapore) Pte. Ltd. Adaptive problem determination and recovery in a computer system
TW200841189A (en) 2006-12-27 2008-10-16 Ibm Technique for accurately detecting system failure
JP2009157457A (ja) 2007-12-25 2009-07-16 Optim Corp 端末装置、故障診断方法およびプログラム
US8381033B2 (en) 2009-10-30 2013-02-19 International Business Machines Corporation Fault management in virtual computing environments
US8555105B2 (en) 2010-04-12 2013-10-08 International Business Machines Corporation Fallover policy management in high availability systems
TWI529525B (zh) 2010-04-30 2016-04-11 聯想企業解決方案(新加坡)有限公司 處理系統錯誤之方法及系統
US8738961B2 (en) 2010-08-17 2014-05-27 International Business Machines Corporation High-availability computer cluster with failover support based on a resource map
US8738972B1 (en) 2011-02-04 2014-05-27 Dell Software Inc. Systems and methods for real-time monitoring of virtualized environments
US20130097183A1 (en) 2011-10-14 2013-04-18 Zenoss, Inc. Method and apparatus for analyzing a root cause of a service impact in a virtualized environment
US8983961B2 (en) 2012-11-29 2015-03-17 International Business Machines Corporation High availability for cloud servers
US9798598B2 (en) 2013-11-26 2017-10-24 International Business Machines Corporation Managing faults in a high availability system
US9639434B2 (en) * 2015-02-26 2017-05-02 Dell Products, L.P. Auto-didacted hierarchical failure recovery for remote access controllers
WO2016159996A1 (en) 2015-03-31 2016-10-06 Hewlett Packard Enterprise Development Lp Preventing data corruption and single point of failure in fault-tolerant memory fabrics
US9774389B2 (en) 2015-09-01 2017-09-26 International Business Machines Corporation Dynamic link repair from lane failure with minimal link down-time while sparing fault channels
US10318366B2 (en) 2015-09-04 2019-06-11 International Business Machines Corporation System and method for relationship based root cause recommendation
US9537720B1 (en) 2015-12-10 2017-01-03 International Business Machines Corporation Topology discovery for fault finding in virtual computing environments

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8892627B2 (en) * 1996-11-29 2014-11-18 Frampton E. Ellis Computers or microchips with a primary internal hardware firewall and with multiple internal harware compartments protected by multiple secondary interior hardware firewalls
TW200515174A (en) * 2003-07-31 2005-05-01 Ibm Dynamically configurable fault tolerance in autonomic computing with multiple service points
TW200814695A (en) * 2006-04-13 2008-03-16 Ibm Computer hardware fault diagnosis
CN102986163A (zh) * 2010-03-05 2013-03-20 交互数字专利控股公司 给设备提供安全性的方法和装置

Also Published As

Publication number Publication date
US10831579B2 (en) 2020-11-10
US20200012551A1 (en) 2020-01-09
TW202006564A (zh) 2020-02-01

Similar Documents

Publication Publication Date Title
TWI691852B (zh) 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品
US9672085B2 (en) Adaptive fault diagnosis
Huang et al. Gray failure: The achilles' heel of cloud-scale systems
Cinque et al. Event logs for the analysis of software failures: A rule-based approach
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
US10489232B1 (en) Data center diagnostic information
TW202009705A (zh) 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
Dai et al. Self-healing and hybrid diagnosis in cloud computing
Duarte et al. VCube: A provably scalable distributed diagnosis algorithm
Candea et al. Autonomous recovery in componentized internet applications
CN113973042B (zh) 用于网络问题的根本原因分析的方法和系统
CN104615476A (zh) 用于所选择的虚拟机复制和虚拟机重新启动的方法和系统
TW573266B (en) Universal service management system
US20100085871A1 (en) Resource leak recovery in a multi-node computer system
CN116684256B (zh) 节点故障监测方法、装置、系统、电子设备及存储介质
US8537662B2 (en) Global detection of resource leaks in a multi-node computer system
TWI469573B (zh) 系統錯誤處理方法與使用其之伺服器系統
CN105027083B (zh) 使用诊断结果的恢复程序
Yan et al. Multi-layer fault diagnosis method in the Network Virtualization Environment
JP6787873B2 (ja) 異常種別判定装置、異常種別判定方法及びプログラム
AU2014200806B1 (en) Adaptive fault diagnosis
Lundin et al. Significant advances in Cray system architecture for diagnostics, availability, resiliency and health
Kelkar et al. Coordinator-based adaptive fault diagnosis algorithm for distributed computing systems
Kannan et al. A differential approach for configuration fault localization in cloud environments
Mathews et al. Towards failure correlation for improved cloud application service resilience