TW202213096A - 用於階層式系統之故障排除之裝置、方法及電腦程式產品 - Google Patents

用於階層式系統之故障排除之裝置、方法及電腦程式產品 Download PDF

Info

Publication number
TW202213096A
TW202213096A TW109131593A TW109131593A TW202213096A TW 202213096 A TW202213096 A TW 202213096A TW 109131593 A TW109131593 A TW 109131593A TW 109131593 A TW109131593 A TW 109131593A TW 202213096 A TW202213096 A TW 202213096A
Authority
TW
Taiwan
Prior art keywords
fault
level
hierarchy
troubleshooting
combined
Prior art date
Application number
TW109131593A
Other languages
English (en)
Other versions
TWI774060B (zh
Inventor
梁德容
李彥霖
王尉任
Original Assignee
國立中央大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立中央大學 filed Critical 國立中央大學
Priority to TW109131593A priority Critical patent/TWI774060B/zh
Priority to US17/082,374 priority patent/US11226857B1/en
Publication of TW202213096A publication Critical patent/TW202213096A/zh
Application granted granted Critical
Publication of TWI774060B publication Critical patent/TWI774060B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Hardware Redundancy (AREA)

Abstract

一種用於故障排除的裝置、方法及電腦程式產品被揭露。該裝置應用於一階層式系統,且儲存階層列表及故障模型。當至少一無效階層之檢測單元無效,該裝置將該至少一無效階層與目標階層定義為組合階層。目標階層為至少一可用階層中故障相依性最低者。該至少一可用階層之檢測單元為正常狀態且其故障相依性高於該無效階層。接著,該裝置將相應於目標階層之檢測單元及故障症狀對應至組合階層,以更新階層列表及故障模型。隨後,該裝置根據階層列表與故障模型,自該等階層中確認故障之來源,並執行相應於該來源之故障排除策略,以排除故障。

Description

用於階層式系統之故障排除之裝置、方法及電腦程式產品
本揭露是關於一種用於階層式系統(multilayer system)之故障排除裝置、故障排除方法及其電腦程式產品。更具體而言,本揭露是關於一種於階層式系統中的特定檢測單元處於一無效狀態時仍可進行故障偵測及排除之故障排除裝置、故障排除方法及其電腦程式產品。
常見的階層式系統包含複數個階層,而傳統針對階層式系統的故障偵測及排除機制多為透過對應至各階層的檢測單元檢測各階層中出現的故障症狀,並據以找出故障之來源。歸因於階層式系統的架構(亦即,高階層通常會使用低階層提供的功能),其中之該等階層往往具有故障相依性(亦即,故障相依性較高的一階層中發生的故障可能實際上是由故障相依性較低的其他階層的故障所引起)。對此,當一階層式系統中的一階層發生故障,可透過例如但不限於中華民國第I691852號發明專利(發明名稱為「用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品」,申請日期為2018年7月9日,其全文以引用之方式併入本文當中)所記載基於二元搜尋樹結構之階層式故障偵測演算法來偵測出造成該故障的真實來源,並於確認故障來源後針對故障進行排除。
然而,上述針對階層式系統的現有機制雖可偵測出故障的來源,但因其需仰賴各階層的檢測單元檢測該階層之故障症狀,以確認該階層是否發生一故障,故一旦階層式系統中的某些階層所對應之檢測單元呈現一無效狀態(例如:檢測單元故障或是檢測單元無法用於檢測該階層之故障症狀等情形),上述之現有機制便無法繼續偵測出故障來源,因而無法針對故障採取相應之故障排除策略。
有鑑於上述情形,如何於階層式系統中部份之檢測單元呈現無效狀態時仍可偵測故障來源並且對該故障加以排除,為本領域亟需解決之技術問題。
為了至少解決上述問題,本發明提供一種故障排除裝置。該故障排除裝置可應用於一階層式系統。該階層式系統之複數個階層之每一者具有一故障相依性,且該等階層可對應至複數個檢測單元。該故障排除裝置可包含一儲存器以及與該儲存器電性連接之一處理器。該儲存器可用以儲存一階層列表及一故障模型。該處理器可用以根據該階層列表與該故障模型,自該等階層中確認相應於該階層式系統之一故障之一來源,以及針對該階層式系統執行相應於該來源之一故障排除策略,以排除該故障。當該等階層中之至少一無效階層所對應之該檢測單元處於一無效狀態時,該處理器還可用以於該階層列表中將該至少一無效階層與一目標階層定義為一組合階層,以更新該階層列表,其中該目標階層為至少一可用階層中故障相依性最低者。該至少一可用階層各自對應之該至少一檢測單元處於一正常狀態,且該至少一可用階層之故障相依性高於該無效階層之故障相依性。此外,該處理器還可於該故障模型中將相應於該目標階層之該檢測單元以及一故障症狀對應至該組合階層,以更新該故障模型。
為了至少解決上述問題,本發明還提供一種電腦程式產品。一電子計算裝置載入該電腦程式產品所包含之複數個程式指令後可執行一故障排除方法。該電子計算裝置可儲存一階層列表及一故障模型。該故障排除方法可應用於一階層式系統,該階層式系統之複數個階層之每一者具有一故障相依性。該故障排除方法可包含下列步驟: 當相應於該等階層中之至少一無效階層之至少一檢測單元處於一無效狀態時,於該階層列表中,將該至少一無效階層與一目標階層定義為一組合階層,以更新該階層列表,其中該目標階層為至少一可用階層中故障相依性最低者,該至少一可用階層各自對應之至少一檢測單元處於一正常狀態,且該可用階層之故障相依性高於該無效階層之故障相依性; 於該故障模型中,將相應於該目標階層之該檢測單元以及一故障症狀對應至該組合階層,以更新該故障模型; 根據該階層列表以及該故障模型,自該等階層中確認相應於該階層式系統之一故障之一來源;以及 針對該階層式系統執行相應於該來源之一故障排除策略,以排除該故障。
為了至少解決上述問題,本發明還提供一種故障排除方法。該故障排除方法可由一電子計算裝置所執行,且該電子計算裝置可儲存一階層列表及一故障模型。該故障排除方法可應用於一階層式系統,該階層式系統之複數個階層之每一者具有一故障相依性。該故障排除方法可包含下列步驟: 當相應於該等階層中之至少一無效階層之至少一檢測單元處於一無效狀態時,於該階層列表中,將該至少一無效階層與一目標階層定義為一組合階層,以更新該階層列表,其中該目標階層為至少一可用階層中故障相依性最低者,該至少一可用階層各自對應之該至少一檢測單元處於一正常狀態,且該至少一可用階層之故障相依性高於該無效階層之故障相依性; 於該故障模型中,將相應於該目標階層之該檢測單元以及一故障症狀對應至該組合階層,以更新該故障模型; 根據該階層列表以及該故障模型,自該等階層中確認相應於該階層式系統之一故障之一來源;以及 針對該階層式系統執行相應於該來源之一故障排除策略,以排除該故障。
綜上所述,本揭露提供的故障排除裝置、故障排除方法以及相應之電腦程式產品於階層式系統中的至少一階層的檢測單元處於無效狀態時,透過定義包含故障相依性較高的目標階層以及該至少一無效階層的一組合階層而更新階層列表與故障模型,使階層式故障偵測演算法得以繼續執行,藉此偵測出階層式系統的故障來源並且排除故障。據此,本揭露提供的故障排除裝置、故障排除方法以及相應之電腦程式產品確實解決了本發明所屬技術領域中的上述問題。
發明內容整體地敘述了本發明的核心概念,並涵蓋了本發明可解決的問題、可採用的手段以及可達到的功效,以提供本發明所屬技術領域中具有通常知識者對本發明的基本理解。然而,應理解,發明內容並非有意概括本發明的所有實施例,而僅是以一簡單形式來呈現本發明的核心概念,以作為隨後詳細描述的一個引言。以下結合圖式闡述本發明之詳細技術及實施方式,俾使本發明所屬技術領域中具有通常知識者能理解所請求保護之發明之技術特徵。
以下將透過實施方式來解釋本發明所提供之故障排除裝置、故障排除方法及相應之電腦程式產品。然而,該等實施方式並非用以限制本發明須在如該等實施方式所述之任何環境、應用或方式方能實施。因此,關於實施方式之說明僅為闡釋本發明之目的,而非用以限制本發明之範圍。應理解,在以下實施方式及圖式中,與本發明非直接相關之元件已省略而未繪示,且各元件之尺寸以及元件間之尺寸比例僅為例示而已,而非用以限制本發明之範圍。
第1圖為描繪根據本發明的一或多個實施例的故障排除裝置及相應之目標裝置之示意圖。第1圖所示內容僅是為了說明本發明的實施例,而非為了限制本發明。
參照第1圖,一故障排除裝置1基本上可包含一儲存器11以及一處理器12,且儲存器11可與處理器12電性連接。儲存器11與處理器12之間的電性連接可以是直接的(即沒有透過其他元件而彼此連接)或是間接的(即透過其他元件而彼此連接)。故障排除裝置1可以是各種類型之計算裝置,例如但不限於桌上型電腦、筆記型電腦、行動電話、可攜式電子配件(手錶、眼鏡等等)。故障排除裝置1可用以偵測並排除可表示一目標裝置2之一階層式系統21當中所發生的故障。
階層式系統21可包含複數個階層,且該等階層可對應至複數個檢測單元22。階層式系統21可為目標裝置2(包含硬體以及在其中運行之一作業系統(例如:Windows、Linux、macOS等作業系統)或一雲端作業系統(例如:OpenStack雲端平台)等軟體)經抽象化後之一階層集合。換言之,階層式系統21當中之各該階層可表示目標裝置2相應於該階層之一部份硬體及/或一部份軟體。檢測單元22可用以檢測各該階層當中發生的故障事件,其可為例如但不限於一智慧型平台管理介面(intelligent platform management interface,IPMI)單元或用於分析一階層中發生的各種事件的一應用程式。
儲存器11可用以儲存故障排除裝置1所產生的資料、外部裝置傳入的資料、或使用者自行輸入的資料。儲存器11可包含第一級記憶體(又稱主記憶體或內部記憶體),且處理器12可直接讀取儲存在第一級記憶體內的指令集,並在需要時執行這些指令集。儲存器11可選擇性地包含第二級記憶體(又稱外部記憶體或輔助記憶體),且此記憶體可透過資料緩衝器將儲存的資料傳送至第一級記憶體。舉例而言,第二級記憶體可以是但不限於:硬碟、光碟等。儲存器11可選擇性地包含第三級記憶體,亦即,可直接插入或自電腦拔除的儲存裝置,例如隨身硬碟。儲存器11可用以儲存一階層列表111以及一故障模型112。
階層列表111為用以呈現階層式系統21中的該等階層之一資料,其實施方式可為例如於第3A圖與第3B圖中所示。故障模型112為用以定義階層式系統21中的故障發生於各該階層時,該等階層呈現之故障症狀的一資料。關於階層列表111與故障模型112之具體細節將於下方針對第2圖、第3A圖以及第3B圖之敘述中進一步說明。
處理器12可以是具備訊號處理功能的微處理器(microprocessor)或微控制器(microcontroller)等。微處理器或微控制器是一種可程式化的特殊積體電路,其具有運算、儲存、輸出/輸入等能力,且可接受並處理各種編碼指令,藉以進行各種邏輯運算與算術運算,並輸出相應的運算結果。處理器12可被編程以解釋各種指令,以處理故障排除裝置1中的資料並執行各項運算程序或程式。
在某些實施例中,故障排除裝置1還可包含一收發器13,且收發器13可與處理器12電性連接。收發器13可用以與目標裝置2進行有線或無線的通訊(例如:與目標裝置2當中的一通訊介面23進行通訊,其可為例如但不限於一IPMI埠或收發網路訊號之一網路介面等等),以接收階層式系統21中關於各階層的訊息及/或事件。在某些實施例中,收發器13還可用以發送針對階層式系統21的控制指令至通訊介面23。舉例而言,針對階層式系統21的控制指令可為一故障排除指令EC1,其相關於針對由故障排除裝置1偵測出的故障所採取的至少一故障排除動作。在某些實施例中,收發器13可包含一傳送器(transmitter)與一接收器(receiver)。以無線通訊為例,收發器13可包含但不限於:天線、放大器、調變器、解調變器、偵測器、類比至數位轉換器、數位至類比轉換器等通訊元件。以有線通訊為例,收發器13可以是例如但不限於:一十億位元乙太網路收發器(gigabit Ethernet transceiver)、一十億位元乙太網路介面轉換器(gigabit interface converter,GBIC)、一小封裝可插拔收發器(small form-factor pluggable (SFP) transceiver)、一百億位元小封裝可插拔收發器(ten gigabit small form-factor pluggable (XFP) transceiver)等。
第2圖為描繪根據本發明的一或多個實施例的故障偵測及排除之流程圖。第3A圖為描繪根據本發明的一或多個實施例的更新前的階層列表之示意圖。第3B圖為描繪根據本發明的一或多個實施例的更新後的階層列表之示意圖。第2圖、第3A圖以及第3B圖所示內容僅是為了說明本發明的實施例,而非為了限制本發明。
同時參照第1圖、第2圖、第3A圖以及第3B圖,在某些實施例中,階層式系統21可包含複數個階層L1、L2、…、L9,而該等階層可被記錄於一階層列表111當中。舉例而言,階層L1、L2、…、L9依序可分別代表目標裝置2之一主機硬體階層、一主機作業系統階層、一主機網路階層、一伺服器階層、一虛擬機器硬體階層、一虛擬機器作業系統階層、一虛擬機器網路階層、一Docker階層以及一Containers階層。
階層L1、L2、…、L9可各自具有一故障相依性,且該等階層之該故障相依性可具有一遞增順序,亦即,階層L9的故障相依性為該等階層中的最高者,而階層L1的故障相依性為該等階層中的最低者。於各階層中出現的故障症狀可能源於該階層自身當中所發生的故障,亦可能源於故障相依性較該階層為低者當中所發生的故障。
在某些實施例中,處理器12可透過針對階層式系統21執行的一流程3以達到故障偵測及故障排除之功能。流程3可開始於一動作301,其中,由於一旦任何故障相依性非為最高的階層發生故障皆將造成故障相依性最高的階層(即,階層L9)發生故障,故處理器12可透過收發器13而自通訊介面23接收階層式系統21中故障相依性最高的階層的一事件E1。隨後,於一動作302中,處理器12可分析事件E1以判斷階層式系統21是否故障。倘若處理器12於分析事件E1後判斷階層式系統21確實發生了一故障,則於一動作303中,處理器12可進一步根據階層列表111以及故障模型112而確認該故障之一來源。倘若處理器12於動作302中判斷階層式系統21無發生故障,則可返回動作301以繼續接收故障相依性最高的階層中其他的事件。
如前所述,故障模型112用以定義階層式系統21中的故障發生於各該階層時,該等階層呈現之故障症狀。據此,透過參考階層列表111以及故障模型112,處理器12可基於其自各檢測單元22所接收到關於階層式系統21的故障分布情形而確認階層式系統21之該故障之該來源為該等階層中之何者。所述之故障分布情形是指階層式系統21中該等階層是否出現故障症狀的分布情形。在某些實施例中,故障模型112之一實施方式可如下方表一所示:
故障所在之階層 故障分布情形 [L1,L2,L3,L4,L5,L6,L7,L8,L9]
階層L9 [0,0,0,0,0,0,0,0,1]
階層L8 [0,0,0,0,0,0,0,1,1]
階層L7 [0,0,0,0,0,0,1,1,1]
階層L6 [0,0,0,0,0,1,1,1,1]
階層L5 [0,0,0,0,1,1,1,1,1]
階層L4 [0,0,0,1,1,1,1,1,1]
階層L3 [0,0,1,1,1,1,1,1,1]
階層L2 [0,1,1,1,1,1,1,1,1]
階層L1 [1,1,1,1,1,1,1,1,1]
<表一> 其中,故障分布情形之欄位可儲存一陣列,其中的複數個元素之數量可相應於該等階層之數量,且該等元素可由左至右依序表示相應於階層L1至階層L9的各檢測單元22所回報關於各該階層的一故障症狀表現,若元素之數值為「0」,表示相應之該階層未出現故障症狀,若數值為「1」則表示相應之該階層出現了故障症狀。
具體而言,在某些實施例中,處理器12根據階層列表111以及故障模型112而確認該故障之該來源的方法可為先前所述本發明所屬技術領域中習知的針對階層式系統的故障偵測方法,例如但不限於中華民國第I691852號發明專利(發明名稱為「用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品」)所記載基於二元搜尋樹結構之階層式故障偵測演算法。
有鑑於上述針對階層式系統的故障偵測方法需要參考各階層的故障症狀,以確實找出該故障之該來源,故倘若階層式系統21當中與該等階層相應的檢測單元22處於一無效狀態,將致使檢測無法繼續進行。有鑑於此,處理器12於確認該故障之該來源時,可於一動作304中同時判斷與各階層相應的檢測單元22是否處於該無效狀態。該無效狀態可為例如但不限於檢測單元22發生故障,或者階層與檢測單元22間的對應關係有誤(亦即,檢測單元22無法用於檢測該階層之故障症狀)之情形。
在某些實施例中,判斷檢測單元22是否處於該無效狀態之方法可為由處理器12分析自檢測單元22所接收之訊息(例如:檢測單元22所回報關於各階層中之事件),並判斷該訊息是否為非預期之內容。若判斷結果為是,則進一步判定該檢測單元22處於該無效狀態。
倘若處理器12於動作304中判斷與至少一階層相應的檢測單元22處於該無效狀態,則於一動作305中,處理器12可透過重構之方式更新階層列表111與故障模型112。具體而言,如第3A圖與第3B圖所示,倘若處理器12判斷相應於階層L2與階層L3之檢測單元22處於該無效狀態(茲定義相應之檢測單元22處於該無效狀態之該階層為一無效階層UL),則處理器12可找出故障相依性高於階層L2與階層L3且相應之檢測單元22處於一正常狀態之階層L4、階層L5、階層L6、階層L7、階層L8以及階層L9(茲定義相應之檢測單元22處於該正常狀態且故障相依性高於無效階層UL之該階層為一可用階層AL),並自階層L4至階層L9中選擇故障相依性最低之階層L4(茲定義至少一可用階層AL中故障相依性最低者為一目標階層TL),再於階層列表111中將階層L2、階層L3以及階層L4定義為一組合階層CL,同時以組合階層CL取代階層L2、階層L3以及階層L4,藉此更新階層列表111。
有鑑於組合階層CL對應至更新前之階層列表111中的階層L2、階層L3以及階層L4,故處理器12可使相應於階層L4之檢測單元22對應至組合階層CL。換言之,由於相應於階層L4之檢測單元22處於該正常狀態,且無論是階層L2、階層L3以及階層L4當中之何者發生故障,相應於階層L4之檢測單元22皆會向處理器12回報階層L4出現故障症狀,故其可一定程度地被用做相應於組合階層CL之檢測單元22。
接著,由於階層式系統21中的階層分布形式已改變,故處理器12可相應地於故障模型112中將原先相應於階層L2、階層L3以及階層L4之故障症狀對應至組合階層CL,藉此更新故障模型112。具體而言,有鑑於各階層之故障相依性,倘若故障來源為階層L2、階層L3以及階層L4中之任一者,故障相依性高於該等階層的階層L5、階層L6、階層L7、階層L8以及階層L9也會出現故障症狀,故處理器12可根據此一現象而確認故障模型112中相應於組合階層CL的故障症狀。更新後的故障模型112的一實施方式可如下方表二所示:
故障所在之階層 故障分布情形 [L1,CL,L5,L6,L7,L8,L9]
階層L9 [0,0,0,0,0,0,1]
階層L8 [0,0,0,0,0,1,1]
階層L7 [0,0,0,0,1,1,1]
階層L6 [0,0,0,1,1,1,1]
階層L5 [0,0,1,1,1,1,1]
組合階層CL [0,1,1,1,1,1,1]
階層L1 [1,1,1,1,1,1,1]
<表二>
在某些實施例中,可獨立於其他動作而於流程3開始前先行進行動作304與動作305。具體而言,處理器12可透過收發器13發送至少一預設訊息至各檢測單元22,以判斷各檢測單元22是否回傳非預期之訊息,或者各檢測單元22於預設的一時間區間內是否未回傳訊息。若針對任一檢測單元22的前述判斷結果為是,則處理器12可進一步判定該檢測單元22處於該無效狀態。
在某些實施例中,處理器12除了更新階層列表111以及故障模型112之外,還可相應地更新一暫時性故障資料集。該暫時性故障資料集為用以呈現階層式系統21中的各階層所發生之故障為一暫時性故障與否之相關資訊之一資料集。所述之暫時性故障是指持續時間短於目標裝置2對於該故障的可容忍時間之故障,例如但不限於:短暫的網路繁忙。當暫時性故障消失時,產生的故障症狀也會消失且目標裝置2可繼續正常運行。相對地,非屬暫時性故障之一永久性故障是指持續時間超過目標裝置2對於該故障的可容忍時間之故障,且永久性故障將使目標裝置2出現永久性的故障症狀,例如但不限於:電源中斷。
在某些實施例中,被處理器12更新前以及更新後的該暫時性故障資料集之一實施方式可分別如下方之表三以及表四所示:
階層 故障機率 總故障檢測時間(秒) 第一階段故障檢測時間(秒) 發生暫時性故障之可能性 暫時性故障排除時間(秒)
階層L9 0.1123 1 1  
階層L8 0.1123 3 3  
階層L7 0.1123 2 1 1
階層L6 0.1123 2 1 1
階層L5 0.1123 1 1  
階層L4 0.1123 4 3 1
階層L3 0.1122 30 1 29
階層L2 0.0284 4 2 2
階層L1 0.1856 1 1  
<表三>
階層 故障機率 總故障檢測時間(秒) 第一階段故障檢測時間(秒) 發生暫時性故障之可能性 暫時性故障排除時間(秒)
階層L9 0.1123 1 1  
階層L8 0.1123 3 3  
階層L7 0.1123 2 1 1
階層L6 0.1123 2 1 1
階層L5 0.1123 1 1  
組合階層CL 0.2529 30 3 27
階層L1 0.1856 1 1  
<表四>
具體而言,在某些實施例中,該暫時性故障資料集可包含相應於各階層之故障機率、總故障檢測時間、第一階段故障檢測時間、暫時性故障排除時間及/或發生暫時性故障之可能性。該總故障檢測時間可表示階層式系統21可容忍各階層發生之故障之時間,倘若一階層可能發生暫時性故障,則該總故障檢測時間可進一步區分為該第一階段故障檢測時間以及該暫時性故障排除時間(換言之,該總故障檢測時間為該第一階段故障檢測時間以及該暫時性故障排除時間之和),而檢測單元22將只在該第一階段故障檢測時間內進行檢測。倘若確認該階層為故障所在之階層,則該暫時性故障排除時間可用以確認該故障是否為暫時性故障,具體之確認方式為在該暫時性故障排除時間內持續檢測該階層是否出現故障症狀。若於該暫時性故障排除時間內檢測出該階層中無出現故障症狀,則表示該故障已被自動地排除(亦即,階層式系統21成功地自該故障中復原),否則即表示該故障屬於永久性故障。舉例而言,有鑑於階層L3(即,目標裝置2之主機網路)具有發生如網路繁忙等暫時性故障之可能性,故假設階層式系統21對於網路繁忙之暫時性故障的可容忍的時間為30秒,則該時間可進一步分為1秒之第一階段故障檢測時間以及29秒之暫時性故障排除時間。
在某些實施例中,於更新該暫時性故障資料集時,處理器12可根據更新後的階層列表111而為組合階層CL決定相應之資料內容。舉例而言,首先,有鑑於階層L2、階層L3以及階層L4當中至少有一階層有發生暫時性故障之可能性,故組合階層CL亦具有發生暫時性故障之可能性。接著,相應於組合階層CL之該故障機率可為相應於階層L2、階層L3(即,無效階層)以及階層L4(即,目標階層TL)之複數個故障機率之總和,而相應於組合階層CL之該總故障檢測時間則可為相應於階層L2、階層L3以及階層L4之複數個總故障檢測時間中之最大值。此外,相應於組合階層CL之該第一階段故障檢測時間可為相應於階層L2、階層L3以及階層L4之複數個第一階段故障檢測時間中之最大值。於決定組合階層CL之該總故障檢測時間以及該第一階段故障檢測時間後,處理器12便可根據該總故障檢測時間以及該第一階段故障檢測時間,計算出相應於組合階層CL之該暫時性故障排除時間。完成上述計算之後,處理器12可將組合階層CL之該暫時性故障資料用以取代相應於階層L2、階層L3以及階層L4之複數個暫時性故障資料,進而更新該暫時性故障資料集。
重新參照第2圖,於更新階層列表111以及故障模型112之後,處理器12可重新進行動作301。此時,倘若前述階層L9之故障並未自動地被排除,則處理器12仍會接收到相同之事件E1,故其於動作302中仍會判斷階層式系統21中發生故障,並因此再次進行動作303。由於階層列表111已被更新,故相應於階層L1、組合階層CL、階層L5、階層L6、階層L7、階層L8以及階層L9之檢測單元22皆會處於該正常狀態。因此,處理器12便可如前所述地確認階層式系統21中之該故障之該來源。
在某些實施例中,於確認該故障之該來源後,處理器12可針對該故障之該來源進行相應的一故障排除策略。該故障排除策略包含確認該故障是否可能為暫時性故障,以及根據確認之結果進行相應之故障排除動作。詳言之,處理器12於一動作306中可根據更新後之暫時性故障資料集而確認該故障是否可能為暫時性故障。倘若該故障被確認可能為暫時性故障,表示其有機會自動地被排除,則處理器12於一動作307中可進一步確認該故障是否於相應之暫時性故障排除時間內被自動地排除。倘若確認結果為是,則表示階層式系統21之故障排除已完成,故處理器12可重新進行動作301,以開始下一輪之故障偵測以及故障排除。
倘若該故障於動作306中經確認無屬於暫時性故障之可能性,或者該故障雖可能為暫時性故障卻未於暫時性故障排除時間內被自動地排除,則此時處理器12於一動作308中可針對階層式系統21執行相應於該來源之一故障排除動作,以排除該故障。
舉例而言,於更新階層列表111之前,相應於各該階層之該故障排除動作可如下方表五所示。須說明,表五中所示之故障排除動作僅是舉例而非限制。換言之,除了表五中所示之故障排除動作之外,針對各階層中發生的故障亦可各自採取本發明所屬技術領域中已知可行的各種其他故障排除動作。
階層 故障排除動作
階層L9 於原主機上重啟Container
階層L8 於原主機上重啟Docker
階層L7 於原主機上重啟虛擬機器
階層L6 於原主機上重啟虛擬機器
階層L5 於原主機上重啟虛擬機器
階層L4 於原主機上重啟伺服器
階層L3 於其他健康之主機上重啟虛擬機器,並重啟主機
階層L2 於其他健康之主機上重啟虛擬機器,並重啟主機
階層L1 於其他健康之主機上重啟虛擬機器,並關閉主機
<表五>
在某些實施例中,於更新階層列表111之後,處理器12可基於階層L2、階層L3以及階層L4的故障排除動作而相應地定義組合階層CL的故障排除動作,具體為由相應於階層L2、階層L3(即,該至少一無效階層UL)以及階層L4(即,該目標階層TL)之故障排除動作依照該等階層之該等故障相依性之一遞增順序所組成。亦即,相應於組合階層CL的故障排除動作可為依序執行相應於階層L2、階層L3以及階層L4之故障排除動作。
在某些實施例中,於排除該故障後,處理器12同樣地可重新進行動作301,以開始下一輪之故障偵測以及故障排除。
在某些實施例中,處理器12可於階層式系統21中的該等階層的一子集合中執行上述針對所有階層的故障偵測以及故障排除之流程3。舉例而言,於階層式系統21中,分別相應於主機硬體、主機作業系統、主機網路以及伺服器的階層L1、階層L2、階層L3以及階層L4可形成與硬體基礎架構相關的一子集合,而分別相應於伺服器、虛擬機器硬體、虛擬機器作業系統以及虛擬機器網路的階層L5、階層L6、階層L7以及階層L8則可形成與虛擬機器相關的另一子集合。有鑑於階層式系統21中運行的虛擬機器可能不只一部,故當檢測單元22回報與虛擬機器相關的某一階層(例如:階層L7)出現故障症狀時,其實際上可能僅是其中一部虛擬機器出現了錯誤訊息。在此情況下,倘若處理器12透過針對所有階層進行上述之流程3而找出相應於故障來源的故障排除動作為「重啟伺服器」,則執行此故障排除動作將造成原先正常運作的其他虛擬機器一併被強迫關閉以及重啟,因而產生了非必要的資源浪費以及服務中斷。因此,處理器12可改為針對該等子集合各自進行與上述相同的故障偵測以及故障排除的流程3,以避免上述缺點。
第4圖為描繪根據本發明的一或多個實施例的故障排除方法之流程圖。第4圖所示內容僅是為了說明本發明的實施例,而非為了限制本發明。
參照第4圖,一故障排除方法4可由一電子計算裝置所執行。該電子計算裝置可儲存一階層列表及一故障模型。故障排除方法4可應用於一階層式系統,且該階層式系統之複數個階層之每一者可具有一故障相依性。故障排除方法4可包含下列步驟: 當相應於該等階層中之至少一無效階層之至少一檢測單元處於一無效狀態時,於該階層列表中,將該至少一無效階層與一目標階層定義為一組合階層,以更新該階層列表(標示為401),其中,該目標階層為至少一可用階層中故障相依性最低者。該至少一可用階層各自對應之該至少一檢測單元處於一正常狀態,且該至少一可用階層之故障相依性高於該無效階層之故障相依性; 於該故障模型中,將相應於該目標階層之該檢測單元以及一故障症狀對應至該組合階層,以更新該故障模型(標示為402); 根據該階層列表與該故障模型,自該等階層中確認相應於該階層式系統之一故障之一來源(標示為403);以及 針對該階層式系統執行相應於該來源之一故障排除策略,以排除該故障(標示為404)。
在某些實施例中,故障排除方法4還可包含下列步驟:執行基於一二元搜尋樹結構之一階層式故障偵測演算法以確認該故障之該來源。
在某些實施例中,故障排除方法4還可包含下列步驟: 於該階層列表中,將該組合階層用以取代該至少一無效階層與該目標階層,以更新該階層列表;以及 於該故障模型中,將相應於該組合階層之該故障症狀用以取代相應於該至少一無效階層以及該目標階層之複數個故障症狀,以更新該故障模型。
在某些實施例中,故障排除方法4還可包含下列步驟: 根據更新後之該階層列表以及一暫時性故障資料集,決定相應於該組合階層之一暫時性故障資料,其中該暫時性故障資料至少包含一故障機率、一總故障檢測時間以及一第一階段故障檢測時間;以及 將該暫時性故障資料用以取代該暫時性故障資料集中相應於該至少一無效階層以及該目標階層之複數個暫時性故障資料,以更新該暫時性故障資料集。於該暫時性故障資料中,相應於該組合階層之該故障機率可為相應於該至少一無效階層以及該目標階層之複數個故障機率之總和,而相應於該組合階層之該總故障檢測時間可為相應於該至少一無效階層以及該目標階層之複數個總故障檢測時間中之最大值,相應於該組合階層之該第一階段故障檢測時間則可為相應於該至少一無效階層以及該目標階層之複數個第一階段故障檢測時間中之最大值。此外,在某些實施例中,故障排除方法4還可進一步包含下列步驟:若該組合階層中可能發生暫時性故障,則根據該總故障檢測時間以及該第一階段故障檢測時間,計算相應於該組合階層之一暫時性故障排除時間。此時,該暫時性故障資料還可包含該暫時性故障排除時間。再者,當該故障之該來源為該組合階層時,該故障排除策略可包含:若該組合階層中可能發生暫時性故障,則於相應於該組合階層之該暫時性故障排除時間內等待該故障被自動地排除;若該組合階層中不可能發生該暫時性故障或者可能發生該暫時性故障但卻未在暫時性故障排除時機內被自動地排除,則執行相應於該組合階層之一故障排除動作。在某些實施例中,故障排除方法4還可包含下列步驟:定義相應於該組合階層之該故障排除動作。該故障排除動作可以是由相應於該至少一無效階層以及該目標階層之複數個故障排除動作依照該至少一無效階層與該目標階層之該等故障相依性之一遞增順序所組成。
故障排除方法4的每一個實施例基本上都會與故障排除裝置1的某一個實施例相對應。因此,僅根據上文針對故障排除裝置1的說明,本發明所屬技術領域中具有通常知識者即已能充分瞭解且實現故障排除方法4的所有相應的實施例,即使上文未針對故障排除方法4的每一個實施例進行詳述。
在某些實施例中,故障排除方法4可被實作為一電腦程式產品。當該電腦程式產品被讀入該電子計算裝置時,包含於該電腦程式產品中的複數個程式指令可執行第二實施方式所述之故障排除方法4。該電腦程式產品可被儲存於一非暫態有形機器可讀媒介,例如但不限於一唯讀記憶體(read-only memory,ROM)、一快閃記憶體(flash memory)、一磁碟片(floppy disk)、一行動硬碟、一磁帶(magnetic tape)、可連網的一資料庫或任何其他為本發明所屬技術領域中具有通常知識者所熟知且具有相同功能的儲存媒介。
上述實施方式僅用來例舉本發明之部分實施態樣,以及闡釋本發明之技術特徵,而非用來限制本發明之保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍,而本發明之權利保護範圍以申請專利範圍為準。
如下所示: 1:故障排除裝置 11:儲存器 111:階層列表 112:故障模型 12:處理器 13:收發器 2:目標裝置 21:階層式系統 22:檢測單元 23:通訊介面 3:流程 301~308:動作 4:故障排除方法 401~404:步驟 AL:可用階層 TL:目標階層 CL:組合階層 EC1:故障排除指令 E1:事件 L1~L9:階層 UL:無效階層
第1圖為描繪根據本發明的一或多個實施例的故障排除裝置及相應之目標裝置之示意圖。 第2圖為描繪根據本發明的一或多個實施例的故障偵測及排除之流程圖。 第3A圖為描繪根據本發明的一或多個實施例的更新前的階層列表之示意圖。 第3B圖為描繪根據本發明的一或多個實施例的更新後的階層列表之示意圖。 第4圖為描繪根據本發明的一或多個實施例的故障排除方法之流程圖。
無。
4:故障排除方法
401~404:步驟

Claims (21)

  1. 一種故障排除裝置,該故障排除裝置應用於一階層式系統,該階層式系統之複數個階層之每一者具有一故障相依性,該故障排除裝置包含: 一儲存器,用以儲存一階層列表及一故障模型;以及 一處理器,與該儲存器電性連接,該處理器用以: 根據該階層列表與該故障模型,自該等階層中確認相應於該階層式系統之一故障之一來源;以及 針對該階層式系統執行相應於該來源之一故障排除策略,以排除該故障; 其中,當相應於該等階層中之至少一無效階層之至少一檢測單元處於一無效狀態時,該處理器還用以: 於該階層列表中,將該至少一無效階層與一目標階層定義為一組合階層,以更新該階層列表,其中該目標階層為至少一可用階層中故障相依性最低者,相應於該至少一可用階層之至少一檢測單元處於一正常狀態,且該至少一可用階層之故障相依性高於該至少一無效階層之故障相依性;以及 於該故障模型中,將相應於該目標階層之該檢測單元以及一故障症狀對應至該組合階層,以更新該故障模型。
  2. 如請求項1所述之故障排除裝置,其中該處理器還用以執行基於一二元搜尋樹結構之一階層式故障偵測演算法以確認該故障之該來源。
  3. 如請求項1所述之故障排除裝置,其中該處理器是透過於該階層列表中將該組合階層用以取代該至少一無效階層以及該目標階層而更新該階層列表,且該處理器是透過於該故障模型中將該組合階層所對應之該故障症狀用以取代相應於該至少一無效階層以及該目標階層之複數個故障症狀而更新該故障模型。
  4. 如請求項1所述之故障排除裝置,其中該處理器還用以: 根據更新後之該階層列表與一暫時性故障資料集,決定相應於該組合階層之一暫時性故障資料,其中該暫時性故障資料至少包含一故障機率、一總故障檢測時間以及一第一階段故障檢測時間;以及 將該暫時性故障資料用以取代該暫時性故障資料集中相應於該至少一無效階層與該目標階層之複數個暫時性故障資料,以更新該暫時性故障資料集; 其中: 相應於該組合階層之該故障機率為相應於該至少一無效階層與該目標階層之複數個故障機率之總和; 相應於該組合階層之該總故障檢測時間為相應於該至少一無效階層與該目標階層之複數個總故障檢測時間中之最大值;以及 相應於該組合階層之該第一階段故障檢測時間為相應於該至少一無效階層與該目標階層之複數個第一階段故障檢測時間中之最大值。
  5. 如請求項4所述之故障排除裝置,其中該處理器還用以: 若該組合階層中可能發生暫時性故障,則根據該總故障檢測時間以及該第一階段故障檢測時間,計算相應於該組合階層之一暫時性故障排除時間; 其中,該暫時性故障資料還包含該暫時性故障排除時間。
  6. 如請求項5所述之故障排除裝置,其中當該故障之該來源為該組合階層時,該故障排除策略包含: 若該組合階層中可能發生暫時性故障,則該處理器於相應於該組合階層之該暫時性故障排除時間內等待該故障被自動地排除;以及 若該組合階層中不可能發生暫時性故障,或該組合階層中可能發生暫時性故障但未在該暫時性故障排除時間內被自動地排除,則該處理器執行相應於該組合階層之一故障排除動作。
  7. 如請求項6所述之故障排除裝置,其中該處理器還用以定義相應於該組合階層之該故障排除動作,且該故障排除動作是由相應於該至少一無效階層與該目標階層之複數個故障排除動作依照該至少一無效階層與該目標階層之該等故障相依性之一遞增順序所組成。
  8. 一種電腦程式產品,一電子計算裝置載入該電腦程式產品所包含之複數個程式指令後執行一故障排除方法,該電子計算裝置儲存一階層列表及一故障模型,該故障排除方法應用於一階層式系統,該階層式系統之複數個階層之每一者具有一故障相依性,該故障排除方法包含下列步驟: 當相應於該等階層中之至少一無效階層之至少一檢測單元處於一無效狀態時,於該階層列表中,將該至少一無效階層與一目標階層定義為一組合階層,以更新該階層列表,其中該目標階層為至少一可用階層中故障相依性最低者,該至少一可用階層各自對應之該至少一檢測單元處於一正常狀態,且該至少一可用階層之故障相依性高於該至少一無效階層之故障相依性; 於該故障模型中,將相應於該目標階層之該檢測單元以及一故障症狀對應至該組合階層,以更新該故障模型; 根據該階層列表與該故障模型,自該等階層中確認相應於該階層式系統之一故障之一來源;以及 針對該階層式系統執行相應於該來源之一故障排除策略,以排除該故障。
  9. 如請求項8所述之電腦程式產品,其中該故障排除方法還包含下列步驟: 執行基於一二元搜尋樹結構之一階層式故障偵測演算法以確認該故障之該來源。
  10. 如請求項8所述之電腦程式產品,其中該故障排除方法還包含下列步驟: 於該階層列表中,將該組合階層用以取代該至少一無效階層以及該目標階層,以更新該階層列表;以及 於該故障模型中,將相應於該組合階層之該故障症狀用以取代相應於該至少一無效階層以及該目標階層之複數個故障症狀,以更新該故障模型。
  11. 如請求項8所述之電腦程式產品,其中該故障排除方法還包含下列步驟: 根據更新後之該階層列表與一暫時性故障資料集,決定相應於該組合階層之一暫時性故障資料,其中該暫時性故障資料至少包含一故障機率、一總故障檢測時間以及一第一階段故障檢測時間;以及 將該暫時性故障資料用以取代該暫時性故障資料集中相應於該至少一無效階層與該目標階層之複數個暫時性故障資料,以更新該暫時性故障資料集; 其中: 相應於該組合階層之該故障機率為相應於該至少一無效階層與該目標階層之複數個故障機率之總和; 相應於該組合階層之該總故障檢測時間為相應於該至少一無效階層與該目標階層之複數個總故障檢測時間中之最大值;以及 相應於該組合階層之該第一階段故障檢測時間為相應於該至少一無效階層與該目標階層之複數個第一階段故障檢測時間中之最大值。
  12. 如請求項11所述之電腦程式產品,其中該故障排除方法還包含下列步驟: 若該組合階層中可能發生暫時性故障,則根據該總故障檢測時間以及該第一階段故障檢測時間,計算相應於該組合階層之一暫時性故障排除時間; 其中,該暫時性故障資料還包含該暫時性故障排除時間。
  13. 如請求項12所述之電腦程式產品,其中當該故障之該來源為該組合階層時,該故障排除策略包含: 若該組合階層中可能發生暫時性故障,則於相應於該組合階層之該暫時性故障排除時間內等待該故障被自動地排除;以及 若該組合階層中不可能發生暫時性故障,或該組合階層中可能發生暫時性故障但未在該暫時性故障排除時間內被自動地排除,則執行相應於該組合階層之一故障排除動作。
  14. 如請求項13所述之電腦程式產品,其中該故障排除方法還包含下列步驟: 定義相應於該組合階層之該故障排除動作,其中該故障排除動作是由相應於該至少一無效階層以及該目標階層之複數個故障排除動作依照該至少一無效階層與該目標階層之該等故障相依性之一遞增順序所組成。
  15. 一種故障排除方法,由一電子計算裝置所執行,該電子計算裝置儲存一階層列表及一故障模型,該故障排除方法應用於一階層式系統,該階層式系統之複數個階層之每一者具有一故障相依性,該故障排除方法包含下列步驟: 當相應於該等階層中之至少一無效階層之至少一檢測單元處於一無效狀態時,於該階層列表中,將該至少一無效階層與一目標階層定義為一組合階層,以更新該階層列表,其中該目標階層為至少一可用階層中故障相依性最低者,該至少一可用階層各自對應之該至少一檢測單元處於一正常狀態,且該至少一可用階層之故障相依性高於該無效階層之故障相依性; 於該故障模型中,將相應於該目標階層之該檢測單元以及一故障症狀對應至該組合階層,以更新該故障模型; 根據該階層列表與該故障模型,自該等階層中確認相應於該階層式系統之一故障之一來源;以及 針對該階層式系統執行相應於該來源之一故障排除策略,以排除該故障。
  16. 如請求項15所述之故障排除方法,還包含下列步驟: 執行基於一二元搜尋樹結構之一階層式故障偵測演算法以確認該故障之該來源。
  17. 如請求項15所述之故障排除方法,還包含下列步驟: 於該階層列表中,將該組合階層用以取代該至少一無效階層與該目標階層,以更新該階層列表;以及 於該故障模型中,將相應於該組合階層之該故障症狀用以取代相應於該至少一無效階層以及該目標階層之複數個故障症狀,以更新該故障模型。
  18. 如請求項15所述之故障排除方法,還包含下列步驟: 根據更新後之該階層列表以及一暫時性故障資料集,決定相應於該組合階層之一暫時性故障資料,其中該暫時性故障資料至少包含一故障機率、一總故障檢測時間以及一第一階段故障檢測時間;以及 將該暫時性故障資料用以取代該暫時性故障資料集中相應於該至少一無效階層以及該目標階層之複數個暫時性故障資料,以更新該暫時性故障資料集; 其中: 相應於該組合階層之該故障機率為相應於該至少一無效階層以及該目標階層之複數個故障機率之總和; 相應於該組合階層之該總故障檢測時間為相應於該至少一無效階層以及該目標階層之複數個總故障檢測時間中之最大值;以及 相應於該組合階層之該第一階段故障檢測時間為相應於該至少一無效階層以及該目標階層之複數個第一階段故障檢測時間中之最大值。
  19. 如請求項18所述之故障排除方法,還包含下列步驟: 若該組合階層中可能發生暫時性故障,則根據該總故障檢測時間以及該第一階段故障檢測時間,計算相應於該組合階層之一暫時性故障排除時間; 其中,該暫時性故障資料還包含該暫時性故障排除時間。
  20. 如請求項19所述之故障排除方法,其中當該故障之該來源為該組合階層時,該故障排除策略包含: 若該組合階層中可能發生暫時性故障,則於相應於該組合階層之該暫時性故障排除時間內等待該故障被自動地排除;以及 若該組合階層中不可能發生該暫時性故障,或該組合階層中可能發生暫時性故障但未在該暫時性故障排除時間內被自動地排除,則執行相應於該組合階層之一故障排除動作。
  21. 如請求項20所述之故障排除方法,還包含下列步驟: 定義相應於該組合階層之該故障排除動作,其中該故障排除動作是由相應於該至少一無效階層以及該目標階層之複數個故障排除動作依照該至少一無效階層與該目標階層之該等故障相依性之一遞增順序所組成。
TW109131593A 2020-09-15 2020-09-15 用於階層式系統之故障排除之裝置、方法及電腦程式產品 TWI774060B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109131593A TWI774060B (zh) 2020-09-15 2020-09-15 用於階層式系統之故障排除之裝置、方法及電腦程式產品
US17/082,374 US11226857B1 (en) 2020-09-15 2020-10-28 Device, method and computer program product for fault elimination of a multilayer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109131593A TWI774060B (zh) 2020-09-15 2020-09-15 用於階層式系統之故障排除之裝置、方法及電腦程式產品

Publications (2)

Publication Number Publication Date
TW202213096A true TW202213096A (zh) 2022-04-01
TWI774060B TWI774060B (zh) 2022-08-11

Family

ID=79293847

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109131593A TWI774060B (zh) 2020-09-15 2020-09-15 用於階層式系統之故障排除之裝置、方法及電腦程式產品

Country Status (2)

Country Link
US (1) US11226857B1 (zh)
TW (1) TWI774060B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220206902A1 (en) * 2020-12-28 2022-06-30 EMC IP Holding Company LLC Application template for application consistent backup and restore of database applications in kubernetes
US20230281082A1 (en) * 2022-03-03 2023-09-07 Dell Products L.P. Cluster-wide application consistency with volume group snapshot

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8862927B2 (en) * 2011-08-09 2014-10-14 Symantec Corporation Systems and methods for fault recovery in multi-tier applications
EP2726987A4 (en) * 2011-11-04 2016-05-18 Hewlett Packard Development Co TREATMENT OF FAILURES IN A SYSTEM
US9639434B2 (en) * 2015-02-26 2017-05-02 Dell Products, L.P. Auto-didacted hierarchical failure recovery for remote access controllers
US10901831B1 (en) * 2018-01-03 2021-01-26 Amdocs Development Limited System, method, and computer program for error handling in multi-layered integrated software applications
TWI691852B (zh) * 2018-07-09 2020-04-21 國立中央大學 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品
US11294763B2 (en) * 2018-08-28 2022-04-05 Hewlett Packard Enterprise Development Lp Determining significance levels of error values in processes that include multiple layers

Also Published As

Publication number Publication date
US11226857B1 (en) 2022-01-18
TWI774060B (zh) 2022-08-11

Similar Documents

Publication Publication Date Title
US20200007620A1 (en) Intelligent Backup and Recovery of Cloud Computing Environment
US9354961B2 (en) Method and system for supporting event root cause analysis
US9619311B2 (en) Error identification and handling in storage area networks
US20080281959A1 (en) Managing addition and removal of nodes in a network
CA2808239C (en) Determining equivalent subsets of agents to gather information for a fabric
US11048607B2 (en) Application regression detection in computing systems
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
CN109788068B (zh) 心跳状态信息上报方法、装置和设备及计算机存储介质
TWI774060B (zh) 用於階層式系統之故障排除之裝置、方法及電腦程式產品
US8984333B2 (en) Automatic computer storage medium diagnostics
CN108376110A (zh) 一种自动检测方法、系统及终端设备
EP3591530A1 (en) Intelligent backup and recovery of cloud computing environment
WO2024103902A1 (zh) 一种数据库访问方法、装置、系统、设备及可读存储介质
CN115454958B (zh) 基于人工智能的数据处理方法、装置、设备、系统及介质
US20120311391A1 (en) Failure data management for a distributed computer system
CN105391790A (zh) 类RAC One Node的数据库高可用方法
CN111694724A (zh) 分布式表格系统的测试方法、装置、电子设备及存储介质
CN112579402A (zh) 一种应用系统故障定位的方法和装置
CN116232848A (zh) 告警数据推送方法及装置
CN108920164A (zh) 云计算系统中主机的管理方法和装置
US11474904B2 (en) Software-defined suspected storage drive failure identification
CN114928533B (zh) 虚拟网元故障处理方法、装置、电子设备及存储介质
CN115150253B (zh) 一种故障根因确定方法、装置及电子设备
US11169728B2 (en) Replication configuration for multiple heterogeneous data stores
EP4254191A1 (en) Method and apparatus of implementing high availability of cluster virtual machine