TW201502774A - 協調分散式系統中的故障復原 - Google Patents

協調分散式系統中的故障復原 Download PDF

Info

Publication number
TW201502774A
TW201502774A TW103106806A TW103106806A TW201502774A TW 201502774 A TW201502774 A TW 201502774A TW 103106806 A TW103106806 A TW 103106806A TW 103106806 A TW103106806 A TW 103106806A TW 201502774 A TW201502774 A TW 201502774A
Authority
TW
Taiwan
Prior art keywords
tenant
plan
failback
recovery
infrastructure
Prior art date
Application number
TW103106806A
Other languages
English (en)
Inventor
Pavithra Tyamagond Nagesharao
Murtuza Rizvi
Sushant Pramod Rewaskar
Christopher P Almida
Akram M H Hassan
Ajay Mani
Wakkas Rafiq
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW201502774A publication Critical patent/TW201502774A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2257Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2294Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by remote test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5019Ensuring fulfilment of SLA
    • H04L41/5025Ensuring fulfilment of SLA by proactively reacting to service quality change, e.g. by reconfiguration after service quality degradation or upgrade
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/508Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement
    • H04L41/5096Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement wherein the managed service relates to distributed or central networked applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Abstract

在各種實施例中,提供在主機與租客之間協調分散式系統中租客基礎架構之故障復原的方法及系統。決定分散式系統中的租客基礎架構的故障發生。故障發生可為支持租客之服務應用程式之租客基礎架構之軟體故障或硬體故障。將故障復原計劃傳遞至租客以通知租客故障發生及恢復租客基礎架構所採取的動作。決定是否自租客接收故障復原計劃回應;故障復原計劃回應係來自故障復原計劃之租客的應答。在接收到故障復原計劃回應後或在預先界定之時間限制到期時,執行故障復原計劃以恢復租客基礎架構。

Description

協調分散式系統中的故障復原
本發明係關於協調分散式系統中的故障復原。
大體而言,在(跨各種節點的)雲端計算系統中託管分散式系統服務應用程式及該等分散式系統服務應用程式主要旨在用於共享資源以實現共享服務之彙集基礎架構的效率。分散式系統基礎架構與租客關聯。租客指消費者/公司(例如,服務應用程式之所有者)及/或與消費者/公司關聯的服務應用程式組件(例如,租客基礎架構或租賃)。服務應用程式通常被分為包括服務應用程式組件之群組的多個部分,該等服務應用程式組件包括一或更多個資料中心之節點(例如,實體機及虛擬機)。不可避免地,服務應用程式之一或更多個執行個體之服務應用程式組件發生故障,並需要故障復原動作以恢復服務應用程式組件。經常主機(服務應用程式分散式系統之提供方)採取影響租客之故障復原動作。對租客的影響可(其中)包括服務應用程式的意外中斷,因為故障及後續主機故障復原動作並未在主機與租客之間智慧地 通訊或協調。
提供此【發明內容】以用簡化形式引入一系列概念,在下文【實施方式】中進一步描述該等概念。此【發明內容】既不旨在識別所主張之標的之關鍵特徵或基本特徵,亦不意欲單獨用作輔助來決定所主張之標的之範疇。
本發明之實施例提供用於協調分散式系統中租客基礎架構之故障復原之方法。決定分散式系統中的租客基礎架構的故障發生。故障發生可為支持租客之服務應用程式之租客基礎架構之軟體故障或硬體故障。將故障復原計劃傳遞至租客以通知租客故障發生及恢復租客基礎架構所採取的動作。決定是否自租客接收故障復原計劃回應。故障復原計劃回應係來自故障復原計劃之租客的應答。在接收到故障復原計劃回應後或在預先界定之時間限制到期時,執行故障復原計劃以恢復租客基礎架構。
100‧‧‧計算裝置
110‧‧‧匯流排
112‧‧‧記憶體
114‧‧‧處理器
116‧‧‧演示組件
118‧‧‧輸入/輸出埠
120‧‧‧輸入/輸出組件
122‧‧‧說明性電源
200‧‧‧分散式系統
202‧‧‧雲端計算分散式系統
204‧‧‧組構控制器
206‧‧‧管理角色控制協定/MRCP
208‧‧‧節點
210‧‧‧代理
212‧‧‧管理角色/MR
214‧‧‧虛擬機/VM-A
216‧‧‧虛擬機/VM-B
218‧‧‧租客復原伺服器
220‧‧‧租客控制臺
222‧‧‧租客使用者
224‧‧‧網路
300‧‧‧方法
302‧‧‧組構控制器
304‧‧‧管理角色
310‧‧‧偵測
312‧‧‧故障發生
314‧‧‧傳遞
316‧‧‧預先通知
320‧‧‧評定
322‧‧‧租客復原動作
324‧‧‧回應
326‧‧‧故障復原計劃回應
330‧‧‧決定
332‧‧‧回應
340‧‧‧執行
342‧‧‧故障復原動作
344‧‧‧傳遞
346‧‧‧後期通知
350‧‧‧評定
352‧‧‧健康情況報告
354‧‧‧組構控制器後期復原動作
360‧‧‧實施
370‧‧‧實施
372‧‧‧租客後期復原動作
400‧‧‧方法
410‧‧‧方塊
420‧‧‧方塊
430‧‧‧方塊
440‧‧‧方塊
500‧‧‧方法
510‧‧‧方塊
520‧‧‧方塊
530‧‧‧方塊
下文將參看隨附圖式詳細描述本發明,其中:第1圖係適合用於實施本發明之實施例之示例性計算環境之方塊圖;第2圖係可使用本發明之實施例之示例性網路環境之方塊圖;第3圖係圖示根據本發明之實施例用於協調分散式系統中租客基礎架構之故障復原之方法的示意圖;第4圖係圖示根據本發明之實施例用於協調分散式 系統中租客基礎架構之故障復原之方法的流程圖;以及第5圖係圖示根據本發明之實施例用於協調分散式系統中租客基礎架構之故障復原之方法的流程圖。
本文使用特定性描述本發明之實施例之標的以滿足法定需求。然而,該描述本身不旨在限制本專利之範疇。確切而言,發明者已設想,結合其他現有或未來技術,亦可以其他方式體現所主張之標的以包括不同步驟或與本文件所描述之該等步驟相似的步驟之組合。此外,儘管本文可使用術語「步驟」及/或「方塊」包含使用方法之不同元件,但是不應將該等術語解讀為隱含在本文所揭示之各種步驟的多者之間或兩者之間任何特定次序,除非當明確描述個別步驟之次序時方可如此。
出於本揭示案之目的,詞語「包括」具有與詞語「包含」相同的廣泛含義。另外,除非另有相反指示,諸如「一(a)」及「一(an)」之詞語包括複數以及單數。因此,舉例而言,「一特徵」滿足存在一或更多個特徵的情況。又,術語「或」包括結合、分離及上述兩者(因此,a或b包括a或b中之任一者以及a與b)。
下文出於詳細論述之目的,將參考在服務應用程式組件上執行服務應用程式的雲端計算分散式系統描述本發明之實施例。進一步地,儘管本發明之實施例可大體指示本文所描述之組件,但是應理解,可將所描述技術之實施擴展至執行本文所描述步驟的其他組件。
通常,分散式系統(例如,雲端計算分散式系統)用於以分散式方式儲存資料或執行服務應用程式。舉例而言,雲端計算分散式系統之服務應用程式組件(例如,租客基礎架構或租賃)可包括節點(例如,計算裝置、處理單元或伺服器機架中的刀鋒(blade)),該等節點經分配以執行租客服務應用程式之一或更多個部分。當一個以上的獨立服務應用程式正由節點支持時,可將該等節點分隔成虛擬機或實體機,該等機器在支持特定於各個服務應用程式的資源及/或作業系統之個別化計算環境中分別同時執行獨立服務應用程式。進一步地,可將各個服務應用程式分為多個功能部分以使得能夠在獨立虛擬機上執行各個功能部分。大體而言,「角色」提供服務應用程式之功能部分之模板描述。藉由指示實施角色之電腦程式碼、角色所需之託管環境內的狀態、待應用於角色的配置設置及用於與其他角色、元件等等通訊的端點之角色集描述角色。在一種情況中,角色配置設置可包括由角色之所有執行個體共享的集體設置或特定於角色之各個執行個體的個別設置。
在實施例中,使用服務模型決定將自服務應用程式之角色之執行個體傳送何等屬性或屬性集。如本文所使用的,用語「服務模型」不意謂限制性及大體指示任何通訊,該通訊包括關於在資料中心內建立及管理服務應用程式之執行個體的資訊。大體而言,服務模型係一種介面藍圖,該介面藍圖提供用於管理服務應用程式之組件程式的指令。該服務模型用於在佈署至遍及分散式系統中的分散式位置後導引 組構控制器(fabric controller)協調佈署服務應用程式與服務應用程式組件之間的活動。組構控制器大體擔負圍繞監測、維護及管理支持組構之基礎功能的電腦資源、網路傳動、串聯裝置及功率單位之健康情況的各種職責。服務模型包括描述將建立服務應用程式之何等角色或將如何在資料中心內安裝及啟動各角色的執行個體。亦即,服務模型充當針對服務應用程式可執行何等角色與經由雲端計算分散式系統可在何處安裝角色之執行個體的狀態之接合。儘管已描述各種不同類型的雲端配置,但是一般熟習此項技術者應將理解及瞭解,可使用雲端計算分散式系統之其他適宜結構,且本發明之實施例不受限於跨本文所描述之虛擬機的彼等分散式服務應用程式。
雲端計算分散式系統提供在網際網路可存取資料中心內的機器上執行服務應用程式及儲存資料。經由主機(例如,雲端計算系統)的雲端計算分散式系統(例如,WINDOWS AZURE雲端計算分散式系統)可提供用於在雲端中執行及儲存資料的平臺。租客(例如,消費者或公司)的服務應用程式之實施可為配置為服務模型的模型環境或定製環境。不管實施為模型環境還是定製環境,雲端計算分散式系統包括一或更多個角色,通常使用跨角色之執行個體的負載平衡執行各個角色之多個執行個體。可偶爾升級服務應用程式之服務應用程式組件(例如,租客基礎架構),可基於具有主機與租客之間所約定的升級策略或更新策略的服務等級協議執行此升級。舉例而言,可跨若干角色逐件執行升級以便維持服 務應用程式之高可用性。與諸如升級之計劃活動對比,雲端計算分散式系統內的故障為無計劃且不可預知的,因此需要故障復原動作來恢復服務應用程式。舉例而言,故障可為使得需要修復服務應用程式之節點的硬體故障或使得需要重新啟動虛擬機的軟體故障。
大體而言,本發明之實施例將自動協調分散式系統中的故障復原之技術引入分散式系統內。分散式系統不意謂受限於任何特別配置之服務應用程式組件,而是廣泛指任何編譯之裝置(例如,可在組構內整合的網路裝置、計算裝置、電源裝置)。舉例而言,可在藉由主機管理的資料中心內定位分散式系統,在此處實施故障復原過程允許使用分散式系統恢復租客的服務應用程式。在另一情況中,跨公用雲端網路及私有雲端網路配置分散式系統及跨公用雲端網路及私有雲端網路協調故障復原動作。在又一情況中,可在由支持企業網路之內部消費者的分散式系統之管理員管理的私有企業網路內定位分散式系統,在此處實施故障復原過程允許協調管理員與內部消費者之間的故障復原動作。故障復原過程之故障復原動作之協調將故障復原中的租客因素考慮在內。舉例而言,由於可將故障復原動作及該等動作之影響傳遞至租客,租客不會經歷服務應用程式之意外中斷。就此而言,租客可瞭解服務中的任何損失及用適宜租客復原動作回應。
可藉由管理協定促進針對租客基礎架構之故障復原的傳遞,該管理協定設定在組構控制器(例如,組構控制器-管理角色控制協定-MRCP)與租客(例如,服務應用程式-管 理角色-MR)之間傳遞訊息的規則及格式。故障復原的通訊包括主機與租客之間的通訊。租客可指消費者或與消費者關聯的服務應用程式組件。就此而言,與租客通訊可指傳遞至租客能夠存取的服務應用程式組件(例如,管理角色、租客復原伺服器、租客控制臺)。類似地,來自租客的通訊可指來自租客之服務應用程式組件的任何通訊。因此,租客之服務應用程式組件可處於服務應用程式之雲端計算分散式系統的內部或外部。就此而言,租客亦可經由連接至租客基礎架構的租客控制臺(例如,以租客為前提之計算裝置)接收通訊。
在操作中,在偵測到租客基礎架構(例如,服務應用程式組件)中的故障發生後,MRCP與MR通訊。組構控制器可傳遞故障復原計劃,該故障復原計劃指示故障發生對租客之影響(例如,受影響的角色執行個體)。故障復原計劃亦可指示對受影響的服務應用程式組件所採取的動作(例如,重新啟動、作業系統重新鏡像、資料重新鏡像)。隨後,組構控制器可等待來自租客的故障復原計劃回應以開始故障復原動作或者在對故障復原動作的預先界定之時間限制後開始故障復原動作以恢復租客基礎架構。舉例而言,組構控制器可決定具有兩個虛擬機VM-1及VM-2之節點上的故障發生。MRCP告知MR將重新啟動VM-1及VM-2,且因此,經由MR的租客可採取措施(例如,租客復原動作)來容納服務損失。可在一或更多個節點上安裝MR作為角色之多個執行個體。在實施例中,受故障影響的服務應用程式組件可屬於使用相同服務應用程式組件(例如,節點)的兩個不同租 客,因此,組構控制器回應計劃考慮兩個租客及組構控制器與關聯各個租客的MR通訊。
因此,在本發明之第一態樣中,一或更多個電腦可讀取媒體儲存電腦可用指令,當一或更多個計算裝置使用該等指令時,該等指令引發一或更多個計算裝置執行一種用於協調分散式系統中租客基礎架構之故障復原的方法。該方法包括決定分散式系統中租客基礎架構的故障發生。該方法亦包括傳遞故障復原計劃以通知租客。該方法進一步包括決定是否接收到故障復原計劃回應。故障復原計劃回應係來自故障復原計劃之租客的應答。該方法包括執行故障復原計劃以恢復租客基礎架構。
在本發明之第二態樣中,一或更多個電腦可讀取媒體儲存電腦可用指令,當一或更多個計算裝置使用該等指令時,該等指令引發一或更多個計算裝置執行一種用於協調分散式系統中租客基礎架構之故障復原的方法。該方法包括接收針對故障發生的故障復原計劃。該方法亦包括決定與故障復原計劃關聯的租客基礎架構影響。租客基礎架構影響觸發一或更多個租客復原動作。該方法包括執行一或更多個租客復原動作。
在本發明之第三態樣中,提供一種用於協調分散式系統中租客基礎架構之故障復原的系統。該系統包括控制器組件,該控制器組件經配置用於決定分散式系統中基礎架構的故障發生,其中該故障發生與複數個租客關聯。亦配置控制器組件用於傳遞故障復原計劃以通知複數個租客中之各 者。進一步配置控制器組件用於決定是否自複數個租客中之各者接收故障復原計劃回應。故障復原計劃回應係來自故障復原計劃之複數個租客中之各者的應答。配置控制器組件用於執行故障復原計劃以恢復基礎架構。該系統亦包括租客組件,該租客組件經配置用於接收針對故障發生的故障復原計劃。配置租客組件用於決定與故障復原計劃關聯的租客基礎架構影響。租客基礎架構影響觸發一或更多個租客復原動作。亦配置租客組件用於傳遞故障復原計劃回應。進一步配置租客組件用於執行一或更多個租客復原動作。
已簡要描述本發明之實施例之概述,下文將描述可實施本發明之實施例的示例性操作環境,以便提供本發明之各種態樣的一般情境。詳言之,首先參看第1圖,第1圖圖示實施本發明之實施例的示例性操作環境及將該示例性操作環境大體指定為計算裝置100。計算裝置100為且僅為適宜計算環境之一個實例,且不意欲暗示對於本發明之使用或功能之範疇的任何限制。不應將計算裝置100解讀為關於所圖示組件之任一者或組合具有任何依賴或要求。
可在包括電腦可執行指令(諸如程式模組)的電腦程式碼或機器可用指令之一般情境中描述本發明,該等電腦程式碼或機器可用指令由電腦或其他機器(諸如個人資料助理或其他手持裝置)執行。大體而言,包括常式、程式、物件、組件、資料結構等等之程式模組指示程式碼,該等程式碼執行特定任務或實施特定抽象資料類型。可在各種系統配置中實施本發明,該等系統配置包括手持裝置、消費者電子 設備、通用電腦、較專業的計算裝置等等。亦可在分散式計算環境中實施本發明,在該等環境中藉由經由通訊網路鏈接的遠端處理裝置執行任務。
參看第1圖,計算裝置100包括匯流排110,該匯流排直接或間接耦接以下裝置:記憶體112、一或更多個處理器114、一或更多個演示組件116、輸入/輸出埠118、輸入/輸出組件120及說明性電源122。匯流排110表示何者可為一或更多個匯流排(諸如位址匯流排、資料匯流排或上述匯流排之組合)。儘管為清晰起見用線圖示第1圖之各個方塊,但是事實上各種組件之輪廓描繪並不清楚,且比喻而言,該等線本將更加精確地為灰色及模糊的。舉例而言,可認為諸如顯示裝置之演示組件為I/O組件。又,處理器具有記憶體。發明者認識到,此為技術之本質,且重申第1圖之示意圖僅僅說明一示例性計算裝置,該示例性計算裝置可與本發明之一或更多個實施例結合使用。並未對諸如「工作站」、「伺服器」、「膝上型電腦」、「手持裝置」等等此等種類之間進行區分,所有此等皆涵蓋於第1圖之範疇內並稱之為「計算裝置」。
計算裝置100通常包括各種電腦可讀取媒體。電腦可讀取媒體可為可藉由計算裝置100存取之任何可用媒體,且該等電腦可讀取媒體包括揮發性及非揮發性媒體、可移除及不可移除媒體兩者。舉例而言(而非限制),電腦可讀取媒體可包含電腦儲存媒體及通訊媒體。
電腦儲存媒體包括揮發性及非揮發性媒體、可移除 及不可移除媒體,以任何方法或技術實施該等媒體用於儲存諸如電腦可讀取指令、資料結構、程式模組或其他資料之資訊。電腦儲存媒體包括(但不限於):RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術;CD-ROM、數位多功能光碟(digital versatile disks;DVD)或其他光碟儲存器;磁帶盒、磁帶、磁碟儲存器或其他磁性儲存裝置;或可用於儲存所欲資訊且可藉由計算裝置100存取之任何其他媒體。電腦儲存媒體不包括訊號本身。
通訊媒體通常體現電腦可讀取指令、資料結構、程式模組或調變資料訊號(諸如載波或其他傳輸機構)中的其他資料,且包括任何資訊傳遞媒體。術語「調變資料訊號」意謂以在訊號中編碼資訊的方式設定或改變訊號特徵集中的一或更多者之訊號。舉例而言(而非限制),通訊媒體包括有線媒體(諸如有線網路或直接有線連接)及無線媒體(諸如聲學、RF、紅外線及其他無線媒體)。任何上述各者之組合亦應包括在電腦可讀取媒體之範疇內。
記憶體112包括以揮發性及/或非揮發性記憶體形式呈現的電腦儲存媒體。該記憶體可為可移除、不可移除或上述之組合。示例性硬體裝置包括固態記憶體、硬碟、光碟驅動器等等。計算裝置100包括一或更多個處理器,該等處理器從諸如記憶體112或I/O組件120之各種實體中讀取資料。演示組件116向使用者或其他裝置呈現資料指示。示例性演示組件包括顯示裝置、揚聲器、印刷組件、振動組件等等。
I/O埠118允許計算裝置100邏輯耦接至包括I/O組 件120的其他裝置,其中一些I/O組件120可為內建的。說明性組件包括麥克風、操縱桿、遊戲板、衛星碟、掃描器、印表機、無線裝置等等。
另外參看第2圖,該圖為圖示適合於所描述之本發明之實施例中使用的示例性分散式系統200之方塊圖。大體而言,分散式系統200圖示一環境,在該環境中賦能故障復原過程之協調。詳言之,本發明之實施例提供系統及方法以便使用管理協定在主機與一或更多個租客之間協調服務應用程式組件之故障復原。連同未圖示之其他組件,分散式系統200大體包括雲端計算分散式系統202、具有管理角色控制協定MRCP 206的組構控制器204、具有代理210的節點208、管理角色MR 212、虛擬機VM-A 214與VM-B 216、租客復原伺服器218、租客控制臺220及租客使用者222,以上全部經由網路224彼此通訊。網路224可包括(但不限於)一或更多個區域網路(local area network;LAN)及/或廣域網路(wide area network;WAN)。此類網路環境普遍存在於辦公室、企業範圍電腦網路、內部網路及網際網路中。因此,本文不進一步描述網路224。
可在本發明之實施例之範疇內的分散式系統200中使用任何數目之組構控制器、節點、虛擬機、管理角色、租客控制臺及租客使用者。一些組件可包含在分散式環境中協作的單個裝置/介面或多個裝置/介面。舉例而言,組構控制器204可包含在分散式環境中排列的多個裝置及/或模組,該等裝置及/或模組集體提供本文所描述之組構控制器204之功 能。另外,在分散式系統200內亦可包括未圖示之其他組件/模組。
應理解,僅作為實例闡述本文所描述之此排列及其他排列。除圖示之彼等排列及元件外或代替圖示之彼等排列及元件,可使用其他排列及元件(例如,機器、介面、功能、次序及功能分組等等),及可完全省略一些元件。進一步地,本文所描述之元件中之眾多者係功能性實體,可將該等功能性實體實施作為離散或分散式組件或與其他組件結合,且可處於任何適宜組合及位置中。由一或更多個實體執行的本文所描述之各種功能可藉由硬體、韌體及/或軟體實施。舉例而言,可藉由執行記憶體中所儲存指令的處理器實施各種功能。
繼續參看第2圖,雲端計算分散式系統202係分散式系統的一部分,該部分以分散式方式儲存資料或執行服務應用程式。舉例而言,執行組構控制器204及雲端計算分散式系統202之服務應用程式組件功能以執行租客服務應用程式之一或更多個部分。詳言之,組構控制器204經配置以佈署、管理、監測及維護服務應用程式。組構控制器204可對與服務應用程式組件(例如,節點208)之故障發生關聯的服務應用程式執行維護。舉例而言,組構控制器204可處理節點208之軟體故障及硬體故障。大體而言,組構控制器204管理雲端計算分散式系統202中的所有資源。組構控制器204之分配程式(未圖示)可決定應將在何處執行新的服務應用程式及恢復後的服務應用程式,選擇實體伺服器以最佳化硬體使用率。組構控制器204可取決於各個服務應用程式之配 置資訊以對服務應用程式之佈署作出決定。配置資訊可包括關於可佈署之角色執行個體之類型及數目的資訊。配置資訊亦可包括服務等級協議(例如,主機與租客之間關於服務應用程式之可用性、可服務性、效能、操作或其他屬性的合約協議)。
大體而言,可藉由代理210促進來自組構控制器204的通訊。組構控制器可與節點208上的代理210通訊以瞭解服務應用程式之健康情況。服務應用程式之健康情況可指有關服務應用程式效能、錯誤、更新、修理及註冊的問題,該等問題已經引發或可能將引發軟體或硬體故障。組構控制器可根據組構控制器204內或經由代理210穿過MR 212監測服務應用程式之執行。可藉由組構控制器204中的故障處置器(未圖示)促進根據組構控制器204偵測故障發生。故障處置器可偵測組構控制器中服務應用程式的故障,例如,組構控制器無法聯繫到節點208上的代理210,因此識別故障發生,該故障發生使得需要重新啟動節點208。或者,組構控制器204之故障處置器可週期性輪詢代理210以接收服務應用程式之最新健康情況報告(例如,租客基礎架構健康情況報告);因此,故障處置器偵測到藉由節點208上執行之MR 212識別的故障。另外,出於示例性目的,使用五個角色執行個體及其中一者故障之服務應用程式,組構控制器可將此識別為故障發生及開始故障復原動作以恢復角色執行個體。類似地,若上面執行有VM的機器故障,組構控制器可啟動另一機器上的新執行個體,視需要重設負載平衡器以指向新的 VM。
亦可配置組構控制器204以產生故障復原計劃,將該故障復原計劃傳遞至租客。可藉由MRCP 206促進組構控制器204與MR 212之間的通訊。可經由MRCP 206操作組構控制器204以一次基於一個租客故障復原計劃恢復服務。就此而言,故障復原過程保證租客服務應用程式之高可用性。舉例而言,租客可具有第一故障發生及第二故障發生,該等故障發生影響服務應用程式之所有可用角色執行個體。故障復原計劃一次處理各個故障發生以使得租客服務應用程式維持可用性。在實施例中,將故障復原計劃經由租客復原伺服器218傳遞至MR 212,如本文將進一步描述。另外,可視情況將租客控制臺220實施作為以租客為前提的計算裝置,該計算裝置處於雲端計算分散式系統202外,但能夠接收自組構控制器204至計算裝置上所執行的MR執行個體之通訊。舉例而言,租客控制臺220可具有端點代理,該端點代理經配置使用IPsec連接至雲端計算分散式系統以與特定服務應用程式組件互動。
故障復原計劃可指出對租客的影響(例如,受影響角色執行個體)及對受影響角色執行個體採取的動作(例如,重新啟動、作業系統重新鏡像、資料重新鏡像)。故障復原計劃可成為主機與租客之間服務等級協議(例如,關於服務應用程式之可用性、可服務性、效能、操作或其他屬性的合約協議)的因素。隨後,組構控制器204可等待來自租客的故障復原計劃回應以開始故障復原動作或者在恢復服務之故 障復原動作的預先界定之時間限制後開始。
進一步配置組構控制器204以執行故障復原計劃。故障復原計劃可包括故障復原動作,該等故障復原動作經執行以恢復服務應用程式。故障復原動作可包括原地復原動作。原地復原動作可指在不改變節點之位置的情況下所執行的動作。原地復原動作可包括重新啟動節點或虛擬機、重新鏡像節點或虛擬機上的作業系統或節點或虛擬機之修理(資料重新鏡像)。應將理解,在本發明之實施例的範疇內涵蓋原地復原動作之其他變化及組合。在完成故障復原動作後,組構控制器204可發送後期通知,該後期通知包括來自MR 212對服務應用程式及/或服務組件之健康情況報告的請求。在實施例中,組構控制器304可接收健康情況報告,該報告觸發一或更多個後期復原動作。舉例而言,健康情況報告可觸發組構控制器204開始重設回到服務中的角色執行個體負載平衡器或開始針對另一故障發生的不同故障復原計劃。
雲端計算分散式系統202中的節點208託管服務應用程式組件(例如,代理210、MR 212、VM-A 214、VM-B 216及租客復原伺服器218)。大體而言,當正在由節點支持一或更多個服務應用程式時,可將該等節點分隔成具有複數個角色執行個體的多個虛擬機(例如,VM-A 214及VM-B 216),該等虛擬機同時執行一或更多個服務應用程式。可配置代理210充當服務應用程式組件與組構控制器204之間通訊中的中介。代理210可與組構控制器204通訊服務應用程式(例如,虛擬機)之健康情況及與故障復原過程關聯的通知(例 如,預先通知及後期通知)。當MR 212評定服務應用程式之健康情況時,代理210可與MR 212通訊,再將該健康情況傳遞至組構控制器204。代理210可將自組構控制器傳遞的通知傳遞至租客復原伺服器218及隨後又將對通知的回應自租客傳遞至組構控制器204。
節點208亦可包括VM-A 214及VM-B 216虛擬機,該等虛擬機執行一或更多個角色執行個體(未圖示)。每個角色可具有指定功能,例如,網站角色或工作者角色。可執行VM-A 214及VM-B 216以支持相同或不同的服務應用程式。類似地,可執行VM-A 214及VM-B 216以支持相同或不同的租客。可將VM-A 214及VM-B 216與MR 212關聯以支持故障復原過程。詳言之,MR 212經配置以使用管理協定傳遞訊息以利用組構控制器204之MRCP 206協調故障復原過程。可將MR 212配置為租客角色類型。可將MR 212有利地實施作為跨多個節點分散的多個執行個體以提供冗餘。MR 212中之任一個執行個體可與組構控制器通訊,及可配置組構控制器以接受來自MR執行個體的第一通訊回應作為決定性回應。應在本發明之實施例內設想,多個MR實施可需要MR執行個體之間的通訊以提供協調故障復原計劃回應及一致故障復原動作。舉例而言,若MR執行個體回應故障復原計劃,則該MR執行個體可自動告知其他執行個體已執行此動作。
亦可配置MR 212以評定服務應用程式之健康情況及將健康情況傳遞至組構控制器204。可將各個服務應用程式與MR 212關聯。應設想,在節點208內,可將虛擬機及角色 執行個體與一個租客或不同租客之服務應用程式關聯。就此而言,當僅將一個租客與節點關聯時,在節點208上所執行的故障復原動作可影響僅僅一個租客,若將多個租客與節點關聯,則可影響多個租客。與租客之服務應用程式關聯的MR 212負責將可對服務應用程式組件採取的故障復原動作傳遞至租客。MR 212亦可與租客復原伺服器通訊以自組構控制器204接收關於故障發生的故障復原動作的通知。在實施例中,MR 212與租客控制臺220通訊以傳遞服務應用程式組件的相關資訊。
MR 212可接收在雲端計算分散式系統中啟動的故障復原計劃之通訊,在該雲端計算分散式系統中啟動故障復原計劃以恢復租客之服務應用程式。故障復原計劃通訊可包括基於故障發生(例如,軟體故障或硬體故障)所產生的故障復原動作。故障復原計劃亦可包括預先界定之時間限制,MR 212可針對該預先界定之時間限制回應故障復原計劃,以使得可開始故障復原動作。MR 212可接收故障復原計劃通訊及決定故障復原計劃對租客使用者222之影響。租客使用者222可為企業或消費者,該等企業或消費者存取雲端計算分散式系統202上的服務應用程式。故障復原計劃之影響可包括服務中斷、可用資源超載、服務拒絕及資料損失。
可進一步配置MR 212以觸發租客復原動作容納故障復原計劃之影響(例如,租客基礎架構影響)。租客復原動作可為作為決定故障復原計劃之影響之結果所採取的自動復原動作或手動復原動作。租客復原動作可基於租客操作策 略,該等操作策略包括與租客使用者222的服務等級協議。租客操作策略可包括可告知租客復原動作之任何規則或準則,該等規則或準則經發展以容納故障復原影響(例如,將服務損失通知傳遞至租客使用者222)或服務等級協議(例如,關於服務應用程式之可用性、可服務性、效能、操作或其他屬性的合約協議)。租客復原動作可發生在雲端計算分散式系統202上執行故障復原計劃之前及/或之後。亦可配置MR 212以在故障復原計劃中的預先界定之時間限制內將一回應(例如,故障復原計劃回應)傳遞至雲端計算分散式系統202。
節點208可進一步包括租客復原伺服器218,該租客復原伺服器經配置以促進組構控制器204和與服務應用程式關聯的MR 212之間的通訊。在實施例中,租客復原伺服器218亦可經由租客控制臺220與服務應用程式租客通訊。租客復原伺服器218可自組構控制器204接收通知及儲存通知,該等通知關於故障發生的故障復原動作。租客復原伺服器218可經由節點208上的代理210與組構控制器204通訊。通知可包括針對故障復原過程的預先通知及後期通知。將預先通知(例如,針對故障發生的故障復原計劃)傳遞至租客復原伺服器218,通知將採取故障復原動作恢復服務,及將後期通知傳遞至租客復原伺服器218,通知已採取故障復原動作。當MR 212針對新通知輪詢租客復原伺服器218時,租客復原伺服器218可將儲存通知傳遞至服務應用程式之MR 212。後期通知可自MR 212請求服務應用程式之健康情況。在實施例 中,在故障復原過程期間,租客復原伺服器218可與租客控制臺220通訊。租客復原伺服器218可將故障復原動作傳遞至租客控制臺220及租客控制臺220可將一回應傳遞至故障復原動作。
租客控制臺220可包括任何類型計算裝置,諸如(例如)參看第1圖所描述之計算裝置100。大體而言,將租客控制臺220與節點208上執行的服務應用程式關聯。租客控制臺220可為以租客为前提之計算裝置,該計算裝置處於雲端計算分散式系統202外,但能夠接收通訊。在實施例中,租客控制臺可包括MR執行個體之冗餘實施。就此而言,租客控制臺220可接收在雲端計算分散式系統中啟動的故障復原計劃之通訊,在該雲端計算分散式系統中啟動故障復原計劃以恢復租客之服務應用程式。不管將租客控制臺實施作為雲端計算分散式系統202外的MR執行個體或用於接收通訊的監測裝置,可將租客控制臺220配置為一種自行操作計算裝置的自動機,該自行操作計算裝置經設計以在識別故障發生及產生故障復原計劃後採取動作。租客控制臺220亦可支持回應於故障復原計劃由MR所產生的手動復原動作。舉例而言,可藉由租客之系統管理員監測租客控制臺及因此執行與故障發生關聯的任何界定之手動復原動作。
本發明之一實施例之示例性實施可包括MR 212,該MR接收租客服務應用程式之虛擬機之重新啟動之預先通知。重新啟動需要約15分鐘的停機時間。MR 212可決定,15分鐘可引發未受預先通知之故障復原動作影響的主動執行 虛擬機超載。在採取故障復原動作及接收健康的服務應用程式(亦即,服務應用程式正常執行)之後期通知前,影響決定可觸發拒絕服務應用程式對新的租客使用者之使用動作。MR 212可在預先界定之時間限制期間將一回應傳遞至組構控制器204以通知組構控制器204開始故障復原動作。
現轉至第3圖,流程圖描述方法300,該方法用於在主機與租客之間協調分散式系統中的租客基礎架構之故障復原。最初,第3圖所圖示之組件包括組構控制器302及管理角色304。應在本發明之實施例內設想,組構控制器302可包括分配程式、故障處置器及管理角色控制協定,上述各者經配置以執行如上所述之功能。進一步地,實施例亦可包括具有代理的節點、租客復原伺服器及租客控制臺,上述各者亦執行如上所述之功能。因此,提供參看第3圖所描述之本實施例作為用於實施本發明的雲端計算系統之眾多可能排列中之一者。應將理解,將此排列闡述作為一實例。
組構控制器302可偵測310故障發生312。組構控制器302可經由組構控制器上的故障處置器(例如,故障處置器識別代理崩潰或代理無回應)或經由節點之代理(例如,代理自與服務應用程式關聯的管理角色接收不健康的基礎架構報告)偵測310故障發生312。故障發生312可為節點處的硬體故障或軟體故障,以使得可需要恢復服務的故障復原動作。組構控制器302可將預先通知316傳遞314至管理角色304。預先通知316可包含針對受故障發生影響之服務應用程式組件(例如,執行一或更多個角色執行個體的節點或虛擬 機)的故障復原計劃及為恢復服務應用程式組件所採取的故障復原動作。故障復原計劃可包括預先界定之時間限制以接收來自租客控制臺306的回應。預先界定之時間可基於主機與租客之間的約定時間限制,以使得租客可具有足夠的時間為服務中的損失作準備。故障復原動作亦可包括原地復原動作,因為在不改變節點之位置的情況下執行該動作。原地復原動作可包括重新啟動節點或節點上的虛擬機、重新鏡像節點或虛擬機上的作業系統或重新鏡像節點或虛擬機上的資料。故障復原計劃可考慮主機與租客之間的服務等級協議。舉例而言,若一個動作與服務等級協議之條款更一致,則故障復原計劃可延緩故障復原動作或自重新鏡像故障復原動作改變為重新啟動故障復原動作。
管理角色304接收預先通知316。應在本發明之實施例內設想,管理角色304可經由如上文所描述之代理及租客復原伺服器接收預先通知316。基於管理協定,管理角色304與組構控制器302通訊,該管理協定提供針對故障復原過程發送訊息的規則及準則。管理角色304可評定320故障復原計劃之影響及觸發租客復原動作322,該等租客復原動作幫助延續故障復原計劃。租客復原動作322可為自動動作或手動動作,可已至少部分地預先界定該等動作以回應故障發生。自動任務可包括取決於故障發生類型安排執行的服務,而手動任務可需要來自租客實體(例如,系統管理員)的故意動作。租客復原動作322可考慮租客控制臺306與使用者或消費者之間的服務等級協議。預先通知316通訊可包括預 先界定之時間限制,針對何時租客控制臺306可回應預先通知316。管理角色304可在預先界定之時間限制內用故障復原計劃回應326回應324預先通知316。應進一步設想,可經由一系列中間服務應用程式組件(例如,代理、租客復原伺服器)接收故障復原計劃回應326。
組構控制器302可決定330是否已接收回應332。在實施例中,故障發生可處於與多個租客關聯的節點上,就此而言,組構控制器302可等待,直至接收來自各個租客的故障復原計劃回應或直至預先界定之時間限制到期才開始執行故障復原計劃。在藉由執行故障復原動作342執行340故障復原計劃後,組構控制器302可將後期通知346(例如,後期故障復原通知)傳遞344至管理角色304。後期通知346可包括故障復原動作342之細節及亦可包括向管理角色304發出的針對服務應用程式及/或與故障復原動作342關聯的服務應用程式組件之健康情況報告的請求。管理角色304經配置以評定350服務應用程式及關聯服務應用程式組件(例如,虛擬機及在虛擬機上執行的角色執行個體)之健康情況及產生健康情況報告352(例如,租客基礎架構健康情況報告)。管理角色304可將服務應用程式之健康情況傳遞354至組構控制器302。組構控制器302可基於接收健康情況報告352實施360組構控制器後期復原動作354。管理角色304亦可基於產生健康情況報告352實施370租客後期復原動作372。舉例而言,管理角色304可對使用者及服務應用程式之消費者關閉拒絕服務通知,當將故障發生之預先通知傳遞至租客時 已觸發此關閉。
現轉至第4圖,提供圖示方法400之流程圖,該方法用於協調分散式系統中租客基礎架構之故障復原。在方塊410處,決定分散式系統中租客基礎架構的故障發生。可基於監測租客基礎架構決定故障發生。應設想,亦可基於來自租客角色(例如,管理角色)的通訊決定故障發生。在方塊420處,傳遞故障復原計劃以通知租客故障發生。故障復原計劃包括受故障發生影響之一或更多個服務應用程式組件及與一或更多個服務應用程式組件中之各者關聯的故障復原動作。在方塊430處,決定是否接收故障復原計劃回應。故障復原計劃回應係來自故障復原計劃之租客的應答。亦可在故障復原計劃中的預先界定之時間限制到期後執行故障復原計劃。
現轉至第5圖,提供圖示方法500之流程圖,該方法用於在主機與租客之間協調分散式系統中的租客基礎架構之故障復原。在方塊510處,接收針對故障發生的故障復原計劃。故障復原計劃可包括針對租客預先界定之時間限制以回應故障復原計劃。在方塊520處,決定與故障復原計劃關聯的租客基礎架構影響。租客基礎架構影響觸發一或更多個租客復原動作。一或更多個租客復原動作可為與租客基礎架構關聯的自動復原動作。租客復原動作可基於受故障發生影響之服務應用程式之租客與使用者之間的服務等級協議。在方塊530處,執行一或更多個租客復原動作。在實施例中,租客可傳遞故障復原計劃回應及亦接收後期故障復原通知,該通知包括租客基礎架構健康情況報告。
已相對於特定實施例描述本發明之實施例,該等實施例在所有態樣中意欲為說明性,而非限制性。替代實施例將對一般熟習此項技術者變得顯而易見,本發明在不脫離本發明之範疇的情況下從屬於該等替代實施例。
從前述內容將看出,本發明整體很好地適於達到上文所有目的及目標,與其他明顯且結構中固有之優勢一起闡述本發明。
應將理解,某些特徵及子組合具有公用程式及可在不參考其他特徵或子組合的情況下使用該等特徵及子組合。此由申請專利範圍之範疇涵蓋並處於申請專利範圍之範疇內。
300‧‧‧方法
302‧‧‧組構控制器
304‧‧‧管理角色
310‧‧‧偵測
312‧‧‧故障發生
314‧‧‧傳遞
316‧‧‧預先通知
320‧‧‧評定
322‧‧‧租客復原動作
324‧‧‧回應
326‧‧‧故障復原計劃回應
330‧‧‧決定
332‧‧‧回應
340‧‧‧執行
342‧‧‧故障復原動作
344‧‧‧傳遞
346‧‧‧後期通知
350‧‧‧評定
352‧‧‧健康情況報告
354‧‧‧組構控制器後期復原動作
360‧‧‧實施
370‧‧‧實施
372‧‧‧租客後期復原動作

Claims (20)

  1. 一種儲存電腦可用指令的電腦可讀取媒體,當一或更多個計算裝置使用該等指令時,該等指令引發該一或更多個計算裝置執行用於協調一分散式系統中租客基礎架構之故障復原的一方法,該方法包含以下步驟:決定該分散式系統中的一租客基礎架構的一故障發生;傳遞一故障復原計劃以通知一租客;決定是否接收到一故障復原計劃回應,其中該故障復原計劃回應係來自該故障復原計劃之該租客的一應答;以及執行該故障復原計劃以恢復該租客基礎架構。
  2. 如請求項1所述之媒體,其中決定該故障發生之步驟基於監測該租客基礎架構。
  3. 如請求項1所述之媒體,其中決定該故障發生之步驟基於自一租客角色接收該故障發生之通訊。
  4. 如請求項3所述之媒體,其中該租客係與複數個租客服務應用程式組件關聯的一管理角色。
  5. 如請求項1所述之媒體,其中該故障復原計劃包含受影響之一或更多個服務應用程式組件及與該一或更多個服務應用程式組件中之各者關聯的一故障復原動作。
  6. 如請求項5所述之媒體,其中該故障復原計劃至少部分地基於該主機與該租客之間的一服務等級協議。
  7. 如請求項6所述之媒體,其中該服務等級協議包含針對該租客基礎架構的一更新策略。
  8. 如請求項1所述之媒體,其中當在一預先界定之時間限制內未接收到該故障復原計劃回應時執行該故障復原計劃。
  9. 如請求項1所述之媒體,其中執行該故障復原計劃之步驟包含以下步驟:執行一原地故障復原動作。
  10. 如請求項9所述之媒體,其中該原地故障復原動作包含選自以下動作的至少一個故障復原動作:一重新啟動;一作業系統重新鏡像;及一資料重新鏡像。
  11. 如請求項1所述之媒體,其中該故障發生與複數個租客關聯以使得該故障復原計劃考慮針對該等複數個租客中之各者的一服務等級協議。
  12. 如請求項1所述之媒體,進一步包含:傳遞一後期故障復原通知;以及接收一租客基礎架構健康情況報告,其中該租客基礎架構健康情況報告與一或更多個後期故障復原動作關聯。
  13. 一種儲存電腦可用指令的電腦可讀取媒體,當一或更多個計算裝置使用該等指令時,該等指令引發該一或更多個計算裝置執行用於協調一分散式系統中租客基礎架構之故障復原的一方法,該方法包含以下步驟:接收針對一故障發生的一故障復原計劃;決定與該故障復原計劃關聯的一租客基礎架構影響,其中該租客基礎架構影響觸發一或更多個租客復原動作;以及執行該一或更多個租客復原動作。
  14. 如請求項13所述之媒體,其中該故障復原計劃包含一預先界定之時間限制以回應該故障復原計劃。
  15. 如請求項13所述之媒體,其中決定該租客基礎架構影響之步驟基於受該故障發生影響之一服務應用程式之一租客與使用者之間的服務等級協議。
  16. 如請求項13所述之媒體,其中該一或更多個租客復原動作係與該租客基礎架構影響關聯的一自動復原動作。
  17. 如請求項13所述之媒體,進一步包含:傳遞一故障復原計劃回應;接收一後期故障復原通知,其中該後期故障復原通知包含一租客基礎架構健康情況報告;以及 至少部分地基於該租客基礎架構健康情況報告執行一或更多個後期故障復原動作。
  18. 一種用於協調一分散式系統中租客基礎架構之故障復原的系統,該系統包含:一控制器組件,經配置用於:決定該分散式系統中的基礎架構的一故障發生,其中該故障發生與複數個租客關聯;傳遞一故障復原計劃以通知該等複數個租客中之各者;決定是否自該等複數個租客中之各者接收一故障復原計劃回應,其中該故障復原計劃回應係來自該故障復原計劃之該等複數個租客中之各者的一應答;以及執行該故障復原計劃以恢復該基礎架構;一租客管理角色,經配置用於:接收針對該故障發生的該故障復原計劃;決定與該故障復原計劃關聯的一租客基礎架構影響,其中該租客基礎架構影響觸發一或更多個租客復原動作;傳遞該故障復原計劃回應;以及執行該一或更多個租客復原動作。
  19. 如請求項18所述之系統,其中進一步配置該控制器組件用於: 將一後期故障復原通知傳遞至該等複數個租客中之各者;以及接收一租客基礎架構健康情況報告,其中該租客基礎架構健康情況報告與該等複數個租客中之各者之一或更多個服務應用程式關聯。
  20. 如請求項18所述之系統,其中進一步配置該租客管理角色用於:接收一後期故障復原通知,其中該後期故障復原通知觸發產生一租客基礎架構健康情況報告;以及至少部分地基於該租客基礎架構健康情況報告執行一或更多個後期故障復原動作。
TW103106806A 2013-03-14 2014-02-27 協調分散式系統中的故障復原 TW201502774A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/827,938 US9218246B2 (en) 2013-03-14 2013-03-14 Coordinating fault recovery in a distributed system

Publications (1)

Publication Number Publication Date
TW201502774A true TW201502774A (zh) 2015-01-16

Family

ID=50628964

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103106806A TW201502774A (zh) 2013-03-14 2014-02-27 協調分散式系統中的故障復原

Country Status (5)

Country Link
US (2) US9218246B2 (zh)
EP (1) EP2972870B1 (zh)
CN (1) CN105229613B (zh)
TW (1) TW201502774A (zh)
WO (1) WO2014160367A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI735521B (zh) * 2017-01-24 2021-08-11 香港商阿里巴巴集團服務有限公司 一種分布式儲存系統升級方法和裝置

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180335967A1 (en) * 2009-12-29 2018-11-22 International Business Machines Corporation User customizable data processing plan in a dispersed storage network
US9465698B2 (en) * 2014-03-06 2016-10-11 Software Ag Systems and/or methods for data recovery in distributed, scalable multi-tenant environments
US9436544B2 (en) * 2014-06-26 2016-09-06 Wipro Limited Methods for implementing error detection and recovery and devices thereof
US9552263B2 (en) * 2014-08-12 2017-01-24 International Business Machines Corporation System, apparatus, and method to dynamically change system recoveries based on system load
US9977704B1 (en) * 2014-09-26 2018-05-22 EMC IP Holding Company LLC Automated backup and replication of virtual machine data centers
US9853873B2 (en) 2015-01-10 2017-12-26 Cisco Technology, Inc. Diagnosis and throughput measurement of fibre channel ports in a storage area network environment
US9900250B2 (en) 2015-03-26 2018-02-20 Cisco Technology, Inc. Scalable handling of BGP route information in VXLAN with EVPN control plane
US9830240B2 (en) 2015-05-14 2017-11-28 Cisco Technology, Inc. Smart storage recovery in a distributed storage system
US10222986B2 (en) 2015-05-15 2019-03-05 Cisco Technology, Inc. Tenant-level sharding of disks with tenant-specific storage modules to enable policies per tenant in a distributed storage system
US11588783B2 (en) 2015-06-10 2023-02-21 Cisco Technology, Inc. Techniques for implementing IPV6-based distributed storage space
US9817734B2 (en) * 2015-06-29 2017-11-14 Vmware, Inc. Virtual machine recovery on non-shared storage in a single virtual infrastructure management instance
US10778765B2 (en) 2015-07-15 2020-09-15 Cisco Technology, Inc. Bid/ask protocol in scale-out NVMe storage
US10748070B2 (en) 2015-07-31 2020-08-18 Microsoft Technology Licensing, Llc Identification and presentation of changelogs relevant to a tenant of a multi-tenant cloud service
US11140045B2 (en) 2015-07-31 2021-10-05 Microsoft Technology Licensing, Llc Changelog transformation and correlation in a multi-tenant cloud service
WO2017092825A1 (en) * 2015-12-04 2017-06-08 Abb Ag Health report sending from a wireless communication network
US9892075B2 (en) 2015-12-10 2018-02-13 Cisco Technology, Inc. Policy driven storage in a microserver computing environment
US10007586B2 (en) * 2016-01-08 2018-06-26 Microsoft Technology Licensing, Llc Deferred server recovery in computing systems
WO2017158666A1 (ja) * 2016-03-14 2017-09-21 株式会社日立製作所 計算機システム、計算機システムのエラー処理方法
US10296413B2 (en) 2016-05-02 2019-05-21 Microsoft Technology Licensing, Llc Recovery environment for a virtual machine
US10140172B2 (en) 2016-05-18 2018-11-27 Cisco Technology, Inc. Network-aware storage repairs
US20170351639A1 (en) 2016-06-06 2017-12-07 Cisco Technology, Inc. Remote memory access using memory mapped addressing among multiple compute nodes
US10664169B2 (en) 2016-06-24 2020-05-26 Cisco Technology, Inc. Performance of object storage system by reconfiguring storage devices based on latency that includes identifying a number of fragments that has a particular storage device as its primary storage device and another number of fragments that has said particular storage device as its replica storage device
US11563695B2 (en) 2016-08-29 2023-01-24 Cisco Technology, Inc. Queue protection using a shared global memory reserve
US10298442B2 (en) * 2016-09-27 2019-05-21 International Business Machines Corporation Error recovery process
US10545914B2 (en) 2017-01-17 2020-01-28 Cisco Technology, Inc. Distributed object storage
US10243823B1 (en) 2017-02-24 2019-03-26 Cisco Technology, Inc. Techniques for using frame deep loopback capabilities for extended link diagnostics in fibre channel storage area networks
US10713203B2 (en) 2017-02-28 2020-07-14 Cisco Technology, Inc. Dynamic partition of PCIe disk arrays based on software configuration / policy distribution
US10254991B2 (en) 2017-03-06 2019-04-09 Cisco Technology, Inc. Storage area network based extended I/O metrics computation for deep insight into application performance
US20180260262A1 (en) * 2017-03-07 2018-09-13 Microsoft Technology Licensing, Llc Availability management interfaces in a distributed computing system
US10554492B2 (en) 2017-06-09 2020-02-04 Microsoft Technology Licensing, Llc Physical machine management in distributed computing systems
KR102473637B1 (ko) * 2017-06-29 2022-12-02 주식회사 케이티 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법
US10303534B2 (en) 2017-07-20 2019-05-28 Cisco Technology, Inc. System and method for self-healing of application centric infrastructure fabric memory
US10404596B2 (en) 2017-10-03 2019-09-03 Cisco Technology, Inc. Dynamic route profile storage in a hardware trie routing table
US10942666B2 (en) 2017-10-13 2021-03-09 Cisco Technology, Inc. Using network device replication in distributed storage clusters
US10489255B2 (en) * 2017-12-19 2019-11-26 Hewlett Packard Enterprise Development Lp Disaster recovery of containers
US10795756B2 (en) * 2018-04-24 2020-10-06 EMC IP Holding Company LLC System and method to predictively service and support the solution
US10860431B2 (en) * 2018-07-06 2020-12-08 EMC IP Holding Company LLC System and method for fault tolerant backup generation in a virtual environment
US10860430B2 (en) * 2018-07-06 2020-12-08 EMC IP Holding Company LLC System and method for resilient backup generation
US10778538B2 (en) 2018-09-25 2020-09-15 International Business Machines Corporation Automated self-recovery of distributed services
KR102432284B1 (ko) * 2021-07-28 2022-08-12 인프라닉스 아메리카 코퍼레이션 It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
WO2023198276A1 (en) * 2022-04-12 2023-10-19 Telefonaktiebolaget Lm Ericsson (Publ) Handling failure of an application instance

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4156663B2 (ja) 1994-04-05 2008-09-24 インテル・コーポレーション ネットワーク内でプログラムを監視し、制御する方法および装置
US6304981B1 (en) 1998-10-19 2001-10-16 Gateway, Inc. Adaptive shutdown system and method for an information handling system
US6400195B1 (en) 2000-08-21 2002-06-04 Legerity, Inc. Method and apparatus for controlling reset operations
US7904322B2 (en) * 2000-10-24 2011-03-08 Gauger Derek K Network based, interactive project management apparatus and method
US6772374B2 (en) * 2001-04-30 2004-08-03 Hewlett-Packard Development Company, L.P. Continuous language-based prediction and troubleshooting tool
US7149818B2 (en) 2001-07-23 2006-12-12 Advanced Micro Devices, Inc. Method to communicate PHY mean square error to upper layer device driver for rate negotiation
US6957363B2 (en) 2002-03-27 2005-10-18 International Business Machines Corporation Method and apparatus for controlling the termination of processes in response to a shutdown command
WO2004008292A2 (en) * 2002-07-16 2004-01-22 Jp Morgan Chase Bank System and method for managing business continuity
US7809595B2 (en) * 2002-09-17 2010-10-05 Jpmorgan Chase Bank, Na System and method for managing risks associated with outside service providers
US20060112317A1 (en) * 2004-11-05 2006-05-25 Claudio Bartolini Method and system for managing information technology systems
US20060230309A1 (en) * 2005-04-12 2006-10-12 Kromer Mark A System for remote fault management in a wireless network
US7475275B2 (en) 2005-10-27 2009-01-06 International Business Machines Corporation Method for fault handling in a co-operative workflow environment
US7930681B2 (en) * 2005-12-30 2011-04-19 Sap Ag Service and application management in information technology systems
CA2641289C (en) 2006-02-06 2014-08-05 S & C Electric Company Coordinated fault protection system
US20100030626A1 (en) 2008-05-08 2010-02-04 Hughes John M Distributed software fault identification and repair
US8230256B1 (en) 2008-06-06 2012-07-24 Symantec Corporation Method and apparatus for achieving high availability for an application in a computer cluster
US7979747B2 (en) * 2009-02-20 2011-07-12 International Business Machines Corporation Interactive problem resolution presented within the context of major observable application behaviors
US8332688B1 (en) 2009-07-21 2012-12-11 Adobe Systems Incorporated Failover and recovery of a computing application hosted by a virtual instance of a machine
US8510590B2 (en) 2010-03-17 2013-08-13 Vmware, Inc. Method and system for cluster resource management in a virtualized computing environment
US9170892B2 (en) * 2010-04-19 2015-10-27 Microsoft Technology Licensing, Llc Server failure recovery
US8635493B2 (en) 2011-05-17 2014-01-21 Vmware, Inc. High availability system allowing conditionally reserved computing resource use and reclamation upon a failover
US9201723B2 (en) 2011-06-27 2015-12-01 International Business Machines Corporation Fault handling in a distributed IT environment
US20130339814A1 (en) * 2012-06-15 2013-12-19 Shantanu Rane Method for Processing Messages for Outsourced Storage and Outsourced Computation by Untrusted Third Parties

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI735521B (zh) * 2017-01-24 2021-08-11 香港商阿里巴巴集團服務有限公司 一種分布式儲存系統升級方法和裝置

Also Published As

Publication number Publication date
CN105229613B (zh) 2018-03-30
EP2972870A1 (en) 2016-01-20
US9740546B2 (en) 2017-08-22
US20160342450A1 (en) 2016-11-24
CN105229613A (zh) 2016-01-06
US9218246B2 (en) 2015-12-22
US20140281700A1 (en) 2014-09-18
WO2014160367A9 (en) 2015-02-19
EP2972870B1 (en) 2020-05-20
WO2014160367A1 (en) 2014-10-02

Similar Documents

Publication Publication Date Title
TW201502774A (zh) 協調分散式系統中的故障復原
US10609159B2 (en) Providing higher workload resiliency in clustered systems based on health heuristics
US8661287B2 (en) Automatically performing failover operations with a load balancer
JP5529972B2 (ja) 複製されたデータインスタンスのためのフェイルオーバーおよび復旧
US9021294B2 (en) Discovering boot order sequence of servers belonging to an application
US9223606B1 (en) Automatically configuring and maintaining cluster level high availability of a virtual machine running an application according to an application level specified service level agreement
GB2505644A (en) Managing network configurations
JP5305040B2 (ja) サーバ計算機の切替方法、管理計算機及びプログラム
JP7341244B2 (ja) クラスタ管理方法、装置、およびシステム
US11507479B2 (en) High availability for a relational database management system as a service in a cloud platform
US11012298B2 (en) Methods, systems, and computer readable mediums for selecting and configuring a computing system to support a replicated application
US7937481B1 (en) System and methods for enterprise path management
US11604806B2 (en) System and method for highly available database service
WO2017120106A1 (en) Deferred server recovery in computing systems
WO2018212928A1 (en) System and method for mapping a connectivity state of a network
WO2018137520A1 (zh) 一种业务恢复方法及装置
US20130139219A1 (en) Method of fencing in a cluster system
CN117014308A (zh) 交换机堆栈的远程管理
JP2015158773A (ja) 仮想装置の動作検証装置,仮想装置の動作検証システム及びプログラム
US9882779B2 (en) Software version maintenance in a software defined network
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
WO2022009438A1 (ja) サーバメンテナンス制御装置、システム、制御方法及びプログラム
TWI717457B (zh) 環境隔離方法及設備
CN116846760A (zh) 网格中基于共识的节点引退过程