TWI393001B - 測量一受測系統之自主能力的方法 - Google Patents

測量一受測系統之自主能力的方法 Download PDF

Info

Publication number
TWI393001B
TWI393001B TW095140908A TW95140908A TWI393001B TW I393001 B TWI393001 B TW I393001B TW 095140908 A TW095140908 A TW 095140908A TW 95140908 A TW95140908 A TW 95140908A TW I393001 B TWI393001 B TW I393001B
Authority
TW
Taiwan
Prior art keywords
sut
disturbance
recovery procedure
determining
capability
Prior art date
Application number
TW095140908A
Other languages
English (en)
Other versions
TW200805049A (en
Inventor
劉子京
金 梁 尚 彼得
Original Assignee
萬國商業機器公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 萬國商業機器公司 filed Critical 萬國商業機器公司
Publication of TW200805049A publication Critical patent/TW200805049A/zh
Application granted granted Critical
Publication of TWI393001B publication Critical patent/TWI393001B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3428Benchmarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

測量一受測系統之自主能力的方法
本發明一般而言係關於計算系統。更特定而言,本發明旨在計算系統之自主/自我管理能力之量化測量。
自主計算(AC)係描述一計算系統之自我管理能力,其中該等組件可預先處理計算系統之需要並在人員干預最小之情形下解決問題。當今,大多主要的硬體及軟體廠商在AC特徵方面大量投資。為此,量化計算系統之AC能力係重要。
擾亂注入(例如,注入一故障)係一種由測試機構常用來評估自主系統可用性之技術。圖1中繪示一說明性基準系統10,該標杆系統使用根據先前技術之擾亂注入。基準系統10包括一基準驅動器12及一受測系統(SUT)14。基準驅動器12使SUT 14承受一設計用於代表典型系統使用之工作負載16並自SUT 14接收響應18。如基準驅動器12所測量,係根據SUT 14多快能滿足所施加之工作負載16來導出基準結果20。基準驅動器12將擾亂(故障)22注入於SUT 14內以評估SUT 14「自我修復」之能力。
圖2中圖解闡釋一根據先前技術之說明性擾亂注入方法24。下文將參照圖1中所示基準系統10之組件來闡述擾亂注入方法24。如顯示,在一「注入槽」26期間,基準驅動器12將一個或多個擾亂22注入SUT 14,而同時將工作負載16施加至SUT 14。一擾亂22可包括(例如)一軟體故障、一操作員/故障、一高位階硬體故障等。每一注入槽26包括複數個不同的時間週期,其中包括一啟動間隔28、一注入間隔30、一偵測間隔32、一恢復間隔34、及一保持間隔36。在啟動間隔28期間,SUT 14與所施加之工作負載16一同運行直到達成一穩定狀態條件。在注入間隔30期間,SUT 14以該穩定狀態條件運行達一預定時間週期,此後基準驅動器12將一擾亂22注入SUT 14。偵測間隔32係將擾亂22注入SUT 14與基準驅動器12起始一(腳本編寫之)恢復程序之間的時間量。恢復間隔34代表SUT 14執行該恢復程序所需之時間量。在保持間隔36裝置,SUT 14繼續運行(穩定狀態)。在保持間隔36之末端處評估注入於SUT 14上之擾亂的影響。在保持間隔36末端處移除擾亂22(任選)。
以下係AC系統之三種類型,每一類型皆提供對於擾亂的不同響應:1.非自主-手動擾亂偵測及手動恢復起始。舉例而言,該服務台通知一資料庫系統之操作員已接收到諸多有關一特定進程之投訴。作為響應,該操作員終止該資料庫系統中之非合意進程。
2.完全自主-自動擾亂偵測及自動恢復起始。舉例而言,一自主管理器確定一系統中存在一非合意進程且在沒有任何人員干預之情形下自動終止該進程。
3.部分自主-自動擾亂偵測及手動恢復起始。舉例而言,一自主管理器確定一系統中存在一非合意進程並發出一警報/訊息。操作人員可藉由在一控制台或呼叫器上接收一警報/訊息發現該問題。作為響應,該操作員基於該警報/訊息中所提供之資訊來定位該非合意進程並終止該進程。
對於傳統之故障注入方法,係在穩定狀態作業期間將一擾亂22注入SUT 14中。在注入擾亂22之後,基準驅動器12在開始該恢復程序之前會等待一基於擾亂22類型之預定時間量(亦即,偵測間隔32)。因此,該傳統故障注入方法中之惟一變量係恢復間隔34之長度。
上述傳統方法存在數個問題,其中包括(例如):問題1:在處理一部分自主系統中存在靈活性,該部分自主系統將一關於一所偵測問題之警報/訊息及關於如何解決所偵測問題之資訊提供至一操作員。該類型之部分自主系統在(例如)諸多其中警報/訊息係經由一呼叫器或其他通信裝置通信至一資料庫管理員之資料庫系統中佔主導優勢。在該種情形下,使用一固定偵測間隔32(例如,其係自恢復平均時間(MTTR)(修復一故障所耗費的平均時間)導出)將不起作用,此乃因自動提供一警報/訊息將顯著地減短用於偵測一問題之時間長度。為此,於存在部分自主特徵之情形下使用一固定之偵測間隔32將無法提供AC能力之準確及/或可重複的測量。
問題2:若該系統係一完全自主自我修復系統,則基準驅動器12無法控制偵測一問題或恢復一問題之定時。一實例係資料庫系統中RAID5磁碟之容錯,其中該磁碟子系統自動地偵測一磁碟失效並自動繞過失效之磁碟。
因此,需要一種經改良之方法來量化測量具有不同自動程度(亦即,非自主、完全自主、及部分自主)之系統之自主能力。
一般而言,本發明旨在計算系統自主能力之量化測量。特定而言,本發明經組態以藉由下列方式來量化測量所有類型的自主計算系統(尤其部分自主計算系統)之自主能力:實施故障注入,從而使用一單獨的可調節偵測間隔來模擬偵測一問題所耗費之時間且使用一單獨的可調節恢復起始間隔來模擬起始一恢復程序以解決該問題所耗費之時間。
本發明第一態樣旨在一種用於測量一計算系統自主能力之方法,其包括:使該計算系統承受一工作負載;注入一擾亂至該計算系統內;提供該計算系統已響應所注入擾亂偵測到一問題之通知;確定起始一恢復程序以解決所偵測問題所需之時間量;且確定執行該恢復程序所需之時間量。
本發明第二態樣旨在一種用於測量一計算系統自主能力之系統,其包括:一工作負載系統,其用於使該計算系統承受一工作負載;一擾亂系統,其用於將一擾亂注入該計算系統內;一通知系統,其用於提供該計算系統已響應所注入擾亂偵測到一問題之通知;一確定系統,其用於確定起始一解決所偵測問題之恢復程序所需之時間量;及一確定系統,其用於確定執行該恢復程序所需之時間量。
本發明第三態樣旨在一種儲存於一電腦可讀媒體上用於測量一計算系統自主能力之程式產品,該電腦可讀媒體包括用於實施以下步驟之程式碼:使該計算系統承受一工作負載;將一擾亂注入該計算系統內;提供該計算系統已響應所注入擾亂而偵測到一問題之通知;確定起始一恢復程序以解決所偵測問題所需之時間量;及確定執行該恢復程序所需之時間量。
一般而言,本發明旨在計算系統自主能力之量化測量。特定而言,本發明經組態以藉由下列方式量化測量所有類型的自主計算系統(尤其部分自主計算系統)之自主能力:實施故障注入,從而使用一單獨可調節偵測間隔來模擬偵測一問題所耗費之時間及一單獨可調節恢復起始間隔來模擬起始一恢復程序以解決該問題所耗費之時間。
圖3中繪示一根據本發明一實施例之使用擾亂注入之說明性基準系統100。基準系統100包括一基準驅動器102及一受測系統(SUT)104。基準驅動器102使SUT 104承受一設計用於代表典型系統使用之工作負載106並自SUT 104接收響應108。如基準驅動器102所測量,係根據SUT 104多快能滿足所施加工作負載106來導出基準結果110。基準驅動器102將擾亂(故障)112注入SUT 104以評估SUT 104自我修復之能力。基準系統100進一步包括一回呼系統114,該回呼系統114用於當SUT 104已響應注入擾亂112至SUT 104內而偵測到已發生問題時通知(116)基準驅動器102。儘管未顯示,可將回呼系統114併入基準驅動器102中。於本發明一實施例中,回呼系統114可經組態以響應一問題之偵測接收或截取SUT 104所產生之警報/訊息118。警報/訊息118可包括由SUT 104所產生之(例如)電子郵件、文字訊息、記錄通告等。於另一實施例中,回呼系統114可經組態以監視、剖析及分析顯示於一系統管理員控制台上或包含於一系統記錄檔內之文字警報/訊息資訊。亦可能存在諸多其他用於確定SUT 104何時偵測到一基於擾亂之問題之技術。
圖4中圖解闡釋一根據本發明一實施例之說明性擾亂注入方法120。下文將參照圖3中所示基準系統100之組件來闡述擾亂注入方法120。如顯示,在一注入槽122期間,基準驅動器102將一個或多個擾亂112注入SUT 104而同時將工作負載106施加至SUT 104。每一注入槽122皆包括複數個不同的時間週期,其中包括一啟動間隔124、一注入間隔126、一偵測間隔128、一恢復起始間隔130、一恢復間隔132、及一保持間隔134。
在啟動間隔124期間,SUT 104與所施加之工作負載106一同運行直到達成一穩定狀態條件。在注入間隔126期間,SUT 104以該穩定狀態條件運行達一預定之時間週期,此後基準驅動器102將一擾亂112注入SUT 104。然而,不同於上文關於先前技術之擾亂注入方法24所闡述之偵測間隔30,根據本發明之偵測間隔128係注入擾亂112至SUT 104內與回呼系統114偵測到一警報/訊息118(其係由SUT 104響應該問題之偵測而產生)之間的時間量。
一恢復起始間隔130係提供於偵測間隔128之後(亦即,在SUT 104偵測到一由於所注入擾亂112而導致之問題且已產生一警報/訊息118之後)。恢復起始間隔130代表一人員起始一恢復程序以解決由SUT 104所偵測之特定問題所耗費的時間。亦即,恢復起始間隔130係模擬人員響應偵測到注入擾亂112所導致之問題而做出干預之預定時間延遲。作為一實例,恢復起始間隔130可包括一操作員響應一警報/訊息118終止一運行於一系統上之進程,確定該問題之性質,且鍵入命令以起始一診斷常式/解決該問題所耗費之總時間。可(例如)根據統計學研究(例如,平均化)一人員起始一恢復程序以解決SUT 104所偵測之特定問題所耗費之時間量來導出針對一特定擾亂情形之恢復起始間隔130。亦可能存在其他技術。
一既定恢復起始間隔130之長度相依於基準驅動器102所施加至SUT 104之特定擾亂112(或擾亂組112)。舉例而言,與一第一擾亂112「A」相關聯之恢復起始間隔130可係1分鐘長,而與一第二擾亂112「B」相關聯之恢復起始間隔130可係10分鐘長。此指示起始與擾亂112「B」相關聯之特定恢復程序所需之時間遠長(亦即,10倍)於起始與擾亂112「A」相關聯之特定恢復程序所需之時間。基準驅動器102可存取一表格或諸如此類以針對一注入SUT 104之既定擾亂112(或擾亂組112)建立正確的恢復起始間隔130。
返回至圖4,恢復間隔132代表SUT 104於恢復起始間隔130末端處執行該恢復程序所需之時間量。在保持間隔134期間,SUT 104繼續運行(穩定狀態)。於保持間隔134末端處評估所注入擾亂112對SUT 104之影響。於保持間隔134末端處移除擾亂112(任選)。可記錄一既定故障情況/系統組態之不同間隔124、126、128、130、132及134中之每一者以用於測試後分析。
本發明之基準系統100可用來測量具有不同自動程度(亦即,非自主、完全自主及部分自主)之系統的AC能力。舉例而言,考量使用本發明基準系統100來測量一非自主SUT 104之AC能力之簡單情形。基準驅動器102於注入間隔126末端處將一擾亂112注入非自主SUT 104。然後,基準驅動器102可為偵測間隔128及恢復起始間隔130(其可能根據MTTR導出)指派一恆定的時間延遲。
於完全自主之情形中,假設完全自主之SUT 104在1分鐘內偵測並起始該恢復程序而沒有任何人員干預。則偵測間隔128及恢復起始間隔130之總長度係1分鐘。由於完全自主SUT 104會自發地恢復,故基準驅動器102無法控制偵測間隔128與恢復起始間隔130之長度。於該情形中,基準驅動器102可簡單地執行一無作業之操作。由於完全自主SUT 104會自身恢復,故基準驅動器102僅需要於運行末端處收集成功交易之數量。一完全自主系統之得分應高於一非自主系統之得分,此乃因該自主偵測及恢復起始所耗費之時間被認為遠短於自MTTR導出之恆定值。此反應出全部自主系統之優點。
於該部分自主情形中,該偵測係自主但該恢復起始並非自主。該MTTR方法無法在該情形中發揮作用,此乃因由於部分自主SUT 104響應一問題之自動偵測產生警報/訊息118故現在該恢復時間係較短。為此,本發明之基準驅動器102單獨處理偵測間隔128及恢復起始間隔130。當擾亂112被注入部分自主SUT 104時,偵測間隔128開始,且當部分自主SUT 104產生警報/訊息118時,該偵測間隔結束。基準驅動器102使用回呼系統114來確定何時部分自動SUT 104偵測到一關於一問題之警報/訊息118或其他通知。然後,基準驅動器102可為恢復起始間隔130指派一恆定時間延遲,該恢復起始間隔係指示一人員響應所偵測問題而完成該恢復起始所耗費的時間量(例如,平均時間量)。此導致更準確且可重複地測量一部分自主SUT 104之AC能力。
圖5中繪示一根據本發明一實施例之用於量化測量計算系統自主能力之電腦系統200。電腦系統200設置於一電腦基礎設施202中。電腦200意欲代表能實施本發明教示之任一類型的電腦系統。舉例而言,電腦系統200可係一膝上型電腦、一桌上型電腦、一工作站、一手持式裝置、一伺服器、一電腦叢集等。另外,如下文進一步闡述,電腦系統200可由根據本發明提供計算系統自主能力之量化測量之服務提供商來部署及/或操作。應瞭解,一使用者/管理員204可直接存取電腦系統200或可操作一在網路206(例如,網際網路、一廣域網路(WAN)、一區域網路(LAN)、一虛擬私人網路(VPN)等)上與電腦系統200通信之電腦系統。於後者之情形中,電腦系統200與一使用操作電腦系統之間的通信可經由各種類型通信鏈路之任一組合來達成。舉例而言,該等通信鏈路可包括可利用有線及/或無線傳輸方法之任一組合之可定址連接。若通信係經由網際網路來達成,則可藉由習用基於套接字之TCP/IP協定來提供連接性,且可使用一網際網路服務提供商來建立通至網際網路之連接性。
圖中顯示,電腦系統200包括一處理單元208、一記憶體210、一匯流排212、及輸入/輸出(I/O)介面214。進一步,圖中顯示電腦系統200與外部裝置/資源216及一個或多個儲存單元218通信。一般而言,處理單元208執行電腦程式碼,例如,儲存於記憶體210及/或儲存單元218中之基準系統230。當執行電腦程式碼時,處理單元208可往來於記憶體210、儲存單元218、及/或I/O介面214讀取及/或寫入資料。匯流排212在電腦系統200中每一組件之間提供一通信鏈路。外部裝置/資源216可包括任何能使一使用者與電腦系統200交互作用之裝置(例如,鍵盤、指點裝置、顯示裝置(例如,顯示器220、列印機等))及/或任何能使電腦系統200與一個或多個其他計算裝置通信之裝置(例如,網路卡、數據機等)。
電腦基礎設施202僅圖解說明可用來構建本發明之各種電腦基礎設施。舉例而言,於一實施例中,電腦基礎設施202可包括兩個或更多個在一網路(例如,網路106)上通信以實施本發明各處理步驟之計算裝置(例如,一伺服器叢集)。此外,電腦系統200僅代表可用於本發明實踐中之諸多類型的電腦系統,每一者皆可包括諸多硬體/軟體之組合。舉例而言,處理單元208可包括一單一處理單元,或可分佈於一個或多個位置內之一個或多個處理單元上,(例如)一用戶端及伺服器上。類似地,記憶體210及/或儲存系統216可包括駐存於一個或多個物理位置處之各種類型之資料儲存及/或傳輸媒體之任一組合。進一步,I/O介面214可包括用於與一個或多個外部裝置/資源216交換資訊之任一系統。再進一步,應理解,圖5中未顯示之一個或多個額外組件(例如系統軟體、數學協處理器、快取記憶體等)亦可包含於電腦系統200中。然而,若電腦系統200包括一手持式裝置或類似裝置,則應理解一個或多個外部裝置/資源216(例如,一顯示器)及/或一個或多個儲存單元218可包含於電腦系統200內而非如圖中所示位於外部。
儲存單元218可係能夠為本發明之諸如基準結果、恢復起始間隔等資訊提供儲存之任何類型之系統(例如,一資料庫)。為此,儲存單元218可包括一個或多個儲存裝置,諸如,一磁碟機或一光碟機。於另一實施例中,儲存單元218可包括分佈於(例如)一區域網路(LAN)、廣域網路(WAN)或一儲存區域網路(SAN)(未顯示)上之資料。儘管未顯示,可將諸如快取記憶體、通信系統、系統軟體等額外組件併入電腦系統200中。此外,儘管未顯示,使用者/管理員204所操作之電腦系統可包括類似於上文關於電腦系統200所闡述之彼等組件之電腦化組件。
顯示於記憶體210中者(例如,作為一電腦程式產品)係一基準系統230,該基準系統用於提供計算系統(例如,SUT 104)之自主能力之量化測量。基準系統230包括一基準驅動器102,該基準驅動器經組態以使SUT 104承受一設計用於代表典型系統使用之工作負載106且自SUT 104接收響應108。如基準驅動器102所測量,係根據SUT 104多快可滿足所施加工作負載106來導出基準結果110。基準驅動器102將擾亂(故障)112注入SUT 104以評估SUT 104自我修復之能力。基準系統230進一步包括一回呼系統114,該回呼系統用於通知(116)基準驅動器102何時SUT 104已響應注入擾亂112於SUT 104自動偵測一已發生之問題。基準驅動器102經組態以根據上文關於圖4所述之擾亂注入方法120來運作。
可將本發明提供為一在訂閱或付費基礎上之商務方法。舉例而言,本發明之一個或多個組件可由一為顧客提供本文所述功能之服務提供商來形成、維持、支援、及/或部署。亦即,如上文所述,一服務提供商可用來提供計算系統自主能力之量化測量。
應理解,可採用硬體、軟體、一傳播信號、或其任一組合來實現本發明。任一種類之電腦/伺服器系統或其他適於實施本文所述方法之設備皆適合。硬體與軟體之一典型組合可包括一通用電腦系統與一電腦程式,在載入並執行時該電腦程式可實施本文所述之相應方法。另一選擇係,可利用一包含用於實施本發明一個或多個功能性任務之特殊硬體之專用電腦。本發明亦可嵌入一計算機程式產品或一傳播信號中,該計算機程式產品或傳播信號包含所有能夠實施本文所述方法之相應特徵,且該計算機程式產品或傳播信號在加載於一電腦系統中時能夠執行該等方法。
本發明可採取以下形式:一完全硬體實施例、一完全軟體實施例、或一包括硬體及軟體元件兩者之實施例。於一較佳實施例中,本發明係以軟體形式構建,該軟體包括但不限於韌體、駐存軟體、微碼等。
本發明可採取可自一電腦可用或電腦可讀媒體存取之電腦程式產品之形式,該電腦可用或電腦可讀媒體可提供程序碼以供一電腦或任一指令執行系統使用或與其結合使用。出於說明之目的,一電腦可用或電腦可讀媒體可係任一可包含、儲存、通信、傳播或傳輸該程式以供指令執行系統、設備或裝置使用或與其結合使用之設備。
該媒體可係一電子、磁性、光學、電磁、紅外線或半導體系統(或設備或裝置)或一傳播媒體。電腦可讀媒體之實例包括:一半導體或固態記憶體、磁帶、可抽換電腦磁碟、一隨機存取記憶體(RAM)、一唯讀記憶體(ROM)、一剛性磁碟及一光碟。目前光碟之實例包括一光碟-只讀磁碟(CD-ROM)、一光碟-讀/寫磁碟(CD-R/W)、及一數位多功能磁碟(DVD)。
本文上下文中之電腦程式或傳播信號、軟體程式、程式、或軟體係意指一組指令之採用任一語言、碼或記法形式的任一表達,該組指令意欲使一具有信息處理能力之系統直接或在下列任一或兩項作業之後執行一特定功能:(a)轉換至另一語言、碼或記法;(b)及/或以不同材料形式複製。
上文提出對本發明較佳實施例之說明旨在用於舉例說明及闡述之目的。本文並非意欲具有排他性或將本發明限制於所揭示之具體形式,且很明顯,可能存在諸多改良及變化。本發明意欲將熟悉此項技術者易知之該等修改及變化包含於由隨附申請專利範圍界定之本發明範圍內。
10...基準系統
12...基準驅動器
14...受測系統
16...工作負載
18...響應
20...基準結果
22...擾亂(故障)
24...擾亂注入方法
26...注入槽
28...啟動間隔
30...注入間隔
32...偵測間隔
34...恢復間隔
36...保持間隔
100...基準系統
102...基準驅動器
104...受測系統
106...工作負載
108...響應
110...基準結果
112...擾亂(故障)
114...回呼系統
116...通知
118...警報/訊息
120...擾亂注入方法
122...注入槽
124...啟動間隔
126...注入間隔
128...偵測間隔
130...恢復起始間隔
132...恢復間隔
134...保持間隔
200...電腦系統
202...電腦基礎設施
204...使用者/管理員
206...網路
208...處理單元
210...記憶體
212...匯流排
214...輸入/輸出(I/O)介面
216...外部裝置/資源
218...儲存單元
220...顯示器
230...基準系統
結合附圖參照本發明各態樣之以上詳細說明,將更易於理解本發明之此等及其它特點,圖式中:圖1繪示一根據先前技術之使用擾亂注入之說明性基準系統。
圖2繪示一根據先前技術之說明性擾亂注入方法。
圖3繪示一根據本發明一實施例之使用擾亂注入之說明性基準系統。
圖4繪示一根據本發明一實施例之說明性擾亂注入方法。
圖5繪示一用於構建根據本發明一實施例之方法之說明性電腦系統。
該等圖式僅為示意圖,並非旨在描述本發明之特定參數。此等圖式旨在僅繪示本發明之典型實施例,且因此不應視為限制本發明之範圍。在此等圖式中,相同之編號代表相同之元件。
102...基準驅動器
104...受測系統
106...工作負載
108...響應
110...基準結果
112...擾亂(故障)
114...回呼系統
116...通知
118...警報/訊息
120...擾亂注入方法
200...電腦系統
202...電腦基礎設施
204...使用者/管理員
206...網路
208...處理單元
210...記憶體
212...匯流排
214...輸入/輸出(I/O)介面
216...外部裝置/資源
218...儲存單元
220...顯示器
230...基準系統

Claims (21)

  1. 一種用於測量一受測系統(SUT)之自主能力之方法,其包括:使該SUT承受一工作負載;將一擾亂注入該SUT;確定該SUT已自動偵測到響應該擾亂而已發生之一問題;及至少部分地基於將該擾亂注入該SUT與確定該SUT已自動偵測到該問題之間的一時間而確定該SUT之一自主計算(AC)能力。
  2. 如請求項1之方法,其中確定該SUT已自動偵測到該問題包括接收自該SUT之監視資訊。
  3. 如請求項2之方法,其中接收自該SUT之監視資訊包括剖析一記錄檔。
  4. 如請求項2之方法,其中接收自該SUT之監視資訊包括分析顯示於一控制台之資訊。
  5. 如請求項1之方法,其進一步包含確定該SUT是否已自動起始一恢復程序以解決該問題。
  6. 如請求項5之方法,其進一步包含當該SUT並未自動起始該恢復程序時起始該恢復程序。
  7. 如請求項5之方法,其中該SUT之該AC能力係至少部分地基於該SUT是否已自動起始該恢復程序以解決該問題。
  8. 一種用於測量一受測系統(SUT)之自主能力之方法,其 包含:使該SUT承受一工作負載;將一擾亂注入該SUT;自該SUT接收一通知,該通知指示該SUT已自動偵測到響應該擾亂而已發生之一問題;及至少部分地基於將該擾亂注入該SUT與自該SUT接收該通知之間的一時間而確定該SUT之一自主計算(AC)能力。
  9. 如請求項8之方法,其中自該SUT接收該通知包括自該SUT接收一電子郵件。
  10. 如請求項8之方法,其中自該SUT接收該通知包括自該SUT接收一文字訊息。
  11. 如請求項8之方法,其中自該SUT接收該通知包括自該SUT接收一記錄通告。
  12. 如請求項8之方法,其進一步包含確定該SUT是否已自動起始一恢復程序以解決該問題。
  13. 如請求項12之方法,其進一步包含當該SUT並未自動起始該恢復程序時起始該恢復程序。
  14. 如請求項12之方法,其中該SUT之該AC能力係至少部分地基於該SUT是否已自動起始該恢復程序以解決該問題。
  15. 一種用於測量一受測系統(SUT)之自主能力之方法,其包括:使該SUT承受一工作負載; 將一擾亂注入該SUT;確定該SUT已自動偵測到響應該擾亂而已發生之一問題;至少部分地基於將該擾亂注入該SUT與確定該SUT已自動偵測到該問題之間的一時間而確定該SUT之一自主計算(AC)能力;及顯示該SUT之該AC能力。
  16. 如請求項15之方法,其中該擾亂包括一軟體故障。
  17. 如請求項15之方法,其中該擾亂包括一硬體故障。
  18. 如請求項15之方法,其中該AC能力代表該SUT自我修復之一能力。
  19. 如請求項15之方法,其進一步包含確定該SUT是否已自動起始一恢復程序以解決該問題。
  20. 如請求項19之方法,其進一步包含當該SUT並未自動起始該恢復程序時起始該恢復程序。
  21. 如請求項19之方法,其中該SUT之該AC能力係至少部分地基於該SUT是否已自動起始該恢復程序以解決該問題。
TW095140908A 2005-11-07 2006-11-03 測量一受測系統之自主能力的方法 TWI393001B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/268,221 US7539904B2 (en) 2005-11-07 2005-11-07 Quantitative measurement of the autonomic capabilities of computing systems

Publications (2)

Publication Number Publication Date
TW200805049A TW200805049A (en) 2008-01-16
TWI393001B true TWI393001B (zh) 2013-04-11

Family

ID=38082844

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095140908A TWI393001B (zh) 2005-11-07 2006-11-03 測量一受測系統之自主能力的方法

Country Status (5)

Country Link
US (1) US7539904B2 (zh)
JP (1) JP5147216B2 (zh)
KR (1) KR100985959B1 (zh)
CN (1) CN100478905C (zh)
TW (1) TWI393001B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4962239B2 (ja) * 2007-09-20 2012-06-27 大日本印刷株式会社 リソース使用量取得装置、リソース使用量取得方法、及びリソース使用量取得処理プログラム
WO2011094484A1 (en) 2010-01-28 2011-08-04 Drexel University Detection, diagnosis, and mitigation of software faults
US11204861B2 (en) * 2019-03-05 2021-12-21 Honeywell International Inc. Systems and methods for fault injection and ensuring failsafe FMS SaaS platforms
US11310680B2 (en) 2020-08-26 2022-04-19 Spirent Communications, Inc. Reusing provisioned resources during heterogeneous component-based testing in a portable automation framework
US11269712B1 (en) * 2020-08-26 2022-03-08 Spirent Communications, Inc. Customized categorial error handling framework for heterogeneous component-based testing in a portable automation framework
US12013777B2 (en) 2020-08-26 2024-06-18 Spirent Communications, Inc. Controlling heterogeneous component-based testing in a portable automation framework with test scripts in both API mode and UI mode
US11216347B1 (en) 2020-08-26 2022-01-04 Spirent Communications, Inc. Automatically locating resources using alternative locator expressions during heterogeneous component-based testing in a portable automation framework
US11449414B2 (en) 2020-08-26 2022-09-20 Spirent Communications, Inc. Mapping test parameter data elements during heterogeneous component-based testing in a portable automation framework in both API mode and UI mode
US11748242B2 (en) * 2021-02-17 2023-09-05 Atlassian Pty Ltd. Proactive monitoring of a software application framework

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442494B1 (en) * 2000-02-23 2002-08-27 Autoliv Asp, Inc. Method and circuit for detecting batteries in a distributed battery network
US6484276B1 (en) * 1999-10-25 2002-11-19 Lucent Technologies Inc. Method and apparatus for providing extensible object-oriented fault injection
TW588240B (en) * 2001-01-19 2004-05-21 Hewlett Packard Co Self-healing memory

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442694B1 (en) * 1998-02-27 2002-08-27 Massachusetts Institute Of Technology Fault isolation for communication networks for isolating the source of faults comprising attacks, failures, and other network propagating errors
US6971048B1 (en) * 1998-06-15 2005-11-29 Sun Microsystems, Inc. Testing device driver hardening
US7194445B2 (en) * 2002-09-20 2007-03-20 Lenovo (Singapore) Pte. Ltd. Adaptive problem determination and recovery in a computer system
JP2005004699A (ja) * 2003-06-16 2005-01-06 Trecenti Technologies Inc コンピュータシステム異常検出システム、コンピュータシステム異常検出方法およびコンピュータシステム
JP4189854B2 (ja) * 2003-07-28 2008-12-03 新日鉄ソリューションズ株式会社 障害時動作検証装置及び障害時動作検証方法
US7467333B2 (en) * 2005-09-01 2008-12-16 Hewlett-Packard Development Company, L.P. System and method for interposition-based selective simulation of faults for access requests to a data storage system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484276B1 (en) * 1999-10-25 2002-11-19 Lucent Technologies Inc. Method and apparatus for providing extensible object-oriented fault injection
US6442494B1 (en) * 2000-02-23 2002-08-27 Autoliv Asp, Inc. Method and circuit for detecting batteries in a distributed battery network
TW588240B (en) * 2001-01-19 2004-05-21 Hewlett Packard Co Self-healing memory

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Dependability Benchmark for OLTP Application Environments,Marco Vieira、Henrique Madeira,ISSN 0873-9293,2003 *

Also Published As

Publication number Publication date
CN100478905C (zh) 2009-04-15
KR20070049064A (ko) 2007-05-10
CN1963779A (zh) 2007-05-16
JP2007133870A (ja) 2007-05-31
KR100985959B1 (ko) 2010-10-06
JP5147216B2 (ja) 2013-02-20
US20070168751A1 (en) 2007-07-19
TW200805049A (en) 2008-01-16
US7539904B2 (en) 2009-05-26

Similar Documents

Publication Publication Date Title
TWI393001B (zh) 測量一受測系統之自主能力的方法
US6973415B1 (en) System and method for monitoring and modeling system performance
US11055169B2 (en) Forecasting workload transaction response time
US9038030B2 (en) Methods for predicting one or more defects in a computer program and devices thereof
US7747986B2 (en) Generating static performance modeling factors in a deployed system
US6898556B2 (en) Software system and methods for analyzing the performance of a server
US20070203973A1 (en) Fuzzing Requests And Responses Using A Proxy
US7082381B1 (en) Method for performance monitoring and modeling
US9405666B2 (en) Health monitoring using snapshot backups through test vectors
US7496795B2 (en) Method, system, and computer program product for light weight memory leak detection
US7197428B1 (en) Method for performance monitoring and modeling
US20180351840A1 (en) Influence range identification method and influence range identification apparatus
JP2011113122A (ja) 障害影響分析装置及び業務システム及び障害影響分析方法
US20110218841A1 (en) Back office process monitoring and analysis
CN111124774B (zh) 一种服务器开机过程稳定性的测试方法及相关装置
JP2004348640A (ja) ネットワーク管理システム及びネットワーク管理方法
US8862945B2 (en) System and method for measuring the effect of interruptions on software application usability
CN112527594A (zh) 一种硬盘巡检方法、装置及系统
CN116467101A (zh) 座舱软件稳定性评估方法、装置、电子设备及存储介质
CN112272126A (zh) 业务应用的失效监测方法、计算机设备和存储介质
CN117931622A (zh) 设备的测试方法、装置、电子设备及存储介质
JP2020101938A (ja) 分析プログラム、および分析装置
CN116841971A (zh) 一种监控linux操作系统用户异常行为的方法、系统、存储器及电子设备
CN116643847A (zh) 一种测量虚拟机服务质量的方法、装置、设备及介质
CN117632610A (zh) 应用于hci平台的磁盘故障检测方法及存储介质

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees