TW509841B - Breakdown monitoring system - Google Patents

Breakdown monitoring system Download PDF

Info

Publication number
TW509841B
TW509841B TW89128052A TW89128052A TW509841B TW 509841 B TW509841 B TW 509841B TW 89128052 A TW89128052 A TW 89128052A TW 89128052 A TW89128052 A TW 89128052A TW 509841 B TW509841 B TW 509841B
Authority
TW
Taiwan
Prior art keywords
computer
monitoring
fault
failure
software environment
Prior art date
Application number
TW89128052A
Other languages
English (en)
Inventor
Masahide Sato
Toshikazu Umedu
Shinji Kimura
Toshiaki Arai
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of TW509841B publication Critical patent/TW509841B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/261Functional testing by simulating additional hardware, e.g. fault simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Description

509841 五、發明説明(1 ) (發明背景) 本發明關於計算機系統及其故障之監控方法,特別關 (請先閱讀背面之注意事項再填寫本頁) 於計算機系統中,軟體故障時監控故障用之故障監控系統 0 習知監控個人電腦等計算機故障之技術有如特開平9 -503 86號、特開平5 - 250284號、特開平5 - 257914號公報 之揭示。 該技術,係於監控對象之計算機,連接搭載有與其本 體具備之處理器爲獨立之處理器,的故障監控進行用之專 用擴張板。該擴張板,係監控計算機本體之硬體狀態,檢 測硬體之故障,或與計算機上動作之監控程式間進行定期 通信以檢測軟體之故障。 藉擴張板檢測故障時,係使用擴張板或計算機具有之 通信機構,藉由網路對連接之其他計算機通知故障之發生 。藉由網路連接之計算機,可進行監控對象計算機之電源 控制(電源之Ο N / 0 F F )或起動。 經濟部智慧財產局員工消費合作社印製 計算機由遠距離操作時,需藉由網路控制對象之計算 機。一般而言,藉由網路控制對象之計算機時,需與對象 之計算機上動作之軟體通信,將藉由網路輸入之控制要求 送信至對象之計算機上之軟體,控制對象之計算機上之軟 體,則受信送來之控制要求,依該要求執行處理。 但是,該計算機之遠距離控制,係以控制對象之計算 機上動作之軟體正常動作爲前提。當控制對象之計算機上 動作之軟體發生故障時,遠距離控制成爲不可能。特別是 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ^ 509841
五、發明説明(2) (請先閲讀背面之注意事項再填寫本頁) ,〇 s (操作系統)故障時,藉由網路之通信本身即無法 實現,此情況下,令遠距離之計算機之故障監控由網路連 接之另一計算機來執行乃重要之課題。 特開平9 — 50386號揭示之技術中,爲解決此一問題, 使用故障監控用/擴張板,在監控對象計算機上動作之軟體 與擴張板間定期通信,以該應答之有無來檢測軟體故障。 當故障被檢測時,藉擴張板之通信機能,將故障通知其他 計算機。依該技術,即使監控對象計算機發生故障時,亦 可實現故障通知,以及遠距離之計算機控制。 但是,特開平9 — 50386號揭示之技術有以下問題, (1 )軟體故障發生時,計算機本體動作之軟體狀態相 關之資訊,軟體管理及保持之資訊等軟體資訊無法取得。 (2 )擴張板具與計算機本體獨立動作之通信機能,因 此只能利用採用擴張板支援之網路協定的通信程式,安裝 機能上有限制。 經濟部智慧財產局員工消費合作社印製 (3 )故障發生時,爲於擴張板與監控對象計算機間進 行通信,需要擴張板上動作之程式,但和計算機本體比較 ,擴張板上之記憶體資源少,在安裝上有其限制。 上述(2 )、( 3 )之問題,可在擴張板安裝多數網路 協定,或者追加擴張板本身之資源而予以解決。但此情況 下,擴張板之開發、製造成本增加成爲其問題。 (發明槪要) 本發明目的在於提供,即使計算機發生故障,亦可依 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -5 - 509841 ___ 9wv修正 補无 A7 -----B7 五、發明説明(3) 網路連接之其他計算機之要求指示,控制該計算機的故障 監控系統。 本發明另一目的在於提供,即使監控對象計算機之軟 體故障發生時,亦可將收集之故障資訊送信至網路連接之 其他計算機的故障監控系統。 本發明另一目的在於緩和,軟體故障發生後之監控對 象計算機之計算機資源不足引起之機能限制。 爲達成上述目的,依本發明,監控對象計算機,與監 控該監控對象計算機之監控計算機係藉由網路連接。本發 明之較好實施形態中,於監控對象計算機,設有在1台計 算機上使不同之多數0S動作之多工0S控制手段,於監 控對象計算機上,形成有由第1 0S構築成爲監控對象之 第1軟體環境,及由第2 0S構築,與第1軟體環境獨立 之第2軟體環境; 於上述第2軟體環境上具備··藉由網路與其他計算機 進行通信的通信手段,及監控第1軟體環境之軟體故障之 發生的故障監控執行部。故障監控執行部,當檢測出第i 軟體環境之故障發生時,將該故障發生通知監控計算機。 監控計算機,則受信該通知,與故障監控執行部進行通信 ,指示監控對象計算機之控制。故半導體裝置1,係依監控 對象計算機之指示,進行監控對象計算機之控制。 本發明之一實施形態中,故.障發生之通知,及監控對 象計算機之控制之指示,係由電子郵件進行。 又,故P早監控執fT部對弟1軟體ig境之故障檢測,係 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) 券-- (請先閲讀背面之注意事項再填寫本頁) 、τ 經濟部智慧財產局員工消費合作社印製 -6 - 509841 A7 B7_ 五、發明说明(4 ) 依監控第1軟體環境上動作之故障監控執行部所輸出之生 存信號來進行。 (請先閲讀背面之注意事項再填寫本頁) (發明之實施形態) 圖1係本發明之一實施形態之計算機系統之構成方塊 圖。圖中,計算機101及計算機115藉由網路114連接。計 算機101係監控對象計算機,計算機115係監控計算機101 之故障的監控計算機。 於監控對象計算機101,具有在計算機上使多數OS動 作之多工OS控制手段113。於監控對象計算機101上,第 1〇S 105,及與第10S 105不同之第2 0S 112動作, 藉多工OS控制手段113,各OS構築與其他OS獨立之軟 體環境。虛線102表示第1 〇 S之軟體環境,虛線1〇7表 示第2 0 S之軟體環境。 經濟部智慧財產局員工消費合作社印製 如上述在1台計算機上實現多數OS動作之環境的技 術,有例如特開平1 1 - 14 9 3 8 5號公報之揭示。本實施形態 中,爲構築監控對象計算機101上之第1 OS之軟體環境 102,及第2 0 S之軟體環境1〇7,適用特開平π — 149385 號公報揭示之技術。 第1 OS之軟體環境102內,第1 〇s 105,及將第1 OS 105未發生故障之指示用生存信號109藉由多工〇s 控制手段113送信至第2 0 S 112之第1故障監控執行部 104,及應用程式(A P ) 103執行動作。 第10S 105具備,當第l〇s 105本身發生故障時, 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) TfZ ' -~- 509841 A7 B7 五、發明説明(5 ) (請先閲讀背面之注意事項再填寫本頁) 將第1 0 S 105之故障相關之故障資訊收集的故障資訊收 集手段106。故障資訊收集手段1〇6,係用於第1〇S 105 本身之故障檢測時,收集故障發生時之暫存器資訊、記憶 體資訊等故障資訊。故障資訊收集手段106具備,於收集 故障資訊後,再起動監控對象計算機101之機能。 第20S之軟體環境107內,第20 S 112,及檢測第 1 〇 S 105之故障,故障發生時指示計算機控制的第2故障 監控執行部1 08,及與第2故障監控執行部1 08藉由網路連 接之計算機通信用之通信手段11〇執行動作。 於監控計算機11 5上,0 S 11 8,及故障監控管理部 116執行動作。計算機115具備通信手段117,俾與藉由網 路114連接之計算機進行通信。 經濟部智慧財產局員工消費合作社印製 故障監控管理部116,係與監控對象計算機101之第2 故障監控執行部108通信,受信監控對象計算機101之故 障通知。故障監控管理部116,將對監控對象計算機101之 控制指示送信至第2故障監控執行部108。故障監控管理部 116,當受取來自第2故障監控執行部108之故障通知時, 對監控計算機11 5之操作者通知受取故障通知。 圖2係多工〇S控制手段113之構成圖。圖2中,多 工〇S控制手段113之構成包含·· 算機資源分割手段2 01 ,〇S間通信手段202,計算機控制手段203,〇S排程手 段204,第2〇S起動手段205,第1〇S之軟體環境與多 工〇S控制部間,以及第2 0 S之軟體環境與多工0 S控 制部間之介面206,及第1〇S上動作之程式和第2〇S上 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) ^8 - ^~
509841 五、發明説明(6 ) 動作之程式間共用之共用記憶體區域207。本實施形態中, 多工0 S控制手段113,係構築第1〇s 105之裝置驅動器 〇 計算機資源分割手段201,係管理監控對象計算機101 之C P U、記憶體、外部裝置計時器等計算機資源,將該 計算機資源分割提供給第1〇S 105及第2 0 S 112。 〇S間通信手段202,係實現各〇S之軟體環境下動作 之程式間通信的手段,於各0 S之軟體環境下動作之程式 ,係藉由Ο S間通信手段202,與在其他0 S之軟體環境下 動作之程式通信。0 S間通信手段202,提供共用記憶體區 域207與各0 S上動作之程式對映之方法,作爲通信方法 之一。 各0 S上動作之程式,藉更新或參照共用記憶體區域 207內之資料,可進行互相通信。 本實施形態中,於共用記憶體區域207內具備:生存 信號到達旗標208、故障判斷値209,及信號經過値210設 定之區域。 生存信號到達旗標208,當第1故障監控執行部104送 信用於指示第1 〇 S之正常動作的生存信號109時被設爲1 ,當第2故障監控執行部108檢測生存信號109之到達時 被設爲〇。生存信號到達旗標208之値爲1時表示生存信號 109到達,生存信號到達旗標208爲0時表示生存信號109 未到達。 信號經過値210,表示生存信號到達旗標208設爲0起 (請先閱讀背面之注意事項再填寫本頁)
、1T 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -9 - 509841 ί IX br 正充 奢爾
7 B 五、發明説明(7 ) (請先閲讀背面之注意事項再填寫本頁) 之經過時間。本實施形態中,信號經過値210表示第2故 障監控執部108檢測生存信號到達旗標208之次數。第2 故障監控執行部108被定期執行,由信號經過値210之値 ,可知生存信號到達旗標208成爲0起之經過時間。 故障判斷値209,係第1 〇 S之軟體環境102內故障發 生時判斷之基準値。本實施形態中,該故障判斷値209之 値,係至第2故障監控執行部108判斷爲故障爲止之生存 信號到達旗標208之參照次數。藉故障判斷値209與信號 經過値210之比較,來進行故障判斷。 計算機控制手段203,具備再起動裝置,記憶體資訊取 得手段,暫存器資訊取得手段,以及故障資訊收集起動手 段。 〇S排程手段204,係執行第1〇S 105和第2 0 S 112之排程。0 S排程手段204,係截取計算機101發生之 全部中斷,依中斷之原因判斷要將控制傳送至哪一 0 S, 並起動該0 S之中斷處理器。 經濟部智慧財產局員工消費合作社印製 又,本實施形態中,控制傳送至第2 0 S 11 2側之中 斷發生時,中斷第1 0 S 105之動作,控制被傳送至第2 〇 S 112。亦即,本實施形態中,第2〇S 112優先之排程 被執行。
多工〇S控制手段113,第1〇S之軟體環境102動作 情況下,當控制有必要傳送至第2〇S 11 2之中斷發生時 ,係中斷第1 0 S 105之處理,保存其狀態將控制傳送至 第2 0 S 112。多工〇 S控制手段113,當控制由第2〇S -10- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 509841 B7 ιι_·1____________ _____^ ·Μ·Π·Γί——ί——ί··ί—1··-—Δί·—··—·^^·^·ΐ£1··—··—·^··—^^Μ^^-^^^^^ΙίΙΙ"ΙΜΙΙ*Ι*ΙΙΙ"ΙΙ""ΜΜ"ΙΙ"""Μ""ΙΜΙΙ^Ι"ΡΙΙ^"ΙΙ"""ΙΙΙΙΙΙΙΙ"*Ι""ΙΙ"*Μ""""ΙΙ"ΙΙΜΙΙ"Ι"ΙΙΙΙΙ""">""ΙΙΙΙΙΙ"ΙΙΙΙΙ"Ι"Μ"ΙΙΙΙΙΙΙΙΙΙΙΙ""Ι"ΙΙ"ΙΙΙΙ"ΙΙΙΙ"ΙΙΙΙ"Μ""""ΙΙΙΙΙ"Ι""ΙΙ""ΙΙΙ"ί"""<""ΙΙ"Ι"Ι""""ΙΙ"""ΙΙΙ"""ΙΙΙ"ΙΙΙΙ"Ι"""Ι""ΙΙΡ"111"1 五、發明説明€ 8 ) 112回至第1 OS 105時,回復保存之第1 〇S 105之狀態 ,回至第1〇S 105之動作。 (請先聞讀背面之注意事項再填寫本頁) 第2〇S起動手段205,係將第2〇S 112載入記憶體 ,起動第2〇S 112。 圖3係第丨故障監控執行部104之程式構成圖。 第1故障監控執行部1 04,具備:第2 0 S起動指示手 段301,第1 0 S生存信號送信手段302,及故障資訊檔案 取得手段303。 第20S起動指示手段301,係藉由第20S起動手段 205指示多工Ο S控制手段113起動第2 0 S 112。 第1〇S生存信號送信手段302,係藉由多工〇S控制 手段113之OS間通信手段202,定期地將表示第1〇S 105正常動作之生存信號109送信至第2 0 S 112。本實施 形態中,生存信號之送信,係由生存信號到達旗標208設 爲1而實現。 經濟部智慧財產局員工消費合作社印製 故障資訊檔案取得手段303,係讀出由第1 0 S 105之 故障資訊收集手段106收集,記憶於外部記憶裝置之故障 資訊檔案,並傳送至第2故障監控執行部1 〇8。 圖4係第2故障監控執行部1〇8之程式構成圖。 第2故障監控執行部1〇8,具備有故障檢測手段401, 故障通知手段.402,計算機控制指示手段403,故障資訊傳 送手段404,及控制指示受信手段405。 故障檢測手段40 1,係判斷在設定之故障檢測時間是否 受信來自第1故障監控執行部1 〇4之生存信號1 〇9。若未受 -11 - 本紙張尺度適用中國國家標準(CNS ) A4規格(2ΐ〇χ297公釐) 509841 91 9, 2 4 A7 -ν' .·; , ' — _ Β7_ 五、發明説明(9 ) 一 信生存信號1 09,則故障檢測手段401判斷第1 0 S之軟體 環境102發生故障。 (請先閲讀背面之注意事項再填寫本頁) 故障通知手段402,當故障檢測手段401判斷第1〇S 之軟體環境102發生故障時,藉由通信手段110通知監控 計算機115發生故障。 計算機控制指示手段403,則依監控計算機11 5之指示 內容,呼叫多工〇S控制手段Π3之計算機控制手·段203。 故障資訊傳送手段404,係將第1故障監控執行部1〇4 或多工OS控制手段113收集之故障資訊,藉由通信手段 110送信至監控計算機115之故障監控管理部116。 控制指示受信手段405,則受信來自故障監控管理部 11 6指示之對監控對象計算機10 1之控制要求,依該要求內 容呼叫計算機控制指示手段403。 圖5係計算機資源分割手段201分割之計算機資源之 對映圖。 經濟部智慧財產局員工消費合作社印製 圖5表示一般之計算機對映圖5 20。計算機之硬體環境 502設有:顯示器503,鍵盤507,系統計時器504,中斷控 制器508,外部記憶裝置505、506,及網路介面控制器( Ν I C ) 509。在此硬體環境502上,單一之軟體環境501 執行動作。 計算機對映圖521,係計算機資源分割手段201構築之 計算機對映圖。於計算機對映圖521,硬體環境502被分割 成第1 OS之硬體環境513,第2 OS之硬體環境515,及 第1 OS與第20S共用之共用硬體環境514。圖中,第1 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) -12 - 509841 ϋ· . A7 _ B7__ 五、發明説明(IQ) 二二/ (請先閱讀背面之注意事項再填寫本頁) 〇S之硬體環境5 π分配爲顯示器503、鍵盤507、及外部 記憶裝置505。於第2〇S之硬體環境5 15,則分配有外部 記憶裝置506、及網路介面控制器509,於共用硬體環境 514,分配有系統計時器504,及中斷控制器508。於上述分 割之各硬體環境上,第1 OS專用,第2 OS專用,及共 用部分之硬體環境5 1 0、5 11、5 1 2分別動作。又,關於計算 機具有之記憶體,記憶體區域被分割爲第1 〇 S專用、第2 〇S專用、及共用部分。計算機具有之CPU,係以分時 方式供各0 S之軟體環境使用。 圖6係計算機控制手段203之程式構成圖。 經濟部智慧財產局員工消費合作社印製 計算機控制手段203具備有:再起動手段601,記憶體 資訊取得手段602,暫存器資訊取得手段603,及故障資訊 收集起動手段604。再起動手段601,係將監控對象計算機 1 〇 1重置,進行計算機之再起動。記憶體資訊取得手段602 ,係取得第1 0 S 105使用之記憶體內容。暫存器資訊取 得手段603,則取得控制由第1 0 S 105移至第2 0 S 112 時保存之第1 OS之暫存器資訊。暫存器資訊被保存於多 工〇S控制手段113。故障資訊收集起動手段604,係將第 1 0 S 105具有之故障資訊收集手段1〇6由多工〇S控制手 段11 3呼出之手段。 . 圖7係監控對象計算機101之第1故障監控執行部104 在開始第1 0 S之生存信號109送信前執行處理之手續流 程圖。 當監控對象計算機101被起動時,首先第1 OS 105 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -13 - 509841
經濟部智慧財產局員工消費合作社印製 五、發明説明(11) 被起動(步驟701 )。之後,多工0 S控制手段113起動。 多工〇 S控制手段11 3起動時,參照構成管理檔案(未圖 示)如圖5所示般,將記憶體或顯示器、鍵盤、計時器等 計算機資源分割成第1 OS專用、第20S專用、及第 1〇S與第20 S共用部分之計算機資源(步驟706 )。 之後,第1故障監控執行部104起動。第1故障監控 執行部104起動時,由第2〇S起動指示手段301,對多工 〇 S控制手段in送出第2〇S 112之起動要求(步驟702 )^ 多工OS控制手段113,當受信第20 S 112之起動要 求時,藉由第2 0 S起動手段205,將第2 0 S 112載入記 憶體起動之。第2 0 S起動時,第2 0 S本身之初期化等 起動處理被執行(步驟703 )。 第2 0 S 112起動後,第2故障監控執行部108被起動 。第2故障監控執行部1〇8,係作爲第2 0 S 112上動作之 應用程式被起動。第2故障監控執行部1〇8被起動後,故 障檢測手段401、故障通知手段402、計算機控制指示手段 403、故障資訊傳送手段404、及控制指示受信手段405被 初期化。於此階段,將監控對象計算機101起一事,由第2 故障監控執行部108藉由通信手段11〇通知監控計算機115 亦可(步驟704 )。
以上之處理後,由第1故障監控執行部1 〇4至第2故 障監控執行部108,表示第1〇S 105正常動作之生存信號 109之送信被開始。第1故障監控執行部1〇4,將第1〇S (請先閲讀背面之注意事項再填寫本頁)
本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -14 - 經濟部智慧財產局員工消費合作社印製 509841
五、發明説明(ij 105之生存信號109,藉由多工0 S控制手段in之0 S間 通信手段202送信。又,在步驟704之處理終了階段,第2 故障監控執行部108完成生存信號109之受信準備(步驟 705 ) 〇 圖8係第2故障監控執行部之故障檢測手段401之故 障檢測處理之流程圖。 第1故障監控執行部104,被週期地執行,藉由第1〇 S生存信號送信手段302送信第1 0 S 105之生存信號109 。第2故障監控執行部1 08,則定期參照生存信號到達旗標 208,判斷生存信號到達否(步驟801)。 第2故障監控執行部108,當生存信號109到達時,係 淸除生存信號旗標209 (步驟806 ),將信號經過値210設 爲0 (步驟807 )。 另一方面,於步驟80 1,當判斷生存信號未到達時,第 2故障監控執行部108,係判斷信號經過値210大於故障判 斷値209否(步驟802 ),當信號經過値210不大於故障判 斷値209時,第2故障監控執行部108,將信號經過値210 加一,等待次一動作週期之到達。 信號經過値210大於故障判斷値209時,第2故障監 控執行部108判斷第1 0 S之軟體環境發生故障,藉由通 信手段110將故障通知送信監控計算機115 (步驟803 )。 監控計算機115之故障監控管理部116,當受信故障通 知時,爲指示故障發生後之監控對象計算機101之動作, 而將計算機控制指示送信至第2故障監控執行部1 08。計算 本紙張尺度適用中.國國家標準(CNS ) A4規格(210X297公釐) -15: (請先閱讀背面之注意事項再填寫本頁)
509841 卜 A7 B7 _ 五、發明説明(η} 機控制指示,係由第2故障監控執行部108受信(步驟804 卜 * (請先閲讀背面之注意事項再填寫本頁) 於步驟805,受信來自故障監控管理部116之計算機控 制指示後,第2故障監控執行部108,即依指示執行監控對 象計算機101之控制。本實施形態中,監控對象計算機101 之再起動、記憶體資訊收集、暫存器資訊收集、故障資訊 收集起動、以及第1 0 S收集之故障資訊收集之任一作爲 計算機控制指示於監控對象計算機1 01被指示(步驟805 ) 〇 圖9係由故障監控管理部116進行監控對象計算機101 之再起動時之處理流程圖。 圖中,由故障監控管理部116至第2故障監控執行部 108之處理遷移,係藉由監控對象計算機1〇1之通信手段 110即監控計算機115之通信手段117進行。由第2故障監 控執行部108至多工0 S控制手段113之處理遷移,係藉 由多工〇S控制手段113之介面206執行。 經濟部智慧財產局員工消費合作社印製 進行監控對象計算機101之再起動時,由故障監控管 理部116對第2故障監控執行部108送信再起動指示要求 (步驟901 )。 於監控對象計算機101,當第2故障監控執行部108受 信再起動指示要求(步驟902 )時,藉第2故障監控執行部 108呼叫多工〇 S控制手段113之再起動手段601 (步驟 903 )。 再起動手段601,當由第2故障監控執行部108被呼出 本紙張尺度適用中.國國家標準(cns )八4規格(2i〇x 297公釐) -16- " — 509841 ^ A7 ____B7____ 五、發明説明(14 ) 時係執行監控對象計算機101之再起動(步驟904 )。 (請先閱讀背面之注意事項再填寫本頁) 圖10係故障監控管理部收集在監控對象計算機101上 動作之第1 ◦ S之軟體環境1〇2內之記憶體資訊情況下之 處理流程之順序圖。 故障監控管理部116與第2故障監控執行部108間之 處理遷移,,係藉由監控對象計算機101之通信手段110 即監控計算機115之通信手段117執行,第2故障監控執 行部108與多工0 S控制手段113間之處理遷移,係藉由 多工 〇S控制手段113之介面206執行。 第1 〇 S之軟體環境102內之記憶體資訊收集必要時 ,由故障監控管理部116對第2故障監控執行部108,送出 要求收集第1 0 S 105之軟體環境關連之記憶體資訊。此 要求包含第1 0 S之軟體環境102內之記憶體資訊之位址 (虛擬位址及物理位址)及其容量大小(步驟1001)。 經濟部智慧財產局員工消費合作社印製 第2故障監控執行部108,當受信記憶體資訊收集指示 要求時(步驟1 002 ),係呼出多工〇S控制手段11 3之記 憶體資訊取得手段602 (步驟1003 )。 記憶體資訊取得手段602,當由第2故障監控執行部 108被呼出時,係讀出記憶體資訊收集指示所指定之位址及 容量大小對應之記憶體資訊(步驟1004 )。記憶體資訊取 得手段602讀出之記憶體資訊,係由記憶體資訊取得手段 602傳送至第2故障監控執行部108 (步驟1005 )。 第2故障監控執行部1 08,當由記憶體資訊取得手段 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -17 -
509841 五、發明説明(15) 602受取記憶體資訊時,(步驟1〇〇6),將該記憶體資訊 送至監控計算機115 (步驟1007 )。送至監控計算機115之 記憶體資訊,則由故障監控管理部116授信(步驟· S 1006)。 當由第2故障監控執行部1 〇8檢測出第1〇S 105之故 障時,在控制移至第20 S 112前之第1〇S 105之暫存器 資訊由故障監控管理部11 6收集而進行之處理,係和上述 記憶體資訊之收集同樣被進行。具體言之爲,於上述記憶 體資訊收集處理中,分別將來自故障監控管理部116之要 求替換爲暫存器資訊之收集指示要求,將收集對象之資訊 替換爲暫存器資訊,資訊之收集由記憶體資訊取得手段602 改爲由暫存器資訊取得手段603執行,實質上可用和圖1〇 所示流程圖同樣之手續實現。暫存器資訊取得手段603,當 多工0 S控制手段113切換第1 0 S之軟體環境與第2 〇S之軟體環境時,係取得記憶體之特定區域保存之第1 〇S 105之暫存器資訊。 圖11係故障監控管理部11 6指示故障資訊收集起動時 執行之處理流程之順序圖。由故障監控管理部11 6至第2 故障監控執行部108之處理遷移,係藉由監控對象計算機 101之通信手段110及監控計算機115之通信手段117執行 ,由第2故障監控執行部108移至多工〇 s控制手段11 3 之處理遷移,以及由多工0 S控制手段11 3移至故障資訊 收集手段106之處理遷移,係藉由多工〇 S控制手段in 之介面206執行。 本紙張尺度適用中,國國家標準(CNS ) A4規格(210 X 29<7公釐) I — J I 訂 i II 線 (讀先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 •18- 509841
經濟部智慧財產局員工消費合作社印製 五、發明説明(16) 當由故障監控管理部116發出呼叫第1〇S之故障資 訊收集手段1 0 6之指示時(步驟1 1 〇 1 ),該指示由第2故 障監控執行部108受信(步驟1 102 )。第2故障監控執行 部1 08,則依故障資訊收集手段丨〇6之呼叫指示,呼叫多工 〇S控制手段11 3之故障資訊收集起動手段604 (步驟1103 )。故β早資訊收集起動手段604,當被起動時,另呼叫第1 〇S之故障資訊收集手段1〇6 (步驟11〇4)。 故障資訊收集手段106,當被呼叫時,係收集第1〇S 105發生之故障相關之故障資訊。此處收集之故障資訊,具 體言之爲,表示第1 OS 105之軟體環境之大量資訊( dump)等。故障資訊收集手段1〇6,係將收集之故障資訊存 於外部記憶裝置等之預定區域(步驟11 〇5 )。故障資訊收 集終了時,,係再起動監控對象計算機1〇1(步驟11〇6) 〇 圖1 2係故障監控管理部116取得第1 〇 s之故障資訊 收集手段106收集之故障資訊時執行之處理流程之順序圖 。故障監控管理部11 6與第2故障監控執行部1 〇8間之處 理遷移,係藉由監控對象計算機101之通信手段11〇及監 控計算機11 5之通信手段1 1 7執行,第2故障監控執行部 108與第1故障監控執行部1 〇4間之處理遷移,係藉由多工 〇 S控制手段113之〇8間通信手段202執行。 故障監控管理部11 6,當取得第1 〇 s之故障資訊收集 手段106收集之故障資訊時,對第2故障監控執行部108 送出故障資訊取得之指示(步驟1201)。 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -19 - (請先閲讀背面之注意事項再填寫本頁)
509841 9'2 :A7 B7 _ 五、發明説明(17) (請先閲讀背面之注意事項再填寫本頁) 第2故障監控執行部1 〇8,當受信取得指示要求時(步 驟1 202 ),係藉由多工〇 S控制手段11 3之〇S間通信手 段202,對第1故障監控執行部1〇4,要求傳送故障資訊收 集手段106收集之故障資訊檔案(步驟1203 )。 第1故障監控執行部104,當受信來自第2故障監控執 行部108之故障資訊檔案之傳送要求時(步驟1204 ),藉 由故障資訊檔案取得手段3〇3,讀出故障資訊收集手段106 收集之故障資訊檔案(步驟1 205 )。第1故障監控執行部 104,係將讀出之故障資訊檔案送信至第2故障監控執行部 108 (步驟 1206 )。 第2故障監控執行部1〇8,係由第1故障監控執行部 104受信故障資訊檔案(步驟1 207 ),將之傳送至故障監 控管理部116 (步驟1 208、1 209 )。 依上述說明之實施形態,當監控對象計算機上之第1 OS之軟體環境發生軟體故障時,對藉由網路與監控對象 計算機連接之監控計算機送出故障通知,在監控計算機指 示下可執行監控對象計算機之控制。即使第1 0 S之軟體 經濟部智慧財產局員工消費合作社印製 環境發生故障情況下,於第2 OS之軟體環境下,程式之 動作爲可能,因此第2 OS之軟體環境下動作之程式與多 工〇 S控制手段之合作下,監控對象計算機之再起動、第 1 〇 S之軟體環境中之記憶體資訊或暫存器資訊之取得、第 1OS之故障資訊之收集,可由與網路連接之監控計算機指 示。又,本實施形態中,監控對象計算機之再起動後,第1 〇 S收集之故障資訊可送至監控計算機。 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -20 - 509841 —_ B7__ 五、發明説明(18 ) (請先聞讀背面之注意事項再填寫本頁) 上述計算機系統中,藉由監控對象計算機與監控計算 機間執行電子郵件配送之郵件伺服器之設置,可藉由電子 郵件進行故障通知或計算機之控制。以下說明使用電子郵 件作爲通信手段之第2實施形態。 圖17係第2實施形態之故障監控系統之構成方塊圖。 又,圖中,和第1實施形態具同樣機能部分,使用同一參 照符號,倂省略其說明。 經濟部智慧財產局員工消費合作社印製 本實施形態中,於網路114,除監控對象計算機101、 監控計算機115之外,連接有作爲郵件伺服器機能之計算 機1701。計算機1701,0 S 1704於其上動作,具備藉由網 路114與其他計算機通信之通信手段1703。計算機1701, 另具備電子郵件配送手段1702。電子郵件配送手段1702, 當受信電子郵件時,檢測指定之郵件位址,若爲自己管理 之郵件位址,則將該電子郵件保存於計算機1701內,若不 是則傳送至其他計算機之郵件配送手段。電子郵件配送手 段1702,當來自具備自己管理之郵件位址之電子郵件送受 信手段之郵件詢問(電子郵件到達否之詢問)存在時,被 詢問之郵件位址之電子郵件存在時,將該電子郵件傳送。 監控對象計算機101之第2 OS之軟體環境107下動 作之第2故障監控執行部1 705,除第1實施形態之第2故 障監控執行部.108之機能外,另具備電子郵件送受信之電 子郵件送受信手段及電子郵件作成手段。同樣,監控計算 機115下動作之故障監控管理部1706,除第1實施形態之 故障監控管理部11 6之機能外,另具備電子郵件送受信之 -21 - 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 37509841 經濟部智慧財產局員工消費合作社印製 91 年 i ? 五、發明説明(is y ~— — 一」 電子郵件送受信手段及電子郵件作成手段。 本實施形態中,於電子郵件配送手段1702,第2故障 監控執行部1 705於電子郵件送受信時使用之郵件位址,及 故障監控管理部1706於電子郵件送受信時使用之郵件位址 已被分配,送信至各郵件位址之電子郵件,被存於計算機 1701。 圖18係藉由電子郵件,由第2故障監控執行部1705 送信故障通知,故障監控管理部1706受信電子郵件爲止之 處理流程圖。 於圖18,方塊1801,表示由第2故障監控執行部1705 送信故障通知用之電子郵件之處理流程,方塊1 802,則是 故障監控管理部1706受信故障通知用之電子郵件之處理流 第2故障監控執行部1705,當檢測出故障(步驟18〇2 )時,作成故fe*通知用之電子郵件(步驟1803),指定故 障監控管理部1706之郵件位址送信電子郵件(步驟〗8〇4) 〇 步驟1 804送信之電子郵件,由電子郵件配送手段17〇2 受取(步驟1 805 ),作爲寄往指定之郵件位址之電子郵件 ,保持於計算機1701 (步驟1 806 )。 ‘ 故障監控管理部1706,則對電子郵件配送手段π〇2進 行定期詢問,以確認電子郵件到達否(步驟1 807 )。電子 郵件配送手段1702,當受信詢問要求時,(步驟丨8〇9), 確認詢問源,亦即寄往故障監控管理部1 706之郵件位址之 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) -22- I I I —裝— Ί |灯| I I 線 (請先閱讀背面之注意事項再填寫本頁) 509841
經濟部智慧財產局員工消費合作社印製 五、發明説明(2〇) 電子郵件到達否(步驟1 81 〇 )。若寄往故障監控管理部 1 706之郵件位址之電子郵件到達,則電子郵件配送手段 1 7 02將該電子郵件傳送至故障監控管理部1706 (步驟1811 )。傳送至故障監控管理部1 706之電子郵件,被由計算機 1701消除。故障監控管理部1706,則受信由電子郵件配送 手段1702傳送之電子郵件(步驟1812)。 圖19係由故障監控管理部1706經電子郵件進行監控 對象計算機101之再起動執行之處理流程圖。 監控對象計算機101再起動時,故障監控管理部1706 作成再起動指示郵件,將電子郵件寄往第2故障監控執行 部 1705(步驟 1901). 由故障監控管理部1706送信之電子郵件,由電子郵件 配送手段1702受信(步驟1 805 ),作爲寄往第2故障監控 執行部1705之電子郵件,存於計算機1701 (步驟1806 )。 第2故障監控執行部1 705,定期對電子郵件配送手段 1 7 02詢問電子郵件到達否(步驟1 902 )。電子郵件配送手 段1702,當受信來自第2故障監控執行部1705之詢問時( 步驟1 809 ),檢測計算機1701保存之電子郵件,調查寄往 第2故障監控執行部1 705之電子郵件到達否(步驟1810) °該電子郵件存在時,電子郵件配送手段1702,則將該電 子郵件傳送至第2故障監控執行部1705,消除傳送之電子 郵件(步驟1 811 )。 第2故障監控執行部1 705,當受信傳送之電子郵件時 ,確認其內容(步驟1903 ),當受信之電子郵件爲再起動 (請先閱讀背面之注意事項再填寫本頁)
Μ 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) -23- 509841 A7 , _ 91 9, 2 4 > «7_ 五、發明説明(21 ) 指示之電子郵件時,第2故障監控執行部1 705,呼出多工 〇S控制手段1 1 3之再起動手段。由第2故障監控執行部 1 705呼出之多工〇S控制手段11 3之再起動手段,係執行 監控對象計算機101之再起動(步驟904 )。 和監控對象計算機101之再起動同樣,由故障監控管
理部1706可收集在監控對象計算機1〇1上動作之第1 〇 S 之軟體環境內肢記憶體資訊及暫存器資訊,或者收集第1 〇S收集之故障監控資訊,亦可使用電子郵件實現。 如上述般,故障通知、監控對象計算機之再起動控制 等使用電子郵件,則可取代監控計算機,改用電子郵件送 受信可能之攜帶電話等終端裝置。 圖20係取代圖17之監控計算機115,改用具備電子郵 件送受信手段之攜帶電話2002構成故障監控系統之方塊圖 〇 :第2實施形態中,使用可送信/受信電子郵件之攜 帶電話的故障監控系統之構成方塊圖。 於圖20,監控對象計算機101,以及作爲郵件伺服器 功能之計算機1701,和圖17之計算機系統具同一功能。圖 20之計算機系統,於網路114未設監控計算機。第2故障 監控執行部1 705,當檢測出故障時,發出以指定攜帶電話 2002之郵件位址爲通知位址之電子郵件。 計算機1701之電子郵件配送手段2001,當指定攜帶電 話2002使用之郵件位址的電子郵件到達時,將該電子郵件 傳送至攜帶電話2002。 本紙張尺度適用中國國家標準(CNS ) Α4規格(210 X 297公釐) -24 - (請先閲讀背面之注意事項再填寫本頁) -裝- 、1Τ 經濟部智慧財產局員工消費合作社印製 經濟部智慧財產局員工消費合作社印製 509841 _- " . B7 _ 五、發明説明(22厂 一 圖20之系統之具體之監控對象計算機101之監控相關 之處理,係和上述圖17之系統同樣,故省略其說明。 如上述般,在監控對象計算機101之第2故障監控執 行部1705與攜帶電話2002間送受信電子郵件,則對攜帶電 話2002之監控對象計算機101之故障通知、由攜帶電話 2002對監控對象計算機101之再起動、以及故障資訊收集 爲可能。 上述說明之第1實施形態及第2實施形態,係藉第1 〇S之軟體環境下動作之第1故障監控執行部1〇4與第2 〇S之軟體環境下動作之第2故障監控執行部1 〇8間之生 存信號109之送受信來進行故障檢測。以下說明藉連接於 監控對象計算機之I / 0匯流排的擴張卡(故障監控板) 進行之故障監控。 圖1 3係本發明第3實施形態之監控對象計算機之構成 方塊圖。 本實施形態之監控對象計算機101,如圖示般,軟體上 具和上述說明之第1及第2實施形態之監控對象計算機同 樣之構成。監控對象計算機101,具備連接I / 〇匯流排之 故障監控板1301作爲硬體。故障監控板1301,係藉多工 0 S控制手段113之計算機資源分割手段,來分配第 1〇S 105利用之硬體資源。 如後Μ般,於故障監控板1301設保持生存信號109之 生存信號受信暫存器。第1故障監控執行部104之第1 〇S生存信號送信手段,將値“ 1 “定期寫入該生存信號受 —裝 I I I訂 II 線 (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中.國國家標準(CNS ) Α4規格(210X297公釐) -25 - 509841
五、發明説明(23) 經濟部智慧財產局員工消費合作社印製 信暫存器,俾對故障監控板1301通知第1 0 S 105正常動 作。故障監控板1301,藉由檢測生存信號受信暫存器之値 來檢測第1 0 S之故障發生。故障監控板1 3〇1,當判斷第 1〇S之軟體環境發生故障時,對計算機101之cpu送信 中斷信號。 於多工OS控制手段113,設當存在來自故障監控板 1301之中斷時被視爲“1 “之監控板中斷發生旗標。第2故 障監控執行部1 08之故障檢測手段,則定期檢測該監控板 中斷發生旗標,以判斷第1 OS之軟體環境是否發生故障 〇 圖14係故障監控板1301之構成方塊圖。 故障監控板1301,具備I/O匯流排介面1401、故障 通知手段1403、暫存器群1404,及監控計時器1405。 監控計時器1405,當開始動作時,在計數値成〇之前 ,以每隔一秒進行該計數値之下數計數。故障通知手段 1403,當監控計時器1405之計數値成0時,對故障監控板 1301連接之計算機之C P U,藉由故障通知手段1403產生 中斷。暫存器群1404係執行故障監控板1301之控制的暫存 器群。 圖15係暫存器群1404包含之暫存器構成之說明圖。 於暫存器群1404,具備暫存器1 501 - 1 504之控制暫存 器。暫存器群1404,藉由I / 0匯流排介面1401可由監控 對象計算機101之C P U讀取値。 暫存器1501,係控制監控計時器1 405之起動及停止的 本紙張尺度適用中.國國家標準(CNS ) A4規格(210 X 297公釐) -26 - (請先閲讀背面之注意事項再填寫本頁) -裝· 訂 線‘ 經濟部智慧財產局員工消費合作社印製 509841
五、發明説明(24) 計時器起動停止暫存器。計時器起動停止暫存器1501被寫 入値“ 1 “時,監控計時器1405起動,値“ 0 “被寫入時, 監控計時器1405停止。藉計時器起動停止暫存器15〇1設爲 値“ 1 “可執行故障監控。 暫存器1502,係監控計時器1405之初期値保持的監控 計時器初期値暫存器,監控計時器1405之初期化時,監控 計時器初期値暫存器1502設定之値被作爲監控計時器1405 之初期値設定。 暫存器1 503,係監控計時器之現在値保持用之計數計 時器値暫存器。監控對象計算機101上動作之程式,係藉 讀取計數計時器値暫存器1 503之値,來通知監控計時器 1405之現在値。 暫存器1 504,係第1 OS之生存信號被寫入之暫存器 (生存信號受信暫存器)。當生存信號受信暫存器1 504被 寫入値“ 1 “時,監控計時器1405之計數値被初期化。 圖16係故障監控板1301之故障監控動作之流程圖。 步驟1601,判斷監控計時器1405起動否。該判斷係依 參照計時器起動停止暫存器1501而進行。監控計時器1405 停止中,則故障監控板1301之故障監控不動作。 監控計時器1405起動,故障監控進行時,於繼續之步 驟1602,判斷生存信號被受信否。若第1 0 S 105正常動 作,則第1故障監控執行部104被定期執行,“ 1 “被寫入 生存信號受信暫存器1 504。因此,當生存信號受信暫存器 1 5 0 4之値爲“ 1 “時,表不生存信號被送信,“ 0 “時表不 本紙€尺度適用中國國家標準(CNS ) A4規格(2i〇x297公釐) -27 - — (請先閱讀背面之注意事項再填寫本頁)
509841 :ai. .' A:7 , ,-* ·* - ., 來尸 B7 五、發明説明(25) — j (請先聞讀背面之注意事項再填寫本頁) 生存信號未被送信。生存信號之檢測,可藉參照生存信號 受信暫存器1 504之値來實現。暫存器1504之値爲“ 1 “時 移至步驟1603之處理,“0 “時移至步驟1604之處理。 於步驟1 603,以監控計時器初期値暫存器1502保持之 値作爲監控計時器1405之計數値設定之,監控計時器1405 之計數値被初期化。又,生存信號受信暫存器1 504之値被 淸除(値“ 〇 “被設定)。之後,回至步驟1601,繼續第1 〇S 105之監控。 於步驟1 604,判斷監控計時器1405之計數値爲“0 “ 否。監控計時器1405之計數値爲“ 0 “時,表示生存信號 於特定時間內未被送信。因此,計數値爲“ 0 “時,判斷第 1〇S 105之軟體環境發生故障。計數値非“0 “時,回至 _ 步驟1601繼續故障監控。 於步驟1 605,藉故障監控板1301,藉由故障通知手段 1403對監控對象計算機101之C P U送信中斷信號。該處 理係於步驟1 604判斷第1〇S之軟體環境發生故障時被執 行。 經濟部智慧財產局員工消費合作社印製 於步驟1 605發出故障通知時,故障監控板1301於步驟 1606停止故障監控。 於步驟1 605發生中斷時,該中斷由多工〇S控制手段 11 3處理,如.先前說明般,監控板中斷發生旗標被設爲“ 1 “。第2故障監控執行部108,則定期檢測監控板中斷發生 旗標之狀態,以檢測第1 0 S 1 05之軟體環境發生之故障 。第2故障監控執行部108檢測出第1〇S 105之故障後之 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -28 - 509841 五、發明説明(26) 處理,係和先前說明之第1及第2實施形態同樣,因此省 略其詳細說明。 (請先閱讀背面之注意事項再填寫本頁) 依本實施形態,可實現和第1實施形態同樣之故障監 控系統。又,本實施形態中,作爲由故障監控板1301將故 障通知送信至目的之中斷信號,於計算機機構係使用non-maskable (非屏蔽式)中斷信號,因此即使第1 OS將監控 對象計算機之屏蔽式中斷信號全設爲屏蔽狀態下發生故障 時,來自故障監控板1301之中斷信號亦可到達C P U,可 使第2 0 S之軟體環境內動作之程式動作。 依上述說明之實施形態,利用多工OS環境,監控用 軟體環境和監控對象之軟體環境可於同一計算機上動作。 因此,監控對象之軟體環境發生軟體故障時,可由監控用 軟體環境,取得監控對象之軟體環境之記憶體資訊或暫存 器資訊等故障資訊,及進行計算機之再起動控制。 又,由監控用軟體環境,可藉由網路進行與監控對象 計算機之通信,由網路連接之監控計算機可對監控對象計 算機之故障監控執行部指示監控對象計算機之動作。 經濟部智慧財產局員工消費合作社印製 又,監控用軟體環境,係利用監控對象之軟體環境被 構築之計算機資源之一部分構成,監控用軟體環境使用之 計算機資源之量容易變更。結果,可緩和計算機資源不足 導致之功能限制。 依本發明,計算機發生故障時,可對網路連接之其他 計算機通知故障發生,又,可依網路連接之其他計算機之 要求指示,來控制該計算機。 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -29 - 509841 A7 B7 五、發明説明(27) 91· 9, 年 (圖面之簡單說 Y多〜2 V.丨 吟丨;;一丨翻吏丨 圖1 :本發明之一實施形態之計算機系統之構成方塊圖 圖 圖 圖 圖 映圖。 圖 圖 (請先閲讀背面之注意事項再填寫本頁) 多工0 S控制手段之構成圖。 第1故障監控執行部之程式構成圖。 第2故障監控執行部之程式構成圖。 計算機資源分割手段201分割之計算機資源之對 :計算機控制手段之程式構成圖。 •監控對象計算機之弟1故障監控執行部在開始第 1〇S生存信號送信前執行處理之手續流程圖。 圖8 :第2故障監控執行部之故障檢測手段之故障檢測 處理之流程圖。 圖9:故障監控管理部進行監控對象計算機之再起動時 之處理流程圖。 經濟部智慧財產局員工消費合作社印製 圖10:故障監控管理部,收集在監控對象計算機上動 作之第1 ◦ S之軟體環境內之記憶體資訊時之處理流程之 順序圖。 圖11 :故障監控管理部指示故障資訊收集起動時執行 之處理流程之順序圖。 圖12 :故障監控管理部,取得第1 〇 S之故障資訊收 集手段收集故障資訊時執行之處理流程之順序圖。 圖1 3 :本發明第3實施形態之監控對象計算機之構成 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) =30 -
經濟部智慧財產局員工消費合作社印製 509841 A7 _ _B7 五、發明説明(28) " 方塊圖。 圖14 :故障監控板之構成方塊圖。 圖15 :控制暫存器群包含之暫存器構成之說明圖。 圖16 :故障監控板之故障監控時之動作流程圖。 圖17 :第2實施形態之故障監控系統之構成方塊圖。 圖1 8 :藉由電子郵件,由第2故障監控執行部送信故 障通知,故障監控管理部受信電子郵件爲止之處理流程之 順序圖。 圖1 9 :由故障監控管理部經電子郵件進行監控對象計 算機之再起動執行之處理流程圖。 圖20 :第2實施形態中,使用可送信/受信電子郵件 之攜帶電話的故障監控系統之構成方塊圖。 (符號說明) 101、 監控對象計算機 102、 軟體環境 103、 應用程式 104、 第1故障監控執行部
105、 第1〇S 106、 故障資訊收集手段 107、 軟體環境 108、 第2故障監控執行部 110、通信手段
112、第2〇S 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -31 - (請先閲讀背面之注意事項再填寫本頁)
509841 A7 B7 五、發明説明(29) 113、 多工0 S控制手段 、… i——一—_—........... 114、 網路 (請先閱讀背面之注意事項再填寫本頁) 11 5、監控計算機 11 6、故障監控管理部 117、通信手段 201、 計算機資源分割手段 202、 0 S間通信手段 203、 計算機控制手段 204、 0 S排程手段 205、 第2 0 S起動手段 206、 介面 207、 共用記憶體區域 301、 第2 0 S起動指示手段 302、 第1 0 S生存信號送信手段 3〇3、故障資訊檔案取得手段 401、 故障檢測手段 402、 故障通知手段 經濟部智慧財產局員工消費合作社印製 403、 計算機控制指示手段 404、 故障資訊傳送手段 405、 控制指示受信手段 601、 再起動手段 602、 記憶體資訊取得手段 603、 暫存器資訊取得手段 6〇4、故障資訊收集起動手段 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -32 - 509841 Μ _ ΒΊ五、發明説明(3〇) 丨擊·Μ :r/ 1301、故障監控 ti™一 1401、I/O匯流排介面 1403、 故障通知手段 1404、 暫存器群 1405、 監控計時器 1501、暫存器 1 502、暫存器 1 503、暫存器 1504、暫存器 1701、 計算機 1702、 電子郵件配送手段 1 703、通信手段 1704 、〇 S 1705、 第2故障監控執行部 1706、 故障監控管理部 1801、1 802、方塊 2001、 電子郵件配送手段 2002、 攜帶電話 (請先閲讀背面之注意事項再填寫本頁) •裝· 訂 線 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中周國家標準(CNS ) A4規格(2丨0X29?公釐) -33-

Claims (1)

  1. A8 B8 C8 D8 509841 六、申請專利範圍 1 (請先聞讀背面之注意事項再填寫本頁) 1 · 一種故障監控系統,係具備:具有使第1〇s (操作 系統)及與上述第1〇S不同之第2 0S動作,進行上述 第1〇S與上述第2 0S之間之通信的多工〇S控制手段 ,且形成有由上述第1 0S構築之第1軟體環境,及由上 述第2 0S構築之第2軟體環境的計算機;及藉由網路連 接上述計算機,用於監控上述計算機上之軟體故障的監控 計算機; 上述第2軟體環境,係具備: 與上述監控計算機進行通信的通信手段, - 判斷上述第1 0 S之故障發生的故障檢測手段, 當上述故障檢測手段檢測出上述第1 0 S之故障時‘, 藉由上述通信手段將故障通知送信至上述監控計算機的故 障通知手段,及 依來自上述監控計算機之指示,控制上述計算機的計. 算機控制手段。 2.如申請專利範圍第1項之故障監控系統,其中 經濟部智慧財產局員工消費合作社印製 上述計算機控制手段,係具備使上述計算機再起動之 再起動手段。 ‘ 3.如申請專利範圍第1項之故障監控系統,其中 上述第1 0S,係具備故障發生時收集故障資訊的故 障資訊收集手段,上述計算機控制手段具備使上述故障資 訊收集手段起動之故障資訊收集起動手段。 4.如申請專利範圍第1項之故障監控系統,其中 上述多工0S控制手段,係具備收集上述第1軟體環 -—— … .. ______ ........-------.............— ............................-.......—........—— ‘―.......—- ·.....— -34- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 509841 經濟部智慧財產局員工消費合作社印製 91 9. 2U 年月曰 ‘正 A8 B8 C8 D8 •、申請專利範圍. 2 境之記憶體資訊的記憶體資訊取得手段,依來自上述監控 計算機之指示,取得上述第1 0 S之記憶體資訊,將取得 之記憶體資訊送信至上述監控計算機。 5. 如申請專利範圍第1項之故障監控系統,其中 上述多工OS控制手段,係具備取得上述第1 os執 行時之暫存器資訊的暫存器資訊取得手段,依來自上述監 控計算機之指示,取得上述第1 0 s之暫存器資訊,將取 得之暫存器資訊送信至上述監控計算機。 6. 如申請專利範圍第1項之故障監控系統 上述計算機與上述監控計算機間之通信 郵件。 7. 如申請專利範圍第6項之故障監控系統,其中 上述監控計算機,係可送信/受信之攜帶型終端裝置 〇 8. 如申請專利範圍第1項之故障監控系統,其中 上述計算機,係具備監控電路,用於監控上述第1軟 體環境上動作之程式所輸出之生存信號,依上述生存信號 之有無檢測上述第1軟體環境上之軟體故障,並將故障發 生通知處理器,上述故障檢測手段,係依來自上述監控電 路之通知判斷上述故障。 9·一種故障監控方法,係具備:具有使第1 0 S (操作 系統)及與上述第1〇S不同之第2 0 S動作,進行上述 第1 0 S與上述第2 0 S之間之通信的多工0 S控制手段 ,形成有由上述第1 OS構築之第1軟體環境,及由上述 其中‘ 係使用電子 (請先聞讀背面之注意事項再填寫本頁)
    訂 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -35 - 509841 A8 Βδ C8 D8 六、申請專利範圍 第 (請先閲讀背面之注意事項再填寫本頁) 2〇S構築之第2軟體環境的計機;及藉由網路連接上述 計算機,用於監控上述計算機上之軟體故障的監控計算機 ,之故障監控系統中之上述第2軟體環境上執行的故障監 控方法,係具備以下步驟: 依來自上述第1軟體環境之生存信號,判斷上述第 1 〇 S之故障發生之有無, 當檢測出上述第1 OS之故障時,藉由上述監控計算 機之通信手段將故障通知送信至上述監控計算機,及· 依上述監控計算機之指示控制上述計算機。 10.—種故障監控系統,係由計算機,及藉由網路連接 上述計算機,用於監控上述計算機上之軟體故障的監控計 算機構成的故障監控系統,其特在於: 上述計算機,係具備: 使第10S (操作系統)及與上述第10S不同之第 2〇S動作,進行上述第1 〇 S與上述第2 0 S之間之通信 的多工〇S控制手段, 經濟部智慧財產局員工消費合作社印製 由上述第10S構築之第1軟體環境,及 及由上述第20 S構築之第2軟體環境; 上述第2軟體環境,係具備: 與上述監控計算機進行通信的通信手段, 判斷上述第1 0 S之故障發生的故障檢測手段, 當上述故障檢測手段檢測出上述第1 OS之故障時, 藉由上述通信手段將故障通知送信至上述監控計算機的故 -36- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 509841 9M,W 條 年月 Ei , ; > ( ο 捕朴8 六、申請專利範圍 4 障通知手段,及 依來自上述監控計算機之指示,控制上述計算機的計 算機控制手段。 11·一種計算機,係第1 OS及與上述第1 OS不同之 第2 0 S動作之計算機,具備·· 使第1 OS及第20S動作,進行上述第〇s與上 述第2 0 S之間之通信的多工〇 s控制手段, 在上述第2 OS下,藉由上述多工〇s控制手段來判 斷上述第1 0 S之故障發生的故障檢測手段,及 當上述故障檢測手段檢測出上述第丨〇 S之故障時, 將故障通知送信至外部的故障通知手段。 ‘ 12.如申請專利範掘第11項之計算機,其中 另包含:依外部之指示控制上述計算機的計算機控制 手段。 (請先聞讀背面之注意事項存填寫本頁) 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -37 -
TW89128052A 2000-09-07 2000-12-27 Breakdown monitoring system TW509841B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000276606A JP2002082816A (ja) 2000-09-07 2000-09-07 障害監視システム

Publications (1)

Publication Number Publication Date
TW509841B true TW509841B (en) 2002-11-11

Family

ID=18762039

Family Applications (1)

Application Number Title Priority Date Filing Date
TW89128052A TW509841B (en) 2000-09-07 2000-12-27 Breakdown monitoring system

Country Status (3)

Country Link
EP (1) EP1187024A2 (zh)
JP (1) JP2002082816A (zh)
TW (1) TW509841B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6823478B1 (en) * 2000-09-12 2004-11-23 Microsoft Corporation System and method for automating the testing of software processing environment changes
JP3943865B2 (ja) 2001-06-05 2007-07-11 株式会社日立製作所 コンピュータ装置および診断方法
JP4558376B2 (ja) * 2004-05-18 2010-10-06 三菱電機株式会社 コントローラ
JP2007148584A (ja) * 2005-11-24 2007-06-14 Samsung Electronics Co Ltd コンピュータのメモリ使用についての情報を提供するシステム及び方法
US7685474B2 (en) * 2007-03-16 2010-03-23 Symantec Corporation Failsafe computer support assistant using a support virtual machine
JP4883492B2 (ja) * 2008-03-12 2012-02-22 日本電気株式会社 仮想マシン管理システムおよび計算機、並びに、プログラム
JP5176837B2 (ja) * 2008-09-30 2013-04-03 富士通株式会社 情報処理システム及びその管理方法、制御プログラム並びに記録媒体
JP2010134557A (ja) * 2008-12-02 2010-06-17 Nec Corp 仮想マシン運用管理システム、その運用管理方法、及びプログラム
JP5678717B2 (ja) 2011-02-24 2015-03-04 富士通株式会社 監視装置、監視システムおよび監視方法
JP5690307B2 (ja) * 2012-06-13 2015-03-25 三星電子株式会社Samsung Electronics Co.,Ltd. コンピュータのメモリ使用についての情報を提供するシステム及び方法
WO2015094260A1 (en) 2013-12-19 2015-06-25 Intel Corporation Elastic virtual multipath resource access using sequestered partitions
JP6055810B2 (ja) * 2014-11-14 2016-12-27 京セラドキュメントソリューションズ株式会社 障害管理システム、障害管理サーバー、および障害管理プログラム
CN105357038B (zh) * 2015-10-26 2019-05-07 北京百度网讯科技有限公司 监控虚拟机集群的方法和系统
US10037239B2 (en) 2016-03-28 2018-07-31 Wlpro Limited System and method for classifying defects occurring in a software environment
CN106844206B (zh) * 2017-01-13 2020-03-27 北京元心科技有限公司 移动终端中调试多系统的方法及装置
JP6958925B2 (ja) * 2019-01-21 2021-11-02 Necプラットフォームズ株式会社 障害通知装置、システム、方法及びプログラム
JP7429614B2 (ja) 2020-07-14 2024-02-08 森ビル株式会社 揺れ性能相対評価システム及びネットワークセンサー
CN112114578B (zh) * 2020-09-22 2021-09-07 沈阳农业大学 一种多工序多变量过程在线监控和异常源诊断的稳健方法
CN113064747B (zh) * 2021-03-26 2022-10-28 山东英信计算机技术有限公司 一种服务器启动过程中的故障定位方法、系统及装置
CN113517897A (zh) * 2021-06-23 2021-10-19 成都市克莱微波科技有限公司 L波段双频固态发射机和l波段双频固态发射机控制方法

Also Published As

Publication number Publication date
EP1187024A2 (en) 2002-03-13
JP2002082816A (ja) 2002-03-22

Similar Documents

Publication Publication Date Title
TW509841B (en) Breakdown monitoring system
US6718482B2 (en) Fault monitoring system
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
US7925817B2 (en) Computer system and method for monitoring an access path
KR102313664B1 (ko) 시스템 서비스의 타임아웃을 처리하는 방법 및 디바이스
CN101895540B (zh) 用于应用服务进程守护的系统和方法
JP5548647B2 (ja) 計算機システムでの部分障害処理方法
WO2016000298A1 (zh) 一种系统异常的捕获方法、主系统、影子系统及智能设备
US20120304184A1 (en) Multi-core processor system, computer product, and control method
EP2693709A1 (en) Virtual desktop system, network processing device, management method, and management program
JP2015005097A (ja) 電子機器、制御装置及びプログラム
JP2003173272A (ja) 情報処理システム,情報処理装置及び保守センタ
JP5999254B2 (ja) 管理装置、方法及びプログラム
JP2013186692A (ja) 仮想マシン提供システム
CN103678023B (zh) 容错系统和用于执行容错的方法
US20110154349A1 (en) Resource fault management for partitions
JP4259390B2 (ja) 並列演算処理装置
JP2003271404A (ja) マルチプロセッサシステム
JPWO2010050092A1 (ja) 情報処理システム
JP5691248B2 (ja) タスク引継プログラム、処理装置及びコンピュータ・システム
JP2018063479A (ja) 機器、情報処理システム、情報処理方法及び情報処理プログラム
CN116820686B (zh) 物理机的部署方法、虚拟机和容器统一监控的方法及装置
CN109634784A (zh) Spark应用程序控制方法及控制装置
CN103678021B (zh) 容错系统和用于执行容错的方法
WO2023112359A1 (ja) 通信システム、管理装置及び端末

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees