TWI712880B - 資訊服務可用性管理方法及系統 - Google Patents

資訊服務可用性管理方法及系統 Download PDF

Info

Publication number
TWI712880B
TWI712880B TW108112725A TW108112725A TWI712880B TW I712880 B TWI712880 B TW I712880B TW 108112725 A TW108112725 A TW 108112725A TW 108112725 A TW108112725 A TW 108112725A TW I712880 B TWI712880 B TW I712880B
Authority
TW
Taiwan
Prior art keywords
monitoring
availability
data
capacity
report
Prior art date
Application number
TW108112725A
Other languages
English (en)
Other versions
TW202038094A (zh
Inventor
吳柏慶
阮呂文欽
韓府錦
Original Assignee
臺灣銀行股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 臺灣銀行股份有限公司 filed Critical 臺灣銀行股份有限公司
Priority to TW108112725A priority Critical patent/TWI712880B/zh
Publication of TW202038094A publication Critical patent/TW202038094A/zh
Application granted granted Critical
Publication of TWI712880B publication Critical patent/TWI712880B/zh

Links

Images

Abstract

本發明提供一種資訊服務可用性管理方法及系統,依據設備型號判讀設備效能,以及不同的系統交易量計算不同的網路使用量,設計對應機制及程式模式改善設備監控之可用性,藉由依據服務可用性之相關元件類別,至各監控系統使用監控軟體定期收集效能數值資訊,透過本發明自動產出服務可用性相關所需數據,與業務負責人匯入之可用性資料結合,將每日監控資料彙整計算,以月為單位產出服務可用性報表,提供一種具有高準確度、且能自動、有效地管理資訊服務可用性的系統及方法。

Description

資訊服務可用性管理方法及系統
本發明係關於網路和設備監控系統服務領域,特別是關於一種資訊服務可用性之管理方法及系統。
現今銀行業隨著業務的發展,與資通技術的融合度逐漸地加深,因此對於網路和設備效能的依賴度不斷地提升,因此銀行的資訊人員需要瞭解執行各項業務服務時,網路和設備的可用性。
目前在處理資訊服務可用性的問題,係採用各監控系統的監控軟體定期蒐集效能數值資訊,但因交易量太大時會影響網路監控回應,以及設備效能高低會造成回應快慢等問題,影響系統可用性監控之準確度,此外,蒐集到的效能數值資訊,大多使用人工監控統計,容易造成錯誤,無法自動且有效地管理資訊服務之可用性。
因此,如何提供一種具有高準確度、且能自動、有效地管理資訊服務可用性的方法,則成為一個亟待開發的技術。
本發明提供一種資訊服務可用性管理方法,該方法包括:(a)蒐集組態監控測量資料;(b)分析與評估監控測量資料;(c)判斷是否有異常訊息或事件發生;(d)若是的話,進行事件與問題管理流程;(e)若否的話,則產出可用性監控表與容量監控表。
另外,本發明提供一種資訊服務可用性管理系統,該系統包括:複數個監控主機,用以蒐集複數個組態之複數個監控測量資料;一第一資料庫,係連接該些監控主機,用以儲存該些監控測量資料,該些資料包含複數個可用性監控資料以及複數個容量監控資料;一分析模組,係連接該第一資料庫,用以分析該些可用性監控資料以及該些容量監控資料,評估判斷是否有異常訊息或事件發生,若是的話,進行事件與問題管理流程;以及一報表產生模組,係連接該分析模組,若該分析模組評估判斷沒有異常訊息或事件發生,則該報表產生模組產出一可用性監控表與一容量監控表。
本發明依據設備型號判讀設備效能,以及不同的系統交易量計算不同的網路使用量,設計對應機制及程式模式改善設備監控之可用性,藉由依據服務可用性之相關元件類別,至各監控系統使用監控軟體定期收集效能數值資訊,透過本發明自動產出服務可用性相關所需數據,與業務負責人匯入之可用性資料結合,將每日監控資料彙整計算,以月為單位產出服務可用性報表,提供一種具有高準確度、且能自動、有效地管理資訊服務可用性的方法及系統。
1‧‧‧資訊服務可用性管理系統
10‧‧‧分析模組
20‧‧‧報表產生模組
30‧‧‧整合模組
40‧‧‧匯入模組
DB1‧‧‧第一資料庫
DB2‧‧‧第二資料庫
DB3‧‧‧第三資料庫
H1,H2,H3,H4‧‧‧監控主機
S110~S140‧‧‧資訊服務可用性管理方法流程步驟
第一圖係為本發明資訊服務可用性管理方法之流程圖。
第二圖係為本發明產出之可用性監控表。
第三圖係為本發明產出之可用性監控報告。
第四圖係為本發明產出之容量監控表。
第五圖係為本發明產出之容量監控報告。
第六圖係為本發明資訊服務可用性管理系統之架構圖。
為令本發明所運用之技術內容、發明目的及其達成之功效有更完整且清楚的揭露,茲於下詳細說明之,並請一併參閱所揭之圖式及圖號。
請參照第一圖,其係為本發明資訊服務可用性管理方法之流程圖,首先,蒐集各組態之複數個監控測量資料(S110),係透過主機監控軟體工具蒐集各組態監控測量資料,此外,亦可由使用者(業務負責人)匯入複數個可用性資料和複數個容量資料,監控測量資料包含:頻寬使用率、處理器使用率、記憶體使用率、硬碟空間使用率;分析與評估該些監控測量資料(S120),係檢視是否達到預定的目標;判斷是否有異常訊息或補救(Remedy)事件發生(S130),若是的話,進行事件與問題管理流程(S135),此步驟係針對非預期性之組態項目失效或容量效能超過臨界值之異常訊息(Event)及事件(Incident)進行通報,進行事件及問題處理,若為事件應開立事件單並透過事件管理流程處理,若否的話,則產出可用性監控表與容量監控表(S140)。
在上述流程中,較佳地,事件管理流程處理由「事件通報受理窗口」受理使用者之事件通報,記錄相關資訊並分析事件,提出與執行解決方案或暫時解決方案以儘速恢復受影響之服務。
在上述流程中,較佳地,可依據可用性監控表(如第二圖)產出可用性監控報告(如第三圖),並可依據容量監控表(如第四圖)完成容量 監控報告(如第五圖),交付服務負責人進行分析。此外,在上述流程中,可進一步依據可用性監控報告和容量監控報告產出一趨勢分析報告,判斷審查是否有潛在問題,審查所負責之服務、組態項目是否有潛在的問題,若是的話,則進行問題管理流程,對於未有暫時解決方案或需尋找根因之事件開立問題單,將問題單交由負責進行問題分析的支援群組人員進行問題的分析,當調查完成後,進行結案前必須先送主管簽核,待簽核完成後方能進行結案。
本發明可分為服務層(Service)和基礎設施層(Infrastructure)兩個區塊。在可用性計算模式,服務層係依據服務可用性事件(Incident)記錄與系統維護時間(Change)記錄計算資訊服務可用性;基礎設施層則依據服務可用性之相關元件,使用監控軟體與使用者(業務負責人)匯入之可用性資料,以計算服務可用性。進一步地,可用性計算模式包含六個組態分類,服務(Service)、應用(Application)、叢集(Cluster)、軟體伺服器(Software Sever)、電腦系統(Computer System)以及網路裝置(Network Device)。各組態分類依據流程特性訂定各類可量化之關鍵績效指標,可設定優先等級,用以作為具體評估資訊服務管理流程成效之依據。例如,服務(Service)和應用(Application)可將補救(Remedy)事件設定為優先等級1,而叢集(Cluster)、軟體伺服器(Software Sever)、電腦系統(Computer System)和網路裝置(Network Device)則可將使用者(業務負責人)填報設定為優先等級1。
而在容量計算模式,因服務層(Service)無容量定義,故不需要進行定義。而基礎設施層則使用監控軟體與業務負責人匯入之資料,以計算容量。進一步地,容量計算模式包含三個組態分類,軟體伺服器 (Software Sever)、電腦系統(Computer System)以及網路裝置(Network Device)。各組態分類依據IT基礎架構的邏輯模型,以識別、管理並確認環境中所有組態項目,流程特性訂定各類可量化之關鍵績效指標,可設定優先等級,用以作為具體評估資訊服務管理流程成效之依據。例如,叢集(Cluster)、軟體伺服器(Software Sever)、電腦系統(Computer System)和網路裝置(Network Device)可將使用者(業務負責人)填報設定為優先等級1,監控軟體所監控之容量設定為優先等級2。
在一實施例中,組態中服務(Service)和應用(Application)係使用補救(Remedy)事件計算每月可用率,其中需先定義停機時間(Down Time),係為每月各服務優先等級(Priority)1與2事件之合計處理時間,因此服務(Service)的可用率定義為:(當月服務時間-停機時間)×100/當月服務時間,應用(Application)的可用率定義為:(當月服務時間-APP CAUSE事件的停機時間)×100/當月服務時間,其中APP CAUSE事件為應用程式換版更新維護、程式BUG導致結果錯誤等事件。
在一實施例中,組態中網路裝置(Network Device)包含網路交換器(Switch)、路由器(路由器)、負載平衡器(Load balancer)、第三層交換器(Layer 3 Switch)以及防火牆(Firewall)等五個元件分類。而網路裝置(Network Device)的可用率定義為以監控軟體監測,監控時間可為2分鐘,但本發明不以此為限,當可取得數值時,可用性為1,無法取取得數值時,可用性為0。網路裝置(Network Device)的容量定義則分為處理器使用率和頻寬使用率,處理器使用率以當月最大值及當月每日最大值之平均數值等兩個項目作為衡量指標;頻寬使用率則分別以全部使用中介面之最大可接 受頻寬值、當月最大值及當月每日最大值之平均數值等三個項目作為衡量指標。監控時間可為1分鐘,但本發明不以此為限。
在一實施例中,組態中電腦系統(Computer System)可包含Unix和Windows兩種。可用率定義為以監控軟體監測,Unix可使用PATROL監控軟體,監測Patrol data collect可用性,每10分鐘一次,但本發明不以此為限,Windows則可使用SCOM監控軟體,監測SCOM Agent可用性,每10分鐘一次,使用TEC收集Up/Down事件,但本發明不以此為限。容量定義同樣地以監控軟體監測,Unix可使用PATROL監控軟體,監測處理器使用率、記憶體使用率、硬碟空間使用率,依服務時間計算指標值與最大值,其中月指標值等於當月每日尖峰平均,但本發明不以此為限,Windows則可使用SCOM監控軟體,監測處理器使用率、記憶體使用率、硬碟空間使用率,依服務時間計算指標值與最大值,其中月指標值等於當月每日尖峰平均,但本發明不以此為限。
在一實施例中,組態中軟體伺服器(Software Sever)進一步包含中介軟體(Middleware)、佇列管理器(Queue Manager)以及資料庫伺服器(Database Server)等三個組態。中介軟體(Middleware)可用率定義為以監控軟體監測,例如PATROL監控軟體,監測Appserver可用性,每10分鐘一次,但本發明不以此為限,成功時可用性為1,失敗時可用性為0,容量定義同樣地以監控軟體監測,例如PATROL監控軟體,監測執行緒池(Thread pool)大小,計算指標值與最大值。佇列管理器(Queue Manager)可用率定義為以監控軟體監測,例如PATROL監控軟體,監測Channel可用性,每10分鐘一次,但本發明不以此為限,成功時可用性為1,失敗時可用性為0,佇列管理器 (Queue Manager)則無容量定義。資料庫伺服器(Database Server)可用率定義為以監控軟體監測,例如PATROL監控軟體,監測DB2 connect可用性,每10分鐘一次,但本發明不以此為限,成功時可用性為1,失敗時可用性為0,容量定義同樣地以監控軟體監測,例如PATROL監控軟體,監測db file system大小,計算指標值與最大值。
請參照第六圖,其係為本發明資訊服務可用性管理系統之架構圖,資訊服務可用性管理系統1包括:複數個監控主機H1,H2,H3,H4,用以蒐集複數個組態之複數個監控測量資料;一第一資料庫DB1,係連接該些監控主機H1,H2,H3,H4,該第一資料庫DB1用以儲存該些監控測量資料,該些資料包含複數個可用性監控資料以及複數個容量監控資料;一分析模組10,係連接該第一資料庫DB1,該分析模組10用以分析該些可用性監控資料以及該些容量監控資料,評估判斷是否有異常訊息或事件發生,若是的話,進行事件與問題管理流程;以及一報表產生模組20,係連接該分析模組10,若該分析模組10評估判斷沒有異常訊息或事件發生,則該報表產生模組20產出一可用性監控表與一容量監控表。
在一較佳實施例中,資訊服務可用性管理系統1進一步包含一整合模組30以及一第二資料庫DB2,該整合模組30用以將該些監控測量資料整合為一每日之監控測量資料以及一每月之監控測量資料,並儲存於該第二資料庫DB2,該第二資料庫DB2係連接該分析模組10,該分析模組10可進一步分析該每日之監控測量資料以及該每月之監控測量資料。
在一較佳實施例中,資訊服務可用性管理系統1進一步包含一匯入模組40,用以讓使用者匯入可用性資料和容量資料於該第二資料庫 DB2。
在一較佳實施例中,資訊服務可用性管理系統1進一步包含一第三資料庫DB3,係連接該報表產生模組20,該第三資料庫DB3用以儲存複數個補救(Remedy)事件,該報表產生模組20用以依據該些補救事件更新該可用性監控表與該容量監控表。
較佳地,補救(Remedy)事件係為不屬於標準資訊服務運作之一部分,並且導致服務中斷或服務品質降低之異常狀況,影響使用者正常操作的事件。
本領域熟習技藝者應可理解本發明之分析模組10、報表產生模組20、整合模組30、匯入模組40、第一資料庫DB1、第二資料庫DB2、第三資料庫DB3、以及監控主機H1,H2,H3,H4等元件可具有足夠的硬體電路、元件及/或配合的軟體、韌體及其組合來實現各項所需的功能。
在本發明資訊服務可用性管理系統1,監控主機H1,H2,H3,H4用以監控各項業務服務時之頻寬數值以及設備效能數值,進一步而言,係針對各項不同服務時的頻寬使用率、處理器使用率、記憶體使用率、硬碟空間使用率。
本發明依據設備型號判讀設備效能,以及不同的系統交易量計算不同的網路使用量,設計對應機制及程式模式改善設備監控之可用性,藉由依據服務可用性之相關元件類別,至各監控系統使用監控軟體定期收集效能數值資訊,透過本發明自動產出服務可用性相關所需數據,與業務負責人匯入之可用性資料結合,將每日監控資料彙整計算,以月為單位產出服務可用性報表,提供一種具有高準確度、且能自動、有效地管理 資訊服務可用性的方法及系統。
本發明之實施例確能達到所預期之使用功效,又其所揭露之技術內容,不僅未曾見諸於同類產品中,亦未曾公開於申請前,誠已完全符合專利法之規定與要求,爰依法提出發明專利之申請,懇請惠予審查,並賜准專利,則實感德便。
S110~S140‧‧‧資訊服務可用性管理方法流程步驟

Claims (9)

  1. 一種資訊服務可用性管理方法,該方法包括:(a)蒐集複數個組態之複數個監控測量資料,該些組態包含:一服務、一應用、一叢集、一軟體伺服器、一電腦系統以及一網路裝置,設定一優先等級,用以作為具體評估資訊服務管理流程成效之依據;(b)分析與評估該些監控測量資料;(c)判斷是否有非預期性之一組態項目失效或一容量效能超過臨界值之異常訊息或事件發生;(d)若是的話,進行事件與問題管理流程;以及(e)若否的話,則產出一可用性監控表與一容量監控表。
  2. 根據申請專利範圍第1項之方法,其中,該些監控測量資料包含:一頻寬使用率、一處理器使用率、一記憶體使用率以及一硬碟空間使用率。
  3. 根據申請專利範圍第1項之方法,蒐集該些組態之該些監控測量資料包含透過主機監控軟體工具蒐集以及使用者匯入之複數個可用性資料和複數個容量資料。
  4. 根據申請專利範圍第1項之方法,進一步包含依據該可用性監控表產出一可用性監控報告,依據該容量監控表產出一容量監控報告。
  5. 根據申請專利範圍第4項之方法,進一步包含依據該可用性監控報告和該容量監控報告產出一趨勢分析報告。
  6. 一種資訊服務可用性管理系統,該系統包括:複數個監控主機,用以蒐集複數個組態之複數個監控測量資料,該些組態包含:一服務、一應用、一叢集、一軟體伺服器、一電腦系統以及一網路裝置,各組態分類依據流程特性,訂定各類可量化之關鍵績效指標,可設定優先等級,用以作為具體評估資訊服務管理流程成效之依據;一第一資料庫,係連接該些監控主機,用以儲存該些監控測量資料,該些資料包含複數個可用性監控資料以及複數個容量監控資料;一分析模組,係連接該第一資料庫,用以分析該些可用性監控資料以及該些容量監控資料,評估判斷是否有非預期性之組態項目失效或容量效能超過臨界值之異常訊息或事件發生,若是的話,進行事件與問題管理流程;以及一報表產生模組,係連接該分析模組,若該分析模組評估判斷沒有異常訊息或事件發生,則該報表產生模組產出一可用性監控表與一容量監控表。
  7. 根據申請專利範圍第6項之系統,進一步包含一整合模組以及一第二資料庫,該整合模組用以將該些監控測量資料整合為一每日之監控測量資料以及一每月之監控測量資料,並儲存於該第二資料庫。
  8. 根據申請專利範圍第7項之系統,進一步包含一匯入模組,用以讓使用者匯入可用性資料和容量資料於該第二資料庫。
  9. 根據申請專利範圍第6項之系統,進一步包含一第三資料庫,係連接該報表產生模組,用以儲存複數個補救事件,該報表產生模組用以依據該些補救事件更新該可用性監控表與該容量監控表。
TW108112725A 2019-04-11 2019-04-11 資訊服務可用性管理方法及系統 TWI712880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW108112725A TWI712880B (zh) 2019-04-11 2019-04-11 資訊服務可用性管理方法及系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108112725A TWI712880B (zh) 2019-04-11 2019-04-11 資訊服務可用性管理方法及系統

Publications (2)

Publication Number Publication Date
TW202038094A TW202038094A (zh) 2020-10-16
TWI712880B true TWI712880B (zh) 2020-12-11

Family

ID=74091045

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108112725A TWI712880B (zh) 2019-04-11 2019-04-11 資訊服務可用性管理方法及系統

Country Status (1)

Country Link
TW (1) TWI712880B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267897A1 (en) * 2003-06-24 2004-12-30 Sychron Inc. Distributed System Providing Scalable Methodology for Real-Time Control of Server Pools and Data Centers
TW200622741A (en) * 2004-12-16 2006-07-01 Inventec Corp Client-end equipment reservation system and method thereof
CN103049365A (zh) * 2012-11-07 2013-04-17 北京宏德信智源信息技术有限公司 信息与应用资源运行状态监控及评价方法
CN103295155A (zh) * 2012-11-30 2013-09-11 国泰君安证券股份有限公司 证券核心业务系统监控方法
CN104182902A (zh) * 2013-05-24 2014-12-03 国家电网公司 一种基于调度数据网集中运维系统的监控方法
CN104991854A (zh) * 2015-06-12 2015-10-21 北京奇虎科技有限公司 一种服务器资源的监控统计方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267897A1 (en) * 2003-06-24 2004-12-30 Sychron Inc. Distributed System Providing Scalable Methodology for Real-Time Control of Server Pools and Data Centers
TW200622741A (en) * 2004-12-16 2006-07-01 Inventec Corp Client-end equipment reservation system and method thereof
CN103049365A (zh) * 2012-11-07 2013-04-17 北京宏德信智源信息技术有限公司 信息与应用资源运行状态监控及评价方法
CN103295155A (zh) * 2012-11-30 2013-09-11 国泰君安证券股份有限公司 证券核心业务系统监控方法
CN104182902A (zh) * 2013-05-24 2014-12-03 国家电网公司 一种基于调度数据网集中运维系统的监控方法
CN104991854A (zh) * 2015-06-12 2015-10-21 北京奇虎科技有限公司 一种服务器资源的监控统计方法和系统

Also Published As

Publication number Publication date
TW202038094A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
JP6828096B2 (ja) サーバハードウェア障害の分析及びリカバリ
US8892960B2 (en) System and method for determining causes of performance problems within middleware systems
CN107729214B (zh) 一种可视化的分布式系统实时监控运维方法及装置
EP1812863B1 (en) Reporting of abnormal computer resource utilization data
US10437696B2 (en) Proactive information technology infrastructure management
US7409316B1 (en) Method for performance monitoring and modeling
US7369967B1 (en) System and method for monitoring and modeling system performance
US8352867B2 (en) Predictive monitoring dashboard
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
US7082381B1 (en) Method for performance monitoring and modeling
US7617313B1 (en) Metric transport and database load
EP2874064B1 (en) Adaptive metric collection, storage, and alert thresholds
US8270410B2 (en) Sampling techniques
US20060026467A1 (en) Method and apparatus for automatically discovering of application errors as a predictive metric for the functional health of enterprise applications
US7783605B2 (en) Calculating cluster availability
CN107992398A (zh) 一种业务系统的监控方法和监控系统
US7197428B1 (en) Method for performance monitoring and modeling
US8918345B2 (en) Network analysis system
US20080313507A1 (en) Software reliability analysis using alerts, asserts and user interface controls
WO2011017955A1 (zh) 一种告警数据分析的方法及其系统
WO2012142144A2 (en) Assessing application performance with an operational index
US10924364B2 (en) Elastic system monitoring
US10402298B2 (en) System and method for comprehensive performance and availability tracking using passive monitoring and intelligent synthetic transaction generation in a transaction processing system
US20080071807A1 (en) Methods and systems for enterprise performance management
US7752303B2 (en) Data reporting using distribution estimation