TWI344090B - Management of a scalable computer system - Google Patents

Management of a scalable computer system Download PDF

Info

Publication number
TWI344090B
TWI344090B TW094122583A TW94122583A TWI344090B TW I344090 B TWI344090 B TW I344090B TW 094122583 A TW094122583 A TW 094122583A TW 94122583 A TW94122583 A TW 94122583A TW I344090 B TWI344090 B TW I344090B
Authority
TW
Taiwan
Prior art keywords
node
scalable
tool
expandable
nodes
Prior art date
Application number
TW094122583A
Other languages
English (en)
Other versions
TW200622674A (en
Inventor
James J Bozek
Conor B Flynn
Deborah L Mcdonald
Vinod Menon
Paul A Skoglund
Tony W Offer
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW200622674A publication Critical patent/TW200622674A/zh
Application granted granted Critical
Publication of TWI344090B publication Critical patent/TWI344090B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/34Signalling channels for network management communication
    • H04L41/344Out-of-band transfers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)
  • Stored Programmes (AREA)
  • Multi Processors (AREA)
  • Debugging And Monitoring (AREA)

Description

1344090 九、發明說明: 【發明所屬之技術領域】 本發明係關於一種用於管理一可擴展電腦系統之工具。 更具體言之,該工具支援對該可擴展系統之每一組件及資 源之組態及管理。 【先前技術】 多處理器系統根據定義包括多個處理器(本文亦稱作 cpu),其能在單個程序中以稱作並行計算之方式同時執行 多個進程或多個執行緒。一般而言,多處理器系統在執行 多進程或執行緒時比順序執行程式之諸如個人電腦(pc)的 習知單處理器系統更快。該實際效能優勢為許多因素之函 數,其包括一多執行緒過程及/或多個不同過程之部分可 被並行執行的程度及要考慮的特定多處理器系統之架構。 個關鍵因素為存在於現代多處5里器中之快取記憶體。因 此,可藉由在CPU(其快取記憶體包括彼等進程及執行緒將 要使用之記憶内容)上執行進程及執行緒而最佳化效能。 現代多處理器電腦系統為一般包含複數個經由電纜互連 的節點的可擴展電腦系统。可擴屐電腦系統支援系統資源 之靜態或動態新增及/或移㊉。可擴展系統之益處為其適 應與系統之容量'組態及速度相關的變化。可將可擴展系 統加以擴展以達成對資源之更好的利用而不停止系統上應 用程式之執行。 可擴展多處理器計算系統可由硬體加以分割以使電腦上 的一貝源子集可為一特殊應用所用。一分割係能夠執行一 102827.doc ^44090 個作業系統映像之快取記憶體同調節點(eaehe coherent 如㈣的聚集。每—分割具有-*個主要節點及料可選次 * I即點。在一動態分割的系統中,在作業期間可將資源之 . I置重組態以更有效地執行應用程式。管理動態可分割可 擴展電腦系統係複雜的。若干先前技術解決方案提供對系 統資源之手動組態的支援。然而,此等解決方案不支援系 /資原之動態刀割。因此’系統資源之手動組態要求將受 _ 影響之資源臨時關閉直至重組態完成。 纟zalewski等人之美國專利第6,細,㈣號中提供了一種 .t前技術解決方案,其提議在-多分割電腦系統之分割間 的硬體資源之動態遷移。每一分割具有至少一處理写…己 •憶、體及1/0電路。分割中-些資源可指派至另一分割。使 用一藉由重指派一分割之資源至另-分割來致能一分,】之 動態重纪態的機制。硬體資源係基於自一分割至一第二分 割之清求而加以重指淚缺 ^ 然而,Zalewski等人受限於在_ 鲁乡分割計算系統之分割間遷移硬體資源,而未解決-分割 内負源之高階管理之問題。 ,此,-種提供可擴展電腦系統及系統資源之動態組離 及管理的工具係需要的。 心 【發明内容】 本發明包含一用於建立— 建立系統之功能的工具。 可擴展電腦系統及用於 管理所 在 法。 本發明之第一態樣 可擴展電腦系統自 中,提供一種管理電腦系統之方 —未指派之可擴展節點建立。此 I02827.doc 1344090 外,該系統内之可擴展功能以及該系統之分割内的可擴展 分割功能受到遠端管理。 在本發明之另-態樣中’在電腦可讀訊號承載媒體中提 供一物品。提供在該媒體中的用於自—未指派節點建立可 擴展系統之構件。此外,提供在該媒體中的用於遠端管理 可擴展工力能α及用於遠端管理該系統之割内之可擴展 分割功能的構件。
在本發明之另一態樣中,提供一電腦管理工具。該工具 包括-經調適成自-未指派節點建立可擴展電腦系統之協 調器。提供一遠端功能管理器以控制可擴展功能,且提供 一遠端分割管理器以控制可擴展分割功能。 、本發明之其它特徵及優勢自本發明之當前較佳實施例之 以下詳細描述連同附圖將變得顯而易見。 【實施方式】 概述 • 本發明針對一種提供可擴展電腦系統之綜合性硬體分割 g理的工具。該工具提供電腦系統中之所有節點之概觀, 其包括關於可擴展節點及可擴展分割之細節。該工具致能 一,作者自-未指派之可擴展節點建立可擴展電腦系統他 及嘗理可擴展分割功能。該工具利用服務處理器以判定哪 些即點為可擴展系統之一部分。基於一通信協定,可將在 所提供之時間段内回應一發現請求的節點新增至該系統。 在發現請求之後,該工具可確認系統中哪些埠在運作。自 該發現請求及/或埠之確認接收到的結果致能在該系統中 102827.doc 整合回應者。因此,該工具係致能可擴展電腦系統之 的單介面。 技術細節 圖1為展示在該可擴展電腦系統内管理工具(5)之實體位 置的圖(1 0)。系統中支援該工具之功能性的主要元件包括 一管理控制臺(20)、一管理伺服器(3〇)、一服務處理器(〗5) 及一在分割(40)中一節點上執行之作業系統。該管理控制 里(20)具有二個嵌入式工具:一系統發現工具(22)、一系 統確認工具(24)及一系統組態工具(26)。該等控制臺工具 (22)、(24)及(26)被展示為嵌入一實體上與管理伺服器(3〇) /刀離之控制臺(20)上。在一實施例中,控制臺(2〇)及伺服 器(30)可為兩個單獨之機器,或被合併入一個機器中。控 制臺工具(22)、(24)及(26)各自分別支援系統發現、系統確 認及分割管理。管理伺服器(3〇)包括一用來儲存分割資訊 之應用資料庫(38)及三個嵌入式工具組件:一分割管理工 具(32)、一用來啟用及禁用遠端1/()附件中之插槽的組態工 具(34)及一用來支援網路探測(ping)工作之發現及確認工 具(36)。伺服器之該等嵌入式工具組件為相應控制臺組件 提供支援基礎架構。嵌入伺服器之分割管理工具(32)與控 制臺之可擴展系統組態工具(22)協同作用。類似地,嵌入 伺服器之組態工具(34)與嵌入控制臺(2〇)之可擴展系統組 態工具(24)協同作用,且嵌入伺服器之發現及確認工具 (36)與嵌入控制臺(20)之可擴展系統發現及確認工具(26)協 同作用。每一分割與在其主要節點上的服務處理器(丨5)通 102827.doc 1344090 L在f施例中,具有多個分割之系統可包括多個服務 處理器,其中每個服務處理器促進與管理词服器⑽之通 L每”害J (40)經展不成包括一服務處理器設備驅動器 (42)及管理工具之代理⑽。該設備驅動器⑷)支援服務處 * sii(15)與分割(40)之間的通信。類似地該代理(44)支援 管理工具與分割(40)之間的通信。因此,管理工具包括欲 入系統之不同組件内 < 元件以致能自—遠端控制臺對此等 元件之控制。 如圖1所示,工具(5)之元件經展示為嵌入管理應用之伺 服器及控制臺内。在使用管理工具(5)之促進下,管理控制 臺(20)與伺服器(30)之間的通信為頻帶内的,意即經由内 部通信協定。類似地’自服務處理器(15)至系統中任何分 割(4〇)及自卫具(5)至,系統中任何分割(4〇)之通信為頻帶内 的。然而,自伺服器(3〇)至服務處理器(15)之所有通信皆 為頻帶外的,意即經由一外部通信協定。因此,分別嵌入 φ 控制臺及伺服器中之工具及應用程式提供所有元件以支援 對系統内節點及分割之管理。 圖2為展示管理工具之高階視圖及其怎樣管理分割及分 割功能的流程圖(70)。第一步驟要求電腦系統之硬體實體 連接至官理工具(72)。此後,組態該服務處理器以用於與 管理工具進行外部通信(74)。在一實施例中,此包括設定 每一服務處理器(15)之網際網路協定位址及在服務處理器 (15)上組態使用者識別符及相關密碼。一旦步驟(72)及 完成,啟動管理控制臺(20)(76),且發現電腦系統之實體 102827.doc 1344090 平臺(節點)(78)。在步驟(78)之發現期Fap可請求使用者供 應其識別符及相關密碼。在步驟(78)之後,進行測試以判 定該使用者識別符及相關密碼是否有效(80)。對步驟(8〇) 之測試的否定回應將導致使用者請求對電腦系統之先前發 現的實體平臺(節點)的存取權(82)。此請求可包括向伺服 器非揮發性隨機存取記憶體(NVRAM)詢問分割描述符。在 步驟(82)或對步驟(8〇)之測試的肯定回應之後進行隨後 之測試以判定系統内之可擴展元件是否已由分割中之基本 輸入/輸出系統(BIOS)或管理工具加以組態(84)。對步驟 (84)之測試的否定回應指示系統内可存在未由BI0S定義之 可擴展元件。在此情況下,如在圖3中詳細展示,執行一 發現功能以識別未定義之可擴展元件(86)。 在對步驟(84)之測試的肯定回應或完成步驟(86)之發現 工作之後,執行一確認工具以判定系統之該等組件的實體 連接(88)。圖4 s兒明該碟認工具之執行的細節。該確認工具 可在對步驟(84)之測試的肯定回應之後執行以判定任何可 擴展元件是否已受到重佈線。如圖5中詳細展示,在系統 發現及確認之後可使用該管理工具以組態分割。組態 分割之過程可包括建立一可擴展分割,將節點插入該分割 中及私派分割内一主要節點。此外,如圖8中詳細展示, 組態分割之過程可包括組態一遠端I/O附件。最後,如 圖6及7中詳細描述,可調用該管理工具以啟動及/或關閉 正由管理工具加以管理之分割(92)。因此,在發現可擴展 電腦系統之實體平臺之後,可調用該管理工具以建立及管 102827.doc -11 - 1344090 理可擴展電腦系統。 如圖2所示,由管理工具及應用程式支援之該等元件之 為系統發現工具。此工具與同其它節點實體連接(意 即,有線連接)的每一節點通信。圖3為說明使用發現工具 將一或多個節點新增至系統之過程的流程圖(丨〇〇)。在請求 發現電腦系統中節點(102)之後,管理伺服器(3〇)將一網路 铋測凊求發送至與被發現之節點通信之服務處理器並等待 φ 一回應(1 〇4)。經由一外部通信通道將該網路探測請求之内 邛通#自控制臺(20)傳輸至嵌入管理伺服器(3〇)中之發現 工具(3 6)。在一具有與不同節點通信之多個服務處理器的 系統中,經由外部通信通道將網路探測請求發佈至每一服 務處理器。在接收到網路探測請求後,該(等)服務處理器 將一網路探測(ping)發佈至與請求發佈網路探測(pin"之伺 服益實體連接的每一未鎖定之節點(丨〇6)。此後,進行—測 試以判定伺服器(30)是否自網路探測(ping)之接受節點接 • 收到回應(1〇8)。對步驟(108)之測試的否定回應指示在網 路探測(ping)之接收端不存在可新增至電腦系統的節點 (110)。然而,對步驟(108)之測試的肯定回應會導致將回 應的節點新增至系統(112)。對於新增至電腦系統之每一節 點,將回應網路探測(ping)之時間加以編譯(114)。可在被 为發現之系統以及需要組態之系統上使用發現工具。因 此,發現工具用來判定系統之拓撲及將回應節點新増至可 擴展系統。 ^ 除I現工具之外,忒應用程式包括一驗證工具以判定系 102827.doc -12· 1344090 統之節點中之埠的可用性。圖4為說明與系統發現操作相 聯繫而被新增至系統之每一節點之每一埠的確認操作之過 程的流程圖(150)。識別為系統之一部分的所有節點 (1 52) ’並識別將每—經識別之節點連接至系統中其它節點 之電纜(1 54)。對該等節點之識別可開始自發現工具操作之 完成。將呈網路探測(ping)形式之通信自管理伺服器(3〇) 發送至系統中所有經識別之通信埠(1 56)。該網路探測 (Ping)為雙向通信協定。期望接收網路探測之每一節 點之母一埠用一回應性網路探測(ping)來回應該管理器。 應注意首先執行所有網路探測(p㈣,錢加以確認。進 行一測試以判定管理器是否在一預定義的時間間隔内自一 經識別的埠接收到一回應性網路探測(ping)(i58卜若對步 驟(158)之測試的回應為否丨,則此指示該確認失敗 (160)。確認失敗可因為各種原因發生。舉例而言,若系統 為具有兩個處理器擴展模組之單節點系統,則佈線可限於 通信埠中之兩個。纟另―實例中,1應可係接收自並非 系統之-部分之節點,其中此回應將導致產生—錯誤訊 息。該確認過程驗證至通信埠之實體連#。切認失敗之 後,經由管理伺服器(30)將一錯誤訊息傳輸至管理控制臺 (20),指示指定通信埠之確認過程失敗(164)。或者若對步 驟(158)之測試的回應為肯定的,則此指示對經識㈣之確 認為成功的,意即該埠正在適當地運作.。㈣管理伺服器 (30)將訊息傳輸至管理控制臺(2〇) 1示對指定通信埠之 確說為成功的(162)。在確認成功或失敗之後,將進行每一 102827.doc 13 1344090 埠之確認的時間加以編譯,及產生一報告以將確認資訊傳 達至與發佈該研究之管理控制臺(20)通訊的操作者(164)。 在一實施例中,傳輸至管理器之每一訊息包括一時間間 隔,其指示自規定埠之確認開始直至其結束的經過時間。 在管理器接受到通過訊息抑或失敗訊息之後,為管理器產 生概括系統中每一埠之狀態的報告。因此,該確認過程判 定可擴展電腦系統之一節點或資源之每一通信埠之實體連 接。 官理器之主要元件之一係用以組態及/或管理多節點電 腦系統中之可擴展分割。圖5為說明組態可擴展電腦系統 内一分割之過程的流程圖(2〇〇)。第一步為啟動管理器控制 臺(202)。此後,操作者可在控制臺上檢視可擴展系統之經 提議的組態(204) ’接著建立一分割(2〇6)。一旦分割已建 立’操作者可自可擴展系統選擇節點及將其指派至該分割 (208)。操作者接著指定分割中該等節點之一為負責啟動該 分割之主要節點(2 10)。此後,進行一測試以判定電腦系統 中是否存在遠端I/O附件(212)。對步驟(2 12)之測試的肯定 回應將導致组態該遠端I/O附件以用於該分割4),如圖8 中詳細展示。然而,對步驟(212)之測試的否定回應或在步 驟(214)對遠端1/〇附件之組態之後,將分割組態資訊儲存 在官理伺服器上(216)。因此’組態一分割之過程包括自一 列先前發現之節點中選擇用於該分割之節點及指定彼等節 點之一為該分割中之主要節點。 在分割之建立及/或組態之後,可調用管理工具以控制 102827.doc -14- 1344090 至電腦系統内分割之電力的傳遞。圖6為說明啟動可擴展 糸統之分割之過程的流程圖(2 4 0)。如圖5詳細展示,僅可 在分割已被組態時起始此過程(242)。進行一測試以判定分 割是否具有指定為主要節點之節點(244)。對步驟(244)之 測試的否定回應將導致指定分割中該等節點之一為主要節 點(246)。在步驟(246)或對步驟(244)之測試的肯定回應之 後,提供一至主要節點上之服務處理器之連接(248)。此 後’進行另一測試以判定步驟(248)之連接是否成功 (25 0)。對步驟(25〇)之測試的否定回應將導致管理器將一 錯誤訊息轉發至操作者’指示主要節點與服務處理器之間 的連接不能建立(252)。然而,對步驟(25〇)之測試的肯定 回應將導致將一分割描述符儲存於服務處理器之非揮發性 隨機存取記憶體(NVRAM)中並將來自管理器之啟動指令轉 發至指定分割(254)。該分割描述符為該分割之描述,其包 括在可擴展系統及可擴展分割兩者中之節點數,分割中該 等節點、該等主要節點及遠端1/〇附件之唯一通用識別 符。在步驟(254)之後,進行一測試以判定至指定分割之啟 動指7疋否成功(256)。對步驟(256)之測試的否定回應指 不不此將電力提供至指定分割,且錯誤訊息被發送至在控 制臺之操作者(258)。然而,對步驟(256)之測試的肯定回 應指示分割之主要節點已啟動並開始作業(26〇)。因此,經 由使用服務處理器及指定分割中一節點為主要節點,管理 器可將指令傳輸至主要節點以啟動該指定分割。 與圖6相似,分割可自管理器接收關閉指令。圖7為說明 102827.doc 1344090 關閉電服系統中之分割之過程的流程圖(270)。僅可在分割 已被組態時起始此過程(272)。此後,進行一測試以判定該 分割是否具有經指定為主要節點之節點(274)。對步驟 (27句之測試的否定回應將導致指定分割中該等節點之一為 主要節點(276)。在步驟(276)或對步驟(274)之測試的肯定 回應之後’提供一至分割之主要節點上之服務處理器之連 接(278) »此後,進行另一測試以判定在步驟(278)之連接 是否成功(280)。對步驟(280)之測試的否定回應將導致管 理器將錯誤訊息轉發至操作者,指示主要節點與服務處理 器之間的連接不能建立(282)。然而,對步驟(280)之測試 的肯定回應將導致轉發指令至服務處理器以關閉該分割 (284)。此後,進行一測試以判定是否成功地執行關閉指令 (286)。對步驟(286)之測試的否定回應將導致管理器將錯 誤訊息轉發至操作者,指示關閉指令未執行(288)。或者, 對步驟(286)之測試的肯定回應將導致將訊息轉發至操作 者,指示關閉指令已執行(290)。因此,經由使用服務處理 器及指定分割中一節點為主要節點,管理器可將指令傳輸 至主要節點以關閉該分割。 可擴展電腦系統可包括一或多個遠端I/O附件(RI〇E)。 每一 RIOE可經由管理器遠端地加以組態。圖8為說明組態 一遠端RIOE之過程的流程圖(3〇〇) <=應注意,僅可在分割 已被組態時起始此過程(3〇2)。只要已判定該系統包括一經 組態之分割,就自該分割中的一列RIOE中選擇一 Ri〇E加 以組態(3〇4) 〇查看已選尺10£之當前組態(306)且將其設定 102827.doc 16 1344090 為已選RIOE之預設組態。每一 RIOE具有可用於一或多個 分割之兩組插槽(slot)。操作者自管理控制臺選擇要包括 在分割及相關分割描述符中之一或兩組插槽(3 〇 8)。作為選 擇要包含於分割中之該組插槽之過程的部分,亦選擇電纜 (3 1 0)。舉例而言,若使用者啟用組一之插槽,則附著於此 組之電纜亦將被選擇。在某些組態中,可能有冗餘佈線, 且在此情況下使用者必須選擇是使用該冗餘佈線還是僅使 用自R10E至節點的單一電纜。操作者查看如在步驟(3〇8) 及(310)中規疋之所選遠端1/〇附件組態(3 12)。將遠端1/〇組 態與分割儲存於管理伺服器(30)上(314),且該組態完成。 因此,操作者經由管理控制臺處所提供之指令可基於插槽 組與電腦系統之實體連接而將遠端1/〇附件之插槽組遠端 指派給一或多個分割。 較之先前技術之優勢 基於工作負荷狀態,可將節點及系統資源新增至或移除 •自一電腦系統或系統内之一分割。新增或移除節點或其它 系統資源之過程可靜態或動態地進行。管理工具利用服務 處理器以致能對系統資源之擴展控制。該管理工且支援自 -遠端控制臺管理電腦系統及/或電腦系統内之資源。 替代實施例 應瞭解儘管本發明之鸦;& . 0 Λ 之特殊貫施例為說明之目的在此已加 以描述,但是在不偏離本發 精神及範疇之情況下可作 各種〇改。詳言之,該管理系έ先之掐& 吐&咖Μ 1 示、死之細作者可用自經指定 接收網路权測(ping)之節點 千按收通訊回應的一預定 102827.doc 5限組態發現及驗證工具。若在發現工具之初始通信中 指定之節點未在設定時限内回應,則自節點接收之遲到的 回應將不能使節點加人系統。類似地,藉由發現工具而被 新增至系統的節點之埠若對確認工具通訊提供一延遲的回 應,則將不會被作為運作巾料新增料理卫具卜此 外S理工具可包括事件處置器及動作事件處置器以支援 基於規則之分割故障解決(fai丨。叫。舉例而言,事件過遽 器可為分割提供所要的作業範圍,且事件處置器可建構可 由管理工具在分割故障解決事件發生時實施之預定義動 作因此,本發明之保護範疇僅由以下申請專利範圍及其 等效物加以限制。 【圖式簡單說明】 圖 囷1為根據本發明之較佳實施例之電腦管理工具的方塊 ,且建議將其列印在所發佈之專利的第一頁上。 圖 圖2為說明該管理 工具之元件之功能性 之概觀的流程 圖3為說明發現系統組件之過程的流程圖。 圖4為說明系統組件之確認過程的流程圖。 圓5為說明組態一分割之過程的流程圖。 圖6為說明將電力傳遞至―系統組件之過程的流程圖。 圓7為說明自一系統組件移除電力之過程的流程圖。 圓8為說明組態一遠端1/〇附件之過程的流程圖。 【主要元件符號說明】 管理工具 I02827.doc -18- 1344090 ίο 圖 15 服務處理器 20 管理控制臺 22, 24 可擴展系統組態工具 26 可擴展系統發現及確認工具 30 管理伺服器 32 分割管理工具 34 組態工具 36 發現及確認工具 38 應用資料庫 40 分割 42 設備驅動器 44 代理
102827.doc -19-

Claims (1)

1344090
'第094122583號專利申請案 \ 令文申請專利範圍替換本(99年U月) , 十、申請專利範圍: 1· 一種用於電腦管理之方法,其包含: 自複數個未指派之可擴展節點建立一可擴展多節 - 腦系統; 玉 自該等可擴展節點遠端建立多個硬體分割’其中I 硬體分割係多個快取記憶體同調節點之一聚集; 透過在該多節點系統外部之一管理伺服器以管理垓/ 統中之一可擴展功能;及 系 透過用於每一分割之至少一服務處理器以動態管理該 系統之該等硬體分割内之一可擴展分割功能。 2.如印求項丨之方法,其中該可擴展功能係選自一群組可 擴展功能,該群組由以下組成:將一可擴展節點插入該 可擴展系統中;自該可擴展系統移除H占;發現該可 擴展系統之拓撲;確認該可擴展系統之佈線;及以上之 組合。 3 ·如請求項1之方、、表 $之万去’其中該可擴展分割功能包括一遠端 I/O附件之組態。 4·如明求項1之方法,其中管理一可擴展分割功能之該步 驟包括與一預定義事件相結合之自動分割故障解決。 5 _ 如請求jg 1 、之方去’進一步包含發現該可擴展系統之拓 6 _如》請求碩5之方、、表 ^ 、 击’其中發現拓撲之該步驟包括自對與 ^歧分割中之該等節點之至少—者通信之—服務處理 月求服知發佈一網路探測(ping),且該服務處理 102827-991129.doc ^44090 點之該網路、 器管理對與該請求服務通信之每一未鎖定節 探測之發佈。 P
如請求項6之方法,其中建立一可擴展奉 j倾饮糸統之該步驟包 括忒網路探測(pinging)節點及回應該網路探測(pingh 節點之每—可擴展節點。 8 g) 8 ‘ 如請求項7之方法,進 線。 一步包含確認該可 擴展系統之佈 9‘如請求項8之方法’其中確認佈線之該步驟包括向該可 擴展系統中所有節點之所有埠發佈一網路探測(p丨n g) ^ 10.如請求項5之方法,進一步包含在發現該系統之拓撲之 後發佈一發現報告。 11 一群組中選 點之發現的 如請求項10之方法,其中該發現報告包括自 擇之資料,該群組由以下資料組成:每—節 成功或失敗之指示、發現的時間、及以上之組合。 12·如請求項8之方法,進一步包含在驗證該等埠之佈線之 後發佈一確認報告。 13.如請求項12之方法,其中該確認報告包括自一群組中選 擇之資料,該群組由以下資料組成:網路探測(ping)0 應確認、每一埠之確認成功或失敗之指示、確認時間、 及以上之組合D 1 4. 一種電腦程式產品,其包含: —電腦可讀訊號承載媒體; 该媒體中用於自複數個未指派節點建立一可擴展多節 點電腦系統之構件; 102827-991129.doc 1344090 該媒體中用於自該 割之構件,其t每一 點之一聚集; 等可擴展節點遠端建立多個硬體分 硬體分割係多個快取記憶體同調節 时該媒體中用於透過在該多節點系統外部之—管理伺服 益以動態管理該系統中之—可擴展功能之構件;及 ,該媒體中用於透過用於每一分割之至少—服務處理器 以動態官理該系統之該等硬體分割内之—可擴展分割功 能0 15. 16. 如請求項14之產品’其中該媒體係選自由以下各物組 之群组:-可記錄資料儲存媒體及一經調變載波訊號 成 如請求項14之產品,其中該可擴展功能係選自一群組可 擴展功能’該群組由以下組成:將—可擴展節點插入該 可擴展系統中;自該可擴展系統移除—節點;發現該可 擴展系統之拓撲;確認該可擴展系統之佈線,·及以上之 組合。 Π.如請求項14之產品,其中該可擴展分割功能包括一遠端 I/O附件之組態。 18.如請求項14之物品,其中用於管理一可擴展分割功能之 該構件包括與一預定義事件相結合之自動分割故障解 決。 19. 如請求項14之產品,進一步包含該媒體中用於發現該系 統之拓撲之構件。 20. 如請求項19之產品,其中用於發現系統拓撲之該構件包 括自對與該硬體分割中之該等節點之至少一者通信之一 I02827-991129.doc 1344090 服知處理器之一請求服務發佈一網路探測(ping),且該、 服務處理器管理對與該請求服務通信之每一未鎖定節點 之該網路探測之發佈。 21. 士明求項20之產品,其中該媒體尹用於建立一可擴展系 統之該構件包括將該網路探測(Pinging)節點及每—可擴 展回應郎點置入該系統中。 22. 如呀求項21之產品,進一步包含該媒體中用於確認該可 擴展系統之佈線的構件。 23. 如5奢求項22之產品,其中用於確認該可擴展系統之佈線 的5玄構件包括向該系統中所有節點之所有埠發佈一網路 探測(ping)。 24. 如请求項19之產品,進—步包含該媒體中用於在發現該 系統之拓撲之後發佈一發現報告的構件。 25. 如凊求項24之產品,其中該發現報告包括自一群組中選 擇之資料,該群組由以下資料組成:每一節點之發現成 功或失敗之指示、發現時間、及其組合。 26. 如晴求項22之產品’進—步包含該媒體中用於在驗證該 等埠之佈線之後發佈一確認報告的構件。 27. 如請求項26之產品,其中該確認報告包括自—群組中選 擇之資料,該群組由以下資料組成:網路探測(㈣)回 應確認 '每埠之確認成功或失敗之指示、確認時間、 及以上之組合。 28· —種電腦管理工具,其包含: —協調器’其經調適以自一多節點電腦系統中之該等 102827-99ll29.doc -4- 1344090 可擴展郎點退端建立多個硬體分割’其中每一硬體分宝|J 係多個快取記憶體同調節點之一聚集: 一可擴展功能,其經調適以透過在該多節點系統外部 之一管理伺服器而被控制;及 該系統之該等硬體分割内之一可擴展分割功能,該功 能經調適以透過用於每一分割之至少一服務處理器而被 動態地控制。 29.如請求項28之工具,其中該可擴展功能係選自一群組可 擴展功能,該群組由以下組成:將一可擴展節點插入該 可擴展系統中;自該可擴展系統移除一節點;發現該可 擴展系統之拓撲;確認該可擴展系統之佈線;及以上之 組合。 3〇‘如請求項28之工具,其中該可擴展分割功能包括一遠端 "0附件之組態。 3 1.如請求項28之工具,其中該服務處理器進行與一預定義 事件相結合之自動分割故障解決。 32.如請求項28之工具,進一步包含一經調適成判定該系統 之成員節點之拓撲發現工具。 3 3.如印求項3 2之工具,其中该拓撲發現工具自對與該硬體 分割中之該等節點之至少一者通信之一服務處理器之— 請求服務發佈一網路探測(ping),且該服務處理器管理 對與該請求服務通信之每一未鎖定節點之該網路探測之 發佈。 34.如請求項32之工具,進一步包含確定該系統之佈線之— 102827-99 \ 129.doc 1344090 35 36. 37. 38. 统中所有節 點判定之後 確認工具D 月长項32之工具,其中該確認工具向該系 ,έ之所有埠發佈一網路探測(phg)。 士哨求項32之工具,進—步包含在該成員節 發佈之—拓撲發現報告。 如請求項36之工具,其中該拓撲發現報告 中選擇之資料’該群組由以下資料組成一群、’且 現的成功或失敗之指示、發現的時間、及r:節點之發 如請求項34之工具,進一步包含在哕U上之組合。 佈的—確認報告。 人線之確定之後發 102827-991129.doc -6 -
TW094122583A 2004-07-09 2005-07-04 Management of a scalable computer system TWI344090B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/888,766 US20140067771A2 (en) 2004-07-09 2004-07-09 Management of a Scalable Computer System

Publications (2)

Publication Number Publication Date
TW200622674A TW200622674A (en) 2006-07-01
TWI344090B true TWI344090B (en) 2011-06-21

Family

ID=35542586

Family Applications (1)

Application Number Title Priority Date Filing Date
TW094122583A TWI344090B (en) 2004-07-09 2005-07-04 Management of a scalable computer system

Country Status (3)

Country Link
US (1) US20140067771A2 (zh)
CN (1) CN1719415A (zh)
TW (1) TWI344090B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8167722B2 (en) * 2005-05-11 2012-05-01 Qualcomm Atheros, Inc Distributed processing system and method
US9455844B2 (en) * 2005-09-30 2016-09-27 Qualcomm Incorporated Distributed processing system and method
US8255369B2 (en) * 2005-11-30 2012-08-28 Oracle International Corporation Automatic failover configuration with lightweight observer
US8687487B2 (en) * 2007-03-26 2014-04-01 Qualcomm Incorporated Method and system for communication between nodes
US8180862B2 (en) * 2007-08-30 2012-05-15 International Business Machines Corporation Arrangements for auto-merging processing components
US8023434B2 (en) * 2007-09-18 2011-09-20 International Business Machines Corporation Arrangements for auto-merging and auto-partitioning processing components
US8161393B2 (en) * 2007-09-18 2012-04-17 International Business Machines Corporation Arrangements for managing processing components using a graphical user interface
CN101840314B (zh) * 2010-05-05 2011-08-17 北京星网锐捷网络技术有限公司 扩展数据库存储空间的方法及装置、服务器
CN102006193B (zh) * 2010-11-29 2012-07-04 深圳市新格林耐特通信技术有限公司 一种snmp网管系统对网络拓扑结构自动布局的方法
US20130311386A1 (en) 2012-05-18 2013-11-21 Mehdi Tehranchi System and method for creating and managing encapsulated workflow packages
US20150067144A1 (en) * 2013-09-03 2015-03-05 Stephen Kent Scovill Method and System for Detecting Network Printers without Prior Knowledge of Network Topology
US9886083B2 (en) 2014-12-19 2018-02-06 International Business Machines Corporation Event-driven reoptimization of logically-partitioned environment for power management
CN106123943B (zh) * 2016-07-15 2019-05-21 苏州西斯派克检测科技有限公司 一种基于工业以太网的柔性在线检测系统
CN112867989B (zh) * 2018-09-04 2024-07-02 阿韦瓦软件有限责任公司 基于流的组成以及监视服务器系统和方法
CN117312215B (zh) * 2023-11-28 2024-03-22 苏州元脑智能科技有限公司 一种服务器系统、作业执行方法、装置及设备和介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US120751A (en) * 1871-11-07 Improvement in paints
US130833A (en) * 1872-08-27 Improvement in apparatus for containing and measuring oils
US37435A (en) * 1863-01-20 Improvement in screw-nuts
US29358A (en) * 1860-07-31 Improvement in steam-plows
US195942A (en) * 1877-10-09 Improvement in shipping-cans
US178262A (en) * 1876-06-06 Improvement in gas-burners
CA1143812A (en) * 1979-07-23 1983-03-29 Fahim Ahmed Distributed control memory network
US5197130A (en) * 1989-12-29 1993-03-23 Supercomputer Systems Limited Partnership Cluster architecture for a highly parallel scalar/vector multiprocessor system
WO1995004968A1 (en) * 1993-08-03 1995-02-16 Forte Software, Inc. Flexible multi-platform partitioning for computer applications
US6260068B1 (en) * 1998-06-10 2001-07-10 Compaq Computer Corporation Method and apparatus for migrating resources in a multi-processor computer system
US6199179B1 (en) * 1998-06-10 2001-03-06 Compaq Computer Corporation Method and apparatus for failure recovery in a multi-processor computer system
US6038651A (en) * 1998-03-23 2000-03-14 International Business Machines Corporation SMP clusters with remote resource managers for distributing work to other clusters while reducing bus traffic to a minimum
US6779016B1 (en) * 1999-08-23 2004-08-17 Terraspring, Inc. Extensible computing system
US6529953B1 (en) * 1999-12-17 2003-03-04 Reliable Network Solutions Scalable computer network resource monitoring and location system
US6801937B1 (en) * 2000-05-31 2004-10-05 International Business Machines Corporation Method, system and program products for defining nodes to a cluster
US6640272B1 (en) * 2000-08-31 2003-10-28 Hewlett-Packard Development Company, L.P. Automated backplane cable connection identification system and method
US6681282B1 (en) * 2000-08-31 2004-01-20 Hewlett-Packard Development Company, L.P. Online control of a multiprocessor computer system
US6738871B2 (en) * 2000-12-22 2004-05-18 International Business Machines Corporation Method for deadlock avoidance in a cluster environment
US7263552B2 (en) * 2001-03-30 2007-08-28 Intel Corporation Method and apparatus for discovering network topology
US6839824B2 (en) * 2001-12-28 2005-01-04 Hewlett-Packard Development Company, L.P. System and method for partitioning a storage area network associated data library employing element addresses
US6715031B2 (en) * 2001-12-28 2004-03-30 Hewlett-Packard Development Company, L.P. System and method for partitioning a storage area network associated data library
US7457847B2 (en) * 2002-01-02 2008-11-25 International Business Machines Corporation Serial redirection through a service processor
US7024483B2 (en) * 2002-04-29 2006-04-04 Sun Microsystems, Inc. System and method for topology manager employing finite state automata for dynamic cluster formation
US7139925B2 (en) * 2002-04-29 2006-11-21 Sun Microsystems, Inc. System and method for dynamic cluster adjustment to node failures in a distributed data system
US7035858B2 (en) * 2002-04-29 2006-04-25 Sun Microsystems, Inc. System and method dynamic cluster membership in a distributed data system
US7047286B2 (en) * 2002-06-13 2006-05-16 International Business Machines Corporation Method of modifying a logical library configuration from a remote management application
US6857011B2 (en) * 2002-10-31 2005-02-15 Paragon Development Systems, Inc. Method of remote imaging
US7979548B2 (en) * 2003-09-30 2011-07-12 International Business Machines Corporation Hardware enforcement of logical partitioning of a channel adapter's resources in a system area network

Also Published As

Publication number Publication date
CN1719415A (zh) 2006-01-11
US20060010133A1 (en) 2006-01-12
TW200622674A (en) 2006-07-01
US20140067771A2 (en) 2014-03-06

Similar Documents

Publication Publication Date Title
TWI344090B (en) Management of a scalable computer system
US8584127B2 (en) Storage medium storing job management program, information processing apparatus, and job management method
US9244817B2 (en) Remote debugging in a cloud computing environment
CN107209710B (zh) 节点系统、服务器设备、缩放控制方法和程序
WO2020062131A1 (zh) 一种基于区块链技术的容器云管理系统
CN108681777B (zh) 一种基于分布式系统的机器学习程序运行的方法和装置
CN110224860B (zh) 负载均衡应用创建方法、装置、计算机设备及存储介质
CN110661647A (zh) 一种生命周期管理方法及装置
JP2007115246A (ja) ソフトウェアによって使用される資源を動的に割り当てるための方法及び装置
TW200412736A (en) Dynamic binding and fail-over of comparable web service instances in a services grid
CN110069365B (zh) 管理数据库的方法和相应的装置、计算机可读存储介质
CN109002263B (zh) 存储容量的调整方法及装置
CN112035062B (zh) 云计算的本地存储的迁移方法、计算机设备及存储介质
JP2015049876A (ja) テストシステムおよび方法
CN115150464A (zh) 应用代理方法、装置、设备及介质
CN109426544A (zh) 虚拟机部署方法和装置
JP5493976B2 (ja) 情報処理装置、計算機システム及びプログラム
CN113746641B (zh) 一种基于分布式存储的odx协议处理方法
CN114979286A (zh) 容器服务的访问控制方法、装置、设备及计算机存储介质
JP2010113617A (ja) クラスタシステム制御プログラム、クラスタシステム、クラスタシステム制御方法
CN117650974A (zh) 基于网卡故障切换的通信方法、存储介质及计算机设备
JP5609527B2 (ja) ネットワーク仮想化システム、ノード、ネットワーク仮想化方法、及び、ネットワーク仮想化プログラム
CN111506388B (zh) 容器性能探测方法、容器管理平台及计算机存储介质
JP2004318578A (ja) 情報処理システム
JP2008021198A (ja) 計算機システム、管理計算機、及び計算機選択方法

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees