TWI338232B - High performance computing system and method - Google Patents

High performance computing system and method Download PDF

Info

Publication number
TWI338232B
TWI338232B TW094111492A TW94111492A TWI338232B TW I338232 B TWI338232 B TW I338232B TW 094111492 A TW094111492 A TW 094111492A TW 94111492 A TW94111492 A TW 94111492A TW I338232 B TWI338232 B TW I338232B
Authority
TW
Taiwan
Prior art keywords
hpc
node
switch
motherboard
nodes
Prior art date
Application number
TW094111492A
Other languages
English (en)
Other versions
TW200619972A (en
Inventor
James D Ballew
Gary R Early
Original Assignee
Raytheon Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=34711924&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=TWI338232(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Raytheon Co filed Critical Raytheon Co
Publication of TW200619972A publication Critical patent/TW200619972A/zh
Application granted granted Critical
Publication of TWI338232B publication Critical patent/TWI338232B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/22Microcontrol or microprogram arrangements
    • G06F9/28Enhancement of operational speed, e.g. by using several microcontrol devices operating in parallel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4022Coupling between buses using switching circuits, e.g. switching matrix, connection or expansion network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/10Program control for peripheral devices
    • G06F13/12Program control for peripheral devices using hardware independent of the central processor, e.g. channel or peripheral processor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8007Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
    • G06F15/803Three-dimensional arrays or hypercubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Stored Programmes (AREA)
  • Computer And Data Communications (AREA)

Description

1338232 九、發明說明: t發明戶斤屬之技術領域3 發明領域 概略言之,本揭示係有關資料處理領域,特別係有關 5 一種高效能運算系統及方法。 Γ先前治L袖^ 3 發明背景 高效能運算(Η P C)經常係由科學家及工程師使用運算 系統對複雜的實體現象或演繹法則現象進行模型化、模 10 擬、與分析,來加以決定特徵。目前,HPC機器典型係使 用一或多個稱作為節點之處理器組成之大量HPC叢集而設 計。對大部分大型科學應用及工程應用而言,效能主要係 由並列擴充性決定,而非由個別節點之速度決定;因此, 擴充性經常係此種高效能叢集建置上或購買上的限制因 15 素。擴充性之考量一般係以下列為基準:i)硬體;i i)記憶體、 輸出入(I/O)裝置、及通訊頻寬;iii)軟體;iv)架構;及v)應 用程式。在大部分習知HPC環境中,處理、記憶體、及I/O 頻寬經常平衡得不夠良好,因而無法充分擴充。許多HPC 環境不具有I/O頻寬來滿足高階資料處理需求,或許多HPC 20 環境係以安裝有過量不必要之組成元件之刀鋒(blades)建 置,結果導致系統之可靠度大減。如此,多種HPC環境無 法提供可於製造導向環境中有效操作的強勁的叢集管理軟 【發明内容】 5 發明概要 本揭示提供一種高效能運算(HPC)節點其包含一主機 板、包含八埠或八埠以上整合於該主機板之一交換器,以 及可挺作來執行高效能運算(HPC)工作之至少二處理器,各 處理器係通訊式耦接至該整合式交換器且整合於該主機板 上。 本發明有若干重要技術優勢。例如本發明之一項可能 優勢為,經由至少部分減少、分散 '或消除集中式切換功 此,可提供較大輸入/輸出(I/O)效能,或許可提供高達習知 HPC頻寬之4至8倍頻寬。確實若干具體例中,1/〇效能接近 等於處理器效能。如此平衡良好之辦法對通訊上之額外管 理"貝料1較不敏感。如此,本發明可提高刀鋒(blade)及整 體系統效能。另一項可能之優勢係縮短互連結構的延遲。 此外,本發明比較習知刀鋒更容易擴充、更可靠、且具有 更高錯誤容許度。又另一項優勢係,降低Hpc伺服器製造 上之相關成本,該成本可能轉嫁給大學與工程實驗室,及/ 或降低進行HPC處理上之相關成本。本發明進一步允許管 理軟體至少部分_於平衡架構,因而更強勁且更有效。本 發明之各具體例不具有此等優勢,具有若干、或具有全部 此等優勢。其它本發明之技術上優勢對熟諳技藝人士顯然 胃易明。 圖式簡單說明 為求更完整瞭解本揭示及其優點,現在參照後文說明 連同附圖說明如後,附圖者: 1338232 第1圖顯示根據本揭示之>具體例,一種範例高效能運 算系統; 第2 A - D圖顯示於第1圖之系統之格網之各個具體例及 其用途; 5 第3A-C圖顯示於第1圖之系統之個別節點之各個具體 例; 第4A-B圖顯示根據第1圖之系統,圖形使用者介面之各 個具體例; 第5圖顯示根據第1圖之系統,叢集管理軟體之一具體 10 例; 第6圖為流程圖,顯示根據第1圖之高效能運算系統, 一種提交一批次式工作之方法; 第7圖為流程圖,顯示根據第1圖之高效能運算系統* 一種動態回填格網之方法;以及 15 第8圖為流程圖,顯示根據第1圖之高效能運算系統, 一種動態管理一節點故障之方法。 ί:實施方式:J 較佳實施例之詳細說明 第1圖為方塊圖,顯示使用HPC技術來執行軟體應用程 20 式及處理程序,例如執行大氣、氣候、或墜毀模擬之高效 能運算(HPC)系統100。系統100對使用者提供於各個運算節 點115間動態配置之Η P C功能,I / Ο效能實質上係類似處理效 能。通常此等節點115由於輸入/輸出(I/O)效能的增高以及 組織結構延遲的縮短,因此容易擴充。例如於分散式架構 7 之節點115之擴充性可以安達爾氏法則(Amdahl’s law)之導 數表示: S(N)=l/((EP/N)+FS)*(i-Fc*(l-RR/L)) 此處S(N)=N個處理器之加速,Fp=並列節點之分量, Fs=非並列節點之分量,Fc=用於通訊之處理分量,以及 RR/L=遠端/近端記憶體頻寬比15因此經由HPC系統100提供 實質上等於處理效能或接近處理效能之I/O效能,HPC系統 100可提高HPC應用用途之總體效率,允許系統之行政管理 更為容易。 HPC系統100為分散式負/主系統,其允許使用者(例如 科學家及工程師)於HPC伺服器102進行工作15〇之處理。例 如,系統100可包括HPC祠服器102,其係經由網路丨〇6而連 結至-或多個行政I作站或本地客端12Ge但系統1〇〇可為 孤立運算環境或為任何其它適當環境。簡言之,系統1〇〇為 你何HPC運算環境,其包括高度可擴充之節點ιι5,且允許 使用者提交H50,將可擴充之節點115動態配置於工作 以及使用配置之節點115來動態執行工作15〇。工作15〇 可為任何可使用HPC技術處理操作之批次卫作或線上工作 2由任何適當使膽提交之工作。例如工作i5Q可為模擬 =、模型、餘何其它高效能要求。工作⑼也可為請求 ^丁-資料中心應用程式,諸如叢集化資料庫、線上 二理!統、或叢集化綱服器。如此處使用「動態I、-表不某些處理於回合時間方面,至少部分係基於-3夕項變數而決定3如此處使用,「自動」_詞通常表示適 1338232 當處理實質上係經由至少部分咖系統ι〇〇而進行。須瞭解 「自動」進-步包含任何適當制者或行政f理者與系統 100之互動,而未悖離本揭示範圍。 Η P C祠服器1〇 2包含可使用多數平衡節點丨丨5及叢集管 5理引擎130可操作來處理工作15〇之任何本地電腦或遠端 電腦。通常HPC飼服器1〇2包含分散式電腦諸如刀鋒伺服器 (Made se而)或其它分散式㈣器。但就組態結構而言,飼 服器102包括多數節點115。節點115包含任何電腦或處理裝 置諸如刀鋒、通用個人電腦(PC)、麥金塔電腦、工作站、 10基於Unix之電腦、或任何其它適當裝置。通常第丨圖僅提供 可用於本揭示之電腦實例。例如,雖然第,顯示可用於本 揭示之伺服器102,但系統丨00可使用伺服器以外之電腦以 及伺服器區(server pool)實作。換言之,本揭示涵蓋通用電 腦以外之電腦、及不含習知操作系統之電腦。如本文件使 15用’「電腦」一柯意圖涵蓋個人電腦' 工作站、網路電腦、 或任何其它適當處理裝置。HPC伺服器102或組成節點115 適合執行任何操作系統,包括Linux、UNIX、Windows祠服 器、或任何其它適當操作系統《根據一具體例,HPC伺服 器102也包括遠端網路伺服器或可以通訊方式耗接遠端網 20 路伺服器。因此伺服器102包含任何具有軟體及/或硬體之 任一種組合之電腦,其適合用於動態配置節點115來處理 HPC工作 150。 於高階,HPC伺服器102包括一管理節點1〇5、包含多 個節點115之一格網(grid) 110及叢集管理引擎130。特別, 9 1338232 伺服器102可為標準19吋框架,’包括多個刀鋒(節點115),且 有部分或全部以下各組成元件:i)雙重處理器;ii)大型高頻 寬記憶體;Hi)雙主機通道配接器(HCA) ; iv)整合式組織結 構交換器;v)FPGA支援;以及vi)冗餘電源輸入或N+1電源 5 供應器。此等各項組成元件允許讓故障侷限於節點層級。 但須瞭解HPC伺服器102及節點115玎未包括全部此等組成 元件。 管理節點105包含專用於管理或輔助行政管理者之至 少一個刀鋒。舉例言之,管理節點105可包含二刀鋒,二刀 10 鋒之一為冗餘(諸如主動/被動組配結構)。一具體例中,管 理節點】05可為與HPC節點115同型刀鋒或運算裝置。但管 理節點105可為任何節點,包括任何數目之電路且以任一種 適當方式組配之節點,只要維持可操作來至少部分管理格 網110即可。經常管理節點105於實體上或邏輯上係與多個 15 HPC節點1]5結合表示於格網110。該具體實施例中,管理 節點105可透過鏈路108而通訊式耦接至格網110。鏈路108 可包含可實作任何適當通訊協定之任何通訊回路。一具體 例中,鏈路108包含管理節點105與格網110間之十億位元或 10十億位元乙太網路通訊。 20 格網110為互連來提高處理功率之一組節點115。典型 地,格網110為三維圓環(3D Torus),但也可為網格、超方 塊、或任何其它形狀或組態配置,而未悖離本揭示之範圍 。格網110之各個節點115間之鏈路可為串列類比鏈路或並 列類比鏈路、數位鏈路、或任何其它型別之可傳輸電氣信 10 1338232 號或電磁信號之鏈路,諸如光纖或魄線。各個節點ιι5組 配有-整合式交換器。如此,允許節點1]5更容 圓環的基本組成,且輔助縮短其它節點⑴間之χγζ距離。 此外’如此銅佈線可以高達十億位元之速率用於大型系統 ,若干具體例中,最長纜線係少於5米,簡言之,節點115 通常對最接近之相鄰通訊以及較高1/〇頻寬調整為最佳化。 各個節點115包括一個叢集代理器132,其係通訊式搞 接叢集管理引和通常,代理器132接收來自管理節點 1〇5及/或叢好則擎13G之請錢命令。代㈣⑴可包 括任何硬體、㈣、_、或其組合,討操作來決定節 點115之實體狀態,且通訊處理後之資訊例如經由「心搏」 後之f訊給管理節點1〇5。另-具體例中,管理節 Γ 輪詢代理器132來決定相關聯之節副之狀 15 I代理Hl32可以任—種適當電腦語言寫成,該等電腦語 如C語言、c++語言 '組合語言、爪哇語言、虛擬基 本μ、及其它語言、或其任-種組合,只要代理器132维 持與至少部分叢集管理引擎13〇可相容即可。 20 =集管理引擎130可包括任—種硬體、軟體、㈣、或 …、“,其可操作來動態配置與管理節點U5,以及使用節 來執行卫作⑼。例如叢集管理”⑼可以任一種適 =電腦語言書寫或敘述,該等電腦語言包括C語言、C++語 :、爪唾語言、虛擬基本語言、組合語言、飢之任何適 纽本、以及其它語言或其任1組合。須瞭解雖然叢集 官理引擎13G於第1圖係以單—多任務型模組來舉例說明, 11 但由此種”所執行之特色及魏可藉多麵 1 等模組例如實體層槿έ p g # Λ1 έΛ ⑽ 工作排程器、及呈 J (第圖顯示其進4細節)。此外雖然於圖中顯示 1理即點105外部,但管理節點1〇5典 引擎130相關聯之1多珀虐㈣“ 丁興《集“里 ^項處_序’且Μ存叢集管理引 y ’叢集管理引擎13G可為另_軟體模組之子模 =次模組’而未,轉本揭示之範圍。因此叢集管理引擎 包含可智慧型管理節點U5及工作丨5〇之一或多個軟體 柷組。 /服②1G2包括介讀,來於f主環境或其它分散式 =竟中,透過網路1G6而與其它電__如客端12〇通訊 /干/、體例t词服器!〇2由網路1〇6接收工作】5〇或工作 朿略用來儲存於碟片場(縫14〇。碟片場刚也可使 用互連各個節點之相同寬頻介面來直接連結至運算陣列。 、。㊉/1面104包合以適當組合以軟體及/或硬體編碼之邏 輯’且可操作來與網路106通訊。特別,介面104包含支援 與通訊網路】06相關聯之一或多項通訊協定之軟體 ,或介面 104包含可操作來通訊實體信號之硬體。 2 ’周路106可輔助電腦伺服器102與任何其它電腦諸如客 端U0間之無線通訊或有線通訊。確實,雖然網路肌於圖 中…員不為駐在伺服器1〇2與客端120間,但網路106也可駐在 =即點115間’而未·障離本揭示之㈣。換言之,網路1〇6 任何可操作來輔助各個運算組成元件間之通訊之任何 周路^數網路、或次網路。網路1G6例如可介於各個網址 12 1338232 間通訊例如網際網路協定(ip)封包、訊框傳送(Frame Relay) 訊框、異步傳輸模型(ATM)單元、語音、視訊、資料及其它 適當資訊。網路106包括一或多個區域網路(LAN)、無線存 取網路(RAN)'都會區域網路(MAN)、廣域網路(WAN)、稱 5作為網際網路之全球電腦網路之全部或部分、及/或於一或 多個位置之任何其它通訊系統。 通常碟片%140為儲存工作15〇、側繪圖、開機影像、 或其它HPC資訊之任何記憶體、資料庫'或儲存區網路(湖) 。根據所示之具體例,碟片場14〇包括—或多個儲存客端142 1〇。碟片場140可根據多項通訊協定之任—者,來處理資料封 包及路由資料封包’該等通訊協定例如為無線頻寬(ib)協定 、十億位元乙太網路(GE)協定、或光纖通道(Fc)協定。資 料封包典型係用來於碟片場14〇内部傳輸資料…個資料封 包包括-標頭,該標頭有一來源識別符以及—目的地識別 15符。來源識別符例如為來源網址,來源識別符可識別資訊 發送者;目的地識別符例如目的地網址,可識別資訊之接 收者。 客端120為可透過使用者圖形介面(Gui) 126對使用者 呈現-工作提交畫面,或可操作來進行行政管理之任何裝 20置。於高階’圖示之客端12〇包括至少⑽126,以及包: 電子運算裝置,其可操作來接收、發送、處理、以及儲存 任何與系統100相關聯之適當資料。須瞭解可有任何數目之 客端120搞接至伺服器1〇2。此外「客端12〇」及「客端⑽ 之使用者」可視情況而互換使用,並未惊離本揭示之範圍 13 1338232 。此外’為求方便舉例說明’各個客端係以由-位使用者 使用來說明。但本揭示涵蓋多數使用者使用同一部電腦來 以相同GUI 126通訊多項工作I%。 如本揭不使用’客端12〇意圖涵蓋個人電腦、觸控營幕 5終端裝置、工作站、網路電腦、資訊服務站、無線資料蜂 '行動電話、個人資料助理器(PDA)、此等裝置或其它裝置 内部之-或多種處理器、或任何其它適當處理裝置。例如 客端120可包含具有輪入裝置之電腦,輸入裝置諸如數字小 鍵盤、觸控式面板、滑鼠、或其它可接收資訊之裝置;以 10及客端120包含可傳輸與伺服器1〇2或客端12〇之操作相關 聯之資訊之輸出裝置,該等資訊包括數位資料、視訊資訊 、或GUI 126。輸入裝置及輸出裝置包括固定式儲存媒體或 活動式儲存媒體,諸如電腦磁碟、CD_R〇M、或其它適去 媒體來接收來自使用者之輸入;以及經由行政管理顯示^ 15及工作提交顯示器,亦即GUI 126’而提供輸出信號給客端 120使用者。 GUI 126包含圖形使用者介面,該GUI 126可操作來允 許1)客端120使用者與系統1〇〇介接,來提交一或多項工作 150 ;及/或ii)系統(或網路)行政管理者使用客端12〇來與系 20統丨⑼介接用於任何適當之監督目的。通常GUI 126對客端 120使用者提供,由HPC系統100所提供的資料的有效且為 使用者友善之呈現。GUI 126可包含多數可客製訊框或視圖 ’其具有可由使用者操作之互動式欄位、下拉表單、及按 鈕。一具體例中,GUI 126呈現工作提交顯示畫面,該顯示 14 1338232 畫面呈現多個工作參數欄位;以.及GUI透過輸入裝置之一而 接收來自客端120使用者之命令。GUI 126另外或組合呈現 節點115之實體狀態與邏輯狀態給系統行政管理者,如第 4A-B圖所示;以及GUI 126接收來自行政管理者之各項命令 5 。行政管理者之各項命令可包括可使用(不可使用)之標記節 點、維修用之關機節點、再開機節點 '或任何其它適當命 令。此外,須瞭解,圖形使用者介面一詞可以單數形使用 或複數形使用,來描述一或多個圖形使用者介面、以及一 個特定圖形使用者介面之各個顯示畫面。因此,GUI 126 10涵蓋任何可於系統100處理資訊,且有效呈現結果給使用者 之任何圖形使用者介面,例如俗稱之網路瀏覽器。伺服器 102可透過網路劉覽器(例如微軟公司網際網路探索者
(Microsoft Internet Explorer)或網景公司瀏覽器(Netscape Navigator))接收資料,以及使用網路1〇6送返適當的HTML 15 回應或XML回應。 於一操作方面,HPC伺服器]〇2首先經過初始化或開機 。於此過程中,叢集管理引擎13〇判定格網11〇中之節點115 之存在、狀態、所在位置及/或其它特性。如前文說明,如 此,可基於當各個節點初始化時,或由管理節點1 〇5輪詢時 20 ,幾乎為即刻通訊之「心搏j。其次’叢集營理引擎130例 如可基於預定策略而動態配置格網110之各個部分給一或 多個虛擬叢集220。一具體例中,叢集管理引擎丨連續監 視節點115是否可能發生故障;而當判定其中有一節點115 故障時’使用多種復原技術之任一者來有效管理故障。叢 15 1338232 集管理引擎130也可對虛擬叢集220之各個配置節點管理且 提供獨特執行環境。執行環境包含主機名稱、IP網址、作 業系統、組配之服務、本地檔案系統與共享檔案系統、及 一組安裝之應用程式之資料集合。叢集管理引擎130可根據 5相關聯之策略,且根據叢集間策略’例如優先順位,而由 虛擬叢集220加減節點。 當一使用者登入至客端120時,使用者可透過GUI 126 而被呈現一工作提交晝面。一旦使用者進入該等工作參數 及所提交之工作150時,叢集管理引擎丨30處理與工作150、 10使用者、或使用者群相關聯之工作提交、相關參數 '及任 何預定策略。然後,叢集管理引擎130至少部分基於此項資 訊來決定適當虛擬叢集220。然後,叢集管理引擎13〇於虛 擬叢集220内部動態配置工作空間230,以及使用HPC技術 跨所配置之節點115來執行工作150。至少部分基於較高"ο 15效能,HPC伺服器102可更快速完成工作15〇的處理。當完 成時,叢集管理引擎將結果160通訊告知使用者。 第2A-D圖顯示於系統1〇〇之格網21〇之各個具體例及 其使用或其拓樸結構。第2A圖顯示使用多型節點之格網21〇 之一種組配結構’亦即三維圓環。舉例言之,所示節點型 別包括外部I/O節點、FS词服器、FS母資料词服器' 資料庫 伺服器 ' 及運算節點。第2B圖顯示格網2】〇之r摺疊」實例 。摺疊通常允許格網2U)之-個實體緣連結至相對應之輔向 緣,藉此提供更為強勁或無邊之拓樸結構。本具體例中, 節點215經包裹來提供藉節點鏈路216所連結之接近無接縫 16 1338232 式拓樸結構。節點鏈路216可為f作任何通訊協定來互連二 或二以上節點215之任何適當硬體。例如節點鏈路216可為 實作十億位元乙太網路之銅纜線或光纖缓線。 第2C圖顯示具有一虛擬叢集22〇配置於其内部之格網 5 210。雖然只以一個虛擬叢集220舉例說明,但於格網21〇可 有任何數目(包括零個)虛擬叢集22〇,而未悖離本揭示之範 圍。虛擬叢集220為處理相關工作bo之節點215之邏輯組群 。舉例言之,虛擬叢集220可與一研究小組、一部門、一實 驗室、或任何其它可提交類似工作15〇之使用者組群相關聯 10 。虛擬叢集220可為任何形狀,且於格網210内部包含任何 數目之喊點215。確實,雖然舉例說明之虛擬叢集22〇包括 多數實體上相鄰之節點215 ’但叢集220可為可操作來處理 工作150之邏輯相關節點215的分散式叢集。 虛擬叢集220可於任何適當時間配置。例如叢集22〇可 15於系統100初始化時,例如基於起動參數配置;或叢集220 可例如基於變化中之伺服器1〇2之需求而動態配置。此外, 虛擬叢集220可隨時間之經過,改變其形狀及大小,來對變 化中之請求、需求 '及情況做快速回應。例如虛擬叢集22〇 可響應於第二節點215(先前為叢集22〇之一部分)故障,而自 20動改變為含括一個自動配置之第一節點215。若干具體例中 ’叢集220可視處理需求而共享多個節點犯。 第2D圖顯示配置於範例虛擬叢集22〇内部之各個工作 空間230a及通常卫作空間2观動態配置來完成所接 收之工作150之虛擬叢集22〇内部之節點2]5集合。典型地, 17 1338232 每個執行工作150有一工作空間230 ’反之亦然,但工作空 間230可共旱各節點215 ’而未恃離本揭示之範圍。工作空 間230之尺寸可由使用者或管理者以手動輸入,或基於工作 參數、策略、及/或住何其它適當特性而動態決定。 5 第3A_C圖顯示於格網110内部之個別節點115之各個具 體例。所示具體例中,節點丨15係以刀鋒(blades) 3]5表示。 刀鋒315包含任何可操作來處理全部或部分工作15〇(諸如 工作執行緒或工作程序)之於任何導向之運算裝置。舉例言 之,刀鋒315可為標準xeon64TM主機板、標準pci_Express 10 Opteron™主機板或任何其它適當運算卡。 刀鋒315為整合式組織架構’其跨格網n〇之多個節點 115而均勻分散組織結構之交換元件,藉此可減少或消除任 何集中式父換功也,提向錯誤忍受度,且允許並列進送訊 息。特別,刀鋒315包括一整合式交換器345。交換器345包 15括任何允許不同拓樸結構之任何數目之埠。例如交換器345 可為八皡交換器,其允許更緊密之三維網格拓樸結構或三 維圓環結構。此等八埠包括兩個rx」連結來沿χ軸鏈接至 相鄰節點115,兩個「γ」連結來沿丫軸鏈接至相鄰節點丨15 ’兩個「Ζ」連結來沿ζ軸鏈接至相鄰節點115 ’以及兩個連 20結來鏈接至管理節點丨〇5。一具體例中,交換器345可為標 準八埠Infmiband-4x交換器丨C,因而容易提供内建式組織結 構交換。交換器345也包含24埠交換器,其允許多維拓樸結 構,例如4D圓環拓樸結構,或其它大於三維之非傳統拓樸 尨構。此外,節點Π 5可進一步沿對角軸線互連,因而減少 18 1338232 相當遠距離節點115間之通訊躍·遷或交換。舉例言之,第— 節點1丨5可連結實體上駐在東北軸之數個三維「躍遷」遠的 第二節點115。 第3A圖顯示刀鋒315 ’刀鋒315於高階包括至少二處理 5 器320a及320b、本地或遠端記憶體340、及整合式交換器( 或組織結構)345。處理器320執行指令,以及操作資料,來 執行刀鋒315諸如中央處理單元(CPU)之操作。述及處理器 320於適用時表示包括多數處理器320。一具體例中,處理 器320可包含Xeon64或Itanium™處理器、或若干類似之處理 10 器或其衍生裝置。例如Xeon64處理器可為帶有2MB快取記 憶體以及超執行緒(办口61'1^&出叩)之3.4〇出晶片。本具體 例中,雙重處理器模組包括可改良效率之當地周邊構件互 連/快速規格(PCI/Express)。如此’處理器320具有有效記憶 體頻寬,典型地具有記憶體控制器内建於處理器晶片。 15 刀鋒315也包括北橋接器321、南橋接器322、PCI通道 325、HCA 335、及記憶體340。北橋接器321與處理器320 通訊,且控制與記憶體340、PCI匯流排、第二階快取記憶 體、及任何其它相關組成元件之通訊。一具體例中,處理 器320係使用正面匯流排(FSB)而與處理器320通訊。南橋接 20器322管理多項刀鋒315之輸入/輸出(I/O)功能。另一具體例 中,刀鋒315可實作英代爾集線器架構(IHA) ’其包括圖形 與AGP記憶體控制器集線器(GMCH)及I/O控制器集線器 (ICH)。 PCI通道325包含設計用來提高整合式組成元件間之通 19 1338232 訊速度之任一種高速低延遲鏈路。如此有助於減少刀鋒315 之匯流排數目,因而減小系統的瓶頸。HCA 335包含可於 伺服器102内部提供基於通道之I/O之任何組成元件。各個 HCA 335可提供總頻寬2.65十億位元組/秒(GB/sec),因而 5允許每個?£至交換器345為1.85 GB/sec以及每個PE至I/O為 800百萬位元組/秒(MB/sec)’ I/C)諸如BI〇s(基本輸出入系 統)、乙太網路管理介面等。如此進一步允許交換器之 總頻寬對13.6十億反轉/秒波尖為3.7 GB/sec,或對每十億反 轉,0.27位元組/反轉I/O速率為50MB/sec。 10 記憶體34〇包括任何記憶體模組或資料庫模組,其可呈 依電性記憶體或非依電性記憶體形式,包括(但非限制性) 磁媒體、光學媒體、快閃記憶體、隨機存取記憶體(RAM) 、唯讀記憶體(ROM)、活動式媒體或任何其它適當之本地 或遠端記憶體組成元件。所示具體例中,記憶體34〇包含可 15以至少6.4 GB/s操作之8 GB雙重雙倍資料速率(DDR)記憶 體組成元件。δ己憶體340可包括適當管理與執行Hpc工作 150之資料,而未悖離本揭示之範圍。 第3Β圖顯π-刀鋒315 ’其包括二處理器32滅32〇1) 、記憶體340、超傳輸/周邊構件互連(ΗΤ/ρα)橋接器33〇&及 20 330b、及二HCA 335a及335b。 κ例刀鋒315包括至少二處理器32〇。處理器32〇執行指 令及操作資料來進行刀鋒315,諸如中央處理單元(cpu)之 操作。所示具體例中,處理器32〇可包含〇pt_處理器或 任何其它類似之處理器或衍生裝置。本具體例中,⑽瞧 20 1338232 處理器設計可支援格網110之平衡良好之基本組成元素的 發展。但雙重處理器模組可提供4至5個Gigafl〇p有用之效能 •,下一代技術將有助於解決記憶體之頻寬限制。但刀鋒315 可為多於二處理器320,而未悖離本揭示之範圍。如此處理 5器320具有有效记憶體頻寬,典型地具有記憶體控制器内建 於處理器晶片。本具體例中,各個處理器32〇有一或多條超 傳輸(或其它類似之回路型別)鏈路325。 通常,HT鏈路325包含任何用來設計提高整合式組成 元件間之通訊速度之高速低延遲鏈路。如此有助於減少刀 10鋒3丨5之匯流排數目,因而減少系統的瓶頸β HT鏈路325可 支援處理器至處理器通訊用於快取相干性多重處理器刀鋒 315。使用HT鏈路325,可將多達八個處理器32〇置於刀鋒 315上。於使用時,超傳輸可提供6 4⑽/咖、12.8 GB/sec 或以上之頻寬’因而提供透過舊式PCI匯流排之資料流通量 15之增加大於40倍。此外超傳輸技術可與舊式I/O標準如PCI 及其它技術如PCI-X相容。 刀鋒315進一步包括ΗΤ/PCI橋接器330及HCA 335。PCI 橋接器330可設計成遵照pci本地匯流排規格修訂版2,2或 3.0或PCI快速基本規格l.〇a或其任何導出規格^ HCA 335包 20含任何可提供於伺服器102内部之基於通道之I/O之組成元 件。一具體例中,HCA 335包含Infiniband HCA。InfiniBand 通道典型係藉連結主機通道配接器及目標通道配接器形成 ’該等配接器允許遠端储存裝置及網路連結成為InfiniBand 組織結構,進一步細節顯示於第3B圖。超傳輸325至PCI- 21 1338232 快速橋接器330及HCA 335,可對各處理器320形成全雙工2 GB/sec I/O通道。若干具體例中,如此提供足夠頻寬來支援 於分散式HPC環境100之處理器-處理器通訊。此外,如此提 供刀鋒315具有I/O效能接近平衡或實質上平衡處理器320 5 之效能。 第3C圖顯示包括擴充卡之刀鋒315之另一具體例。本具 體例中,擴充卡可支援3.2 GB/sec或更高速的快取相干性介 面。擴充卡可操作而包括一或多個襴位可規劃閘陣列 (FPGA) 350 〇例如所示擴充卡包括二FPGA 350,分別表示 10 為350a及350b»通常,FPGA 350對刀鋒315提供非標準介面 ,提供處理客端演繹法則的能力、用於信號、影像、或加 密 '解密處理應用操作之向量處理器以及高頻寬。例如 FPGA可補充刀鋒315之能力,FPGA可提供通用處理器效能 之十倍至二十倍加速因數之效能用於特殊功能,諸如低精 15 度快速傅立葉轉換(FFT)及矩陣算術函數。 前文舉例說明及附圖說明可提供實作各項可擴充節點 115(例如以刀鋒315舉例說日月)之範圖。但各圖僅供舉例說明 之用,系統100涵蓋使用各元件之適當組合及配置來實作各 項擴充體系。雖然已經部分就刀鋒伺服器1〇2舉例說明,但 2〇熟60技藝人士瞭解本發明之教示可應用於任何叢集hpc祠 服器環境。如此,此等叢集伺服器丨02係結合此處說明之各 項技術可為本地或為分散,而未悖離本揭示之範圍。如此 ,此%•伺服器102包括HPC模組(或節點1丨5),該HPC模組结 合可提供高效能運算能力同時減少1/〇延遲之各元件之適 22 1338232
15
20 當組合及配置。此外,各項HPC模組也可視情況需要而組 合操作及/或分職作。例如格網UG包括多個實質上類似 之節點115,或實作不同硬體或組織架構之各個節點115。 第4A-B圖顯不根據系統1〇〇之管理圖形使用者介面獅 之各具體例。經常管理⑽侧系使用⑽126而呈現給客 端120。通常,管理GUI 4〇〇係呈現多個管理互動式畫面或 顯不畫面給系統行政管理者,及/或呈現多個玉作提交畫面 或工作側繪圖畫面給使用者。此等畫面或顯示幕包含組釋 成為所收集之資訊之各個面相之圖形元件。舉例言之,gui 400叮呈現格網貫體健康顯示畫面(顯示於第圖)、或格網 110之節點US之邏輯配置或拓樸結構(顯示於第犯圖)。 第4A圖顯示範例顯示畫面4〇〇a。顯示畫面4〇〇a包括呈 現給行政管理者用於有效管理節點115之資訊。所示具體例 包括標準網路㈣器,具有格網UG之邏輯「圖像」或營幕 =照。舉例言之,本圖像可提供格網110其組成節點115之 實體狀態。各個節點115可為多種色彩之任一種,各個色彩 表示各種不同狀態。舉例言之,不合格的節點115為紅色, ^經被使用或已經被配置之節點115為黑色,而未經配置之 ~ . 5可加衫線。此外,顯示畫面4〇如允許行政管理者移 =標器於節點115 —者,以及觀視節點115之各種實體屬 、。「舉例言之,行政管理者可被提供包括下列資訊:「節點 」「=用性」、「處理器之利用」、「記憶體之利用」、「溫度 ,只體位置」、及「網址」。當然此等僅為資料襴位範例 何適田貝體命點資訊或邏輯節點資訊皆可顯示給行政 23 1338232 管理者。顯示畫面400a也允許行政管理者旋轉格網110之觀 視角度,或允許執行任何其它適當功能。 第4B圖顯示範例顯示畫面400b。顯示畫面400b呈現格 網110之邏輯態之一視圖或圖像。該具體例呈現配置於格網 5 110内部之虛擬叢集220。顯示畫面400b進一步顯示配置於 叢集220内部用來執行一或多項工作150之二範例工作空間 230。顯示畫面400b允許行政管理者移動指標器於圖形虛擬 叢集220上方,來觀視藉各個狀態而分組之多個節點115(諸 如經配置或未經配置)。此外,行政管理者可移動指標器於 10 工作空間230之一上方,因而可呈現適當工作資訊。舉例言 之,行政管理者可觀視工作名稱、開始時間、節點數目、 估計結束時間、處理器之使用情況、I/O使用情況等。 須瞭解管理GUI 126(前文分別以顯示畫面400a及400b 表示)僅供舉例說明之用,而可包括所示圖形元件以及其它 15 未顯示之管理元件中之無任一者、部分或全部。 第5圖顯示根據系統100之叢集管理引擎130(此處顯示 為引擎500)之一具體例。本具體例中,叢集管理引擎500包 括複數個子模組或組成元件:實體管理器505、虛擬管理器 510、工作排程器515、及本地記憶體或變數520。 20 實體管理器505為可操作來決定各個節點115之實體健 康情況之任何軟體、邏輯、韌體、或其它模組,以及實體 管理器505可基於此等測定之「健康情況」來有效管理節點 115。實體管理器可使用此等資料來有效判定節點115之故 障,與對節點115之故障做回應。一具體例中,實體管理器 24 505係通訊式耦接至複數個代理器Π2,各個代理器丨%係駐 在—個節點115。如前文說明,代理器】32集合至少實體資 訊且將該資訊通訊給實體管理器505。實體管理器5〇5進一 步可操作來透過網路106通訊警告於客端]2〇之系統行政管 5 理者。 虛擬管理器510為可官理虛擬叢集22〇及節點丨15之邏 輯狀態之任何軟體、邏輯、勒體、或其它模組。通常虛擬 官理器510鏈接表示節點Π5之邏輯電路與節點U5之實體 狀態。基於此等鏈路’虛擬管理器5]〇可產生虛擬叢集22〇 1〇 ,且對虛擬叢集220處理各項變化,諸如響應於節點故障或 (系,、’先或使用者)請求加速HPC處理而做出回應。虛擬管理器 也可將虛擬叢集220之狀態諸如未經配置之節點115通 Λ給工作排程器515,俾便動態回填未經執行的、或仔列等 候的HPC程序及工作15〇。虛擬管理器51〇可進一步判定工 15作150與特定節點115之相容性,且將此資訊通訊給工作排 ♦器515 ^干具體例巾’虛擬管理器510可為呈現個別虛 擬叢集220之物件。 叢集管理引擎500也包括工作排程器515。工作排程器 515為拓樸知曉模組,其處理系統資源之各個面相以及處 2〇理處理器及時間配置來決^最佳工作空間230及時間。常被 考慮之因素包括處理器、處理程序、記憶體、互連裝置、 碟片、虛擬引擎等。換言之,工作排程器515典型與GUI 120 互動來接收工作150;工作排程器515典型與實體管理器5〇5 動來確保各個節點i! 5的「健康情況」;以及工作排程器 25 1338232 515與虛擬管理器51〇互動來動態配置某個虛擬叢集22〇内 部之工作空間23〇。此種動態配置可經由各項演繹法則而達 成,該等演繹法則常結合格網110以及適當時虛擬叢集22〇 之目則拓樸結構知識。工作排程器5〗5處理串列程式及並列 5程式二者之批次式執行與互動式執行。排程器515也提供實 作工作150所呈現之各項問題的選擇與執行上之策略524之 實作方式。 叢集管理引擎500例如經由工作排程器515可進一步操 作來執行有效檢查點檢查。重新起動的轉存典型包含超過 10 75%寫至碟片之資料。此種I/O之進行方式讓處理不會因平 台故障而遺失。基於此點,檔案系統的I/O可分隔為二部分 :生產性I/O及防禦性I/O。生產性I/O為使用者呼叫之資料 的寫入’例如虛擬轉存、隨時間之經過之關鍵實體變數之 執跡等。防禦性I/O係用來管理經過一段相當時間之大量模 15 擬回合。如此加大I/O頻寬,將可大為縮短於檢查點檢查時 所涉及之時間與風險。 回頭述及引擎500,本地記憶體520包含系統1〇0之多項 特色之邏輯描述(或資料結構)。本地記憶體520可儲存於任 何實體或邏輯資料儲存裝置,該資料儲存裝置可操作來由 20 可相容碼而定義、處理或取還。例如本地記憶體520可包含 一或多個可擴充標記語言(XML)表格或文件。各個元件可 以SQL陳述或稿本、虛擬儲存存取方法(VSAM)檔案、平坦 檔案、二元資料檔案、Btrieve檔案、資料庫檔案 '或逗點 分開值(CSV)檔案描述。須瞭解各個元件可包含一變數、一 26 1338232 表格、或任何其它適當資料結構。本地記憶體52〇也包含多 個表格或檔案儲存於一部伺服器102或儲存跨多個伺服器 或節點。此外,雖然於附圊係以駐在叢集管理引擎5〇〇内部 舉例說明,但若千或全部本地記憶體52〇可於内部或外部, 而未‘障離本揭示之範圍。 10 15 /千、π S兄明之本圯冗,思菔祜實體串列52丄 歹忉22、組群檔案523、策略表524、及工作佇列525。雖铁 於圖中未顯*,但本地記憶體520可包括其它資料結構/包 括工作表及稽核記錄,而未恃離本揭示之範圍。回頭泉照 附圖舉例說明之結構’實體串列521可操作來儲存有關節= 115之識別資訊及實體管理資訊。實體串列η丨可為每財 训5包括至少一項記錄以維隸結構。例如實體記錄^ 包括下列各個棚位,諸如「節點」、「利用性」、「處理器 利用率」、「記憶體之利用率」、「溫度」、「實體位「 「開機影像」等。須瞭解各個記錄可未包括該; 可包括部分或全部該等範例搁位。一具體例中,: 貫體記錄可提供至另-表格例如至虛擬串列迎之孩 虛擬串列522可操作來錯存有關節點ιΐ5之邏 20 ,管理資訊。虛擬串列522可為每個節點n5包括至, 項記錄之錄轉結構。例如, ^ 點」、「利用性」、「工作,、「“ 节了匕括老如「節 ^ 虛擬叢集」、厂二次節點」、广t 何Ί相容性J等爛位。須瞭解各項記錄可未包括^ ::位’或包括全部或部分範例攔位。 体 虛擬_可包括至另—表格例如組群檔㈣3之鍵路。中’ 27 1338232 組群樓案523包含可操作來儲存使用者組群f訊及安 王性身訊之-或多項表&或記錄,諸如存取控制串列(或 ACL)。例如各個組群記錄可包括使用者可利用之服務、節 點=、或工作串列。各個邏輯組群可關聯—個業務小植或 f務早凡 個部門、—項計劃、—個安全性組群 '或可 提交工作15〇或與管理至少部㈣統丨⑻之—❹個使用者 之任何其它集合相關聯。基於此項資訊,叢集管理引擎_ 可判定提交工作150的使用者是否為有效使用者,若是,則 執行該工作之最佳參數。此外,組群表⑵可將各個使用者 組群與虛擬叢集220或與-或多個實體節點115,諸如駐在 特定組群領域内部之節點相關聯。如此允許各組群有复個 別的處理空間而不會競爭資源。但如前文說明,虛擬叢 220之形狀及大小可為動態,虛擬叢集220之形狀及大何 依據需求、日寺間或任何其它參數而改變。 15 朿略表524包括-或多項策略。須瞭解策略表汹與 略524可視情況需要而互換使用。f略表汹通常係儲 關工作150及/或虛擬叢集22〇之處理資訊及管理資訊。例如 20 ^表524可包括多項參數或變數之任一者,該等參數或變 數包括問題大小、問題回合時間'時槽、前置占用 者配置之節點1丨5、或虛擬叢集22〇分享等。 工作仔列525表示等候執行之—或多項工作⑼流 吊工作㈣525包含任何適當資料結構諸如氣泡_ 庫表、或指標器陣列來儲存任何數目(包括零個)工作⑼ 參照工作。可有一仔列525關聯格網110或有多仵列525關聯 28 1338232 格網110’各個邮25係_於格網1_部之獨特虛擬叢 集220之一。 . 於一操作方面’叢集管㈣擎_接收由N項任務組成 的工作ISO ’ N項任務可經由執行計算與交換資訊來協力解 5決問題。叢集管理引擎爾配置N個節點115,以及使用任_ 種適當技術,分派N項任務之各項任務給一個特定節點ι]5 ,因而讓問題可有效解決。例如叢集管理引擎5〇〇可利用由 使用者供給的工作參數,例如工作任務配置方策。雖言如 此,叢集管理弓丨擎500嘗試探勘伺服器丨02之架構,其有對 10使用者提供更快速的週轉率,且可能改良系統100的整體產 出量。 一具體例中,叢集管理引擎500接著根據下述範例拓樸 結構來選擇與配置節點115 ·· 規定2D(x,y)或3D(x,y,z)-節點115經過配置,任務可於 15 規定維度排序藉此保有有效的鄰居對鄰居通訊。規定之;^ 樸結構管理多項工作150’希望實體通訊拓樸結構可匹配問 題拓樸結構,讓工作150之協力合作之任務可頻繁與鄰居之 任務通訊。舉例言之,於2x2x2維度(2,2,2)請求八項任務將 被配置為方塊。為了達成最佳匹配目的’ 20配置可被「摺 2〇疊」成為三維(如第2D圖之討論)’同時仍然保有有效鄰居 對鄰居通訊。叢集管理引擎5〇〇可以任何取向自由配置規定 之維度形狀。例如2x2x8框可配置於垂直或水平可利用之實 體節點内部。 最佳匹配方塊-叢集管理引擎500於立方體積内部配置 29 1338232 N個節點115。此種拓樸結構有效處理工作150,允許經由縮 短任—節點Π 5間之距離表讓協力工作之任務與任何其它 任務交換資訊。
最佳匹配球體-叢集管理引擎500於球狀體積配置n個 5節點115。例如第一住務被置於球體的中心節點115,而其 餘任務被置於環繞該中心節點115之各個節點115。須瞭解 其餘各項任務之配置順序典型並無特殊限制。此項拓樸結 構可縮短第一任務與全部其它任務間之距離。如此有效處 理一大類問題,此處任務2至任係與第一任務通訊,但 10其間並未彼此通訊。 艰機-叢集管理引擎500以較少考慮節點115之邏輯配 置位置或貫體配置位置來配置N個節點115。一具體例中, 此種拓樸結構可鼓勵積極使將網1刚於回填目的,而極 少對其它工作150造成衝擊。 15
20 須瞭解先前拓樸結構及伴隨之說明僅供舉例說明之用 ’而非闡述實際使狀_結職祕配置料 之技術。 、、.。何 參數ί可利用配置權值’儲存作為工作150 修飾值,ΓΓ 具體射,配置權值树1間之 任㈣:、、不叢集官理引擎500將如何積極依據所請求之 乃5 %序)之配置方策來安置節點115。本例中,〇值 42::或維度)為可能時才安置節點ιΐ5;而1值表: 節點心:理==量之自由節點或其它可利用之 項吻求即可。典型地,配置權值不會凌駕 30 1338232 行政官理策略524,諸如資源保留,以防止大型工作】5〇缺 乏資源,且保有HPC系統1〇〇之工作產出量。 前文舉例說明及伴隨之說明提供管理節點115及工作 150之邏輯體系實作用之叢集管理引擎5〇〇之範例模組圖。 5但本圖僅供舉例說明之用,系統100涵蓋使用邏輯元件之任 一種適當組合及配置來實作此等及其它演繹法則。如此此 等軟體模組可包括有效管理節點115及工作15〇之各項元件 之任一種適當組合及配置。此外,若屬適當,可組合及/或 分離各項所示模組之操作。 10 第6圖為流程圖,顯示根據本揭示之一具體例,動態處 理一工作提交之實例方法6〇〇。概略言之,第6圖描述方法 600,方法600接收一批次式工作提交,基於工作參數及相 關聯之策略524來將節點115動態配置於一個工作空間23〇 ,以及使用所配置之空間來執行工作15〇。後文說明之注意 15重點集中於執行方法600之叢集管理模組130之操作。但系 統100涵蓋使用實作部分或全部所述功能之該等邏輯元件 之任一種適當組合及配置,只要其功能維持適當即可。 方法600始於步驟605,HPC伺服器102由使用者接收工 作提交150。如前文討論,一具體例中,使用者可使用客端 20丨2〇提交工作150。另一具體例中,使用者可使用HPC伺服 器102直接提交工作150。其次於步驟610,叢集管理引擎丨3〇 基於使用者選擇組群523。一旦證實使用者,叢集管理引擎 130於步驟615比較該使用者與組群存取控制串列(ACL)。但 須瞭解,叢集管理引擎13 0可使用任何適當安全性技術來驗 31 1338232 證使用者。基於所測定之組群·523,叢集管理引擎130判定 使用者是否已經存取該所請求的服務。基於所請求的服務 及主機名稱,叢集管理引擎13〇於步驟620選擇虛擬叢集22〇 。典型地,虛擬叢集220可於工作150提交之前識別與配置 5 。但若尚未建立虛擬叢集220,則叢集管理引擎13〇可使用 前述任一項技術來自動配置虛擬叢集220。其次,於步驟625 ,叢集管理引擎130基於工作150的提交來取還策略524。一 具體例中,叢集管理引擎丨30可判定與使用者、工作150' 或任何其它適當標準相關聯之適當策略524。然後,叢集管 10 理引擎130於步驟630測定工作150之維度,或以其它方式計 算工作150之維度。須瞭解適當維度包括長度、寬度、高度 或任何其它適當參數或特性。如前文說明,此等維度用來 判定於虛擬叢集220内部之適當工作空間230(或節點115子 集)。於建立初步參數後’叢集管理引擎130嘗試於步驟635 15 至步驟665於HPC伺服器1〇2執行工作15〇。 於判定步驟635 ’叢集管理引擎13〇使用已經建立的參 數,來判定是否有足夠可用之節點來配置期望的工作空間 230。若節點115之數量不足’則於步驟64〇,叢集管理引擎 130決定於虛擬叢集220最容易取得之節點η5子集23〇。然 20後於步驟645,叢集管理引擎130增加工作15〇至工作佇列 125,直到子集230為可利用為止。然後處理返回決定步驟 635。一旦有足夠節點115可資利用,則於步驟“ο,叢集管 理引擎130動態決定抑自可利用之節點11 $之最佳子集230 。須瞭解最佳子集230可使用任何適當標準決定,包括最快 32 1338232 速處理時間、最可靠節點115、.實體位置或虛擬位置、或第 一可用節點115。於步驟655,叢集管理引擎130由所選定之 虛擬叢集220中選出決定之子集230。其次於步驟660,叢集 管理引擎130使用所選定之子集230來配置選定之節點115 5 給工作150。根據一具體例,叢集管理引擎130可將虛擬節 點串列522内的節點115狀態由「未經配置」改變成「經配 置」。一旦子集230經過適當配置,於步驟665,叢集管理引 擎130基於工作參數、取還策略524、及任何其它適當參數 ,使用所配置的空間來執行工作150。於任何適當時間,叢 10 集管理引擎130可通訊或以其它方式呈現工作結果160給使 用者。例如結果160可經格式化且透過GUI 126來呈現給使 用者。 第7圖為流程圖顯示根據本揭示之一具體例,動態回填 於格網110内部之一虛擬叢集220之範例方法700。於高階, 15 方法700描述決定於虛擬叢集220之可用空間,決定可與該 空間相容之最佳工作150,以及於可利用空間執行所決定之 工作150。後文說明之重點將集中於執行此項方法之叢集管 理引擎130之操作。但如同先前流程圖,系統100涵蓋使用 邏輯元體之任一種適當組合及排列來實作部分或全部所述 20 功能。 方法700始於步驟705,叢集管理引擎130分類工作佇列 525。所示具體例中,叢集管理引擎130係基於儲存於佇列 525之工作150之優先順位,來分類佇列525。但須瞭解叢集 管理引擎130可使用任一種適當特性來分類佇列525,因而 33 1338232 可執行適當工作150或最佳工作150。其次於步驟710,叢集 管理引擎130判定於虛擬叢集220之一之可用節點115的數 目。當然,叢集管理引擎130也可決定於格網110或於虛擬 叢集220之任一者或多者之可用節點115數目。於步驟715, 5 叢集管理引擎130由分類後之工作佇列525來選出第一工作 150。其次於步驟720,叢集管理引擎〗30動態決定所選定之 工作150之最佳形狀(或其它維度)。一旦已經決定所選定之 工作150之最佳形狀或維度,然後於步驟725至745,叢集管 理引擎130判定是否可於適當虛擬叢集220回填工作150。 10 於判定步驟725,叢集管理引擎130判定是否有足量節 點115可供用於所選定之工作150。若有足量可利用之節點 115,則於步驟730,叢集管理引擎130使用任一種適當技術 對所選定之工作150動態配置節點】15。例如,叢集管理引 擎130可使用第6圖所述技術。其次於步驟735,叢集管理引 15 擎130重新計算於虛擬叢集220可用之節點數目。於步驟740 ,叢集管理引擎130於所配置之節點115來執行工作150。一 旦工作150已經執行(或若對所選定之工作150而言,節點 115之數目不足),則於步驟745,叢集管理引擎130選擇於 經過分類之工作佇列525中之下一項工作150,以及處理返 20 回步驟720。須瞭解雖然以迴路舉例說明,但叢集管理引擎 130可於任何適當時間初始化、執行、以及結束於方法700 所示技術。 第8圖為流程圖,顯示根據本揭示之一具體例,動態管 理格網】]0内部之一節點115故障之實例方法800。於高階, 34 1338232 方法800描述決定節點Π5故障.,自動執行工作復原與工作 官理,且以一個二次節點115來替換該故障的節點u 5。後 文說明重點將集中於叢集管理引擎130執行此項方法之操 作。但如同先前流程圖,系統100涵蓋使用邏輯元體之任一 5種適當組合及排列來實作部分或全部所述功能。 方法800始於步驟805,叢集管理引擎丨3〇判定節點115 已經故障。如前文說明,叢集管理引擎13〇可使用任一種適 當技術來判定節點115已經故障。例如,叢集管理引擎丨3〇 可於不同時間挽出節點115(或代理器132),基於缺之來自節 10點115的回應,判定節點Π5已經故障。於另一例中,存在 於節點】】5之代理器Π2可通訊「心搏」,老 則表示自點115已經故障。其次於步驟8 J 〇 ,若無此種「心搏」 W0 ’叢集管理引擎 130由虛擬叢集220去除已經故障的節點115。一具體例中, 叢集管理引擎130可將虛擬串列522内部的節點U5之狀態
滅工作命令,或叢集管理引擎丨30 ’叢集管理引擎130可執行消 3 〇可使用任何其它適當技術 35 1338232 來..D束工作150。其次於步驟83〇,叢集管理引擎⑽使用虛 擬串列522來解除節點U5之配置。例如,叢集管理引擎⑽ 可將虛擬串列522中之節點115之狀態由「已配置」改成「 可利用」旦已經結束工作,以及全部適當節點11 $皆已 5紅解除配置,則於步驟奶至步驟㈣,叢集管理引擎_式 圖使用可用節點115來再度執行工作⑼。 於v驟835 ’叢集官理弓丨擎13〇取還策略524以及對被消 滅之作150取還參數。然後於步驟⑽,叢集管理引擎go 基於所取叙策略524以及卫作參數來判定於虛擬叢集 10 220之節點115之最佳子集23〇。一旦已經決定節點"5之子 集230,則於步驟845,叢集管理引擎13〇動態配置節點n5 ,子集23〇。例如,叢集管理引擎130可將虛擬串列522中之 節點115的狀態由「未經配置」改成「已經配置」。須瞭解 此節點115子集可與曾經執行該項工作】5〇之原先節點子 15集不同。舉例§之,叢集管理引擎可決定不同節點子集 為最佳,原因在於節點故障而提示從事此項執行。於另一 實,叢集管理弓1擎⑽判定二次節點115可操作來替換 故障節點115 ’新子集230實質上係類似舊工作空間230。-旦已經決定且已經配置經配置之子集23〇,然後於步驟請 20 ,叢集管理引擎130執行工作丨5()。 先前各個流程圖及隨附之說明舉例說明範例方法_ 700及800。簡5之,系統1〇〇涵蓋使用任一種適當技術來 執行此等及其它任務。如此本流程圖之多個步驟可以類似 方式進行,及/或以與所示順序不同之順序進行。此外,系 36 統100使用有額外步驟、較少步驟及/或不同步驟之方法 只要該等方法維持適當即可。 雖然已經就若干具體例及概略相關方法說明本揭示, 但^技势人士顯然易知可對此等具體例及方法做出多項 文更及修改。如此前文具體實施例之說明絕非界限或約束 本揭不β可未悖離本揭示之精髓及範圍而可做出其它變 化、取代 '與變更。 【围式簡單說明】 第1圖顯示根據本揭示之一具體例,一種範例高效能運 算系統; 第2A-D圖顯示於第1圖之系統之格網之各個具體例及 其用途; 第3A-C圖顯示於第1圖之系統之個別節點之各個具體 例; 第4Α-Β圖顯示根據第1圖之系統,圖形使用者介面之各 個具體例; 第5圖顯示根據第1圖之系統,叢集管理軟體之一具體 例; 第6圖為流程圖’顯示根據第1圖之高效能運算系統, 一種提交一批次式工作之方法; 第7圖為流程圖,顯示根據第1圖之高效能運算系統, 一種動態回填格網之方法;以及 第8圖為流程圖’顯示根據第】圖之高效能運算系統, 一種動態管理一節點故障之方法。 1338232 【主要元件符號說明】. 100.. .高效能運算(HPC)系統 216...節點鏈路 102.. .高效能運算伺服器,HPC 220…虛擬叢集
伺服器 104.. .介面 105…管理節點 106.. .網路 108.. .鏈路 110.. .格網 115.. .運算節點 120.. .行政管理工作站或本地 客端
126.. .圖形使用者介面,GUI 130.. .叢集管理引擎 132.. .叢集代理器 140.. .碟片場 142.. .儲存客端 150…工作 160.. .結果 210.. .格網 215.. .節點 230、230a-b...工作空間 315…刀鋒 320、320a-b···處理器 321.. .北方橋接器 322.. .南方橋接器 325.. .周邊構件互連(PCI)通道 ,HT鏈路 330a-b...超傳輸/周邊構件互連 (ΗΤ/PCI)橋接器 335、335a-b...主機通道配接器 (HCA) 340.. .記憶體 345.. .整合式交換器 350、350a-b…欄位可規劃閘陣 列(FPGA)
400.. .管理圖形使用者介面,管 理GUI 400a-b...顯示器 38 1338232 500.. .叢集管理引擎 505.. .實體管理器 510.. .虛擬管理器 515.. .工作排程器 520.. .本地記憶體或變數 521.. .實體串列 522.. .虛擬串列 523…組群檔案 524.. .策略、策略表 525.. .工作佇列 600、700、800...方法 605-665 ' 705-745 ' 805-850... 步驟
39

Claims (1)

1338232 10 十、申請專利範圍: 第94111492號巾請案巾請專利範圍修正本99.10.14. 1.種用來對複雜的實體現象或演釋法則現象進行模型 化核擬、與分析之高效能運算(HPC)系統,其包含: 可知作以執行一工作之多數互連之高效能運算 (HPC)節點,各個HPC節點包括: 一主機板; 匕3八埠或八埠以上之交換器該交換器係整合 於以主機板上’且可操作以互連該等多個HPC節點之至 少一子集;以及 °桑作來執行該工作之至少二處理器,各處理器係 ,耗接至錢合式交換ϋ且整合於該主機板上; °操作以提供用來互連該等多個HPC節點 網 之一格 15 20 Η P C 在執行該工作時動態配置與管理該等 將多叢集管理弓丨擎,該叢集管理引擎可操作以 产擬‘隼’配置到邏輯上相關之HPC節點的-或更多 二參數丨7觸與該工作相關 ,該㈣擬㈣純行該工作 虛擬%作以依據該工作之規模而在該等 執行該集内指派一工作空間來 #tX n x工作空間可操作以與相關聯於一不同工 作”同的工作空間共用節點。 2物⑽叫之吻統,其快各個HPC節 40 1338232 點之該二或二以上個處理器係經由一主通道配接器 (HCA)而耦接至該整合式交換器。 3. 如申請專利範圍第2項之HPC系統,其中於各個HPC節 點之該二或二以上個處理器進一步係經由一超傳輸/周 5 邊構件互連橋接器而耦接至該整合式交換器。 4. 如申請專利範圍第1項之HPC系統,其中於各個HPC節 點之該二或二以上個處理器係經由一超傳輸鏈路而通 訊式交互耦接。 5. 如申請專利範圍第1項之HPC系統,其中於各個HPC節 10 點之該二或二以上個處理器係經由一北方橋接器而通 訊式耦接至該整合式交換器。 6. 如申請專利範圍第1項之HPC系統,其中各個HPC節點 之該整合式交換器可操作來以實質上類似該等處理器 之功率之頻寬而通訊I/O訊息。 15 7.如申請專利範圍第1項之HPC系統,其中各個HPC節點 之該整合式交換器包含一無限頻寬交換器。 8.如申請專利範圍第1項之HPC系統,其中該等多數HPC 節點排列成一種拓樸結構,該拓樸結構係藉各HPC節點 之整合式組織結構而變成可運作。 20 9.如申請專利範圍第7項之HPC系統,其中該拓樸結構包 Ί—超方塊。 10. 如申請專利範圍第7項之HPC系統,其中該拓樸結構包 含一摺疊拓樸結構。 11. 如申請專利範圍第1項之HPC系統,其中該等多數HPC 41 丄祝232 節點之一第一節點係沿X轴而互連至該等多數HPc節點 之一第二節點,沿γ軸而互連至該等多數HPC節點之一 第三節點,沿Z軸而互連至該等多數HPC節點之一第四 節點,以及沿一對肖轴線而互連至一第五節點。 2·如申凊專利範圍第1 〇項之hpc系統,其中該第一節點與 該第五節點間之連結可操作來藉由消除經由該第一節 點與該第五節點之間的該第二、第三、第四節點之任一 點,來減少多數個HPC節點間之訊息交換。 13.如申請專利範圍第〗項之HPc系統,其中: 該等至少二處理器可操作以經由彼此間之一直接 鏈路來與彼此通訊; 該第一交換器可操作以將該等至少二處理器通訊 耦接到至少六個第二主機板,該等至少六個第二主機板 匕3王合於各個第二主機板之上的至少兩個第二個處 理器、以及整合於該第二主機板之上的__第二交換器, 其可操作以將該等第二處理器通訊祕至該第一主機 板、以及至少五個第三主機板,其各自包含整合於各個 第三主機板上的至少兩個第三處理器、以及整合於 二主機板上的一第三交換器: 、/ 4等至少二處理器可操作以經由在一特定第二主 機板上的該第—交換器與該第二交換器來與在該特定 第二主機板上的特定第二處理器進行通訊; ,亥等至少二處理器可操作以不經由在該特定第二 主機板上任一第二處理器來進行通訊’而係經由該第— 42 1338232 交換器、經由在該主機板與該特定第三主機板間之一特 定第二主機板上的一特定第二交換器'以及經由在該特 定第三主機板上之第三交換器來與在該特定第三主機 板上的特定第三處理器進行通訊。 5 14. —種用於執行一HPC工作之方法,其包含下列步驟: 經由一交換器來互連多個HPC節點的至少一子集 合; 將該等多個Η P C節點之每一處理器耦接至該交換 * 10 在該等多個HPC節點中之該等處理器執行一 HPC 工作; 提供一格網來將該等多個Η P C節點與相關聯之處 理器互連; 在工作執行中動態配置及管理該等HPC節點與相 15 關聯之處理器; 將該格網之部份配置給邏輯上相關之HPC節點的 一或更多虛擬叢集; 依據與該工作相關聯之參數與策略來選擇一特定 虛擬叢集來執行該工作; 20 依據該工作之規模在該等虛擬叢集令選定之一者 中指派一工作空間,該工作空間可操作以與相關聯於一 不同工作之一不同工作空間共用節點。 15.如申請專利範圍第14項之方法,其中將每一處理器耦接 至該交換器之步驟包含將每一處理器耦接至利用一主 43 1338232 機通道配接器(HCA)的交換器。 16.如申請專利範圍第15項之方法,其中將每一處理器耦接 至該交換器之步驟包含將每一處理器耦接至利用一超 傳輸/PCI橋接器的交換器。 5 17.如申請專利範圍第14項之方法,其進一步包含經由一超 傳輸鏈路來耦接該等處理器。 18.如申請專利範圍第14項之方法,其中將每一處理器耦接 至該交換器之步驟包含將每一處理器通訊耦接至利用 一北橋的交換器。 10 19.如申請專利範圍第14項之方法,其進一步包含: 在該等處理器之一頻寬通訊I/O訊息。 20. 如申請專利範圍第14項之方法,其中該交換器包含一 Infiniband交換器。 21. 如申請專利範圍第14項之方法,其中該等多個HPC節點 15 依一種拓樸結構排置,該拓樸結構係藉各HPC節點之整 合式組織結構而變成可運作。 22. 如申請專利範圍第21項之方法,該拓樸結構包含一超方 塊。 23. 如申請專利範圍第21項之方法,該拓樸結構包含一摺疊 20 拓樸結構。 24. 如申請專利範圍第14項之方法,該等多個HPC節點之一 第一節點沿著一X軸、該等多個HPC節點之一第三節點 沿著一Y軸、該等多個HPC節點之一第四節點沿著一Z 軸、以及沿著對角軸之一第五節點與該等多個HPC節點 44 1338232 之一第二節點互連。 25. 如申請專利範圍第24項之方法,其中該第一節點與該第 五節點間之連接可操作以藉由消除任何經由該第一節 點與該第五節點之間的該第二、第三、以及第四節點之 5 跳躍來減少該等多個HPC節點間之訊息跳躍。 26. 如申請專利範圍第14項之方法,其進一步包含下列步驟 將至少兩個處理器整合至一主機板上,該至少兩處 理器可操作以經由在彼此之間的一直接鏈路進行通訊; 10 將一交換器整合到該主機板上並將該交換器耦接 至至少兩處理器,該至少兩處理器通訊耦接該交換器, 該交換器可操作以將該至少兩處理器通訊耦接到至少 六個第二主機板,該等至少六個第二主機板包含整合於 該第二主機板之上的至少兩個第二個處理器、以及整合 15 於該第二主機板之上的一第二交換器,其可操作以將該 等第二處理器通訊耦接至該主機板、以及至少五個第三 主機板,其各自包含整合於各個第三主機板上的至少兩 個第三處理器、以及整合於該第三主機板上的一第三交 換器,該等至少兩個處理器可操作以經由在一特定第二 20 主機板上的該交換器與該第二交換器來與在該特定第 二主機板上的特定第二處理器進行通訊,該等至少兩個 處理器可操作以不經由在該特定第二主機板上任一第 二處理器來進行通訊,而係經由該交換器、經由在該主 機板與該特定第三主機板間之一特定第二主機板上的 45 1338232 一特定第二交換器、以及經由在該特定第三主機板上之 第三交換器來與在該特定第三主機板上的特定第三處 理器進行通訊。 46 1338232 七、指定代表圖: (一) 本案指定代表圖為:第(1 )圖。 (二) 本代表圖之元件符號簡單說明: 102·.·高效能運算伺服器,HPC伺服器126...圖形使用者介面,GUI 八、本案若有化學式時,請揭示最能顯示發明特徵的化學式: 104...介面 130...叢集管理引擎 105...管理節·點 132...叢集代理器 106...網路 140...碟片場 108...鍵^ 路 142...儲存客端 110...格網 150...工作 115…運算節點 120...行政管理工作站或本地客端 160...結果
TW094111492A 2004-04-15 2005-04-12 High performance computing system and method TWI338232B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/824,874 US8335909B2 (en) 2004-04-15 2004-04-15 Coupling processors to each other for high performance computing (HPC)

Publications (2)

Publication Number Publication Date
TW200619972A TW200619972A (en) 2006-06-16
TWI338232B true TWI338232B (en) 2011-03-01

Family

ID=34711924

Family Applications (1)

Application Number Title Priority Date Filing Date
TW094111492A TWI338232B (en) 2004-04-15 2005-04-12 High performance computing system and method

Country Status (10)

Country Link
US (4) US8335909B2 (zh)
EP (2) EP1566738A3 (zh)
JP (1) JP4560435B2 (zh)
KR (1) KR101159377B1 (zh)
CN (1) CN1704921B (zh)
CA (1) CA2503775C (zh)
IL (1) IL178608A (zh)
MY (1) MY147118A (zh)
TW (1) TWI338232B (zh)
WO (1) WO2005106696A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI635393B (zh) * 2015-01-27 2018-09-11 日本電氣股份有限公司 虛擬化系統、伺服器、終端機、虛擬化方法及程式記錄媒體

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8190714B2 (en) * 2004-04-15 2012-05-29 Raytheon Company System and method for computer cluster virtualization using dynamic boot images and virtual disk
US9178784B2 (en) * 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US7711977B2 (en) * 2004-04-15 2010-05-04 Raytheon Company System and method for detecting and managing HPC node failure
US8336040B2 (en) 2004-04-15 2012-12-18 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US8335909B2 (en) 2004-04-15 2012-12-18 Raytheon Company Coupling processors to each other for high performance computing (HPC)
US20050235055A1 (en) * 2004-04-15 2005-10-20 Raytheon Company Graphical user interface for managing HPC clusters
JP4477437B2 (ja) * 2004-07-02 2010-06-09 株式会社日立製作所 ストレージ装置、そのクラスタ間データ通信方法、及びそのクラスタ通信制御プログラム
US7475274B2 (en) * 2004-11-17 2009-01-06 Raytheon Company Fault tolerance and recovery in a high-performance computing (HPC) system
US8244882B2 (en) * 2004-11-17 2012-08-14 Raytheon Company On-demand instantiation in a high-performance computing (HPC) system
US7433931B2 (en) * 2004-11-17 2008-10-07 Raytheon Company Scheduling in a high-performance computing (HPC) system
US7698493B2 (en) * 2005-08-31 2010-04-13 Ati Technologies, Inc. Methods and apparatus for translating write request messages in a computing system
US7805560B2 (en) * 2005-08-31 2010-09-28 Ati Technologies Inc. Methods and apparatus for translating messages in a computing system
KR100730279B1 (ko) * 2005-12-16 2007-06-19 삼성전자주식회사 스타 토로스 토폴로지를 이용하여 칩 상의 디바이스를연결한 컴퓨터 칩
US7870306B2 (en) 2006-08-31 2011-01-11 Cisco Technology, Inc. Shared memory message switch and cache
US7865633B2 (en) * 2006-08-31 2011-01-04 Cisco Technology, Inc. Multiple context single logic virtual host channel adapter
US7996583B2 (en) * 2006-08-31 2011-08-09 Cisco Technology, Inc. Multiple context single logic virtual host channel adapter supporting multiple transport protocols
JP5078347B2 (ja) * 2006-12-28 2012-11-21 インターナショナル・ビジネス・マシーンズ・コーポレーション 複数のノードを有するコンピュータ・システムの故障ノードをフェイルオーバー(修復)する方法
US7653773B2 (en) * 2007-10-03 2010-01-26 International Business Machines Corporation Dynamically balancing bus bandwidth
US8595378B1 (en) * 2009-03-30 2013-11-26 Amazon Technologies, Inc. Managing communications having multiple alternative destinations
US9094317B2 (en) 2009-06-18 2015-07-28 Hewlett-Packard Development Company, L.P. Processor topology switches
JP4797095B2 (ja) * 2009-07-24 2011-10-19 株式会社日立製作所 バッチ処理多重化方法
US9063825B1 (en) * 2009-09-21 2015-06-23 Tilera Corporation Memory controller load balancing with configurable striping domains
CN102096655B (zh) * 2011-01-31 2013-02-20 中国科学院计算技术研究所 一种移动hpc系统及其实现方法
JP5665208B2 (ja) 2011-10-26 2015-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ハイパーキューブ・ネットワーク内のデータ伝送の最適化
US20130227190A1 (en) * 2012-02-27 2013-08-29 Raytheon Company High Data-Rate Processing System
US9311122B2 (en) * 2012-03-26 2016-04-12 Oracle International Corporation System and method for providing a scalable signaling mechanism for virtual machine migration in a middleware machine environment
US9432304B2 (en) 2012-03-26 2016-08-30 Oracle International Corporation System and method for supporting live migration of virtual machines based on an extended host channel adaptor (HCA) model
US9612877B1 (en) 2012-07-12 2017-04-04 Cisco Technology, Inc. High performance computing in a virtualized environment
CN102932276B (zh) * 2012-10-09 2015-01-14 无锡江南计算技术研究所 计算节点集群系统和数据中继器
US9078577B2 (en) 2012-12-06 2015-07-14 Massachusetts Institute Of Technology Circuit for heartbeat detection and beat timing extraction
CN103136141A (zh) * 2013-02-06 2013-06-05 浪潮电子信息产业股份有限公司 一种多控制器间的高速互联方法
US10230794B2 (en) 2013-03-15 2019-03-12 Oracle International Corporation System and method for efficient virtualization in lossless interconnection networks
US9990221B2 (en) 2013-03-15 2018-06-05 Oracle International Corporation System and method for providing an infiniband SR-IOV vSwitch architecture for a high performance cloud computing environment
US9183071B1 (en) 2013-12-02 2015-11-10 Leidos, Inc. System and method for automated hardware compatibility testing
CN104199801A (zh) * 2014-08-26 2014-12-10 山东超越数控电子有限公司 一种基于龙芯服务器的高性能计算集群的实现方法
US9723009B2 (en) 2014-09-09 2017-08-01 Oracle International Corporation System and method for providing for secure network communication in a multi-tenant environment
CN104468810A (zh) * 2014-12-18 2015-03-25 山东超越数控电子有限公司 一种基于龙芯平台的高性能计算资源监控实现方法
US10101786B2 (en) 2014-12-22 2018-10-16 Intel Corporation Holistic global performance and power management
US10466754B2 (en) 2014-12-26 2019-11-05 Intel Corporation Dynamic hierarchical performance balancing of computational resources
US10833940B2 (en) * 2015-03-09 2020-11-10 Vapor IO Inc. Autonomous distributed workload and infrastructure scheduling
KR102237991B1 (ko) 2015-03-20 2021-04-08 한국전자통신연구원 Pci 익스프레스 전용 통신 모듈을 이용한 통신 방법과 이를 포함하는 네트워크 장치
EP3079072A1 (en) * 2015-04-10 2016-10-12 Politechnika Lodzka A parallel machine with reduced number of connections between logical circuits
US9933826B2 (en) 2015-05-11 2018-04-03 Hewlett Packard Enterprise Development Lp Method and apparatus for managing nodal power in a high performance computer system
US10429909B2 (en) 2015-06-01 2019-10-01 Hewlett Packard Enterprise Development Lp Managing power in a high performance computing system for resiliency and cooling
US10416916B2 (en) * 2015-10-19 2019-09-17 Telefonaktiebolaget Lm Ericsson (Publ) Method and memory merging function for merging memory pages
RU2635896C1 (ru) * 2016-07-07 2017-11-16 Акционерное общество "Научно-исследовательский институт вычислительных комплексов им. М.А. Карцева" (АО "НИИВК им. М.А. Карцева") Высокопроизводительная вычислительная платформа на базе процессоров с разнородной архитектурой
US10317888B2 (en) 2017-03-01 2019-06-11 PLETHORA IloT, S.L. Device and system including multiple devices for supervision and control of machines in industrial installation
KR102169927B1 (ko) * 2017-10-16 2020-10-26 한국전자기술연구원 스토리지 자원 관리를 위한 3d 시각화 도구를 제공하는 스토리지 관리장치 및 스토리지 관리방법
CN109976899A (zh) * 2017-12-28 2019-07-05 李耀庭 一种分布式运算系统
RU2699254C1 (ru) * 2018-10-30 2019-09-04 Федеральное государственное унитарное предприятие "Научно-исследовательский институт "Квант" Реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и управления
US11108583B2 (en) * 2018-11-19 2021-08-31 International Business Machines Corporation Collaborative learning and enabling skills among smart devices within a closed social network group
US11184245B2 (en) 2020-03-06 2021-11-23 International Business Machines Corporation Configuring computing nodes in a three-dimensional mesh topology
WO2023277631A1 (ko) * 2021-07-01 2023-01-05 엘지전자 주식회사 차량용 통신 장치 및 이를 구비하는 차량

Family Cites Families (201)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5969392A (ja) 1982-10-08 1984-04-19 株式会社 彦間製作所 クレ−ン車輌
US4885770A (en) * 1987-09-04 1989-12-05 Digital Equipment Corporation Boot system for distributed digital data processing system
US4868818A (en) * 1987-10-29 1989-09-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Fault tolerant hypercube computer system architecture
US5020059A (en) * 1989-03-31 1991-05-28 At&T Bell Laboratories Reconfigurable signal processor
AU7499291A (en) 1990-03-05 1991-10-10 Massachusetts Institute Of Technology Switching networks with expansive and/or dispersive logical clusters for message routing
US5396635A (en) * 1990-06-01 1995-03-07 Vadem Corporation Power conservation apparatus having multiple power reduction levels dependent upon the activity of the computer system
US5301104A (en) * 1990-08-07 1994-04-05 Honeywell Inc. Method for allocating processing elements interconnected in a hypercube topology
US5588152A (en) 1990-11-13 1996-12-24 International Business Machines Corporation Advanced parallel processor including advanced support hardware
US5590345A (en) * 1990-11-13 1996-12-31 International Business Machines Corporation Advanced parallel array processor(APAP)
US5495474A (en) 1991-03-29 1996-02-27 International Business Machines Corp. Switch-based microchannel planar apparatus
US5321813A (en) 1991-05-01 1994-06-14 Teradata Corporation Reconfigurable, fault tolerant, multistage interconnect network and protocol
US5280607A (en) * 1991-06-28 1994-01-18 International Business Machines Corporation Method and apparatus for tolerating faults in mesh architectures
JPH05274178A (ja) 1992-03-25 1993-10-22 Fujitsu Ltd 並列計算機デバッグ結果表示処理方式
US5459857A (en) 1992-05-15 1995-10-17 Storage Technology Corporation Fault tolerant disk array data storage subsystem
CA2106280C (en) * 1992-09-30 2000-01-18 Yennun Huang Apparatus and methods for fault-tolerant computing employing a daemon monitoring process and fault-tolerant library to provide varying degrees of fault tolerance
US5781715A (en) * 1992-10-13 1998-07-14 International Business Machines Corporation Fault-tolerant bridge/router with a distributed switch-over mechanism
US5513313A (en) * 1993-01-19 1996-04-30 International Business Machines Corporation Method for generating hierarchical fault-tolerant mesh architectures
US5729752A (en) 1993-02-19 1998-03-17 Hewlett-Packard Company Network connection scheme
JPH07141305A (ja) * 1993-11-16 1995-06-02 Hitachi Ltd 並列計算機の実行制御方法
US5583990A (en) * 1993-12-10 1996-12-10 Cray Research, Inc. System for allocating messages between virtual channels to avoid deadlock and to optimize the amount of message traffic on each type of virtual channel
US5450578A (en) * 1993-12-23 1995-09-12 Unisys Corporation Method and apparatus for automatically routing around faults within an interconnect system
JP3541212B2 (ja) * 1993-12-28 2004-07-07 富士通株式会社 プロセッサ割当て装置
EP1037279B1 (en) * 1994-03-22 2003-03-05 Hyperchip Inc. Massively parallel data processing system with photovoltaic cells for absorbing ambiant light
US6408402B1 (en) * 1994-03-22 2002-06-18 Hyperchip Inc. Efficient direct replacement cell fault tolerant architecture
JPH08227356A (ja) 1994-12-21 1996-09-03 Tec Corp データ処理装置
US5682491A (en) * 1994-12-29 1997-10-28 International Business Machines Corporation Selective processing and routing of results among processors controlled by decoding instructions using mask value derived from instruction tag and processor identifier
US5603044A (en) * 1995-02-08 1997-02-11 International Business Machines Corporation Interconnection network for a multi-nodal data processing system which exhibits incremental scalability
US5872928A (en) * 1995-02-24 1999-02-16 Cabletron Systems, Inc. Method and apparatus for defining and enforcing policies for configuration management in communications networks
US5889953A (en) * 1995-05-25 1999-03-30 Cabletron Systems, Inc. Policy management and conflict resolution in computer networks
JPH09496A (ja) 1995-06-23 1997-01-07 Canon Inc 眼底映像装置
JPH0926941A (ja) * 1995-07-10 1997-01-28 Mitsubishi Electric Corp データ処理装置
US5805785A (en) * 1996-02-27 1998-09-08 International Business Machines Corporation Method for monitoring and recovery of subsystems in a distributed/clustered system
US6006242A (en) * 1996-04-05 1999-12-21 Bankers Systems, Inc. Apparatus and method for dynamically creating a document
US5805786A (en) * 1996-07-23 1998-09-08 International Business Machines Corporation Recovery of a name server managing membership of a domain of processors in a distributed computing environment
US6393581B1 (en) * 1996-08-29 2002-05-21 Cornell Research Foundation, Inc. Reliable time delay-constrained cluster computing
US6009481A (en) 1996-09-30 1999-12-28 Emc Corporation Mass storage system using internal system-level mirroring
JPH10116261A (ja) 1996-10-14 1998-05-06 Hitachi Ltd 並列計算機システムのチェックポイントリスタート方法
KR100207598B1 (ko) 1997-01-27 1999-07-15 윤종용 상호연결망으로서 파이브 채널을 사용한 클러스터시스템
US5933631A (en) * 1997-03-17 1999-08-03 International Business Machines Corporation Dynamic boot filesystem selection
US6029246A (en) * 1997-03-31 2000-02-22 Symantec Corporation Network distributed system for updating locally secured objects in client machines
US5991877A (en) * 1997-04-03 1999-11-23 Lockheed Martin Corporation Object-oriented trusted application framework
US6088330A (en) * 1997-09-09 2000-07-11 Bruck; Joshua Reliable array of distributed computing nodes
US6167502A (en) * 1997-10-10 2000-12-26 Billions Of Operations Per Second, Inc. Method and apparatus for manifold array processing
US6230252B1 (en) * 1997-11-17 2001-05-08 Silicon Graphics, Inc. Hybrid hypercube/torus architecture
US6633945B1 (en) * 1997-12-07 2003-10-14 Conexant Systems, Inc. Fully connected cache coherent multiprocessing systems
US5941972A (en) 1997-12-31 1999-08-24 Crossroads Systems, Inc. Storage router and method for providing virtual local storage
US6480927B1 (en) 1997-12-31 2002-11-12 Unisys Corporation High-performance modular memory system with crossbar connections
US6477663B1 (en) * 1998-04-09 2002-11-05 Compaq Computer Corporation Method and apparatus for providing process pair protection for complex applications
JP3999353B2 (ja) 1998-05-29 2007-10-31 株式会社東芝 コンピュータネットワークにおける通信経路の決定方法ならびにシステム及び同方法がプログラムされ記録される記録媒体
JP3342665B2 (ja) 1998-06-17 2002-11-11 株式会社カスト 表示装置
US6189100B1 (en) * 1998-06-30 2001-02-13 Microsoft Corporation Ensuring the integrity of remote boot client data
US6195760B1 (en) 1998-07-20 2001-02-27 Lucent Technologies Inc Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US6466932B1 (en) * 1998-08-14 2002-10-15 Microsoft Corporation System and method for implementing group policy
JP2000112906A (ja) 1998-10-01 2000-04-21 Mitsubishi Electric Corp クラスタシステム
US6683696B1 (en) * 1998-10-27 2004-01-27 Hewlett-Packard Development Company, L.P. Filter based data imaging method for an image forming device
US6158010A (en) * 1998-10-28 2000-12-05 Crosslogix, Inc. System and method for maintaining security in a distributed computer network
US6691165B1 (en) * 1998-11-10 2004-02-10 Rainfinity, Inc. Distributed server cluster for controlling network traffic
US6496941B1 (en) 1998-12-29 2002-12-17 At&T Corp. Network disaster recovery and analysis tool
US6468112B1 (en) 1999-01-11 2002-10-22 Adc Telecommunications, Inc. Vertical cable management system with ribcage structure
US6480972B1 (en) * 1999-02-24 2002-11-12 International Business Machines Corporation Data processing system and method for permitting a server to remotely perform diagnostics on a malfunctioning client computer system
US6646984B1 (en) 1999-03-15 2003-11-11 Hewlett-Packard Development Company, L.P. Network topology with asymmetric fabrics
US6453426B1 (en) * 1999-03-26 2002-09-17 Microsoft Corporation Separately storing core boot data and cluster configuration data in a server cluster
US6622233B1 (en) * 1999-03-31 2003-09-16 Star Bridge Systems, Inc. Hypercomputer
US6408326B1 (en) * 1999-04-20 2002-06-18 Microsoft Corporation Method and system for applying a policy to binary data
US6718486B1 (en) * 2000-01-26 2004-04-06 David E. Lovejoy Fault monitor for restarting failed instances of the fault monitor
US6597956B1 (en) * 1999-08-23 2003-07-22 Terraspring, Inc. Method and apparatus for controlling an extensible computing system
US6415323B1 (en) * 1999-09-03 2002-07-02 Fastforward Networks Proximity-based redirection system for robust and scalable service-node location in an internetwork
US6741983B1 (en) * 1999-09-28 2004-05-25 John D. Birdwell Method of indexed storage and retrieval of multidimensional information
US6571030B1 (en) 1999-11-02 2003-05-27 Xros, Inc. Optical cross-connect switching system
US6629266B1 (en) * 1999-11-17 2003-09-30 International Business Machines Corporation Method and system for transparent symptom-based selective software rejuvenation
US6748437B1 (en) * 2000-01-10 2004-06-08 Sun Microsystems, Inc. Method for creating forwarding lists for cluster networking
US20020103889A1 (en) 2000-02-11 2002-08-01 Thomas Markson Virtual storage layer approach for dynamically associating computer storage with processing hosts
WO2001061930A1 (fr) 2000-02-21 2001-08-23 Kabushiki Kaisha Toshiba Dispositif de commande de moniteur et procede d'installation d'une voie de communication
US6460149B1 (en) * 2000-03-03 2002-10-01 International Business Machines Corporation Suicide among well-mannered cluster nodes experiencing heartbeat failure
WO2001071524A1 (en) * 2000-03-22 2001-09-27 Yotta Yotta, Inc. Method and system for providing multimedia information on demand over wide area networks
US6785713B1 (en) * 2000-05-08 2004-08-31 Citrix Systems, Inc. Method and apparatus for communicating among a network of servers utilizing a transport mechanism
US6658504B1 (en) 2000-05-16 2003-12-02 Eurologic Systems Storage apparatus
US6865157B1 (en) 2000-05-26 2005-03-08 Emc Corporation Fault tolerant shared system resource with communications passthrough providing high availability communications
US20040034794A1 (en) * 2000-05-28 2004-02-19 Yaron Mayer System and method for comprehensive general generic protection for computers against malicious programs that may steal information and/or cause damages
US6591285B1 (en) 2000-06-16 2003-07-08 Shuo-Yen Robert Li Running-sum adder networks determined by recursive construction of multi-stage networks
US6820171B1 (en) 2000-06-30 2004-11-16 Lsi Logic Corporation Methods and structures for an extensible RAID storage architecture
JP4292693B2 (ja) 2000-07-07 2009-07-08 株式会社日立製作所 計算機資源分割装置および資源分割方法
US6643764B1 (en) * 2000-07-20 2003-11-04 Silicon Graphics, Inc. Multiprocessor system utilizing multiple links to improve point to point bandwidth
US6697914B1 (en) 2000-09-11 2004-02-24 Western Digital Ventures, Inc. Switched node comprising a disk controller with integrated multi-port switching circuitry
US6977927B1 (en) 2000-09-18 2005-12-20 Hewlett-Packard Development Company, L.P. Method and system of allocating storage resources in a storage area network
US7061907B1 (en) 2000-09-26 2006-06-13 Dell Products L.P. System and method for field upgradeable switches built from routing components
US7032119B2 (en) * 2000-09-27 2006-04-18 Amphus, Inc. Dynamic power and workload management for multi-server system
JP2002108839A (ja) 2000-09-28 2002-04-12 Mitsubishi Electric Corp 通信ネットワークシステム、ジョブ割当方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20010000624A (ko) 2000-10-10 2001-01-05 최은석 고성능 컴퓨터를 이용한 연산기능 제공방법
US7428583B1 (en) * 2000-10-31 2008-09-23 Intel Corporation Network policy distribution
US7055148B2 (en) * 2000-12-07 2006-05-30 Hewlett-Packard Development Company, L.P. System and method for updating firmware
US6792507B2 (en) 2000-12-14 2004-09-14 Maxxan Systems, Inc. Caching system and method for a network storage system
US6735660B1 (en) * 2000-12-21 2004-05-11 International Business Machines Corporation Sideband signal transmission between host and input/output adapter
EP1370947A4 (en) 2001-02-13 2009-05-27 Candera Inc STORAGE VIRTUALIZATION SERVER SILICON BASE
WO2002084509A1 (en) 2001-02-24 2002-10-24 International Business Machines Corporation A novel massively parrallel supercomputer
CN1319237C (zh) 2001-02-24 2007-05-30 国际商业机器公司 超级计算机中通过动态重新划分的容错
US7107337B2 (en) * 2001-06-07 2006-09-12 Emc Corporation Data storage system with integrated switching
US6728736B2 (en) 2001-03-14 2004-04-27 Storage Technology Corporation System and method for synchronizing a data copy using an accumulation remote copy trio
US6952766B2 (en) * 2001-03-15 2005-10-04 International Business Machines Corporation Automated node restart in clustered computer system
US7028228B1 (en) * 2001-03-28 2006-04-11 The Shoregroup, Inc. Method and apparatus for identifying problems in computer networks
US6918051B2 (en) * 2001-04-06 2005-07-12 International Business Machines Corporation Node shutdown in clustered computer system
US6820221B2 (en) * 2001-04-13 2004-11-16 Hewlett-Packard Development Company, L.P. System and method for detecting process and network failures in a distributed system
US7231430B2 (en) * 2001-04-20 2007-06-12 Egenera, Inc. Reconfigurable, virtual processing system, cluster, network and method
US7042877B2 (en) 2001-04-27 2006-05-09 The Boeing Company Integrated analysis of incoming data transmissions
US6675264B2 (en) * 2001-05-07 2004-01-06 International Business Machines Corporation Method and apparatus for improving write performance in a cluster-based file system
US6587921B2 (en) 2001-05-07 2003-07-01 International Business Machines Corporation Method and apparatus for cache synchronization in a clustered environment
US6996674B2 (en) 2001-05-07 2006-02-07 International Business Machines Corporation Method and apparatus for a global cache directory in a storage cluster
US20030063839A1 (en) 2001-05-11 2003-04-03 Scott Kaminski Fault isolation of individual switch modules using robust switch architecture
US7155512B2 (en) 2001-05-23 2006-12-26 Tekelec Methods and systems for automatically configuring network monitoring system
US6950833B2 (en) * 2001-06-05 2005-09-27 Silicon Graphics, Inc. Clustered filesystem
US8010558B2 (en) * 2001-06-05 2011-08-30 Silicon Graphics International Relocation of metadata server with outstanding DMAPI requests
US6988193B2 (en) * 2001-06-28 2006-01-17 International Business Machines Corporation System and method for creating a definition for a target device based on an architecture configuration of the target device at a boot server
US20030005039A1 (en) 2001-06-29 2003-01-02 International Business Machines Corporation End node partitioning using local identifiers
US8032625B2 (en) * 2001-06-29 2011-10-04 International Business Machines Corporation Method and system for a network management framework with redundant failover methodology
SE0102405D0 (sv) 2001-07-04 2001-07-04 Software Run Ab A system and a method for selecting a preconfigured operating system for a server
GB0116310D0 (en) 2001-07-04 2001-08-29 New Transducers Ltd Contact sensitive device
US7139267B2 (en) 2002-03-05 2006-11-21 Industrial Technology Research Institute System and method of stacking network switches
US7065764B1 (en) 2001-07-20 2006-06-20 Netrendered, Inc. Dynamically allocated cluster system
US6944785B2 (en) 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
US7016299B2 (en) * 2001-07-27 2006-03-21 International Business Machines Corporation Network node failover using path rerouting by manager component or switch port remapping
US7139811B2 (en) 2001-08-01 2006-11-21 Actona Technologies Ltd. Double-proxy remote data access system
EP1283464A1 (en) * 2001-08-06 2003-02-12 Hewlett-Packard Company A boot process for a computer, a boot ROM and a computer having a boot ROM
US6922791B2 (en) * 2001-08-09 2005-07-26 Dell Products L.P. Failover system and method for cluster environment
JP2003099412A (ja) 2001-09-21 2003-04-04 Hitachi Eng Co Ltd 超並列コンピュータ
TW532011B (en) 2001-09-21 2003-05-11 Jiun-Sheng Chen Network topology structure on board of computer cluster
US6976134B1 (en) 2001-09-28 2005-12-13 Emc Corporation Pooling and provisioning storage resources in a storage network
US7340555B2 (en) 2001-09-28 2008-03-04 Dot Hill Systems Corporation RAID system for performing efficient mirrored posted-write operations
US7185062B2 (en) 2001-09-28 2007-02-27 Emc Corporation Switch-based storage services
US7073053B1 (en) * 2001-10-11 2006-07-04 Cisco Technology, Inc. Method and apparatus for a boot progression scheme for reliably initializing a system
GB2381713A (en) * 2001-11-01 2003-05-07 3Com Corp Failover mechanism involving blocking of access of a malfunctioning server and continuing monitoring to enable unblocking of access if server recovers
US7127633B1 (en) 2001-11-15 2006-10-24 Xiotech Corporation System and method to failover storage area network targets from one interface to another
US6904482B2 (en) * 2001-11-20 2005-06-07 Intel Corporation Common boot environment for a modular server system
US7055056B2 (en) 2001-11-21 2006-05-30 Hewlett-Packard Development Company, L.P. System and method for ensuring the availability of a storage system
JP2003162515A (ja) 2001-11-22 2003-06-06 Fujitsu Ltd クラスタシステム
US7574496B2 (en) 2001-11-30 2009-08-11 Surgient, Inc. Virtual server cloud interfacing
EP1318453A1 (en) 2001-12-07 2003-06-11 Hewlett-Packard Company Scheduling system, method and apparatus for a cluster
CA2365729A1 (en) * 2001-12-20 2003-06-20 Platform Computing (Barbados) Inc. Topology aware scheduling for a multiprocessor system
US7046687B1 (en) * 2002-01-16 2006-05-16 Tau Networks Configurable virtual output queues in a scalable switching system
US6918063B2 (en) * 2002-02-04 2005-07-12 International Business Machines Corporation System and method for fault tolerance in multi-node system
US7093004B2 (en) * 2002-02-04 2006-08-15 Datasynapse, Inc. Using execution statistics to select tasks for redundant assignment in a distributed computing platform
US7640547B2 (en) * 2002-02-08 2009-12-29 Jpmorgan Chase & Co. System and method for allocating computing resources of a distributed computing system
JP2003237423A (ja) 2002-02-19 2003-08-27 Kubota Corp 農用作業車
DE10214067B4 (de) * 2002-03-28 2010-01-21 Advanced Micro Devices, Inc., Sunnyvale Integrierter Schaltkreischip mit Hochgeschwindigkeitsdatenschnittstelle sowie zugehöriges Southbridgebauelement und Verfahren
US7043539B1 (en) * 2002-03-29 2006-05-09 Terraspring, Inc. Generating a description of a configuration for a virtual network system
US7406038B1 (en) 2002-04-05 2008-07-29 Ciphermax, Incorporated System and method for expansion of computer network switching system without disruption thereof
JP2003296272A (ja) * 2002-04-08 2003-10-17 Hitachi Ltd 通信システム,通信装置およびクライアント側通信端末
US7139798B2 (en) 2002-05-17 2006-11-21 Groove Networks, Inc. Method and apparatus for connecting a secure peer-to-peer collaboration system to an external system
US20030233427A1 (en) 2002-05-29 2003-12-18 Hitachi, Ltd. System and method for storage network management
US7161904B2 (en) 2002-06-04 2007-01-09 Fortinet, Inc. System and method for hierarchical metering in a virtual router based network switch
JP3932994B2 (ja) 2002-06-25 2007-06-20 株式会社日立製作所 サーバ引継システムおよびその方法
US20040148376A1 (en) 2002-06-28 2004-07-29 Brocade Communications Systems, Inc. Storage area network processing device
DE10234992A1 (de) * 2002-07-31 2004-02-19 Advanced Micro Devices, Inc., Sunnyvale Retry-Mechanismus für blockierende Schnittstellen
US7765299B2 (en) 2002-09-16 2010-07-27 Hewlett-Packard Development Company, L.P. Dynamic adaptive server provisioning for blade architectures
US7127597B2 (en) * 2002-09-24 2006-10-24 Novell, Inc. Mechanism for controlling boot decisions from a network policy directory based on client profile information
JP2004126968A (ja) 2002-10-03 2004-04-22 Fujitsu Ltd 並列計算機のジョブスケジューリング装置
IL152676A0 (en) 2002-11-06 2003-06-24 Teracross Ltd Method and apparatus for high performance single block scheduling in distributed systems
US7117306B2 (en) 2002-12-19 2006-10-03 Intel Corporation Mitigating access penalty of a semiconductor nonvolatile memory
US7039765B1 (en) 2002-12-19 2006-05-02 Hewlett-Packard Development Company, L.P. Techniques for cache memory management using read and write operations
JP4037257B2 (ja) 2002-12-26 2008-01-23 株式会社日立製作所 情報処理システムの制御方法、情報処理システム、及びプログラム
US7245617B2 (en) 2003-02-07 2007-07-17 Fujitsu Limited Queuing packets written to memory for switching
US6941396B1 (en) 2003-02-19 2005-09-06 Istor Networks, Inc. Storage controller redundancy using bi-directional reflective memory channel
US20040210656A1 (en) * 2003-04-16 2004-10-21 Silicon Graphics, Inc. Failsafe operation of storage area network
US7287179B2 (en) * 2003-05-15 2007-10-23 International Business Machines Corporation Autonomic failover of grid-based services
US7287137B2 (en) 2003-06-06 2007-10-23 Hewlett-Packard Development Company, L.P. Batched, asynchronous data redundancy technique
US7007125B2 (en) * 2003-06-24 2006-02-28 International Business Machines Corporation Pass through circuit for reduced memory latency in a multiprocessor system
US7379983B2 (en) * 2003-06-25 2008-05-27 International Business Machines Corporation Merging scalable nodes into single-partition merged system using service processors of nodes
US7299334B2 (en) 2003-07-15 2007-11-20 Xiv Ltd. Storage system configurations
US7644153B2 (en) * 2003-07-31 2010-01-05 Hewlett-Packard Development Company, L.P. Resource allocation management in interactive grid computing systems
US7483374B2 (en) 2003-08-05 2009-01-27 Scalent Systems, Inc. Method and apparatus for achieving dynamic capacity and high availability in multi-stage data networks using adaptive flow-based routing
US7487235B2 (en) 2003-09-24 2009-02-03 Dell Products L.P. Dynamically varying a raid cache policy in order to optimize throughput
EP1678617A4 (en) * 2003-10-08 2008-03-26 Unisys Corp COMPUTER SYSTEM PARAVIRTUALIZATION BY USING A HYPERVISOR IMPLEMENTED IN A PARTITION OF THE HOST SYSTEM
US7207039B2 (en) * 2003-12-24 2007-04-17 Intel Corporation Secure booting and provisioning
US7693991B2 (en) 2004-01-16 2010-04-06 International Business Machines Corporation Virtual clustering and load balancing servers
JP4441286B2 (ja) 2004-02-10 2010-03-31 株式会社日立製作所 ストレージシステム
US7527155B2 (en) 2004-02-11 2009-05-05 International Business Machines Corporation Apparatus and system for vertically storing computing devices
US7685597B1 (en) * 2004-02-20 2010-03-23 Sun Microsystems, Inc. System and method for management of characterized resources
US8484348B2 (en) * 2004-03-05 2013-07-09 Rockstar Consortium Us Lp Method and apparatus for facilitating fulfillment of web-service requests on a communication network
JP4147198B2 (ja) 2004-03-23 2008-09-10 株式会社日立製作所 ストレージシステム
US20050256942A1 (en) * 2004-03-24 2005-11-17 Mccardle William M Cluster management system and method
US8335909B2 (en) 2004-04-15 2012-12-18 Raytheon Company Coupling processors to each other for high performance computing (HPC)
US7711977B2 (en) * 2004-04-15 2010-05-04 Raytheon Company System and method for detecting and managing HPC node failure
US20050235055A1 (en) 2004-04-15 2005-10-20 Raytheon Company Graphical user interface for managing HPC clusters
US9178784B2 (en) * 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US8190714B2 (en) * 2004-04-15 2012-05-29 Raytheon Company System and method for computer cluster virtualization using dynamic boot images and virtual disk
US8336040B2 (en) 2004-04-15 2012-12-18 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US7484247B2 (en) 2004-08-07 2009-01-27 Allen F Rozman System and method for protecting a computer system from malicious software
JP2006065697A (ja) 2004-08-27 2006-03-09 Hitachi Ltd 記憶デバイス制御装置
US8244882B2 (en) * 2004-11-17 2012-08-14 Raytheon Company On-demand instantiation in a high-performance computing (HPC) system
US7433931B2 (en) * 2004-11-17 2008-10-07 Raytheon Company Scheduling in a high-performance computing (HPC) system
US7475274B2 (en) * 2004-11-17 2009-01-06 Raytheon Company Fault tolerance and recovery in a high-performance computing (HPC) system
JP4457019B2 (ja) 2005-01-05 2010-04-28 富士通株式会社 情報処理システム及び一次ストレージ装置
US7386662B1 (en) 2005-06-20 2008-06-10 Symantec Operating Corporation Coordination of caching and I/O management in a multi-layer virtualized storage environment
ATE392097T1 (de) 2005-06-20 2008-04-15 Alcatel Lucent Fehlertolerante schaltmatrix mit einer ebene für ein telekommunikationssystem
US20070038749A1 (en) 2005-07-29 2007-02-15 Broadcom Corporation Combined local and network storage interface
JP2007141305A (ja) 2005-11-16 2007-06-07 Hitachi Global Storage Technologies Netherlands Bv 磁気ディスク装置
US7720377B2 (en) 2006-01-23 2010-05-18 Hewlett-Packard Development Company, L.P. Compute clusters employing photonic interconnections for transmitting optical signals between compute cluster nodes
US20070253437A1 (en) 2006-04-28 2007-11-01 Ramesh Radhakrishnan System and method for intelligent information handling system cluster switches
US20080101395A1 (en) 2006-10-30 2008-05-01 Raytheon Company System and Method for Networking Computer Clusters
US8160061B2 (en) 2006-12-29 2012-04-17 Raytheon Company Redundant network shared switch
EP2100224B1 (en) 2007-01-03 2010-12-22 Raytheon Company Computer storage system
JP6224358B2 (ja) 2013-06-14 2017-11-01 株式会社Nttドコモ 無線基地局、ユーザ端末及び無線通信方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI635393B (zh) * 2015-01-27 2018-09-11 日本電氣股份有限公司 虛擬化系統、伺服器、終端機、虛擬化方法及程式記錄媒體

Also Published As

Publication number Publication date
KR101159377B1 (ko) 2012-06-27
IL178608A (en) 2012-07-31
US20130103929A1 (en) 2013-04-25
KR20070011503A (ko) 2007-01-24
US10769088B2 (en) 2020-09-08
CN1704921B (zh) 2010-06-23
IL178608A0 (en) 2007-02-11
CA2503775C (en) 2012-08-28
US10289586B2 (en) 2019-05-14
MY147118A (en) 2012-10-31
JP4560435B2 (ja) 2010-10-13
CN1704921A (zh) 2005-12-07
CA2503775A1 (en) 2005-10-15
US20150212964A1 (en) 2015-07-30
EP1566738A2 (en) 2005-08-24
WO2005106696A1 (en) 2005-11-10
US8335909B2 (en) 2012-12-18
EP1814029A2 (en) 2007-08-01
US9037833B2 (en) 2015-05-19
US20050235092A1 (en) 2005-10-20
EP1814029A3 (en) 2009-04-22
JP2005316997A (ja) 2005-11-10
TW200619972A (en) 2006-06-16
EP1566738A3 (en) 2005-09-07
US20190294576A1 (en) 2019-09-26

Similar Documents

Publication Publication Date Title
TWI338232B (en) High performance computing system and method
US10621009B2 (en) System and method for topology-aware job scheduling and backfilling in an HPC environment
JP4833965B2 (ja) Hpcアーキテクチャに基づいたクラスタ管理のシステム及び方法
US7711977B2 (en) System and method for detecting and managing HPC node failure
US20050235055A1 (en) Graphical user interface for managing HPC clusters

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees