TW457437B - Interconnected processing nodes configurable as at least one non-uniform memory access (NUMA) data processing system - Google Patents

Interconnected processing nodes configurable as at least one non-uniform memory access (NUMA) data processing system Download PDF

Info

Publication number
TW457437B
TW457437B TW089105091A TW89105091A TW457437B TW 457437 B TW457437 B TW 457437B TW 089105091 A TW089105091 A TW 089105091A TW 89105091 A TW89105091 A TW 89105091A TW 457437 B TW457437 B TW 457437B
Authority
TW
Taiwan
Prior art keywords
processing
data processing
nodes
processing nodes
configuration
Prior art date
Application number
TW089105091A
Other languages
English (en)
Inventor
Bishop Chapman Brock
David Brian Glasco
James Lyle Peterson
Ramakurishinan Rajamoni
Ronald Rin Rockhold
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Application granted granted Critical
Publication of TW457437B publication Critical patent/TW457437B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/177Initialisation or configuration control

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Memory System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

574 3 A7 B7 五、發明說明() 發明頜媸: 本發明概有關於資料處理’特別是有關於非一致性記 憶體存取(NUMA)資料處理系統。更特別是’本發明係有 關於互連處理節點之集合,可將其組態設定為單一或多個 資料處理系統,其中包括至少一個NUMA資料處理系統。 登明背景: 電腦業界眾知如將多個單一處理器排列共同作業以增 強處理能力,即可獲得較佳之電腦系統效能。多重處理器 (ΜP)電腦系統可以多個不同拓樸形式來設計,而根據其效 能需求與各應用之軟體環境,彼等不同形式中某一或可適 用於特定性應用。常用之ΜΡ電腦拓樸其中之一為對稱性 多重處理器(SMP)組態,其中多個處理器分享共用之諸項 資源,例如像是系統記憶體與輸入/輸出(I/O)子系統,該 者一般說來係耦接至共享式系統互連點。而稱這種電腦系 統為對稱性,是因為S Μ Ρ電腦系統内所有的處理器,對 於存故在分享式系統記憶體裡的資料方面,理想上均具有 相等的存取遲延》 經濟部智慧財產局8工消费合作社印製 雖然SMP電腦系統内可允許使用相對來說較為簡易的 處理器間通訊以及資料分享法則,不過SMP電腦系統的 擴充性仍會受限。換言之’雖然一般說來可預期藉由擴充 (即以另增之處理器)以改善SMP電腦系統的效能,但是内 _ 部既有之匯流排、記憶體與輪入/輸出(I / 〇 )頻寬限制等因 素,仍會妨礙到因彼等分享性資源最佳化而所得實作相關 第2頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公------ 經濟部智慧財產局員工消費合作社印製 4574 37 A7 B7 五、發明說明() 尺寸之外另行擴充SMP所獲致的顯著優點。因此’當系 統加以擴充時,該S Μ P拓樸本身即因頻寬限制而受到某 些程度的影響*特別是在系統記憶體方面》而由製造效率 的觀點來看’ S Μ Ρ電腦系統的也無法擴充地很好。譬如 說,雖然可將部分元件最佳化,以適用於單一處理器與小 型規模SMP電腦系統,但是彼等元件應用在大梨规模的 SΜΡ電腦系統上卻變成沒有效率。反過來說,設計用於大 型規模的SΜΡ電腦系統上的諸項元件,應用在小螌規模 SMP電腦系統時,從成本的觀點來看即變得不切實際。
因此,近來對於眾知為非一致性記憶體存取(NUMA) 的ΜΡ電腦系統拓樸有漸感興趣,而以某些額外的複雜度 為代價,來彌補SΜΡ電腦系統上的諸多限制。一典型的 NUM Α電腦系統包括有多個互連結點,各個節點上包含單 一或多個處理器以及一個區域性「系統j記憶體。稱呼這 種電腦系統為具有非一致性記憶體存取,是因為相對於存 放在遠端節點上系統記憶體内之資料來說,各個處理器對 於存放在其本地節點上系統記憶體内之資料會具有較低 的存取遲延》而根據是否要在不同節點上的各個快取間維 持資料之連貫性而定,NUMA系統可進一步再分類為非連 貫性或是快取連貫性。該快取連貫性numa(cc-numa) 系統的複雜度會讓大型規模的硬體增加额外通訊作業*以 維持其資料之連慣性,不僅是在各個節點之内的不同層級 _ 之快取與系統記憶 '體間,而且包含在不同節點上快取與系 統記憶體間亦然。不過,NUMA電腦系統係針對傳統SMP 第3Ή" 本紙張尺度適用中國國家標準(CNS)A4規格(210 * 297公茇) ·ι~ .k--------訂---------線 I (請先閲讀背面之注意ί項再填窝本頁) 457437 A7
五、發明說明() 經 濟 部 智 慧 財 產 局 消 费 合 作 社 印 製 電腦系統的擴充限制而設計,因為NUMA電腦系統内每 個即點均可以一個小型單一處理器或SMp系統的方式 來實作。因此,即可對應用於一個或少數處理器方面將各 個即點的分享式元件予以最佳化,而整體系統則受惠於較 大規模平行處理之可用性’但仍可維持其相對之低度遲延 效果。 本發明深知大型規模之NUMA資料處理系統之費用, 對於某些例如像是具有變異性的工作負載之計算環境而 丢係屬難以接受。即’在某些計算環境下其實極少需應用 大型規模之NUMA資料處理系統之處理資源來執行某一 單—應用程式,而卻經常採用多個小型資料處理系統,以 執行不同的作業系統及/或不同的應用程式β在本發明之 如’這種具有變異性的工作負載之計算環境,僅能由相異 規模’或是實體上依照需要而藉由對各節點連線或斷線來 進行某一NUMA系統組態重新設定之多重電腦系統所接 納。 查的碑;te械: 為解決本技藝上述之缺點,本發明特提供/款資料處 理系統’其中包括有多個處理節點,各節點内含有至少一 個處理器以及資料儲存單元。該等多個節點係併同而由系 統互連所耦接。該款資料處理系統更包括至少在多個處理 節點其中之一上,載有一常駐於資料儲存單元内的組態設 疋公用程式》該組態設定公用程式可透過系統立連點之間 4574 3 A7 B7 五、發明說明() 的通訊,選擇性地將該多個處理節點的組態設定成為要不 單一非一致性記憶體存取(NUMA),要不就是成為多重獨 立的資料處理系統。 本發明所有目的、功能及優點可由後續詳細書面說明 得知。 明 說 單 簡 示 圖 專並 請明 申說 之細 附詳 隨之 於例 照施 參實 係體 徵具 特性 術例 技範 的列 信 下 可酌 且參 新藉 之然 明I 發内 本範 孝 模 用 使 之 佳 較 其 及 以 明 發 本 瞭 明 易點 輕優 可其 即及 , <7* /0 圖目 附及 本以 同 * 1-') 中 其 而 第 施 實 體 具; 性用 例施 範以 之予 統式 系方 理利 處有 料以 資可 點明 節發 重本 多中 _ 其 述, 描例 圖 部 細 較 上 點 節 理 處 一 某 内 統 系 理 處 料 資 圖 TL 第 如 為 圖 2 第 圈 塊 區 之 擇或 選個· 行 f 進為; 統成圖 系其程 理使流 處以I 料藉遲 資,階 之法高 圖方之 1之統 第定系 如設子 於態理 對组處 明與料 說割資 一切個 為性多 圖 A 3 第 . -I- ^--------訂---------線 * (請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消费合作杜印製 對階 來高 ’ 的 例法 施方 實之 體定 具設 明行 發進 本態 據组 根統 點系 節子 理理; 處處圏 主料裎 讓資流 一 一輯 為某邏 圖 B 3 第 例 掩 實 體 具流 明輯 發運 本It 據高 •^的 點法 節方 ? 理之 處定 端設 戶'態 客組 讓行 - 進 為而 圖 C 3 第 圓 程 T 5 第 準 標 家 國 國 中 用 適 度 尺 張 紙 本 格 規 A4 ¥ 公 97 2 4 574 37 A7 B7 五、發明說明() 圖號對照說明: 6 資料處理系統 8 處理節點 10a, ...10m 處理器 12 處理器核心 14 快取階層 16 本地互連 17 記憶體控制器 18 系統記憶體 20 節點控制器 22 節點互連 24 裁決器 26 中段匿流排橋接 32 I/O裝置 34 儲存裝置 36 互連連貫性單元 38 主機橋接 40 記憶體匯流排 42 非揮發性隨機存取記憶禮 44 服務處理器匯流排 46 服務處理器之動態隨機存取記憶體 48 快閃記憶體 50 服務處理器 發明詳細說明: I,11 ---—----訂-1111 ---- <請先閱讀背面之ii意事項再填寫本頁) 系統概觀 經濟部智慧財產局員工消費合作社印製 現參考諸圖示,特別是由第1圖,其中說明一符合本1 發明之資料處理系統範例性具體實施例。所述及之具體實 施例可以例如像是一工作站、伺服器或是大型主機電腦的 方式實作之。如圖所繪,資料處理系統6内包括多個處理 節點8(本例中為四個),藉由節點互連22而彼此互連s如 後文所續深入討論',節點間資料連貫性係由一「互連連貫 性單元(ICU)」36所維繫。 第6頁 本紙張尺度適用t國圉家標準(CNS)A4規格(210 * 297公釐) 4574 37 A7
經濟部智慧財產局員工消费合作社印裂 五、發明說明() 現參考第2圖,處理節點8a-8d各個包括有一個或多 個處理器10a-l〇m,一本地互連16以及一透過記憶體控 制器1 7而存取之系統記憶體1 8。處理器i 〇a _丨〇m最好(但 非必要)是為相同。除了暫存器、指令序列邏輯與用以執 行程式指令的執行單元之外’彼等—般設計作為處理器核 心12 ’各個處理器1 〇a — 1 〇m也包括有一晶片隨同式快取 階層14,用以將資料由系統記憶體18處交付給相關的處 理器核心1 2。各個快取階層1 4可包括像是分別具有8 _ 位元组與1 - 16K位元組儲存容量之第一階快取(L〇 以及第二階快取(L2)。 各個處理節點8a - 8d更包括一各自耦接於本地互連 1 6與節點互連22之間的節點控制器2卜各個節點控制器 20藉執行至少兩個功能以作為遠端處理節點8的本地代 理者》第一,各節點控制器20可探查相關的本地互連j 6 並且協助本地通訊到遠端處理節點8間的往來傳輸。第 二’各個節點控制器20可探查節點互連22的通訊往來, 並且主導在相關的本地互連16上之相關通訊往來(即讀取 請求)。本地互連16上之通訊係由裁決器24所控制。—該 裁決器24會根據處理器10所產生之匯流排請求飢號,而 規定本地互連Ιό的存取狀況’並且對所探查之本地互連 I 6上通訊往來的連貫性請求進行編譯。 該本地互連1 6係經由中段匯流排橋接2 6耦接至中段 匯流排30 ’可由例如像「週邊元件互連(PCI)」本地g流 排而實作之。該中段匯流排橋接26能夠提供一低遲延路 第7頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -----------I ^----------------- (請先Μ讀背面之注意事項再填寫本頁) 457437 經濟部智慧財產局員工消费合作杜印製 A7 B7 五、發明說明() 徑而處理器丨0可藉此直接存取到心於區流排記憶體及/ 或I/O位址空間的諸1/0裝置32和儲存裝置34 ,以及一 高頻宽路徑而諸1/0裝置32和儲存裝置34可經此存取至 系統記憶體1 8 »諸I/O裝置32可包括例如像顯示裝置、 鍵盤、圖形指示器、以及用以連接到外部網路或附接裝置 的序列式或平行式阜。另—方面,該儲存裝置34包括可 提供非揮發性儲存功能給作業系統與應用程式軟體的光 學或磁性碟片。 該本地互連16更包括經由主機橋接38而耦接至記憶 體匯流排40與一服務處理器匯流排44。該記憶體匯流^ 40耦接至非揮發性隨機存取記憶體(NvRam)42,其中存 放有處理節點8的組態設定和其他關鍵性資料。該服務處 理器匯流排44可支援服務處理器50,該處理器係 尔作為處 理節點8的開機處理器。該處理節點8的開機程式碼中 般包含有「通電後自我測試(POST)」、「基本輸入/贫 1 系 統(BIOS)」、以及作業系統載入器程式碑等等,均係存放 於快閃記憶體48内。在開機後,服務處理器50 你、 即從孩服 務處理器之動態隨機存取記憶體(SP DRam)46 ,來執^ 統監視軟體,而成為處理節點8的軟體與硬體之$ w〜研監視 者。 系統組態 在本發明之較佳具體實施例中,該存故於快間記掩 - 4 I® 禮 48内的BIOS開機程式碼包括一組態設定公用程式, 、可允 第8頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公g ) (諳先間讀背面之注意事項再填寫本頁) k------ 訂---------線 457437 A7 經 濟 部 智 慈 財 產 局 員 工 消 費 合 作 社 印 製 B7 五、發明說明() 許資料處理系統6選擇性地分割成一個成多個可獨立運 作的子系統。如同下文之詳細說明,該資料處理系統6組 態可回應於所預期之處理負載特徵,而以較為有利地方式 藉由組態軟體來進行設定’成為單一 NUMA資料處理系 統、多重NUMA資料處理子系統,或是任何其他單一與 多重節點(即NUMA)資料處理子系統之组合。譬如說,如 果需要巨額的處理能量以執行某一單一應用程式*則最好 是將資料處理系統6的組態設定成為單一NUMA資料處 理系統,藉此將可用之處理能量最大化以執行該應用程 式。然若是需要執行多重各種的應用程式及/或多重各種 的作業系統應用’則最好是將資料處理系統6的組態設定 成為多重N U Μ A資料處理子系統及/或多重單一節點子系 統。 當該資料處理系統6是設定成為多重資料處理子系統 時’該資料處理子系統會包含有無交集並且或為不同大小 的處理節點8之集合。多重資料處理子系統中每一個可為 獨立方式進行組態設定、執行、關機、重開機以及再分割 等作業,而不會干擾到其他資料處理子系統的運作。最重 要的是,該資料處理系統6的組態重設定’並不會需要將 該處理節點8接附於該節點互連22或是自彼處移除之。 記憶體遠貫性 - 由於存放於系統記憶體丨8内的資料,可由某一給定之 資料處理子系統中的任何—個處理器1〇所請求、存取以 第9頁 (請先閱缋背面之注意事項再填寫本頁) --------訂---------線 4 574 3 Α7 Β7 經濟部智慧財度局員Η消费合作社印製 五、發明說明() 及刪改,因此需要實際建置一快取連貫性協定’俾維持相 同處理節點内的各個快取之間,以及相同資料處理子系統 中不同處理節點内的各個快取之間兩者的連貫性。該快取 連貫性協定,實作方式係屬與實際作業相關;然而,在較 佳之具體實施例裡,快取階層14和裁決器24實作出該傳 統式「修改/排他/分享/無效(MESI)」協定,或是其衍生型 式。節點間快取連貫性最好是經由連接至該節點互連Μ 並集中於互連連貫性單元(ICU)36,而以目錄為基壤的機 制來維繫之,不過亦可另行配送於節點控制器2〇所維護 之目錄範圍内。該以目綠為基礎的連貫性機制最好是能夠 識別該Μ、S與I狀態,並可顧及E狀態以合併至該μ狀 態而進行修正。換言之,會假設完全由遠端快取所握持之 資料屬經修改狀態’無論該資料是否真的為已經修 互連架搛 本地互連16與節點互連22各個可以各種的互連架構 方式S作。然而在本較佳具體實施例_,至少兮γ / τ» Λ即點互連 22是以New York州Armonk市ΪΒΜ公司所發展6χχ通訊 協定所掌理之切換為基礎的互連架構。該點對點式通訊法 則可讓該節點互連22決定該位址與資料封包的路徑,為 自一來源處理節點8而僅到位於相同資料處理予系統中 的處理節點8。 本地互連16與節點互連22可允許分割往來,意思是 包含有某一通訊往來的位址與資料兩者壽命期之間並没 第10頁 (請先閱讀背面之注意事項再填窵本頁) --------訂---fi!線- 4574 37 經濟部智慧財產局員工消費合作杜印製 A7 B7 五、發明說明() 有固定的計時關係,以及資料封包之次序可迥異於相關之 位址封包。另也最好是藉管線式通訊往來以強化其本地互 連16與節點互連22的利用狀況,因彼可於上一個從各個 收訊者處接收其連貫性回應的通訊往來之前,獲取某一後 續之通訊往來。 组態設定公用裎式 現參考第3A圖,該圖係說明一用以對例如像是資料處 理系統6的多重節點資料處理系統,根據本發明而將其切 割與组態設定成一個或多個資料處理子系統的程序之高 階邏輯流程圖。如圖所示,該程序起始於區塊80,表示 所有的處理節點8a-8d均已通電*接著進入區塊82,其 中說明在各個處理節點上的服務處理器5 0,執行快閃記 憶體48内的POST程式碼,以將該本地硬體初始化為既 知且穩定之狀態。在POST之後,各個服務處理器5〇執 行傳統性的B10 S附程式以啟動主要介面(如鍵盤、頻示 器)’並初始化中斷處理功能。接著,如同區塊84開始處 所述,各個處理節點8的處理器(及服務處理器5〇及/或處, 理器1 〇)藉由取得標示有多個獨立性資料處理子系統對於 需要進行分割得那個資料處理系統6,以及歸屬於各個資 料處理子系統之特定的處理節點8等輸入資料,而開始執 行該BIOS前述組態設定公用程式。該區塊84之輸入資料 可由任何來源而取得,例如某個位於資料儲存媒禮處的樓 案,或是在一個或多個處理節點8處的操作員輸入。 第11頁 本紙張尺度適用中國困家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ^--------訂---------線- 457437 經濟部智慧財產局員工消費合作社印製 A7 _________B7___ 五、發明說明() 在本發明一較佳之具體實施例中,該區塊84之輸入資 料可由操作員回應於一系列顯示於該處理節點g處的選 單螢幕,而從一個或多個處理節點8處進行輸入a接著將 該輸入於該處理節點8處作為建構一分割遮罩,用以指出 該處理節點8處是否有與任何其他的處理節點g共同合組 而形成一資料處理子系統。例如,如果資料處理系統6中 四個處理節點8每一個在四位元遮罩内均指定有_位 元,一個包括所有處理節點的NUMA組態可表示為丨π 1 ’ 兩個2_節點NUMA子系統可表示為〇〇η以及11〇〇,或是 1010以及ΟΗΗ,同時一個2-節點NUMA子系統與兩個單 一 ip點子系統可表示為〇〇 Π、1 〇〇〇與〇丨〇 〇 (或是其他類似 之節點組合)^如果所提供有關指示出某個所欲資料處理 系統6分割之輸入項係少於所有的處理節點8,則會將適 當的遮罩經由節點互連22而傳送到其他的處理節點 如此,各個處理節點8即具有如有需要則將與該節點所合 組成群之其他各個處理節點8的紀錄資料e 0 區塊84之後,該程序進入至區塊86,其巾說日月資料處 理系統6中各個資料處理子系統,可獨立地完成其_設 定,如同後文並參考第3B與3C圖所詳述。然後,:序 進入區塊88 » 現參考第巧與3C®,其中為分別說明主機舆客戶端 處理節點可藉以建構如第3八圖的區塊86之資料處埋系統 ,6内諸資料處理子、統組態設定之程序的高階運輯流程 囷。所述之諸項程序’經合併以詳述其間之通訊過程,以 第12肓 (請先閲讀背面之注意事項再填寫本頁) k·!—--- - 訂---------線 457437 A7 B7 經 濟 部 智 慧 財 產 局 貝 工 消 费 合 作 社 印 製 五、發明說明() 前文該 BIOS組態設定公用泡+ 部份的方式而實作較 佳。 如第3B圖所述之程序,其中 ' 主處理節點8的操作 圖,以及於第3C圖中所示之昶由 $ ’該程序内顯示客戶端 處理節點8(如果有的話)的運竹s 闺’而在第3A圖的區塊 8 4之後’平行地分別開始於區地 k塊100與140處。如圖所 示,分別在區塊1 02與1 42處,Α 氣在資料處理子系統内的各 個處理節點8會決定是否由主虚理~ 王&理即點8負贵完成資料處 理子系統内的組態設定作業《該資 X夏科處理子系統内的主處 理節點8可由多種既知之機制所決定,其中包括推選以及 競選方式’不過在本較佳之具趙實施例中,該主處理節點 8係内定為資料處理子系心各個設定纟分割遮罩間具有 最低順序位元的處理節點8 »而位於主處理節點8的主處 理器(即服務處理器50,或是經指定之處理器1〇)經決定 後’則接著以如第3Β圖之區塊1 〇4 -〖3〇所詳迷方式來 進行資料處理子系統的組態設定作業。 現參考區塊104,其中主處理器在本地互連16上,對 屬於資料處理子系統的客戶端處理節點8發出 机忍,如 果有的話。該由箭頭Α表示的訊息,說明該處理節點$ 係主處理節點。該本地節點控制器2 0可探得該訊息,並 將其結果經由節點互連22,而傳往所指示之客戶端處理 節點S。區塊144與146處内分別顯示出該客戶端處理節 點8將保持等待,一直到該訊息已由該主處理節點所接收 為止,並且回應於該接收狀況,傳送給該主處理節點8一 第13貫 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) . Ί Μ--------訂---------線. (請先閱讀背面之注意事項再填寫本頁) 457437 A7 B7 五、發明說明() 個由箭頭B所表示之確認訊息,如第3B圖内的區塊106 與1 0 8所飧’該主節點持續等待,一直到自該客戶端處理 節點8處接收到該確認訊息為止,並且倘若該分割遮罩指 出另外一個客戶端處理節點8尚未與該主要聲明訊息接 觸’則一旦收到該確認訊息後即回返給該區塊丨04 »該主 聲明-確認協定(亦可另外由多個客戶端處理節點8以平行 方式來執行)不僅可保證資料處理子系統内所有的處理節 點8係一致決交於某一處理節點8為主節點,並且也較佳 地將子系統内彼此相異,而或將於不同時間以不同速率來 開機啟動的諸處理節點8予以同步。 一旦主處理節點8自資料處理子系統内所有的客戶端 處理節點8處(如果有的話)接收到其主機角色之確認訊 息’即如同第3B圖中由區瑰108到區塊110的程序,該 主處理節點8即向客戶端處理節點8處(如果有的話)提出 組態資訊請求。該組態資訊請求其中可包含一個或多個送 交給客戶端的訊息,茲以箭頭C表之。如同第3 C圖中由 區塊148到區塊150所示,該客戶端處理節點8等待資源 列表請求,並且回應於接收到該資源列表請求,即由主處 1 理郎點8傳送一個或多個標市有其丨/〇資源、具有的系統 記憶體I 8總量、所含有的處理器I 〇個數以及其他組態資 訊等訊息以應答之。該组態資訊回應係以箭頭D表示。第 3B圖的區塊112與114說明該主處理節點8等待客戶端 處理節點8處的回尨,並當接收到該回應後,將所標示之 資源加入該系統資源列表内。如區塊U ό所燴,主處理節 笫14頁 本紙張尺度適用中國國家標準(CNS)A4規格(210x297公釐) <請先閲讀背面之ii意事項再填寫本頁) --------訂---------線- 經濟部智慧財產局負工消费合作杜印製 5 4 74 37 A7 B7 經濟部智慧財產局具工消費合作社印製 五、發明說明( 點8為各個標示於分割遮罩内之客戶端處理節點8執行該 區塊11 0到1 14。 當主機由各個客戶端(如果有的話)獲得該資源列表 後’即如同第3 B圖中由區塊丨丨6到區塊丨u的程席,該 主處理節點8上的主處理器會決定該子系統之整體组2 並計算如何重對映各個客戶端處理節點8處之諸項資 源。接著,在區塊120處,該主處理節點8上的主處理器 會將一個或更多個標示有該客戶端處理節點應如何重對 映其資源的訊息’傳送給客戶端處理節點8 (如果有的 話)。例如,該主處理器可對該客戶端處理節點8的記携 體控制器1 7 ’標示出該附接系統記憶體1 8内的倚存位置 所相關連之實體位址範圍。除此之外,該主處理器尚可標 明該客戶端處理節點S内I/O裝置32所對映到的記憶禮 位址°按照實作方式,該主處理器亦可標出各個客戶端處 理節點8的處理器I 0之處理器ID。 在本較佳之具體實施例中,資料處理子系統内所有的 處理器10均分享一單一實體記憶體空間,意味著各個實 禮位址僅係相關到諸系統記憶想1 8内其中一個的單一位 置·如此,經常被資料處理子系統内任何的處理器丨〇所 存取到之資料處理子系統系統記憶體,其整禮内容即可視 為在包含有資料處理子系統之處理節點8内的系統記憶 體1 8間為既經分割之狀態。例如,在—範例性具體實施 例裡,其中各個處理節點8包含有1 GB的系統記憶體1 8 , 並且資料處理系統6組態係設定成兩個NUMA資料處理 第15頁 本紙張尺度適用中國國家標準(CNS)A4規格(21〇 X 297公釐) .农--------訂---------線 : (請先閲讀背面之注意事項再填寫本頁) 5 4 74 37 A7 B7 經濟部智慧財產局員工消费合作社印製 五、發明說明( 子系統’則各個NUMA資料虚;理+玄技▲ a 士 反行風理子系統會具有2 GB的實 體位址空間。 如同第3C圖中由區塊ι52與 a 所不,孩客戶端處理 節點8等待自主處理筋β t 〒付am里即點8而來的重對映請求,並且接收 到重對映請求之後’即回應以重對映請求之確認訊號。如 區塊122,124所f,該主處理節點8等待重對块請求確 認訊號,並且回應於該重對映請求確認訊號,對每個其他 標示於分割遮罩内的客卢端處理節點8重覆區塊12〇 一 1 22步驟。 在第3B圖中區塊124與第3(:圖中區塊154之後該 主處理節點8與各個客戶端處理節點8根據由該主處理節 點8所決斷之該組態設定,而重新對映其各自的本地資 源,如同區塊126與區塊156所示。而如同第3(:圖中區 塊158所示,各個客戶蜱處理節點8接著會被處理器ι〇 暫停處理,一直到資料處理予系統的作業系統作業至該處 理器ίο為止。在此同時,在第38圖中區塊128處該主 處理節點8由例如像儲存裝置34處,而將作業系統載入 資料處理子系統開機。正如前文所述,如果係由資料處理 系統6的處理節點8來構成該多重資料處理子系統,則該 多重資料處理子系統或將執行於例如像Windows NT與 SCO (Santa Cruz Operation) UNIX 不同的作業系統上。該 主處理節點8的處理程序會繼續在區塊丨3 〇處進行。 如同前述,本發'明提供一種可用以將一組互連處理節 點設定進入單一 NUM Α資料處理系統,或是既經選定數 第16頁 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) ^ :1表--------訂---------線 , (清先閲讀背面之注意事項再填寫本頁) 457437
五、發明說明( f之"彳皮此獨工運作的資料處理子系統之方法。根據本發 明可&成將該等處理節點分割成多個資料處理子系統, 而兴須將任何處理節點予以連線或斷線》 本發明雖特藉—較佳之具體實施例以說明及描述’然 熟捻本項技藝之人士應即明冑,可由此變化其造型與細 郎’而仍τ、會㈣本發明之精神與。例如,雖係以執 行針對本發明方法之敕體的電腦系統來描述本發明諸項 ㈣’不過應知悉本發明可另代以實作為料電腦系統之 %腦程式產…可經由各種訊號荷載媒體以配送定義本發 明諸項功能的程式’例如像是,但不限於,不可重覆寫入 的儲存媒㈣CD.·可重復寫人的储存媒體(如軟壤 或硬碟)等1及通訊媒體,例如電腦與電話網路 明瞭該等訊號荷載媒體當其上載有或經編碼為針對本發 明各式方法功能的電腦可讀取式指令時,即代表 他種具體實施例。 f ,^1 ^ ^---— fill I I--ί I I (請先閲讀背面之注意事項再填寫本頁} 經濟部智慧財產局具Η消费合作社印製 貫 7 本紙張尺度適用t國國家標準(CNS)A4規格(210 X 297公釐>

Claims (1)

  1. AS B8 C8 D8 574 37 申請專利範圍 1. 一種資料處理系統,其至少包含: 一系統互連; 多個耦接至該系統互連之處理節點,而該多個處理 節點各個均包含至少一個處理器與資料儲存裝置;以及 一常駐於該多個處理節點裡至少其中一個系統記憶 體内的組態設定公用程式,而該組態設定公用程式可選 擇性地將該多個處理節點之組態,透過與該系統互連之 間的通訊,而設定成為單一非一致性記憶體存取(NU Μ A) 系統以及多重獨立資料處理系統兩者其中之一 〇 2. 如申請專利範圍第1項所述之資料處理系統,其中上述 之該至少一個多重獨立資料處理系統,係屬一包括至少 兩個該處理節點的非一致性記憶體存取(NUMA)系統。 3 .如申請專利範圍第丨項所述之資料處理系統,其中上述 之多重獨立資料處理系統,包含有該多個處理節點所無 交集之予集合。 4, 如申請專利範圍第丨項所述之資料處理系統,其中上述 之資料處理系統,包含有存放於位在該多個處理節點其 中之一内的資料儲存裝置裡的開機程式碼,其中該組態 設定公用程式可構成該開機程式碼的一部份。 ► .. 5. 如申請專利範圍第1項所述之資料處理系統,其中上述 製 '---- 第 18貫 紙張尺 华(CNS)A4 規 κ 297 公 p . .13-^----------^--------- (請先閱讀背面之;i意事項再填寫本頁) 部 智 慧 財 產 局 員 X. 消 費 合 作 Α8 Β8 C8 D8 5 7 4 3 7 六、申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 之通訊,包括有自一位於眾多該處理節點中的主處理節 點處所傳來而送交給其他多個處理節點中至少一個之 組態資訊請求。 6. 如申請專利範圍第5項所述之資料處理系統,其中上述 之通訊包括一自其他多個處理節點中至少一個節點處 所傳來,而送交給該主處理節點的應答訊息,而其中該 應答訊息包含所請求之组態資訊。 7. —種將多個互連處理節點組態設定成為一或多個資料 處理子系統之方法,該方法至少包含下列步驟: 將多個處理節點耦接至系統互連,其中該多個處理 節點裡各個均包括至少一個處理器與資料儲存裝置; 經由該系統互連來傳送至少一個組態訊息; 利用該至少一個組態訊息,設定該耦接至系統互連 之多個處理節點之組態,使成為單一非一致性記憶體存 取(NUMA)系统以及多重獨立資料處理系統兩者其中之 — 〇 經濟部智慧財產局員工消費合作钍印製 8. 如f請專利範圍第7項所述之方法,其中上述之將該多 個處理節點的組態設定成為多重獨立資料處理系統,包 含將該多個處理節點的組態,設定成為至少一包括有該 -多個處理節點内至少兩個的非一致性記憶體存取 (NUMA)子系統》 第19頁 本紙張尺度適用中國國家標準(CNS)A4規格(21〇χ 297公《 ) 457437
    六、申請專利範圍 9. 如申請專利範圍丨7項 _ ^ ^(万/去’其中上述之胳·^客 個處理郎點的.組態設定 < 將該多 括將該多個處理節點的组:處理系統’包 節點的無交集子集合有該多個處理 多重獨立資料處理系統。 10. 如申請專利範圍第7 角所迷弋万法,其更包括, 將構成開機程式碼—部裕文匕括. 入到位於至少該多個處筋 #式存 理節點其中—個的儲存 執行該組態設定公用程, . 組熊; 式以設定該多個處理節點的 U.如、"專利範圍第7項所述之方法,其中上述之傳輸 至^自組態訊息’包含自該多個處理節點中之主處理 節點處,傳輸一組態資訊諸皮 巩清求給至少一個其他多個處理 節點中至少一個。 12_如申請專利範圍第丨丨項所 Λ 万法,其中上述之傳輸 至少一個组態訊息,更包各由妨 ^ 該至少一個其他多個處理 郎點中至少一個處,係始' 一 ώ ^ Α 越得犄應答訊息至主處理節點處, 而該應答訊息包括所請求之組態資訊。 Π.—種用以設定資料處理系統組態之程式產品’其包括 .一具有多個耦接奋此的處理節點之系統互連,而該多個 節點各個均包括至少一個處理器與資料儲存裝置,該程 第20育 ,.!,么-----r---訂---------線* (請先閲讀背面之注意事項再填寫本頁) 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 钍 印 製 A8 B8 C8 D8 457437 六、申請專利範圍 式產品包括: (請先閲讀背面之注意事項再填寫本頁) —資料處理系统吁用之媒體:以及 一編碼於該資料處理系統可用媒趙内之組態設定公 用程式,其中該組態設定公用程式可選擇性地將該多個 處理節點之组態,透過與該系統互連之間的通訊,而設 定成為單一非一致性記憶體存取(NUMA)系統以及多重 獨立資料處理系統雨者其中之一 * 14. 如申請專利範圍第13項所述之程式產品,其中上述之 多重獨立資料處理系統裡至少其中一個,係包括有該多 個處理節點裡至少中兩個的非一致性記憶體存取 (NUMA)系統。 15. 如申請專利範圍第13項所述之程式產品,其中上述之 多重獨立資料處理系統包括該多個處理節點的無交集 之子集合》 經濟部智慧財產局員工消費合作社印製 16. 如夺請專利範圍第13項所述之程式產品,其中上述之 組態設定公用程式可構成開機程式碼之—部份。 1 7.如申請專利範圍第1 3項所述之程式產品,其中上述之 通訊包括有自一位於眾多該處理節點中的主處理節點 _ •處所傳來’而送交給其他多個處理節點中至少一個之組 態資訊請求。 第21貫 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 457437 | D8 六、申請專利範圍 18.如申請專利範圍第17項所述之程式產品,其中上述之 通訊包括一肖其他多個處理節點中至少一個節點處所 傳來,而送交給該主處理節點的應答訊息,而其中該應 答訊息包含所請求之組態資訊。 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消费合作.fi印糾Λ 第22貫 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
TW089105091A 1999-06-17 2000-03-20 Interconnected processing nodes configurable as at least one non-uniform memory access (NUMA) data processing system TW457437B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/335,301 US6421775B1 (en) 1999-06-17 1999-06-17 Interconnected processing nodes configurable as at least one non-uniform memory access (NUMA) data processing system

Publications (1)

Publication Number Publication Date
TW457437B true TW457437B (en) 2001-10-01

Family

ID=23311187

Family Applications (1)

Application Number Title Priority Date Filing Date
TW089105091A TW457437B (en) 1999-06-17 2000-03-20 Interconnected processing nodes configurable as at least one non-uniform memory access (NUMA) data processing system

Country Status (4)

Country Link
US (1) US6421775B1 (zh)
JP (1) JP3628595B2 (zh)
SG (1) SG91873A1 (zh)
TW (1) TW457437B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714994B1 (en) * 1998-12-23 2004-03-30 Advanced Micro Devices, Inc. Host bridge translating non-coherent packets from non-coherent link to coherent packets on conherent link and vice versa
US6519665B1 (en) 1999-11-09 2003-02-11 International Business Machines Corporation Multi-node data processing system and communication protocol in which a stomp signal is propagated to cancel a prior request
US6848003B1 (en) 1999-11-09 2005-01-25 International Business Machines Corporation Multi-node data processing system and communication protocol that route write data utilizing a destination ID obtained from a combined response
US6519649B1 (en) * 1999-11-09 2003-02-11 International Business Machines Corporation Multi-node data processing system and communication protocol having a partial combined response
US6591307B1 (en) 1999-11-09 2003-07-08 International Business Machines Corporation Multi-node data processing system and method of queue management in which a queued operation is speculatively cancelled in response to a partial combined response
US6671712B1 (en) 1999-11-09 2003-12-30 International Business Machines Corporation Multi-node data processing system having a non-hierarchical interconnect architecture
US6865695B2 (en) * 2001-07-26 2005-03-08 International Business Machines Corpoation Robust system bus recovery
JP2003173325A (ja) * 2001-12-06 2003-06-20 Hitachi Ltd 計算機システムの初期化方法および電源切断方法
US6973544B2 (en) * 2002-01-09 2005-12-06 International Business Machines Corporation Method and apparatus of using global snooping to provide cache coherence to distributed computer nodes in a single coherent system
US6807586B2 (en) * 2002-01-09 2004-10-19 International Business Machines Corporation Increased computer peripheral throughput by using data available withholding
US7171568B2 (en) * 2003-06-13 2007-01-30 International Business Machines Corporation Remote power control in a multi-node, partitioned data processing system
US7194660B2 (en) * 2003-06-23 2007-03-20 Newisys, Inc. Multi-processing in a BIOS environment
US7308558B2 (en) * 2004-01-07 2007-12-11 International Business Machines Corporation Multiprocessor data processing system having scalable data interconnect and data routing mechanism
US7007128B2 (en) * 2004-01-07 2006-02-28 International Business Machines Corporation Multiprocessor data processing system having a data routing mechanism regulated through control communication
US7484122B2 (en) * 2004-06-17 2009-01-27 International Business Machines Corporation Controlling timing of execution of test instruction by target computing device
JP4945949B2 (ja) * 2005-08-03 2012-06-06 日本電気株式会社 情報処理装置、cpu、情報処理装置の起動方法およびプログラム
US7640426B2 (en) * 2006-03-31 2009-12-29 Intel Corporation Methods and apparatus to manage hardware resources for a partitioned platform
US7702893B1 (en) * 2006-09-22 2010-04-20 Altera Corporation Integrated circuits with configurable initialization data memory addresses
US7818508B2 (en) * 2007-04-27 2010-10-19 Hewlett-Packard Development Company, L.P. System and method for achieving enhanced memory access capabilities
US20080270708A1 (en) * 2007-04-30 2008-10-30 Craig Warner System and Method for Achieving Cache Coherency Within Multiprocessor Computer System
US7904676B2 (en) * 2007-04-30 2011-03-08 Hewlett-Packard Development Company, L.P. Method and system for achieving varying manners of memory access
KR101249831B1 (ko) * 2007-08-06 2013-04-05 삼성전자주식회사 컴퓨터 시스템 및 그 부팅 방법
ITMI20071829A1 (it) * 2007-09-21 2009-03-22 Screenlogix S R L Arciettura di macchina costituita da un livello software ed un livello hardware iteragenti tra loro indipendemtemente dalla configurazione di oartenza di detta macchina e procedimento per la realizzazione di detta architettura di macchina
US8782779B2 (en) * 2007-09-26 2014-07-15 Hewlett-Packard Development Company, L.P. System and method for achieving protected region within computer system
US8612973B2 (en) * 2007-09-26 2013-12-17 Hewlett-Packard Development Company, L.P. Method and system for handling interrupts within computer system during hardware resource migration
US9207990B2 (en) * 2007-09-28 2015-12-08 Hewlett-Packard Development Company, L.P. Method and system for migrating critical resources within computer systems

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4925311A (en) * 1986-02-10 1990-05-15 Teradata Corporation Dynamically partitionable parallel processors
US5561768A (en) * 1992-03-17 1996-10-01 Thinking Machines Corporation System and method for partitioning a massively parallel computer system
US5642506A (en) * 1994-12-14 1997-06-24 International Business Machines Corporation Method and apparatus for initializing a multiprocessor system
US5887146A (en) 1995-08-14 1999-03-23 Data General Corporation Symmetric multiprocessing computer with non-uniform memory access architecture
US5710907A (en) * 1995-12-22 1998-01-20 Sun Microsystems, Inc. Hybrid NUMA COMA caching system and methods for selecting between the caching modes
US5887138A (en) 1996-07-01 1999-03-23 Sun Microsystems, Inc. Multiprocessing computer system employing local and global address spaces and COMA and NUMA access modes
US5938765A (en) * 1997-08-29 1999-08-17 Sequent Computer Systems, Inc. System and method for initializing a multinode multiprocessor computer system
EP0908825B1 (en) * 1997-10-10 2002-09-04 Bull S.A. A data-processing system with cc-NUMA (cache coherent, non-uniform memory access) architecture and remote access cache incorporated in local memory
JP3614650B2 (ja) * 1998-03-20 2005-01-26 富士通株式会社 マルチプロセッサ制御方式及びこれに用いられるブート装置及びブート制御装置
US6247109B1 (en) * 1998-06-10 2001-06-12 Compaq Computer Corp. Dynamically assigning CPUs to different partitions each having an operation system instance in a shared memory space
US6275907B1 (en) * 1998-11-02 2001-08-14 International Business Machines Corporation Reservation management in a non-uniform memory access (NUMA) data processing system
US6148361A (en) * 1998-12-17 2000-11-14 International Business Machines Corporation Interrupt architecture for a non-uniform memory access (NUMA) data processing system
US6108764A (en) * 1998-12-17 2000-08-22 International Business Machines Corporation Non-uniform memory access (NUMA) data processing system with multiple caches concurrently holding data in a recent state from which data can be sourced by shared intervention

Also Published As

Publication number Publication date
US6421775B1 (en) 2002-07-16
JP2001051959A (ja) 2001-02-23
SG91873A1 (en) 2002-10-15
JP3628595B2 (ja) 2005-03-16

Similar Documents

Publication Publication Date Title
TW457437B (en) Interconnected processing nodes configurable as at least one non-uniform memory access (NUMA) data processing system
KR100457146B1 (ko) 비정형 메모리 액세스 데이터 프로세싱 시스템을 위한 인터럽트 아키텍쳐
US8171230B2 (en) PCI express address translation services invalidation synchronization with TCE invalidation
CN100555257C (zh) 处理页面复制期间的dma操作的存储控制器和方法
JP6029550B2 (ja) 計算機の制御方法及び計算機
US8738890B2 (en) Coupled symbiotic operating system
JPH1097513A (ja) マルチプロセッサ・コンピュータ・システム中のノード、及びマルチプロセッサ・コンピュータ・システム
JP2010237737A (ja) パススルーi/oデバイスを伴うlparの動的マイグレーション装置、その方法及びそのプログラム
CN103870435A (zh) 服务器及数据访问方法
JPH04246745A (ja) 情報処理装置及びその方法
TW201732610A (zh) 用於範圍保護的系統、方法及設備
JP2005056404A (ja) 更新されたシステム局所性情報をランタイム中に提供する方法および装置
US20090199191A1 (en) Notification to Task of Completion of GSM Operations by Initiator Node
CN104050118A (zh) 提供对设备功能的访问的装置、系统和方法
CN109314103B (zh) 用于远程现场可编程门阵列处理的方法和装置
US9632934B2 (en) Maintaining coherence when removing nodes from a directory-based shared memory system
CN115687193A (zh) 存储模块、包括其的系统以及存储模块的操作方法
WO2020219810A1 (en) Intra-device notational data movement system
CN103455372A (zh) 一种服务器中内存模块的数据迁移方法及服务器
US9323475B2 (en) Control method and information processing system
US10936219B2 (en) Controller-based inter-device notational data movement system
CN109032510B (zh) 基于分布式结构的处理数据的方法和装置
CN103631648A (zh) 一种任务处理方法及系统
US10853293B2 (en) Switch-based inter-device notational data movement system
WO2020086177A1 (en) Managing power request during cluster operations

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees