TWI434186B

TWI434186B - 用於實施串流處理電腦架構之方法及系統

Info

Publication number: TWI434186B
Application number: TW098126401A
Authority: TW
Inventors: Eugen Schenfeld; Thomas B Smith Iii
Original assignee: Ibm
Priority date: 2008-08-18
Filing date: 2009-08-05
Publication date: 2014-04-11
Also published as: US20100042809A1; US8037284B2; US20110055519A1; US7856544B2; WO2010020577A1; JP5490120B2; TW201019133A; CN102138138A; CN102138138B; JP2012500432A; KR20110063730A; EP2274685A1; KR101572295B1

Description

用於實施串流處理電腦架構之方法及系統

本發明係關於資料處理系統，且更具體言之，係關於用於實施串流處理電腦架構之一種方法及系統。

通信對電腦系統效能之影響就宏觀層面(例如，刀鋒伺服器及電腦叢集)及微觀層面(例如，在具有許多核心(core)之單一處理器晶片內)而言均持續增長。用於計算之傳統方法(其依賴於經由快取記憶體之階層而縮短對主記憶體的存取時間)到了縮短傳回(return)的時刻。之所以如此，部分係因為I/O資料傳輸之相對於處理核心速度的增加延時以及快取記憶體及全域通信線所需之(有限的)晶片上電力耗散預算的增加分率。同時，嚴格的晶片上電力耗散約束已使許多主要的半導體公司轉移到多核心或晶片多處理器(CMP)架構。CMP之出現又對兩個主要領域中之通信基礎架構造成增加的挑戰。詳言之，CMP中之增長數目的處理核心加劇了對晶片內通信及晶片間通信之頻寬要求。另外，當與傳統單核心處理器晶片比較時，CMP架構大大增加程式化複雜性及最終生產率。

串流處理最近已作為用於基於CMP架構及軟體管理式快取記憶體組織之系統的替代計算模型方法而出現。許多類別之重要應用(例如，數位信號處理及多媒體應用)呈現對可並列處理之規則資料結構之長序列的相當規則之存取，此與對資料庫中典型之複雜資料記錄之較隨機存取相對。對於此等應用，藉由專用處理器(諸如，nVidia及AMD/ATI圖形處理單元(GPU)或IBM'sCell寬頻引擎)進行之串流處理的組合較之應用於通用CMP架構之傳統計算範例可能提供更高效能及更低電力耗散。

在圖1中展示樣本串流計算圖形。圖形100由稱作核(kernel)(102A、102B及102C)之多個計算節點構成，該等節點由表示自一核前往另一核之資料流的邊104A/104B連接。核指代對資料流執行計算的軟體程式碼元件。在圖1之圖形100中，此等資料流為單向的；亦即，資料自該圖之左側移動(流動)至右側，如由箭頭所展示。核可為以下三種類型中之一者：源102A(表示經產生作為對計算圖形之輸入的資料流的起源)；儲集器102B(以一或多個串流之形式表示最終結果)；及規則核102C。核(102A至102C)可具有一或多個輸入串流104A且產生一或多個輸出串流104B作為其特定計算之結果。

通常，一串流計算圖形(例如，圖形100)表示針對電腦處理問題之解決方案(例如，偵測一些事件或找到輸入資料流之間的樣式及複雜關係一金融股票交易、感測資料相關性及其他)。只要資料流正由計算核處理，該圖形即持續存在，且通常此時間為非常長的時間(數小時或數小時以上或無期限地)。因此，認為此圖形之拓撲為固定的。

在處理此串流計算圖形處理程序中之一挑戰為確定如何將該等計算節點(例如，核102A至102C)分組成多個群組，使得此等群組可經指派至電腦處理系統之實體計算節點。存在執行此種分組(亦稱作排程、嵌入，或圖形理論中稱作縮圖(graph contraction)之圖形理論變換)之許多可能方式。如圖1中所展示，陰影群組(110A至110C)表示多個核之分組，使得經指派至一個群組(諸如，作為一實例之群組110B)之核將位於一個實體計算節點內或位於與一快速區域通信網路緊密耦接或藉由使用該快速區域通信網路而緊密耦接之節點的叢集內。接著，可將自核之一個此種群組傳遞至另一群組之總聚集串流視作該等群組間之一個連接。就圖形理論而言，可將此視作其中已使規則計算節點(核)壓縮之超級節點。可針對串流計算圖形中之所有計算節點進行此類型之分組。由串流計算圖形之核之間的邊所表示的串流可類似地經壓縮成超級邊，該超級邊表示在超級節點之間傳遞的所有資料流的總和。

作為一實例，如圖1中所展示，超級節點110C及110B共用在超級節點110B與超級節點110C之間傳遞的三個串流(自左向右)。現可將該三個串流視作連接於超級節點110B與超級節點110C之間的一個串流。實務上，原始資料流係由串流計算系統之實體通信構造來聚集，使得超級節點110B處之進入點將使來自核(例如，超級節點110B內之彼等核)之一群組的三個串流多工成一個串流，且在另一端，核(超級節點110C內之彼等核)群組將解多工回此等三個串流，且在本端將其連接至如在一個實體計算節點或該等節點之叢集中所映射的適當核。

有興趣將此串流處理範例擴展到不同領域(諸如，金融、資料採擷及計算生物學)中之特定大規模應用中。此擴展需要超越在單一的類GPU處理器上執行串流應用程式，而替代地涉及建置大型可升級串流處理系統(SPS)，其中此等處理器中之許多者由高速互連網路互連。然而，建置大型可升級串流處理系統遭遇各種缺陷，諸如，增加傳輸頻寬之難題以及自處理節點對記憶體中之大資料集合所進行的增加存取時間。

因此，將需要提供一種克服上述缺陷之增強型串流處理架構。

根據本發明之一實施例，一種用於實施一串流處理電腦架構之方法包括建立一串流電腦處理(SCP)系統。該SCP系統係藉由以下動作建立：形成處理器之一超級節點叢集，該等處理器表示該超級節點叢集內之實體計算節點；經由一本端互連構件以通信方式耦接該超級節點叢集中之該等處理器中的每一者；及經由多個光學外部鏈路將該超級節點叢集以通信方式耦接至一光學電路交換器(OCS)。該OCS經由自包括表示其他實體計算節點之處理器的其他超級節點叢集至該光學電路交換器之其他多個外部鏈路以通信方式耦接至其他超級節點叢集。該方法亦包括產生一包括核及資料流之串流計算圖形。該方法進一步包括將該串流計算圖形映射至該SCP系統，該映射包括：將計算之該等核指派至每一超級節點叢集且指派至該等超級節點叢集中之每一者的各別實體計算節點；當該資料流處於相同超級節點叢集中之實體計算節點之間時，將該等核之間的資料流訊務指派至本端互連構件；及當該資料流處於不同超級節點叢集中之實體計算節點之間時，將該等核之間的資料流訊務指派至該等光學外部鏈路。該方法亦包括組態OCS以在對應於該等指派之經映射叢集之間提供連接性。

經由本發明之技術來實施額外特徵及優勢。本發明之其他實施例及態樣在本文中經詳細描述且被認為係所主張之本發明的一部分。為較好地理解具有該等優勢及該等特徵之本發明，參考描述及圖式。

特別指出被視作本發明之標的且在本說明書之結尾於申請專利範圍中清楚地主張標的。本發明之上述及其他特徵及優勢自結合附圖所進行之以下詳細描述而顯見。

根據本發明之一例示性實施例揭示一種用於串流電腦系統之互連串流處理架構及一種用於實施該互連架構之處理程序。該互連架構由兩種網路類型構成，該兩種網路類型補充彼此之功能性且解決緊密耦接之處理節點群組間的連接性。此群組或叢集可使用多種協定以及靜態網路拓撲及動態網路拓撲兩者(例如，2D/3D網狀構造、階層式完全連接構造、基於交換器之構造)而在本端互連。網路及交換器功能性可併入處理器晶片內，使得叢集可在無外部交換器之情況下藉由直接將處理器晶片彼此互連而得到。此技術及協定之一實例為HyperTransport 3(HT3)。互連之封裝限制、傳訊速度及可允許距離限制全電子構造尺寸，因此，僅有限數目之處理器可在叢集內直接連接。達成極高效能等級(例如，億億級(exascale))可需要多達100,000個未來多核心處理器晶片互連於一系統內。雖然可將一叢集限於封裝於一機櫃內之100個或100個以下的處理器晶片，但可能需要互連此等叢集中之約1000個或1000個以上者。在一例示性實施例中，具有高頻寬且跨越長距離之叢集間連接將使用光學傳訊，且串流處理架構使用基於微機電系統(MEMS)之OCS以在此等叢集間連接。

雖然許多大型設備中之節點至交換器之連接性為光學的以便提供所需之頻寬及距離，但正使用大基數電交換器構造(例如，對於InfiniBand或10G乙太網路協定及交換器)。此等構造對於單一路徑需要至少兩個光學傳輸器(Tx)及兩個接收器(Rx)，因為通信自電性(自處理器叢集)轉換至光學的，接著轉換至電性的(對於交換器)，接著轉換至光學的(離開交換器)，且最終轉換回電性的(在目的地叢集處)，而本文中所描述之例示性實施例的光學交換器僅需要一個Tx及一個Rx，因為此交換器可經由鏡使光學信號直接偏轉。大基數電交換器必需由較小基數建置區塊構成，此情形意謂該等交換器傾向於為大型的且大耗電(power-hungry)。光學電路交換器可具有大得多的單一交換器基數，且其保證具有顯著較小之尺寸及較低電力消耗。

在一例示性實施例中，形成一叢集之緊密耦接之處理器的一群組使用OCS網路及光學收發器來互連至SPS內之其他此等叢集。此OCS網路允許靈活的可在毫秒級時間標度上改變的點對點連接。由於處理器之未來頻寬將增加，因此OCS架構之使用可藉由相同交換網路來支援未來更高頻寬需求及協定。OCS網路無需如同經由封包交換網路投送般極迅速地改變電路連接。對電路連接之調整僅需要在調整工作地點以使節點間之工作達成負載平衡時進行。由SPS執行之計算的性質係使得通信樣式及彼等通信樣式之持續時間在相當長的時間(例如，數分鐘或數小時)內為穩定的，以足以攤銷(amortize)OCS之相對較高的交換時間(數毫秒)。由於為使在不同處理器內進行之計算達成負載平衡而對工作安排進行的調整為非頻繁發生之操作(歸因於其自身的高計算成本及複雜性)，因此，此例示性串流處理架構在總效能沒有明顯缺陷的情況下於SPS需求之性質與OCS互連技術之特定特徵之間進行唯一匹配。事實上，使用此網路(一旦經重新組態)可導致較佳的通信延時，因為其對協定及資料頻寬不具有佇列壅塞，不具有競爭且具有透通性。

現轉向圖2，現將在一例示性實施例中描述具有例示性串流處理架構之串流電腦系統200。串流電腦系統200由連接在一起以形成一多處理器202之多個個別實體計算節點201構成。若干此等處理器202聚集在一起形成一超級節點叢集204(本文中亦稱作「超級節點」及「叢集」)。由一已知快速互連構件206在本端連接一叢集204內部之處理器(及各別實體計算節點)，該已知快速互連構件206可為：在一叢集內之處理器202之實體計算節點之間具有某拓撲的直接連接型網路；或一交換器；經由一快取連貫式對稱多處理器(SMP)構造而透過記憶體；或以上之組合。處理器202之每一叢集204共用若干光學外部鏈路208。形成此等外部鏈路以用於最佳化極高頻寬下之點對點連接。此最佳化可執行於所使用之實體實施中，經選擇以促進此高頻寬之協定中，在低延時叢集對叢集鏈路中，且具有支援對一實體鏈路或多個實體鏈路內之多個串流之聚集以使其看起來像由少數實體鏈路構成之一條高頻寬實體鏈路的能力。由於此等外部鏈路經由一不會知曉此等鏈路之協定、資料或內容的全光學交換器而進行電路交換，因此此等鏈路應使用極輕量級通信協定。此外，此等外部鏈路之實體性質可能需要在WDM(分波長多工器)中使用多種光學波長，所有該等光學波長耦接成一條光纖或一條外部鏈路，但在兩端可分離。基於鏡之MEMS OCS將在光學域(pptics domain)中使此等外部鏈路內之光束偏轉，而不管其波長數目、協定及傳訊速度。此等外部鏈路為一叢集內之所有計算節點所共有，使得叢集204中之任何實體計算節點201可直接或藉由傳遞通過於本端互連之叢集構造206而在此等外部鏈路208中之一者或全部者上傳遞資訊。在一例示性實施例中，使用電路交換式交換器210。電路交換式交換器210無需頻繁交換，且因此建置起來可簡單得多，且可使用不同技術(例如，全光學、基於MEMS鏡)以在多個叢集204之間動態地連接。此等叢集204之間的任何給定時間的特定連接係基於給定串流計算圖形而最佳化，由實體計算節點201及其所連接之叢集204執行該給定串流計算圖形之計算。

此等類型之外部鏈路208及動態交換實施在需要時動態改變之極高輸送量(高頻寬)連接性。由於多核心處理晶片需要極高頻寬網路以將該等晶片互連至其他此等實體處理節點或記憶體子系統，因此例示性串流處理架構在提供具體在功能上由串流處理計算圖形及其相對固定性質來實施的此機制方面起到重要的作用。此提供更有效投送，因為封包無需被重新檢查且在逐封包基礎上投送。電路交換器210之構造可針對該功能且藉由適當技術(例如，全光學電路交換)而經最佳化，可在極低電力及成本有效之情況下有效地操縱大量資訊(串流)。

注意圖2中所展示之圖僅描繪該系統中之主資料管道亦為重要的。應理解，呈現該系統中之所有叢集/計算節點之間的完整連接性的另一較慢網路(未圖示)亦經提供以用於處置較不忙碌之連接，以及用於控制及其他較低頻寬通信。因此，封包交換網路(例如)可用以傳送經確定以傳輸最小資料之彼等資料流(例如，104)。該確定可藉由指定臨限值函數(例如，在預定時間週期內傳遞之資料的量化數目，或特定計算之優先級函數或其他此等系統及操作相關參數)來進行，一旦達到該臨限值，便經由基於電路交換之網路投送串流。因此，串流之投送可在所有經指派以傳遞通過封包交換網路時開始，而隨著計算進行且更多頻寬在串流內傳送，將重新定向此投送以傳遞通過形成電路交換網路之外部鏈路。

現轉向圖3，現將在一例示性實施例中描述一流程圖，該流程圖描述一用於實施串流處理架構之處理程序。在圖3之流程圖中，步驟302至306係針對建立一例示性串流電腦處理系統。步驟308係針對產生一例示性串流計算圖形，步驟310至346係針對將該串流計算圖形映射至該串流電腦處理系統，且步驟318係針對關於該串流計算圖形而執行該串流電腦處理系統的操作。

現將描述串流電腦處理系統之建立。在步驟302處，形成處理器(例如，圖2之處理器202)之一超級節點叢集。在步驟304處，該超級節點叢集中之處理器中的每一者經由一本端已知互連構件(例如，圖2之網路206)以通信方式耦接。該本端已知互連構件可使用(例如)直接連接、經由一快取連貫式對稱多處理器(SMP)構造而透過記憶體、一交換器或其組合來實施。

在步驟306處，該超級節點叢集(例如，圖2之叢集204)經由一或多個光學外部鏈路(例如，鏈路208)以通信方式耦接至一或多個光學電路交換器(例如，圖2之交換器210)。該光學電路交換器經由自包括其他實體計算節點之處理器的其他超級節點叢集至光學電路交換器之光學外部鏈路以通信方式耦接至其他超級節點叢集。

如上文所指示，在步驟308處針對在步驟302至306中所建立之串流計算系統而產生一串流計算圖形。該串流計算圖形包括核及資料流。該等核表示對輸入至相應核之該等資料流中之一或多者執行計算的軟體程式碼元件。圖4展示具有二元樹拓撲的串流計算圖形400。核402將資料流404發送至其他核。此等核402經分組成多個超級節點，諸如具有特定理想性質之超級節點410A及410B。

如上文所指示，該串流計算圖形經映射至該串流電腦處理系統，如現將描述。現轉向圖5A及圖5B，串流計算圖形(例如，串流計算圖形500B)之核及資料流經映射至可重新組態之電路交換連接之叢集(例如，串流電腦系統500A之叢集505A)上。在步驟310處，將該等核指派至超級節點叢集且指派至該等超級節點叢集中之每一者的各別實體計算節點。如圖5B中所展示，已指派諸如核502B之核至圖5A之系統500A上之實體計算節點(例如，節點503A)上。圖5B中所展示之形成超級節點(例如，超級節點510B及512B)且與資料流(經展示為串流504B)連接之節點的分組已分別經映射至圖5A中所展示之結構(參看連接501A)上。

在步驟312處，當該資料流處於相同超級節點叢集中之實體計算節點之間時，將該等核之間的資料流訊務指派至本端已知互連構件。

在步驟314處，當該資料流處於不同超級節點叢集中之實體計算節點之間時，將該等核之間的資料流訊務指派至光學外部鏈路。

在步驟316處，光學電路交換器經組態以經由外部鏈路而在對應於該等指派的超級節點叢集之間提供連接性(如圖5A及圖5B中所展示，已重新組態電路交換器520以提供此等經映射之超級節點(例如，超級節點510B、512B、514B、516B、518B、520B)之間的所需連接性)。叢集之間的連接的建置(亦即，每一叢集將使用外部鏈路經由OCS交換器連接至特定其他叢集)係基於將核映射至實體處理節點上之最佳化處理程序。在此處理程序之結尾，正計算作為整體在叢集之間進行之保留通信的總量(基於原始圖形中之所有串流邊的總計)，從而得出每一叢集與所有其他叢集之間的通信所需之總頻寬。接著，經由OCS交換器組態適當外部鏈路以支援任何叢集與所有其他叢集之間的此頻寬。經由封包交換網路來投送較低頻寬臨限值連接(亦即，並不值得使用高頻寬外部鏈路經由OCS建立電路的彼等連接，不值得係因為極少預期資料傳遞通過此等連接)。

在步驟318處，根據串流計算圖形來執行對串流電腦處理系統的操作，使得最佳化叢集之間在給定時間的特定連接。

因此，以上處理程序導致滿足串流計算圖形之拓撲(圖4中展示為二元樹，作為一可能之此圖形之一實例)且動態地改變電路交換器520以在叢集505A間匹配所需通信樣式，而個別資料流的本端分離由叢集互連506A在本端進行(如圖5A及圖5B中所展示)。

如自上文所描述之例示性實施例可見，光學通信及串流處理範例之組合解決上述程式化及頻寬挑戰。光學通信鏈路提供超高輸送量、最小通信延時，及獨立於容量而保持的低操作電力。可利用光學鏈路之容量、透通性及基本低電力消耗的光學電路交換互連網路(與高基數MEMS(微機電系統)交換器組合)可遞送在全電子互連之情況下完全不可能的頻寬功耗比(bandwidth-per-watt)。另外，超高頻寬OCS互連網路為用於SPS之最佳解決方案，SPS之計算效能直接取決於最大化當前處理之串流的I/O資料頻寬及最小化接下來將處理之串流之大DMA傳送的延時。另外，SPS通常在使用期限相對長之處理器間建置連接，因此不擔心OCS之較長交換時間。

光學通信進一步解決SPS之可程式化性挑戰，因為光學通信最小化自任何給定處理節點對給定記憶體中之大資料集合的存取時間，而不管其相對位置。減少資料存取之時間變化有助於簡化串流處理系統之模型化。又，簡化之抽象系統層級模型促進對導出大規模信息串流應用至SPS架構上之平衡部署之問題的解決以最大化其持續處理輸送量。此模型可進一步實施自動最佳化方法之開發，該等方法用於在編譯時間資料傳送及資料處理在整個SPS上的靜態協調(static orchestration)與SPS操作期間通信及計算的動態再平衡。

本文中所使用之術語僅出於描述特定實施例之目的且並非意欲限制本發明。除非上下文另外清楚指示，否則如本文中所使用，單數形式「一」及「該」意欲亦包括複數形式。應進一步理解，當在本說明書中使用時，術語「包含」規定所述特徵、整數、步驟、操作、元件及/或組件之存在，但並不排除存在或添加一或多個其它特徵、整數、步驟、操作、元件組件及/或其群組。

以下申請專利範圍中之所有構件或步驟加功能元件之相應結構、材料、動作及等效物意欲包括用於連同其他具體所主張之所主張元件一起執行功能的任何結構、材料或動作。雖然出於說明及描述之目的已呈現對本發明之描述，但該描述不意欲為詳盡的或限於所揭示形式之本發明。在不脫離本發明之精神及範疇之情況下，許多修改及變化對於一般熟習此項技術者將為顯而易見的。選擇並描述了該等實施例以便最好地闡釋本發明之原理及實際應用，且使其他一般熟習此項技術者能夠理解本發明之各種實施例，其中預期適用於特定用途的各種修改。

本文中所描繪之流程圖僅為一實例。在不脫離本發明之精神的情況下，可存在對本文中所描述之此圖或步驟(或操作)之許多變化。舉例而言，可按不同次序執行該等步驟，或者可添加、刪除或修改步驟。將所有此等變化考慮為所主張之本發明的一部分。

雖然已描述本發明之較佳實施例，但熟習此項技術者應理解，在現在及將來，可進行在以下申請專利範圍之範疇內的各種改良及增強。此等申請專利範圍應被解釋為維持對最初描述之本發明的適當保護。

100．．．圖形

102A．．．核/源

102B．．．核/儲集器

102C．．．規則核

104A．．．邊/輸入串流

104B．．．邊/輸出串流

110A．．．陰影群組

110B．．．陰影群組/超級節點

110C．．．陰影群組/超級節點

200．．．串流電腦系統

201．．．實體計算節點

202．．．多處理器

204．．．超級節點叢集

206．．．已知快速互連構件/本端互連叢集構造/網路

208．．．光學外部鏈路

210．．．電路交換式交換器

400．．．串流計算圖形

402．．．核

404．．．資料流

410A．．．超級節點

410B．．．超級節點

500A．．．串流電腦系統

500B．．．串流計算圖形

501A．．．連接

502B．．．核

503A．．．節點

504B．．．串流

505A．．．叢集

506A．．．叢集互連

510B．．．超級節點

512B．．．超級節點

514B．．．超級節點

516B．．．超級節點

518B．．．超級節點

520．．．電路交換器

520B．．．超級節點

圖1為在節點分組之情況下的習知串流計算圖形；

圖2為根據本發明之一例示性實施例之串流電腦系統的圖；

圖3為描述用於建立並管理本發明之一例示性實施例中之串流電腦系統之一串流處理架構之處理程序的流程圖；

圖4說明作為計算圖形之實例之包括二元樹拓撲的串流計算圖形，該圖形說明在一例示性實施例中該圖形之核如何分組成超級節點以及此等超級節點如何互連；及

圖5A說明一例示性串流電腦系統，圖5B中展示之一例示性串流計算圖形經映射或嵌入至該系統上。