TWI452473B - 電腦系統及用以共享電腦記憶體的方法(一) - Google Patents
電腦系統及用以共享電腦記憶體的方法(一) Download PDFInfo
- Publication number
- TWI452473B TWI452473B TW100127015A TW100127015A TWI452473B TW I452473 B TWI452473 B TW I452473B TW 100127015 A TW100127015 A TW 100127015A TW 100127015 A TW100127015 A TW 100127015A TW I452473 B TWI452473 B TW I452473B
- Authority
- TW
- Taiwan
- Prior art keywords
- cpu
- memory
- computer system
- ram
- cpus
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17306—Intercommunication techniques
- G06F15/17331—Distributed shared memory [DSM], e.g. remote direct memory access [RDMA]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/16—Handling requests for interconnection or transfer for access to memory bus
- G06F13/1605—Handling requests for interconnection or transfer for access to memory bus based on arbitration
- G06F13/1652—Handling requests for interconnection or transfer for access to memory bus based on arbitration in a multiprocessor architecture
- G06F13/1657—Access to multiple memories
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/62—Wavelength based
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multi Processors (AREA)
- Optical Communication System (AREA)
Description
本揭示內容大致上係有關於針對電腦系統之記憶體裝置之連結。
電腦系統之典型中央處理單元(CPU)可邏輯上定址其實體上控制的記憶體位置數目之許多倍。舉例言之,許多CPU可邏輯上定址2兆位元組(TB)(2000十億位元組(GB))至4TB(4000GB)記憶體,但只能實體上控制128GB。對於記憶體位置數目之基本限制為輸入/輸出(I/O)接腳數目及從單一CPU直接維持多個雙倍資料率(DDR)匯流排所要求的電力。最先進的CPU將其無黏膠式(不使用二次切換/相干性連結性階層關係)連結性限於8個處理器領域,而各個處理器只能控制其可定址之一極端子集。如此,使用處理器作為記憶體控制器針對定址與控制大量記憶體二者可能是相當昂貴的手段。
對稱式多處理(SMP)是一種其它多個CPU共享相同記憶體的電腦系統架構。SMP系統提供擴充能力。隨著業務量的增加,可添加額外CPU來吸收增加的異動處理量。SMP系統的CPU數目可從至少兩台至超過32 CPU。
SMP架構經由在整個複合體上採用一致的記憶體相干性方案,聯合許多CPU與專屬的交換組織結構而允許大量記憶體藉各個CPU定址。此項解決辦法1)相當複雜,2)昂
貴,3)增加顯著延遲,及4)不太適合某些應用用途,包括搜尋。
DDR擴充方案也曾用來增加CPU可利用的記憶體。DDR擴充方案之一實例包括負載減低雙排式記憶體模組(LRDIMM)。LRDIMM可使用記憶體緩衝器晶片或多個晶片來增加總伺服系統記憶體容量及速度而非使用暫存器。LRDIMM解決辦法典型地以個位數因數增加記憶體的可控制量,同時形成高耗電客戶DIMM,其相對於所提供的價值可能太過昂貴。
另一項DDR擴充方案包括晶片組,其擴充藉既有記憶體控制器所能控制的記憶體數量。晶片組解決辦法將DDR時間拉伸至極限,增加耗電,及就記憶體半徑而言並未提供極端的定標層級。如此處使用,「記憶體半徑」一詞表示可附接至一特定實體之記憶體量。使用晶片組解決辦法之定標受限於具有所要求的靠近記憶體控制器程度而可被封裝之記憶體量。
前文摘述之DDR擴充方案之缺點為其無法被組配成一個比例,及然後在稍後的組配事件被改成另一個比例。
依據本發明之一實施例,係特地提出一種電腦系統包含:多個電腦伺服器,各自包括至少一個中央處理單元(CPU);與該等多個電腦伺服器遠端離開及包括隨機存取記憶體(RAM)於其中之一記憶體裝置;操作式地附接至該至少一個CPU之一光子CPU鏈路;及操作式地附接至該光子
CPU鏈路及記憶體裝置之一光子電路切換器;其中該RAM之一配置部分係藉選自於具有該至少一個CPU之該等多個電腦伺服器中之一預定CPU而可定址。
本文揭示實施例之特徵及優點經由參考後文詳細說明部分及附圖將更為彰顯,其中類似的元件符號係對應於相似的但或許並非相同的組件。為求簡明,具有前述功能之元件符號或特徵結構可能或可能未關聯該等元件符號或特徵結構出現於其中之其它圖式描述。
第1圖為依據本發明之一實施例電腦系統之示意代表圖;第2圖為第1圖所示電腦系統之實施例的額外構面之示意代表圖;第3圖為依據本發明之電腦系統之另一實施例之示意代表圖;第4圖為依據本發明之一實施例記憶體裝置之一實施例之示意代表圖;第5圖為依據本發明之一實施例附接鏈路式記憶體域之一實施例之示意代表圖;第6圖為依據本發明之一實施例從CPU至RAM之一通訊路徑之一實施例之示意代表圖;第7圖為依據本發明之方法實施例之示意處理流程圖;第8圖為依據本發明之一實施例光子電路切換器之示意代表圖;
第9圖為依據本發明之一實施例連結伺服器與記憶體之一光子電路切換器之一實施例之示意代表圖;第10圖為依據本發明之一實施例積體電路晶片之一實施例之高階功能方塊示意圖;第11圖為針對第9圖所示之該實施例,光子電路切換器組態之一實施例之示意代表圖;第12圖為示意圖顯示針對第11圖所示光子電路切換器組態之該實施例光子電路切換器配置之一實施例;第13圖為針對第9圖所示之該實施例,光子電路切換器組態之一實施例之示意代表圖;第14圖為示意圖顯示針對第13圖所示光子電路切換器組態之該實施例光子電路切換器配置之一實施例;第15圖為針對第9圖所示之該實施例,光子電路切換器組態之一實施例之示意代表圖;及第16圖為示意圖顯示針對第15圖所示光子電路切換器組態之該實施例光子電路切換器配置之一實施例。
電腦系統之典型中央處理單元(CPU)可邏輯上定址其實體上控制的記憶體位置數目之許多倍。舉例言之,許多CPU可邏輯上定址2兆位元組(TB)(2000十億位元組(GB))至4TB(4000GB)記憶體,但只能實體上控制128GB。對於記憶體位置數目之基本限制為輸入/輸出(I/O)接腳數目及從單一CPU直接維持多個雙倍資料率(DDR)匯流排所要求的電
力。最先進的CPU將其無黏膠式(不使用二次切換/相干性連結性階層關係)連結性限於8個處理器領域,而各個處理器只能控制其可定址之一極端子集。如此,使用處理器作為記憶體控制器針對定址與控制大量記憶體二者可能是相當昂貴的手段。
對稱式多處理(SMP)是一種其它多個CPU共享相同記憶體的電腦系統架構。SMP系統提供擴充能力。隨著業務量的增加,可添加額外CPU來吸收增加的異動處理量。SMP系統的CPU數目可從至少兩台至超過32 CPU。
SMP架構經由在整個複合體上採用一致的記憶體相干性方案,聯合許多CPU與專屬的交換組織結構而允許大量記憶體藉各個CPU定址。此項解決辦法1)相當複雜,2)昂貴,3)增加顯著延遲,及4)不太適合某些應用用途,包括搜尋。
DDR擴充方案也曾用來增加CPU可利用的記憶體。DDR擴充方案之一實例包括負載減低雙排式記憶體模組(LRDIMM)。LRDIMM可使用記憶體緩衝器晶片或多個晶片來增加總伺服系統記憶體容量及速度而非使用暫存器。LRDIMM解決辦法典型地以個位數因數增加記憶體的可控制量,同時形成高耗電客戶DIMM,其相對於所提供的價值可能太過昂貴。
另一項DDR擴充方案包括晶片組,其擴充藉既有記憶體控制器所能控制的記憶體數量。晶片組解決辦法將DDR時間拉伸至極限,增加耗電,及就記憶體半徑而言並未提
供極端的定標層級。如此處使用,「記憶體半徑」一詞表示可附接至一特定實體之記憶體量。使用晶片組解決辦法之定標受限於具有所要求的靠近記憶體控制器程度而可被封裝之記憶體量。
前文摘述之DDR擴充方案之缺點為其無法被組配成一個比例,及然後在稍後的組配事件被改成另一個比例。
記憶體擴充之另一項解決辦法係建立主機電腦。主機電腦可以跑多重使用者及多重工作,且可基於需求分配記憶體。主機電腦的缺點是通常價格昂貴,及記憶體擴充的總尺寸有限。
I/O連結記憶體可用作為記憶體擴充技術。I/O連結記憶體係透過稱作為I/O的軟體而連結至伺服器的擴充記憶體。但與稱作I/O的軟體相關聯之高度延遲通常限制I/O連結記憶體用作為記憶體擴充解決辦法的價值。
基於鏈路之記憶體擴充辦法使用CPU鏈路來電子式或光子式地連結一伺服器至遠端記憶體。但該連結為點對點連結;如此基於鏈路之記憶體擴充連結一個處理器至一個記憶體單元。基於鏈路之記憶體擴充並未解決在多個伺服器間彈性地共享一片共用記憶體資源的問題。
具有電子封包切換器之基於鏈路之記憶體擴充辦法藉由加入電子封包切換器而克服點對點網絡之限制。但封包切換器典型地增加數十奈秒延遲且耗用大量電力。高速鏈路必須減慢與重新定時來匹配切換器之核心頻率,安排路徑,然後重新定時為高速輸出路徑。此等切換器之階層關
係增加了數百奈秒的延遲,原因在於串列式交換(hops)犧牲了效能。
具有光子式附接記憶體擴充裝置之電腦系統揭示於此處。該電腦系統實施例提供在一組配事件時,改變了哪些記憶體域對哪些伺服器為可利用的能力。系統使用遠端節點之固有CPU鏈路,且允許在CPU架構之限制內增加節點。每個節點可附接的記憶體並非如前文所述附接至CPU的記憶體般基本上受限制,原因在於CPU鏈路可被分配來服務每個節點之記憶體匯流排係比每個處理器之記憶體匯流排多得多。如此,針對一項應用用途(例如搜尋大型資料庫),有大量記憶體可分配給CPU上的記憶體密集處理程序,而在另一個CPU上需要較少量記憶體的應用用途則將有適量記憶體分配給它(例如文字處理)。在不同情況下,不同量記憶體可分配給該CPU及該另一CPU。從一片記憶體重新組配分配給一CPU的記憶體可有效地利用記憶體。
相反地,其它電腦系統可永久性地分配大量記憶體給各個CPU而具備當需要時執行記憶體密集操作的能力,但在無需如此大量記憶體的操作期間,則記憶體可能欠缺使用。採購額外記憶體相關聯之成本及不使用的記憶體所遭致之耗電量無效率可藉本發明之實施例予以克服。
本發明之實施例允許使用相對價廉的工業標準伺服器。可組配之記憶體資源池可經分配來滿足客戶及應用程式需求。所揭示之電腦系統特別可用於搜尋應用及雲端架構。
現在參考第1圖,詳盡闡釋電腦系統100之實施例。電腦系統包括其間具有一光子互連體150之一伺服器架140及一記憶體架145。伺服器架140包括操作式地設置於該伺服器架140之多個電腦伺服器105。記憶體架145包括一或多個記憶體裝置130。雖然第1圖詳盡闡釋本發明之多架實施例,但須瞭解記憶體裝置130及電腦伺服器105可罩在同一個機架(圖中未顯示)內部。
第2圖顯示第1圖闡釋之電腦系統100之實施例之額外構面。各個電腦伺服器105包括操作式地設置於其中之至少一個中央處理單元(CPU)110。記憶體裝置130係與多個電腦伺服器105遠端隔開,及包括光子電路切換器155,及操作式地設置於其中之附接鏈路式記憶體域180。須瞭解光子電路切換器155也稱作光子落通式切換器。附接鏈路式記憶體域180包括記憶體控制器160、隨機存取記憶體(RAM)170及積體電路晶片182,其係經組配來操作式地設置於記憶體裝置130中作為記憶體控制器160及作為CPU鏈至DDR通訊晶片162。至少一個光子互連體150連結多個電腦伺服器105及記憶體裝置130。轉換器135可操作式地設置於CPU與光子互連體150間來協助電子式通訊之CPU 105與光子互連體150間之雙向通訊。又復,雖然第2圖並未顯示此種組態,但須瞭解針對帶寬、冗餘、及延遲等考量,二或多個光子互連體150可連結各個CPU 110至記憶體裝置130。
於一實施例中,於組配事件期間,RAM 170之配置部分係藉選自於設置在多個電腦伺服器105中之多個CPU 110
之一預定CPU 110而可定址。所選CPU 110可基於多項因素而擇定,例如須於電腦執行之程式、資料庫大小、計算工作大小等。舉例言之,CPU 110可配置大部分的RAM 170來搜尋大型資料庫。於另一個實例中,藉預定CPU 110而可定址的RAM 170之最大配置部分係占操作式地設置於記憶體裝置的RAM 170之約100%。於又另一個實例中,在該預定CPU 110中,RAM 170之最大配置部分對CPU核心112之比至少約為64GB/核心。
於又一實例中,90% RAM 170可分配給預定CPU 110,而全部其餘CPU 110組合可配置剩餘10% RAM 170直至隨後的組配事件。於隨後的組配事件,另一個預定CPU 110可配置30%操作式地設置於記憶體裝置的RAM 170,而其餘CPU 110係配置聚集體中的70% RAM 170。
須瞭解全部CPU 110皆具有某種程度之固有記憶體。如此處使用,於組配事件期間分配的RAM 170部分係設置於記憶體裝置130而與固有CPU記憶體分開且為額外。
RAM 170之配置部分係建立與維持在電腦系統100之整個操作期直至隨後組配事件。須瞭解建立RAM 170之配置部分在RAM 170的記憶體位置之特定範圍(圖中未顯示)係指定給特定CPU 110之排它使用,而直至隨後組配事件該排它的配置並未改變(亦即維持整個操作期)。
組配事件可以是啟動操作,或藉作業系統、藉超管理器設備韌體、或藉其它控制裝置所決定的相似事件。組配事件也可包括但非限於虛擬機器之安裝、電腦系統100之定
期重新組配(例如基於每月、每季、每年等基準用於業務需要)等及其組合。
須瞭解於本發明之實施例中,記憶體可在電腦系統100之任何於組配事件期間分派給CPU,而此等分派並非限於啟動或類似的於組配事件期間。
進一步須瞭解如此處使用之「組配事件」通常係述及時間粒度。舉例言之,若記憶體可以依據指令基準配置,則組配機構將在電腦系統針對一指令之預期時間(例如奈秒)以內反應。另外,若記憶體係以依據虛擬機器案例基準配置,則該組配機構係在虛擬機器案例之時間(例如微秒至毫秒)以內反應。預期在本文揭示範圍內之組配事件係與組配機構(例如如此處揭示之電路切換器155及其電子控制裝置(參考第18圖之元件符號151))相關聯,其不如依據指令實例般快速,但與依據虛擬機器情況實例同等快速或更快。於一實施例中,組配事件係藉組配機構在約100毫秒或以下執行。於另一實施例中,事件執行時間係於自約50微秒至約100毫秒之範圍。於其它實施例中,事件執行時間可少於50微秒。
也如第2圖所示,RAM 170可呈DIMM 122形式,其可以特定DDR匯流排相關方式組構。須瞭解也可使用其它形式之RAM 170,包括但非限於記憶盤、記憶卡、堆疊式DRAM封裝體、相變記憶體、及基於憶阻器之記憶體。
現在參考第3圖,電腦系統100’之一實施例具有透過光子互連體150而操作式地連結至記憶體裝置130之多個電腦
伺服器105’。於第3圖所示實施例中,電腦伺服器105’為雙插口式伺服器。須瞭解雙插口式伺服器包括兩個CPU 110(CPU未顯示於第3圖以求清晰)。進一步須瞭解電腦伺服器之其它實施例可包括比前述更多個CPU 110,及電腦伺服器之其它實施例可包括比所示更多個電腦伺服器105、105’。舉例言之,於一實施例中,多個伺服器各自可包括多於八個CPU。於一非限制性實例中,電腦系統100、100’可包括1024個CPU。
第4圖詳盡闡釋連結CPU鏈路152至記憶體裝置130之光子互連體150。光子電路切換器155連結CPU鏈路152至附接鏈路式記憶體域180。轉換器135係操作式地設置於光子電路切換器155與附接鏈路式記憶體域180間。轉換器135將CPU鏈路信號從光子CPU鏈路信號轉成電子CPU鏈路信號。須瞭解轉換器135為雙向,因此轉換器135將光子信號轉成電子信號及將電子信號轉成光子信號。
第5圖顯示包括一積體電路(IC)晶片182之個別附接鏈路式記憶體域180。IC晶片182係經組配來用作為記憶體控制器160及作為CPU鏈路至DDR通訊晶片162(如第2圖所示)。DIMM 122透過DDR匯流排164通訊,藉此完成CPU 110與RAM 170間之路徑(如於第2、4及5圖共同所見)。
第8圖示意顯示依據本發明之一實施例之光子電路切換器155。(注意第6圖及第7圖將討論如後)。也如第4圖所示,光子電路切換器155切換器光子互連體150來連結CPU鏈路152與附接鏈路式記憶體域180。如第8圖所示,光子電
路切換器155係電子式控制,如元件符號151示意顯示。如此,於組配事件期間,電子控制可改變,結果導致光子電路切換器155之特定光子輸入端與特定光子輸出端間之連結性的改變。
光子電路切換器155之屬性包括相對緩慢切換時間(典型地數百微秒至數十毫秒),但一旦切換時,其具有極短的傳播延遲時間(通常為數百皮秒)。於此處實施例中,相較於通過切換器(當記憶體組態改變時)之資料率,光子電路切換器155不常切換,但一旦切換時,光子電路切換器155提供極低延遲與高帶寬通訊。於本發明之實施例中,光子電路切換器155可經組配來具有自約50微秒至約100毫秒之切換時間。於其它實施例中,切換時間可少於50微秒。
如前述,須瞭解記憶體配置及重新配置無需限於啟動或類似的於組配事件,討論如前文。於本發明之實施例中,依改變應用程式需要之函數變化,可完成記憶體負荷遷移。
須瞭解光子電路切換器155可設置為微機電系統(MEMS)切換器,其使用轉向鏡來改變光信號連接性。光子電路切換器155也可設置為液晶顯示器(LCD)切換器,其使用功率分配器連同LCD陣列來阻斷非期望的光徑。此外,可使用馬赫-曾德爾(Mach-Zehnder)干涉儀(MZI)切換器、環式調變器切換器、及其它提供信號之選擇性路徑安排能力的IC(矽)光子技術。光子電路切換器155之非限制性實例可參考「智慧型光系統100」,得自美國加州海華閃爍玻璃網路。
進一步須瞭解光子電路切換器155可包括光子電路切換器155之陣列或網路。舉例言之,如此處使用,光子電路切換器155可包括光子電路切換器之線性陣列。於又另一個實例中,光子電路切換器155可包括光子電路切換器之串級。
第6圖顯示於本發明之實施例中,自CPU 110至RAM 170之通訊路徑之示意視圖。全部CPU 110包括至少一個CPU核心112(示意顯示於第6圖)。CPU 110係透過本地匯流排173上之扇出171而連結至本地記憶體172內部之記憶體模組175。CPU鏈路152係連結至轉換器135,其將電子式CPU鏈路信號轉成光子式CPU鏈路信號,該信號藉光子互連體150攜載至另一個轉換器135,其將CPU鏈路信號從光子式CPU鏈路信號轉成電子式CPU鏈路信號。須瞭解如此處使用,光子互連體150可包括多於一條光徑。例如,多於一根光纖(圖中未顯示)可含括於光子互連體150。進一步須瞭解橫跨光子互連體150之通訊可以是雙向(亦即一根光纖在一個方向通訊,而另一根光纖在相反方向通訊),因此轉換器135將光子信號轉成電子信號及將電子信號轉成光子信號。CPU鏈路至DDR通訊晶片162透過DDR匯流排164連結CPU鏈路152至RAM 170。須瞭解光子互連體150可包括光發射(光)纖、耦合體(圖中未顯示)、及轉換器135。
光子互連體150使得RAM 170可位在距CPU 110更大距離(比較電子互連體),而無與多晶片交換相關聯之高度傳輸延遲時間,及具有優異的信號對雜訊性質。須瞭解光速與
光纖長度的乘積持續地為傳輸延遲來源,但在此處揭示之通訊半徑並非顯著傳輸延遲。如此,本發明之一實施例具有自約1米至約10米範圍之通訊半徑。如第1圖所示,此種通訊半徑使得記憶體裝置130設置在記憶體架145,與伺服器架140隔開而無傳輸時間相關的效能問題,直至光纖長度使得光速與光纖長度的乘積構成延遲的顯著部分為止。本發明揭示之通訊半徑可比DDR2或DDR3通訊半徑大1或2次冪幅度。
於第9圖所示實施例中,一個系統實例具體實現連結各自有兩個CPU鏈路152之8個伺服器105至伺服8個附接鏈路式記憶體域180之光子電路切換器155。也如第4圖所示,轉換器135係操作式地設置於光子電路切換器155與附接鏈路式記憶體域180間。轉換器135將CPU鏈路信號從光子式CPU鏈路信號轉成電子式CPU鏈路信號。須瞭解轉換器135將光子信號轉成電子信號及將電子信號轉成光子信號。進一步須瞭解顯示在第9圖之光子電路切換器155左側的轉換器135協助電子式通訊的CPU鏈路152與光子式通訊的光子電路切換器155間之雙向通訊。
第9圖中,各伺服器105具有標記S0、S1、...、S7。各伺服器105具有標記為L0及L1的兩個CPU鏈路152。如此,述及第9圖所示16個CPU鏈路152之一特定CPU鏈路152可藉參照伺服器標記及鏈路標記(例如S0L0、S0L1、S1L0、...、S7L1)達成。於一具體實施例中,具有標記S1L1之CPU鏈路152指示該個別CPU鏈路152係附接至伺服器1鏈路1。各個
CPU鏈路152是完整雙向CPU鏈路。須瞭解雙向CPU鏈路具有下列特性:全部伺服器輸出端係路由至切換器輸入端,全部伺服器輸入端係路由至切換器輸出端,全部記憶體域輸入端係路由至切換器輸出端,及全部記憶體域輸出端係路由至切換器輸入端。於第9圖所示實施例中,8個伺服器105各自接取至多4個附接鏈路式記憶體域180,但伺服器並非必要附接至記憶體域180中之任一者。
第10圖顯示也顯示於第2圖之積體電路晶片182之高階功能示意方塊圖。IC晶片182之基本功能包括鏈路控制、鏈路橋接、記憶體控制、及DDR實體控制功能。
附圖之各個組態係顯示於第11圖至第16圖。第11圖顯示第9圖所示實施例之特定切換器組態。於第11圖中,CPU鏈路152及附接鏈路式記憶體域鏈路153係以1:1之對應關係相對應。此種組態提供可用的最高帶寬。
第12圖為示意圖,顯示第11圖所示針對切換器組態之切換器配置實例。須瞭解為求簡明,並未顯示全部輸入端及輸出端。舉例言之,輸入端A0表示完整全寬CPU鏈路所要求之輸入端。如切換器對映表方塊顯示,CPU鏈路152及附接鏈路式記憶體域鏈路153係以1:1之對應關係對映。鏈152、153為雙向。
第13圖顯示第9圖所示實施例之中等連結性及帶寬切換器組態。第13圖中,兩個附接鏈路式記憶體域180係連結至各個伺服器105。此種組態提供中數帶寬及中數記憶體半徑。
第14圖為示意圖,顯示第13圖所示切換器組態之切換器配置實例。再度,須瞭解為求簡明並未顯示全部輸入端及輸出端。舉例言之,輸入端A0表示針對整個全寬CPU鏈路所要求的輸入端。如切換器對映表方塊所示,未使用某些附接鏈路式記憶體域鏈路153。於第14圖中,虛線指示未連結的鏈路。光子電路切換器155輸出端Y2及輸入端A3於第14圖之切換器對映表部分係顯示為未連結(NC)。鏈路152、153為雙向。
第15圖顯示第9圖所示實施例之高連結性及較低帶寬切換器組態。第15圖中,四個附接鏈路式記憶體域180連結至各個伺服器105。此種組態提供高記憶體半徑,及比較第11至14圖所示組態之較低帶寬。
第16圖為示意圖顯示針對第15圖所示切換器組態之切換器配置實例。再度,須瞭解為求簡明並未顯示全部輸入端及輸出端。也為求簡明,第16圖只顯示單一CPU鏈路152。如第12及14圖所示,輸入端A0表示針對整個全寬CPU鏈路所要求的輸入端。如切換器對映表方塊所示,某些附接鏈路式記憶體域鏈路153係連結至其它附接鏈路式記憶體域鏈路153,藉此提供一個CPU鏈路152接取至兩個附接鏈路式記憶體域180。於第16圖之切換器對映表部分,光子電路切換器155輸入端A3係連結至輸出端Y4,而輸入端A4係連結至輸出端Y2。也如第14圖所示,鏈路152、153為雙向。
第7圖闡釋一種用以在具有多個中央處理單元(CPU)之
電腦系統中共享電腦記憶體之方法200。方法200之一實施例包括光子式連結該等多個CPU至與該等多個CPU遠端隔開之一記憶體裝置,該記憶體裝置具有操作式設置於其中之隨機存取記憶體(RAM),如闡釋於元件符號210。方法200進一步包括透過光子電路切換器,排它地配置部分RAM給選自於該等多個CPU中之一預定CPU,如於元件符號220闡釋。
方法200可進一步包括於電腦系統操作期間,建立與維持RAM排它的配置給CPU直至隨後組配事件,如於元件符號230闡釋。
須瞭解如此處使用,與該等多個CPU「遠端隔開」表示記憶體裝置130係與該等多個CPU遠端隔開達自約1米至約10米範圍之距離。
依據此處之實施例,操作式地設置於記憶體裝置130的RAM 170總量以十億位元組表示,除以於多個電腦伺服器105中之CPU核心112總數為至少約64GB/核心(以另一方式表示,記憶體裝置130包括等於64GB與電腦系統100中CPU核心112總數之數學乘積的定量隨機存取記憶體(RAM)170。於另一實施例中,總RAM對CPU核心之比為256GB/核心。於又另一實施例中,總RAM對CPU核心之比為2000GB/核心。須瞭解前述總RAM對CPU核心之比實例並非意圖暗示RAM 170一致均勻地分配給在電腦系統100之伺服器105內的全部CPU 110,但若有所需,CPU 110可如此均勻地提供。於此處揭示之實施例中,RAM 170之分配
可扭斜,大量記憶體(占可用總RAM 170)係分配給一或多個CPU 110,而其餘量記憶體(占可用總RAM 170)係視需要地而分配給其餘CPU 110。
於此處揭示之實施例中多個電腦伺服器各自可以是雙插口伺服器。於另一實施例中,電腦伺服器可包括1至8個CPU。須瞭解多於一個CPU可操作式地設置在單一晶片(亦即雙核心及四核心處理器)上。
進一步須瞭解本發明之實施例並非限於由CPU記憶體控制器所提供之固有容量。舉例言之,具有含四個DIMM之四個DDR匯流排之CPU各自具有4x4x(DIMM容量)之最大固有容量。若DIMM容量為8GB,則最大固有容量為4x4x8=128GB。繼續採用相同實例,若CPU具有8核心112,則每個核心之記憶體為128GB/8=16GB。若實例中之CPU為8向(8-way)SMP之一部分,則最大記憶體將為1024GB,但RAM對CPU核心之比仍然為16 GB/核心。
於受CPU記憶體控制器之固有容量限制的記憶體之另一實例中,具有8核心之貝克頓(Beckton)CPU可控制16 DIMM。若DIMM為8GB DIMM,則RAM對CPU核心之比為16 GB/核心。
相反地,本發明之實施例使得全部RAM 170可由單一伺服器105所用。據此,若記憶體裝置130支援128 DIMM 122,則總RAM/CPU核心比為(128 DIMMx8GB/DIMM)/(8核心/CPUx2 CPU)=64 GB/核心。須瞭解若記憶體裝置130支援更大量DIMM 122,則RAM對CPU核心比將為更高。
又復,如前述,於本發明之實施例中,藉預定CPU可定址的RAM之RAM 170之最大配置部分為操作式地設置於記憶體裝置130的RAM之約100%。須瞭解若預定CPU 110係自記憶體裝置130配置100% RAM 170,則其餘CPU 110將無法再從記憶體裝置130接收到額外記憶體直至隨後組配事件的隨後重分配為止。
RAM 170可以是雙倍資料率(DDR)RAM。其它形式的RAM也預期落入於本文揭示之範圍內,包括但非限於記憶盤、記憶卡、堆疊式DRAM封裝體、相變記憶體、及基於憶阻器之記憶體。
須瞭解「被附接/附接/附接至」及「被連結/連結/連結至等詞廣義定義於此處涵蓋多種發散式連結配置及組裝技術。此等配置及技術包括但非限於(1)一個組件與另一組件間直接連通而其間並無中介組件;及(2)一個組件與另一組件以一或多個組件介於其間而連通,但該一個組件「附接至」或「連結至」該另一組件係以某種方式而與該另一組件作操作式聯絡(儘管其間存在有一或多個額外組件)。
雖然已經詳細說明若干實施例,但熟諳技藝人士顯然易知所揭示實施例可經修改。因此,前文說明部分須視為非限制性。
100、100’‧‧‧電腦系統
105、105’‧‧‧電腦伺服器
110‧‧‧中央處理單元(CPU)
112‧‧‧CPU核心
122‧‧‧雙排式記憶體模組(DIMM)
130‧‧‧記憶體裝置
135‧‧‧轉換器
140‧‧‧伺服器架
145‧‧‧記憶體架
150‧‧‧光子互連體
151‧‧‧電子控制裝置
152‧‧‧CPU鏈路
153‧‧‧附接鏈路式記憶體域鏈路
155‧‧‧光子電路切換器
160‧‧‧記憶體控制器
162‧‧‧CPU鏈路對DDR通訊晶片
164‧‧‧DDR匯流排
170‧‧‧隨機存取記憶體(RAM)
171‧‧‧扇出
172‧‧‧本地記憶體
173‧‧‧本地匯流排
175‧‧‧記憶體模組
180‧‧‧附接鏈路式記憶體域
182‧‧‧積體電路晶片
200‧‧‧方法
210、220、230‧‧‧處理方塊
第1圖為依據本發明之一實施例電腦系統之示意代表圖;第2圖為第1圖所示電腦系統之實施例的額外構面之示
意代表圖;第3圖為依據本發明之電腦系統之另一實施例之示意代表圖;第4圖為依據本發明之一實施例記憶體裝置之一實施例之示意代表圖;第5圖為依據本發明之一實施例附接鏈路式記憶體域之一實施例之示意代表圖;第6圖為依據本發明之一實施例從CPU至RAM之一通訊路徑之一實施例之示意代表圖;第7圖為依據本發明之方法實施例之示意處理流程圖;第8圖為依據本發明之一實施例光子電路切換器之示意代表圖;第9圖為依據本發明之一實施例連結伺服器與記憶體之一光子電路切換器之一實施例之示意代表圖;第10圖為依據本發明之一實施例積體電路晶片之一實施例之高階功能方塊示意圖;第11圖為針對第9圖所示之該實施例,光子電路切換器組態之一實施例之示意代表圖;第12圖為示意圖顯示針對第11圖所示光子電路切換器組態之該實施例光子電路切換器配置之一實施例;第13圖為針對第9圖所示之該實施例,光子電路切換器組態之一實施例之示意代表圖;第14圖為示意圖顯示針對第13圖所示光子電路切換器組態之該實施例光子電路切換器配置之一實施例;
第15圖為針對第9圖所示之該實施例,光子電路切換器組態之一實施例之示意代表圖;及第16圖為示意圖顯示針對第15圖所示光子電路切換器組態之該實施例光子電路切換器配置之一實施例。
150‧‧‧光子互連體
151‧‧‧電子控制裝置
152‧‧‧CPU鏈路
155‧‧‧光子電路切換器
Claims (15)
- 一種電腦系統,其係包含:多個電腦伺服器,各自包括至少一個中央處理單元(CPU);與該等多個電腦伺服器遠端隔開及包括隨機存取記憶體(RAM)於其中之一記憶體裝置;操作式地附接至該至少一個CPU之一光子CPU鏈路;及操作式地附接至該光子CPU鏈路及該記憶體裝置之一光子電路切換器;其中該RAM之一配置部分係藉選自於具有該至少一個CPU之該等多個電腦伺服器中之一預定CPU而可定址。
- 如申請專利範圍第1項之電腦系統,其中該電腦系統係經組配來於一組配事件期間配置該配置部分,或重新配置該RAM之配置部分,該組配事件係藉一組配機構於100毫秒或以下執行。
- 如申請專利範圍第1項之電腦系統,其中該記憶體裝置係位在距該等多個電腦伺服器1米至10米範圍之距離。
- 如申請專利範圍第1項之電腦系統,其中該光子電路切換器係經組配來具有少於100毫秒之一切換時間。
- 如申請專利範圍第1項之電腦系統,其中該光子電路切換器係經組配來具有50微微秒至500微微秒間之傳播延遲時間。
- 如申請專利範圍第1項之電腦系統,其中該光子電路切換器係選自於由微機電系統(MEMS)切換器、液晶顯示器(LCD)切換器、馬赫-曾德爾(Mach-Zehnder)干涉儀(MZI)切換器、環式調變器切換器、及其組合所組成之組群。
- 如申請專利範圍第1項之電腦系統,其中該光子電路切換器為一LCD切換器,及其中該LCD切換器包括組配來阻斷一非期望路徑之一功率分配器及一LCD陣列。
- 如申請專利範圍第1項之電腦系統,其中該等多個電腦伺服器包括多於八個CPU。
- 如申請專利範圍第1項之電腦系統,其中該RAM之一最大配置部分對CPU核心之比在該預定CPU中為至少64十億位元組(GB)/核心。
- 一種電腦系統,其係包含:至少八個電腦伺服器,各個伺服器包括至少兩個中央處理單元(CPU),各個CPU具有操作式地設置於其中之至少兩個CPU核心;與該等至少八個電腦伺服器隔開1米至10米之一記憶體裝置,該記憶體裝置包括等於64GB及多個CPU核心之數學乘積之若干隨機存取記憶體(RAM)於其中;操作式地附接至該等至少兩個CPU中之各者之一光子CPU鏈路;及操作式地附接至該光子CPU鏈路及該記憶體裝置之一光子電路切換器; 其中該電腦系統係經組配來於一組配事件期間配置該RAM之一部分,該組配事件係藉一組配機構於100毫秒或以下執行。
- 一種用以於具有多個中央處理單元(CPU)之一電腦系統中共享電腦記憶體之方法,該方法包含:光子式地連結該等多個CPU至與該等多個CPU遠端隔開之一記憶體裝置,該記憶體裝置具有隨機存取記憶體(RAM)於其中;及透過一光子電路切換器排它地配置該RAM之一部分給選自於該等多個CPU之一預定CPU。
- 如申請專利範圍第11項之方法,其係進一步包含於該電腦系統操作期間建立與維持該RAM對該CPU之排它的配置直至一組配事件,該組配事件係藉一組配機構於100毫秒或以下執行。
- 如申請專利範圍第11項之方法,其中該RAM之一最大配置部分對CPU核心之比在該預定CPU中為至少64十億位元組(GB)/核心。
- 如申請專利範圍第11項之方法,其中配置該RAM之部分至選自於該等多個CPU中之該預定CPU係在少於100毫秒之時間期間發生。
- 如申請專利範圍第11項之方法,其中通過該光子電路切換器之信號傳播時間平均係為50微微秒至500微微秒之間。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2010/043939 WO2012015431A1 (en) | 2010-07-30 | 2010-07-30 | Computer system and method for sharing computer memory |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201214142A TW201214142A (en) | 2012-04-01 |
TWI452473B true TWI452473B (zh) | 2014-09-11 |
Family
ID=45530399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100127015A TWI452473B (zh) | 2010-07-30 | 2011-07-29 | 電腦系統及用以共享電腦記憶體的方法(一) |
Country Status (3)
Country | Link |
---|---|
US (1) | US9710426B2 (zh) |
TW (1) | TWI452473B (zh) |
WO (1) | WO2012015431A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012015430A1 (en) * | 2010-07-30 | 2012-02-02 | Hewlett-Packard Development Company, L.P. | Computer system and method for sharing computer memory |
US9582462B2 (en) * | 2010-07-30 | 2017-02-28 | Hewlett Packard Enterprise Development Lp | Computer system and method for sharing computer memory |
EP2981900B1 (en) | 2013-04-01 | 2022-02-09 | Hewlett Packard Enterprise Development LP | External memory controller |
US11126372B2 (en) | 2013-04-01 | 2021-09-21 | Hewlett Packard Enterprise Development Lp | External memory controller |
US9236564B2 (en) | 2013-12-11 | 2016-01-12 | Samsung Electronics Co., Ltd. | Method and system for providing an engineered magnetic layer including Heusler layers and an amorphous insertion layer |
WO2016085461A1 (en) * | 2014-11-25 | 2016-06-02 | Hewlett Packard Enterprise Development Lp | Computing resource with memory resource memory management |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6505275B1 (en) * | 2000-07-24 | 2003-01-07 | Sun Microsystems, Inc. | Method for scalable memory efficient thread-local object allocation |
TWI245880B (en) * | 1999-11-23 | 2005-12-21 | L3 Optics Inc | Digital optical switches using an integrated Mach-Zehnder interferometer having a movable phase shifter |
US7437521B1 (en) * | 2003-08-18 | 2008-10-14 | Cray Inc. | Multistream processing memory-and barrier-synchronization method and apparatus |
TW200917042A (en) * | 2007-07-25 | 2009-04-16 | Microsoft Corp | Fairness in memory systems |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6199181B1 (en) * | 1997-09-09 | 2001-03-06 | Perfecto Technologies Ltd. | Method and system for maintaining restricted operating environments for application programs or operating systems |
US6510259B1 (en) | 1999-11-23 | 2003-01-21 | Lnl Technologies, Inc. | Optical switch using an integrated Mach-Zehnder interferometer having a movable phase shifter and asymmetric arms |
AU4502201A (en) | 1999-11-23 | 2001-06-04 | Nanovation Technologies, Inc. | Analog optical switch using an integrated mach-zehnder interferometer having a movable phase shifter |
US20010047512A1 (en) | 2000-03-23 | 2001-11-29 | Leland Szewerenko | Method and system for linking multiple processors having shared memory |
AU2001241807A1 (en) * | 2000-04-07 | 2001-10-23 | Eric Baer | Polymer 1d photonic crystals |
JP2004515802A (ja) * | 2000-11-14 | 2004-05-27 | オプチュン・(ビーヴイアイ)・リミテッド | 光学モード結合デバイスおよびそれに基づいた光スイッチ |
US7145704B1 (en) | 2003-11-25 | 2006-12-05 | Cheetah Omni, Llc | Optical logic gate based optical router |
US6661949B1 (en) * | 2001-03-01 | 2003-12-09 | Kenneth A. James | Totally photonic evanescent switch for optical fibers |
KR20020078172A (ko) * | 2001-04-06 | 2002-10-18 | 엘지전자 주식회사 | 복수개 시피유의 메모리 공유 시스템 |
JP2003036219A (ja) * | 2001-07-25 | 2003-02-07 | Sony Corp | コンテンツ配信システム、コンテンツ予約管理装置、コンテンツ予約管理方法、コンテンツ予約管理プログラム及びコンテンツ予約管理プログラム格納媒体 |
JP2003044690A (ja) * | 2001-07-31 | 2003-02-14 | Sony Corp | コンテンツ配信システム、コンテンツ予約延長制御装置、コンテンツ予約延長制御方法、コンテンツ予約延長制御プログラム及びコンテンツ予約延長制御プログラム格納媒体 |
US7218862B2 (en) | 2002-08-22 | 2007-05-15 | Main Street Ventures Llc | All optical cross routing using decoding systems for optical encoded data symbols |
US7043623B2 (en) | 2003-01-22 | 2006-05-09 | Intelitrac, Inc. | Distributed memory computing environment and implementation thereof |
NO318311B1 (no) * | 2003-02-04 | 2005-02-28 | Ontime Networks As | Fremgangsmate og apparat for rask rekonfigurering av en nettverkstopologi |
US20040264112A1 (en) * | 2003-06-11 | 2004-12-30 | Koehler Loren M. | Intercoupling apparatus for server computer systems |
US20040267897A1 (en) * | 2003-06-24 | 2004-12-30 | Sychron Inc. | Distributed System Providing Scalable Methodology for Real-Time Control of Server Pools and Data Centers |
US7822105B2 (en) | 2003-09-02 | 2010-10-26 | Sirf Technology, Inc. | Cross-correlation removal of carrier wave jamming signals |
US8560671B1 (en) * | 2003-10-23 | 2013-10-15 | Netapp, Inc. | Systems and methods for path-based management of virtual servers in storage network environments |
US20050172008A1 (en) | 2004-01-30 | 2005-08-04 | Claudatos Christopher H. | Managing network traffic for network-attached storage |
JP3972066B2 (ja) * | 2004-03-16 | 2007-09-05 | 大日精化工業株式会社 | 光制御式光路切替型データ配信装置および配信方法 |
US7231504B2 (en) | 2004-05-13 | 2007-06-12 | International Business Machines Corporation | Dynamic memory management of unallocated memory in a logical partitioned data processing system |
WO2007016942A1 (en) | 2005-08-08 | 2007-02-15 | Pirelli & C. S.P.A | Method for configuring an optical network |
US20070086432A1 (en) * | 2005-10-19 | 2007-04-19 | Marco Schneider | Methods and apparatus for automated provisioning of voice over internet protocol gateways |
US20070086433A1 (en) * | 2005-10-19 | 2007-04-19 | Cunetto Philip C | Methods and apparatus for allocating shared communication resources to outdial communication services |
KR20070071849A (ko) * | 2005-12-30 | 2007-07-04 | 브이케이 주식회사 | 공유메모리를 이용한 서버 시스템 |
US20070268926A1 (en) | 2006-05-22 | 2007-11-22 | Fujitsu Limited | System and Method for Allocating Memory Resources in a Switching Environment |
US8495350B2 (en) * | 2006-08-23 | 2013-07-23 | Kam Fu Chan | Running operating system on dynamic virtual memory |
US9218213B2 (en) * | 2006-10-31 | 2015-12-22 | International Business Machines Corporation | Dynamic placement of heterogeneous workloads |
US20080222351A1 (en) * | 2007-03-07 | 2008-09-11 | Aprius Inc. | High-speed optical connection between central processing unit and remotely located random access memory |
US9405585B2 (en) * | 2007-04-30 | 2016-08-02 | International Business Machines Corporation | Management of heterogeneous workloads |
US7966455B2 (en) * | 2008-03-04 | 2011-06-21 | International Business Machines Corporation | Memory compression implementation in a multi-node server system with directly attached processor memory |
WO2009113381A1 (ja) * | 2008-03-11 | 2009-09-17 | 日本電気株式会社 | マルチプロセッサシステム、マルチプロセッサシステムのos間デバイス共有方法 |
US7786427B2 (en) | 2008-05-06 | 2010-08-31 | Oracle America, Inc. | Proximity optical memory module having an electrical-to-optical and optical-to-electrical converter |
US7979648B2 (en) | 2008-05-30 | 2011-07-12 | Oracle America, Inc. | Dynamic interleaving |
US9575889B2 (en) * | 2008-07-03 | 2017-02-21 | Hewlett Packard Enterprise Development Lp | Memory server |
US8251591B2 (en) * | 2009-06-17 | 2012-08-28 | Corning Cable Systems | Optical interconnection assemblies and systems for high-speed data-rate optical transport systems |
US8521962B2 (en) * | 2009-09-01 | 2013-08-27 | Qualcomm Incorporated | Managing counter saturation in a filter |
-
2010
- 2010-07-30 WO PCT/US2010/043939 patent/WO2012015431A1/en active Application Filing
- 2010-07-30 US US13/813,243 patent/US9710426B2/en active Active
-
2011
- 2011-07-29 TW TW100127015A patent/TWI452473B/zh not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI245880B (en) * | 1999-11-23 | 2005-12-21 | L3 Optics Inc | Digital optical switches using an integrated Mach-Zehnder interferometer having a movable phase shifter |
US6505275B1 (en) * | 2000-07-24 | 2003-01-07 | Sun Microsystems, Inc. | Method for scalable memory efficient thread-local object allocation |
US7437521B1 (en) * | 2003-08-18 | 2008-10-14 | Cray Inc. | Multistream processing memory-and barrier-synchronization method and apparatus |
TW200917042A (en) * | 2007-07-25 | 2009-04-16 | Microsoft Corp | Fairness in memory systems |
Also Published As
Publication number | Publication date |
---|---|
US9710426B2 (en) | 2017-07-18 |
WO2012015431A1 (en) | 2012-02-02 |
US20130132505A1 (en) | 2013-05-23 |
TW201214142A (en) | 2012-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI452473B (zh) | 電腦系統及用以共享電腦記憶體的方法(一) | |
EP3839753B1 (en) | Adaptive fabric allocation for local and remote emerging memories based prediction schemes | |
TWI459211B (zh) | 用以共享電腦記憶體之電腦系統與方法 | |
US9547610B2 (en) | Hybrid memory blade | |
US8503211B2 (en) | Configurable module and memory subsystem | |
CN108604456A (zh) | 在存储器插槽中支持多个存储器类型 | |
KR20090073195A (ko) | 상호연결 시스템에서의 스큐 관리 | |
JP2021185497A (ja) | 再構成可能なサーバー及びそれを有するサーバーラック | |
CN107624178B (zh) | 快速归零的机柜式架构(rsa)和共享存储器控制器(smc)技术 | |
US9582462B2 (en) | Computer system and method for sharing computer memory | |
US12117953B2 (en) | Memory disaggregation and reallocation | |
US9250831B1 (en) | Isolated shared memory architecture (iSMA) | |
RU2461055C1 (ru) | Кластерная система с прямой коммутацией каналов | |
CN113434445A (zh) | 一种i3c访问dimm的管理系统和服务器 | |
US11620248B2 (en) | Optical bridge interconnect unit for adjacent processors | |
US20240028531A1 (en) | Dynamic switch for memory devices | |
Hadke | Design and evaluation of an optical CPU-DRAM interconnect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |