TWI362591B

TWI362591B - System, method, and program product for a memory with combined line and word access

Info

Publication number: TWI362591B
Application number: TW095103559A
Authority: TW
Inventors: Sang Hoo Dhong; Brian King Flachs; Harm Peter Hofstee; Osamu Takahashi
Original assignee: Ibm
Priority date: 2005-02-03
Filing date: 2006-01-27
Publication date: 2012-04-21
Also published as: JP4931828B2; EP1849083B1; EP1849083A2; CN101111828A; CN101111828B; TW200632668A; WO2006082154A2; US20060179176A1; ATE415664T1; US7617338B2; DE602006003869D1; JP2008529181A; WO2006082154A3

Description

1362591 九、發明說明：【發明所屬之技術領域】本發明大體而言係關於一種用於具有組合線及字存取之。己隐體之系統及方法。更特定言之，本發明係關於用於一處理器對相同的記憶體空間執行一窄記憶體存取及一寬記憶體存取之系統及方法。【先前技術】.

叹汁者經常面臨在設備效能與設備成本之間的決策。大部分設備的成本與其設計需要之石夕區域的大小相對應。因為大部分設備之石夕區域均用於記憶體，所以電路設計：特別注意在電路設計中使用什麼類型的記憶體單元以使得该記憶體滿足效能需求 ^ 1 一疋又不會過大以至於不必要地增加設備成本。現有的技術通常使用單埠 _ 早。己隐體早凡類型或雙埠記憶體單凡類型。單蟑記情體星；λ，丨▲ 隐體早兀類型在兩者中為較小的，且因此使設備的成本最小化。鈇 Μ m J化然而，該單埠記憶體在重新載入知作期間阻塞了葡人# + + 八 ^ 基了載入-儲存存取，因此犧牲了效能 s己憶體單元類型在兩者中 1 + 中具有較好的效能，因為-處理装可同時寫入記憶體及自纪愔益元類型…… 取 '然而，雙埠記憶體單凡類坦在兩者中為較大的千廷乓加了設備成本。發現的— 難4為當電路設計者撰摆選擇此專記憶體單元類型中之一去時’電路設計者通常會者犧牲效犯或增加設備成本。此外，靜態隨機存取記憶體⑽等處理器以用作快取記憶^知微术作期間，快取記憶體通常 I0827l.doc 1362591 « 在處理器需要資料或指令（在快取記憶體中的除外）時不時地載入新資料6因此，處理器程式因為無法完成-指令而在一特定點終止，直到操作碼或資料被載入sram中且可為處理器所用。因此，需要1於增強之記憶體效能的系統及方法，而同時，最小化記憶體所需之石夕區域的大小以使設備的成本最小化。【發明内容】已發現可使㈣相同記憶體組執行窄讀取/寫入記憶體存取及寬讀取/寫人記憶體存取之系統及方法來解決上述難題。該系統使用窄讀取/寫人記憶體存取處理16位元組載入/儲存請求且亦使用寬讀取/寫人記憶體存取處理128位元組DMA請求及指令提取請求。 -系統使用多工H及鎖存器來支援兩種不同的記憶體存取類型。當處理「儲存嗜屯士」°月衣日守，寫入多工器經組態以自處理器核心接收16位元組的儲存資料。16位元組的儲存資，疋藉由使用乍寫入έ己憶體存取而載入記憶體中。當處理一載入」《月求時’載入多工器經組態以自記憶體接收16位元組的載入資料且將載入資料提供至處理器核心。使用寬記憶體存取（例如128位元組之資料）來執行指令提取請求及DMA請求。#處理指令提取請求時，讀取多工器經組態以自記憶體接收128位元組之指令提取資料且將育枓提供至讀取鎖存器。接下來，處理器核心自讀取鎖存 ⑽取指令提取資料。藉由—次提取128位元組（諸如扣 10827 丨.doc 1362591 位元（指令集）RISC架構中的32指令），絲記憶體以提取指令之次數得以最小化。 .為了最大化系統之效能，處理DMA請求需要在一個指令週期中自記憶體讀取多個DMA資料及將多個dma資料寫 :隱體中單一 DMA讀取或寫入操作包括用於〇]^八資料的十六個處理器週期。本發明使用寫入累積緩衝器及讀取鎖存以積及料DMA料，讀制於戰請求之每十，、個指令週期對記憶體組存取—次。在觀A寫入操作期間，DMA單元發送驗寫入資料（8位元組）至寫入罗、積緩衝器。寫入累積緩衝器儲存DMA寫入資料，且判定：否其已接收十六個連續的DMA寫入操作。疋一旦寫入累積緩衝器接收到十六個連續的D M A寫入操系先^即安排對記憶體進行寬寫人記憶體存取之排程。接下央，官λ 0 ηΛ *''夕工器經組態以自寫入累積緩衝器接收 d中μα資料’ DMAf料在—單指令週期期間載人記憶體 / DMA讀取操作存在類似情況。在難讀取操作期間，二統對讀取多工器進行組態以自記憶體接 :取且將其載入讀取鎖存器I寬讀取記憶體存取包= 指令週期内提讀取鎖存器在十六個不同讀取操作及=料至_單元。因此’儘管_ 十六個最大㈣寬進行，但是系統僅佔用曰7週期中的兩個來存取記憶體，而剩餘的十四個才曰令週期仍可用於系統之载人及储存操作及指令提^ Ϊ 0827 J.doc 丄的2591 η . 為了節省記憶體陣列與累積鎖存器之間的線執（wire k =k) ’本文中描述之本發明可以具有—記憶體組態，該 ^將咳取累積鎖存器分成各64位元組之兩個鎖存器，藉此其具有-額外的優勢，該優勢為提取可對準⑷立元組邊界而不疋128位凡組邊界，且因此確保每一提取可產生至少64位元組外加用於有效指令的*位元組，該等指令獨立 _ 於登錄點（指令支路目標）。上述内令為-概述且因此有必要含有經簡化、概括及省勺、田卽’因此’熟f此項技術者應瞭解該概述僅為例示性的而不欲作任何限制。僅由申請專利範圍所界定之本發其它態樣、發明特徵及優點將在以下陳述之非限制性坪細描述中變得顯而易見。【實施方式】能夠窄讀取/寫人記憶體存取及寬讀取/寫入記憶體存取之協同處理元件的高白圖（high level drawing)。協同處理元件（SPE)l〇〇包含協鬥♦ „ _ 協问處理早元（SPU)llO及DMA單凡150。SPU 110包令協n口〇邻計。。包3協同執订單元⑵、通道單元！30及局部儲存益14 0。 SXU 120存取局部儲存器1 /性六4。^ 以進仃指令提取操作及载入 /儲存刼作。在指令提取操作 ,kg. a* /曰，SPU 11 ο執行寬讀取記隐體存取，艚此SXU 120白Α加从丄 t^ / 局邛儲存器140接收128位元組貝枓。在载入/儲存操作期間， , c U 110執行窄讀取/寫入記隐體存取，藉此SXD 120自届邱纷六局邛儲存器140讀取16位元組資 I08271.doc 1362^91 料或將16位元組資料寫入局部儲存器140。 SPU UG使用通道單元13Q來程式化DMA單元15G。DMA 單元150讀取/寫入對於局部儲存器刚之DMA讀取/寫入操 !。局部儲存器140包括-寫入累積緩衝器及一讀取鎖存

器，藉此其中每__去抬-p + Z 句可谷...内128位元組資料。在DMA寫入請求期間，難單元15〇向寫入累積緩衝器提供一 8位元組〇ΜΑ寫入操作。當寫入累積緩衝器接收到十六個連續的

DMA寫人操作時，spu m即執行—寬寫入記憶體存取，且將寫入累積緩衝器之内容载人記憶體中。腦讀取操作存在類似情況。在一 dma讀取請求期間’ spu no執行寬讀取記憶體存取，且用十六個8位元組 DMA讀取操作來載人讀取鎖存器。接下來，驗資料在十六個不同指令週期内寫入EIB 16〇。結果，由於讀取鎖存益儲存有用於DMA資料的十六個處理器週期，所以纪憶體組能夠在十五個指令週期期間，自由執行載入/赌存操作或指令提取操作（更多細節參看圖2至圖1 〇)。圖2為展示-能夠對相同記憶體執行窄讀取/寫入記憶體存取及寬讀取/寫入記憶體存取之系統的圖。該系統可使用窄讀取/寫入記憶體存取來處理16位元組載入/儲存請求。另外’該系統亦可使用寬讀取/寫入記憶體存取來處理128位το組DMA請求及指令提取請求。單元150，其與錯存器】4 0的部、記憶體200、圖2展示協同執行單元（sxu)12〇&DMa 圖】所示相同。圖2亦包括圖】所示之局部件··寫入累積緩衝器210、寫入多工器23〇 i0827l.doc 1362591 載入多工器250、讀取多工器27〇及讀取鎖存器28〇。當處理「錯存」請求時，寫入多工器23〇經組態以自 SXU 120接收16位元組的儲存資料（意即，儲存24〇)。丨6位元組的儲存資料係使用窄寫入記憶體存取而載入記憶體 200中。當處理「載入」請求時，載入多工器25〇經組態以自記憶體200接收16位元組的載入資料且提供载入資料至 SXU 120(意即，載入260)(關於载入/儲存操作之更多細節參看圖9及對應.文字）。使用寬記憶體存取（例如12 8位元組資料）來執行指令提取請求及DMA請求。當處理指令提取請求時，讀取多工器 270經組態以自記憶體2〇〇接收128位元組的指令提取資料且提供該資料至讀取鎖存器28(^接下來，120自讀取鎖存器280擷取指令提取資料（意即指令提取285)(關於指令提取請求之更多細節參看圖丨〇及對應文字）。為了最大化系統的效能，處理DMA請求需要在一個指令週期中自記憶體讀取多個DMA資料及寫入多個〇]^八資料至記憶體。DMA讀取或寫入頻寬為每週期8位元組。本發明使用寫入累積緩衝器210及讀取鎖存器280來累積及儲存十六個DMA操作，以使得用於DMA請求之每十六個指令週期即對記憶體200存取一次（更多細節參見圖4A、4B、 5A、5B及對應文字）》在DMa寫入操作期間，DMA單元 15 0發送DMA寫入220(8位元組）至寫入累積緩衝器21〇。入累積緩衝器210儲存DMA寫入220，且判定是否其已接收十六個連續的DMA寫入操作（關於DMA寫入量跟蹤之更多 108271.doc 1362591 細節參見圖6及對應文字）。一旦寫入累積缓衝器210判定其已接收到十六個連續的作’以隨即安排對—_行寬寫= 〜子取之排程。接下來，寫入多工器230經組態以自寫入累積緩衝器2Η)接收DMA資料，DMAf料係在—單指令週：期間载入記憶體200中。藉由在一個指令週期中二十〆、個連續的DMA寫入操作，記憶體2〇〇能夠在|它十五

個指令週期期間處理載入/儲存請求或指令提取請求。舉例而言’可基於-週期一週期地利用習知單璋記憶體，如下： lslrrrrrrrrrrrrrrrrslwwwwwwwwwwwwwwww j 其中每一字元對應於一指令週期且1為負載，s為儲存器，Γ為8位元組DMA讀取，且w8位元組DMA寫入。使用本文中描述之本發明，可基於一週期一週期地利用習知單埠記憶體，如下·· 「lslRslW」其中R的字元為一 128位元組DMA讀取（寬讀取）且w的字元為一 128位元組DMA寫入（寬寫入）。應瞭解，因為每一字元對應於一處理器週期，所以第二序列在顯著較少的處理器週期中完成，且因此允許顯著地改良處理器的效能。 (更多細節參見圖4A、4B、5A、5B及對應文字）。在DMA讀取操作期間，系統對讀取多工器27〇進行組態以自記憶體200接收寬讀取記憶體存取且將其載入讀取鎖存器280中。寬讀取記憶體存取包括用於〇ΜΑ資料的十六 i08271.doc •12- 個處理器週期。接下來，料的凟取鎖存器280提供用於DMA資枓的十六個處理器週期（音貝 15〇〇 Μ"" P ’ DMA 讀取 290)至 DMA 單元圖3為展示一能夠取& 刀裂累積鎖存器組態中執行窄讀寫入6己憶體存取及寬讀圖。除了記憶體存取之系統的牙、ί圖3包括用於分纠罢接# — 組而不是圖2所示之_摘_；鎖存器能力的兩個記憶體 ^ ^ ^ 圮憶體組以外，圖3與圖2類似。及DMA單元。位-、’且寬匯流排連接至指令單元「針匕括偶數°己憶體組扇及奇數記憶體組305。當處理 ·’’’夕裔330或335經組態以自SXU 12 0接收16位元纽的儲在咨株六一省存貝枓（忍即儲存240)。16位元組的储存貧料24〇係使用窄寫。己隐體存取而载入記憶體組300 或305中。當處理「載社戰」6月求時，载入多工器350經組態二自㈣記憶體組则或奇數記憶體組奶接收仙元組的入貝科’且载入多工器350提供載入資料至SXU 120(意即’載入260)。SXU 12〇、辟六 °儲存240及載入260與圖2所示相同。在分裂累積鎖存写έΒ # / V I , 。心'(例如，12 8位元組資料）中仍使用寬自己憶體存取來執行γ入担而^主+、丁才曰?提取s青求及DMA請求。當處理指令提取請求時，讀取夕口。只取夕工益370經組態以自偶數記憶體組300接收64位元組的指人曰]扣令k取資料且將該資料提供至讀取鎖存器380。在同槐的社人、 7的心々週期期間’讀取鎖存器3 8 5自奇數記憶體組3〇5接收64办_ 4人文叹〇4位兀組的指令提取資料。^χυ 12〇 I08271.doc 1362591 自讀取鎖存器280擷取「偶數記憶體組」指令提取資料（意即’指令提取285)。一旦SXU 120自讀取鎖存器385擷取所有的偶數記憶體組資料，讀取多工器370隨即經組態以自讀取鎖存器385接收奇數記憶體組指令提取資料且將該資料提供至讀取鎖存器3 80。接下來，SXU 120自讀取鎖存器 3 80擷取奇數記憶體組資料。在DMA寫入期間，DMA單元丨5〇發送dma寫入220至寫入累積緩衝器310及315。圖3所示之寫入累積緩衝器中之每一者均能夠累積64位元組的DMA寫入資料。當系統判定寫入累積緩衝器已接收到總計十六個DMA寫入操作（總計 28位元，·且）時，系統隨即安排對記憶體組及進行寬寫入記憶體存取之排程。接下來，寫入多工器咖及州經 .，且態以釦別自寫入累積緩衝器3 I 〇及3 15接收資料。 DMA資料後在—單指令週期期間載入記憶體組及奶中0 • 在處理讀取鎖存器之組態方面，DMA讀取請求盥指令提取請求相似。在DMA讀取操作期Μ，讀取多工器37〇經組〜乂自偶數。己憶體組3〇〇接收64位元組的謝Α讀取資料且將該資料提供至讀取鎖存器38〇。在相同指令週期期間，讀取鎖存器似自奇數記憶體組3〇5接收⑷立元組的腦讀取貝料„貝取鎖存器38〇提供偶數記憶體組資料至 ^MA單元15〇。一旦舰單元15〇接收到包括於偶數記憶體組資料中之每-編讀取資料，讀取多工器37〇隨即經組病以自讀取鎖存器385接收奇數記憶體組胸A讀取資料 108271.doc 14 ι皿:m 且=該資料提供至讀取鎖存器38Ge接下來，dma單元i5〇自項取鎖存器3_取奇數記憶體組DMA讀取資料。展示-讀取鎖存器組態的圆。祕展示圖2所示 • U取鎖存器280的組態。資料係使用寬讀取記憶體存取自《己隐體組轉移至讀取鎖存器28q。寬讀取記憶體存取提供十六個8位元組操作（DMA讀㈣指令提取），總計128位疋，’且在諸如圖3所示之分裂累積鎖存器組態中，存在兩 • 個°貝取鎖存器’藉此每一讀取鎖存器自記憶體接收八個8 位元組操作。在DMA4取期間，系統在—個指令週期期間自記憶體讀取用於DMA資料的十六個處理器週期，且隨後將dma資料提供至DMA單元（更多細節參見圖4B及對應文字）。圖4B為展示對讀取鎖存器進行單—dma記憶體讀取，，此讀取鎖存器在十六個不同指令週期内將DMA讀取操作提供至DMA單元的圖。時間線4〇〇展示十六個指令週期⑴_ • 11 6)及記憶體200、讀取鎖存器280及DMA單元150(三者與圖2所示相同）在每一指令週期期間存在的活動。 ^ 在時間tl，系統執行寬讀取記憶體存取且讀取記憶體 200中的m位元組且將十六個8位元組DMA讀取操作儲存在讀取鎖存器280 t。亦在時間tl，讀取鎖存器28〇提供一 DMA讀取操作（8位元組）至1)河八單元〗5〇。因為讀取鎖存器 2 80儲存·用於DMA資料的十六個處理器週期，所以讀取鎖存器280在時間t2至ί]6亦提供DMA讀取操作至〇馗八單元 150。因此，在時間{2至U6期間，記憶體2〇〇可自由執行 108271.doc 1362591 載入/儲存操作或指令提取操作。在時間tl7(未圖示），讀 • 取鎖存器28〇可自記憶體200接收另一用於DMA資料的十六個處理器週期。八在分裂累積鎖存器實施例中’兩個讀取鎖存器（諸如圖3 所不之讀取鎖存器380及385)各自在時間tl用八個8位元組魏讀取操作戴入。隨後’在該實施例中一個讀取鎖存器在八個指令週期内提供其八個DMA讀取操作至dma單 • 元15°，而另-個讀取鎖存器在八個以上指令週期内提供其八個DMA操作至DMA單元150。圖5A為展示一寫入累積緩衝器組態的圖。圖5a展示圖2 所示之寫人累積緩衝器21G的組態。DMA單幻5()(在圖㉘示）在十六個不同指令週期内發送8位元組DMA寫入資料至寫入累積緩衝器2 1 0 » 一旦寫入累積緩衝器接收到128位元組的資料，系統隨即安排對記憶體進行寬寫入記憶體存取之排程（更多細= ® ，見圖6及對應文子）。系統隨後在一時脈週期期間對記憔體執行寬寫入記憶體存取，.且將十六個連續的DMa寫入操作載入記憶體中（更多細節參見圖5B及對應文字）。在諸如圖3所示之分裂累積鎖存器組態中，兩個寫入累積緩衝器自DMA單元150接收到八個〇]^入寫入操作且隨後在一指令週期期間，將總計十六個連續的DM A寫入操作載入體中。憶圖5B為展示單一 DMA記憶體寫入記憶體的圖，該寫入匕括十八個連續的DMA寫入操作。時間線5〇〇展示十六個 108271.doc -16- ⑽2591 指令週期及記憶體200、寫入累積緩衝器21。及dma單元〇(—者與圖？所不相同）在每一指令週期期間存在的活動〇罗在時間U，應A單元150將一 DMA寫入操作料在寫入 -積緩衝器210卜亦在時間tl，記憶體2〇〇可自由執行一裁入/儲存操作或-指令提取操作。在時間t2^i5亦是如此’編單元15〇將DMA寫入操作載入寫入累積緩衝兮 21〇中，且記憶體可自由執行載入/健存操作或指令提取操作。在時間U6，DMA單元15〇將其十六個dma寫入操 Z载入寫入累積緩衝器210中’且系統執行寬寫入記憶體子取，並將寫入累積緩衝器21〇之内容載入記憶體中。在一分裂累積鎖存器實施例中，兩個寫入累積緩衝器 (諸如圓3所示之寫入累積緩衝器31〇及315)在時間以將其内容載入記憶體中。圖6為展示在安排DMA記憶體寫入操作之排料採取之步驟的流程圓。一系統包括一寫入累積緩衝器，該寫入累積緩衝器可儲存DMA寫人直到其裝滿為止。—旦緩衝器裝滿，系統隨即對記憶體執行寬寫人記憶體存取。舉例而、吕’若-麗寫入為8位元組長，則寫入累積緩衝器接收到十六個麵寫入，且系統隨後對記憶體執行US位元租胃人存取H«包括十六個DMA寫人（更多細節參見圖5A、5B及對應文字）。處理過程開始於隨之處理過程等待來自_單元 150之DMA寫入請求。DMA單元15〇與圖以斤示相同。一旦 I0827I.doc 1362591 系統接收到DMA寫入請求，系統隨即將DMA寫入資料儲存在寫入累積缓衝器210中（步驟620) ^寫入累積缓衝器210 與圖1所示相同》在步驟630，處理過程遞增DMA寫入計數器63 5。DMA寫入計數器635用以跟蹤已儲存於寫入累積緩衝器210中之DMA寫入的數目。

判定是否DMA寫入計數器635等於十六（判斷640)。圖6 t所述貫例用於寬寫入記憶體存取大小比dma寫入大十六倍的系統，諸‘具有8位元組DMA寫入之128位元組寬之寫入s己憶體存取。熟習此項技術者應瞭解，DMA寫入計數器 635所達到的值取決於系統之寬寫入記憶體存取的大小與系統DMA寫入之大小的比較，且比率可小於或大於十六。若DMA寫入計數器635並不等於十六，判斷64〇分支至否」支路642，其返回以繼續處理更多的DMA寫入請求。此循環繼續下去直到DMA寫入計數器635達到十六，此時判斷640分.支至「是」支路648。處理過程安排對記憶體進行寬寫入記憶體存取DMA寫入（儲存於寫入累積緩衝器21〇中）之排程（步驟650)，且處理過程在步驟66〇將dma 寫入計數器63 5歸零。程將繼續處理DMA寫入請求，判斷67〇分支至「是支其返回以處理更多的DMA寫入請求。此猶環繼續去直到處理過程終止，此時判斷67〇分支至「否」支 678 ’於是處理過程在680結束。圖.7為展示在處理記憶體請求時採取之步驟的高階流 10827l.doc -18· =在—貫施例中，系統優先考慮記憶體存取請求以使得 =求為最高m隨後為載人/儲存請求，隨後為 ::々提取請求。圖7所示的流程圖為以上實施例中所述之 *月求優先化的一實例。處理過程開始於700，隨之處理過程在步驟710等待-指令週期。-旦處理過程侦測到一指令週期，則判定是否處理接收到之— DMA請求（判斷若處理過程接收到一請求，判斷72〇分支至「是」支路722，隨之處理過程 ^理該DMA凊求且執行對於記憶體之寬寫入/讀取存取（預定義處理區塊730 ’更多細節參見圖8及對應文字）。另一方面’若處理過程未接收到一 DMA請求，則判斷 720分支至「否」支路728，隨之判定是否處理已接收之載入/儲存請求（判斷74〇)。若處理過程接收到之載入/儲存請求’則判斷740分支至「是」支路742，於是處理過程處理 2載入/儲存請求且執行對於記憶體之窄寫人/讀取存取（預定義處理區塊7 5 〇 ’更多細節參見圖9及對應文字）。另一方面，若處理過程未接收到一載入/儲存請求，則判斷7曰4〇分支至「否」支路748，隨之判定是否處ί里接收之指令提取請求（判斷76G)。若處理接收之指令提取請求，則 =斷76Ή至「是」支路762，於是處理過程處理該指令提取月求且執行自δ己憶體之寬讀取記憶體存取（預定義處㈣棟770,更多細節參見圖1()及對應文字）。另一方面，方處理過程未接收到一指令提取請求，則判斷76〇分支至「否」支路768。 108271.doc •19· 1362591 判定是否繼續記憶料求仲裁（判斷78G)。若處理過程 • 將繼續兄憶體請求仲裁，則判斷780分支至「是」支路 ^ 782 ’其返回以處理更多的記憶體存取請求。此循環繼續 • 下去直到處理過程將終止記憶體請求仲裁，此時判斷780 分支至「否」支路788，於是處理過程在79〇結束。圖8為展示在處理-DMA請求時採取之步驟的流程圖。 DMA活動具有優於载入/錯存及指令提取請求的較高優先 • *級(見圖7)。在一實施例中’ DMA請求經排程以在每第十六個指令週期出現’使得十五個指令週期容納載入/错存請求及相令提取請求（更多細節參見圖4A、4B、Μ、5B及對應文字）。 DMA請求處理過程開始於_，接著判定該_請求是 DMA讀取請求還是DMA寫入請求（判斷81〇)。若為ο·寫入請求，判斷810分支至r寫入」支路8】2。處理過程對寫入累積缓衝器210、寫入多工器23〇進行組態以在步驟， • 自寫入累積緩衝器21〇接收資料。寫入累積緩衝器210及寫入多工器230與圖2所示相同。處理過程在步驟830執行對於記憶體200之寬寫入記憶體存取，從而藉由寫入多工器23Q將來自寫入累積緩衝器川的DMA寫入資料寫入記憶體2〇〇。寬寫入記憶體存取為一線（128位元組）且包括十六個DMA寫入（每個8位元組卜處理過程在84〇處返回。右該DMA請求為DMA讀取請求，判斷81〇分支至「讀取」支路818。處理過程對讀取多工器27〇進行組態以自記 108271.doc 1362591 憶體鳩接收資料且提供資料至讀取鎖存器280(步驟850)。讀取多工器270及讀取鎖存器康與圖2所示相同。在步驟 860,處理過程執行自記憶體㈣之寬讀取記憶體存取，從而DMA讀取資料藉由讀取多工器⑽而被自記憶體2晴取且儲存於讀取鎖存·㈣中。該編讀取諸包括十六個8 位元組DMA讀取。處理過程在十六個不同指令週期内自讀取鎖存器280發

送十六個職讀取至DMA單元15G(步驟請）’且處理過程在880處返回。圖為展不在處理一載入或儲存請求時採取之步驟的流程圖=載人及儲存請求進行低於DMA請求之優先級但高 ;·?提取”月求之優先級的排程（關於請求優先化之更多細節參見圖7及對應文字）。 β處理過程開始於_處，接著判定該請求是載人請求還

:儲存求(判.斷910)。若該請求為儲存請求，則判斷91。，^至「儲存」支路912。處理過程對寫入多工器230進行。、自協同執行單元（sxu)12〇接收資料。sxu 及寫入多工器230與圖2所示相同。在步驟930處’處理過程執行對於記憶體200之窄寫入存 n 藉由寫入多工器230將儲存資料自SXU 120寫入記憶體2〇〇。宠宜λ六乍寫入存取在長度上為一四倍長字，或在長度上為一單字。處理過程在mo處返回。右°玄明求為一載入請求，則判斷910分支至「載入」支路1 8處理過程對載入多工器250進行組態以自記憶體 108271.doc 1362591 200接收資料且提供資料至δχυ 12〇(步驟95〇)。載入多工态250與圖2所示相同。在步驟96〇，處理過程執行自記憶 … ^ 200之窄讀取記憶體存取’藉此載入資料藉由載入多工盗250而被自記憶體2〇〇讀取且發送至。處理過程在880處返回。圖10為展不在處理—指令提取請求時採取之步驟的流程圖。在一實施例中，指令提取請求之優先級低於dma請求 • ?載：’儲存請求。處理過程開始於麵處，接著處理過矛王對瀆取夕工器270進行組態以自記憶體接收資料且提供資料至讀取鎖存器28〇(步驟】_)。讀取多工器27〇及讀取鎖存器280與圖2所示相同。在步驟1〇4〇處，處理過程執行自，憶體200之寬讀取記憶體存取，藉此指令提取資料藉由讀取多工器270而被自記憶體2〇〇讀取且儲存於讀取鎖存器280中。在步驟1060處，處理過程自讀取鎖存器280擷取指令提 • 取請求且將資料載入協同執行單元（SXU)120*。SXU 120 與圖2所示相同。處理過程在1〇8〇處返回。圖11為能夠實施本發明之一計算設備的方塊圖。在圖U 所不的架構包含共用一公用記憶體及一公用匯流排之里質處理器。寬頻引擎（BE)1100藉由元件互連單元1170發送資訊至外部設備且自外部設備接收資訊，且使用元件互連匯流排⑽將資訊分配至控制平面1110及資料平面1140，元件互連匯流排160與圖】中所示相同。控制平面川〇管理BE 1100且分配工作至資料平面丨丨40。 108271.doc •22· 1362591 另外，元件互連匯流排（EIU)l 60提供讀取及寫入請求至記憶體介面控制器（MIC) 11 80。記憶體介面控制器丨丨8〇傳達該等請求至記憶體介面1190，記憶體介面1190與外部記憶體進行通信。

控制平面lli〇包括功率處理元件（ppE)112〇，其運行操作糸統（0S)1125。舉例而言’ ppE 1120可為一嵌入be 1100之功率PC核心，os 1125可為一 Linux操作系統。PPE 1120管理一用於BE 1100的公用記憶體映射表。該記憶體映射表對應於BE 1100中包括之記憶體位置，諸如L2記憶體1130以及資料平面1140中包括之非專用記憶體。資料平面ιΐ4〇包括協同處理元件（SPE)1〇〇、115〇及 1155。SPE 100與圖1中所示相同。每一SpE用以處理資料資訊且每一SPE可具有不同的指令集。舉例而言，ΒΕ ιι〇〇可用於一無線通信系統中且每—SPE可負責獨立的處理任務’諸如調變、晶片速率處理、編碼及網路介面。在另一

實例中，每一 SPE可具有相同的指令集且可平行使用以執

行受益於平行處理的操作。每—s ^ ^ /iL 母bPE包括一協同處理元件 (SPU)，該協同處理元件為一虛 ^ 慝理核心，諸如一數位訊號處理器、一微控制器、一微處f 1 1 ⑽地埋益，或此等核心的組合。 SPE 1〇〇、1150及 1155連接？ # _ 接至處理窃兀件匯流排1160，其在控制平面111 〇、資料平面η 一十面1140與輸入/輸出· 11 70之間傳遞資訊。匯流排1 60為一晶片卜έ +

曰日月上連貫多處理器匯流排。EIU 1170包括可撓性輸入-輸出邏輯， ^ ^ 具基於連接至BE 1100的周邊設備動態地分配介面引腳 5丨腳至輸入-輸出控制器。 108271.doc •23- 儘管圖11中描述的電腦系程序，但是此電腦系統只是技術者應瞭解其它許多電腦處理程序。統能夠執行本文中描述的處理電腦系統之一實例。熟習此項系統設計亦能夠執行本文中的

本發明之較佳實施例中之-者為-客戶應用程式，专 :如可駐於電腦的隨機存取記憶體中之―碼模組中的一組指令（程式碼）。直到電腦需要該指令集，該指令集才可儲存於另一電腦記憶體中，例如在硬碟機中，或在諸如光碟（最終用於CDROM中）或軟碟（最終用於軟碟驅動機中）之可移動記憶體中，或經由網際網路或其它電腦網路下載。因此，本發明可實施為用於電腦中之電腦程式產品。另外’雖然所述各種方法便於在選擇性地啟用或由軟體重組之通用電腦中實施，但是普通熟習此項技術者亦將睁解 :亥等方法亦可在硬體中、在章刃體中，或在更多經建構以執打所需方法步驟之專門裝置中執行。

儘管已展示及描述本發明之特定實施例M旦是基於本文之教示1習此項技術者將易瞭解，在不偏離本發明及立更廣闊態樣之情況下’可對本文進行改變及修改。因此了所有此# &變及修改均㉟蓋於附加申請專利範圍之範疇内，均屬本發明之真實精神及範嘴。此外，應瞭解本發明僅:附加申請專利範圍界定。熟習此項技術者應瞭解若對所；丨紹之申請專利元件（cIaim e】e_t)規定具體數目，則此，規定會在申請專利範圍中明確敍述’且在無此種敍述之情況下不存在此種限制。對於非限制性實例而言，其作 J0827J.doc •24· 為幫助理解之用，以下附加申請專利範圍 • 至少-個或「-或多個…有介紹性短語件。然而，使用此種甲凊專利兀 H · 4 * °°不應理解為藉由「—八 h專利S件將含有此介M紹之申 ^ 限制於描入士 r °"專利疋件之任何特定申杜瑁限制於僅含有—個此元件弋甲明項 ^ ^ Η 4- -i r 發月，即使當相同請求項包括 “性^吾「-或多個」或「至少一個」及「—衣項包括於「該」或「該等』在申請專利 _ J時，對 φ 【圖式簡單說明】用同樣如此。圖1為一能夠窄讀取/寫入 m f UO °6隐體存取及寬讀取/¾入9揞體存取之協同處理元件的高階圖；罵入記憶圖2為展示一能夠對相 R ^ 旳。己隐體執仃窄讀取/寫人記恃體存取及寬讀取/寫入記1八。己隱 ' ϋ U髖存取之系統的圖；圖3為展示一能夠在—.^ ^ ^ ^ ^ ^ ^ ^ 农糸檟鎖存器組態中办取/寫入記憶體存取及寬續乍磧圖；置°賣取/寫入記憶體存取之系統的 • 圖从為展示-讀取鎖存器組態的圖；圖4B為展示對一讀取鎖存g 的阁，M * 貞存益進仃一早應八記憶體讀取的圖藉此該讀取鎖存器扃4· ^ ym 貝仔益在十六個不同指令週期 DMA單元提供DMA讀取操作；。圖5A為展示一寫入累積緩衝器組態的圖；圖5B為展示對一包括+ 匕栝十，、個連續的DMA寫入操憶體進行—單DMA記憶體寫入的圖丨 ° 圖6為展示在安排一 DMA記憶體寫入操作之排程時之步驟的流程圖； I08271.doc -25· 1362591 程::為展示在處理一記憶體請求時採取之步驟的高階流為展示在處理-麵請求時採取之步驟的流程圖；圈9為展示在處理一載入或程圖；两仔°月衣時知取之步驟的流圖1〇為U在處理—指令提取請㈣圖；及 /鄉的流裎圖11為迠夠實施本發明之—計算設備的方塊圖。【主要元件符號說明】 100 110 120 130 140 150 160 200 210 220 230 240 250 260 270 協同處理元件協同處理單元協同執行單元通道單元局部儲存器 DMA單元元件互連匯流排 1己憶體寫入累積緩衝器 dma寫入寫入多工器儲存栽入多工器栽入磧取多工器 10827 丨,doc • 26 - 1362591 280 讀取鎖存器 285 指令提取 290 DMA讀取 300 偶數記憶體組 305 奇數記憶體組 310 偶數寫入累積缓衝器 315 奇數寫入累積緩衝器

330 偶數寫入多工器 335 奇數寫入多工器 350 載入多工器 370 讀取多工器 380 讀取鎖存器 385 讀取鎖存器 400 時間線 500 時間線

635 DMA寫入計數器 1100 寬頻引擎 1110 控制平面 1120 功率處理元件 1125 操作系統 1130 L2記憶體 1140 資料平面 1150 協同處理元件 1155 協同處理元件 108271.doc -27- 1362591 1170 元件互連單元 1180 記憶體介面控制器 1190 記憶體介面

108271.doc -28-

Claims

第095103559號專利申請案”你月弋日修正本中文申請專利範圍替換本(丨00年1〇月）丄的2591 十、申請專利範圍·· 一種用於具有組合線及字存取之記憶體之系統，其包含： z、一記憶體，該記憶體支援對一單記憶體空間進行一窄讀取/寫入記憶體存取及一寬讀取/寫入記憶體存取，其中該系統處理對應於為一單一 16位元組之四倍長字的該窄讀取/寫入記憶體存取之一載入/儲存請求，且其中該系統處理在所有時間對應於為—單-128位元組記憶體泉的該寬凟取’寫入記憶體存取之—直接記憶體存取 (DMA)請求；一寫入累積緩衝器’其在複數個指令週期累積複數個直接記Μ存取寫人操作，其巾該複數個直接記憶體存取寫入操作對應於執行於-單指令週期之該寬寫入記憶體存取；及 -多工器，其對於該直接記憶體存取請求提供該寬寫入記憶體存取至該記憶體且其對於㈣存請求提供該窄寫入記憶體存取至該記憶體。 2,如請求項1之系統，其中該宽譆取/首λ ^ 見員取/寫入記憶體存取對應於一指令提取請求。 .:請求項2之系統，其中該系統有效於以該直接記憶髂存取請求、而後《人/儲存請求、而㈣指令提取請求之順序而優先處理該等請求。 4.如請求項1之系統，進—步包含：記憶體存取資料之一自該寬讀取記憶體存取接收直接 108271-]〇〇i〇i7d〇c 邊取鎖存器，該等直接記憶體存取接記悴科六A * ^應於複數個直 ύ隱體存取讀取操作；及 /、中該S賣取鎖存器在複數個指令個亩姑“ 明内’提供該複數 5. 直接屺憶體存取讀取操作至一直接如珠Φ s 牧°ύ隐體存取單元。。月，項】之系統，其令該記憶體令。肢用於—處理元件架構如吻求項1之系統，其中該系統支援力及複數個記憶體組。，、積鎖存器能 7· = = 6之系統’其中在對應於該载入/儲存請求之該乍5貝取/寫入記憶體存體組中之-者m 該複數個記憶存取。 ”中不對剩餘的複數個記憶體組進行 8.如請求m之系統，其中該寬讀於快取線（cache line)逐出操作〇 —匕體存取對應出柄作或重新载入操作。 9·如味求項丨之系統，進—步包含：一第一讀取鎖存器，复在一記憶體空間及-第-h 寬"取㈣期間，自該單第一續取鎖存器接收資料，i 讀取鎖存器自該單記愔舻处卩日一节4第一料，以用；^ j"二間接收貧料且升級該等資衬以用於该第—讀取鎖存器。 10. 如請求項1之系統，進—步包含：一第—處理器類型；及一或多個第二處理哭相& 油. 頬型，其中該記憶體包括;^吵等第二處理器類型中。匕栝於遠寺 11. 一種程式產品，其包 3儲存於電腦記憶體中之電腦可讀 108271-1001017.doc 取程式碼，該電腦可讀取程式碼有效於：接收—記憶體請求；判定該記憶體請求是否係一儲存請求，其t該儲存枝求對應於對一記憶體之為一單一 16位元組之四倍長字的一窄寫入記憶體存取，或判定該該記憶體請求是否係一直接記憶體存取（DMA)寫入請求，其中該直接記憶體存取請求在所有時間對應於對該記憶體之為一單一 US位元組記憶體線的一寬寫入記憶體存取；回應於判定該記憶體請求係該儲存請求，指示一多工器提供該窄寫入記憶體存取至該記憶體及透過該多工器對該己憶體執行該窄寫入記憶體存取；及 .回應於判定該記憶體請求係該直接記憶體存取寫入請求’指示該多工器提供該寬寫入記憶體存取至該記憶體、透過B亥夕工器對4§己憶體執行該寬寫人記憶體存取，其中在㈣寫人記憶體存取期間在複數個指令週期累積複數個直接δ£(憶體存取寫人操作，該複數個直接記憶體存取寫入操作對應於執行於_單指令㈣之該寬寫“ 憶體存取。 12. 如請求項11之程式產品，對應於一指令提取請求，其中該寬讀取/寫入記憶體存取該電腦程式碼有效於： 13. 以該直接記憶體存取士主。月求、而後该載入/儲存請求、而後該指令提取請求之丨八之順序而優先處理該等請求。一種電腦實施之方法，其包八. 接收一記憶體請求； I0827M0010l7.doc 判定該記憶體請求是否係一电料成埒存凊求，其尹該儲存請對應於對一記憶體之為一單— —突智早16位兀組之四倍長字的 =寫入記憶體存取，或判“該記憶體請求是否係一直接圮憶體存取（DMA)寫入請求， ^^^ 其中該直接記憶體存乂求在所有時間對應於對該記憶體之為一單一 128位元組5己憶體線的一寬寫入記憶體存取；。。賴於判定該記憶體請求係該儲存請求，指示一多工提供忒乍寫入記憶體存取至該記憶體及透過該多工器對該記憶體執行該窄寫人記憶體存取；及、回應於判憶體請求係、該直接記憶體存取寫入請求私示D亥夕工器提供該寬寫入記憶體存取至該記憶體以透過該多工器對該記憶體執行該寬寫入記憶體存取，其中在°亥寬寫入記憶體存取期間在複數個指令週期累積複數個直接記憶體存取寫人操作，該複數個直接記憶體存取寫入操作對應於執行於一單指令週期之該寬寫入記憶體存取》 14.如請求項13之方法，其中該寬讀取/寫入記憶體存取對應於一指令提取請求。 15_如請求項14之方法，其進一步包含以該直接記憶體存取 s青求、而後該載入/儲存請求、而後該指令提取請求之順序而優先處理該等請求。 16.如請求項13之方法，其進一步包含：使用自該寬讀取記憶體存取接收直接記憶體存取資料之一讀取鎖存器，該等直接記憶體存取資料對應於複數 108271-】〇〇1 ⑴ 7.doc 1362591 個直接§己憶體存取讀取操作；及八中11亥凟取鎖存器在複數個指令週期内，提供該複數個直接δ己憶體存&讀取操作至-直接記憶體存取單元。 17. 如凊求項13之方法，其中該記憶體用於—處理元件架構中〇 18. 如請求項13之方法，其中該方法支援分裂累積鎖存器能力及複數個記憶體組。 19. 如請求項18之方法，其中在對應於該儲存請求之該窄寫入記憶體存取期間，該方法進一步包含：存取該複數個記憶體組中之一者，且其中不對剩餘的複數個έ己憶體組進行存取β 20. 如請求項13之方法，其中該寬寫入記憶體存取對應於快取線（cache line)逐出操作或重新載入操作。 10827M001017.doc