TW574653B

TW574653B - Processing modules for computer architecture for broadband networks

Info

Publication number: TW574653B
Application number: TW91105670A
Authority: TW
Inventors: Masakazu Suzuoki; Takeshi Yamazaki
Original assignee: Sony Computer Entertainment Inc
Priority date: 2001-03-22
Filing date: 2002-03-22
Publication date: 2004-02-01
Also published as: JP4597553B2; JP3696563B2; EP1370971A1; JP2004252990A; US20020156993A1; EP1370971A4; KR100840113B1; CN1496518A; CN1279470C; KR20030081532A; EP1370971B1; US7093104B2; JP2002366534A; WO2002077848A1

Description

574653 A7 B7 五、發明説明（η ) 發明背景本發明與一種電腦處理器架構及電腦網路有關，尤其與一種寬頻環境中的電腦處理器架構及電腦網路有關。本發明進一步與此類架構的程式設計模組有關。目前電腦網路（例如，辦公室網路中使用的區域網路 (LAN)及如網際網路之類的全域性網路）的電腦及計算裝置大部份係針對單機計算所設計。在電腦網路上共用資料和應用程式不是這些電腦及計算裝置的主要設計目標。這些電腦及計算裝置通常係使用各製造商（例如，Motorola、 Intel、Texas Instruments、Sony及其他製造商）所製造的各種不同處理器所設計而成。每個這些處理器均具有自己特有的指令集和指令集架構（ISA)，即自己特有的組合語言指令集，以及用於執行這些指令的主要計算單元與記憶體單元結構。因此，程式設計人員必須瞭解每種處理器指令集以及IS A才能撰寫這些處理器的應用程式。現今電腦網路上異質結合的電腦及計算裝置使資料和應用程式的處理及共用更加複雜。另外，通常還需要同一應用程式的多重版本才能適應此種異質環境。連接至全域網路（尤其是網際網路）的電腦及計算裝置類型包羅萬象。除了個人電腦（PC)和伺服器以外，這些計算裝置包括行動電話、行動電腦、個人數位助理（PDA)、視訊轉換·器、數位電視等等。在各種電腦和計算裝置之間共用資料和應用程式會浮現許多問題。為了克服這些問題，已採用一些技術。尤其，這些技術 -4- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 裝訂

574653

=括同度發展的介面及複雜的程式設計技術。這些解決方末通$而要實質上增強處理能力才能實施。進而通常會導致貫質上增加處理應用程式及透過網路傳輸資料所需的時間。通¥會透過網際網路分開傳輸資料與對應的應用程式。泛種做法避免必須同時傳送應用程式與對應於該應用程式的每組傳輸資料。雖然這種做法可使所需的頻寬量降至最低限度，但是通常會導致使用者之中無法進行傳輸。用戶端電腦可能無法取得傳輸資料所需的正確應用程式或最通用的應用程式。這種做法也需要撰寫每種應用程式的多重版本，以配合網路上處理器所採用的多重不同ISA與指合集。 ^

Java模組嘗試解決這個問題。這項模組採用一種符合嚴格安全性通訊協定的小型應用程式（「applet」）。applet係透過用戶端電腦（「用戶端」）執行的網路上的伺服器電腦傳运。為了避免必須將同一 applet的不同版本傳送至採用不同1SA的用戶端，會在用戶端的Java虛擬機器上執行所有的Java applet。Java虛擬機器是模擬具有Java ISA& Java 指令集之電腦的軟體。但是，這個軟體係在用戶端的[SA 及用戶端的指令集上執行。Java虛擬機器版本被提供以適用於用戶端的每種不同ISA和指令集。因此，不需要每個 applet的多重不同版本。每台用戶端只下載適用於其特定 ISA和指令集的正確Java虛擬機器就可執行所有的Java applet 〇 -5- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 裝訂

574653 發明説明（雖然提供一種解決必須撰耷，及、— 、舄通用於母種不同ISA和指今集 < 應用程式不同版本之問 ^ ^ ^ ^ 乂的万案，但是Java處理模組耑要用戶端電腦上具有額外沾 ’ —$ _ 、勺軟體層。這層額外軟體層顯者降低處理器的處理速度。斟 ^ _ . 對於即時、多媒體應用程式而了，速度降低特別顯著。下盡毒、處理功能不正常等等戰的Java applet也可能含有病這些病毒及功能不正常會毀壞用戶端資料庫，並且造成戈他知壞。雖然，Java模組中採取的安全性通訊協定嘗試藉由實施軟體「沙箱」（即，Java applet無法將資料寫入至該處的用户端記憶體空間）來克服这個問題，但是這項軟體驅動式安全性模式通常無法確保其實施的安全性，並且需要更多處理。即時、多媒體、網路應用程式愈來愈重要。這些網路應用程式需要極快速的處理速度。未來，此類的應用程式可能需要每秒上千兆位元資料。目前的網路架構（尤其是網際網路架構）及目前内嵌於（例如）Java模組中的程式設計模組極難以到達如此的處理速度。因此，需要一種新電腦架構、新電腦網路架構及新程式設計模組。這種新架構及程式設計模組應克服在網路各成員之間共用資料和應用程式的問題，而不會增加額外的計算負擔。這種新電腦架構及程式設計模組也應克服在網路各成員之間共用資料和應用程式固有的安全性問題。發明概要在一項觀點中，本發明提供一種新電腦架構、計算裝置及電腦網路。在另一項觀點中，本發明提供一種適用於這 -6- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 574653 A7

些電腦、計算裝置及電腦網路的新程式設計模組。根據本發明，電腦網路的所有成員（即，網路所有的兩腦及計算裝置）皆是從一通用計算模組所建構而成。這: 通用計算模組具有一致性結構，並且最好採用同一 isa。例如，網路成員可能用戶端、伺服器、個人電腦、行動電腦、遊戲機器、個人數位助理（PDA)、視訊轉換器仃設備、數位電視及使用電腦處理器的其他裝置。一致性模組結構使網路成員具有高效率、高速處理應用程式和資料的能力，並且可藉由網路成員透過網路迅速傳輸應用程式和資料。這項結構也簡化各種大小網路成員的建置，以及這些成員處理的處理能力及應用程式準備。此外，根據本發明一項具體實施例，本發明提供一種電腦網路，該電腦網路包括連接至該網路的複數個處理器，該等處理器皆包括具有相同指令集架構的一複數個第一處理單元及一用於制該等第一處理單元的第二處理單元，該等第一處理單元可被操作以處理透過該網路傳輸的軟體單元，該等軟體單元皆包括一相容於該指令集架構的程式、與該程式相關的資料及一用於在透過該網路傳輸之所有該等軟體單元之中唯一識別該軟體單元的識別項。該識別項最好是用於在透過該網路傳輸之所有該等軟體單元之中唯一識別該軟體單元的識別號碼。在另——項觀點中，本發明提供一種用於透過一網路傳輸資料和應用程式及用以處理網路成員間之資料和應用程式的新程式設計模組。該程式設計模組採用一透過該網路傳本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 裝訂

) 五、發明説明（5 輸的軟體單元，以供任何網路成員處理。每個軟體單元均具有相同結構，並且可包含應用程式和資料。由於該模組化電腦架構提供高速處理及傳輸速度，所以可迅速處理該等單元。應用程式的程式碼最好係以相同的通用指令集與 ISA為基礎。每個軟體單元最好均包含一全域識別（全域ID) 及資訊，用以描述該軟體單元處理所需要的計算資源量。由於所有的計算資源均具有相同的基本架構並且採用相同的1SA，所以執行處理的特定資源可位於網路上的任何位置並且可動態指派。基本處理模組是一項處理器元件（PE)。PE最好包括一處理單元（PU)、一直接記憶體存取控制器（DMAC)及一複數個附屬處理單元（APU)。在較佳具體實施例中，PE包括八個APU。PU和APU與一共用動態隨機存取記憶體（DRAM) 互動，該共用動態隨機存取記憶體最好具有縱橫制架構。 PU排程及精心安排APU執行的資料與應用程式處理。APU 以平行且獨立方式來執行這項處理。DMAC控制PU與APU 存取儲存於共用DRAM中的資料與應用程式。根據這項模組化結構，網路成員採用的PE數量係以該成員所需的處理能力為基礎。例如，伺服器可採用四個 PE、工作站可採用兩個PE，而PDA可採用一個PE。指派用以處理特定軟體單元之PE的APU數量取決於該軟體單元内之程式.和資料的複雜度及數量。在較佳具體實施例中，複數個PE與一共用DRAM有關。 DRAM最好被分隔成複數個記憶區段（memory section)，並 -8- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 574653 A7 B7 五、發明説明（6 且每個記憶區段均被分隔成複數個記憶組（memory bank)。在特定較佳具體實施例中，DRAM包括六十四個記憶組，每組記憶組均具有一百萬位元組的儲存容量。DRAM的每個記憶區段最好均被一記憶組控制器控制，並且PE的每個 DMAC最好均存取每個記憶組控制器。因此，在本具體實施例中，每個PE的DMAC均可存取該共用DRAM的任何部份。在另一項觀點中，本發明提供一種適用於APU自該共用 DRAM讀取資料及寫入資料至該共用DRAM的同步化系統及方法。該系統避免共用該DRAM的多重APU與多重PE之間發生衝突。根據該系統及方法，DRAM的區域被指定用於儲存複數個滿-空白（full-empty)位元。這些滿-空白位元的每位位元均對應於指定的DRAM區域。該同步化系統被整合至DRAM硬體中，因此，避免於軟體中實施資料同步化方案的計算内部操作。本發明也在DRAM内實施沙箱，以提供防止某一 APU正在處理之程式的資料因另一 APU正在處理之程式的資料而毀損的安全性。每個沙箱均定義特定APU或一組APU無法讀取或寫入資料的共用DRAM區域。在另一項觀點中，本發明提供一種適用於PU發佈命令至APU以起始APU處理應用程式和資料的系統及方法。這些命令（稱為APU遠端程序呼叫（ARPC))使PU能夠精心安裝及協調APU的應用程式與資料平行處理，而不需要APU執行共處理器的角色。 -9- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐）裝訂

五 N發明説明（，在另一項觀點中，本發明提供一種用於建立用以處理即收即播（streamlng)資料之專用管線結構的系統及方法。根據本發明孩系統及方法，一組協調Apu及與這些相關組協調記憶體沙箱皆是由pu建置而成，以處理這些貝料。於未發生資料處理的週期期間，管線的專用及死憶體沙箱仍然專屬於該管線。換言之，於這些週期期間，專用APU及其相關沙箱均處於保留狀態。在另-項觀點中，本發明提供一種用於處理工作的” 计時器。該絕對計時器非相依於則處理應用程式和資料時採用的時脈頻率。應用程式係依據該絕 ::時間週期為基礎所撰寫而成。如果因(例如二二 D曰加用的時脈頻率，則該絕對計時器定義之給A 工作的時間週期維持不變。這項方案使較新版A : 施增加處理時間，而不需停止這些APU處理只 APU之較慢速處理時間所撰寫的較舊版應用程式。λ ϋ反本發明還提供一種替代方案，以准許較新版快的處理速詹來#挪私也V # u 丨U具有較撰寫的較對慢，時間所由增強速度所建立之平行處理=二有:藉，在處理這些舊版應用程式之APU所採用分微私式碼（nncrocode)。「無運算」（「N〇〇曰7或至這些.则之-部份所執行的指令中，被插入的連續完成卿處理。藉由將這些⑽⑽插入^式所預期中’維持AP(J執行所有指令的正確時序。土化些指令 -10- 本紙張尺奴财S a家標297公釐） 574653

在另㊄覜點中，本發明提# _ ^ 導之積體電路的晶片封裝。尤皮圖式簡單說明 S1 1n i本發明之電腦網路整個架構的圖式。圖一』H據本發明之處理器it件（PE)結構的圖式。圖 '、’、員：根據本發明之寬頻引擎結構的圖式。圖4一 7F根據本發明之附屬處理單元（Apu)結構的圖式。圖）·’··員不根據本發明之處理器元件、視覺化器 (v1SUW; VS)及光學介面之結構的圖式。圖6顯示根據本發明之處理器元件組合之一的圖式。裝圖7顯示根據本發明之處理器元件另一項組合的圖式。圖8顯不根據本發明之處理器元件還有另-項組合的圖式。圖9顯不根據本發明之處理器元件還有另-項组合的圖訂式。圖10顯不根據本發明之處理器元件還有另一項組合的圖式。線圖11A顯示根據本發明之於晶片封裝内集成光學介面的圖式。圖HB顯示&用圖11A所示《光學介面之處理器—種組態的圖式。圖Π C f須不使用圖丨丨A所示之光學介面之處理器另一種組態的圖式。圖12A顯tf根據本發明之記憶體系統結構的圖式。 •11- 574653

五、發明説明（9 圖12B顯示根據本發明之什第二寬頻引擎的圖式。 ”疋弟一見頻引擎寫入至幌示根據本發明之處理器元件圖式。 ’、用圮憶體結構的圖14A顯示圖13所示之 1顯示圖13所圖15顯示根據本發式。、&记憶•存取控制器結構的圖圖14B顯示圖η α …^ 、、、吉構的圖式。不又記憶組另一種結構的圖式。制器之替代結圖16顯示根據本於曰尽僉明足直接記憶體存取和構的圖式。圖17A至17〇顯示式根據本發明之資料同步化作業的圖裝圖18顯示根據本發明資料同步 ^ ^ ^ ^ w ^ %疋6己憶體位置各種狀悲、的二怨圮憶體圖。 ,1合Ώ 圖丨9顯示根據本發明之硬圖式。圖20顯示根據本發明之用以儲存硬鍵之配置的圖式。圖2 1顯示根據本發明之硬構的圖式。月豆砂相之識別碼控制表結構的體沙箱之記憶體存取體沙箱之記憶體存取控制表結訂線示之記圖22顯示使用圖丨9所示之識別碼控制表及圖2丨所憶體存取控制表來存取記憶體沙箱之步驟的流程圖圖23顯示根據本發明之軟體單元結構的圖式。圖24顯示根據本發明之用以向咖發佈遠端程序吟叫之 -12-

574653 五、發明説明（步驟的流程圖。圖25顯示根據本於明線結構的圖式。&用以處理即收即播資料之專用管收：=6B:示根據本發明之圖25所示之用以處理即一 +用果所執伃之步驟的流程圖。圖2 7顯示根據本發明夕線替代結構的圖式。 …里即收即播資料之專用管 + : :8;':根據本發明之用以供APU協調應用程式與資料〜千订處理<絕對計時器配置的圖式。較佳具體實施例詳細說明圖1顯示根據本發明之電腦系統1〇1的整體架構。茛种ΐ二"I系統丨01包括網路丨04 ’其中複數個電腦及計二置句：接至該網路。網路104可能是LAN、如網際網 <硕的王域性網路或任何其他電腦網路。。例如，連接至網路104的電腦及計算裝置（網料「成貝」）包括用户端電腦106、伺服器電腦丨數位電—其他有線或無= ：二。·〇4的成員採用的處理器皆是從相同的二计异模組所建構而成。這些處理器最好也皆具有 =’，並且根據相同的指令集來執行處理。内含於任何 r疋虼理态的杈組數量取決於該處理器所需的處理能力。例如’由於系統丨0丨的何服器丨08執行的資料和匕處理多於用戶端106，所以伺服：土；用丨Μ . 的计异模組多於用户蜗106。另一方面’ PDA π ·13· 574653 A7 B7 五、發明説明（11 ) PDA 110包括最少計算模組數量。DTV 112執行的處理層級介於用戶端106處理層級與伺服器1〇8處理層級之間。因此，DTV 112包含的計算模組數量介於用戶端1〇6的計算模組數f與伺服器108的計算模組數量之間。如下文所述，每個計算模組均包含一處理控制器及複數個完全一樣的處理單兀’用以執行平行處理透過網路104傳輸的資料和應用程式。系統1 0 1的同質組態促進適應性、處理速度及處理效率。因為系統1 〇 1的每個成員均使用一個或一個以上（或某分段）的同一計算模組，所以特定電腦或計算裝置不可能執行實際的資料和應用程式處理。另外，可在網路成員之間分擔特定應用程式和資料的處理。藉由單獨地識別整個系統中包括系統1 〇 1處理之資料和應用程式的軟體單元，可將處理結果傳輸至要求處理的電腦或計算裝置，而不論這項處理發生於何處。因為執行這項處理的模組具有通用結構並且採用通用1SA，所以可避免為了達成處理器之間的相容性所需的軟體附加層的計算負荷。這種架構及程式設計模組促進執行（例如）即時、多媒體應用程式所需的處理速度。為了進一步利用系統1 0 1所促進的處理速度及效率，會將這個系統處理的資料和應用程式封裝成唯一識別、制式格式化的軟體單元1〇2。每個軟體單元ι〇2均包含或可包含應用程式和資料。每個軟體單元也包含一 ID ,用以在整個網路I 04和系統丨〇 1中全域識別軟體單元。結構或軟體單元 -14· 本紙張尺度適财a g家標準(CNS) A4規格(21G χ 297公爱)

裝訂

574653 A7

的制式性及整個網路之軟體單元的唯一識別可促進在網路的任何電腦或計其裝置上處理應用程式和資料。例如，用戶端丨06可用公式表示軟體單元102，但是因為用戶端的處理能力有限，所以會將這個軟體單元傳輸至伺服器 108’以利用伺服器處理軟體單元。因此，以網路處理^ 源的可使用性為基礎，軟體單元可在整個網路104遷移2 利處理。

裝系統101之處理器及軟體單元的同質結構也避免現今異質網路的許多問題。例如，避免任何無效率的程式設計模組，這些無效率的程式設計模組需使用任何指令集（例如，hva虛擬機器之類的虛擬機器）進行搜尋，以准許在任何1SA上處理應用程式。因此，系統ι〇1所實施的寬頻處理比現今網路的寬頻處理具有更高效率且有效。訂網路104之所有成員的基本處理模組是處理器元件 (PE)。圖2顯示一 PE的結構。如圖所示，pE 2〇1包括一處理單元（PU) 203、一直接記憶體存取控制器（DMAC) 2〇5及複數個附屬處理單元（APU)，即，APU 2〇7、aPU 209、

APU 211、APU 213、APU 215、APU 2I7、APU 219和 APU 22 1。一區域PE匯流排223在APU、DMAC 205和PU 203之間傳輸資料和應用程式。例如，區域pE匯流排223可具有傳統架構或被實施成封包交換式網路。雖然實施成封包交換式網路·需要更多硬體，但是可增加可用的頻寬。可使用用於實施數位邏輯的各種方法來建構2〇 1。但是，PE 20 1最好被建構成在矽基板上採用互補金屬氧化物 -15- 本纸張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 574653 A7B7 五、發明説明（13 ) 半導體（CMOS)的單一積體電路。基板的替代材料包括砷化鎵、砷化鎵鋁及採用各種摻雜物之其他所謂的III-B合成物。也可能使用超導電材料（例如，迅速單流井（rapid single-flux-quantum ; RSFQ)邏輯）來實施 PE 20 1。透過高頻寬記憶體連接227，使PE 201與動態隨機存取記憶體（DRAM) 225密切相關。DRAM 225係當作PE 201的主記憶體。雖然DRAM 225最好是動態隨機存取記憶體，但是也可使用其他裝置來實施DRAM 225，例如，靜態隨機存取記憶體（SRAM)、磁性隨機存取記憶體（MRAM)、光學記憶體或全像式記憶體。DMAC 205促進介於DRAM 225 與PE 20 1的APU和PU之間的資料傳送。如下文中的進一步說明，DMAC 205指定每個APU在DRAM 225中的專用區，在專用區中只有該APU可寫入資料，並且只有該APU可從該處讀取資料。這個專用區被稱為「沙箱」。例如，PU 203可能是能夠獨立處理資料和應用程式的標準處理器。在操作過程中，PU 203排程及精心安排APU執行的資料與應用程式處理。APU最好是單指令多重資料 (51\4〇)處理器。在？1； 203控制下，八？1；以平行且獨立方式來執行這些資料和應用程式處理。DMAC 205控制PU 203 與APU存取儲存於共用DRAM 225中‘的資料與應用程式。雖然PE 20 1最好包含八個APU，但是可視所需的處理能力而定，在PE中採用較多或較少數量的APU。再者，可將一些PE(如PE 201)聯結或封裝在一起，以提供增強的處理能力σ -16- 本纸張尺度適用中國國家標準(CNS) Α4規格(210 X 297公釐) 裝訂 574653 A7 B7 五、發明説明（14 例如，如圖3所示，可在一個或一個以上晶片封裝内將四個PE聯結或封裝在一起，以構成適用於網路1〇4之一成員的單一處理器。這項組態被稱為寬頻引擎（BE)。如圖3 所示，BE 301 包含四個 PE，即 PE 303、PE 305、PE 307和 PE 3〇9。這些PE之間的通訊係透過BE匯流排3 1 1。廣頻寬記憶體連接3 13提供介於DRAM 3 15與這些PE之間的通訊。 BE 301之PE之間的通訊可透過DRAM 3 15與這項記憶體連接發生，以取代BE匯流排3 11。輸入/輸出（I/O)介面317及外部匯流排319提供介於寬頻引擎301與網路104之其他成員間的通訊。BE 301的每個PE 均是以平行且獨立方式來執行資料和應用程式處理，類似於PE之APU以平行且獨立方式來執行資料和應用程式處理。圖4顯示APU的結構。APU 402包括區域記憶體406、暫存器410、四個浮點運算單元412及四個整數運算單元 4 14。再者，但是可視所需的處理能力而定，可採用較多或較少數量的浮點運算單元5 1 2及整數運算單元4 14在較佳具體實施例中，區域記憶體406包括1 28千位元組儲存空間，而暫存器4 1 0是容量為1 2 8 X 1 2 8位元。浮點運算單元 4 12的運作速度最好是每秒32億浮點運算（32 GFLOPS)，而整數運算單元414的運作速度最好是每秒32億運算（32 GOPS)。區域記憶體4 0 2不是快取3己憶體。區域记憶體4 〇 2最好被建構成S R A Μ。不需要支挺A P U的快取相干性（c a c h e -17- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 裝訂

574653 A7 B7-

始之直接記憶體存取

coherency)。PU可能需要支援pu所起始的快取相干性。但是，針對APU起始的存取外部裝置，則不需要快取柏+从士位位兀，亚且提供介於區域記憶體4〇6與暫存器41〇之間的通訊。匯流排420和418提供分別介於暫存器4丨〇與浮點運算單元412之間的通訊，及介於暫存器41〇與整數運算單元 4 14之間的通訊。在較佳具體實施例中，匯流排418和42〇之k暫存备4 1 0至浮點運算單元或整數運算單元的寬度為 J84位位元，，匯流排418和420之從浮點運算單元或整數運算單元至暫存器410的寬度為128位位元。這些匯流排之 k暫存洛4 1 0至浮點運算單元或整數運算單元的寬度寬於 k ;于點運异單元或整數運算單元至暫存器4 1 〇的寬度，以適應於處理期間來自於暫存器4 1 〇的較大資料流量。每项計异均需要三個字組的最大值。但是，每項計算的結果通常只是一個字組。圖）至10進一步顯示網路1〇4之成員的處理器模組化結構。例如’如圖5所示，處理器可包括一個單一 PE 502。如上文所述’這個PE通常包括pL/、DMAC及八個APU。每個A PU皆包括區域儲存區（LS)。另一方面，處理器可包括視覺化器（VS) 505結構。如圖5所示，VS 505包含PU 5 12、本纸張尺度適财g g家料(CNS) 574653 A7 B7 五、發明説明（16 ) 〇^1八匸5 14及四個八？1；，即八？1；5 16、八？1；518、八？1； 520和 APU 522。在此情況下，晶片封裝内通常被PE的其他四個 APU佔用的空間會被像素引擎508、影像快取記憶體510及陰極射線管控制器（CRTC) 504。視PE 502或VS 505所需的通訊速度而定，晶片封裝内也可包含光學介面506。使用這項標準化、模組化結構，可輕易且高效率建構許多其他的處理器變更版。例如，圖6所示的處理器包括兩個晶片封裝，即，晶片封裝602包含一 BE，而晶片封裝604 包括四個VS。輸入/輸出（I/O) 606提供介於晶片封裝602的 BE與網路104之間的介面。匯流排608提供介於晶片封裝 602與晶片封裝604之間的通訊。輸入輸出處理器（IOP) 610 控制流入及流出I/O 606的資料流。I/O 606可被製造成專用積體電路（AS1C)。來自於VS的輸出是視訊信號612。圖7顯示具有兩個光學介面704和706之BE 702的晶片封裝，用以提供與網路104其他成員（或區域連接的其他晶片封裝）之間的超高速通訊。例如，BE 702可當作網路104上的伺服器。圖8所示的晶片封裝包括兩個PE 802和804及兩個VS 806 和808。I/O 8 10提供介於晶片封裝與網路104之間的介面。來自於晶片封裝的輸出是視訊信號。例如，這項組態可當作圖形工作站。圖9顯示尚有另一種組態。這個組態的處理能力是圖8所示之組態處理能力的二分之一，其配備一個PE 902而不是配備兩個PE，並且配備一個VS 904而不是配備兩個VS。 -19- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 574653

I/O 906的頻寬是圖s所示之1/〇頻寬的二分之一。但是，這樣的處理器也可當作圖形工作站。 & 圖10顯示最後組態。處理器僅係由一單一 vs 及一 I/O 1004所組成。例如，這項組態可當作PDa。圖11A顯示將光學介面整合至網路1〇4處理器之晶片封裝的圖式。這些光學介面將光學信號轉換成電子信號及將電子信號轉換成光學信號，並且可由各種材料（例如，包= 砷化鎵、砷化鎵鋁、鍺及其他元件或合成物）所建構而成。如圖所示，光學介面1104和丨丨㈧被製造在βΕ 11〇2的晶片封裝上。BE匯流排11〇8提供BE 1102之ΡΕ(即，ρε 1110、PE 1112、PE 1114、PE m6)與這些光學介面之間的通訊。光學介面1 1 04包括兩個連接埠（即，連接埠i丨J 8 及連接埠1 120)，而光學介面1 1〇6也包括兩個連接埠（即，連接蟑1 122及連接埠1 124)。連接埠1 1 18、1 120、1 122和 1124分別被連接至光學波導Π26、1128、1130和1132。光學信號係經由光學介面1 1 04和丨丨06的連接埠，透過這些光學波導在BE 1 1 02間來回傳輸。在各種組態中，可使用此類的光學波導及每個BE的四個光學連接埠將複數個BE連接在一起。例如，如圖1 1B所示，可透過此類的光學連接埠將兩個或兩個以上BE(例如，BE丨152、BE 1 154和BE 1 156)串聯連接在一起。在本實例中.，BE 1 152的光學介面1 166係透過其光學連接埠連接至BE 1 154的光學介面1 160。在類似的方法中，BE 1 154 之光學介面1 162上的光學連接埠被連接至BE 1 156之光學 -20- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)

裝訂 574653 A7 _ B7 五、發明説明（18 ) 介面1164的光學連接埠。圖1 1 C顯示一種矩陣組態。在這個組態中，每個BE的光學介面皆是連接至另兩個BE。如圖所示，BE 1172之光學介面1188的光學連接埠之一被連接至BE 1176之光學介面 1182的一光學連接埠。光學介面1188的另一光學連接埠被連接芏B E 1 1 7 8之光學介面1184的*光學連接淳。在類似的方法中，BE 1174之光學介面1190上的一個光學連接槔被連接至BE 1 178之光學介面1 184的其他光學連接棒。光學介面1 190的另一光學連接埠被連接至BE 1 180之光學介面1 1 8 6的一光學連接璋。可用類似的方法將這個矩陣配置擴充至其他BE。使用串聯組態或矩陣組態，網路1 04的處理器均可被建構成任何所期望的大小及能力。當然，可將額外連接蟑加入至BE的光學介面，或加入至具有多於或少於一個be之 PE數量的處理器，以構成其他組態。圖12A顯示BE之DRAM的控制系統及結構。在具有其他大小且包含更多或更少PE的處理器中採用類似的控制系統及結構。如圖所示，一縱橫制開關將包含BE 120 1之四個 PE的每個DMAC 1210連接至八個記憶組控制1206。每個記憶組控制1206均控制DRAM 1204的八組記憶組12〇8(圖中只有顯示四個）。因此，DRAM 1204包括總共六十四組記憶組。在較佳具體實施例中，DRAM 1204的容量為64兆位元組’並且每組記憶組均具有1百萬位元組的儲存容量。在本較佳具體實施例中，每組記憶組内的最小可定址單元是 -21- 本纸張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐）裝訂

綠 574653 A7 _____B7___ 五、發明説明（19 ) 1024位位元的記憶區塊。

BE 1201還包括開關單元1212。開關單元1212促使緊密耦合至BE 1201之BE上的其他APU能夠存取DRAM 12〇4。因此，可將一第二BE緊密耦合至第一 BE，並且每個be的每個APU均可定址一 APU通常可存取之記憶體位置數量的兩倍。透過如開關單元12 12之類的開關單元，可在第一 BE 的DRAM與第二BE的DRAM之間進行直接讀取和寫入資料。例如，如圖12B所示，為了實現此類的寫入，第一 be的 APU(例如，BE 1222的APU 1220)將一寫入命令發佈至第二 BE之DRAM之記憶體位置（例如，BE 1226的DRAM 1228，而不是如慣常情況，發佈至BE 1222的DRAM 1224)。BE 1222的DM AC 1230透過縱橫制開關1221將寫入命令傳送至 έ己憶組控制1 2 3 4，而記憶組控制1 2 3 4將命令傳輸至連接至記憶組控制1234的外部連接埠1232。BE 1226的DMAC 1238 接收寫入命令，並且將該寫入命令傳送至BE 1 226的開關單元1240。開關單元1240識別内含於該寫入命令中的 DRAM位址，並且將要儲存於該位址中的資料透be 1226的記憶組控制1242傳送至DRAM 1228的記憶組1244。因此，開關單元1240促使DRAM 1224及DHAM 1228均可當作BE 1222之APU的單一記憶體空間。圖1 3顯示DRAM之六十四組記憶組的組態。這些記憶組被排列成八列（即，列 1302、1304、1306、1308、1310、 1312、13 14 和 1316)及八行（即，行 1320、1322、1324、 -22- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 裝訂

574653 A7 — __B7 五、發明説明（2〇 ) 1326、1328、1330、1332和1334)。每列均被一記憶組控制器控制。因此，每個記憶組控制器控制八百萬位元組記憶體。圖14A與14B顯示用於儲存及存取DRAM之最小可定址記憶單元（例如’ 1024位位元記憶區塊）的不同組態。在圖 14A中，DMAC 1402在單一記憶組1404中儲存八個1024位元圮憶區塊1 406。另一方面，在圖14B中，當DM AC 14 1 2 謂取和寫入含有1024位位元的資料區塊時，則會在兩個記憶組（g卩，記憶組14 14與記憶組Μ 1 6)之間交錯這些記憶區塊。因此’這些記憶組的每個記憶組包含十六個資料區塊’並且每個資料區塊均包含5 1 2位位元。這項交錯可促進更快速存取DRAM，並且有助於處理特定應用程式。圖15顯示記PE内之DMAC 1504的架構。如圖所示，包含 DMAC 1506的結構硬體被分散於整個PE,以至於每個apu 1502均具有直接存取DMAC 1506之結構節點1504的存取權。每個節點均執行適合A P U所存取之記憶體的邏輯，使節點具有直接存取該記憶體的存取權。圖16顯示DMAC的替代具體實施例，即，非分散式架構。在此情況下，會集中DMAC 1606的結構硬體。APU 1602和PU 1604經由區域PE匯流排1607與DMAC 1606通訊。DMAC 1606係透過縱橫制開關連接到匯流排丨6〇8。匯流排1608被連接至DRAM 1610。如上文所述，PE的所有多重APU皆可獨立存取儲存於共用DRAM中的資料。結果，於第二APLJ請求這些資料期 •23- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 574653 A7 B7 五、發明説明（21 ) 間，第一 APU可處理其區域儲存區中的特定資料。此時，如果將資料從共用DRAM提供給第二APU，因為第一APU 進行中的處理會變更資料值，所以資料可能無效。因此，此時如果第二處理器接收到來自於共用DRAM的資料，則第二處理器會產生錯誤結果。例如，資料可能全域變數的特定值。如果第一處理器於其處理期間變更該值，則第二處理器會接收到過時的值。因此，需要一種用以同步化 APU讀取共用DRAM内記憶體位置資料及寫入資料至共用 DRAM内記憶體位置的方案。這項方案必須防止從另一 APU目前正在其區域儲存區中運作的記憶體位置讀取資料 (因此，這些資料不是現行資料），以及防止將資料寫入至正在儲存現行資料的記憶體位置。為了克服這些問題，針對DRAM的每個可定址記憶體位置，會在DRAM中配置額外的記憶體區段，用以儲存與記憶體位置中所儲存之資料相關的狀態資訊。這些狀態資訊包括一滿/空（F/E)位元、向記憶體位置請求資料之APU的識別（APU ID)以及應至該處讀取正請求資料之APU區域儲存區的位址（LS位址）。DRAM的可定址記憶體位置可能是任何大小。在較佳具體實施例中，這個大小為1024位位元。 F/E位元設定值為1時指示儲存於相關記憶體位置中的資料是現行資料。另一方面，F/E位元設定值為0時指示儲存於相關記憶體位置中的資料不是現行資料。當F/E位元設定值為0時，如果APU請求資料，則會防止APU立即讀取 -24- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐）裝訂

574653 A7 B7 資料。在此情況下’當資料變成現行資料時，則會將用以識別請求資料之APU的APU ID，以及用以識別要至該處讀取請求資料之APU區域儲存區内之記憶體位置的LS位址輸入至額外記憶體區段。額外記憶體區段也是配置給APU之區域儲存區内的每個記憶體位置。這個額外記憶體區段儲存一位位元，用以標示「忙碌中位元」。忙綠中位元係用來保留用於儲存要從 DRAM擷取之特定資料的相關LS記憶體位置。如果區域儲存區中之一特定記憶體位置的忙碌中位元被設定為1，則 APU只能使用該記憶體位置以寫入這些特定資料。另一方面，如果區域儲存區中之一特定記憶體位置的忙碌中位元被設定為0，則APU可使用該記憶體位置以寫入任何資料。

圖17A至17〇所示的實例展示使用F/E位元、APU ID、U 位址及忙綠中位元以同步化PE之共用DRAM的讀取資料和寫入資料操作。如圖17A所示，一個或一個以上PE(例如，pe 1720)與

DRAM 1702 互動。PE 1720 包含 APU 1722 和 APU 1740。APU 1722包括把制邏輯1724，而APU 1740包括控制邏輯〖Μ7。 APU 1722也包括區域儲存區1726。這個區域儲存區包括複數個可定址記憶體位置1728。APU 1740包括區域倚存區 1 744 ’ ·並且這個區域儲存區也包括複數個可定址記憶體位 k丨7 4 6。所有可定址|己憶體位置的大小最好是1 〇 2 4位位元。 -25- 本紙張尺度適用中國國家標準(CNS)八4規格(210X297公釐）

裝訂

574653

-額外記憶體區段與每個LST定址記憶體位置相關。例如’記憶體區段1729和1734分別與區域記憶體位置咖和 1732相關，而記憶體區段1752與區域記憶體位置⑽相關。如上文所述的「忙碌中位元」係儲料每個額外記憶體區段中。圖中使用數個X來標示區域記憶體位置⑽，以指示該記憶體位置含有資料。 DRAM 1702包含複數個可定址記憶體位置17〇4，包括記憶體位置1706和1708。這些記憶體位置的大小最好是1〇以位位7C。一額外記憶體區段也與每個記憶體位置相關。例如，頭外記憶體區段1760與記憶體位置17〇6相關，而額外記憶體區段1762與記憶體位置17〇8相關。與儲存於每個記憶體位置中之資料相關的狀態資訊被儲存於與該記憶體位置相關的記憶體區段中。如上文所述，這些狀態資訊包括 F/E位元、APU 1D及LS位址。例如，針對記憶體位置 1 708 ’這個狀怨育訊包括f/£位元1 7 12、APU ID 1 7 14和LS 位址1 7 16。使用這些狀態貧訊及忙碌中位元，就可達成圖P E的A P u 間或PE群組間4共用DRAM的同步化讀取資料和寫入資料操作。圖17B顯示開始將資料從APU 1722的LS記憶體位置1732 同步寫入至DRAM 1702的記憶體位置1708。APU 1722的控制1 724起始這些資料的同步化寫入作業。由於記憶體位置 1708是空白，所以將F/E位元丨712設定為0。結果，可將LS 位置丨732中的資料寫入至記憶體位置1708。另一方面，如 -26- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 574653

果將這個位元設定i以指示該記憶體位置i7〇8已滿並且含有現行的有效值’則控制而將接收到錯誤訊息，並且禁止將資料寫入至這個記憶體位置。圖17 C顯示將資料成功同步寫入至記憶體位置⑽的結果。寫入的資料被儲存於記憶體位置丨7〇8中，並且將f/e 位元1712。又定為1。這項設定值指示記憶體位置⑺8已滿，並且指示這個記憶體位置中的資料是現行且有效的資料。圖丨7D㉙示開始將資料從DRAM 17〇2的記憶體位置η⑽ 同步碩取主區域儲存區丨744的LS記憶體位置丨75〇。為了起釔這員喂取作業，LS記憶體位置175〇之記憶體區段1752中的忙碌中位元被設定為丨，以為這些資料保留這個記憶體位置。這個忙碌中位元設定值為t時可防止丨74〇將其他貧料儲存至這個記憶體位置中。如圖ΠΕ所示，接著，控制邏輯丨742發佈dram 17〇2之記憶體位置1 708的同步讀取命令。由於與這個記憶體位置相關的F/E位元1 7 1 2被設定為丨，所以儲存於記憶體位置 1708中的貝料被認為是現行且有效的資料。結果，f/E位元1 7 1 2被設定為〇，以準備將資料從記憶體位置1 7〇8傳送土 LS记丨思^位置1 750。圖1 7F顯示這項設定值。這個位元設足值為0時指示，在讀取這些資料後，儲存於記憶體位置1708中的資料會變成無效資料。如圖17G所示，接著，將記憶體位置1708中的資料從記憶體位置1708讀取至LS記憶體位置1750。圖17H顯示最後 •27- 本紙張尺度適用中國國家標準(CNS) Μ規格(21〇><297公爱)

裝訂

574653 A7 B7 五、發明説明（25 ) 狀態。記憶體位置1708中之資料的複本被儲存至LS記憶體位置1 750中。F/E位元17 12被设定為0以指示儲存於記憶體位置1708中的資料是無效資料。這是因為這些資料被Apu 1 740改變而導致資料無效。記憶體區段丨乃2中的忙碌中位元也被设走為〇。這個設定值指示，現在Apu 1 740可使用 LS兄憶體位置1750以進行各項作業，即，這個記憶體位置不再處於等待接收特定資料的保留狀態。因此，現在 APU 1740可存取LS記憶體位置1750以進行各項作業。圖171至170顯示當DRAM 1702之記憶體位置的f/E位元被5又足為〇以指示該記憶體位置中的資料不是現行或有效資料時’將資料從DRAM 1702的記憶體位置（例如，記憶體位置1 708)同步讀取至APU區域儲存區的LS記憶體位置 (例如，區域儲存區1744的LS記憶體位置1752)。如圖ι71 所示，為了起始這項傳送作業，LS記憶體位置1750之記憶體區段1 7 5 2中的忙碌中位元被設定為1，以為傳送資料來保留這個L S i己憶體位置。如圖1 7 J所示，接著，控制邏輯 1742發佈DRAM 1702之記憶體位置1708的同步讀取命令。由於與這個記憶體位置相關的F/E位元（F/E位元丨712)被設定為0，所以儲存於記憶體位置1 708中的資料是無效的資料。結果，一封鎖信號被傳輸至控制邏輯丨742，以阻止立即從這個記憶體位置讀取資料。如圖17K所示，接著’將這個讀取命令的apu ID 1714和 LS位址1 7 1 6寫入至記憶體區段1 762。在此情況下，會將 A P U 1 7 4 0的A P U 1D和L S記憶體位置1 7 5 0的L S記憶體位置 -28- 本紙張尺度適用中國國家標準(CNS)八4規格(210X 297公釐) 574653 A7 ---- B7 五、發明説明（％ ) 爲入至元憶體區段1762。因此，當記憶體位置17〇8中的資料變成現行資料時，會使用ApLJ 1〇和LSg憶體位置來決定要將現行資料傳輸至哪一個位置。當APU將資料窝入至記憶體位置1708時，這個記憶體位置中的資料變成有效及現行資料。圖丨7L顯示將資料從（例如）APU 1722的記憶體位置1732同步窝入至記憶體位置 1708 °因為這個記憶體位置的F/E位元171 2被設定為〇，所以准許同步寫入這些資料。如圖17M所示，在寫入這些資料後，記憶體位置1708中的資料變成現行且有效的資料。因此，立即從記憶體區段 1762讀取記憶體區段丨762中的apu ID 1714和LS位址1716，然後從這個記憶體區段刪除這項資訊。F/E位元1712被設定為〇以預期立即讀取記憶體位置丨708中的資料。如圖 17N所示，讀取APU1D1714和LS位址1716之後，立即使用這項資訊以將記憶體位置丨708中的有效資料讀取至APU 1740的LS記憶體位置1 750。圖170顯示最後組態。圖中顯示從記憶體位置1 708複製至記憶體位置1 750的有效資料、記憶體區段1 752中的忙碌中位元被設定為〇，以及記憶體區段丨762中的F/E位元17 12被設定為0。這個忙碌中位元的設定值為0指示，現在APU 1740可存取LS記憶體位置1750 以進行各項作業。F/E位元設定值為〇時指示記憶體位置中 1 708的資料不再是現行且有效的資料。圖18依據對應於記憶體位置之記憶體區段中儲存之f/e 位元、APU ID及LS位址的狀態，概述如上文所述的作 -29- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 574653 A7 B7 五、發明説明（27 ) 業，以及DRAM之記憶體位置的各種狀態。記憶體具有三種狀態。這三種狀態為：空白狀態1880，其中F/E位元被設定為0，並且沒有提供APU ID或LS位址的資訊；全滿狀態1882，其中F/E位元被設定為1，並且沒有提供APU ID或 LS位址的資訊；封鎖狀態1884，其中F/E位元被設定為0，並且有提供APU ID和LS位址的資訊。如圖所示，在空白狀態1880中，准許進行同步化寫入作業，並且導致轉換至全滿狀態1882。但是，當記憶體位置處於在空白狀態時，因為記憶體位置中的資料不是現行資料，所以同步化讀取作業會導致轉換至封鎖狀態1 884。在全滿狀態1 882中，准許進行同步化讀取作業，並且導致轉換至空白狀態1880。另一方面，禁止在全滿狀態1882 下進行同步化寫入作業，以防止覆寫有效資料。如果嘗試在全滿狀態下進行寫入作業，則不會發生狀態變更，並且會將錯誤訊息傳輸至APU的對應控制邏輯。在封鎖狀態1 884中，准許將資料同步化寫入至記憶體位置，並且導致轉換至空白狀態1880。另一方面，禁止在封鎖狀態1 884下進行同步化讀取作業，以防止與導致這個狀態之先前同步化讀取作業衝突。如果嘗試在封鎖狀態1 884 下進行同步化讀取作業，則不會發生狀態變更，並且會將錯誤訊息傳輸至APU的對應控制邏輯。如上文所述之用於共用DRAM之同步化讀取資料和寫入資料作業的方案也可用來排除通常專用於處理器從外部裝置讀取資料及寫入資料至外部裝置的計算資源。PU可執 -30- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 裝訂 574653 五 A7 B7 、發明説明（28 ) 行輸入/輸出（I/O)功能。但是，使用這項同步化方案修改版時，執行適當程式的APU可執行這項功能。例如，運用這項方案，接收到一外部裝置起始之從I/O介面傳輸資料之中斷請求的PU可將這些請求處理委派給這個APU。然後，APU發出一同步化寫入命令至I/O介面。接著，介面向外部裝置發佈現在無法將資料寫入至DRAM的信號。接著，APU發出一同步化讀取命令至DRAM，以將DRAM的相關記憶體空間設定成封鎖狀態。APU也將要接收資料所需之APU區域儲存區之記憶體位置的忙碌中位元設定為 1。在封鎖狀態中，與DRAM之相關記憶體空間有關的額外記憶體區段包含APU的ID及APU區域儲存區之相關記憶體位置的位址。接著，外部裝置發出同步化寫入命令，以將資料直接寫入至DRAM的相關記憶體空間。由於這個記憶體空間處於封鎖狀態，所以會立即從這個記憶體空間讀取資料至於額外記憶體區段中識別之APU區域儲存區的記憶體。然後，將這些記憶體位置的忙碌中位元設定為〇。當外部裝置完成寫入資料時，APU向PU發出傳輸完成的信號。因此，運用這個方案，可使用最小PU計算負載來處理從外部裝置傳送資料。但是，被委派這項功能的APU應能夠發出中斷請求至PU，並且外部裝置應具有直接存取 DRAM的存取權。每個PE的DRAM皆包括複數個「沙箱」。沙箱定義特定 APU或一組APU無法讀取或寫入資料的共用DRAM區域。 -31- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐）裝訂 574653 A7 -—___B7 五、發明説明（29—)~ 一 ' ---- 坆些汐相提供防止某一 APU正在處理的資料因另正在處理的資料而毀損的安全性。這些沙箱也准許將軟體單元從網路104下載至特定沙箱，使軟體單元無法毁損整個 DRAM的貫料。在本發明中，沙箱係在dram和⑽aC的硬，中實施。藉由以硬體而不是軟體來實施這些沙箱，可獲得速度及安全性方面的優點。又 PE的PU控制指派給Apu的沙箱。由於p(J通常只運作受信任的程式（如，作業系統），所以這項方案無損於安全性。根據這項方案’ PU建置及維護—識別碼控制表。圖 1 9頌TF k個識別碼控制表。如圖所示，識別碼控制表1 中的每筆項目均包含柳的識別〇D) 19〇4、該卿的例識別碼1906及識別碼遮罩_。下文解說這個識別碼遮罩的用途。識別碼控制表1902最好是儲存於相當快速的記憶體中（如靜態隨機存取記憶體（SRAM))，並且與⑽…相關。識別碼控制表1902中的項目被PlJ控制。當一 Apu要求寫入資料至DRAM的特定儲存區位置或從£)11八1^的特定儲存區位置讀取資料時，DMAC對照與該儲存區位置相關的占己憶體存取識別碼（mem〇ry access key)，以評估識別碼控制表1902中指派給該APU的八川識別碼丨9〇6。工如圖20所示，一專用記憶體區段2〇1〇被指派給 2002的每個可定址儲存區位置2〇〇6。儲存區位置的記憶俨存取識別碼20 12被儲存至這個專用記憶體區段中。如上文所述，進一步額外的專用記憶體區段2〇〇8(也與每個可= 址儲存區位置2006相關）儲存用於寫入資料至儲存區位置 -32- 本紙張尺度適财國g家標準(CNS) A4規格(21GX297公I) 574653

及從儲存區位置讀取資料的同步化資訊。發明説明（3〇在運作過程中，APU發出DMA命令至DMAC。這個命令包括DRAM 2002之儲存區位置2006的位址。在執行這個命令之前，DMAC使用APU的ID 1904查詢識別碼控制表19〇2 中的請求方APU的識別碼1906。然後，DMAC比較請求方 APU的APU識別碼1906與儲存於專用記憶體區段2〇ι〇中的記憶體存取識別碼20丨2，其中該專用記憶體區段2〇1〇與 APU * 5式存取的DRAM儲存區位置相關。如果這兩個識別碼不匹配，則不會執行DMA命令。另一方面，如果這兩個識別碼匹配，則DMA命令繼續進行，並且執行所請求的記憶體存取。圖2丨顯示替代具體實施例。在本具體實施例中，PU也維護一記憶體存取控制表2 102。記憶體存取控制表2丨〇2包含DRAM内每個沙箱的項目。在圖Η所示的特定實例中， DRAM包含64個沙箱。記憶體存取控制表2 1〇2中的每筆項目均包含沙箱的識別（ID) 2104、基底記憶體位址2丨〇6、^ 鈿大小2丨08、记憶體存取識別碼2 1 1 〇及存取識別碼遮罩 2 1 10。基底记憶體位址2 1 06提供DRAM中開始特定記情腎给沙箱的位址。沙箱大小2108提供沙箱大小，因此，提供$ 定沙箱的結束點（endpoint)。圖22顯示使用識別碼控制表丨902及記憶體存取控制表 2 1 02來執行DM A命令之步驟的说程圖。於步驟，八口^ 發出DMA命令至DiMAC ’以存取一沙箱内的特定記憶體位置或是沙箱内的位置。這個命令包括一沙箱丨D2l〇^f用 -33- 本纸張尺度適用中國國家標準(CNS) A4規格(210X297公釐）

裝訂

574653 五、發明説明（31 以識別所請求存取的特定的沙箱。於步騾22〇4，DMac使用APU的ID丨9〇4查詢識別碼控制表丨9〇2中的請求方Apjj識別碼1906。於步驟22〇6, dmAC使用命令中的沙箱ID 2104 句4憶體存取控制表2 1 〇2中與該沙箱相關的記憶體存取識別碼21 10。於步驟22〇8，DMAC比較指派給請求方Apu 的APU識別碼1906與該沙箱相關的存取識別碼21 1〇。於步驟22 1 0，決足這識別碼與存取識別碼是否匹配。如果識別碼與存取識別碼不匹配，則處理程序進行至步驟22 12，不會繼續執行DMA命令，並且會將錯誤訊息傳輸至請求方 APU、PU或兩者。另一方面，於步驟221〇 ,如果識別碼與存取識別碼匹配，則處理程序進行到步驟22 14 ,其中 DMAC執行DMA命令。訂 APU識別碼的識別碼遮罩及記憶體存取識別碼提供這個系統極大的彈性。識別碼的識別碼遮罩將遮罩位元轉換成萬用字元。例如，如果與APU識別碼19〇6相關之識別碼遮罩1908的最後兩位位元被設定為「遮罩」（例如，將識別碼遮罩i 908中的這些位元設定為！來標示遮罩），則則識別碼可能是1或0，並且仍然匹配記憶體存取識別碼。例如，APU識別碼可能是1〇丨〇。這個Apu識別碼通常只允許存取具有mo存取識別碼的沙箱。但是，如果將這個㈣識別碼的APU識別碼遮罩設定為_卜則可使用這個例識別碼來存取具有1〇10或1011存取識別碼的沙箱。同樣地，具有丨010或10丨丨之APU識別碼的APU可存取具有設定為0 00 1之識別碼遮罩的存取識別碼1〇1〇。由於可同時使用 -34- 本紙張尺度適$中國國家標準(CNS) Α4規格(21G X 297公爱) 574653

ΑΡϋ識別碼遮罩及記憶體識別碼遮罩，所以可建置存取沙箱的許多存取能力變化。本發明還提供一種適用於系統101之處理器的新程式設計模組。這個程式設計模組採用軟體單元1〇2。可將這些軟體單元傳輸至網路104上任何處理器以進行處理。這個新程式設計模組也利用系統101的唯一模組化架構及系統 1 〇 1的處理器。 APU從APU的區域儲存區直接處理軟體單元。Αρυ不直接操作dram中的任何資料或程式。在APU處理這個資料和程式之前，會先將DRAM中的任何資料或程式讀取至 APU的區域儲存區。因此，APU的區域儲存區包括程式計數器、堆疊及執行這些程式所需的其他軟體元件。pu控制APU的方式為，發出直接記憶體存取（dma)命令至 DMAC 〇圖23顯不軟體單元1〇2的結構。如圖所示，軟體單元（例如，軟體單元2302)包含投送資訊區段23〇4及主體23〇6。内含於投送資訊區段2304中的資訊取決於網路丨〇4的通訊協定。投送資訊區段2304包含標題2308、目的地m 23丨〇、來源1D 23丨2及回覆ID 23丨4。目的地出包括一網路位址。例如’依據TCP/IPit訊協定，網路位址是網際網路通訊協定 (IP)位址。目的地ID 23丨0進一步包括應將軟體單元傳輸至該處以.利處理之PE和APU的識別。來源丨〇2314包含網路位址並且識別軟體單元起源的PE及APLi，如有必要，促使目的地PE及APU能夠獲得關於該軟體單元的額外資訊。回覆 -35- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 574653 A7 B7

ID 23 14包含網路位址並且識別軟體單元所查詢的^及 APU，並且應直接傳送該軟體單元的處理結果。軟體單元主體2306包含非相依於網路通訊協定的資訊。圖23的分解部份顯軟體單元主體23〇6的細節。單元主^ 2306的標題2320識別單元主體的開端。軟體單元介面包含軟體單元的利用所需的資訊。這個資訊包括全域唯一 ID 23 24、必要APU 23 26、沙箱大小2328及前一軟體攀元 ID 2330。全域唯一 ID 2324唯一識別整個網路104中的軟體單元 2302。產生全域唯一 ID 2324的基礎為來源m 2312(例如，來源ID 2312内PE或APU的唯一識別），以及產生或傳輸軟體單元2302的時間及日期。必要APU 2326提供執行軟體^ 元所需的最小APU數量。沙箱大小2328提供與執行軟體單元所需之DRAM相關之必要APU中的受保護記憶體數量。前一軟體單元1D 2330提供需要連續執行之軟體單元群組 (例如，即收即播資料）中前一軟體單元的識別。實施區段2332包括軟體單元的核心資訊。這項資訊包括 DMA命令清單2j34、程式2336及資料2338。程式2336包各 APU所要執行的程式（稱為「apUlets」），例如apu程式2360 和2362，並且資料2338包含要與這些程式一起處理的資料。DMA命令清單2334包含啟動程式所需的一系列dmA命令。這些DMA命令包括DMA命令2340 , 2350，2355和 2358。PU發出這些DMA命令至DMAC。 DMA命令2340包括V1D 23 42。VID 2342是當發出DMa命 -36- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)

裝訂

574653 A7 B7 五、發明説明（令時映射至實體ID之APU的虛擬ID。DMA命令2340還包括載入命令2344和位址2346。載入命令2344指示APU將特定資訊從DRAM讀取至區域儲存區。位址2346提供DRAM中包含此資訊的虛擬位址。例如，該資訊可能是來自於程式區段2336的程式、來自於資料區段2338的資料或其他資料。最後，DMA命令2340包括區域儲存區位址2348。這個位址識別應將資訊載入至該處之區域儲存區中的位址。 DMA命令23 50包括類似的資訊。也可能有其他的DMA命 DMA命令清單2334還包括一系列啟動（kick)命令，例如，啟動（kick)命令2355和2358。啟動（kick)命令是由PUS 出至APU的命令，用以起始軟體單元的處理。DMA啟動 (kick)命令23 55包括虛擬APU ID 2352、啟動（kick)命令2354 及程式計數器2356。虛擬APU 1D 2352識別要啟動（kick)的 APU，啟動（kick)命令2354提供相關的啟動（kick)命令，而程式計數器2356提供用於執行程式之程式計數器的位址。 DMA啟動（kick)命令2358提供同一 APU或其他APU的類似資訊。如所述，PU將APU視為非相依性處理器，而不是視為共處理器。因此，為了控制APU的處理，PU利用類似於遠端程序呼叫的命令。這些命令被任名為「APU遠端程序呼叫」（ARPC)。PU實施ARPC的方式為，發出一系列DMA 命令至DMAC。DMAC將APU程式及其相關堆疊框架（Stack Frame)載入至APU的區域儲存區。然後，PU發出起始啟動 •37- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 裝訂

574653 A7 B7 五、發明説明（35 ) (kick)至APU以執行APU程式。圖24顯示用於執行一 apulet之ARPC的步驟。圖24的第一部份2402顯示在指定的APU起始處理apulet的過程中PU執行的步騾，而圖24的第二部份2404顯示在處理apulet的過程中指定之APU執行的步驟。於步驟2410，PU評估apulet，然後指定用於處理該 apulet的APU。於步驟24 12，PU配置DRAM中用來執行 apulet的空間，其方式是發出DMA命令至DMAC，以設定所需之沙箱的記憶體存取識別碼。於步驟2414，PU啟動所指定APU的中斷請求，以發出apulet完成信號。於步驟 24 18，PU發出DM A命令至DMAC，以將apulet從DRAM載入至APU的區域儲存區。於步驟2420 ,執行DMA命令，並且將apulet從DRAM讀取至APU的區域儲存區。於步驟2422， PU發出DMA命令至DMAC，以將與該apulet相關的堆#框架從DRAM載入至APU的區域儲存區。於步驟2423，執行 DMA命令，並且將堆疊框架從DRAM讀取至APU的區域儲存區。於步驟2424，PU發出DMA命令至DMAC，以將一識別碼指派給APU，允許APU從於步驟24 12指定的硬體沙箱讀取資料或寫入資料至硬體沙箱。於步驟2426，DMAC使用指派給APU的識別碼來更新識別碼控制表（KTAB)。於步驟2428，PU發出DMA啟動（kick)命令至APU，以啟動程式的處理·。視特定apulet而定，在執行特定ARPC過程中，PU 可發出其他的DMA命令。如上文所述，圖24的第二部汾2404顯示在執行apulet的 -38- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 裝訂 574653 A7 B7 五、發明説明（36 ) 過程中APU執行的步驟。於步驟2430，APU開始執行 apulet，以響應於步驟2428發出的啟動（kick)命令。於步驟 2432，按照apulet的指示，APU評估apulet的相關堆疊框架。於步驟2434，APU發出多重DMA命令至DMAC，以將按照堆疊框架需求所指定資料從DRAM載入至APU的區域儲存區。於步驟2436，執行這些DMA命令，並且將資料從 DRAM讀取至APU的區域儲存區。於步驟2438，APU執行 apulet並且產生結果。於步驟2440，APU發出DMA命令至 DMAC，以將結果存入DRAM。於步驟2442，執行DMA命令，並且將apulet的結果從APU的區域儲存區寫入至 DRAM。於步驟2444，APU發出中斷請求至PU ,以發出 ARPC完成信號。 APU以非相依於PU指示的方式執行工作的能力促使PU 能夠指定一組APU及該組APU相關的記憶體資源執行擴充工作。例如，P U可指定一個或一個以上A P U及與該等一個或一個以上APU相關之一组記憶體沙箱，透在一延長週期期間接收透過網路104傳輸的資料，並且於該週期期間將所接收資料導向至一個或一個以上其他APU及其相關記憶體沙箱來進一步處理資料。這項能力特別有助於處理透過網路104傳輸的即收即播資料，例如，即收即播MPEG或即收即播ATRAC音訊或視訊資料。PU可指定一個或一個以上APU及其相關的記憶體沙箱接收這些資料，並且指定一個或一個以上其他APU及其相關記憶體沙箱來解壓縮及進一步處理這些資料。換言之，PU可建置一組APU及其相關 -39- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 裝訂 574653

記憶體沙箱之間的專用管線關係以處理此類的資料。但是’為了高效率執行此類的處理，於未發生包括資料流之apcdet的處理期間，管線的專用Apu及記憶體沙箱仍然專屬於琢管線。換言之，於這些週期期間，專用八⑼及其相關沙箱應處於保留狀態。在完成apiUet處理之後立即保留APU及其相關記憶體沙箱被稱為「常駐終止」。常駐終止發生以響應來自於PU的指令。圖25、26A及26B顯示專用管線結構的建置，其中專用管線結構包括一組APU及其相關記憶體沙箱，用於處理即收即播資料，例如，MPEG資料。如圖25所示，這個管線結構的組件包括PE 2502和DRAM 25 18。PE 2502包含PU 2504、DMAC 2506及複數個 APU，即 APU 2508、APU 2510 和 APU 25 12。PU 2504、DMAC 2506與這些 APU之間透過 PE匯流排25 14進行通訊。廣頻寬匯流排25丨6將dmaC 2506 連接至DRAM 25 18。DRAM 25 18包含複數個沙箱，例如，沙箱2520，沙箱2522，沙箱2524和沙箱2526。圖26A顯示建立專用管線的步驟。於步驟26丨〇，pu 25〇4 指派APU 25 08以處理網路apulet。網路apulet包括用於處理網路104之網路通訊協定的程式。在此情況下，使用的通訊協定是傳輸控制通訊協定/網際網路通訊協定 (transmission control protocol/lnternet protocol; TCP/IP)。會透過網路104傳輸符合這項通訊協定的TCP/IP資料封包。接收到資料封包後，APU 2508處理這些封包，並且將封包中的資料組裝成軟體單元1 02。於步騾26 I 2，在完成 -40- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)

裝訂 574653 A7 B7 五、發明説明（38 ) 網路apulet處理之後，PU 2504指示APU 2508執行常駐終止。於步驟2614，PU 2504指派PU 2510和2512以處理 MPEG apulet。於步騾2615，在完成MPEG apulet處理之後，PU 2504還指示APU 25 10和25 12執行常駐終止。於步驟2616，PU 2504指定沙箱2520來當作APU 2508和APU 25 10存取的來源沙箱。於步驟26 18，PU 2504指定沙箱 2522來當作APU 25 10存取的目的地沙箱。於步驟2620，PU 2504指定沙箱2524來當作APU 2508和APU 25 12存取的來源沙箱。於步驟2622，PU 2504指定沙箱2526來當作APU 25 12存取的目的地沙箱。於步驟2624，APU 25 10和APU 25 12將同步化讀取命令分別傳送至來源沙箱2520和來源沙箱25 24内的記憶區塊，以將這些記憶區塊設定為封鎖狀態。處理程序最後進行到步驟2628，以完成專用管線建置，並且保留管線專用的資源。因此，APU 2508，25 10和 25 12及其相關沙箱2520，2522，2524和2526進入保留狀態。圖26B顯示這些專用管線處理即收即播MPEG資料的步驟。於步驟2630，用於處理網路apLllet的APU 2508在其區域儲存區中接收來自於網路1〇4的TCP/IP資料封包。於步驟2632，ΑΡϋ 2508處理這些TCP/IP資料封包，並且將這些封包中的資料組裝成軟體單元1〇2。於步驟2634，APU 2508檢查軟體單元的標題2320(圖23)，以決定軟體單元是否包含MPEG資料。如果軟體單元不包含MPEG資料，則於步騾2636 ’ APU 2508將軟體單元傳輸至DRAM 25 18内專用 , -41· 本紙張尺度適用中國國家標準(CNS) A4規格(21〇X 297公釐）一 574653 A7 B7 五、發明説明（39 ) 的一般用途沙箱，由非包含於專用管線内的其他APU來處理其他貧料。APU 2508也將這項傳輸通知pu 2504。另一方面，如果軟體單元包含MpE(}資料，則於步驟 263 8 ’ APU 2508檢查軟體單元的前一軟體單元m 233〇(圖 23) ’以識別軟體單元所屬的MPEG資料流。於步驟2640， APU 2508選取用於處理該軟體單元之專用管線的apu。在此情況下，APU 2508選用APU 25丨〇來處理這些資料。這是依據前一軟體單元ID 2330及負載平衡因素來進行選擇。例如，如果前一軟體單元ID 233〇指示軟體單元所屬之 252〇讀取至APU 2510的區域儲存區。於步驟26仏，a叫 25 10在其區域儲存區中處理MpEc^#料以產生視訊資料。於步驟2648，APU 2510將視訊資料寫入至沙箱乃以。、於步驟2650，八？1；25 10發出同步化讀取命令至沙箱252〇，以使這個沙箱準備好接收額外1^吒(}資料。於步驟MW，A叫 25 10處理常駐終止。於Apu等待處理MpEG資料流中的額外MPEG賞料期間，這項處理會導致Apu進人保留狀態。可在.，且APU及其相關沙辆〈間建置其他的專用結構以處理其他類型的資料。例如’如圖27所示，—组專用Α叫 (例如，卿2702，2708和27 14)可被建置以執行三維物件

MPEG資料流的前一軟體單元被傳送至Apu 251〇以處理資料，則現行軟體單元通常也會被傳送至Apu 25 1 〇以處理資料。於步驟2642，APU 2508發出同步化寫入命令，以將 MPEG貧料寫入至沙箱2520。由於已事先將這個沙箱設定為封鎖狀態，所以於步驟2644，自動將MpEG資料從沙箱裝訂

-42-

574653

的幾何變換，以產生兩維顯示清單。其他Apu可進一步處理（重現）這些兩維顯示清單以產生像素資料。為了執行這八處里/少箱專用於APU 2702，27〇8和2414，以儲存三維物件及處理這些物件所產生的顯示清單。例如，來源沙箱 2704,271〇和2716係專用於儲存八叫27〇2，八卩1]27〇8和 2 7 14刀別^理的二維物件。在類似的方法中，目的地

沙箱 2706，2712和 2718係專用於儲存 Αρυ 27〇2，Αρυ 27〇8 和APU 2714分別處理三維物件所產生的顯示清單。協調者APU 2720係專用於在其區域儲存區中接收來自於目的I ν相2706，27 12和27 18的顯示清單。APU 272〇仲裁裝這些顯示清單，並且將顯示清單傳送至其他APU，以重現像素資料。系統101的處理器也採用絕對計時器。絕對計時器將時脈L鱿k供給APU& PE的其他元件，並且非相依於且快於訂

用以驅動這些元件的時脈信號。圖28顯示這個絕對計時器的用法。 ^如圖所示，絕對計時器建置APU執行之工作的時間預算這個時間預异提供艽成工作的時間，這段時間長於 ί! X作所需的時間。結果，針對每項工#，在時間預算内八有一忙碌中週期及待命週期。所有被寫入以依據k個時間預算處理之，而不論實際的處理時間或速度。 ί ]汝針對ΡΕ的特定APU，於時間預算2804的忙綠中週期2802期間可热广4土 — ^ " 執仃特疋工作。由於忙碌中週期2802短於時 -43· 五、發明説明（ /、算2804所以於時間預算期間會發生待命週期2806。於待叩週期期間’ APU進入睡眠模式，彳睡眠模式期間 A P U消耗較低功率。其他APU或PE的其他元件不會預期處理工作的結果，直到時間預算2804到期。因此，使用絕對計時器建置的時間預算，-定會協調APU的處理結|，而不管洲理速度。未來，APU的處理速度會更快速。但是，絕對計時器建置的時間預算維持不變。例如，如圖28所示，未來则將在較短週期期間内執行工作’因此，會具有較長的待命週期。因此，忙碌中週期2808短於忙碌中週期28〇2，並且待命週期28丨0長於待命週期28〇6。但是，由於程式被寫入以依據絕對計時器建置的同一時間預算來處理，所以會維協調APU之間的處理結果。結果，較快的Ap(j可處二針對較慢APU所寫入的程式，而不會導致預期處理結果方面的衝突。 $ $ 針對增強或不同操作速度所建立的則平行處理、面的問題，Ρϋ或一個或一個以上指定Apu分析正在々=万 apulet之APU執行的特定指令或微程式碼，以取代用處理置APU之間協調的絕對計時器。「無運算」（「N〇卯以，令可被插入至指令中並且由APU之一部份負責執行，」持apulet所預期的適當連續完成ΑΡυ處理。藉:？=維 Ν00Ρ插入至指令中，可維持APU執行所 1 =這些序。彳日7的正確時 -44- I紙張尺度適用中國國家標準(CNS) Α4規格(210 X 297公爱Υ 574653 A7 B7 五、發明説明（42 ) 雖然本文中已參考特定具體實施例來說明本發明，但是應明白，這些具體實施例僅僅是解說本發明的原理及應用。因此，應知道解說的具體實施例能夠進行許多變更並且可設計出其他排列，而不會脫離如隨附的申請專利範圍中定義的本發明範疇及精神。 -45- 本纸張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)

Claims

574653 A8 B8 C8 D8 、申請專利範圍 '一種電腦處理裔’包括· 一主記憶體，用於儲存程式及與該等程式相關的資料；複數個第一處理單元，用於處理該等程式及該相關資料，每個該第一處理單元皆包括一與該第一處理單元專有相關的區域記憶體；一第二處理單元，用於控制該等第一處理單元執行之該等程式及該相關資料的該處理，該第二處理單元可被操作以指示該等第一處理單元之任一第一處理單元處理該等程式之一，其方式是指示將該程式及與該程式相關之資料從該主記憶體傳送至與該第一處理單元專有相關之區域記憶體，並且指示該第一處理單元起始處理該程式，之悛該第一處理單元從與該第一處理單元專有相關之該區域記憶體處理該程式及與該程式相關之資料。如申請專利範圍第1項之處理器，其中該主記憶體是一動態隨機存取記憶體。如申請專利範圍第1項之處理器，其中該主記憶體包括複數個記憶體位置，每個該記憶體位置皆包括一與該記憶體位置專有相關的記憶體區段。如申請專利範圍第3項之處理器，其中每個該記憶體區段儲存用以指示儲存於該記憶體區段之相關記憶體位置中之資料之狀態的狀態資訊、一第一處理單元的識別及一記憶體位址。如申請專利範圍第4項之處理器，其中該狀態資訊指示 -46- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 裝訂

線 574653

、申請專利範儲存於泫圮憶體區段之相關記憶體位次 w 、、，且丁\貝料的有斂 ’琢識別指示該等第一處理單元之一元的崎w 秤疋弟一處理單勺減別，而孩記憶體位址指示一盥元直女2 a 一成狩义弟一處理單寻有相關之區域記憶體内的儲存區位址。 6·如申請專利範圍第1項之處理器，其中該菩# 一 ^ 升S > 守弟一處理單器<母個第-處理單元皆是—單一指令多重資料處理 7. 如申請專利範圍第i項之處理器，並中分、一 /、τ邊寺弟一處理單 :每個第一處理單元皆包括一組暫存器、複數個浮點單元及用於將該組暫存器連接至該等複數個浮點運异單元的一個或一個以上匯流排。 · 8. 如申請專利範圍第7項之處理器，其中該等第一處理單元〜每個第一處理單元均進一步包括複數個整數運算單元及用於將該等複數個整數運算單元連接至該組暫存器的一個或一個以上匯流排。 9·如申請專利範圍第1項之處理器，該處理器進一步包括一光學介面及一光學波導，該光學介面可被操作二二該處理器產生的電子信號轉換成用以從該處理器傳輸的光學信號，以及將傳輸至該處理器的光學信號轉換成電子 L號’该光學波導被連接至該光學介面以傳輸該等光學信號。 ⑴.如妒請專利範圍第1項之處理器.，其中該等區域記憶體是靜態隨機存取記憶體。 11·如申請專利範圍第1項之處理器，該處理器進一步包括 -47- 本紙張尺度適用中國國家標準(CNS) Α4规格(210X 297公釐） " ------—— 574653 「、申請專利範圍一用於產生像素資料的重現引擎' 一用於暫時儲存該像素資料的訊框緩衝器，以及一用於將該像素資料轉換成一視訊信號的顯示控制器。 12.如申請專利範圍第丨項之處理器，其中與所處理之該程式相關的貧料包括一堆疊框架（Stack Frame)。 13·如申請專利範圍第i項之處理器，其中每個該第一處理單元皆包括-控制器，用於在處理該等程式與該相關資料期間:指示將進-步資料從該主記憶體傳送至與該第一處理單元專有相關的區域記憶體。 14. 如申請專利範圍第丨項之處理器，其中該主記憶體包括複數個記憶組控制器及一縱橫制開關，用以提供:入於 ^第一處理單元之每個處理單元與該主記憶體之二 15. 如申請專利範圍g【項之處理器，該處理器進—乎禁止裝置’用於禁止每個該處理單元從該處理草二㈣關的該等區域記憶體之任—區域記憶體讀取資爲入資料至該區域記憶體。 16. 如申請專利範圍第！項之處理器，該處理器進—+ 一直接記憶體存取控制器。 /匕括丨7.如令請專利範圍第丨6項之處理器，其中該第二處理單 4讀茲程式及與該程式相關的該資料傳送至的” -處理單元專有相關的區域記憶山… 令至該直接記憶體存取控制器，並且該丄控制器響應該命令’以將該程式傳送至與該第：：理： -4 8 - 本紙張尺度適財s國家標準(CNS) A4規格(210 X 297公釐) ^/4653

申請專利範圍兀專有相關的區域記憶體。吸如申請專利範_17項之處理器，其中該卜處理單 =指41於處理該程式之進-步資料從該主記憶體傳送至Λ及第冑理單元專有相關的區域記憶體的方式 =二發出〒令至孩直接記憶體存取控制器，並且該直矣：隱’也2取控制器響應該命令，以將該進一步資料傳迗至與該第一處理單元專有相關的區域記憶體。 t請專利範圍第18項之處理器，其中該第-處理單兀扣不將處理孩程式產生的資料從與該第一處理單元專 =相關，區域記憶體傳送至該主記憶體的方式為，發出 -Ρ令芏孩直接記憶體存取控制器，並且該直接記憶體存取控制器響應該命令’以將該產生資料從與該處理單兀專有相關的區域記憶體傳送至該主記憶體。 20.—種處理裝置，包括·· 〜 y主記憶體’用於料程式及與該等程式相關的資料» *-個或-個以上處理器模組’該等處理器模組之每個如理益扠组皆包括：複數個第一處理單元，用於處理該争程式及該相關資料；複數個區域記憶體，該等區域記憶體之每個區域記憶體皆與該等第一處理筆元士一不同 t處：單元專有相關；一第二處理單元，用：控制該寺弟.一處理單元執行之該筈赶TX、、仃Λ命杧式及孩相關資料的該處理，該第二處理單元可被操作以指示該等第一處理單元之任-第-處理單^處理該等程式之_，其方式是指示 -49- 本紙張尺度適用中國國家標準(CNS) Α4規格(210 X 297公釐)

程式及與該程式相關之資料從該主記憶體傳送至盘琢弟-處理單S相關之區域記憶體，並且指示該第一處理η起始處理該程式’之後該第-處理單元從該區域 /己憶體處理該程式及與該程式㈣之資料。 χ ：申请專利範圍第20項之處理裝置’其中該等處理器至少-處理器模组的該等複數個第—處理量是八個。 22·如申請專利範圍第20項之處理裝置，其中該等處理哭換組《至少-處理器模组的該等第一處理單元數量是四個。 2“:申料利範圍第20項之處理裝置，其中該等處理器模組（每個處理器模組皆只包括一個該第二處理笮元。 Κ如申請專利範圍第2G項之處理裝置，其中該等處理哭模组之每個處理器模組皆進—步包括—直接記憶體存取杈制器，該直接記憶體存取控制器響 :理單：與該第二處理單元的命令，以使介於；：：憶奴與该寺區域記憶體之間該等程式和該相關資料的傳生效。 2：)·如申請專利範圍第2 〇項之處理裝置，其中該等處理器模，之每個處理器模組皆進一步包括一區域匯流排，用於提供該等第一處理單元與該第二處理單元之間的通訊。. 26·如申請專利範園第2 〇項之處理裝置，該處理裝置進一步包括一模組匯流排，用於提供該等處理器模組之間的 -50- 本紙張尺度適用中國國家標準(CNS) A*規格(21〇χ297公釐） 574653 A8 B8 C8

574653 A8 B8 C8 申請專利範圍 •如申凊專利範圍第3 1項之處理裝置，其中該主記憶體包括複數個記憶組，並且該等記憶組控制器之每個記憶組控制杰皆控制該等記憶組之不同群組記憶組的存取。 34.如申請專利範圍第3 3項之處理裝置，其中該等記憶組數量是六十四組。如申請專利範圍第2 〇項之處理裝置，其中該等處理器模組數量是一個。 j6·如申請專利範圍第2 0項之處理裝置，其中該等處理器換組數量是兩個。 37. 如申凊專利範圍第2 〇項之處理裝置，其中該等處理器模組數量是四個。 38. 如申請專利範圍第2 〇項之處理裝置，其中该等處理器模組數量是八個。 -52- 本纸張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)