TWI520071B

TWI520071B - 在中央處理單元與圖形處理單元間分享資源之技術

Info

Publication number: TWI520071B
Application number: TW099144933A
Authority: TW
Inventors: 艾瑞克史邦格; 馬修克雷赫; 克里斯古德曼; 貝利艾帕科特安納
Original assignee: 英特爾股份有限公司
Priority date: 2009-12-31
Filing date: 2010-12-21
Publication date: 2016-02-01
Also published as: TWI620128B; US20140078159A1; JP5918739B2; JP2011175624A; CN102117260B; US10181171B2; CN102117260A; US20110157195A1; JP2014053033A; TW201614493A; JP5484305B2; US8669990B2; DE102010055267A1; TW201145172A

Description

在中央處理單元與圖形處理單元間分享資源之技術

發明的技術領域

本發明的實施例係大致有關資訊處理的技術領域，且更確切來說，本發明的實施例係有關在例如一中央處理單元(CPU)、一圖形處理單元(GPU)、或該二者之一處理器中分享運算資源的技術領域。

發明的技術背景

隨著越來越多的應用程式持續地利用多處理系統與微處理器的並行處理能力，便越來越需要根據所進行之工作的類型來分享運算資源。例如，並行程式可能利用專業特化的處理硬體，例如一GPU，而較依序執行的程式則可能使用一般用途CPU。因為並行與依序操作在現代程式較常混合進行，同時地或依序地利用CPU與GPU二種資源將可有助令用於受處理之操作或程式類型的運算資源最佳化。

發明的概要說明

依據本發明的一實施例，係特地提出一種裝置，其包含：一中央處理單元(CPU)；耦合至該CPU的一圖形處理單元(GPU)；以及用以在該等CPU與GPU之間分享執行資源的邏輯組件。

圖式簡介

係以舉例方式以及不具限制性的方式來展示出本發明實施例；在圖式中，相同/相似的元件編號表示相似的元件。在圖式中：

第1圖以方塊圖展示出一種多處理器系統，其中可使用本發明的至少一實施例；

第2圖展示出根據本發明一實施例之分享資源的一CPU與一GPU。

第3圖展示出根據本發明一實施例的一種3D圖形呈現管線。

第4圖展示出根據本發明一實施例之由多個處理器核心分享的一浮點邏輯組件。

第5圖以流程圖展示出根據本發明至少一實施例使用的多項操作。

第6圖展示出一種分享互連體系統，其中可使用本發明的至少一實施例。

第7圖展示出一種點對點互連體電腦系統，其中可使用本發明的至少一實施例。

較佳實施例的詳細說明

本發明的實施例係有關處理裝置與系統，包括可處理並行或〝傳輸量〞應用程式以及較依序執行之程式的處理裝置與系統。某些實施例包括至少二個處理單元，例如用以執行較依序程式碼的一CPU以及用以執行較並行程式碼的一GPU，例如使用並行處理技術的3D圖形、學術或金融程式，例如利用單指令多資料(SIMD)或〝包裝(packed)〞或〝向量〞指令。在一實施例中，係在不管基本處理資源(CPU或GPU)為何的狀況下撰寫一程式，且判定要使用哪些處理資源以最佳地進行該等指令或一程式執行緒的動作係由硬體本身、一中介軟體式軟體(例如一驅動程式或類驅動程式之程式)、或一虛擬機器管理器或〝超級監督程式(hypervisor)〞來進行。再者，在某些實施例中，在該CPU或GPU上執行的一執行緒或指令組可針對由該執行緒或指令進行之該等操作的多個部分而利用其他處理資源的可得處理性能，例如一CPU或GPU，進而透過一共享記憶體空間來分享資訊或者直接地透過一直接鏈結互連體來分享資訊。

各種不同類型的操作與程式可利用實施例來進行，其中係在一GPU以及一CPU之間分享多項任務，包括根據一GPU操作性〝管線〞進行操作的3D圖形呈現程式。例如，平截頭體裁剪(frustum clipping)為在許多3D圖形應用程式中用來判定哪些多邊形會在任何給定時間出現在一平截頭體中的一種操作。這可以是一項相當運算密集的操作，且未必是需要一GPU之並行資源的一項操作。因此，在一實施例中，平截頭體裁剪之該等操作中的某些或全部可被〝卸載〞到具有可得處理性能的一CPU，而該GPU同時間進行其他操作。可直接地透過一直接鏈結把該CPU進行平截頭體裁剪所需的資料從該GPU傳送到該CPU，或者可透過一共享記憶體空間，例如PCI記憶體或共享快取記憶體等。隨後可透過該共享儲存體或直接鏈結從該CPU把平截頭體裁剪的結果送回到該GPU，且該GPU可隨後繼續呈現具有來自該CPU之該等平截頭體裁剪結果的情景。在一實施例中，控制此種資源分享的動作係由該CPU及/或GPU中的邏輯組件(或位於該等二者外部的邏輯組件)來進行，而在其他實施例中，分享該等資源的動作可受到一中介軟體式軟體的控制，例如一驅動程式、超級監督程式等，以使得使用者軟體並不知悉該資源分享狀況。

本發明的實施例令軟體應用程式能在對應於多個處理器的多個儲存體結構中存取並儲存資訊。在某些事例中，當處理使用單指令多資料(SIMD)或多指令多資料(MIMD)操作的並行指令或應用程式時，此狀況具有優點，因為各個SIMD或MIMD操作可存取來自共享記憶體結構的運算元資料元件，而不必在乎它們所處的特定記憶體結構為何。這對例如3D圖形或金融應用程式的應用程式特別有幫助，因為它們同時地對大量的資訊進行操作。然而，它亦可協助某些傳統、較依序進行的CPU應用程式，以及使用儲存在多個不同位置中之資訊的應用程式。

在某些實施例中，一程式或執行緒可在含有適於在一GPU上處理之部分的該CPU上執行。於此，可在該GPU上執行的指令或執行緒可利用一種如上所述的相似方式在該GPU上執行，且可隨後把其結果送回到該CPU以供後續處理。例如，因為GPU典型地包括相當並行的浮點資源，可透過共享記憶體或直接鏈結把排程到該CPU上的浮點指令傳輸到該GPU且受到執行，而同時間該CPU正在執行其他指令。該等浮點操作可隨後透過該共享記憶體或直接鏈結把其結果送回到該CPU，且該CPU可隨後把該等結果合併到正在該程式中執行之多項操作的剩餘部分。在一實施例中，該CPU並不包含浮點資源或者包含很少的浮點資源，且實質上仰賴該GPU的浮點資源，以使得該GPU與CPU能分享該等浮點資源。

在某些實施例中，其中係根據多個片段(例如〝頁面〞)來組織或存取記憶體，存取該等頁面的該等處理器(或記憶體介面邏輯組件)可維持多個結構(例如〝分頁表〞)，以使一特定記憶體結構的頁面大小或組織能對映到該處理器或記憶體控制器的分頁大小或方案。例如，在一實施例中，其中一處理器或記憶體控制器可使一特定記憶體的實體頁面對映到一組固定數量的虛擬頁面，而該處理器或記憶體控制器可響應於存取該等頁面的一程式而開啟或關閉該等虛擬頁面。

因為在某些實施例中，各個處理器或記憶體介面可存取其他記憶體結構，其可受到另一個處理器記憶體介面控制或者對應於另一個處理器記憶體介面，該等處理器/記憶體控制器之間的某些通訊可為所欲的，以便維持各個處理器或記憶體控制器之頁狀態(開放/關閉)之間的同調性。在一實施例中，一個寬度n互連體(其中`n'可表示通道/接腳/線道/線跡的一可變數量，從1到更大)可用來在該等各種不同處理器或記憶體控制器之間傳遞頁狀態，以使得一處理器不會關閉另一個處理器可能需要存取的一記憶體頁面。藉著在存取一或多個記憶體的該等各種不同處理器(例如一GPU以及一CPU)或記憶體控制器之間傳遞頁狀態，可以避免不必要的頁面開啟或關閉操作，進而提升該等各種不同處理器或記憶體控制器之間的存取效能。再者，在某些實施例中，該寬度n互連體可具有一相對低頻寬，因此不需要過多的接腳、電力、或其他資源。

較佳地，本發明的實施例可允許一應用程式能在多個處理器上執行，而不管當中儲存有或將儲存有資料的記憶體裝置。這對圖形應用程式尤其有用，其中一圖形處理器正呈現半個螢幕的像素，而另一個圖形處理器則正呈現另半個螢幕的像素。在此情況中，落在邊界上的三角型會造成潛伏期間(當受過濾時)，因為一處理器將需要從一記憶體存取鄰近紋素(texil)資訊(對應於位於該螢幕之該對應處理器之半邊上的紋素)，而另一個處理器將需要從另一個記憶體存取鄰近紋素資訊(對應於位於該螢幕之該對應處理器之半邊上的紋素)。在此情況中，需要來自一非對應記憶體之資訊的一處理器可能需要透過該對應處理器來請求它，其將必須把它送回到提出請求的該處理器，這會耗用頻寬，因而需要該等處理器之間的一相對高頻寬匯流排。否則，軟體研發者必須對儲存資料之處設下限制，這是相當困難的，尤其是在呈現跨邊界三角形的狀況中。

在一實施例中，一分頁表使軟體提供的一位址對映到對應於用以執行傳輸量應用程式之二個處理器之二個記憶體中的位置。尤其，該分頁表使用一位址的位元來存取該分頁表的多個分錄，其包含儲存在該等二個記憶體之交替位置中之資訊的多個位址。因此，當軟體儲存或存取該資訊時，該分頁表自動地使該存取路由到適當記憶體，而提出請求的軟體(OS或應用程式)不需要瞭解或考量該資訊實際上所儲存的位置。於此，可利用一種交替方式以突發速度從任一記憶體存取資訊，進而最大化各個處理器之記憶體介面的頻寬並且避免一相對高頻寬匯流排支援跨記憶體/處理器存取。

在某些實施例中，多個處理器(例如CPU與GPU)可藉著以一種有效率方式來管理請求來對一請求應用程式提供資料，例如藉著使用一同調過濾器。在一實施例中，一同調過濾器可包括一或多個同調表，或對應於且可由一或多個處理器存取的其他結構，以使得在一處理器上執行之一應用程式所提出之針對資料的一請求可使該處理器存取一圖表，該表指出目前可由另一個處理器(例如，面對面地在該處理器之快取記憶體、緩衝器或其他結構中，目前在該處理器之對應記憶體中開啟的一頁面等)存取的資料位址。如果該受請求資料的最近版本駐存在另一個處理器的快取記憶體中，接收到該請求的該處理器可對另一個處理器發出信號，以把該受請求資料送回到該提出請求的應用程式，或者接收到該請求的該處理器可透過該寬度n處理器間互連體而從該處理器取回該資料。在某些實施例中，各個處理器可包括多個處理器，在此狀況中，各個處理器可對應於一處理器插座。

在某些實施例中，上述技術可應用到具有二個、四個、八個、或更多個處理器或核心的處理器或系統，該等處理器或核心可為相同類型(CPU)或為不同類型(CPU與GPU)，或者上述技術可應用到其他加速器。再者，本發明的實施例可應用到數個種不同系統或處理組態或應用程式，包括一般用途電腦、圖形遊戲控制台、繪圖卡應用程式等。在一實施例中，本文所述的技術包含用以執行3D圖形或其他應用程式的一或多個處理器，例如金融應用程式、醫療應用程式、成像應用程式等。在其他實施例中，本文所述的技術可結合用以執行依序或較傳統工作負荷的一般用途CPU來使用。在其他實施例中，本文所述的技術可結合混合處理器來使用，其係設計為可執行傳統CPU工作負荷與傳輸量應用程式二種，例如包括傳統CPU與圖形特定邏輯組件(〝CPU+GPU〞)的處理器。在一實施例中，本文所述的技術可結合具有數個CPU處理器核心的一或多個處理器來使用、能夠進行SIMD指令、與並行應用程式特定邏輯組件一起耦合至一互連體，例如圖形紋理取樣邏輯組件。

第1圖以方塊圖展示出一種微處理器，其中可使用本發明的至少一實施例。第1圖展示出一種處理器，其可用於傳統CPU應用程式、傳輸量應用程式(例如3D圖形應用程式)、或傳統CPU與傳輸量應用程式的一組合。處理器100包括數個處理核心100-1至100-N、專屬傳輸量應用程式硬體110(例如圖形紋理取樣硬體)、記憶體介面邏輯組件120，其沿著環狀互連體130組構。在某些實施例中，處理器100可包括一或多個最後階層快取記憶體135，其包括來自各個核心100-1至100-N中之快取記憶體101-1至101-N的資訊。在一實施例中，一或多個處理核心100-1至100-N能夠進行SIMD操作。

在一實施例中，該等CPU可藉著透過共享記憶體或直接鏈結(或環狀鏈結，在展示於第1圖的實施例中)來傳輸該等操作而各在該GPU硬體上進行某些已排程操作。相反地，可利用相似的機構把排程到該圖形硬體上的多項操作傳輸到一可得CPU。

在某些實施例中，可從對應於另一個處理器(未展示)的其他記憶體存取例如圖形紋理的資訊或需要相對大量記憶體頻寬的其他資訊，而應用程式軟體不需要知悉或考量當中儲存有該資料的該記憶體。在某些實施例中，處理器100所包括的記憶體控制器可多於或少於展示於第1圖中的記憶體控制器。再者，第1圖的記憶體控制器可位於處理器100內部或者位於處理器100外部。

第2圖展示出根據本發明一實施例之分享資源的一CPU與一GPU。在一實施例中，CPU 201主要地用來執行較依序程式，而GPU 205則用來執行較並行的程式。在一實施例中，可利用共享儲存體210在該等CPU與GPU之間傳輸或〝移轉〞排程到該CPU或該GPU上的指令。在一實施例中，共享儲存體為列舉為PCI共享記憶體的一記憶體區域，其中該CPU或GPU可寫入並讀取與該等經移轉指令相關的資訊。例如，在當中圖形操作係由該GPU執行的一實施例中，如果該CPU為可得的，可藉著把欲由該CPU執行的該等指令與資料寫入到該共享記憶體、透過一中斷或介於該等CPU與GPU之間的其他直接鏈結來表示該CPU應該從該共享記憶體資源讀取資訊並且進行其中指出的該等操作，把該圖形操作的一部分傳輸到該CPU以供處理。在一實施例中，該GPU可隨後繼續處理其他操作，而該CPU同時正在處理該等經傳輸任務。當該CPU完成該等任務時，它可把其結果寫入到該共享記憶體，並且對該GPU指出可透過一中斷或直接通訊鏈結而取得該等結果，以使得該GPU可讀取該等結果，並且把它們合併到該圖形呈現管線中。在一實施例中，可以進行該共享記憶體資源的反向使用方式，其中該CPU正在進行操作，而可由該GPU來進行該等操作中的某些。

在一實施例中，直接鏈結215係用以分享欲在該等CPU與GPU之間傳輸的該資訊(例如並不使用共享記憶體)，及/或對彼此發訊，表示該共享記憶體中有可得資訊。在一實施例中，該直接鏈結係用以分享頁面資訊，以使一處理器不會關閉另一個處理器可能需要的一頁面。在一實施例中，在一CPU以及一GPU之間分享資源的狀況係由該CPU中的邏輯組件、該GPU中的邏輯組件、或該等二者中的邏輯組件、或位於系統中他處的邏輯組件來控制。在某些實施例中，分享資源的狀況係由中介軟體、一驅動程式或類驅動程式軟體、或虛擬機器管理器或超級監督程式來控制。較佳地，可使用多個實施例，而該應用程式軟體或OS不必知悉分享資源的方式。在一實施例中，一圖形API的部分可控制CPU與GPU資源的分享方式。尤其，知悉基本資源的一API可根據在其圖形呈現管線中執行的該等操作來利用該等資源。

第3圖展示出根據本發明一實施例的一種圖形呈現管線。在一實施例中，第3圖的該圖形呈現管線包括輸入裝配器階段301、頂點著色器階段305、幾何著色器階段310、串流輸出階段315、光柵化器階段320、像素著色器階段325、以及輸出合併器階段330。同樣地，圖形呈現管線可利用一共享記憶體資源，例如位於共享記憶體資源335中的緩衝器。

在一實施例中，可依據欲執行的該等操作以及硬體資源的可得性，把第3圖展示的一或多個圖形呈現管線階段或一或多個圖形呈現管線階段的一部分傳輸到一CPU資源或另一個GPU資源。例如，在一實施例中，該頂點著色器階段係由具有可得硬體資源的一CPU來執行，藉著由該API對該CPU傳輸或排程指令，例如利用該共享記憶體資源。一旦該CPU已經完成該等操作，它可隨後利用該共享記憶體資源把其結果傳輸到該GPU。在一實施例中，該API或其他軟體可把指令排程欲在該CPU上執行以及某些指令欲在該GPU上執行，其中該等CPU與GPU各具有其本身的排程邏輯組件或一共享排程邏輯組件與一共享資源，例如浮點邏輯組件。在一實施例中，可把整數運算排程到該整數邏輯組件(其可位於一CPU中)上，並且可把浮點運算排程到該浮點邏輯組件(其可位於該GPU中)上。

第4圖展示出本發明的一實施例，其中一CPU與一GPU分享浮點與整術資源。尤其，第4圖展示出處理器400，其具有用以擷取指令的擷取邏輯組件401、用以解碼指令的解碼邏輯組件405、用以儲存該等指令使用之資料的L1資料快取記憶體410a至b、欲由多個代理器使用的共享L2快取記憶體415、以及共享L3快取記憶體420。此外，第4圖展示出用以進行整數指令的整數執行資源425a至h，以及用以進行浮點指令的浮點執行資源430a至b。再者，在一實施例中，該等浮點執行資源以及該等整數執行資源具有其本身專屬的排程邏輯組件435a至b以及440。在一實施例中，該等浮點資源包括128位元的浮點乘累加(FMAC)邏輯組件。在某些實施例中，該等排程資源係至少部分地為共享的。

在一實施例中，需要該等浮點資源的指令可利用一浮點排程器予以排程到浮點執行單元上，而需要該等整數執行資源的指令可利用一整數排程器予以排程到整數執行單元上。在一實施例中，一超級監督程式、一中介軟體、驅動程式或一API可用浮點排程器邏輯組件把需要浮點資源之一程式的多個部分排程到浮點執行單元上，同時地或依序地由整數排程器把整數指令排程到該整數執行資源上。在一實施例中，第4圖展示出一CPU；在其他實施例中，它展示出一GPU；且在其他實施例中，第4圖為一CPU以及一GPU。

第5圖以流程圖展示出根據本發明至少一實施例使用的多項操作。在操作501中，係把指令排程到一GPU或一CPU上。在操作505中，排程到一GPU或一CPU上的指令係利用一共享記憶體或直接鏈結而藉著把資訊寫入到該共享記憶體或直接鏈結來分享資訊。在操作510中，該共享資訊的一使用者讀取來自該共享記憶體或直接鏈結的該資訊。在其他實施例中，可執行其他操作。

例如，第6圖展示出一種共享匯流排電腦系統(例如前端匯流排(FSB)電腦系統)，其中可使用本發明的一實施例。處理器601、605、610、或615中的任一個可包括非對稱核心(在效能、功率、操作電壓、時脈速度或ISA方面有差異)，其可從位於該等處理器核心623、627、633、637、643、647、653、657中之一或與該等處理器核心中之一相關聯的任何本地第一階層(L1)快取記憶體620、625、630、235、640、645、650、655存取資訊。再者，任何處理器601、605、610、或615可經由晶片組665從該等共享第二階層(L2)快取記憶體603、607、613、617中之任一個或從系統記憶體660存取資訊。

本發明的實施例可存在於第6圖所展示出之該等處理器或代理器的任一個中。例如，可使邏輯組件619合併到處理器623、627、633、637、643、647、653、657中之任何一個或全部中，以進行至少一實施例的面向。尤其，邏輯組件619可用來檢測、發送、或解譯來自該系統中之其他代理器的信號，以判定是否要開啟或關閉一記憶體頁面，依據一頁面目前是否正由另一個代理器存取而定。在其他實施例中，係使邏輯組件619分佈在多個代理器之間。在其他實施例中，邏輯組件660可包括軟體、硬體、或該等的某些組合。

除了展示於第6圖的該FSB電腦系統，可結合本發明的各種不同實施例來使用其他系統組態，包括點對點(P2P)互連體系統以及環狀互連體系統。例如，第7圖的該P2P系統可包括數個處理器，其中僅以舉例方式展示出二個處理器770與處理器780。處理器770與處理器780可各包括本地記憶體控制器中樞(MCH)772與782，其用以和記憶體72與記憶體74連接。處理器770與處理器780可經由點對點(PtP)介面750而使用PtP介面電路778與788來交換資料。處理器770與處理器780可各經由個別PtP介面752與754而使用點對點介面電路776、794、786、798與晶片組790交換資料。晶片組790亦可經由高效能圖形介面739與高效能圖形電路738交換資料。

本發明的實施例可包括在第7圖所展示出的任何處理器或代理器中。例如，可使邏輯組件799在處理器770與處理器780中的任一個或二個中合併，以進行至少一實施例的面向。尤其，邏輯組件799可用來檢測、發送、或解譯來自該系統中之其他代理器的信號，以判定是否要開啟或關閉一記憶體頁面，依據一頁面目前是否正由另一個代理器存取而定。在其他實施例中，係使邏輯組件799分佈在多個代理器之間。在其他實施例中，邏輯組件799可包括軟體、硬體、或該等的某些組合。

許多不同類型的處理裝置可受惠於使用該種程序重新配置技術。例如，處理單元600-1至600-N可為一般用途處理器(例如微處理器)，或者可為用於一多核心(位於一單一晶粒上)微處理器的微處理器核心。替代地，數位信號處理器、圖形處理器、網路處理器、或可用於具有多個並行單元或核心之一系統中的任何類型特殊用途處理器可受惠於多個處理單元之間的感熱式(或電力)激發程序轉移。該處理單元或處理器可為相同的，或者可具有至少部分重疊功能。換言之，各個處理單元具有某些共同的指令或命令組，以使得可以在不只一個處理單元或處理器上執行至少某些(若非全部)程序。在其他實施例中，該處理單元可為非對稱的，因此它們可具有不同效能性能、電晶體數量、功率耗用或感熱特色、時脈頻率、或ISA中的任一種或該等的一組合。

為了能促進處理並且送回受請求資料，至少一實施例可包括用以判定取回一應用程式所請求之資料之最佳(例如最快)方式的一同調過濾器。例如，在一實施例中，一同調過濾器可包括一同調表，該同調表的分錄包括有關目前可由該系統中任何一或多個處理器存取之資料的資訊。在一實施例中，用於一處理器的該同調表包括一位址清單，其指出在一快取記憶體、緩衝器、或該系統中另一個處理器之其他儲存體結構中可能可得的資料，以使得當一應用程式請求資料時，該處理器可首先檢查其同調表，以確認另一個處理器是否目前擁有該資料。若否，可由服務該請求的該處理器藉著跨越該寬度n處理器間互連體來取回該資料的方式來取回該資料。在一實施例中，因為該同調表僅會指出處理器之快取記憶體/緩衝器任一個中之可得資料的某些(的確，該同調表可能在所包含的資料量部分不同)，可以縮減該寬度n處理器間互連體上的訊務，或者可根據該(等)同調表的資訊或大小而至少部分地控制該訊務。

第12圖展示出一種當中可使用本發明一實施例的系統，包括一同調過濾器。在第12圖中，在處理器1205上執行的應用程式或執行緒1240可藉著對處理器1205提供一位址來請求資料。處理器1205可隨後存取儲存在該處理器中或可由該處理器存取之某些記憶體中的同調表1245，以判定該受請求資料是否目前位於一快取記憶體中或位於處理器1200的一緩衝器中。例如，如果該同調表指出該受請求資料目前在處理器1200中可得，處理器1205可透過互連體1208從處理器1200取回該資料，進而以最方便方式對該程式提供該資料。在一實施例中，該同調表係參照應用程式或執行緒1240對處理器1205提供該位址的一部分。再者，在至少一實施例中，一不同表(或相同表)對應於該系統中的各個處理器，且係藉由針對在另一個處理器中發現的各個受請求位址在該表中產生一分錄來維持。再者，各個分錄可包括指出並未在另一個處理器中發現該資料之狀況的資訊，或者可全然地移除該分錄。各種不同同調表維持方案與演算法可用來追蹤欲透過互連體1208在該等處理器之間分享的資訊。

可藉由儲存在一機器可讀媒體(代表該處理器中的各種不同邏輯組件)上的表述資料來實行至少一實施例的一或多個面向，其受一機器讀取時將使該機器製成只能用以執行本文所述之該等技術的邏輯組件。該種表述方式，稱為〝IP核心〞，可儲存在一有形、機器可讀媒體(〝磁帶〞)上，並且可對各種不同顧客或製造設備提供該媒體，以載入到實際上製造該邏輯組件或處理器的製程機器中。

因此，已經解說了一種用以引導微架構式記憶體區域存取的方法與裝置。要瞭解的是，上述的說明僅用於展示目的而不具有限制性。在閱讀並了解的上述說明之後，熟知技藝者將可了解多種其他實施例。本發明的範圍應該因此參照以下的申請專利範圍以及該等申請專利範圍之等效物的完整範圍來判定。

100、400、601、605、615、610、670、680．．．處理器

100-1~N．．．核心

101-1~N．．．快取記憶體

110．．．專屬傳輸量應用程式硬體

120．．．記憶體介面邏輯組件

130．．．環狀互連體

135．．．最後階層快取記憶體

201．．．CPU

205．．．GPU

210．．．共享儲存體

215．．．直接鏈結

301．．．輸入裝配器階段

305．．．頂點著色器階段

310．．．幾何著色器階段

315．．．串流輸出階段

320．．．光柵化器階段

325．．．像素著色器階段

330．．．輸出合併器階段

335．．．共享記憶體資源

401．．．擷取邏輯組件

405．．．解碼邏輯組件

410a-b．．．L1資料快取記憶體

415．．．共享L2快取記憶體

420．．．共享L3快取記憶體

425a-h．．．整數執行資源

430a-b．．．浮點執行資源

435a-b、440．．．排程邏輯組件

501~510．．．操作

62、64．．．記憶體

600-1~600-N．．．處理單元

603、607、613、617．．．共享第二階層(L2)快取記憶體

614．．．I/O裝置

618．．．匯流排橋接器

619．．．邏輯組件

620、625、635、640、645、650、655．．．本地第一階層(L1)快取記憶體

622．．．鍵盤/滑鼠

623、627、643、647、653、657、674、684．．．處理器核心

624．．．音訊I/O

626．．．通訊裝置

628．．．資料儲存體

630．．．程式碼

638．．．高效能圖形電路

639．．．高效能圖形介面

652、654．．．PtP介面

660．．．系統記憶體

672、682．．．記憶體控制器中樞(MCH)

676、678、686、688、694、698．．．點對點介面電路

690．．．晶片組

692、696．．．介面