TWI605342B

TWI605342B - 共享虛擬記憶體的技術

Info

Publication number: TWI605342B
Application number: TW102129116A
Authority: TW
Inventors: 賈言斯Ｎ拉歐; 羅納德Ｗ席瓦斯; 安柯Ｎ夏哈
Original assignee: 英特爾公司
Priority date: 2012-08-17
Filing date: 2013-08-14
Publication date: 2017-11-11
Also published as: JP2018198086A; JP6559628B2; US9779472B2; CN107025183B; CN104471554A; US20160328823A1; JP2017004556A; TW201702881A; CN104471554B; CN107025183A; DE112013007742B3; KR20150031293A; DE112013007780B3; JP2015526806A; TWI624760B; DE112013004079T5; JP2018139128A; TW201843592A; JP6545861B2; TW201418983A

Description

共享虛擬記憶體的技術

發明領域

本發明大體上係有關中央處理單元(central processing unit,CPU)與圖形處理單元(graphics processing unit,GPU)之間的共享虛擬記憶體。更具體而言，本發明係有關在CPU與GPU之間共享虛擬記憶體的技術。

發明背景

近代的I/O裝置係可具有可與許多CPU之電腦處理能力相匹敵的電腦處理能力。因此，係可將一部分傳統上由CPU所進行的運算工作卸載到I/O裝置(例如運算裝置的GPU)上，以藉此增進CPU之效能。

依據本發明之一實施例，係特地提出一種用於共享虛擬記憶體的方法，其包含下列步驟：在一個實體記憶體內分配一個表面；創造一個CPU虛擬位址空間；在一個CPU頁表內將該表面對映至該CPU虛擬位址空間；創造等效於該CPU虛擬位址空間的一個GPU虛擬位址空間；在一個GPU頁表內將該表面對映至該GPU虛擬位址空間；以及釘扎該表面。

依據本發明之另一實施例，係特地提出一種運算裝置，其包含：一個中央處理單元(CPU)，其適於執行經儲存指令；一個GPU，其包括有一個GPU頁表；儲存指令的一個儲存裝置，，該儲存裝置包含有在由該CPU執行時適於進行下列動作的處理器可執行程式碼：在一個實體記憶體內分配一個表面；創造一個CPU虛擬位址空間；在一個CPU頁表內將該表面對映至該CPU虛擬位址空間；創造等效於該CPU虛擬位址空間的一個GPU虛擬位址空間；將該表面對映到該GPU頁表內的該GPU虛擬位址空間；及釘扎該表面。

依據本發明之又一實施例，係特地提出一種具有儲存在內之指令的包含至少一個機器可讀取媒體的機器可讀取媒體，該等指令在於一個運算裝置上被執行之後會致使該運算裝置進行下列步驟：在一個實體記憶體內分配一個表面；產生一個CPU虛擬位址空間；在一個CPU頁表內將該表面對映至該CPU虛擬位址空間；產生等效於該CPU虛擬位址空間的一個GPU虛擬位址空間；將該表面對映到該GPU頁表內的該GPU虛擬位址空間；以及釘扎該表面。

100‧‧‧運算裝置

102‧‧‧中央處理單元(CPU)

104‧‧‧記憶體；記憶體裝置

106‧‧‧匯流排

108‧‧‧圖形處理單元(GPU)

110‧‧‧裝置驅動器

112‧‧‧多階快取記憶體

114‧‧‧最末階快取記憶體(LLC)

116‧‧‧第2階快取記憶體

118‧‧‧第1階快取記憶體

120‧‧‧儲存體；儲存裝置

122‧‧‧表面

124‧‧‧應用程式

126‧‧‧記憶體管理單元(MMU)

128‧‧‧中央處理單元(CPU)頁表

130‧‧‧圖形處理單元(GPU)頁表

132‧‧‧輸入/輸出(I/O)裝置介面

134、706‧‧‧輸入/輸出(I/O)裝置

136‧‧‧顯示介面

138‧‧‧顯示裝置

140‧‧‧網路介面控制器(NIC)

142‧‧‧網路

200‧‧‧統一記憶體架構(UMA)

202A~202D‧‧‧實體記憶體位置；實體位置

204A~204D‧‧‧虛擬記憶體位址；虛擬位址

206A~206D‧‧‧實體位址

300、400‧‧‧方法

302~312、402~406‧‧‧方塊

500‧‧‧有形非暫時性電腦可讀取媒體

502‧‧‧處理器

504‧‧‧電腦匯流排

506‧‧‧表面分配模組

508‧‧‧虛擬化模組

510‧‧‧對映模組

512‧‧‧釘扎模組

600‧‧‧系統

602‧‧‧平臺

604‧‧‧顯示器

606‧‧‧內容服務裝置

608‧‧‧內容遞送裝置

610‧‧‧導航控制器

612‧‧‧晶片組

614‧‧‧圖形子系統

616‧‧‧無線電設備

618‧‧‧使用者介面

700‧‧‧裝置

702‧‧‧外殼

704‧‧‧顯示器

708‧‧‧天線

712‧‧‧導航特徵

圖1是可根據一些實施例使用的一個運算裝置之方塊圖；圖2A和2B是可用來根據一些實施例實施用於共享虛擬記憶體之程序的統一記憶體架構(unified memory architecture,UMA)之示意圖；圖3是一個處理程序流程圖，其根據一些實施例，示出一種用於共享虛擬記憶體的方法；圖4是一個處理程序流程圖，其根據一些實施例，示出一種用於處理共享虛擬記憶體的方法；圖5是一個方塊圖，其根據一些實施例，示出儲存有用於共享虛擬記憶體之程式碼的有形非暫時性電腦可讀取媒體；圖6是一個示範系統的方塊圖，用以實施共享實體記憶體；並且圖7是可就中體現圖6之系統的一個小形狀因子裝置的示意圖。

貫通本揭露內容與圖式，係使用相同的號碼來指涉相似的部件和特徵部。100系列的號碼係指涉初現於圖1的特徵；200系列的號碼係指涉初現於圖2的特徵。

較佳實施例之詳細說明

目前的作業系統和圖形介面係將GPU作為I/O裝置來管理，而非將GPU作為類似於CPU的處理器來管理。藉由將GPU作為I/O裝置來管理，CPU和GPU會擁有具有各別實體位址域和各別虛擬定址體制的實體記憶體。當將運算工作卸載至GPU上時，資料會從CPU的實體位址域被複製到GPU的實體位址域。GPU可重組這些資料或是組配編譯器來遍歷資料結構。此外，GPU亦可利用它自己的虛擬定址體制來取用所複製的資料。

藉由將一部分傳統上由運算裝置之CPU所進行的運算工作卸載到運算裝置之GPU上，係可增進CPU之效能。為了將工作卸載到GPU上，係可在CPU之實體記憶體與GPU之實體記憶體之間傳輸資料。係可利用適用於CPU的技術來組織這些資料，例如樹狀結構和鏈接串列。樹狀結構和鏈接串列是以指標為基底的資料結構，其中，CPU係利用在諸多節點處的指標來遍歷這個樹狀結構或鏈接串列。例如，一個鏈接串列是一種包括有一群節點的資料結構。各個節點含有兩個欄、一個整數值和至串列中之下一個節點的一個鏈接。最後一個節點係鏈接至表示出此串列之終結的一個終止器。

為了遍歷鏈接串列，GPU典型上會重組資料或是組配GPU編譯器來遍歷此串列。GPU可亦參與穿過這個以指標為基底之結構的指標追逐，以在資料被複製到GPU記憶體之後取用這些資料。指標追逐係指遍歷指標之許多階層以取用所欲指標的處理程序。在將運算工作卸載至GPU時所發生的這些資料組織行為、編譯器組配行為、以及指標追逐行為可能會減少將工作卸載至GPU所獲得的任何有效效益。因此，於本文中所描述的數個實施例係有關在一個運算裝置的CPU與GPU之間共享虛擬記憶體的技術。係可共享虛擬記憶體而無須重組資料、組配GPU編譯器來消耗資料、或作指標追逐。

在許多實施例中，UMA藉由對CPU和GPU都提供相同的虛擬記憶體和相同的實體記憶體，而為在CPU與 GPU之間的共享虛擬記憶體做好準備。在一些實施例中，係可使實體記體在CPU與GPU之間被分割。此外，實體記憶體可係由運算裝置之作業系統所分配的一個經分頁系統記憶體。另外，在一些實施例中，CPU和GPU實際上係位在同一個晶粒上。因此，CPU與GPU可共享實體記憶體內所含有的資料，而無須將資料從GPU的位址空間複製到CPU的位址空間、或將資料從CPU的位址空間複製到GPU的位址空間。這可減少將運算工作從CPU卸載到GPU的成本，例如，減少為了在CPU與GPU之間共享資料所造成的時間和電力消耗。

在下面的說明與申請專利範圍中，可能有使用「耦接」和「連接」等詞語及其衍生詞。應瞭解，並不欲使這些詞語彼此同意。而是，在一些特定實施例中，「連接」可係用來指出二或更多個元件係實體或電氣性地彼此連接。「耦接」可係意味著二或更多個元件有直接的實體或電氣性接觸。然而，「耦接」可亦意味著二或更多個元件並非與彼此直接接觸但仍彼此協作或互動。

係可將一些實施例實施為硬體、韌體和軟體其中一者或一種組合。亦可將一些實施例實施為儲存在機器可讀取媒體上的指令，這些指令可由運算平臺讀取以進行於本文中所述的操作。機器可讀取媒體可包括用於以可由機器(例如電腦)讀取之格式儲存或發送資訊的任何機構。例如，機器可讀取媒體可包括唯讀記憶體(read only memory,ROM)、隨機存取記憶體(random access memory, RAM)、磁碟儲存媒體、光學儲存媒體、快閃記憶體裝置、或是電氣、光學、聲學或其他格式的傳播信號，例如載波、紅外線信號、數位信號、或是發送和/或接收信號的介面，在此僅寥舉數例。

一個實施例是一個實作或範例。於本說明書中對「一實施例」、「一個實施例」、「一些實施例」、「諸多實施例」或「其他實施例」之指涉意指配合此實施例所說明的特定特徵、結構或特性係被包括在本發明之至少一些實施例中，而不必然是所有的實施例。於文中各處出現的「一實施例」、「一個實施例」或「一些實施例」並不必然全係指相同的實施例。來自一個實施例的元件或觀點係可與另一個實施例的元件或觀點組合。

並非於本文中所描述和例示的所有部件、特徵、結構、特性等等都必須要是被包括在一個特定實施例或數個實施例中。若本說明書載明一個部件、特徵、結構或特性，例如，「可」、「可能」、「可以」或「可係」被包括，則那個特定部件、特徵、結構或特性並不一定有被包括。當本說明書或申請專利範圍指涉到「一」或「一個」元件時，這並不表示此元件只有一個。當本說明書或申請專利範圍指涉到「一個額外的」元件時，這並不排除此額外元件係有多於一個的可能性。

應注意，雖然已參涉特定的數個實作來說明一些實施例，但根據一些實施例的其他實作也是有可能的。此外，於圖式中所例示和/或於本文中所描述的電路元件或其他特徵的安排和/或順序也並不一定要是以所例示和描述的這種特定方式來安排。根據一些實施例的許多其他安排也是有可能的。

在示於圖式中的各個系統中，在一些情況中，這些元件可各係擁有相同的指參號碼或不同的指參號碼，用以暗示所呈現的這些元件可能是不同的和/或類似的。然而，一個元件可能會具有足夠的彈性來擁有不同的實施方式、或與於本文中所示出或描述的一些或所有的系統一起作業。於圖式中所示出的諸多元件可係相同或不同的。將何者稱作第一元件並將何者叫作第二元件是隨意的。

圖1是可根據一些實施例使用的一個運算裝置100的方塊圖。運算裝置100可係，例如，膝上型電腦、桌上型電腦、平板電腦、行動裝置、或是伺服器，在此僅寥舉數例。運算裝置100可包括有適於執行所儲存指令的一個中央處理單元(CPU)102、以及儲存有由CPU 102所執行之指令的一個記憶體裝置104。此CPU可藉由一個匯流排106而耦接至記憶體裝置104。另外，CPU 102可係一個單核心處理器、一個多核心處理器、一個運算叢集、或任何數量的其他組態。此外，運算裝置100可包括有多於一個的CPU 102。可利用由CPU 102所執行的指令來實施共享虛擬記憶體。

運算裝置100可亦包括有一個圖形處理單元(GPU)108。GPU 108是在運算裝置100內的一個輸入/輸出裝置。如圖所示，CPU 102可透過匯流排106而耦接至GPU 108。然而，在一些實施例中，GPU 108係位在運算裝置100內之與CPU 102相同的晶粒上。如此一來，CPU 102與GPU係有實體連接，而使得可省略在CPU 102與GPU 108間之經由匯流排106所作的連接。此外，在一些實施例中，CPU 102和GPU 108可係被包括在運算裝置100的一個統一記憶體架構中，如針對圖2所論述的。

係可組配GPU 108來在運算裝置100中進行任何數量的圖形操作。例如，GPU 108可受組配來呈現或調處要對運算裝置100之使用者顯示的圖形影像、圖框、影片、或其他諸如此類者。在一些實施例中，GPU 108包括有數個圖形引擎(未示於圖中)，其中，各個圖形引擎係受組配來進行特定圖形工作、或執行特定類型的工作負載。

記憶體裝置104可包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、快閃記憶體、或任何其他適當的記憶體系統。例如，記憶體裝置104可包括動態隨機存取記憶體(dynamic random access memory,DRAM)。記憶體裝置104可包括有一個裝置驅動器110，其受組配來執行用於實行共享虛擬記憶體的指令。裝置驅動器110可係軟體、應用程式、應用程式碼、或其他諸如此類者。在一些實施例中，裝置驅動器110是一個使用者模式驅動器。

記憶體裝置104亦包括一個多階112快取記憶體，其包括一個最末階快取記憶體(last level cache,LLC)114、一個第2階快取記憶體116、和一個第1階快取記憶體118。雖然係使用多階快取記憶體112來作例示，但在運算裝置100中係可包括任何快取記憶體。多階快取記憶體112可係一個較小較快速的記憶體，其儲存CPU 102之常用資料的一個較小子集。較大的資料集合可係儲存在一個儲存裝置120中。儲存裝置120是一個實體記憶體，例如一個硬碟、一個光學驅動器、一個隨身碟(thumbdrive)、一個驅動器陣列、或其中之任何組合。儲存裝置120可亦包括遠端儲存裝置。CPU 102取用儲存在儲存裝置120中之資料所需的時間量相對於CPU 102取用記憶體104中之多階快取記憶體112所需的時間量而言可係較為緩慢。

在一些實施例中，LLC 114係在CPU 102與GPU 108之間共享，而可對GPU 108隱藏第2階快取記憶體116和第1階快取記憶體118，使得GPU 108無法直接取用被貯藏在第2階快取記憶體116和第1階快取記憶體118中的資料。然而，LLC 114可讀取和寫入儲存在第2階快取記憶體116和第1階快取記憶體118中的資料。因而，當GPU 108請求被貯藏在第2階快取記憶體116或第1階快取記憶體118中的資料時，LLC 114能夠從第2階快取記憶體116和第1階快取記憶體118取回資料以由GPU 108處理。如此一來，LLC 114確保了運算裝置100內的資料同調性。當於本文中使用時，同調性係指當中由CPU 102和GPU 108所取用的資料是相同的這種狀態。因此，CPU 102將藉由確保資料與LLC 114同調而確保來自儲存裝置120的資料係忠實反映於LLC 114、第2階快取記憶體116和第1階快取記憶體118中，以使得能夠與GPU 108共享正確的資料。

此外，在一些實施例中，CPU和GPU係可取用任何階層的記憶體。然而，來自其他階層之記憶體的資料可能會是陳舊的，而在LLC 114中含有最新的資料。另外，在一些實施例中，CPU和GPU可係運用任何可相互取用儲存位置來進行共享虛擬記憶體。任何可相互取用儲存位置可包括但不受限於記憶體裝置104之任何區域、儲存體120之任何區域、網絡式儲存位置、隨身碟、或其中之任何組合。

儲存裝置120包括有一個表面122以及受組配來在運算裝置100上運行的任何數量的應用程式124。表面122是實體記憶體之由裝置驅動器110所分配的一個指定部份。此表面可基於在表面122之實體記憶體的內容上所進行的處理動作而受到更新。在一些實施例中，當一個應用程式124被CPU 104執行時，應用程式124可請求使裝置驅動器110分配一個表面。另外，運行於CPU 102上的應用程式124可藉由指明表面122之所欲大小和特性而視這些應用程式124所要求的記憶體分配情形而定地組配表面122。此外，亦可，例如，響應於來自運算裝置100之CPU 102的輸入而進行表面分配。另外，在一些實施例中，此表面係被標記為可作LLC快取。藉由將表面122指訂為可作LLC快取，從表面122內之位置所快取出的資料可被貯藏到LLC 114中、並且因而可由CPU 102和GPU 108從LLC中取用。

在一些實施例中，裝置驅動器可通知一個核心模式驅動器，使其知曉此表面會是一個共享虛擬記憶體表面。此核心模式驅動器會將CPU虛擬記憶體位址保留給表面。當核心模式驅動器將表面調頁到圖形記憶體中時，核心模式驅動器可將此調頁動作從原始圖形虛擬位址重新選路到等於CPU位址的圖形虛擬位址。此外，在一些實施例中，虛擬圖形位址是只屬於給定應用程式的一個私有圖形位址空間。

可使用一個記憶體管理單元(memory management unit,MMU)126來管理對儲存在表面122內之資料的取用。MMU 126可將CPU 102和GPU 108之虛擬位址空間劃分成多個位址空間頁面。CPU 102和GPU 108各擁有相同的虛擬位址空間。此虛擬位址空間藉由將執行於一個運算系統內的許多應用程式124隔離到一個特定虛擬空間子集，而能夠對在表面122內所含有的資料提供保護。透過對虛擬位址空間的使用，一個應用程式124將不會取用另一個應用程式124的資料。因此，MMU 126包括一個CPU頁表128和一個GPU頁表130。CPU頁表含有CPU被對映到表面122內之實體位址位置的虛擬位址。相似地，GPU頁表含有GPU被對映到表面122內之實體位址位置的虛擬位址。GPU的這些虛擬位址與CPU的那些虛擬位址等效。因此，在於本文中所描述的共享虛擬記憶體程序中，CPU頁表128可包括有從CPU虛擬位址空間到實體位址空間的對映。實體位址空間對應於表面122內的實體位置。同樣地，GPU頁表130可包括有GPU虛擬位址空間到同一個實體位址空間的對映。

在許多實施例中，來自CPU頁表128的虛擬記憶體位址和來自GPU頁表130的圖形虛擬記憶體位址係經由一種翻譯程序而被對映到表面122的實體記憶體頁面。係可使用此翻譯程序來將任何虛擬記憶體位址轉換成對應的實體位址。例如，係可經由頁表步行來進行此翻譯程序，此頁表步行可係以用於將在一個頁表內的虛擬記憶體位址轉換成頁表內之實體記憶體位址的一個特定翻譯表為基礎所進行。此外，在一些實施例中，係可使用一個翻譯側首緩衝器(translation look-aside buffer)來將CPU和GPU的虛擬位址翻譯成其個別頁表內的實體位址空間。

在已進行翻譯或轉換程序之後，表面122可被釘扎(pin)。釘扎表面意指保護此表面以使得實體位置和對應的實體位址不變。因此，釘扎表面122可確保在虛擬位址空間與實體位址空間之間的一種「硬式」對映。在位址空間之間的此種硬式對映是一種不在表面已被釘扎之後改變的對映。若表面未被釘扎，則可能會產生頁面錯誤，或者是，可能會因為表面的實體位置移位而處理到錯誤的資料。

在一些實施例中，一個應用程式124可於CPU 102上執行，並請求一個表面(例如表面122)以進行操作，例如處理資料。CPU 102可將這些操作移交給GPU 108。由於兩個虛擬記憶體是等效的，並且頁表已被對映至表面122，所以GPU可藉由取用表面而開始對被CPU 102卸載的這些操作的立即執行，而無須將資料複製過去另一個位址空間。此外，這些資料也並不需要被重組。當這些操作已由CPU 102完成時，GPU 108可對CPU 122發信號，示意操作已完成。CPU 102可接著繼續處理資料，而無須將資料複製回原始位址空間。

當應用程式124所請求的這些操作係由GPU 108進行時，可能會發生對表面122的修改。根據本文中所描述的這個共享虛擬記憶體程序，這種對表面122所作的修改對CPU 102來說是完全可見的。因此，資料係可在GPU 108與CPU 102之間共享，而無須將資料從GPU 108複製到CPU 102或從CPU 102複製到GPU 108。

CPU 102可透過匯流排106而連接至一個輸入/輸出(input/output,I/O)裝置介面132，其適於將運算裝置100連接至一或多個I/O裝置134。這些I/O裝置134可包括，例如，一個鍵盤和一個指點裝置，其中，此指點裝置可包括觸控板和觸控式螢幕，在此僅寥舉數例。I/O裝置134可係運算裝置100的內建部件，或可係從外部連接至運算裝置100的裝置。

CPU 102可亦透過匯流排106而鏈接至一個顯示介面136，其適於將運算裝置100連接至一個顯示裝置138。顯示裝置138可包括為運算裝置100之內建部件的一個顯示螢幕。顯示裝置138可亦包括從外部連接至運算裝置100的一個電腦螢幕、電視或投影機，在此僅寥舉數例。

可使得一個網路介面控制器(network interface controller,NIC)140適於透過匯流排106而將運算裝置100連接至一個網路142。網路142可係一個廣域網路(wide area network,WAN)、區域網路(local area network,LAN)或網際網路(Internet)，在此僅寥舉數例。

圖1的這個方塊圖並沒有要指出運算裝置100包括有示於圖1中之所有部件的意思。另外，視具體實作的細節而定，運算裝置100係可包括未示於圖1中的任何數量個額外部件。

圖2A和2B是可依據一些實施例而用來實施在運算裝置100的CPU 102與GPU 108間之共享虛擬記憶體的一個統一記憶體架構200的示意圖。被做類似編號的項目就如同針對圖1所描述的那樣。UMA 200可包括，例如，運算裝置100的CPU頁表128、GPU頁表130和表面122。

UMA 200可使得能夠在CPU 102與GPU 108之間共享虛擬記憶體，而無須在CPU 102與GPU 108之間的任何類型的資料複製。此外，也沒有發生任何資料重組或編譯器組配行為。這可係藉由容許CPU 102和GPU 108共享表面122並在其個別的頁表中擁有等效的虛擬位址來達成。如於上文中所描述的，表面122可係一個實體儲存裝置的一部分。表面包括任何數量的實體記憶體位置202。這些實體記憶體位置202可被組織成一種分頁記憶體格式，其中，一個頁面是表面122內之實體記憶體的一個固定長度區塊。

CPU頁表128可包括多個CPU虛擬記憶體位址204，並且儲存裝置120可亦包括多個圖形虛擬記憶體位址204。CPU虛擬記憶體位址204構成CPU虛擬位址空間，而圖形虛擬記憶體位址204構成圖形虛擬位址空間。各個虛擬位址空間被對映到各個頁表中的一個實體位址206。因此， CPU虛擬記憶體位址204和圖形虛擬記憶體位址204皆分別對映到CPU頁表128和GPU頁表130內的相同實體位址206集合。

實體位址206使得CPU 102和GPU 108(圖1)能夠處理儲存在表面122內之實體位置202的資料。在許多實施例中，表面122係基於由一個應用程式(例如一個應用程式124(圖1))所取用的特定CPU虛擬位址204而被分配。一旦已分配表面122，各個實體位址208便被對映到CPU頁表128內的一個對應CPU虛擬位址204，如於圖2中所示出的。用於表面122的CPU虛擬位址204係與圖形記體共享。當一個應用程式124(圖1)的一個運算工作被卸載到GPU 108時，表面122可被調頁到圖形記體中。當表面122被調頁到圖形記憶體中時，此調頁動作會從原始圖形虛擬位址被重新選路到等於CPU虛擬位址204的圖形虛擬位址206。此GPU虛擬圖形位址空間是只屬於給定應用程式的一個私有圖形位址空間。

GPU頁表130內的圖形虛擬記憶體位址204可係與CPU頁表128同步化，以使得CPU虛擬位址和GPU虛擬記憶體位址被對映到相同的實體位址206集合。這些實體位址206對應於表面122內的實體位置202。因此，表面122可在CPU 102與GPU 108之間直接共享。在一些實施例中，若GPU 108修改位在任何實體位置202處的資料，則此修改會經由表面122而自動可由CPU 102看見，無須任何資料複製或資料編組行為。

圖2的這個示意圖並沒有要指出UMA 200包括有示於圖2中之所有部件的意思。另外，視具體實作的細節而定，UMA 200係可包括未示於圖2中的任何數量個額外部件。

圖3是一個處理程序流程圖，其根據一些實施例，示出用於在一個運算裝置的CPU與GPU間之共享虛擬記憶體的一種方法300。在許多實施例中，方法300係用於在CPU與GPU之間共享記憶體，而無須將資料從CPU記憶體複製至GPU記憶體。

在一些實施例中，方法300可係執行於一個運算裝置上，例如運算裝置100，其中，CPU 102和GPU 108藉由一個匯流排106而連接。在其他數個實施例中，CPU 102和GPU 108可係被包括在一個UMA中，例如於上文中針對圖2所論述的UMA 200。此外，方法300可係藉由運算裝置的驅動器而執行，例如運算裝置100的裝置驅動器126。

此方法從方塊302以對於在一個實體記憶體內的一個表面之分配開始。在一些實施例中，此表面可係響應於來自運行於一個運算裝置之CPU上的一個應用程式之輸入，而在此運算裝置的實體記憶體內被分配。此外，在一些實施例中，此表面可係由裝置驅動器分配。此表面可亦被標記為是一個共享虛擬記憶體表面。應用程式或裝置驅動器可利用CPU虛擬位址而從CPU取用此表面。在一些實施例中，係藉由運算裝置之作業系統而將CPU虛擬位址提供給應用程式或裝置驅動器。

於方塊304，一個CPU虛擬位址空間基於此表面而被創造出來。在一些實施例中，CPU位址空間係依應用程式之請求而產生。於方塊306，此表面被對映到CPU虛擬位址空間。在CPU虛擬記憶體位址與實體位址之間的對映係被包括在一個CPU頁表中。

於方塊308，等效於CPU虛擬位址空間的一個GPU虛擬位址空間被創造出來。於方塊310，此表面被對映到GPU虛擬位址空間。在一些實施例中，實體記憶體頁面到虛擬記憶體位址的對映可包括翻譯或轉換虛擬位址，以判定在系統記憶體內的對應實體記憶體頁面。當虛擬位址已被翻譯或轉換成實體位址時，在翻譯處理程序當中所發現的在虛擬位址與實體位址之間的關聯性會被鎖住。藉由鎖住這些關聯性，表面的對應於頁表中之實體位址的實體位置可被分頁到快取記憶體中。當這些關聯性被鎖住時，因為可防止表面的實體位址被裝置驅動器改變，所以這些頁面會持續待在快取記憶體中。

在一些實施例中，此表面係被指定為可作LLC快取。這樣的指定可確表面的實體位置有被貯藏到由CPU和GPU所共享的LLC中。由此應用程式所使用的圖形虛擬記憶體位址可被翻譯成與對映到CPU之虛擬位址者相同的實體位址。在一些實施例中，裝置驅動器可更新在GPU頁表內之從圖形虛擬記憶體位址到實體位址的對映。

於方塊312，此表面被釘扎。藉由釘扎表面，可防止此表面內之實體位置被改變。例如，一個作業系統可作為其記憶體管理的一部分而改變實體位置。然而，一旦表面已受到釘扎，作業系統便受到妨礙而無法改變表面之實體位置。

圖4是一個處理程序流程圖，其依據一些實施例而示出一種方法400，用以處理在一個運算裝置之CPU與GPU之間的共享記憶體。

於方塊402，係可有一個操作從CPU被卸載到GPU。此操作可如由一個應用程式(例如應用程式124(圖1))，所指引地被卸載到GPU。此外，係可使用被用來控制CPU或GPU的任何應用程式規劃介面(application programming interface,API)來指引一個操作從CPU到GPU的卸載行為。在一些實施例中，在將一個操作從CPU卸載到GPU之前，係可使正由CPU處理的位於表面內的任何資料與LLC同調。

於方塊404，GPU可開始處理被卸載的這個操作。GPU取用在LLC和表面內的資料以進行此操作。當發生GPU請求不在LLC內而是在CPU之其他快取記憶體中之資料的情況時，LLC可從其他快取記憶體取回資料以由GPU進行處理。

於方塊406，GPU發信號示意操作已完成。此完成信號可係傳送給主機。在一些實施例中，當操作完成時，裝置驅動器會在GPU與CPU之間同步化此操作。此外，在一些實施例中，此完成信號可係，例如，一個郵件信箱撰寫或是一個中斷。此完成信號可能會指出GPU已進行一些運算或圖形操作，這些運算或圖形操作已導致對於在表面內之資料的修改。在完成之後，GPU之輸出可由CPU作處理。在許多實施例中，當GPU藉由從表面之實體位置作讀取或寫入到表面之實體位置而處理此表面時，可能會在GPU的內部緩衝器和快取記憶體中發生處理行為。因此，在GPU之內部緩衝器和快取記憶體內的資料在此GPU處理動作已完成後係與LLC同調。

圖3和圖4的處理程序流程圖並沒有要指出方法300和400係要以任何特定順序執行的意思、或無論如何都得包括有所有方塊的意思。另外，視具體實作的細節而定，係可在方法300和400內包括任何數量個額外部件。此外，雖然於本文中所描述的這些方法包括了一個GPU，但記憶體係可在任何I/O裝置之間共享，例如另一個CPU或一個直接記憶體取用(direct memory access,DMA)控制器。

圖5是一個方塊圖，其依據一些實施例示而出一個有形非暫時性電腦可讀取媒體500，其儲存有用於在一個運算裝置的CPU與GPU間之共享虛擬記憶體的程式碼。有形非暫時性電腦可讀取媒體500可由一個處理器502經由一個電腦匯流排504取用。此外，有形非暫時性電腦可讀取媒體500可包括有被設計來指引處理器502進行於本文中所描述之方法的程式碼。

於本文中所論述的諸多軟體部件係可被儲存於有形非暫時性電腦可讀取媒體500上，如於圖5中所指出的。例如，係可組配一個表面分配模組506來在運算裝置的記憶體中分配包括有多個實體記憶體頁面的一個表面。一個虛擬化模組508可創造一個CPU虛擬位址空間和等效於此CPU虛擬位址空間的GPU虛擬位址空間。此GPU虛擬位址空間可係在表面被分頁到圖形記憶體中時被創造。係可組配一個對映模組510來將表面內之實體位置對映到CPU位址表和GPU位址表內的虛擬記憶體位址。此外，係可組配一個釘扎模組512來釘扎表面，以防止此表面內的實體位置被改變。

圖5的這個方塊圖並沒有要指出有形非暫時性電腦可讀取媒體500包括有示於圖5中之所有部件的意思。另外，視具體實作的細節而定，有形非暫時性電腦可讀取媒體500係可包括未示於圖5中的任何數量個額外部件。

圖6是用於實施共享虛擬記憶體的一個示範系統600的方塊圖。被做類似編號的項目就如同針對圖1、2A和2B所描述的那樣。在一些實施例中，系統600是一個媒體系統。此外，系統600係可被整合到個人電腦(personal computer,PC)、膝上型電腦、超膝上型電腦、平板電腦、觸控板、可攜式電腦、手持式電腦、掌上型電腦、個人數位助理(personal digital assistan,PDA)、行動電話、組合式行動電話或PDA、電視、智慧型裝置(例如，智慧型電話、智慧型平板電腦或智慧型電視)、行動上網裝置(mobile internet device,MID)、訊息傳送裝置、資料通訊裝置、或其他諸如此類者。

在許多實施例中，系統600包含耦接至一個顯示器604的一個平臺602。平臺602可從一個內容裝置(例如一或數個內容服務裝置606或是一或數個內容遞送裝置608，或者是其他類似內容來源)接收內容。一個導航控制器610包括一或多個導航特徵，這些導航特徵可用來與，例如，平臺602和/或顯示器604互動。這些部件各於下文中有詳細描述。

平臺602可包括晶片組612、中央處理單元(CPU)102、記憶體裝置104、儲存裝置120、圖形子系統614、應用程式124和無線電設備616的任何組合。晶片組612可提供CPU 102、記憶體裝置104、儲存裝置120、圖形子系統614、應用程式124和無線電設備614之間的相互通訊。例如，晶片組612可包括有能夠提供與儲存裝置120之相互通訊的一個儲存體適配器(未示於圖中)。

係可將CPU 102實施為複雜指令集電腦(Complex Instruction Set Computer,CISC)或精簡指令集電腦(Reduced Instruction Set Computer,RISC)處理器、x86指令集可相容處理器、多核心、或任何其他微處理器或中央處理單元(CPU)。在一些實施例中，CPU 102包括一或數個雙核心處理器、一或數個雙核心行動處理器、或其他諸如此類者。

係可將記憶體裝置104實施為依電性記憶體裝置，例如但不受限於隨機存取記憶體(RAM)、動態隨機存取記憶體(DRAM)或靜態RAM(Static RAM,SRAM)。係可將儲存裝置120實施為非依電性儲存裝置，例如但不受限於磁碟驅動器、光碟驅動器、磁帶驅動器、內部儲存裝置、附接式儲存裝置、快閃記憶體、電池後備同步DRAM(synchronous DRAM,SDRAM)、和/或可藉網路取用儲存裝置。在一些實施例中，當，例如，包括有複數個硬碟時，儲存裝置120具有用於可增進儲存體效能的對於有價值數位媒體之保護的技術。

圖形子系統614可進行對影像(例如靜態照或影片)的處理以供顯示。圖形子系統614可，例如，包括一個圖形處理單元(GPU)(例如GPU 108)或一個虛擬處理單元(visual processing unit,VPU)。係可使用一個類比或數位介面來通訊式地耦接圖形子系統614和顯示器604。例如，此介面可係高解析度多媒體介面(High-Definition Multimedia Interface)、顯示埠(DisplayPort)、無線HDMI、和/或無線HD適用技術。圖形子系統614可被整合到CPU 102或晶片組612中。或者是，圖形子系統614可係與晶片組612通訊式耦接的一個獨立的卡。

於本文中所描述的這些圖形和/或影片處理技術係可在各種硬體架構中實施。例如，係可將圖形和/或影片功能整合在晶片組612內。抑或是，係可使用一個分立的圖形和/或影片處理器。再舉另一個實施例，係可藉由一個一般用途處理器來實施圖形和/或影片功能，包括多核心處理器。在又一個實施例中，這些功能可係實施於顧客端電子裝置中。

無線電設備616可包括能夠利用各種適當的無線通訊技術來發送和接收信號的一或多個無線電設備。這樣的技術可涉及橫跨一或多個無線網路的通訊。示範無線網路包括無線區域網路(wireless local area network,WLAN)、無線個人區域網路(wireless personal area network,WPAN)、無線都會區域網路(wireless metropolitan area network,WMAN)、胞狀網路、衛星網路、或其他諸如此類者。在橫跨此等網路的通訊當中，無線電設備616可係依據任何版本的一或多個可適用標準而操作。

顯示器604可包括任何電視類型的監視器或顯示器。例如，顯示器604可包括電腦顯示螢幕、觸控式螢幕顯示器、視訊監視器、電視、或其他諸如此類者。顯示器604可係數位和/或類比的。在一些實施例中，顯示器604是一個全像顯示器。同樣地，顯示器604亦可係可接收視覺投影的一個透明表面。此種投影可傳達各種格式的資訊、影像、物件、或其他諸如此類者。例如，此等投影可係針對一個行動擴充實境(mobile augmented reality,MAR)應用程式的視覺覆蓋。在一或多個應用程式124的控制之下，平臺602可在顯示器604上顯示一個使用者介面618。

這(些)內容服務裝置606可係由任何全國性、國際性、或獨立性服務所主持，並且因此，例如，係可由平臺602經由網際網路取用。這(些)內容服務裝置606係可耦接至平臺602和/或耦接至顯示器604。平臺602和/或內容服務裝置606可耦接至一個網路142以出入網路142地傳遞(例如，傳送和/或接收)媒體資訊。這(些)內容遞送裝置608亦可耦接至平臺602和/或耦接至顯示器604。

這(些)內容服務裝置606可包括能夠遞送數位資訊的有線電視盒、個人電腦、網路、電話、或可使用網際網路的裝置。此外，這(些)內容服務裝置606亦可包括能夠單向或雙向地經由網路142或直接在內容提供者和平臺602或顯示器604之間傳達內容的任何其他類似裝置。會可明顯看出，內容係可經由網路142而自和至系統600中之部件和內容提供者中之任何一者被單向和/或雙向地傳達。內容之範例可包括任何媒體資訊，包括，例如，影片、音樂、醫學和競賽資訊、及其他諸如此類者。

這(些)內容服務裝置606可接收像是有線電視節目規劃等等的內容，包括媒體資訊、數位資訊或其他內容。內容提供者的範例可包括任何有線或衛星電視或是無線電或網際網路內容提供者，在此僅寥舉數例。

在一些實施例中，平臺602接收來自導航控制器610的控制信號，導航控制器610具有一或多個導航特徵。導航控制器610的這些導航特徵可用來，例如，與使用者介面618互動。導航控制器610可係一個指點裝置，其可係讓使用者能夠將空間(例如，連續的和多維的)資料輸入到電腦中的一個電腦硬體部件(明確地來說，是人類介面裝置)。有許多系統(例如圖形使用者介面(graphical user interface,GUI))和電視及監視器可讓使用者能夠利用實體姿態而控制和提供資料給電腦或電視。實體姿態包括但不受限於面部表情、臉部運動、手足移動、肢體運動、肢體語言或前述幾項的任何組合。此等實體姿態可被辨識和翻譯成命令或指令。

導航控制器610之導航特徵的運動係可藉由顯示在顯示器604上的指標、游標、聚焦環、或其他視覺指標而在顯示器604上產生迴響。例如，在應用程式124的控制之下，位於導航控制器610上的這些導航特徵可被對映到顯示於使用者介面618上的虛擬導航特徵上。在一些實施例中，導航控制器610可並非為分開的部件，而是被整合到平臺602和/或顯示器604中。

系統600可包括數個驅動器(未示於圖中)，這些驅動器具有用來在被致能時，例如，讓使用者能夠在初始啟動之後藉由觸控一個按鈕而立即開啟和關閉平臺602的技術。程式邏輯可讓平臺602能夠在此平臺被「關閉」時將內容串流到媒體適配器或是其他內容服務裝置606或內容遞送裝置608。此外，晶片組612可包含，例如，對於5.1環場音效音訊和/或高解析度7.1環場音效音訊的硬體和/或軟體支援。這些驅動器可包括用於整合式圖形平臺的圖形驅動器。在一些實施例中，此圖形驅動器包括一個週邊組件互連快捷(peripheral component interconnect express,PCIe)圖形卡。

在許多實施例中，係可將示於系統600中之部件中的任何一或多者整合。例如，可使平臺602與內容服務裝置606整合，可使平臺602與內容遞送裝置608整合；或是使平臺602、內容服務裝置606與內容遞送裝置608整合。在一些實施例中，平臺602和顯示器604可係一個經整合單元。例如，可使顯示器604與內容服務裝置606整合，或使顯示器604與內容遞送裝置608整合。

係可將系統600實施為一個無線系統或有線系統。當被實施為無線系統時，系統600可包括有適於經由無線共享媒體而通訊的部件和介面，例如一或多個天線、發送器、接收器、收發器、放大器、過濾器、控制邏輯、及其他諸如此類者。無線共享媒體的範例可包括部份無線頻譜，例如RF頻譜。當被實施為有線系統時，系統600可包括有適於經由有線通訊媒體而通訊的部件和介面，例如輸入/輸出(I/O)適配器、用於使I/O適配器與對應有線通訊媒體連接的實體連接器、網路介面卡(network interface card,NIC)、磁碟控制器、視訊控制器、音訊控制器、或其他諸如此類者。有線通訊媒體的範例可包括電線、纜線、金屬導線、印刷電路板(printed circuit board,PCB)、底板、開關纖維組織、半導體材料、雙絞線、同軸電纜、光纖、及其他諸如此類者。

平臺602可建立一或多個邏輯或實體通道來傳遞資訊。資訊可包括媒體資訊和控制資訊。媒體資訊可係指代表針對一個使用者的內容的任何資料。內容之範例可包括，例如，來自語音對話、視訊會議、串流影片、電子郵件(email)訊息、語音郵件訊息、文數符號、圖形、影像、影片、文字、及其他諸如此類者的資料。來自語音對話的資料可係，例如，言語資訊、沉默時期、背景雜訊、舒適雜訊、音調、及其他諸如此類者。控制資訊可係指代表針對一個自動系統的命令、指令或控制字組的任何資料。例如，可使用控制資訊來為媒體資訊選路以通過一個系統，或指導一個節點以一種預定方式處理媒體資訊。然而，這些實施例並不受限於在圖6中所出示或描繪的這些元件或脈絡。

圖7是一個小形狀因數裝置700的示意圖，係可就中體現圖6之系統600。被做類似編號的項目就如同針對圖6所描述的那樣。在一些實施例中，例如，係可將裝置700實施為具有無線能力的一個行動運算裝置。一個行動運算裝置可係指，例如，具有處理系統和行動電源或電源供應器(例如一或多個電池)的任何裝置。

如於上文中所述，行動運算裝置的範例可包括個人電腦(PC)、膝上型電腦、超膝上型電腦、輸入板、觸控板、可攜式電腦、手持式電腦、掌上型電腦、個人數位助理(PDA)、手機、組合式手機/PDA、電視、智慧型裝置(例如，智慧型電話、智慧型輸入板或智慧型電視)、行動網際網路裝置(MID)、傳訊裝置、資料傳遞裝置、及其他諸如此類者。

行動運算裝置的範例可亦包括被安排來由人體穿戴的電腦，例如手腕電腦、手指電腦、戒指電腦、眼鏡電腦、帶扣式電腦、臂帶電腦、鞋子電腦、衣著電腦、任何其他適當類型的可穿戴電腦。例如，係可將此行動運算裝置實施為能夠執行電腦應用程式以及語音通訊和/或資料通訊的一個智慧型電話。雖然一些實施例可能係以示範方式配合被實施為智慧型電話的一個行動運算裝置來說明，但可識出，亦可係利用其他無線行動運算裝置來實施其他實施例。

如於圖7中所示，裝置700可包含一個外殼702、一個顯示器704、一個輸入/輸出(I/O)裝置706、和一個天線708。裝置700可亦具有導航特徵710。顯示器704可包括任何適當的顯示單元，用以顯合適於行動運算裝置的資訊。I/O裝置706可包含任何適當的I/O裝置，用以將資訊輸入到行動運算裝置中。例如，I/O裝置706可包括文數鍵盤、數字鍵盤、觸控板、輸入鍵、按鈕、開關、搖籃式開關、麥克風、喇叭、語音辨識裝置和軟體、及其他諸如此類者。亦可藉由麥克風來將資訊輸入到裝置700中。此等資訊可由一個語音辨識裝置數位化。

範例1

在此係描述用於一個運算裝置的中央處理單元(CPU)與圖形處理單元(GPU)間之共享虛擬記憶體的一種方法。此方法包括：在一個實體記憶體內分配一個表面。可創造出一個CPU虛擬位址空間，並且此表面可被對映到一個CPU頁表內的CPU虛擬位址空間。此方法亦包括：創造等效於此CPU虛擬位址空間的一個GPU虛擬位址空間，以及在一個GPU頁表內將該表面對映至此GPU虛擬位址空間。此方法亦包括：釘扎此表面。

係可在CPU與GPU之間經由此表面來共享記憶體，而無須將資料從CPU記憶體複製到GPU記憶體。此表面可係響應於來自運行於此運算裝置之CPU上的一個應用程式之輸入而被分配。此外，此方法可係由此運算裝置的一個驅動器所執行。

來自CPU與GPU之快取記憶體的資料可係與在此CPU與GPU之間共享的一個最末階快取記憶體(LLC)同步。操作係可從CPU被卸載到GPU，並且此操作可係在GPU內進行。係可將一個完成信號傳送至CPU，其中，此完成信號包括指出GPU已進行某種運算的一個指示，此運算已導致表面內的資料有所修改。此外，一個裝置驅動器係可在CPU與GPU之間同步化對於資料的處理。

範例2

於此係描述一種運算裝置。此運算裝置包括：適於執行經儲存指令的一個中央處理單元(CPU)，以及儲存有指令的儲存裝置。此儲存裝置含有處理器可執行程式碼，這些程式碼在被CPU執行時適於在一個實體記憶體內分配一個表面。係可創造出一個CPU虛擬位址空間，並且此表面可在一個CPU頁表內被對映到此CPU虛擬位址空間。此外，係可創造出等效於此CPU虛擬位址空間的一個GPU虛擬位址空間，並且表面可在一個GPU頁表內被對映至此GPU虛擬位址空間。此處理器可執行程式碼可亦適於釘扎此表面。

係可在CPU與GPU之間共享實體記憶體，而無須將資料從CPU記憶體複製到GPU記憶體。此外，此CPU和 GPU係位在運算裝置內的同一個晶粒上。此CPU和GPU可共享一個最末階快取記憶體(LLC)，其中，此LLC可從CPU和GPU的任何快取記體取回資料。此CPU和GPU可包括一個統一記憶體架構(UMA)。

此處理器可執行程式碼可係適於響應於來自運行於此運算裝置之CPU上的一個應用程式之輸入而分配該表面。可藉由將虛擬位址轉換成實體位址，而將CPU頁表和GPU頁表中的虛擬記憶體位址對映到表面內的實體位置。可將一個驅動器組配成可起始對於此處理器可執行程式碼的執行。此外，此運算裝置可亦包括有一個無線電設備和一個顯示器，並且此等無線電設備和顯示器可至少通訊式地耦接至中央處理單元。

範例3

在此係描述具有儲存在內之指令的至少一個非暫時性機器可讀取媒體。響應於在一個運算裝置上被執行，這些指令致使此運算裝置在一個實體記憶體內分配一個表面。係可產生一個CPU虛擬位址空間，並且此表面可在一個CPU頁表內被對映到此CPU虛擬位址空間。這些指令可亦產生等效於CPU虛擬位址空間的一個GPU虛擬位址空間，並且可在一個GPU頁表內將表面對映到此GPU虛擬位址空間。此外，表面亦受到釘扎。

係可在CPU與GPU之間共享實體記憶體，而無須將資料從CPU記憶體複製到GPU記憶體。此外，這些指令可致使來自CPU之快取記憶體和GPU之快取記體的資料與一個最末階快取記憶體(LLC)同步。另外，這些指令可亦致使此運算裝置響應於來自運行於此運算裝置之CPU上的一個應用程式之輸入而分配表面。

應瞭解，於前面所提的這些範例當中的具體細節係可在一或多個實施例中之各處使用。例如，於上文中所描述的運算裝置的所有選擇性特徵皆亦可係針對於本文中所說明之方法或電腦可讀取媒體中之任何一者而實施。此外，雖然可能已於本文中使用流程圖和/或狀態圖來描述一些實施例，但本發明並不受限於這些圖表、或受限於文中之對應說明。例如，流程並不一定要是經由每個所例示方框或狀態來前進、或是以於本文中所例示和說明的一模一樣的順序來前進

本發明並不受限於文中所列出的特定細節。確實，可從本揭示內容當中獲益的熟習此技藝者會可識出，係可於本發明之範疇內生出源於前面之說明和圖式的許多其他變化。因此，界定本發明之範疇的是後面的申請專利範圍，包括對其所作的任何修正。