TW201439760A

TW201439760A - 使用服務品質將記憶體分配至相異記憶體裝置之系統及方法

Info

Publication number: TW201439760A
Application number: TW102141943A
Authority: TW
Inventors: Subrato K De; Richard A Stewart; Gheorghe Calin Cascaval; Dexter T Chun
Original assignee: Qualcomm Inc
Priority date: 2012-12-10
Filing date: 2013-11-18
Publication date: 2014-10-16
Also published as: US20150286565A1; JP5916970B2; US9092327B2; KR101613826B1; BR112015013487A2; US10067865B2; TWI534620B; US20140164690A1; BR112015013487B1; JP2016503911A; EP2929440A1; KR20150095725A; WO2014092883A1; CN104871143A; CN104871143B

Abstract

本發明提供用於將記憶體分配至相異記憶體裝置之系統及方法。一例示性實施例包括一種用於將記憶體分配至相異記憶體裝置之方法。判定一交錯頻寬比率，該交錯頻寬比率包含兩個或兩個以上相異記憶體裝置之頻寬的一比率。根據該交錯頻寬比率使該等相異記憶體裝置交錯，以界定具有不同效能等級之兩個或兩個以上記憶體分區。基於一服務品質(QoS)將記憶體位址請求分配至該等記憶體分區。

Description

使用服務品質將記憶體分配至相異記憶體裝置之系統及方法

優先權及相關申請案陳述

本申請案係在2012年12月24日申請且題為「System and Method for Managing Performance of a Computing Device Having Dissimilar Memory Types」(檔案號碼123065U1)之同在申請中之美國專利申請案第13/726,537號的部分接續專利申請案，該美國專利申請案依據35 U.S.C.119(e)主張在2012年12月10日申請、經讓渡為臨時申請案第61/735,352號(檔案號碼123065P1)且題為「System and Method for Managing Performance of a Computing Device Having Dissimilar Memory Types」的美國臨時專利申請案的優先權，前述兩者中之每一者的全文在此以引用之方式併入。

在電腦系統及裝置中，尤其在諸如蜂巢式電話、攜帶型數位助理(PDA)、攜帶型遊戲控制台、掌上型電腦、平板電腦及其他攜帶型電子裝置之攜帶型計算裝置(PCD)中，系統效能及功率要求變得愈來愈高。此等裝置可包含為達成特定目的而經最佳化之兩種或兩種以上類型之處理單元。舉例而言，一或多個中央處理單元(CPU)可用於達成一般系統層級效能或其他目的，而圖形處理單元(GPU)可經特定設計以用於操控電腦圖形以供輸出至顯示裝置。隨著每一處理器需要更多效能，需要經設計以實現每一處理器之特定目的之更快速且更特殊化之記憶體裝置。通常針對特定應用而最佳化記憶體架構。CPU可需要具有可接受之系統層級效能的高密度記憶體，而GPU可需要具有實質上高於CPU之效能的相對較低密度之記憶體。

結果，諸如PCD之單一電腦裝置可包括兩個或兩個以上相異記憶體裝置，其中每一特殊化記憶體裝置為達成其特殊目的而經最佳化，且與特定處理單元配對並專用於特定處理單元。在此習知架構(被稱作「離散」架構)中，每一專用處理單元經由複數個實體/控制層而實體地耦接至不同類型之記憶體裝置，該複數個實體/控制層各自具有對應記憶體通道。每一專用處理單元以為達成預期目的而經最佳化之不同資料速率來實體地存取對應記憶體裝置。舉例而言，在一個例示性組態中，通用CPU可以最佳化資料頻寬(例如，17Gb/s)來實體地存取第一類型之動態隨機存取記憶體(DRAM)裝置。較高效能之專用GPU可以較高資料頻寬(例如，34Gb/s)來實體地存取第二類型之DRAM裝置。雖然離散架構使CPU及GPU之效能個別地最佳化，但存在數個顯著缺點。

為了獲得較高效能，GPU專用記憶體必須經大小設定且經組態以處置所有潛在使用狀況、顯示解析度及系統設定。此外，較高效能「經區域化」，此係因為僅GPU能夠以較高資料頻寬來實體地存取GPU專用記憶體。雖然CPU可存取GPU專用記憶體，且GPU可存取CPU專用記憶體，但離散架構以減少之資料頻寬經由GPU與CPU之間的實體互連匯流排(例如，快速周邊組件互連(PCIE))提供此存取，該減少之資料頻寬通常小於用於任一類型之記憶體裝置的最佳化頻寬。即使GPU與CPU之間的實體互連匯流排並不充當效能「瓶頸」，離散架構仍不准許GPU抑或CPU利用兩種不同類型之記憶體裝置的組合之總可用頻寬。將各別記憶體裝置之記憶體空間置放於單獨之鄰接記憶體位址區塊中。換言之，整個記憶體映象將第一類型之記憶體裝置置放於一個鄰接區塊中，且分離地將第二類型之記憶體裝置置放於不同鄰接區塊中。在不同記憶體裝置之記憶體埠之間不存在支援駐留於同一鄰接區塊內之實體存取的硬體協調。

因此，雖然在電腦系統中對更特殊化記憶體裝置之需求增加，以在電腦裝置中提供日益增加之系統及功率效能，但在此項技術中仍需要用於管理相異記憶體裝置之改良之系統及方法。

提供用於將記憶體分配至相異記憶體裝置之系統及方法。一例示性實施例包含一種用於將記憶體分配至相異記憶體裝置之方法。判定一交錯頻寬比率，該交錯頻寬比率包含兩個或兩個以上相異記憶體裝置之頻寬的一比率。根據該交錯頻寬比率使該等相異記憶體裝置交錯，以界定具有不同效能等級之兩個或兩個以上記憶體分區。基於一服務品質(QoS)將記憶體位址請求分配至該等記憶體分區。

100‧‧‧系統

102‧‧‧記憶體通道最佳化模組

104a‧‧‧動態隨機存取記憶體(DRAM)裝置

104b‧‧‧動態隨機存取記憶體(DRAM)裝置

106‧‧‧圖形處理單元(GPU)

108‧‧‧中央處理單元(CPU)/觸控式螢幕顯示器

110‧‧‧電連接

112‧‧‧電連接

114‧‧‧記憶體通道

114a‧‧‧記憶體通道

114b‧‧‧記憶體通道

114c‧‧‧記憶體通道

114d‧‧‧記憶體通道

116a‧‧‧實體/控制連接件

116b‧‧‧實體/控制連接件

116c‧‧‧實體/控制連接件

116d‧‧‧實體/控制連接件

118‧‧‧記憶體通道

118a‧‧‧記憶體通道

118b‧‧‧記憶體通道

120a‧‧‧實體/控制連接件

120b‧‧‧實體/控制連接件

200‧‧‧用於藉由使相異記憶體裝置交錯來實施統一操作模式之方法

204‧‧‧小鍵盤

300‧‧‧表

302‧‧‧欄

304‧‧‧列

322‧‧‧晶載系統/系統單晶片(SoC)

328‧‧‧顯示控制器

330‧‧‧觸控式螢幕控制器

334‧‧‧視訊編碼器

336‧‧‧視訊放大器

338‧‧‧視訊埠

340‧‧‧通用串列匯流排(USB)控制器

342‧‧‧通用串列匯流排(USB)埠

346‧‧‧用戶識別模組(SIM)卡

348‧‧‧數位攝影機

350‧‧‧立體音訊編碼器-解碼器

352‧‧‧音訊放大器

354‧‧‧第一立體聲揚聲器

356‧‧‧第二立體聲揚聲器

358‧‧‧麥克風放大器

360‧‧‧麥克風

362‧‧‧調頻(FM)無線電調諧器

364‧‧‧調頻(FM)天線

366‧‧‧立體聲耳機

368‧‧‧射頻(RF)收發器

370‧‧‧射頻(RF)開關

372‧‧‧射頻(RF)開關

376‧‧‧單聲道頭戴式耳機

378‧‧‧振動器裝置

380‧‧‧電源供應器

388‧‧‧網路卡

400‧‧‧通道重映射模組

402A‧‧‧多核中央處理單元(CPU)

404A‧‧‧記憶體

410‧‧‧第零核心

412‧‧‧第一核心

414‧‧‧第N核心

500‧‧‧位址映射表

502‧‧‧位址區塊之清單

504‧‧‧欄

506‧‧‧欄

508‧‧‧欄

600‧‧‧通道重映射邏輯

606‧‧‧請求

608‧‧‧請求

610‧‧‧請求

612‧‧‧請求

614‧‧‧請求

616‧‧‧請求

702‧‧‧0.5GB記憶體裝置

704‧‧‧0.5GB記憶體裝置

706‧‧‧1GB記憶體裝置

708‧‧‧2GB記憶體裝置

710‧‧‧交錯分區

712‧‧‧交錯分區

714‧‧‧非交錯分區

800‧‧‧攜帶型計算裝置(PCD)

900‧‧‧系統

902‧‧‧高階作業系統(HLOS)

904‧‧‧服務品質(QoS)監視模組

906‧‧‧應用程式

1000‧‧‧統一位址空間

1002‧‧‧應用程式介面(API)

1004‧‧‧記憶體分區

1006‧‧‧記憶體分區

1008‧‧‧記憶體分區

1100‧‧‧系統

1200‧‧‧用於動態地分配記憶體之方法

1302‧‧‧第一malloc函式

1304‧‧‧第二malloc函式

1306‧‧‧第三malloc函式

在諸圖中，除非另有指示，否則貫穿各種視圖，類似參考數字指類似部分。對於具有諸如「102A」或「102B」之字母字元名稱的參考數字，該等字母字元名稱可區分存在於同一圖中之兩個類似部分或元件。當參考數字意欲涵蓋所有諸圖中具有相同參考數字之所有部分時，可省略參考數字之字母字元名稱。

圖1為用於管理相異記憶體裝置之系統之實施例的方塊圖。

圖2為用於管理相異記憶體裝置的由圖1中之記憶體通道最佳化模組實行的方法之實施例的流程圖。

圖3為說明各種類型之相異記憶體裝置之交錯頻寬比率的例示性表。

圖4為說明圖1之記憶體通道最佳化模組之組件的方塊圖。

圖5為說明基於各種交錯頻寬比率之記憶體通道位址重映射的例示性表。

圖6為說明圖4之通道重映射模組之實施例的一般操作、架構及功能性的組合流程/方塊圖。

圖7為說明用於跨越相異記憶體裝置建立多個邏輯分區之交錯方法之實施例的圖形。

圖8為說明攜帶型計算裝置中之記憶體通道最佳化模組之例示性實施的方塊圖。

圖9為說明用於將記憶體分配至相異記憶體裝置之系統之另一實施例的方塊圖，該系統包含耦接至高階作業系統(HLOS)之記憶體通道最佳化模組。

圖10為說明圖9之系統之架構及操作的實施例之方塊圖，該系統用於經由HLOS所提供之QoS將記憶體分配至統一記憶體空間中之分區。

圖11為說明用於經由QoS監視模組將記憶體分配至統一記憶體空間中之分區的另一實施例之方塊圖，該QoS監視模組與記憶體通道最佳化模組整合。

圖12為說明用於基於QoS服務將記憶體動態地分配至相異記憶體裝置之方法之實施例的流程圖。

圖13說明用於經由與HLOS API相關聯之記憶體分配函式將記憶體分配至邏輯分區的圖7之圖。

詞語「例示性」在本文中用以意謂「充當一實例、例子或說明」。不必將本文中描述為「例示性」之任何態樣解釋為比其他態樣較佳或有利。

在此描述中，術語「應用程式」亦可包括具有可執行內容之檔案，諸如：目標碼、指令碼、位元組碼、標示語言檔案，及修補程式。此外，本文所提及之「應用程式」亦可包括本質上不可執行之檔案，諸如可能需要開啟之文件或需要存取之其他資料檔案。

術語「內容」亦可包括具有可執行內容之檔案，諸如：目標碼、指令碼、位元組碼、標示語言檔案，及修補程式。此外，本文所提及之「內容」亦可包括本質上不可執行之檔案，諸如可能需要開啟之文件或需要存取之其他資料檔案。

如此描述中所使用，術語「組件」、「資料庫」、「模組」、「系統」及其類似者意欲指電腦相關實體，其為硬體、韌體、硬體與軟體之組合、軟體，抑或執行中軟體。舉例而言，組件可為(但不限於)在處理器上執行之程序、處理器、物件、可執行程式、執行緒、程式及/或電腦。藉由說明，在計算裝置上執行之應用程式及該計算裝置兩者皆可為組件。一或多個組件可駐留於程序及/或執行緒內，且一組件可位於一個電腦上及/或分散於兩個或兩個以上電腦之間。此外，此等組件可自各種電腦可讀媒體執行，該等電腦可讀媒體具有儲存於其上之各種資料結構。該等組件可藉由本端程序及/或遠端程序進行通信，諸如，根據具有一或多個資料封包的信號(例如，來自藉由信號而與另一組件互動的組件之資料，另一組件係在本端系統中、在分散式系統中及/或跨越具有其他系統的網路(諸如，網際網路)中)。

在此描述中，術語「通信裝置」、「無線裝置」、「無線電話」、「無線通信裝置」及「無線手機」可互換地使用。隨著第三代(「3G」)無線技術及第四代(「4G」)無線技術的到來，更大頻寬可用性已使更多攜帶型計算裝置具有多種無線能力。因此，攜帶型計算裝置可包括蜂巢式電話、呼叫器、PDA、智慧型電話、導航裝置，或具有無線連接或鏈路之手持型電腦。

圖1說明包含記憶體管理架構之系統100，該記憶體管理架構可實施於具有兩個或兩個以上專用處理單元之任何合適之計算裝置中，該等處理單元用於存取不同類型之兩個或兩個以上記憶體裝置或具有不同資料頻寬的類似類型之記憶體裝置(被稱作「相異記憶體裝置」)。計算裝置可包含個人電腦；工作站；伺服器；諸如蜂巢式電話、攜帶型數位助理(PDA)、攜帶型遊戲控制台、掌上型電腦或平板電腦之攜帶型計算裝置(PCD)；及具有兩個或兩個以上相異記憶體裝置之任何其他計算裝置。如下文更詳細地描述，記憶體管理架構經組態以選擇性地提供兩個操作模式：統一模式及離散模式。在離散模式中，記憶體管理架構以如上文所描述之習知方式作為「離散架構」來操作，其中每一專用處理單元存取為達成預期目的而經最佳化之對應記憶體裝置。舉例而言，專用之通用中央處理單元(CPU)可以最佳化資料頻寬存取第一類型之記憶體裝置，且較高效能之專用圖形處理單元(GPU)可以較高資料頻寬存取第二類型之記憶體裝置。在統一模式下，記憶體管理架構經組態以使相異記憶體裝置統一，且使專用處理單元能夠選擇性地存取(個別地抑或組合地)相異記憶體裝置或其部分之組合頻寬。

如圖1之實施例中所說明，系統100包含記憶體通道最佳化模組102，其電連接至兩種不同類型之動態隨機存取記憶體(DRAM)裝置104a及104b以及可存取DRAM裝置104a及104b之兩個或兩個以上專用處理單元(例如，CPU 108及GPU 106)。GPU 106經由電連接110而耦接至記憶體通道最佳化模組102。CPU 108經由電連接112而耦接至記憶體通道最佳化模組102。記憶體通道最佳化模組102進一步包含複數個硬體連接件以用於耦接至DRAM裝置104a及104b。硬體連接件可取決於記憶體裝置之類型而變化。在圖1之實例中，DRAM 104a支援分別連接至實體/控制連接件116a、116b、116c及116d之四個通道114a、114b、114c及114d。DRAM 104b支援分別連接至實體/控制連接件 120a及120b之兩個通道118a及118b。應瞭解，實體/控制連接件之數目及組態可取決於記憶體裝置之類型(包括記憶體位址之大小(例如，32位元、64位元等))而變化。

圖2說明藉由記憶體通道最佳化模組102執行之方法200，其用於藉由使相異記憶體裝置(例如，DRAM裝置104a及104b)交錯來實施統一操作模式。在區塊202處，記憶體通道最佳化模組102判定交錯頻寬比率，該交錯頻寬比率包含DRAM裝置104a及104b之資料頻寬之比率。可基於計算裝置之啟動來判定資料頻寬。

在一實施例中，可藉由存取諸如圖1中所說明之表300的資料結構來判定交錯頻寬比率。表300識別用於實施兩個DRAM裝置104a及104b的數種類型之相異記憶體裝置之各種組合的交錯頻寬比率。欄302列出DRAM裝置104a之各種組態。列304列出DRAM裝置104b之各種組態。就此而言，每一數值資料欄位識別對應組態(列/欄組態)之交錯頻寬比率。舉例而言，用黑色突出顯示表300之上部部分中的第一資料欄位，且該第一資料欄位列出交錯頻寬比率2.00，其對應於DRAM裝置104a之12.8GB/s的頻寬及DRAM裝置104b之6.4GB/s之資料頻寬。在圖3中，DRAM裝置104a及104b經最佳化以用於行動計算系統中。DRAM裝置104b包含低功率雙資料速率(LPDDR)記憶體裝置，其可習知地經最佳化以用於離散模式中從而供CPU 108專用。DRAM裝置104a包含寬I/O(寬IO)記憶體裝置，其可習知地經最佳化以用於離散模式中從而供GPU 106專用。就此而言，數值根據諸如以下各者之可變效能參數來識別DRAM裝置104a及104b之交錯頻寬比率：記憶體位址位元大小(x64、x128、x256、x512)、時脈速度(MHz)，及資料頻寬(GB/s)。記憶體通道最佳化模組102可實行查找以獲得與DRAM裝置104a及104b相關聯之交錯頻寬比率。在圖2中之區塊202處，記憶體通道最佳化模組102亦可判定數值資料頻寬(例如，自表 300或直接自DRAM裝置104a及104b)，且接著使用此資料來計算交錯頻寬比率。

請注意，該等類型之記憶體裝置及效能參數可取決於正實施有系統100的特定類型之計算裝置、系統應用程式等而變化。圖3中所說明之實例類型及效能參數僅在此描述中用以描述由行動系統中之記憶體通道最佳化模組102實行的例示性交錯方法。適合於通道最佳化模組102之其他隨機存取記憶體技術的一些實例包括NOR FLASH、EEPROM、EPROM、DDR-NVM、PSRAM、SRAM、PROM及ROM。一般熟習此項技術者將易於瞭解，可實行各種替代交錯方案及方法。

再次參看圖2，在區塊204處，記憶體通道最佳化模組102根據在區塊202中判定之交錯頻寬比率來使DRAM裝置104a與104b交錯。交錯程序使至用於DRAM裝置104a及104b之記憶體通道114a、114b、114c、114d以及118a及118b中之每一者的訊務分別與該特定通道之可用頻寬匹配。舉例而言，若DRAM裝置104a具有34GB/s之資料頻寬，且DRAM裝置104b具有17GB/s之資料頻寬，則交錯頻寬比率為2：1。此情形意謂，DRAM裝置104a之資料速率快達DRAM裝置104b之資料速率的兩倍。

如圖4中所說明，記憶體通道最佳化模組102可包含一或多個通道重映射模組400，其用於根據交錯頻寬比率來組態並維護DRAM裝置104a及104b之虛擬位址映射表，及根據交錯頻寬比率將訊務散佈至DRAM裝置104a及104b。圖5中說明例示性位址映射表500。位址映射表500包含位址區塊之清單502(其可具有任何大小)，與基於交錯頻寬比率的對應通道及/或記憶體裝置指派。舉例而言，在圖5中，欄504說明DRAM裝置104a(「wideio2」)與DRAM裝置104b(「lpddr3e」)之間基於1：1之交錯頻寬比率的交替指派。將偶數位址區塊(N、N+2、N+4、N+6等)指派至wideio2，且將奇數位址區塊(N+1、N+3、N+5等) 指派至lpddr3e。

欄506說明針對2：1之交錯頻寬比率的另一指派。在DRAM裝置104a(「wideio2」)具有快達DRAM裝置104b(「lpddr3e」)之兩倍的速率時，針對指派至lpddr3e之每個位址區塊，將兩個連續位址區塊指派至wideio2。舉例而言，將位址區塊N及N+1指派至wideio2。將區塊N+2指派至lppdr3e。將區塊N+3及N+4指派至wideio2，等等。欄508說明針對1：2之交錯頻寬比率的另一指派，其中使指派方案顛倒，此係因為DRAM裝置104b(「lpddr3e」)快達DRAM裝置104a(「wideio2」)之兩倍。

再次參看圖2之流程圖，在區塊206處，GPU 106及CPU 108可藉由將記憶體位址請求發送至記憶體通道最佳化模組102而以習知方式存取經交錯記憶體。如圖6中所說明，可由通道重映射邏輯600接收作為對應於位址區塊N、N+1、N+2、N+3、N+4、N+5等(圖5)之請求606、608、610、612、614、616等的輸入串流的訊務。通道重映射邏輯600經組態以根據含於位址映射表500(例如，欄504、506、508等)中之交錯頻寬比率及適當指派方案而將訊務散佈(區塊208(圖2))至DRAM裝置104a及104b。

遵循2：1交錯頻寬比率之以上實例，通道重映射邏輯600如圖6中所說明而操縱請求606、608、610、612、614及616。可操縱分別針對位址區塊N、N+1、N+3及N+4之請求606、608、612及614至DRAM裝置104a。可操縱分別針對位址區塊N+2及N+5之請求610及616至DRAM裝置104b。以此方式，來自GPU 106及CPU 108之傳入訊務可與DRAM裝置104a之記憶體通道114及/或DRAM裝置104b之記憶體通道118中之任一者上的可用頻寬最佳地匹配。此統一操作模式使得GPU 106及CPU 108能夠個別及/或共同地存取相異記憶體裝置之組合頻寬，而非限於習知離散操作模式之「區域化」高效能操作。

如上文所提及，記憶體通道最佳化模組102可經組態以基於各種所要使用情境、系統設定等來選擇性地啟用統一模式抑或離散模式。此外，應瞭解，可使相異記憶體裝置之數個部分交錯，而非使完整記憶體裝置交錯。圖7說明可由記憶體通道最佳化模組102實施以建立多個「邏輯」裝置或分區的多層交錯技術。遵循使用2：1交錯頻寬比率之以上實例，DRAM裝置104a可包含習知地經最佳化以用於GPU 106之一對0.5GB記憶體裝置702及704，其具有34GB/s之高效能頻寬。DRAM裝置104b可包含習知地經最佳化以用於CPU 108之1GB記憶體裝置706及2GB記憶體裝置708，其各自具有17GB/s之較低頻寬。多層交錯技術可建立兩個交錯分區710及712，以及非交錯分區714。分區710可經4路交錯，以提供在102GB/s之組合頻寬下的組合1.5GB。分區712可經2路交錯，以提供在34GB/s下之組合1.5GB。分區714可未經交錯，以提供在17GB/s下之1GB。與系統100之記憶體管理架構組合之多層交錯技術可促進經交錯部分與非經交錯部分之間的轉換，此係因為可針對可收回或可遷移資料結構及緩衝器而明確指定經交錯分區710及712之內容，而可針對諸如核心操作及/或其他低速記憶體程序之處理而指定非交錯分區714之內容。

如上文所提及，可將記憶體通道最佳化模組102併入至任何所要計算系統中。圖8說明併入於例示性攜帶型計算裝置(PCD)800中之記憶體通道最佳化模組102。記憶體最佳化模組102可包含可經分離地製造且併入至攜帶型計算裝置800之設計中的系統單晶片(SoC)或嵌入式系統。

如所展示，PCD 800包括晶載系統322，該晶載系統322包括多核CPU 402A。多核CPU 402A可包括第零核心410、第一核心412及第N核心414。該等核心中之一者可包含(例如)GPU 106，其中其他核心中之一或多者包含CPU 108。根據替代例示性實施例，CPU 402亦可包含單一核心類型之彼等核心，且並非具有多個核心之一者，在該狀況下，CPU 108及GPU 106可為專用處理器，如系統100中所說明。

顯示控制器328及觸控式螢幕控制器330可耦接至GPU 106。又，在晶載系統322外部之觸控式螢幕顯示器108可耦接至顯示控制器328及觸控式螢幕控制器330。

圖8進一步展示，例如以下各者之視訊編碼器334耦接至多核CPU 402A：逐行倒相(PAL)編碼器、按順序傳送彩色與儲存(sequential color a memoire,SECAM)編碼器，或國家電視系統委員會(NTSC)編碼器。另外，視訊放大器336耦接至視訊編碼器334及觸控式螢幕顯示器108。又，視訊埠338耦接至視訊放大器336。如圖8中所展示，通用串列匯流排(USB)控制器340耦接至多核CPU 402A。又，USB埠342耦接至USB控制器340。記憶體404A及用戶識別模組(SIM)卡346亦可耦接至多核CPU 402A。記憶體404A可包含兩個或兩個以上相異記憶體裝置(例如，DRAM裝置104a及104b)，如上文所描述。記憶體通道最佳化模組102可耦接至CPU 402A(包括(例如)CPU 108及GPU 106)，且記憶體404A可包含兩個或兩個以上相異記憶體裝置。可將記憶體通道最佳化模組102作為單獨之系統單晶片(SoC)或作為SoC 322之組件來併入。

另外，如圖8中所展示，數位攝影機348可耦接至多核CPU 402A。一在例示性態樣中，數位攝影機348為電荷耦合裝置(CCD)攝影機或互補金屬氧化物半導體(CMOS)攝影機。

如圖8中進一步說明，立體音訊編碼器-解碼器(編解碼器(CODEC))350可耦接至多核CPU 402A。此外，音訊放大器352可耦接至立體音訊CODEC 350。在一例示性態樣中，第一立體聲揚聲器354及第二立體聲揚聲器356耦接至音訊放大器352。圖8展示，麥克風放大器358亦可耦接至立體音訊CODEC 350。另外，麥克風360可耦接至麥克風放大器358。在一特定態樣中，調頻(FM)無線電調諧器362可耦接至立體音訊CODEC 350。又，FM天線364耦接至FM無線電調諧器362。另外，立體聲耳機366可耦接至立體音訊CODEC 350。

圖8進一步說明，射頻(RF)收發器368可耦接至多核CPU 402A。RF開關370可耦接至RF收發器368及RF天線372。如圖8中所展示，小鍵盤204可耦接至多核CPU 402A。又，具有麥克風之單聲道頭戴式耳機376可耦接至多核CPU 402A。另外，振動器裝置378可耦接至多核CPU 402A。

圖8亦展示，電源供應器380可耦接至晶載系統322。在一特定態樣中，電源供應器380為將電力提供至PCD 800之需要電力之各種組件的直流電(DC)電源供應器。另外，在一特定態樣中，電源供應器為可再充電DC電池或DC電源供應器，該DC電源供應器係得自至連接至AC電源之DC變壓器的交流電(AC)。

圖8進一步指示，PCD 800亦可包括網路卡388，該網路卡可用以存取資料網路，例如，區域網路、個人區域網路或任何其他網路。網路卡388可為藍芽網路卡、WiFi網路卡、個人區域網路(PAN)卡、個人區域網路超低功率技術(PeANUT)網路卡，或此項技術中熟知之任何其他網路卡。另外，網路卡388可併入至晶片中，亦即，網路卡388可為晶片中之完整解決方案，且可並非單獨網路卡388。

如圖8中所描繪，觸控式螢幕顯示器108、視訊埠338、USB埠342、攝影機348、第一立體聲揚聲器354、第二立體聲揚聲器356、麥克風360、FM天線364、立體聲耳機366、RF開關370、RF天線372、小鍵盤374、單聲道頭戴式耳機376、振動器378及電源供應器380可在晶載系統322外部。

圖9至圖13說明用於在高階作業系統(HLOS)環境中充分利用上文結合圖1至圖8所描述之重映射及交錯解決方案之態樣的系統及方法之各種替代實施例。應瞭解，HLOS環境可提供異質計算平台或異質系統架構(HSA)，諸如在由HSA基金會公開之HSA標準中揭示的彼等HSA。當前標準(AMD I/O虛擬化技術(IOMMU)規範(在2011年3月24日發佈之出版物第48882號，修訂版2.00))之全文在此以引用之方式併入。

如此項技術中所已知的，基於HSA之系統可經組態以提供系統記憶體之統一視圖。HSA准許開發者藉由(例如)以下操作而在較高抽象層級處進行程式設計：使用主流程式設計語言，使開發者不考慮硬體特定細節，及使硬體特定編碼由硬體廠商執行。然而，不存在用於在具有相異記憶體類型或裝置之系統中有效地實施HSA的已知解決方案。

應瞭解，下文結合圖9至圖13描述之系統及方法大體提供用於在包含相異記憶體類型或裝置(諸如，上文所描述之彼等記憶體類型或裝置)之系統中支援HSA及/或HLOS的獨特且所要之解決方案。下文所描述之系統及方法可藉由移除對以下情況之現有需要而提供高效能、較低功率及較低成本：平台中之所有記憶體為均一的。此外，硬體開發者可具有在遵守HSA標準之計算裝置中組合(例如)高成本記憶體裝置及/或類型與低成本記憶體裝置及/或類型兩者的靈活性。

圖9說明用於將記憶體動態地分配至相異記憶體裝置之系統900，該系統包含與記憶體通道最佳化模組102及一或多個應用程式906通信之HLOS 902。記憶體通道最佳化模組102可大體以上文所描述之方式經組態且操作。記憶體通道最佳化模組102電連接至兩個或兩個以上相異記憶體類型或裝置(例如，DRAM 104a及104b)，及可存取相異記憶體裝置之任何數目個處理單元。應瞭解，處理單元可包括專用處理單元(例如，CPU 108及GPU 106)，或其他可程式化處理器。GPU 106經由電連接110耦接至記憶體通道最佳化模組102。CPU 108 經由電連接112耦接至記憶體通道最佳化模組102。一或多個可程式化處理器(圖中未示)可經由對應連接而耦接至記憶體通道最佳化模組102。專用處理單元、可程式化處理器及存取相異記憶體裝置之任何應用程式906可通常被稱作HLOS 902及/或記憶體通道最佳化模組102之「用戶端」。

可程式化處理器可包含用於包括(例如)視訊應用程式、音訊應用程式或任何其他應用程式906之特殊用途及/或通用應用程式的數位信號處理器(DSP)。如上文所提及，專用處理單元、應用程式906、HLOS 902及/或可程式化處理器可支援異質計算平台，該等異質計算平台經組態以支援異質系統架構(HSA)。應瞭解，HAS建立改良之處理器設計，其向應用程式906顯現主流可程式化計算元件之益處及能力。藉由HSA，應用程式906可在單一統一位址空間中建立資料結構，且可在最適合於給定任務之硬體上並列地起始多個工作項目。在多個計算元件之間共用資料與發送指標一樣簡單。多個計算任務可對相同之相干記憶體區起作用，從而根據需要利用屏障及不可部分完成之記憶體操作以維持資料同步。

如上文更詳細地描述，記憶體通道最佳化模組102進一步包含複數個硬體連接件以用於耦接至DRAM 104a及104b。硬體連接件可取決於記憶體裝置之類型而變化。在一實施例中，相異記憶體裝置包含雙資料速率(DDR)記憶體裝置，其提供連接至記憶體通道最佳化模組102上之實體/控制連接件的對應通道。應瞭解，實體/控制連接件之數目及組態可取決於記憶體裝置之類型(包括記憶體位址之大小(例如，32位元、64位元等))而變化。

HLOS 902包含服務品質(QoS)監視模組904。QoS監視模組904藉由保證及/或匹配應用程式記憶體要求而將QoS服務提供至應用程式906。QoS服務可係基於程式設計師宣告之QoS，該QoS係經由(例如) 與QoS監視模組904相關聯之應用程式介面(API)1002而提供至HLOS 902。在其他實施例中，HLOS 902可基於監視應用程式906(例如，程序、執行緒等)之記憶體存取行為及/或效能來判定所估計QoS。對於待在平台記憶體上分配使得進行資料存取之應用程式能夠滿足所要效能及品質的資料，其他例示性QoS值可為記憶體頻寬及/或延時要求，或其他記憶體效能量度。

如圖10之實施例中所說明，HLOS 902支援對藉由統一位址空間1000定址之相異記憶體裝置的經交錯記憶體存取。統一位址空間1000可包含一或多個邏輯記憶體分區(例如，記憶體分區1004、1006及1008)。應瞭解，可使用上文所描述且圖7中所說明之多層交錯技術來組態統一位址空間1000以及記憶體分區1004、1006及1008，以建立多個「邏輯」裝置或記憶體分區。舉例而言，重新回到圖7之以上實例，可使用2：1之交錯頻寬比率。DRAM裝置104a可包含習知地經最佳化以用於GPU 106之一對0.5GB記憶體裝置702及704，其具有34GB/s之高效能頻寬。DRAM裝置104b可包含習知地經最佳化以用於CPU 108之1GB記憶體裝置706及2GB記憶體裝置708，其各自具有17GB/s之較低頻寬。多層交錯技術可建立兩個經交錯分區710及712，以及一非交錯分區714。分區710可經4路交錯，以提供在102GB/s之組合頻寬下的組合1.5GB。分區712可經2路交錯，以提供在34GB/s下之組合1.5GB。分區714可未經交錯，以提供在17GB/s下之1GB。與系統100之記憶體管理架構組合之多層交錯技術可促進經交錯部分與非交錯部分之間的轉換，此係因為可針對可收回或可遷移資料結構及緩衝器明確地指定經交錯分區710及712之內容，而可針對諸如核心操作及/或其他低速記憶體程序之處理而指定非交錯分區714之內容。出於圖10之目的，記憶體分區1004、1006及1008可對應於來自圖7之分區710、712及714。記憶體分區1004、1006及1008可具有不同密度及/ 或效能等級。

與記憶體通道最佳化模組102整合之HLOS 902提供有效之記憶體分配方案。應瞭解，HLOS 902及/或記憶體通道最佳化模組102可經由裝置將記憶體分配至具有變化之記憶體效能要求的不同應用程式工作負載。HLOS 902經組態以恰當地管理具有變化之效能要求的記憶體組件之分配/解除分配，從而達成對硬體平台之有效利用。

QoS監視模組904可考慮來自記憶體分區1004、1006及1008中之一或多者的經動態分配且空閒之虛擬記憶體。在一實施例中，QoS監視模組904可將較高執行性分區指派至與應用程式906相關聯之任務/執行緒，該等任務/執行緒可請求或以其他方式接收較高效能。QoS監視模組904可將較低執行性分區指派至未請求較高效能之任務/執行緒。此外，QoS監視模組904可動態地控制記憶體分配，以自(例如)第一請求之分區類型回退至第二或第三選擇。

QoS監視模組904可經進一步組態以基於程序之認證及需要該程序可存在於較高執行性分區中之程度而稽核該程序且自彼區遷移或收回程序。可稽核程序，且自可經刪除、斷電等之分區遷移或收回程序，藉此在睡眠模式期間提供系統功率減少。QoS監視模組130可週期性地監視應用程式906，且基於監視到之效能來評估及推薦對分區組態之修改。

QoS監視模組904可經組態以在為應用程式碼分配記憶體時提供QoS請求或提示。應瞭解，各種QoS或相關參數可藉由QoS監視模組904來監視，且可指示(例如)關於所分配區之效能等級或存取性質(例如，串流高輸送量、小之厚塊中大的鄰接、離散隨機存取等)。

QoS監視模組904可轉譯QoS參數，且將此等參數映射至特定記憶體類型或記憶體分區。舉例而言，隨機存取可使用較低記憶體存取延時以有效實施地應用程式碼，而串流高輸送量應用程式碼可需要使用高記憶體頻寬。QoS參數可包括直接即時值，諸如「記憶體存取延時<x奈秒」。在HLOS 902包括API 1002之圖10的實施例中，QoS參數可為記憶體分配程式庫之選用引數。

QoS監視模組904可經組態以擴增核心中之記憶體管理模組，以持續追蹤不同類型之異質記憶體的動態使用。經擴增之記憶體管理模組可基於QoS提示而判定所請求記憶體至記憶體分區1004、1006及1008中之一者的適當分配。

應瞭解，無需使用QoS值。在缺乏任何QoS值之情況下，QoS監視模組904可基於初始執行階段效能來判定適當記憶體分區以用於分配應用程式所請求之記憶體。若(例如)應用程式906之執行階段效能基於當前記憶體分區分配而受到影響，則可在分區之間動態地移位記憶體分區1004、1006及1008。在缺乏QoS參數之情況下，QoS監視模組904可藉由追蹤存取相對較大之鄰接厚塊抑或隨機存取而持續追蹤程序及/或執行緒之記憶體存取效能。每一存取叢發之間的時間間隙可用以估計QoS參數。

QoS監視模組904可經進一步組態以在特定程序/執行緒處於待決/等待階段中時將用於該特定程序或執行緒之所分配記憶體調換至最佳地匹配所估計QoS之相關記憶體分區。可在執行狀態期間避免將所分配記憶體調換至不同分區，以取捨在主動執行期間之額外負荷。

在實施所估計QoS之實施例中，QoS監視模組904可經組態以匹配當前所分配記憶體分區。QoS監視模組904可監視執行緒/程序以發現記憶體存取行為之未來改變。監視程序之頻率可依據需要而變化。或者，QoS監視模組904可基於系統900上之總體活動性而消除進一步監視，從而減少監視程序之額外負荷。

應瞭解，可實施各種硬體結構，該等硬體結構經組態以出於判定所估計QoS之目的而提取程序/執行緒之記憶體存取行為/型樣，從而將記憶體分配映射至適當記憶體分區。此外，當特定程序/執行緒內之不同分配可經分配至QoS滿足更廣泛範圍之不同記憶體分區時，記憶體分區分配可為更精細的。舉例而言，一些組件可更適合於高頻寬串流資料，該資料相較於(例如)快速隨機存取、但低頻寬記憶體由於需要高輸送量而可免於較高延時。

圖11說明用於整合上文所描述之QoS服務中之一或多者與記憶體通道最佳化模組102的系統1100之另一實施例。此方法對於適應可能不與由HLOS 902提供之QoS解決方案相容的舊版應用程式906可為需要的。在此實施例中，記憶體通道最佳化模組102進一步包含以操作方式耦接至上文所描述之通道重映射模組400的QoS監視模組904。

圖12說明用於根據上文所描述之交錯及重映射方法在系統900(圖9)抑或系統1100(圖11)中動態地分配記憶體的方法1200。在區塊1202處，判定交錯頻寬比率。如上文所描述，交錯頻寬比率可包含兩個或兩個以上相異記憶體類型或裝置之頻寬的比率。在區塊1204處，根據在區塊1202處判定之交錯頻寬比率使相異記憶體類型或裝置交錯。可實施上述交錯方法或其他交錯方法中之任一者以界定兩個或兩個以上記憶體分區(例如，分區1004、1006及1008)，其中每一記憶體分區具有不同效能等級及/或密度等級。在區塊1206處，HLOS 902及/或記憶體通道最佳化模組102可自應用程式906(或其他用戶端)接收記憶體位址請求。作為回應，基於經宣告之QoS(例如，經由API 1002)抑或所估計QoS將記憶體分配至適當記憶體分區。

在圖13中所說明之實施例中，可使用對應於API 1002之「malloc」(亦即，記憶體分配)來實施經宣告之QoS。遵循使用2：1之交錯頻寬比率之以上實例(圖7)，DRAM裝置104a可包含習知地經最佳化以用於GPU 106之一對0.5GB記憶體裝置702及704，其具有34GB/s之高效能頻寬。DRAM裝置104b可包含習知地經最佳化以用於CPU 108 之1GB記憶體裝置706及2GB記憶體裝置708，其各自具有17GB/s之較低頻寬。多層交錯技術可建立兩個經交錯分區710及712，以及一非交錯分區714。分區710可經4路交錯，以提供在102GB/s之組合頻寬下的組合1.5GB。分區712可經2路交錯，以提供在34GB/s下之組合1.5GB。分區714可未經交錯，以提供在17GB/s下之1GB。應瞭解，QoS可應用於記憶體分配函式之所有不同變體，且「malloc」僅用作一個可能實例。

第一malloc函式1302可用於宣告與(例如)經4路交錯之記憶體分區710相關聯的第一QoS。第二malloc函式1304可用於宣告與(例如)經2路交錯之分區712相關聯的第二QoS。第三malloc函式1306可用於宣告與(例如)非交錯分區1306相關聯之第三QoS。

應瞭解，本文中所描述之方法步驟中的一或多者可作為電腦程式指令(諸如，上文所描述之模組)儲存於記憶體中。此等指令可藉由任何合適處理器與對應模組結合或合作地執行以執行本文中所描述的方法。

本說明書中所描述之程序或程序流程中之某些步驟本質上先於其他步驟以使本發明如所描述而起作用。然而，若所描述之步驟之次序或序列不更改本發明之功能性，則本發明不限於該次序。亦即，認識到，在不脫離本發明之範疇及精神的情況下，一些步驟可在其他步驟之前執行、在其他步驟之後執行，或與其他步驟並行地(實質上同時地)執行。在一些例子中，可在不脫離本發明之情況下省略或不執行某些步驟。另外，諸如「此後」、「接著」、「接下來」等之詞語不意欲限制步驟之次序。此等詞語僅用以經由例示性方法之描述而指導讀者。

另外，一般熟習程式設計者能夠撰寫電腦程式碼或識別適當硬體及/或電路，以基於(例如)本說明書中之流程圖及相關聯描述而無困難地實施所揭示之本發明。

因此，程式碼指令或詳細硬體裝置之特定集合之揭示內容未被視為對恰當地理解如何製造及使用本發明為必要的。所主張電腦實施程序之本發明功能性在以上描述中且結合可說明各種程序流程之諸圖予以更詳細地解釋。

在一或多個例示性態樣中，所描述之功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施，則該等功能可作為一或多個指令或程式碼在一電腦可讀媒體上儲存或傳輸。電腦可讀媒體包括電腦儲存媒體及通信媒體(包括促進電腦程式自一處傳送至另一處的任何媒體)兩者。儲存媒體可為可藉由電腦存取之任何可用媒體。藉由實例而非限制，此類電腦可讀媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置，或可用以攜載或儲存呈指令或資料結構之形式的所要程式碼且可由電腦存取的任何其他媒體。

又，將任何連接恰當地稱為電腦可讀媒體。舉例而言，若使用同軸電纜、光纖纜線、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波之無線技術而自網站、伺服器或其他遠端源傳輸軟體，則同軸電纜、光纖纜線、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括於媒體之定義中。

如本文所使用，磁碟及光碟包括緊密光碟(「CD」)、雷射光碟、光碟、數位影音光碟(「DVD」)、軟性磁碟及藍光光碟，其中磁碟通常以磁性方式再現資料，而光碟用雷射以光學方式再現資料。以上各物之組合亦應包括於電腦可讀媒體之範疇內。

在不脫離本發明之精神及範疇的情況下，用於管理相異記憶體裝置之方法及系統的替代實施例對於一般熟習本發明關於之技術者將變得顯而易見。因此，儘管已詳細說明並描述了選定態樣，但應理解，在不脫離如由以下申請專利範圍界定之本發明之精神及範疇的情況下，可在其中作出各種替代及更改。