TWI390403B

TWI390403B - 串流處理架構中可重組式記憶體方法及裝置

Info

Publication number: TWI390403B
Application number: TW097142837A
Authority: TW
Inventors: You Ming Tsao; Liang Gee Chen; Shao Yi Chien
Original assignee: Univ Nat Taiwan
Priority date: 2008-11-06
Filing date: 2008-11-06
Publication date: 2013-03-21
Also published as: US20100115238A1; US8086824B2; TW201019115A

Description

串流處理架構中可重組式記憶體方法及裝置

本發明是有關於一種記憶體方法及裝置，特別是指一種串流處理架構中可重組式記憶體方法及裝置。

目前的多媒體應用(如影像、視訊或音訊處理)通常具有大量平行計算以及資料移動之特性。於是，串流處理模型已被建議用來探究計算層級平行性及資料移動潛時。為了進一步吸收資料潛時，多執行緒架構也被用在串流系統中。

參閱圖1所顯示的多執行緒串流管線之理論層級。如圖1中所示，一特定應用可被分成許多串流工作(Stream Task)11。所有的串流工作11被管線化，且先進先出(First In First Out，FIFO)13結構被用來平衡管線。此種串流架構的設計挑戰在於整個晶片之大量外部頻寬以及管線不平衡性。此將導致效能及硬體使用性上的降低。

參閱圖2，其說明將圖形應用映射至串流處理管線的一範例。如圖2所示，若輸入頂點緩衝區20中輸入頂點之速度比幾何串流工作21之處理速度慢，則整個管線將閒置以等待串流資料的饋入。另一方面，從圖2可看出在幾何串流工作21站與像素串流工作22站之間有許多工作單元，因此難以達成這兩個站間的最佳化連接FIFO緩衝區23。

在上述圖2將圖形應用映射至串流處理管線的範例中，頂點快取是被建議用來降低3D圖形處理器的記憶體頻寬的習知技術之一，且其理論是為了防止在頂點已被載入快取(稱為預先TnL快取)內時需額外的頂點資料傳遞。此外，該處理過的頂點結果可在後TnL快取中被再次使用。該預先TnL快取為幾何處理器之前端，且其需藉由叢發模式(Burst Mode)預取一些連續頂點資料，以從資料局部性中獲益。曾有先前的研究將32個項(Entry)組織成8個槽(Slot)，且在快取未命中(Miss)時，整個槽會以FIFO方式的新資料來取代。另一方面，該後TnL頂點快取維持16個項(被分成4個槽)，且取代方案也是以FIFO方式。上述預先TnL快取及後TnL快取都使用了16位元索引來識別某些資料是否已被提取或處理。取決於應用的不同，需要改變輸入/輸出頂點資料大小。然而，上述傳統快取設計中的記憶體緩衝區總是專用的，亦即，緩衝區的大小總是以最差狀況來考慮，且資料總是被組織在晶片上SRAM組內的固定位置。因此，由於缺乏彈性，可能導致某些應用中浪費了大量記憶體。

再者，為了最大化幾何處理器的硬體使用，若執行緒愈是同時發生，則愈佳。於是，利用多執行緒技術，可隱藏記憶體存取或多循環指令所導致的潛時。然而，習知均質(Homogenous)執行緒可重組性並無法提供較多的循環以隱藏記憶體潛時且平衡管線。

因此，鑑於圖2多媒體多執行緒串流處理架構具有如上缺失，故有必要尋求解決之道。

因此，本發明之目的，即在提供一種串流處理架構中可重組式記憶體裝置。

於是，本發明串流處理架構中可重組式記憶體裝置供一串流處理器提取串流資料，並包含一輸入串流緩衝區、一可重組式記憶體陣列及一輸出串流緩衝區。該輸入串流緩衝區，用以暫存一輸入串流資料。該可重組式記憶體陣列包括複數做為至少一快取區之實體記憶體組，其中來自該輸入串流緩衝區的輸入串流資料暫存於該快取區中，以供至少一串流處理工作站提取而用於處理複數串流執行緒之用，且該快取區可基於該等串流處理執行緒之實際需要狀況而被重組。該輸出串流緩衝區用以接收並暫存該可重組式記憶體陣列所輸出的一輸出串流資料。

本發明之另一目的，即在提供一種串流處理架構中可重組式記憶體方法。

於是，本發明串流處理架構中可重組式記憶體方法供一串流處理器提取串流資料，並包含下列步驟：(a)暫存一輸入串流資料於一輸入串流緩衝區中；(b)提供一包括複數做為至少一快取區之實體記憶體組之可重組式記憶體陣列，其中來自該輸入串流緩衝區的輸入串流資料暫存於該快取區中；(c)至少一串流處理工作站提取暫存於該快取區中的輸入串流資料，以用於處理複數串流執行緒之用，其中該快取區可基於該等串流處理執行緒之實際需要狀況而被重組；以及(d)一輸出串流緩衝區接收並暫存該可重組式記憶體陣列所輸出的一輸出串流資料。

本發明之功效在於，可最佳化硬體資源之使用，且可達成高快取命中率，以降低所需的外部頻寬。

有關本發明之前述及其他技術內容、特點與功效，在以下配合參考圖式之一個較佳實施例的詳細說明中，將可清楚的呈現。

參閱圖3，本發明之較佳實施例中提出了一種利用可重組式記憶體陣列(Configurable Memory Array，CMA)33之串流處理模型，以解決上述先前技術中所提到的在習知多媒體多執行緒串流處理架構中所面臨的問題。在本發明之可重組式記憶體陣列架構中，使用了串流索引快取(Stream Index Cache)機制來降低外部頻寬，且使用了異質執行緒層級間可重組性(Heterogenous Thread Inter Level Configurability)來提供最佳的管線站平衡。需特別提出的是，該實施例是以用於影像應用中的幾何處理器為例，但本發明不限於用在影像應用，而是也可應用在其他多媒體串流處理應用中，例如視訊或音訊處理等。

參閱圖3以及圖4所示的串流資料組織與晶片上執行緒資源。圖3所示的串流處理模型具有一核心執行單元(Kernel Execution Unit，圖未示)，其以相同程序處理所有輸入頂點串流資料。此等輸入頂點串流資料由許多串流元素311組成，且被組織在輸入頂點緩衝區31中。每一串流元素311具有一串流索引321。為了提取某些所需的串流資料，串流處理器必須存取這些儲存在索引緩衝區32內的串流索引321。在由核心程式處理後，輸出像素串流資料結果會被儲存回該輸入頂點緩衝區31中，以等待被用做某些重複操作的輸入頂點串流資料，於是最後可獲得最終輸出像素結果。

如圖4所示，串流資料由數個多邊形圖形物件(頂點)組成。每一多邊形圖形的頂點即為串流元素311(如第4圖中標示A~F的六個串流元素311)，且以串流索引321(如第4圖中標示1~6的六個串流索引321)標示。每一串流元素311由許多元素屬性組成，且被載入到晶片上記憶體池30中的串流元素311在本發明中可稱為執行緒300。每一執行緒300不僅需被配置輸入屬性暫存器301，也需被配置暫時暫存器302及輸出屬性暫存器303。

如前面的先前技術段落中所述，圖2中習知專用FIFO緩衝區23是被設計用於最差狀況，而圖3本發明中的可重組式記憶體陣列33則是可改變組態情況，以在不同應用中皆可有效率地使用記憶體。

參閱圖5~7，為了更清楚地描述此一問題，圖5~7提供示意性說明，以說明圖2中習知專用FIFO緩衝區23與本發明中可重組式記憶體陣列33間的差別。如圖5所示，有4個執行緒300被置於SRAM記憶體組中，且每一執行緒具有16個屬性。當使用圖2習知專用FIFO緩衝區23，且如圖6所示，假設特定應用中每一執行緒僅用掉8個屬性時，將導致50%的未使用記憶體空間，明顯造成極大的浪費。另一方面，如圖3、7所示，由於本發明中的可重組式記憶體陣列33是設計用於最差狀況及最佳狀況，因此程式設計師可重新組配該可重組式記憶體陣列33，以達成最高的硬體效率。藉由重組該可重組式記憶體陣列33，可具有較多的均質執行緒，而不需增加任何額外的實體記憶體，且此種組配可稱為層級內重組(Intra Level Configuration)。

此外，對於圖3所示的圖形應用而言，通常在整個管線中可分成數個不同串流工作，如圖3中所示的幾何串流工作34、幾何至像素工作35以及像素串流工作36之不同站。而本發明更可提供層級間重組(Inter Level Configuration)。這代表本發明中的可重組式記憶體陣列33可重組不同站的FIFO組態，以符合不同站的通量需求。

參閱圖3、8，本發明中的可重組式記憶體陣列33是由數組的實體記憶體組成。如圖8所示之本發明中的可重組式記憶體陣列33架構之較佳實施例中，對於圖形應用使用了8個記憶體組(Bank)330的可重組式記憶體陣列33。其中，有兩個存取通道331及332分別用於頂點及像素執行緒。由圖8中可看出，位址產生單元(Address Generation Unit，AGU)333將兩個存取通道331及332的邏輯位址映射為實際實體記憶體位址，並觸動致能信號334至相關記憶體組330。

參閱圖4、9、10，其繪示本發明可重組式記憶體陣列的層級間重組。如圖9、10所示，所有8個SRAM記憶體組330被用來儲存頂點或像素執行緒，且分別如圖9及圖10所示，有兩種層級間重組模式，即4個頂點記憶體組 330與4個像素記憶體組330(4V4P)，以及6個頂點記憶體組330與2個像素記憶體組330(6V2P)。取決於每一執行緒內的串流屬性數目，每一個記憶體組330可包含2或4個串流執行緒。此外，在每一個記憶體組330內部提供了層級內重組性。至於，記憶體組330內的三種暫存器資源可取決於特定應用而進行重組。當該特定應用對於輸入串流元素311需要較多的輸入屬性時，該記憶體組330可被分割用於較多的輸入暫存器301，並減少暫時暫存器302。再者，由於本發明中對某一執行緒300的暫存器需求較小，因此本發明可配置剩餘的記憶體給其他執行緒300，以提高記憶體的使用率，如圖7所示。圖9、10所示的兩種執行緒300之組態如表1所示。如表1所示，在晶片內最少同時可有8個頂點與8個像素執行緒，且最多同時可有16個頂點與16個像素執行緒。本發明的此種組態可由特定應用來決定，且可在執行期間被載入至組態暫存器中。

參閱圖4、8，該位址產生單元333將三種暫存器(即輸入屬性暫存器301、輸出屬性暫存器303及暫時暫存器302)的邏輯暫存器位址加以解譯，以控制對應的記憶體組330。此種解譯是基於邏輯位址、組態位址及目前執行緒索引，如以下方程式所示：實體位址=Intra Base Reg＋Inter Offset Reg[idx]×2^{Addr_Sft_1_Reg} ＋邏輯位址×2^{Addr_Sft_0_Reg}

上述方程式中，有四個組態暫存器：Intra Base Reg、Inter Offset Reg、Addr_Sft_1_Reg，以及Addr_Sft_0_Reg。該Intra Base Reg暫存器將不同種類的異質執行緒分開，此處其代表分開的頂點及像素執行緒；該Inter Offset Reg暫存器指向每一執行緒的起始項；該Addr_Sft_1_Reg暫存器及Addr_Sft_0_Reg暫存器提供資料對齊可重組性，以滿足不同的資料存取類型。

參閱圖3、11，其繪示本發明串流處理架構中可重組式記憶體方法及裝置之較佳實施中所用到的串流索引快取之架構。如圖11中所示，串流索引對串流元素進行標記。串流管線使用該串流索引直接提取該串流元素。每一串流索引包括一可用旗標336及一命中計數338。該可用旗標336用以指示在該快取區339(圖3)內是否有對應串流處理執行緒可供提取。該命中計數338用以指示正在該串流處理工作站中被處理的同一串流處理執行緒之數目。

如圖11中所示，本發明中的可重組式記憶體陣列33使用索引標籤335來儲存被提取的串流元素之資訊。若在索引標籤335中可發現所需的串流索引，則表示可在可重組式記憶體陣列33中命中(Hit)所需的串流元素，且可節省額外的剩餘記憶體頻寬。圖11中的可用(Valid)旗標336代表對應的執行緒是否可用。每當串流索引命中的情形發生時，該執行緒的命中計數338會加1。一旦該執行緒已被處理且被送出至下一串流工作站，則該命中計數338會減1。只有在執行緒的命中計數338減少至零的情況下，執行緒的可用旗標336才會關閉。藉由使用此機制，不僅命中的串流頻寬可降低，且也可再次使用命中的執行緒處理結果。因此，此串流索引快取能夠達到與習知預先/後TnL頂點快取完全相同的效能，但卻不限於圖形應用。

參閱圖12~15，其說明本發明較佳實施中所用到的串流索引快取可達成與預先/後TnL頂點快取相同之功能。如圖12~15中所示，對於一個以連續三角形構成的物件，目前的三角形總是能夠命中前一個三角形的兩個頂點。其命中率可達到66%。

歸納上述，本發明串流處理架構中可重組式記憶體方法及裝置由於具有兩種層級可重組性(層級間以及層級內)，故可最佳化硬體資源之使用；且本發明較佳實施例中由於使用了串流索引快取機制，故可達成高快取命中率，以降低所需的外部頻寬，故確實能達成本發明之目的。

惟以上所述者，僅為本發明之較佳實施例而已，當不能以此限定本發明實施之範圍，即大凡依本發明申請專利範圍及發明說明內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。

30‧‧‧晶片上記憶體池

331‧‧‧存取通道

300‧‧‧執行緒

332‧‧‧存取通道

301‧‧‧輸入屬性暫存器

333‧‧‧位址產生單元

302‧‧‧暫時暫存器

334‧‧‧致能信號

303‧‧‧輸出屬性暫存器

335‧‧‧索引標籤

31‧‧‧輸入頂點緩衝區

337‧‧‧可用旗標

311‧‧‧串流元素

338‧‧‧命中計數

32‧‧‧索引緩衝區

339‧‧‧快取區

321‧‧‧串流索引

34‧‧‧幾何串流工作

33‧‧‧可重組式記憶體陣列

35‧‧‧幾何至像素工作

36‧‧‧像素串流工作

330‧‧‧記憶體組

圖1是一示意圖，說明一習知串流處理管線；圖2是一示意圖，說明將圖形應用映射至圖1之習知串流處理管線；圖3是一示意圖，說明本發明可重組式記憶體裝置之概念；圖4是一示意圖，說明本發明之一較佳實施例中的串流資料組織以及晶片上執行緒資源；圖5是一示意圖，說明習知4個執行緒被置於SRAM記憶體組中，且每一執行緒具有16個屬性之情況；圖6是一示意圖，說明當使用圖2習知專用FIFO緩衝區23，且假設特定應用中每一執行緒僅用掉8個屬性時，將導致50%的未使用記憶體空間，明顯造成極大浪費之情況；圖7是一示意圖，說明本發明較佳實施例中可重組式記憶體陣列是設計用於最差狀況及最佳狀況，因此程式設計師可重新組配該可重組式記憶體陣列，以達成最高的硬體效率；圖8是一示意圖，說明本發明較佳實施例中可重組式記憶體陣列之架構；圖9是一示意圖，說明本發明較佳實施例中4V4P模式之層級間組態；圖10是一示意圖，說明本發明較佳實施例中6V2P模式之層級間組態；圖11是一示意圖，說明本發明較佳實施例中串流索引快取之架構；圖12是一示意圖，說明本發明較佳實施例中索引標籤之狀態的改變，其中第一個三角形進入可重組式記憶體陣列；圖13是一示意圖，說明本發明較佳實施例中索引標籤之狀態的改變，其中第二個三角形進入可重組式記憶體陣列；圖14是一示意圖，說明本發明較佳實施例中索引標籤之狀態的改變，其中第一個三角形離開可重組式記憶體陣列；以及圖15是一示意圖，說明本發明較佳實施例中索引標籤之狀態的改變，其中第二個三角形離開可重組式記憶體陣列。

31‧‧‧輸入頂點緩衝區

34‧‧‧幾何串流工作

33‧‧‧可重組式記憶體陣列

35‧‧‧幾何至像素工作

36‧‧‧像素串流工作

Claims

一種串流處理架構中可重組式記憶體裝置，供一串流處理器提取串流資料，該可重組式記憶體裝置包含：一輸入串流緩衝區，用以暫存一輸入串流資料；一可重組式記憶體陣列，包括複數做為至少一快取區之實體記憶體組，其中來自該輸入串流緩衝區的輸入串流資料暫存於該快取區中，以供至少一串流處理工作站提取而用於處理複數執行緒之用，且該快取區可基於該等執行緒之實際需要狀況而被重組，其中針對同一實體記憶體組內的均質執行緒在該實體記憶體組內之重組為層級內重組，且針對不同實體記憶體組間的異質執行緒在該等實體記憶體組間之重組為層級間重組；以及一輸出串流緩衝區，用以接收並暫存該可重組式記憶體陣列所輸出的一輸出串流資料。
依據申請專利範圍第1項所述之串流處理架構中可重組式記憶體裝置，其中該輸入串流資料為影像串流資料。
依據申請專利範圍第1項所述之串流處理架構中可重組式記憶體裝置，其中該輸入串流資料為視訊串流資料。
依據申請專利範圍第1項所述之串流處理架構中可重組式記憶體裝置，其中該輸入串流資料為音訊串流資料。
依據申請專利範圍第1項所述之串流處理架構中可重組式記憶體裝置，其中該快取區內的輸入串流資料包括複數串流元素，每一串流元素以一串流索引加以標記，且該可重組式記憶體陣列更包括一儲存該串流索引之索引緩衝區，該串流處理器藉由存取該索引緩衝區內的串流索引，可提取對應串流元素為對應執行緒。
依據申請專利範圍第5項所述之串流處理架構中可重組式記憶體裝置，其中每一串流索引包括一可用旗標及一命中計數，該可用旗標用以指示在該快取區內是否有對應執行緒可供提取，該命中計數用以指示正在該串流處理工作站中被處理的同一執行緒之數目。
一種串流處理架構中可重組式記憶體方法，供一串流處理器提取串流資料，該可重組式記憶體方法包含下列步驟：(a)暫存一輸入串流資料於一輸入串流緩衝區中；(b)提供一包括複數做為至少一快取區之實體記憶體組之可重組式記憶體陣列，其中來自該輸入串流緩衝區的輸入串流資料暫存於該快取區中；(c)至少一串流處理工作站提取暫存於該快取區中的輸入串流資料，以用於處理複數串流執行緒之用，其中該快取區可基於該等執行緒之實際需要狀況而被重組，其中針對同一實體記憶體組內的均質執行緒在該實體記憶體組內之重組為層級內重組，且針對不同實體記憶體組間的異質執行緒在該等實體記憶體組間之重組為層級間重組；以及(d)一輸出串流緩衝區接收並暫存該可重組式記憶體陣列所輸出的一輸出串流資料。
依據申請專利範圍第7項所述之串流處理架構中可重組式記憶體方法，其中在該(a)步驟中，該輸入串流資料為影像串流資料。
依據申請專利範圍第7項所述之串流處理架構中可重組式記憶體方法，其中在該(a)步驟中，該輸入串流資料為視訊串流資料。
依據申請專利範圍第7項所述之串流處理架構中可重組式記憶體方法，其中在該(a)步驟中，該輸入串流資料為音訊串流資料。
依據申請專利範圍第7項所述之串流處理架構中可重組式記憶體方法，其中在該(c)步驟中，該快取區內的輸入串流資料包括複數串流元素，每一串流元素以一串流索引加以標記，且該可重組式記憶體陣列更包括一儲存該串流索引之索引緩衝區，該串流處理器藉由存取該索引緩衝區內的串流索引，可提取對應串流元素為對應執行緒。
依據申請專利範圍第11項所述之串流處理架構中可重組式記憶體方法，其中在該(c)步驟中，每一串流索引包括一可用旗標及一命中計數，該可用旗標用以指示在該快取區內是否有對應執行緒可供提取，該命中計數用以指示正在該串流處理工作站中被處理的同一執行緒之數目。