TW201411481A

TW201411481A - 具有在硬體中的分支計數表的指令最佳化處理器

Info

Publication number: TW201411481A
Application number: TW102117654A
Authority: TW
Inventors: Rupert Brauch; Madhu Swarna; Ross Segelken; David Dunn; Ben Hertzberg
Original assignee: Nvidia Corp
Priority date: 2012-05-18
Filing date: 2013-05-17
Publication date: 2014-03-16
Also published as: US10241810B2; DE102013206381A1; US20130311752A1; CN103425458A; TWI515652B

Abstract

一種包括一微處理器核心與一轉譯器之處理系統。在該微處理器核心內設有一硬體解碼器與一邏輯結構，該硬體解碼器選擇性解碼用於在該微處理器核心中執行的指令，且該邏輯結構追蹤該硬體解碼器的使用。該轉譯器操作性耦接於該邏輯結構，且根據該邏輯結構所決定之該硬體解碼器的該使用，以選擇性轉譯用於在該微處理器核心中執行的該等指令。

Description

具有在硬體中的分支計數表的指令最佳化處理器

本發明係關於具有在硬體中的分支計數表的指令最佳化處理器。

電腦的中央處理單元(CPU,central processing unit)或圖形處理單元(GPU,graphics processing unit)可包括微處理器。微處理器可執行編譯至其原生指令集結構(ISA,instruction-set architecture)以及編譯至某些非原生ISA的碼。

當微處理器遇到非原生指令時，非原生指令的區塊可轉換成原生指令並且亦可最佳化，例如，以增加執行的速度。對應於原始非原生指令之原生指令的最佳化區塊可儲存在指令快取中，以供未來使用。但是，碼最佳化可能需要顯著的運算力。最佳化微處理器遇到的每一碼區塊可能在某些系統中呈現無法接受的性能負載。

一具體實施例提供一處理系統，該處理系統具有一微處理器核心、一硬體解碼器、一轉譯器、與一專用邏輯結構，該專用邏輯結構追蹤該硬體解碼器的使用。在該微處理器核心內設置的該硬體解碼器選擇性解碼用於在該微處理器核心中執行的指令。該轉譯器是操作性耦接於該邏輯結構，且根據由該邏輯結構所決定之該硬體解碼器的使用，選擇性轉譯用於在該微處理器核心中執行的該等指令。

上述總結是提供以簡化形式介紹本發明之選取部分，並非用於指定出關鍵或重要特徵。由申請專利範圍定義之所主張的技術內容不侷限於此總結的內容，亦不侷限於解決在此提到之任何問題或缺點的實施。

10‧‧‧處理系統

12‧‧‧微處理器

14‧‧‧指令記憶體

16‧‧‧資料記憶體

18‧‧‧核心

20‧‧‧第三階(L3)快取

22‧‧‧第二階(L2)快取

24‧‧‧指令拾取單元

30‧‧‧L1指令快取

32‧‧‧轉譯位址快取(THASH)

34‧‧‧硬體解碼器

40‧‧‧執行單元

42‧‧‧記憶體存取

46‧‧‧L1資料快取

48‧‧‧轉譯管理器

50‧‧‧處理管線

52‧‧‧拾取階段

54‧‧‧解碼階段

56‧‧‧執行階段

58‧‧‧記憶階段

60‧‧‧寫回階段

62‧‧‧轉譯器

63‧‧‧非原生指令的特定區塊

64‧‧‧原生指令的功能相等區塊

64‧‧‧已轉譯且最佳化的碼區塊

66‧‧‧追蹤快取

68‧‧‧分割區

70‧‧‧方法

78‧‧‧方法

82‧‧‧分支計數管理器

84‧‧‧分支計數表(BCT)

84A‧‧‧BCT

84B‧‧‧BCT

88A‧‧‧暫存器

88B‧‧‧暫存器

90‧‧‧雜湊邏輯

92‧‧‧選擇邏輯

94‧‧‧選擇邏輯

96‧‧‧遞減單元

98‧‧‧零時中斷單元

100‧‧‧選擇邏輯

102‧‧‧BCT_INIT_COUNT暫存器

104‧‧‧ENABLE_MTS_BRANCH_THRESHOLD暫存器

106‧‧‧BCT_FLASH_INVAL暫存器

107‧‧‧方法

圖1示意顯示根據本發明之一具體實施例之一範例處理系統。

圖2示意顯示根據本發明之一具體實施例之一範例處理管線。

圖3例示根據本發明之一具體實施例之用於執行非原生指令碼之方法。

圖4示意顯示根據本發明之一具體實施例之一範例分支計數管理器。

圖5與6示意顯示根據本發明之具體實施例之範例分支計數表。

圖7例示根據本發明之一具體實施例之用於執行非原生指令碼之另一方法。

現在將藉由範例及參照上面列出的例示具體實施例來敘述本發明的態樣。在一或多個具體實施例中實質相同的元件是認為等同並簡單敘述。但是，應注意，等同識別的元件在某種程度上亦可能不同。本說明書文後的申請專利範圍同等定義在此主張的技術內容。申請專利範圍未侷限於下面提出的範例結構或數值範圍，亦不侷限於解決在此確認的目前最新發展技術之問題或缺點的實施。

圖1顯示處理系統10的態樣，例如，個人電腦、遊戲系統、或智慧型手機的中央處理單元或圖形處理單元。例示的處理系統包括微處理器12，該微處理器12操作性耦接於指令記憶體14與資料記憶體16。圖1的微處理器包括核心18。雖然圖式只顯示一微處理器核心，但本發明可適用於多重核心處理器與處理系統。

指令記憶體14與資料記憶體16各自可由微處理器透過一階層式記憶體快取系統而讀取與寫入。在例示的具體實施例中，記憶體快取系統包括核心外的第三階(L3)快取20與核心上的第二階(L2)快取22，還有指令與資料特定第一階(L1)快取，如下述。在其他具體實施例中，記憶體快取系統可包括任何階數，其中該等階可於晶片上或晶片外(on-or off-chip)。記憶體快取系統可操作性耦接於記憶體控制器(圖式未示)，其亦可在晶片上或晶片外。實施在任何適合變化的隨機存取記憶體中，指令與資料記憶體可對應於不同的實體記憶體結構或對應於相同實體記憶體結構的不同部分。在某些具體實施例中，指令與資料記憶體亦可包括唯讀記憶體(ROM)。

參考圖1，核心18包括指令拾取單元(IFU,instruction fetch unit)24，其從指令記憶體14擷取指令。例如，在任何給定時間所要擷取的指令可由目前指令指標(IP,instruction pointer)來決定。在圖1例示的具體實施例中，IFU包括L1指令快取30，用於快取所擷取的指令。IFU亦可包括轉譯位址快取(THASH,translation-address cache)32，其敘述於下。

IFU 24可擷取各式的指令碼。除了核心18的執行單元可原生執行的指令之外，指令拾取單元亦可擷取編譯至非原生指令集結構(ISA,instruction-set architecture)的指令。此非原生指令可能需要解碼或轉譯成原生ISA，以由執行單元辨識。為此，處理系統10包括硬體解碼器34。當IFU擷取一非原生指令時，其透過硬體解碼器發送該指令至執行單元40。當IFU擷取原生指令時，該指令會略過硬體解碼器，直接發送至執行單元。例如，執行單元可包括整數及/或浮點元件。

硬體解碼器34是一設置於核心18的邏輯結構，且選擇性解碼用於該核心中執行的指令。特別地，硬體解碼器解碼由IFU 24擷取的非原生指令。硬體解碼器剖析(parse)該非原生指令的運算碼(op-codes)、運算碼元(operands)、與定址模式，及產生一功能等效但非最佳化的原生指令集。

參考圖1，執行單元40從IFU 24或從硬體解碼器34接收原生可執行的指令。在一具體實施例中，微處理器12可為一所謂的依序(in-order)處理器，其中指令是以實質上相同的順序擷取與執行，即是，在排程器中不需重新排序。在例示的具體實施例中，執行單元亦提供硬體支援給轉譯管理器48，如下述。

當指令在核心18的執行單元中執行時，一連串的邏輯及/或算術結果牽涉於其中。執行單元的寫回邏輯儲存這些結果在核心的適合暫存器中。在一些具體實施例中，記憶體存取42具有透過L1資料快取46實行來回於資料記憶體16的儲存及載入操作的互斥工作。

處理系統10的基本功能可用處理管線的形式來呈現。圖2示例顯示一範例處理管線50。在拾取階段52，IFU 24從指令記憶體14讀取非原生指令。在解碼階段54，硬體解碼器34解碼非原生指令成對應的原生指令。在執行階段56，執行單元運算該指令的邏輯或數值結果。在記憶階段58，根據該指令的結果，從資料記憶體16讀取或寫入資料記憶體16。在寫回階段60，再次根據該指令的結果，寫入該微處理器核心的適合暫存器。

在一些實施例中，管線50每次只處理一指令。在一或多個時脈週期期間，將要處理的指令會只占用管線的一階段，留下其餘未用的階段。為了增加指令的處理量，可同時使用管線的兩或多個階段以處理兩或多個指令。在理想的「量級(scalar)」執行中，可拾取第一指令、解碼第二指令、運算第三指令的結果、記憶第四指令的結果、以及第五指令的結果寫回至暫存器檔案，所有這些都在相同時脈週期中執行。圖2的態樣應不認為是限制，其他多種變化亦在本發明所欲涵蓋的範圍中。例如，在一些處理系統中，執行階段56可在記憶階段58之前。

如上述，除了微處理器12的原生ISA之外，處理系統10可執行符合一或多個非原生ISA的指令。處理系統10可執行之非原生ISA的一例示範例是64位元進階RISC機器(ARM,Advanced RISC Machine)指令集；另一範例是x86指令集。實際上，非原生ISA的全部範圍可包括精簡指令集運算(RISC,reduced instruction-set computing)與複雜指令集運算(CISC,complex instruction-set computing)ISA、超長指令字(VLIW,very long instruction-word)ISA、與類似者。執行選定非原生指令的能力提供處理系統的實際優勢，其中處理系統可用於執行針對預先存在處理系統所編譯的碼。

參考圖1，硬體解碼器34提供將非原生指令轉換成一連串功能等效原生指令所需之基本邏輯結構。但是，處理輸出量受限於硬體解碼器所輸出之已轉換但非最佳化碼所能執行之速度。因此，圖1所示的處理系統亦包括轉譯管理器48。類似於硬體解碼器，轉譯管理器剖析非原生指令的運算碼、運算元、與定址模式，及產生一連串功能等效的原生指令。但是，轉譯管理器主要是一軟體結構；轉譯管理器使用在核心18上執行的已編程演算法轉譯非原生指令。在圖1的具體實施例中，轉譯器62是轉譯管理器的核心轉譯服務；在一具體實施例中，轉譯管理器可包括動態二元轉譯器。轉譯管理器的其他態樣與轉譯器可存在於指令記憶體14中。

選擇性地，轉譯器62可最佳化以及轉譯非原生指令的特定區塊63。原則上，非原生指令可轉換成原生指令的功能等效區塊64，針對處理系統10的執行速度最佳化。選替性地，已轉譯的指令可最佳化以減少功率消耗。在此考慮的具體實施例中，最佳化的各種模式都可用於轉譯器。這些模式包括在所謂非依序處理系統中的共同特徵，例如暫存器重新命名與指令重新排序，其中最佳化區塊的個別指令係關於非原生區塊的對應指令而重新排序。這些提出的特徵為非限制的範例；轉譯器可利用各種技術產生最佳化的原生轉譯。此外，應注意，在此用的術語「區塊」可視為具有虛擬任何長度之一連串指令；並未侷限於在本技術領域中熟知的所謂「基本區塊」。

在一些具體實施例中，轉譯管理器48可將已轉譯及最佳化的碼區塊64儲存在追蹤快取66。在圖1例示的具體實施例中，追蹤快取以及轉譯管理器存在於分割區68，其為指令記憶體14的私人、安全部分。追蹤快取中的每一最佳化轉譯可與來自指令記憶體14的非原生指令的對應區塊的IP有關聯。轉譯位址快取(THASH)32是一核心上的硬體重新導引器，允許IFU 24在執行期間存取該等轉譯。

更具體地，IFU 24在擷取非原生指令時可提供該指令的位址給THASH 32。如果存在此一轉譯，THASH將非原生指令的位址與對應之最佳化轉譯的位址產生關聯性。如果在THASH中產生關聯性，則最佳化轉譯的位址回傳給IFU，IFU接著使用該位址從追蹤快取66擷取該最佳化轉譯。該轉譯然後輸送，無需使用硬體解碼器34即可在核心18的執行單元中執行。在已最佳化之原生碼的每一區塊的邊界，轉譯管理器提供給程式人員(programmer)可用的一完全相容結構集的狀態。

圖3例示一範例方法70，用於在一處理系統中執行非原生指令碼，該處理系統具有一硬體解碼器與一轉譯器兩者。此方法藉由連續參照本說明書例示的結構促成及敘述。但是，應瞭解，本說明書所述的方法及在本發明範疇內的其他方法都可藉由不同結構促成。該方法可在處理系統10操作時隨時使用，並可重覆執行。自然地，一方法的每一執行可改變後續執行的進入條件，且藉此啟動複雜的決策邏輯，且都在本發明所欲涵蓋之範圍內。此外，在一些具體實施例中，在此敘述及/或例示之某些程序步驟可省略，而不致悖離本發明之範疇。所指出的程序步驟順序係簡化以說明本發明，應可知程序步驟順序可以更動而仍可達成想要的結果。例示的作動、功能、或操作之一或多者可並行執行、或重覆執行，此取決於所使用的特定策略。

在方法70的步驟72，透過微處理器核心的IFU從指令記憶體14擷取非原生指令碼的一區塊。在一具體實施例中，擷取的指令可包括開始於分支目標位址的碼區塊。在步驟74，判斷硬體解碼是否為此碼區塊所需。硬體解碼可能優於軟體轉譯，因為軟體轉譯的最佳化態樣預期提供較少整體性能改善。例如，如果預期該碼區塊將不常執行，或者有關於最佳化轉譯會有特別高的負載時，硬體解碼可能較好。如果需要硬體解碼，則方法前進至步驟76，其中所擷取的區塊傳送通過硬體解碼器34及解碼作為核心18的執行。但是，如果不需要硬體解碼，則方法前進至步驟78，其中該區塊提交至轉譯管理器48。在硬體解碼器或轉譯管理器中的適當轉換之後，在步驟80，執行對應於非原生碼之所擷取區塊的原生碼。因此，轉譯器所轉譯的指令被執行，硬體解碼器無需進一步處理。方法然後返回步驟72，擷取非原生碼之後續區塊。

自然地，使用轉譯管理器(其為軟體結構)產生最佳化轉譯會有相關的效能負載(performance overhead)。此外，任何最佳化的效能益處會隨著執行最佳化碼(而不是執行較慢、未最佳化的碼)的頻率而調整。因此，提交用於最佳化的較常執行碼且解碼在硬體中的不常執行而不最佳化的碼會是有利的。

原則上，軟體資料結構(例如陣列)可用於追蹤在指令記憶體14中的非原生碼的各種區塊的執行頻率。此陣列可儲存在核心外記憶體(off-core memory)中，且包括共同遇到之分支目標位址的計數以及代表分支目標位址多久被取用的資料。但是，此方法在運行時間(runtime)是耗時的，因為微處理器遇到的每一分支指令可能只是為了更新該陣列，潛在需要重新導向轉譯管理器。

為了解決此問題且提供另外其他優點，如圖1所示，處理系統10包括一分支計數管理器82，其實施於核心18的執行單元40內。分支計數管理器是一微結構邏輯結構，追蹤硬體解碼器的使用，並在非原生區塊已透過硬體解碼而執行一臨界次數之後，觸發非原生區塊的轉譯。如此，分支計數管理器82協助轉譯管理器48識別由該處理系統最常執行的碼區塊，使得該等碼區塊可作為最佳化的目標。

圖4示意顯示一具體實施例之一範例分支計數管理器82。分支計數管理器包括分支計數表(BCT,branch-count table)84，一邏輯結構設置在微處理器核心內，且追蹤硬體解碼器34的使用。在一具體實施例中，BCT可計數非原生碼之一給定區塊透過硬體解碼器的使用被執行多少次。此結構提供快速、有效率的機構，無需啟用軟體即可追蹤硬體解碼器的使用，如下面進一步敘述。因此，轉譯器62可操作性耦接於BCT，且根據BCT所決定之硬體解碼器的使用，選擇性轉譯用於微處理器核心執行的非原生指令。

圖5示意顯示一具體實施例中之一範例BCT 84A。例示的BCT包括複數個暫存器88A，其保持對應的複數個非原生碼區塊的執行計數。如此，該等暫存器之每一者追蹤其對應非原生碼區塊之硬體解碼器的使用。更具體地，每一暫存器可包括一值，該值是用來決定何時要利用轉譯器來選擇性轉譯該等指令。在一非限制範例中，BCT可包括128個相同的暫存器。每一暫存器可包括需要儲存一數值的位元數，該數值指示在最佳化之前，一分支應被取用的預期最大次數，在某些具體實施例是八或十位元。

BCT 84A的暫存器為可定址的，以由轉譯管理器48讀取與寫入。每一暫存器88A為可定址，以透過讀指標(read index)來讀取，且透過一寫指標(write index)來寫入。如上述，將被轉譯與最佳化之每一非原生碼區塊可開始於分支目標位址處。因此，透過分支目標位址之一或多個雜湊形式，BCT的各個暫存器為可定址。雜湊特徵促使可管理的BCT暫存器之數量映射至遠較大數量的分支目標位址。在圖5例示的具體實施例中，讀指標與寫指標對應於分支目標位址的不同雜湊形式。BCT 84A包括雜湊邏輯90，其使一給定的分支目標位址雜湊成一適合的讀指標與寫指標。根據讀指標，選擇邏輯92促使選定的暫存器用於讀取。根據寫指標，選擇邏輯94促使選定的暫存器用於寫入。

當一讀致能(read-enabled)之暫存器接收指示分支是否被取用之信號時，例如，從共同時脈線，該信號導致暫存器的內容透過DOUT匯流排輸出至遞減單元96。遞減單元從其中接收的計數減去1，且提供遞減的計數至DIN匯流排。當該暫存器透過選擇邏輯94而寫入致能(write-enable)時，該遞減的計數重新寫回至相同的暫存器。如果遞減的值等於零，則零時中斷(interrupt-on-zero)單元98產生核心18的中斷，該中斷由轉譯管理器48接收，且可觸發後續的作動，如在此的進一步敘述。當對應於該暫存器的該分支已被取用所欲次數時，亦即，當該分支「飽和」時，則到達零的計數。如此，當任何暫存器到達零，BCT可產生微處理器12的中斷，且使得飽和分支的分支目標位址可用於中斷-擷取(interrupt-trapping)轉譯管理器程序。

圖5亦顯示選擇邏輯100，根據PRELOAD輸入的狀態，其可曝露BCT_INT_COUNT值給DIN匯流排，而不是遞減的計數。如上述，BCT_INIT_COUNT值為可編程，且可由轉譯管理器48指定。如此，BCT 84A之每一暫存器可預先載入一值，該值為對應於在觸發最佳化的中斷產生之前一分支應被取用之次數。

圖6顯示一具體實施例中的另一範例BCT 84B。在此具體實施例中，每一暫存器88B是n位元的二元向下計數器(八位元、十位元..等)，在讀取時遞減計數。透過選擇邏輯90，每一計數器可預先載入一者小於所欲次數的BCT_INIT_COUNT，而所欲次數即於最佳化之前該對應的分支應被取用的次數。在圖6例示的具體實施例中，當對應分支的所欲執行次數已到達時，亦即，當該分支「飽和」時，計數器便會欠位(underflow)(產生借位(borrow))。因此，當任何計數器產生借位時，產生中斷。自然的，其他BCT具體實施例亦可設想到。例如，BCT的計數器可遞增而非遞減，且當任何計數器產生進位時，產生中斷。

參考圖4，分支計數管理器82包括BCT_INIT_COUNT暫存器102、ENABLE_MTS_BRANCH_THRESHOLD暫存器104、與BCT_FLASH_INVAL暫存器106。這些暫存器提供一介面給轉譯管理器48以控制BCT 84。BCT_INIT_COUNT暫存器是一資料暫存器，該資料暫存器儲存BCT84的每一暫存器的初始計數值。ENABLE_MTS_BRANCH_THRESHOLD暫存器是一控制暫存器，該控制暫存器儲存反映BCT是否可產生中斷的布林(boolean)值。例如，當一或多個最佳化已排程但尚未完成時，BCT中斷可被抑制。BCT_FLASH_INVAL暫存器是一控制暫存器，當寫入一真(Truth)布林值時，邏輯結構中的所有項目被該控制暫存器觸發為無效而復原成其個別初始計數值。

圖7例示用於執行非原生指令碼之另一範例方法107。開始執行時，IFU 24已擷取使IP導向分支目標位址之分支指令，分支目標位址定義已接收之非原生碼區塊的初始位址。末端位址(或該區塊的長度)可由後續的分支指令或由返回指令加以定義。

在方法78的步驟108，判斷分支目標位址是否已儲存在THASH 32中。如果分支目標位址已儲存在THASH中，則方法前進至步驟110，其中該IP重新導向對應於已接收之非原生碼區塊的最佳化轉譯。如此，最佳化的原生碼區塊可由處理系統執行，而不進一步使用硬體解碼器。

但是，如果分支目標位址尚未儲存在追蹤快取中，則方法前進至步驟112。在步驟112，分支目標位址的各個位元被雜湊，以產生至BCT84的適合暫存器之一讀指標與一寫指標。在一具體實施例中，讀指標與寫指標可為不同的指標。在步驟114，一對應於讀位址的項目是從BCT讀取。在步驟116，此項目遞減值，例如，遞減1。在步驟118，判斷該遞減值是否等於零。暫存器中出現零值可能是導致BCT啟用轉譯器的一條件。在一非限制範例中，藉由在處理系統中產生中斷，可啟用轉譯器。

在例示的範例中，如果遞減值等於零，則方法前進至步驟120；否則方法前進至步驟122，其中遞減值寫回至在步驟112所運算之寫指標的BCT。然後，在步驟123，非原生碼區塊在硬體解碼器中解碼及執行。如此，BCT的適合暫存器可計數該硬體解碼器已解碼該碼區塊多少次。

應注意，方法78的操作細節應認為不是限制，因為亦可設想出多種變化。例如，在步驟116，暫存器的內容可遞增而非遞減。在某些範例中，因此，暫存器的欠位或溢位(overflow)可能是啟用轉譯器的一條件。

參考圖7，在步驟120，當遞減的計數值等於零時，則判斷一追蹤快取項目是否已存在用於從指定之分支目標位址開始的指令。如果針對此指令存在有追蹤快取項目，則方法前進至步驟124，其中微處理器12中的硬體結構可被更新，使得至該分支的後續參照可執行該已最佳化的原生碼區塊。在該方法的此點，執行繼續在步驟110，其中該IP重新導向已最佳化的原生碼。但是，如果不存在適當的追蹤快取項目，則方法前進至步驟126。

在步驟126，判斷該碼區塊的轉譯與最佳化是否已在處理中。如果轉譯與最佳化已處理，則該方法前進至步驟123，其中啟用硬體解碼器，以避免必須等待最佳化完成；否則，方法前進至步驟128。在此與其他具體實施例中，在步驟126的判斷可反映一非原生碼區塊是否應該或不應該此點被轉譯/最佳化的其他條件。

在步驟128，例如使用轉譯器62(圖1)轉譯及最佳化該碼區塊，以產生一最佳化的原生碼區塊。因此，在硬體解碼器已解碼該指令一臨界次數之後，且假設不存在對應的最佳化碼，轉譯管理器48將非原生碼區塊轉譯成最佳化的原生碼區塊。如上述，該方法步驟的順序在本發明的各種不同具體實施例中可不同。例如，在某些範例中，步驟128與130可並行執行，碼透過該硬體解碼器可繼續執行。

在步驟130，已最佳化的原生碼區塊儲存在追蹤快取記憶體66，用於在處理系統的後續執行。從此點，該方法執行是在步驟110繼續，其中該IP重新導向已最佳化的原生碼。

應瞭解，上述之方法與系統是本發明之具體實施例，而不是限制範例，因為亦可設想出多種變化與延伸。因此，本發明包括此系統與方法之所有新穎與非顯而易見的組合與次組合、以及其任何與所有等效物。