TW202219745A

TW202219745A - 微處理器和預取指調整方法

Info

Publication number: TW202219745A
Application number: TW110124701A
Authority: TW
Inventors: 湯瑪斯Ｃ麥當勞; 布蘭特比恩
Original assignee: 美商聖圖爾科技公司
Priority date: 2020-11-03
Filing date: 2021-07-06
Publication date: 2022-05-16
Also published as: US11567776B2; US20220137974A1; TWI780804B; CN113515311A

Abstract

本申請涉及微處理器和預取指調整方法。在一個實施例中，微處理器包括：第一邏輯，其被配置為基於預定數量的快取記憶體行上的預測採取的分支的總計數來動態地調整最大預取指計數；以及第二邏輯，其被配置為基於調整後的最大預取指計數來對指令進行預取指。

Description

微處理器和預取指調整方法

本發明通常涉及微處理器，尤其涉及微處理器中的預取指。

在微處理器執行程式指令時，微處理器使用處理器匯流排將指令從記憶體取指到微處理器中。從記憶體取指指令所需的時間可能消耗許多時鐘週期(例如，數百個時鐘週期)。為了緩解該問題，微處理器包括快取記憶體記憶體。快取記憶體記憶體(通常比系統記憶體小得多)是微處理器(或處理器核心)內部的記憶體，其用於儲存位於系統記憶體中的指令的子集。儘管預取指對於指令和資料兩者都是重要的，但是這裡的重點放在指令快取記憶體上。在微處理器取指指令時，微處理器檢查以查看指令是否存在於快取記憶體中並且有效。如果是這樣，則與必須從系統記憶體中檢索指令相比，可以更快地執行指令。也就是說，在使用處理器匯流排將指令從記憶體取指到快取記憶體中時，微處理器不必等待。微處理器檢測到指令存在於快取記憶體中並且有效的情形通常稱為快取記憶體命中。所引用的指令不存在於快取記憶體中的情形通常稱為快取記憶體未命中。在所引用的指令已經在快取記憶體記憶體中時，通過避免從外部記憶體檢索指令所需的額外時鐘週期，實現了節省大量時間。

快取記憶體預取指是微處理器所使用的技術，以通過在微處理器實際需要指令之前將指令從外部記憶體取指到快取記憶體記憶體中來進一步提高執行性能。指令快取記憶體取指通常順序地往前看預定義數目的快取記憶體行(例如，取指前十(10)個快取記憶體行或四(4)個快取記憶體行等)。成功地對指令進行預取指避免了在必須從外部記憶體檢索指令時所遇到的時延(避免消耗匯流排頻寬或到其它快取記憶體的頻寬，如下面所說明的)。

在預取指中有一個基本的權衡。如上所述，預取指可以通過減少時延(通過在實際需要之前已經將指令取指到快取記憶體中)來提高性能。另一方面，如果預取指了太多的資訊(例如，太多的快取記憶體行)，則預取指器的效率可能降低，並且其它系統資源和頻寬可能負擔過重。此外，如果快取記憶體是滿的，則將新的快取記憶體行預取指到該快取記憶體中，這可能導致從快取記憶體中逐出其它快取記憶體行。因此，由於先前需要而在快取記憶體中的快取記憶體行可能被可能只在將來需要的行逐出。

在一些微處理器中，快取記憶體實際上由多個快取記憶體組成。多個快取記憶體被佈置在多級的層次結構中。例如，微處理器可以具有兩個快取記憶體，稱為較低的一級(L1)快取記憶體和較高的二級(L2)快取記憶體。L1快取記憶體比L2快取記憶體更接近微處理器的計算元件。即，L1快取記憶體能夠比L2快取記憶體更快地向計算元件提供指令。L2快取記憶體通常大於L1快取記憶體，儘管不必如此。一些微處理器可能具有第三快取記憶體(L3)，其可能大於L2快取記憶體。基於快取記憶體未命中，隨著從L1、L2、L3快取記憶體和系統記憶體進行取指，取指時間增加(例如，出於例示的目的，從L2取指的情況下的10-20個時鐘週期，從L3取指的情況下的20-30個時鐘週期)，並且因此從時延的角度來看，期望智慧地將指令存儲在L1快取記憶體中。

微處理器使用各種指令類型，包括分支指令或簡稱為分支，分支包括無條件分支(例如，總是被採取的分支)和條件分支(例如，取決於對指定條件的評價來採取或不採取)。預取指方案應將這些各種類型的指令考慮在內，以確保流水線操作的效率，並且更特別地減少在取指指令中消耗的浪費週期。

在一個實施例中，一種微處理器包括：第一邏輯，其被配置為基於預定數量的快取記憶體行上的預測採取的分支的總計數來動態地調整最大預取指計數；以及第二邏輯，其被配置為基於調整後的最大預取指計數來對指令進行預取指。

通過審查以下附圖和詳細描述，本發明的其它系統、方法、特徵和優點對於本領域技術人員將是或者將變得明顯。所有這些附加系統、方法、特徵和優點旨在包括在本說明書內、在本發明的範圍內，並且受到所附權利要求的保護。

公開了一種微處理器的可調整預取指系統和方法的某些實施例，其對當前正在被取指的指令中的分支指令密度進行監視，並基於該密度來對指令的預取指進行節流。在一個實施例中，可調整預取指系統包括分支密度邏輯、指令快取記憶體控制邏輯和預取指邏輯。分支密度邏輯被配置為確定分支密度值，並且將分支密度值通信至指令快取記憶體控制邏輯，其中分支密度值包括針對預定義數目的快取記憶體行的預測採取的分支指令的數量。指令快取記憶體控制邏輯包括可調整邏輯，並基於所確定的數量判斷是否調整最大預取指數量。調整後的最大數量提供給預取指邏輯，預取指邏輯轉而基於調整後的最大預取指計數來調整指令的預取指，並將預取指的指令載入到指令快取記憶體中。

簡而言之，如今的微處理器可以使用針對所有指令應用的預定指令預取指計數。預取指計數指的是給定大小(例如，16位元組，或在一些實施例中為其它值)的取指的數目。在針對嚴重依賴於順序取指的代碼執行預取指時，預定取指計數對確保指令快取記憶體中的穩定指令流起良好的作用。然而，對於給定跨度的快取記憶體行，隨著分支指令(特別是預測採取的分支)的密度增加，基於預取指方案而載入到指令快取記憶體的指令被移除並從目標指令開始替換，這意味著對於那些現在被逐出的快取記憶體行不必要地消耗了匯流排頻寬或到較高級快取記憶體(例如，L2、L3)的頻寬。此外，在近期內可能需要的快取記憶體行可能不再可用，從而再次浪費了到記憶體或到較高級快取記憶體的匯流排頻寬。相反，可調整預取指系統的某些實施例對預測採取的分支的密度進行監視，並基於分支指令密度(例如，分支密度值或計數)來動態地調整預取指方案，以確保有效地使用取指頻寬並且沒有不必要的消耗。

在總結了本發明的可調整預取指系統的某些特徵之後，現在將詳細參考如附圖中所例示的可調整預取指系統的描述。雖然將結合這些附圖來描述可調整預取指系統，但並不意在將其限制於這裡所公開的實施例。也就是說，雖然本發明易於進行各種修改和替代形式，但是其特定實施例在附圖中通過示例的方式示出，並且這裡將被詳細描述成足以使本領域技術人員理解。然而，應該理解，附圖及其詳細描述不意在將本發明限制於所公開的特定形式。相反，意圖是覆蓋落入如所附權利要求所限定的本發明的精神和範圍內的所有修改、等同項和替代。如在本申請中所使用的，單詞“可以(may)”以允許的意義(即，意味著有可能)、而不是強制的意義(即，意味著必須)使用。類似地，單詞“包括”意味著包括但不限於。

各種單元、模組、電路、邏輯或其它元件可被描述為“被配置為”進行一個或多個任務。在這樣的上下文中，“被配置為”是對結構的廣泛敘述，其一般意味著“具有在操作期間進行或能夠進行一個或多個任務的電路或其它物理結構”。電路可以是專用電路、或在編碼指令的控制下操作的更通用處理電路。也就是說，在描述本發明的各種實現的某些方面或特徵時，這裡可以使用諸如“單元”、“模組”、“電路”、“邏輯”和“元件”等的術語。本領域技術人員將理解，利用電路實現相應的特徵，無論該電路是專用電路還是在微編碼指令控制下操作的更通用電路。

另外，單元/模組/電路/邏輯/元件可被配置為即使在單元/模組/電路/邏輯/元件當前不處於操作中的情況下也進行任務。敘述被配置為進行一個或多個任務的單元/模組/電路/邏輯/元件明確不旨在針對該單元/模組/電路/邏輯/元件進行功能性限定。在這方面，本領域技術人員將理解，電路元件的特定結構或互連通常將由設計自動化工具的編譯器(諸如暫存器傳送語言(Register Transfer Language, RTL)編譯器)確定。RTL編譯器在與組合語言代碼非常相似的腳本上運行，以將該腳本編譯成用於最終電路的佈局或製造的形式。

也就是說，使用更高級的軟體工具來設計(諸如本發明的那些)積體電路以對電路的期望功能操作進行建模。眾所周知，“電子設計自動化”(Electronic Design Automation，EDA)是一類用於設計諸如積體電路等的電子系統的軟體工具。EDA工具還用於將設計功能程式設計到現場可程式設計閘陣列(Field-programmable gate arrays，FPGAs)中。使用諸如Verilog和超高速積體電路(Very high-speed integrated circuit，VHDL)等的硬體描述符語言(Hardware descriptor languages，HDLs)來創建電路的高級表示，其中根據該高級表示可以推斷出較低級表示和最終實際佈線。實際上，由於現代半導體晶片可以具有數十億個元件，因此EDA工具被認為是對於其設計而言必不可少的。在實踐中，電路設計者使用諸如C/C++等的程式設計語言來指定操作功能。EDA軟體工具將該指定功能轉換為RTL。然後，硬體描述符語言(例如Verilog)將RTL轉換為門的離散網表。該網表定義了由例如代工廠等生產的實際電路。實際上，這些工具因其在促進電子和數位系統的設計過程中的作用和用途而被眾所周知並理解，因此這裡無需描述。

圖1A示出微處理器10所用的示例分支單元流水線的實施例。應當理解，為了簡潔和易於說明和例示，這裡省略了微處理器10的某些已知元件。眾所周知，流水線架構提供了在執行中重疊的多個指令，其中各階段稱為管道階段。分支單元流水線中所示的塊各自可以根據一個或多個階段來實現，這些階段顯示在塊的左邊並且在所描繪的實施例中由從上至下按順序前進並且被重定向(如箭頭所示)的大寫字母C、I、B、U、L、M、F、G、W、X、E、S、W、Y和Z表示。本領域普通技術人員應當理解，圖1A中所描繪的階段的數目和/或佈置僅僅例示一個示例實施例，並且在一些實施例中，階段的不同數目和/或佈置可被實現，因此預期在本發明的範圍內。本領域普通技術人員還應當理解，這些塊提供了對分支流水線的功能的一般描述，並且為了簡潔，這裡省略了本領域普通技術人員已知的相關邏輯或電路。例如，本領域普通技術人員應當理解，如已知的，流水線的各階段可以由時鐘流水線暫存器或鎖存器分開。作為另一示例，儘管在圖1A中未明確示出，但本領域普通技術人員應當理解，前端處的操作涉及與指令快取記憶體的資料交換或交互。特別要注意的是，用於預取指的邏輯意在示出與流水線的前端操作並行的操作，如下面進一步說明的。

指令快取記憶體是微處理器內的隨機存取記憶體裝置，其中微處理器將最近從較大快取記憶體(例如，L2快取記憶體、L3快取記憶體)或系統記憶體取指和/或預取指(例如，由匯流排界面單元從DRAM取指和/或預取指)並由微處理器10在運行ISA機器語言程式的過程中進行的ISA機器語言程式的指令(諸如x86 ISA機器語言指令等)放置到該隨機存取記憶體裝置中。ISA定義用於保持要進行的下一ISA指令的記憶體位址(由x86 ISA定義為指令指標暫存器(IP)，但有時稱為程式計數器(PC))的指令位址暫存器，並且微處理器在其運行機器語言程式以控制程式流時更新指令位址暫存器內容。為了隨後在下一次機器語言程式流時基於指令位址暫存器內容從指令快取記憶體而不是從系統記憶體更快地取指ISA指令的目的，對ISA指令進行快取記憶體，使得暫存器保持指令快取記憶體中所存在的ISA指令的記憶體位址。特別地，基於指令位址暫存器(例如，IP)中所保持的記憶體位址而不是排他地基於載入或存儲指令所指定的記憶體位址來訪問指令快取記憶體。因此，保持ISA指令作為資料(諸如可以存在於採用軟體轉譯器的系統的硬體部分中)、並且排他地基於載入/存儲位址而不是通過指令位址暫存器值來訪問的專用資料快取記憶體不是指令快取記憶體。此外，為了本發明的目的，對指令和資料兩者進行快取記憶體(即，基於指令位址暫存器值並基於載入/存儲位址，而不是排他地基於載入/存儲位址來訪問)的統一快取記憶體旨在包括在指令快取記憶體的定義中。

特別注意圖1A的微處理器10的分支單元流水線，微處理器10包括流水線微處理器，在一個實施例中，流水線微處理器的指令集基本上符合x86架構指令集。根據這裡提供的描述，本領域普通技術人員將理解，本發明可以以各種不同的電路結構和架構來實現，並且圖1A所示的架構僅僅是許多合適架構其中之一。示例微處理器10包括快速預測器12、分支目標位址快取記憶體(Branch target address cache, BTAC) 14、指令位元組佇列(XIB) 16、分支解碼器18、格式指令佇列(FIQ)/迴圈佇列20、指令轉譯器22、暫存器別名表(RAT)/保留站(RS) 24、功能單元(例如，整數單元、浮點單元等) 26以及分支表更新器28。微處理器10的數位標記塊各自與在相應的多個階段C、I、B、U、L、M、F、G、W、X、E、S、W、Y和Z上實現的邏輯電路相對應，其中流水線架構在每一階段實現不同的指令組。在一個實施例中，可以在每個階段運行四個或更多個指令，其中控制信號沿著流水線對每個階段進行標記。與快速預測器12、BTAC 14和XIB 16相關聯的階段涉及對指令快取記憶體(I快取記憶體，圖1A中未示出)的訪問。

快速預測器12包括提供單週期預測(例如，採取一個週期來產生目標位址，在一個實施例中在I階段提供的預測)的單週期分支預測器。在一個實施例中，快速預測器12包括存儲先前執行的分支指令的分支目標位址的表(這裡也稱為陣列或目標陣列)，該表使得能夠在隨後遇到所存儲的分支指令時進行分支預測。在一個實施例中，表包括128個條目，但是在一些實施例中可以使用其它大小(例如，64個條目、32個條目等)的表。表被組織為n路(例如，n是大於1的整數)的組關聯快取記憶體。在一個實施例中，各條目存儲八(8)個3位元數目器和當前局部分支模式，該計數器是通過3位元局部分支模式而選擇的。快速預測器12還包括條件分支預測器，該條件分支預測器與表並行地被訪問並且為條件分支提供採取/不採取的方向。快速預測器12還包括返回堆疊，該返回堆疊可以提供目標而不是表。在一個實施例中，返回堆疊包括四(4)個條目並且為返回指令提供目標。注意，以上列出的規範僅為了例示，並且一些實施例可以在不同的規範下進行，因此預期在本發明的範圍內。快速預測器12被配置為立即(在單個週期內)遞送預測分支目標，而不採取分支懲罰。在一些實施例中，快速預測器12可以根據其預測機制和/或表配置的其它規範來進行操作，或者在一些實施例中，可以省略。大多數分支由快速預測器12正確地預測。在一些實施例中，在快速預測器12基於相同的所取指的分支指令提供與BTAC 14的分支預測不同(例如，在方向和/或目標上不同)的分支預測的情況下，BTAC 14利用BTAC 14所提供的分支預測資訊(例如，方向、目標位址、分支預測類型)來在BTAC 14的一組階段內(例如，在U階段)覆寫快速預測器12的分支預測並更新快速預測器表。

I階段和/或B階段對應於訪問分支單元流水線的各種表(包括I快取記憶體、標籤陣列、轉譯後備暫存器(TLB)陣列、BTAC陣列、返回堆疊陣列等)、(例如，基於標籤)通過多工給出方向或路、以及讀出指令。

BTAC 14保持與其用於預測後續執行期間的目標位址、方向和類型的先前執行分支指令有關的資訊。BTAC 14包括比快速預測器12的表大得多的一個或多個表。在一個實施例中，BTAC 14包括4k條目、m路的組關聯表(這裡也稱為陣列或目標陣列)，其中m是大於1的整數。BTAC 14的各條目包括有效位元、分支目標位址預測、方向預測和分支類型。分支類型指定分支指令是呼叫/返回、是間接分支、是條件相對分支、還是無條件相對分支。在一個實施例中，BTAC 14包括或與具有多條目(例如，12k)的基於標籤幾何長度(Tagged geometric length，TAGE)的預測器的條件相對分支預測器、多個表、多位(例如，3位)、採取/不採取(T/NT)計數器以及多位元全域分支歷史協作。作為另一示例，間接預測包括多條目(例如，1.5k) TAGE預測器，並且將表條目用於靜態間接分支。注意，在一些實施例中，可以使用其它類型的預測機制，包括基於相關性的預測機制、使用全域和局部分支歷史的組合的預測器等。對於指令快取記憶體的快取記憶體行(例如，作為非限制性示例，64位元組)的各部分或取指量(例如，作為非限制性示例，16位元組)，BTAC 14可以保持三個條目(例如，邊A、B和C，儘管在一些實施例中可以使用更少的邊來存儲用於更少的分支指令的預測資訊)，這三個條目可以保持可能存在於快取記憶體行的一部分中的多達三個分支指令的預測資訊。BTAC 14包括通過一組階段(例如，I階段、B階段和U階段)的操作。實際上，分支指令的U階段用作目標的C階段(例如，從B階段到C階段的箭頭反映B階段處的分支指令的情況，並且下一個時鐘是目標(或者在這裡也是快取記憶體位址)的C階段)，從而導致BTAC預測的二時鐘延遲。

BTAC 14具有二時鐘採取懲罰(two-clock taken penalty)，這也揭示了快速預測器12通過立即引導新快取記憶體位址成為目標來提供快速分支預測(無採取懲罰)的益處。在一個實施例中，BTAC 14 (比快速預測器12大並且具有更精密的分支預測機制)被配置為在分支預測中存在分歧(例如，BTAC 14確定的分支預測與由快速預測器12確定的採取判斷和/或分支目標位址不同)時(例如，總是)覆寫快速預測器12的分支預測。在一些實施例中，BTAC 14被配置為通過將分支預測資訊寫入快速預測器12的表(並且還寫入BTAC 14的表)來在BTAC階段其中之一(例如，U階段)期間更新快速預測器12。在一些實施例中，對BTAC 14的更新被延遲直到分支被執行或提交為止，其中對BTAC 14的更新涉及對BTAC表和/或TAGE表的寫入。在一個實施例中，更新涉及目標資訊和/或計數器更新。然而，對快速預測器12的更新不會等待那麼長時間，其在BTAC階段期間發生。注意，不在快速預測器12中的分支在兩個週期後在與BTAC階段相對應(例如，在BTAC階段期間)的時間被寫入快速預測器12。

XIB 16是條目佇列，其中各條目保持來自指令快取記憶體的16個位元組的資料。例如，來自XIB 16的快取記憶體資料僅僅是採用16個位元組的塊的指令位元組流，並且在給定指令具有可變長度的情況下，不知道給定x86指令在流內或在給定塊內開始或結束於何處。XIB 16包括用以確定和標記各指令在流內的開始和結束位元組、從而將位元組流分解成x86指令流的已知邏輯，其中該x86指令流被提供給FIQ/迴圈佇列20並存儲在FIQ/迴圈佇列20中以供微處理器流水線的其餘部分處理。在L (長度)階段，XIB 16確定指令長度。與分支長度標記有關的資訊(在這樣的資訊是補充性的並且與本發明的教導相一致的程度上)可以在美國專利No.8,473,862中找到，其通過引用併入在此。在一個實施例中，預解碼器(圖1A中未示出)在U階段實現，並且被配置為檢測潛在的分支指令，並如此針對佇列中的各指令位元組對潛在的分支指令進行標記。值得注意的是，在此階段，關於給定的位元組是否是指令的開始，存在歧義。如果位元組是稍後(M階段)確定的分支指令的操作碼位元組，則將該指令確認為分支指令。例如，分支解碼器18包括用於在多工器或M階段中對指令進行多工的指令多工器(未示出)，其中分支指令被如此確認。

在F階段，如上所說明的，指令被格式化。在一個實施例中，格式化指令包括基本上符合x86架構指令集的指令。另外，在M階段判斷給定指令(該給定指令可能由預解碼器預先標記)是否確實是分支。例如，(例如，在最初啟動時)在快速預測器12或BTAC 14中發生未命中(miss)的情況下，分支解碼器18(例如，指令多工器)決定為當前指令是分支，並且在階段G將快取記憶體位址重定向到新目標，並且更新微處理器10的前端中的表。實際上，分支解碼器18在快速預測器12或BTAC 14處未命中的情況下提供分支預測，其中分支指令在C階段轉向目標。在一些情形中，諸如在BTAC 14處針對每次取指存在多於有限或預定最大數目的分支(例如，針對每16位元組取指存在多於三個分支)的情況下，對額外分支的分支預測被延遲直到解碼時間為止。與M和F階段有關的資訊(在這樣的資訊是補充性的並且與本發明的教導相一致的程度上)可以在美國專利No.8,473,862中找到，其通過引用併入在此。

FIQ/迴圈佇列20接收格式化指令並對其進行緩存，直到它們可被轉譯成微指令為止。FIQ/迴圈佇列20還提供初步解碼和快速迴圈功能(例如，在BTAC迴圈分支上，啟動迴圈佇列並且重複發送迴圈指令)，後者由塊20的右手側的箭頭表示。

W階段提供可選的額外定時時鐘。

在X階段，指令轉譯器22 (在X階段或轉譯階段)將FIQ/迴圈佇列20中所存儲的格式化指令轉譯為微指令。

指令按程式順序被提供給暫存器別名表/保留表(RAT/RS) 24。RAT/RS 24的RAT功能維持和生成針對各指令的依賴性資訊。RAT/RS 24的RAT功能將指令的源和目的地重命名到內部暫存器上，並將指令分派給RAT/RS 24的保留站，這些保留站(可能不按照程式順序)向功能單元26發出指令。包括整數單元的功能或執行單元26在階段E (執行)執行分支指令。這裡，執行單元、分支單元和整數單元是可互換使用的術語。在一個實施例中，執行單元26(例如，兩個執行單元)在單個時鐘週期中執行兩個分支。執行單元26還指示BTAC 14是否已正確地預測了分支指令。

在一個實施例中，將執行的結果提供給重排序暫存器(未示出)，該重排序暫存器包括與已經執行的指令有關的資訊。眾所周知，重排序暫存器在指令發出之後保持指令的原始程式順序，並允許在提交退出階段期間進行結果序列化。

分支表更新28包括階段S、W、Y和Z，並且被配置為用與完全解碼和執行的分支指令有關的資訊(例如，分支的最終結果)來(例如，在S階段)對前端的各種表(例如，BTAC、TAGE)進行更新。在階段S、W、Y和Z，更新可能涉及表讀取、目標位址寫入以及計數器遞增或遞減，這可能涉及一些延遲。

微處理器10還包括與對分支密度或預測採取的分支指令密度進行預取指和監視有關的附加邏輯。眾所周知，與經由處理器匯流排從較高級快取記憶體記憶體(例如，L2、L3)或系統記憶體中檢索相對，對指令進行預取指以將其載入到指令快取記憶體中允許更快、頻寬受限地訪問指令。預取指可以至少部分地使用已知軟體和/或(如這裡所強調的)硬體預取指方案來實現，主要包括下一行或順序的預取指，但是在一些實施例中，可以包括跨步預取指(例如，基於IP、基於快取記憶體塊位址，包括流緩存)、基於位置的預取指、基於內容的預取指、基於相關性的預取指、基於預計算或執行的預取指等中的一個或多個。在一個實施例中，可調整預取指系統包括預取指邏輯40、分支密度邏輯42和指令快取記憶體(I快取記憶體)控制邏輯44。

預取指邏輯40可以實現以上所指示的已知的預取指方案中的任何一個或組合，並且用於(例如，從較高級快取記憶體或系統記憶體)對指令進行預取指以填充指令快取記憶體。

分支密度邏輯42包括用以監視分支密度、或更具體地針對給定參數的預測採取的分支指令的功能。在一個實施例中，給定參數可以是預定義(預定)數量的快取記憶體行(例如，16個快取記憶體行、32個快取記憶體行等)，其中各快取記憶體行包括一個或通常多個x86指令。分支密度邏輯42從包括快速預測器12和BTAC 14其中之一或組合的分支預測邏輯接收輸入。分支預測邏輯(例如，在U階段處)提供採取還是不採取分支的指示，並且U階段還提供是否正在處理順序取指的指示。因此，分支密度邏輯42可以判斷最後的預定義跨度或組的取指是否包括代碼的高分支密度部分，其中對預取指進行節流可以減少浪費的指令數量(因為如果預測到採取分支，則基於順序指令的預取指方案使得快取記憶體的指令不合適，這是因為需要對目標之後的指令進行快取記憶體並且從指令快取記憶體中逐出先前的指令)。換句話說，在存在高密度的預測採取的分支指令的預定義數量或跨度的快取記憶體行的消耗期間，分支密度邏輯42被配置為檢測這些高分支密度條件並計算預測採取的分支的計數，以防止在取指具有高分支密度的代碼時，微處理器10(特別是預取指邏輯40)通過從較高級快取記憶體或系統記憶體的預取指而消耗浪費的頻寬。

如下面與圖2-3相關聯地進一步說明的，I快取記憶體控制邏輯44包括控制邏輯，該控制邏輯根據最大預取指計數和調整後的預取指計數(基於分支密度可變地調整)來協調預取指(例如，在一個實施例中在快取記憶體未命中之後開始)並載入到指令快取記憶體。在一個實施例中，I快取記憶體控制邏輯44包括調整邏輯，該調整邏輯被配置為基於根據分支密度邏輯42所確定的分支密度值(例如，計數)來調整最大預取指計數。在一些實施例中，I快取記憶體控制邏輯44還包括用於保持最大預取指計數的暫存器(例如，特徵控制暫存器)。

現在將在繼續參考圖1A的情況下參考圖1B，示出示例快速預測器12以及在針對圖1A的微處理器10所示的分支單元流水線的前端30處所使用的其它示例源。前端30包括取指單元32 (例如，包括多工器和時鐘暫存器)、轉譯後備暫存器(TLB) 34、指令快取記憶體(I快取記憶體資料) 36、I快取記憶體標籤38 (或標籤陣列)、BTAC 14和快速預測器12。取指單元32接收多個快取記憶體指令位址源，包括(例如，來自I階段的)順序指令位址、(例如，來自S階段的)校正指令位址、(例如，來自G階段的)解碼時間指令位址以及來自BTAC 14和快速預測器12的位址。取指單元32的輸出是作為輸入提供給TLB 34、I快取記憶體資料36、I快取記憶體標籤38、BTAC 14和快速預測器12以用於訪問I快取記憶體資料36的下一指令的快取記憶體位址。

在記憶體管理單元(未示出)的管理下，TLB 34提供如已知的虛擬到物理頁位址轉譯。也就是說，TLB 34存儲最近使用的虛擬位址的物理位址。TLB 34從(將來自程式的邏輯位址轉換為線性位址的)分段單元接收線性位址，並且該線性位址的一部分與TLB 34的條目進行比較以查找匹配。如果存在匹配，則根據TLB條目計算物理位址。如果不存在匹配，則取指來自記憶體的頁表條目並將其放置到TLB 34中。

I快取記憶體資料36包括從L2或L3快取記憶體記憶體或者主記憶體取指或預取指的指令的1級快取記憶體。I快取記憶體資料36包括多個時鐘暫存器。

I快取記憶體標籤38包括與I快取記憶體資料36中的指令相對應的標籤的陣列，並且包括多個時鐘暫存器，並且用於確定與取指的快取記憶體指令相關聯的資訊(例如，快取記憶體位址的標籤或部分)與I快取記憶體資料36以及BTAC 14之間的匹配。

以上結合圖1A來說明BTAC 14，並且該BTAC 14具有多個時鐘暫存器和二(2)時鐘採取懲罰。也如以上所說明的，快速預測器12具有零(0)時鐘採取懲罰。例如，假設沿著I快取記憶體以每週期16位元組進行取指，並且假設快取記憶體位址20至快取記憶體位址95的分支指令。注意，本示例中的地址描述暗示了十六進位標記法(例如，0x0、0x10、0x20等)。因此，取指在快取記憶體位址0、快取記憶體位址10、快取記憶體位址20 (取指分支指令，但由於BTAC 14跨越多個週期進行讀取和多工因而尚未解決，其中在一些實施例中，其是與I快取記憶體相同的定時)、快取記憶體位址30 (相對時鐘1)、快取記憶體位址40 (相對時鐘2)、然後在第3時鐘(相對時鐘3)上發生，快取記憶體指令取指被重定向到快取記憶體位址95。因此，在該示例中，採取的分支懲罰包括兩個時鐘週期，因為快取記憶體位址30和40出現在分支之後。換句話說，在沒有快速預測器12的情況下，對於該特定設計示例，採取的分支懲罰總是兩個時鐘。利用較小且較快的快速預測器12，在上述示例中，快取記憶體位址取指包括0、10、20和95，並且在快取記憶體地址上沒有延遲且採取的懲罰為零。如上所述，在一些實施例中，可以省略快速預測器12。

在繼續參考圖1A-1B的情況下將注意力轉向圖2，其示出可調整預取指系統的實施例的示例分支密度邏輯42和I快取記憶體控制邏輯44的實施例。本領域普通技術人員應理解，圖2中描繪的示意圖是一個示例實施例的例示，並且一些實施例可以提供與所描繪的邏輯不同的邏輯和/或不同的邏輯佈置，以進行類似的功能。在一個實施例中，分支密度邏輯42包括移位暫存器46和加法器邏輯48，並且I快取記憶體控制邏輯44包括調整邏輯50。一般而言，分支密度邏輯42針對各預測採取的分支移入一位元條目(並針對快取記憶體行的末端的順序取指移入零值)，並且針對最後的預定義數量(作為例示性的非限制性示例，例如16、32)的快取記憶體行進行暫存器值的按位加法，以提供預定義數量的快取記憶體行中有多少預測採取的分支指令的分支密度值或計數。然後，將分支密度值提供給調整邏輯50，其中調整邏輯50用於調整(如果需要的話)最大預取指計數，該最大預取指計數用作通過預取指邏輯40對指令進行預取指的基礎。

更具體地，移位暫存器46(例如，在U階段從包括快速預測器12和/或BTAC 14的分支預測邏輯)接收輸入，該輸入提供順序取指或預測採取的分支指令的指示。如下面進一步描述的，移位暫存器46包括在移位和保持之間選擇的多工器，並且一般而言被配置為對給定快取記憶體行是否包含預測採取的分支的歷史進行存儲。多工器選擇或捕獲在預測採取的分支或快取記憶體行的末端的順序取指的情況下啟動的信號。(例如，由分支預測邏輯提供的)U階段處的信號指示採取還是不採取分支以及當前是否正在處理順序取指。移位暫存器46對針對每個快取記憶體行的預測採取的分支進行計數。移位暫存器46在快取記憶體行的末端(例如，最後預定義數目的位元組的快取記憶體行，諸如16或32位元組等)或在預測採取的分支處移位元。例如，移位暫存器46針對採取的分支以及針對快取記憶體行的末端的順序取指移入位元值(例如，一(1))，並且不存在預測採取的分支，移入零(0)。因此，移位暫存器46提供針對最後預定義數目的快取記憶體行的狀態，並且在任何時間都可以表示根據移入和移出的位值而(與先前的暫存器值相比)增加、減小或保持不變的暫存器值。進一步說明，如果不採取分支或尚未到達快取記憶體行的末端，則僅用移位暫存器46的當前值來饋入移位暫存器46。該事件或操作被表示為圖2中的“保持”。在一些實施例中，時鐘可以僅被關閉，這具有類似的效果。移位元的路徑(在圖2中表示為“移位”)表明最早的位(例如，位31)被丟棄，也就是表示了之前第33個快取記憶體行的位。如圖2中例示性所表示的，在存在針對預測採取的分支的命中時，將一(1)的位值移入，從而導致位從0:30到1:31的移位。在存在快取記憶體行的末端的順序取指時，實現零(0)位值的移位。

由加法器邏輯48(或簡稱為加法器)進行按位加法。在一個實施例中，加法器邏輯48將移位暫存器46中的三十二(32)個位中的(針對預測採取的)1值的位元的數目相加。例如，可能有二至四個的一或有效(1)的位被計數，這可能反映了低的分支密度；或者可能有二十至三十個的一(1)的位被計數，這可能反映了高的分支密度。因此，在一個實施例中，6位欄位可以保持反映了三十二(32)個快取記憶體行中的預測採取的分支的量的結果。

在另一實施例中，5位欄位可以保持由加法器邏輯48進行的按位元加法運算的結果。換句話說，結果可以是十六(16)個快取記憶體行中的預測採取的分支的數目。

I快取記憶體控制邏輯44的調整邏輯50被配置為提供從預設或先前的最大預取指計數到調整後的最大預取指計數的調整。在一個實施例中，調整邏輯50包括縮放值的表，其中特徵控制暫存器預設的最大預取指計數用於選擇縮放值的行。調整邏輯50還包括多工器，其中分支密度值用於選擇行中的哪個條目用於調整後的最大預取指計數。可以在運行時使用I快取記憶體控制邏輯44中的位元(例如，三(3)位欄位)來設置最大預取指計數。在一些實施例中，I快取記憶體控制邏輯44的特徵控制暫存器可以基於最適合應用的性能來在晶片製造廠或其它地方以程式設計方式設置(例如，有時稱為熔斷，其可以經由軟體進行或物理地調整)。

在一個示例操作中，可以在七(7)個快取記憶體行處設置最大預取指計數。通過晶片運算，分支密度邏輯42可以將例如每最後十六(16)個快取記憶體行的預測採取的分支確定為15-16個分支。因此，調整邏輯50可以將最大預取指計數調整為較低的數目(例如，零)，因為看起來在幾乎每個快取記憶體行處都存在分支(例如，高分支密度)，這意味著(如果假設為順序行的取指的話)浪費的預取指(以及在從較高級快取記憶體或記憶體進行的預取指中消耗了太多的頻寬)。通過該調整，經由I快取記憶體控制邏輯44通信至預取指邏輯40，預取指邏輯40根據調整後的預取指方案(例如，零個預取指)進行預取指，因此提高性能(例如，較少浪費的預取指、減少的取指頻寬、減少的時延)，這是因為未對將以其它方式被逐出的指令進行快取記憶體。如果分支密度邏輯42確定為預測採取針對每十六(16)個快取記憶體行的0-2個分支(例如，較低的分支密度)，則最大預取指計數可以被調整或可以不被調整(例如，(例如，以滿比例)保留或維持、或者可以增加)。例如在這兩個示例之間的分支密度的一些情況可能導致以縮放方式對預取指方案進行節流，以維持給定的性能度量。一般而言，調整邏輯50基於由分支密度邏輯42提供的分支密度值(計數)來對(例如，最初經由特徵控制暫存器提供的)最大預取指計數進行縮放，其中縮放後的值可以是選自分支密度值的範圍的任何值，以及/或者在一些實施例中，選擇可以基於特定的分支密度值。用一些示例例示進一步說明，如果最大預取指計數是七(7)個取指，並且如果分支密度值或計數例如是十六(16)，則縮放或調整後的最大預取指計數可以由調整邏輯50確定為三(3)。換句話說，分支密度計數與縮放後的最大預取指計數相對應。作為另一示例，如果分支密度計數為十四(14)或十五(15)(例如，落在給定範圍內)，則縮放後的最大預取指計數可以為四(4)，可以以這種方式繼續(例如，如果分支密度值為一(1)或二(2)，則縮放後的最大預取指計數可以為9)。然後，如果分支密度值為零(0)，則縮放後的最大預取指計數可以為十(10)。換句話說，由調整邏輯50確定的調整後的(縮放後的)最大預取指計數可以由單個值、值的範圍或其混合來產生。所選擇的值可以基於先前的性能度量。在一個實施例中，最大預取指計數是在0至7之間(包括0和7)選擇的任何值，並且縮放或調整後的最大預取指計數是在0至10之間(包括0和10)選擇的任何值。注意，這裡描述的值僅用於例示，並且可以使用其它值。

已經描述了分支密度邏輯42和I快取記憶體控制邏輯44的示例實施例以及相應的操作，(在繼續參考圖2的情況下)將注意力轉向圖3，其示出了可調整預取指系統的實施例的預取指調整的示例方法的實施例。在一個實施例中，可以通過分支密度邏輯42來實現被表示為方法52的預取指調整方法。預取指調整方法52接收輸入(54)。如以上所指示的，輸入可以是在U階段處的信號，該信號指示在移位暫存器46處接收到的順序取指或預測採取的分支指令。預取指調整方法52提供移位暫存器46中有效位的初始計數(56)，即用於給定參數(例如，預定義數量的快取記憶體行)的採取分支。預取指調整方法52判斷是否存在快取記憶體行的末端的順序取指或預測採取的分支(58)。如果不存在(58為“否”)，則該情形反映既不存在預測採取的分支也不存在快取記憶體行的末端的順序取指的狀態，並且移位暫存器保持(60)，並且然後進入如下面所說明的(64)。如果存在(58為“是”)，則移位暫存器移入位值(62)(例如，針對預測採取，移入一(1)的位值，或者針對快取記憶體行的末端的順序取指，移入零(0)的位值)，然後進入(64)。

在(64)處，預取指調整方法52經由加法器邏輯48確定分支密度值(分支密度計數)，並且在(66)處將分支密度值提供給I快取記憶體控制邏輯44，以如以上所說明的，根據最大預取指計數進行可能的調整。方法52以持續進行的方式繼續(例如，接收針對下一組快取記憶體行的下一輸入(54))。

注意，在一些實施例中，圖3中描繪的一些步驟的順序可以在彼此之間切換、同時進行，在一些實施例中，可以省略一些步驟或者可以包括附加步驟。

在已經描述了可調整預取指系統和方法的某些實施例的情況下，應理解，(在圖4中被表示為方法68的)示例預取指調整方法的一個實施例包括：接收與預定數量的快取記憶體行上的各順序取指和各預測採取的分支相對應的輸入(70)；以及基於所述預定數量的快取記憶體行上的預測採取的分支的總計數來對預取指的數量進行節流(72)。

流程圖中的任何過程描述或塊應被理解為表示代碼的模組、段、邏輯或部分(其包括用於在過程中實現特定邏輯功能或步驟的一個或多個可執行指令)，並且替代實現包括在實施例的範圍內，其中如本發明領域技術人員將理解的，功能可以不按所示或討論的循序執行(包括基本上同時執行或以不同循序執行)，這取決於所涉及的功能。

雖然在附圖和前面的描述中示出並詳細描述了本發明，但這樣的圖和描述應被認為是例示性或示例性的，而不是限制性的；本發明不限於所公開的實施例。通過研究附圖、公開內容和所附權利要求，本領域技術人員在實踐所要求保護的發明時可以理解並實現所公開的實施例的其它變形。

注意，可以使用所公開的實施例的不同組合，因此參考實施例或一個實施例並不意味著排除來自該實施例的特徵與來自其它實施例的特徵一起使用。在權利要求書中，詞語“包括”不排除其它要素或步驟。

10:微處理器 12:快速預測器 14:分支目標位址快取記憶體、BTAC 16:指令位元組佇列、XIB 18:分支解碼器 20:格式指令佇列(FIQ)/迴圈佇列 22:轉譯、指令轉譯器 24:轉譯暫存器別名表(RAT)/保留站(RS) 26:IU、功能單元 28:分支表更新器 30:前端 32:獲取單元 34:轉譯後備暫存器、TLB 36:I快取記憶體資料 38:I快取記憶體標籤 42:分支密度邏輯 44:快取記憶體控制邏輯 46:移位暫存器 40:預取指邏輯 48:加法器(加法器邏輯) 50:調整邏輯 52、68:方法 54、56、58、60、62、64、66、70、72:步驟

參考以下附圖可以更好地理解本發明的各個方面。附圖中的組件不一定按比例繪製，而是著重於清楚地示出本發明的原理。此外，在附圖中，在所有的各圖中相同的附圖標記指代對應的部分。圖1A是示出實現可調整預取指系統的實施例的微處理器的示例分支單元流水線的框圖。圖1B是示出圖1A中所示的分支單元流水線的示例前端的示意圖。圖2是示出可調整預取指系統的實施例的示例分支密度邏輯和指令快取記憶體控制邏輯的實施例的示意圖。圖3是示出可調整預取指系統的實施例的預取指調整的示例方法的實施例的流程圖。圖4是示出示例可調整預取指方法的實施例的流程圖。

52:方法

54、56、58、60、62、64、66:步驟

Claims

一種微處理器，包括：指令快取記憶體；分支預測邏輯，其被配置為基於分支指令來將取指重定向到所述指令快取記憶體中的目標位址；分支密度邏輯，其被配置為基於來自所述分支預測邏輯的輸入來確定針對給定參數的預測採取的分支指令的數量；以及預取指邏輯，其被配置為基於所述分支密度邏輯進行的確定來將動態變化量的取指載入到所述指令快取記憶體中。
如請求項1所述的微處理器，其中，所述分支密度邏輯被配置為基於包括預定義數目的快取記憶體行的參數來對預測採取的分支指令的數量進行計數。
如請求項1所述的微處理器，其中，所述分支密度邏輯包括移位暫存器，所述移位暫存器被配置為針對預測採取的分支指令移入值為1的位元值並且針對快取記憶體行的末端的順序取指移入值為0的位元值。
如請求項3所述的微處理器，其中，所述分支密度邏輯還包括加法器邏輯，所述加法器邏輯被配置為提供所述移位暫存器的輸出的按位加法。
如請求項4所述的微處理器，更包括指令快取記憶體控制邏輯，所述指令快取記憶體控制邏輯被配置為基於所述分支密度邏輯進行的確定來調整最大預取指計數。
如請求項1所述的微處理器，其中，所述預取指邏輯被配置為在所述確定之前根據最大預取指計數進行操作，並且在所述確定之後根據調整後的最大預取指計數進行操作。
如請求項6所述的微處理器，其中，所述調整後的最大預取指計數包括從基於分支密度值的多個值或分支密度值的範圍中選擇的任意值。
如請求項1所述的微處理器，其中，所述分支預測邏輯包括快速預測器、分支表訪問快取記憶體、或者所述快速預測器和所述分支表訪問快取記憶體的組合。
一種針對微處理器實現的預取指調整方法，所述預取指調整方法包括：接收與預定數量的快取記憶體行上的各順序取指和各預測採取的分支相對應的輸入；以及基於所述預定數量的快取記憶體行上的預測採取的分支的總計數來對預取指的數量進行節流。
如請求項9所述的預取指調整方法，更包括：根據所節流的預取指的數量來載入指令快取記憶體。
如請求項9所述的預取指調整方法，更包括：針對所述預定數量的快取記憶體行上的預測採取的分支的各實例，移入移位暫存器的位值。
如請求項11所述的預取指調整方法，更包括：進行所述移位暫存器的位值的輸出的按位加法。
如請求項12所述的預取指調整方法，更包括：基於所述按位加法來調整預定的最大預取指計數。
如請求項13所述的預取指調整方法，其中，所述調整是經由調整邏輯來完成的。
如請求項9所述的預取指調整方法，更包括：在所述節流之前根據最大預取指計數進行預取指，以及在所述節流之後根據調整後的最大預取指計數進行預取指。
如請求項15所述的預取指調整方法，其中，所述調整後的最大預取指計數包括從基於分支密度值的多個值或分支密度值的範圍中選擇的任意值。
如請求項9所述的預取指調整方法，其中，接收所述輸入包括從分支預測邏輯接收各順序取指和各預測採取的分支的指示。
如請求項17所述的預取指調整方法，其中，所述分支預測邏輯包括快速預測器、分支表訪問快取記憶體、或者所述快速預測器和所述分支表訪問快取記憶體的組合。
一種微處理器，包括：第一邏輯，其被配置為基於預定數量的快取記憶體行上的預測採取的分支的總計數來動態地調整最大預取指計數；以及第二邏輯，其被配置為基於調整後的最大預取指計數來對指令進行預取指。
如請求項19所述的微處理器，更包括被配置為接收預取指的指令的指令快取記憶體和被配置為對預測採取的分支進行計數的第三邏輯。