TWI793739B - 推測分支模式更新方法和微處理器 - Google Patents
推測分支模式更新方法和微處理器 Download PDFInfo
- Publication number
- TWI793739B TWI793739B TW110132014A TW110132014A TWI793739B TW I793739 B TWI793739 B TW I793739B TW 110132014 A TW110132014 A TW 110132014A TW 110132014 A TW110132014 A TW 110132014A TW I793739 B TWI793739 B TW I793739B
- Authority
- TW
- Taiwan
- Prior art keywords
- branch
- address
- cache
- conditional branch
- predictor
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000015654 memory Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 description 9
- 238000003491 array Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000010754 BS 2869 Class F Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 235000012431 wafers Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3836—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
- G06F9/3842—Speculative instruction execution
- G06F9/3844—Speculative instruction execution using dynamic branch prediction, e.g. using branch history tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3802—Instruction prefetching
- G06F9/3804—Instruction prefetching for branches, e.g. hedging, branch folding
- G06F9/3806—Instruction prefetching for branches, e.g. hedging, branch folding using address prediction, e.g. return stack, branch history buffer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3836—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
- G06F9/3842—Speculative instruction execution
- G06F9/3848—Speculative instruction execution using hybrid branch prediction, e.g. selection between prediction techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30029—Logical and Boolean instructions, e.g. XOR, NOT
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/3004—Arrangements for executing specific machine instructions to perform operations on memory
- G06F9/30047—Prefetch instructions; cache control instructions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/3005—Arrangements for executing specific machine instructions to perform operations for flow control
- G06F9/30058—Conditional branch instructions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/32—Address formation of the next instruction, e.g. by incrementing the instruction counter
- G06F9/321—Program or instruction counter, e.g. incrementing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/32—Address formation of the next instruction, e.g. by incrementing the instruction counter
- G06F9/322—Address formation of the next instruction, e.g. by incrementing the instruction counter for non-sequential address
- G06F9/323—Address formation of the next instruction, e.g. by incrementing the instruction counter for non-sequential address for indirect branch instructions
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Advance Control (AREA)
Abstract
本申請提供了推測分支模式更新方法和微處理器。在一個實施例中,一種微處理器包括:第一邏輯,其被配置為檢測為拾取到的快取記憶體位址與兩個先前快取記憶體位址其中至少之一匹配;以及第二邏輯,其被配置為基於所述匹配來調整用於條件分支預測的分支模式並且將所述快取記憶體位址與調整後的分支模式進行組合以形成條件分支預測器位址。
Description
本發明是有關於一種微處理器,且特別是有關於一種微處理器中的分支預測。
微處理器如今使用流水線處理方案來操作,由此程式設計指令被分解為在流水線的多個級中併發執行的步驟。指令通常(例如,程式設計代碼的10-20%)包括分支指令或簡單的分支,其中包括無條件分支(例如,始終採取的分支)和條件分支(例如,根據對指定條件的評估而採取或不採取)。直到計算出條件並且條件跳轉經過指令流水線中的執行級之前,通常不確定地知道採取還是不採取條件跳轉,這可能導致獲取下一條指令的延遲。已經開發了分支預測器以試圖在流水線的前端猜測條件分支將去向哪個方向(採取、不採取)以及到達哪個目標位址,並且這樣改善了整個流水線中的指令流。
在微處理器中常用的一個分支預測器被稱為分支目標位址快取記憶體(BTAC)。BTAC包括硬體邏輯,該硬體邏輯可以包括使用過去的分支指令行為的全域歷史模式以實現對所拾取的分支指令的目標位址的預測。一般而言,用於BTAC的分支預測器可以包括與多個經常用字母表示的、多集關聯的快取記憶體記憶體或邊(諸如在BTAC的兩個快取記憶體記憶體的情況下,邊A和邊B等)相結合使用的多個預測器表。各邊可以包括多個路(例如2路、4路等)。用於一些示例BTAC陣列的資訊可以在美國專利No.8,832,418和No.7,707,397中找到。
對於條件分支預測,BTAC可使用標籤幾何(TAGE)預測器,其包括各自具有不同長度的全域分支歷史模式的多個表。關於TAGE預測器的附加資訊可以在“A New Case for the TAGE Branch Predictor (Andre Seznec,MICRO 2011:The 44th Annual IEEE/ACM International Symposium on Microarchitecture,2011,ACM/IEEE,2011年12月,Porto Allegre,巴西)中找到,其透過引用而全文併入於此。對於一些微處理器,TAGE預測器通常使用由第三先前取指更新的分支模式。該特徵工作良好,但有時可能在兩個取指內遇到同一分支且沒有最近條件分支時產生不良預測。因而,相同模式可用於相同分支的多個實例,並且如果分支的兩個實例不同地解析(例如,採取或不採取),則可能出現錯誤預測。
在一個實施例中,一種微處理器包括:第一邏輯,所述第一邏輯被配置為檢測為拾取到的快取記憶體位址與兩個先前快取記憶體位址其中至少之一匹配;以及第二邏輯,其被配置為基於所述匹配調整用於條件分支預測的分支模式並且將所述快取記憶體位址與調整後的分支模式進行組合以形成條件分支預測器位址。
在檢查以下附圖和詳細描述時,本發明的其它系統、方法、特徵和優點對於本領域具有通常知識者將是明顯的或變得明顯。所有這樣的附加系統、方法、特徵和優點旨在被包括在本說明書內、本發明的範圍內,並且受所附申請專利範圍的保護。
公開了一種推測分支模式更新系統和方法的某些實施例,該推測分支模式更新系統和方法透過在遇到與來自兩個先前取指的快取記憶體位址匹配的分支時調整所使用的分支模式來改進分支預測。在一個實施例中,推測分支模式更新系統包括第一邏輯,該第一邏輯檢測快取記憶體位址是否與兩個先前快取記憶體位址其中至少之一匹配。推測分支模式更新系統還包括第二邏輯,該第二邏輯基於匹配來調整用於條件分支預測的分支模式並且將快取記憶體位址與調整後的位元模式進行組合以形成條件分支預測器位址。透過改變後的條件分支預測器位址,分支預測基於與先前分支不同的分支模式歷史,從而得到較少的錯誤預測。
簡而言之,條件分支預測器使用可能是兩次或三次之前的取指的分支模式,這可能導致將相同的舊分支模式用於兩次分支發生,潛在地導致錯誤預測。相比之下,推測分支模式更新系統的某些實施例檢測用於條件分支預測的給定快取記憶體位址是否與兩個先前快取記憶體位址中的一個或多個匹配,並且調整用於形成條件分支預測器(例如,TAGE)位址的分支模式。分支模式以及因此的TAGE位址不同於用於基於先前快取記憶體位址的分支預測的分支模式,因此提供不同的分支預測。
在總結了本發明的推測分支模式更新系統的某些特徵之後,現在將詳細參考如附圖中所例示的推測分支模式更新系統的描述。雖然將結合這些附圖來描述推測分支模式更新系統,但並不意在將其限制於這裡所公開的實施例。即,雖然本發明容許修改和替代形式,但是其具體實施例在附圖中以示例的方式示出並且本文將詳細描述為足以使本領域具有通常知識者理解。然而,應當理解,附圖及其詳細描述不旨在將本發明限制為所公開的特定形式。相反,本發明將覆蓋落在由所附申請專利範圍限定的本發明的精神和範圍內的所有修改、等同物和替代物。如貫穿本申請所使用的,詞語“可以”是以許可的意義(即,意味著具有潛在性)而不是強制的意義(即,意味著必須)來使用的。類似地,詞語“包括”意味著包括但不限於。
各種單元、模組、電路、邏輯或其它元件可被描述為“被配置為”進行一個或多個任務。在這樣的上下文中,“被配置為”是對結構的廣泛敘述,其一般意味著“具有在操作期間進行或能夠進行一個或多個任務的電路或其它物理結構”。電路可以是專用電路、或在編碼指令的控制下操作的更通用處理電路。也就是說,在描述本發明的各種實現的某些方面或特徵時,這裡可以使用諸如“單元”、“模組”、“電路”、“邏輯”和“元件”等的術語。本領域具有通常知識者將理解,利用電路實現相應的特徵,無論該電路是專用電路還是在微編碼指令控制下操作的更通用電路。
此外,單元/模組/電路/邏輯/元件可以被配置為即使在該單元/模組/電路/邏輯/元件當前不在操作中時也進行任務。敘述被配置為進行一個或多個任務的單元/模組/電路/邏輯/元件明確地不旨在針對該單元/模組/電路/邏輯/元件進行功能性限定。對此,本領域具有通常知識者將瞭解,電路元件的具體結構或互連將通常由設計自動化工具的編譯器(諸如暫存器傳送語言(RTL)編譯器等)來確定。RTL編譯器對非常類似於組合語言代碼的腳本進行操作,以將腳本編譯成用於最終電路的佈局或製造的形式。
即,使用更高級軟體工具來設計積體電路(諸如本發明的積體電路等),以對電路的期望功能操作進行建模。如眾所周知的,“電子設計自動化”(或EDA)是用於設計電子系統(諸如積體電路等)的軟體工具的類別。EDA工具還用於將設計功能程式設計到現場可程式設計閘陣列(FPGA)中。如Verilog和甚高速積體電路硬體描述語言(VHDL)的硬體描述語言(HDL)被用於創建電路的高級表示,從該高級表示可以得到低級表示和最終的實際佈線。實際上,由於現代半導體晶片可以具有數十億個元件,因此EDA工具被認為對於它們的設計是必要的。實際上,電路設計者使用如C/C++的程式設計語言來指定操作功能。EDA軟體工具將該指定功能轉換成RTL。然後,硬體描述語言(例如Verilog)將RTL轉換成離散的門網表。該網表定義由例如鑄造廠生產的實際電路。實際上,這些工具因其在促進電子和數位系統的設計工藝中的作用和用途而眾所周知和理解,因此本文不需要描述。
圖1A示出微處理器10所用的示例分支單元流水線的實施例。應當理解,為了簡潔和易於解釋和例示,這裡省略了微處理器10的某些已知元件。眾所周知,流水線架構提供了在執行中重疊的多個指令,其中各級稱為管道級。分支單元流水線中所示的塊各自可以根據一個或多個級來實現,這些級顯示在塊的左邊並且在所描繪的實施例中由從上至下按順序前進並且被重定向(如箭頭所示)的大寫字母C、I、B、U、L、M、F、G、W、X、E、S、W、Y和Z表示。本領域具有通常知識者應當理解,圖1A中所描繪的級的數量和/或佈置僅僅例示一個示例實施例,並且在一些實施例中,級的不同數量和/或佈置可被實現,因此預期在本發明的範圍內。本領域具有通常知識者還應當理解,這些塊提供了對分支流水線的功能的一般描述,並且為了簡潔,這裡省略了本領域具有通常知識者已知的相關邏輯或電路。例如,本領域具有通常知識者應當理解,如已知的,流水線的各級可以由時脈流水線暫存器或鎖存器分開。作為另一示例,儘管在圖1A中未明確示出,但本領域具有通常知識者應當理解,前端處的操作涉及與指令快取記憶體的資料交換或交互。
指令快取記憶體是微處理器內的隨機存取記憶體裝置,微處理器將最近從較大快取記憶體(例如,L2快取記憶體、L3快取記憶體)或系統記憶體獲取和/或預獲取(例如,透過匯流排界面單元從DRAM獲取和/或預獲取)並且由微處理器在運行ISA機器語言程式的過程中進行的ISA機器語言程式的指令(諸如x86 ISA機器語言指令等)放入指令快取記憶體中。ISA定義保持要進行的下一ISA指令的記憶體位址(由x86 ISA定義為指令指標(IP),但有時稱為程式計數器(PC))的指令位址暫存器,並且微處理器在其運行機器語言程式以控制程式的流程時更新指令位址暫存器內容。為了隨後在下一次機器語言程式流執行時基於指令位址暫存器內容從指令快取記憶體而不是從系統記憶體更快地拾取ISA指令的目的,對ISA指令進行快取記憶體,使得暫存器保持指令快取記憶體中所存在的ISA指令的記憶體位址。特別地,基於保持在指令位址暫存器中的記憶體位址(例如,IP)而非排他性地基於由載入或存儲指令指定的記憶體位址來訪問指令快取記憶體。因此,將ISA指令保持為資料(諸如可存在於採用軟體轉譯器的系統的硬體部分中等)、並且排他地基於載入/存儲位址而不是透過指令位址暫存器值來訪問的專用資料快取記憶體不是指令快取記憶體。此外,為了本發明的目的,對指令和資料進行快取記憶體(即,基於指令位址暫存器值和載入/存儲位址,而不是排他地基於載入/存儲位址所訪問)的統一快取記憶體旨在被包括在指令快取記憶體的定義中。
特別注意圖1A的微處理器10的分支單元流水線,微處理器10包括流水線微處理器,在一個實施例中,該流水線微處理器的指令集基本上符合x86架構指令集。如本領域具有通常知識者從本文提供的描述中將瞭解的,本發明可以以各種不同的電路結構和架構來實現,並且圖1A中所示的架構僅是許多合適的架構之一。示例性微處理器10包括快速預測器12、分支目標位址快取記憶體(BTAC)14、指令位元組佇列(XIB)16、分支解碼器18、格式指令佇列(FIQ)/迴圈佇列20、指令轉譯器22、暫存器別名表(RAT)/保留站(RS)24、執行單元(例如,整數單元、浮點單元等)26、以及分支表更新28。微處理器10的各附圖標記的方塊對應於在相應的多個級C、I、B、U、L、M、F、G、W、X、E、S、W、Y和Z上實現的邏輯電路,其中流水線架構在每個級啟用不同指令組。在一個實施例中,可以在每個級處運行四個或更多個指令,其中控制信號沿著流水線標記各級。與快速預測器12、BTAC 14和XIB 16相關聯的級涉及對指令快取記憶體(I快取記憶體,圖1A中未示出)的訪問。
快速預測器12包括單週期分支預測器,該單週期分支預測器提供單週期預測(例如,花費一個週期來產生目標位址,在一個實施例中在I級提供該預測)。在一個實施例中,快速預測器12包括存儲先前執行的分支指令的分支目標位址的表(本文也被稱為陣列或目標陣列),該表在隨後遇到所存儲的分支指令時實現分支預測。在一個實施例中,表包括128個條目,但是在一些實施例中可以使用其它大小(例如,64個條目、32個條目等)的表。該表被組織為n路(例如,n是大於1的整數)的集關聯快取記憶體。一般而言,n路的集關聯快取記憶體在這裡也稱為多集關聯快取記憶體。在一個實施例中,各條目存儲八(8)個3位元數目器和當前局部分支模式,該計數器是由3位元局部分支模式而選擇的。快速預測器12還包括條件分支預測器,該條件分支預測器與該表並行地被訪問並且為條件分支提供採取/不採取的方向。快速預測器還包括返回堆疊,該返回堆疊可以提供目標而不是表。在一個實施例中,返回堆疊包括四(4)個條目,並且為返回指令提供目標。注意,以上列出的規範僅用於說明,並且一些實施例可以在不同的規範下進行,因此預期在本發明的範圍內。快速預測器12被配置為立即(在單個週期內)遞送預測分支目標,而沒有採用分支懲罰。在一些實施例中,快速預測器12可以根據其預測機制和/或表配置的其它規範來操作,或者在一些實施例中,可以省略快速預測器12。大多數分支被快速預測器12正確地預測。在一些實施例中,在快速預測器12基於同一所獲取的分支指令而提供與BTAC 14的分支預測不同(例如,在方向和/或目標上不同)的分支預測的情況下,BTAC 14利用BTAC 14所提供的分支預測資訊(例如,方向、目標位址、分支預測類型)來在BTAC 14的一組級內(例如,在U級)重寫快速預測器12的分支預測並更新快速預測器表。
I級和/或B級對應於對分支單元流水線的各種表(包括I快取記憶體、標籤陣列、轉譯後備暫存器(TLB)陣列、BTAC陣列、返回堆疊陣列等)的訪問、(例如,基於標籤)透過多工給出方向或路、以及讀出指令。
BTAC 14保持其用於預測後續執行期間的目標位址、方向和類型的與先前執行分支指令有關的資訊。BTAC 14包括比快速預測器12的表大得多的一個或多個表。在一個實施例中,BTAC 14包括4k條目、m路的集關聯表(這裡也稱為陣列或目標陣列),其中m是大於1的整數。類似于n路集關聯表,m路集關聯表在這裡也可以被稱為多集關聯表。BTAC 14的各條目包括有效位元、分支目標位址預測、方向預測和分支類型。分支類型指定分支指令是呼叫/返回、是間接分支、是條件相對分支、還是無條件相對分支。在一個實施例中,BTAC 14包括具有多條目(例如,12k)的基於標籤幾何(TAGE)的條件分支預測器的條件相對分支預測器(或者簡稱為條件分支預測器)、多個表、多位(例如,3位)、採取/不採取(T/NT)計數器以及多位元全域分支歷史,或者與上述這些協作。也就是說,如已知的,TAGE條件分支預測器包括具有幾何上增加的分支歷史長度的標籤表。作為另一示例,間接預測包括多條目(例如,1.5k) TAGE預測器,並且將表條目用於靜態間接分支。在一個實施例中,使用了兩個TAGE條件分支預測器,一個用於預測器陣列中的邊A,以及一個用於預測器陣列中的邊B。TAGE條件分支預測器可以是BTAC的一部分或與BTAC 14結合使用。
在一個實施例中,BTAC 14包括具有比TAGE條件分支預測器低的複雜度的第二類型的條件分支預測器(例如與預測器陣列的邊C相關聯的GSHARE預測器)或與之協作。GSHARE條件分支預測器可以是BTAC 14的一部分或與BTAC 14結合使用。GSHARE條件分支預測器包括在快速預測器12的複雜度與TAGE條件分支預測器的複雜度之間的複雜度(例如,大約TAGE條件分支預測器的大小的1/10)。在一個實施例中,GSHARE條件分支預測器包括單個表(例如,包括最後m個執行的分支指令的分支模式的m位元全域歷史暫存器,其中,m通常為10-12位,但不限於該數量)。GSHARE條件分支預測器使用全域分支歷史和分支指令的位置(例如IP)來(經由XOR邏輯運算)創建到計數器(例如2位元數目器)的表中的索引,其中索引的結果是針對當前分支的預測。由於TAGE和GSHARE類型的條件分支預測器在本領域中是已知的,因此為簡潔起見,在此省略對其的進一步描述。此外,儘管這裡強調了邊A、B和C,但是在一些實施例中,可以使用更少的或額外的邊。注意,在一些實施例中,可以使用其它類型的預測機制,包括基於相關性的預測機制、使用全域和局部分支歷史的組合的條件分支預測器等。對於指令快取記憶體的快取記憶體行的各部分或各取指單位(quantum)(例如,16位元組),BTAC 14可以保持三個條目(例如,邊A、B和C,儘管在一些實施例中可以使用更少的邊來存儲針對更少的分支指令的預測資訊),該三個條目可以保持針對可能存在於快取記憶體行的一部分中的多達三個分支指令的預測資訊。注意,示例BTAC的進一步資訊可以在美國專利8,832,418和7,707,397中找到,這些專利在與本發明一致的程度上透過引用結合在此。BTAC 14包括透過一組級(例如,I級、B級和U級)的操作。實際上,分支指令的U級用作目標的C級(例如,從B級到C級的箭頭反映B級處的分支指令的情況,並且下一個時脈是目標的C級,或者在這裡也是快取記憶體位址),從而導致BTAC預測的二時脈延遲。
BTAC 14具有二時脈採取懲罰(two-clock taken penalty),這也揭示快速預測器12透過立即將新快取記憶體位址引導為目標來提供快速分支預測(無採取懲罰)的益處。在一個實施例中,BTAC 14大於快速預測器12且具有更複雜的分支預測機制,其被配置為(例如,總是)在分支預測中存在不一致(例如,BTAC 14確定的分支預測與快速預測器12所確定的採取判斷和/或分支目標位址不同)時重寫快速預測器12的分支預測。在一些實施例中,BTAC 14被配置為透過將分支預測資訊寫入到快速預測器12的表中(且還寫入BTAC 14的表中)來在BTAC級其中之一(例如,U級)期間更新快速預測器12。在一些實施例中,延遲對BTAC 14的更新,直到分支被執行或引退為止,其中對BTAC 14的更新涉及對BTAC 14的預測器表的寫入。在一個實施例中,更新涉及目標資訊更新和/或計數器更新。然而,對快速預測器12的更新不等待那麼久,而在BTAC級期間發生。注意,不在快速預測器12中的分支在兩個週期之後在與BTAC級相對應的時間(例如,在BTAC級期間)被寫入快速預測器12中。
XIB 16是條目佇列,各條目保持來自指令快取記憶體的16個位元組的資料。例如,來自XIB 16的快取記憶體資料僅是採用16個位元組的塊的指令位元組流,並且鑒於指令具有可變長度,給定x86指令在流內或給定塊內在何處開始或結束是未知的。XIB 16包括用以確定和標記各指令在流內的開始和結束位元組、從而將位元組流分解成x86指令流的已知邏輯,其中該x86指令流被提供給FIQ/迴圈佇列20並存儲在FIQ/迴圈佇列20中以供微處理器流水線的其餘部分處理。在L(長度)級,XIB 16確定指令長度。在一個實施例中,預解碼器(圖1A中未示出)在U級處實現,並且被配置為檢測潛在分支指令並且在佇列中針對各指令位元組來如此地標記它們。注意,在該級,存在關於給定位元組是否為指令的開始的模糊性。如果位元組是在稍後(M級)確定的分支指令的操作碼位元組,則該指令被確認為分支指令。例如,分支解碼器18包括用於在多工或M級中對指令進行多工的指令多工(未示出),其中分支指令被這樣確認。注意,關於分支解碼的附加資訊可以在美國專利8,473,726中找到,其全文在與本發明一致的程度上透過引用結合在此。
在F級中,如以上所說明的對這些指令進行格式化。在一個實施例中,格式化指令包括基本上符合x86架構指令集的指令。此外,在M級確定給定指令(可能由預解碼器預先標記)是否確實是分支。例如,在快速預測器12或BTAC 14中發生未命中的情況下(例如,在初始啟動時),分支解碼器18(例如,指令多工)決定為當前指令是分支,向BOT寫入,並且在G級將快取記憶體位址重定向到新目標並更新微處理器10的前端中的表。實際上,當在快速預測器12或BTAC 14處未命中時,分支解碼器18提供分支預測,其中分支指令在C級轉向目標。在一些情況下,諸如在BTAC 14處針對各取指存在多於有限或預定最大數量的分支(例如,針對各16位元組取指存在多於三個分支)的情況下,延遲額外分支的分支預測,直到解碼時間為止。
FIQ/迴圈佇列20接收格式化指令並且對它們進行緩存,直到它們可以被轉譯成微指令為止。FIQ/迴圈佇列20還提供初步解碼和快速迴圈功能(例如,在BTAC迴圈分支上,迴圈佇列被啟動並且迴圈指令被重複發送),後者由方塊20右側的箭頭表示。
W級提供可選的額外定時時脈。
在X級,指令轉譯器22 (在X級或轉譯級中)將FIQ/迴圈佇列20中所存儲的格式化指令轉譯為微指令。
指令以程式順序被提供至暫存器別名表/保留站(RAT/RS)表24。RAT/RS 24的RAT功能維持和生成針對各指令的依賴性資訊。RAT/RS 24的RAT功能將指令的源和目的地重命名到內部暫存器上,並且將指令分派到RAT/RS 24的保留站,該保留站(可能不按照程式順序)執行單元26發出指令。包括整數單元的功能或執行單元26在E(執行)級執行分支指令。執行單元、分支單元和整數單元是本文中可互換使用的術語。在一個實施例中,執行單元26 (例如,兩個執行單元)在單個時脈週期中執行兩個分支。執行單元26還指示BTAC 14是否已正確地預測分支指令。
在一個實施例中,將執行的結果提供給重排序暫存器(未示出),該重排序暫存器包括與已經執行的指令有關的資訊。眾所周知,重排序暫存器在指令發出之後保持指令的原始程式順序,並允許在退出級期間對結果進行序列化。在一個實施例中,可以將重排序暫存器的資訊中的一些存儲在沿著流水線的其它地方,諸如在解碼器18處等。存儲在重排序暫存器中的資訊可以包括分支資訊,諸如分支的類型、分支模式、目標、預測中使用的表以及快取記憶體替換策略資訊(例如,最近最少使用或LRU)等。
分支表更新28包括S、W、Y和Z級,並且被配置為用與完全解碼和執行的分支指令有關的資訊(例如,分支的最終結果)來(例如,在S級處)對前端的各種表(例如,BTAC、TAGE)進行更新。在S、W、Y和Z級,更新可能涉及表讀取、目標位址寫入以及計數器遞增或遞減,這可能涉及一些延遲。在一個實施例中,分支表更新28針對給定條件分支指令和緩存有該條件分支指令的邊(例如,A、B或C)提供錯錯誤預測的指示。
現在參考圖1B並繼續參考圖1A,示出在針對圖1A的微處理器10示出的分支單元流水線的前端30處使用的示例快速預測器12和其它示例性源。前端30包括獲取單元32(例如,包括多工和時脈暫存器)、轉譯後備暫存器(TLB) 34、指令快取記憶體(I快取記憶體資料)36、I快取記憶體標籤38(或標籤陣列)、BTAC 14以及快速預測器12。獲取單元32接收多個快取記憶體指令位址源,包括順次的指令位址(例如,來自I級)、經校正指令位址(例如,來自S級)、解碼時間指令位址(例如,來自G級)以及來自BTAC 14和快速預測器12的位址。獲取單元32的輸出是作為對TLB 34、I快取記憶體資料36、I快取記憶體標籤38、BTAC 14和用於訪問I快取記憶體資料36的下一指令的快速預測器12的輸入而提供的快取記憶體位址。
TLB 34在記憶體管理單元(未示出)的管理下提供如已知的虛擬到物理頁位址轉譯。即,TLB 34存儲最近使用的虛擬位址的物理位址。TLB 34從分段單元(其將來自程式的邏輯位址轉換成線性位址)接收線性位址,並且將該線性位址的一部分與TLB 34的條目進行比較以查找匹配。如果存在匹配,則根據TLB條目計算物理位址。如果不存在匹配,則拾取來自記憶體的頁表條目且將該頁表條目放置到TLB 34中。
I快取記憶體資料36包括已經從L2、L3或主記憶體拾取或預拾取的指令的1級快取記憶體。I快取記憶體資料36包括多個時脈暫存器。
I快取記憶體標籤38包括與I快取記憶體資料36中的指令相對應的標籤陣列,並且包括多個時脈暫存器,並且用於確定與所拾取的快取記憶體指令相關聯的資訊(例如,快取記憶體位址的標籤或部分)與I快取記憶體資料36和BTAC 14之間的匹配。
上文結合圖1A說明了BTAC 14,並且該BTAC 14具有多個時脈暫存器和二(2)時脈採取懲罰。同樣在上文中說明的快速預測器12具有零(0)時脈採取懲罰。例如,假定沿著I快取記憶體以每週期16個位元組進行拾取,並且假設快取記憶體位址20至快取記憶體位址95的分支指令。注意,在該示例中由地址描述暗示十六進位標記法(例如,0x0、0x10、0x20等)。由此,取指在快取記憶體位址0、快取記憶體位址10、快取記憶體位址20 (分支指令,但由於BTAC 14跨越多個週期進行讀取和多工因而尚未解決,其中在一些實施例中,該多個週期是與I快取記憶體相同的定時)、快取記憶體位址30 (相對時脈1)、快取記憶體位址40 (相對時脈2)、然後在第3時脈(相對時脈3)上發生,快取記憶體指令取指被重定向到緩存位址95。因此在該示例中採取的分支懲罰包括兩個時脈週期,因為快取記憶體位址30和40發生在分支之後。換言之,在沒有快速預測器12的情況下,對於該特定設計示例,採用的分支懲罰總是兩個時脈。利用更小且更快的快速預測器12,快取記憶體位址獲取(在以上示例中)包括0、10、20和95,對快取記憶體地址沒有延遲且採取的懲罰為零。如上所述,在一些實施例中,快速預測器12可以被省略。
前端30還包括分支模式調整邏輯40,如以下結合圖2進一步說明的,該分支模式調整邏輯40被配置為檢測條件分支指令的快取記憶體位址是否與兩個先前快取記憶體位址中的一個或多個相匹配,並且還被配置為調整由所拾取的快取記憶體位址使用的分支模式。然而,在進一步詳細描述分支模式調整邏輯40之前,一些附加背景可以促進進一步理解由分支模式調整邏輯40解決的分支預測缺點。如所知的,超標量微處理器架構利用多個指令流水線來在給定時脈週期期間同時執行若干指令。參考圖1A,可以在C、I、B和U級處同時實現快取記憶體位址00、10、20、30、40等處的指令(例如,為了便於說明而使用速記的十六進位的格式)。例如,在U級處,微處理器可以檢測快取記憶體位址10處的指令的分支(例如,具有不採取(NT)的方向預測),而快取記憶體位址40處的指令正開始被處理(例如,在C級處)。儘管程式設計流不受NT分支的影響(例如,由於快取記憶體位址20和30已經進入流水線),但需要存在分支模式更新。由於在至少一些微處理器中更新直到針對快取記憶體位址20和30的第三取指之前都不會發生,因此更新太晚。然而,與NT條件分支相對應的快取記憶體位址10影響與在C級處的快取記憶體位址40一起使用的模式。由此,由於C級處的快取記憶體位址40是在從U級處的快取記憶體位址10起的三次取指之前,因此快取記憶體位址40遇到基於快取記憶體位址10處的NT分支的經更新位元模式。相應快取記憶體位址20和30處的快取記憶體行取指中的任何分支遇到過去的分支模式(不是基於快取記憶體位址10處的NT分支的經更新分支模式),這是因為這些位址在三個取指延遲內。類似地,如果(例如)快取記憶體位址30為採取分支(到快取記憶體位址95),則丟棄後續的快取記憶體地址40和50(例如,丟棄30與95之間的快取記憶體位址),然後跟隨的快取記憶體位址包括(從快取記憶體位址95起的)快取記憶體地址100、110、120等。在給定三次取指之前更新的情況下,快取記憶體位址110處的取指看到快取記憶體位址30處的分支模式改變,而快取記憶體位址95處的採用分支影響快取記憶體位址110的模式(在三次取指之前更新的情況下在快取記憶體位址110處未被看到)。這種延遲更新對於推測分支處理而言是固有的,但是一些微處理器可能具有不同程度的延遲(例如,兩次取指延遲)。注意,一些研究者透過推薦並行地預測每個可能的結果來解決這個問題,但是這種方法的一個不利方面是使用增加的讀取埠並且因此增加的晶片大小來將更近的分支更新到模式中。
在上述情況下,推測分支預測的固有處理可能面臨的挑戰是,當相同分支模式用於需要不同地預測的分支時,這導致錯誤預測。例如,假定順序拾取快取記憶體位址100、110、120、130和140並且全部不包括分支(並且因此不包括模式改變),然後拾取包括NT條件分支的快取記憶體位址150。在該情況下,NT條件分支的快取記憶體位址150使用三次之前的快取記憶體位址(例如,快取記憶體位址120)的分支模式。假定存在導致從相同快取記憶體位址(例如,在快取記憶體位址150處,諸如重定向到快取記憶體位址150的在快取記憶體位址160處的分支指令)拾取的稍後的分支指令,從而導致快取記憶體位址150的第二次發生,但這次程式流需要重定向快取記憶體位址(例如200)的採取條件分支。在三次取指回顧的情況下,分支模式更新基於快取記憶體位址140 (例如,給定140、150、160、150的快取記憶體拾取序列)。然而,在該示例中想到在快取記憶體位址範圍100-140中不存在分支。換言之,快取記憶體位址120處的分支模式(由快取記憶體位址150的第一次發生使用的更新)與140處的分支模式(由快取記憶體位址150的第二次發生使用的更新)相同。條件分支預測器不能區分這些不同的預測方向(採取的與不採用的),這是因為所使用的分支模式是相同的,從而導致利用正在使用的分支模式形成的相同的條件分支預測器(TAGE)位址,從而導致相同的預測(或者兩者都採取,或者兩者都不採取)。顯然,在該示例中,這些預測中的一個是錯誤的,從而導致錯誤預測。
作為另一示例,可能存在如下實例,其中拾取快取記憶體位址150然後在快取記憶體位址160處分支向後返回(例如,返回到在快取記憶體位址150處的分支)。實際上,這樣的情形可以發生在分支取指自身內(例如,代替快取記憶體位址160,例如在150處的取指內的快取記憶體地址,例如快取記憶體位址159、15F等,其中分支將處理重定向到快取記憶體位址150)。無論如何,存在可能發生不同的分支方向的重複的取指位址。
結合圖2A描述了上述問題的一個解決方案,其中,檢測重複的取指位址,並且分支預測基於調整後的分支模式。具體地,圖2A示出圖1B中所示的被配置為從獲取單元32接收快取記憶體位址的分支模式調整邏輯40的一個實施例。分支模式調整邏輯40包括:第一邏輯,該第一邏輯用於檢測當前快取記憶體位址與兩個先前快取記憶體位址中的一個或多個的匹配;以及第二邏輯,該第二邏輯用於調整用於先前快取記憶體位址的分支模式並且使用調整後的分支模式來形成條件分支預測器(例如,TAGE)位址,該條件分支預測器位址被發送到TAGE表以提供與從先前快取記憶體位址匯出的預測不同的預測。在一個實施例中,分支模式調整邏輯40包括暫存器42、暫存器44和與第一邏輯相對應的比較器邏輯46。分支模式調整邏輯40還包括邏輯48,該邏輯48被配置為翻轉示出與對快取記憶體位址的先前取指相關聯的先前分支的影響的分支模式的多個位。暫存器42被配置為存儲前一週期使用的快取記憶體位址,並且暫存器44被配置為存儲兩個週期前使用的快取記憶體位址。暫存器42、44的輸出被輸入到比較器邏輯46,其中,在所拾取的快取記憶體位址與來自暫存器42的前一週期的快取記憶體位址之間進行比較,並且在所拾取的快取記憶體位址與來自暫存器44的兩個週期前的快取記憶體位址之間進行進一步的比較。任一匹配(例如,OR邏輯)意味著用於可能潛在地引起錯誤預測的不同採取或不採取方向的條件分支的重複分支模式的可能性。
第二邏輯包括邏輯48,該邏輯48被配置為進行分支模式更新。邏輯48接收當前分支模式、所拾取的快取記憶體位址和匹配的指示,並翻轉分支模式的一個或多個位。例如,邏輯48翻轉分支模式的兩位元,並且透過將經更新的分支模式與快取記憶體位址進行組合(例如,經由XOR運算)來形成新的TAGE位址,該TAGE位址用於訪問TAGE預測器的表。因此,所拾取的快取記憶體位址獲得不同的預測,這是因為其使用不同的分支模式(其用於形成與先前快取記憶體位址取指所使用的TAGE表位址不同的TAGE表位址)。如圖2B中所示,BTAC 14具有或耦合到分支預測表50。在一個實施例中,分支預測表50(或簡稱為表)包括第一邊(A)、第二邊(B)和第三邊(C),但是在一些實施例中可以使用不同數量的邊。第一邊A和第二邊B各自包括與相應第一條件分支預測器(或更具體地,TAGE條件分支預測器(一個用於邊A,一個用於邊B))相對應的一組多集關聯表。第三邊包括包含單個條件分支預測器(例如,GSHARE條件分支預測器)的單個表,但是在一些實施例中,第三邊可以省略或與不同的條件分支預測器和/或不同數量的表相關聯。多個表T0-TN在相應的邊A和B中,其中,N是大於一的整數。本領域具有通常知識者應瞭解,BTAC 14和條件分支預測器(TAGE、GSHARE)這兩者具有多邊陣列(各自具有邊A、B和C)。例如,如果分支存在於BTAC 14的邊B中,則分支也存在於條件預測器的邊B中。如圖2B中所示,預測表50的各個邊A、B具有單獨的TAGE條件預測器,並且邊C具有GSHARE條件分支預測器。
進一步說明匹配和位翻轉,並且繼續參考圖2A-2B並且使用以上所描述的示例,來自兩個週期前的快取記憶體位址150沒有獲得位址匹配,因此沒有位被翻轉。例如,分支模式是全零。發送到TAGE預測器表50的與緩存位址150相對應的TAGE地址被發送到TAGE表中,並且從那裡得到預測。第二次,存在位址匹配(例如,針對所拾取的快取記憶體位址150),分支模式調整邏輯40檢測到該場景,並且翻轉分支模式的位元,例如位元[8]和[2],其用於形成與用於快取記憶體位址150的先前發生的TAGE位址不同的TAGE位址。基於該處理,存在不同的分支模式(因此借助於由不同分支模式形成的不同的TAGE位址,存在不同的TAGE表條目),從而得到不同的預測。
再次參考圖2B,利用針對邊A和B的表T0-TN示出TAGE表。在一個實施例中,表50包括TAGE表T1-T8,各自具有512個條目。T1-T8的TAGE位址根據cache_address [8:0] XOR branch_pattern [8:0]形成,其中分支模式對於各個表是不同的(還存在表T0,其包括2k個沒有分支模式的條目)。在T1-T8的各個TAGE地址處,存在11位標籤和3位元數目器值。表的讀取需要標籤匹配以命中。在一個實施例中,被翻轉的兩個位包括位[8]和[2],但是取決於根據性能測試或其它測量的評估,可以翻轉其它位和/或更少的或額外的位。如上文類似地說明的,基於cache_address [8:0] XOR branch_pattern [8:0] XOR spec_adjust [8:0]形成TAGE位址,其中spec_adjust等於二進位值:100000100(其翻轉位[8]和[2])。注意,以上公開的XOR運算可以包括添加cache_address [17:9],其可以用於使訪問更均勻地分佈。此外,由於TAGE位址是透過將快取記憶體位址與分支模式的變化進行XOR而形成的,因此本領域具有通常知識者應瞭解,這樣的運算在邏輯上等效於翻轉快取記憶體位址的位[8]和[2],或翻轉TAGE地址的位[8]和[2]。無論如何,在形成TAGE位址(例如,cache_address XOR branch_pattern XOR spec_adjust)的同時進行分支模式調整。在本發明的上下文中,本領域具有通常知識者應當理解,上述規範提供說明性示例,並且一些實施例可以使用不同的規範。實際上,分支的第二次發生被視為不同的單獨分支,這使得TAGE預測器能夠學習以正確地預測兩次發生。當存在第二次發生的錯誤預測時,預測被校正。在沒有位址調整的情況下,當該預測被校正時,它還改變兩個週期前的快取記憶體位址的預測,這是因為兩者都使用針對表中的同一條目的TAGE位址——這可能導致第一次發生被錯誤預測。注意,在一些實例中,正確預測可以是兩者都採取或兩者都不採取,但是除了使用表中的額外條目之外不存在損害。
上述處理的一個值得注意的特殊情況是分支沒有被看到兩次。例如,根據上面假定快取記憶體位址150的示例,其中,處理分支到經過該分支的點的快取記憶體位址150處。假定快取記憶體位址取指100、110、120、130(其分支到158)、158(未見條件分支)、160(分支到150)、150(採取條件分支到200)和200。因此,從130,存在到158的分支,在158處不存在分支,但是在150處存在未被看到的分支。稍後在快取記憶體位址160處,存在返回到快取記憶體位址150的分支,在150處位址匹配被觸發。然而,如果在158處的快取記憶體位址是分支的目標,並且沒有看到條件分支,則實際上條件分支沒有被看到兩次。為了解決這一點,在一個實施例中,如果僅看到條件分支一次(例如,檢測到快取記憶體位址被看到兩次,但是由於分支的第一次發生已經被不同的分支跳過,因此僅看到分支一次),則分支模式調整邏輯40暫停分支模式調整。換句話說,對於取指位址匹配但取指是分支的目標的特殊情況,如果由於分支目標跳過條件分支而導致條件分支沒有被看到,則暫停調整(例如,停用或關閉)。注意,在比較中通常不使用位址位[3:0],因此快取記憶體位址158應通常與快取記憶體位址150匹配。
如上所述,推測分支模式更新系統的某些實施例調整分支模式,當與快取記憶體位址組合時,這產生了調整後的TAGE位址。這些TAGE位址用於讀取TAGE表。
鑒於以上描述,本領域具有通常知識者應當理解,推測分支模式更新方法(在圖3中表示為方法52並且在一個實施例中由微處理器實現)包括:檢測為拾取到的快取記憶體位址與兩個先前快取記憶體位址其中至少之一匹配(步驟54);基於所述匹配來調整用於條件分支預測的分支模式(步驟56);以及將所述快取記憶體位址與調整後的分支模式進行組合以形成條件分支預測器位址(步驟58)。
流程圖中的任何處理描述或方塊應被理解為表示代碼的模組、段、邏輯或部分(其包括用於在過程中實現特定邏輯功能或步驟的一個或多個可執行指令),並且替代實現包括在實施例的範圍內,其中如本發明領域具有通常知識者將理解的,功能可以不按所示或討論的順序地執行(包括基本上併發執行或以不同循序執行),這取決於所涉及的功能。
雖然已經在附圖和前面的描述中詳細示出和描述了本發明,但是這樣的示出和描述應被認為是說明性的或示例性的而不是限制性的;本發明不限於所公開的實施例。本領域具有通常知識者透過研究附圖、公開內容和所附申請專利範圍,在實踐要求保護的發明時可以理解並實現所公開的實施例的其它變化。
注意,可以使用所公開的實施例的不同組合,因此參考實施例或一個實施例並不意味著排除來自該實施例的特徵與來自其它實施例的特徵一起使用。在申請專利範圍中,詞語“包括”不排除其它元件或步驟。
10:微處理器
12:快速預測器
14:分支目標位址快取記憶體
16:指令位元組佇列
18:分支解碼器
20:格式指令佇列/迴圈佇列
22:指令轉譯器
24:暫存器別名表/保留站
26:執行單元
28:分支表更新
30:前端
32:獲取單元
34:轉譯後備暫存器
36:I快取記憶體資料
38:I快取記憶體標籤
40:分支模式調整邏輯
42:暫存器
44:暫存器
46:比較器邏輯
48:邏輯
50:分支預測表
52:方法
54-58:步驟
參考以下附圖,可以更好地理解本發明的各個方面。不必按比例繪製附圖中的組件,而是將重點放在清楚地例示本發明的原理上。此外,在附圖中,相同的附圖標記在多個視圖中表示相應部件。
圖1A是示出實現推測分支模式更新系統的實施例的微處理器所用的示例分支單元流水線的方塊圖。
圖1B是示出圖1A中所示的分支單元流水線的示例前端的示意圖。
圖2A是示出在推測分支模式更新系統的實施例中使用的示例分支模式調整邏輯的實施例的示意圖。
圖2B是示出在示例推測分支模式更新系統的實施例中使用的條件分支預測器和表的示意圖。
圖3是示出示例推測分支模式更新方法的實施例的流程圖。
52:方法
54:步驟
56:步驟
58:步驟
Claims (20)
- 一種微處理器,包括: 第一邏輯,其被配置為檢測為拾取到的快取記憶體位址與兩個先前快取記憶體位址其中至少之一匹配;以及 第二邏輯,其被配置為基於所述匹配來調整用於條件分支預測的分支模式並且將所述快取記憶體位址與調整後的分支模式進行組合以形成條件分支預測器位址。
- 如請求項1所述的微處理器,其中所述第一邏輯包括:第一暫存器,所述第一暫存器用於存儲所述先前快取記憶體位址中的兩個週期前使用的快取記憶體位址的第一快取記憶體位址;以及第二暫存器,所述第二暫存器用於存儲所述先前快取記憶體位址中的一個週期前使用的另一快取記憶體位址的第二快取記憶體位址。
- 如請求項2所述的微處理器,其中所述第一邏輯還包括比較邏輯,所述比較邏輯用於將拾取到的快取記憶體位址與所述第一快取記憶體位址進行比較並且將拾取到的快取記憶體位址與所述第二快取記憶體位址進行比較。
- 如請求項3所述的微處理器,其中所述第一邏輯被配置為基於所述比較邏輯的輸出來確定所述匹配。
- 如請求項4所述的微處理器,其中所述第二邏輯被配置為透過翻轉所述分支模式的一個或多個位來調整所述分支模式。
- 如請求項5所述的微處理器,其中所述第二邏輯被配置為經由所翻轉的一個或多個位與所述快取記憶體位址之間的XOR運算來形成所述條件分支預測器位址。
- 如請求項5所述的微處理器,其中與所述兩個先前快取記憶體位址相對應的分支的預測被快取記憶體在TAGE預測器的條件分支表中。
- 如請求項7所述的微處理器,其中所述第二邏輯將所述條件分支預測器位址發送到所述條件分支表,所述條件分支預測器位址用於在與基於所述第一快取記憶體位址的條件分支預測所用的條目不同的條目處讀取所述條件分支表。
- 如請求項8所述的微處理器,其中所述條件分支表的不同條目包括與基於所述第一快取記憶體位址的條件分支預測所用的分支預測計數器不同的分支預測計數器值。
- 如請求項1所述的微處理器,其中所述第一邏輯被配置為檢測為第二拾取到的快取記憶體位址包括分支的目標且沒有看到條件分支,其中所述第二邏輯被配置為暫停分支模式調整。
- 一種由微處理器實現的推測分支模式更新方法,所述推測分支模式更新方法包括: 檢測為拾取到的快取記憶體位址與兩個先前快取記憶體位址其中至少之一匹配; 基於所述匹配來調整用於條件分支預測的分支模式;以及 將所述快取記憶體位址與調整後的分支模式進行組合以形成條件分支預測器位址。
- 如請求項11所述的推測分支模式更新方法,更包括存儲所述先前快取記憶體位址中的兩個週期前使用的快取記憶體位址的第一快取記憶體位址,並且存儲所述先前快取記憶體位址中的一個週期前使用的另一快取記憶體位址的第二快取記憶體位址。
- 如請求項12所述的推測分支模式更新方法,更包括將拾取到的快取記憶體位址與所述第一快取記憶體位址進行比較並且將拾取到的快取記憶體位址與所述第二快取記憶體位址進行比較。
- 如請求項13所述的推測分支模式更新方法,更包括基於所述比較來確定所述匹配。
- 如請求項14所述的推測分支模式更新方法,更包括透過翻轉所述分支模式的一個或多個位來調整所述分支模式。
- 如請求項15所述的推測分支模式更新方法,更包括經由所翻轉的一或多個位與所述快取記憶體位址之間的XOR運算來形成所述條件分支預測器位址。
- 如請求項15所述的推測分支模式更新方法,其中與所述兩個先前快取記憶體位址相對應的分支的預測被快取記憶體在TAGE預測器的條件分支表中。
- 如請求項15所述的推測分支模式更新方法,更包括將所述條件分支預測器位址發送到所述條件分支表並且在與基於所述第一快取記憶體位址的條件分支預測所用的條目不同的條目處讀取所述條件分支表。
- 如請求項18所述的推測分支模式更新方法,其中所述條件分支表的不同條目包括與基於所述第一快取記憶體位址的條件分支預測所用的分支預測計數器不同的分支預測計數器值。
- 如請求項11所述的推測分支模式更新方法,更包括檢測為第二拾取到的快取記憶體位址包括分支的目標且沒有看到條件分支,並且暫停分支模式調整。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/099,852 US11113067B1 (en) | 2020-11-17 | 2020-11-17 | Speculative branch pattern update |
US17/099,852 | 2020-11-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202221702A TW202221702A (zh) | 2022-06-01 |
TWI793739B true TWI793739B (zh) | 2023-02-21 |
Family
ID=77558996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110132014A TWI793739B (zh) | 2020-11-17 | 2021-08-30 | 推測分支模式更新方法和微處理器 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11113067B1 (zh) |
CN (1) | CN113448626B (zh) |
TW (1) | TWI793739B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090077B (zh) * | 2021-11-24 | 2023-01-31 | 海光信息技术股份有限公司 | 调取指令的方法及装置、处理装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110320792A1 (en) * | 2010-06-24 | 2011-12-29 | International Business Machines Corporation | State machine-based filtering of pattern history tables based on distinguishable pattern detection |
TW201349111A (zh) * | 2012-02-24 | 2013-12-01 | Apple Inc | 抑制零述詞分支錯誤預測之分支錯誤預測行為 |
TW201403472A (zh) * | 2012-04-30 | 2014-01-16 | Apple Inc | 最佳化暫存器初始化操作 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6886093B2 (en) * | 2001-05-04 | 2005-04-26 | Ip-First, Llc | Speculative hybrid branch direction predictor |
US6938151B2 (en) * | 2002-06-04 | 2005-08-30 | International Business Machines Corporation | Hybrid branch prediction using a global selection counter and a prediction method comparison table |
US7152154B2 (en) * | 2003-01-16 | 2006-12-19 | Ip-First, Llc. | Apparatus and method for invalidation of redundant branch target address cache entries |
US20060190710A1 (en) * | 2005-02-24 | 2006-08-24 | Bohuslav Rychlik | Suppressing update of a branch history register by loop-ending branches |
US7461243B2 (en) * | 2005-12-22 | 2008-12-02 | Sun Microsystems, Inc. | Deferred branch history update scheme |
US9201654B2 (en) * | 2011-06-28 | 2015-12-01 | International Business Machines Corporation | Processor and data processing method incorporating an instruction pipeline with conditional branch direction prediction for fast access to branch target instructions |
CN105612499B (zh) * | 2013-10-29 | 2018-11-13 | 华中科技大学 | 混合高速缓存管理 |
CN106406823B (zh) * | 2016-10-10 | 2019-07-05 | 上海兆芯集成电路有限公司 | 分支预测器和用于操作分支预测器的方法 |
US10261797B2 (en) * | 2017-04-27 | 2019-04-16 | International Business Machines Corporation | Indirect target tagged geometric branch prediction using a set of target address pattern data |
CN111459550B (zh) * | 2020-04-14 | 2022-06-21 | 上海兆芯集成电路有限公司 | 具高度领先分支预测器的微处理器 |
-
2020
- 2020-11-17 US US17/099,852 patent/US11113067B1/en active Active
-
2021
- 2021-07-14 CN CN202110793062.2A patent/CN113448626B/zh active Active
- 2021-08-30 TW TW110132014A patent/TWI793739B/zh active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110320792A1 (en) * | 2010-06-24 | 2011-12-29 | International Business Machines Corporation | State machine-based filtering of pattern history tables based on distinguishable pattern detection |
TW201349111A (zh) * | 2012-02-24 | 2013-12-01 | Apple Inc | 抑制零述詞分支錯誤預測之分支錯誤預測行為 |
TW201403472A (zh) * | 2012-04-30 | 2014-01-16 | Apple Inc | 最佳化暫存器初始化操作 |
Also Published As
Publication number | Publication date |
---|---|
CN113448626B (zh) | 2023-05-16 |
TW202221702A (zh) | 2022-06-01 |
CN113448626A (zh) | 2021-09-28 |
US11113067B1 (en) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6351796B1 (en) | Methods and apparatus for increasing the efficiency of a higher level cache by selectively performing writes to the higher level cache | |
US5446850A (en) | Cross-cache-line compounding algorithm for scism processors | |
TWI783582B (zh) | 利用間接有效表的Spectre修復的方法和微處理器 | |
US20070288725A1 (en) | A Fast and Inexpensive Store-Load Conflict Scheduling and Forwarding Mechanism | |
US20170139718A1 (en) | System and method of speculative parallel execution of cache line unaligned load instructions | |
US9740557B2 (en) | Pipelined ECC-protected memory access | |
TWI780804B (zh) | 微處理器和預取指調整方法 | |
TWI807371B (zh) | 利用預測器模式標籤的Spectre修復方法和微處理器 | |
US11614944B2 (en) | Small branch predictor escape | |
TWI793739B (zh) | 推測分支模式更新方法和微處理器 | |
TWI844775B (zh) | 快速預測器覆寫方法和微處理器 | |
TWI788912B (zh) | 可調整分支預測方法和微處理器 | |
TWI786691B (zh) | 微處理器和分支處理方法 | |
TWI773391B (zh) | 微處理器和分支處理方法 | |
TWI783670B (zh) | 微處理器及其方法 |