TW538336B - Apparatus, system and method for detecting and correcting erroneous speculative branch target address cache branches - Google Patents

Apparatus, system and method for detecting and correcting erroneous speculative branch target address cache branches Download PDF

Info

Publication number
TW538336B
TW538336B TW090132654A TW90132654A TW538336B TW 538336 B TW538336 B TW 538336B TW 090132654 A TW090132654 A TW 090132654A TW 90132654 A TW90132654 A TW 90132654A TW 538336 B TW538336 B TW 538336B
Authority
TW
Taiwan
Prior art keywords
instruction
branch
address
target address
imaginary
Prior art date
Application number
TW090132654A
Other languages
English (en)
Inventor
Glenn G Henry
Thomas C Mcdonald
Terry Parks
Original Assignee
Ip First Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ip First Llc filed Critical Ip First Llc
Application granted granted Critical
Publication of TW538336B publication Critical patent/TW538336B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3861Recovery, e.g. branch miss-prediction, exception handling
    • G06F9/3865Recovery, e.g. branch miss-prediction, exception handling using deferred exception handling, e.g. exception flags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • G06F9/30054Unconditional branch instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • G06F9/3804Instruction prefetching for branches, e.g. hedging, branch folding
    • G06F9/3806Instruction prefetching for branches, e.g. hedging, branch folding using address prediction, e.g. return stack, branch history buffer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3842Speculative instruction execution
    • G06F9/3844Speculative instruction execution using dynamic branch prediction, e.g. using branch history tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Advance Control (AREA)

Description

538336 A7 B7 五、 發明說明( 相關申請案的交互參照 1本申請案相關於下列的美國專利申請案,具有相同的申 請曰與申請人。藉完整地參照這每個申請案,可配合任何目
Docket # 專利名稱 CNTR:2021 假想分支目標位址快取記憶體 CNTR:2023 假想混合分支方向預測裝置 CNTR:2050 雙呼叫/返回堆疊分支預測系統 CNTR:2052 附有由第二預測裝置依據分支指令類型進行 之選擇性覆蓋的假想分支目標位址快取記憶 體 CNTR:2062 依據指令快取記憶體之快取線選取儲存於一 假想分支目標位址快取記憶體之多個目標位 址其中之一的裝置及方法 CNTR:2063 在假想分支目標位址快取記憶體中置換目標 位址之裝置及方法 ---.----------裝—— (請先閱讀背面之注意事項再填寫本頁) · 線· 經濟部智慧財產局員工消費合作社印製 (一)發明技術領域: 2本發明係關於微處理器(microprocessor)之分支預測 (branch prediction )的技術領域,尤指分支目標位址(branch target address)的快取技術。 (二)發明技術背景β· 3電腦指令一般都儲存於記憶體内可定址之相連位置 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 五、發明說明(>) 中央處理單元(Central Processing Unit,CPU)或處理器由相 ,的圮憶體位置提取這些指令,並加以執行。憶體 取個♦曰令,其内的程式計數器(pr〇gram c_^,簡 稱pc)或指令指位器(instructi〇np〇inter,簡稱Ip)就會遞 增’使其内含序列(seqUence)中下個指令的位址,此即為 下個循序指令指標(next sequential instruction pointer,簡稱 NSIP)。私令的提取、程式計數器的遞增以及指令的執行便 藉由記憶體呈線性持續進行,直到遇到程式控制指令 (program control instruction )為止。 程式彳工制心令也稱為分支指令instmcti〇n), 在,行時會改變程式計數器内的位址,並改變控制的流程。 /〇之刀支屯令指疋了改變程式計數器内容的條件。因執 行分支指令使程式計數器的值改變,會導致指令執行順序 的中斷。這是數位電腦的一項重要特徵,因為它提供對程式 2仃流程的控制,以及分支至程式之不同部分的能力。程式 控制指令的例子包括跳躍(Jump)、條件跳躍(c〇趣〇制 jump) '呼叫(call)以及返回(ret職)。 5跳躍指令使CPU無條件地將程式計數器的内容改變至 一特定值,這個值就是程式要繼續執行的指令所在之目標位 址。條件跳躍指令使CPU去峨一狀態暫存器(麵s register) _容,或者可能比較兩個值,而後基於測試或比 較的結果,不是繼續循序執行就是跳躍至一新位址,稱為目 標位址。呼口㈣令使CPU無條件地跳躍至一新目標位址,而 且儲存程式汁數器的值以使CPU可返回至先前離開的程式 3 本紙張尺度翻ίϊϊ"家鮮(CNS)A4規格(2ΐ〇Ί 297公釐) 538336 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明(> ) 位置返回#曰々使CPU去掘取程式計數器於前次υ乎叫指令執 行時所存之值,並使程式流程返回至所擷取的指令位址。 6對早期的微處理器而言,程式控制指令的執行並不會造 成處理上顯著的延遲,因為這些微處理器被設計為一次只執 行一個指令。如果所執行的指令是程式控制指令,在執行完 畢之前,微處理器會知道它是否要分支,而如果是的話,它 會知道分支的目標位址為何。因此,不論下個指令是循序的, 或是分支的結果,皆會被提取和執行。 7現代的^敛處理器則非如此單純。相反地,對現代的微處 理器來說,在身散處理器的不同區塊或管線階段(pipeline stage ) 内同時處理數個指令乃很平常的事。Hennessy與Patterson將 管線化(pipelining)定義為「一種多個指令得以重疊執行的 實作技術。」(引述自 Computer Architecture : A Quantitative Approach,2nd edition,by John L· Hennessy and David A.
Patterson ’ Morgan Kaufmann Publishers,San Francisco,CA, 1996)作者接著對管線化做了下列精彩的說明: 8「一個管線就像是條裝配線。在汽車的裝配線上,有許 多步驟’每個步驟對汽車的製造都有所貢獻。每個步驟與其 他步驟同時並行,然而是在不同的汽車上進行。在一電腦管 線中,每個步驟完成一個指令的部分,就像裝配線,不同的 步驟並行地完成不同指令的不同部分。每個這些步驟稱為一 管道階段(pipe stage)或管道區段(pipe segment)。這些階 段一個接連著下一個,形成一個管道——指令從一端進入, 歷經這些階段,然後從另一端出去,就像汽車在裝配^^上一 . ^--------^---------線 (請先閱讀背面之注咅?事項再填寫本頁)
538336 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(+ ) 樣。」 9因此,當指令被提取時,就被導入管線的一端。指令於 微處理器中經歷管線階段,直到執行完畢。在這種管^匕的 微處理器中…分支指令是否會改f程式流程,通常都得等 它到達管線的後期階段才能得知。然而在這之前,微處理器 已經提取了其它指令,且正於管線的早期階段執行。如果一 分支指令改變了程式流程,所有在這分支指令之後進入管線 的指令都必須被丟棄。此外,則必須提取此分支指令之目標 位址上的指令。丟棄已在執行申的指令及提取目標位址上^ 指令,會造成微處理器在處理上的延遲,稱為分支損失 (branchpenalty) ° 10為減輕這種延遲問題,許多管線化的微處理器在管線 之一早期階段使用分支預測機制來預測分支指令。分支預測 機制預測分支指令的結果或方向,亦即是否要進行分支。分 支預測機制也預測分支指令的分支目標位址,亦即分支指令 所要分支到的指令之位址。處理器接著就分支至所預測的分 支目標位址’亦即依據分支預測提取後續的指令,這會比沒 有分支預測a夺來得早,因而若確定要進行分支,藉此便降低 了損失的可能性。 11這種用來快取先前所執行分支指令之目標位址的分支 預測機制’稱為分支目標位址快取記憶體(branch target address cache ’簡稱BTAC )或者分支目標缓衝器(branch target buffer,簡稱BTB)。在一簡單的BTAC或BTB中,當處理 器解碼一分支指令,處理器便提供分支指令的位址給 5 本紙張尺度適用中關家標準(CNS)A4規格⑵Q χ 297公爱 1 .----------裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 538336 五、 經濟部智慧財產局員工消費合作社印製 A7 ------Β7__ 發明說明(f ) BTAC。若該位址命中BTAC且預測分支會進行,處理器就 可以利用BTAC中的快取目標位址開始提取目標位址的指 令,而非下個循序(sequential)位址的指令。 12相較於只預測是否採行分支的預測裝置,像是分支經 歷表(branch history table,簡稱 BHT),BTAC 的好處是除 了確定是否遇到一分支指令所需的時間外,它節省了計算目 標位址所需時間。典型的做法是分支預測資訊(例如被採 行/不被採行(taken/nottaken))隨著目標位址皆儲存於 BTAC。BTAC運用於管線的指令解碼階段,這是因為處理 器必須先判斷分支指令是否存在。 13處理器使用BTB的一個例子是Intd Pentium ^與 Pentium III處理器。現請參閱圖一,其繪示pent]_ II/m處 理器100相關部分之方塊圖。處理器100包含一 βΤΒ 134, 用來快取分支目標位址。處理器100從一指令快取記憶體 (instruction cache) 102提取指令,該指令快取記憶體搬 快取了指令108與預解碼(pre_dec〇ded)分支預測資訊1〇4。 預解碼分支預測資訊104可能包含像是指令類型或指令長度 這樣的訊息。指令從指令快取記憶體102提取,並送到指令 解碼邏輯(instruction decode logic) 132,由其來解碼或解譯 指令。 14 一般是從下個循序提取位址112來提取指令。該下個 循序k取位址112是由遞增裝置(incrementer) ns將現行指 令快取記憶體102的提取位址122直接加上一指令快取記憶 體102的快取線之大小所得。然而,如果一分支指令已由指 6 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) I. Μ--------訂---------^ Γ%先閱讀背面之注意事項再填寫本頁} 538336 A7 -----— B7__ 五、發明說明(A ) 令解碼邏輯132解碼,接著控制邏輯(contr〇i i〇gic) 114便 選擇性地控制一多工器(multiplexer) 116選取BTB 134所提 供之分支目標位址,作為指令快取記憶體102之提取位址 122,而非選取下個循序提取位址112。控制邏輯114根據指 令快取記憶體102提供之預解碼資訊丨〇4以及BTB 134預測 該分支指令是否會被採行(依用來檢索BTB 134之指令指標 138而定),來選取指令快取記憶體1〇2的提取位址122。 15Pentium II/III在檢索BTB 134時,並非藉由分支指令 本身的指令#§標,而是利用先於被預測之分支指令之指令的 指令指標138來進行。這使得BTB 134在分支指令被解碼之 時,就能查詢目標位址136。否則,在分支指令解碼後,處 理器100必須再等待BTB 134的查詢,才能進行分支,這樣 便夕了此延遲之分支損失。一旦分支指令被指令解碼邏輯 132解碼’且處理n 1〇〇知道目標位址136的產生是基於確 疋有分支指令的存在,處理器1〇〇才會分支到BTB 134根據 指令指標138索引所提供之目標位址136。 主16另一個使用BTAC的例子是AMD Athbn處理器。現 請參^圖二’其緣示Athlon處理器200相關部分之方塊圖。 處理态2〇〇包含與圖一 Pentium麵編號類似的元件。姻⑽ 處理器200將其BTAC整合進指令快取記憶體2〇2令。也就 是’指令快取記憶體2〇2除了指令資料⑽與預解碼分支預 j資訊1〇4之外,還快取了分支目標位址206。對於每個指 ^位7L組對—(lnstructl〇n byte pair),指令快取記憶體施保 4 了兩個位元作為預測分支指令的方向之用。指令快取記憶 本紙張⑽ X 二爱 r------ 請 先 閱 讀 背
意 事 項 再 填1 寫本裝 頁I I 訂 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 538336 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 A7 B7 五、發明說明(7 , 體202在一 i夫取線中,相當於每丨6個位元組的指令即保留兩 個分支目標位址的空間。 17從圖二可以看出,指令快取記憶體2〇2是由提取位址 下個循序提取位址來作索引。因BTAC已整合進指令快取記 憶體202 ’所以也是由提取位址122來作索引。因此,指令 快取g憶體202之一快取線若有一命中發生,就可確定快取 分支目標位址對應至存在於被檢索之指令快取記憶體2〇2快 取線中一分支指令。 18雖然習知的方法改進了分支預測,但仍有缺點。前述 兩種習知方:^去的一個缺點是,指令預解^^資訊以及Athl〇n例 子中的分支目標位址大幅增加了指令快取記憶體的大小。據 推測,對Athlon而言,分支預測資訊可能使指令快取記憶體 的大小加倍。此外,Pentium II/III BTB為每個分支指令儲存 了相當大量的分支經歷資訊,用以預測分支方向,因而也增 加了 BTB的大小。 19Athlon的整合式BTAC的一個缺點是,將BTAC整合 進指令快取記憶體會使空間的使用缺乏效率。也就是,整合 式的指令快取記憶體/BTAC對於分支指令以及非分支指令, 皆須快取其分支指令資訊,因而佔用過多儲存空間。在Athl〇n 指令快取記憶體中,許多由額外的分支預測資訊所使用的空 間是浪費掉的,這是因為指令快取記憶體中分支指令的集中 度相當低。例如,一特定的指令快取線中可能未包含任何分 支’因此快取線中所有儲存目標位址與其它分支預測資訊的 空間就沒用到而浪費掉了。 ---.----------t--------^---------^ (請先閱讀背面之注意事項再填寫本頁) 538336 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 A7
五 發明說明(?) 20Athlon整合式的BTAC的另一個缺點是,設計目標間 的衝突。也就是,關於指令快取記憶體的大小,除了分支預 測機制之設計目標外,可能有其它不同的設計目標會對此加 以規定。以i共取線而論,要求BTAC的大小要與指令快取記 憶體相同,是Athlon架構所固有的,但可能無法理想地達到 兩組設計目標。例如,可能選定了指令快取記憶體的大小, 以達成一特定的快取命中率(cache-hit ratio)。然而,情況 可能是,用比較小的BTAC,就可能達成所要的分支目^位 址預測率(prediction rate )。 21再者,因為BTAC是整合在指令快取記憶體中,獲得 快取分支目標位址所需的資料存取時間必然相同於獲得快^ 指令位元組。Athlon的例子中,指令快取記憶體相當大,存 取時間可能會相當長。較小的、非整合式BTAC之資料存^ 時間可能比整合式的指令快取記憶體/BTAC要明顯減少。 22由於Pentium II/III BTB並未整合在指令快取記憶體 中,Pentium II/III的方法不會遭遇前述Athlon整合式指令快 取記憶體/BTAC的問題。然而,由於在檢索pentium 時’乃利用一已解碼指令的指令指標,而非指令快取言己憶體 的提取位址,所以Pentium II/III的解決方案於進行分支時可 能無法像Athlon解決方案那樣早,因此可能也無法那樣有六文 地減少分支損失。Pentium II/III解決方案處理這個問題的方 式是,使用一先前指令或先前指令群的指令指標,而非實@ 的分支指令指標,來檢索BTB,如前所述。 ' $ 23然而,Pentium Mil方法的一個缺點是,使用先前户 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) : ·----------裝--------訂---------線 (請先閱讀背面之注咅?事項再填寫本頁) 發明說明(^ ) 令的指令指標而非實際的分支指令指標,會犧牲掉一些分支 預測的準確度。準確度的降低,一部份是由於分支指令在程 式中可能經由多個指令路徑遭遇到。也就是,多個先於分支 指令之指令可能因相同的分支指令而快取於BTB中。因此, 為了這樣一嗰分支指令,必須消耗掉BTB中多個項目 (entry),於是就減少了 btb中可快取的分支指令總數。所 用的先於分支指令之指令數量愈多,可到達分支指令的路徑 也愈多。 24除此之外,由於使用一先前的指令指標造成可能有多 個路徑到達同一個分支指令,Pentium II/IIIBTB中之方向預 測裝置可能需錢長的顿來「暖機」。Pentium ΙΜιι細 1持著分支經歷資訊,用以預測分支的方向。#_新的分支 2令被引入處理器且快取住,到達該分支指令的多個路徑可 能會使分支經歷在更新時,變得比只有單-路徑到達該分支 才曰々的障形還慢,造成預測較不準確。 25因此,我們所需要的是,一種能有效利用晶片固有資 源(物real e她),又能在管線早期就提供準確分支的分 支預測裝置,以減少分支損失。 (三)發明簡要說明: 2=^日月提供一種分支預測方法及裝置,能有效利用晶 =有貝/原,又能在管線早期就提供準確的分支,以減少分 -二里2担為達到前述目的’本發明的一項特徵是,在 处态^供一種裝置,用以侧該微處理器是否錯誤 538336 經濟部智慧財產局員工消費合作社印製 A7
五、 發明說明((^ ) 地ίΐΐΐ二分支目標位址快取記憶體(BTAC)所提供之 -假位址。該裝置包含一儲存元件,用來儲存一指示 ⑽咖⑽),指出該微處理器是否在不知關聯於該指示之 -指令是否為分支指令的情況下,分支至btac提供之假想 目心位址》亥裝置亦包含指令解碼邏輯,在微處理器分支至 該假想目標位址後接收並解碼指令。财置亦包含預測檢查 邏輯(_lction check loglc),轉接至指令解碼邏輯,肋 告知分支控制邏輯(branchco咖llogic),若指令解碼邏輯 指出該指令不是分支指令且該指示顯示微處理器分支至假想 目標位址,則微處理器已錯誤地分支至假想目標位址。〜 27另一方面,本發明的一項特徵是,在一微處理器中提 供一種裝置,用以偵測該微處理器是否錯誤地假想分支至由 一分支目標位址快取記憶體(BTAC)所提供之一目標位址。 «亥裝置包含儲存元件,用來儲存一指示,指出該微處理器 是否在未先確定是否有一分支指令存在於指令快取記憶體内 一提取位址選取之一指令位元組線(line〇finstructi〇n bytes) 中的情況下’基於該提取位址而假想分支至BTAC提供之目 標位址。該裝置亦包含指令解碼邏輯,在微處理器假想分支 至该目標位址後,接收並解碼該指令快取線中之指令位元 組。該指令解碼邏輯會指出該快取線是否包含一分支指令。 該裝置亦包含預測檢查邏輯,耦接至指令解碼邏輯,若該指 示顯示微處理器已假想分支至該目標位址,且指令解石馬邏輯 指出該快取不包含分支指令,則該預測檢查邏輯提供一錯 誤訊號至分支控制邏輯。 11 本紙張尺度適奸國國家標辱(CNS}A4規格mo X 297公爱) : · 裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 538336 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明〈u> 28另一方面,本發明的一項特徵是,提供一種微處理器, 可偵測及更正錯誤的假想分支。該微處理器包含一指令快取 記憶體,用以提供一提取位址選取之一指令位元組線。該提 取位址被送至一位址匯流排(address bus)上之該指令快取 6己憶體。邊微處理器亦包含一分支目標位址快取記憶體 (BTAC) 接至該位址匯流排,因應該提取位址而提供 一先前執行的分支指令之一假想目標位址,不論該先前執行 的分支指令是否存在於該指令位元組線中。該微處理器亦包 含控制邏輯,耦接至BTAC,控制一多工器以在一第一週期 選取该假想目標位址作為提取位址。該裝置亦包含預測檢杳 邏輯,耦接至BTAC,用以偵測控制邏輯是否錯誤地控制該 多工器選取了該假想目標位址。該控制邏輯更組態為控制該 多工器以在一第二週期選取一正確位址作為提取位址,以回 應預測檢查邏輯偵測到該錯誤的選擇。 29另一方面,本發明的一項特徵是,提供一種方》去,用 以從錯誤地分支至一假想目標位址的情況回復。該方〉去包含 為一分支指令產生一假想目標位址,該分支指令被假定存在 於一提取位址所選取一指令快取線中;分支至該假想目標位 址’不論該假定之分支指令是否存在於該指令快取線中;以 及在產生該想目標位址後,產生該假定的分支指令之一正 確目標位址。該方法亦包含確定該假想目標位址是否吻合該 正確目標位址,以及若假想目標位址不吻合該正確目標位 址’則分支至該正確目標位址。 30另一才面,本發明的一項特徵是,提供一種方去,用 「---,----------裝--------訂---------線 (請先閱讀背面之注音?事項再填寫本頁) 12 經濟部智慧財產局員工消費合作社印製 538336 A7 — — B7 五、發明說明(广少) 以從錯誤地分支至一分支指令之一假想目標位址的情況回 復。该分支指令被假定存在於一指令快取線中,該指令快取 線由一心令快取§己憶體回應一提取位址而提供,該假想目標 位址由一分支目標位址快取記憶體(BTac)回應該提取位 址而假想地產生。該方法包括在BTAC假想地產生該假想目 標位址後,解碼該假定之分支指令;因應該解碼動作,確定 該假定之分支指令是否為一非分支指令;以及若該假定之分 支指令為一_€分支指令,則分支至該假定的分支指令之一指 令指標。 31另一方面,本發明的一項特徵是,提供一種方法,用 以從錯誤地分支至一假想目標位址的情況回復。該假想目標 位址關聯於假定存在於一提取位址所選取一快取線中之一分 支指令,該令1想目標位址由一分支目標位址快取記憶體 (BTAC)回應該提取位址而提供。該方法包括在BTAC提 供該假想目標位址後,解碼該假定之分支指令;確定該假定 的分支指令之一長度;以及若假定的分支指令之該長度與分 支目標位址快取記憶體所假想提供之一指令長度不相吻合, 則分支至該彳段定的分支指令之一指令指標。 32另一方面,本發明的一項特徵是,提供一種方法,用 以從錯誤地分支至一假想目標位址的情況回復。該方法^包括 產生一分支指令之一假想目標位址,該分支指令被假定存在 於一提取位址所選取一指令快取線中;產生該假定的分支指 令之一假想方向預測;以及分支至該假想目標位址,不論該 假疋的分支指令是否存在於邊指令快取線中。該方法亦包括 13 本紙張尺度適用中國國家標季(CNS)A4規格(210 X 297公釐) . . I I I I I--- I I-----^---------線 (請先閱讀背面之注意事項再填寫本頁) 538336 A7 五、發明說明(丨)) 在產生該假方向預測後,產生該假定的分支指令之一正確 方向;確定該正確方向是否不被採行;以及若該正確方向不 I 被採行,則分支至假定的分支指令之下個指令之一指令指標。 33另-方面’本發明的—項特徵是,在一微處理器中提 =-種裝置’収偵測是否錯誤地分支至—假想呼叫/返回堆 疊(SpeCulativecall/retumstack)所提供之一假想返回位址。 該裝置包含一儲存元件,用來儲存一指示,指出該微處理器 疋否在不知_於該指示之一指令是否為分支指令的情況 下,分支至該假想返回位址。該裝置亦包含指令解碼邏輯, 在微處理器分支至該假想返回位址後接收並解碼該指令。該 裝置亦包含預測檢查邏輯,輕接至指令解碼邏輯,用以告知 分支控制邏輯,若指令解碼邏輯指出該指令不是分支指令且 該指示顯示微處理器分支至假想返回位址,則微處理器已錯 誤地分支至信|想返回位址。 34另-方面,本發明的一項特徵是,提供一種微處理器, 可偵測及更正錯誤的假想分支。該微處理器包含一指令快取 2憶體’用以提供一提取位址選取之一指令位元組線。該微 處理盗亦包含一假想呼叫/返回堆疊,因應該提取位址而提供 二的分支指令之—假想返_址’不論該先前執行 的为支才曰令是否存在於該指令位元組線中。該微處理器亦包 含控制邏輯,祕至該假想呼叫/返,控制―多工器以 在一第一週期選取該假想返回位址作為提取位址。該装置亦 包s預測檢查邏輯,麵接至控制邏輯’用以偵測控制邏輯是 否控制該多工器錯誤地選取了該假想返回位址。該控制邏輯 14 ^紙張尺度適财_^^CNS)A4規格( χ撕公髮]---------- I H ϋ n ϋ ϋ ϋ ϋ ^1 ^1 ϋ n ϋ I I ^1 I . (請先閱讀背面之注音?事項再填寫本頁) a^T· •線· 538336 A7
五、發明說明(丨/ 址。不論關聯於該分支命中指示之-指令是否為分支指入, 皆提供該分支命中指示。該穿置介勺入^否為刀支b ^戒置亦包含指令解碼邏輯,接收 ^解碼令,並她雜令是㈣分找令。該裝置亦包 查邏輯,接至指令解碼邏輯,用以確定該微處理 :錯至該假想目標位址。當指令解碼邏輯指出該指 7不疋》支指令’以及該分支命中指示顯示該微處理器分支 至該假想目標位址時’該微理脚為錯誤地分支至該假 標位址。 38本發明的-項優點是,在—使用假想之處理器 中能確保適當的程式執行,該假想BTAC具備能更有效地使 用晶片固有資源之優點,改善處理器週期時間(cydetime) 及/或減少每侧旨令所用之處理器時脈,以及增進實作單週期 BTAC快取的可能性。 39本發明之其它特徵與優點,在考察本說明書其餘部分 與圖示後’將可更加明白。 (四)發明圖示說明: 圖-係為Pentium Π/ΠΙ處理器先前技術之相關部分方塊 圖。 圖二係為Athlon處理器先前技術之相關部分方塊圖。 圖二係依本發明繪示之管線化微處理器之方塊圖。 圖四係攸本發明繪示圖三處理器之假想分支預測裝置。 圖五係圖四之指令快取記憶體之方塊圖。 圖六係依本發明繪示圖四分支目標位址快取記憶體 本紙張尺度適用中國國家標準(CNS)A4 (210 16 χ 297公釐) 538336 A7 發明說明(f i) (BTAC)之方塊圖。 圖七係依本發明繪示圖四BTAC之圖六項目之格式的方 塊圖。 圖八係依本發明繪示之圖四假想分支預測裝置之運作的 流程圖。 圖九係依本發明繪示之圖四假想分支預測裝置使用圖八 步驟之一運作範例之方塊圖。 圖十係依本發明繪示之圖四假想分支預測裝置偵測與更 正錯誤的假想分支預測之運作流程圖。 線 圖十一係依本發明列舉之程式碼片段及一表格,為說明 圖十假想分支預測錯誤之偵測與更正之一範例。 圖十二Y系依本發明繪示之圖四分支預測裝置包含一混合 假想分支方向預測裝置(hybrid speculative branch direction predictor)之另一具體實施例的方塊圖。 圖十三係為圖四之雙呼叫/返回堆疊(―cal1/retum stacks)之運作流程圖。 圖十四係為說明圖四之分支預測裝置選擇性地以非假想 分支預測來覆蓋(override)假想分支預測,藉以改 進本發明之分支預測準確度之運作流程圖。 圖十五係依本發明繚示之用以進行圖四BTACt|7目標位 址置換工作之裝置的方塊圖。 圖十六係 '依本發明緣示圖十五裝置之一運作方法的流程 圖。 圖十七係依本發明之另一具體實施例綠示圖十五裝置之 17 本紙張尺度適用標準(CNS)A4規格(21〇 X 2^7^ 538336 A7 B7 五、發明說明(β ) 一運作方式的流程圖。 圖明之另一具體實施例緣示之用以進行圖 F1 +九係ϋ巾目標紐置_狀裝置方塊圖。 圖十九餘依本發明之另一具體實施 四BTAC中目伊你#罢她去 <用以進仃圖 目才示位址置換動作之裝置方塊圖„ 「---.----------裂--------訂---------線 (請先閱讀背面之注咅?事項再填寫本頁} 經濟部智慧財產局員工消費合作社印製
538336 經濟部智慧財產局員工消費合作社印製 發明說明(丨 圖號說明: 100 Pentiumll/III 處理器 102 指令快取記憶體 104 預解碼分支預測資訊 108 指令資料 112 下個循片提取位址 114 控制邏輯 116 多工器 118 遞增裴置 122 提取位3止 132 指令解碼邏輯 134 分支目棉緩衝器 136 分支目標位址 138 指令指檑 200 Athlon處理器 202 指令快取記憶體 206 分支目標位址 300 管線化4散處理器 302 I-階段 304 B-階段 306 IH皆段 308 V-階段 312 F,階段 314 X-階段 316 R-階段 318 八_階段 322 D-階段 324 G-階段 326 E-階段 328 S-階段 332 W-階段 342 指令缓衝器 344 F-階段指令佇列 346 X-階段指令佇列 352 假想分支目標位址 353 假想返回位址 354 非假想分支目標位址 355 非假想返回位址 356 解析目標位址 400 假想分支預測裝置 402 假想分支目標位址快取記憶體(BTAC) 404 控制邏輯 406 假想呼叫/返回堆疊 19 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) —.----------裝--------訂---------線 (請先閱讀背面之注音?事項再填寫本頁) 538336 A7 B7 454假想分支資訊(SBI) 466 下個循序指令指標(NSIP) 468現行指令指標(αρ) 472控制訊號 W4比較器418之輸出 478控制訊號 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 482控制訊號 484訊號 486 FULL 訊號 488返回位3止 491假想返回位址 493指令位元組 495提取位址 497比較器 498儲存多工化/暫存器424之輸出 五、發明說明) 408預測檢査邏輯 414非假想呼叫/返回堆疊 418比較器 424儲存多工化/暫存器 428比較器 434加法器 438假想分支(SB)位元 444非假想分支方向預測 446AA項目之BEG位元 448 LEN位元 412非假想分支方向預測裝置 416非假想目標位址計算器 422 多工器 426 遞增裝置 432指令快取記憶體 436指令格式化與解碼邏輯 442 更新訊號 446 BEG位元 446B B項目之BEG位元 452命中訊號 456 ERR訊號 476比較器428之輸出 481解析分支方向(dir) 483控制訊號 485比較器489的輸出 487比較器497的輸出 489 比較器 492指令解碼資訊 494指令位元組快取線 496指令位元組 ---;----------装--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 20 336 3 經濟部智慧財產局員工消費合作社印製 五、發明說明( 499下個搪序提取位址 502轉換參照緩衝器(TLB) 504標記陣列 5〇8比較器 514實體標記 602 BTAC 402 之項目 602B項目6〇2之B邊 606路選擇多工器 612資料陣列 616標記 622 A/B選揭訊號 626 B項目 702 VALID 位元 702A A項目之VALID位元 702B B項目之VALID位元 704 CALL 位元 708 WRAP 位元 A7 B7 506 資料陣列 512實體分頁號碼 518命中訊號 602A項目602之A邊 604 比較器 608 A/B選擇多工器 614標記陣列 618控制訊號 624 A項目 706 RET位元 712分支方向預測資訊(bdPI) 714分支目襦位址 722 T/NT欄位 722A A項目之T/NT攔位 722B B項目之T/NT欄 724 SELECT 位元 802〜834假恝分支的運作步驟 1002〜1054偵測與更正錯誤的 你支想分支預漠彳之步驟 1100依本發明列舉之程式碼實例片段及一表格 21 本紙張尺度適用中國國家標辱(CNS)A4規格(210 X 297公餐了 J I---I----------訂 ------I (請先閱讀背面之注意事項再填寫本頁) 538336 1204互斥或邏輯 1208多工器 1214訊號 1222 T/NT A/B 位元 A7 五、發明說明(〆 1200混合彳卩;c想分支方向預测事置 1202分支經屋表(BHT) 1206全域分支經歷暫存器 1212分支方向結果 1216互斥或遜輯1204的輸出 1218更新訊號 1224T/NT 位:元 1302〜1326雙呼叫/返回堆疊的運作步驟 1402〜1432 BTAC 4G2選擇性地以非假想分支綱來覆蓋假 #息分支預測之運作步驟 15〇2 LastWri伽暫存器 1504 A/B LRU 位元
1506多工器 1512更新IP 1514訊號 1516讀/寫控制訊號 1602〜1646 A/B項目置換方法的步驟 1716〜1726另一實施例中A/B項目置換方法的衍生步驟 1812陣列 1902暫存器 1928訊號 (五)發明詳細說明: 59現請參閱圖三,其繪示本發明之一管線化微處理器 300之方塊圖。處理器管線3〇〇包含階段302至階段332。 60苐階段疋I-階段302,或稱指令提取階段(化加比⑻ fetch stage)。在I-階段302,處理器300提供提取位址至一 Γ 裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製
538336 經濟部智慧財產局員工消費合作社印製 發明說明( 才曰令快取記t意體432 (見圖四),以提取指令供處理器3〇〇 執订。指令'供取記憶體432在關於圖四的部分時會更加詳細 地"兒明。在一具體實施例中,此指令快取記憶體432是一雙 週期(two-cycle)快取記憶體。B_階段3〇4是指令快取記憶 體432的存取之第二階段。指令快取記憶體432提供其資料 至U卩0#又306 ’在此階段資料被閂鎖住(iatche(j)。階段 3〇6提供指令快取記憶體的資料至v—階段,。 61在本發明中,處理器300還包含一 BTAC 4〇2 (見圖 四),在其餘圖示的部分會詳細說明。BTAC 4〇2並未整合 在指令快取記憶體432。然而,在I-階段3〇2,BTAC 402是 與指令快取記憶體432藉使用指令快取記憶體极之提取位 址495來並行存取的(見圖四),從而致能相當快速的分支 以減少分支損失。BTAC皿提供—假想分支目標位址说, 而=位址則被提供至I·階段302。處理器3〇〇選擇性地選取 目標位址352作為指令快取記憶體432提取位址,以達成分 支至假想目標位址352,這在其餘圖示的部分會詳加說明。 62有利地,從圖三可以看出,在仏階段3〇6,由btac 4〇2所提供之分支目標位址M2能使處理器3〇〇在管線 之相當早期就進行分支,如此僅產生一雙週期的指令泡沐 (instruction bubble)。亦即,若處理器300分支至假想目標 位址352,只有兩個階段的指令必須被清除。換言之,在兩 個週期内,典型的情況下,於U_階段306就可得知分支的目 標指令,亦即,如果這些目標指令存在於指令快取記憶體极 中。 一 23 J I I 1 ^--------^---------^ (請先閱讀背面之注意事項再填寫本頁) _張尺度&中國® 規格⑽χ 297 — 538336
經濟部智慧財產局員工消費合作社印製
A7 - - -- B7 _ ...... . 、發明說明(>j) 63有利地,在多數情況下,雙週期的指令泡沫夠小,可 以由一指令缓衝器342、F-階段指令佇列344及/或X—階段指 令佇列346來加以吸收,此將說明於後。因此,在許多情形 下,假想BTAC 402使處理器300能達到零損失的分支。 64處理器300更包含一假想呼叫/返回堆疊4〇6 (見圖 四),在關於圖四、圖八與圖十三的部分有詳細說明。假想 呼叫/返回堆疊406與假想BTAC 402協同運作,以產生一假 想返回位址353,亦即,提供至階段3〇2之返回指令的目 標位址。處理器300選擇性地選取假想返回位址353作為指 令快取記憶體432提取位址,以達成分支至假想返回位址 353,就如關淤圖八部分所詳細說明的。 65在乂4皆段308,指令被寫入指令緩衝器342。指令缓 衝器342暫存指令以提供至F_階段312。乂_階段3〇8亦包含 解碼邏輯,以提供關於指令位元組之資訊給指令緩衝器 342 ’像是χ86前置(preflx)與m〇d R/M資訊,以及指令 位元組是否為分支運算碼值(branch叩c〇devakie)。 66F-階段312,或稱指令格式化階段(instmcti〇n f_at stage) 312,包含指令格式化與解碼邏輯436 (見圖四)以格 式化指令。較佳者,處理器300是一 χ86處理器,其指令集 (instruction set)可容許不同長度的指令。指令格式化邏輯 436從私令缓衝器342接收指令位元組流(stream),並將該 指令位元組流解析成分離的位元組群,每個群構成一邊指 令’尤其還提供每個指令的長度。 67F_階段312也包含分支指令目標位址計算邏輯(branch ---.----------裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度刺中國國家標準(CNSM4規格⑽X 297公£7 538336 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(y^) instruction target address calculation logic ) 416 ’ 依據一指令解 碼產生非假c想刀支目彳示位址354’而不是假想地依據指令 快取記憶體432提取位址來產生,如在]^階段302 BTAC 402 所作的。F-卩纪段312亦包含一呼叫/返回堆疊414(見圖四), 依據一指令解碼產生一非假想返回位址355,而不是假想地 依據指令快取A憶體432提取位址來產生,如在I-階段302 BTAC 402戶斤作的。F_階段312非假想位址354與355被送至 I-階段302。處理器300選擇性地選取階段312非假想位址 354或355作為指令快取記憶體432提取位址,以達成分支 至位址354或355兩者之一,就如下文所詳細說明的。 68F-階段指令佇列344接收格式化的指令。格式化指令 由F_階段指令佇列344送至X-階段314中一指令轉譯器 (instruction translator)。 69X-階段314,或稱轉譯階段314,指令轉譯器將x86 巨指令(macroinstruction )轉譯成微指令(microinstruction ), 讓其餘的管線階段可加以執行。X-階段314將轉譯過的微指 令送至X-階段指令佇列346。 70X-階段指令佇列346將轉譯過的微指令送至R-階段 316,或稱暫存器階段316。R-階段316包含使用者可見 (user-visible)之x86暫存器集合,以及非使用者可見之暫 存器。微指令之指令運算元(operand )存於R-階段316暫存 器,供管線300之後續階段執行微指令。 71A-階段318,或稱位址階段(address stage) 318,包 含位址產生邏輯(address generation logic),從R-階段316 25 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ----I------I--裝 -----— —訂—1-線 (請先閱讀背面之注咅?事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 A7 B7
Is發明說明( 接收運异元與微指令’並產生微指令所需之位址,像是用以 載入/儲存的記憶體位址。 72D_階段322,或稱資料階段(data stage) 322,包含存 取資料的邏輯,該資料由A-階段318產生之位址所指定。特 別是’ D-階段322包括一資料快取記憶體,用來快取處理器 300内從系統記憶體而來之資料。在一具體實施例中,資料 快取記憶體是雙週期快取記憶體。G-階段324是資料快取記 憶體存取的第二階段’而在E-階段326,可取得資料快取記 憶體之資料。 73E-階段 326 ’ 或稱執行階段(executi〇n stage) 326,包 含執行邏輯(execution logic),像是算數邏輯單元(arithmetic logic unit),侬據先前階段提供之資料及運算元執行微指令。 特別是,E-階段326會產生BTAC 402指出一返回指令可能 存在於由提取位址495指定之指令快取記憶體432快取線中 所有分支指令之解析(resolved)目標位址356。亦即,E-階 段326目標也址356被認為是所有分支指令之正確目標位 址’所有預測的目標位址必須與其吻合。此外,階段326 產生一所有分支指令之解析方向(DIR) 481 (見圖四)。 74S-階段328,或稱儲存階段(st〇re stage) 328,從E· 階段326接彳欠微指令的執行結果,將其儲存至記憶體。此外, 還將E-階段326所計算之分支指令的目標位址356在I-階段 302時從S-階段328送至指令快取記憶體432。再者,I-階段 302之BTAC 402藉由從S_階段328而來之分支指令之解析 目標位址來予以更新。此外,在BTAC 402之其它假想分支 26 本紙張尺度顧巾國國家標準(CNS)A4規格(210 X 297公f ) . 裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 538336 經濟部智慧財產局員工消費合作杜印製 Α7 Β7 五、發明說明) 資訊(speculative branch information,簡稱 SBI) 454 (見圖 四)亦從S-階段328來更新。假想分支資訊454包含分支指 令長度,在一指令快取記憶體432快取線内的位置,分支指 令是否涵蓋多條指令快取記憶體432快取線,分支是否為一 呼叫或返回指令,以及用來預測分支指令之方向的資訊,如 關於圖七的咅p分所描述的。 75W-階段332,或稱回寫階段(write_back stage),將 S-階段328處理之結果回寫入R-階段316暫存器,藉以更新 處理器300的狀態。 76指令緩衝器342、F-階段指令佇列344以及X-階段指 令佇列346除了別的功能外,還能將分支對於處理器3〇〇每 個指令值之日寺脈所造成的衝擊減至最小。 77現請參閱圖四,其繪示依本發明圖三處理器3〇〇之一 假想分支預满J裝置400。處理器300包含指令快取記憶體 432,以快取來自系統記憶體之指令位元組4%。指令快取記 憶體432由提取位址匯流排上之提取位址495來定址,對指 令快取記憶體432内一快取線作檢索。較佳者,提取位址495 包含一 32位元之虛擬位址。亦即,提取位址495並非指令的 實體記憶體位址(physical memory address)。在一具體實施 例中,虛擬提取位址495是一 χ86線性(linear)指令指標。 在一具體實施例中,指令快取記憶體432具有32個位元組的 寬度;因此,只用到提取位址495的前27個位元來檢索指令 快取ό己憶體432。一選定之指令位元組快取線494則由指令 快取記憶體432輸出。指令快取記憶體432在接下來圖五部 --------------裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 27 538336 經 濟 部 智 慧 財 產 局 員 JL 消 費 合 社 印 製 A7 B7 五、發明說明(^ ) 分會更詳細地說明。 78現請參照圖五,其繪示圖四指令快取記憶體432之一 具體實施例的方塊圖。指令快取記憶體432包含用來將圖四 之虛擬提取位址495轉譯成實體位址之邏輯(圖上未顯示)。 指令快取記憶體432包含一轉換參照緩衝器(translation lookaside buffer,簡稱TLB) 502,以快取先前轉譯邏輯從虛 擬提取位址495轉譯之實體位址。在一具體實施例中,tlB 502接收虛擬提取位址495之位元[31:12],當虛擬提取位址 495命中TLB 502時,則輸出一對應之20位元的實體分頁 號碼(physicalpage number) 512。 79指令快取記憶體432包含一快取指令位元組之資料陣 列506。資料陣列506配置成複數條快取線,以虛擬提取位 址495的一旬5份來作索引。在一具體實施例中,資料率列5〇6 儲存了 64KB的指令位元組,其以32個位元組之快取線來配 置。在一具體實施例中,指令快取記憶體432是一四路集合 關聯快取記憶體(4-way set associative cache)。因此,資料 陣列506包含512條指令位元組線,以提取位址495的位元 [13:5]來作索引。 80虛擬提取位址495所選取之指令位元組線494,由指 令快取記憶體432輸出至指令緩衝器342,如圖四所示。在 一具體實施彳列中,一次將選定之指令位元組線的一半送至指 令緩衝器342,亦即,分成兩週期,每週期送16個位元組。 在本說明書令’快取線或指令位元線可用以指稱由提取位址 495於私令取記憶體432内所選定之一快取線的部分,像 ---.----------裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁)
538336 五、發明說明(>-δ ) 是半快取線(half-cacheline)或其它再細分的部分。 81指令供取記憶體432亦包含一快取標記之標記陣列 (tagarmy) 504。標記陣列5〇4,如同資料陣列5〇6,皆由虛 擬提取位址495之相同位元來作钟。實體位址之位元快ς 於標記陣列504 ’作為實體標記。由提取位址495位元選定 之實體標記514則送至標記陣列5〇4的輸出端。 82指令快取記憶體432亦包含一比較器(c〇mparat〇r) 508,將實體標記514與TLB 502所提供之實體分頁號碼512 作比較,以產生一命中訊號(hitsignal) 518,指明虛擬提取 位址495是否命中指令快取記憶體432。命中訊號518真正 指出了是否有快取現行的卫作指令(taskmstmcti〇n),因為 才曰令快取記’隐體432將虛擬提取位址495轉換為一實體位 址,並用此實體位址來測定是否有命中。 83如述指令快取記憶體432的運作與BTAC 402的運作 成對比,後者僅依虛擬位址,亦即提取位址495,來測定是 否命中,而依據實體位址。此種運作上不同所造成的結果 是’虛擬別名化(virtual aliasing)可能會發生,以致於BTAC 402產生錯誤的目標位址352,如下所述。 經濟部智慧財產局員工消費合作社印製 84請再參閱圖四,圖三之指令緩衝器342從指令,决取記 憶體432接收1快取線之指令位元組494並予以緩衝,直至其 被格式化與轉譯為止。如前文關於圖三之V—階段3〇8戶斤述, f曰々緩衝器342也儲存了其它分支預測的相關資訊,像是χ86 剷置與mod R/M資訊,以及指令位元組是否為分支運算碼 值。 29 本紙張尺度適用中國國家標準(CNS)A4規格(2川χ 公釐) 經濟部智慧財產局員工消費合作社印製 538336 A7 ------— _ B7__ 五、發明說明( 85此外,指令緩衝器342為其内所存之每個指令位元組 儲存了叙想分支(speculatively branched,簡稱SB)位元。 如果處理器刻假想地分支至BTAC 4〇2所提供之假想目標 位址352或值1想返回位址353,其由假想呼叫/返回堆疊4〇6 依據快取於BTAC 402中之SBI454所提供,則設定SBI454 所指出之指令位元組的SB位元438。也就是,如果處理器 300進行假想分支是基於如下假設:在指令快取記憶體 k供之指令位元組線494中有一分支指令存在,而其側454 快取於BTAC 402中,則設定存於指令緩衝器342之指令位 兀組494其_之一的SB位元438。在一具體實施例中,則是 針對SBI 454所指出假定的分支指令之運算碼位元組,設定 其SB位元438。 86指令解碼邏輯436從指令緩衝器342接收指令位元組 493 (包含分支指令位元組)以將其解碼,產生指令解碼資訊 492。指令解碼資訊492用來進行分支指令預測,以及偵測與 更正錯誤的彳民想分支。指令解碼邏輯436提供指令解石馬資訊 492至管線300之後段。此外,指令解碼邏輯436在解碼現 行指令時,會產生下個循序指令指標(NSIP) 466以及現行 指令指標(current instruction pointer,CIP) 468。此外,指令 解碼邏輯436提供指令解碼資訊492至非假想目標位址計算 器(non-speculative target address calculator) 416、非個^想呼 叫 /返回堆叠(non-speculative call/return stack ) 414 以及非假 想分支方向預測裝置(non-speculative branch direction predictor) 412。較佳者,非假想呼叫/返回堆疊414、非假想 30 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) . --------^---------^ (請先閱讀背面之注意事項再填寫本頁) 538336 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明 分支方向預湏,J裝置412以及非假想目標位址計算器416屬於 管線300的F-階段312。 87非彳段想分支方向預測裝置412產生一分支指令方向之 非假想預測444,亦即是否要進行分支,以回應從指令解碼 邏輯436接收之指令解碼資訊492。較佳者,非假想分支方 向預測裝置412包含一個或更多分支經歷表,以儲存已執行 之分支指令之解析方向的歷程。較佳者,分支經歷表連同由 指令解碼邏輯436提供之分支指令本身的解碼資訊,用於預 測條件分支#旨令的方向。非假想分支方向預測裝置412的一 個示範實施例洋述於美國專利申請序號〇9/434,撕HYBRID branch PREDTCTOR^WITH IMPROVED SET,ECTOR JABmgPATE MECHANISM,具有一共同申請人,藉參 考此案可併入本發明。較佳者,最後解析出分支指令方向的 邏輯屬於管線300的E-階段326。 88非作又想呼叫/返回堆疊414產生圖三之非假想返回位 址355,以回應從指令解碼邏輯436接收之指令解馬資訊 492。除了別酌以外,指令解碼資訊492還指明現行解石馬的指 令是否為呼叫指令、返回指令或兩者皆否。 89此外,如果正由指令解碼邏輯你解碼之指令為一呼 叫才曰7,指令解碼資訊492還會包含一返回位址488。較佳 者’,回位址488包含現行解碼之呼叫指令之指令指標加上 乎以曰令的長度所得之值。當指令解碼資訊492顯示現行解 馬之心々為一呼叫指令時,返回位址488會被推入非假想呼 叫/返回堆疊414,如此在指令解碼邏輯436進行後續返回指 ^ 裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 31 538336 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(>/) 々的解碼時’返回位址488就能做為非假想返回位址355。
9〇非假想呼叫/返回堆疊414的一個示範實施例詳述於 美國專利申請序號 09/271,591 METHOD AND APPARATUS ~^^ecting AN INTERNAL CALI ./RETURN microprocessor that speculatively ^^ffllESCALL AND RETURN INSTRUCTIONS,具有一 共同申請人,藉參考此案可併入本發明。
91非假想目標位址計算器416產生圖三之非假想目標位 址354 ’以回應從指令解碼邏輯436接收之指令解碼資訊 492。較佳者,非假想目標位址計算器416包括一算數邏輯單 元’以計算程式計數器相關(PC-relative,下文稱PC相關) 類型或直接類型(directtype)分支指令之分支目標位址。較 佳者’算數邏輯單元將分支指令的長度與一指令指標加到内 含於分支指令之一帶正負號之位移量(signecj 〇ffset),來計 异PC相關類型分支指令的目標位址。較佳者,非假想目標 位址計算器416包含一相當小的分支目標緩衝器(BTB), 以快取間接類型(indirecttype)分支指令的分支目標位址。 非假想目標位址計算器416的一個示範實施例詳述於美國專 利申請序號 09/438,907 APPARATUS FOR PERFORTUrNTO MANCIj TARGET ADDRESS CALCULATION BASED ON BRANCHJTYPE,具有一共同申請人,藉參考此案可併入本 發明。 92分支預測裝置400包含假想分支目標位址快取記憶體 (BTAC) 402。BTAC 402藉提取位址匯流排上之提取位址 32 --I.---------裝------I 訂------11 (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 538336 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明㈠>) 495進行定址,檢索BTAC 4〇2内一快取線。BTAC 4〇2並未 整合在指令'供取記憶體432,而是分離且不同於指令快取記 憶體432,如圖所示。也就是,BTAC 4〇2與指令快取記憶體 432在實體上與概念上皆有所區別。BTAC 4〇2與指令快取記 憶體432實體上的區別,在於兩者在處理器3〇〇内處於不同 的空間位置。BTAC 402與指令快取記憶體432概念上的區 另,J,在於兩者具有不同的大小,亦即在一具體實施例中,它 們包含不同數量的快取線。BTAC 402與指令快取記憶體432 才既念上的區,也在於指令快取記憶體432將提取位址495 轉換成實體^立址’以決定指令位元組線的命中與否;Btac 402卻以虛擬提取位址495作為一虛擬位址來作索引,而沒 有將其轉換為實體位址。
93較佳者,BTAC 402屬於管線300的I-階段302。BTAC 402快取了先前執行分支指令之目標位址。當處理器執 行一分支指令時,該分支指令之解析目標位址藉由更新訊號 442快取於BTAC 402。該分支指令之指令指標1512 (見圖 十五)用來更新BTAC 402,如下文關於圖十五部分所描述 的。 94為了產生圖三之快取分支目標位址352,BTAC 402 連同指令快取記憶體432皆由指令快取記憶體432之提取位 址495並行檢索。BTAC 402回應提取位址495而提供假想 分支目標位址352。較佳者,提取位址495的32個位元全都 用來從BTAC 402選取假想目標位址352 ’如下文將更詳細 敘述的,主要是關於圖六到圖九的部分。假想分支目標位址 33 本紙張尺度適用中國國家標辱(CNS)A4規格(210 X 297公f ) - 裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 538336 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明() 352被送至包含一多工器422之位址選擇邏輯422。 95多工器422從複數個位址(包括BTAC 402目標位址 352)中選取凝取位址495,下文將會予以討論。多工器422 輸出提取位址495至指令快取記憶體432與BTAC 402。若 多工器422選取了 BTAC 402目標位址352,接著處理器300 便會分支到BTAC 402目標位址352。也就是,處理器300 將開始從指令快取記憶體432提取位於BTAC 402目標位址 352的指令。 96在一具體實施例中,BTAC 402比指令快取記憶體432 還小。特別是,BTAC 402快取目標位址所用的快取線數量 比指令快取f己憶體432所含的還少。BTAC 402未整合在指 令快取記憶體432的結果是(雖然使用指令快取記憶體432 之提取位址495作為索引),若處理器300分支至BTAC 402 所產生之目標位址352,它是以假想方式進行的。此分支是 假想的,乃因根本無法確定在所選定之指令快取記憶體432 快取線中,是否有一分支指令存在,更別說是目標位址352 因之而被快取的分支指令了。命中BTAC 402僅表示一分支 指令先前存在於提取位址495所選取之指令快取記憶體432 快取線中。之所以無法確定一分支指令是否存在於所選取之 快取線中,至少有兩個理由。 97無法確定一分支指令是否在提取位址495所檢索之指 令快取記憶體432快取線中,其第一個理由是提取位址495 是一虛擬位址;因此,虛擬別名化可能會發生。也就是,兩 個不同的實體位址可能對應到相同的虛擬提取位址495。一 34 本紙張尺度適用中國國家標辱(CNS)A4規格(210 X 297公t ) I---------------I I II I 訂111111- "^ (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 538336 A7 _ B7 _ 五、發明說明( 給定之提取位址495,其為虛擬的,可能轉譯成兩個不同的 實體位址,這兩個位址關聯於一多工(multitaskmg)處理器 (像是處理It 3QG)的兩個不同行程或工作。指令快取記^ 體432利用圖五之轉換參照緩衝 5〇2執行虛擬到實體的轉 譯工作,以提供準確的指令資料。然而,BTAC 4〇2依據虚 擬提取佩執行其查詢工作,❿沒械行虛朗實體位 址的轉譯工作。藉BTAC 402避免虛擬到實體位址的轉譯工 作是有利的,因為t匕起有執行虛擬到實體位址轉譯工作的情 形,它使假想分支能更快速地執行。 98執行工作轉換之作業系統,提供了虛擬別名化情形可 月匕會發生的一個例子。在工作轉換之後,處理器3〇〇會從指 令快取圮憶體432提取位於關聯新行程之虛擬提取位址495 的指令’該I葡聯新行程之虛擬提取位址495等同於關聯舊行 程之虛擬提取位址495,而舊行程則包含一分支指令,其目 標位址快取於BTAC 402。指令快取記憶體432會依據從虛 擬提取位址495轉譯之實體位址來產生新行程的指令,如上 文關於圖五部分所描述的;然而,BTAC 402會只用虛擬提 取位址495 Θ產生舊行程的目標位址352,因而造成一錯誤 的分支。有和〗的是,錯誤的假想分支只會在新行程的指令第 一次執行時發生,此因在發現錯誤後,BTAC 402目標位址 352將變為無效,如下文關於圖十部分說明的。 99因此,分支到BTAC 402目標位址352是假想的,乃 因在有些情沉下,由於分支指令並不存在於指令快取記憶體 432之提取位:址495 (例如,因為虛擬別名化的關係),處理 35 本紙張尺度適用中國國家標率(CNS)A4規格(210 X 297公f ) -----——. - 裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 538336 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(〆) 器300將分支至BTAC 402所產生之不正確的目標位址352。 相反地,從這方面來看前述圖二之Athlon整合式BTAC/指令 快取記憶體202以及圖一之Pentium II/III分支目標緩衝器 134 ’就是非假想性的。尤其,Athlon的方法因為在分支指令 位元組108旁並列儲存了圖二的目標位址2〇6而假設虛擬別 名化並未發生,所以是非假想性的。也就是,Athl〇n BTAc 202 的查询工作是基於實體位址來執行的。Pentium II/III的方 法’則因分支目標緩衝器134只在從指令快取記憶體1〇2提 取分支指令以及指令解碼邏輯132確定有一分支指令存在 後,才產生一分支目標位址136。 100此夕卜,非假想目標位址計算器416、非假想呼叫/返 回堆疊414以及非假想分支方向預測裝置412也是非假想性 的,此因它們只在從指令快取記憶體432提取分支指令以及 由指令解碼邏輯436解碼後,才產生分支預測,如下文將要 說明的。 1〇1應該了解到,雖然非假想分支方向預測裝置412所 產生之方向預測444是「非假想性的」,亦即是在一分支指 令已由指令解碼邏輯436解碼並確定該分支指令存在於現行 指令流的情况下產生,非假想方向預測444仍是一「預測」。 也就是,如果分支指令是條件分支指令,像是χ86 JCC指令, 則在分支指令之任何既定的執行中,分支可能會進行,也可 能不會。 102相類似地,非假想目標位址計算器416所產生之目 標位址354以及非假想啤叫/返回堆疊414所產生 位址 : I------裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 36 538336 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明(j乙) 355也是非假想性的,因為這些位址是在確定有一分支指令 存在於現行^旨令流的情況下而產生;儘管如此,它們仍然是 預測。例如,以透過記憶體進行之乂86間接躍而言,自前 次執行間接勒躍以來,記憶體内容可能已有改變。如此,目 標位址可能隨之改變。因此,在本說明書中,就分支方向而 吕’「非假想的」不能與「無條件的」相混淆;就目標位址 而言’「非假想的」則不能與「確定的」(certain)相混淆。 103無法τ確定一分支指令是否在提取位址495所檢索之 指令快取記憶體432快取線中,其第二個理由是自我修改碼 (self-modifying code)的存在。自我修改碼可能會改變指令 快取記憶體432的内容,但這改變並不會反映在BTAC 402 中。因此,一先前包含分支指令之指令快取記憶體432快取 線可能命中了 BTAC 402,但此分支指令已被修改或置換為 不同的指令。 104分支預測裝置400亦包含假想呼叫/返回堆疊4〇6。 假想呼叫/返回堆疊406儲存返回指令之假想目標位址。假想 呼叫/返回堆叠406因應控制邏輯404產生之控制訊號483, 產生圖三之帝灵想返回位址353。假想返回位址353被送至多 工器422之一輸入。當多工器422選取了假想呼叫/返回堆疊 406所產生之假想返回位址353,處理器300便分支至假想返 回位址353。 105當BTAC 402指出一返回指令可能存在於由提取位 址495指定之指令快取記憶體432快取線中時,控制邏輯4〇4 會產生控制訊號483 ’以控制假想呼*叫/返回堆疊406來提供 ---·-----I---I ----II--訂--------- (請先閱讀背面之注意事項再填寫本頁) 37 538336 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明㈠7) 假想返回位:tit 353。較佳者,當所選取之BTAC 402項目602 的VALID 702與RET 706位元(見圖七)被設定,且BTAC 402命中訊號:452顯示已命中BTAC 402標記陣列614時, 則BTAC 402指出一返回指令可能存在於由提取位址495指 定之指令快取記憶體432快取線中。 106BTAC 402回應提取位址495而產生命中訊號452以 及假想分支資訊(SBI) 454。命中訊號452顯示提取位址495 命中了 BTAC 402之一快取標記,此於下文關於圖六的部分 說明。SBI454也會在下文關於圖六部分作更詳盡的說明。 107SBI 454包含一 BEG 446訊號(指令快取記憶體432 快取線内之^分支指令起始位元組位移量(beginning byte offset))與一 LEN 448訊號(分支指令長度)。BEG 446 之值、LEN 448之值與提取位址495由加法器434予以加總, 而產生返回位址491。返回位址491由加法器434輸出至假 想呼叫/返回;t隹疊406,如此返回位址491就能被推入假想呼 叫/返回堆疊406。控制邏輯404藉由訊號483與BTAC 402 協同運作,將返回位址491推入假想呼叫/返回堆疊406。只 有在所選定的BTAC 402項目602之VALID 702與CALL 704 位元(見圖七)被設定且命中訊號452顯示已命中BTAC402 之標記陣列614 (見圖六)時,返回位址491才會被推入堆 疊。假想呼叫/返回堆疊406的運作方式在後文關於圖八與圖 十三部分會更詳細地說明。 Ϊ08分支預測裝置400也包含控制邏輯404。控制邏輯 404藉控制訊號478控制多工器422,以選取複數個位址輸入 -----------t--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 38 538336 A7 _________B7 五、發明說明 之一,作為提取位址495。控制邏輯404也藉訊號482設定 指令缓衝器342中之SB位元438。 109控制邏輯404接收命中訊號452、SBI 454、來自非 你支想分支方向預測裝置412之非假想分支方向預測444以及 來自指令緩衝器342之FULL訊號486。 U〇为支預測裝置400亦包含預測檢查邏輯408。預測檢 查邏輯408產生一 ERR訊號456,其被送至控制邏輯404, 以指出已依據一 BTAC 402之命中而執行一錯誤的假想分 支’如後文關於圖十部分所描述的。預測檢查邏輯4〇8透過 訊號484從栺令緩衝器342接收SB位元謂,訊號倾亦被 送至控制邏輯404。預測檢查邏輯408也從BTAC 402接收 SBI454。預測檢查邏輯408也從指令解碼邏輯436接收指令 解碼資訊492。預測檢查邏輯408也接收圖三E_階段326所 產生之解析分支方向DIR481。 111預測檢查邏輯408也接收比較器489的輸出485。比 較器489將BTAC 402產生之假想目標位址352與圖三E_階 段產生之解析目標位址356作比較。BTAC 402產生之假想 目標位址352被存於暫存器,並順著指令管線3〇〇而下至比 較器489。 112預測檢查邏輯408也接收比較器497的輸出487。比 較器497將假想呼叫/返回堆疊406產生之假想返回位址353 與解析目標位址3允作比較。假想返回位址3纟3被存於暫存 器,並順著指令管線300而下至比較器497。 113BTAC 402之假想目標位址352被存於暫存器,並順 39 538336 A7
^ ^-----------------線 (請先閱讀背面之注意事項再填寫本頁) 538336 A7 B7 五、發明說明(γ ) '''— - 圖示為路0、路i、路2以及路3。較佳者,資料陣列犯之 路儲存兩錄取分支目標位址與假想分支資訊的項目, ^為A與B。由此,每次讀取細車列612時,就會產生八 個項目602。此八個項目6〇2被送至一八對二路選擇多工器 (way sdect mux ) 606。 ° 118資轷陣列612與標記陣列皆由圖四指令快取記 憶體432之提取位址495來作索引。提取位址奶之較低有 效位元(significant blt)選定了陣列612與614内各一條快取 線。在-具體實施例中,每個陣列包含了 128條快取線。因 此’ BTAC 402能夠快取多達刪個目標位址(128條快取 線之每條具四個路,每路可儲存兩個目標位址)。較佳者, 陣列612與614是藉提取位址495之位元[11:5]來作索引。 119彳示a己陣列614為母路產生一標記616。較佳者,每個 4*^616包含虛擬位址的2〇個位元,且四個標記616的每一 個皆由比較器604將其與提取位址495之位元[31:12]作比 較。比較器604產生圖四之命中訊號452,其依據是否有一 標記616與提取位址495之最高有效位元相吻合,以指出是 否有命中BTAC。命中訊號松被送至圖四之控制邏輯4〇4。 产 此夕卜’比較器604產生控制訊號618,以控制路選擇 | 多工器606。路選擇多工器606因而在BTAC 402產生之快
着 取線中,選取四個路之一的A項目624與B項目626。將A | 項目624與B項目626送至A/B選擇多工器008以及控制邏 J 輯404。控制邏輯404因應命中訊號必2、Α項目624與Β | 項目626、提取位址495及其他控制訊號而產生一控制訊號 [___41_ 本紙張尺度適用中國@家標準(CNS)A4規格⑵G X 297公釐) "" "~ , ^--------^---------^ (請先閱讀背面之注意事項再填寫本頁) 五、發明說明U f) 622 ’來控制施選擇多工器_。_選擇多工器_便選 取A項目624或B項目626兩者之_作為圖三BTAC 4〇2之 目標位址352及圖四之SBI454。 ⑵較佳者,BTAC 402是一科(smgIe侧⑷快取 記憶體。單埠快取記憶體的優點是尺寸上比較小,因而比起 雙埠(dual-ported)快取記憶體,在同樣大小的空間中能夠 快取更多的目標位址。然而,雙埠快取記憶體的考量是使同 時地讀寫BTAC 402變得容易。雙埠BTAC 4〇2所具備之可 同時讀寫的特徵’由於更新寫入的動作不需等待讀取動作, 使得BTAC 402的更新能更快速地進行。一般而言更快速的 更新可得到更正確的預測,此因BTAC 4〇2内的資訊是更為 現時的(current)。 122在一具體實施例中,指令快取記憶體432内每條快 取線包含32嗰位元組。然而,指令快取記憶體432有時會提 供指令位元組之半快取線494。在一具體實施例中,BTAC4〇2 的每條快取線儲存了兩個項目602,因而包含了兩個目標位 址714,用於指令快取記憶體432之每條半快取線。 123現請參閱圖七,其為依本發明繪示圖四BTAC 4〇2 之圖六項目602之格式方塊圖。項目602包含了圖四之sbI (假想分支資訊)454與一分支目標位址(TA) 7丨4。SBI454 包含一 VALID位元702、圖四之BEG 446與LEN 448、一 CALL位元704、一 RET位元706、一 WRAP位元708以及 分支方向預測資訊(BDPI) 712。在圖三之管線300執行一 分支後,該分支之解析目標位址即被快取於TA欄位(fleld) 經濟部智慧財產局員工消費合作社印製 538336 A7 B7 五、發明說明() ~ 714 ’而解石馬與執行分支指令所得之SBI 454職快取於 BTAC 402之項目602的SBI 454攔位中。 即 ALID位元702指出了項目602是否可用於將處理 器3〇〇假想分支至關聯之目標位址Μ。特別是,說仍位 元702最初是處於清除狀態,此因BTAC 402由於未快取任 何有效之目標位址而是空的。當處理器·執行—分支指 令,且與該分支指令關聯之解析目標位址與假想分支資訊被 快取於項目602時,VALID位元7〇2就被設定。之後,如果 BTAC 4〇2恢據項目6〇2作了錯誤的預測,vaud位元观 就被清除,如下文關於圖十部分所述。 125BEG攔位446指定了指令快取記憶體432之一快取 線内分支指令之起始位元組位移量。在偵測到有一呼叫指令 命中BTAC 402時,BEG攔位446被用來計算一返回位址, 以儲存於圖四之假想呼叫/返回堆疊4〇6。此外,BEG欄位446 被用來確定所選取BTAC 402路之圖六項目a 624或項目B 626兩者中哪一個導致了 BTAC 4〇2之命中,如下文關於圖 八部分所述。較佳者,由項目A 624與項目B 626所指定之 分支指令位置,在指令快取記憶體432之快取線内不需有任 何特定的順序。也就是,在指令快取記憶體432之快取線中, 項目B626之分支指令可能還早於項目A624之分支指令。 126LEN 448攔位指出分支指令位元組的長度。在彳貞測到 一呼叫指令命中BTAC 402時,LEN 448欄位被用來計算一 返回位址,以儲存於圖四之假想呼叫/返回堆疊406。 127CALL·位元704指出所快取之目標位址714是否關聯 43 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
--------------裝--- (請先閱讀背面之注意事項再填寫本頁) i線· 538336 A7
1 I 背 面 之 注 意 h 頁I 丁 538336 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 A7 五、發明說明(W) 的預測裝置C亦即,BTAC402或BHT 1202)準確地預測了 方向,SELECT位元724就不會更新。然而,如果所選定的 預測裝置沒有準確地預測方向而另一個預測裝置正確地預測 方向’ SELECT位元724就會更新,以指明是非選定的預測 裝置,而不是所選定的預測裝置。 132在一具體實施例中,SELECT位元724包含一兩位 元之上/下數飽和計數器,用以指定四種狀態:極可能是BTAc (strongly BTAC )、有可能是 BTAC ( weakly BTAC )、有 可能是 BHT ( weakly BHT )與極可能是 BHT ( strong BHT)。 在此實施例中r,如果在分支執行後,所選定的預測裝置(亦 即,BTAC 402或BHT 1202)準確地預測了方向,飽和計數 器即朝所選定的預測裝置來計數。如果所選定的預測裝置沒 有準確地預》則方向而另一個預測裝置正確地預測方向,飽和 計數器即朝多,選定的預測裝置來計數。 133現明參知圖八,其為依本發明繪示之圖四假想分支 預測裝置400之運作流程圖。圖四之btac 402由圖四之提 取位址495作索引。因此,圖六之BTAC 402比較器604回 應圖六之BTAC 402標記陣列614之虛擬標記616,以產生 圖四之命中號452。在步驟802中,圖四之控制邏輯404 檢查命中訊號452,以確定提取位址495是否命中BTAC 4〇2。 134如果BTAC 402之命中並未發生,則在步驟中 控制邏輯404便不進行假想分支。也就是,控制邏輯4〇4藉 由圖四之控希ij说號478控制多工器422,以選取除了 BTAC 4〇2之目標位址352與假想呼叫/返回堆疊4〇6之返回位址奴 -----------裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 45 A7
538336 五、發明說明(‘ί) 外的一個輸入。 135然而’如果BTAC 402之命中確實發生,在步驟8Q4 中,控制邏輯404便會確定圖六之Α項目624是否有效,被 看見(seen)與被採行(taken)。 136若圖七VALID位元702被設定,控制邏輯4〇4便確 定項目624為「有效的」。如果VAUD位元702被設定, 由提取位址495所選取之指令快取記憶體432快取線就被假 定為包含一分支指令,而該分支指令之分支預測資訊則已先 快取於A項g 624,然而,如上文所討論的,並不確定所選 取的指令快取記憶體432快取線包含有分支指令。 137若項目A 624之T/NT欄位722指出,所假定的分支 指令方向預期會被採行,則控制邏輯404便確定項目624「被 採行」(taken)。在下述圖十二的具體實施例中,若所選取 的方向指示裝置(directionindicator)指出,所假定的分支指 令方向預期會被採行,則控制邏輯404便確定項目624「被 採行」。 138若圖七之BEG欄位446大於或等於提取位址495相 對應之最低有效位元(leastsignificantbits),則控制邏輯404 便確定項目624「被看見」(seen)。也就是,BEG攔位446 與提取位址495相對應之最低有效位元作比較,以決定下個 指令提取的位置是否位在指令快取記憶體432中對應於A項 目624的分支指令位置之前。例如,假設a項目624之BEG 糊位446包含-數值3,而提取位址495之較低位元值為8。 在這種情況下,可能就不會藉此提取位址495分支至A項目 46 本紙張尺度適用巾關家標辱(CNS)A4規格(21Q χ 297公爱) = ----------裝!| 訂·--------線 (請先閱讀背面之注咅?事項再填寫本頁} 經濟部智慧財產局員工消費合作社印製 經濟部智慧財產局員工消費合作社印製 ——__1_ 五、發明說明(yU) 624的分支指令。因此,控制邏輯4〇4將不會假想分支至a 項目624的目標位址714。這在提取位址495是分支指令的 目標位址時特別有關係。 139若A項目624是有效的、預期會被採行且被看見, 在步驟806令,控制邏輯4〇4會檢查圖六之B項目626是否 為有效、被看見與採行。控制邏輯4〇4是以類似於步驟8〇4 對A項目624所用的方式,來決定B項目626是否為有效、 被看見與採行。 140若A項目624是有效的、預期會被採行且被看見, 但B項目626不是有效的、職不被採用或者不被看見,則 在步驟812 _,控制邏輯404檢查圖七之RET欄位706,以 決定A項目624是否已快取返回指令之資訊。若肪丁位元 706未被設定,則在步驟814中,控制邏輯4〇4控制圖六之 A/B多工H 608以選取項目a 624,並藉由控制訊號478控 制多工器422,以假想分支至目標位址訊號352所提供之 BTAC 402項目A 624之目標位址714。相反地,若順位 元706指出,在提取位址495所選取之指令快取記憶體432 快取線中’可能存在一返回指令,則在步驟818中,控制邏 輯404藉由控制訊號478控制多工器幻2,以假想分支至圖 四想呼叫/返回堆疊406之返回位址353。 141在步驟814或步驟818進行假想分支後,於步驟816 中’控制邏輯404產生-指示於控制訊號482巾,表示已回 應BTAC 402喊行一假想分支。也就是,不論處理器3⑻ 假想刀支至你又想呼叫/返回堆疊4〇6之返回位址353,或是 47 本紙張用中^國家標準—(CNS)A4規格(21〇 X 297公f ) -------- --------------裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 538336 經濟部智慧財產局員工消費合作社印製 A7 --*-----------— — 五、發明說明(θ) BTAC 402項目A 624之目標位址352,控制邏輯404皆會於 控制訊號482 顯示已執行一假想分支。當一指令位元組 從指令快取記憶體432進行至圖三之指令緩衝器342時,控 制訊號482會用來設定SB位元438。在一具體實施例中,控 制邏輯404利用項目602之BEG446攔位,來設定指令緩衝 器342内關聯於分支指令之運算碼位元組之位元438。此 分支指令之SBI 454在提取位址495命中BTAC 402時,是 假定已快取於BTAC402中。 142若A項目624是無效的,或預期不被採行,或不被 看見’如步驟804中所確定的’則控制邏輯404在步驟824 中便會確定B項目626是否為有效、被看見與被採行。控制 邏輯404是以類似於步驟804對A項目624所用的方式,來 決定B項目626是否為有效、被看見與採行。 143若B項目626是有效的、預期會被採行且被看見, 則在步驟832中,控制邏輯404檢查RET攔位706,以決定 B項目626是否已快取返回指令之資訊。若拙丁位元7〇6未 被設定’則在步驟834中,控制邏輯404控制圖六之Α/β多 工器608以選取項目Β 626,並藉由控制訊號478控制多工 裔422 ’以饭想分支至目標位址訊號352所提供之BTAC 402 項目B626之目標位址714。相反地,若RET位元706指出, 在提取位址495所選取之指令快取記憶體432快取線中,可 月t*存在一返回指令’則在步驟818中’控制邏輯4〇4藉由控 制訊號478控制多工器422,以假想分支至假想呼叫/返回堆 疊406之返回位址353。 48 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ! 装--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 538336 經濟部智慧財產局員工消費合作社印製 A7 B7__ 五、發明說明(U) 144在步驟834或步驟818進行假想分支後,於步驟816 中,控制邏輯404產生一指示於控制訊號482中,表示已回 應BTAC 402而執行一假想分支。 145若A項目624與B項目626皆是無效的,預期不被 採行,或不被看見,則在步驟822中,控制邏輯4〇4便不會 進行假想分支。 146若人項目624與B項目626兩者皆為有效的,預期 被採行,且被看見,則在步驟職中,控制邏輯便會去 確定,在假定的分支指令(其資訊快取於A項目624與B項 目626)中,哪一個是指令快取記憶體432之快取線指令位 元組494内,最先被看見之有效且被採行的分支指令。也就 是,如果兩彳固假定的分支指令都被看見、有效且被採行,控 制邏輯404便藉由比較A項目624與B項目626之BEG 446 才闌位,來決定哪一個假定的分支指令具有較小之記憶體位 址。若B項目626之BEG446的值比A項目624之BEG446 的值還小,貝Vi控制邏輯404便進行至步驟832,依據B項目 626進行假想分支。否則,控制邏輯4〇4便進行至步驟812, 依據Α項目624進行假想分支。 147在一具體實施例中,假想呼叫/返回堆疊4〇6並不存 在。所以,步驟812、818與832皆未執行。 148從圖八可以看出,本發明有利地提供一裝置,用以 將夕個分支栺令之目標位址與假想分支資訊快取於一分支目 標位址快取記4意體中一特定之指令快取線,而該分支目標位 址快取記憶體並未整合在指令快取記憶體内。特別是,分支 49 本紙張尺度適用中國國家標辱—(CNS)A4規格(21G X 297公f ) --------------裝--------訂---------線 (請先閱讀背面之注音?事項再填寫本頁) 538336 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(心1) 指令的位置資訊快取於快取線内之BEG攔位446,有利地使 控制邏輯404無需預解碼快取線,就能夠從快取線内可能的 多個分支指令中,決定要假想分支至哪一個。也就是,BTAC 402在慮及可能有兩個或更多分支指令存在於所選取快取線 之情況下,:¾与定目標位址,而不用知道有多少分支指令存在 於快取線中,假若有的話。 149現請參閱圖九,其為依本發明繪示之圖四假想分支 預測裝置400使用圖八步驟選取圖四目標位址352之一運作 範例的方塊圖。此範例顯示一值為〇xl〇〇〇〇〇〇9之提取位址 495進行指令快取記憶體432與BTAC 402之檢索,且該提 取位址495也被送至圖四之控制邏輯404。為了簡明起見, 關於指令快取記憶體432與BTAC 402之多路關聯性 (multi-way associativity)的資訊,像是圖六之多個路與路多 工器606,並未顯示出來。指令快取記憶體432之一快取線 494由提取位址495選取。快取線494包含快取於位址 0x10000002之一 x86條件跳躍指令(JCC)與快取於位址 OxlOOOOOOC 之一 x86 CALL 指令。 150此龜例也顯示了提取位址495所選取之BTAC 402 快取線内A項目602A與B項目602B之一些組成部份。項 目A 602A包含CALL指令之快取資訊,而項目B 602B包含 JCC指令之快取資訊。項目A 602A顯示其VALID位元702A 被設為1,表不其為一有效之項目A 602A,亦即’圖七相關 聯之目標位址714與SBI454是有效的。項目A 602A也顯示 出一值為0x〇C之BEG襴位446A,對應於該CALL指令之 50 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) --------------裝-------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 538336 A7 ----- -B7_ 一 '- ------- 五、發明說明(γ ) (請先閱讀背面之注音?事項再填寫本頁) 指令指標位址:之最低有效位元。項目A 602A也顯示了一值 為「被採行」之T/NT欄位722A,表示該CALL指令預期會 被採行。回應提取位址495,A項目602A藉由圖六之訊號 624送至控fj邏輯404。 151項目B602B顯示其VALID位元702B被設為丨,表 示其為一有效之項目B 602B。項目B 602B也顯示出一值為 0x02之BEG檲位446B,對應於該JCC指令之指令指標位址 之最低有效位元。項目B 602B也顯示了一值為「被採行」 之T/NT攔位722B,表示該JCC指令預期會被採行。回應提 取位址495,B項目602B藉由圖六之訊號626送至控制邏輯 404 〇 152此外’BTAC 402將命中訊號452設定為真,以顯示 提取位址495命中了 BTAC 402。控制邏輯404接收項目a 602A與項目B 602B,並依照圖八所述之方法,根據命中訊 號452、提取伯址495之值以及602A與602B兩個項目,產 生圖六之A/B選擇訊號622。 經濟部智慧財產局員工消費合作社印製 153在步驟802中,控制邏輯404依據命中訊號452被 設定為真,而碑定BTAC 402有一命中發生。接著於步驟8〇4 中,控制邏輯404依據VALID位元702A被設定,而確定項 目A 602A是有效的。而因T/NT攔位722A顯示為被採行, 控制邏輯404也於步驟804確定項目A 602A是被採行的。 由於BEG欄位446A之值〇x〇C大於或等於提取位址495之 值0x09對應的較低位元,控制邏輯404亦於步驟804確定項 目A 602A被看見。既然項目A 602A是有效的、被採行與被 51 本紙張尺度適用中國國家標夢(CNS)A4規格(210 X 297公釐) 538336 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 A7 B7 五、發明說明(r() 看見,控制邏輯404便進行至步驟806。 154於步驟806中,控制邏輯404依據VALID位元702B 被設定,而確定項目B 602B是有效的。而因T/NT欄位722B 顯示為被採行,控制邏輯404也於步驟806確定項目B 602B 是被採行的。由於BEG欄位446B之值0x02小於提取位址 495之值0x09對應的較低位元,控制邏輯404亦於步驟806 確定項目B 602B未被看見。既然項目b 602B未被看見,控 制邏輯404便進行至步驟812。 155在步騾812中,控制邏輯404透過圖七被清除之RET 位元706而確定關聯於項目a 602A所快取的指令不是返回 指令’並進行至步驟814。在步驟814中,控制邏輯404產 生一 A/B選擇訊號622之值,以驅使圖六之a/b多工器608 選取訊號624上之項目a 602A。這個選擇的動作導致項目a 602A之圖七目標位址714被選為圖三之目標位址352,送至 圖四之提取位址495選擇多工器422。 156因此^,從圖九的範例可以看出,圖四之分支預測裝 置400有利地運作,以選取最先、有效、被看見、被採行之 所選定BTAC 402快取線的項目6〇2,將處理器3〇〇假想分 ^至其中關聯之目標位址714。有利的是,即使有多個分支 私令存在於對應之選定的指令快取記憶體432快取線494, f置400仍乾在不知快取線物内容的情況下,完成假想分 支的動作。 157現哨參閱圖十’其為依本發明繪示之圖四假想分支 預利衣置400 貞測與更正錯誤的假想分支酬之運作流程 (cns)a4 mum 297公釐) --------------裝-------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 538336 A7 ~~~ ---5Z_____ 五、發明說明(:>) 圖匕從私7缓衝器342接收一指令後,在步驟1〇〇2中,圖四 之解碼邏輯436便解碼該指令。尤其,指令解碼邏輯视 將才曰W立元組流(伽啦〇f丨输咖⑽b卿)格式化成一不 同的娜巨指令,並確定該指令的長度以及是否為分支指令。 〜I58接著,在步驟1004中,圖四之預測檢查邏輯408測 =解碼指令中,是否有任何指令位元組之兕位元438被 設定。也就是,預測檢查邏輯彻測定是否先前已基於現行 解碼的指令命中BTAC他,而執行一假想分支。若沒有執 行任何假想分支,則不會採取行動去更正。 。159若有執行一假想分支,則在步驟1〇12中,預測檢查 邏輯408會檢查現行解碼的指令,以確定該指令是否為非分 支指令。較佳者,預測檢查邏輯408會測定該指令是否為沾6 指令集之非分支指令。 160如果該指令不是分支指令,則在步驟1〇22中,預測 檢查邏輯408將圖四之err訊號456設定為真,以表示侧 到-錯誤的假想分支。此外,藉由圖四之更新訊號442吒度 402得以更新,而清除圖六對應之BTAC 4〇2項目6〇2之圖 七VALID位元702。再者,圖三之指令緩衝器342會清除掉 因此一錯誤的假想分支而從指令快取記憶體4幻誤取的指 161如果該指令不是分支指令,則在步驟1〇24中,制 邏輯404接著控制圖四之多工器422,以分支至指令解躺 輯436所姓之CIP 468,更正該錯誤的假想分支。步驟1〇24 中所進行的分支’將使得包含該指令之指令快取記憶體极 53 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱)
• I I I I - a^T·. 線· (請先閲讀背面之注音項再填寫本頁) -----Μ A7
538336 五、發明說明(上3) 快取線重新被提取與作假想預測。然而,這次該指令之 VALID位元702將被清除;因此,該指令將不執行任何假想 分支,藉以更正先前錯誤之假想分支。 「非假想的」若在步驟1〇12中已確定該指令為一有效的 分支指令,诗J在步驟1014中,預測檢查邏輯4〇8會確定在所 解碼指令的指令位元組$,位於非運算碼(non_叩code)位 兀組位置的}旨令,有否任何位元組之SB位元438被設定。 也就是,雖然一位元組可能包含一處理器300指令集之有效 運算碼值,該有效運算碼值卻可能位於一個就指令格式而言 是無效=位元組位置。對一 x86指令而言,除了前置位元組 外運TTT碼位元組應该是指令的第一個位元組。例如,對於 在才曰々的立即 料(immediate data)或位移攔位(displacement field)中’或者因虛擬別名化而在一 χ86指令或 (Scale Index Base,比例索引_基底)位元組中所含的分支運 算碼值,SB位元438可能因之而錯誤地被設定。若分支運算 碼位疋組位於非運算碼位元組位置,則執行步驟1〇22與1〇24 以更正錯誤的假想預測。 163若在步驟1〇12中,預測檢查邏輯4〇8確定該指令為 一有政的分支指令,且在步驟1〇14中,確定沒有非運算碼位 元組的SB位元438被設定,則在步驟ίο%中,預測檢查邏 輯408會確定是否有假想與非假想指令長度上的不吻合。也 就是’預測檢查邏輯408將步驟1〇〇2中指令解碼邏輯436 產生之非假想指令的長度與BTAC 402產生之圖七假想LEN 448欄位作一比較。若指令長度不吻合,則執行步驟1〇22與 11 裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製
538336 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(外) 1024以更正錯誤的假想預測。 164右在步驟1012中,預測檢查邏輯4〇8確定該指令為 一有效的分支指令,且在步驟1014中,確定只有運算碼位元 組的SB位元438被設定,以及在步驟1〇16確定指令長度吻 合,則該指令便順著管線300而下,直至抵達圖三之&階段 326。在步驟1032中,E-階段326解析出圖三之正確的分支 指令目標位址356,並確定圖四之正確的分支方向mR481。
165接著’在步驟1034中,預測檢查邏輯々os確定BTAC 402疋否錯誤預測了分支指令的方向。也就是,預測檢查邏 輯408將E-階段326所解析之正確方向DIR 48丨與BTAC 4〇2 產生之圖七預測722作比較,以確定是否已執行一錯誤的假 想分支。 166若BTAC 402預測了 一錯誤的方向,則在步驟IQ#〕 中,預測檢查邏輯408將ERR訊號456設定為真,以告知控 制邏輯404此錯誤。因此,控制邏輯4〇4便藉由圖四之更新 訊號442,來更新圖六對應之BTAC 402項目602之BTAC 402方向預測722。最後,在步驟1042中,控制邏輯4〇4會 清除掉管線300中因該錯誤的假想分支而從指令快取記憶體 432誤取的指今。接著,在步驟1〇44中,控制邏輯4〇4驅使 多工器422選取圖四之NSIp 466,使處理器300分支至分支 指令之下個指令,以更正該錯誤的假想分支。 167若在步驟1〇34中無方向的錯誤,則在步驟1〇36中, 預測檢查邏輯408會確定是否BTAC 4〇2或假想呼叫/返回堆 疊406錯誤地預測了分支指令之目標位址。也就是,若處理 55 本紙張尺度適用中國國家標準CCDA4規格(21〇 x 297公爱) r I--------^---------線 (請先閱讀背面之注意事項再填寫本頁) A7 B7 538336 五、發明說明(d) 器300假想分支至BTAC 402目標位址352,則預測檢查邏 輯408會檢查圖四比較器489的結果485,以確定是否假想 目標位址352不吻合所解析的正確目標位址356。另一種情 況是’若處理器300假想分支至假想呼叫/返回堆疊4〇6返回 位址353,貝J預測檢查邏輯408會檢查圖四比較器497的結 果487,以確定是否假想返回位i止初不吻合所解析的正確 目標位址356。 168若在步驟1036偵測到-目標位址的錯誤,則在步驟 1052中,預涮檢查邏輯408將ERR訊號456設定為真,以 顯不制到一錯誤的假想分支。此外,控制邏輯4〇4藉由更 新訊號442 ’以步驟觀產生之解析目標位址脱來^ 六對應之BTAC 402項目602。再者,會清除掉管線中 因該錯誤的假想分支而從指令快取記憶體松誤取的指a。 接著,在步驟1054中,控制邏輯4〇4控制圖四之多工器^ 以分支至解析目標紐356,細更正先祕誤的假想分支。 & I69現請參照圖十- ’係依本發明列舉之程式碼實例片 k及-表格11GG,為說明®十假想分支 目 式磁。糾,蝴蝴斯程 :灯工:父換(task switch)前,圖四指令快 中位於虛擬位址0x__10之程式碼。 "432 圖示了在工作交換後,指令快取記恃體432 :式石馬片段則 Γ00刪之料碼,鱗在 _ 56 本紙張尺度適用中國國家標準 1 ^--------^---------^ (請先閱讀背面之注意事項再填寫本頁) 員 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 538336 A7 -------B7__ 五、發明說明(yL) 170该先前程式碼序列(c〇(je seqUence)包含一在 0x00000010位址位置之X86 jmp(無條件跳躍)指令。該JMP 指令的目標位址為0x00001234。該JMP指令已執行;所以, 在現行程式碼序列執行時,目標位址0x00001234已因應位址 0x00000010而快取於圖四之BTAC 402。也就是,目標位址 714已被快取,VALID位元702被設定,BEG 446、LEN 448 與WRAP 708攔位寫入適當的值,圖七之CALL 7〇4與拙丁 706位元則被清除。在此範例中,假定T/NT欄位722顯示出 所快取之分支將被採行,且JMP快取於BTAC 402快取線之 Α項目624令。 171現行程式碼序列包含一位於〇x0000001〇之ADD(算 術加)指令,與先前程式碼序列中之jMP指令的虛擬位址相 同。現行程式碼序列中位置〇x〇〇〇〇1234是SUB (算術減) 指令,位置0x00001236則是INC (算術遞增)指令。 172表格11〇〇包含八行(c〇iumn)與六列(r〇w)。第 一列的後七行代表七個時脈週期(clock cycle),從1至7。 苐一彳于的後五列代表管線300最先的五個階段,即I-階段 302、B_階段304、U-階段306、V-階段308與F-階段312。 表格1100之其它方格則顯示當執行現行程式碼序列時,在不 同時脈週期护每個階段的内容。 173在睁脈週期1期間,BTAC 402與指令快取記憶體 432被存取。ADD指令顯示於I-階段302。圖四值為 0x00000010之提取位址495檢索BTAC 402與指令快取記憶 體432,依據圖八之流程決定是否需要進行一假想分支。在 -------------裝 -------訂— — — — — — (請先閱讀背面之注音?事項再填寫本頁) 57 經濟部智慧財產局員工消費合作社印製 538336 五、發明說明(^?) 圖Η^ —的範作,一值為0x00000010之提取位址495會命中 BTAC402,如下所述。 174在時脈週期2期間,ADD指令顯示於B-階段304。 這是指令快取記憶體432提取週期(fetchcycle)之第二個時 脈。標圮陣列614提供標記616,而資料陣列612提供圖六 之項目602,每個項目602包括圖七之目標位址714與SBI 454。因為先琦程式碼序列之指令在執行後已被快取, 圖六之比較器604便根據圖八之步驟802產生一標記命中 (tag hit)於訊號452上。比較器604也藉訊號618控制路多 工器606去選取適當的路。控制邏輯4〇4檢查a項目624與 B項目626之SBI 454,在此例中並選擇A項目624以提供 目標位址352與SBI454。在此例中,控制邏輯404也依據步 驟804與812來決定項目是有效、被採行、被看見且不是返 回指令。 Π5在時脈週期3期間,ADD指令顯示於仏階段·。 ADD指令由指令快取記憶體432提供,並閂鎖於階段 306。因為圖八之步驟802至814是在時脈週期2中執行,控 制邏輯404便藉控制訊號478控制圖四之多工器似,以選 取BTAC 402所提供之目標位址352。 Π6在時脈週期4期間,ADD指令進行至^階段3〇8, 在此階段被寫入指令緩衝器342。時脈週期4是假想分支週 期。也就是,處理器300依據圖八之步驟814,開始提取位 於值為0x00001234之快取目標位址352的指令。亦即,根據 圖八’提取位址495被改為位址〇x_〇1234,以完成假想分 58 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公f— ί I----1裝--------訂-------I 1^- (請先閱讀背面之注意事項再填寫本頁) 538336 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明( 支至該位址的動作。因此,位於位址0x00001234之SUB指 令’在時脈週期4是顯示於I-階段302。此外,控制邏輯4〇4 藉圖四之訊號482指出,已執行一假想分支。所以,根據圖
八之步驟816,指令緩衝器342中一 SB位元438對應於ADD 指令被設定。 177在時脈週期5期間,偵測到假想分支中的錯誤。ADD 指令進行到F_階段312。SUB指令進行至B-階段304。位於 下個循序指令指標之INC指令,則顯示於I-階段302。圖四 之F-階段312指令解碼邏輯436解碼ADD指令,並產生圖 四之CIP 468。預測檢查邏輯408依據步驟1004,藉訊號484 偵測到關聯於ADD指令之SB位元438被設定。預測檢查邏 輯408依據步驟1〇12,也偵測到ADD指令是一非分支指令, 並接著依據步驟1022將圖四之ERR訊號456設為真,以表 示在週期4尹已執行錯誤的假想分支。 178在日争脈週期6期間,使錯誤的假想分支無效。依據 步驟1022 ’指令緩衝器342被清空。尤其,ADD指令從指 令緩衝器342中清除。此外,依據步驟1〇22,導致錯誤假想 分支之項目602所關聯之valid位元702則被清除,以更 新BTAC 402。再者,控制邏輯4〇4控制多工器422,以選取 CIP 468作為T個週期之提取位址495。 179在睁脈週期7期間,更正錯誤的假想分支。處理器 300開始從指今快取記憶體432提取位於ADD指令之指令指 標的指令,該ADD指令是在時脈週期5偵測到錯誤時,由 指令解碼邏輯436所解碼的。也就是,處理器3〇〇依據步驟 --------------裝--------訂---------線 (請先閱讀背面之注咅?事項再填寫本頁) 59
538336 五、發明說明(r,) 1024分支至對應於ADD指令之CIP 468,藉以更正在時脈週 期5所執行之^錯誤的假想分支。因此,ADD指令在時脈週期 7是顯示於I-階段302。這次,ADD指令將順著管線300而 下並執行。 180現請參閱圖十二,其為依本發明繪示之圖四分支預 測裝置400包含一混合假想分支方向預測裝置丨2〇〇的另一具 體實施例之方塊圖。簡單就可以看出,BTAC 402的分支方 向預測愈準確,假想分支至BTAC 402產生之假想目標位址 352就愈能有效地減少分支延遲損失。反過來說,錯誤的假 想分支愈不常被更正,如關於圖十部分所述,假想分支至 BTAC 402產生之假想目標位址352就愈能有效地減少處理 器300之平均分支延遲損失。方向預測裝置1200包含圖四之 BTAC 402、一分支經歷表(BHT) 1202、互斥或邏輯(exciusive OR logic) 1204、全域分支經歷暫存器(globalbranchhist〇ry registers) 1206 與一多工器 1208。 181全域分支經歷暫存器12〇6包含一移位暫存器(shift register),對於處理器3〇〇所執行之所有分支指令,全域分 支經歷暫存器1206接收其分支方向結果1212,而該移位暫 存器則儲存分支方向結果1212的全域經歷。每次處理器3〇〇 執行一分支才旨令,圖四之DIR位元481就被寫入移位暫存器 1206 ’若分支方向被採行,該位元值為設定;若分支方向不 被採行,该仇元值為清除。由此,最老的(〇收贫)位元就被 移出移位暫存器1206。在一具體實施例中,移位暫存器1206 儲存了全域經歷的13個位元。全域分支經歷的儲存,在分支 -------------装—--I--訂··-----1 — 線 (請先閱讀背面之注咅?事項再填寫本頁) 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製
538336 五、發明說明( ==域:中是為人熟知的,對於程式中高度依存於其 他刀支心令的分支指令,可改良其結果的預測。 削182 f域分支經歷1206藉訊號1214送至互斥或邏輯 ^ 圖四之提取位址495進行—邏輯的互斥或運算。 =或邏輯隨的輪出1216作為分支經歷表歷之索引。 ^刀支預測的技術領域中,互斥或邏輯12〇4戶斤執行的功能一 般都稱為gshare運算。 ϋ分支經歷表1202包含一儲存元件的陣列,以儲存複 刀私令之刀支方向結果的經歷。該陣列由互斥或邏輯 12〇4的輸出1216作為索引。當處理器執行一分支指令, 由互斥或邏輯1204的輸出12ι6所檢索之分支經歷表12〇2 之陣列元件便透過如虎1218選擇性地加以更新,而訊號㈣ 的内容則視解析分支方向DIR481而定。 184在一具體實施例中,分支經歷表12〇2陣列中的每個 儲存元件包含兩個方向預測:Α與Β方向預測。較佳者,如 圖所不,分支、經歷表12〇2產生A與B方向預測於
T/NT_A/B Λ號上,針對btac 4〇2產生之圖六a項目624與b =目626各指定一方向預測以供選取。在一具體實施例中, 支、、厂歷表1202之儲存元件陣列包含4096個項目,每個可 儲存兩個方向預測。 185在一具體實施例中,A與B預測各包含單一 (taken/nottaken,即採行/不採行)位元。在此實施例中,該 T/NT位元更漸為DIR位元48丨之值。在另一具體實施例中, A與B預測各包含一兩位元之上/下數飽和計數器,指定了 I ^--------^---------^ (請先閲讀背面之注咅?事項再填寫本頁) 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 四
五、發明說明(b f) 種狀悲·極可能採行(str〇ngly taken)、有可能採行(weakly taken )、有可能不採行(weaj^y n〇t她en )與極可能不採行 (strong not taken)。在此實施例中,飽和計數器朝DIR位 元481指出的方向來計數。 186多工^器1208從分支經歷表12〇2接收兩個方向預測
位元T/NT—A/B 1222,並從BTAC 402接收A項目624與B 項目626各自之圖七T/NT方向預測722。多工器12〇8亦從 BTAC 402接收A項目624與B項目626各自之SELECT位 元724 ’作為遥擇控制訊號。A項目624之SELECT位元724 從兩個A輸入尹選取一 T/NT給a項目624。B項目626之 SELECT位元724從兩個B輸入中選取一 T/NT給b項目 626。所選取酌兩個T/NT位元1224被送至控制邏輯4〇4,透 過圖四之訊號478,用於控制多工器422。在圖十二之實施例 中,所選取的兩個T/NT位元1224分別包含於項目A 624與 項目B626,被送至控制邏輯4〇4,如圖六所示。 187可以看出,若處理器3〇〇分支至目標位址352,且該 位=352是BTAC402依據(至少部分是)分支經絲· 所提t、之方向預測1222而產生,則該分支是以假想的方式進 行。該分支是假想的,此因雖然命t BTAC 4〇2已指出一分 支指令先前存在於提取位址495所選取之指令快取記憶體 432快取線_,但仍無法確定一分支指令位於所選取之指令 快取記憶體432快取線中,如上所討論的。 也可以看出,比起單單只有BTAC 4〇2方向預測 722,圖十二之混合分支方向酬裝置12〇〇可能有利地提供 62 本紙張尺度適财國國家標率(CNS)A4規格(2d 297公釐) 538336 A7 B7 五、發明說明u >) 更準確的分支方向預測。尤其,_般而言,對於高度依存 於其匕分支經歷的分支而言,分支經歷表12〇2提供了鮮確 的預测,反之,對於並非高度依存於其它分支經歷的分支而 言^沒BTI 402提供了較準確的預測。就一既定之分支 而。,藉由SELECT位元724能選擇較準確的預測裝置。因 此’可以看出,圖十二之方向預測裝置12〇〇能有利地與btac 402協同運作,以使用BTAC 4〇2所提供之目標位址、松進 行更準確的信戈想分支。 •Π- I k 189現請參閱圖十三,其為圖四之雙呼叫/返回堆疊 與414之運作流程圖。電腦程式的一項特性是,可能從程式 内夕個位置來呼叫副程式(subr〇utine)。所以,副程式内一 =回指令之返回位址可能變來變去。因此,可以看出,利用 分支目標位址快取記憶體去預測返回位址通常很不容易,從 而呼叫/返回雄疊的出現,實有其必要。本發明之雙呼叫/返回 位址堆疊的架構提供了本發明之假想BTAC的好處,像是在 官線300早期即預測分支目標位址,以減少分支損失。除此 之外’還廣泛提供了呼叫/返回堆疊的優點,亦即,比一簡單 的BTAC 402更準確地預測返回位址。 190在步騾13〇2中,圖四之bTAC402由圖四之提取位 址495作索引,而圖四之控制邏輯404檢查命中訊號452, 以確定提取位址495是否命中BTAC 402,還檢查SBI 454 之VALID位元7〇2,以確定所選取之btAC 402項目602是 否有效。若BTAC 402之命中未發生或VALID位元702未被 设定’則控制邏輯404並不會使處理器300進行假想分支。 I_____ 63 本紙張尺度^中關^Bi)A4規格⑽χ 297公髮 538336 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明(B ) 191若在步驟13〇2期間一有效之BTAC402命中發生, 則在步驟1304中,控制邏輯404會檢查圖四SBI454之圖七 CALL位元7〇4,以確定所快取之分支指令假想地或大概地 是否為一呼叫指令。若CALL位元704被設定,則在步驟1306 中’控制邏輯404控制假想呼叫/返回堆疊406,以將假想返 回位址491推入其中。也就是,該假定的呼叫指令之假想返 回位址491,其為圖四之提取位址495、beg 446與LEN 448 之總和’儲存於假想呼叫/返回堆疊406。假想返回位址491 之所以為假想的,乃因在命中BTAC 402之提取位址495所 關聯之指令i共取記憶體432快取線中,並不確定真有包含一 乎叫才曰令’更別說是BEG 446與LEN 448因之而被快取於 BTAC 402的呼叫指令了。假想返回位址491,或目標位址, 在下一次執行返回指令時,可由返回位址訊號353提供,以 便假想分支至此返回位址49卜就如下文關於步驟1312至 1318所述。 192若Call位元704被設定,則在步驟1308中,控制邏 輯404接著控制多工器422去選取圖三之BTAC 402目標位 址352 ’以傲想分支至目標位址352。 193若控制邏輯404在步驟1304確定CALL位元704未 被設定,則在步驟1312中,控制邏輯4〇4會檢查SBI 454之 圖七RET位元706,以確定所快取之分支指令假想地或大概 地是否為一返回指令。若RET位元700被設定,則在步驟 1314中,控制邏輯404控制假想呼叫/返回堆疊4〇6,以將圖 三之假想返回位址353從堆疊頂端取出。 Γ ^--------^---------線 (請先閱讀背面之注意事項再填寫本頁) 64 A7 B7 538336 五、發明說明U<) 副程式-般都從-些不同的程式位置來呼叫,返回指令因而 會返回至多4固不同的返回位址。 199現咕參知圖十四’係為說明圖四之分支預測裝置4⑻ 以非假想分支預測來選擇性地覆蓋(〇肅ide)假想分支預 測’藉以改進本發明之分支預測準確度之運作流程圖。在從 指令缓衝$ 342接收—指令後,在步驟魔巾,圖四之指令 解碼邏輯436便解碼該指令,圖四之非假想目標位址計算器 416、非假想呼叫/返回堆疊414以及非假想分支方向預測裝 置412則依圖四之指令解碼資訊492產生非假想分支預測。 指令解碼邏輯436在步驟1402中,產生該指令之類型資訊於 指令解碼資轩1492中。 200尤其,指令解碼邏輯436會確定該指令是否為分支 才曰々扣々之長度以及分支指令的類型。較佳者,指令解碼 邏輯436會4定分支指令是否為條件或無條件類型分支指 令、PC相關類型分支指令、返回指令、直接類型分支指令或 間接類型分支指令。 201若该指令為一分支指令,非假想分支方向預測裝置 412會產生圖四之非假想方向預測撕。此外,非假想目標位 址計算器416則計算圖三之非假想目標位址354。最後,若 该指令為一返回指令,則非假想呼叫/返回堆疊414產生圖三 之非假想返回位址355。 202在步騾1404中,控制邏輯404會確定分支指令是否 為條件分支}旨令。也就是’控制邏輯404會確定該指令是否 依靠一條件雨被採行或不被採行,該條件像是旗標(flag)位 66 本紙張尺度適用中國國豕標率(CNS)A4規格(210 X 297公髮) _ . 裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 538336 五 發明說明() 194在取出假想返回位址353後,則在步驟1316中,控 制邏輯接著控制多工器422去選取從假想呼叫/返回堆疊4〇6 取出之饭想返^回位址353,以假想分支至返回位址353。 195返回指令順著管線300而下,直至抵達圖三之卜階 段312,圖四之指令解碼邏輯436則解碼此假定之返回指令。 若此假定之返回指令的確是一返回指令,則圖四之非假想呼 叫/返回堆疊414產生此返回指令之圖三非假想返回位址 355。在步驟1318中,圖四之比較器418將假想返回位址353 與非假想返回位址355作比較,並將結果714送至控制邏輯 404。 196在步騾1318中,控制邏輯4〇4檢查比較器418的結 果474 ’以確定是否有不吻合發生。若假想返回位址353與 非假想返回位址355不相吻合,則在步驟丨326中,控制邏輯 404㈢4工制夕工器422選取非假想返回位址355,以使處理器 300分支至非假想返回位址355。 經濟部智慧財產局員工消費合作社印製 197若控制邏輯404於步驟13〇4中確定CALL位元7〇4 並未設定,i於步驟1312中確定仙了位元7〇6也未設定, 則在步驟1322中,控制邏輯4〇4會控制多工器422假想分支 至圖二之BTAC 402目標位址352,如圖八步驟814或834 所描述的。 Θ8因此,從圖十三可看出,圖四之雙重呼叫/返回堆疊 的運作可減少呼叫與返回指令的分支損失。這種分支損失的 減少,是藉甴將處理器300結合BTAC 402,使呼叫與返回 才曰令在官線更早期就進行分支,同時也克服以下現象:由於 :紙張尺度適用中國 65 X 297公釐) 538336 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明) 元是否設定’如零旗標(zeroflag)、進位旗標(carryflag) 等等。在x86指令集中,JCC指令是條件類型的分支指令。 相對地,REr、CALL與JUMP指令,則是無條件分支指令, 因為這些指令總會有一被採行的方向。 203若該指令為條件類型的分支指令,則在步驟1412 中,控制邏輯404會確定非假想分支方向預測裝置412所預 測之非假想方向預測444以及BTAC 402所預測SBI 454中 圖七之假想方向722兩者間,是否不相吻合。 204若有方向預測上的不吻合,則在步驟1414中,控制 邏輯404會確定非假想方向預測444是否要被採行。若非假 想方向預測444不被採行,則在步驟1414中,控制邏輯4〇4 會控制多工器422選取圖四之NSIP466,以分支至現行分支 指令後之指令。也就是,控制邏輯404選擇性地覆蓋假想的 BTAC 402方'向預測。假想方向預測722之所以被覆蓋,是 因非假想方向預測444 一般比較準確。 205若非假想方向預測444被採行,則在步驟1432中, 控制邏輯404會控制多工器422分支至非假想目標位址 354。同樣地,假想方向預測722之所以被覆蓋,是因非假想 方向預測444 一般比較準確。 206若控制邏輯404於步驟1412確定並無方向預測上之 不吻合,且已執行分支指令之假想分支(亦即,若SB位元 438被設定),則在步驟1428中,控制邏輯4〇4會確定假想 目標位址352與非假想目標位址354間是否不相吻合。若有 一條件類型分支之目標位址的不吻合,則在步驟1432中,控 - I ^--------^---------線 (請先閱讀背面之注意事項再填寫本頁) 67 538336 A7 B7 五、發明說明((^ ) 弗!邏輯1°4會控制多工11 422分支至非假想目標位址354。 假心目t位j:止預測352會被覆蓋,此因非假想目標位址酬 54般更為準確。若沒有—條件類型分支之目標位址的不 吻合,不會採取任何行動。也就是,允許進行假想分支, 並接叉錯誤更正的管制,如關於圖十部分所述。 曰207若在步驟14〇4中,控制邏輯4〇4確定該分支指令不 是^件類型白勺分支,則於步驟1406控制邏輯404會確定該分 支指令是否為返回指令。若該分支指令是返回指令,則在步 驟1418中,控制邏輯4〇4會確定假想呼叫/返回堆疊4〇6產 生之假想返回位址353與非假想呼叫/返回堆疊414產生之非 假想返回位址355兩者間,是否不相吻合。 2〇8若做想返回位址353與非假想返回位址355兩者不 2吻合,則在步驟1422中,控制邏輯4〇4會控制多工器幻2 为支至非假想返回位址355。也就是,控制邏輯4〇4選擇性 地覆蓋假想返回位址353。假想返回位址353之所以被覆蓋, ^因非假想返回位址355 —般比較準確。若沒有一直接類型 分支之目標位址的不吻合,則不會採取任何行動。也就是, =許進行假想分支,並接受錯誤更正的管制,如關於圖十部 刀所述。凊’主意步驟1418與1422分別對應到圖十三之步驟 1324 與 1326。 — 209若在步驟14〇6中,控制邏輯4〇4確定該分支指令不 是返回指令,則於步驟1408控制邏輯404會確定該分支^令 是否為pc相關類型的分支指令。在χ86指令集中,pc相^ 類型的分支栺令所指定之帶正負號之位移量會加上現行程^ 68 538336 A7 —-----___ 五、發明說明(⑸) 計數器之值,以計算目標位址。 210在另一具體實施例中,控制邏輯4〇4於步驟⑽也 會確定該分支指令是否為直接類型的分支指令。在χ86指令 集中,直接類型的分支指令於自身内即指定目標位址。直接 類型的^7支#曰令也被稱為立即類型(imme(jiatetype)的分支 指令,因為目標位址被指定於指令之立即襴位(immedmte field) 〇 211若該分支指令為PC相關類型的分支指令,則在步驟 1424中,控制j邏輯404會確定假想目標位址352與非假想目 標位址354間是否不相吻合。若有一 pc相關類型分支之目 標位址的不吻合’則在步驟1426中,控制邏輯4〇4會控制多 工器422—分支至非假想目標位址354。假想目標位址酬352 會被覆蓋’此因非假想目標位址預測354對pc相醜型的 分支而言-般更為準確。若沒有一 Pc相關類型分支之目標 位址的不吻合’則不會採取任何行動。也就是,允許進行假 想分支’並接叉錯誤更正的管制,如關於圖十部分所述。 m若在步驟觸中,控制邏輯侧確定該分支指令不 是PC相關類型的分支指令,則不會採取任何行動。也就是, 允許進行假想妓’並較錯誤更正的管制,如關於圖十部 分所述。在-具體實施例中,非假想目標位址計算器416在 F-階段312包含-相當小的分支目標緩衝器(b職h _ buffer ’ BTB) ’僅用來快取間接類型分支指令之分支目標位 址,如前面關於圖四部分所述。 213可以看出對間接類型的分支指令而言,搬 69 ----------------裝— (請先閱讀背面之注意事項再填寫本頁) 訂·· 線- 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS)A4規 297公釐) 538336 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明說明(q ) 之預測一般是比相當小之F-階段312 BTB更為準確。所以, 若確定該分支為一間接類型的分支指令,控制邏輯4〇4不會 覆蓋BTAC 402之假想預測。也就是,若一間接類型分支指 令之假想分支因圖八所述之BTAC 402命中而執行,則控制 邏輯404會籍由分支至間接類型的BTB目標位址,而不覆蓋 該假想分支。然而,即使在此間接類型的分支中,BTAC402 所產生之假目標位址352未被非假想目標位址354給覆 蓋,在管線300稍後仍會於假想目標位址352與圖三從S-階 段328接收之非假想目標位址356兩者間,做一目標位址的 比較,以執行圖十之步驟1036,偵測錯誤的假想分支。 214現請參照圖十五,其為依本發明繪示之用來置換圖 四BTAC 402中目標位址之裝置的方塊圖。為了簡明起見, 關於BTAC 402之多路關聯性的資訊,像是圖六之多路與路 多工器606,並未顯示。圖六BTAC 402之資料陣列612顯 示其包含了一選定之BTAC 402快取線,其中具有項目a 602A與項目B 602B,分別藉由圖六之訊號624與626送至 控制邏輯404。項目A 602A與項目B 602B各包含其相關之 圖七VALID 立元702。 215該選定之BTAC 402快取線亦包括一 A/B LRU( least recently used)位元1504,以指出項目A 602A與項目B 602B 兩者中,哪一個最近最不被使用到。在一具體實施例中,每 次一發生命中BTAC 402之一既定目標位址714,A/B LRU 位元1504就被更新,以指定發生命中項目的相對項目。也就 是,若控制邏輯404因項目A 602A發生命中而進行至圖八 70 --- (請先閱讀背面之注意事項再填寫本頁) ί 言 r ί 本紙張尺度適用中國國家標準(CNS)A4規格(210 χ 297公釐) 538336 經濟部智慧財產局員工消費合作社印製 A7 -------B7 _ 五、發明說明(/ ϋ) 之步驟812,則A/B LRU位元1504就被更新成顯示項目β 602Β。相反地,若控制邏輯404因項目Β 602Β發生命中而 進行至圖八之步驟832,則A/B LRU位元1504就被更新成 顯示項目A 602Α。A/B LRU位元1504也被送至控制邏輯 404。 216此置:換裝置也包含一多工器15〇6。多工器1506接收 圖四提取位址495與一更新指令指標(IP)作為輸入。多工 器1506依據控制邏輯404提供之讀/寫控制訊號1516來選取 其中一輸入。讀/寫控制訊號1516亦被送至BTAC 402。當讀 /寫控制訊號1516顯示為「讀」,則多工器15〇6選取提取位 址495,經由訊號1514送至BTAC 402,以讀取BTAC 402。 當讀/寫控制訊號1516顯示為「寫」,則多工器15〇6選取更 新IP 1512,經由訊號1514送至BTAC 402,以藉圖四訊號 442將一更新目標位址714與/或SBI454與/或A/B LRU位元 1504 寫入 BTAC 402。 217當一分支指令執行且被採行,該分支指令之目標位 址714以及相關聯之SBI454會被寫入,或快取於,一 btac 402項目602。也就是,用已執行之分支指令的新目標位址 714及相關聯之SBI454來更新BTAC 402。控制邏輯4〇4必 須決定在BTAC 402的哪一邊,a或B,來更新由更新ip 1512 選取之BTAC 402快取線與路。也就是,控制邏輯4〇4必須 決定是否要置換所選取之快取線與路的項目A 6〇2A或項目' B 602B。控帝ij邏輯404如下表一所示來決定置換哪一邊。 ----.---------裝 ------—訂------ (請先閱讀背面之注意事項再填寫本頁) 71 538336 A7
路日日說明ί /—h Valid A Valid B Replace 0 0 -LastWritten 0 1 A 1 0 B 1 1 LRU 表一 218表一為具有兩個輸入之真值表(truth taWe),兩個 輸入為項目A 602A之VALID位元702與項目B 602B之 VALID位元702。該真值表的輸出用以決定要置換btaC 402 的哪一邊。如表一所示,若A項目6〇2A無效且B項目6〇2b 有效,則控制邏輯404將A項目602A置換掉。若A項目 602A有效且B項目602B無效,則控制邏輯404將B項目 602B置換掉。若a項目602A與B項目602B皆有效,則 控制邏輯404將最近較少被使用之項目置換掉,而此項目是 由更新IP 1512所選取BTAC 402快取線與路中之a/B LRU 位元1504來指定。 219若A項目602A與B項目602B皆無效,則控制邏 輯404必須決定要置換哪一邊。一種解決方式是總是寫到某 一邊,如A。然而,這種解決方式會造成如下程式碼序列1 所示之問題。 0x00000010 JMP 0X00000014 0x00000014 ADD BX,1 72 本紙張尺沒迥用丫罔國豕標準(CNS)A4規格(21〇 x 297公釐) --------裝--- (請先閱讀背面之注音?事項再填寫本頁) 訂: -線· 經濟部智慧財產局員工消費合作社印製 538336 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明說明(9 0x00000016 CALL 0x12345678 程式碼序列1 220在程式碼序列1中,此三個指令都位在相同的指令 快取記憶體432之快取線内,因為其指令指標位址除了較低 的四個位址位元外餘皆相同;因此,JMP與CALL指令選取 相同的BTAC 402快取線與路。假設此範例中,當指令執行 時’由JMP與CALL指令所選取bTac 402快取線與路内之 A項目602A與B項目602B皆無效。使用「當兩個項目皆 無效時,總是更新A這一邊」的解決方式,jMP指令將見到 兩邊皆為無效,且將更新A項目602A。 221然而,由於在程式序列中CALL指令相當接近JMp 指令,若管象相當長,如處理器300,則在A項目6〇2A的 VALID位元702被更新前,有相當多數量之週期可能會通 過。因此,在BTAC402被已執行的JMP指令更新前,特別 疋在A項目602A的VALID位元702與所選取BTAC 402 快取線之BTAC 402路置換狀態被jjyjp指令更新之前,^all 指令非常有可能會選取BTAC 402。所以,CALL指令將見到 兩邊s為無政,而且也將依r當兩個項目皆無效時,總是更 新A這一邊」的解決方式,來更新A項目602A。這樣做是 有問題的,因為JMP指令之目標位址714將由於一空的亦即 無效的B項目602B可用來快取CALL指令之目標位址714 而不必要地被取代。 222為解決如表一所示的問題,若a項目6〇2八與]8項 • * 裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 73 538336 A7 B7 五、發明說明(?少) 目602B皆無效,則控制邏輯4〇4會有利地選取存於一全域 置換狀態旗標暫存器LastWritten 1502之一邊或其相反邊。 LastWritten暫存器1502包含於置換裝置,並由其來更新。
LastWritten暂存器丨皿儲存一指示,其顯示bTAC 402的A 邊或B邊是否為最後被寫到一無效的BTAc 402項目602。 有利地’此方法使用LastWritten暫存器1502以避免前面程 式碼序列1所示之問題,如現在關於圖十六與十七部分所要 敘述的。 223現清參照圖十六,其係依本發明繪示圖十五裝置之 一運作方法的流程圖。圖十六闡明了上述表一之一具體實施 例。 224當控制邏輯404需要去更新BTAC 402之項目602 時,控制邏輯404會分別檢查所選取之a項目602A與B項 目602B之VALID位元702。在步驟1602中,控制邏輯404 會確定是否A項目602A與B項目602B兩者皆為有效。若 兩個項目皆有效,則在步驟1604中,控制邏輯404會檢查 A/BLRU位元1504以確定A項目602A或B項目602B為 最近最少被使用者。若A項目602A為最近最少被使用者, 則控制邏輯404於步驟1606將A項目602A置換掉。若b 項目602B為最近最少被使用者,則控制邏輯4〇4於步驟 1608將B項目602B置換掉。 225若控制邏輯404於步驟1602中確定並非兩個項目都 無效,則在步驟1612中,控制邏輯404會確定是否為A項 目602A有效而B項目602B無效。若是,則控制邏輯4〇4 74 本紙張尺度中國國家標準(CNS)A4規格(210 X 297公f ) r 裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 選 經濟部智慧財產局員工消費合作社印製 A 十 538336 五、發明說明( 於步驟1614渐B項目602B置換掉。不然,在步驟1622中, 控制邏輯4Q4會確定衫為A項目6Q2A無效而B項目 602B有效。若是,則控制邏輯4〇4於步娜24將八項目6〇2八 置換掉。否貝1卜在步驟1632中,控制邏輯4〇4會檢查
LastWritten 暫存器 1502。 226 若 LastWritten 暫存器 i5〇2 顯示 bTac 402 之 A 邊 並非最後被寫到一選定之快取線與路中,而在此選定之快取 線與路中A項目602^b項目咖皆為無效,則控制邏 輯:〇4於步驟1634將A項目6〇2八置換掉。控制邏輯彻 接著於步驟I636更新LastWritten暫存器i5〇2,以指定BTAC =2之A邊為最後被寫到—選定快取線與路之邊,而在此選 定之快取線與路中A項目602A與B項目602B皆為無效。 、=7若LastWritten暫存器1502顯示bTAC 402之b邊 並非最後被寫到一選定之快取線與路中,而在此選定之快取 線與路中A項目602A與B項目602B皆為無效,則控制邏 輯404於步驟聰將B項目6〇2B置換掉。控制邏輯姻 接著於步驟1646更新LastWritten暫存器1502,以指定btac 4〇2之B邊為最後被寫套卜選定快取線與路之邊,而在此] 定之快取線與路中A項目602A與B項目6_皆為無效 228可以看出,圖十六的方法可避免在上述程式碼序列 中,以CALL指令的目標位址覆寫掉JMp指令的目標位址 飯a又當JMP指令執行時,LastWritten暫存器1502指定了 邊。既然B邊並不是最後被寫的,控制邏輯404將依據圖丁 六與表-來更新B項目6〇2B。此外,控制邏輯姻將更新 75 —----------裝--------訂---------線 (請先閱讀背面之注咅?事項再填寫本頁} ^紙張尺度適用令國國家標準(CNS)A4規格 (210 X 297 公釐) 經濟部智慧財產局員工消費合作社印製 538336
五、發明說明()y)
LastWritten暫存器1502以指定b邊。因此,當call^a 執行時,控帝,J邏輯404將依據圖十六更新A二6〇2a二 因當職402被選取時’兩個項目皆無效,且 暫存益1502翻了 A邊並不是最後被寫到。因此,有利地, JMP與CAUL指令兩者的目標位址將快取於Btac *犯,供 後續的假想分支使用。 ’、 229現請參照圖十七,其係依本發明之另一具體實施例 緣示圖十五裝置之一運作方法的流程圖。圖十七之步驟除了 兩個額外步驟外,其餘皆與圖十六之步驟相同。在此另一具 體實^例中’控制邏輯404在置換一無效的項目後,會更新 LastWritten暂存器1502,即使另一項目為有效的。 230因此^ ’在圖十七,於步驟1614置換了 b項目602B 後,在步驟1716中,控制邏輯404將更新LastWritten暫存 器1502以指定B邊。此外,於步驟1624置換了 A項目602A 後,在步驟1726中,控制邏輯404將更新LastWritten暫存 裔1502以指定A邊。 231雖然實際的模擬並未看到圖十六與十七的實施例在 效能上有顯著差別,但可看出圖十六實施例解決了圖十七實 例所無法處理的一個問題。此問題以下述程式碼序列2來 解說。 0x00000010 JMP 0x12345678 0x12345678 JMP 0x00000014 0x00000014 JMP 0x20000000 76 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) •--------------裝-------訂---------線 (請先閱讀背面之注咅?事項再填寫本頁) 538336
五、發明說明(7() 程式碼序列2 232位於指令指標Οχοοοοοοιο與0χ〇〇〇〇〇〇14的兩個 JMP指令都在同一條指令快取記憶體432快取線中,並選取 BTAC 402内相同之快取線。位於指令指標〇χ12345678的 JMP指令則在另一條指令快取記憶體432快取線中,並選取 BTAC 402内另一條不同之快取線。當jmp 〇x12345678指令 執行時,假設有下列情況存在。LastWritten暫存器1502指定 了 B 邊。由 JMP 0x12345678 指令與 JMP 0x20000000 指令之 4曰令心標所選取BTAC 402快取線與路中的a項目602A與 B項目602B兩者皆為無效。由JMP Οχ〇〇〇〇〇〇ΐ4指令之指令 指標所選取的BTAC 402快取線與路則顯示a項目602A有 效而B項目602B無效。假設在JMP 0x12345678指令更新 BTAC 402 前,執行 JMP 〇χ2〇〇〇〇〇〇〇 指令。因此,JMp 0x12345678與JMP 0x20000000指令之指令指標在相同 BTAC 402快取線中選取相同的路。 經濟部智慧財產局員工消費合作社印製 233依據圖十六與十七,當jmp 〇xi2345678執行時,控 制邏輯404將於步驟1634以JMP 0x12345678之目標位址來 置換A項目602A,並在步驟1636更新LastWritten暫存器 1502以指定A邊。依據圖十六與十七,當JMP 〇χ〇〇〇〇〇〇14 執行時,控钊邏輯404將於步驟1614以JMP 0x00000014之 目標位址來置換B項目602B。依據圖十七,控制邏輯404 將於步驟1716更新LastWritten暫存器1502以指定B邊。然 而,依據圖十六,控制邏輯404將不會更新LastWritten暫存 77 538336 A7 B7 五、發明說明(/7) 器1502;而是,LastWritten暫存器1502將繼續指定A邊。 因此,當JMP 0x00000020執行時,依據圖十七,控制邏輯 404將於步驟1634以JMP Οχ〇〇〇〇〇〇2〇之目標位址來置換a 項目 602A,藉以 needlessly clobbering JMP 0x12345678 之目 標位址。相瓦地,依據圖十六,當JMP 〇χ〇〇〇〇〇〇2〇執行時, 控制邏輯404將於步驟1644置換B項目602B,藉以有利地 使A項目602A中JMP 0x12345678之目標位址保持不變。 234現請參照圖十八,其係依本發明之另一具體實施例 繪示之用以進行圖四BTAC 402中目標位址置換動作之裝置 方塊圖。圖十八之實施例類似於圖十五之實施例。然而,在 圖十八之實施例中,A/B LRU位元丨5〇4與兩個項目之Τ/Ντ 位元722,顯示為τ/ΝΤ A 722A與T/NT B 722B,儲存於一 另外的陣列1812,而非資料陣列612。 235此額外的陣列1812是雙埠的;而資料陣列612卻是 單埠。因為A/B LRU位元1504與T/N丁位元722比起項目 6〇2之其它爛位更常被更新,對較常被更新的攔位提供雙埠 1存取’可減低在高存取量期間於BTAC 402形成瓶頭的可 能性。然而,由於雙埠的快取記憶體陣列比單埠的快取記憶 體陣列來得大’且消耗更多功率,較少被存取的攔位就儲存 在早璋的資料*卩車列612。 一 236現諳參照圖十九,其係依本發明之另—具體實施例 繪示之用以進行圖四BTAC 402中目標位址置換動作之裝置 方塊圖。圖十九之實施例類似於圖十五之實施例。然而,"圖 十九之實施炉J中,每一 BTAC 402快取線與路皆包含一第: 78 , ^ ^---------^ (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適财嶋鮮(—A4規格⑽x297公釐 538336 538336 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(‘Π) 項目,項目C 602C。項目C 602C藉訊號1928送至控制邏輯 404。有利地,圖十九之實施例支援假想分支至三個分支指令 中任一個的f岂力,而此三個分支指令快取由提取位址495戶1 選取之一對應的指令快取記憶體432快取線中;或者,在一 實施例中,支援假想分支至快取於一對應之指令快取記憶體 432半快取、象之三個分支指令中的任一個。 237除企匕之外’圖十九之實施例不使用LastWritten暫存 器1502,取雨代之的是一暫存器1902,其包含一 LastWritten 值與一 LastWrittenPrev值。當LastWritten值要更新時,控制 邏輯404在更新LastWritten值之前,便將LastWritten值的内 容複製到 LastWrittenPrev 值。LastWritten 值與 LastWrittenPrev 值這兩個值一起使得控制邏輯404得以確定三個項目中哪一 個是最近最少被寫到的,如現在於表二及其後之等式所描述 的0
Valid A Valid B Valid C Replace 0 0 0 LRW 0 0 1 LRWofAandB 0 1 0 LRWofAandC 0 1 1 A 1 0 0 LRWofBandC 1 0 1 B 1 1 0 C 1 1 1 LRU 79 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ^ —II--裝 - ----— 訂---I---— 線 (請先閱讀背面之注意事項再填寫本頁) 538336 經濟部智慧財產局員工消費合作社印製 A7 B7___ 五、發明說明(巧) 表二 LRW = AOlderThanB ? LRWofAandC : LRWofBandC LRWofAandB = AOlderThanB ? A : B LRWofAandC = AOlderThanC ? A : C LRWofBandC = BOlderThanC ? B : C AOlderThanB = (lw=B) I ((lwp==B & (lw!=A)) BOlderThanC = (lw==C) | ((lwp=:=C & (lw!=B)) AOlderTlianC = (lw==C) I ((lwp==C & (lw!=A)) 238表二類似於表一,除了表二有三個輸入,包括項目c 702C之附加的VALID位元702。在等式中,「lw」對應至 LastWritten 惶,「lwp」LastWrittenPrev 值。在一具體實施例 中,’、有¥所有二個項目皆為無效時,才更新LastWritten與 LastWrittenPrev的值,類似於圖十六的方法。在另一具體實 施例中,任何時候控制邏輯404更新了一無效的項目, LastWritten與LastWrittenPrev的值就會更新,類似於圖十七 的方法。 239雖然本發明及其目的、特徵與優點已詳細敘述了, 其它具體實施例仍涵蓋在本發明之範圍内。例如,BTAC可 用任何數量之快取記憶體來配置,包括直接映射 (direct mapped )、完全關聯(舰y咖〇恤細)或不同婁文目 =路快取記憶、體。再者,BTAC的大小可增或減。而且,一 提取位址’而不是位於實際包含被顆分支之快取線的 ^ I I --------^----II---^ (請先閱讀背面之注意事項再填寫本頁) 80 538336 A7 B7 五、發明說明(P) 提取位址,可用來檢索BTAC與分支經歷表。例如,先前提 取指令之提取位址可用來在分支前減低指令泡沫的大小。此 外,儲存於,供取記憶體之每一路的目標位址數量可能改變。 另外,分支經歷表的大小可能改變,且存於其中之位元的數 目與方向預湏彳資訊的形式,以及檢索分支經歷表的演算法 (algorithm)也可能改變。再者,指令快取記憶體的大:可 能改變,且用以檢索指令快取記憶體與BTAC之虛擬提取位 址的類型也可能改變。 總之,以上所述者,僅為本發明之較佳實施例而已,當 不能以之限定本發明所實施之範圍。大凡依本發明申請專利 範圍所作之均等變化與修飾,皆應仍屬於本發明專利涵蓋之 範圍内,謹請貴審查委員明鑑,並祈惠准,是所至禱。 1 裳--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製

Claims (1)

  1. 538336
    經濟部智慧財產局員工消費合作社印製 •種用於一微處理器中之裝置,用以偵測該微處理器是否 錯垮地分支至由一分支目標位址快取記憶體(BTAC)所 提供之一>^艾想目標位址,該裝置包含: 一儲存元件,儲存一指示,以指出該微處理器在不知關 聯於該指示之一指令是否為分支指令的情況下,是否 分支至該BTAC提供之假想目標位址; 一指令解碼邏輯,組態為在微處理器分支至該假想目標 位址後接收並解碼該指令;以及 丁 一預測檢查邏輯,耦接至該指令解碼邏輯,用以告知分 支控卸j邏輯,若該指令解碼邏輯指出該指令不是分支 才曰令且孩指示顯示微處理器已分支至假想目標位 址,則微處理器係錯誤地分支至假想目標位址。 2·如申請專淨〗範圍第1項所述之裝置,其中該儲存元件位於 一指令緩衝器中,該指令緩衝器儲存複數個指令,其中包 含該指令。 3·如申請專利範圍第1項所述之裝置,其中該指示指出微處 理器在不碑定指令解碼邏輯所解碼之該指令是否相同於 BTAC為其快取該假想目標位址之一指令的情況下,分支 至快取於BTAC之該假想目標位址。 4·如申請專利範圍第1項所述之裝置,其中該指示指出微處 理器已因應、一選取一指令快取記憶體之一指令快取線的 提取位址,分支至BTAC所提供之該假想目標位址。 5·如申請專利範圍第4項所述之裝置,其中該指示指出微處 國家標辱(CNS)A4 規格(210 X ^--------^---------^ (請先閱讀背面之注意事項再填寫本頁) 538336 經濟部智慧財產局員工消費合作社印$ A8 § ------— —____D8 ___' 、申睛專利範圍 理器已因應該提取位址,在不確定一先前執行的指今是否 存在於該拍令快取線的情況下,分支至該假想目標位址, 其中BTAC為該先前執行的指令而快取該目標位址。 6·如申請專利範圍第1項所述之裝置,其中該指令解碼邏輯 被組恶為確定該指令之一第一指令長度。 7.如申請專利範圍第6項所述之裝置,其中該預測檢查邏輯 被組恶為告知該分支控制邏輯,若該第一指令長度與從 BTAC接屯c其所快取之一第二指令長度不相吻合,則微處 理器已錯誃地分支至假想目標位址。 8·如申請專矛】範圍第1項所述之裝置,其中該預測檢查邏輯 被組態為告知該分支控制邏輯,若該指示關聯於該指令之 一位元組,而該微處理器之一指令集未將該位元板定義為 一有效的運算碼位元組,則微處理器已錯誤地分支至假想 目標位址。 9·如申請專利範圍第8項所述之裝置,其中該微處理器指令 集是一 x86架構的指令集。 1〇·如申請專禾j範圍第1項所述之裝置,其中該裝置更包含: 位址產生邏輯,耦接至該指令解碼邏輯,用以產生該指 令之一正確目標位址;以及 一比較器,耦接至該位址產生邏輯,比較BTAC所提供 之假想目標位址與該指令之該正確目標位址,以及依 據該t匕較提供一不吻合指示(加灿故也indicator)至 該預測檢查邏輯。 11·如申請專矛彳範圍第10項所述之裝置,其中該預測檢查邏 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公餐) •---^----------裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) ^38336 申請專利範圍 ^皮組態為告知齡支控觸輯,若財吻 想目標位赳與該指令之該正確目標位址不相;^員不假 理器已錯誤地分恤想目細位址不相吻合,則微處 以如申請專利範圍第!項所述之裝置,其中 一執行邏輯(execution 1〇gic) 接 ^. 令之-正確方=::: 至該預測檢查邏輯。 伟万向 13 範圍第12項所述之袭置,其中該預測檢查邏 輯被、、且恶為告知該分支控制邏輯,若該正確方向指明該指 令不被採行,則微處理器已錯誤地分支至假想目標位二。 14· -種用於一微處理器中之裝置,用以侧該微處理器是否 錯誤地假想分支至由一分支目標位址快取記憶體 (BTAC)所提供之一目標位址,該裝置包含·· 一儲存元件,儲存—指示,以指出該微處理器是否在未 先確定是否有一分支指令存在於一指令快取記憶體 内提取位址所選取之一指令位元組線中的情況 經濟部智慧財產局員工消費合作社印製 下,基於該提取位址而假想分支至btac提供之目標 位址; 一指令解碼邏輯,組態為在微處理器假想分支至該目標 位址後’接收並解碼該指令位元組線中之指令位元 組’該指令解碼邏輯更組態為指出該指令位元組線是 否包含一分支指令;以及 一預測檢查邏輯,耦接至該指令解碼邏輯,若該指示顯 84 538336 六、申請專利範圍 雜處理器已假想分支至該目標位址,且指令解瑪邏 輯指出雜令位元崎不包含分支指令,醜預測檢 查邏輯提供一錯誤訊號至分支控制邏輯。 15·如申請專稍|圍第14項所述之農置,其中該目標位址是 由微處理ϋ中-假想呼叫/返回堆疊而非假想阶从,因 應-快取游BTAC之指示所提供,該指示指出該指令位 元組線包含一返回指令。 I6.種微處,用以偵測及更正一錯誤的假想分支,該微 處理器包令: 一指令供:取記憶體,提供一提取位址選取之一指令位元 組線,該提取位址被送至一位址匯流排上之該指令快 取記憶體; 訂 —分支目標位址快取記憶體(BTAC),_至該位址匯 流排,因應該提取位址而提供一先前執行的分支指令 線 之但1想目標位址,不論該先前執行的分支指令是否 存在於該指令位元組線中; —控制邏輯,耦接至BTAC,組態為控制一多工器以在 一第一週期選取該假想目標位址作為該提取位址; 以及 一預測檢查邏輯,耦接至]BTAC,組態為偵測該控制邏 輯是否控制該多工器錯誤地選取了該假想目標位 址; 其中該控制邏輯更組態為控制該多工器以在一第二週期 選取一正確位址作為該提取位址,以回應該預測檢查 本紙張尺度適用中國國家標準 85 (CNS)A4 規格(210 X 297 公釐)
    六、申請專利範圍 經濟部智慧財產局員工消費合作社印製 本紙張尺 邏輯Y貞測到該錯誤的選取。 ^專利範圍第16工員所述之微處理器,其中該第二週 期在該第一週期之後。 18·如申請專利範圍第16項所述之微處理器,更包含: 一指令解碼為接收及解指令位元組線中 之複數谢日令位元組,並向該細彳檢查邏輯指明是否 有一分支指令存在於該複數個指令位元組中。 I9·如申请專利範圍第ls項所述之微處理器,其中該預測檢 查f輯對控制邏輯是否控制該多工器錯誤地選取該假想 目標位址之偵測包含該預測檢查邏輯確定一分支指令不 存在於該複數個指令位元組中。 2〇·如申請專利範圍第16項所述之微處理器,更包含: 一分支目標位址產生邏輯,組態為接魏指令位元組 線,並產生包含於該指令位元組線之一指令之一指令 指標; 其中該正確位址包含該指令之該指令指標。 21·如申請專利範圍第20項所述之微處理器,其中該指令包 含於该指令位元組線,並位於該指令位元組線中之該先前 執行的分支指令之一位置。 22. 如申請專利範圍第21項所述之微處理器,其中該位置被 快取於BTAC中。 23. 如申請專利範圍第16項所述之微處理器,更包含: 一分支目標位址產生邏輯,組態為接收該指令位元組 線,並依據包含於該指令位元組線之一分支指令的執 86 虞適用中國國家標準(CNS)A4規格(210 X 297公釐) .----------裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 现336 A8 B8 C8 D8
    申請專利範圍 行,產生包含於該指令位元組線之該分支指令之一正 確分支目標位址; 其中該五確位址包含該正確分支目標位址。 24. 如申請專彳範圍第23項所述之微處理器,其中該預測檢 查邏輯對控制邏輯是否控制該多工器錯誤地選取該假想 目標位址之偵測包含該預測檢查邏輯確定該正確分支目 標位址與該假想目標位址不相吻合。 25. 如申請專範圍第23項所述之微處理器,其中該分支指 令包含於該指令位元組線,並位於該指令位元組線中之該 先如執行的分支指令之一位置。 26·如申請專彳彳範圍第25項所述之微處理器,其中該位置被 快取於BTAC中。 27·如申凊專利範圍第16項所述之微處理器,更包含: 執行遷輯’組恶為接收該指令位元組線,並產生包含 於该指令位元組線之一分支指令之一正確方向,該正 確方向基於包含於該指令位元組線之該分支指令的 執行而產生。 28·如申請專彳彳範圍第27項所述之微處理器,其中該預測檢 查邏輯對控制邏輯是否控制該多工器錯誤地選取該假想 目標位址之偵測包含該預測檢查邏輯確定該正確方向指 明包含於該指令位元組線之該分支指令不被採行。 29·如申凊專彳彳範圍第27項所述之微處理器,其中該分支指 令^含於該指令位元組線,並位於該指令位元組線中之該 先前執行的分支指令之一位置。 -Ϊ---^------------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製
    538336 C8 -------— D8______ 六、申請專利範圍 30_如申凊專寿彳範圍第29項所述之微處理器,其中該位置被 快取於BTAC中。 31.如申请專彳範圍第16項所述之微處理器,更包含·· 一分支目標位址產生邏輯,組態為接收該指令位元級 線,並產生包含於該指令位元組線之一指令之下個指 令之一指令指標,該指令位於該指令位元組線中之該 先前執行的分支指令之一位置; 其中該正確位址包含該指令之下個指令之該指令指標。 32·如申請專斧J範圍第31項所述之微處理器,其中該位置被 快取於BTAC中。 33.如申請專利範圍第16項所述之微處理器,更包含: 一指令解碼邏輯,組態為接收及解瑪該指令位元組線, 並指定包含於該指令位元組線之一指令之一長度,該 指令位於該指令位元組線中之該先前執行的分支指 令之一位置。 34·如申請專利範圍第33項所述之微處理器,其中該預測檢 查邏輯對控制邏輯是否控制該多工器錯誤地選取該假想 目標位址之偵測包含該預測檢查邏輯確定該指令之該長 度與為該先前執行的分支指令而快取於該假想BTAC之 一指令長度不相吻合。 35·如申請專利範圍第34項所述之微處理器,更包含: 一分支目標位址產生邏輯,組態為接收該指令’並產生 該指令之一指令指標; 其中該正確位址包含該指令之該指令指標。 88 ΐ紙張尺5¾用中國國家標準(CNS)A4規格(21〇 x 297公釐) - ^^' ---------------Μ . ! A請先閱讀背面之注意事項再填寫本頁) 幻- 經濟部智慧財產局員工消費合作社印製 538336 六、申請專利範圍 36. 如申請專利範圍第16項所述之微處理器,更包含: 一指令解碼邏輯,組態為接收及解碼該指令,並指明包 含該#旨令之複數個位元組中的哪一個為一運算碼位 元組。 37. 如申請專奇j範圍第36項所述之微處理器’其中該預測檢 查邏輯對控制邏輯是否控制該多工器錯誤地選取該假想 目標位址之偵測包含: 該預測檢查邏輯確定控制邏輯是基於該指令之一位元組 而非指令解碼邏輯所指明之該運算碼位元組,而控制 該多工器選取該假想目標位址。 38. 如申請專利範圍第16項所述之微處理器,更包含·· 訂 一分支目標位址產生邏輯,組態為接收該指令位元組 線,並產生包含於該指令位元組線之一指令之一指令 指標,該指令位於該指令位元、组線中之該先前執行的 分支指令之一位置; 線 其中該正確位址包含該指令之該指令指標。 39·如申凊專利範圍第16項所述之微處理器,其中該假扠 BTAC快取該假想目標位址之一項目(咖^)被無效化, 以回應預測檢查邏輯偵測到該錯誤的選取。 40·如申請專利範圍第16項所述之微處理器,其中該假想 BTAC广-關聯於該先前執行的分支指令之方向預^ 更新’该假想BTAC係回應預測檢查邏輯偵測到控制邏 輯控制该多H錯誤地選取該假想目標位址而進行更新。 41·如申明專利範圍第16項所述之微處理器,其中該假想目 I______ 89 本紙張尺錢财關緒 六、申請專利範圍 ,位址係回應預測檢查邏輯偵測到控制邏輯控制該多工 器錯誤地選取該假想目標位址而在該假想 BTAC中被更 新。 42. 如申清專坪範圍第16項所述之微處理器,其中該預測檢 查邏輯包含一錯誤輸出(err〇r〇utput),耦接至控制邏輯, 用以告知控制邏輯,該預測檢查邏輯已偵測到控制邏輯控 制该多工器錯誤地選取該假想目標位址。 43. 如申請專矛〗範圍第16項所述之微處理器 ,其中該德:處理 器之複數4固管線階段被清空,以回應預測檢查邏輯偵測到 控制邏輯控制該多工器錯誤地選取該假想目標位址。 44·如申請專利範圍第16項所述之微處理器,更包含: 一指令緩衝器,耦接至該指令快取記憶體,用以緩衝該 指令位元組線; 其中该才旨令緩衝器因應預測檢查邏輯偵測到控制邏輯控 制0亥多工器錯誤地選取該假想目標位址而被清空。 45·如申請專利範圍第16項所述之微處理器,其中該假想 BTAC與該指令快取記憶體實質上被並行存取。 經濟部智慧財產局員工消費合作社印製 46.—種用以妆錯誤地分* 5 一假想目標位址的情況回復之 方法,包含: 為一分支指令產生一假想目標位址,該分支指令被假定 存在於一提取位址所選取之一指令快取線中; 分支至该假想目標位址,不論該假定之分支指令是否存 在於該指令快取線中; 在產生该假想目標位址後,產生該假定的分支指令之一 90 ^38336 經濟部智慧財產局員工消費合作社印製 申請專利範圍 正確目標位址; 確定該假想目標位址是否吻合該正確目標位址;以及 右假想目標位址不吻合該正確目標位址,則分支至該正 確目彳票位址。 47.如申請專利範圍第46項所述之方法,更包含: 在該確定動作之前,儲存—指示,以指出該分支至假想 目標位址的動作是否發生;以及 只有在該指示指出該分支至假想目標位址的動作發生 時,才進行該分支至該正確目標位址的動作。 48·如申請專利範圍第*項所述之方法,其中該產生正確目 標位址的動作包含使用假定的分支指令之複數個指令位 元組來計真該正確目標位址。 49.如申明專利乾圍第46項所述之方法,更包含: 若該假想目標位址不吻合該正確目標位址,則以該正確 目標位址更新一分支目標位址快取記憶體中之一包 含該彳段想目標位址之項目。 種用以從錯誤地分支至一分支指令之一假想目標位址 的情況回復之方法,該分支指令被假定存在於一指令快取 線中,該指令快取線由一指令快取記憶體回應一提取位址 而&供’該假想目標位址由一分支目標位址快取記憶體 (BTAC)回應該提取位址而假想地產生,該方法包括: 在BTAC假想地產生該假想目標位址後,解碼該假定之 分支指令; 因應該解碼動作,確定該假定之分支指令是否為一非分 50 91 Μ氏張尺度適用中國國家標準(CNS)A4規格⑽χ 297公髮)
    ----.----------裝|! (請先閱讀背面之注意事項再填寫本頁) 訂: --線.
    申請專利範圍 支指令;以及 經濟部智慧財產局員工消費合作社印製 若該假定之分支指令為一非分支指令,貝IJ分支至該假定 的分支指令之一指令指標。 51.如申請專奇〗範圍第5〇項所述之方法,更包含: 因應該解碼動作,計算該假定的分支指令之該指令指 2·如申請專淨】範圍第50項所述之方法,更包含: 若該假定之分支指令為一非分支指令,則使Btac中一 包3 4作又想目標位址之項目無效。 53. 如申請專利範圍第52項所述之方法,其中使該項目無效 的動作先於該分支至該指令指標的動作而執行。 54. -種用以從錯誤地分支至一假想目標位址的情況回復之 方法,該f灵想目標位址關聯於假定存在於一提取位址所選 取一快取'線中之一分支指令,該假想目標位址由一分支目 標位址快取記憶體(BTAC)回應該提取位址而提供,該 方法包括: 在BTAC提供該假想目標位址後,解碼該假定之分支指 令; 確定該假^定的分支指令之一長度;以及 右假疋的刀支指令之该長度與分支目標位址快取記憶體 所假想提供之一指令長度不相吻合,則分支至該假定 的分支指令之一指令指標。 55·如申請專利範圍第54項所述之方法,更包含: 若假定的分支指令之該長度與分支目標位址快取記憶體 所假想提供之該指令長度不相吻合,則使BTAC中一 92 適用中國國家標準(CNS)A4規格(21〇 X 297公釐 裝--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 六 申請專利範圍 包含該假想目標位址之項目無效。 於如申請專矛j範圍第%項所述之方法,其 的動作先補分支至該指令減的動作而執彳^。、無致 ·===錯誤地分支至一假想目標位址的情㈣〜 產t一分支指令之—假想目標位址,該分支指令被假〜 存在於一提取位址所選取一指令快取線中; 又 產生該作足定的分支指令之一假想方向預測; 分支至該假想目標位址,不論該假定的分支指令3 在於該指令快取線中; 飞疋存 在產生㊂贫假想方向預測後,產生該假定的分支指令之一 正確方向; ^ 確定該正確方向是否不被採行;以及 若該正確;r向不縣行,則妓至做的分支指令之下 個指令之一指令指標。 58.如申請專琍範圍第57項所述之方法,更包含: 若該正確$向不娜行,胸麟正確純而更新一分 支目標位址快取記憶體中之該假想方向預測。 59· -種用於—微處理器中之裝置,用以細是否錯誤地分支 至一假想呼叫/返回堆疊所提供之一假想返回位址,該裝 置包含·· 一儲存元件,儲存一指示,以指出該微處理器是否在不 知關聯於該指示之一指令是否為分支指令的情況 下,分支至該假想返回位址; 93 ----裝--- Γ%先閱讀背面之注意事項再填寫本頁) a叮· •線· 經濟部智慧財產局員工消費合作社印製 Μ 538336 A8 B8 C8 D8 六 經濟部智慧財產局員工消費合作社印製 申請專利範圍 -指令觫踢邏輯’組態為在微處理器分支至該假想返回 位址後接收並解碼該指令;一預測检查邏輯,耦接至該指令解碼邏輯,用以告知分支控帝U邏輯,若指令解碼邏輯指出該指令不是:支二 令且該指示顯示微處理器分支至假想返回位址,則^ 處理器已錯誤地分支至假想返回位址。60·—種微處理器,用以偵測及更正一錯誤的假相分支,勺 含: 。匕一指令快取記憶體,提供一提取位址所選取之一指令位 元組線; 1 -假想呼叫/返回堆疊’因應該提取位址而提供一先前執 行的分支指令之-假想返回位址,不論該先前執行的 分支}旨令是否存在於該指令位元組線中; -控制邏輯。,_至該假想呼叫/返回堆疊,組態為控制 -多工器在-第-週期選取該假想返回位址作 取位址;以及 -預測檢查邏輯’墟控觸輯,用以偵測控制邏 輯是否控制該多工器錯誤地選取了該假想返回位 址; 其中該控制邏輯更組態為控制該多工器 乐一週期選 取-正確位址作為提取位址,控制邏輯選取該正確位 址’以回應預測檢查邏輯細到控制邏輯控制該夕工 器錯誤地選取了該假想返回位址。 ^夕 侧於一微處理器中之方法,用以從錯誤地分支至一 61 假 W---.----------裝--------訂---------線 f請先閱讀背面之注意事項再填寫本頁} 94 本紙張尺度適用中國國豕標準^ (CNS)A4規格(21〇 X 297公复) 經濟部智慧財產局員工消費合作社印製 538336 C8 ---------D8________ 、申請專利範圍 疋分支指令之一假想目標位址的情況回復,該方法包含·· 因應一指令快取記憶體之提取位址而提供一假想目襟位 址; ^ 因應該指令快取記憶體之提取位址而產生一指令快取 線; 在提供該假想目標位址後從該指令快取線解碼一指令; 其中該微:處理器為第一次執行該指令的解碼; 在該解石焉動作前分支至該假想目標位址;以及 在该分支至假想目標位址之動作後,回應該解碼動作分 支至邊指令之一正確的目標位址。 62· —種用以從錯誤地分支至一假想目標位址的情況回復之 方法,包+ : 提供一命支指令之一假想目標位址,該分支指令被假定 存在於一提取位址所選取一指令快取線中; 刀支至该假想目標位址,不論該假定的分支指令是否存 在於該指令快取線中;以及 若該假定的分支指令不存在於該指令快取線中,則更正 一錯5吳的分支。 63· —種用於一微處理器中之分支裝置,用以偵測該微處理器 何時錯誤地分支至-假想目標位址,該假想目標位址由一 分支目標位址快取記憶體(BTAC)所提供,該裝置包含: 一分支命中指示,用以指出該微處理器何時分支至該假 想目標位址’不論關聯於該分支命中指示之—指令是 否為分支指令,皆提供該分支命中指示; ^--------------裝--------訂----------線 (請先閱讀背面之注意事項再填寫本頁) 95
    538336 A8 B8 C8 D8 六、申請專利範圍 一指令勝碼邏輯,組態為接收及解碼該指令,並指出該 指令是否為分支指令; 一預測檢查邏輯,耦接至該指令解碼邏輯,用以確定該 微處理器錯誤地分支至該假想目標位址; 其中當指令解碼邏輯指出該指令不是分支指令,以及該 分支命中指示顯示該微處理器分支至該假想目標位 址時,該微理器即為錯誤地分支至該假想目標位址。 I--------------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印制农 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
TW090132654A 2001-05-04 2001-12-28 Apparatus, system and method for detecting and correcting erroneous speculative branch target address cache branches TW538336B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/849,658 US7134005B2 (en) 2001-05-04 2001-05-04 Microprocessor that detects erroneous speculative prediction of branch instruction opcode byte

Publications (1)

Publication Number Publication Date
TW538336B true TW538336B (en) 2003-06-21

Family

ID=25306219

Family Applications (1)

Application Number Title Priority Date Filing Date
TW090132654A TW538336B (en) 2001-05-04 2001-12-28 Apparatus, system and method for detecting and correcting erroneous speculative branch target address cache branches

Country Status (3)

Country Link
US (1) US7134005B2 (zh)
CN (1) CN1257452C (zh)
TW (1) TW538336B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7165168B2 (en) 2003-01-14 2007-01-16 Ip-First, Llc Microprocessor with branch target address cache update queue
US6895498B2 (en) 2001-05-04 2005-05-17 Ip-First, Llc Apparatus and method for target address replacement in speculative branch target address cache
US7707397B2 (en) 2001-05-04 2010-04-27 Via Technologies, Inc. Variable group associativity branch target address cache delivering multiple target addresses per cache line
US6823444B1 (en) * 2001-07-03 2004-11-23 Ip-First, Llc Apparatus and method for selectively accessing disparate instruction buffer stages based on branch target address cache hit and instruction stage wrap
US7234045B2 (en) * 2001-07-03 2007-06-19 Ip-First, Llc Apparatus and method for handling BTAC branches that wrap across instruction cache lines
US7162619B2 (en) * 2001-07-03 2007-01-09 Ip-First, Llc Apparatus and method for densely packing a branch instruction predicted by a branch target address cache and associated target instructions into a byte-wide instruction buffer
US7203824B2 (en) * 2001-07-03 2007-04-10 Ip-First, Llc Apparatus and method for handling BTAC branches that wrap across instruction cache lines
US7159097B2 (en) * 2002-04-26 2007-01-02 Ip-First, Llc Apparatus and method for buffering instructions and late-generated related information using history of previous load/shifts
US7143269B2 (en) * 2003-01-14 2006-11-28 Ip-First, Llc Apparatus and method for killing an instruction after loading the instruction into an instruction queue in a pipelined microprocessor
US7152154B2 (en) * 2003-01-16 2006-12-19 Ip-First, Llc. Apparatus and method for invalidation of redundant branch target address cache entries
TWI242744B (en) * 2003-01-14 2005-11-01 Ip First Llc Apparatus, pipeline microprocessor and method for avoiding deadlock condition and storage media with a program for avoiding deadlock condition
US7185186B2 (en) * 2003-01-14 2007-02-27 Ip-First, Llc Apparatus and method for resolving deadlock fetch conditions involving branch target address cache
US7178010B2 (en) * 2003-01-16 2007-02-13 Ip-First, Llc Method and apparatus for correcting an internal call/return stack in a microprocessor that detects from multiple pipeline stages incorrect speculative update of the call/return stack
US8014374B2 (en) * 2003-04-07 2011-09-06 Bellow Bellows Llc System and method for achieving timing compatibility with multi-antenna wireless data protocols
US7237098B2 (en) * 2003-09-08 2007-06-26 Ip-First, Llc Apparatus and method for selectively overriding return stack prediction in response to detection of non-standard return sequence
TWI273485B (en) * 2004-02-04 2007-02-11 Via Tech Inc Pipeline microprocessor, apparatus, and method for generating early status flags
KR100785723B1 (ko) * 2004-04-21 2007-12-18 후지쯔 가부시끼가이샤 분기 예측 장치, 그 방법 및 프로세서
JP2006048132A (ja) * 2004-07-30 2006-02-16 Fujitsu Ltd 分岐予測装置、分岐予測装置の制御方法、情報処理装置
US7447882B2 (en) * 2005-04-20 2008-11-04 Arm Limited Context switching within a data processing system having a branch prediction mechanism
US7716460B2 (en) * 2006-09-29 2010-05-11 Qualcomm Incorporated Effective use of a BHT in processor having variable length instruction set execution modes
CN100520739C (zh) * 2006-12-30 2009-07-29 中国科学院计算技术研究所 一种快速虚实地址转换装置及其方法
US8006078B2 (en) * 2007-04-13 2011-08-23 Samsung Electronics Co., Ltd. Central processing unit having branch instruction verification unit for secure program execution
US8131984B2 (en) * 2009-02-12 2012-03-06 Via Technologies, Inc. Pipelined microprocessor with fast conditional branch instructions based on static serializing instruction state
CN101866280B (zh) * 2009-05-29 2014-10-29 威盛电子股份有限公司 微处理器及其执行方法
TWI411914B (zh) * 2010-01-26 2013-10-11 Univ Nat Sun Yat Sen 利用快取記憶體之資料追蹤系統及方法
US10180841B2 (en) 2014-12-22 2019-01-15 Centipede Semi Ltd. Early termination of segment monitoring in run-time code parallelization
CN105892992B (zh) * 2015-01-26 2018-05-08 安一恒通(北京)科技有限公司 用于反编译定位的方法、装置及应用
US10296350B2 (en) 2015-03-31 2019-05-21 Centipede Semi Ltd. Parallelized execution of instruction sequences
US10296346B2 (en) 2015-03-31 2019-05-21 Centipede Semi Ltd. Parallelized execution of instruction sequences based on pre-monitoring
US20180129500A1 (en) * 2016-11-06 2018-05-10 Centipede Semi Ltd. Single-thread processing of multiple code regions
US11461103B2 (en) * 2020-10-23 2022-10-04 Centaur Technology, Inc. Dual branch execute and table update with single port
CN117369872A (zh) * 2022-06-29 2024-01-09 中科寒武纪科技股份有限公司 指令执行方法、系统控制器及相关产品

Family Cites Families (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4200927A (en) 1978-01-03 1980-04-29 International Business Machines Corporation Multi-instruction stream branch processing mechanism
US4181942A (en) 1978-03-31 1980-01-01 International Business Machines Corporation Program branching method and apparatus
US4860197A (en) 1987-07-31 1989-08-22 Prime Computer, Inc. Branch cache system with instruction boundary determination independent of parcel boundary
US5193205A (en) 1988-03-01 1993-03-09 Mitsubishi Denki Kabushiki Kaisha Pipeline processor, with return address stack storing only pre-return processed address for judging validity and correction of unprocessed address
US5142634A (en) * 1989-02-03 1992-08-25 Digital Equipment Corporation Branch prediction
US5226126A (en) 1989-02-24 1993-07-06 Nexgen Microsystems Processor having plurality of functional units for orderly retiring outstanding operations based upon its associated tags
US5163140A (en) * 1990-02-26 1992-11-10 Nexgen Microsystems Two-level branch prediction cache
WO1992006426A1 (en) 1990-10-09 1992-04-16 Nexgen Microsystems Method and apparatus for parallel decoding of instructions with branch prediction look-up
JPH0820950B2 (ja) 1990-10-09 1996-03-04 インターナショナル・ビジネス・マシーンズ・コーポレイション マルチ予測型分岐予測機構
US5394530A (en) 1991-03-15 1995-02-28 Nec Corporation Arrangement for predicting a branch target address in the second iteration of a short loop
US5961629A (en) 1991-07-08 1999-10-05 Seiko Epson Corporation High performance, superscalar-based computer system with out-of-order instruction execution
US5832289A (en) 1991-09-20 1998-11-03 Shaw; Venson M. System for estimating worst time duration required to execute procedure calls and looking ahead/preparing for the next stack operation of the forthcoming procedure calls
CA2124333A1 (en) 1992-02-27 1993-09-02 John A. Saba Cpu having pipelined instruction unit and effective address calculation unit with retained virtual address capability
US5313634A (en) 1992-07-28 1994-05-17 International Business Machines Corporation Computer system branch prediction of subroutine returns
US5434985A (en) 1992-08-11 1995-07-18 International Business Machines Corporation Simultaneous prediction of multiple branches for superscalar processing
US5553248A (en) * 1992-10-02 1996-09-03 Compaq Computer Corporation System for awarding the highest priority to a microprocessor releasing a system bus after aborting a locked cycle upon detecting a locked retry signal
JP3057934B2 (ja) 1992-10-30 2000-07-04 日本電気株式会社 共有バス調停機構
US5463748A (en) 1993-06-30 1995-10-31 Intel Corporation Instruction buffer for aligning instruction sets using boundary detection
US5623614A (en) 1993-09-17 1997-04-22 Advanced Micro Devices, Inc. Branch prediction cache with multiple entries for returns having multiple callers
ATE184407T1 (de) 1994-01-03 1999-09-15 Intel Corp Verfahren und vorrichtung zum implementieren eines vierstufigen verzweigungsauflosungssystem in einem rechnerprozessor
US5604877A (en) * 1994-01-04 1997-02-18 Intel Corporation Method and apparatus for resolving return from subroutine instructions in a computer processor
TW253946B (en) 1994-02-04 1995-08-11 Ibm Data processor with branch prediction and method of operation
GB2287111B (en) 1994-03-01 1998-08-05 Intel Corp Method for pipeline processing of instructions by controlling access to a reorder buffer using a register file outside the reorder buffer
US5530825A (en) 1994-04-15 1996-06-25 Motorola, Inc. Data processor with branch target address cache and method of operation
US5623615A (en) 1994-08-04 1997-04-22 International Business Machines Corporation Circuit and method for reducing prefetch cycles on microprocessors
US5706491A (en) 1994-10-18 1998-01-06 Cyrix Corporation Branch processing unit with a return stack including repair using pointers from different pipe stages
US5606682A (en) 1995-04-07 1997-02-25 Motorola Inc. Data processor with branch target address cache and subroutine return address cache and method of operation
US5687360A (en) 1995-04-28 1997-11-11 Intel Corporation Branch predictor using multiple prediction heuristics and a heuristic identifier in the branch instruction
US5968169A (en) 1995-06-07 1999-10-19 Advanced Micro Devices, Inc. Superscalar microprocessor stack structure for judging validity of predicted subroutine return addresses
US5867701A (en) * 1995-06-12 1999-02-02 Intel Corporation System for inserting a supplemental micro-operation flow into a macroinstruction-generated micro-operation flow
US5752069A (en) 1995-08-31 1998-05-12 Advanced Micro Devices, Inc. Superscalar microprocessor employing away prediction structure
US5634103A (en) 1995-11-09 1997-05-27 International Business Machines Corporation Method and system for minimizing branch misprediction penalties within a processor
US5864707A (en) 1995-12-11 1999-01-26 Advanced Micro Devices, Inc. Superscalar microprocessor configured to predict return addresses from a return stack storage
US5734881A (en) 1995-12-15 1998-03-31 Cyrix Corporation Detecting short branches in a prefetch buffer using target location information in a branch target cache
US5828901A (en) 1995-12-21 1998-10-27 Cirrus Logic, Inc. Method and apparatus for placing multiple frames of data in a buffer in a direct memory access transfer
US5964868A (en) * 1996-05-15 1999-10-12 Intel Corporation Method and apparatus for implementing a speculative return stack buffer
US5805877A (en) 1996-09-23 1998-09-08 Motorola, Inc. Data processor with branch target address cache and method of operation
US5850543A (en) 1996-10-30 1998-12-15 Texas Instruments Incorporated Microprocessor with speculative instruction pipelining storing a speculative register value within branch target buffer for use in speculatively executing instructions after a return
KR100240591B1 (ko) 1996-11-06 2000-03-02 김영환 분기명령어의 효율적인 처리를 위한 브랜치 타겟 버퍼 및 그를 이용한 분기 예측방법
US6088793A (en) 1996-12-30 2000-07-11 Intel Corporation Method and apparatus for branch execution on a multiple-instruction-set-architecture microprocessor
EP0851343B1 (en) 1996-12-31 2005-08-31 Metaflow Technologies, Inc. System for processing floating point operations
US5850532A (en) 1997-03-10 1998-12-15 Advanced Micro Devices, Inc. Invalid instruction scan unit for detecting invalid predecode data corresponding to instructions being fetched
TW357318B (en) 1997-03-18 1999-05-01 Ind Tech Res Inst Branching forecast and reading device for unspecified command length extra-purity pipeline processor
US5735881A (en) * 1997-04-14 1998-04-07 Sulzer Intermedics Inc. Variable atrail blanking period in an implantable medical device
US6122729A (en) 1997-05-13 2000-09-19 Advanced Micro Devices, Inc. Prefetch buffer which stores a pointer indicating an initial predecode position
US6073230A (en) 1997-06-11 2000-06-06 Advanced Micro Devices, Inc. Instruction fetch unit configured to provide sequential way prediction for sequential instruction fetches
US5872946A (en) 1997-06-11 1999-02-16 Advanced Micro Devices, Inc. Instruction alignment unit employing dual instruction queues for high frequency instruction dispatch
US6157988A (en) 1997-08-01 2000-12-05 Micron Technology, Inc. Method and apparatus for high performance branching in pipelined microsystems
US6185676B1 (en) 1997-09-30 2001-02-06 Intel Corporation Method and apparatus for performing early branch prediction in a microprocessor
US5978909A (en) 1997-11-26 1999-11-02 Intel Corporation System for speculative branch target prediction having a dynamic prediction history buffer and a static prediction history buffer
US6041405A (en) 1997-12-18 2000-03-21 Advanced Micro Devices, Inc. Instruction length prediction using an instruction length pattern detector
US5931944A (en) 1997-12-23 1999-08-03 Intel Corporation Branch instruction handling in a self-timed marking system
US6081884A (en) 1998-01-05 2000-06-27 Advanced Micro Devices, Inc. Embedding two different instruction sets within a single long instruction word using predecode bits
US5974543A (en) 1998-01-23 1999-10-26 International Business Machines Corporation Apparatus and method for performing subroutine call and return operations
US5881260A (en) 1998-02-09 1999-03-09 Hewlett-Packard Company Method and apparatus for sequencing and decoding variable length instructions with an instruction boundary marker within each instruction
US6151671A (en) 1998-02-20 2000-11-21 Intel Corporation System and method of maintaining and utilizing multiple return stack buffers
US6108773A (en) 1998-03-31 2000-08-22 Ip-First, Llc Apparatus and method for branch target address calculation during instruction decode
US6256727B1 (en) 1998-05-12 2001-07-03 International Business Machines Corporation Method and system for fetching noncontiguous instructions in a single clock cycle
US6260138B1 (en) 1998-07-17 2001-07-10 Sun Microsystems, Inc. Method and apparatus for branch instruction processing in a processor
US6122727A (en) 1998-08-24 2000-09-19 Advanced Micro Devices, Inc. Symmetrical instructions queue for high clock frequency scheduling
US6134654A (en) 1998-09-16 2000-10-17 Sun Microsystems, Inc. Bi-level branch target prediction scheme with fetch address prediction
US6279106B1 (en) 1998-09-21 2001-08-21 Advanced Micro Devices, Inc. Method for reducing branch target storage by calculating direct branch targets on the fly
US6279105B1 (en) 1998-10-15 2001-08-21 International Business Machines Corporation Pipelined two-cycle branch target address cache
US6170054B1 (en) 1998-11-16 2001-01-02 Intel Corporation Method and apparatus for predicting target addresses for return from subroutine instructions utilizing a return address cache
US6175897B1 (en) 1998-12-28 2001-01-16 Bull Hn Information Systems Inc. Synchronization of branch cache searches and allocation/modification/deletion of branch cache
US6601161B2 (en) 1998-12-30 2003-07-29 Intel Corporation Method and system for branch target prediction using path information
US6314514B1 (en) 1999-03-18 2001-11-06 Ip-First, Llc Method and apparatus for correcting an internal call/return stack in a microprocessor that speculatively executes call and return instructions
US6233676B1 (en) 1999-03-18 2001-05-15 Ip-First, L.L.C. Apparatus and method for fast forward branch
EP1050810A1 (en) 1999-05-03 2000-11-08 STMicroelectronics SA A computer system comprising multiple functional units
US6321321B1 (en) 1999-06-21 2001-11-20 Vlsi Technology, Inc. Set-associative cache-management method with parallel and single-set sequential reads
US6457120B1 (en) 1999-11-01 2002-09-24 International Business Machines Corporation Processor and method including a cache having confirmation bits for improving address predictable branch instruction target predictions
US6223676B1 (en) * 1999-11-23 2001-05-01 Newport News Shipbuilding And Dry Dock Company Control for X-stern vehicle
US6748441B1 (en) 1999-12-02 2004-06-08 Microsoft Corporation Data carousel receiving and caching
SE515339C2 (sv) * 1999-12-16 2001-07-16 Propel Ab Användning av en värmbar matta för tillverkning av en ortos
US6560696B1 (en) 1999-12-29 2003-05-06 Intel Corporation Return register stack target predictor
US6502185B1 (en) 2000-01-03 2002-12-31 Advanced Micro Devices, Inc. Pipeline elements which verify predecode information
US6351796B1 (en) 2000-02-22 2002-02-26 Hewlett-Packard Company Methods and apparatus for increasing the efficiency of a higher level cache by selectively performing writes to the higher level cache
US6754808B1 (en) 2000-09-29 2004-06-22 Intel Corporation Valid bit generation and tracking in a pipelined processor
US7165168B2 (en) 2003-01-14 2007-01-16 Ip-First, Llc Microprocessor with branch target address cache update queue
US7162619B2 (en) 2001-07-03 2007-01-09 Ip-First, Llc Apparatus and method for densely packing a branch instruction predicted by a branch target address cache and associated target instructions into a byte-wide instruction buffer
US6823444B1 (en) 2001-07-03 2004-11-23 Ip-First, Llc Apparatus and method for selectively accessing disparate instruction buffer stages based on branch target address cache hit and instruction stage wrap
US7203824B2 (en) 2001-07-03 2007-04-10 Ip-First, Llc Apparatus and method for handling BTAC branches that wrap across instruction cache lines
US6898699B2 (en) 2001-12-21 2005-05-24 Intel Corporation Return address stack including speculative return address buffer with back pointers
US7159097B2 (en) 2002-04-26 2007-01-02 Ip-First, Llc Apparatus and method for buffering instructions and late-generated related information using history of previous load/shifts
US6968444B1 (en) 2002-11-04 2005-11-22 Advanced Micro Devices, Inc. Microprocessor employing a fixed position dispatch unit
US7143269B2 (en) 2003-01-14 2006-11-28 Ip-First, Llc Apparatus and method for killing an instruction after loading the instruction into an instruction queue in a pipelined microprocessor
US7152154B2 (en) 2003-01-16 2006-12-19 Ip-First, Llc. Apparatus and method for invalidation of redundant branch target address cache entries
US7185186B2 (en) 2003-01-14 2007-02-27 Ip-First, Llc Apparatus and method for resolving deadlock fetch conditions involving branch target address cache
US7178010B2 (en) 2003-01-16 2007-02-13 Ip-First, Llc Method and apparatus for correcting an internal call/return stack in a microprocessor that detects from multiple pipeline stages incorrect speculative update of the call/return stack
US7237098B2 (en) 2003-09-08 2007-06-26 Ip-First, Llc Apparatus and method for selectively overriding return stack prediction in response to detection of non-standard return sequence

Also Published As

Publication number Publication date
CN1257452C (zh) 2006-05-24
CN1397879A (zh) 2003-02-19
US20020194460A1 (en) 2002-12-19
US7134005B2 (en) 2006-11-07

Similar Documents

Publication Publication Date Title
TW538336B (en) Apparatus, system and method for detecting and correcting erroneous speculative branch target address cache branches
TW523712B (en) Speculative branch target address cache with selective override by secondary predictor based on branch instruction type
TWI225214B (en) Speculative hybrid branch direction predictor
TW530261B (en) Dual call/return stack branch prediction system
TW535109B (en) Speculative branch target address cache
TW552503B (en) Apparatus and method for selecting one of multiple target addresses stored in a speculative branch target address cache per instruction cache line
US6339822B1 (en) Using padded instructions in a block-oriented cache
TWI621065B (zh) 處理器和將架構指令轉譯成微指令的方法
US6185675B1 (en) Basic block oriented trace cache utilizing a basic block sequence buffer to indicate program order of cached basic blocks
US7818542B2 (en) Method and apparatus for length decoding variable length instructions
US6502185B1 (en) Pipeline elements which verify predecode information
EP2176740B1 (en) Method and apparatus for length decoding and identifying boundaries of variable length instructions
EP1116102B1 (en) Method and apparatus for calculating indirect branch targets
EP1296230B1 (en) Instruction issuing in the presence of load misses
EP2204741B1 (en) Processor and method for using an instruction hint to prevent hardware prefetch from using certain memory accesses in prefetch calculations
US6360317B1 (en) Predecoding multiple instructions as one combined instruction and detecting branch to one of the instructions
TW201030612A (en) Pipelined microprocessor with fast conditional branch instructions based on static exception state
EP1296229A2 (en) Scoreboarding mechanism in a pipeline that includes replays and redirects
US7464255B1 (en) Using a shuffle unit to implement shift operations in a processor
US6157986A (en) Fast linear tag validation unit for use in microprocessor
US20070033385A1 (en) Call return stack way prediction repair
JP2009536770A (ja) ブロックに基づく分岐先アドレスキャッシュ
US6647490B2 (en) Training line predictor for branch targets
US20040168043A1 (en) Line predictor which caches alignment information
US6546478B1 (en) Line predictor entry with location pointers and control information for corresponding instructions in a cache line

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MK4A Expiration of patent term of an invention patent