TW409224B

TW409224B - Processor and method of fetching an instruction that select one of a plurality of fetch addresses generated in parallel to form a memory request

Info

Publication number: TW409224B
Application number: TW088101982A
Authority: TW
Inventors: Hoo Sang Dhong; Joel Abraham Silberman
Original assignee: Ibm
Priority date: 1998-03-24
Filing date: 1999-02-09
Publication date: 2000-10-21
Also published as: JP3721002B2; KR100331199B1; JP2000029694A; EP0945785A2; DE69938911D1; KR19990077433A; EP0945785B1; EP0945785A3; US6334184B1

Description

五、發明說明（l) 技術領域： 409224 發明背景概略而言本發明係關於一種於一處理器產生本發明係解碼的指法。又並行地的提取 2.相關一處多執行使用提理器中被用於後，由而產生送至記請求位期包含始於的指令短處理能，典置，例率，及更特別由各被位址之技術之理器包單元用取位址，優先產生次於資料處理方法及系統，特別係關一記憶聽請求位址之處理器及方關於一處理器其解碼複數個指令，令產生一提取位址，然後選擇產生作為記憶體請求位址。說明：括一指令仔列，由以執行，及一指令由記憶體順序邏輯一提取位該指令典型藉將一提取位址。由為請求位憶體作址規定可循序檢驗於之時間器的指型注意如採用合併額位置的一進行之多才曰令彳宁列間搞可稱令提取週焦點集中更快速記外「快取擷取指令用於決定址。於藉指令長度被選定的址，俾便或多個指個步驟。的指令而作指令提期時間，於改良記憶體技術於晶片」該佇列指令被調派至一或提取器其計算提取位址及來填補指令佇列。習知處指令符列中之何一指令須優先順序邏輯選擇一指令，償值加至選擇指令位址指令·產生的提取位址隨後獲传儲存於記憶體之由該令。如此習知指令提取週終於由記憶體接收被提取取週期時間。嘗試努力縮因而增進處理器之整體效憶體個別組件之設計及配 ’改良指令快取裝置命中階層於處理器。雖然此等〇

五、發明說明（2) f決之道確實可改良指令提取週期時間知經由並排各步驟於指令提取週期也c明包括認時間。％短指令提取週期發明概述因此本發明之一目的係供— 系統。的貧料處理方法及本發明之另一目的係提 /種虚請求位址之改良的處理器及方法。、胃產生-記憶體指i發：的係提供1處理器，其解碼複數個 ^亚仃由各被解碼的沐匕今產斗一挺甘擇；取位址之1為記憶體請=:及然後選標位址達成。根據本發明方法，複數個目利用複數個先前提複ΐ個先前提取的指令決定，及與決定目择f棱s令中之最末者決定—循序位址。址或循库:立址及循序位址同時，產生規定複數個目標位個目# # u，之一的選擇信號。該選擇信號用於選擇複數 ==或循序位址之-作為記憶體請求位址。然後記少一 ^1 t由處理器傳輪矣記憶體，故記憶體將供給至位址！i庠器。藉由與選擇信號產生的同時產生目標位址，可減少指令提取的延遲。將顯然易明。勢月之目的、特點及優點由後文細節說明 .^ 圖式之簡單說明相^可特徵性代表七明之新福特點列舉於隨附之申請 409224

五、發明說明（3) 專利範圍。但本發明本身及較佳使用模式、進一步目的及優點經由參照後文範例具體例之細節說明連同附圖一起研讀將顯然易明，附圖中：圖1闡明可優異地利用之附有本發明之方法及系統之

料處理糸統，圖2為圖1資料處理系統之柏 *3曰圖；及令單元之進一步細節方塊之由記憶體提取指令圖3為邏輯流程圖說明根據本發曰月之方法。範例具體例之詳細說明 0 現在參照附圖，特別參照圖i，說明隨附之申請專利範圍引述之本發明之處理指令及資料用之處理器（概括指示為10)。之範例具體例之方塊圖。於闡明之範例具體例中，處理器10包含早-積體電路超定標器微處理器。如此容詳述，處理器10包括多個執行單元，暫存器，緩衝器，$ 憶體及其他功能單元，全部係藉積體電路製成。處理心、較佳包含威力PC(PowerPC)系列微處理器（得自ΙβΜ微電公司）其係根據精簡指令運算（RISC)技術執行；但業界士由後文說明瞭解本發明也可應用於任何其他處理器。如圖^示例說明，處理器10透過處理器10内部之一隨後' 排^面早πΒΐυ 12耦合至處理器匯流排23。BIU 12控制理器1 0與其他耦合至處理器匯流排1丨之器件間之資訊移轉，其他器件例如外部第二階（L2)快取裝置或主記憶體 (圖中未顯示）參與匯流排仲裁移轉。處理器1〇、處理器職

第8頁 409224 五、發明說明（4) 流棑23及其他韓合至處理器匯流排丨〗之器件共同形成資料處理系統。 β I U 1 2連結至處理器丨〇内部的指令（i )快取裝置丨4及資料（D)快取裝置13。高速快取裝置如卜快取裝置14及卜快取裝置13可使處理器丨〇對先前由低階記憶體移轉至快取裝置之寅料或指令子集達到相對快速存取時間5如此改進主機資料處理系統性能。I —快取裝置丨4進一步耦合至指令單 το 1 1 ’其於各週期期間由卜快取裝置丨4提取指令。資料單

兀1 1於内部處理分支指令，但調度循序指令至處理器1 〇之循序執行電路用於執行。 Q s亥fej列具體_例中’循序執行電路包括整數單元丨5，載入 /儲存單T〇(LSim6及浮點單元（Fpu)n。各執行15_17典型於各處理週期期間執行—或多個特定類型循序指令之指令。.例如整數單元1 5執行數學及邏輯運算如加、減、 ANDing、〇Ring及X〇Ring於接收自特定通用暫存器（GpR)i8 . 或GP\重新命名缓衝器的整數運算元。於一指令執行後’ ^數早几15輸出所得指令資料（若有）至⑶^重新命名缓衝 Ϊ 2 4 i其提供所得資料的暫時儲存至指令完成為止，遵照凡成單tl20之指不移轉所得資料由GpR重新命名緩衝器^丨) 至一或多個GPR 18。 FPU。17典型對接收自浮點暫存器（FpR)1 9 *FpR重新命名，衝二2 5之來源運异元執行單及雙精密浮點算術及邏輯運 ί刺如浮點乘法及除法。FPU 30輸出由執行浮點指令，所得育;斗至選定的FPR重新命名緩衝器2 5 ,其暫時儲存所得資

409224 五、發明說明（5) 料至指令完成，遵照完成單元2 0之指示將所得資料由FPR 重新命名緩衝器25傳輸至選定的FPR 19。如同名稱暗示，L S U 1 6典型執行浮點及定點指令，該等指令由記憶體（亦即D -快取裝置1 3或主記憶體）載入資料至選定的GPR 18或FPR 19，或儲存源自GPR 18，GPR 重新命名缓衝器24，FPR 19或FPR重新命名缓衝器15的資料至記憶體。處理器1 0可選擇性包括一前解碼器2 2插置於B I U 1 2 與I -快取裝置1 4間，其係於儲存前解碼指令於I -快取裝置 1 4之前，前解碼接收自低階記憶體的指令。此種前解碼包括例如設置分支指令於一致格式輔助藉指令單元1 1之流線化處理。處理器1 0較佳採用管線化及脫序執行指令俾便進一步改良其超定標器架構性能。如此，只要觀察得資料相關，則指令可以任一種順序藉整數單元15、LSU 16及FPU 17執行。此外，指令可藉處理器1 0於一系列管線化階段處理，包括提取，解碼/調度，執行，結束及完成。根據本發明且容後詳述，處理器1 0之整體性能可藉由縮短提取管線階段之指令提取週期時間增進。現在參照圖2，說明指令單元1 1之進行細節方塊圖。如示例說明，指令單元11包括指令件列3 0，其包括與執行有關聯的登錄數目，其暫時儲存提取自I -快取裝置1 4的指令。指示係以程式順序載入指令佇列3 0的登錄，始於底登錄。於調度窗3 2内部之指令表示於指令佇列3 0之最老指令於各處理器時脈週期呈現給多工器3 4用於調度。當由調度

第10頁 409224 五、發明說明（6) 邏輯36主張適當選擇信號時，—& / 環系統執行單元1 5- 1 7用以執行，/夕個指令被調度至循殘留於指令佇列3 0及指令於調@ ’丁'由指令佇列3 0移出。位。依據預定執行而定，調声m :於私令被去除時向下移執行單元及運算元）變成可利用、6可於執行寊源（例如另外調度邏輯可確證資料關聯限於調度程式順序；或序的指令。聯性的觀察且調度非屬程式川員如圖2所示，指令佇列3 0也右M , 完全重疊調度窗32或可由調度窗;二:取窗38 ’其部分或 Θ 之各指令由解碼器40及優先嘴序邏輯^於提取窗38内部 , . 貝斤邏軏42及分支處理單元 BP1044中之對應者接s:作為輪Λ^解崎器4〇係基於假設提取窗38内部之各個指令為分支指令運算。如此響應指令的接收，各解碼器40解碼其個別指令彷彿為分支指令而決定一解碼目標位址，該位址為進行"分支"時執行將會分支的位址。解碼器4 0決定之解碼目標位址構成多工器5 〇之輸入指令由解碼器4 〇解碼之方式隨處理器1 〇執行指令集合架構及預定邏輯複雜度決定。最簡單例中，其中全部分支指令皆規定或假設規定中間分支，解碼器4 〇可單純利用分支才曰々之直接搁位值決定被解碼的目標位址^於相關分支被支援的處理器1 〇之具體例中，圖1之前解碼器2 2較佳用於刖處理關係分支及直接分支成為一致格式，故直接及關係分支}曰令可由解碼器4 〇以相同方式處理。此種前處理方式例如延長各分支指令包括一額外多位元（例如5位元）分支

第11頁

搁位’該分支欄位可由解碼器址又更複雜的具體例也可支程式流將分支至架構暫存器例之—内部之一位址。本具體例含有暫存器間接分支位址，較多工器50 。 4 0用於計算被解碼的目標位援暫存器間接分支，其規定如威力PC鏈結與計數暫存器中，架構暫存器46之内容; 佳藉解碼器4 0解碼然後輪\ 合後洋述’指令佇列3 〇之最末（程式順序）指令位址可位於或非位於提取窗3 8，該位址連同指令長度一起輸入加法加法器48計算指令位址與指令長度之和，該和規定次:循序指令的位址。然後循序指令位址由解碼器4〇解碼^ 及輸入多工器5 〇 ^如此全部輸入多工器5 〇的位址皆為解位址。與解碼器40及加法器48之運算同時，優先順序邏輯42決定$取窗38之指令中之何者（若有）實際為分支指令，及分支指令令之何者為提取窗38之最早的（於程式順序）未經處理的分支指令。此外，BPU 44決定將取提取窗38之分支指令中之何者（若有）。如此BPU 44指示優先順序邏輯42何者指令為無條件分支指令，所取經解析的條件分支指令，或利用靜態或動態分支預測預測為條件分支指令。如業界人士已知’靜態預測典型係基於藉編譯器與分支指令關聯的位元’而動態預測典型至少部分係基於分支指令的指令位址。如示例說明，BPU 44也提供分支預測及分支解析至調度邏輯3 6 ’其利用分支預測及分支解析來產生控制多工器 3 4的選擇信號。

第12頁 _ 409224 -—--------------- 五、發明說明（8) 基於接受自BPU 44之輸入及決定提取窗38之何者指令 -(若有）為最早未經處理的分支指令，優先順序邏輯42產生被解碼的選擇信號52，其數目較佳等於多工器5〇的輸入。選擇信號5 2使多工器5 〇選擇對應一主動選擇信號之被解碼的輸入位址作為記憶體請求位址。響應接收記憶體請求位址，I -快取裝置丨4提供一或多個記憶體請求位址的關聯指令至指令佇列3 0。要緊地，因記憶體請求位址係於I -快取裝置1 4接收記憶體請求位址前，由指令單元11之解碼器4 〇之一解碼，故可免除I -快取裝置丨4解碼記憶體請求位址的需求。如此因位址解碼係藉解碼器4〇與優先順序邏輯42的運算並行執抒，故可縮短指令提取週期時間。現在參照圖3，說明根據本發明之範例提取指令方法之高階邏輯流程圖。如示例說明，方法始於方塊6 〇及隨後前進至方塊6 2 ’其說明登錄内部之一或多個提取指令儲存於指令作列3 0頂部。雖然指令佇列3 0於前文說明為移位佇列’其中當前一個登錄被去除時登錄朝向指令佇列3〇底移位’但需瞭解本發明同等適用於其他指令佇列3 〇如圓形佇 1 列的實施。然後處理由方塊β 2前進至方塊6 4，示例說明解碼器4 0決疋來自提取窗3 8之各指令之目標位址。此外方塊） 6 4表不加法4 8由指令佇列3 〇之最末指令位址及最末指令— 長度計算次一循序提取位址。與方塊64表示之運算並行，方塊7 〇_76表示的運算係由優先順序邏輯42及BPU 44執行。現在參照方塊7 〇 ,優先順序邏輯42判定提取窗38是否含有未經處理的分支指令。於

第13頁 ___ 409224 五、發明說明（9) ' ' 方，70，響應判定提取窗38不含未經處理的分支指令，處理削進至方塊72 ’其說明優先順序邏輯42產生適當選擇信- 號來選擇循序提取位址作為記憶體請求位址。然後處理前進至方塊80 ’容後詳述。回到方塊7 0 ’響應優先順序邏輯4 2判定提取窗3 8含有一未經處理的分支指令’處理前進至方塊74。方塊74說明 ΒΡϋ 44解析或預測提取窗38之各分支指令。雖然方塊係於^塊70之後說明，但需瞭解方塊7〇及以之運算可循序或並行執行，依據時序的考量決定。換言之，為了縮短指令一提取，期㈠'間’方塊7 〇 - 7 6的相當延遲不可比解碼器4 0及^ $法器48之延-遲中之最長時間更長。如此若由時序考量有 ^ 方塊7 &可選擇性刪除（如虛線指示），全部分支假定二採=本具體例中’ ΒΡϋ 44可用於取消錯誤預測執行路徑的指，，如後文就方塊84討論。處理由方塊74前進至方 f 76 ’ δ兒明優先順序邏輯42產生選擇信號而由提取窗内，早未經處理的分支指令選擇決定的目標位址。選定的目，位址可藉關聯提取窗38之指令之解碼器4〇之一輸出；或若暫存器間接分支指令可支援，則由架構暫存器46之解碼器40輸出。隨後處理進入方塊8〇。方塊80不例说明多工器5〇響應選擇信號選擇其解 - ^、一位址作為記憶體請求位址。然後記憶體請 =位址由夕工器5 〇傳輪至快取裝置1 4。於推測的分支目，位址供給I-快取襞置14作為記憶體請求位址之例中，優順序邏輯42也產生選擇信號52，其引起多工器5〇供給加

409_二五、發明說明（10) '------ 法器4 8計算的循序位址至I -快取裝置1 4作A _ ’r句一-欠提取位址。藉此方式，若目標位址被解析為正確， ^ 幻偏序路彳Φ指 - 々可被拋棄。另外若目標位址稍後決定為屬於錯誤行路徑内部，則錯誤預測路徑内部之指令可被抛^ @ = 處理可與循序執行路徑内部的指令執行而會二々个矿招致額外延遲。於方塊80後，處理前進至方塊82，農袅干冰〜〃衣不厌疋記憶體諸

求位址規定的指令是否已經接收於指令彳宁列3 〇。4 T J 右否，貝] 處理單純於方塊8 2重複進行至接收到要求的指令為止。塑應於接收到指令佇列30要求的指令，指令提取&期完成:〇及處理前進i：選擇性方塊84。選擇性方塊84示例說$βρυ 4 4解析預測分支或預測分支指令（若預測未於方塊7 &進行）而決定提取指令中之何者（若有）須被拋棄。要緊地，方塊 8 4說明的運算不屬於指令提取週期内部，因此不會促成分支被正確預測案例中之指令提取延遲。隨後處理回到方塊 62 ° 如前已述，本發明提供一種處理器其採用改良之指令提取方法來縮短指令提取週期時間。根據本發明，產生多個可能的記憶體請求位址，且與位址 ^，位址的選#，可縮；！明求位址。藉由重4位址的產生與可能記憶體請求：令提：週期時間。如前文說明，求位址前解碼，故：車父佳係於缶擇位址之-作為記憶體請雖然已經參昭較=碼t需於關鍵時序路徑上進行。、板佳具體例特別顯示及說明本發明，但業

第15頁 409224

第16頁

Claims

409224 六、申請專利範圍 1 . 一種於處理器内部由記憶體提取一指令之方法，該方法包含：利用複數個先前提取的指令決定複數個目標位址，及利用複數個先前提取指令中之最末者決定一循序位址；與該決定複數個目標位址及循序位址同時，產生一選擇信號規定複數個目標位址或循序位址之一；利用該選擇信號，選擇複數個目標位址或循序位址之一作為記憶體請求位址；及由處理器傳輸記憶體請求位址至記憶體，因此記憶體將供給至少一指令至處理器。 2. 如申請蓴利範圍第1項之方法，其進一步包含：儲存複數個先前提取的指令於指令佇列，於由此指令佇列，指令被處理器調度。 3. 如申請專利範圍第1項之方法，其中該產生步驟包含：決定複數個先前提取的指令是否包括一分支指令；響應於複數個決定先前提取的指令是否包括一分支指令，產生一選擇信號規定由複數個由分支指令決定的目標位址中之一目標位址；及響應複數個決定先前提取不含分支指令，產生一選擇信號規定該循序位址。 4. 如申請專利範圍第3項之方法，其中：該方法進一步包含決定是否採行由該分支指令規定的目標執行路徑；及

第17頁 ___4Δ9224____— 、申請專利範圍 s亥產生選擇信號規定由分支指令決定的複數個目標位址中之一I標位址的步驟係僅響應於決定是否需採行由分支指令規定的目標執行路徑進行 5.如申請專利範圍第丨項之方法，其中該等複數個先前提取的指令包括—第一分支指令及第二分支指令，該產生步驟包含產生一選擇信號於第一分支指令及第二分支指令之程式順序中規定最早的指令。 6 ·如=請專利範圍第1項之方法，其中該選擇步驟包含〇利用夕工器’選擇複數個目標位址及循序位址之一作為記憶體請求位址。 7·如申請莩利範圍第1項之方法，其進一步包含在該選擇w解碼複數個目標位址及循序位址。 8. —種處理器，其包含·· 决疋裝置，其利用複數個先前提取的指令決定複數個目標位址’及矛用韻奴加iL " !_ , pr, .π複數個先丽提取的指令中之农末者決定一產生裝置，其係與決定複數時，產生一選擇信號規定複數個目標位址及循序位址個目標位址或循序位址同之選擇裝置，其係两於利用選擇信號，選擇複數個目標址或循序位址之—作為記憶體請求位址；及忤2輸ϊ ΐ情J 於由處理器傳輪記憶體請求位址至隐體故π己隐體將供給至少 9.如申請專利範圍^馆+占田主處理口口車已圍第8項之處理器，其進一

第18頁 409224 六、申請專利範圍令佇列用於儲存複數個先前提取的指令，其中該等指令係藉處理器由指令佇列調度。 - 1 0.如申請專利範圍第8項之處理器，其中該產生裝置包含·· 決定裝置，其係用於決定複數個先前提取的指令是否包括一分支指令；產生裝置，其係響應決定複數個先前提取的指令是否包括一分支指令，產生一選擇信號規定於複數個目標位址中由該分支指令決定之一目標位址；及厂產生裝置，其係響應決定複數個先前提取的指令不包括γ 一分支指令r用於產生一選擇信號規定該循序位址。 1 1.如申請專利範圍第1 0項之處理器，其中：該處理器進一步包含決定裝置，其係用於決定是否須採行由該分支指令規定的目標執行路徑；及該產生一選擇信號規定複數個目標位址中之一目標位址係由分支指令規定之裝置，僅響應決定須採行由分支指令規定之目標執行路徑時才產生該選擇信號。 1 2.如申請專利範圍第8項之處理器，其中複數個先前提取的指令包括一第一分支指令及第二分支指令，該產生裝.J 置包含產生一選擇信號規定於第一分支指令及第二分支指令之程式順序中之最早者的裝置。 1 3.如申請專利範圍第8項之處理器，其中該選擇裝置包含一多工器。 1 4.如申請專利範圍第8項之處理器，其進一步包含於選

第19頁 _409224_ 六、申請專利範圍擇前，用於解碼複數個目標位址及循序位址之裝置。 1 5. —種具有關聯記憶體之處理器，該處理器包含：一執行單元其執行被調度的指令；一指令佇列其可含有複數個待調度的指令；一位址決定電路，其利用複數個含於指令佇列中先前被提取的指令，決定複數個目標位址及循序位址；及優先順序邏輯，其係與藉位址決定電路決定複數個目標位址及循序位址同時，選擇複數個目標位址或循序位址之一作為記憶體請求位址。 1 6 .如申請專利範圍第1 5項之處理器，該優先順序邏輯包含：決定裝置，其係用於決定複數個先前提取的指令是否包括一分支指令；產生裝置，其係響應決定複數個先前提取的指令是否包括一分支指令，產生一選擇信號規定於複數個目標位址中由該分支指令決定之一目標位址；及產生裝置，其係響應複數個先前提取的指令不包括一分支指令的決定，用於產生一選擇信號規定該循序位址。 1 7.如申請專利範圍第1 6項之處理器，其進一步包含：一分支處理單元，其係耦合至優先順序邏輯且決定是否需採行由該分支指令規定的目標執行路徑；及該產生裝置其產生一選擇信號規定複數個目標位址中之一目標位址係由分支指令規定之裝置，僅響應決定需採行由分支指令規定之目標執行路徑時才產生該選擇信號。

第20頁 409224 六、申請專利範圍 1 8.如申請專利範圍第1 5項之處理器前提取的指令包括一第一分支指令及一其中該優先順序邏輯以第一分支指令及式順序選擇最早者。 1 9,如申請專利範圍第1 5項之處理器多工器具有複數個目標位址及循序位址多工器也包含一選擇輸入耦合至優先順可耦合至記憶體。 2 0.如申請專利範圍第1 5項之處理器電路包含複數個指令解碼器，其個別於擇記憶體請求位址前，解碼於指令佇列先個數複 =口其及程，之令令指指支支分分二二第第進其含包步入及輸輯為邏作序該其中出其輸定決址位 -5 中其選之輯令邏指序個順數先複優之由中 G

第21頁