TW302447B

TW302447B -

Info

Publication number: TW302447B
Application number: TW084110262A
Authority: TW
Original assignee: Ibm
Priority date: 1995-01-25
Filing date: 1995-10-02
Publication date: 1997-04-11
Also published as: EP0724213A3; US5742784A; KR960029963A; KR0175985B1; JPH08249180A; JP3465730B2; EP0724213A2

Description

Α7 B7 經濟部t央棣準局身工消费合作社印製

五、發明説明（！發明領域本發明係有關一種提昇處理器效能之方法及系統，尤係有關一種減少此種系統中指令派發執行時間（dispatd latency)之方法及系統。發明背景才a令快取是高效能超純量（super_scalar)處理器中之—重要機制。此種機制可使處理器以足夠快的速度提取指令，縱使記憶體通常是慢了許多週期，也可以跟得上處理器執行單元速度。使用指令快取記憶體的基本理由是減少提取等待時間。在超純量處理器中，造成處理器的各執行單元有無效週期的另一問題即是指令派發執行時間。指令派發執行時間在本申請案文中意指··一指令通過快取記憶體與執行單元之間所需的時間。因爲指令派發器必須對數個指令解碼，然後決定指令所要派發的執行單元，所以在快取記憶體與指令隨後進入執行單元冬間有相當的時間。當指令派發器變得愈來愈複雜，執行單元的數目增加，且週期時間減少時，此種指令派發執行時間變得愈來愈顯著。以往係在指令進入快取記憶體的半途中，預先對指令解碼，藉此減少指令派發執行時間.每—指令爲了要儲存解碼資訊需有一些額外位元，但是當存取快取記憶體（快取記憶體命中）時，指令派發器只需要檢視解碼資訊，即能決定將要把每一指令送往何處。此種實施方式的成本是快取記憶禮中每一指令須有一些额外位元（因而對於同樣大小的快取記憶體結構而言，只能儲存較少的指令），但是 -4- 本紙張尺度適用中國國家棣準（CNS ) A4規格（2丨〇 X 297公慶）

(請先閲讀背面之注意事項再填寫本頁) 經濟部中央樣準局貝工消費合作杜印製五、發明説明（2 ) ~ ---- 較短的指令派發執行時間。許多現代的處理器 _々（亦即分支指令（branch instruction)等）有零週期 ^ 田週期時間縮短時，非常需要有平行的邏輯電路加仏此種解碼。此種平行執行使處理器的成本及複都大幅增加。因此’我們需要-種可大幅減少指令派發執行時間之方 $及系統’且此種方法及系統不會如同上述傳統架構使效又】景/響。此種方法及系統應是易於實施且成本低廉。本發明滿足了此種需求。發明概述根據本發明的方法及系統可減少一處理器中之指令派發執行時間。此種方法及系統包含:各指令進入快取記憶體之前’先以預定格式將這些指令重新排序；將資訊儲存在與指令重新排序有關的快取記憶體中；以及根據預定的格式，將經過重新排序的指令提供令適當的執行單元。由於在指令·進入快取記憶體之前先巧先派發這些指令，所以可大幅縮短指令派發執行時間，並可大幅提高系統的整體速度。附圖簡述圖1是用於一處理器的傳統指令派發系統之方塊圖。圖2是以預先派發格式儲存指令的系統第—實施例之流程圖。圖3是以預先派發格式將指令儲存在快取記憶體的系統第二實施例之流程圖。 -5- 本紙張尺度適用中國國家標率（CNS ) A4規格（210X297公釐） I I - 1 - I —^Is I - , - X» --¾ .1 (請先閱讀背面之注意事項再填寫本頁) 經濟部中央樣準局员工消費合作杜印製 A7 B7 五、發明説明（3 ) 圖4是將若干快取線的指令派發到快取記憶體之前的指令重新排序表。圖5是採用圖3及4所示預先派發系統的系統之方塊圖。本發明之説明本發明係有關存取一電腦系統的快取記憶體之改良。下列説明所採用的方式，可使對本門技術具有一般知識者製造並使用本發明，下列説明並係以專利申請案及其需求之方式提出。熟悉本門技術者當可易於對較佳實施例作出各種修改，並可將本文所述的一般性原理應用於其他的實施例。因此，本發明並不限於所示之實施例，而是適用於與本文所述各項原理及特徵相符的最寬廣範圍。圖1是用於處理器的一傳統指令派發系統（10)之方塊圖。傳統的指令派發系統（10)包含一預先解碼單元（12)，該預先解瑪單元（12)接收指令’並將解碼後之指令傳送到快取記憶體（14)。快取記憶體（14)接收，解碼後之指令，成將這些指令傳送到指令派發緩衝區（16)。指令派發緩衝區（16) 然後將指令提供給適當的執行單元（18-24> 〇指令快取是高效能超純量處理器中之—重要機制β此種機制可使處理器以足夠快的速度提取指令，縱使記憶體通常是慢了許多週期’也可以跟得上處理器執行單元速度。如上文所述’當處理器要求零指令派發執行時間時，處理器的指令派發執行時間變得更重要。請再參閲圖1，解決指令派發執行時間問題的一般方式是：在各指令進入快取記憶趙（14)之前，先預先對這些指令 -6 - 本紙张尺度適用中國國家標準（CNS ) Α4規格（210X 297^*7 n HI - - ·11 « - —1 —1 I—-^It n 1 I ϋ m In X (锖先閲讀背面之注意事項再填寫本筲) •-- •--

^2447 五、發明説明（，碼然後由快取記憶體（14)讀取解碼資訊，並將指令傳送到適當的執行單元（18_24)。亦如上文所述，此種實施方 ^之問題在於：只能將較少的指令儲存在相同大小的快取圮憶體結構，並且爲了提供解碼，必須有額外的邏輯電路〇本發明提供了一種在使用快取記憶體時可減少指令派發執行時間之方法及系統。現在將以只能儲存指令的快取記隐體（I-快取記憶體）爲例説明本發明。然而，對本門技術具有一般知識者當可了解，本方法及系統同樣可在分支目標快取記憶體及標準指令快取記憶體中有效運作。在一根據本發明的方法及系統中，係以預先派發之格式將各指令儲存在指令快取記憶體中β在此種系統中，須對處理器的作業作一假設。我們假設·自快取記憶體接收的字組數是固定的（亦即，爲固定的快取線大小）。爲了更詳細説明根據本發明的琿先派發系統，現在請參閲圖2，圖中示出此種系統一實施例之流程圖（1〇〇)。在此系統中，係經由步驟（1〇4)輸入各種指令。然後，在本實施例中，經由步驟（106)決定次一指令是否爲一分支。如果次—指令爲一分支指令，則經由步驟（107)將此指令放入次一分支位置。如果此指令並非一分支指令，則必須經由步驟（108)決定此指令是否爲一載入指令。如果此指令爲一載入指令，則經由步驟（Π 〇)將此載入指令放入次一載入指令位置。如果此指令並非一載入指令，則經由步驟（U2)決定此指令是否爲一浮點指令》如果此本紙張尺度遴用中國國家橾隼（CNS ) A4规格（210X297公釐） f請先閲讀背面之注意事項再填寫本頁) 絮- -5 經濟部中央梂準局貝工消費合作社印製 A7 A7 經濟部中央棣準局MC工消费合作杜印製 Β7 五、發明説明（5 ) - 指令爲一浮點指令，則經由步驟（114)將此指令放入次一汙點位置。另一方面，如果此指令並非—浮點指令，則鲈由步驟（116)將此指令放入次一位置。重複此程序，直= 以適當的方式將各指令載入爲止。一種更有效率的預先派發系統係示於圖3。在此系統中，係經由步驟（206)、（208)、及（210)同時在各別的位置找到第一分支指令' 第一載入指令、及第一浮點指令。然後分別經由步驟（212)、（214)、及（216)同時將每一個這類第一指令放入其各別的位置。然後根據配合圖2所述之系統 ’將其餘的指令放入對應的位置。因此，在根據本發明的系統中，並非將每一指令的解竭資訊儲存在快取記憶體中，而是在各指令進入快取記憶體之前’先對這些指令重新排序。此外，與每一快取線的指令順序有關的資訊係亦傲存在快取記憶體之内。在一實例中，將指令儲存在快辱記憶趙的順序可能如下· 第一分支指令固定是快取線中举左方的指令，第—載入/ 比較指令固定是快取線中最右方的指令，固定將第一浮點指令放在第一載入/比較指令左方的位置，且係將第—浮點指令放在第一分支指令右方的位置。爲了更詳細説明此實例，現在請參閲圖4，此圖是以預先派發之格式示出一個四字組快取線的順序表。快取線（300):在快取線（300)中，必須將分支（BR)指令、浮點（FP)指令、及第一載入（LD)指令放在其適當的位置，然後將第二LD指令放在其餘的一個位置。當指令派發單 -8 - 本紙诜疋燴诮用申國固定妖盎i fNS 1 A4規格ί 210X297A磬） I--------------1T------( (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標隼局貝工消費合作社印装 A7 B7 五、發明説明（6 ) 元接收到這組指令時，縱使第二LD指令是在浮點位置，也必須正確地將此指令派發到載入/比較單元，然而，指令派發單元在次一週期之前並不需要派發此指令，因爲載入/比較單元已在忙於執行第一 LD指令。快取線（302):在快取線（302)中，只有第一比較（CMP)指令及第一 BR指令已設定好了其位置。第二BR指令被放在第一 BR指令旁邊的位置，而第二CMP指令被放在最靠近第一比較指令的位置。快取線（304):在快取線（304)中，每一類的指令都有一個，所以係將每一指令放入其必須被放入的位置。快取線（306):在快取線（306)中，只需要將一 LD指令放在一個特定的位置。放置其餘的各LD指令時，係以其相對於第一 LD指令之順序（自右到左），而預期必須在次一週期中派發這些指令。當以上述格式儲存這些指令時、，完成單元/同步邏輯電路也必須循序儲存程式順序資訊，以便維持循序完成的情形。此種資訊可採取每一指.令有一標記之形式，而各標記都對相關指令設定了程式順序之位置。對於上述的四字組快取線而言，較佳實施例中每一位置之標記爲一個兩位元之標記。現在請參閲圖5，圖中示出一用於根據本發明的處理器之預先派發系統（400)方塊圖。預先派發系統（400)包含一指令預先派發器（402)，該指令預先派發器（402)之作業係根據圖2及3所示之流程圖，該指令預先派發器（402)係以 -9- 本紙張尺度適用中國國家標準（CNS ) A4規格（210X 297公釐） 7 I--------二衣------1T------( (請先閱讀背面之注意事項再填寫本頁) S02447 A7 B7 五、發明説明（7 ) 特定格式將資料提供給一指令快取記憶體（4〇4)。快取記憶體（404)然後將此指令提供給下列這些執行單元分支單 7L (406)、浮點單元（408)、定點單元（41〇)、及載入控制單元（412)。因此，在以平行之方式將各指令派發到執行單元（406-412)中（完全根據位置’並不執行解碼），係將整個快取線放入指令派發緩衝區（414)，且在指令派發緩衝區（414)中對這些指令解碼（與每一執行單元的第一級平行）。如果— 指令被解碼成放在錯誤的位置（例如實例（3〇〇)中的LD2)，則在該指令原始被派發的執行單元中取消該指令（最低限度要抑制結果的輸出）’並自指令派發緩衝區（414)將該指令派發到正確的執行單元。請注意，如果一執行單元正在忙碌，或指令派發緩衝區 (414)正在將一指令派發到該執行單元，則不得派發自快取記憶體傳送的指令（亦即’快取記憶體所存放指令的優先順序低於指令派發緩衝區或執行單元中之指令）。圖4所示之預先派發系統（4〇〇)最多可容許直接自快取記憶體（404)派發四個指令（零週期之派發）。雖然已利用四個執行單元的情況説明了本發明，但對本門技術具有一般知識者當可了解，可採用任何數目的執行單元，且其使用方式將在本發明的精神及範圍内。對系統（400)唯一的限制是需要有一固定的快取線寬度，且該快取線寬度必須大於不同執行單元數目。執行單元（406-412)通常亦在指令開始之後的至少一個週期中能夠取消該等指令。 -10- 本紙張尺度適用中國國家標华（CNS ) A4規格（210X297公釐> c批衣— (請先閱讀背面之注意事項再填寫本頁) 訂經濟部中央標準局負工消費合作社印製 A7 B7 超濟部令央揉準局員工消費合作社印製五、發明説明（8 ) 如果保證-個週期，且派發—分支指令，則本系統將具有每-週期有0.5個分支之指令執行率（假設快取記憶體命中）。若採用零遇期之分支目標快取記憶禮，則可維持每一週期有丨個分支之指令執行率（假設快取記憶禮命中）。縱使在快取記憶禮未命中比率極高的應用中（1()_15%的未命中率），也可利用預先派發快取之方式大幅減少派發指令所需之週期數。如上又所述，許多處理器斜於分支指令具有零週期派發 t特性。當週期時間減少時，將需要更多的高速平行式邏輯電路，如此將耗用可觀的晶片空間β若利用根據本發明的預先派發快取系統，則可大幅減少實施此系統所需的邏輯電路，因爲快取線中之第—分支固定是在相同的位置。因此，此一功能不需要設有任何平行的邏輯電路。在晶片空間受限的情形下，本系統通常將可得到更快速的處理器時脈速率（指令派發通常是影響巧脈速率的一個主要選通因素）。因此，根據本發明的提供了一種絕對優於習用技術系統的系統。雖然已根據所示之各實施例説明了本發明，但是對本門技術具有一般知識者當可了解’尚可對這些實施例作出各種變形，而這些變形將仍在本發明的精神及範圍内。因此 ’在不脱離下述申請專利範圍的精神及範圍下，對本門技術具有一般知識者仍可作出許多修改。 -11 本紙張尺度適用中國國家標準（CN'S ) Μ規格（2丨0Χ297公釐） n I n n n I 1^1 n ^ D n n n 丁 -*5 ，言 (請先閲讀背面之注意事項再填寫本頁)

Claims

B8

六、申請專利範圍經濟部中央揉準局具工消費合作社印裝 1·—種減少處理器的指令派發執行時間之方法，該處理器包含一接收指令之快取記憶體、及複數個自該快取記憶體接收指令之執行單元，該方法包含下列各步驟： (a) 在各指令進入該快取記憶體之前，先以_預定格式將該等指令重新排序； (b) 將資訊儲存在與指令重新排序有關的快取記憶體中；以及 (c) 根據該預定的格式’將經過重新排序的指令提供给適當的執行單元。 2. 根據申請專利範固第1項之方法，其中該等指令包含分支指令、载入指令、浮點指令、及定點指令。 3. 根據申請專利範圍第2項之方法，其中係以自左到右之順序將該等指令放在快取記憶體的每一快取線中。 4. 根據申請專利範圍第2項之方法，其中該預定格式包含將第一分支線放在快取線中最车方的位置，並將第一載入指令放在快取線中最右方的位置。 5. 根據申請專利範圍第2項之方法，其中該重新排序步驟 (a)又包含下列各步驟： (al)輸入該等指令； (a2)決定次一指令是否爲一分支指令；如果該指令爲一分支指令； (a3)將該指令放在次一分支指令位置，然後回到步驟 (al); 如果該次一指令並非一分支指令； -12- 本紙張尺度適用中國固家標準（CNS ) A4规格（210X297公釐） ------IT (請先閲讀背面之注意事項再填寫本頁) 經濟部中央橾準局貝工消費合作社印褽 A8 B8 C8 D8 六、申請專利範圍 (a4)決定該次一指令是否爲一載入指令；如果該次一指令爲一載入指令； (a5)將該指令放在次一載入指令位置，然後回到步驟 (al); 如果該次一指令並非一載入指令； (a6)決定該次一指令是否爲一浮點指令；如果該次一指令是一浮點指令； (a7)將該指令放在次一浮點指令位置；如果該次一指令並非一浮點指令；以及 (a8)將該次一指令放在快取線中次一可用之位置。 6. 根據申請專利範園第2項之方法，其中該重新排序步裸又包含下列各步驟： (al)找出第一分支指令、第一載入指令、及第—指令 » (a2)將該第一指令、第一分丰指令 '及第一載入指令放在快取線中適當的位置。 7. —種減少處理器中指令浪_發執行時間之系統，包含：一預先派發單元，用以按照一預定格式接收指令，並提供重新排序資訊；一快取記憶體，用以自該預先派發單元接收重新排序資訊、及經過重新排序之指令；以及複數個執行單元，用以根據該預定格式接收該等經過重新排序之指令。 8. 根據申請專利範圍第7項之系統，其中該等指令包含分 -13- 本紙張尺度逋用中國國家標準（CNS > Μ規格（210X297公釐） (請先閲讀背面之注意事項再填寫本頁) Γ A8 B8 C8 D8 々、申請專利範圍支指令、載入指令、浮點指令、及定點指令。 9. 根據申請專利範圍第8項之系統，其中係以自左到右之順序將該等指令放在快取記憶體的每一快取線中。 10. 根據申請專利範圍第8項之系統，其中該預定格式包含: 將第一分支線放在快取線中最左方的位置，並將第一載入指令放在快取線中最右方的位置。 (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局貝工消費合作社印製 -14- 本紙張尺度逋用中國國家梯準（CNS ) A4規格（210X297公釐）