TWI406176B

TWI406176B - 準備用於具有多個發送埠之處理器的指令群

Info

Publication number: TWI406176B
Application number: TW095110556A
Authority: TW
Inventors: William Owen Lovett; David Haikney; Matthew L Evans
Original assignee: Ibm
Priority date: 2005-03-30
Filing date: 2006-03-27
Publication date: 2013-08-21
Also published as: US7934203B2; TW200710730A; JP2008535074A; JP5102758B2; GB2424727B; GB2424727A; GB0506469D0; CN101151594A; CN100585560C; US20060224863A1

Description

準備用於具有多個發送埠之處理器的指令群

本發明係關於電腦與電腦軟體領域，且尤其係關於程式碼轉換方法與裝置，例如有用於轉換程式碼之程式碼翻譯器、模仿器與加速器。

於嵌入式與非嵌入式中央處理器(CPUs)，乃具有主要之指令集結構(ISAs)，其中存在軟體之大型主體，可使性能"加速"，或可"翻譯"至大量具有較佳成本/性能優勢之處理器，若其可容易地存取相關軟體。此外，主要中央處理器結構乃即時鎖定於其指令集架構中，且無法於性能或市場範圍產生發展。此類中央處理器將受益於軟體導向之處理器共同結構。

關於促進此類加速，翻譯與共同結構能力之程式碼轉換方法與裝置，例如，乃揭示於公開之專利合作條約(PCT)申請案第WO 00/22521等。

相較於在主題處理器上，內在地執行主題程式，執行程式碼轉換無可避免地將於轉換過程中產生額外負擔(overheads)。

許多處理器利用特殊之功能單元以執行特別任務，例如專用浮點結構單元。此產生困難之處，因所有處理器具有有限資源，且對於可於特別功能單元執行之指令類型具有限制。此外，線路式處理器可於單一時鐘週期，同時處理兩個或多個指令。此一處理器可於一週期中派遣多個指令。準備多個指令，以於線路式處理器中以一群組一同執行，將造成困難。

如一特別示例，英特爾(Intel)(RTM)Itanium(RTM)處理器結構利用一組發送埠，經由其，指令乃發送至處理器之功能執行單元。作為本發明之背景，乃參照，例如"英特爾Itanium處理器對於軟體最佳化之參考手冊(Intel Itanium Processor Reference Manual for Software Optimization"，文件245473－003，日期為2001年11月，可由www.intel.com 取得，其中第3.0章討論對於Itanium結構之功能單元與發送規則。發送規則之決定可藉由各功能單元類型執行之指令類型，數目，以及階層。Itanium處理器提供至少整數，記憶體，浮點與分支類型(I，M，F或B類型)完整線路之功能單元，使得各功能單元於各時鐘週期可接受一新指令(有一些例外)。

若一指令群含有之指令，多於此類型指令之執行單元，將產生一溢出發送，使得處理器延遲一或多個時鐘週期，直到可取得一適當單元。延遲為無效率的，因一些處理器資源或功能單元可能將因此不必要地處於閒置。相反地，未充分使用功能單元亦為無效率的，亦即，產生未有效率利用處理器潛在資源之指令群。

最近，已可取得英特爾(RTM)Itanium(RTM)2處理器，其具有較多數目之功能單元，並可於各週期傳送更多指令。因此，將更難以達成有效率之指令分配。亦參照"英特爾Itanium 2處理器對於軟體發展與最佳化之參考手冊(Intel Itanium 2 Processor Reference Manual for Software Development and Optimization)"，文件251110－003，日期為2004年5月，其中第3.0章說明Itanium 2處理器之功能單元與發送規則。

於程式碼轉換，且尤其於動態二進位翻譯領域，可執行程式碼乃於運行時間自動地產生。未具有人為介入或檢視，以改進所產生程式碼，尤其是改進或調整指令群之機會。

本發明之目的在於改進進行程式碼轉換時之性能。

本發明之一較佳目的在於改進當進行動態二進位翻譯時之性能。

本發明之另一較佳目的在於改進準備含有多個指令之一指令群，以於單一處理器週期分散時之效率。尤其，希望提供一種有效率準備指令，以經由發送埠分散至線路式處理器之功能單元之方法。此外，一較佳目的在於準備可有效使用處理器之功能單元之指令群。

依據本發明，提供於所附申請專利範圍所提出之一種裝置與方法。由所附申請專利範圍與隨後之說明，將可瞭解本發明之較佳特徵。

下列為依據本發明實施例可實現之各種型態與優點之摘要。其提供作為協助熟知此項技藝之人士，更快速理解所產生之詳細設計討論之介紹，且並未及未意圖以任何方式限制所附申請專利範圍之範疇。

於下列說明中之一態樣中，提供一種形成指令群，以經由複數個發送埠分散至處理器之功能單元之方法。提供複數個集用場(pools)，各集用場與一或多個發送埠相關聯，並包含至少一第一集用場，以及至少具有一相同發送埠之第二集用場。指令依據指令類型放置於集用場中，其中放置一指令至第一集用場時，亦減量第二集用場之佔有。一指令群接著由放置之指令產生。

於本發明的另一態樣中，此處提供一種準備目標指令之指令群，以由可藉主題處理器執行之主題指令，經由複數個發送埠分散至目標處理器之功能單元之方法。本方法包含由主題指令，產生一目標指令區塊。一組目標指令放置於複數個集用場中，各集用場以重疊之階層結構，與發送埠之子集相關聯，其中相較於從屬之較寬集用場，上層較窄之集用場與較少之指令埠相關聯。回應每次放置其中一目標指令集至階層結構之上層較窄集用場，因而減量從屬較寬集用場之可用性。由放置之目標指令集形成一指令群。

本發明亦擴展至一種計算平台，設計為執行此處所述之任何方法。此外，本發明擴展至一種翻譯裝置，且尤其為一種動態二進位翻譯器，設計為執行此處所述之任何方法。

於一些實施例，本發明提供專用硬體，例如ASIC(特殊應用積體電路)。此外，本發明擴展至一種含有指令之電腦可讀取儲存媒體，當藉由計算平台實施時，執行此處所述之任何方法。儲存媒體適當地為一容易運送之存儲器，例如固態媒體(記憶體晶片)，光碟或磁碟。此媒體亦可為任何非攜帶式存儲器，例如於網路存儲器，伺服器或桌上型電腦之硬碟。此媒體進一步可編碼至傳輸信號，例如由網際網路下載。

提供下列說明，以使熟知本技藝之人士製造及使用本發明，並提出實施本發明之最佳模式。然而，熟知此項技藝之人士仍將可容易瞭解各種修改，因本發明之普遍原則於此處具體地定義，以提供一種改進之程式碼轉換方法及裝置。

於以下之用語，主題程式用於在含有主題處理器之主題計算平台執行。含有目標處理器之目標計算平台，經由執行動態程式碼轉換之一翻譯器，用於執行主題程式。翻譯器執行自主題程式碼至目標程式碼之程式碼轉換，使得目標程式碼可於目標計算平台上執行。

第1圖例舉示例目標計算平台，包含具有複數個目標暫存器15之目標處理器13，用以儲存複數個軟體元件17，19，20，21與27之記憶體18。軟體元件包含操作系統20，主題程式碼17，翻譯器程式碼19，以及翻譯之目標程式碼21。

於一實施例，翻譯器程式碼19為一模仿器，以翻譯主題指令集架構(ISA)之主題程式碼，成為另一ISA之翻譯目標程式碼，具有或不具有最佳化。於另一實施例，翻譯器19作為一加速器，以將各相同ISA之主題程式碼，藉由執行程式碼最佳化，翻譯為目標程式碼。

翻譯器19，亦即實施翻譯器之來源程式碼編譯版本，以及翻譯之程式碼21，亦即藉由翻譯器19產生之主題程式碼17之翻譯，連同於目標處理器13執行之操作系統20執行，其典型地為微處理器或其他適當電腦。

將瞭解第1圖所例舉之結構僅為例示性，且例如，依據本發明之軟體，方法與程序，可於位於操作系統內或下方之程式碼實施。主題程式碼17，翻譯器程式碼19，操作系統20，以及記憶體18之儲存機制，可為任何廣泛類型，為本技藝之人士所熟知。

於依據第1圖之裝置，程式碼轉換較佳地於運行時間時動態地執行，當執行目標程式碼21時。翻譯器19與翻譯之程式碼21平行(inline)執行。翻譯器19較佳地利用作為編譯目標結構之應用。主題程式17藉由翻譯器19，於電腦運作時間進行翻譯，以於目標結構14上執行。

經由翻譯器19執行主題程式17，包含以交錯方式執行兩種不同類型程式碼：翻譯器程式碼19；以及目標程式碼21。翻譯器程式碼19，例如於電腦運作時間前，依據翻譯器19之高階來源程式碼實施，藉由編譯器產生。相對地，目標程式碼21於電腦運作時間，依據所翻譯之程式之儲存主題程式碼17，藉由翻譯器程式碼19產生。

主題程式17乃欲於主題處理器(未顯示出)執行。於一實施例，翻譯器19作為一模仿器。亦即，翻譯器19模仿主題處理器，然而實際以目標程式碼21於目標處理器13執行主題程式17。於較佳實施例，提供至少一全域暫存器儲存27(亦稱為主題暫存器庫27或抽象暫存器庫27)。於多處理器環境，依據主題處理器之結構，選擇性地提供多於一個之抽象暫存器庫27。主題處理器狀態之代表，乃藉由翻譯器19與目標程式碼21之元件提供。亦即，翻譯器19於各種明確之程式語言裝置，例如變數及/或物件，儲存主題處理器狀態。用於編譯翻譯器19之編譯器，決定狀態與操作如何於目標程式碼實施。相對地，目標程式碼21於目標暫存器15與記憶體位置18，暗示地提供主題處理器狀態，其藉由目標程式碼21之目標指令所控制。例如，全域暫存器儲存27之低階代表，僅為所分配記憶體之一區域。然而，於翻譯器19之來源程式碼，全域暫存器儲存27為一資料陣列或物件，可於較高階存取與控制。

第2圖為一示意流程圖，例舉依據本發明較佳實施例，用於程式碼轉換之執行控制。

如第2圖所示，控制最初位於翻譯器控制迴路190。於步驟201，控制迴路190呼叫翻譯器19之程式碼產生功能192，其翻譯主題程式碼17之一區塊，成為對應之翻譯程式碼21區塊。接著，於步驟202，翻譯程式碼21之此區塊，乃於目標處理器13執行。於一較佳實施例，翻譯程式碼21之各區塊之末端，含有使控制返回控制迴路201之指令。換言之，翻譯與執行主題程式碼之步驟為交錯的，使得部份主題程式17依序地翻譯並接著執行。

術語"基本區塊"一詞為本技藝之人士所熟知。基本區塊為具有一進入點與一退出點之程式碼片段，其限制區塊程式碼於單一控制路徑。因此緣故，基本區塊為控制流量之有用基本單元。適當地，翻譯器19將主題程式碼17分割為複數個基本區塊，其中各基本區塊為連續指令集，介於唯一進入點之第一指令與唯一退出點之最後指令間(例如跳越，呼叫或分支指令)。翻譯器可挑選這些基本區塊其中之一(區塊模式)，或挑選一基本區塊群組(群組區塊模式)。群組區塊適當地包含兩個或多個基本區塊，其一同視為單一單元。此外，翻譯器可形成同區塊(iso－blocks)，代表主題程式碼之相同基本區塊，但於不同進入條件(同區塊模式)。

於較佳實施例，中間表示法(IR)之樹狀結構乃依據主題指令序列產生，為由原始主題程式17產生目標程式碼21之一部份過程。IR樹狀結構為主題程式所計算之表示與所執行之操作之抽象代表。隨後，目標程式碼21依據IR樹狀結構產生。IR節點之收集實際為有向非循環圖形(DAGs)，但通稱為"樹狀結構(trees)"。

熟知此項技藝之人士將瞭解，於一實施例，翻譯器19使用物件導向程式語言實施，例如C＋＋。例如，一IR節點以C＋＋物件實施，且對於其他節點之參考，乃以C＋＋參照對應於這些其他節點之C＋＋物件實施。因此，IR樹狀結構乃以IR節點物件之收集實施，包含彼此之各種參照。

此外，於隨後討論之實施例，IR產生使用一組抽象暫存器定義，其對應於主題程式17所欲執行之主題結構之特別特徵。例如對於主題結構之各實體暫存器("主題暫存器")，具有唯一抽象暫存器定義。就其本身而論，翻譯器之抽象暫存器定義，可以C＋＋物件實施，其含有對於IR節點物件之參考(亦即，IR樹狀結構)。藉由一組抽象暫存器定義之所有IR樹狀結構聚集，稱為工作IR資料林(稱為"資料林(forest)"乃因其包含多個抽象暫存器根部，各稱為一IR樹狀結構)。這些IR樹狀結構與其他程序適當地形成翻譯器程式碼產生功能192之一部份)。

第3圖為一示意圖式，顯示於主題程式之指令與目標程式之指令間之關係，隨後於本發明較佳實施例進行程式碼轉換。

於此示例，主題指令S1－S3產生功能上相同之目標指令T1－T3。主題指令S1例如藉由死碼刪除最佳化所移除，且於所產生之目標程式碼無對應部份。主題指令S2產生一相同之目標指令T3。相對地，主題指令S3產生兩目標指令T1 & T2。主題與目標程式碼指令間，具有一對無，一對一，一對多或多對一之關係。

亦示於第3圖，另一經常使用之最佳化為執行程式碼重新安排，藉此，目標程式碼中之一指令序列與主題程式碼之原始序列不同。此處，第二主題指令S2重新安排為第三目標指令T3。

第4圖顯示示例線路式處理器之核心線路，例如Itanium(RTM)2處理器。核心線路分隔為前端(FE)與後端(BE)，藉由一指令緩衝器(IB)分隔。前端FE每週期最高擷取六個指令。相似地，後端BE每週期最高發送六個指令。因此，Itanium2處理器視為每週期發送六個指令。這六個指令共同稱為一指令群。

第5圖為一示意圖式，顯示示例英特爾(RTM)Itanium(RTM)2處理器內之功能執行單元。具有各種類型之大量功能單元620。此允許每週期發送許多不同指令集合。然而，因每週期僅可發送六個指令，每週期僅使用一部份之處理器功能單元620。

Itanium2處理器提供六個通用計算與邏輯單元(ALUO,1,2,3,4,5)、兩個整數單元(I0，I1)、以及一個轉移單元(Ishift)，作為通用轉移與其他特殊轉移指令。

資料快取單元(DCU 0－4)提供四個記憶體埠。兩個記憶體埠一般用於載入操作，且其他兩個通常用於儲存操作。

具有六個多媒體功能單元(PALU0－5)、兩個平行轉移單元(PSMU0,1)、一個平行相乘單元(PMUL)、以及一總數計算單元(POPCNT)。這些單元處理多媒體、平行相乘與特別POPCNT指令類型。

具有四個浮點功能單元，包含兩個FMAC單元(FMAC 0,1)，以執行浮點乘加(multiply－adds)，以及兩個FMISC單元(FMISC 1,0)，以執行其他浮點操作。

具有三個分支單元(B0－2)，得以於每週期執行三個分支。

各功能單元620具有線路，且各時鐘週期可接受一新指令。然而，對於一特別週期內可執行之各類型指令數目具有限制。

第6圖顯示一示意圖式，例舉於線路式處理器，例如英特爾(RTM)Itanium(RTM)2處理器內之指令分散。

如第6圖所示，各指令600形成具有三個指令之指令束603之一部份。六個指令600(亦即，兩個指令束)共同形成指令群606。指令600儲存於指令快取609。前端FE於各週期，藉由已知之指令束旋轉過程，由指令快取609擷取零個，一個或兩個指令束603。

各指令600經由一發送埠610，分派至其中一功能單元。發送埠610之數目少於功能單元620之數目。如第6圖所示，於此示例，具有11個發送埠與27個功能單元。埠M0,M1,M2,M3,I0,I1,F0 & F1各用於非分支指令。埠B0,B1,& B2用於分支指令。分散為分配指令600至功能單元620之過程，且依據指令發送埠610之預定映像。

各指令群首先需符合分配至發送埠之發送規則，其便利地以模板代表。亦即，各指令群中(且於各指令束中)，指令之數目，類型與位置，需與預定模板組其中之一相符。未與模板相符之任何指令群將被拒絕。通常，記錄例外或錯誤，並終止執行。

假設符合發送規則，且具有一有效模板，指令接著分配至發送埠610。

指令依據指令類型(例如ALU，記憶體，整數等)，映像至發送埠之子集。接著，依據指令於指令群內之位置，指令映像至子集內之特別發送埠。如一示例，A－類型指令可於所有M與I埠發送，而I－類型指令僅可發送至I埠。此外，I埠為不對稱的，其中一些I－類型指令僅可於埠I0發送。此外，M埠具有許多不對稱，其中一些M－類型指令僅可於一或兩個記憶體埠發送。

對於各指令束603，Itanium結構使用128－位元編碼，包含三個41－位元指令600與一5－位元模板域。模板位元幫助處理器解碼與安排指令。此外，模板位元指示終止位置，其標示各指令群606之終端。

指令600依據一組分散規則，由發送埠610分散至功能單元620。對於各不同發送埠類型，具有不同規則。當分散指令至功能單元時，處理器每次檢視一或兩個指令束(各具有三個指令)。

當發送指令束中之各指令時，產生指令束旋轉，以將新指令束帶入至目前同時考慮之兩指令束視窗。可旋轉其中一或兩個指令束。若指令束未成功完成，接著處理器將此指令束中未發送之指令延遲至下一週期。以此方式，最後將可取得處理器資源以執行延遲之指令。處理器硬體未重新呼叫指令以避免延遲。

當可能時，希望準備滿足發送規則(模板)與分散規則之指令群。尤其，希望使延遲最小化。此外，希望產生程式碼群，其中指令有效使用處理器之可使用資源。

此外，於程式碼轉換內容，且尤其為此處所述之動態二進位翻譯，乃需一種自動產生指令群之機制，現在將於下更詳細說明。

第7圖顯示準備指令群之一較佳機制。如第7圖所示，提供複數個分配集用場700。各集用場700安排為包含一或多個指令600。便利地，各集用場700包含一或多個指令空間701。

各集用場700與一或多個發送埠610相關聯。於第7圖之示例，集用場M0與發送埠M0相關聯，而集用場F與發送埠F0與發送埠F1相關聯。相似地，集用場M0_3與各埠M0至M3相關聯，而集用場A涵蓋任何M或I埠(M0,M1,M2,M3,I0或I1)。

集用場完全或至少部份地重疊。亦即，至少兩集用場700共用一特別發送埠610。如一示例，第一集用場M0與第二集用場M0_3共用發送埠M0。

集用場700形成一階層結構。於此實施例，此結構分別具有第一至第四階層711,712,713與714。於此階層結構，相關聯之數個發送埠610之寬的集用場(例如集用場M0_3)，乃附屬於相關聯較少發送埠之窄的集用場(例如集用場M0)。窄的集用場(M0)與寬的集用場(M0_3)具有至少一共同發送埠(M0)。

如另一示例，集用場I0較集用場I0_1窄且上層，而其依序地較集用場A上層。這些集用場I0，I0_1與A至少共用埠I0。

第8圖為一示意圖式，例舉依據本發明一較佳實施例之指令群準備。

如第8圖所示，主題程式17轉換為目標程式碼21(亦即，藉由第1圖之翻譯器19)。可執行之目標程式碼指令600乃準備至就緒列表820。就緒列表820包含預備執行之目標程式碼指令。理想地，就緒列表820之指令600各彼此獨立，各指令與就緒列表中之任何其他指令獨立執行。

於較佳實施例，一旦分辨任何相依性，目標程式碼指令乃放置於就緒列表中。亦即，檢查目標程式碼指令21對於目標程式碼21中其他指令之相依性。如一示例，指令LOAD R1,0(載入暫存器R1具有常數0)無相依性，而隨後PUSH R1(推送暫存器R1之內容至堆疊)於此情況與LOAD指令相關。適當地，PUSH指令僅於設置LOAD後，才添加至就緒列表。

指令由就緒列表820取出，並放置於階層集用場結構700，如第7圖所示。一平行可執行指令群(例如於兩個指令束中之一組六個指令)接著由放置之指令形成。指令群606預備好添加至指令快取609，以經由發送埠610分散至功能單元620，參照第6圖所述。通常，準備之指令群606首先例如儲存於記憶體18。適當地，儲存之指令群稍後於完整目標程式碼區塊執行。

第9圖為一示意圖式，顯示準備指令群之一較佳方法，乃於本發明較佳實施例之程式碼轉換，且尤其為動態二進位翻譯中使用。

候選指令821之就緒列表820於步驟901提供。第一候選指令821於步驟902，由就緒列表820中挑選。於一實施例，候選指令依據於就緒列表中之年齡而挑選(例如，列表中最舊之指令)。於另一實施例，乃依據潛時挑選指令。指令之執行時間(潛時)範圍為1至24週期。來自記憶體之載入，其跳過快取，以及檢查指令(其用於推測)，可使用超過50個週期。因此，於一較佳示例，乃挑選使用最長時間進行執行之指令，而非於較少時鐘週期執行之指令。於另一特別較佳實施例，指令乃依據此指令，以及與此指令相關之任何指令之累積潛時而挑選(例如，一LOAD指令具有一累積潛時，其亦包含相關PUSH指令之潛時)。

於步驟903，嘗試放置挑選之候選指令821至分配集用場階層中適當可使用之集用場700。首先，依據指令類型與此指令之適當發送埠，決定一或多組適當集用場。例如，一"添加"指令可經由任何發送埠M0－3或I0－1發送，並適當地放置於與任何這些發送埠相關聯之任何集用場中。接著，由適當集用場組中挑選所想要集用場。於第7圖之示例結構，用於"添加"指令之所想要集用場，乃由適當集用場組M0,M2,I0,M0_1,M2_3,I0_1,M0_3或A中挑選。相對地，"getF"指令僅可經由埠I0發送，且必須放置於與此埠相關聯之集用場。於此示例，I0集用場為唯一可能之所想要集用場。

於步驟904，決定所想要之集用場700是否可接受指令，例如，具有一空指令空間701。此外，此步驟包含檢查各相關從屬集用場是否未填滿。階層結構決定那一集用場較所想要集用場下層。對於示例之"getF"指令，除所想要之集用場I0外，亦檢查集用場I0_1與A。

若可使用所想要之集用場，以及各從屬集用場，接著此指令於步驟905成功地放置。放置候選指令減量所放置指令之集用場之佔有。此外，放置指令減量從屬於所放置集用場之各下層集用場之佔有。

若無法使用適當之集用場，接著拒絕候選指令。一新候選指令由就緒列表820中挑選，並重複上述步驟。

於步驟906，決定一指令群是否準備好由指令集放置於分配之集用場階層700中。若否，接著於步驟902挑選下一指令。若是，接著於步驟907，放置之指令形成一指令群。接著更新就緒列表(步驟902)以說明所放置之指令，並重複此過程。尤其，新目標指令添加至就緒列表，於此，藉由準備為指令群且可執行之指令，分辨相依性。

一旦放置預定之指令集，亦即，六個指令以形成兩個指令束，則形成一指令群。或者，一旦無進一步指令可放置，亦即，因就緒列表中無候選指令適合空的集用場，或因就緒列表目前為空的，則形成一指令群。適當地，NoOPs("非操作"或非操作指令)用於填充部份完整之指令群。

一旦就緒列表成為完全空的，此過程可終止，且未準備進一步之目標指令。於較佳實施例，目標程式碼指令21代表目標程式碼之一區塊，例如一基本區塊，群區塊或同區塊。因此，一旦於目標程式碼之此區塊之所有指令準備至指令群，則準備過程終止。

現在將參照第10與11圖所示之工作示例，更詳細說明較佳之方法。

參照第10圖，指令600(此處以字母"T"代表)分配至所想要集用場700以佔有可使用之指令空間701。於第10圖之示例，第一指令T₁ 為記憶體－類型M指令，其放置於集用場M0。此集用場僅可接受一指令，且因此指令T₁ 填入集用場M0。

如第10圖所示，各相關集用場之佔有(M0_1,M0_3,A)亦減量，亦即，回應放置指令T₁ 於上層集用場M0，指令空間701標示為填入。亦即，當一指令放置於一可使用之集用場時，於零或較低層之各相關集用場之空缺，因所放置之指令而減量。

現在放置第二指令T₂ ，此時為I－類型指令，其需填入第二層712中，集用場I0_1之指令空間。於階層714之相關集用場A之對應指令空間亦標示為佔有。

第11圖顯示放置為可形成完整指令群之指令示例。各指令T₁ －T₆ 放置於個別集用場中。

參照第7，10與11圖，於較佳實施例，提供一額外最低群集用場715以代表一指令群。群集用場715適當地具有六個指令空間(指令群之最大值)。無指令直接放置於群集用場715。相反地，群集用場提供一便利之機制，以確定六個指令已正確且有效地放置於上層階層之集用場中。

因彈性緣故，希望指令放置於最低之可應用集用場。亦即，一"添加"指令可發送至任何發送埠M0－3或I0－1，且理想地放置於A集用場。相對地，"getF"指令僅可經由發送埠I0發送，並分配至集用場I0，若可使用的話。

再次參照第7，10與11圖，各集用場700便利地與一計數值702相關聯。計數值702適當地為一整數值，對應於集用場700內可使用之指令空間701數目。

於另一實施例，一或多個集用場給予有限之計數值，小於集用場之最大佔有。亦即，對於至少一複數個集用場，最大佔有限制為小於一絕對最大值，其係由與一集用場相關聯之發送埠來予以決定。或者，絕對最大值佔有係由指令類型來予以決定。於例舉之示例集用場，M0_3集用場具有4個M－類型指令之絕對最大佔有，對應於發送埠M0至M3。然而，集用場M0_3較佳地限制為"2"之總數，使得於任何指令群，僅可放置兩個M－類型指令。限制某些指令類型數目低於系統最大值，允許較有效率之可執行程式碼於一些情況產生。亦即，發送具有許多"M"指令之指令群序列，實際上將較各最多具有兩個"M"指令之發送群組無效率。受限之計數器值得以調整與控制指令群之組成。

每當一指令放置於集用場700時，調整計數器702。此外，每次一指令添加至一較高集用場時，亦調整計數器，如第10與11圖之示例所示。計數器702提供一簡單與便利之機制，以決定一集用場，或相關集用場是否已滿。於一較佳實施例，計數器開始於一預定值(亦即，個別集用場之最大空缺，或一限制數值)，且對於各放置之指令減量一。此允許有效之"相等或小於零"類型比較，以決定特別集用場是否已滿(亦即，具有空缺指令計數等於或小於零)。

群集用場715同樣地提供一計數器值702，其開始於六，為單一群組所允許之最大指令數目，並隨各放置之指令而減量。

於較佳實施例，放置之指令集(亦即，最高至T₁ －T₆ )，藉由挑選指令，形成一指令群。較佳之順序開始於最大限制之集用場，其為最上層階層711。當準備群組時，這些指令具有優先權，當分散指令群時，以使這些最大限制之指令存取適當發送埠610。藉由放置指令至最低(最寬的)之應用集用場，乃保留最具彈性之指令，允許較少限制之指令於程式碼序列稍後產生，具有較佳機會放置於一適當發送埠。例如，一旦決定任何較高優先權之指令是否已放置，其例如需發送埠M0或I0，僅挑選集用場A中之一"添加"指令至指令群。

相關聯階層集用場之佔有，防止資源過度使用。各指令群於單一操作正確地準備("第一次")。

第12圖顯示由第11圖放置之指令T₁ －T₆ 挑選之示例指令群606。此群組符合模板"MFI－MFI_s "。模板編碼為於指令群內攜帶之5－位元模板域。於第12圖，"S"顯示第二指令束為群組之終端。

於第7，10與11圖所示之較佳示例配置，分配指令至M，I與F指令位置。此配置尤其適合於逐一區塊之程式碼轉換。亦即，基本區塊依據定義僅包含一分支－類型出口。區塊之主要工作與非分支指令相關聯，其使用第7圖之集用場結構，準備為指令群。因此，對於區塊之主要部份，準備之程式碼形成完整且有效率之指令群序列。區塊之尾端部份可包含具有NOPs之不完整之群組，因其限制之剩餘候選指令。最終指令群包含分支指令。這些分支指令適當地決定程式碼之一隨後區塊，以接著準備與執行。於第2圖所述之示例實施例，分支指令適當地將控制交回至翻譯器執行迴路190，並指示下一基本區塊。

第13圖顯示另一較佳集用場結構。於此實施例，較佳之集用場機制擴展至亦包含與分支發送埠(亦即B0_2)相關聯之集用場。

第14圖顯示準備指令群之進一步較佳方法。此方法適當地使用第13圖所示之集用場結構。

如第14圖所示，此較佳方法包含步驟1401至1407，等同於第9圖之步驟901至907。此外，於此實施例，此方法包含檢查所挑選之指令對照於模板組之步驟1408。

於示例Itanium 2處理器，M,F,與I指令之組合具有相當少之限制，其適當地藉由第9圖之集用場結構所處理。然而，I,F與B指令之組合對於所允許之組合具有相當大之限制。步驟1408包含比較所挑選候選指令821與任何已放置指令之組合，以及預定之模板組。各模板代表一有效指令集合，可藉由目標處理器執行。模板組便利地保留於查詢表，儲存於例如記憶體18中。若提出之組合未符合任何預定模板組，接著拒絕挑選之候選指令，返回至就緒列表，並挑選一新候選指令。步驟1408之模板檢查，允許分支指令包含於使用集用場之指令群準備中。

Itanium 2處理器亦提供一特殊情況"X"－類型指令，其需MLX格式模板。X類型指令需F發送埠與I發送埠。步驟1408之模板檢查可容易地辨識X類型指令。適當地，X類型指令以特殊情況處理，嘗試放置F與I類型指令於分配集用場700。僅當I與F皆成功地放置，X類型指令才可成功地放置。亦即，此為一目標程式碼指令於集用場結構需大於一個指令空間之示例。集用場結構便利地提供這些不平常或不同佔有之指令。

已參照示例Itanium(RTM)2處理器，說明本發明較佳實施例。然而，本發明亦可應用於許多其他處理器與處理器類型。尤其，本發明可應用於每週期發送多個指令之處理器。作為示例，本發明亦可應用於x86結構處理器，以及PowerPC(PPC)結構處理器等。本發明可藉由熟知此項技藝之人士，依據此處所述之原理與特徵進行修改。

概括之，此處所述之本發明較佳實施例，提供準備指令群之一便利自動化機制，可經由複數個發送埠，分散至處理器之功能單元。正確且自動地產生指令群。解碼錯誤與延遲可最小化或甚至完全避免。

雖然已顯示與說明數個較佳實施例，熟知此項技藝之人士將瞭解，於未背離本發明範疇下，如所附申請專利範圍所定義，可進行各種改變與修改。

已注意與此申請案之說明書同時或先前申請，且與此說明書可公開進行公眾檢查之所有資料與文件，且所有此類資料與文件之內容於此處併入參考。

於此說明書所揭示之所有特徵(包含任何所附申請專利範圍，摘要與圖式)，及/或所揭示之任何方法或過程之所有步驟，可以任何組合結合，除了至少一些此類特徵及/或步驟彼此不相容之組合以外。

於此說明書所揭示之各特徵(包含任何所附申請專利範圍，摘要與圖式)可以具有相同，相等或相似用途之其他特徵取代，除非以其他方式明確陳述。因此，除非以其他方式明確陳述，所揭示之各特徵僅為相等或相似特徵之通稱序列之一示例。

本發明未限於上述實施例之細節。本發明擴展至於此說明書揭示之特徵之任何新的，或任何新的組合(包含任何所附申請專利範圍，摘要與圖式)，或所揭示之方法過程之任何新的，或任何新的組合。

13．．．目標處理器

14．．．目標結構

15．．．目標暫存器

17．．．主題程式碼

18．．．記憶體

19．．．翻譯器程式碼

20．．．操作系統

21．．．翻譯之目標程式碼

27．．．全域暫存器儲存

190．．．控制迴路

192．．．程式碼產生功能

201~202．．．步驟

600．．．指令

603．．．指令束

606．．．指令群

609．．．指令快取

610．．．發送埠

620．．．功能單元

700．．．分配集用場

701．．．指令空間

702．．．計數值

711,712,713,714．．．階層

715．．．群集用場

820．．．就緒列表

821．．．候選指令

901~907．．．步驟

1401~1408．．．步驟

所附圖式，其併入且構成本說明書之一部份，例舉目前較佳實施且如下所述：第1圖係一方塊圖，例舉應用本發明實施例之裝置；第2圖係一示意流程圖，例舉用於本發明較佳實施例之執行控制；第3圖為一示意圖，顯示於本發明較佳實施例中之程式碼轉換；第4圖為一示意圖，例舉示例線路式處理器之核心線路；第5圖為一示意圖，例舉示例處理器內之功能單元；第6圖為一示意圖，例舉示例處理器內之指令分散；第7圖為一示意圖，例舉用於本發明實施例之準備指令之較佳機制；第8圖為一示意圖，例舉依據本發明較佳實施例之指令群準備；第9圖為一示意流程圖，例舉準備指令群之一較佳方法；第10圖顯示具有部份完整示例指令群之較佳機制；第11圖顯示具有完整指令群之較佳機制；第12圖顯示一示例指令群；第13圖顯示用於準備指令群之較佳機制之另一實施例；且第14圖係一示意流程圖，顯示準備指令群之另一較佳方法。