TW201712533A

TW201712533A - 經解耦的處理器指令窗及運算元緩衝區

Info

Publication number: TW201712533A
Application number: TW105117721A
Authority: TW
Inventors: 道格拉斯Ｃ伯格; 亞倫史密斯; 詹葛瑞
Original assignee: 微軟技術授權有限責任公司
Priority date: 2015-06-26
Filing date: 2016-06-04
Publication date: 2017-04-01
Also published as: BR112017024301A2; PH12017550124A1; IL256168A; CN107810476B; US10346168B2; US11048517B2; HK1246443A1; KR20180020985A; US20160378479A1; KR102502780B1; MX2017016197A; EP3314399B1; WO2016210027A1; CN107810476A; EP3314399A1; CA2986266A1; CL2017003310A1; AU2016281599A1; CO2017013252A2; JP2018518775A

Abstract

一基於指令區塊之微架構中的一處理器核心經配置，以便一指令窗及運算元緩衝區被解耦以供獨立操作，其中該區塊中的指令不依賴於該等運算元緩衝區中所維護的資源（例如控制位元及運算元）。反而，在該區塊中的指令及該等資源之間建立指標，以便可藉由跟隨該等指標針對一經刷新的指令區塊（亦即在不從一指令快取記憶體重新提取指令區塊的情況下被重新使用的該指令區塊）建立控制狀態。如此地從該運算元空間解耦該指令窗可提供更大的處理器效率，特別是在利用刷新的多核心陣列中（例如在執行使用緊密迴圈的程式碼時），因為運算元及控制位元被預先驗證了。

Description

經解耦的處理器指令窗及運算元緩衝區

此發明關於經解耦的處理器指令窗及運算元緩衝區。

指令集架構（ISA）及處理器的設計者在功率及效能之間作取捨。例如，若設計者選擇具有供應較高效能之指令的ISA，則由處理器消耗的功率可能亦較高。或者，若設計者選擇具有消耗較低功率之指令的ISA，則效能可能較低。功率消耗可依賴於在執行期間由指令所使用之處理器的硬體資源量（例如算術邏輯單元（ALU）、快取列或暫存器）。使用大量的此類硬體資源可以較高的功率消耗為代價而供應較高的效能。或者，使用小量的此類硬體資源可以較低的效能為代價而造成較低的功率消耗。編譯器可用以將高階代碼編譯成與ISA及處理器架構相容的指令。

一基於指令區塊之微架構中的一處理器核心經配置，以便一指令窗及運算元緩衝區被解耦以供獨立操作，其中該區塊中的指令不嚴格依賴於該等運算元緩衝區中所維護的資源（例如控制位元及運算元）。反而，在該區塊中的指令及該等資源之間建立指標，以便可藉由跟隨該等指標針對一經刷新的指令區塊（亦即在不從一指令快取記憶體重新提取指令區塊的情況下被重新使用的該指令區塊）建立控制狀態。如此地從該運算元空間解耦該指令窗可提供更大的處理器效率，特別是在利用刷新的多核心陣列中（例如在執行使用緊密迴圈的程式碼時），因為運算元及控制位元被預先驗證了。

提供此發明內容以使用簡化形式來介紹一系列的概念，該等概念係在實施方式中於以下進一步描述。此發明內容係不意欲識別申請之標的之關鍵特徵或必要特徵，亦非意欲用作預測申請之標的之範圍的輔助。此外，所申請的標的係不限於解決在此揭示案之任何部分中所指出之任何或所有缺點之實施方式。

圖1圖示說明性計算環境100，本指令區塊之基於使用年齡（age-based）的管理可用於該計算環境100。該環境包括編譯器105，該編譯器105可用以從程式115產生經編碼的機器可執行指令100。指令110可由處理器架構120處置，該處理器架構120配置為處理例如包含4及128個指令間之可變大小的指令區塊。

處理器架構120一般包括覆瓦狀配置（tiled configuration）下的多個處理器核心（代表性地由參考標號125指示），該等處理器核心由晶片上網路（未圖示）所互連，且更與一或更多個2級（L2）快取記憶體（代表性地由參考標號130所指示）相互操作。雖然核心及快取的數量及配置可隨實施方式而變化，應注意的是，實體核心可在程式115的運行時間期間在稱為「構成」的程序中合併在一起而成為一或更多個較大的邏輯處理器，該邏輯處理器可允許向程式的執行施用更多的處理功率。替代性地，在程式執行支援合適的執行緒級平行化（parallelism）時，核心125可在稱為「解構」的程序中分裂以獨立工作及執行來自獨立執行緒的指令。

圖2為說明性處理器核心125之一部分的簡化方塊圖。如圖所示，處理器核心125可包括前端控制單元202、指令快取記憶體204、分支預測器206、指令解碼器208、指令窗（instruction window）210、左運算元緩衝區212、右運算元緩衝區214、算術邏輯單元（ALU）216、另一ALU 218、暫存器220及加載/儲存佇列222。在某些情況下，匯流排（由箭頭所指示）可承載資料及指令，同時在其他情況下，匯流排可承載資料（例如運算元）或控制訊號。例如，前端控制單元202可透過僅承載控制訊號的匯流排與其他控制網路通訊。雖然圖2針對以特定佈置來佈置的處理器核心125圖示某數量的說明性元件，取決於特定實施方式的需要，可存在不同地佈置的更多或更少的元件。

前端控制單元202可包括電路系統，該電路系統配置為控制通過處理器核心及電路系統的資訊流以協調其內的活動。前端控制單元202亦可包括電路系統以實施有限態機器（FSM），其中狀態列舉處理器核心可能採取之操作配置中的各者。使用運算碼（如下所述）及/或其他輸入（例如硬體級訊號），前端控制單元202中的FSM電路可決定下個狀態及控制輸出。

據此，前端控制單元202可從指令快取記憶體204提取指令以供指令解碼器208處理。前端控制單元202可在控制網路或匯流排上與處理器核心125的其他部分交換控制資訊。例如，前端控制單元可與後端控制單元224交換控制資訊。前端及後端控制單元可在某些實施方式中整合成單一控制單元。

前端控制單元202亦可協調及管理處理器架構120（圖1）之各核心及其他部件的控制。據此，例如，指令區塊可同時執行於多個核心上，且前端控制單元202可與其他核心透過控制網路交換控制資訊以依所需確保同步化，以供執行各種指令區塊。

前端控制單元202可更處理關於被自動執行之指令區塊的控制資訊及元資訊（meta-information）。例如，前端控制單元202可處理與指令區塊相關聯的區塊標題。如以下更詳細討論的，區塊標題可包括關於指令區塊的控制資訊及/或元資訊。據此，前端控制單元202可包括組合邏輯、狀態機及暫時儲存單元（例如正反器），以處理區塊標題中的各欄位。

前端控制單元202可每個時脈週期提取及解碼單一指令或多個指令。經解碼的指令可儲存在指令窗210中，該指令窗210在處理器核心硬體中實施為緩衝區。指令窗210可支援指令排程器230，在某些實施方式中，該指令排程器230可保持各經解碼指令之輸入（例如預測（predication）及運算元）的就緒狀態。例如，在所有其輸入（若有的話）皆就緒時，給定的指令可被指令排程器230喚醒且準備好被發出。

在指令被發出之前，由指令需要的任何運算元可依需要儲存在左運算元緩衝區212及/或右運算元緩衝區214中。取決於指令的運算碼，可使用ALU 216及/或ALU 218或其他功能單元在運算元上執行運算。ALU的輸出可儲存於運算元緩衝區中或儲存在一或更多個暫存器220中。以資料流順序發出的儲存操作可被排入加載/儲存佇列222中，直到指令區塊提交（commit）為止。在指令區塊提交時，加載/儲存佇列222可將經提交區塊的貯存內容寫入記憶體。分支預測器206可處理關於分支出口類型（exit type）的區塊標題資訊且在作出分支預測時考慮該資訊。

如上所述，處理器架構120一般利用在被自動提取、執行及提交之區塊中所組織的指令。因此，處理器核心可以基元（atomic）方式提取集體屬於單一區塊的指令、將它們映射至處理器核心中的執行資源、執行該等指令及提交它們的結果。處理器可提交所有指令的結果或廢棄整個區塊的執行。區塊中的指令可以資料流順序執行。此外，處理器可容許區塊中的指令使用信息或其他合適形式的通訊來彼此直接通訊。因此，與其將結果寫入暫存檔，產生結果的指令可向區塊中消耗該結果的另一指令傳遞該結果。作為一示例，添加儲存於暫存器R1及R2之值的指令可如以下表格1所示地表達：表格1

以此方式，不以該指令指定來源運算元，反而該等來源運算元由指向ADD指令的指令所指定。編譯器105（圖1）可在編譯指令110期間明確地編碼控制及資料相依性，以藉此使處理器核心免於在運行時間重新發現這些相依性。這可有利地在執行這些指令期間造成減少的處理器負擔及能源的節約。作為一示例，編譯器可使用預測以將所有控制相依性轉換成資料流指令。使用這些技術，可減少高耗電暫存檔的存取次數。以下的表格2圖示用於此類指令之一般指令格式的示例：表格2

各指令可具有合適的大小，例如32位元、64位元或另一大小。在表格2中所示的示例中，各指令可包括OPCODE欄位、PR（預測）欄位、BID（廣播ID）欄位、XOP（經延伸的OPCODE）欄位、TARGET1欄位及TARGET2欄位。OPCODE欄位可針對指令或指令區塊指定獨一的運算碼，例如加、讀取、寫入或乘。PR（預測）欄位可指定與指令相關聯的任何預測。例如，二位元的PR欄位可如以下使用：00 - 未預測，01 - 被保留，10 - 基於假而預測，及11 - 基於真來預測。因此，例如，若指令僅在比較結果為真時才執行，則該指令可基於執行該比較的另一指令的結果來被預測。BID（廣播ID）欄位可支援向區塊中任何數量的消耗者指令（consumer instruction）發送運算元。2位元BID欄位可用以編碼廣播通道，指令在該廣播通道上接收其運算元中的一者。XOP（經延伸的OPCODE）欄位可支援延伸運算碼的類型。TARGET1及TARGET2欄位可允許編碼高達兩個目標指令。目標欄位可指定生產者指令（producer instruction）之結果的消耗者指令，因此容許在指令之間進行直接通訊。

各指令區塊可具有與指令區塊相關聯的某些資訊，例如關於該區塊的控制資訊及/或元資訊。此資訊可在將程式編譯成指令110以供在處理器架構120上執行的期間由編譯器105所產生。某些的這些資訊可在編譯指令區塊期間被編譯器抽取且接著在運行時間期間檢驗指令的本質。

此外，與指令區塊相關聯的資訊可為元資訊。例如，這樣的資訊可使用特殊指令或提供目標編碼的指令來提供至處理器核心，該目標編碼關於可具有與指令區塊相關聯之相關資訊的暫存器或其他記憶體。在特殊指令的情況下，此類指令的運算碼欄位可用以傳遞關於指令區塊的資訊。在另一示例中，此類資訊可被維持為處理器狀態字（PSW）的部分。例如，此資訊可有利地幫助處理器更有效率地執行指令區塊。

各種類型的資訊可使用區塊標題、特殊指令、參照記憶體的位置、處理器狀態字或其各種組合來提供至處理器核心。說明性的指令區塊標題300圖示於圖3中。在此說明性示例中，區塊標題300為128位元，且從區塊的程式計數器開始於偏移0。亦圖示各欄位的各別的開始及結束。該等欄位於以下描述於表格3中：表格3

雖然圖3中所示及表格3中所述的區塊標題包括多個欄位，其欲為說明性的，且可針對特定實施方式利用其他欄位佈置。

在一說明性示例中，編譯器105（圖1）可選擇資訊以供包括在區塊標題中或針對特殊指令選擇資訊，該特殊指令可基於指令的本質及/或基於處理需求（例如高效能或低功率）的本質向處理器核心提供此類資訊。這可有利地允許更佳地平衡效能及功率消耗之間的取捨。對於某些類型的處理應用（例如以大量核心進行高效能計算），大量的資訊可為理想的選項。替代性地，對於其他類型的處理應用（例如用於物聯網、行動裝置、可穿戴式裝置、頭戴顯示（HMD）裝置中的嵌入式處理器或其他嵌入式計算類型的應用），較少的資訊可為理想的選項。

使用區塊標題或特殊指令來傳遞之資訊的規模可取決於區塊中之指令的本質而量身定制。例如，若指令區塊包括以再現（recurring）方式執行的迴圈，則可能需要更廣泛的資訊來封裝與該區塊相關聯的控制資訊。額外控制資訊可允許處理器核心更有效率地執行迴圈以藉此改良效能。

替代性地，若存在將極少執行的指令區塊，則相對少的資訊可能就夠了。例如，若指令區塊包括若干經預測的控制迴圈，則可能需要更多資訊。類似地，若指令區塊具有大量的指令等級平行化，則可能需要更多資訊作為區塊標題或特殊指令的部分。

例如，可使用區塊標題或特殊指令中的額外控制資訊，以在指令區塊中有效地利用指令等級平行化。若指令區塊包括若干分支預測，則可能需要更多資訊。關於分支預測的額外控制資訊一般將更有效率地強化代碼的執行，因為其可造成更少的管道平齊（pipeline flush）。

應注意的是，相對應於區塊標題中之欄位的機能可被組合或更一步分離。類似地，特殊指令可提供關於圖3及表格3中所示之欄位中之任一者的資訊，或其可從這樣的欄位組合資訊。例如，雖然圖3及表格3的說明性區塊標題包括單獨的ID欄位及SIZE欄位，這兩個欄位可組合成單一欄位。

同樣地，單一特殊指令在被解碼時可提供關於指令區塊之大小的資訊及ID欄位中的資訊。除非原本指示，否則特殊指令可被包括在指令區塊中的任何一處。例如，BLOCK_SIZE #size指令可包含包括指令區塊之大小值的中間欄位。中間欄位可包含提供大小資訊的整數值。替代性地，中間欄位可包括關於大小資訊的經編碼值，以便可藉由解碼經編碼值（例如藉由在大小表格中尋找可能使用邏輯、暫存器、記憶體或代碼串流中的一者來表達的值）來獲取大小資訊。在另一示例中，BLOCK_ID #id特殊指令可傳達區塊ID號碼。

單獨的數學函數或基於記憶體的表格可將區塊ID映射進區塊標題的記憶體位址。被傳達為此指令的區塊ID相對於各指令區塊可為獨一的。在另一示例中，BLOCK_HDR_ID #id指令可傳達區塊標題ID號碼。單獨的數學函數或基於記憶體的表格可將區塊ID映射進區塊標題的記憶體位址。被傳達為此指令之部分的區塊ID可由具有相同標題結構或欄位的若干指令區塊共享。

在另一示例中，BLOCK_INFO #size、#exit types、#store mask、#write mask指令可提供關於經列舉之指令欄位的資訊。這些欄位可相對應於以上針對表格3所討論之欄位中的任一者。可依據給定實施方式的需求對於區塊標題結構及格式及特殊指令作出其他改變。例如，額外欄位可被提供為包括關於指令區塊特性的資訊。可基於指令區塊的執行頻率來包括特定欄位。

包括在區塊標題結構中的欄位或透過特殊指令或先前所討論之其他機制所提供的資訊可為特定處理器或處理器家族之可公開取得的標準指令集架構（ISA）的部分。欄位的子集合可為ISA的專屬延伸。欄位中的某些位元值可為用於處理器之標準ISA的部分，但欄位中的某些其他位元值可提供專屬機能。此示例性欄位可允許ISA設計者在不完全揭露與專屬延伸相關聯之本質及機能的情況下對ISA添加專屬延伸。因此，在此情況中，由ISA設計者所發佈的編譯器工具會支援欄位中的專屬位元值、完全單獨的專屬欄位或特殊指令。使用這樣的欄位可具體關聯於專屬於某些處理器設計的硬體加速器。因此，程式可包括不可辨識的區塊標題欄位或特殊指令；但該程式可更包括程式庫（recipe）以解密該欄位或解碼該指令。

編譯器105（圖1）可處理指令區塊（該指令區塊一般配置為由一或更多個處理器核心自動執行），以產生關於指令區塊之資訊（包括元資訊及控制資訊）。可僅針對一個ISA（例如同用於物聯網、行動裝置、HMD裝置、可穿戴式裝置或其他嵌入式計算環境的處理器使用的ISA）編譯某些程式。編譯器可採用例如為靜態代碼分析或代碼概況分析的技術，以產生關聯於指令區塊資訊。在某些情況下，編譯器可考慮例如為指令區塊的特性及其執行頻率的因素。指令區塊的相關特性例如可包括（但不一定限於）：(1)指令等級平行化、(2)迴圈數量、(3)經預測之控制指令的數量及(4)分支預測的數量。

圖4為用於管理安置於處理器核心中之指令窗中之指令區塊之說明性方法400的流程圖。除非特別聲明，圖4中之方法或步驟及繪圖中所示及以下所述之其他流程圖中的那些方法或步驟係不受限於特定的順序或序列。此外，某些方法或其步驟可同時發生或被執行，且取決於給定實施方式的需求，並非所有的方法或步驟都必須在如此的實施中被執行，且可以可選地利用某些方法或步驟。同樣地，可在某些實施方式中消除某些步驟，以減少管理負擔（overhead），但這例如可能造成脆性（brittleness）增加。可在任何給定的應用中所實施的各種特徵、成本、管理負擔、效能及強固性的取捨一般可視為設計選擇的問題。

在步驟405中，例如使用使用年齡向量來明確地追蹤經提取之指令區塊的使用年齡。因此，與其使用指令窗中的指令區塊順序（亦即位置）（該順序一般用以隱含地追蹤使用年齡），控制單元維持明確的狀態。在步驟410中維護以使用年齡排序的指令區塊清單。亦可追蹤指令區塊優先度（其中在某些情況下可由編譯器決定優先度），且亦可在某些實施方式中維護以優先度排序的指令區塊清單。

在步驟415中，在識別指令區塊以供處置時，搜尋以使用年齡排序的清單以尋找匹配的指令區塊。在某些實施方式中亦可在優先度排序的清單中搜尋匹配。在步驟420中，若找到匹配的指令區塊，則可在不從指令快取記憶體重新提取該指令區塊的情況下，刷新該指令區塊，這可改良處理器核心的效率。這樣的刷新允許例如在程式在緊密迴圈中執行且指令分支而回到它們本身的情況時重新使用指令區塊。亦可在多個處理器核心組合成大型陣列時加劇這樣的效率增加。在刷新指令區塊時，指令被留在原位，且只有運算元緩衝區及加載/儲存佇列中的有效位元被清除。

若未找到對於指令區塊的匹配，則以使用年齡排序的清單（或以優先度排序的清單）可再次用以尋找一指令區塊，該指令區塊可被提交以針對新的指令區塊開啟指令窗中的槽。例如，可提交最舊的指令區塊或最低優先度的指令區塊（其中可能想要高優先度的區塊保持被緩衝，因為存在其日後重新使用的可能性）。在步驟425中，新的指令區塊被映射進可用的槽。可使用批量分配程序來分配指令區塊，其中區塊中的指令及與該等指令相關聯的所有資源被一次（例如集體）提取。

在步驟430中，執行新的指令區塊，以便其指令被自動提交。在步驟435中，可以類似於傳統重新排序緩衝區的方式以使用年齡的順序執行其他指令區塊，以使用基元方式提交它們各別的指令。

圖5為說明性方法500的流程圖，可由基於指令區塊的微架構來執行該方法500。在步驟505中，處理器核心中的控制單元使得經提取的指令區塊以相連的替換（contiguous replacement）或非相連的替換被緩衝。在步驟510中，使用相連的指令區塊替換，緩衝區可像是循環緩衝區一樣地操作。在步驟515中，使用非相連的指令區塊替換，可不按順序替換指令區塊。例如，在步驟520中，以如上所述的類似方式，可執行明確之基於使用年齡的追蹤，以便基於經追蹤的使用年齡來提交及替換指令區塊。亦可追蹤優先度，且經追蹤的優先度可用以在步驟525中提交及替換指令區塊。

圖6為說明性方法600的流程圖，該方法600可由安置於處理器核心中的控制單元執行。在步驟605中，追蹤經緩衝之指令區塊的狀態，且在步驟610中使用經追蹤狀態來維護指令區塊清單。例如，取決於特定實施需求，狀態可包括使用年齡、優先度或其他資訊或上下文。在步驟615中，在識別指令區塊以供映射時，檢查該清單是否有匹配，如步驟620中所示。在步驟625中，在不重新提取的情況下刷新來自清單的匹配指令區塊。以如上所述的類似方式，在步驟630中，在未在清單中找到匹配的指令區塊時，則從指令快取記憶體提取指令區塊，且將指令區塊映射進指令窗中的可用槽。

圖7為用於管理安置於處理器核心中之指令窗中之指令區塊之說明性方法700的流程圖。在步驟705中，在處理器核心中維護指令區塊大小的大小表。可以各種方式表達大小表，例如使用邏輯、暫存器、記憶體、代碼串流或其他合適構造中的一者來表達。在步驟710中，讀取編碼於指令區塊之標題中的索引。指令區塊包括一或更多個經解碼的指令。據此，與其使用圖3及表格3中所示的SIZE欄位來硬編碼指令區塊大小，該欄位可用以編碼或儲存對大小表格的索引。亦即，索引可充當指向大小窗中之表值的指標，以允許特定大小與指令區塊相關聯。

包括在大小表中之大小表值的數量可隨實施方式而變化。較大的大小表值數量可用以允許更多精細度，這在存在與給定程式相關聯之相對廣的指令區塊大小分佈的情況下可為有益的，但是以在一般實施方式中增加管理負擔為代價。在某些情況下，包括在表格中之大小的數量可由編譯器所選擇，以使用一方式來涵蓋指令區塊大小的特定分佈，該方式最佳化整體指令封裝密度且最小化無操作（no ops）。例如，包括在大小表中的大小可選擇為在程式中匹配共同使用的區塊指令大小。在步驟715中，索引用以從大小表尋找指令區塊大小。在步驟720中，指令區塊基於其大小被映射進指令窗中的可用槽。

在某些實施方式中，如步驟725中所示，指令窗可被分段成二或更多個子窗，例如使用二或更多個不同大小的二或更多個子窗。經分段之子窗中的此變化可允許針對給定的指令區塊大小的分佈進一步地調適，且可進一步增加指令封裝密度。亦可在某些情境下動態執行分段。

圖8為說明性方法800的流程圖，可由基於指令區塊的微架構來執行該方法500。在步驟805中，實施大小表。如上所討論的，可使用邏輯、暫存器、記憶體、代碼串流或其他合適構造中的一者來實施大小表，且大小表可包括相對應於由給定程式所利用之指令區塊分佈中通用的那些大小的大小。在步驟810中，針對參照至大小表中之表值的指標檢驗指令區塊標題。在步驟815中，由表值所識別的大小用以決定指令區塊在指令窗內的放置。

在步驟820中，批量分配與指令區塊相關聯的資源。在步驟825中，在映射指令窗中的指令區塊時使用指令區塊標題中所標定的限制條件。這些可例如包括對準上的限制條件及用以緩存指令區塊的指令窗容量。在步驟830中，指令窗中之指令區塊的順序被控制單元追蹤，且在某些情況下可不按順序提交區塊。例如，可優先化方塊，以便不按順序處置重度使用的或特別重要的指令區塊（這可增加處理效率），而不是使用循環的指令區塊緩衝區，在該循環的指令區塊緩衝區中，是基於指令窗中的方塊位置來處置方塊。

在步驟835中，可明確追蹤指令區塊的使用年齡，且在某些情況下可基於如此明確追蹤的使用年齡提交指令區塊。在步驟840中，刷新指令區塊（亦即，在不需要從指令快取記憶體重新提取指令區塊的情況下重新使用指令區塊）。

圖9為說明性方法900的流程圖，該方法900可由安置於處理器核心中的控制單元所執行。在步驟905中，指令窗被配置為具有多個區段，該多個區段以類似於上述的方式具有二或更多個不同大小。在步驟910中，檢驗區塊指令標題是否有編碼於區塊指令標題中的索引。在步驟915中，使用索引在大小表中執行尋找，而在步驟920中，基於大小尋找，指令區塊被放進適用於特定區塊大小的指令窗區段。在步驟925中，使用批量分配來提取與指令區塊相關聯的資源。

圖10為用於管理安置於處理器核心中之指令窗中之指令區塊之說明性方法1000的流程圖。在步驟1005中，指令區塊從指令快取記憶體映射進指令窗。指令區塊包括一或更多個經解碼的指令。在步驟1010中，分配與指令區塊中之指令中的各者相關聯的資源。資源一般包括控制位元及運算元，且可使用批量分配程序來執行分配，在批量分配程序中，集體獲取或提取所有資料。

不是緊密地耦合資源及指令，指令窗及運算元緩衝區被解耦，以便可藉由在資源及區塊中的經解碼指令間維持一或更多個指標，來獨立操作指令窗及運算元緩衝區，如步驟1015中所示。在步驟1020中刷新指令區塊（亦即在不需從指令快取記憶體重新提取指令區塊的情況下重新使用指令區塊）時，則在步驟1025中，可藉由跟隨指標回到原始控制狀態來重新使用資源。

這樣的解耦可提供增加的處理器核心效率，特別是在不如通常發生地重新提取的情況下刷新指令區塊時（例如在程式執行於緊密迴圈中且重複利用指令時）。藉由透過指標來建立控制狀態，資源在不額外消耗處理循環及其他成本的情況下被有效地預先驗證。亦可在多個處理器核心組成大型陣列時複合這樣的效率增加。

圖11為說明性方法1100的流程圖，該方法1100可由基於指令區塊的微架構所執行。在步驟1105中，以新的指令區塊替換所提交之指令區塊的方式將指令區塊映射進指令窗。映射可受制於指令區塊標題中所標定的各種限制條件，例如對準上的限制條件及用以緩存指令區塊的指令窗容量，如步驟1110中所指示。在步驟1115中，針對新的指令區塊分配資源，這一般使用批量分配程序來實施，如上所述。

在步驟1120中，指令窗中之指令區塊的順序被控制單元追蹤，且在某些情況下可不按順序提交區塊。例如，可優先化方塊，以便不按順序處置重度使用的或特別重要的指令區塊（這可增加處理效率），而不是使用循環的指令區塊緩衝區，在該循環的指令區塊緩衝區中，是基於指令窗中的方塊位置來處置方塊。

在步驟1125中，指令窗從運算元緩衝區解耦，以便例如指令區塊及運算元區塊被獨立管理（亦即在不使用指令及運算元之間之嚴格對應關係的情況下進行）。如上所述，解耦藉由在刷新指令區塊時允許預先驗證資源而增加效率。

圖12為說明性方法1200的流程圖，該方法900可由安置於處理器核心中的控制單元所執行。在步驟1205中，維護指令窗以供緩存一或更多個指令區塊。在步驟1210中，維護一或更多個運算元緩衝區，以供緩存與指令區塊中的指令相關聯的資源。如上所述，資源通常包括控制位元及運算元。在步驟1215中，使用指令及資源之間的指標來追蹤狀態。

在方塊1220中，在刷新指令區塊時，可跟隨指標回到經追蹤的狀態。在步驟1225中，在指令區塊提交時，清除運算元緩衝區中的控制位元且設定新的指標。在步驟1230中，與以上所討論的方法一樣，指令窗及運算元緩衝區被解耦，以便在非相對應的基礎上由控制單元維護指令區塊及運算元區塊。

圖13為用於管理安置於處理器核心中之指令窗中之指令區塊之說明性方法1300的流程圖。在步驟1305中，使用批量分配程序來分配指令區塊，其中區塊中的指令及與該等指令相關聯的所有資源被一次（例如集體）提取。相較於以較小的組集重複提取指令及資源的傳統架構，此處的批量分配允許同時及一貫地管理區塊中的所有指令，這可改良處理器核心操作的效率。此改良在給定的編程構造（例如最小化分支的一個編程構造）允許編譯器產生相對大的指令區塊的情況下可能甚至更顯著。例如，在某些實施方式中，指令區塊可包含高達128個指令。

批量分配指令區塊亦經由以下刷新特徵強化了處理器核心的效率：在不如一般發生地重新提取的情況下重新使用指令區塊（例如在程式在緊密迴圈中執行且指令分支而回到它們本身時）。亦可在多個處理器核心組成大型陣列時合成這樣的效率增加。在刷新指令區塊時，指令被留在原位，且只有運算元緩衝區及加載/儲存佇列中的有效位元被清除。這允許完全繞過經刷新之指令區塊的提取。

批量分配指令區塊亦在指令及資源的群組就位時允許額外的處理效率。例如，可從區塊中的一個指令發送運算元及明確的信息至另一個指令。在傳統架構中不允許這樣的機能，因為一個指令不能向另一指令發送還未要被分配的任何物。產生常數的指令亦可在運算元緩衝區中固定（pin）值，以便該等值在刷新之後維持有效，因此不需在指令區塊每次執行時重新產生該等值。

在步驟1310中，在指令區塊映射進指令窗時，在步驟1315中，該等指令區塊受制於可由映射策略所施用的限制、區塊標題中所標定的限制條件或兩者。在某些情況下，可取決於給定程式的特定需求而由編譯器設定策略。標定的限制條件例如可包括對準上的限制條件以及用以緩存指令區塊之指令窗容量上的限制條件。

在步驟1320中，在某些實施方式中，指令窗可被分段成相同大小或不同大小的子窗。因為指令區塊大小對於給定的程式而言通常是隨機或不均勻地分佈，經分段子窗中的如此變化可更有效率地調適給定的指令區塊大小分佈，以藉此增加指令窗中的指令封裝密度。取決於當前正由處理器核心處置的區塊大小分佈，在某些情境中，亦可動態執行分段。

在某些實施方式中，指令區塊標題可編碼索引或包括指向大小表的指標，該大小表是使用邏輯、暫存器、記憶體或代碼串流中的一者來實施的。在步驟1325中，大小表可包括指令區塊大小表值，以便可從表格尋找指令區塊大小。使用經編碼的索引及大小表可藉由在可用區塊大小中給予更多精細度來強化指令區塊中的指令封裝密度，以在區塊在實施分支時包括相對小數量的指令時減少無操作（no operations, nops）的發生，舉例而言。

圖14為說明性方法1400的流程圖，該方法1100可由基於指令區塊的微架構所執行。在步驟1405中，處理器核心中的控制單元施用用於處置指令區塊的策略。在步驟1410中，使用上述的批量分配程序來分配指令區塊，其中指令及所有相關聯的資源被一次提取。在步驟1415中，指令區塊被映射進指令窗，其中該映射可受制於各種限制條件，例如對準上的限制條件及用以緩存指令區塊之指令窗容量上的限制條件，該等限制條件被標定於指令區塊的標題中，如上所述。

在步驟1420中，可施用包括由控制單元追蹤指令窗中之指令區塊順序的策略。例如，在某些情況下，可不按順序提交區塊，而不是使用循環的指令區塊緩衝區，在該循環的指令區塊緩衝區中，是基於區塊在指令窗中的位置來處置區塊。在步驟1425中，可施用包括基於優先度（其在某些情境中可由編譯器所標定）來處置區塊的策略，以便不按順序處置重度使用或特別重要的區塊，這可進一步增加處理效率。

在步驟1430中，可施用包括明確追蹤指令區塊使用年齡的策略，且在某些情況下可基於如此明確追蹤的使用年齡提交指令區塊。在步驟1435中，可施用包括依據指令窗（或窗的區段）中經適當調整大小之槽的可用性來映射指令區塊的策略。在步驟1440中，可施用包括使用循環緩衝區將指令區塊映射進指令窗的策略。

在某些實施方式中，可利用各種策略組合，以進一步強化處理器核心效率。例如，控制單元可在策略之間動態切換，以施用針對給定指令區塊或指令區塊群組提供更佳之操作的策略。例如，在某些情境中，使用循環緩存技術可為更有效率的，其中以相連的方式按順序處置指令區塊。在其他情境中，不按順序及基於使用年齡的處置可提供更佳的操作。

圖15為說明性方法1500的流程圖，該方法900可由安置於處理器核心中的控制單元所執行。在步驟1505中，指令窗被配置為具有多個區段，該多個區段以類似於上述的方式具有二或更多個不同大小。在步驟1510中，提取指令區塊，且在步驟1515中，提取所有其相關聯的資源。

在步驟1520中，指令區塊被放置在窗的合適區段中，該區段最大化窗中的指令密度。例如，若編譯器產生包括具有低指令計數之相對大數量區塊的區塊大小分佈（例如用以實施程式分支等等），則指令窗可具有針對小指令區塊而具體調整大小的區段。類似地，若存在相對大數量的高指令計數區塊（例如用於科學及類似應用），則可針對如此較大的指令區塊具體調整區段的大小。因此，可依據特定大小分佈來調整指令窗區段的大小調整，或在分佈改變時在某些情況下動態調整指令窗區段的大小調整。在方塊1525中，指令區塊可受制於指令區塊標題中所標定的限制條件，如以上所討論的。

現藉由說明的方式且非作為所有實施例的窮舉清單，而呈現本經解耦之處理器指令窗及運算元緩衝區的各種示例性實施例。一示例包括一種用於管理安置於一處理器中之指令窗中之指令區塊的方法，包括以下步驟：從一指令快取記憶體將一指令區塊映射進該指令窗，該指令區塊包括一或更多個經解碼指令；針對該指令區塊分配資源，其中該等資源包括與該指令區塊中之該一或更多個經解碼指令中的各者相關聯的控制位元及運算元；維護該等資源及該區塊中之該一或更多個經解碼指令之間的一或更多個指標；在不從該指令快取記憶體重新提取該指令區塊的情況下刷新該指令區塊；及藉由跟隨該一或更多個指標重新使用該等資源。在另一示例中，該方法更包括以下步驟：針對從該指令快取記憶體所提取的各指令區塊執行批量分配，以獲取與該指令區塊中之該一或更多個指令中的各者相關聯的資源。在另一示例中，該方法更包括以下步驟：在從該指令窗解耦的運算元緩衝區中維護運算元及控制位元，以便在刷新一指令區塊時預先驗證資源。在在另一示例中，該等控制位元包括運算元準備狀態。在另一示例中，該等資源包括運算碼（opcode）。在另一示例中，該方法更包括以下步驟：基於一程式來利用指令區塊，且在使用一經編程迴圈來執行程式的執行時刷新該指令區塊。

一進一步示例包括一基於指令區塊的微架構，包括：一控制單元；一或更多個運算元緩衝區；及一指令窗，配置為儲存要在該控制單元控制之下的經解碼的指令區塊，其中該控制包括以下操作：將指令區塊映射進該指令窗，以便一新的指令區塊替換一經提交的指令區塊，針對該新的指令區塊分配資源，其中該等資源包括控制位元及運算元，及從該一或更多個運算元緩衝區解耦該指令窗，其中指令區塊及運算元區塊被獨立管理，以便在刷新一指令區塊時預先驗證資源。在另一示例中，該基於指令區塊的微架構更包括用以基於該指令區塊之一標題中所標定的限制條件來映射該等指令區塊的一配置。在另一示例中，請求項8之該基於指令區塊的微架構，其中該等經標定的限制條件包括對準限制條件或指令窗之指令區塊容量限制條件中的一者。在另一示例中，該基於指令區塊的微架構更包括一配置，該配置用以追蹤該指令窗中之該等指令區塊之一順序及不按順序提交指令區塊。在另一示例中，該基於指令區塊的微架構更包括一晶片上網路，該晶片上網路允許複數個處理器核心組合或分解。在另一示例中，該基於指令區塊的微架構更包括一配置，該配置用以在該複數個處理器核心組合時維護一邏輯指令窗及一或更多個邏輯運算元緩衝區之間的解耦。在另一示例中，該基於指令區塊的微架構更包括一配置，該配置用以在該複數個處理器核心分解時維護一邏輯指令窗及一或更多個邏輯運算元緩衝區之間的解耦。在另一示例中，該基於指令區塊的微架構更包括一配置，該配置用以在不從一指令快取記憶體重新提取該指令區塊的情況下刷新該指令區塊。

一進一步示例包括一種控制單元，該控制單元安置於一處理器中，該控制單元佈置為執行一種用於指令區塊管理的方法，該方法包括以下步驟：維護一指令窗，以供緩存一或更多個指令區塊；維護一或更多個運算元緩衝區，以供針對該一或更多個指令區塊緩存資源；使用該等指令區塊及該等經緩存的資源之間的指標來追蹤狀態；在刷新一指令區塊時，跟隨該指標以重新使用該經追蹤狀態。在另一示例中，該控制單元更包括以下步驟：在提交一指令區塊時清除控制位元及設定一新的指標。在另一示例中，該控制單元更包括以下步驟：從該一或更多個運算元緩衝區解耦該指令窗，以便在一非相對應的基礎下維護指令區塊及運算元區塊。在另一示例中，該控制單元更包括以下步驟：批量分配該等經緩存的資源，以便針對該指令區塊中的所有指令獲取資源。在另一示例中，該控制單元更包括以下步驟：維護涵蓋複數個處理器核心的一邏輯指令窗。在另一示例中，該控制單元更包括以下步驟：維護涵蓋複數個處理器核心的一邏輯運算元緩衝區，且進一步從該邏輯指令窗解耦該邏輯運算元緩衝區，以允許在不重新提取一指令區塊的情況下刷新該指令區塊時預先驗證狀態。

上述標的僅藉由說明的方式來提供且不應被建構為限制。可在不依照所繪示及描述的示例實施例及應用的情況下，且在不脫離本揭示案的真實精神及範圍（其係闡述於以下請求項中）的情況下，對本文中所述之標的作出各種更改及改變。

100‧‧‧計算環境 105‧‧‧編譯器 110‧‧‧指令 115‧‧‧程式 120‧‧‧處理器架構 125‧‧‧處理器核心 130‧‧‧2級（L2）快取記憶體 202‧‧‧前端控制單元 204‧‧‧指令快取記憶體 206‧‧‧分支預測器 208‧‧‧指令解碼器 210‧‧‧指令窗 212‧‧‧左運算元緩衝區 214‧‧‧右運算元緩衝區 216‧‧‧算術邏輯單元 218‧‧‧算術邏輯單元 220‧‧‧暫存器 222‧‧‧加載/儲存佇列 224‧‧‧後端控制單元 230‧‧‧指令排程器 300‧‧‧區塊標題 400‧‧‧方法 405‧‧‧步驟 410‧‧‧步驟 415‧‧‧步驟 420‧‧‧步驟 425‧‧‧步驟 430‧‧‧步驟 435‧‧‧步驟 500‧‧‧方法 505‧‧‧步驟 510‧‧‧步驟 515‧‧‧步驟 520‧‧‧步驟 525‧‧‧步驟 600‧‧‧方法 605‧‧‧步驟 610‧‧‧步驟 615‧‧‧步驟 620‧‧‧步驟 625‧‧‧步驟 630‧‧‧步驟 700‧‧‧方法 705‧‧‧步驟 710‧‧‧步驟 715‧‧‧步驟 720‧‧‧步驟 725‧‧‧步驟 800‧‧‧方法 805‧‧‧步驟 810‧‧‧步驟 815‧‧‧步驟 820‧‧‧步驟 825‧‧‧步驟 830‧‧‧步驟 835‧‧‧步驟 840‧‧‧步驟 900‧‧‧方法 905‧‧‧步驟 910‧‧‧步驟 915‧‧‧步驟 920‧‧‧步驟 925‧‧‧步驟 1000‧‧‧方法 1005‧‧‧步驟 1010‧‧‧步驟 1015‧‧‧步驟 1020‧‧‧步驟 1025‧‧‧步驟 1100‧‧‧方法 1105‧‧‧步驟 1110‧‧‧步驟 1115‧‧‧步驟 1120‧‧‧步驟 1125‧‧‧步驟 1200‧‧‧方法 1205‧‧‧步驟 1210‧‧‧步驟 1215‧‧‧步驟 1220‧‧‧步驟 1225‧‧‧步驟 1230‧‧‧步驟 1300‧‧‧方法 1305‧‧‧步驟 1310‧‧‧步驟 1315‧‧‧步驟 1320‧‧‧步驟 1325‧‧‧步驟 1400‧‧‧方法 1405‧‧‧步驟 1410‧‧‧步驟 1415‧‧‧步驟 1420‧‧‧步驟 1425‧‧‧步驟 1430‧‧‧步驟 1435‧‧‧步驟 1440‧‧‧步驟 1500‧‧‧方法 1505‧‧‧步驟 1510‧‧‧步驟 1515‧‧‧步驟 1520‧‧‧步驟 1525‧‧‧步驟

圖1圖示一說明性計算環境，其中編譯器提供運行於包括多個處理器核心之架構上的經編碼指令；

圖2為用於示例性處理器核心之說明性微架構的方塊圖；

圖3圖示用於區塊標題的說明性佈置；及

圖4-15為說明性方法的流程圖。

在該等繪圖中，類似的標號指類似的構件。構件並非按比例繪製，除非原本就指明。

國內寄存資訊 (請依寄存機構、日期、號碼順序註記) 無

國外寄存資訊 (請依寄存國家、機構、日期、號碼順序註記) 無

(請換頁單獨記載) 無

1000‧‧‧方法

1005‧‧‧步驟

1010‧‧‧步驟

1015‧‧‧步驟

1020‧‧‧步驟

1025‧‧‧步驟

Claims

一種用於管理安置於一處置器中之一指令窗中之指令區塊的方法，包括以下步驟：從一指令快取記憶體將一指令區塊映射進該指令窗，該指令區塊包括一或更多個經解碼指令；針對該指令區塊分配資源，其中該等資源包括與該指令區塊中之該一或更多個經解碼指令中的各者相關聯的控制位元及運算元；維護該等資源及該區塊中之該一或更多個經解碼指令之間的一或更多個指標；在不從該指令快取記憶體重新提取該指令區塊的情況下刷新該指令區塊；及藉由跟隨該一或更多個指標重新使用該等資源。
如請求項1所述之方法，更包括以下步驟：針對從該指令快取記憶體所提取的各指令區塊執行批量分配，以獲取與該指令區塊中之該一或更多個指令中的各者相關聯的資源。
如請求項1所述之方法，更包括以下步驟：在從該指令窗解耦的運算元緩衝區中維護運算元及控制位元，以便在刷新一指令區塊時預先驗證資源。
如請求項3所述之方法，其中該等控制位元包括運算元就緒狀態。
如請求項1所述之方法，其中該等資源包括運算碼（opcode）。
如請求項5所述之方法，更包括以下步驟：基於一程式來利用指令區塊，且在使用一經編程迴圈來執行程式的執行時刷新該指令區塊。
一種基於指令區塊的微架構，包括：一控制單元；一或更多個運算元緩衝區；及一指令窗，配置為儲存要在該控制單元控制之下的經解碼的指令區塊，其中該控制包括以下操作：將指令區塊映射進該指令窗，以便一新的指令區塊替換一經提交的指令區塊，針對該新的指令區塊分配資源，其中該等資源包括控制位元及運算元，及從該一或更多個運算元緩衝區解耦該指令窗，其中指令區塊及運算元區塊被獨立管理，以便在刷新一指令區塊時預先驗證資源。
如請求項7所述之基於指令區塊的微架構，更包括用以基於該指令區塊之一標題中所標定的限制條件來映射該等指令區塊的一配置。
如請求項8所述之基於指令區塊的微架構，其中該等經標定的限制條件包括對準限制條件或指令窗之指令區塊容量限制條件中的一者。
如請求項7所述之基於指令區塊的微架構，更包括一配置，該配置用以追蹤該指令窗中之該等指令區塊之一順序及不按順序提交指令區塊。
如請求項7所述之基於指令區塊的微架構，更包括一晶片上網路，該晶片上網路允許複數個處理器核心組合或分解。
如請求項11所述之基於指令區塊的微架構，更包括一配置，該配置用以在該複數個處理器核心組合時維護一邏輯指令窗及一或更多個邏輯運算元緩衝區之間的解耦。
如請求項11所述之基於指令區塊的微架構，更包括一配置，該配置用以在該複數個處理器核心分解時維護一邏輯指令窗及一或更多個邏輯運算元緩衝區之間的解耦。
如請求項7所述之基於指令區塊的微架構，更包括一配置，該配置用以在不從一指令快取記憶體重新提取該指令區塊的情況下刷新該指令區塊。
一種控制單元，安置於一處理器中，該控制單元佈置為執行一種用於指令區塊管理的方法，該方法包括以下步驟：維護一指令窗，以供緩存一或更多個指令區塊；維護一或更多個運算元緩衝區，以供針對該一或更多個指令區塊緩存資源；使用該等指令區塊及該等經緩存的資源之間的指標來追蹤狀態；在刷新一指令區塊時，跟隨該指標以重新使用該經追蹤狀態。
如請求項15所述之控制單元，更包括以下步驟：在提交一指令區塊時清除控制位元及設定一新的指標。
如請求項15所述之控制單元，更包括以下步驟：從該一或更多個運算元緩衝區解耦該指令窗，以便在一非相對應的基礎下維護指令區塊及運算元區塊。
如請求項15所述之控制單元，更包括以下步驟：批量分配該等經緩存的資源，以便針對該指令區塊中的所有指令獲取資源。
如請求項15所述之控制單元，更包括以下步驟：維護涵蓋複數個處理器核心的一邏輯指令窗。
如請求項19所述之控制單元，更包括以下步驟：維護涵蓋複數個處理器核心的一邏輯運算元緩衝區，且進一步從該邏輯指令窗解耦該邏輯運算元緩衝區，以允許在不重新提取一指令區塊的情況下刷新該指令區塊時預先驗證狀態。