TW201717021A

TW201717021A - 基於區塊尺寸對映指令區塊

Info

Publication number: TW201717021A
Application number: TW105119684A
Authority: TW
Inventors: 道格拉斯Ｃ伯格; 亞倫史密斯; 詹葛瑞
Original assignee: 微軟技術授權有限責任公司
Priority date: 2015-06-26
Filing date: 2016-06-23
Publication date: 2017-05-16
Also published as: CL2017003264A1; JP2018519597A; WO2016210026A1; US9952867B2; BR112017024335A2; KR102575938B1; US20160378484A1; MX2017016202A; AU2016281598A1; IL256176A; CA2985495A1; CO2017013251A2; CN107771318A; EP3314405A1; PH12017550125A1; HK1246430A1; KR20180021850A; CN107771318B

Abstract

在基於指令區塊的微處理器架構中之處理器核心利用具有標頭的指令區塊，該標頭包括索引至尺寸表，該尺寸表可使用記憶體、暫存器、邏輯、或編碼流中之一者表示。在處理器核心中的控制單元決定對於目前指令區塊要提取多少指令以基於從尺寸表所指示的區塊尺寸來對映至指令窗中。由於對於特定程式而言指令區塊尺寸通常是不均勻地分佈，尺寸表的利用使得能夠在將指令區塊匹配至在指令窗中的可利用的槽的尺寸上，相比於指令區塊具有固定尺寸或是具有較低精細（granularity）的配置更靈活。這種靈活性可藉由減少在特定指令區塊中的nops（無操作，例如null函式）的數量而使得能有較密的指令包裝，其增加整體處理效率。

Description

基於區塊尺寸對映指令區塊

本發明是關於基於區塊尺寸對映指令區塊。

指令集架構（ISAs）與處理器的設計者在功率與效能做權衡。舉例而言，若設計者選擇具有提供較高效能的指令的ISA，則由處理器的功率消耗可能亦較高。或者，若設計者選擇具有消耗較低功率的指令的ISA，則效能可能較低。功率消耗可與在執行時由指令所使用之處理器的硬體資源的數量緊密相關，例如運算邏輯單元（ALUs）、快取線、或暫存器。大量的此硬體資源的使用可在以較高功率消耗的成本提供較高效能。或者，少量的此硬體資源的使用可在較低效能的成本導致較低功率消耗。編譯器可用於將高級代碼編譯成與ISA和處理器架構相容的指令。

本發明內容係提供以下面實施方式中進一步描述之簡化形式介紹概念之選擇。本發明內容並不意欲識別所主張標的之關鍵特徵或必要特徵，亦非意欲被用於幫助決定所主張標的之範疇。此外，所主張標的並未限制於解決任何或所有在本文任意處所述之缺點的實施。

第1圖示出示例性計算環境100，本發明指令區塊對映可與該計算環境100來利用。環境包括編譯器105，其可被利用以從程式115產生經編碼的機器可執行指令110。指令110可被處理器架構120處理，該處理器架構經配置以處理可變動尺寸容納（variable size containing）的指令的區塊，例如，在4和128間之指令。

處理器架構120一般包括在磚片式配置（tiled configuration）中的多個處理器核心（代表性地由元件符號125標示），其由晶片上網路（未圖示）互連並進一步與一或多個等級2（L2）快取（代表性地由元件符號130標示）交互操作。儘管核心與快取的數量和配置可隨著實施而不同，應注意實體核心可被合併在一起，在稱為「構成（composing）」的程序中於程式115的執行期間，成為一或多個較大的邏輯處理器，該較大的邏輯處理器可使得更多的處理能力可被用於程式執行。或者，當程式執行支援合適的執行緒等級的平行化時，核心125可被分割，在稱為「解構成（decomposing）」的程序中，以獨立的作業並由獨立的執行緒執行指令。

第2圖為示例性處理器核心125的部份的簡化的方塊圖。如圖所示，處理器核心125可包括前端控制單元202、指令快取204、分支預測器206、指令解碼器208、指令窗210、左運算元緩衝器212、右運算元緩衝器214、運算邏輯單元（ALU）216、另一ALU218、暫存器220、及載入/儲存佇列222。在一些情況下，匯流排（由箭頭標示）可攜帶資料及指令，而在其他情況下，匯流排可攜帶資料（例如，運算元）或控制訊號。例如，前端控制單元202可經由僅攜帶控制訊號的匯流排與其他控制網路通訊。儘管第2圖示出以特定佈置來佈置的用於處理器核心125的特定數量的示例性元件，根據特定實施的需要，可有更多或更少的元件不同地佈置。

前端控制單元202可包括配置以控制透過處理器核心的資訊流的電路，及用以協同在其中之活動的電路。前端控制單元202亦可包括用以實施有限狀態機（FSM）的電路，在該有限狀態機中，狀態列舉了處理器核心可採取的各個操作配置。使用運算碼（opcode）（如以下所描述）及/或其他輸入（例如，硬體級訊號），在前端控制單元202中的FSM電路可判定下一個狀態與控制輸出。

相應地，前端控制單元202可從指令快取204提取指令以用於由指令解碼器208處理。前端控制單元202可與處理器核心125的其他部分透過控制網路或匯流排來交換控制資訊。例如，前端控制單元可與後端控制單元224交換控制資訊。前端與後端控制單元在一些實施中可整合入單一控制單元。

前端控制單元202亦可協同與管理處理器架構120（第1圖）的各種核心與其他部分的控制。因此，舉例而言，指令的區塊可同時地執行於多個核心上且前端控制單元202可經由控制網路與其他核心交換控制資訊以確保同步，如其所需要，以用於指令的各種方塊的執行。

前端控制單元202可進一步處理關於自動被執行的指令的區塊的控制資訊與中間資訊。舉例而言，前端控制單元202可處理區塊標頭，該等標頭與指令的區塊相關聯。如在以下更詳盡論述，區塊標頭可包括關於指令的區塊的控制資訊及/或中間資訊。因此，前端控制單元202可包括組合邏輯、狀態機、暫時儲存單元，例如正反器以處理在區塊標頭中的各種欄位（fields）。

前端控制單元202每時鐘週期（clock cycle）可提取並解碼單一指令或多個指令。經解碼的指令可被儲存於指令窗210中，該指令窗被實施於處理核心硬體中作為緩衝器。指令窗210可支援指令排程器230，在一些實施中，其可保持每個經解碼的指令的輸入的就緒狀態（ready state），例如斷言（predications）與運算元。例如，當其所有的輸入（若有）已就緒，給定的指令可由指令排程器230喚起並準備要發出。

在指令被發出前，指令所需要的任何運算元可被儲存於左運算元緩衝器212及/或右運算元緩衝器214，根據所需要。根據指令的運算碼（opcode），操作可使用ALU216及/或ALU218或其他功能單元而實行於運算元上。ALU的輸出可被儲存於運算元緩衝器中或儲存於一或多個暫存器220中。以資料串流順序發出的儲存操作可佇列於載入/儲存佇列222直到指令的區塊提交（commits）。當指令的區塊提交，載入/儲存佇列222可將提交的區塊的儲存寫入至記憶體。分支預測器206可處理關於分支出類型（branch exit types）的區塊標頭資訊並分解該資訊於做出分支預測。

如上所述，處理器架構120一般利用被自動地提取、執行與提交的組織於區塊中的指令。因此，處理器核心可整體地提取屬於單一區塊的指令、將他們對映至在處理器核心內的執行資源、執行該等指令、並將他們的結果以不可分割的方式（atomic fashion）提交。處理器可提交所有指令的結果或是無效掉整個區塊的執行。區塊內的指令可以資料串流順序來執行。此外，處理器可允許在區塊內的指令使用訊息或其他合適形式的通訊來直接地彼此通訊。因此，產生結果的指令可，替代於將結果寫入至暫存器檔案，而將結果傳送至使用該結果的在區塊中的另一指令。作為範例，將儲存於暫存器R1與R2中的值相加的指令可表示為如以下示於表1：表1

以此方式，源運算元並不以指令來指定且相反地，他們是由針對ADD指令的指令來指定。編譯器105（第1圖）在編譯指令110時可明確地編碼控制與資料相依（dependencies）以從而將處理器核心，從在執行時重新發現這些相依中釋放。這可有利地導致在執行這些指令的期間之減低的處理器負載和能量節約。作為範例，編譯器可使用斷言來將所有控制相依轉換成資料串流指令。使用這些技術，存取耗電的暫存器檔案的數量可以被減少。以下的表2，示出了用於此類指令的一般指令格式的範例：表2

每個指令可以是一個合適的尺寸，例如32位元、64位元、或是其他的尺寸。在表2中所示的範例中，每個指令可包括操作碼（OPCODE）欄位、PR（predication，斷言）欄位、BID（broadcast ID，廣播ID）欄位、XOP（extended OPCODE，延伸OPCODE）欄位、目標1（TARGET1）欄位、與目標2（TARGET2）欄位。OPCODE欄位可對指令或指令的區塊指定獨一的操作代碼，例如加、讀取、寫入、或乘。PR（斷言）欄位可指定與指令相關聯的任何斷言。舉例而言，兩位元PR欄位可被用於如以下：00 - 未斷言、01 - 保留、10 - 斷言為假（predicated on false）、及11 - 斷言為真（predicated on true）。因此，舉例而言，若指令只有在當比較的結果為真時執行，則該指令可被斷言於實行比較的另一指令的結果之上。BID（廣播ID）欄位可支援發送運算元至區塊中的任意數量的使用的指令。2位元BID欄位可被用以編碼廣播頻道，在該廣播頻道上指令接收其運算元中的一個。XOP（延伸OPCODE）欄位可支援延伸操作碼（opcodes）的類型。TARGET1和TARGET2欄位可允許高達兩個目標指令被編碼。目標欄位可指定生產指令的結果的使用指令，從而允許指引指令間的通訊。

指令的每個區塊可具有與指令的區塊相關聯的特定資訊，例如與區塊相關連的控制資訊及/或中間資訊。此資訊可由編譯器105在將程式編譯成指令110以用於執行於處理器架構120上時而產生。此資訊的一些可被編譯器在編譯指令的區塊時擷取，並接著在執行時檢查指令的性質。

此外，與指令的區塊相關聯的資訊可以是中間資訊。舉例而言，一些資訊可使用特別指令或提供與暫存器或其他記憶體相關聯的目標編碼的指令而提供給處理器核心，該等暫存器或其他記憶體可具有與指令的區塊相關聯的關連資訊。在特別的指令的狀況下，這種指令的操作碼欄位可被用以傳送相關於指令的區塊的資訊。在另一範例中，此資訊可被保持為處理器狀態字（processor status word，PSW）的一部分。舉例而言，此資訊可有利地幫助處理器更有效率地執行指令的區塊。

各種類型的資訊可使用區塊標頭、特別指令、記憶體參照位置、處理器狀態字（PSW）、或各種其中之組合，而被提供給處理器核心。說明性指令區塊標頭300示於第3圖。在此說明性範例中，區塊標頭300是128位元，且自區塊的程式計數器偏移0處開始。亦示出每個欄位的個別開始與結束。欄位於以下第3圖中描述：表3

儘管在第3圖中所示與在表3中所描述的區塊標頭包括多個欄位，其意欲為說明性的，且其他欄位的配置可被利用於特定的實施。

在說明性範例中，編譯器105（第1圖）可選擇資訊以用於包括於區塊標頭中或用於特別的指令，該等指令可基於指令的特性及/或基於處理需要的特性，例如高效能或低功耗，而提供此資訊給處理器核心。這可有利地允許在效能與功耗之間的權衡的更加平衡。對於特定類型的處理應用程式，例如以大量核心的高效能計算，大量的資訊可能是理想的選項。替代地，對其他類型的處理應用程式，例如用於事物間之網際網路、行動裝置、可穿戴式裝置、頭戴式顯示（HMD）裝置、或其他嵌入式計算類型的應用程式上之嵌入式處理器，較少資訊可能是理想的選項。

使用區塊標頭或特別指令通訊的資訊的延伸可根據在區塊中的指令的本質而定制（tailored）。舉例而言，若指令的區塊包括以遞迴（recurring）方式執行的迴圈，則可能需要更佳延伸的資訊來將與區塊相關聯的控制訊息封裝。附加控制資訊可允許處理器核心更有效率地執行迴圈以從而改善效能。

替代地，若有將很少被執行的指令的區塊，則相對地較少資訊就足夠。舉例而言，若指令的區塊包括幾個經斷言的控制迴圈，則可能需要更多資訊。類似地，若指令的區塊具有延伸數量的指令層級平行化，則需要更多的資訊作為區塊標頭或特別指令的一部分。

在區塊標頭或特別指令中的額外的控制資訊可被使用，舉例而言，用以有效率地利用在指令的區塊中的指令層級平行化。若指令的區塊包括各種分支預測，則可能需要更多資訊。關於分支預測的附加控制資訊將通常因其可能導致較少的管線刷新（pipeline flushes）而以更有效率地增強代碼的執行。

應注意對應於在區塊標頭中的欄位的功能可能被結合或進一步分離。同樣地，特別指令可提供與第3圖及表3中所示的任意一個欄位相關連的資訊，或是其可結合來自這些欄位的資訊。舉例而言，儘管第3圖及表3的示例性區塊標頭包括單獨的ID欄位和SIZE欄位，這兩個欄位可被結合成單一個欄位。

同樣的，單一的特別指令可以，當被解碼時，提供關於指令的區塊的尺寸的資訊和在ID欄位中的資訊。除非特別指明，特別指令可被包括於在指令的區塊中的任意處。舉例而言，一個BLOCK_SIZE #size指令可包括中間（immediate）欄位，該中間欄位包括指令的區塊的尺寸的值。中間欄位可包括提供尺寸資訊的整數值。替代地，中間欄位可包括關於尺寸資訊的精編碼的值，使得尺寸資訊可藉由解碼該經編碼的值而獲得，舉例而言，藉由在可使用邏輯、暫存器、記憶體、或代碼流來表示的尺寸表中查詢該值。在另一範例中，BLOCK_ID #id特別指令可傳遞區塊ID號碼。

單獨的數學函式或基於記憶體的表格可將區塊ID對映至區塊標頭的記憶體位址。被傳遞作為此指令的一部分的block ID可以是對指令的每一個區塊為唯一的。在另一範例中，BLOCK_HDR_ID #ID指令可傳遞區塊標頭ID號碼。單獨的數學函式或基於記憶體的表格可將區塊ID對映至區塊標頭的記憶體位址。傳遞作為此指令的一部份的區塊ID可藉由具有相同標頭結構或欄位的指令的多個區塊而共享。

在另一範例中，BLOCK_INFO #size、#exit types、#store mask、#write mask指令可提供關於指令的列舉的欄位。這些欄位可對應至關於表3於上文所論述的任意一個欄位。根據特定實施的要求，可對區塊標頭結構與格式和特別指令做出改變。舉例而言，額外的欄位可被提供，該額外的欄位包括與指令的區塊的特性相關連之資訊。基於指令的區塊的執行頻率，可包括特定欄位。

包括在區塊標頭結構中的欄位，或是經由特別指令或其他於先前論述的機制而提供的資訊，可以是特定處理器或處理器家族的公開可利用的標準指令集架構（Instruction Set Architecture, ISA）的一部分。欄位的子集合可以是ISA的專有延伸（proprietary extension）。在欄位中的特定位元值可以是用於處理器的標準ISA的一部分，但在欄位中的特定其他位元值可以提供專有（proprietary）功能。此範例欄位可允許ISA設計師增加專有延伸至ISA而無完整地揭露與專有延伸相關聯的性質和功能。因此，在此例中，由ISA設計師發佈的編譯器工具將支援在欄位中的專有位元值、完整地獨立的專有欄位（proprietary field）、或特別指令。此欄位的使用可以是特別地與硬體加速相關，該硬體加速是專有於特定處理器設計。因此，程式可包括區塊標頭欄位或不可被辨識的特別指令；但該程式可進一步包括方案（recipe）以解釋欄位或解碼指令。

編譯器105（第1圖）可處理指令的區塊，該指令的區塊一般配置以由一或多個處理器核心不可分割地（atomically）執行，以為了產生關於指令的區塊資訊，包括中間資訊和控制資訊。一些程式可被針對僅一個ISA編譯，例如，與物聯網、行動裝置、HMD裝置、可穿戴式裝置、或其他嵌入式計算環境的處理器所使用的ISA。編譯器可利用技術，例如靜態編碼分析或編碼效能分析（code profiling）來產生與指令的區塊相關連的資訊。在一些情況下，編譯器可考量如指令的區塊的特性和其執行頻率的因素。指令的區塊的相關特性可包括，舉例而言，但不必然限於（1）指令層級平行性、（2）迴圈數量、（3）預測控制指令的數量、及（4）分支預測的數量。

第4圖為用於管理佈置於處理器核心中之指令窗中的指令區塊之示例性方法400的流程圖。除非特別說明，在第4圖的流程圖中的方法或步驟及在圖式中所示的其他流程圖中與以下所描述的那些並不被受限於特定順序或序列。此外，其中的一些方法或步驟可以同時地發生或被實行，且根據實施的需求，並不是所有的方法或步驟都必須被實行於特定實施中，且一些方法或步驟可選擇性地被利用。同樣地，在一些實施中一些步驟可被消除以降低負載（overhead），但舉例而言，這可能造成增加的易碎性（brittleness）。可實施於任何特定應用程式中的各種功能、成本、負載、效能、與強韌性（robustness）權衡可一般性地被視為設計選擇的事宜。

在步驟405，所擷取的指令區塊的年齡（ages）被明顯地追蹤，舉例而言，使用年齡向量（age vector）。因此，並不是使用在指令窗中的指令區塊順序（例如，位置），其一般被用以隱含地追蹤年齡，而是控制單元維持明確的狀態。指令區塊以年齡排序的清單在步驟410中被維持。指令區塊優先（其中優先在某些情況中可由編譯器決定）亦可被追蹤且指令區塊的以優先排序的清單亦可在一些實施中被維持。

在步驟415，當指令區塊被識別用於處理時，以年齡排序的清單被搜尋以找出匹配的指令區塊。在一些實施中以優先排序的清單亦可針對匹配而被搜尋。若找到匹配的指令區塊，則其可被更新，於步驟420中，而不用將其自指令快取重新擷取，其可增進處理器核心效率。此更新使得能夠在某些情況中重新利用指令區塊，舉例而言，當程式執行於緊湊迴圈（tight loop）中且指令分支回他們自身。當多個處理器核心組成大規模陣列時，此效率的提昇亦可被加成。當更新指令區塊，指令被留在原處，且僅有在運算元緩衝器和載入/儲存佇列中的有效位元被清除。

若未找到對指令區塊的匹配，則以年齡排序的清單（或以優先排序的清單）可再次被利用以找出指令區塊，該指令區塊可被提交以在指令窗中開啟槽以用於新的指令區塊。舉例而言，最老的指令區塊或最低優先指令區塊可被提交（其中高優先區塊可能被希望保持被緩衝，由於有其未來重新使用的可能性）。在步驟425中，新的指令區塊被對映至可用的槽。指令區塊可使用批量（bulk）分配程序而分配，在該批量分配程序中在區塊中的指令和與指令相關聯的所有資源一次被提取（即，一起的（en masse））。

在步驟430，新的指令區塊被執行使得其指令被不可分割地提交。其他的指令區塊可以年齡為排序執行，以類似習知重新排序緩衝器的方式，在步驟435以不可切割地方式提交他們各自的指令。

第5圖為示例性方法500的流程圖，該方法可由基於指令區塊的微架構實行。在步驟505中，在處理器核心中的控制單元使得所提取的指令區塊被以連續替換或非連續替換緩衝。在步驟510，以連續指令區塊替換，緩衝器可類似循環緩衝器操作。在步驟515，以非連續指令區塊替換，指令區塊可被非順序的替換。舉例而言，在步驟520可實施明顯的基於年齡的追蹤，使得指令區塊基於追蹤的年齡而被提交並替換，以上文描述的類似的方式。在步驟525，優先亦可被追蹤且所追蹤的優先可被用以提交及取代指令區塊。

第6圖為示例性方法600的流程圖，該方法可由佈置於處理器核心中的控制單元所實行。在步驟605，緩衝的指令區塊的狀態被追蹤且指令區塊的清單在步驟610使用追蹤狀態被維持。舉例而言，根據特定實施需求，狀態可以包括年齡、優先、或其他資訊或上下文（context）。在步驟615，當指令區塊被識別用於對映時，清單被針對匹配檢查，如步驟620所示。從清單中之匹配指令區塊在步驟625被更新而沒有重新提取。在步驟630，當在清單中沒有找到匹配指令區塊，則指令區塊從指令快取提取並以上文所述類似之方法對映至指令窗中的可利用的槽。

第7圖為用於管理佈置於處理器核心中之指令窗中的指令區塊之示例性方法700的流程圖。在步驟705，指令區塊尺寸的尺寸表在處理器核心中被維持。尺寸表可被以各種方式表示，舉例而言，使用邏輯、暫存器、記憶體、代碼流、或其他合適的建構體中之一者。在步驟710，被編碼於指令區塊的標頭中的索引被讀出。指令區塊包括一或多個經解碼的指令。因此，並不是使用示於第3圖與表3中的尺寸欄位來硬編碼（hard code）指令區塊尺寸，該欄位可被用以編碼或儲存對該尺寸表的索引。亦即，索引可作用為指標指向在尺寸窗中的條目，以使得特定尺寸能夠與指令區塊相關聯。

被包括在尺寸表中的尺寸條目的數量可以隨著實施而不同。尺寸條目的更大的數量可被利用以使得能夠更精細（granularity），其可在與特定程式相關聯的指令區塊尺寸有相對較寬分佈的情況中是有利的，但在一般的實施中有增加負載（overhead）的成本。在一些情況下，包括在表中的尺寸的數量可由編譯器以一種最佳化整體指令包裝密度（packing density）的方式選擇以涵蓋指令區塊的特定分佈並且以最小化無操作（no ops）。舉例而言，包括於尺寸表中的尺寸可被選擇以匹配在程式中常用的區塊指令尺寸。在步驟715，索引被用以從尺寸表查詢指令區塊尺寸。在步驟720中，指令區塊基於其尺寸被對映至在指令窗中可利用的槽。

在一些實施中，如在步驟725中所示，指令窗可被分段成兩個或兩個以上子窗，舉例而言，其使用兩個或兩個以上不同的尺寸。在被分段的子窗中的此變化可使得能夠進一步容納指令區塊尺寸的特定分佈並可進一步增加指令包裝密度。分段亦可在一些情境中動態地實行。

第8圖是示例性方法800的流程圖，該方法可由基於指令區塊的微架構所實行。在步驟805中，尺寸表被實施。如上文所論述，尺寸表可使用邏輯、暫存器、記憶體、代碼流、或其他合適的建構體中之一者實施，且可包括對應至由特定程式利用的指令區塊的分佈中所常利用的尺寸。在步驟810，指令區塊標頭被針對指標檢查，該指標參照至尺寸表中的條目。在步驟815中，由表的條目所識別的尺寸被用以判定在指令窗中的指令區塊的放置。

在步驟820，與指令區塊相關聯的資源是批量（bulk）分配的。在步驟825當將指令區塊對映於指令窗中時，在指令區塊標頭中指定的限制被使用。這些可包括，舉例而言，指令窗的對齊和容量以緩衝指令區塊。在步驟830，在指令窗中的指令區塊的順序由控制單元追蹤且區塊可在某些情況下不照順序被提交。舉例而言，並非使用在其中區塊被基於他們在指令窗中的位置而處理的指令區塊的循環緩衝器，而是區塊可被優先化，使得重度使用或特別重要的指令區塊被不照順序地處理，其可提高處理效率。

在步驟835，指令區塊的年齡可明顯地被追蹤且在某些情況中指令區塊可基於此明顯追蹤的年齡而提交。在步驟840，指令區塊被更新（亦即，被重新使用而不必要從指令快取重新提取指令區塊）。

第9圖為示例性方法900的流程圖，該方法可由佈置於處理器核心中的控制單元所實行。在步驟905，指令窗以上文所述類似之方式配置與具有兩個或兩個以上不同尺寸的多個分段。在步驟910，區塊指令標頭針對被編碼與其中的索引檢查。於步驟915，在使用索引的尺寸表中實行查詢，且在步驟920，基於該尺寸查詢，指令區塊被置放入指令窗分段中，該指令窗分段適合該區塊的特定尺寸。在步驟925，與指令區塊相關聯的資源使用批量分配（bulk allocation）而提取。

第10圖為用於管理佈置於處理器核心中之指令窗中的指令區塊之示例性方法1000的流程圖。在步驟1005，指令區塊被從指令快取對映至指令窗中。指令區塊包括一或多個經解碼的指令。在步驟1010，與在指令區塊中的該等指令的每一者相關聯的資源被分配。資源一般包括控制位元及運算元且該分配可使用批量分配程序（bulk allocation process）而實行，在該批量分配程序中，所有的資源被一起的（en masse）獲得或是提取。

代替於緊密地將資源與指令耦合，指令窗與運算元緩衝器被解耦合使得他們可以獨立地藉由維持在資源與在區塊中之經解碼的指令上的一或多個指標而操作，如步驟1015中所示。在步驟1020，當指令區塊被更新（亦即，被重新使用而不必要從指令快取重新提取指令區塊），則在步驟1025中資源可藉由跟著指標回至原始控制狀態而被重新使用。

此類解耦合可提供增加的處理器核心效率，特別是當指令區塊被更新而沒有如一般發生的重新提取，舉例而言，當程式執行於緊湊迴圈中且指令重複地被利用。藉由透過指標建立控制狀態，資源有效率地預驗證而沒有處理週期和其他成本的額外支出。當多個處理器核心組成大規模陣列時，此效率的提昇亦可被加成。

第11圖是示例性方法1100的流程圖，該方法可由基於指令區塊的微架構所實行。在步驟1105，指令區塊被以新的指令區塊取代經提交的指令區塊的方式而對映至指令窗中。該對映可受到指令區塊的標頭中所指定的各種限制，舉例而言，對於指令窗的對齊與容量的限制以緩衝指令區塊，如在步驟1110中所指示。資源在步驟1115中為了新的指令區塊而分配，其一般使用批量分配程序（bulk allocation process）實施，如上文所述。

在步驟1120，在指令窗中的指令區塊的順序由控制單元追蹤且區塊可在某些情況下不照順序被提交。舉例而言，並非使用在其中區塊被基於他們在指令窗中的位置而處理的指令區塊的循環緩衝器，而是區塊可被優先化，使得重度使用或特別重要的指令區塊被不照順序地處理，其可提高處理效率。

在步驟1125，指令窗從運算元緩衝器解耦合，使得，舉例而言，指令的區塊與運算元的區塊被獨立地管理（即，在指令與運算元間沒有使用嚴格對應）。如上所述，該解耦合藉由使得資源能夠在當指令區塊被更新時預先驗證而增加效率。

第12圖為示例性方法1200的流程圖，該方法可由佈置於處理器核心中的控制單元所實行。在步驟1205，指令窗被維持以用於緩衝一或多個指令區塊。在步驟1210中一或多個運算元緩衝器被維持以用於緩衝與在指令區塊中的指令相關聯的資源。如上所述，資源通常包括控制位元和運算元。在步驟1215中狀態被使用指標在指令與資源上來追蹤。

當指令區塊被更新，在方塊1220中，指標可被追回至被追蹤的狀態。在步驟1225中，當指令區塊提交時，在運算元緩衝器中的控制位元被清除且新的指標被設置。如與上文中所論述之方法，指令窗與運算元緩衝器被解耦合以使得指令的區塊和運算元的區塊被控制單元以基於非對應的維持，於步驟1230。

第13圖為用於管理佈置於處理器核心中之指令窗中的指令區塊之示例性方法1300的流程圖。在步驟1305，指令區塊是使用批量（bulk）分配程序而分配的，在該批量分配程序中在區塊中的指令和與指令相關聯的所有資源一次被提取（即，一起的（en masse））。相比於在其中指令與資源被重複地以較小塊提取的傳統架構，本文之批量分配使得在區塊中的所有指令能夠同時地且一致地管理，其可改善處理器核心操作的效率。此改進可能在特定程式建構（例如，最小化分支的一者）使得編譯器能夠相對地產生大量指令區塊的情況下，更為顯著。舉例而言，在一些實施中，指令區塊可包括高達128個指令。

指令區塊的批量分配亦透過更新功能而增強了處理器核心效率，在該更新功能中，指令區塊被重新使用而沒有如一般會發生的重新提取，舉例而言，在當程式執行於緊湊迴圈中且指令分支回他們自身時。當多個處理器核心組成大規模陣列時，此效率的提昇亦可被加成。當更新指令區塊時，指令被留在原處，且僅有在運算元緩衝器和載入/儲存佇列中的有效位元被清除。這使得提取經更新的指令區塊被完全越過（bypassed）。

當指令與資源組到位時，指令區塊的批量分配亦使得能有額外的處理效率。舉例而言，運算元和明確的訊息可從區塊中的一個指令被發送到另一個。此功能在傳統架構中沒有被啟用，因為一個指令是無法發送任何事物至尚未被分配（allocated）的另一指令。產生常數（constants）的指令亦可將值固定在運算元緩衝器中使得他們在更新之後維持有效，所以他們不需要在每次指令區塊執行時被重新產生。

當指令區塊被對映至指令窗時，在步驟1310，他們受到可由對映政策應用的限制、在區塊標頭所指定的限制、或是兩者的影響，於步驟1315。在一些情況中，政策可由編譯器根據給定程式的特定要求而設置。指定的限制可包括，舉例而言，指令窗的對齊和容量的限制以緩衝指令區塊。

在步驟1320，於一些實施中，指令窗可被分段成相同尺寸或不同尺寸的子窗。由於對給定程式而言，指令區塊尺寸通常隨機地或不均勻地分佈，再經分段的子窗中之此變化可更有效率地容納指令區塊尺寸的特定的分佈，以從而增加在指令窗中的指令包裝密度。分段亦可在一些情境中，根據目前正在被處理器核心處理的區塊尺寸的分佈，而動態地實行。

在一些實施中，指令區塊標頭可編碼索引，或是包括指標指向尺寸表，該尺寸表使用邏輯、暫存器、記憶體、或編碼流中之一者實施。在步驟1325，尺寸表可包括指令區塊尺寸條目，使得指令區塊尺寸可從標中查詢。經編碼的索引和尺寸表的使用可增強在指令區塊中的指令包裝密度，此提升是藉由給予在可利用的區塊尺寸中更加精細（granularity）以減少nops的發生（no operations，無操作），舉例而言，當區塊包括相對小數量的指令時當實施分支時。

第14圖為示例性方法1400的流程圖，該方法可由基於指令區塊的微架構實行。在步驟1405，處理器核心中的控制單元應用政策以處理指令區塊。在步驟1410中，指令區塊是使用前文所述之批量（bulk）分配程序而分配的，該批量分配程序中，指令和所有相關聯資源一次被提取。在步驟1415，指令區塊被對映至指令窗中，在其中該對映可受到各種限制，例如對齊的限制與指令窗的容量的限制以緩衝指令區塊，該等限制被指定於指令區塊的標頭中，如上文所述。

在步驟1420中，政策可被應用，包括由控制單元追蹤在指令窗中的指令區塊的順序。在某些情況中，區塊可不照順序提交，例如，並非使用在其中區塊被基於他們在指令窗中的位置而處理之指令區塊的循環緩衝器。在步驟1425中，政策可被應用，包括基於優先（在一些情況中其可由編譯器指定）處理區塊使得重度使用或特別重要的區塊被不照順序地處理，其可進一步提高處理效率。

在步驟1430，政策可被應用，包括明顯地追蹤指令區塊的年齡且在一些情況中指令區塊可基於此明顯追蹤的年齡而被提交。在步驟1435，政策可被應用，包括根據在指令窗（或窗的分段）中的適合地調整尺寸的槽的可利用性對映指令區塊。在步驟1440，政策可被應用，包括使用循環緩衝器將指令區塊對映至指令窗。

在一些實施中，可利用政策的各種組合以為了增強處理器核心效率。例如，控制單元可在政策上動態地切換（toggle）以應用提供對於特定指令區塊或指令區塊群更佳操作的政策。舉例而言，在一些情況中，使用循環緩衝技術可能更有效率，該循環緩衝技術中，指令區塊以連續的方式依順序處理。在其他情況下，不照順序且基於年齡的處理可提供更佳操作。

第15圖為示例性方法1500的流程圖，該方法可由佈置於處理器核心中的控制單元所實行。在步驟1505，指令窗以上文所述類似之方式配置與具有兩個或兩個以上不同尺寸的多個分段。在步驟1510，指令區塊被提取且所有其相關聯的資源被提取於步驟1515中。

在步驟1520，指令區塊被放置於窗的合適的分段中，其最大化窗中的指令密度。舉例而言，若編譯器產生包括相對大量而具有低指令計數的區塊（例如，以實施程式分支等等）之區塊尺寸的分佈，則指令窗可具有為小指令區塊指定地調整尺寸之分段。類似地，若有相對大量的高指令計數區塊（例如，用於科學或類似的應用），則分段可被特別為此較大指令區塊調整尺寸。因此，指令窗分段尺寸可根據特定尺寸分佈而被調整或是在某些情況下，當分佈改變時，動態地調整。在方塊1525，指令區塊可受制於在指令區塊標頭中所指定的限制，如上文中所述。

基於區塊尺寸本文對映指令區塊的各種範例實施現以說明的方式且並非為所有實施例的窮舉清單來呈現。範例包括一種用於管理佈置在處理器中於指令窗中之指令區塊的方法，該方法包括以下步驟：維持（maintaining）指令區塊尺寸的尺寸表；讀取編碼於指令區塊的標頭中之索引，其中該指令區塊包括一或多個指令；使用該索引從該尺寸表查詢指令區塊尺寸；及基於該尺寸查詢，將該指令區塊對映至指令窗中的可利用的槽中，以為了最大化在該指令窗中的指令包裝（instruction packing）。在進一步的範例中，該方法包括：將該指令窗分段（segmenting）成子窗。在另一範例中，該方法進一步包括：配置經分段的該等子窗以共享通用尺寸或是被以使用兩個或兩個以上不同的尺寸而實施。在另一範例中，經分段的該等子窗根據指令區塊的尺寸的分佈而動態地調整尺寸。在另一範例中，該方法進一步包括：將該尺寸表維持（maintaining）為邏輯尺寸表，該邏輯尺寸表是使用邏輯、暫存器、記憶體、或編碼流中之一者所表示。在另一範例中，該方法進一步包括在該尺寸表中設置該等尺寸以從與程式相關聯的指令區塊尺寸的分佈上匹配通用的尺寸。

進一步的範例包括一種基於指令區塊的微架構，包括：控制單元；一或多個運算元緩衝器；和指令窗，該指令窗經配置以儲存經解碼的指令區塊，該等經解碼的指令區塊與程式相關聯，該程式受該控制單元控制，其中該控制包括以下之操作：使用邏輯、暫存器、記憶體、或編碼流中之一者實施尺寸表，其中該尺寸表包括兩個或兩個以上不同的尺寸，該兩個或兩個以上不同的尺寸對應於使用於該程式中之指令區塊的分佈中之通用的尺寸，檢查指令區塊的標頭中的指標，其中該指標參照至在該尺寸表中識別的指令區塊尺寸，及基於從該尺寸表中識別的該尺寸而決定在該指令窗中指令區塊的放置。在另一範例中，該基於指令區塊的微架構，進一步包括：一配置以對每個指令區塊實行批量分配（bulk allocation）以獲得與在該區塊中的指令相關聯的資源。在另一範例中，該基於指令區塊的微架構，進一步包括：一配置以基於指定於該指令區塊的標頭中之限制來對映該等指令區塊，其中該等指定的限制包括對齊限制或該指令窗的指令區塊容量限制中之一者。在另一範例中，該基於指令區塊的微架構，進一步包括：一設置以追蹤在指令窗中的該等指令區塊的順序，並不照順序地提交（committing）指令區塊。在另一範例中，該基於指令區塊的微架構，進一步包括：一設置以明顯地追蹤目前對映於指令窗中的指令區塊的年齡，並基於明顯地追蹤的年齡來提交指令區塊。在另一範例中，該基於指令區塊的微架構，進一步包括：一設置以將指令區塊對映至該指令窗，該對映是在當在該指令窗中適於（fits）該指令區塊的槽為可利用時。在另一範例中，該基於指令區塊的微架構，進一步包括：一設置以使用循環緩衝器將指令區塊對映至該指令窗。在另一範例中，該基於指令區塊的微架構，進一步包括：一設置以更新該指令區塊而沒有從指令快取重新提取（re-fetching）該指令區塊。

進一步的範例包括一種佈置於處理器中的控制單元，該控制單元經配置以實行一種用於指令區塊管理的方法，該方法包括以下步驟：配置具有多個分段（segments）的指令窗，其中分段具有兩個或兩個以上不同的尺寸；檢查指令區塊的標頭以針對編碼於其中的索引，其中該指令區塊包括包括一或多個指令；使用該索引從該尺寸表查詢指令區塊尺寸；及基於該尺寸查詢，將該指令區塊放置於該指令窗的分段中。在另一範例中，該控制單元，進一步包括；針對在指令窗中的放置上之指定的限制而檢查該指令區塊的標頭，並根據該等經指定的限制實行該放置，其中該等經指定的限制包括對齊限制或指令區塊容量限制中之一者。在另一範例中，該控制單元，進一步包括：配置經分段的該指令窗為邏輯分段的指令窗，該邏輯分段的指令窗是分散在複數個處理器核心上。在另一範例中，該控制單元，進一步包括：使用在一晶片中網路（in-chip network）上攜帶之通訊來維持在該邏輯分段的指令窗間之狀態。在另一範例中，該控制單元，進一步包括：實行資源的提取為批量分配（bulk allocation）。在另一範例中，該控制單元，進一步包括：更新該指令區塊而沒有從指令快取重新提取該指令區塊。

僅以說明方式提供上文所描述之所主張之標的，且該上文所描述之所主張之標的並不被視為限制。在未跟隨經說明及描述之範例實施例及應用之情況下及未悖離本文之真實精神及範疇(闡述於後續之申請專利範圍中)的情況下，可對本文所描述之所主張之標的做各種修改及變化。

100‧‧‧計算環境
105‧‧‧編譯器
110‧‧‧經編碼指令
115‧‧‧程式
120‧‧‧處理器架構
125‧‧‧核心
130‧‧‧L2快取
202‧‧‧前端控制單元
204‧‧‧指令快取
206‧‧‧分支預測器
208‧‧‧指令解碼器
210‧‧‧指令訊窗
212‧‧‧左運算元緩衝器
214‧‧‧右運算元緩衝器
216‧‧‧運算邏輯單元
218‧‧‧運算邏輯單元
220‧‧‧暫存器
222‧‧‧載入/儲存佇列
224‧‧‧後端控制單元
230‧‧‧指令排程器
300‧‧‧區塊標頭
400‧‧‧方法
500‧‧‧方法
600‧‧‧方法
700‧‧‧方法
800‧‧‧方法
1000‧‧‧方法
1100‧‧‧方法
1200‧‧‧方法
1300‧‧‧方法
1400‧‧‧方法
1500‧‧‧方法
405-1525‧‧‧步驟

第1圖示出示例性計算環境，在該計算環境中編譯器提供經編碼的指令，該等指令執行在包括多個處理器核心的架構上；

第2圖為用於範例處理器核心的示例性微架構的方塊圖；

第3圖示出用於區塊標頭的示例性配置；及

第4-15圖為示例性方法的流程圖。

類似的元件符號指示圖式中類似的元件。圖式沒有按比例繪製，除非有另外說明。

國內寄存資訊 (請依寄存機構、日期、號碼順序註記) 無

國外寄存資訊 (請依寄存國家、機構、日期、號碼順序註記) 無

(請換頁單獨記載) 無

700‧‧‧方法

705-725‧‧‧步驟

Claims

一種用於管理佈置在一處理器中於一指令窗中之指令區塊的方法，該方法包括以下步驟：維持（maintaining）指令區塊尺寸的一尺寸表；讀取編碼於一指令區塊的一標頭中之一索引，其中該指令區塊包括一或多個指令；使用該索引從該尺寸表查詢一指令區塊尺寸；及基於該尺寸查詢，將該指令區塊對映至一指令窗中的一可利用的槽中，以為了最大化在該指令窗中的指令包裝（instruction packing）。
如請求項1所述之方法，進一步包括以下步驟：將該指令窗分段（segmenting）成子窗。
如請求項2所述之方法，進一步包括以下步驟：配置經分段的該等子窗以共享一通用尺寸或是被以使用兩個或兩個以上不同的尺寸而實施。
如請求項3所述之方法，其中經分段的該等子窗根據指令區塊的尺寸的一分佈而動態地調整尺寸。
如請求項1所述之方法，進一步包括以下步驟：將該尺寸表維持（maintaining）為一邏輯尺寸表，該邏輯尺寸表是使用邏輯、暫存器、記憶體、或編碼流中之一者所表示。
如請求項1所述之方法，進一步包括以下步驟：在該尺寸表中設置該等尺寸以從與一程式相關聯的指令區塊尺寸的一分佈上匹配通用的尺寸。
一種基於指令區塊的微架構，包括：一控制單元；一或多個運算元緩衝器；和一指令窗，該指令窗經配置以儲存經解碼的指令區塊，該等經解碼的指令區塊與一程式相關聯，該程式受該控制單元控制，其中該控制包括以下之操作：使用邏輯、暫存器、記憶體、或編碼流中之一者實施一尺寸表，其中該尺寸表包括兩個或兩個以上不同的尺寸，該兩個或兩個以上不同的尺寸對應於使用於該程式中之指令區塊的一分佈中之通用的尺寸，檢查一指令區塊的一標頭中的一指標，其中該指標參照至在該尺寸表中識別的一指令區塊尺寸，及基於從該尺寸表中識別的該尺寸而決定在該指令窗中一指令區塊的一放置。
如請求項7所述之基於指令區塊的微架構，進一步包括：一配置以對每個指令區塊實行批量分配（bulk allocation）以獲得與在該區塊中的指令相關聯的資源。
如請求項7所述之基於指令區塊的微架構，進一步包括：一配置以基於指定於該指令區塊的一標頭中之限制來對映該等指令區塊，其中該等指定的限制包括對齊限制或該指令窗的指令區塊容量限制中之一者。
如請求項7所述之基於指令區塊的微架構，進一步包括：一配置以追蹤在指令窗中的該等指令區塊的一順序，並不照順序地提交（committing）一指令區塊。
如請求項7所述之基於指令區塊的微架構，進一步包括：一配置以明顯地追蹤目前對映於指令窗中的指令區塊的年齡，並基於一明顯地追蹤的年齡來提交一指令區塊。
如請求項7所述之基於指令區塊的微架構，進一步包括：一配置以將指令區塊對映至該指令窗，該對映是在當在該指令窗中適於（fits）該指令區塊的一槽為可利用時。
如請求項7所述之基於指令區塊的微架構，進一步包括：一配置以使用一循環緩衝器將指令區塊對映至該指令窗。
如請求項7所述之基於指令區塊的微架構，進一步包括：一配置以更新該指令區塊而沒有從一指令快取重新提取（re-fetching）該指令區塊。
一種佈置於一處理器中的控制單元，該控制單元經配置以實行一種用於指令區塊管理的方法，該方法包括以下步驟：配置具有多個分段（segments）的一指令窗，其中分段具有兩個或兩個以上不同的尺寸；檢查一指令區塊的一標頭以針對編碼於其中的一索引，其中該指令區塊包括包括一或多個指令；使用該索引從該尺寸表查詢一指令區塊尺寸；及基於該尺寸查詢，將該指令區塊放置於該指令窗的一分段中。
如請求項15所述之控制單元，進一步包括：針對在一指令窗中的放置上之指定的限制而檢查該指令區塊的一標頭，並根據該等經指定的限制實行該放置，其中該等經指定的限制包括對齊限制或指令區塊容量限制中之一者。
如請求項15所述之控制單元，進一步包括：配置經分段的該指令窗為一邏輯分段的指令窗，該邏輯分段的指令窗是分散在複數個處理器核心上。
如請求項17所述之控制單元，進一步包括：使用在一晶片中網路（in-chip network）上攜帶之通訊來維持在該邏輯分段的指令窗間之狀態。
如請求項15所述之控制單元，進一步包括：實行資源的提取為一批量分配（bulk allocation）。
如請求項15所述之控制單元，進一步包括：更新該指令區塊而沒有從一指令快取重新提取該指令區塊。