TWI691897B

TWI691897B - 用以執行融合單一週期遞增－比較－跳越之指令與邏輯

Info

Publication number: TWI691897B
Application number: TW104138808A
Authority: TW
Inventors: 博文黎; 泰勒桑達; 賽巴斯欽溫克; 波利克隆尼斯塞卡拉奇斯; 尹森夏克曼
Original assignee: 美商英特爾股份有限公司
Priority date: 2014-12-23
Filing date: 2015-11-23
Publication date: 2020-04-21
Also published as: EP3238046A4; TW201643706A; JP2018500657A; KR20170097633A; WO2016105767A1; CN107077321A; CN107077321B; JP6849274B2; US20160179542A1; KR102451950B1; EP3238046A1

Abstract

在一項實施例中，二進制轉譯係使用來將指令集架構的多數個巨集指令融合成單一巨集指令。可融合指令序列包括遞增、比較、以及跳越指令的序列。在一項實施例中，處理裝置提供用於該融合巨集指令的支援。在一項實施例中，該處理裝置執行在處理器管線之單一執行階段內的該融合巨集指令。在一項實施例中，該融合巨集指令係在單一執行週期內執行。

Description

用以執行融合單一週期遞增-比較-跳越之指令與邏輯

本發明關於處理邏輯、微處理器、以及相關指令集架構的領域，當由處理器或其他處理邏輯執行時，其執行邏輯、數學、或其他功能運算，包括融合多數個指令為單一機器指令。

指令集，或指令集架構(ISA)，其係為與程式化有關之電腦架構的部份，包括原生資料類型、指令、暫存器架構、定址模式、記憶體架構、中斷與例外處理、以及外部輸入與輸出(I/O)。二進制轉譯(「BT」)係為用以將建立用於一來源(「客體」)ISA的二進制轉譯成另一目標(「主體」)ISA的一般技術。當使用BT時，可能可在具有不同架構之處理器上執行建立用於一處理器ISA的應用二進制而不會重新編譯高層級來源碼或重新寫入低層級組合碼。因為大部分舊有電腦應用僅可用於二進制格式，所以BT由於其用以允許處理器執行沒有為了該處理器而建立且係該處理器可用的應用的潛力而非常具有吸引力。二進制轉譯可動態或靜態地執行。動態BT(DBT)在當執行應用的運行時間執行二進制轉譯。在執行二進制以前，靜態BT(SBT)係在二進制上執行。

100‧‧‧處理器管線

102‧‧‧擷取階段

104‧‧‧長度解碼階段

106‧‧‧解碼階段

108‧‧‧分派階段

110‧‧‧重新命名階段

112‧‧‧排程階段

114‧‧‧暫存器讀取/記憶體讀取階段

116‧‧‧執行階段

118‧‧‧回寫/記憶體寫入階段

122‧‧‧例外處理階段

124‧‧‧提交階段

130‧‧‧前端單元

132‧‧‧分支預測單元

134‧‧‧指令快取單元

136‧‧‧指令轉譯旁看緩衝器

138‧‧‧指令擷取單元

140‧‧‧解碼單元

150‧‧‧執行引擎單元

152‧‧‧重新命名/分派器單元

154‧‧‧引退單元

156‧‧‧排程器單元

158‧‧‧實體暫存器檔案單元

160‧‧‧執行叢集

162‧‧‧執行單元

164‧‧‧記憶體存取單元

170‧‧‧記憶體單元

172‧‧‧資料TLB單元

174‧‧‧資料快取單元

176‧‧‧層級2(L2)快取單元

190‧‧‧處理器核心

200‧‧‧指令解碼器

202‧‧‧晶片上互連網路

202A-N‧‧‧核心

204‧‧‧層級2(L2)快取

206‧‧‧層級1(L1)快取

206A‧‧‧資料快取

208‧‧‧純量單元

210‧‧‧向量單元

212‧‧‧純量暫存器

214‧‧‧向量暫存器

220‧‧‧攪和單元

222A-B‧‧‧數字轉換單元

224‧‧‧複製單元

226‧‧‧寫入遮罩暫存器

228‧‧‧算術邏輯單元

300‧‧‧處理器

302A-N‧‧‧核心

306‧‧‧共享快取單元

308‧‧‧特殊目的邏輯

310‧‧‧系統媒介單元

312‧‧‧環狀互連單元

314‧‧‧整合記憶體控制器單元

316‧‧‧匯流排控制器單元

400‧‧‧系統

410‧‧‧處理器

415‧‧‧處理器

420‧‧‧控制器集線器

440‧‧‧記憶體

445‧‧‧共處理器

450‧‧‧輸入/輸出集線器

460‧‧‧輸入/輸出(I/O)裝置

490‧‧‧圖形記憶體控制器集線器

495‧‧‧連接

500‧‧‧多重處理器系統

514‧‧‧I/O裝置

515‧‧‧處理器

516‧‧‧第一匯流排

518‧‧‧匯流排橋接器

520‧‧‧第二匯流排

522‧‧‧鍵盤及/或滑鼠

524‧‧‧聲音I/O

527‧‧‧通訊裝置

528‧‧‧儲存單元

530‧‧‧指令/碼及資料

532‧‧‧記憶體

534‧‧‧記憶體

538‧‧‧共處理器

539‧‧‧高性能介面

550‧‧‧點對點互連件

552‧‧‧點對點(P-P)介面

554‧‧‧點對點(P-P)介面

570‧‧‧第一處理器

572‧‧‧整合記憶體控制器單元

576‧‧‧點對點(P-P)介面

578‧‧‧點對點(P-P)介面

580‧‧‧第二處理器

582‧‧‧整合記憶體控制器(IMC)單元

586‧‧‧點對點(P-P)介面

588‧‧‧點對點(P-P)介面

590‧‧‧晶片組

596‧‧‧介面

598‧‧‧點對點(P-P)介面

600‧‧‧系統

614‧‧‧I/O裝置

615‧‧‧I/O裝置

700‧‧‧晶片上系統

702‧‧‧互連單元

710‧‧‧應用處理器

720‧‧‧共處理器

730‧‧‧靜態隨機存取記憶體單元

732‧‧‧直接記憶體存取單元

740‧‧‧顯示單元

802‧‧‧高層級語言

804‧‧‧編譯器

806‧‧‧二進制碼

808‧‧‧指令集編譯器

810‧‧‧指令集二進制碼

812‧‧‧指令轉換器

814‧‧‧處理器

816‧‧‧指令集核心

900‧‧‧系統

902‧‧‧處理器

903A-N‧‧‧核心

904‧‧‧系統記憶體

905‧‧‧快取記憶體

906‧‧‧實體暫存器

907‧‧‧草稿式記憶體

910‧‧‧來源二進制應用

911‧‧‧碼快取

912‧‧‧目標二進制碼

914‧‧‧動態二進制轉譯器碼

915‧‧‧動態二進制轉譯系統

916‧‧‧暫存器映射模組

918‧‧‧來源暫存器儲存

920‧‧‧主體運算系統

1000‧‧‧處理器核心

1001‧‧‧前端

1002‧‧‧快速排程器

1003‧‧‧亂序執行引擎

1004‧‧‧慢/一般浮點排程器

1006‧‧‧簡單浮點排程器

1008‧‧‧暫存器檔案

1010‧‧‧暫存器檔案

1011‧‧‧執行方塊

1012‧‧‧執行單元

1014‧‧‧執行單元

1016‧‧‧執行單元

1018‧‧‧執行單元

1020‧‧‧執行單元

1022‧‧‧執行單元

1024‧‧‧執行單元

1026‧‧‧指令預取單元

1028‧‧‧指令解碼器

1029‧‧‧追蹤快取

1032‧‧‧微碼唯讀記憶體

1034‧‧‧微運算佇列

1041‧‧‧記憶體執行單元

1042‧‧‧記憶體次序緩衝器

1030‧‧‧SRAM單元

1050‧‧‧微架構

1052A‧‧‧管路邏輯

1052B‧‧‧管路邏輯

1054‧‧‧算術邏輯單元

1056‧‧‧跳越執行單元

1060‧‧‧運算元_A

1061‧‧‧運算元_B

1062‧‧‧進位輸入

1063‧‧‧ALU計算

1064‧‧‧ALU旗標

1065‧‧‧控制重新定向資訊

1066‧‧‧控制訊號

1067‧‧‧控制訊號

1072‧‧‧資料TLB單元

1074‧‧‧資料快取單元

1076‧‧‧L2快取單元

1100‧‧‧主記憶體

1101‧‧‧分支目標緩衝器

1102‧‧‧分支預測單元

1103‧‧‧下一指令指標

1104‧‧‧指令轉譯旁視緩衝器

1105‧‧‧暫存器

1110‧‧‧指令擷取單元

1111‧‧‧層級2(L2)快取

1112‧‧‧層級1(L1)快取

1116‧‧‧層級3(L3)快取

1121‧‧‧資料快取

1130‧‧‧解碼單元

1131‧‧‧解碼邏輯

1140‧‧‧處理器執行引擎單元

1141‧‧‧執行邏輯

1150‧‧‧回寫/引退單元

1155‧‧‧處理器

1202‧‧‧方塊

1204‧‧‧方塊

1206‧‧‧方塊

1208‧‧‧方塊

1300‧‧‧通用向量親合指令格式

1305‧‧‧無記憶體存取

1310‧‧‧全捨入控制類型運算

1312‧‧‧部份捨入控制類型運算

1315‧‧‧資料轉換類型運算

1317‧‧‧v向尺寸類型運算

1320‧‧‧指令快取

1320‧‧‧記憶體存取

1325‧‧‧記憶體存取、暫時性

1327‧‧‧寫入遮罩控制

1330‧‧‧記憶體存取、非暫時性

1340‧‧‧格式欄位

1342‧‧‧基礎運算欄位

1344‧‧‧暫存器指數欄位

1346‧‧‧修改器欄位

1350‧‧‧增大運算欄位

1352‧‧‧阿伐欄位

1352A‧‧‧RS欄位

1352A.1‧‧‧捨入

1352A.2‧‧‧向量長度(VSIZE)

1352B‧‧‧遷出提示欄位

1352B.1‧‧‧暫時性

1352B.2‧‧‧非暫時性

1352C‧‧‧寫入遮罩控制(Z)欄位

1354‧‧‧貝他欄位

1354A‧‧‧捨入控制欄位

1354B‧‧‧資料轉換欄位

1354C‧‧‧資料操縱欄位

1356‧‧‧抑制全浮點例外欄位

1357A‧‧‧RL欄位

1357B‧‧‧廣播欄位

1358‧‧‧捨入運算控制欄位

1359A‧‧‧捨入運算欄位

1359B‧‧‧向量長度欄位

1360‧‧‧刻度欄位

1362A‧‧‧位移欄位

1362B‧‧‧位移因子欄位

1364‧‧‧資料元件寬度欄位

1368‧‧‧種類欄位

1370‧‧‧寫入遮罩欄位

1372‧‧‧立即欄位

1374‧‧‧全運算碼欄位

1400‧‧‧向量親合指令格式

1402‧‧‧EVEX字首

1405‧‧‧REX欄位

1415‧‧‧運算碼地圖欄位

1420‧‧‧EVEX.vvvv欄位

1425‧‧‧字首編碼欄位

1430‧‧‧真實運算碼欄位

1440‧‧‧MOD R/M欄位

1442‧‧‧MOD欄位

1444‧‧‧Reg欄位

1446‧‧‧R/M欄位

1454‧‧‧xxx欄位

1456‧‧‧bbb欄位

1500‧‧‧暫存器架構

1510‧‧‧向量暫存器

1515‧‧‧寫入遮罩暫存器

1525‧‧‧通用暫存器

1545‧‧‧純量浮點堆疊暫存器檔案

1550‧‧‧MMX緊縮整數平暫存器檔案

實施例以舉例的方式而不是以限制的方式繪示於附圖的圖式中，其中：圖1A係為一方塊圖，其繪示根據實施例之例示性依序擷取、解碼、引退管線以及例示性暫存器重新命名、亂序發送/執行管線兩者；圖1B係為一方塊圖，其繪示根據實施例之依序擷取、解碼、引退核心的例示性實施例以及被包括在處理器中之例示性暫存器重新命名、亂序發送/執行架構核心兩者；圖2A-B係為更具體例示性依序核心架構的方塊圖。

圖3係為具有整合記憶體控制器與特殊目的邏輯之單核心處理器與多核心處理器的方塊圖；圖4繪示根據實施例之系統的方塊圖；圖5繪示根據實施例之第二系統的方塊圖；圖6繪示根據實施例之第三系統的方塊圖；圖7繪示根據實施例之晶片上系統(SoC)的方塊圖；圖8繪示方塊圖，其對比軟體指令轉換器之使用，以根據實施例轉換在來源指令集中的二進制指令成在目標指令集中的二進制指令；圖9A-9B係為方塊圖，其繪示根據實施例來執行融合遞增_比較_跳越運算的位元操縱運算；圖10係為包括根據本文中所說明實施例之處理器核心的方塊圖；圖11係為處理系統的方塊圖，其包括根據實施例來執行融合遞增_比較_跳越運算的邏輯；圖12係為流程圖，其用於根據實施例來處理例示性融合遞增_比較_跳越的邏輯；圖13A-B係為方塊圖，其繪示根據實施例的通用向量親合指令格式以及其指令樣板；圖14A-D係為方塊圖，其繪示根據本發明實施例的例示性具體向量親合指令格式；以及圖15係為根據實施例之純量與向量暫存器架構的方塊圖。

【發明內容及實施方式】

除了在客體與主體ISA之間的二進制轉譯，SBT與DBT兩個可被使用來最佳化在單一ISA內的二進制執行。例如，二進制轉譯可被使用來融合一指令集架構的多數個巨集指令成單一巨集指令。在一項實施例中，處理裝置提供對於融合巨集指令的支援。應該注意，用語「指令(instruction)」在本文中通常意指巨集指令，其係為提供到處理器以用於執行的指令，其相反於處理器從巨集指令解碼的微指令或微運算(例如，micro-ops)。微指令或micro-ops會經組態以指示在處理器上的執行單元用以執行運算以實施相關於巨集指令的邏輯。

以下說明處理器核心架構，接著說明根據本文中所說明實施例的例示性處理器與電腦架構。可陳述許多具體細節，以便提供對下文所說明之本發明實施例的完整理解。不過，所屬技術領域中具有通常知識者將明瞭，該等實施例可在沒有這些具體細節其中一些下實施。在其他的情況中，眾所皆知的結構與裝置以方塊圖形式來顯示，以便避免混淆多種實施例的基本原理。

處理器核心會以不同方式、用於不同目的、且以不同處理器來實施。例如，此等核心的實施過程可包括：1)意圖用於通用計算的通用依序核心；2)意圖用於通用計算的高性能通用亂序核心；3)主要意圖用於圖形及/或科學(通量)計算的特殊目的核心。處理器可使用單一處理器核心來實施或可包括多數個核心。依據架構指令集，在處理器內的處理器核心可以是同質或異質。

不同處理器的實施過程包括：1)包括用於通用計算之一或多個通用依序核心及/或意圖用於通用計算之一或多個通用亂序核心的中央處理器；以及2)包括主要意圖用於圖形及/或科學之一或多個特殊目的核心的共處理器(例如，許多整合核心處理器)。此等不同處理器導致不同電腦系統架構，其包括：1)在與中央系統處理器分開之晶片上的共處理器；2)在分開晶粒上但卻在與中央系統處理器之相同封裝中的共處理器；3)在與其他處理器核心相同之晶粒上的共處理器(在該情形中，此一共處理器有時稱為特殊目的邏輯，譬如整合圖形，及/或科學(通量)邏輯，或特殊目的核心)；以及4)在相同晶粒上包括所說明處理器(有時稱為應用核心或應用處理器)、上文所說明共處理器、以及額外功能的晶片上系統。

例示性核心架構 依序與亂序核心方塊圖

圖1A係為一方塊圖，其繪示根據實施例之例示性依序管線以及例示性暫存器重新命名、亂序發送/執行管線。圖1B係為一方塊圖，其繪示根據實施例之被包括在處理器中之依序架構核心的例示性實施例以及例示性暫存器重新命名、亂序發送/執行架構核心兩者。在圖1A-B中的實線框繪示依序管線與依序核心，而虛線框的選擇性附加繪示暫存器重新命名、亂序發送/執行管線與核心。已知依序態樣係為亂序態樣的子集，亂序態樣將被說明。

在圖1A中，處理器管線100包括擷取階段102、長度解碼階段104、解碼階段106、分派階段108、重新命名階段110、排程(亦稱為分派或發送)階段112、暫存器讀取/記憶體讀取階段114、執行階段116、回寫/記憶體寫入階段118、例外處理階段122、以及提交階段124。

圖1B顯示包括耦合到執行引擎單元150之前端單元130的處理器核心190且兩者均耦合到記憶體單元170。核心190係為減少指令集計算(RISC)核心、複雜指令集計算(CISC)核心、非常長指令字元(VLIW)核心、或混合或替代核心類型。作為仍另一選項，核心190係為特殊目的核心，譬如例如網路或通訊核心、壓縮引擎、共處理器核心、通用計算圖形處理單元(GPGPU)核心、圖形核心、或類似物。

前端單元130包括耦合到指令快取單元134的分支預測單元132，其耦合到指令轉譯旁看緩衝器(TLB)136，其耦合到指令擷取單元138，其耦合到解碼單元140。解碼單元140(或解碼器)可解碼指令，並產生一或多個微運算、微碼進入點、微指令、其他指令、或其他控制訊號來作為輸出，其係從最初指令解碼或另外反射或從其取得。解碼單元140可使用多種不同機制來實施。適合機制的實例包括但不限於查找表、硬體實施過程、可編程邏輯陣列(PLA)、微碼唯讀記憶體(ROM)等等。在一項實施例中，核心190包括儲存微碼以用於特定巨集指令的微碼ROM或其他媒介(例如，在解碼單元140中或另外在前端單元130內)。解碼單元140係耦合到在執行引擎單元150中的重新命名/分派器單元152。

執行引擎單元150包括耦合到引退單元154的重新命名/分派器單元152以及一組一或多個排程器單元156。排程器單元156代表任何數目的不同排程器，包括保留站、中央指令窗口等等。排程器單元156係耦合到實體暫存器檔案單元158。實體暫存器檔案單元158之各者代表一或多個實體暫存器檔案，其中不同者儲存一或多個不同資料類型，譬如純量整數、純量浮點、緊縮整數、緊縮浮點、向量整數、向量浮點、狀態(例如，係為欲被執行之下一指令之位址的指令指示器)等等。在一項實施例中，實體暫存器檔案單元158包含向量暫存器單元、寫入遮罩暫存器單元、以及純量暫存器單元。這些暫存器單元可提供架構性向量暫存器、向量遮罩暫存器、以及通用暫存器。實體暫存器檔案單元158係由引退單元154所重疊，以繪示暫存器重新命名且亂序執行可實施(例如，使用重排序緩衝器以及引退暫存器檔案；使用未來檔案、歷史緩衝器、以及引退暫存器檔案：使用暫存器地圖以及暫存器池等等)的許多方式。引退單元154以及實體暫存器檔案單元158係耦合到執行叢集160。執行叢集160包括一組一或多個執行單元162以及一組一或多個記憶體存取單元164。執行單元162可執行多種運算(例如，移位、相加、相減、相乘)且在多種類型的資料上(例如，純量浮點、緊縮整數、緊縮浮點、向量整數、向量浮點)。雖然一些實施例可包括專用於具體函數或函數組的數個執行單元，但是其他實施例卻僅可包括全部執行全部函數的一個執行單元或多個執行單元。排程器單元156、實體暫存器檔案單元158、以及執行叢集160係以可能是複數個來顯示，其係因為特定實施例產生用於特定類型資料/運算的分開管線(例如，各具有它們自己排程器單元、實體暫存器檔案單元、及/或執行叢集的純量整數管線、純量浮點/緊縮整數/緊縮浮點/向量整數/向量浮點管線、及/或記憶體存取管線-且在分開記憶體存取管線的情形中，可實施特定實施例，其中只有此管線的執行叢集具有記憶體存取單元164)。亦應該理解，在使用分開管線之處，這些管線其中一或多條可以是亂序發出/執行且剩下的則是依序。

該組記憶體存取單元164係耦合到記憶體單元170，其包括耦合到資料快取單元174的資料TLB單元172，該資料快取單元則耦合到層級2(L2)快取單元176。在一項例示性實施例中，記憶體存取單元164可包括載入單元、儲存位址單元、以及儲存資料單元、其中各者耦合到在記憶體單元170中的資料TLB單元172。指令快取單元134進一步耦合到在記憶體單元170中的層級2(L2)快取單元176。L2快取單元176耦合到一或多個其他層級的快取且最終耦合到主要記憶體。

以舉例的方式，例示性暫存器重新命名、亂序發出/執行核心架構可實施管線100如下：1)指令快取138執行快取與長度解碼階段102與104；2)解碼單元140執行解碼階段106；3)重新命名/分派器單元152執行分派階段108與重新命名階段110；4)排程器單元156執行排程階段112；5)實體暫存器檔案單元158與記憶體單元170執行暫存器讀取/記憶體讀取階段114；執行叢集160執行執行階段116；6)記憶體單元170與實體暫存器檔案158執行回寫/記憶體寫入階段118；7)多種單元可涉及於例外處理階段122；以及8)引退單元154與實體暫存器檔案單元 158執行提交階段124。

核心190可支援一或多個指令集(例如，x86指令集(具有已經加以較新版本的某些擴充)；CA,Sunnyvale之MIPS Technologies的MIPS指令集；England,Cambridge之ARM Holdings的ARM®指令集(具有選擇性附加擴充，譬如NEON))，其包括本文中所說明的指令。在一項實施例中，核心190包括支援緊縮資料指令集擴充的邏輯(例如，AVX1、AVX2、等等)，以允許由許多多媒體應用所使用的運算能夠使用緊縮資料來執行。

應該理解的是，核心可支援多線程(執行二或更多平行組運算或線程)，且會以許多方式如此進行，該等方式包括分時間片多線程、同時多線程(其中，單一個實體核心提供邏輯核心給實體核心同時予以多線程的各線程)、或其組合(例如，此後譬如在Intel®Hyperthreading科技中的分時間片擷取與解碼與同時多線程)。

雖然在亂序執行的背景中說明暫存器重新命名，但是應該理解的是，暫存器重新命名可被使用於依序架構中。雖然處理器的繪示實施例亦包括分開指令與資料快取單元134/174以及共享L2快取單元176，但是替代實施例則具有用於指令與資料兩者的單一內部快取，譬如例如層級1(L1)內部快取、或多層級內部快取。在一些實施例中，該系統可包括內部快取以及在核心及/或處理器外部之外部快取的組合。替代地，全部該快取皆在核心及/或處理器外部。

具體例示性依序核心架構

圖2A-B係為更具體例示性依序核心架構的方塊圖，該核心係為在一晶片中之數個邏輯方塊的其中一者(包括相同類型及/或不同類型的其他核心)。依據該應用，邏輯方塊經由高頻寬互連網路(例如，環狀網路)而與一些固定功能邏輯、記憶體I/O介面、以及其他必要的I/O邏輯通訊。

圖2A係為根據實施例之單一處理器核心連同其連接到晶片上互連網路202以及層級2(L2)快取204之其局部子集的方塊圖。在一項實施例中，指令解碼器200支援具有緊縮資料指令集擴展的x86指令集。L1快取206容許低潛時存取將記憶體快取到純量與向量單元內。雖然在一項實施例中(用以簡化該設計)，純量單元208與向量單元210使用分開的暫存器組(各別地，純量暫存器212與向量暫存器214)，且在它們之間傳送的資料係被寫入到記憶體且隨後從層級1(L1)快取206回讀入，替代實施例則可使用不同的方法(例如，使用單一暫存器組或包括通訊路徑，其容許資料在兩暫存器檔案之間傳送而沒有被寫入與回讀)。

L2快取204的局部子集係為全球L2快取的一部份，該快取分成分開的局部子集，每一處理器核心一個。各處理器核心具有到它本身局部子集之L2快取204的直接存取路徑。由處理器核心所讀取的資料係儲存在它的L2快取子集204中，且可與存取它們本身局部L2快取子集的其他處理器核心快速且並行地存取。由處理器核心寫入的資料係儲存在它本身的L2快取子集204中，且假如必要的話，從其他子集沖洗。環狀網路確保共享資料的一致性。環狀網路係雙向，以容許譬如處理器核心、L2快取與其他邏輯方塊的媒介彼此在晶片內通訊。各環狀資料路徑係為每一方向1012位元寬。

圖2B係為根據實施例之在圖2A中之部份處理器核心的擴大圖。圖2B包括L1快取204的L1資料快取206A部份以及關於向量單元210與向量暫存器214的更多細節。具體地，向量單元210係為16位元寬的向量處理單元(VPU)(見16位元寬算術邏輯單元(ALU)228)，其執行整數、單一精度浮動、以及雙倍精度浮動指令的其中一者或多者。VPU支援以攪和單元220來攪和暫存器輸入、以數字轉換單元222A-B的數字轉換、以及在記憶體輸入上之以複製單元224的複製。寫入遮罩暫存器226容許預測結果所得的向量寫入。

具有整合記憶體控制器與特殊目的邏輯的處理器

圖3係為根據實施例之具有大於一個核心、具有整合記憶體控制器、且具有整合圖形之處理器300的方塊圖。在圖3中的實線框繪示具有單一核心302A、系統媒介310、一組一或多個匯流排控制器單元316的處理器300，而虛線框的選擇性附加繪示具有多個核心302A-N、一組一或多個整合記憶體控制器單元314於系統媒介單元310中、以及特殊目的邏輯308的替代處理器300。

因此，處理器300的不同實施過程可包括：1)具有係為整合圖形及/或科學(通量)邏輯(其包括一或多個核心)之特殊目的邏輯308以及係為一或多個通用核心(例如，通用依序核心、通用亂序核心、兩者之組合)之核心302A-N的CPU；2)具有核心302A-N的共處理器，該等核心係為主要意圖用於圖形及/或科學(通量)的大量特殊目的核心；以及3)具有核心302A-N的共處理器，該等核心係為大量通用依序核心。因此，處理器300係為通用處理器、共處理器或特殊目的處理器，譬如，例如，網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU(通用圖形處理單元)、高通量眾多整合核心(MIC)共處理器(包括30或更多個核心)、嵌入式處理器、或類似物。處理器可在一或多個晶片上實施。處理器300係為使用數個製程技術任一者之一或多個基板的一部份及/或在其上實施，譬如例如雙極互補式金氧半導體(BiCMOS)、互補式金氧半導體(CMOS)、或N型金氧半導體(NMOS)。

記憶體階層包括一或多層級快取於核心內、一組或一或多個共享快取單元306、以及耦合到該組整合記憶體控制器單元314的外部記憶體(沒顯示)。該組共享快取單元306可包括一或多個中層級快取，譬如層級2(L2)、層級3(L3)、層級4(L4)、或其他層級快取、最後層級快取(LLC)、及/或其組合。雖然在一項實施例中，環狀互連單元312互連整合圖形邏輯308、該組共享快取單元306、以及系統媒介單元310/整合記憶體控制器單元314，替代實施例則可使用用於互連此等單元之任何數目的眾所皆知技術。在一項實施例中，一或多個快取單元306以及核心302A-N之間會維持一致性。

在一些實施例中，核心302A-N其中一或多個能夠多線程。系統媒介310包括協調與運算核心302A-N的那些組件。系統媒介單元310可例如包括電力控制單元(PCU)以及顯示單元。PCU係為或包括用於調節核心302A-N與整合圖形邏輯308之電力狀態所必須的邏輯與組件。顯示單元係用於驅動一或多個外部連接顯示器。

就架構結構組而言，核心302A-N可以是同質或異質；亦即是，核心302A-N其中二或更多個能夠執行相同指令集，而其他則能夠僅執行那指令集的子集或不同指令集。

例示性電腦架構

圖4-7係為例示性電腦架構的方塊圖。在該技術中，已知用於膝上型電腦、桌上型電腦、手提個人電腦、個人數位助理、工程工作站、伺服器、網路裝置、網路集線器、接線器、嵌入式處理器、數位訊號處理器(DSP)、圖形裝置、電動遊戲裝置、機上盒、微控制器、手機、可攜式媒體播放器、手持裝置、以及多種其他電子裝置的其他系統設計與組態亦合適。大致上，能夠合併本文中所揭露之處理器及/或其他執行邏輯的大量多樣系統或電子裝置通常適合。

圖4顯示根據實施例之系統400的方塊圖。系統400可包括一或多個處理器410、415，其係耦合到控制器集線器420。在一項實施例中，控制器集線器420包括圖形記憶體控制器集線器(GMCH)490以及輸入/輸出集線器(IOH)450(其會在分開晶片上)；GMCH490包括耦合到記憶體440與共處理器445的記憶體與圖形控制器；IOH450將輸入/輸出(I/O)裝置460耦合到GMCH490。或者，記憶體與圖形控制器其中一者或兩者係被整合於處理器內(如本文中所說明)，記憶體440與共處理器445直接耦合到處理器410，且控制器集線器420與IOH450在單一晶片中。

附加處理器415的選擇性本質在圖4中以虛線標示。各處理器410、415可包括本文中所說明之處理核心的其中一或多個，且可以是處理器300的某種版本。

記憶體440可以例如是動態隨機存取記憶體(DRAM)、相位改變記憶體(PCM)、或該兩者之組合。就至少一項實施例而言，經由多點匯流排(譬如前側匯流排(FSB))、點對點介面(譬如快速路徑互連(QPI))、或類似連接495，控制器集線器420與處理器410、415通訊。

在一項實施例中，共處理器445係為特殊目的處理器，譬如例如高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU、嵌入式處理器、或類似物。在一項實施例中，控制器集線器420可包括整合圖形加速器。

依據包括架構、微架構、熱、電力損耗特徵、以及類似物的優值指標譜，在實體資源410、415之間會有多種差異。

在一項實施例中，處理器410執行控制一般類型之資料處理運算的指令。共處理器指令係嵌入於指令內。處理器410識別這些共處理器指令為應該由附加共處理器445所執行的類型。據此，處理器410將在共處理器匯流排或其他互連件上的這些共處理器指令(或代表共處理器指令的控制訊號)發送到共處理器445。共處理器445接受且執行接收的共處理器指令。

圖5顯示根據實施例之第一更具體例示性系統500的方塊圖。如圖5所示，多重處理器系統500係為點對點互連系統，且包括經由點對點互連件550耦合的第一處理器570與第二處理器580。處理器570與580之各者係為某種版本的處理器300。在本發明的一項實施例中，處理器570與580各別為處理器410及415，而共處理器538係為共處理器445。在另一項實施例中，處理器570與580各別為處理器410與共處理器445。

處理器570與580各別顯示包括整合記憶體控制器(IMC)單元572與582。處理器570亦包括點對點(P-P)介面576與578作為其匯流排控制器單元的一部份；相同地，第二處理器580包括P-P介面586與588。處理器 570、580可經由使用P-P介面電路578、588的點對點(P-P)介面550交換資訊。如圖5所示，IMC572與582將處理器耦合到各別記憶體，亦即，記憶體532與記憶體534，其會是局部附加到各別處理器之主記憶體的部份。

處理器570、580各者可經由使用點對點介面電路576、594、586、598的個別P-P介面552、554而與晶片組590交換資訊。晶片組590可經由高性能介面539而與共處理器538選擇性地交換資訊。在一項實施例中，共處理器538係為特殊目的處理器，譬如例如，高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU、嵌入式處理器、或類似物。

共享快取(未顯示)可被包括在處理器中或兩處理器外面，可是卻經由P-P互連件而與處理器連接，使得假如處理器置於低電力模式內，處理器的局部快取資訊任一者或兩者能夠被儲存於共享快取中。

晶片組590可經由介面596耦合到第一匯流排516。在一項實施例中，第一匯流排516係為週邊組件互連(PCI)匯流排或譬如PCI快速匯流排或另一第三代I/O互連匯流排的匯流排，雖然本發明的範圍不會如此受限。

如圖5所示，多種I/O裝置514可耦合到第一匯流排516，連同耦合第一匯流排516到第二匯流排520的匯流排橋接器518。在一項實施例中，一或多個額外處理器515，譬如共處理器、高通量MIC處理器、GPGPU、加速器(譬如，例如，圖形加速器或數位訊號處理(DSP)單元)、場可編程閘極陣列、或任何其他處理器，係耦合到第一匯流排516。在一項實施例中，第二匯流排520係為低接腳數(LPC)匯流排。多種裝置可耦合到第二匯流排520，該第二匯流排例如包括鍵盤及/或滑鼠522、通訊裝置527以及儲存單元528(譬如磁碟機或其他大量儲存裝置，在一項實施例中，該大量儲存裝置可包括指令/碼及資料530)。進一步，聲音I/O524可耦合到第二匯流排520。注意，其他架構是可能的。例如，代替圖5的點對點架構，一種系統可實施多點匯流排或其他此架構。

圖6顯示根據實施例之第二更具體例示性系統600的方塊圖。在圖5與6中的同樣元件帶有同樣的參考號碼，且圖5的特定態樣已經從圖6省略，以便避免混淆圖6的其他態樣。

圖6繪示處理器570、580可各別地包括整合記憶體與I/O控制邏輯(「CL」)572與582。因此，CL572、582包括整合記憶體控制器單元且包括I/O控制邏輯。圖6繪示不僅記憶體532、534耦合到CL572、582，而且I/O裝置614亦耦合到控制邏輯572、582。舊有I/O裝置615係耦合到晶片組590。

圖7顯示根據實施例之晶片上系統(SoC)700的方塊圖。在圖3中的相似元件帶有同樣的參考號碼。同樣地，虛線框係為在更進步的SoC上的選擇性特徵。在圖7中，互連單元702耦合至：應用處理器710，該處理器包括一組一或多個核心202A-N以及共享快取單元306；系統媒介單元310；匯流排控制器單元316；整合記憶體控制器單元314；一組一或多個共處理器720，該等共處理器可包括整合圖形邏輯、影像處理器、聲音處理器、以及視訊處理器；靜態隨機存取記憶體(SRAM)單元730；直接記憶體存取(DMA)單元732；以及用於耦合到一或多個外部顯示器的顯示單元740。在一項實施例中，共處理器720包括特殊目的處理器，譬如例如網路或通訊處理器、壓縮引擎、GPGPU、高通量MIC處理器、嵌入式處理器、或類似物。

本文中所揭露機制的實施例可呈硬體、軟體、韌體、或此實施過程方法的組合來實施。實施例會以在可編程系統上執行的電腦程式或程式碼來實施，該可編程系統包含至少一處理器、儲存系統(包括揮發性及非揮發性記憶體及/或儲存元件)、至少一輸入裝置、以及至少一輸出裝置。

程式碼，譬如在圖5中所繪示的碼530，可予以施加到輸入指令，以執行在本文中所說明的功能且產生輸出資訊。輸出資訊會以已知的方式施加到一或多個輸出裝置。為了此應用，處理系統包括具有處理器的任何系統，譬如，例如；數位訊號處理器(DSP)、微控制器、特殊應用積體電路(ASIC)、或微處理器。

該程式碼會以高層級程序性或物件導向編程語言實施以與處理系統通訊。若有需要的話，程式碼亦以組合語言或機器語言來實施。事實上，本文中所說明的機制在範圍上不限於任何特定編程語言。在任何情形中，該語言係為編譯或解譯語言。

至少一項實施例的一或多個態樣可藉由儲存在機器可讀取媒體上的代表資料來實施，該機器可讀取媒體代表處理器內的多種邏輯，其當由機器讀取時導致機器製造邏輯以執行本文中所說明的技術。此等代表，稱為「IP核心」，可予以儲存在有形、機器可讀取媒體(「帶」)上，且供應到多種顧客或製造裝置以載入於真正產生邏輯或處理器的製造機器內。例如，IP核心，譬如由ARM Holdings,Ltd.以及中國科學院計算技術研究所所研發的處理器，其可被授權或販售給許多客戶或被授權人且再由這些客戶或被授權人所產生的處理器中被實施。

此機器可讀取儲存媒體可包括而不限於由機器或裝置所製造或形成之物體的非暫態、有形配置，包括儲存媒體，譬如硬碟、任何其他類型的磁碟(包括軟碟、光碟、唯讀小型光碟記憶體(CD-ROM)、可重寫小型光碟(CD-RW)、以及磁光碟)、半導體裝置(譬如唯讀記憶體(ROM)、譬如動態隨機存取記憶體(DRAM)、靜態隨機存取記憶體(SRAM)的隨機存取記憶體(RAM)、可拭除可編程唯讀記憶體(EPROM)、快閃記憶體、電可拭除可編程唯讀記憶體(EEPROM)、相位改變記憶體(PCM)、磁性或光學卡、或適合用於儲存電子指令的任何其他類型的媒體。

據此，實施例亦包括非暫態、有形機器可讀取媒體，該機器可讀取媒體含有指令或含有設計資料，譬如硬體描述語言(HDL)，其定義本文中所說明的結構、電路、裝置、處理器及/或系統特徵。此等實施例亦稱為程式產品。

模擬(包括二進制轉譯、碼變形等等)

除了本文中所說明的單一指令集最佳化以外，指令轉換器可使用以將指令從來源指令集轉換成目標指令集。例如，指令轉換器可轉譯(例如，使用靜態二進制轉譯、包括動態編譯的動態二進制轉譯)、變形、模擬、或另外轉換指令到欲由核心處理的一或多個其他指令。指令轉換器會以軟體、硬體、韌體、或其組合來實施。指令轉換器可在處理器、不在處理器、或部份在處理器且部份不在處理器。

圖8係為一方塊圖，其對比軟體指令轉換器之使用，以根據實施例轉換在來源指令集中的二進制指令成在目標指令集中的二進制指令。在所繪示的實施例中，指令轉換器係為軟體指令轉換器，雖然替代地，指令轉換器會以軟體、韌體、硬體、或其多種組合來實施。圖8顯示在高層級語言802中的程式可使用x86編譯器804來編譯，以產生本質上由具有至少一x86指令集核心816之處理器所執行的x86二進制碼806。

具有至少一x86指令集核心816的處理器代表可實質執行與具有至少一x86指令集核心之Intel®處理器相同功能的任何處理器，其藉由相容地執行或另外處理(1)Intel® x86指令集核心之實質一部份的指令集或(2)目標用以在具有至少一x86指令集核心之Intel®處理器上運行之應用或其他軟體的目的碼版本，以便能夠得到與具有至少一x86指令集核心之Intel®處理器實質相同的結果。x86編譯器804代表可運算來產生x86二進制碼806(例如，目的碼)的編譯器，在具有或不具有額外連結處理上，該二進制碼可在具有至少一x86指令集核心的處理器816上執行。相同地，圖8顯示在高層級語言802中的程式可使用替代指令集編譯器808來編譯，以產生替代指令集二進制碼810，該二進制碼本質上可由不具有至少一x86指令集核心(例如，具有核心的處理器，該等核心執行CA,Sunnyvale之MIPS Technologies的MIPS指令集及/或執行England,Cambridge之ARM Holdings的ARM指令集)的處理器814所執行。

指令轉換器812係使用來將x86二進制碼806轉換成本質上可由不具有x86指令集核心之處理器814執行的碼。此轉換碼不大可能與替代指令集二進制碼810相同，其因為能夠如此的指令轉換器難以產生；不過，該轉換碼將完成一般運算且由來自替代指令集的指令所組成。因此，指令轉換器812代表軟體、韌體、硬體、或其組合，經由仿真、模擬或任何其他製程，其容許不具有x86指令集處理器或核心的處理器或其他電子裝置執行x86二進制碼806。

最佳化動態二進制轉譯系統

DBT系統以最佳化動態二進制轉譯系統來組態，該最佳化動態二進制轉譯系統能夠發現可融合指令序列以及藉由融合多數指令成單一指令來最佳化那些指令序列。圖9A-B繪示例示性二進制轉譯系統與邏輯，其用以執行包括融合多數指令成一融合指令的運行時間二進制最佳化。圖9A係為根據一實施例之組態用於動態二進制轉譯之計算系統的方塊圖。圖9B係為用以融合來源碼方塊中之指令成單一融合指令之邏輯的流程圖。

圖9A的系統900包括耦合到系統記憶體904的處理器902。在一項實施例中，該系統額外地包括快取記憶體905(例如，圖1的資料快取單元174或L2快取單元176)，以及與處理器902耦合或整合於處理器902內的草稿式記憶體907。處理器902包括一組實體暫存器906以及一或多個核心處理單元(例如，「核心」903A-N)。在一項實施例中，核心處理單元的各者經組態以執行同時多線程。

系統記憶體904可主持來源二進制應用910、動態二進制轉譯系統915以及主體運算系統(「OS」)920。動態二進制轉譯系統915可包括目標二進制碼912、動態二進制轉譯器碼914(包括暫存器映射模組916)及/或來源暫存器儲存918方塊。來源二進制應用910包括一組來源二進制碼方塊，其可以是經組合的低層級碼或經編譯的高層級碼。來源二進制碼方塊係為可包括分支邏輯的指令序列，該分支邏輯則包括遞增、比較、以及跳越指令。

在一項實施例中，目標二進制碼方塊912係儲存在標為「碼快取」911的系統記憶體的區域中。碼快取911使用當作用於目標二進制碼方塊912的儲存，該等目標二進制碼方塊已經從一或多個對應方塊的來源二進制碼方塊轉譯。系統記憶體904可主持經組態以下載/儲存資料至/自處理器暫存器906的來源暫存器儲存918。在一些實施例中，快取記憶體905及/或草稿式記憶體907經組態以下載/儲存資料至/自處理器暫存器906。

在一項實施例中，動態二進制轉譯器碼914及暫存器映射模組916係藉由一或多個核心來執行，以在來源二進制應用910上運算，以將來源二進制應用910的方塊轉換成目標二進制碼方塊912。目標二進制碼方塊912經組態以包括來源二進制應用910之對應來源二進制碼方塊的功能。在一項實施例中，來源二進制應用之來源二進制碼方塊的多數指令係結合(例如，融合)成更小數目的指令，以產生最佳化目標二進制碼912，該最佳化目標二進制碼包括與在較小數目指令上執行之來源二進制應用相同的功能。例如，來源二進制應用910可包括比較與跳越指令序列(該等序列包括遞增或遞減一計數、比較該計數與一常數)以及然後引動跳越，假如符合特定限制的話(例如，假如迴路變數尚未遞增到N，其中N係為希望數目的迴路迭代)。在一項實施例中，DBT系統915經組態以壓縮(例如，融合)三個分開的遞增、比較、以及跳越指令成單一指令。

當系統900接收一呼叫以執行二進制碼方塊時，DBT系統915掃瞄用於可融合指令的碼方塊，且將指令序列結合成融合指令。用以掃瞄與最佳化指令的例示性邏輯係顯示於圖9B中。雖然DBT系統915被繪示，但是在一項實施例中，在執行二進制之前，SBT係在二進制上執行，且被發現的任何靜態可融合指令序列(例如，經由靜態分析而被決定是安全的指令序列)可被融合以產生用於執行的最佳化二進制。

如在圖9B的920所示，系統接收一呼叫以執行二進制碼方塊。在一項實施例中，如在922所示，系統掃瞄用於遞增、比較、以及跳越指令序列。假如在圖9B中的924，偵測到指令序列，轉譯邏輯則可執行額外的運算，包括在926判定是否任何資料相依性存在於被偵測的序列。否則，系統進行到在932的下一有效碼方塊(假如下一碼方塊存在)。例示性的偵測碼序列係顯示於下文的表1。

在表1的例示性指令中，遞增指令係顯示於第(1)行，比較指令係顯示於第(3)行，且跳越指令係顯示於第(5)行。第(2)行代表碼_片段_A，其可包括在第(1)行的遞增與在第(3)行的比較之間的零或更多指令。第(4)行代表碼片段_B，其可包括在第(3)行的比較與在第(5)行的跳越之間的零或更多指令。雖然JE(假如相等的話，跳越)指令顯示於第(5)行，但是實施例卻不限於任何特定跳越指令。更者，雖然顯示CMP(比較)指令，但是其他比較運算(例如，TEST(測試))亦可被融合。

在ADD、CMP、以及JE指令之間的指令片段不包括任何其他指令。在此情形中，ADD/CMP/JE序列將是相鄰的。不過，其他指令可存在於片段內的碼序列中。在重新排列任何額外指令於碼序列之前，轉譯邏輯掃瞄碼序列，以在926判定是否任何資料相依性存在。假如在片段_A或片段_B中之指令之運算元的任一者取決於對相加、比較、或跳越指令的運算元，它會無法允許重新排列指令，且轉譯邏輯會前進到在932的下一有效碼方塊(假如此碼方塊存在)。另外，如果任何額外分支指令存在於片段_A或片段_B任一者，則不會允許重新排列指令。不過，在一些實施例中，緊跟在跳越指令之後的額外分支指令係被允許。

不過，假如片段_A或片段_B的指令不具有與增加、比較、或跳越指令之運算元的資料相依性，那麼在進入碼流中允許額外的指令則是合法的，且轉譯器應該會自由地重新排列這些指令而沒有破壞任何資料相依性。據此，在方塊928，轉譯邏輯可重新排列在偵測指令序列內之碼片段中的任何指令。在方塊930，轉譯邏輯以單一遞增_比較_跳越指令來替代分開的遞增、比較、跳越指令，包括執行指令序列所需要的運算元，包括用於比較運算的暫存器與固定值、以及用於跳越運算的跳越標記。例示性重新排列碼序列係顯示於下文的表2中。

如上文的表2中所示，用於片段_A以及片段_B的指令可重新排列，如在第(6)行以及第(7)行所示。如在第(8)行所示，被融合的遞增_比較_跳越運算被插入，其包括用於遞增、比較以及跳越運算的運算元。

例示性融合指令處理器實施過程

圖10A-B係為方塊圖，其繪示遞增_比較_跳越指令的例示性處理器實施過程。在許多實施例中，實施處理器包括用以實施該指令的許多架構特徵。圖10A係為根據實施例之包括用以執行操作的邏輯之處理器核心的方塊圖。圖10B係為根據實施例用以實施遞增_比較_跳越指令之例示性具體微架構的方塊圖。

如圖10A所示，在一項實施例中，處理器核心1000包括用以擷取欲被執行之指令的依序前端1001且準備稍後欲在處理器管線中使用的指令。在一項實施例中，前端1001類似圖1的前端單元130，其額外包括包括用以從記憶體搶先擷取指令之指令預取單元1026的組件。被擷取的指令可被饋送到指令解碼器1028以解碼或解譯指令。

在一項實施例中，指令解碼器1028將收到的指令解碼成機器可執行的一或多個運算，其稱為「微指令」或「微運算」(亦稱為微op或uops)。在其他實施例中，解碼器將指令分析成操作碼與對應資料與控制欄位，其被微架構使用以根據一項實施例來執行操作。在一項實施例中，追蹤快取1029採用被解碼的uops且將它們裝配成在uop佇列1034中的程式依序序列或軌跡，以用於執行。

在一項實施例中，處理器核心1000實施複合指令集。當追蹤快取1029遇到複合指令時，微碼ROM1032則提供完成運算所需要的uops。一些指令轉換成單一微op，然而，其他者則需要許多微op來完成全運算。在一項實施例中，指令可解碼成少數的微op以用於在指令解碼器1028處理。在另一項實施例中，如果需要一些微op以完成運算，可將一指令儲存在微碼ROM1032內。例如，在一項實施例中，假如需要大於四個的微op來完成指令，解碼器1028則存取微碼ROM1032以執行指令。

追蹤快取1029意指進入點可編程邏輯陣列(PLA)以判定正確的微指令指標，以用於讀取微碼序列，以根據一項實施例完成來自微碼ROM1032的一或多個指令。在微碼ROM1032結束序列化用於一指令的微op之後，機器的前端1001恢復從追蹤快取1029擷取微op。在一項實施例中，處理器核心1000包括亂序執行引擎1003，在此，準備指令以用於執行。亂序執行邏輯具有數個緩衝器，以當指令進行經過指令管線時，重新排序指令流以最佳化性能。就組態用於微碼支援的實施例而言，分派器邏輯分派各uop在執行期間內所使用的機器緩衝器與資源。另外，暫存器重新命名邏輯重新命名邏輯暫存器到在暫存器檔案中之實體暫存器中的實體暫存器。

在一項實施例中，分派器分派一入口給在兩個uop佇列其中一者中的各uop，一者用於記憶體運算且一者用於非記憶體運算，其係在指令排程器前面：記憶體排程器、快速排程器1002、慢/一般浮點排程器1004、以及簡單浮點排程器1006。uop排程器1002、1004、1006基於它們相依之輸入暫存器運算元來源的預備狀態以及uop完成它們運算所需要之執行來源的可用性，來判定何時uop準備執行。一項實施例的快速排程器1002可在主要時鐘循環的各半上排程，同時其他排程器僅可每逢一主要處理器時鐘循環來排程一次。排程器調解分派埠，以排程用於執行的uop。

在執行方塊1011中，暫存器檔案1008、1010坐於排程器1002、1004、1006與執行單元1012、1014、1016、1018、1020、1022、1024之間。在一項實施例中，有各別用於整數以及浮點運算的分開暫存器檔案1008、1010。在一項實施例中，各暫存器檔案1008、1010包括旁路網路，該旁路網路可旁路或遞送尚未寫入於暫存器檔案內的完成結果到新的相依uop。整數暫存器檔案1008以及浮點暫存器檔案1010亦能夠與其他者通訊資料。就一項實施例而言，整數暫存器檔案1008會分成兩個分開的暫存器檔案，一個暫存器檔案用於低階的32位元資料，且第二暫存器檔案用於高階的32位元資料。在一項實施例中，浮點暫存器檔案1010具有128位元寬的入口。

執行方塊1011含有用以執行指令的執行單元1012、1014、1016、1018、1020、1022、1024。暫存器檔案1008、1010儲存微指令必須執行的整數與浮點資料運算元值。一項實施例的處理器核心1000包含數個執行單元：位址產生單元(AGU)1012、AGU1014、快速ALU1016、快速ALU1018、慢ALU1020、浮點ALU1022、浮點移動單元1024。就一項實施例而言，浮點執行方塊1022、1024、執行浮點、MMX、SIMD、以及SSE、或其他運算。一項實施例的浮點ALU1022包括64位元乘以64位元的浮點除法器，以執行除法、平方根、以及餘數的微op。

在一項實施例中，涉及浮點值的指令會以浮點硬體處理。ALU運算前往高速ALU執行單元1016、1018。一項實施例的快速ALU1016、1018會以半時鐘週期的有效潛時來執行快速操作。就一項實施例而言，大部分的複合整數運算前往慢ALU1020，因為慢ALU1020包括用於長潛時類型運算(譬如乘法、移位、旗標邏輯、以及分支處理)的整數執行硬體。記憶體下載/儲存運算係由AGU1012、1014所執行。就一項實施例而言，整數ALU1016、1018、1020係在64位元資料運算元上執行整數運算的情境中說明。在替代實施例中，ALU1016、1018、1020可被實施以支援各種資料位元，包括16、32、128、256等等。類似地，浮點單元1022、1024可予以實施，以支援具有不同寬度之位元之運算元的範圍。就一項實施例而言，浮點單元1022、1024可連同SIMD與多媒體指令而在128位元寬的封裝資料運算元上運算。

在一項實施例中，在母載入已經完成執行以前，uop排程器1002、1004、1006分派相依的運算。當uop被臆測性排程與執行時，處理器核心1000亦包括用以處理記憶體遺失的邏輯。假如資料載入在資料快取中遺失，在已經離開具有暫時不正確資料之排程器之管線中的傳輸中則會有相依的運算。重播機制追蹤且重新執行使用不正確資料的指令。在一項實施例中，只有相依的操作必須重播且不相依者則被允許完成。

在一項實施例中，包括記憶體執行單元(MEU)1041。MEU1041包括記憶體次序緩衝器(MOB)1042、SRAM單元1030、資料TLB單元1072、資料快取單元1074、以及L2快取單元1076。

處理器核心1000經組態以用於藉由共享或劃分多種組件的同時多線程操作。在處理器上的任何線程操作可存取共享組件。例如，在共享緩衝器或共享快取中的空間可分派到無關請求線程的線程操作。在一項實施例中，被劃分的組件係每逢一線程地分派。具體地，哪些組件被共享且哪些組件被劃分根據實施例而變。在一項實施例中，譬如執行單元(例如，執行方塊1011)與資料快取(例如，資料TLB單元1072、資料快取單元1074)的處理器執行資源係為共享的資源。在一項實施例中，包括L2快取單元1076以及其他更高層級快取單元(例如，L3快取、L4快取)的多層級快取係在全部執行線程之間共享。其他處理器資源係以每一線程為基礎被分份與指派或分派，被劃分資源的具體劃分區專屬於具體線程。例示性劃分資源包括MOB1042、亂序引擎1003的暫存器別名表(RAT)以及重新排序緩衝器(ROB)(例如，在圖1B的重新命名/分派器單元152以及引退單元154內)、以及與前端1001之指令解碼器1028有關的一或多個指令解碼佇列。在一項實施例中，指令TLB(例如，圖1B的指令TLB單元136)以及分支預測單元(例如，圖1B的分支預測單元132)亦被劃分。

執行方塊1011的例示性部份包括如在圖10B中所示的邏輯，其繪示用於實施單一週期遞增_比較_跳越指令的微架構1050。在一項實施例中，所繪示的微架構1050經組態以執行在處理器執行管線內的執行階段。微架構1050包括算術邏輯單元(ALU)1054以及跳越執行單元 (JEU)1056且能夠執行分支與算術指令。管路邏輯1052A-B連結微架構以及用於先前與連續管線階段的邏輯，以供應運算元(例如，運算元_A1060、運算元_B1061)到用於計算的ALU1054且將ALU計算1063的結果(例如，B+1)通到連續管線階段。在一項實施例中，遞增作業的結果提交給由輸入運算元所指示的適當暫存器。從控制單元到ALU1054的控制訊號1066被使用來在ALU作業之間選擇，或在一項實施例中，提供操作碼給ALU。控制訊號1067亦從控制單元提供到JEU以控制JEU作業。

在一項實施例中，ALU1054使用來執行比較運算。減法運算可使用運算元_A1060與運算元_B1061來執行，其係被提供到預先修改的比較指令。除法運算(例如，A-B)被執行以產生供應到JEU1056的旗標(例如，用於條件分支1064的ALU旗標)以判定是否採用條件分支(例如，跳越-相等、跳越-不-相等、等等)。

為了執行在單一執行週期內的遞增_比較_跳越指令，各組件需要在週期內之適當點上適當輸入。例如，在該週期中，ALU旗標1064應該提早抵達JEU1056且它們不會是多週期旁路的結果。在一項實施例中，具體子集的旗標(例如，進位、零、符號、溢位等等)使用於基於時序限制的條件跳越。在一項實施例中，在架構旗標暫存器中的全部旗標可使用於跳越情況，包括同位旗標。

在一項實施例中，藉由利用到ALU1054的進位輸入1062，遞增_比較_跳越操作係在單一週期內執行。例如，到第0位元切片加法器的進位輸入1062可被確立，以導致ALU1054執行遞增與比較(例如，比較A-B+1)而不會對時序有任何實質影響。計算可在該週期中提早執行，以即時產生ALU旗標給跳越執行單元1056，以在必要時執行跳越計算。至少部份基於ALU旗標1064，JEU1056產生包括跳越目標位址的控制重新定向資訊1065，該跳越目標位址係提供到處理器前端以啟始控制流改變且更新下一指令指標(NIP)。

圖11係為處理系統的方塊圖，其包括根據實施例來執行遞增_比較_跳越指令的邏輯。例示性處理系統包括耦合到主記憶體1100的處理器1155。處理器1155包括具有用於解碼遞增_比較_跳越指令之解碼邏輯1131的解碼單元1130。另外，處理器執行引擎單元1140包括用於執行指令的額外執行邏輯1141。當執行單元1140執行指令流時，暫存器1105提供用於運算元、控制資料以及其他類型資料的暫存器儲存。

為了簡單起見，單一處理器核心(「核心0」)的細節係繪示於圖11中。不過，將理解的是，在圖11中所示的各核心會具有與核心0相同組的邏輯。如繪示，各核心亦可包括專用的層級1(L1)快取1112以及層級2(L2)快取1111，以用於根據指明的快取管理政策來快取指令與資料。L1快取1111包括用於儲存指令的分開指令快取1320以及用於儲存資料的分開資料快取1121。儲存於多種處理器快取內的指令與資料係以快取線的粒度來管理，其係可能是固定尺寸(例如，長度64、128、512位元組)。此例示性實施例的各核心具有用於從主記憶體1100及/或共享層級3(L3)快取1116擷取指令的指令擷取單元1110、用於解碼指令的解碼單元1130、用於執行指令的執行單元1340、以及用於引退指令且回寫結果的回寫/引退單元1150。

指令快取單元1110包括多種眾所皆知的組件，該等組件包括下一指令指標1103，其用於儲存欲從記憶體1100(或其中一快取)擷取之下一指令的位址；指令轉譯旁視緩衝器(ITLB)1104，其用於儲存最近使用虛擬-至-實體指令位址之地圖以改善位址轉譯的速度；分支預測單元1102，其用於臆測地預測指令分支位址；以及分支目標緩衝器(BTB)1101，其用於儲存分支位址與目標位址。一旦經擷取，指令隨後串流傳送到剩下階段的指令管線，包括解碼單元1130、執行單元1140、以及回寫/引退單元1150。

圖12係為流程圖，其用於根據實施例來處理遞增_比較_跳越指令的邏輯。在方塊1202，指令管線以指令擷取以執行遞增_比較_跳越運算開始。指令接受用於該指令之遞增與比較部份的第一與第二輸入運算元以及用於該指令之條件跳越部份的跳越標記運算元。在一項實施例中，第一運算元會是暫存器或立即值，而第二運算元會是暫存器、立即值、或記憶體位址。在一些實施例中，跳越標記係為自轉換成跳越目標位址之跳越指令偏移的立即值。

在方塊1204，解碼單元將遞增_比較_跳越指令解碼成解碼指令。在一項實施例中，解碼指令係為在單一處理器週期中執行的單一運算。在一項實施例中，解碼指令包括用以執行該指令之各子元件的一或多個微運算。微運算可以是硬線的或微碼運算可導致處理器之組件(譬如執行單元)執行多種運算以實施指令。

在方塊1206，處理器的執行單元執行解碼指令以執行融合的遞增_比較_跳越運算以遞增、比較、以及條件地跳越(例如，分支)到基於該比較的跳越目標標記。在一項實施例中，基於起因於ALU比較(例如，相減)運算的狀態旗標以及任何狀態旗標，假如相關的話，跳越目標位址會被產生且通訊到處理器前端。

在方塊1208，處理器前端基於運算結果來更新下一指令指標且處理器的引退單元將指令引退。在一項實施例中，基於是否執行跳越，下一指令指標依序更新到跳越目標位址或下一指令。在一項實施例中，亂序處理器係為分支預測處理器，且處理器使用指令的結果來解決分支預測。假如分支預測正確且在管線中的指令流持續不中斷。不過，假如分支預測不正確，處理器執行錯誤預測回復運算以解決分支錯誤預測。

在一項實施例中，當偵測到錯誤預測時，JEU確立一訊號(例如，JE清除)，該訊號清除由在分支錯誤預測之後所擷取之指令所產生的前端狀態並且將用以開始擷取新指令的位址指示給前端。從分支錯誤預測回復之用過的處理器週期有助於處理器分支錯誤預測懲罰，其係為從錯誤預測分支完全回復所必要的週期數目。在一項實施例中，相較於分開指令的情境，指令融合將分支錯誤預測懲罰減少兩週期。為了從涉及分開遞增、比較、以及跳越指令的分支錯誤預測回復，在一項實施例中，需要三個處理器週期。

在分開遞增、比較以及跳越指令之間的比較係顯示於下文的表中。表3顯示分開遞增、比較、以及跳越指令的例示性管線時序。表4顯示用於融合、單一週期遞增_比較_跳越的時序。

如上文表3所示，分開的遞增(INC)、比較(CMP)、以及跳越(JCC)指令會被排程、引導暫存器檔案讀取、以及藉由亂序處理器(例如，亂序引擎1003)自指令次序執行。當指令分開執行時，處理器的JEU無法分配分支位址到前端直到N+4，以在假如處理器不正確預測分支之下延伸錯誤預測懲罰。

如上文表4所示，融合的遞增_比較_跳越指令會被排程、引導暫存器檔案讀取、以及比分開的指令更早兩週期地執行。據此，減少執行分開動作所需要之硬體指令的數目可減少在多種功能單元上的壓力，使那些單元自由執行其他運算。在一項實施例中，當減少數目的指令在處理器硬體內被排程且管理時，融合指令減少用於排程與記帳硬體的需求。另外，對於重新排序的緩衝器與保留站而言，減少的資源是必要的。

在一項實施例中，指令融合亦減少在暫存器分派硬體上的壓力，兩者均在二進制轉譯邏輯內與在處理器內，假定在個別指令的暫存器之間將有明顯的相依性，且當使用單一指令時，全部的暫存器運算元均為單一指令的運算元。另外，融合的指令減少用於二進制轉譯系統的指令快取足跡且減少指令快取與解碼頻寬的用途，以及改善碼密度。

例示性指令格式

本文中所說明之指令的實施例會以不同格式實施，其包括向量親合指令格式。向量親合指令格式係為適合向量指令的指令格式(例如，有專用於向量運算的特定欄位)。雖然經由向量親合指令格式來支援向量與純量運算兩者的實施例係被說明，但是替代實施例則僅使用向量親合指令格式的向量運算。

圖13A-13B係為方塊圖，其繪示根據實施例的通用向量親合指令格式以及其指令樣板。圖13A係為一方塊圖，其繪示根據實施例的通用向量親合指令格式以及其種類A指令樣板；而圖13B係為一方塊圖，其繪示根據實施例的通用向量親合指令格式以及其種類B指令樣板。具體地，用於此的通用向量親合指令格式1300係為定義的種類A與種類B指令樣板，其兩者包括無記憶體存取1305指令樣板與記憶體存取1320指令樣板。在向量親合指令格式之背景中所通用的用語意指該指令格式不繫於任何具體指令集。

將說明向量親合指令格式支援下列的本發明實施例：具有32位元(4位元組)或64位元(8位元組)資料元件寬度(或尺寸)的64位元組向量運算元長度(或尺寸)(以及因此，64位元組向量由16個雙字尺寸元件或替代地8個四倍字尺寸元件所組成)；具有16位元(2位元組)或8位元(1位元組)資料元件寬度(或尺寸)的64位元組向量運算元長度(或尺寸)；具有32位元(4位元組)、64位元(8位元組)、16位元(2位元組)、或8位元(1位元組)資料元件寬度(或尺寸)的32位元組向量運算元長度(或尺寸)；以及具有32位元(4位元組)、64位元(8位元組)、16位元(2位元組)、或8位元(1位元組)資料元件寬度(或尺寸)的16位元組向量運算元長度(或尺寸)。不過，替代實施例支援具有更多、更少、或不同資料元件寬度(例如，128位元(16位元組)資料元件寬度)的更多、更少、及/或不同向量運算元尺寸(例如，256位元組向量運算元)。

在圖13A中的種類A指令樣板包括：1)在無記憶體存取1305指令樣板內，有顯示無記憶體存取、全捨入控制類型運算1310指令樣板以及無記憶體存取、資料轉換類型運算1315指令樣板；以及2)在記憶體存取1320指令樣板內，有顯示記憶體存取、暫時性1325指令樣板以及記憶體存取、非暫時性1330指令樣板。在圖13B中的種類B指令樣板包括：1)在無記憶體存取1305指令樣板內，有顯示無記憶體存取、寫入遮罩控制、部份捨入控制類型運算1312指令樣板以及無記憶體存取、寫入遮罩控制、v向尺寸類型運算1317指令樣板；以及2)在記憶體存取1320指令樣板內，有顯示記憶體存取、寫入遮罩控制1327指令樣板。

通用向量親合指令格式1300包括以圖13A-13B所繪示之次序而陳列於下文的下列欄位。

格式欄位1340-在此欄位中的具體值(指令格式識別器值)唯一識別向量親合指令格式，以及因此在指令流中之向量親合指令格式之指令的發生。就其本身而言，在它對於僅具有通用向量親合指令格式的指令集而言不需要的意義中，此欄位是選擇性的。

基礎運算欄位1342-其內容區別不同基礎運算。

暫存器指數欄位1344-其內容，直接或經由位址產生，指明它們在暫存器或在記憶體中之來源與目的地運算元的位置。這些包括充分數目的位元，以從PxQ(例如，32×512、16×128、32x1024、64x1024)暫存器檔案選擇N個暫存器。雖然在一項實施例中，N可多達三個來源與一個目的地暫存器，但是替代實施例卻可支援更多或更少來源與目的地暫存器(例如，可支援多達兩個來源(其中這些來源其中一者亦當作目的地)、可支援多達三個來源(其中這些來源其中一者亦當作目的地)、可支援多達兩個來源與一個目的地)。

修改器欄位1346-其內容區別指明記憶體存取之通用向量指令格式中之指令的發生以及沒有如此的彼等；亦即是，在無記憶體存取1305指令樣板與記憶體存取1320指令樣板之間。記憶體存取運算讀取及/或寫入到記憶體層級(在一些情形中，指明使用暫存器中之數值的來源及/或目的地位址)，然而非記憶體存取運算則沒有(例如，來源及目的地係為暫存器)。雖然在一項實施例中，此欄位亦在三種不同方式之間選擇以執行記憶體位址計算，替代實施例可支援更多、更少、或不同方式以執行記憶體位址計算。

增大運算欄位1350-除了基礎運算之外，其內容區別許多不同運算其中哪一者可被執行。此欄位係為具體背景。在一項實施例中，此欄位分為種類欄位1368、阿伐欄位1352、以及貝他欄位1354。增大運算欄位1350容許共同組運算以單一指令而非2、3、或4指令來執行。

刻度欄位1360-其內容容許用於記憶體位址產生之指數欄位之內容的刻度化(例如，用於使用2^刻度*指數+基礎的位址產生)。

位移欄位1362A-其內容使用當作記憶體位址產生的一部份(例如，用於使用2^刻度*指數+基礎+位移的位址產生)。

位移因子欄位1362B-(注意，直接在位移因子欄位1362B上之位移欄位1362A的毗連指示使用一個或另一個)-其內容使用當作位址產生的一部份；它指明欲由記憶體存取(N)之尺寸所縮放的位移因子-其中，N係為記憶體存取中的位元組數目(例如，用於使用2^刻度*指數+基礎+縮放位移的位址產生)。冗餘低層級位元會被忽略，且因此，位移因子欄位的內容會乘以記憶體運算元總尺寸(N)，以便能夠產生最終位移，以使用於計算有效位址。N的值係在基於全運算碼欄位1374(本文中稍後說明)以及資料操縱欄位1354C的運行時間由處理器硬體所決定。位移欄位1362A以及位移因子欄位1362B在它們不使用於無記憶體存取1305指令樣板及/或不同實施例可實施該兩者僅其中一者或沒有任何一者的意義上係為選擇性的。

資料元件寬度欄位1364-其內容區別數個資料元件寬度其中那一個欲被使用(在一些實施例中，用於全部指令；在其他實施例中，用於其中只有一些指令)。在假如只有一個資料元件寬度被支援及/或資料元件寬度使用運算碼其中一些態樣來支援之下它並非必要的意義上，此欄位係選擇性的。

寫入遮罩欄位1370-以每一資料元件位置為基礎，它的內容控制在目的地向量運算元中的資料元件位置反應基礎運算與增大運算的結果。種類A指令樣板支援合併寫入遮罩，而種類B指令樣板支援合併與歸零寫入遮罩兩者。當合併時，向量遮罩容許在目的地中的任何組元件受到保護免於在執行任何運算期間內更新(由基礎運算與增大運算所指明)；在其他一項實施例中，保留其中對應遮罩位元具有0之目的地之各元件的舊值。相比之下，當歸零向量遮罩容許在目的地中的任何組元件在執行任何運算期間內被歸零時(由基礎運算與增大運算所指明)；在一項實施例中，當對應遮罩位元具有0值時，目的地的元件則設定為0。此功能的子集係為控制正被執行之運算之向量長度的能力(亦即是，從第一個到最後一個之被修改之元件的跨距)；不過，被修改的元件不一定是連續的。因此，寫入遮罩欄位1370容許用於部份的向量運算，包括載入、儲存、算數、邏輯等等。雖然其中寫入遮罩欄位1370的內容選擇含有欲被使用之寫入遮罩之數個寫入遮罩暫存器其中一個的實施例被說明(且因此，寫入遮罩欄位1370的內容間接識別那遮罩欲被執行)，但是替代實施例替代或額外容許遮罩寫入欄位1370的內容直接指明欲被執行的遮罩。

立即欄位1372-其內容容許立即之指明。此欄位在它不存在於不支援立即之通用向量親合格式的實施過程以及它不存在於不使用立即之指令的意義上係為選擇性的。

種類欄位1368-其內容區別不同種類的指令之間。參考圖13A-B，此欄位的內容在種類A與種類B指令之間選擇。在圖13A-B中，圓角方格使用來指示一具體值存在於一欄位中(例如，用於種類欄位1368的種類A 1368A與種類B 1368B各別在圖13A-B中)。

種類A的指令樣板

在種類A之非記憶體存取1305指令樣板的情形中，阿伐欄位1352以RS欄位1352A解譯，其內容區別不同增大運算類型哪一個欲被執行(例如，捨入1352A.1與資料轉換1352A.2各別指定用於無記憶體存取、捨入類型運算1310以及無記憶體存取、資料轉換類型運算1315指令樣板)，而貝他欄位1354區別指明類型的哪運算欲被執行。在無記憶體存取1305指令樣板中，刻度欄位1360、位移欄位1362A、以及位移刻度欄位1362B係不存在。

無記憶體存取指令樣板-全捨入控制類型運算

在無記憶體存取全捨入控制類型運算1310指令樣板中，貝他欄位1354被解譯為捨入控制欄位1354A，其內容提供靜態捨入。雖然在所說明的實施例中，捨入控制欄位1354A包括抑制全浮點例外(SAE)欄位1356以及捨入運算控制欄位1358，替代實施例可支援將這些概念兩者編碼到相同欄位內或者僅具有這些概念/欄位其中一者或另一者(例如，可僅具有捨入運算控制欄位1358)。

SAE欄位1356-其內容區別是否去能例外事件報導：當SAE欄位1356的內容指示可實現抑制時，已知指令無法報導任何種浮點例外旗標且無法提升任何浮點例外管理器。

捨入運算控制欄位1358-其內容區別一組捨入運算中要執行哪一者(例如，無條件進位、無條件捨去、捨入到零以及捨入到最接近值)。因此，捨入運算控制欄位1358容許以或按指令為基礎來改變捨入模式。在一項實施例中，處理器包括用於指明捨入模式的控制暫存器，且捨入運算控制欄位1358的內容覆載那暫存器值。

無記憶體存取指令樣板-資料轉換類型運算

在無記憶體存取資料轉換類型運算1315指令樣板中，貝他欄位1354以資料轉換欄位1354B解譯，其內容區別數個資料轉換其中哪一個將被執行(例如，無資料轉換、攪和、廣播)。

在種類A之記憶體存取1320指令樣板的情形中，阿伐欄位1352係以遷出提示欄位1352B解譯，其內容區別遷出提示中哪一者將被使用(在圖13A中，暫時性1352B.1與非暫時性1352B.2各別指明用於記憶體存取、暫時性1325指令樣板以及記憶體存取、非暫時性1330指令樣板)，而貝他欄位1354以資料操縱欄位1354C解譯，其內容區別數個資料操縱運算(亦稱為原始的)其中哪一者將被執行(例如，無操縱；廣播；來源的上轉換；以及目的地的下轉換)。記憶體存取1320指令樣板包括刻度欄位1360以及選擇性地，位移欄位1362A或位移刻度欄位1362B。

向量記憶體指令執行來自記憶體的向量載入以及到記憶體的向量儲存，其具有轉換支援。就規則的向量指令而言，向量記憶體指令以資料逐元件方式傳送資料往/返記憶體，真正傳送的元件係由選擇為寫入遮罩之向量遮罩的內容所指定。

記憶體存取指令樣板-暫時性

暫時性資料係為很可能快到足以受益於快取而可再利用的資料。不過，這是暗示，且不同處理器會以不同方式實施它，包括整個忽略暗示。

記憶體存取指令樣板-非暫時性

非暫時性資料係為不大可能快到足以受益於在第一層級快取中之快取而可再利用的資料且應該提供優先以用於遷出。不過，這是暗示，且不同處理器會以不同方式實施它，包括整個忽略暗示。

種類B的指令樣板

在種類B之指令樣板的情形中，阿伐欄位1352係以寫入遮罩控制(Z)欄位1352C解譯，其內容區別由寫入遮罩欄位1370所控制的寫入遮罩應該是合併或歸零。

在種類B的無記憶體存取1305指令樣板的情形中，貝他欄位1354的一部份係以RL欄位1357A解譯，其內容區別不同增大運算類型哪一者欲被執行(例如，捨入1352A.1與向量長度(VSIZE)1352A.2各別指定用於無記憶體存取、寫入遮罩控制、部份捨入控制類型運算1312指令樣板以及無記憶體存取、寫入遮罩控制、VSIZE型運算1317指令樣板)，而剩下的貝他欄位1354區別指定類型的哪運算欲被執行。在無記憶體存取1305指令樣板中，刻度欄位1360、位移欄位1362A、以及位移刻度欄位1362B係不存在。

在無記憶體存取、寫入遮罩控制、部份捨入控制類型運算1310指令樣板中，剩下的貝他欄位1354係以捨入運算欄位1359A解譯，且將例外事件報導去能(已知指令無法報導任何種浮點例外旗標且無法提升任何浮點例外管理器)。

捨入運算控制欄位1359A-正如捨入運算控制欄位1358，其內容區別一組捨入運算其中哪一者要執行(例如，無條件進位、無條件捨去、捨入到零以及捨入到最接近值)。因此，捨入運算控制欄位1359A容許以或按指令為基礎來改變捨入模式。在一項實施例中，處理器包括用於指明捨入模式的控制暫存器，且捨入運算控制欄位1358的內容覆載那暫存器值。

在無記憶體存取、寫入遮罩控制、VSIZE型運算1317指令樣板中，剩下的貝他欄位1354係以向量長度欄位1359B解譯，其內容區別數個資料向量長度其中哪一者欲被執行(例如，128、256、或512位元組)。

在種類B的記憶體存取1320指令樣板的情形中，貝他欄位1354的一部份被解譯為廣播欄位1357B，其內容區別廣播類型資料操縱運算是否被執行，而剩下的貝他欄位1354則被解譯為向量長度欄位1359B。記憶體存取1320指令樣板包括刻度欄位1360、以及選擇性地位移欄位1362A或位移刻度欄位1362B。

關於通用向量親合指令格式1300，全運算碼欄位1374係被顯示，其包括格式欄位1340、基礎運算欄位1342、以及資料元件寬度欄位1364。雖然全運算碼欄位1374包括全部這些欄位的一項實施例係被顯示，但是在不支援全部它們的實施例中，全運算碼欄位1374包括小於全部這些欄位。全運算碼欄位1374提供運算碼(opcode)。

增大運算欄位1350、資料元件寬度欄位1364、以及寫入遮罩欄位1370容許這些特徵在通用向量親合指令格式中以或按指令為基礎被指明。

寫入遮罩欄位與資料元件寬度欄位的組合產生類型化指令，其中它們容許遮罩基於不同資料元件寬度被施加。

在種類A與種類B內發現的多種指令樣板在不同情況下是有利的。在一些實施例中，不同處理器或在一處理器內的不同核心可僅支援種類A、僅支援種類B、或兩種種類。例如，意圖用於通用計算的高性能通用亂序核心可僅支援種類B，主要意圖用於圖形及/或科學(通量)計算的核心僅支援種類A，且意圖用於兩者的核心可支援兩者(當然，具有來自兩種類之樣板與指令的某種混合但非來自兩種類之全部樣板與指令的核心係在本發明的範圍內)。同樣地，單一處理器可包括多數個核心，其中全部支援相同種類或其中不同核心支援不同種類。例如，在具有分開圖形與通用核心的處理器中，主要意圖用於圖形及/或科學計算之圖形核心的其中一者可僅支援種類A，而通用核心的其中一或多者係為具有意圖用於僅支援種類B之通用計算之亂序執行與暫存器重新命名的高性能通用核心。不具有分開圖形核心的另一處理器可包括支援種類A與種類B兩者之一或多個通用依序或亂序核心。當然，來自一種種類的特徵亦可在不同實施例中的另一種類中實施。以高層級語言撰寫的程式將處於(例如，僅即時編譯或靜態編譯)多種不同的可執行形式，其包括：1)只具有由用於執行的目標處理器所支援之種類之指令的形式；或2)具有使用全部種類之指令之不同組合而寫入之替代程序且具有選擇程序以基於由目前執行碼之處理器所支援之指令來執行之控制流動碼的形式。

例示性具體向量親合指令格式

圖14係為方塊圖，其繪示根據實施例的例示性具體向量親合指令格式。圖14顯示具體向量親合指令格式1400，該格式在它指明欄位之位置、尺寸、解譯、及次序、以及用於那些欄位其中一些之值的意義上是具體的。具體向量親合指令格式1400可使用來擴展x86指令集，且因此該等欄位其中一些與使用於現存x86指令集與其擴充(例如，AVX)的彼等類似或相同。此格式仍然與字首編碼欄位、真實運算碼位元組欄位、MOD R/M欄位、SIB欄位、位移欄位、以及具有擴充之現存x86指令的立即欄位一致。來自圖13之欄位所映射入之來自圖14的欄位係被繪示。

應該理解的是，雖然為了說明性目的，實施例係參考通用向量親合指令格式1300之背景中的具體向量親合指令格式1400來說明，但是本發明不限於具體向量親合指令格式1400(除了提出申請之處以外)。例如，通用向量親合指令格式1300考慮多種欄位的各種各樣可能尺寸，然而具體向量親合指令格式1400則以具有具體尺寸的欄位顯示。以具體舉例的方式，雖然資料元件寬度欄位1364以在具體向量親合指令格式1400的一位元欄位繪示，但是本發明卻不如此受限(亦即，通用向量親合指令格式1300考慮其他尺寸的資料元件寬度欄位1364)。

通用向量親合指令格式1300包括按在圖14A所繪示之次序而陳列於下文的下列欄位。

EVEX字首(位元組0-3)1402-以四位元組形式編碼。

格式欄位1340(EVEX位元組0，位元[7：0])-第一位元組(EVEX位元組0)係為格式欄位1340且它含有0x62(在本發明的一項實施例中，使用於區別向量親合指令格式的唯一值)。

第二-第四位元組(EVEX位元組1-3)包括提供具體性能的數個位元欄位。

REX欄位1405(EVEX位元組1，位元[7-5])-由EVEX.R位元欄位(EVEX位元組1，位元[7]-R)、EVEX.X位元欄位(EVEX位元組1，位元[6]-X)、以及(1357BEX位元組1，位元[5]-B)所組成。EVEX.R、EVEX.X、以及EVEX.B位元欄位提供與對應VEX位元欄位相同的功能，且使用1s補數形式編碼，亦即，ZMM0以1111B編碼，ZMM15以0000B編碼。其他欄位的指令編碼下三位元的暫存器指標，其係為在該技術中已知(rrr、xxx、以及bbb)，使得Rrrr、Xxxx、以及Bbbb可藉由添加EVEX.R、EVEX.X、以及EVEX.B來形成。

REX’欄位1310-這是使用以編碼擴展32暫存器組之上16或下16之REX’欄位1310的第一部份以及EVEX.R’位元欄位(EVEX位元組1，位元[4]-R’)。在一項實施例中，此位元，連同在下面指出的其他者，係儲存於位元反轉格式，以從BOUND指令區別(以眾所皆知的x86 32位元模式)，其真實的運算碼位元組係為62，但卻無法在MOD R/M欄位(下文所說明)中接受11的值於MOD欄位中；替代實施例無法儲存此以及在下文以反轉格式另外指示的位元。值1係使用來將下16個暫存器編碼。換言之，R’Rrrr係藉由結合EVEX.R’、EVEX.R、以及來自其他欄位的其他RRR所形成。

運算碼地圖欄位1415(EVEX位元組1，位元[3：0]-mmmm)-其內容將隱式引導運算碼位元組(0F、0F38、或0F3)編碼。

資料元件寬度欄位1364(EVEX位元組2，位元[7]-W)-其係由標記EVEX.W所代表。EVEX.W使用來定出資料類型(32位元資料元件或64位元資料元件)的粒度(尺寸)。

EVEX.vvvv1420(EVEX位元組2，位元[6：3]-vvvv)-EVEX.vvvv的角色包括如下：1)EVEX.vvvv編碼以反轉(1s補數)形式指明的第一來源暫存器運算元且對於具有2或多個來源運算元的指令有效；2)EVEX.vvvv編碼以1之補數形式指明的目的地暫存器運算元，以用於特定的向量移位；或3)EVEX.vvvv沒有編碼任何運算元，該欄位會被保留且應該含有1111b。因此，EVEX.vvvv欄位1420編碼以反轉(1之補數)形式儲存的第一來源暫存器說明符的4低層級位元。依據該指令，額外不同的EVEX位元欄位係使用來將說明符尺寸擴展到32個暫存器。

EVEX.U1368種類欄位(EVEX位元組2，位元[2]-U)- 假如EVEX.U=0，它指示種類A或EVEX.U0；假如EVEX.U=1，它指示種類B或EVEX.U1。

字首編碼欄位1425(EVEX位元組2，位元[1：0]-pp)-提供額外的位元以用於基礎運算欄位。除了提供支援給呈EVEX字首格式的舊有SSE指令，這亦具有小型化SIMD字首的好處(而非需要一位元組以加速SIMD字首，EVEX字首僅需要2位元)。在一項實施例中，為了支援使用呈舊有格式與呈EVEX字首格式兩者之SIMD字首(66H、F2H、F3H)的舊有SSE指令，這些舊有SIMD字首係被編碼成SIMD字首編碼欄位；且於運行時間，在提供到解碼器的PLA之前，被擴展到舊有的SIMD字首內(如此，PLA可在沒有修正之下執行這些舊有指令的舊有與EVEX格式兩者)。雖然較新的指令可直接使用EVEX字首編碼欄位的內容作為運算碼擴充，但是特定實施例卻為了一致性而以相同方式擴展但允許欲由這些舊有SIMD字首所指明的不同意義。替代實施例可重新設計PLA，以支援2位元SIMD字首編碼，且因此不需要擴展。

阿伐欄位1352(EVEX位元組3，位元[7]-EH；亦稱為EVEX.EH、EVEX.rs、EVEX.RL、EVEX.寫入遮罩控制、以及EVEX.N；亦以α繪示)-如先前所說明，此欄位係為具體背景。

貝他欄位1354(EVEX位元組3，位元[6：4]-SSS，亦稱為EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；亦以βββ繪示)-如先前所說明，此欄位係為具體背景。

REX’欄位1310-這是REX’欄位的餘數且是EVEX.V’位元欄位(EVEX位元組3，位元[3]-V’)，其可被使用來將擴展32個暫存器組的上16個或下16個編碼。此位元以位元反轉格式儲存。值1被使用來編碼下16個暫存器。換句話說，V’VVVV係藉由結合EVEX.V’、EVEX.vvvv所形成。

寫入遮罩欄位1370(EVEX位元組3，位元[2：0]-kkk)-其內容指明如先前所說明之寫入遮罩暫存器中之暫存器的指數。在一項實施例中，具體值EVEX.kkk=000具有蘊含無寫入遮罩使用於特定指令的特殊行為(此會以多種方式來實施，該等方式包括硬體化成旁路遮蔽硬體之全部或硬體之寫入遮罩的使用)。

真實運算碼欄位1430(位元組4)亦稱為運算碼位元組。部份的運算碼係在此欄位中被指明。

MOD R/M欄位1440(位元組5)包括MOD欄位1442、Reg欄位1444、以及R/M欄位1446。如先前所說明的，MOD欄位1442的內容區別記憶體存取與非記憶體存取運算之間。Reg欄位1444的角色可歸納成兩種情況：編碼目的地暫存器運算元或來源暫存器運算元，或者視為運算碼擴展且不使用來編碼任何指令運算元。R/M欄位1446的角色可包括下列：編碼參考記憶體位址的指令運算元或編碼目的地暫存器運算元或來源暫存器運算元。

刻度、指數、基礎(SIB)位元組(位元組6)-如先前所說明，刻度欄位1350的內容係使用於記憶體位址產生。SIB.xxx1454與SIB.bbb1456-這些欄位的內容已經事先被視為關於暫存器指數Xxxx以及Bbbb。

位移欄位1362A(位元組7-10)-當MOD欄位1442含有10時，位元組7-10係為位移欄位1362A，且它的運作與舊有32位元位移(disp32)相同且以位元組粒度運作。

位移因子欄位1362B(位元組7)-當MOD欄位1442含有01時，位元組7係為位移因子欄位1362B。此欄位的位置與舊有x86指令集8位元位移(disp8)的位置相同，其以位元組粒度運作。因為disp8係為符號擴展，所以它僅可解決介於-128與127位元組之間的偏移；依據64位元組的快取線而言，disp8使用可設定成僅四個真正有用值(-128、-64、0、以及64)的8位元；因為經常需要更大的範圍，所以使用disp32；不過，disp32需要4位元組。相反於disp8與disp32，位移因子欄位1362B係為disp8的重新解譯；當使用位移因子欄位1362B時，真實位移係由位移因子欄位的內容乘以記憶體運算元存取(N)的尺寸所決定。此類型的位移稱為disp8*N。這減少平均指令長度(單一位元組使用於位移但卻具有更大的範圍)。此壓縮位移基於有效位移係為記憶體存取之多數粒度的假設，且因而位址偏移的冗餘低層級位元不需要被編碼。換言之，位移因子欄位1362B替代舊有x86指令集8位元位移。因此，位移因子欄位1362B係以與x86指令集8位元位移相同的方式被編碼(如此，在ModRM/SIB編碼規則中沒有改變)，唯一的例外是disp8過載到disp8^*N。換句話說，在編碼規則或編碼長度中但卻只有在藉由硬體之位移值的解譯中沒有任何變化(其需要藉由記憶體運算元的尺寸來縮放該位移以得到逐位元組的位址偏移)。

立即欄位1372如先前所說明地運算。

全運算碼欄位

圖14B係為方塊圖，其繪示根據一項實施例之組成全運算碼欄位1374之具體向量親合指令格式1400的欄位。具體地，全運算碼欄位1374包括格式欄位1340、基礎運算欄位1342、以及資料元件寬度(W)欄位1364。基礎運算欄位1342包括字首編碼欄位1425、運算碼地圖欄位1415、以及真實運算碼欄位1430。

暫存器指數欄位

圖14C係為方塊圖，其繪示根據一項實施例之組成暫存器指數欄位1344之具體向量親合指令格式1400的欄位。具體地，暫存器指數欄位1344包括REX欄位1405、REX’欄位1410、MODR/M.reg欄位1444、MODR/M.r/m欄位1446、VVVV欄位1420、xxx欄位1454、以及bbb欄位1456。

增大運算欄位

圖14D係為方塊圖，其繪示根據一項實施例之組成增大運算欄位1350之具體向量親合指令格式1400的欄位。當種類(U)欄位1368含有0時，它表示EVEX.U0(種類A 1368A)；當它含有1時，它表示EVEX.U1(種類B 1368B)。當U=0且MOD欄位1442含有11時(表示無記憶體存取運算)，阿伐欄位1352(EVEX位元組3，位元[7]-EH)以rs欄位1352A解譯。當rs欄位1352A含有1(捨入1352A.1)時，貝他欄位1354(EVEX位元組3，位元[6：4]-SSS)以捨入控制欄位1354A解譯。捨入控制欄位1354A包括一位元SAE欄位1356以及兩位元捨入運算欄位1358。當rs欄位1352A含有0時(資料轉換1352A.2)，貝他欄位1354(EVEX位元組3，位元[6：4]-SSS)以三個位元資料轉換欄位1354B解譯。當U=0且MOD欄位1442含有00、01、或10時(表示記憶體存取運算)，阿伐欄位1352(EVEX位元組3，位元[7]-EH)以逐出暗示(EH)欄位1352B解譯且貝他欄位1354(EVEX位元組3，位元[6：4]-SSS)以三個位元資料操縱欄位1354C解譯。

當U=1時，阿伐欄位1352(EVEX位元組3，位元[7]-EH)以寫入遮罩控制(Z)欄位1352C解譯。當U=1且MOD欄位1442含有11時(表示無記憶體存取運算)，貝他欄位1354(EVEX位元組3，位元[4]-S₀)的一部份以RL欄位1357A解譯；當它含有1(捨入1357A.1)時，剩下的貝他欄位1354(EVEX位元組3，位元[6-5]-S_2-1)以捨入運算欄位1359A解譯，而當RL欄位1357A含有0(VSIZE 1357.A2)時，剩下的貝他欄位1354(EVEX位元組3，位元[6-5]-S_2-1) 以向量長度欄位1359B(EVEX位元組3，位元[6-5]-L_1-0)解譯。當U=1且MOD欄位1442含有00、01、或10時(表示記憶體存取運算)，貝他欄位1354(EVEX位元組3，位元[6：4]-SSS)以向量長度欄位1359B(EVEX位元組3，位元[6-5]-L_1-0)以及廣播欄位1357B(EVEX位元組3，位元[4]-B)解譯。

例示性暫存器架構

圖15係為根據一項實施例之暫存器架構1500的方塊圖。在所繪示的實施例中，有32個向量暫存器1510，該等向量暫存器係512位元寬；這些暫存器係以zmm0至zmm31參考。下16zmm暫存器的下階256位元係覆加在暫存器ymm0-16上。下16zmm暫存器的下階128位元(ymm暫存器的下階128位元)係覆加在暫存器xmm0-15上。具體向量親合指令格式1400係在這些覆加暫存器檔案上運算，如下列表5中所繪示。

換言之，向量長度欄位1359B在最大長度以及一或多個其他較短長度之間選擇，其中各此較短長度係為先前長度的一半長度，且不具有向量長度欄位1359B的指令樣板在最大向量長度上運算。進一步，在一項實施例中，具體向量親合指令格式1400的種類B指令樣板在緊縮或純量單一/雙倍-精度浮點資料以及緊縮或純量整數資料上運算。純量運算係為在zmm/ymm/xmm暫存器中的最低層級資料元件位置上所執行的運算；取決於該實施例，較高層級資料元件位置係與它們在指令或歸零之前相同。

寫入遮罩暫存器1515-在所繪示的實施例中，有8個寫入遮罩暫存器(k0至k7)，各個尺寸大小為64位元。在替代實施例中，寫入遮罩暫存器1515的尺寸大小為16位元。如先前所說明的，在一項實施例中，向量遮罩暫存器k0無法被使用當作寫入遮罩；當正常下指示為k0的編碼使用於寫入遮罩時，它選擇0xFFFF的硬體化寫入遮罩，以有效地使用於那指令的寫入遮罩去能。

通用暫存器1525-在所繪示的實施例中，有十六個64位元的通用暫存器，該等暫存器連同現存的x86定址模式來使用，以定址記憶體運算元。這些暫存器係藉由名稱RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、以及R8至R15來參考。

純量浮點堆疊暫存器檔案(x87堆疊)1545，別名為MMX緊縮整數平暫存器檔案1550-在所繪示的實施例中，x87堆疊係為八元件之堆疊，其係使用以使用x87指令集擴展來執行純量浮點運算於32/64/80位元浮點資料上；而MMX暫存器則被使用以執行運算於64位元緊縮整數資料上，以及保持運算元，以用於在MMX與XMM暫存器之間所執行的一些運算。

替代實施例可使用較寬或較窄的暫存器。另外，替代實施例可使用更多、更少、或不同的暫存器檔案與暫存器。

在一項實施例中，本文中所說明的指令意指具體組態的硬體，譬如特定應用積體電路(ASIC)，其組態以執行特定運算或具有預定功能。此等電子裝置一般包括耦合到一或多個其它組件的一組一或多個處理器，譬如一或多個儲存裝置(非暫態機器可讀取儲存媒體)、使用者輸入/輸出裝置(例如，鍵盤、觸控螢幕、及/或顯示器)、以及網路連接。該組處理器與其他組件的耦合一般經由一或多個匯流排與橋接器(亦稱為匯流排控制器)。攜帶網路交通的儲存裝置與訊號各別地代表一或多個機器可讀取儲存媒體以及機器可讀取通訊媒體。因此，已知電子裝置的儲存裝置一般儲存用於在那電子裝置之該組一或多個處理器上執行的碼及/或資料。

在前述說明書中，本發明已經參考其具體例示性實施例來說明。不過，明顯的是，可對此進行多種修改與改變而不背離在附加申請專利範圍中所陳述之本發明較寬的精神與範圍。在特定的情況中，眾所皆知的結構與功能不會以詳盡的細節來說明，以便避免混淆本發明的主題。據此，說明書與圖式係被視為說明性而非限制性意義。據此，本發明的範圍與態樣則應該依據接下來的申請專利範圍來判斷。