TWI502494B

TWI502494B - 用以執行絕對差之雙塊總數之方法，製品及裝置

Info

Publication number: TWI502494B
Application number: TW101145636A
Authority: TW
Inventors: Elmoustapha Ould-Ahmed-Vall; Mostafa Hagog; Robert Valentine; Amit Gradstein; Simon Rubanovich; Zeev Sperber
Original assignee: Intel Corp
Priority date: 2011-12-23
Filing date: 2012-12-05
Publication date: 2015-10-01
Also published as: WO2013095599A1; US9582464B2; TW201346726A; CN104025019B; US20140019713A1; US10303471B2; CN104025019A; US20170242694A1; CN108196823A

Description

用以執行絕對差之雙塊總數之方法，製品及裝置

本發明領域通常相關於電腦處理器架構，且更具體地相關於當執行時導致特定結果的指令。

指令集或指令集架構(ISA)係電腦架構相關於程式設計的部分，並可能包括原生資料類別、指令、暫存器架構、定址模式、記憶體架構、中斷及異常管理、及外部輸入及輸出(I/O)。術語指令在本文中通常指巨集指令-係提供至用於執行之處理器(或將指令轉換(例如，使用靜態二進位轉換、包括動態編譯的動態二進位轉換)、變形、模仿、或另外變換為由處理器處理之一或多個其他指令的指令變換器)的指令-與係處理器的解碼器解碼巨集指令之結果的微指令或微操作(微運算)相反。

ISA與微架構不同，其係實作指令集之處理器的內部設計。具有不同微架構的處理器可分享共同指令集。例如，Intel® Pentium 4處理器、Intel® Core^TM 處理器、及來自加州桑尼維爾之Advanced Micro Devices,Inc.的處理器實作幾乎完全相同的x86指令集版本(具有已隨較新版本加入的部分延伸)，但具有不同的內部設計。例如，ISA的相同暫存器架構可能使用已為人熟知的技術在不同微架構中以不同方式實作，包括專屬實體暫存器、使用暫存器更名機制(例如，使用暫存器化名表(RAT)、重排序緩衝器(ROB)、及引退暫存器檔案；使用多重映射及暫存器池)的一或多個動態配置實體暫存器等。除非另外指定，片語暫存器架構、暫存器檔案、及暫存器在本文中用於指何者可為軟體/程式設計師看見及指令指定暫存器的方式。如需要特殊性，形容辭邏輯的、架構的、或軟體可見的將用於指示暫存器架構中的暫存器/檔案，而不同的形容辭將用於指定給定微架構中的暫存器(例如，實體暫存器、重排序緩衝器、引退暫存器、暫存器池)。

指令集包括一或多種指令格式。給定指令格式界定不同欄位(位元數、位元位置)以指定，除了其他事物外，待實施的操作(運算碼)及待於其上實施操作的運算元(等)。盡管界定指令樣板，部分指令格式仍另外受細分(或次格式)。例如，可能將給定指令格式的指令樣板界定成具有不同的指令格式欄位子集(所包括的欄位典型有相同次序，但至少部分具有不同的位元位置，因為包括較少欄位)及/或界定成具有受不同解譯的給定欄位。因此，ISA的各指令使用給定指令格式表示(且，若受界定，採用該指令格式之指令樣板的給定一者)，並包括用於指定操作及運算元的欄位。例如，範例ADD指令具有特定運算碼及包括運算碼欄位以指定運算碼及運算元欄位以選擇運算元(來源1/目標及來源2)的指令格式；且此ADD指令在指令串流中的發生將在選擇特定運算元的運算元欄位中具有特定內容。

科學、金融、通用自動向量化、RMS(辨識、探掘、及合成)、及視覺及多媒體應用(例如，2D/3D圖形、影像處理、視訊壓縮/解壓縮、語音辨識演算法、及音訊操控)常需要在大量資料項上實施相同操作(稱為「資料平行性」)。單指令多資料(SIMD)係指導致處理器在多筆資料項上實施操作的指令種類。SIMD技術特別適用於可將暫存器中的位元邏輯地分割為許多固定尺寸之資料元素的處理器，該等元素各者代表個別值。例如，可能將256-位元暫存器中的位元指定為待於其上操作之作為四個個別64-位元封裝資料元素(四字組(Q)尺寸資料元素)、八個個別32-位元封裝資料元素(雙字組(D)尺寸資料元素)、十六個個別16-位元封裝資料元素(字組(W)尺寸資料元素)、或三十二個個別8-位元資料元素(位元組(B)尺寸資料元素)的來源運算元。將此種類資料稱為封裝資料種類或向量資料種類，並將此資料種類的運算元稱為封裝資料運算元或向量運算元。換言之，封裝資料項或向量係指一系列封裝資料元素，且封裝資料運算元或向量運算元係SIMD指令(也稱為封裝資料指令或向量指令)的來源或目標運算元。

例如，一種SIMD指令指定以垂直方式在二來源向量運算元上實施單一向量操作，以產生尺寸相同之具有相同數量資料元素並具有相同資料元素次序的目標向量運算元(也稱為結果向量運算元)。將來源向量運算元中的資料元素稱為來源資料元素，而將目標向量運算元中的資料元素稱為目標或結果資料元素。此等來源向量運算元的尺寸相同並包含相同寬度的資料元素，且因此彼等包含相同數量的資料元素。在二來源向量運算元中之相同位元位置上的來源資料元素形成資料元素對(也稱為對應資料元素；亦即，在各來源運算元之資料元素位置0的資料元素對應，在各來源運算元之資料元素位置1的資料元素對應，並依此類推)。由SIMD指令指定的操作分別在此等來源資料元素對各對上實施，以產生數量匹配的結果資料元素，且因此各來源資料元素對具有對應的結果資料元素。因為操作係垂直的且因此結果向量運算元的尺寸相同、具有相同數量的資料元素、並將結果資料元素以與來源向量運算元相同的資料元素次序儲存，結果資料元素在結果向量運算元中係在與彼等對應的來源資料元素對在來源向量運算元中之位元位置相同的位元位置。除了此範例SIMD指令種類外，有各種其他種類的SIMD指令(例如，僅有一個或具有多於二個來源向量運算元、以水平方式操作、產生不同尺寸的結果向量運算元、具有不同尺寸的資料元素、及/或具有不同資料元素次序)。應理解將術語目標向量運算元(或目標運算元)界定為實施由指令指定之操作的直接結果，包括將目標運算元儲存在位置(係由該指令指定之暫存器或記憶體位置)，使得其可能作為來源運算元為另一指令存取(藉由由另一指令指定該相同位置)。

SIMD技術，諸如由具有包括x86、MMX^TM 、串流SIMD延伸(SSE)、SSE2、SSE3、SSE4.1、及SSE4.2指令之指令集的Intel® Core^TM 處理器使用的技術，已致能應用程式效能的顯著改善。稱為先進向量延伸(AVX)(AVX1及AVX2)並使用向量延伸(VEX)編碼設計的額外的SIMD延伸集已發表及/或發行(例如，見Intel® 64及IA-32架構軟體發展者手冊，2011年十月；並見Intel®先進向量延伸程式設計參考手冊，2011月六月)。

在以下描述中，陳述許多特定細節。然而，已理解可能實踐本發明實施例而無須此等特定細節。在其他實例中，未詳細顯示已為人所熟知之電路、結構、以及技術，以不模糊對此描述的理解。

引用於本說明書中的「一實施例」、「實施例」、「範例實施例」等指示所描述的實施例可能包括特定特性、結構、或特徵，但可能不係每個實施例均需包括該特定特性、結構、或特徵。此外，此種片語不必然指相同的實施例。另外，當特定特性、結構、或特徵關聯於實施例描述時，無論是否明顯地描述，認為其係在熟悉本發明之人士的知識內，以影響與其他實施例關聯之此種特性、結構、或特徵。

概論

在以下描述中，在描述指令集架構中的此特定指令的操作之前可能有部分術語需要解釋。一個此種術語稱為「寫入遮罩暫存器」，其通常用於預測運算元以有條件地控制每個元素的計算操作(在下文中，也可能使用術語遮罩暫存器且其係指寫入遮罩暫存器，諸如，下文討論的「k」暫存器)。如下文所使用的，寫入遮罩暫存器儲存複數個位元(16、32、64等)，其中寫入遮罩暫存器的各活動位元在SIMD處理期間管理向量暫存器之封裝資料元素的操作/更新。典型地，有多於一個寫入遮罩暫存器可供處理器核心使用。

該指令集架構包括指定向量操作並具有從此等向量暫存器選擇來源暫存器及/或目標暫存器之欄位的至少部分SIMD指令(範例SIMD指令可能指定在一或多個向量暫存器之內容上實施的向量操作，及儲存在該等向量暫存器之一者中的該向量操作的結果)。本發明的不同實施例可能具有不同尺寸的向量暫存器並支援更多/更少/不同尺寸的資料元素。

由SIMD指令指定之多位元資料元素的尺寸(例如，位元組、字組、雙字組、四字組)決定「資料元素位置」在向量暫存器內的位元位置，且向量運算元的尺寸決定資料元素的數量。封裝資料元素係指儲存在特定位置中的資料。換言之，多位元資料元素位置在所產生的向量運算元內的位元位置改變(例如，若用於所產生之向量運算元的目標係向量暫存器，則多位元資料元素位置在目標向量暫存器內的位元位置改變)，取決於資料元素在目標運算元中的尺寸及目標運算元的尺寸(目標運算元中的總位元數)(或換一種說法，取決於目標運算元的尺寸及資料元素在目標運算元內的數量)。例如，多位元資料元素的位元位置在32-位元資料元素(資料元素位置0佔據位元位置31：0、資料元素位置1佔據位元位置63：32、並依此類推)上操作的向量操作及在64-位元資料元素(資料元素位置0佔據位元位置63：0、資料元素位置1佔據元素位置127：64、並依此類推)上操作的向量操作之間不同。

此外，如圖7所示，根據本發明的一實施例在一活動位元向量寫入遮罩元素的數量及向量尺寸及資料元素尺寸之間有關聯。顯示128-位元、256-位元、及512位元的向量尺寸，雖然其他寬度也係可能的。僅考慮8位元位元組(B)、16-位元字組(W)、32-位元雙字組(D)或單精準浮點、及64-位元四字組(Q)或倍精確浮點的資料元素尺寸，雖然其他寬度也係可能的。如圖所示，當向量尺寸為128-位元時，當向量的資料元素尺寸為8位元時，可能將16-位元用於遮罩、當向量的資料元素尺寸為16-位元時，可能將8-位元用於遮罩、當向量的資料元素尺寸為32-位元時，可能將4-位元用於遮罩、且當向量的資料元素尺寸為64-位元時，可能將2-位元用於遮罩。當向量尺寸為256-位元時，當封裝資料元素寬度為8位元時，可能將32-位元用於遮罩、當向量的資料元素尺寸為16-位元時，可能將16-位元用於遮罩、當向量的資料元素尺寸為32-位元時，可能將8-位元用於遮罩、且當向量的資料元素尺寸為64-位元時，可能將4-位元用於遮罩。當向量尺寸為512-位元時，當向量的資料元素尺寸為8位元時，可能將64-位元用於遮罩、當向量的資料元素尺寸為16-位元時，可能將32-位元用於遮罩、當向量的資料元素尺寸為32-位元時，可能將16-位元用於遮罩、且當向量的資料元素尺寸為64-位元時，可能將8-位元用於遮罩。

依據向量尺寸及資料元素尺寸的組合，可能將所有64-位元或僅將64-位元的子集使用為寫入遮罩。通常，當使用單一、每元素遮罩控制位元時，向量寫入遮罩暫存器中之用於遮罩的位元(活動位元)數等於以位元計算之向量尺寸除以以位元計算之向量的資料元素尺寸。

下文描述計算將第一運算元向量中之經選擇四組位元組元素與第二運算元向量的四組位元組元素比較之多個SAD(絕對差總數)的向量指令。也提供彈性以選擇比較何等四組。此指令提供在用於動作搜尋之視訊影像上比較區塊之SAD的效率。

下文係在分類上稱為絕對差雙塊封裝總數(SAD)(「DBPSAD」)指令之指令的實施例及可能用於執行在數個不同領域有利之此種指令的系統、架構、指令格式等的實施例。DBPSAD指令的執行導致將在來自第一及第二來源之經選擇四組(四個資料元素組塊)之位元組元素上的SAD儲存至目標暫存器的字組封裝資料元素中。各四組與目標之資料元素的尺寸相同。更明確地說，在部分實施例中，多個SAD計算係在來自二來源之不同的64-位元資料組塊上實施並在目標暫存器中儲存為4個字組尺寸(總共64位元)的結果。圖1描繪在位元組元素上操作的範例DBPSAD指令之部分操作的範例圖示，其中將產生的SAD計算儲存為字組元素。該指令使用四位元組移位從第一來源運算元取得二個不同四組，以參與四個不同的SAD。在此圖示中，64-位元通道具有在第一來源之64個經選擇位元及選自第二來源的64位元之間實施的四個SAD計算。會將在此圖式中描繪並在本文中描述的處理(具有部分輕微修改，諸如，不同四組來源選擇及目標位置)執行n次，其中n係向量(諸如，第一來源)尺寸除以64。在此特定範例中，第一來源的64位元101係來源的最低有效64位元。將此等64-位元分解為標示為byte0至byte7的8個位元組元素。也顯示選自第二來源的暫時64-位元值103。於下文詳細地描述此等位元如何選擇。因此，有二個四組(所分解的32位元值各者包含4個位元組)針對具有在其上實施之SAD計算的二來源。在第二來源中選擇四組係在向量的128-位元通道內完成。明顯地僅有一個此種通道用於128-位元第二來源，但在256-位元向量中有二個且在512-位元向量中有四個。該圖示顯示數個獨立絕對差邏輯107及總數邏輯109。此邏輯可能係硬體，諸如，ALU，或在ALU上運行的軟體常式。此外，雖然圖式描繪用於各SAD計算的個別絕對差邏輯107及總數邏輯109，可能將此邏輯組合成一單元各一種(亦即，一個絕對差邏輯107及一個總數邏輯109)中或組合入單一單元(亦即，聯合絕對差邏輯107及總數邏輯109)中。將來自4個SAD操作的結果儲存為目標暫存器105中的字組元素。於下文詳細地描述各SAD計算的具體內容。針對第一64-位元通道的計算如下，其中I=0，SRC1=第一來源的第一64位元，且TMP1係已根據立即值選擇之選自第二來源的四組(彼等係較低的二個四組)。

- DEST[I+15：I]<-ABS(SRC1[I+7：I]-TMP1[I+7：I])+ABS(SRC1[I+15：I+8]-TMP1[I+15：I+8])+ABS(SRC1[I+23：I+16]-TMP1[I+23：I+16])+ABS(SRC1[I+31：I+24]-TMP1[I+31：I+24])

- DEST[I+31：I+16]<-(SRC1[I+7：I]-TMP1[I+15：I+8])+ABS(SRC1[I+15：I+8]-TMP1[I+23：I+16])+ABS(SRC1[I+23：I+16]-TMP1[I+31：I+24])+ABS(SRC1[I+31：I+24]-TMP1[I+39：I+32])

- DEST[I+47：I+32]<-ABS(SRC1[I+39：I+32]-TMP1[I+23：I+16])+ABS(SRC1[I+47：I+40]-TMP1[I+31：I+24])+ ABS(SRC1[I+55：I+48]-TMP1[I+39：I+32])+ ABS(SRC1[I+63：I+56]-TMP1[I+47：I+40])

- DEST[I+63：I+48]<-ABS(SRC1[I+39：I+32]-TMP1[I+31：I+24])+ABS(SRC1[I+47：I+40]-TMP1[I+39：I+32])+ABS(SRC1[I+55：I+48]-TMP1[I+47：I+40])+ABS(SRC1[I+63：I+56]-TMP1[I+55：I+48])

在屬性上，儲存入目標資料元素位置中的事物如下，其中在[]中的值係資料元素位置：

- DEST[0]<-ABS(SRC1[0]-TMP1[0])+ABS(SRC1[1]-TMP1[1])+ABS(SRC1[2]-TMP1[2])+ABS(SRC1[3]-TMP1[3])

- DEST[1]<-(SRC1[0]-TMP1[1])+ABS(SRC1[1]-TMP1[2])+ABS(SRC1[2]-TMP1[3])+ABS(SRC1[3]-TMP1[4])

- DEST[2]<-ABS(SRC1[4]-TMP1[2])+ABS(SRC1[5]-TMP1[3])+ ABS(SRC1[6]-TMP1[4])+ ABS(SRC1[7]-TMP1[5])

- DEST[3]<-ABS(SRC1[4]-TMP1[3])+ABS(SRC1[5]-TMP1[4])+ABS(SRC1[6]-TMP1[5])+ABS(SRC1[7]-TMP1[6])

產生上文的明顯變化以進行次一64-位元通道。例如，第一來源可能係從位元64至位元127(次一64-位元組塊)且暫時值會係選自第二來源之較高的二個四組。

選自第二來源的四組如下：TMP1[I+31：I]<-select(SRC2[I+127：I],imm8[1：0])

TMP1[I+63：I+32]<-select(SRC2[I+127：I],imm8[3：2])

TMP1[I+95：I+64]<-select(SRC2[I+127：I],imm8[5：4])

TMP1[I+127：I+96]<-select(SRC2[I+127：I],imm8[7：6])

立即值的二位元容許從第二來源選擇四個32-位元資料元素。例如，針對TMP1，若立即值為「01」，則選擇SRC2的位元63：32。

重複上述，例如，每資料通道(128-位元)每次64-位元的處理，直到已處理全部向量長度。

圖2顯示其次的64-位元通道計算。若來源及目標均係128-位元，則此會係所有實施的計算。

範例格式

此指令的範例格式係「DBPSAD{B/W/D/Q}{B/W/D/Q}XMM1/YMM1/ZMM1,XMM2/YMM2/ZMM2/m128 /m256/m512,imm8」，其中運算元XMM1/YMM1/ZMM1係來源向量暫存器(諸如，128-、256-、或512-位元暫存器)且目標XMM1/YMM1/ZMM1係向量暫存器(諸如，128-、256-、或512-位元暫存器)，或128-、256-、或512-位元尺寸的記憶體位置，imm8係8位元立即值(雖然可能使用其他立即值尺寸)，且DBPSAD{B/W/D/Q}係指令的運算碼。可能將資料元素在來源暫存器中的尺寸界定在指令的「前置碼」中，諸如，經由使用資料粒度位元指示。在多數實施例中，此位元將指示各資料元素係32或64位元之其中一者，然而，可能使用其他變化。在其他實施例中，資料元素的尺寸係由運算碼自身界定。例如，第一{B/W/D/Q}識別符分別指示位元組、字組、雙字組、或四字組來源資料元素尺寸。此外，在部分實施例中，後續的{B/W/D/Q}識別符分別指示位元組、字組、雙字組、或四字組目標資料元素尺寸。例如，DBPSADBW指示位元組來源資料元素及字組目標資料元素。

圖3描繪更詳細的範例向量親和指令格式。

範例執行方法

圖4描繪DBPSAD指令在處理器中的使用的實施例。在401提取具有第一及第二來源運算元、目標運算元、立即值、及運算元的DBPSAD指令。如上文提及的，第一來源運算元及目標運算元二者均係向量暫存器。第二來源運算元可能係向量暫存器或記憶體位置之其中一者。

在403，以解碼邏輯解碼DBPSAD指令。依據指令格式，各種資料可能在此階段解譯，諸如，是否有資料轉換，寫入或取得何暫存器、存取什麼記憶體位置等。

在405，取得/讀取來源運算元值。例如，讀取來源暫存器(等)或取得第二來源運算元的記憶體位置。

在407，藉由執行資源，諸如，一或多個功能單元，執行DBPSAD指令(或包含此種指令的操作，諸如，微操作)，以對來源的每個資料通道(亦即，64-位元通道)計算第一及第二來源之經選擇四組資料元素(亦即，位元組元素)的SAD。在上文已於圖式1的描述中詳細地描述此可能如何對位元組元素完成的具體細節。

在409，將經計算SAD值儲存在目標向量暫存器中。例如，將SAD計算的字組結果儲存在目標暫存器的資料元素位置中。在分類上，儲存入目標資料元素位置中的事物如下：

雖然已分別說明407及409，在部分實施例中，彼等作為指令執行的一部分共同實施。

圖5描繪處理DBPSAD指令之方法的實施例。具體地說，下文詳細描述資料通道(諸如，64-位元資料通道)。此會依需要重複多次，直到已處理所有資料通道。在此實施例中，假設已於先前實施部分而非全部的操作401-405，然而，並未顯示彼等以不混淆下文呈現的細節。例如，未顯示提取及解碼，也未顯示運算元取得。

在501，選擇第一來源的四組資料元素。更明確地說，使用移位(諸如，四個位元組)從第一來源選擇二個不同四組。在圖1中，此係來源的最低有效64位元。若來源及目標暫存器均係128-位元，則在後續迭代中，會使用64個最高有效位元。

在503，根據來自指令之立即值的控制位元從第二來源選擇二個四組。各四組與目標之資料元素的尺寸相同。從第二來源選擇四組係在128-位元步幅尺寸上完成。換言之，該選擇係從第二來源的128-位元組塊產生。若第二來源僅係128-位元，則僅產生一個四組選擇。若第二來源係256-位元，則產生二個四組選擇-一者在128最低有效位元上，且一者在128最高有效位元上。

典型地，立即值係8-位元值並將二位元用於每個四組選擇。將該等二個最低有效位元用於選擇第一個四組(最低有效)並依此類推。例如，針對圖1的TMP1，若立即值為「01」，則選擇SRC2的位元63：32。

在505，使用經選擇四組計算SAD。各SAD由已總和在一起的多個絕對差計算組成。再次，此係在資料通道基礎上完成。在圖1中，描繪用於最低有效64-位元的64-位元通道。相關於該圖討論如何處理資料元素的具體細節。

在507，將經計算SAD儲存入目標向量暫存器的資料元素位置中。再度，已相關於圖1討論在何事物上進行的範例具體細節。

圖6描繪用於位元組來源資料元素尺寸及字組目標資料元素尺寸之DBPSAD的虛擬碼。

範例指令格式

本文描述之指令(等)的實施例可能以不同格式具現。此外，於下文詳細描述範例系統、架構、及管線。指令(等)的實施例可能在此種系統、架構、及管線上執行，但未受限於此等細節。

通用向量親和指令格式

向量親和指令格式係適用於向量指令的指令格式(例如，特別用於向量操作的特定欄位)。雖然描述在其中經由向量親和指令格式支援向量及純量操作二者的實施例，其他實施例僅使用向量親和指令格式的向量操作。

圖8A-8B係描繪根據本發明的一實施例之通用向量親和指令格式及其指令樣板的方塊圖。圖8A係描繪根據本發明的實施例之通用向量親和指令格式及其類別A指令樣板的方塊圖；而圖8B係描繪根據本發明的實施例之通用向量親和指令格式及其類別B指令樣板的方塊圖。具體地說，針對通用向量親和指令格式800界定類別A及B指令樣板，彼等二者包括無記憶體存取指令樣板805及記憶體存取指令樣板820。在向量親和指令格式之上下文中的術語通用係指該指令格式未束縛於任何特定指令集。

雖然將描述在其中向量親和指令格式支援下列各者的本發明的實施例：具有32位元(4位元組)或64位元(8位元組)資料元素寬度(或尺寸)的64位元組向量運算元長度(或尺寸)(且因此，64位元向量由16個雙字組尺寸元素或替代地由8個四字組尺寸元素之其中一者組成)；具有16位元(2位元組)或8位元(1位元組)資料元素寬度(或尺寸)的64位元組向量運算元長度(或尺寸)；具有32位元(4位元組)、64位元(8位元組)、16位元(2位元組)、或8位元(1位元組)資料元素寬度(或尺寸)的32位元組向量運算元長度(或尺寸)；及具有32位元(4位元組)、64位元(8位元組)、16位元(2位元組)、或8位元(1位元組)資料元素寬度(或尺寸)的16位元組向量運算元長度(或尺寸)；其他實施例可能支援具有更多、更少、或不同資料元素寬度(例如，128位元(16位元組)資料元素寬度)的更多、更少、及/或不同向量運算元尺寸(例如，256位元組向量運算元)。

圖8A中的類別A指令樣板包括：1)在無記憶體存取指令樣板805內，顯示無記憶體存取、全捨入控制型操作指令樣板810及無記憶體存取、資料轉移型操作指令樣板815；及2)在記憶體存取指令樣板820內，顯示記憶體存取、時間性指令樣板825及記憶體存取、非時間性指令樣板830。圖8B中的類別B指令樣板包括：1)在無記憶體存取指令樣板805內，顯示無記憶體存取、寫入遮罩控制、部分捨入控制型操作指令樣板812及無記憶體存取、寫入遮罩控制、vsize型操作指令樣板817；及2)在記憶體存取指令樣板820內，顯示記憶體存取、寫入遮罩控制指令樣板827。

通用向量親和指令格式800包括以描繪於圖8A-8B中的次序於下文列示的各欄位。

格式欄位840-此欄位中的特定值(指令格式識別符值)獨特地識別向量親和指令格式，因此該向量親和指令格式中的指令發生在指令串流中。因此，此欄位在其對僅具有通用向量親和指令格式之指令集係不必要的情形中係選擇性的。

基本操作欄位842-其內容區別不同的基本操作。

暫存器索引欄位844-其內容直接或經由位址產生指定來源及目標運算元的位置，彼等可能在暫存器或記憶體中。此等包括充份的位元數以從PxQ(例如，32x512、16x128、32x1024、64x1024)暫存器檔案選擇N個暫存器。雖然在一實施例中N可能多達三個來源及一個目標暫存器，其他實施例可能支援更多或更少來源及目標暫存器(例如，可能支援多達二個來源，其中此等來源之一者也作為目標使用、可能支援多達三個來源，其中此等來源之一者也作為目標使用、可能支援多達二個來源及一個目標)。

修飾欄位846-其內容在通用向量指令格式中區別指定記憶體存取之指令及不指定記憶體存取之指令的發生；亦即，在無記憶體存取指令樣板805及記憶體存取指令樣板820之間。記憶體存取操作讀取及/或寫入記憶體階層(在部分情形中，使用暫存器中的值指定來源及/或目標位址)，而非記憶體存取操作不讀寫記憶體階層(例如，來源及目標均係暫存器)。雖然在一實施例中，此欄位也在三種不同方式之間選擇以實施記憶體位址計算，其他實施例可能支援更多、更少、或不同方式以實施記憶體位址計算。

增益操作欄位850-其內容區別除了基本操作外實施各種不同操作的何一者。此欄位係上下文特定的。在本發明的一實施例中，將此欄位分割為類別欄位868、α 欄位852、及β 欄位854。增益操作欄位850容許操作的共同群組在單一指令而非在2、3、或4個指令中實施。

比例欄位860-其內容容許將用於記憶體位址產生之索引欄位的內容比例化(例如，針對使用2^scale *index+base的位址產生)。

位移欄位862A-將其內容使用為記憶體位址產生的一部分(例如，針對使用2^scale *index+base+displacement的位址產生)。

位移因子欄位862B(須注意將位移欄位862A直接並排在位移因子欄位862B上方指示使用一者或另一者)-將其內容使用為位址產生的一部分；其指定藉由記憶體存取尺寸(N)比例化的移位因子-其中N係記憶體存取中的位元組數量(例如，針對使用2^scale *index+base+scaled displacement的位址產生)。忽略冗餘的低階位元，且因此將位移因子欄位的內容乘以記憶體運算元總尺寸(N)，以產生在計算有效位址時使用的最終位移。N的值係由處理器硬體在執行時間基於全運算碼欄位874(本文稍後描述)及資料操控欄位854C決定。位移欄位862A及位移因子欄位862B在彼等未用於無記憶體存取指令樣板805及/或未用於可能僅實作彼等二者之一或均未實作的不同實施例的情形中係選擇性的。

資料元素寬度欄位864-其內容區別使用許多資料元素寬度的何一者(在部分實施例中針對所有指令；在其他實施例僅針對部分指令)。此欄位在若僅支援一種資料元素寬度及/或使用運算碼之特定實施樣態支援資料元素寬度而不需要其的情形中係選擇性的。

寫入遮罩欄位870：其內容在每個資料元素位置的基礎上控制目標向量運算元中的資料元素位置是否反映基本操作及增益操作的結果。類別A指令樣板支援合併寫入遮罩，而類別B指令樣板支援合併及歸零寫入遮罩二者。當合併時，向量遮罩在執行任何(由基本操作及增益操作指定)操作期間容許在目標中的任何元素集免於更新；在另一實施例中，保存目標之各元素的舊值，其中對應遮罩位元具有0。相反地，當歸零向量遮罩在執行任何(由基本操作及增益操作指定)操作期間容許將目標中的任何元素集歸零時；在一實施例中，當對應遮罩位元具有0值時，將目標的元素設定為0。此功能的子集係控制正在實施之操作的向量長度的能力(亦即，正受修改之元素的跨距，從第一者至最後一者)；然而，受修改的元素不必係連續的。因此，寫入遮罩欄位870容許部分向量操作，包括載入、儲存、算術、邏輯等。雖然描述在其中寫入遮罩欄位870的內容選擇包含待使用之寫入遮罩的許多寫入遮罩暫存器之一者(且因此寫入遮罩欄位870的內容間接識別待實施的遮罩)的本發明實施例，其他實施例替代地或另外容許寫入遮罩欄位870的內容直接指定待實施的遮罩。

立即欄位872-其內容容許指定立即值。此欄位在其不存在於不支援立即值之通用向量指令格式的實作中及其不存在於不使用立即值之指令中的情形中係選擇性的。

類別欄位868-其內容在不同類別的指令之間區別。參考圖8A-B，此欄位的內容在類別A及類別B指令之間選擇。在圖8A-B，使用滾邊方形以指示特定值存在於欄位中(例如，在圖8A-B中分別用於類別欄位868的類別A 868A及類別B 868B)。

類別A的指令樣板

在類別A之無記憶體存取指令樣板805的情形中，將α 欄位852解譯為RS欄位852A，其內容區別實施不同增益操作種類之何一者(例如，分別針對無記憶體存取、捨入型操作指令樣板810及無記憶體存取、資料轉移型操作指令樣板815指定捨入852A.1及資料轉移852A.2)，而β 欄位854區別實施該指定種類的何等操作。在無記憶體存取指令樣板805中，不存在比例欄位860、位移欄位862A、及位移比例欄位862B。

無記憶體存取指令樣板-全捨入控制型操作

在無記憶體存取全捨入控制型操作指令樣板810中，將β 欄位854解譯為捨入控制欄位854A，其內容(等)提供靜態捨入。雖然在本發明的描述實施例中，捨入控制欄位854A包括抑制所有浮點異常(SAE)欄位856及捨入操作控制欄位858，其他實施例可能支援可能將此等二觀念編碼入相同欄位中或僅具有此等觀念/欄位之一者或另一者(例如，可能僅具有捨入操作控制欄位858)。

SAE欄位856-其內容區別是否將異常事件回報除能；當SAE欄位856的內容指示將抑制致能時，給定指令不回報任何種類的浮點異常旗標且不喚起任何浮點異常管理器。

捨入操作控制欄位858-其內容區別實施捨入操作群組之何一者(例如，捨進、捨去、朝零捨入、及捨入至最近者)。因此，捨入操作控制欄位858容許在每個指令的基礎上改變捨入模式。在本發明的一實施例中，其中處理器包括用於指定捨入模式的控制暫存器，捨入操作控制欄位858的內容覆寫該暫存器值。

無記憶體存取指令樣板-資料轉移型操作

在無記憶體存取資料轉移型操作指令樣板815中，將β 欄位854解譯為資料轉移欄位854B，其內容區別實施許多資料轉移之何一者(例如，無資料轉移，交叉混合、廣播)。

在類別A之記憶體存取指令樣板820的情形中，將α 欄位852解譯為驅逐提示欄位852B，其內容區別使用驅逐提示之何一者(在圖8A中，分別針對記憶體存取、時間性指令樣板825及記憶體存取、非時間性指令樣板830指定時間性852B.1及非時間性852B.2)，而將β 欄位854解譯為資料操控欄位854C，其內容區別實施許多資料操控操作之何一者(也稱為基元)(例如，無操控；廣播；來源暫存器的昇轉換；及目標暫存器的降轉換)。記憶體存取指令樣板820包括比例欄位860、並選擇性地包括位移欄位862A及位移比例欄位862B。

向量記憶體指令使用轉換支援實施從記憶體載入向量及將向量儲存至記憶體。當使用正常向量指令時，使用藉由以寫入遮罩選擇之向量遮罩的內容決定的實際轉移的元素，向量記憶體指令以逐資料元素方式從記憶體轉移資料/將資料轉移至記憶體。

記憶體存取指令樣板-時間性

時間性資料係可能很快重使用以從快取獲利的資料。然而，此係提示，且不同處理器可能以不同方式實作其，包括完全忽略該提示。

記憶體存取指令樣板-非時間性

非時間性資料係不太可能很快重使用以從第1級快取記憶體快取獲利，且應針對驅逐給定優先權的資料。然而，此係提示，且不同處理器可能以不同方式實作其，包括完全忽略該提示。

類別B的指令樣板

在類別B之指令樣板的情形中，將α 欄位852解譯為寫入遮罩控制(Z)欄位852C，其內容區別由寫入遮罩欄位870控制的寫入遮罩是否應合併或歸零。

在類別B之無記憶體存取指令樣板805的情形中，將β 欄位854的一部分解譯為RL欄位857A，其內容區別實施不同增益操作種類之何一者(例如，分別針對無記憶體存取、寫入遮罩控制、部分捨入控制型操作指令樣板812及無記憶體存取、寫入遮罩控制、VSIZE型操作指令樣板817指定捨入857A.1及向量長度(VSIZE)857A.2)，而β 欄位854的其餘部分區別實施指定種類之何等操作。在無記憶體存取指令樣板805中，不存在比例欄位860、位移欄位862A、及位移比例欄位862B。

在無記憶體存取、寫入遮罩控制、部分捨入控制型操作指令樣板810中，將β 欄位854的其餘部分解譯為捨入操作欄位859A並將異常事件回報除能(給定指令不回報任何種類的浮點異常旗標且不喚起任何浮點異常管理器)。

捨入操作控制欄位859A-正如同捨入操作控制欄位858，其內容區別實施捨入操作群組之何一者(例如，捨進、捨去、朝零捨入、及捨入至最近者)。因此，捨入操作控制欄位859A容許在每個指令的基礎上改變捨入模式。在本發明的一實施例中，其中處理器包括用於指定捨入模式的控制暫存器，捨入操作控制欄位858的內容覆寫該暫存器值。

在無記憶體存取、寫入遮罩控制、VSIZE型操作指令樣板817中，將β 欄位854的其餘部分解譯為向量長度欄位859B，其內容區別於許多資料向量長度的何一者上實施(例如，128、256、或512位元組)。

在類別B之記憶體存取指令樣板820的情形中，將β 欄位854的一部分解譯為廣播欄位857B，其內容區別是否實施廣播型資料操控操作，而將β 欄位854的其餘部分解譯為向量長度欄位859B。記憶體存取指令樣板820包括比例欄位860、並選擇性地包括位移欄位862A及位移比例欄位862B。

關於通用向量親和指令格式800，將全運算碼欄位 874顯示成包括格式欄位840、基本操作欄位842、及資料元素寬度欄位864。雖然將一實施例顯示成其中全運算碼欄位874包括所有此等欄位，在不支援彼等全部的實施例中，全運算碼欄位874包括比所有此等欄位少的欄位。全運算碼欄位874提供操作碼(運算碼)。

在通用向量親和指令格式中，增益操作欄位850、資料元素寬度欄位864、及寫入遮罩欄位870容許在每個指令的基礎上指定此等特性。

寫入遮罩欄位及資料元素寬度欄位的組合產生在其中彼等容許基於不同資料元素寬度施用遮罩的類型化指令。

在類別A及類別B內發現的各種指令在不同情況中係有利的。在本發明的部分實施例中，不同處理器或處理器內的不同核心可能僅支援類別A、僅支援類別B、或支援二種類別。例如，意圖用於通用計算的高效能通用無序核心可能僅支援類別B，主要意圖用於圖形及/或科學(通量)計算的核心可能僅支援類別A，且意圖用於二者的核心可能支援二者(當然，具有來自二類別之部分樣板及指令而非來自二類別之所有樣板及指令的混合的核心在本發明的範圍內)。又，單處理器可能包括多個核心，彼等全部支援相同類別或在其中不同核心支援不同類別。例如，在具有分離式圖形及通用核心的處理器中，主要意圖用於圖形及/或科學計算之圖形核心的一者可能僅支援類別A，而一或多個通用核心可能係僅支援類別B之意圖用於通用計算之具有無序執行及暫存器更名的高效能通用核心。不具有分離式圖形核心的另一處理器可能包括支援類別A及類別B二者的一或多個通用有序或無序核心。當然，在本發明的不同實施例中，也可能將來自一類別的特性實作在另一類別中。會將以高階語言撰寫的程式放入(例如，即時編譯或靜態編譯)各種不同的可執行形式中，包括：1)僅具有由用於執行之目標處理器支援的類別(等)之指令的形式；或2)具有使用所有類別的指令的不同組合撰寫的其他常式，並具有基於由目前執行該碼之處理器所支援的指令選擇執行之常式的控制流程碼的形式。

範例特定向量親和指令格式

圖9係描繪根據本發明的實施例之範例特定向量親和指令格式的方塊圖。圖9顯示在特別用於其指定欄位之位置、尺寸、解譯、及次序，以及部分此等欄位之值的情形中的特定向量親和指令格式900。特定向量親和指令格式900可能用於延伸x86指令集，且因此部分欄位與使用在既存x86指令集及其延伸(例如，AVX)中的欄位相似或相同。此格式仍與具有延伸之既存x86指令集的前置編碼欄位、實際運算碼位元組欄位、MOD R/M欄位、SIB欄位、位移欄位、及立即欄位保持一致。說明將來自圖9的欄位映射入來自圖8的欄位。

應理解為了說明，本發明的實施例雖然係在通用向量親和指令格式800的上下文中參考特定向量親和指令格式 900而描述，除非另有聲明，本發明並未受限於特定向量親和指令格式900。例如，通用向量親和指令格式800設想用於各種欄位的各種可能尺寸，但將特定向量親和指令格式900顯示為具有特定尺寸的欄位。藉由特定範例，雖然在特定向量親和指令格式900中將資料元素寬度欄位864說明為一位元的欄位，本發明未受如此限制(亦即，通用向量親和指令格式800設想其他尺寸的資料元素寬度欄位864)。

通用向量親和指令格式800包括以描繪於圖9A中的次序於下文列示的各欄位。

EVEX前置碼(位元組0-3)902-係以四位元組形式編碼。

格式欄位840(EVEX位元組0，位元[7：0])-第一位元組(EVEX位元組0)係格式欄位840且其包含0x62(在本發明的一實施例中該獨特值用於區別向量親和指令格式)。

第二至第四位元組(EVEX位元組1-3)包括提供特定能力的許多位元欄位。

REX欄位905(EVEX位元組1，位元[7-5])-由EVEX.R位元欄位(EVEX位元組1，位元[7]-R)、EVEX.X位元欄位(EVEX位元組1，位元[6]-X)、及857(EVEX位元組1，位元[5]-B)。EVEX.R、EVEX.X、及EVEX.B位元欄位提供與對應VEX位元欄位相同的功能，並使用1的補數形式編碼，亦即，將ZMM0編碼為 1111B，將ZMM15編碼為0000B。指令的其他欄位如本技術中已為人所知地編碼暫存器索引的較低的三個位元(rrr、xxx、及bbb)，使得Rrrr、Xxxx、及Bbbb可能藉由加入EVEX.R、EVEX.X、及EVEX.B而形成。

REX'欄位810-此係REX'欄位810的第一部分且係用於編碼32個延伸暫存器集之上16個或下16個之任一者的EVEX.R'位元欄位(EVEX位元組1，位元[4]-R')。在本發明的一實施例中，此位元，連同於下文指示的其他位元，以位元反相格式儲存，以(在已為人熟知的x86 32-位元模式中)與BOUND指令區別，其實際運算碼位元組為62，但不在MOD R/M欄位(於下文描述)中接受MOD欄位中的值11；本發明的其他實施例不以反相格式儲存此及其他於下文指示的位元。將值1用於編碼較低的16個暫存器。換言之，R'Rrrr係藉由組合EVEX.R'、EVEX.R、及來自其他欄位的RRR形成。

運算碼映射欄位915(EVEX位元組1，位元[3：0]-mmmm)-其內容編碼隱含前導運算碼位元組(0F、0F 38、或0F 3)。

資料元素寬度欄位864(EVEX位元組2，位元[7]-W)-藉由符號EVEX.W代表。EVEX.W用於界定資料種類的粒度(尺寸)(32-位元資料元素或64-位元資料元素之其中一者)。

EVEX.vvvv 920(EVEX位元組2、位元[6：3]-vvvv)-EVEX.vvvv的角色可能包括下列各者：1)EVEX.vvvv 編碼以反相(1的補數)形式指定的第一來源暫存器運算元並對具有2或多個來源運算元的指令有效；2)EVEX.vvvv針對特定向量偏移指定以1的補數形式的編碼目標暫存器運算元；或3)EVEX.vvvv不編碼任何運算元，該欄位保留並應包含1111b。因此，EVEX.vvvv欄位920編碼以反相(1的補數)形式儲存之第一來源暫存器指定器的4個低階位元。依據指令，可能將額外不同的EVEX位元欄位用於將指定器尺寸延伸至32個暫存器。

EVEX.U類別欄位868(EVEX位元組2，位元[2]-U)-若EVEX.U=0，其指示類別A或EVEX.U0；若EVEX.U=1，其指示類別B或EVEX.U1。

前置編碼欄位925(EVEX位元組2，位元[1：0]-pp)-提供用於基本操作欄位的額外位元。除了在EVEX前置格式中對傳統SSE指令提供支援外，此也具有壓縮SIMD前置碼的利益(而非需要位元組表示SIMD前置碼，EVEX前置碼僅需要2位元)。在一實施例中，為支援使用採用傳統格式或EVEX前置碼格式二者之SIMD前置碼(66H、F2H、F3H)的傳統SSE指令，將此等傳統SIMD前置碼編碼入SIMD前置編碼欄位中；且在執行時間在提供至解碼器的PLA之前，擴展為傳統SIMD前置碼(所以PLA可執行此等傳統指令的傳統及EVEX格式二者而不需要修改)。雖然較新的指令可將EVEX前置編碼欄位的內容直接使用為運算碼延伸，特定實施例針對一致性以相似方式擴展，但容許藉由此等傳統SIMD前置碼指定不同意義。另一實施例可能重設計PLA以支援2位元SIMD前置編碼，且因此不需要擴展。

α 欄位852(EVEX位元組3，位元[7]-EH；也稱為EVEX.EH、EVEX.rs、EVEX.RL、EVEX.寫入遮罩控制、及EVEX.N；也使用α說明)-如先前描述的，此欄位係特殊內容。

β 欄位854(EVEX位元組3，位元[6：4]-SSS，也稱為EVEX.s_2-0 、EVEX.r_2-0 、EVEX.rr1、EVEX.LL0、EVEX.LLB；也以βββ說明)-如先前描述的，此欄位係特殊內容。

REX'欄位810-此係REX'欄位的其餘部分且係可能用於編碼32個延伸暫存器集之上16個或下16個之任一者的EVEX.V'位元欄位(EVEX位元組3，位元[3]-V')。此位元以位元反相格式儲存。將值1用於編碼較低的16個暫存器。換言之，V'VVVV係藉由組合EVEX.V'、EVEX.vvvv形成。

寫入遮罩欄位870(EVEX位元組3，位元[2：0]-kkk)-如先前描述的，其內容指定暫存器在寫入遮罩暫存器中的索引。在本發明的一實施例中，特定值EVEX.kkk=000具有隱含無寫入遮罩用於特定指令的特殊行為(此可能以包括使用硬接至各者的寫入遮罩或將遮罩硬體旁路之硬體的各種方式實作)。

實際運算碼欄位930(位元組4)也稱為運算碼位元組。將運算碼的一部分指定在此欄位中。

MOD R/M欄位940(位元組5)包括MOD欄位942、Reg欄位944、及R/M欄位946。如先前描述的，MOD欄位942的內容在記憶體存取及無記憶體存取操作之間區別。Reg欄位944的角色可總結成二情況：編碼目標暫存器運算元或來源暫存器運算元的任一者，或被視為係運算碼延伸且不用於編碼任何指令運算元。R/M欄位946的角色可能包括下列各者：編碼參考記憶體位址的指令運算元，或編碼目標暫存器運算元或來源暫存器運算元之任一者。

比例、索引、基底(SIB)位元組(位元組6)-如先前描述的，將比例欄位850的內容用於記憶體位址產生。SIB.xxx 954及SIB.bbb 956-此等欄位的內容已於先前參考至關於暫存器索引Xxxx及Bbbb。

位移欄位862A(位元組7-10)-當MOD欄位942包含10時，位元組7-10係位移欄位862A，且其與傳統32-位元位移(disp32)相同地運作並以位元組粒度運作。

位移因子欄位862B(位元組7)-當MOD欄位942包含01時，位元組7係位移因子欄位862B。此欄位的位置與傳統x86指令集8-位元位移(disp8)相同，其以位元組粒度運作。因為disp8係正負號延伸的，其僅可在-128及127位元組移位之間定址；依據64位元組快取線，disp8使用僅可設定成四個實際有用值-128、-64、0、及64的8位元；因為常需要較大範圍，使用disp32；然而，disp32需要4個位元組。與disp8及disp32相反，位移因子欄位862B係disp8的重解譯；當使用位移因子欄位862B時，實際位移係由位移因子欄位乘以記憶體運算元存取的尺寸(N)決定。將此種位移稱為disp8*N。此減少平均指令長度(將單一位元組用於位移，但具有更大的範圍)。此種壓縮位移係基於有效位移係記憶體存取粒度之倍數的假設，且因此，不需要將位址移位的冗餘低階位元編碼。換言之，位移因子欄位862B取代傳統x86指令集8-位元位移。因此，除了將disp8多載為disp8*N的例外之外，以與x86指令集8-位元位移相同的方式編碼位移因子欄位862B(所以在ModRM/SIB編碼規則中沒有改變)。換言之，在編碼規則或編碼長度上沒有改變，但僅在藉由硬體解譯位移值上改變(其需要以記憶體運算元的尺寸將位移比例化，以得到逐位元位址移位)。

立即欄位872如先前描述地操作。

全運算碼欄位

圖9B係描繪根據本發明的一實施例之構成全運算碼欄位874的特定向量親和指令格式900之欄位的方塊圖。具體地說，全運算碼欄位874包括格式欄位840、基本操作欄位842、及資料元素寬度(W)欄位864。基本操作欄位842包括前置編碼欄位925、運算碼映射欄位915、及實際運算碼欄位930。

暫存器索引欄位

圖9C係描繪根據本發明的一實施例之構成暫存器索引欄位844的特定向量親和指令格式900之欄位的方塊圖。具體地說，暫存器索引欄位844包括REX欄位905、REX'欄位910、MODR/M.reg欄位944、MODR/M.r/m欄位946、VVVV欄位920、xxx欄位954、及bbb欄位956。

增益操作欄位

圖9D係描繪根據本發明的一實施例之構成增益操作欄位850的特定向量親和指令格式900之欄位的方塊圖。當類別(U)欄位868包含0時，其表示EVEX.U0(類別A 868A)；當其包含1時，其表示EVEX.U1(類別B 868B)。當U=0且MOD欄位942包含11(表示無記憶體存取操作)時，將α 欄位852(EVEX位元組3，位元[7]-EH)解譯為rs欄位852A。當rs欄位852A包含1(捨入852A.1)時，將β 欄位854(EVEX位元組3，位元組[6：4]-SSS)解譯為捨入控制欄位854A。捨入控制欄位854A包括一位元的SAE欄位856及二位元的捨入操作欄位858。當rs欄位852A包含0(資料轉移852A.2)時，將β 欄位854(EVEX位元組3，位元[6：4]-SSS)解譯為三位元的資料轉移欄位854B。當U=0且MOD欄位942包含00、01、或10(表示記憶體存取操作)時，將α 欄位852(EVEX位元組3，位元[7]-EH)解譯為驅逐提示(EH)欄位852B並將β 欄位854(EVEX位元組3、位元[6：4]-SSS)解譯為三位元的資料操控欄位854C。

當U=1時，將α 欄位852(EVEX位元組3，位元[7]-EH)解譯為寫入遮罩控制(Z)欄位852C。當U=1且MOD欄位942包含11(表示無記憶體操作)時，將β 欄位854的一部分(EVEX位元組3、位元[4]-S₀ )解譯為RL欄位857A；當其包含1(捨入857A.1)時，將β 欄位854的其餘部分(EVEX位元組3，位元[6-5]-S_2-1 )解譯為捨入操作欄位859A，而當RL欄位857A包含0(VSIZE 857.A2)時，將β 欄位854的其餘部分(EVEX位元組3、位元[6-5]-S_2-1 )解譯為向量長度欄位859B(EVEX位元組3，位元[6-5]-L_1-0 )。當U=1且MOD欄位942包含00、01、或10(表示記憶體存取操作)時，將β 欄位854(EVEX位元組3，位元[6：4]-SSS)解譯為向量長度欄位859B(EVEX位元組3，位元[6-5]-L_1-0 )及廣播欄位857B(EVEX位元組3，位元[4]-B)。

範例暫存器架構

圖10係根據本發明的一實施例之暫存器架構1000的方塊圖。在所說明的實施例中，有32個512位元寬的向量暫存器1010；將此等暫存器稱為zmm0至zmm31。將較低的16個zmm暫存器的低階256個位元重疊在暫存器ymm0-16上。將較低的16個zmm暫存器的低階128個位元(ymm暫存器之低階128個位元)重疊在暫存器xmm0-15上。如在下表中說明的，特定向量親和指令格式 900在此等重疊暫存器檔案上操作。

換言之，向量長度欄位859B在最大長度及一或多個其他較短長度之間選擇，其中各個此種較短長度為先前長度的一半長度；且不具有向量長度欄位859B的指令樣板在最大向量長度上操作。另外，在一實施例中，特定向量親和指令格式900的類別B指令樣板在封裝或純量單/倍精準浮點資料及封裝或純量整數資料上操作。純量操作係在zmm/ymm/xmm暫存器中之最低階資料元素位置上實施的操作；較高階的資料元素位置或係保持成與在該指令之前相同或係依據實施例歸零。

寫入遮罩暫存器1015-在說明實施例中，有8個寫入遮罩暫存器(k0至k7)，各者的尺寸為64位元。在替代實施例中，寫入遮罩暫存器1015的尺寸為16位元。如先前描述的，在本發明的一實施例中，向量遮罩暫存器k0不能使用為寫入遮罩；當編碼通常會指示將k0用於寫入遮罩時，其選擇0xFFFF的硬接寫入遮罩，有效地將該指令的寫入遮罩除能。

通用暫存器1025-在說明實施例中，有連同既存之x86定址模式使用以定址記憶體運算元的十六個64位元通用暫存器。藉由名稱RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、及R8至R15參考至此等暫存器。

純量浮點堆疊暫存器檔案(x87堆疊)1045，在其上的係化名的MMX封裝整數平坦暫存器檔案1050-在說明實施例中，x87堆疊係用於使用x87延伸指令集在32/64/80-位元浮點資料上實施純量浮點操作的八元素堆疊；而將MMX暫存器用於在64-位元封裝整數資料上實施操作，及針對在MMX及XMM暫存器之間實施的部分操作保持運算元。

本發明的其他實施例可能使用更寬或更窄的暫存器。此外，本發明的其他實施例可能使用更多、更少、或不同的暫存器檔案及暫存器。

範例核心架構、處理器、及電腦架構

處理器核心可能針對不同用途、及在不同處理器中以不同方式實作。例如，此種核心的實作可能包括：1)意圖用於通用計算的通用有序核心；2)意圖用於通用計算的高效能通用無序核心；3)主要意圖用於圖形及/或科學(通量)計算的特定用途核心。不同處理器的實作可能包括：1)包括意圖用於通用計算之一或多個通用有序核心及/或意圖用於通用計算之一或多個通用無序核心的 CPU；及2)包括主要意圖用於圖形及/或科學(通量)之一或多個特定用途核心的共處理器。此種不同處理器導致不同的電腦系統架構，彼等可能包括：1)在與CPU分離之晶片上的共處理器；2)在與CPU相同之封裝中的分離晶粒上的共處理器；3)與CPU在相同晶粒上的共處理器(在該情形中，此種共處理器有時稱為特定用途邏輯，諸如，整合圖形及/或科學(通量)邏輯，或稱為特定用途核心)；及4)系統單晶片，可能在相同晶粒上包括所描述的CPU(有時稱為應用核心(等)或應用處理器(等))、上述共處理器、及額外功能。其次描述範例核心架構，之後描述範例處理器及電腦架構。

範例核心架構有序及無序核心方塊圖

圖11A係描繪根據本發明的實施例之範例有序管線及範例暫存器更名、無序發佈/執行管線二者的方塊圖。圖11B係描繪根據本發明的實施例之包括在處理器中的有序架構核心之範例實施例及範例暫存器更名、無序發佈/執行架構核心二者的方塊圖。圖11A-B中的實線方塊描繪有序管線及有序核心，而選擇性加入的點虛線方塊描繪暫存器更名、無序發佈/執行管線及核心。假定有序實施樣態係無序實施樣態的子集，將描述無序實施樣態。

在圖11A中，處理器管線1100包括提取級1102、長度解碼級1104、解碼級1106、配置級1108、更名級 1110、排程(也稱為調度或發佈)級1112、暫存器讀取/記憶體讀取級1114、執行級1116、寫回/記憶體寫入級1118、異常管理級1122、及提交級1124。

圖11B顯示包括耦合至執行引擎單元1150之前端單元1130的處理器核心1190，且二者均耦合至記憶體單元1170。核心1190可能係精簡指令集計算(RISC)核心、複雜指令集計算(CISC)核心、極長指令(VLIW)核心、或混合或其他核心類型。作為另一選項，核心1190可能係特定用途核心，諸如，網路或通訊核心、壓縮引擎、共處理器核心、通用計算圖形處理單元(GPGPU)核心、或圖形核心等。

前端單元1130包括耦合至指令快取單元1134的分支預測單元1132，其耦合至指令轉換後備緩衝器(TLB)1136，其耦合至指令提取單元1138，其耦合至解碼單元1140。解碼單元1140(或解碼器)可能解碼指令，並產生作為輸出之解碼自、或另外反映、或導自原始指令之一或多個微操作、微碼進入點、微指令、其他指令、或其他控制訊號。解碼單元1140可能使用各種不同的機制實作。合適機制的範例包括，但未受限於，查找表、硬體實作、可規劃閘極陣列(PLA)、微碼唯讀記憶體(ROM)等。在一實施例中，核心1190包括微碼ROM或儲存用於特定巨集指令之微碼的其他媒體(例如，在解碼單元1140中或另外在前端單元1130內)。將解碼單元1140耦合至執行引擎單元1150中的更名/配置器單元1152。

執行引擎單元1150包括耦合至引退單元1154及一組一或多個排程器單元(等)1156的更名/配置器單元1152。排程器單元(等)1156代表任何數量的不同排程器，包括保留站、中央指令窗等。將排程器單元(等)1156耦合至實體暫存器檔案(等)單元(等)1158。實體暫存器檔案(等)單元1158各者代表一或多個實體暫存器檔案，彼等的不同一者儲存一或多個不同資料型別，諸如，純量整數、純量浮點數、封裝整數、封裝浮點數、向量整數、向量浮點數、狀態(例如，係待執行之次一指令的位址之指令指標器)等。在一實施例中，實體暫存器檔案(等)單元1158包含向量暫存器單元、寫入遮罩暫存器單元、及純量暫存器單元。此等暫存器單元可能提供架構向量暫存器、向量遮罩暫存器、及通用暫存器。實體暫存器檔案(等)單元(等)1158為引退單元1154覆蓋，以說明可能實作暫存器更名及無序執行的各種方式(例如，使用重排序緩衝器(等)及引退暫存器檔案(等)；使用未來檔案(等)、歷史緩衝器(等)、及引退暫存器檔案(等)；使用暫存器映射及暫存器池；等)。將引退單元1154及實體暫存器檔案(等)單元(等)1158耦合至執行叢集(等)1160。執行叢集(等)1160包括一組一或多個執行單元1162及一組一或多個記憶體存取單元1164。執行單元1162可能在各種資料型別(例如，純量浮點數、封裝整數、封裝浮點數、向量整數、向量浮點數)上實施各種操作(例如，移位、加法、減法、乘法)。雖然部分實施例可能包括專用於特定函數或函數集的許多執行單元，其他實施例可能僅包括一執行單元或全部實施所有函數的多個執行單元。將排程器單元(等)1156、實體暫存器檔案(等)單元(等)1158、及執行叢集(等)1160顯示為可能係複數個，因為特定實施例針對特定種類的資料/操作產生個別管線(例如，各者具有自有之排程器單元、實體暫存器檔案(等)單元、及/或執行叢集的純量整數管線、純量浮量數/封裝整數/封裝浮點數/向量整數/向量浮點數管線、及/或記憶體存取管線-且在分離式記憶體存取管線的情形中，實作在其中僅有此管線的執行叢集具有記憶體存取單元(等)1164的特定實施例)。也應理解當使用分離式管線時，此等管線的一或多者可能係無序發佈/執行時而其餘係有序的。

將該組記憶體存取單元1164耦合至記憶體單元1170，其包括耦合至資料快取單元1174的資料TLB單元1172，該資料快取單元耦合至2級(L2)快取單元1176。在一範例實施例中，記憶體存取單元1164可能包括負載單元、儲存位址單元、及儲存資料單元，彼等各者耦合至記憶體單元1170中的資料TLB單元1172。將指令快取單元1134另外耦合至記憶體單元1170中的2級(L2)快取單元1176。將L2快取單元1176耦合至一或多個其他級快取記憶體並最終耦合至主記憶體。

藉由範例，範例暫存器更名、無序發佈/執行核心架構可能將管線1100實作如下：1)指令提取1138實施提取及長度解碼級1102及1104；2)解碼單元1140實施解碼級1106；3)更名/配置器單元1152實施配置級1108及更名級1110；4)排程單元(等)1156實施排程級1112；5)實體暫存器檔案(等)單元(等)1158及記憶體單元1170實施暫存器讀取/記憶體讀取級1114；執行叢集1160執行執行級1116；6)記憶體單元1170及實體暫存器檔案(等)單元(等)1158實施寫回/記憶體寫入級1118；7)各種單元可能包含在異常管理級1122中；且8)引退單元1154及實體暫存器檔案(等)單元(等)1158實施提交級1124。

核心1190可能支援包括本文描述之指令(等)的一或多個指令集(例如，x86指令集(具有已加入較新版本的特定延伸)；加州桑尼維爾的MIPS Technologies的MIPS指令集；加州桑尼維爾的ARM Holdings的ARM指令集(具有選擇性的額外延伸，諸如NEON))。在一實施例中，核心1190包括邏輯以支援封裝資料延伸指令集(例如，AVX1、AVX2、及/或如先前描述的通用向量親和指令格式的部分形式(U=0及/或U=1)，因此容許使用封裝資料實施由許多多媒體應用程式使用的操作。

應理解該核心可能支援多執行緒(執行二或多個平行操作或執行緒集)，並可能以包括時間切片多執行緒、同步多執行緒(其中同步多執行緒的該單一實體核心對執行緒各者提供邏輯核心)、或彼等之組合(例如，下文的時間切片提取及解碼及同步多執行緒，諸如，在Intel®超執行緒技術中)的各種方式實施。

雖然暫存器更名係在無序執行的上下文中描述，應理解暫存器更名可能使用在有序架構中。雖然處理器的說明實施例也包括分離式指令及資料快取單元1134/1174及共享L2快取單元1176，其他實施例可能具有用於指令及資料二者的單一內部快取記憶體，諸如，1級(L1)內部快取記憶體、或多級內部快取記憶體。在部分實施例中，該系統可能包括內部快取記憶體及在核心及/或處理器外部之外部快取記憶體的組合。或者，所有快取記憶體可能均在核心及/或處理器外部。

具體範例有序核心架構

圖12A-B描繪更具體之範例有序核心架構的方塊圖，其核心會係晶片中之數個邏輯區塊(包括相同種類及/或不同種類的其他核心)的一者。邏輯區塊依據應用經由高帶寬互連網路(例如，環狀網路)與特定固定功能邏輯、記憶體I/O介面、及其他必要I/O邏輯通訊。

圖12A係根據本發明的實施例之單處理器核心，連同其之至晶粒上互連網路1202的連接及其之2級(L2)快取記憶體的區域子集1204的方塊圖。在一實施例中，指令解碼器1200支援具有封裝資料延伸指令集的x86指令集。L1快取記憶體1206容許將記憶體快取入純量及向量單元的低潛伏期存取。雖然在一實施例(為簡化設計)，純量單元1208及向量單元1210使用分離的暫存器集(分別係純量暫存器1212及向量暫存器1214)，並將在彼等之間轉移的資料寫至記憶體，然後從1級(L1)快取記憶體1206讀回，本發明的其他實施例可能使用不同方法(例如，使用單一暫存器集或包括容許資料在二暫存器檔案之間轉移而無需寫入及讀回的通訊路徑)。

L2快取記憶體區域子集1204係分割成分離區域子集的整體L2快取記憶體的一部分，每個處理器核心有一子集。各處理器核心具有至其自有之L2快取記憶體區域子集1204的直接存取路徑。將由處理器核心讀取的資料儲存在其L2快取記憶體子集1204中，並可與存取彼等自有之區域L2快取記憶體子集的其他處理器核心平行地迅速地存取。將由處理器核心寫入的資料儲存在其自有的L2快取記憶體子集1204中，且若有需要，從其他子集清除。該環狀網路確保共享資料的一致性。該環狀網路係雙向的，以容許助理，諸如，處理器核心、L2快取記憶體、及其他邏輯區塊在晶片內彼此通訊。各環狀資料路徑在每方向上為1012-位元寬。

圖12B係根據本發明的實施例之圖12A中的處理器核心之一部分的擴大圖。圖12B包括L1快取記憶體1204的L1資料快取記憶體1206A部分，以及關於向量單元1210及向量暫存器1214的更多細節。具體地說，向量單元1210係寬度16的向量處理單元(VPU)(見寬度16的ALU 1228)，其執行一或多個整數、單精準浮點、及倍精準浮點指令。VPU支援在記憶體輸入上使用交叉混合單元1220交叉混合暫存器輸入，使用數值轉變單元1222A-B的數值轉變，及使用複製單元1224的複製。寫入遮罩暫存器1226容許預測所產生的向量寫入。

具有積體記憶體控制器及圖型處理器的處理器

圖13係根據本發明的實施例之可能具有多於一核心、可能具有積體記憶體控制器、並可能具有積體圖形處理器之處理器1300的方塊圖。圖13中的實線方塊描繪具有單核心1302A、系統助理1310、一組一或多個匯流排控制器單元1316的處理器1300，而點虛線描繪選擇性加入之具有多核心1302A-N、在系統助理單元1310中的一組一或多個積體記憶體控制器單元(等)1314、及特定用途邏輯1308的其他處理器1300。

因此，處理器1300的不同實作可能包括：1)具有係積體圖形及/或科學(通量)邏輯之特定用途邏輯1308的CPU(其可能包括一或多個核心)，且核心1302A-N係一或多個通用核心(例如，通用有序核心、通用無序核心、該等二者的組合)；2)具有係主要意圖用於圖形及/或科學(通量)之大量特定用途核心之核心1302A-N的共處理器；及3)具有係大量通用有序核心之核心1302A-N的共處理器。因此，處理器1300可能係通用處理器、共處理器、或特定用途處理器，諸如，網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU(通用圖形處理單元)、高通量多積體核心(MIC)共處理器(包括30或更多核心)、或嵌入式處理器等。該處理器可能實作在一或多個晶片上。處理器1300可能係使用任何數量的處理技術，例如，BiCMOS、CMOS、或NMOS，之一或多個基材的一部分及/或實作在該等基材上。

記憶體階層包括在核心內的一或多級快取記憶體、一組或一或多個共享快取記憶體單元1306、及耦合至該組積體記憶體控制器單元1314的外部記憶體(未圖示)。該組共享快取記憶體單元1306可能包括一或多個中級快取記憶體，諸如，2級(L2)、3級(L3)、4級(L4)、或其他級快取記憶體、末級快取記憶體(LLC)、及/或彼等的組合。雖然在一實施例中，環形為基的互連單元1312互連積體圖形邏輯1308、該組共享快取記憶體單元1306、及系統助理單元1310/積體記憶體控制器單元(等)1314，其他實施例可能使用用於互連此種單元之任何數量的已為人熟知的技術。在一實施例中，在一或多個快取記憶體單元1306及核心1302A-N之間維持一致性。

在部分實施例中，一或多個核心1302A-N有多執行緒的能力。系統助理1310包括協調及操作核心1302A-N的此等組件。系統助理單元1310可能包括，例如，電源控制單元(PCU)及顯示單元。PCU可能係或包括調節核心1302A-N及積體圖型邏輯1308之電源狀態所需要的邏輯及組件。顯示單元用於驅動一或多個外部連接的顯示器。

核心1302A-N可能依據架構指令集係同質或異質的；亦即，二或多個核心1302A-N可能能執行相同指令集，而其他可能僅能執行該指令集的子集或不同指令集。

範例電腦架構

圖14-17係範例電腦架構的方塊圖。在本技術中為人所知之用於膝上型、桌上型、手持PC、個人數位助理、工程工作站、伺服器、網路裝置、網路集線器、交換器、嵌入式處理器、數位訊號處理器(DSP)、圖形裝置、視訊遊戲裝置、機上盒、微控制器、行動電話、可攜式媒體播放器、手持裝置、及各種其他電子裝置的其他系統設計及組態也係合適的。通常，能合併如本文揭示之處理器及/或其他執行邏輯之種類繁多的系統或電子裝置通常係合適的。

現在參考至圖14，顯示係根據本發明的一實施例之系統1400的方塊圖。系統1400可能包括一或多個處理器1410、1415，彼等耦合至控制器集線器1420。在一實施例中，控制器集線器1420包括圖形記憶體控制器集線器(GMCH)1490及輸入/輸出集線器(IOH)1450(彼等可能在不同晶片上)；GMCH 1490包括將記憶體1440及共處理器1445耦合至其的記憶體及圖形控制器；IOH 1450將輸入/輸出(I/O)裝置1460耦合至GMCH 1490。或者，將記憶體及圖形控制器之一或二者積體在處理器內 (如本文描述的)、將記憶體1440及共處理器1445直接耦合至處理器1410、且控制器集線器1420在具有IOH 1450的單一晶片中。

在圖14中以虛線標示額外處理器1415的選擇性性質。各處理器1410、1415可能包括本文描述的一或多個處理核心並可能係處理器1300的特定版本。

記憶體1440可能係，例如，動態隨機存取記憶體(DRAM)、相變記憶體(PCM)、或二者的組合。針對至少一實施例，控制器集線器1420經由多分支匯流排，諸如，前側匯流排(FSB)，點對點介面，諸如，快速通道互連(QPI)或相似連接1495與處理器(等)1410、1415通訊。

在一實施例中，共處理器1445係特定用途處理器，例如，高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU、或嵌入式處理器等。在一實施例中，控制器集線器1420可能包括積體圖形加速器。

依據包括架構、微架構、熱、及電力消耗特徵等之優點的度量頻譜，在實體資源1410、1415之間可有多種不同。

在一實施例中，處理器1410執行控制一般種類的資料處理操作的指令。嵌入於該等指令內的可能係共處理器指令。處理器1410將此等共處理器指令識別為應由附接之共處理器1445執行的種類。因此，處理器1410在共處理器匯流排或至共處理器1445的其他互連上發佈此等共處理器指令(或代表共處理器指令的控制訊號)。共處理器(等)1445接受並執行已接收的共處理器指令。

現在參考至圖15，顯示根據本發明的實施例之第一更具體模範系統1500的方塊圖。如圖15所示，多處理器系統1500係點-對-點互連系統，並包括經由點-對-點互連1550耦合的第一處理器1570及第二處理器1580。各處理器1570及1580可能係處理器1300的特定版本。在本發明的一實施例中，處理器1570及1580分別係處理器1410及1415，而共處理器1538係共處理器1445。在另一實施例中，處理器1570及1580分別係處理器1410及共處理器1445。

將處理器1570及1580顯示成分別包括積體記憶體控制器(IMC)單元1572及1582。處理器1570也包括作為其匯流排控制器單元的一部分的點對點(P-P)介面1576及1578；相似地，第二處理器1580包括PP介面1586及1588。處理器1570、1580可能經由使用P-P介面電路1578、1588的點對點(P-P)介面1550交換資訊。如圖15所示，IMC 1572及1582將處理器耦合至個別記憶體，亦即，記憶體1532及1534，彼等可能係區域地附接至個別處理器之主記憶體的部分。

處理器1570、1580各者可能經由使用點對點介面電路1576、1594、1586、1598的個別P-P介面1552、1554與晶片組1590交換資訊。晶片組1590可能選擇性地經由高效能介面1539與共處理器1538交換資訊。在一實施例中，共處理器1538係特定用途處理器，例如，高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU、或嵌入式處理器等。

可能將共享快取記憶體(未圖示)包括在處理器中或二處理器外側，仍經由P-P互連與處理器連接，使得若處理器置於低電源模式中，可能將任一或二處理器的區域快取資訊儲存在共享快取記憶體中。

可能經由介面1596將晶片組1590耦合至第一匯流排1516。雖然本發明的範圍未受如此限制，在一實施例中，第一匯流排1516可能係週邊組件互連(PCI)匯流排、或係諸如PCI快速匯流排或其他第三代I/O互連匯流排的匯流排。

如圖15所示，可能連同將第一匯流排1516耦合至第二匯流排1520的匯流排橋接器1518，將各種I/O裝置1514耦合至第一匯流排1516。在一實施例中，將一或多個額外處理器(等)1515，諸如，共處理器、高通量MIC處理器、GPGPU的加速器(諸如，圖形加速器或數位訊號處理器(DSP)單元)、場效可規劃閘極陣列、或任何其他處理器，耦合至第一匯流排1516。在一實施例中，第二匯流排1520可能係低插腳數(LPC)匯流排。在一實施例中，可能將各種裝置耦合至第二匯流排1520，包括，例如，鍵盤及/或滑鼠1522、通訊裝置1527、以及儲存單元1528，諸如，硬碟驅動器，或可能包括指令/碼及資料1530的其他大量儲存裝置。另外，可能將音訊I/O 1524耦合至第二匯流排1520。須注意其他架構也係可能的。例如，取代圖15的點對點架構，系統可能實作多分支匯流排或其他此種架構。

現在參考至圖16，顯示根據本發明的實施例之第二更具體模範系統1600的方塊圖。圖15及16中的相似元件有相似參考數字，且圖15的特定實施樣態已從圖16省略，以避免混淆圖16的其他實施樣態。

圖16描繪處理器1570、1580可能分別包括積體記憶體及I/O控制邏輯(「CL」)1572及1582。因此，CL1572、1582包括積體記憶體控制器單元並包括I/O控制邏輯。圖16描繪不僅將記憶體1532、1534耦合至CL1572、1582，也將I/O裝置1614耦合至控制邏輯1572、1582。將傳統I/O裝置1615耦合至晶片組1590。

現在參考至圖17，顯示係根據本發明的實施例之SoC 1700的方塊圖。圖13中的相似元件有相似的參考數字。又，虛線方塊係在更先進SoC上的選擇性特性。在圖17中，將互連單元(等)1702耦合至：應用處理器1710，其包括一組一或多個核心202A-N及共享快取記憶體單元(等)1306；系統助理單元1310；匯流排控制器單元(等)1316；積體記憶體控制器單元(等)1314；一組一或多個共處理器1720，彼等可能包括積體圖形邏輯、影像處理器、音訊處理器、及視訊處理器；靜態隨機存取記憶體(SRAM)單元1730；直接記憶體存取(DMA)單元1732；用於耦合至一或多個外部顯示器的顯示單元1740。在一實施例中，共處理器(等)1720包括特定用途處理器，諸如，網路或通訊處理器、壓縮引擎、GPGPU、高通量MIC處理器、或嵌入式處理器等。

本文揭示之機制的實施例可能以硬體、軟體、韌體、或此種實作方式的組合實作。本發明的實施例可能實作為在可程式化系統上執行的電腦程式或程式碼，該系統包含至少一處理器、儲存系統(包括揮發性及非揮發性記憶體及/或儲存元件)、至少一輸入裝置、及至少一輸出裝置。

可能將程式碼，諸如描繪於圖15中的碼1530，施用至輸入指令，以實施本文描述的功能並產生輸出資訊。可能以已知方式將輸出資訊施用至一或多個輸出裝置。針對此申請案的用途，處理系統包括具有處理器，諸如；數位訊號處理器(DSP)、微控制器、特定應用積體電路(ASIC)、或微處理器的系統。

程式碼可能以高階程序或物件導向程式語言實作，以與處理系統通訊。若有需要，程式碼也可能以組合或機器語言實作。實際上，本文描述的機制並未受限在任何特定程式語言範圍中。在任何情形中，語言可能係編譯或解譯語言。

至少一實施例的一或多個實施樣態可能藉由儲存在機器可讀媒體上之代表處理器內的各種邏輯的代表性指令實作，當其由機器讀取時，導致機器製造邏輯以實施本文描述的技術。此類代表，已知如「IP核心」可儲存在實體機器可讀媒體中，並供應至各種客戶或製造設施，以載入至實際產生邏輯或處理器的製造機器中。

此種機器可讀儲存媒體可能不受限制地包括藉由機器或裝置製造或形成的非暫時實體製品配置，包括儲存媒體，諸如，硬碟、任何其他種類的碟片，包括軟碟、光碟、光碟唯讀記憶體(CD-ROM)、可重寫光碟(CD-RW)、以及磁光碟、半導體裝置，諸如，唯讀記憶體(ROM)、隨機存取記憶體(RAM)，諸如，動態隨機存取記憶體(DRAM)、靜態隨機存取記憶體(SRAM)、可抹除可程式化唯讀記憶體(EPROM)、快閃記憶體、電子可抹除可程式化唯讀記憶體(EEPROM)、相變記憶體(PCM)、磁或光學卡、或適合儲存電子指令之任何其他種類的媒體。

因此，本發明的實施例也包括包含指令或包含設計資料，諸如，硬體描述語言(HDL)，其界定本文描述之結構、電路、設備、處理器、及/或系統特性的非暫時實體機器可讀媒體。此種實施例也可能稱為程式產品。

模仿(包括二進位轉換、碼變形等)

在部分情形中，指令變換器可能用於將指令從來源指令集變換至目標指令集。例如，指令變換器可能將指令轉換(例如，使用靜態二進位轉換、包括動態編譯的動態二進位轉換)、變形、模仿、或另外變換為由核心處理的一或多個其他指令。指令變換器可能實作成軟體、硬體、韌體、或彼等之組合。指令變換器可能在處理器上、在處理器外、或部分在處理器上且部分在處理器外。

圖18係根據本發明的實施例之使用軟體指令變換器將來源指令集中的二進位指令變換為目標指令集中之二進位指令的對照方塊圖。在說明實施例中，指令變換器係軟體指令變換器，雖然指令變換器可能替代地以軟體、韌體、硬體、或彼等的各種組合實作。圖18顯示可能使用x86編譯器1804編譯以高階語言1802撰寫的程式，以產生可能由具有至少一x86指令集核心的處理器1816原生地執行的x86二進位碼1806。具有至少一x86指令集核心的處理器1816代表可藉由相容地執行或另外處理(1)Intel x86指令集核心的實質指令集部分，或(2)目標為在具有至少一x86指令集核心的Intel處理器上運行之應用程式或其他軟體的目的碼版本，實施與具有至少一x86指令集核心之Intel處理器實質相同之功能的任何處理器，以實現與具有至少一x86指令集核心之Intel處理器實質相同的結果。x86編譯器1804代表可操作以使用或不使用額外聯結處理以產生可在具有至少一x86指令集核心的處理器1816上執行的x86二進位碼1806(例如，目的碼)的編譯器。相似地，圖18顯示可能使用替代指令集編譯器1808編譯以高階語言1802撰寫的程式，以產生可能為不具有至少一x86指令集核心的處理器1814(例如，具有執行加州桑尼維爾的MIPS Technologies的MIPS指令集及/或加州桑尼維爾的ARM Holdings的ARM指令集之核心的處理器)原生地執行的替代指令集二進位碼1810。指令集變換器1812用於將x86二進位碼1806變換為可能為不具有x86指令集核心的處理器1814原生地執行的碼。此已變換碼不太可能與替代指令集二進位碼1810相同，因為難以產生能作到此的指令變換器；然而，已變換碼將完成由來自將替代指令集的指令構成的一般操作。因此，指令變換器1812代表經由模仿、模擬、或任何其他處理容許不具有x86指令集處理器或核心的處理器或其他電子裝置執行x86二進位碼1806的軟體、韌體、硬體、或彼等的組合。

101‧‧‧64-位元

103‧‧‧64-位元值

105‧‧‧目標暫存器

107‧‧‧絕對差邏輯

109‧‧‧總數邏輯

401~409‧‧‧步驟

501~507‧‧‧步驟

800、900‧‧‧向量親和指令格式

805‧‧‧無記憶體存取指令樣板

810‧‧‧無記憶體存取、全捨入控制型操作指令樣板

812‧‧‧無記憶體存取、寫入遮罩控制、部分捨入控制型操作指令樣板

815‧‧‧無記憶體存取、資料轉移型操作指令樣板

817‧‧‧無記憶體存取、寫入遮罩控制、vsize型操作指令樣板

820‧‧‧記憶體存取指令樣板

825‧‧‧記憶體存取、時間性指令樣板

827‧‧‧記憶體存取、寫入遮罩控制指令樣板

830‧‧‧記憶體存取、非時間性指令樣板

840‧‧‧格式欄位

842‧‧‧基本操作欄位

844‧‧‧暫存器索引欄位

846‧‧‧修飾欄位

850‧‧‧增益操作欄位

852‧‧‧α 欄位

852A‧‧‧RS欄位

852A.1、857A.1‧‧‧捨入

852A.2‧‧‧資料轉移

852B‧‧‧驅逐提示欄位

852B.1‧‧‧時間性

852B.2‧‧‧非時間性

852C‧‧‧寫入遮罩控制(Z)欄位

854‧‧‧β 欄位

854A‧‧‧捨入控制欄位

854B‧‧‧資料轉移欄位

854C‧‧‧資料操控欄位

856‧‧‧抑制所有浮點異常(SAE)欄位

857A‧‧‧RL欄位

857A.2‧‧‧向量長度(VSIZE)

857B‧‧‧廣播欄位

858‧‧‧捨入操作控制欄位

859A‧‧‧捨入操作欄位

859B‧‧‧向量長度欄位

860‧‧‧比例欄位

862A‧‧‧位移欄位

862B‧‧‧位移因子欄位

864‧‧‧資料元素寬度欄位

868‧‧‧類別欄位

868A‧‧‧類別A

868B‧‧‧類別B

870‧‧‧寫入遮罩欄位

872‧‧‧立即欄位

874‧‧‧全運算碼欄位

902‧‧‧EVEX前置字

905‧‧‧REX欄位

910‧‧‧REX'欄位

915‧‧‧運算碼映射欄位

920‧‧‧EVEX.vvvv

925‧‧‧前置編碼欄位

930‧‧‧實際運算碼欄位

940‧‧‧MOD R/M欄位

942‧‧‧MOD欄位

944‧‧‧Reg欄位

946‧‧‧R/M欄位

954‧‧‧SIB.xxx

956‧‧‧SIB.bbb

1000‧‧‧暫存器架構

1010‧‧‧向量暫存器

1015、1226、k0、k7‧‧‧寫入遮罩暫存器

1025‧‧‧通用暫存器

1045‧‧‧純量浮點堆疊暫存器檔案(x87堆疊)

1050‧‧‧MMX封裝整數平坦暫存器檔案

1100‧‧‧處理器管線

1102‧‧‧提取級

1104‧‧‧長度解碼級

1106‧‧‧解碼級

1108‧‧‧配置級

1110‧‧‧更名級

1112‧‧‧排程級

1114‧‧‧暫存器讀取/記憶體讀取級

1116‧‧‧執行級

1118‧‧‧寫回/記憶體寫入級

1122‧‧‧異常管理級

1124‧‧‧提交級

1130‧‧‧前端單元

1132‧‧‧分支預測單元

1134‧‧‧指令快取單元

1136‧‧‧指令轉換後備緩衝器(TLB)

1138‧‧‧指令提取單元

1140‧‧‧解碼單元

1150‧‧‧執行引擎單元

1152‧‧‧更名/配置器單元

1154‧‧‧引退單元

1156‧‧‧排程器單元

1158‧‧‧實體暫存器檔案(等)單元

1160‧‧‧執行叢集

1162‧‧‧執行單元

1164‧‧‧記憶體存取單元

1170‧‧‧記憶體單元

1172‧‧‧資料TLB單元

1174‧‧‧資料快取單元

1176‧‧‧2級(L2)快取單元

1190‧‧‧處理器核心

1200‧‧‧指令解碼器

1202‧‧‧晶粒上互連網路

1204‧‧‧2級(L2)快取記憶體區域子集

1206‧‧‧L1快取記憶體

1206A‧‧‧L1資料快取記憶體

1208‧‧‧純量單元

1210‧‧‧向量單元

1212‧‧‧純量暫存器

1214‧‧‧向量暫存器

1220‧‧‧交叉混合單元

1222A-B‧‧‧數值轉變單元

1224‧‧‧複製單元

1228‧‧‧ALU

1300、1410、1415、1515‧‧‧處理器

1302A、1302N‧‧‧核心

1306‧‧‧共享快取記憶體單元

1308‧‧‧特定用途邏輯

1310‧‧‧系統助理單元

1312‧‧‧環形為基的互連單元

1314、1572、1582‧‧‧積體記憶體控制器單元

1316‧‧‧匯流排控制器單元

1400、1500、1600‧‧‧系統

1420‧‧‧控制器集線器

1440、1532、1534‧‧‧記憶體

1445、1538、1720‧‧‧共處理器

1450‧‧‧輸入/輸出集線器(IOH)

1460‧‧‧輸入/輸出(I/O)裝置

1490‧‧‧圖形記憶體控制器集線器(GMCH)

1495‧‧‧連接

1514、1614‧‧‧I/O裝置

1516‧‧‧第一匯流排

1518‧‧‧匯流排橋接器

1520‧‧‧第二匯流排

1522‧‧‧鍵盤及/或滑鼠

1524‧‧‧音訊I/O

1527‧‧‧通訊裝置

1528‧‧‧儲存單元

1530‧‧‧指令/碼及資料

1539‧‧‧高效能介面

1550‧‧‧點-對-點互連

1552、1554‧‧‧P-P介面

1570‧‧‧第一處理器

1576、1578‧‧‧點對點(P-P)介面

1580‧‧‧第二處理器

1586、1588‧‧‧PP介面

1590‧‧‧晶片組

1594、1598‧‧‧點對點介面電路

1596‧‧‧介面

1615‧‧‧傳統I/O裝置

1700‧‧‧SoC

1702‧‧‧互連單元

1710‧‧‧應用處理器

1730‧‧‧靜態隨機存取記憶體(SRAM)單元

1732‧‧‧直接記憶體存取(DMA)單元

1740‧‧‧顯示單元

1802‧‧‧高階語言

1804‧‧‧x86編譯器

1806‧‧‧x86二進位碼

1808‧‧‧替代指令集編譯器

1810‧‧‧替代指令集二進位碼

1812‧‧‧指令集變換器

1814‧‧‧不具有至少一個x86指令集核心的處理器

1816‧‧‧具有至少一個x86指令集核心的處理器

xmm0-15、ymm0-15、zmm0、zmm31‧‧‧暫存器

本發明藉由範例並以不受該等隨附圖式之圖形限制的方式說明，其中的相似參考數字指示相似元件，且其中：圖1描繪在位元組元素上操作的範例DBPSAD指令之部分操作的範例圖示，其中將產生的SAD計算儲存為字組元素。

圖3描繪更詳細的範例指令格式。

圖4描繪DBPSAD指令在處理器中的使用的實施例。

圖5描繪處理DBPSAD指令之方法的實施例。

圖7描繪根據本發明的一實施例之一活動位元向量寫入遮罩元素的數量及向量尺寸及資料元素尺寸之間的關聯。

圖8A-8B係描繪根據本發明的一實施例之通用向量親和指令格式及其指令樣板的方塊圖。

圖9係描繪根據本發明的實施例之範例特定向量親和指令格式的方塊圖。

圖10係根據本發明的一實施例之暫存器架構的方塊圖。

圖11A係描繪根據本發明的實施例之範例有序管線及範例暫存器更名、無序發佈/執行管線二者的方塊圖。

圖11B係描繪根據本發明的實施例之包括在處理器中的有序架構核心之範例實施例及範例暫存器更名、無序發佈/執行架構核心二者的方塊圖。

圖12A-B描繪更具體之範例有序核心架構的方塊圖，其核心會係晶片中之數個邏輯區塊(包括相同種類及/或不同種類的其他核心)的一者。

圖13係根據本發明的實施例之可能具有多於一核心、可能具有積體記憶體控制器、並可能具有積體圖形處理器之處理器的方塊圖。

圖14係根據本發明的一實施例之系統的方塊圖。

圖15係根據本發明的實施例之第一更具體範例系統的方塊圖。

圖16係根據本發明的實施例之第二更具體範例系統的方塊圖。

圖17係根據本發明的實施例之SoC的方塊圖。

圖18係根據本發明的實施例之使用軟體指令變換器將來源指令集中的二進位指令變換為目標指令集中之二進位指令的對照方塊圖。

101‧‧‧64-位元

103‧‧‧64-位元值

105‧‧‧目標暫存器

107‧‧‧絕對差邏輯

109‧‧‧總數邏輯

Claims

一種方法，實施電腦處理器向量雙塊封裝絕對差總數(SAD)，以回應於單向量雙塊封裝絕對差總數指令，該單向量雙塊封裝絕對差指令包括目標向量暫存器運算元、第一及第二來源運算元、立即值、及運算碼，該方法包含下列步驟：在每一資料通道基礎上，執行該單向量雙塊封裝絕對差總數指令以計算該第一及第二來源之經選擇四組資料元素的SAD；且將各已計算SAD儲存入該目標向量暫存器。
如申請專利範圍第1項的方法，其中該第一及第二來源之該等經選擇四組資料元素係位元組尺寸的。
如申請專利範圍第2項的方法，其中該目標暫存器的該等資料元素係字組尺寸的。
如申請專利範圍第1項的方法，其中該第一來源運算元係向量暫存器且該第二來源運算元係記憶體位置。
如申請專利範圍第1項的方法，其中該第一及第二來源運算元係向量暫存器。
如申請專利範圍第1項的方法，其中該第一及第二來源及該目標向量暫存器運算元全部係選自由128-位元、256-位元、及512位元組成之群組的相同尺寸。
如申請專利範圍第1項的方法，其中該已儲存SAD包含：在該目標暫存器的最低有效位置中，該經儲存SAD 係該第一來源的最低有效資料元素位置減該第二來源的最低有效資料元素位置的絕對值加該第一來源的第二最低有效資料元素位置減該第二來源的第二最低有效資料元素位置的絕對值加該第一來源的第三最低有效資料元素位置減該第二來源的第三最低有效資料元素位置的絕對值加該第一來源的第四最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值；在該目標暫存器的第二最低有效位置中，該經儲存SAD係該第一來源的最低有效資料元素位置減該第二來源的第二最低有效資料元素位置的絕對值加該第一來源的第二最低有效資料元素位置減該第二來源的第三最低有效資料元素位置的絕對值加該第一來源的第三最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值加該第一來源的第四最低有效資料元素位置減該第二來源的第五最低有效資料元素位置的絕對值；在該目標暫存器的第三最低有效位置中，該經儲存SAD係該第一來源的第五最低有效資料元素位置減該第二來源的第三最低有效資料元素位置的絕對值加該第一來源的第六最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值加該第一來源的第七最低有效資料元素位置減該第二來源的第五最低有效資料元素位置的絕對值加該第一來源的第八最低有效資料元素位置減該第二來源的第六最低有效資料元素位置的絕對值；且在該目標暫存器的第四最低有效位置中，該經儲存 SAD係該第一來源的第五最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值加該第一來源的第六最低有效資料元素位置減該第二來源的第五最低有效資料元素位置的絕對值加該第一來源的第七最低有效資料元素位置減該第二來源的第六最低有效資料元素位置的絕對值加該第一來源的第八最低有效資料元素位置減該第二來源的第七最低有效資料元素位置的絕對值。
一種用以執行絕對差之雙塊總數之製品，包含：實體機器可讀儲存媒體，具有已儲存於其上之指令的發生，其中該指令的格式將第一及第二來源及立即值指定為其來源運算元並將單目標向量暫存器指定為其目標，且其中該指令格式包括運算碼，其指示機器回應於該單一指令的該單次發生，以在每一資料通道基礎上，導致計算該第一及第二來源之經選擇四組資料元素的SAD並將各經計算SAD儲存入該目標向量暫存器中。
如申請專利範圍第8項的製品，其中該第一及第二來源之該等經選擇四組資料元素係位元組尺寸的。
如申請專利範圍第9項的製品，其中該目標暫存器的該等資料元素係字組尺寸的。
如申請專利範圍第8項的製品，其中該第一來源運算元係向量暫存器且該第二來源運算元係記憶體位置。
如申請專利範圍第8項的製品，其中該第一及第二來源運算元係向量暫存器。
如申請專利範圍第8項的製品，其中該第一及第二來源運算元及該目標向量暫存器運算元全部係選自由128-位元、256-位元、及512位元組成之群組的相同尺寸。
如申請專利範圍第8項的製品，其中該已儲存SAD包含：在該目標暫存器的最低有效位置中，該經儲存SAD係該第一來源的最低有效資料元素位置減該第二來源的最低有效資料元素位置的絕對值加該第一來源的第二最低有效資料元素位置減該第二來源的第二最低有效資料元素位置的絕對值加該第一來源的第三最低有效資料元素位置減該第二來源的第三最低有效資料元素位置的絕對值加該第一來源的第四最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值；在該目標暫存器的第二最低有效位置中，該經儲存SAD係該第一來源的最低有效資料元素位置減該第二來源的第二最低有效資料元素位置的絕對值加該第一來源的第二最低有效資料元素位置減該第二來源的第三最低有效資料元素位置的絕對值加該第一來源的第三最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值加該第一來源的第四最低有效資料元素位置減該第二來源的第五最低有效資料元素位置的絕對值；在該目標暫存器的第三最低有效位置中，該經儲存SAD係該第一來源的第五最低有效資料元素位置減該第二來源的第三最低有效資料元素位置的絕對值加該第一來源的第六最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值加該第一來源的第七最低有效資料元素位置減該第二來源的第五最低有效資料元素位置的絕對值加該第一來源的第八最低有效資料元素位置減該第二來源的第六最低有效資料元素位置的絕對值；且在該目標暫存器的第四最低有效位置中，該經儲存SAD係該第一來源的第五最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值加該第一來源的第六最低有效資料元素位置減該第二來源的第五最低有效資料元素位置的絕對值加該第一來源的第七最低有效資料元素位置減該第二來源的第六最低有效資料元素位置的絕對值加該第一來源的第八最低有效資料元素位置減該第二來源的第七最低有效資料元素位置的絕對值。
一種用以執行絕對差之雙塊總數之裝置，包含：硬體解碼器，解碼單向量雙塊封裝絕對差總數指令，該單向量雙塊封裝絕對差總數指令包括目標向量暫存器運算元、第一及第二來源運算元、立即值、及運算碼；執行邏輯，在每一資料通道基礎上，計算該第一及第二來源之經選擇四組資料元素的SAD並將各經計算SAD儲存入該目標向量暫存器中。
如申請專利範圍第15項的裝置，其中該第一及第二來源之該等經選擇四組資料元素係位元組尺寸的。
如申請專利範圍第16項的裝置，其中該目標暫存器的該等資料元素係字組尺寸的。
如申請專利範圍第15項的裝置，其中該第一來源運算元係向量暫存器且該第二來源運算元係記憶體位置。
如申請專利範圍第15項的裝置，其中該第一及第二來源運算元係向量暫存器。
如申請專利範圍第15項的裝置，其中該已儲存SAD包含：在該目標暫存器的最低有效位置中，該經儲存SAD係該第一來源的最低有效資料元素位置減該第二來源的最低有效資料元素位置的絕對值加該第一來源的第二最低有效資料元素位置減該第二來源的第二最低有效資料元素位置的絕對值加該第一來源的第三最低有效資料元素位置減該第二來源的第三最低有效資料元素位置的絕對值加該第一來源的第四最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值；在該目標暫存器的第二最低有效位置中，該經儲存SAD係該第一來源的最低有效資料元素位置減該第二來源的第二最低有效資料元素位置的絕對值加該第一來源的第二最低有效資料元素位置減該第二來源的第三最低有效資料元素位置的絕對值加該第一來源的第三最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值加該第一來源的第四最低有效資料元素位置減該第二來源的第五最低有效資料元素位置的絕對值；在該目標暫存器的第三最低有效位置中，該經儲存 SAD係該第一來源的第五最低有效資料元素位置減該第二來源的第三最低有效資料元素位置的絕對值加該第一來源的第六最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值加該第一來源的第七最低有效資料元素位置減該第二來源的第五最低有效資料元素位置的絕對值加該第一來源的第八最低有效資料元素位置減該第二來源的第六最低有效資料元素位置的絕對值；且在該目標暫存器的第四最低有效位置中，該經儲存SAD係該第一來源的第五最低有效資料元素位置減該第二來源的第四最低有效資料元素位置的絕對值加該第一來源的第六最低有效資料元素位置減該第二來源的第五最低有效資料元素位置的絕對值加該第一來源的第七最低有效資料元素位置減該第二來源的第六最低有效資料元素位置的絕對值加該第一來源的第八最低有效資料元素位置減該第二來源的第七最低有效資料元素位置的絕對值。