TWI518590B - 多暫存器聚集指令 - Google Patents

多暫存器聚集指令 Download PDF

Info

Publication number
TWI518590B
TWI518590B TW101149317A TW101149317A TWI518590B TW I518590 B TWI518590 B TW I518590B TW 101149317 A TW101149317 A TW 101149317A TW 101149317 A TW101149317 A TW 101149317A TW I518590 B TWI518590 B TW I518590B
Authority
TW
Taiwan
Prior art keywords
vector
instruction
destination
field
register
Prior art date
Application number
TW101149317A
Other languages
English (en)
Other versions
TW201346746A (zh
Inventor
阿西許 杰哈
Original Assignee
英特爾公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 英特爾公司 filed Critical 英特爾公司
Publication of TW201346746A publication Critical patent/TW201346746A/zh
Application granted granted Critical
Publication of TWI518590B publication Critical patent/TWI518590B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30032Movement instructions, e.g. MOVE, SHIFT, ROTATE, SHUFFLE
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • G06F9/30038Instructions to perform operations on packed data, e.g. vector, tile or matrix operations using a mask

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Advance Control (AREA)
  • Complex Calculations (AREA)

Description

多暫存器聚集指令 發明領域
本發明領域大體而言係關於電腦處理器架構,且更具體言之,係關於多暫存器聚集指令。
發明背景
指令集或指令集架構(ISA)為電腦架構之與程式規劃有關的部分,且可包括原生資料類型、指令、暫存器架構、定址模式、記憶體架構、中斷及異常處置,以及外部輸入及輸出(I/O)。應注意,指令一詞在本文中大體係指巨集指令(macroinstruction),亦即,提供至處理器以供執行的指令,其與微指令或微操作(micro-op)相對,微指令或微操作係由處理器之解碼器對巨集指令進行解碼產生)。
指令集架構與微架構相區分,微架構為實行ISA之處理器的內部設計。具有不同微架構之處理器可共用共同指令集。例如,Intel®奔騰4(Pentium 4)處理器、Intel Core處理器與Advanced Micro Devices公司(Sunnyvale CA)之處理器實行幾乎相同的x86指令集版本(具有已添加至較新版本的一些擴充),但具有不同的內部設計。例如,可使用熟 知技術在不同微架構中以不同方式實行ISA之相同暫存器架構,該等技術包括專用實體暫存器、一或多個使用暫存器重新命名機制(例如,使用暫存器別名表(RAT)、重新排序緩衝器(ROB)及如美國專利第5,446,912號所述之引退暫存器檔案;如美國專利第5,207,132號所述之使用多個暫存器對映表及一暫存器集區)動態分配之實體暫存器,等等。除非另外指出,否則片語暫存器架構、暫存器檔案及暫存器代表軟體/程式設計師可見之暫存器架構、暫存器檔案及暫存器以及指令指定暫存器之方式。在需要明確性的情況下,形容詞邏輯的、架構的或軟體可見的將用來指示處於暫存器架構中之暫存器/檔案,而不同形容詞可用來指明處於給定微架構中之暫存器(例如,實體暫存器、重排暫存器、引退暫存器、暫存器集區)。
指令集包括一或多個指令格式。給定指令格式界定各種欄位(位元數目、位元位置)來尤其指定將執行的運算及將被執行該運算的運算元。給定指令係使用給定指令格式來表達且指定運算及運算元。指令流為指令之特定序列,其中該序列中之每一指令為以指令格式出現之指令。
科學、金融、自動向量化一般目的、RMS(辨識、採擷及合成)/視覺及多媒體應用(例如,2D/3D圖形、影像處理、視訊壓縮/解壓縮、語音辨識演算法及音訊調處)常常需要對大量資料項執行相同操作(稱為「資料平行處理」)。單指令多資料(SIMD)係指使得處理器對多個資料項執行相同操作之一種類型的指令。SIMD技術尤其適合於在邏輯上 可將暫存器中之位元劃分為數個固定大小資料元件之處理器,該等資料元件中之每一者表示一分開的值。例如,64位元暫存器中之位元可指定為將要在4個獨立的16位元資料元件上操作的來源運算元,該等資料元件中之每一者代表一個獨立的16位元值。作為另一實例,256位元暫存器中之位元可作為以下各者而被指定為將被操作之來源運算元:4個獨立64位元緊縮資料元件(四字組(Q)大小資料元件)、8個獨立32位元緊縮資料元件(雙字組(D)資料元件)、16個獨立16位元緊縮資料元件(字組(W)大小資料元件),或32個獨立8位元資料元件(位元組(B)大小資料元件)。此類型的資料稱為緊縮資料類型或向量資料類型,且此資料類型之運算元稱為緊縮資料運算元或向量運算元。換言之,緊縮資料項或向量係指一序列緊縮資料元件,且緊縮資料運算元或向量運算元為SIMD指令(亦稱為緊縮資料指令或向量指令)之來源運算元或目的地運算元。
舉例而言,一種類型的SIMD指令指定將以垂直方式對兩個來源向量運算元執行單一向量操作,以生成具有相同大小、具有相同數目個資料元件且處於相同資料元件次序的目的地向量運算元(亦稱為結果向量運算元)。來源向量運算元中之資料元件稱為來源資料元件,而目的地向量運算元中之資料元件稱為目的地資料元件或結果資料元件。此等來源向量運算元具有相同大小且含有具有相同寬度的資料元件,且因此其含有相同數目個資料元件。在兩個來源向量運算元中處於相同位元位置的來源資料元件形 成資料元件對(亦稱為對應資料元件;亦即,每一來源運算元之資料元件位置0中的資料元件相對應,每一來源運算元之資料元件位置1中的資料元件相對應,依此類推)。由該SIMD指令指定之操作對於來源資料元件之此等對中的每一者分開執行,以生成匹配數目個結果資料元件,且因此每一對資料元件具有一對應結果資料元件。由於該操作為垂直的且由於結果向量運算元為相同大小、具有相同數目個資料元件,且結果資料元件係以與來源向量運算元相同之資料元件次序儲存,因此結果資料元件在結果向量運算元中處於與其在來源向量運算元中之對應來源資料元件對相同的位元位置。除了此示範性類型的SIMD指令之外,亦存在多種其他類型的SIMD指令(例如,具有僅一個或具有兩個以上來源向量運算元、以水平方式操作、生成具有不同大小的結果向量運算元、具有不同大小的資料元件,及/或具有不同資料元件次序)。應理解,目的地向量運算元(或目的地運算元)一詞係定義為執行由一指令指定之運算的直接結果,包括將該目的地運算元儲存於一位置(不管其為暫存器還是由該指令指定之記憶體位置),以使得其可由另一指令作為來源運算元而存取(藉由由該另一指令指定相同位置。
諸如由具有一指令集(包括x86、MMXTM、串流式SIMD擴充(SSE)、SSE2、SSE3、SSE4.1,及SSE4.2指令)之Intel® CoreTM處理器使用的SIMD技術之SIMD技術已實現應用效能之顯著改良(CoreTM及MMXTM皆為Intel Corporation(Santa Clara,Calif.)之註冊商標或商標)。被稱為高級向量擴充(AVX)(AVX1及AVX2)且使用VEX編碼方案之一組額外SIMD擴充已被發佈及/或公開(例如,見Intel® 64及IA-32架構軟體開發人員手冊(Intel® 64 and IA-32 Architectures Software Developers Manual),2011年10月;且見Intel®高級向量擴充程式設計參考(Intel® Advanced Vector Extensions Programming Reference),2011年6月)。
某些指令集架構允許多個向量及純量運算並行完成且更新指令集架構暫存器組。存在一些操作,該等操作需要來自不同暫存器組的值,接著對該等值作運算來計算其他值。在當前指令集架構中,來自不同暫存器元件的值可藉由使用跨越不同暫存器組的一系列相對長及依賴性的排列及混洗加以聚集,該方法負擔大且複雜。
依據本發明之一實施例,係特地提出一種在一電腦處理器中執行一多暫存器聚集指令之方法,該方法包含:擷取該多暫存器聚集指令,其中該多暫存器聚集指令包括一目的地運算元,該目的地運算元指定一目的地向量暫存器;及一來源運算元,該來源運算元識別內容,該內容指示:多個第一向量暫存器,該等多個第一向量暫存器中每一者的一第一組一或多個索引,其中該第一組索引中每一者識別在該等第一向量暫存器之與其對應一者中的一來源資料元件,以及針對各經識別來源資料元件之該目的 地向量暫存器的一第二組一或多個索引;解碼該經擷取多暫存器聚集指令;以及執行該經解碼多暫存器聚集指令,從而針對該等多個第一向量暫存器中每一者之該第一組經指示索引中每一者,引起對應於該等第一向量暫存器之一的經指示索引之該來源資料元件被儲存於一組一或多個目的地資料元件中,該等目的地資料元件對應於針對該來源資料元件之該目的地向量暫存器的該第二組經識別索引。
100‧‧‧指令
105、305‧‧‧目的地運算元
110、310‧‧‧來源運算元/運算元
140‧‧‧來源向量暫存器之內容
160~166、360~366‧‧‧值
170‧‧‧目的地向量暫存器zmm1之內容
210‧‧‧聚集索引格式
210‧‧‧向量暫存器編號
215‧‧‧暫存器索引
220‧‧‧可動作位元
300‧‧‧多暫存器聚集指令
340‧‧‧記憶體位置之內容
370‧‧‧目的地向量暫存器zmm1之內容
410~420、510~540、610~640‧‧‧操作
702‧‧‧VEX前綴
705‧‧‧REX欄位
715‧‧‧運算碼對映欄位
720‧‧‧VEX.vvvv
725‧‧‧前綴編碼欄位
730‧‧‧實際運算碼欄位
740‧‧‧Mod R/M位元組
742‧‧‧基本操作欄位
744‧‧‧暫存器索引欄位
746‧‧‧R/M欄位
750‧‧‧SIB位元組
752‧‧‧SS
754‧‧‧SIB.xxx
756‧‧‧SIB.bbb
762‧‧‧位移欄位
764‧‧‧W欄位
768‧‧‧大小欄位
772‧‧‧立即欄位(IMM8)
774‧‧‧完整的運算碼欄位
800‧‧‧一般向量友善指令格式
805‧‧‧非記憶體存取
810‧‧‧非記憶體存取、完全捨位控制型操作
812‧‧‧非記憶體存取、寫入遮罩控制、部分捨位控制型操作
815‧‧‧資料變換型操作
817‧‧‧非記憶體存取、寫入遮罩控制、vsize型操作
820‧‧‧記憶體存取
825‧‧‧記憶體存取、暫時
827‧‧‧記憶體存取、寫入遮罩控制
830‧‧‧記憶體存取、非暫時
840‧‧‧格式欄位
842‧‧‧基本操作欄位
844‧‧‧暫存器位址欄位
846‧‧‧修飾符欄位
850‧‧‧擴增操作欄位
852‧‧‧α欄位
852A‧‧‧RS欄位
852A.1‧‧‧捨位
852A.2‧‧‧資料變換
852B‧‧‧收回提示欄位
852B.1‧‧‧暫時
852B.2‧‧‧非暫時
852C‧‧‧寫入遮罩控制(Z)欄位
854‧‧‧β欄位
854A‧‧‧捨位控制欄位
854B‧‧‧資料變換欄位
854C‧‧‧資料調處欄位
856‧‧‧抑制所有浮點異常(SAE)欄位
857A‧‧‧RL欄位
857A.1‧‧‧捨位欄位
857A.2‧‧‧向量長度(VSIZE)
857B‧‧‧廣播欄位
858‧‧‧捨位操作控制欄位
859A‧‧‧捨位操作欄位
859B‧‧‧向量長度欄位
860‧‧‧比例欄位
862A‧‧‧位移欄位
862B‧‧‧位移因數欄位
864‧‧‧資料元件寬度欄位
868‧‧‧類別欄位
868A‧‧‧類別A
868B‧‧‧類別B
870‧‧‧寫入遮罩欄位
872‧‧‧立即欄位
874‧‧‧完整的運算碼欄位
900‧‧‧特定向量友善指令格式
902‧‧‧EVEX前綴
905‧‧‧REX欄位
910‧‧‧REX’欄位
915‧‧‧運算碼對映欄位
920‧‧‧EVEX.vvvv欄位
925‧‧‧前綴編碼欄位
930‧‧‧實際運算碼欄位
940‧‧‧MOD R/M欄位
942‧‧‧MOD欄位
944‧‧‧Reg欄位
946‧‧‧R/M欄位
954‧‧‧SIB.xxx
956‧‧‧SIB.bbb
1000‧‧‧暫存器架構
1010‧‧‧向量暫存器
1015‧‧‧寫入遮罩暫存器
1025‧‧‧通用暫存器
1045‧‧‧純量浮點堆疊暫存器檔案
1050‧‧‧MMX緊縮整數平板暫存器檔案
1100‧‧‧處理管線
1102‧‧‧擷取級段
1104‧‧‧長度解碼級段
1106‧‧‧解碼級段
1108‧‧‧分配級段
1110‧‧‧重新命名級段
1112‧‧‧排程級段
1114‧‧‧暫存器讀取/記憶體讀取級段
1116‧‧‧執行級段
1118‧‧‧回寫/記憶體寫入級段
1122‧‧‧異常處置級段
1124‧‧‧確認級段
1130‧‧‧前端單元
1132‧‧‧分支預測單元
1134‧‧‧指令快取記憶體單元
1136‧‧‧指令轉譯後備緩衝器(TLB)
1138‧‧‧指令擷取單元
1140‧‧‧解碼單元
1150‧‧‧執行引擎單元
1152‧‧‧重新命名/分配器單元
1154‧‧‧引退單元
1156‧‧‧排程器單元
1158‧‧‧實體暫存器檔案單元
1160‧‧‧執行叢集
1162‧‧‧執行單元
1164‧‧‧記憶體存取單元
1170‧‧‧記憶體單元
1172‧‧‧資料TLB單元
1174‧‧‧資料快取記憶體單元
1176‧‧‧L2快取記憶體單元
1200‧‧‧指令解碼器
1202‧‧‧互連網路
1204‧‧‧L2快取記憶體局域子集
1206‧‧‧L1快取記憶體
1206A‧‧‧L1資料快取記憶體
1208‧‧‧純量單元
1210‧‧‧向量單元
1212‧‧‧純量暫存器
1214‧‧‧向量暫存器
1220‧‧‧拌和單元
1222A、1222B‧‧‧數值轉換單元
1224‧‧‧複製單元
1226‧‧‧寫入遮罩暫存器
1228‧‧‧寬度為16之ALU
1300‧‧‧處理器
1302A-N‧‧‧核心
1304A-N‧‧‧快取記憶體單元
1306‧‧‧共享快取記憶體單元
1308‧‧‧專用邏輯
1310‧‧‧系統代理
1312‧‧‧環式互連單元
1314‧‧‧整合型記憶體控制器單元
1316‧‧‧匯流排控制器單元
1400‧‧‧系統
1410、1415‧‧‧處理器
1420‧‧‧控制器集線器
1440‧‧‧記憶體
1445‧‧‧共處理器
1450‧‧‧輸入/輸出集線器
1460‧‧‧輸入/輸出(I/O)裝置
1490‧‧‧圖形記憶體控制器集線器(GMCH)
1495‧‧‧連接
1500‧‧‧第一更特定的示範性系 統
1514、1614‧‧‧I/O裝置
1515‧‧‧額外處理器
1516‧‧‧第一匯流排
1518‧‧‧匯流排橋接器
1520‧‧‧第二匯流排
1522‧‧‧鍵盤及/或滑鼠
1524‧‧‧音訊I/O
1527‧‧‧通訊裝置
1528‧‧‧儲存單元
1530‧‧‧指令/程式碼及資料
1532、1534‧‧‧記憶體
1538‧‧‧共處理器
1539‧‧‧高效能介面
1550‧‧‧點對點互連
1552、1554、1586、1588‧‧‧P-P介面
1570‧‧‧第一處理器
1572‧‧‧整合型記憶體控制器(IMC)單元
1576、1578‧‧‧點對點(P-P)介面
1580‧‧‧第二處理器
1582‧‧‧整合型記憶體控制器(IMC)單元
1590‧‧‧晶片組
1594、1598‧‧‧點對點介面電路
1596‧‧‧介面
1600‧‧‧第二更特定的示範性系統
1615‧‧‧舊式I/O裝置
1700‧‧‧系統單晶片
1702‧‧‧互連單元
1710‧‧‧應用處理器
1720‧‧‧共處理器
1730‧‧‧靜態隨機存取記憶體(SRAM)單元
1732‧‧‧直接記憶體存取(DMA)單元
1740‧‧‧顯示單元
1802‧‧‧高階語言
1804‧‧‧x86編譯器
1806‧‧‧x86二進位碼
1808‧‧‧替代性指令集編譯器
1810‧‧‧替代性指令集二進位碼
1812‧‧‧指令轉換器
1814‧‧‧不具有至少一個x86指令集核心之處理器
1816‧‧‧具有至少一個x86指令集核心之處理器
在隨附圖式之各圖中藉由實例而非限制來說明本發明,其中相似參考符號指示類似元件,且其中:圖1例示出根據一實施例之多暫存器聚集指令之示範性執行;圖2例示出根據一實施例之示範性聚集索引格式;圖3例示出根據一實施例的多暫存器聚集指令之另一示範性執行;圖4例示出根據一實施例的示範性操作,該示範性操作藉由在處理器中執行多暫存器聚集指令來聚集來自不同向量暫存器的多個值;圖5係流程圖,該流程圖例出出根據一實施例的執行多暫存器聚集指令之出現的示範性操作,其中來源運算元指定向量暫存器;圖6係流程圖,該流程圖例示出根據一實施例的執行多暫存器聚集指令之出現的示範性操作,其中來源運 算元指定記憶體位置;圖7A例示出根據一實施例之示範性AVX指令格式,其包括VEX前綴、實際運算碼(real opcode)欄位、Mod R/M位元組、SIB位元組、位移欄位及IMM8;圖7B根據一實施例例示出圖7A的哪些欄位組成完整的運算碼欄位以及基本操作欄位;圖7C根據一實施例例示出圖7A的哪些欄位組成暫存器索引欄位;圖8A係例示出根據本發明之實施例之一般向量友善指令格式及其類別A指令模板的方塊圖;圖8B係例示出根據本發明之實施例之一般向量友善指令格式及其類別B指令模板的方塊圖圖9A係例示出根據本發明之實施例之示範性特定向量友善指令格式的方塊圖;圖9B係例示出圖9A的特定向量友善指令格式的欄位之方塊圖,該等欄位組成根據本發明之一實施例之完整的運算碼欄位;圖9C係例示出特定向量友善指令格式的欄位之方塊圖,該等欄位組成根據本發明之一實施例之暫存器索引欄位;圖9D係例示出特定向量友善指令格式的欄位之方塊圖,該等欄位組成根據本發明之一實施例之擴增操作欄位;圖10係根據本發明之一實施例之暫存器架構的 方塊圖;圖11A係例示出根據本發明之實施例之如下兩者的方塊圖:示範性循序(in-order)管線,以及示範性暫存器重新命名亂序(out-of-order)發佈/執行管線;圖11B係例示出如下兩者之方塊圖:循序架構核心的示範性實施例,以及示範性暫存器重新命名亂序發佈/執行架構核心,上述兩者將包括於根據本發明之實施例的處理器中;圖12A係根據本發明之實施例的單個處理器核心及其至晶粒上互連網路的連接以及其2階(L2)快取記憶體局域子集之方塊圖;圖12B係根據本發明之實施例的圖12A中之處理器核心之部分的展開圖;圖13係根據本發明之實施例之處理器的方塊圖,該處理器可具有一個以上核心,可具有整合型記憶體控制器,且可具有整合型圖形元件(graphics);圖14係根據本發明之一實施例之系統的方塊圖;圖15係根據本發明之一實施例之第一更特定的示範性系統之方塊圖;圖16係根據本發明之一實施例之第二更特定的示範性系統之方塊圖;圖17係根據本發明之一實施例之SoC(系統單晶片)的方塊圖;以及 圖18係對照根據本發明之實施例之軟體指令轉換器的用途之方塊圖,該轉換器係用以將來源指令集中之二進位指令轉換成目標指令集中之二進位指令。
詳細說明
在以下描述中,闡述眾多具體細節。然而,應理解,可在無此等具體細節之情況下實踐本發明之實施例。在其他實例中,尚未詳細展示熟知電路、結構及技術以不致混淆對此描述之理解。
說明書中所參考之「一個實施例」、「一實施例」、「示例性實施例」等指示所描述之實施例可能包括特定特徵、結構或特性,但每一實施例可不必包括該特定特徵、結構或特性。此外,該等詞語不必代表相同實施例。另外,在描述與一實施例有關之特定特徵、結構或特性時,認為無論是否明確描述,對與其他實施例有關之此特徵、結構或特性的影響係在熟習此項技術者之知識範圍。
如之前所詳述,當前指令集架構允許來自不同暫存器元件的值藉由使用跨越不同暫存器組的一系列長及依賴性的排列及混洗加以聚集,該方法負擔大且複雜,而且耗時並產生長的指令序列。
多暫存器聚集指令(GatherMultiReg)之實施例以及可用來執行此指令之系統、架構指令格式等的實施例在下文詳述。該多暫存器聚集指令包括包括一目的地運算元,該目的地運算元指定一目的地向量暫存器;及一來源 運算元,該來源運算元識別內容,該內容指示:多個第一向量暫存器;該等第一向量暫存器中每一者的一第一組一或多個索引,其中該等索引中每一者識別其對應向量暫存器中一來源資料元件;以及針對各經識別來源資料元件之該目的地向量暫存器的一第二組一或多個索引。當執行該多暫存器聚集指令,該指令引起來自多個向量暫存器之多個來源資料元件儲存於單一目的地向量暫存器之目的地資料元件中。
在一些實施例中,來源運算元指定來源向量暫存器,該來源向量暫存器包括多個來源資料元件,該等來源資料元件中每一者可指定向量暫存器及引入該向量暫存器中之索引。各來源資料元件可進一步指定對應於該索引之來源資料元件是否將要儲存於目的地向量暫存器中之對應目的地資料元件中。在其他實施例中,來源運算元指定記憶體位置,該記憶體位置之內容指示多個向量暫存器;該等向量暫存器中每一者之第一組索引,各索引識別在其對應的聚集向量暫存器中的來源資料元件;以及各經識別來源資料元件之目的地向量暫存器的第二組的一或多個索引。
該指令之一實例為「GatherMultiReg[PS/PD]zmm1,zmm2」,其中zmm1及zmm2為向量暫存器(諸如128位元暫存器、256位元暫存器、512位元暫存器),其中zmm1為目的地向量暫存器,而zmm2為來源向量暫存器,該向量暫存器指示多個其他向量暫存器及該等向量暫存器之索 引以用於自該等索引聚集來源資料元件。指令之「PS」部分指示純量浮點(4位元組),而指令之「PD」部分指示雙浮點(8位元組)。整數向量形式的多暫存器聚集指令之另一實例亦可用於諸如「GatherMultiReg[D/Q]zmm1,zmm2」的實施例,其載入緊縮雙字(DWORD)或四字(QWORD)整數元件。
該指令之另一實例為「GatherMultiReg[PS/PD]zmm1,<memory>」,其中zmm1係向量暫存器(諸如128位元暫存器、256位元暫存器、512位元暫存器),而<memory>為記憶體中之位置,該位置指示多個其他向量暫存器及該等向量暫存器之索引,該等索引用於自該等向量暫存器聚集來源資料元件。指令之「PS」部分指示純量浮點(4位元組),而指令之「PD」部分指示雙浮點(8位元組)。整數向量形式的多暫存器聚集指令之另一實例亦可用於諸如「GatherMultiReg[D/Q]zmm1,<memory>」的實施例,該其載入緊縮雙字或四字整數元件。
圖1例示出根據一實施例之多暫存器聚集指令之示範性執行。多暫存器聚集指令100包括目的地運算元105及來源運算元110。多暫存器聚集指令100屬於指令集架構,且指令100在指令流內之每一「出現」將包括目的地運算元105及來源運算元110內之值。在此實例中,目的地運算元105及來源運算元110兩者係向量暫存器(諸如128-位元暫存器、256-位元暫存器、512-位元暫存器)。向量暫存器可為具有16位元、32位元資料元件之zmm暫存 器,然而,可使用其他資料元件及暫存器大小,諸如xmm暫存器或ymm暫存器及16位元或64位元資料元件。
由來源運算元(如所例示之zmm2)指定之來源向量暫存器之內容140包括多個資料元件,該等資料元件中每一者可指定向量暫存器及引入該向量暫存器之索引,且進一步指定對應於該索引之來源資料元件是否將要儲存於目的地向量暫存器中之對應目的地資料元件中(本文中稱為聚集索引)。對於純量浮點(PS)而言,各聚集索引為4位元組(32位元)。在一些實施例中,下16位元用來表示向量暫存器之編號及引入該向量暫存器之索引,該索引含有將要聚集的資料元件,且最高有效位元指示是否採取操作(是否將經識別資料元件儲存於目的地向量暫存器中)。
圖2例示出根據一實施例的示範性聚集索引格式210。聚集索引格式210之下8位元指示向量暫存器編號210。下一上8位元表示暫存器索引215。最高有效位元為可動作位元220,該可動作位元指示是否採取操作(是否將由暫存器編號210識別的暫存器之暫存器索引215識別的索引處的資料元件儲存於目的地向量暫存器中的對應位置中)。
使用圖2中所例示之聚集索引格式情況下,在zmm2向量暫存器之索引0處識別的來源資料元件具有聚集索引值(以十六進位記法表示)0x80000003h,該值表示向量暫存器3(例如,zmm3)及其索引0,且係可動作的。在zmm2向量暫存器之索引1處識別的來源資料元件具有聚 集索引值(以十六進位記法表示)0x80000004h,該值表示向量暫存器4(例如,zmm4)及其索引0,且係可動作的。在zmm2向量暫存器之索引2處識別的來源資料元件具有聚集索引值0x80000505h,該值表示向量暫存器5(例如,zmm5)及其索引5,且係可動作的。在zmm2向量暫存器之索引3處識別的來源資料元件具有聚集索引值0x800000206h,該值表示向量暫存器6(例如,zmm6)及其索引2,且係可動作的。在zmm2向量暫存器之索引4-15處識別的來源資料元件各自皆具有聚集索引值0x00000000h,該值表示向量暫存器0(例如,zmm0)及其索引0,且係不可動作的(意味在zmm2向量暫存器之索引4-15處的元件將無法儲存於zmm1向量暫存器之索引4-15處的元件中)。
對何等位元表示向量暫存器編號及何等位元表示該向量暫存器之索引進行選擇可在不同實施例中做不同地選擇。例如,下16位元可表示向量暫存器編號,而上16位元可形成暫存器索引,從而允許未來的ISA擴展。在此狀況下,指令亦可包括另一來源暫存器來指示操作性或包括遮罩暫存器來指示是否將要聚集資料元件。
在一些實施例中,在經識別向量暫存器之暫存器索引處的來源資料元件儲存於與來源向量暫存器之索引(假定其為可動作的)對應的目的地向量暫存器之目的地資料元件中。例如,在此實施例中,在向量暫存器3之索引0處的來源資料元件將要載入索引0處的目的地資料元件中,因為聚集索引值位於來源向量暫存器之索引0處。
如圖1所例示,如來源向量暫存器zmm2之索引0之聚集索引值所指示,值160係由向量暫存器zmm3之索引0識別的來源資料元件的值,其儲存於由目的地向量暫存器zmm1之索引0識別的目的地資料元件中。如來源向量暫存器zmm2之索引1之聚集索引值所指示,值162為向量暫存器zmm4之索引0處的來源資料元件的值,其儲存於由目的地向量暫存器zmm1之索引1識別的目的地資料元件中。如來源向量暫存器zmm2之索引2之聚集索引值所指示,值164為向量暫存器zmm5之索引5處的來源資料元件的值,其儲存於由目的地向量暫存器zmm1之索引2識別的目的地資料元件中。如來源向量暫存器zmm2之索引3之聚集索引值所指示,值166為向量暫存器zmm6之索引2處的來源資料元件的值,其儲存於由目的地向量暫存器zmm1之索引3識別的目的地資料元件中。因為來源資料元件zmm2[4-15]各自的值具有指示不應採取操作之可動作位元,所以目的地向量暫存器zmm1之對應目的地資料元件(例如,zmm1[4-15])的值不改變。
因此,在執行指令100之後,目的地向量暫存器zmm1之內容170包括在索引0處的值160、在索引1處的值162、在索引2處的值164、在索引3處的值166,且目的地向量暫存器在索引4-15處的值不改變。
圖3例示出根據一實施例的多暫存器聚集指令之另一示範性執行。多暫存器聚集指令300包括目的地運算元305及來源運算元310。多暫存器聚集指令300屬於指 令集架構,且指令300於指令流內的每一次「出現」將包括目的地運算元305及來源運算元310內的值。在此實例中,目的地運算元305為向量暫存器(諸如128位元暫存器、256位元暫存器、512位元暫存器),且來源運算元310為記憶體中識別內容之位置,該內容指示多個向量暫存器及引入所指示向量暫存器中每一者的一或多個索引,且進一步指示引入由所指示索引識別的各來源資料元件之目的地向量暫存器中的一組一或多個索引。向量暫存器可為具有16個32-位元資料元件之zmm暫存器,然而,可使用其他資料元件及暫存器大小,諸如xmm暫存器或ymm暫存器及16-位元資料元件或64-位元資料元件。
由來源運算元310指定之記憶體位置之內容340包括多個資料元件。如圖3所例示,在由來源運算元310指定之記憶體位置之索引0處的資料元件具有聚集索引值0x800000003h,該值表示向量暫存器3(例如,zmm3)及其索引0,且係可動作的。在由運算元310指定之記憶體位置之索引1處識別的資料元件具有聚集索引值0x80000004h,該值表示向量暫存器4(例如,zmm4)及其索引0,且係可動作的。在由運算元310指定之記憶體位置之索引2處識別的資料元件具有聚集索引值0x80000505h,該值表示向量暫存器5(例如,zmm5)及其索引5,且係可動作的。在由運算元310指定之記憶體位置之索引3處識別的資料元件具有聚集索引值0x800000206h,該值表示向量暫存器6(例如,zmm6)及其索引2,且係可動作的。在由運算 元310指定之記憶體位置之索引4-15處識別的資料元件各自皆具有聚集索引值0x0h,該值指示針對該等資料元件無元件將要聚集。
如圖3所示,如由運算元310指定的記憶體位置之索引0之聚集索引值所指示,值360為由向量暫存器zmm3之索引0識別的來源資料元件的值,其儲存於由目的地向量暫存器zmm1之索引0識別的目的地資料元件中。如由運算元310指定的記憶體位置之索引1之聚集索引值所指示,值362為向量暫存器zmm4之索引0處的來源資料元件的值,其儲存於由目的地向量暫存器zmm1之索引1識別的目的地資料元件中。如由運算元310指定的記憶體位置之索引2之聚集索引值所指示,值364為在向量暫存器zmm5之索引5處的來源資料元件的值,其儲存於由目的地向量暫存器zmm1之索引2識別的目的地資料元件中。如由運算元310指定的記憶體位置之索引3之聚集索引值所指示,值366為在向量暫存器zmm6之索引2處的來源資料元件的值,其儲存於由目的地向量暫存器zmm1之索引3識別的目的地資料元件中。因為由運算元310指定的記憶體位置之索引4-15之來源資料元件的值各自皆具有指示不應採取操作之可動作位元,所以目的地向量暫存器zmm1之對應目的地資料元件(如,zmm1[4-15])的值不改變。
因此,在執行指令300之後,目的地向量暫存器zmm1之內容370包括在索引0處的值160、在索引1處的 值162、在索引2處的值164、在索引3處的值166,且目的地向量暫存器在索引4-15處的值不改變。
因此,多暫存器聚集指令以單指令聚集來自不同向量暫存器之不同元件。在一些實施例中,存取經最佳化使得當在特定通道中時,該通道的所有暫存器的值在一次掃描中被拷貝。因為多暫存器聚集指令以單指令聚集來自不同向量暫存器之不同元件,所以其移除用來聚集來自不同暫存器的值的昂貴的混洗及排列,從而改良效能。
多暫存器聚集指令可由編譯器自動產生或可由軟體開發者手動編碼。單一多暫存器聚集指令不僅節省指令計數而且減少規劃複雜度。單一多暫存器聚集指令亦降低執行埠壓力且減少內部緩衝器,諸如RS(保留站)、ROB(重新排序緩衝器)、擷取及解碼緩衝器之使用,得到增加的效能及降低的功率消耗。
圖4例示出根據一實施例的示範性操作,該示範性操作藉由執行處理器中之多暫存器聚集指令來聚集來自不同向量暫存器的多個值。在操作410處,由處理器(例如,由處理器之擷取單元)擷取多暫存器聚集指令。多暫存器聚集指令包括目的地運算元及來源運算元。目的地運算元指定目的地向量暫存器(例如,如上所述之xmm、ymm或zmm暫存器)。來源運算元識別內容,該內容指示多個向量暫存器(例如,xmm、ymm或zmm暫存器);該等向量暫存器中每一者之第一組一或多個索引,其中該等索引中每一者識別在其對應向量暫存器中的來源資料元件之位置;且進一 步指示各經識別來源資料元件之目的地向量暫存器的第二組一或多個索引。
例如,在一實施例中,來源運算元指定來源向量暫存器(例如,如上所述之xmm、ymm或zmm暫存器),該來源向量暫存器包括多個來源資料元件,該等來源資料元件各自可指定向量暫存器及引入該向量暫存器之索引。該等來源資料元件中每一者亦可指定對應於向量暫存器索引之資料元件是否將要儲存於目的地向量暫存器中之對應目的地資料元件中。在另一實施例中,如先前所述,來源運算元指定記憶體位置。
流程自操作410移動至操作415,在操作415處處理器解碼多暫存器聚集指令。例如,在一些實施例中,處理器包括硬體解碼單元,向該硬體解碼單元提供指令(例如,由處理器之擷取單元)。多種不同的熟知的解碼單元可用於解碼單元。例如,解碼單元可將多暫存器聚集指令解碼為單個寬微指令。如另一實例,解碼單元可將多暫存器聚集指令解碼為多個寬微指令。如尤其適合於亂序處理器管線之另一實例,解碼單元可將多暫存器聚集指令解碼為一或多個微操作,其中可亂序發佈且執行該等微操作中每一者。亦,解碼單元可實行為具有一或多個解碼器且每一解碼器可實行為可規劃邏輯陣列(PLA),如此項技術中所熟知。舉例而言,給定解碼單元可:1)具有引導邏輯,以將不同巨集指令導引至不同解碼器;2)第一解碼器,其可解碼指令集之子集(但比第二解碼器、第三解碼器及第四解碼 器更多的指令集之子集且每次產生兩個微操作;3)第二解碼器、第三解碼器及第四解碼器,上述解碼器各自可解碼全部指令集之僅一個子集且每次產生僅一個微操作;4)微定序器ROM,其可解全部指令集之僅一個子集且每次產生四個微操作;以及5)多工邏輯,其由解碼器及微定序器ROM饋送,該等解碼器及該微定序器ROM決定將誰的輸出提供至微操作隊列。解碼單元之其他實施例可具有更多或更少的解碼器,該等解碼器解碼更多或更少的指令及指令子集。例如,一實施例可具有第二解碼器、第三解碼器及第四解碼器,該等解碼器可各自每次產生兩個微操作;且該實施例可包括微定序器ROM,該微定序器ROM每次產生八個微操作。
流程接著移動至操作420,其中處理器執行解碼的多暫存器聚集指令,從而針對經指示向量暫存器中每一者之第一組經指示索引中每一者,引起對應於該暫存器向量之該經指示索引之來源資料元件被儲存於一組目的地資料元件中,該等目的地資料元件對應於該來源資料元件之目的地向量暫存器之第二組經識別索引。例如,在來源運算元指定來源向量暫存器之實施例中,該來源向量暫存器之來源資料元件中每一者包括聚集索引值,該聚集索引值指定向量暫存器及引入該向量暫存器之索引,且進一步指定對應於該索引之來源資料元件是否將要儲存於目的地向量暫存器中之對應目的地資料元件中。
圖5係流程圖,該流程圖例示出根據一實施例的 執行多暫存器聚集指令之出現的示範性操作,其中來源運算元指定向量暫存器。在一實施例中,參看圖5描述之操作與操作420結合執行。
在操作510,處理器讀取來源向量暫存器之第一資料元件的值(聚集索引值)。在一實施例中,值採取聚集索引格式210之形式。流程接著移動至操作515,其中處理器判定聚集索引值指示該資料元件是否應儲存於目的地向量暫存器中之對應位置中。例如,參看聚集索引格式210,處理器判定是否設定可動作位元220。若聚集索引值指示該資料元件應加以聚集,則流程移動至操作530,否則流程移動至操作520。
在操作520,處理器讀取聚集來源向量暫存器之後續資料元件之聚集索引值。流程接著移動至操作525,其中處理器判定聚集索引值指示該資料元件是否應儲存於目的地向量暫存器中之對應位置中。若是,則流程移動至操作530,否則流程移動至操作540。
在操作530,處理器判定向量暫存器及由聚集索引值指示的暫存器之索引。例如,遵照聚集索引格式210之格式,值的下8位元識別向量暫存器(按暫存器編號),下一上8位元識別引入暫存器之索引。流程接著移動至操作535,其中處理器將對應於所判定索引之資料元件儲存於目的地向量暫存器中對應於具有聚集索引值之來源向量暫存器之索引的位置中。流程自操作535移動至操作540。
在操作540,處理器判定在來源向量暫存器中是 否存在另一資料元件。若存在,則流程移動回操作520。若不存在,則操作完成。
圖6係流程圖,該流程圖例示出根據一實施例的執行多暫存器聚集指令之出現的示範性操作,其中來源運算元指定記憶體位置。在一實施例中,參看圖6描述之操作與操作420結合執行。
在操作610,處理器擷取由來源運算元中識別的記憶體位置指定的資料元件。在一實施例中,所擷取資料元件各自採取集索引格式210之形式。流程接著移動至操作615,其中處理器判定第一經擷取資料元件之聚集索引值指示資料元件是否應儲存於目的地向量暫存器中之對應位置中。若是,則流程移動至操作630,否則流程移動至操作620。
在操作620,處理器讀取自來源運算元指定的記憶體位置中擷取的後續資料元件之聚集索引值。流程接著移動至操作625,其中處理器判定聚集索引值指示該資料元件是否應儲存於目的地向量暫存器中對應的位置中。若是,則流程移動至操作630,否則流程移動至操作640。
在操作630,處理器判定向量暫存器及由聚集索引值指示的暫存器之索引。流程接著移動至操作635,其中處理器將對應於所判定索引之資料元件儲存於目的地向量暫存器中的位置中,該位置對應於自來源運算元指定的記憶體位置中擷取之資料元件之位置。流程自操作635移動至操作640。
在操作640,處理器判定是否在由來源運算元指定的記憶體位置中存在另一資料元件。若存在,則流程移動回操作620。若不存在,則操作完成。
示範性指令格式
本文中描述之指令之實施例可以不同格式來體現。另外,下文詳述示範性系統、架構及管線。可在此等系統、架構及管線上執行指令之實施例,但不限於詳述之彼等系統、架構及管線。
VEX指令格式
VEX編碼允許指令具有兩個以上運算元,且允許SIMD向量暫存器的長度超過128個位元。VEX前綴的使用提供三運算元(或更多)語法。例如,先前兩運算元指令執行諸如A=A+B的運算,此運算會覆寫來源運算元。VEX前綴的使用使得運算元能夠執行諸如A=B+C的非破壞性運算。
圖7A展示出示範性AVX指令格式,其包括VEX前綴702、實際運算碼(real opcode)欄位730、Mod R/M位元組740、SIB位元組750、位移欄位762及IMM8 772。圖7B展示出圖7A的哪些欄位組成完整的運算碼欄位774及基本操作欄位742。圖7C例示圖7A的哪些欄位組成暫存器索引欄位744。
VEX前綴(位元組0-2)702係按三位元組形式予以編碼。第一位元組係格式欄位740(VEX位元組0,位元[7:0]),其包含顯式C4位元組值(用於辨別C4指令格式的 獨特值)。第二至第三位元組(VEX位元組1-2)包括提供特定能力的許多位元欄位。具體而言,REX欄位705(VEX位元組1,位元[7-5])由VEX.R位元欄位(VEX位元組1,位元[7]-R)、VEX.X位元欄位(VEX位元組1,位元[6]-X)及VEX.B位元欄位(VEX位元組1,位元[5]-B)組成。指令之其他欄位如此項技術中已知的來編碼暫存器索引之下三個位元(rrr、xxx及bbb),因此藉由增添VEX.R、VEX.X及VEX.B而形成Rrrr、Xxxx及Bbbb。運算碼對映欄位715(VEX位元組1,位元[4:0]-mmmmm)包括用來編碼隱式引導運算碼位元組的內容。W欄位764(VEX位元組2,位元[7]-W)由符號VEX.W來表示,且取決於指令而提供不同功能。VEX.vvvv 720(VEX位元組2,位元[6:3]-vvvv)之作用可包括以下各者:1)VEX.vvvv編碼以反轉(1的補數)形式指定的第一來源暫存器運算元,且針對具有兩個或兩個以上來源運算元的指令有效;2)VEX.vvvv編碼針對某些向量移位以1的補數形式指定的目的地暫存器運算元;或3)VEX.vvvv不編碼任何運算元,該欄位得以保留且應包含1111b。若VEX.L 768大小欄位(VEX位元組2,位元[2]-L)=0,則其指示128位元的向量;若VEX.L=1,則其指示256位元的向量。前綴編碼欄位725(VEX位元組2,位元[1:0]-pp)為基本操作欄位提供額外位元。
實際運算碼欄位730(位元組3)亦稱為運算碼位元組。在此欄位中指定運算碼之部分。
MOD R/M欄位740(位元組4)包括MOD欄位 742(位元[7-6])、Reg欄位744(位元[5-3])及R/M欄位746(位元[2-0])。Reg欄位744之作用包括以下各者:編碼目的地暫存器運算元或來源暫存器運算元(rrr或Rrrr),或者被視為運算碼擴展且不用來編碼任何指令運算元。R/M欄位746的作用包括以下各者:編碼參考記憶體位址之指令運算元,或者編碼目的地暫存器運算元或來源暫存器運算元。
比例、索引、基址(SIB)-比例欄位750之內容(位元組5)包括用於記憶體位址產生的SS752(位元[7-6])。SIB.xxx 754之內容(位元[5-3])及SIB.bbb 756之內容(位元[2-0])已在先前關於暫存器索引Xxxx及Bbbb提到。
位移欄位762及立即欄位(IMM8)772含有位址資料。
一般向量友善指令格式
向量友善指令格式係適合於向量指令的指令格式(例如,存在特定針對向量運算的某些欄位)。雖然描述了經由向量友善指令格式支援向量運算及純量運算兩者的實施例,但替代性實施例僅使用向量運算向量友善指令格式。
圖8A至圖8B係例示出根據本發明之實施例之一般向量友善指令格式及其指令模板的方塊圖。圖8A係例示出根據本發明之實施例之一般向量友善指令格式及其類別A指令模板的方塊圖;而圖8B係例示出根據本發明之實施例之一般向量友善指令格式及其類別B指令模板的方塊圖。具體而言,一般向量友善指令格式800,針對其定義了類別A及類別B指令模板,兩個指令模板皆包括非記憶 體存取805指令模板及記憶體存取820指令模板。在向量友善指令格式的情況下,術語一般代表不與任何特定指令集相關的指令格式。
雖然將描述的本發明之實施例中,向量友善指令格式支援以下各者:64個位元組的向量運算元長度(或大小)與32個位元(4個位元組)或64個位元(8個位元組)的資料元件寬度(或大小)(且因此,64個位元組的向量由16個雙字大小的元件或者8個四字大小的元件組成);64個位元組的向量運算元長度(或大小)與16個位元(2個位元組)或8個位元(1個位元組)的資料元件寬度(或大小);32個位元組的向量運算元長度(或大小)與32個位元(4個位元組)、64個位元(8個位元組)、16個位元(2個位元組)或8個位元(1個位元組)的資料元件寬度(或大小);以及16個位元組的向量運算元長度(或大小)與32個位元(4個位元組)、64個位元(8個位元組)、16個位元(2個位元組)或8個位元(1個位元組)的資料元件寬度(或大小);但替代性實施例可支援更大、更小及/或不同的向量運算元大小(例如,256個位元組的向量運算元)與更大、更小及/或不同的資料元件寬度(例如,128個位元(16個位元組)的資料元件寬度)。
圖8A中的類別A指令模板包括:1)在非記憶體存取805指令模板內,展示出非記憶體存取、完全捨位(full round)控制型操作810指令模板及非記憶體存取、資料變換型操作815指令模板;以及2)在記憶體存取820指令模板內,展示出記憶體存取、暫時825指令模板及記憶體存取、 非暫時830指令模板。圖8B中的類別B指令模板包括:1)在非記憶體存取805指令模板內,展示出非記憶體存取、寫入遮罩控制、部分捨位控制型操作812指令模板及非記憶體存取、寫入遮罩控制、vsize型操作817指令模板;以及2)在記憶體存取820指令模板內,展示出記憶體存取、寫入遮罩控制827指令模板。
一般向量友善指令格式800包括以下欄位,下文按圖8A至圖8B中例示之次序列出該等欄位。
格式欄位840-在此欄位中的特定值(指令格式識別符值)獨特地識別向量友善指令格式,且因此識別呈向量友善指令格式的指令在指令串流中的出現。因而,此欄位在以下意義上來說係選擇性的:僅具有一般向量友善指令格式之指令集並不需要此欄位。
基本操作欄位842-其內容辨別不同的基本操作。
暫存器索引欄位844-其內容(直接或經由位址產生)指定來源及目的地運算元之位置,在暫存器或記憶體中。此等包括充足數目個位元,以自PxQ(例如,32x512、16x128、32x1024、64x1024)暫存器檔案選擇N個暫存器。雖然在一實施例中,N可至多為三個來源及一個目的地暫存器,但替代性實施例可支援更多或更少的來源及目的地暫存器(例如,可支援至多兩個來源,其中此等來源中之一者亦可充當目的地,可支援至多三個來源,其中此等來源中之一者亦可充當目的地,可支援至多兩個來源及一個目的地)。
修飾符欄位846-其內容區分呈一般向量友善指令格式的指定記憶體存取之指令的出現與不指定記憶體存取之指令的出現;即,區分非記憶體存取805指令模板與記憶體存取820指令模板。記憶體存取操作讀取及/或寫入至記憶體階層(在一些情況下,使用暫存器中的值來指定來源及/或目的地位址),而非記憶體存取操作不讀取及/或寫入至記憶體階層。雖然在一實施例中此欄位亦在執行記憶體位址計算的三種不同方式之間進行選擇,但替代性實施例可支援執行記憶體位址計算的更多、更少或不同的方式。
擴增操作欄位850-其內容辨別除基本操作外還將執行多種不同操作中之哪一者。此欄位係內容脈絡特定的。在本發明之一實施例中,此欄位分成類別欄位868、α(alpha)欄位852及β(beta)欄位854。擴增操作欄位850允許在單個指令而不是2個、3個或4個指令中執行各組常見操作。
比例欄位860-其內容允許針按比例縮放索引欄位之內容以用於記憶體位址產生(例如,針對使用2比例*索引+基址之位址產生)。
位移欄位862A-其內容被用作記憶體位址產生之部分(例如針對使用2比例*索引+基址+位移之位址產生)。
位移因數欄位862B(請注意,位移欄位862A緊靠在位移因數欄位862B上方的並列定位指示使用一個欄位或另一個欄位)-其內容被用作記憶體位址產生之部分;其指定位移因數,將按記憶體位址之大小(N)按比例縮放該位 移因,其中N係記憶體存取中之位元組之數目(例如,針對使用2比例*索引+基址+按比例縮放後的位移的位址產生)。忽略冗餘的低位位元,且因此,將位移因數欄位之內容乘以記憶體運算元總大小(N)以便產生將用於計算有效位址的最終位移。N的值由處理器硬體在執行時間基於完整的運算碼欄位874(本文中稍後描述)及資料調處欄位854C予以判定。位移欄位862A及位移因數欄位862B在以下意義上來說係選擇性的:該等欄位不用於非記憶體存取805指令模板,及/或不同實施例可僅實施該兩個欄位中之一者或不實施該兩個欄位。
資料元件寬度欄位864-其內容辨別將使用許多資料元件寬度中之哪一者(在一些實施例中,針對所有指令;在其他實施例中,僅針對該等指令中之一些)。此欄位在以下意義上來說係選擇性的:若使用運算碼之某一態樣支援僅一個資料元件寬度及/或支援多個資料元件寬度,則不需要此欄位。
寫入遮罩欄位870-其內容以每資料元件位置為基礎控制目的地向量運算元中之該資料元件位置是否反映基本操作及擴增操作的結果。類別A指令模板支援合併-寫入遮蔽,而類別B指令模板支援合併-寫入遮蔽及歸零-寫入遮蔽兩者。在合併時,向量遮罩允許保護目的地中之任何元件集合,以免在任何操作(由基本操作及擴增操作指定)執行期間更新;在另一實施例中,在對應的遮罩位元為0時,保持目的地之每一元件的舊值。相反地,當歸零時, 向量遮罩允許目的地中之任何元件集合在任何操作(由基本操作及擴增操作指定)執行期間被歸零;在一實施例中,在對應的遮罩位元為0值時,將目的地之一元件設定為0。此功能性之一子集係控制被執行之操作的向量長度(即,被修改之元件(自第一個至最後一個)之跨度)之能力;然而,被修改之元件不一定連續。因此,寫入遮罩欄位870允許部分向量運算,其中包括載入、儲存、算術、邏輯等。雖然所描述的本發明之實施例中,寫入遮罩欄位870的內容選擇許多寫入遮罩暫存器中之一者,其含有將使用之寫入遮罩(且因此,寫入遮罩欄位870的內容間接識別將執行之遮蔽),但替代性實施例改為或另外允許寫入遮罩欄位870的內容直接指定將執行之遮蔽。
立即欄位872-其內容允許指定立即。此欄位在以下意義上係選擇性的:在不支援立即的一般向量友善格式之實行方案中不存在此欄位,且在不使用立即的指令中不存在此欄位。
類別欄位868-其內容區分不同類別的指令。參看圖8A至圖8B,此欄位之內容在類別A指令與類別B指令之間進行選擇。在圖8A至圖8B中,使用圓角正方形來指示欄位中存在特定值(例如,在圖8A至圖8B中針對類別欄位868分別為類別A 868A及類別B 868B)。
類別A指令模板
在類別A非記憶體存取805指令模板的情況下,α欄位852被解譯為RS欄位852A,其內容辨別將執 行不同擴增操作類型中之哪一者(例如,針對非記憶體存取、捨位型操作810指令模板及非記憶體存取、資料變換型操作815指令模板,分別指定捨位852A.1及資料變換852A.2),而β欄位854辨別將執行指定類型之操作中之哪一者。在非記憶體存取805指令模板的情況下,比例欄位860、位移欄位862A及位移比例欄位862B不存在。
非記憶體存取指令模板-完全捨位控制型操作
在非記憶體存取完全捨位控制型操作810指令模板中,β欄位854被解譯為捨位控制欄位854A,其內容提供靜態捨位。雖然在本發明之所描述實施例中,捨位控制欄位854A包括抑制所有浮點異常(SAE)欄位856及捨位操作控制欄位858,但替代性實施例可支援可將兩個此等概念編碼至同一欄位中或者僅具有此等概念/欄位中之一者或另一者(例如,可僅具有捨位操作控制欄位858)。
SAE欄位856-其內容辨別是否要停用異常事件報告;當SAE欄位856的內容指示啟用了抑制時,特定指令不報告任何種類之浮點異常旗標且不提出任何浮點異常處置程式。
捨位操作控制欄位858-其內容辨別要執行一組捨位操作中之哪一者(例如,捨進(Round-up)、捨去(Round-down)、向零捨位(Round-towards-zero)及捨位至最近數值(Round-to-nearest))。因此,捨位操作控制欄位858允許以每指令為基礎改變捨位模式。在本發明之一實施例中,其中處理器包括用於指定捨位模式之控制暫存器,捨 位操作控制欄位850的內容置換(override)該暫存器值。
非記憶體存取指令模板-資料變換型操作
在非記憶體存取資料變換型操作815指令模板中,β欄位854被解譯為資料變換欄位854B,其內容辨別將執行許多資料變換中之哪一者(例如,非資料變換、拌和、廣播)。
在類別A記憶體存取820指令模板的情況下,α欄位852被解譯為收回提示(eviction hint)欄位852B,其內容辨別將使用收回提示中之哪一者(在圖8A中,針對記憶體存取、暫時825指令模板及記憶體存取、非暫時830指令模板,分別指定暫時852B.1及非暫時852B.2),而β欄位854被解譯為資料調處欄位854C,其內容辨別將執行許多資料調處操作(亦稱為原指令(primitive))中之哪一者(例如,非調處;廣播;來源的上轉換;及目的地的下轉換)。記憶體存取820指令模板包括比例欄位860,且選擇性地包括位移欄位862A或位移比例欄位862B。
向量記憶體指令在有轉換支援的情況下執行自記憶體的向量載入及至記憶體的向量儲存。如同常規向量指令一樣,向量記憶體指令以逐個資料元件的方式自記憶體傳遞資料/傳遞資料至記憶體,其中實際被傳遞之元件係由被選為寫入遮罩之向量遮罩的內容指定。
記憶體存取指令模板-暫時
暫時資料係可能很快被再使用以便足以受益於快取的資料。然而,此係提示,且不同處理器可以不同方 式實施提示,其中包括完全忽略該提示。
記憶體存取指令模板-非暫時
非暫時資料係不可能很快被再使用以便足以受益於第一階快取記憶體中之快取的資料,且應被賦予優先權來收回。然而,此係提示,且不同處理器可以不同方式實施提示,其中包括完全忽略該提示。
類別B指令模板
在類別B指令模板的情況下,α欄位852被解譯為寫入遮罩控制(Z)欄位852C,其內容辨別由寫入遮罩欄位870控制之寫入遮蔽應為合併還是歸零。
在類別B非記憶體存取805指令模板的情況下,β欄位854之部分被解譯為RL欄位857A,其內容辨別將執行不同擴增操作類型中之哪一者(例如,針對非記憶體存取、寫入遮罩控制、部分捨位控制型操作812指令模板及非記憶體存取、寫入遮罩控制、VSIZE型操作817指令模板,分別指定捨位857A.1及向量長度(VSIZE)857A.2),而β欄位854之剩餘部分辨別將執行指定類型之操作中之哪一者。在非記憶體存取805指令模板的情況下,比例欄位860、位移欄位862A及位移比例欄位862B不存在。
在非記憶體存取、寫入遮罩控制、部分捨位控制型操作810指令模板中,β欄位854之剩餘部分被解譯為捨位操作欄位859A,且異常事件報告被停用(特定指令不報告任何種類之浮點異常旗標且不提出任何浮點異常處置程 式)。
捨位操作欄位859A-就像捨位操作欄位858一樣,其內容辨別要執行一組捨位操作中之哪一者(例如,捨進、捨去、向零捨位及捨位至最近數值)。因此,捨位操作控制欄位859A允許以每指令為基礎改變捨位模式。在本發明之一實施例中,其中處理器包括用於指定捨位模式之控制暫存器,捨位操作控制欄位850的內容置換該暫存器值。
在非記憶體存取、寫入遮罩控制、VSIZE型操作817指令模板中,β欄位854之剩餘部分被解譯為向量長度欄位859B,其內容辨別將對許多資料向量長度中之哪一者執行(例如,128、256或512個位元組)。
在類別B記憶體存取820指令模板的情況下,β欄位854之部分被解譯為廣播欄位857B,其內容辨別是否將執行廣播型資料調處操作,而β欄位854之剩餘部分被解譯為向量長度欄位859B。記憶體存取820指令模板包括比例欄位860,且選擇性地包括位移欄位862A或位移比例欄位862B。
關於一般向量友善指令格式800,完整的運算碼欄位874被展示出為包括格式欄位840、基本操作欄位842及資料元件寬度欄位864。雖然展示出的一實施例中,完整的運算碼欄位874包括所有此等欄位,但在不支援所有此等欄位的實施例中,完整的運算碼欄位874不包括所有此等欄位。完整的運算碼欄位874提供運算碼(opcode)。
擴增操作欄位850、資料元件寬度欄位864及寫 入遮罩欄位870允許以一般向量友善指令格式以每指令為基礎來指定此等特徵。
寫入遮罩欄位與資料元件寬度欄位的組合產生具型式之指令,因為該等指令允許基於不同資料元件寬度來應用遮罩。
在類別A及類別B中所建立的各種指令模板在不同情形中有益。在本發明之一些實施例中,不同處理器或處理器內的不同核心可僅支援類別A,僅支援類別B,或支援上述兩種類別。舉例而言,意欲用於通用計算的高效能通用亂序核心可僅支援類別B,主要意欲用於圖形及/或科學(通量)計算之核心可僅支援類別A,且意欲用於上述兩種計算的核心可支援上述兩種類別(當然,具有來自兩種類別之模板及指令的某種混合但不具有來自兩種類別之所有模板及指令的核心在本發明之範圍內)。單個處理器亦可包括多個核心,所有該等核心支援相同類別,或其中不同核心支援不同類別。舉例而言,在具有分開的圖形及通用核心之處理器中,主要意欲用於圖形及/或科學計算之圖形核心中之一者可僅支援類別A,而通用核心中之一或多者可為僅支援類別B的高效能通用核心,其具有亂序執行及暫存器重新命名,意欲用於通用計算。不具有分開的圖形核心之另一處理器可包括支援類別A及類別B兩者的一或多個通用循序或亂序核心。當然,在本發明之不同實施例中,來自一個類別的特徵亦可實施於另一類別中。用高階語言撰寫之程式將被翻譯(例如,即時編譯或靜態編譯)成各 種不同可執行形式,其中包括:1)僅具有目標處理器所支援執行之類別的指令之形式;或2)具有替代性常式且具有控制流碼之形式,其中該等常式係使用所有類別的指令之不同組合來撰寫的,該控制流碼基於當前正在執行該碼的處理器所支援之指令來選擇要執行的常式。
示範性特定向量友善指令格式
圖9A係例示出根據本發明之實施例之示範性特定向量友善指令格式的方塊圖。圖9A展示出特定向量友善指令格式900,該格式在以下意義上係特定的:其指定欄位之位置、大小、解譯及次序以及彼等欄位中之一些的值。特定向量友善指令格式900可用來擴展x86指令集,且因此,該等欄位中之一些與現有x86指令集及其擴展(例如AVX)中所使用的欄位類似或相同。此格式保持與現有x86指令集以及擴展的前綴編碼欄位、實際運算碼位元組欄位、MOD R/M欄位、SIB欄位、位移欄位及立即欄位一致。從圖8之欄位例示圖9之欄位對映至該等欄位中。
應理解,雖然出於說明目的在一般向量友善指令格式800的情況下參考特定向量友善指令格式900來描述本發明之實施例,但除非主張,否則本發明不限於特定向量友善指令格式900。例如,一般向量友善指令格式800考量了各種欄位之各種可能大小,而特定向量友善指令格式900被示出為具有特定大小的欄位。藉由特定實例,雖然在特定向量友善指令格式900中將資料元件寬度欄位864說明為一個位元的欄位,但本發明不限於此(亦即,一 般向量友善指令格式800考量了資料元件寬度欄位864之其他大小)。
一般向量友善指令格式800包括以下欄位,下文按圖9A中例示之次序列出該等欄位。
EVEX前綴(位元組0-3)902-以四位元組形式予以編碼。
格式欄位840(EVEX位元組0,位元[7:0])-第一位元組(EVEX位元組0)係格式欄位840,且其含有0x62(在本發明之一實施例中,用來辨別向量友善指令格式的獨特值)。
第二至第四位元組(EVEX位元組1-3)包括提供特定能力之許多位元欄位。
REX欄位905(VEX位元組1,位元[7-5])由EVEX.R位元欄位(EVEX位元組1,位元-R)、EVEX.X位元欄位(EVEX位元組1,位元[6]-X)及857BEX位元組1,位元[5]-B)組成。EVEX.R、EVEX.X及EVEX.B位元欄位提供的功能性與對應的VEX位元欄位相同,且係使用1的補數形式予以編碼,亦即,ZMM0係編碼為1111B,ZMM15係編碼為0000B。指令之其他欄位如此項技術中已知的來編碼暫存器索引之下三個位元(rrr、xxx及bbb),因此藉由增添EVEX.R、EVEX.X及EVEX.B而形成Rrrr、Xxxx及Bbbb。
REX’欄位810-此係REX’欄位810之第一部分,且係用來編碼擴展式32暫存器組的上16或下16個暫存器 之EVEX.R’位元欄位(EVEX位元組1,位元[4]-R’)。在本發明之一實施例中,以位元反轉格式儲存此位元與如下文所指示之其他位元,以區別於(以熟知的x86 32位元模式)BOUND指令,其實際運算碼位元組為62,但在MOD R/M欄位(下文描述)中不接受MOD欄位中的值11;本發明之替代性實施例不以反轉格式儲存此位元與下文所指示之其他位元。使用值1來編碼下16個暫存器。換言之,藉由組合EVEX.R’、EVEX.R及來自其他欄位的其他RRR,形成R’Rrrr。
運算碼對映欄位915(EVEX位元組1,位元[3:0]-mmmm)-其內容編碼隱式引導運算碼位元組(0F、0F 38或0F 3)。
資料元件寬度欄位864(EVEX位元組2,位元[7]-W)-係由符號EVEX.W表示。EVEX.W用來定義資料類型之細微度(大小)(32位元的資料元件或64位元的資料元件)。
EVEX.vvvv 920(EVEX位元組2,位元[6:3]-vvvv)-EVEX.vvvv的作用可包括以下各者:1)EVEX.vvvv編碼以反轉(1的補數)形式指定的第一來源暫存器運算元,且針對具有兩個或兩個以上來源運算元的指令有效;2)EVEX.vvvv編碼針對某些向量移位以1的補數形式指定的目的地暫存器運算元;或3)EVEX.vvvv不編碼任何運算元,該欄位得以保留且應包含1111b。因此,EVEX.vvvv欄位920編碼以反轉(1的補數)形式儲存的第一來源暫存器指定符之4個 低位位元。取決於指令,使用額外的不同EVEX位元欄位將指定符大小擴展成32個暫存器。
EVEX.U 868類別欄位(EVEX位元組2,位元[2]-U)-若EVEX.U=0,則其指示類別A或EVEX.U0;若EVEX.U=1,則其指示類別B或EVEX.U1。
前綴編碼欄位925(EVEX位元組2,位元[1:0]-pp)-提供基本操作欄位之額外位元。除了以EVEX前綴格式提供對舊式SSE指令的支援,此亦具有緊縮SIMD前綴的益處(不需要一個位元組來表達SIMD前綴,EVEX前綴僅需要2個位元)。在一實施例中,為了以舊式格式及EVEX前綴格式支援使用SIMD前綴(66H、F2H、F3H)之舊式SSE指令,將此等舊式SIMD前綴編碼至SIMD前綴編碼欄位中;且在執行時間將其展開成舊式SIMD前綴,然後提供至解碼器之PLA(因此PLA可執行此等舊式指令的舊式格式及EVEX格式兩者,而無需修改)。雖然較新的指令可直接使用EVEX前綴編碼欄位之內容作為運算碼擴展,但某些實施例以類似方式展開以獲得一致性,但允許此等舊式SIMD前綴指定不同含義。替代性實施例可重新設計PLA來支援2位元的SIMD前綴編碼,且因此不需要該展開。
α欄位852(EVEX位元組3,位元[7]-EH;亦稱為EVEX.EH、EVEX.rs、EVEX.RL、EVEX.寫入遮罩控制及EVEX.N;亦由α說明)-如先前所描述,此欄位係內容脈絡特定的。
β欄位854(EVEX位元組3,位元[6:4]-SSS,亦稱為EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB;亦由βββ說明)-如先前所描述,此欄位係內容脈絡特定的。
REX’欄位810-此係REX’欄位之剩餘部分,且係可用來編碼擴展式32暫存器組的上16或下16個暫存器之EVEX.V’位元欄位(EVEX位元組3,位元[3]-V’)。以位元反轉格式儲存此位元。使用值1來編碼下16個暫存器。換言之,藉由組合EVEX.V’、EVEX.vvvv,形成V’VVVV。
寫入遮罩欄位870(EVEX位元組3,位元[2:0]-kkk)-其內容如先前所描述指定寫入遮罩暫存器中之暫存器的索引。在本發明之一實施例中,特定值EVEX.kkk=000之特殊作用係暗示不對特定指令使用寫入遮罩(此可以各種方式來實施,其中包括使用硬連線(hardwired)至所有硬體的寫入遮罩或繞過(bypass)遮蔽硬體之硬體)。
實際運算碼欄位930(位元組4)亦稱為運算碼位元組。在此欄位中指定運算碼之部分。
MOD R/M欄位940(位元組5)包括MOD欄位942、Reg欄位944及R/M欄位946。如先前所描述,MOD欄位942的內容區分記憶體存取操作與非記憶體存取操作。Reg欄位944之作用可概述為兩種情形:編碼目的地暫存器運算元或來源暫存器運算元,或者被視為運算碼擴展且不用來編碼任何指令運算元。R/M欄位946之作用可 包括以下各者:編碼參考記憶體位址之指令運算元,或者編碼目的地暫存器運算元或來源暫存器運算元。
比例、索引、基址(SIB)位元組(位元組6)-如先前所描述,比例欄位850的內容係用於記憶體位址產生。SIB.xxx 954及SIB.bbb 956-此等欄位之內容已在先前關於暫存器索引Xxxx及Bbbb提到。
移位欄位862A(位元組7-10)-當MOD欄位942含有10時,位元組7-10係移位欄位862A,且其與舊式32位元的位移(disp32)相同地起作用,且在位元組細微度上起作用。
位移因數欄位862B(位元組7)-當MOD欄位942含有01時,位元組7係位移因數欄位862B。此欄位之位置與舊式x86指令集8位元的位移(disp8)相同,其在位元組細微度上起作用。因為disp8經正負號擴展,所以disp8僅可解決在-128與127位元組之間的位移;就64個位元組的快取列(cache line)而言,disp8使用8個位元,該等位元可被設定為僅四個實際有用的值-128、-64、0及64;因為常常需要更大範圍,所以使用disp32;然而,disp32需要4個位元組。與disp8及disp32相比,位移因數欄位862B係disp8之重新解譯;當使用位移因數欄位862B時,實際位移係由位移因數欄位的內容乘以記憶體運算元存取之大小(N)判定。此類型之位移被稱為disp8*N。此減少了平均指令長度(單個位元組用於位移,但具有大得多的範圍)。此壓縮位移係基於如下假設:有效位移係記憶體存取之細微度 的倍數,且因此,不需要編碼位址位移之冗餘低位位元。換言之,位移因數欄位862B替代了舊式x86指令集8位元的位移。因此,位移因數欄位862B的編碼方式與x86指令集8位元的位移相同(因此ModRM/SIB編碼規則無變化),其中唯一例外為,disp8超載(overload)至disp8*N。換言之,編碼規則或編碼長度無變化,而僅僅係硬體對位移值的解譯有變化(硬體需要按記憶體運算元之大小來按比例縮放該位移以獲得逐個位元組的位址位移)。
立即欄位872如先前所描述而操作。
完整的運算碼欄位
圖9B係例示出特定向量友善指令格式900的欄位之方塊圖,該等欄位組成根據本發明之一實施例之完整的運算碼欄位874。具體而言,完整的運算碼欄位874包括格式欄位840、基本操作欄位842及資料元件寬度(W)欄位864。基本操作欄位842包括前綴編碼欄位925、運算碼對映欄位915及實際運算碼欄位930。
暫存器索引欄位
圖9C係例示出特定向量友善指令格式900的欄位之方塊圖,該等欄位組成根據本發明之一實施例之暫存器索引欄位844。具體而言,暫存器索引欄位844包括REX欄位905、REX’欄位910、MODR/M.reg欄位944、MODR/M.r/m欄位946、VVVV欄位920、xxx欄位954及bbb欄位956。
擴增操作欄位
圖9D係例示出特定向量友善指令格式900的欄位之方塊圖,該等欄位組成根據本發明之一實施例之擴增操作欄位850。當類別(U)欄位868含有0時,其表示EVEX.U0(類別A 868A);當其含有1時,其表示EVEX.U1(類別B 868B)。當U=0且MOD欄位942含有11(表示非記憶體存取操作)時,α欄位852(EVEX位元組3,位元[7]-EH)被解譯為rs欄位852A。當rs欄位852A含有1(捨位852A.1)時,β欄位854(EVEX位元組3,位元[6:4]-SSS)被解譯為捨位控制欄位854A。捨位控制欄位854A包括一個位元的SAE欄位856及兩個位元的捨位操作欄位858。當rs欄位852A含有0(資料變換852A.2)時,β欄位854(EVEX位元組3,位元[6:4]-SSS)被解譯為三個位元的資料變換欄位854B。當U=0且MOD欄位942含有00、01或10(表示記憶體存取操作)時,α欄位852(EVEX位元組3,位元[7]-EH)被解譯為收回提示(EH)欄位852B且β欄位854(EVEX位元組3,位元[6:4]-SSS)被解譯為三個位元的資料調處欄位854C。
當U=1時,α欄位852(EVEX位元組3,位元[7]-EH)被解譯為寫入遮罩控制(Z)欄位852C。當U=1且MOD欄位942含有11(表示非記憶體存取操作)時,β欄位854之部分(EVEX位元組3,位元[4]-S0)被解譯為RL欄位857A;當RL欄位857A含有1(捨位857A.1)時,β欄位854之剩餘部分(EVEX位元組3,位元[6-5]-S2-i)被解譯為捨位操作欄位859A,而RL欄位857A含有0(VSIZE 857.A2)時, β欄位854之剩餘部分(EVEX位元組3,位元[6-5]-S2-1)被解譯為向量長度欄位859B(EVEX位元組3,位元[6-5]-L1-0)。當U=1且MOD欄位942含有00、01或10(表示記憶體存取操作)時,β欄位854(EVEX位元組3,位元[6:4]-SSS)被解譯為向量長度欄位859B(EVEX位元組3,位元[6-5]-L1-0)及廣播欄位857B(EVEX位元組3,位元[4]-B)。
形成特定向量友善指令格式之示範性編碼
示範性暫存器架構
圖10係根據本發明之一實施例之暫存器架構1000的方塊圖。在所說明之實施例中,有32個向量暫存器1010,其寬度為512個位元;此等暫存器被稱為zmm0至zmm31。下16個zmm暫存器的低位256個位元覆疊在暫存器ymm0-16上。下16個zmm暫存器的低位128個位元(ymm暫存器的低位128個位元)覆疊在暫存器xmm0-15上。特定向量友善指令格式900如下表中所說明對此等覆疊暫存器檔案進行操作。
換言之,向量長度欄位859B在最大長度與一或多個其他較短長度之間進行選擇,其中每一此種較短長度係前一長度的一半長度;且不具有向量長度欄位859B的指令模板對最大向量長度進行操作。另外,在一實施例中,特定向量友善指令格式900之類別B指令模板對緊縮或純量單精度/雙精度浮點資料及緊縮或純量整數資料進行操作。純量操作係對zmm/ymm/xmm暫存器中之最低位資料元件位置執行的操作;較高位資料元件位置保持與其在指令之前相同或歸零,此取決於實施例。
寫入遮罩暫存器1015-在所說明之實施例中,有8個寫入遮罩暫存器(k0至k7),每一寫入遮罩暫存器的大小為64個位元。在替代實施例中,寫入遮罩暫存器1015的大小為16個位元。如先前所描述,在本發明之一實施例中,向量遮罩暫存器k0無法用作寫入遮罩;當通常將指示k0之編碼被用於寫入遮罩時,其選擇固線式寫入遮罩0xFFFF,從而有效停用對該指令之寫入遮蔽。
通用暫存器1025-在所說明之實施例中,有十六個64位元的通用暫存器,該等暫存器與現有的x86定址模式一起用來定址記憶體運算元。藉由名稱RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8至R15來參 考此等暫存器。
純量浮點堆疊暫存器檔案(x87堆疊)1045,上面混疊有MMX緊縮整數平板暫存器檔案1050-在所說明之實施例中,x87堆疊係八個元件的堆疊,用來使用x87指令集擴展對32/64/80個位元的浮點資料執行純量浮點運算;而MMX暫存器用來對64個位元的緊縮整數資料執行運算以及保存運算元,該等運算元係用於在MMX暫存器與XMM暫存器之間執行的一些運算。
本發明之替代性實施例可使用更寬或更窄的暫存器。另外,本發明之替代性實施例可使用更多、更少或不同的暫存器檔案或暫存器。
示範性核心架構、處理器及電腦架構
可出於不同目的以不同方式且在不同處理器中實施處理器核心。舉例而言,此類核心的實行方案可包括:1)意欲用於通用計算的通用循序核心;2)意欲用於通用計算的高效能通用亂序核心;3)主要意欲用於圖形及/或科學(通量)計算的專用核心。不同處理器之實行方案可包括:1)CPU,其包括意欲用於通用計算的一或多個通用循序核心及/或意欲用於通用計算的一或多個通用亂序核心;以及2)共處理器,其包括主要意欲用於圖形及/或科學(通量)的一或多個專用核心。此等不同處理器導致不同電腦系統架構,該等架構可包括:1)共處理器在與CPU分離之晶片上;2)共處理器與CPU在同一封裝中,但在單獨的晶粒上;3)共處理器與CPU在同一晶粒上(在此情況下,此共處理器有 時被稱為專用邏輯,諸如整合型圖形及/或科學(通量)邏輯,或被稱為專用核心);以及4)系統單晶片(system on a chip),其在與所描述CPU(有時被稱為應用核心或應用處理器)相同的晶粒上包括上述共處理器及額外功能性。接下來描述示範性核心架構,後續接著對示範性處理器及電腦架構的描述。
示範性核心架構
循序及亂序核心方塊圖
圖11A係例示出根據本發明之實施例之如下兩者的方塊圖:示範性循序管線,以及示範性暫存器重新命名亂序發佈/執行管線。圖11B係例示出如下兩者之方塊圖:循序架構核心的示範性實施例,以及示範性暫存器重新命名亂序發佈/執行架構核心,上述兩者將包括於根據本發明之實施例的處理器中。圖11A至圖11B之實線方框例示循序管線及循序核心,虛線方框之選擇性增添說明暫存器重新命名亂序發佈/執行管線及核心。考慮到循序態樣係亂序態樣之子集,將描述亂序態樣。
在圖11A中,處理管線1100包括擷取級段1102、長度解碼級段1104、解碼級段1106、分配級段1108、重新命名級段1110、排程(亦稱為分派或發佈)級段1112、暫存器讀取/記憶體讀取級段1114、執行級段1116、回寫/記憶體寫入級段1118、異常處置級段1122及確認級段1124。
圖11B示出處理器核心1190,其包括耦接至執 行引擎單元1150之前端單元1130,且執行引擎單元1150及前端單元1130兩者皆耦接至記憶體單元1170。處理器核心1190可為精簡指令集計算(RISC)核心、複雜指令集計算(CISC)核心、極長指令字(VLIW)核心,或者混合式或替代性核心類型。作為另一選擇,核心1190可為專用核心,諸如網路或通訊核心、壓縮引擎、共處理器核心、通用計算圖形處理單元(GPGPU)核心、圖形核心或類似者。
前端單元1130包括耦接至指令快取記憶體單元1134之分支預測單元1132,指令快取記憶體單元1134耦接至指令轉譯後備緩衝器(TLB)1136,指令TLB 1136耦接至指令擷取單元1138,指令擷取單元1138耦接至解碼單元1140。解碼單元1140(或解碼器)可解碼指令,且產生一或多個微操作、微碼進入點、微指令、其他指令或其他控制信號作為輸出,上述各者係自原始指令解碼所得,或以其他方式反映原始指令,或係由原始指令導出。可使用各種不同機構來實施解碼單元1140。合適的機構之實例包括(但不限於)查找表、硬體實行方案、可規劃邏輯陣列(PLA)、微碼唯讀記憶體(ROM)等。在一實施例中,核心1190包括儲存用於某些巨集指令之微碼的微碼ROM或其他媒體(例如在解碼單元1140中,或者在前端單元1130內)。解碼單元1140耦接至執行引擎單元1150中的重新命名/分配器單元1152。
執行引擎單元1150包括重新命名/分配器單元1152,其耦接至引退(retirement)單元1154及一或多個排程 器單元1156之集合。排程器單元1156表示任何數目個不同排程器,其中包括保留站、中央指令視窗等。排程器單元1156耦接至實體暫存器檔案單元1158。實體暫存器檔案單元1158中之每一者表示一或多個實體暫存器檔案,其中不同的實體暫存器檔案單元儲存一或多個不同的資料類型,諸如純量整數、純量浮點、緊縮整數、緊縮浮點、向量整數、向量浮點、狀態(例如,指令指標器,即下一個待執行指令的位址)等。在一實施例中,實體暫存器檔案單元1158包含向量暫存器單元、寫入遮罩暫存器單元及純量暫存器單元。此等暫存器單元可提供架構性向量暫存器、向量遮罩暫存器及通用暫存器。引退單元1154與實體暫存器檔案單元1158重疊,以說明可實施暫存器重新命名及亂序執行的各種方式(例如,使用重新排序緩衝器及引退暫存器檔案;使用未來檔案、歷史緩衝器及引退暫存器檔案;使用暫存器對映表及暫存器集區)。引退單元1154及實體暫存器檔案單元1158耦接至執行叢集1160。執行叢集1160包括一或多個執行單元1162之集合及一或多個記憶體存取單元1164之集合。執行單元1162可執行各種運算(例如,移位、加法、減法、乘法)且對各種類型之資料(例如,純量浮點、緊縮整數、緊縮浮點、向量整數、向量浮點)進行執行。雖然一些實施例可包括專門針對特定功能或功能集合之許多執行單元,但其他實施例可包括僅一個執行單元或多個執行單元,該等執行單元均執行所有功能。排程器單元1156、實體暫存器檔案單元1158及執行叢集1160被示 出為可能係多個,因為某些實施例針對某些類型之資料/運算產生單獨的管線(例如,純量整數管線、純量浮點/緊縮整數/緊縮浮點/向量整數/向量浮點管線,及/或記憶體存取管線,其中每一管線具有其自有之排程器單元、實體暫存器檔案單元及/或執行叢集;且在單獨的記憶體存取管線的情況下,所實施的某些實施例中,唯有此管線之執行叢集具有記憶體存取單元1164)。亦應理解,在使用單獨的管線之情況下,此等管線中之一或多者可為亂序發佈/執行而其餘管線可為循序的。
記憶體存取單元1164之集合耦接至記憶體單元1170,記憶體單元1170包括耦接至資料快取記憶體單元1174的資料TLB單元1172,資料快取記憶體單元1174耦接至2階(L2)快取記憶體單元1176。在一示範性實施例中,記憶體存取單元1164可包括載入單元、儲存位址單元及儲存資料單元,其中每一者耦接至記憶體單元1170中的資料TLB單元1172。指令快取記憶體單元1134進一步耦接至記憶體單元1170中的2階(L2)快取記憶體單元1176。L2快取記憶體單元1176耦接至一或多個其他階快取記憶體且最終耦接至主記憶體。
藉由實例,示範性暫存器重新命名亂序發佈/執行核心架構可將管線1100實施如下:1)指令擷取1138執行擷取級段1102及長度解碼級段1104;2)解碼單元1140執行解碼級段1106;3)重新命名/分配單元1152執行分配級段1108及重新命名級段1110;4)排程器單元1156執行 排程級段1112;5)實體暫存器檔案單元1158及記憶體單元1170執行暫存器讀取/記憶體讀取級段1114;執行叢集1160執行執行級段1116;6)記憶體單元1170及實體暫存器檔案單元1158執行回寫/記憶體寫入級段1118;7)異常處置級段1122中可涉及各種單元;及8)引退單元1154及實體暫存器檔案單元1158執行確認級段1124。
核心1190可支援一或多個指令集(例如,x86指令集(以及一些擴展,較新版本已新增該等擴展);MIPS Technologie公司(Sunnyvale,CA)的MIPS指令集;ARM Holdings公司(Sunnyvale,CA)的ARM指令集(以及選擇性的額外擴展,諸如NEON)),其中包括本文中所描述之指令。在一實施例中,核心1190包括支援緊縮資料指令集擴展(例如,AVX1、AVX2及/或先前所描述之某種形式的一般向量友善指令格式(U=0及/或U=1))的邏輯,進而允許使用緊縮資料來執行許多多媒體應用所使用的操作。
應理解,該核心可支援多執行緒處理(multithreading)(執行操作或執行緒之兩個或兩個以上並行集合),且可以各種方式完成此支援,其中包括經時間切割之多執行緒處理、同時多執行緒處理(其中單個實體核心針對該實體核心同時在多執行緒處理的各執行緒中之每一者提供一邏輯核心)或上述各者之組合(例如,經時間切割之擷取及解碼以及隨後同時的多執行緒處理,諸如在Intel®超多執行緒處理(Hyperthreading)技術中)。
雖然在亂序執行的情況下描述暫存器重新命 名,但應理解,暫存器重新命名可用於循序架構中。雖然處理器之所說明實施例亦包括單獨的指令與資料快取記憶體單元1134/1174以及共享的L2快取記憶體單元1176,但替代性實施例可具有用於指令與資料兩者的單個內部快取記憶體,諸如1階(L1)內部快取記憶體或多階內部快取記憶體。在一些實施例中,系統可包括內部快取記憶體與外部快取記憶體之組合,外部快取記憶體在核心及/或處理器外部。或者,所有快取記憶體可在核心及/或處理器外部。
特定示範性循序核心架構
圖12A至圖12B例示更特定的示範性循序核心架構之方塊圖,該核心將係晶片中的若干邏輯區塊(包括相同類型及/或不同類型的其他核心)中之一者。邏輯區塊經由高頻寬互連網路(例如環形網路)與一些固定功能邏輯、記憶體I/O介面及其他必要的I/O邏輯通訊,此取決於應用。
圖12A係根據本發明之實施例的單個處理器核心及其至晶粒上互連網路1202的連接以及其2階(L2)快取記憶體局域子集1204之方塊圖。在一實施例中,指令解碼器1200支援x86指令集與緊縮資料指令集擴展。L1快取記憶體1206允許對快取記憶體進行低延時存取,存取至純量單元及向量單元中。雖然在一實施例中(為了簡化設計),純量單元1208及向量單元1210使用單獨的暫存器組(分別使用純量暫存器1212及向量暫存器1214),且在純量單元1208與向量單元1210之間傳遞的資料被寫入至記憶體,然後自1階(L1)快取記憶體1206被讀回,但本發明之替代性 實施例可使用不同方法(例如,使用單個暫存器組,或包括允許在兩個暫存器檔案之間傳遞資料而無需寫入及讀回的通訊路徑)。
L2快取記憶體局域子集1204係全域L2快取記憶體之部分,全域L2快取記憶體分成單獨的局域子集,每個處理器核心一個局域子集。每一處理器核心具有至其自有之L2快取記憶體局域子集1204的直接存取路徑。處理器核心所讀取之資料係儲存於其自有之L2快取記憶體子集1204中且可被快速存取,此存取係與其他處理器核心存取其自有之局域L2快取記憶體子集1204並行地進行。由處理器核心所寫入之資料係儲存於其自有之L2快取記憶體子集1204中且必要時自其他子集清除掉。環形網路確保共享資料之同調性。環形網路係雙向的,以允許諸如處理器核心、L2快取記憶體及其他邏輯區塊之代理在晶片內彼此通訊。每一環形資料路徑在每個方向上的寬度係1012個位元。
圖12B係根據本發明之實施例的圖12A中之處理器核心之部分的展開圖。圖12B包括L1快取記憶體1204之L1資料快取記憶體1206A部分,以及關於向量單元1210及向量暫存器1214之更多細節。具體而言,向量單元1210係寬度為16之向量處理單元(VPU)(參見寬度為16之ALU 1228),其執行整數、單精度浮點數及雙精度浮點數指令中之一或多者。VPU支援由拌和單元1220對暫存器輸入進行拌和、由數值轉換單元1222A-B進行數值轉換,以及由複 製單元1224對記憶體輸入進行複製。寫入遮罩暫存器1226允許預測所得向量寫入。
具有整合型記憶體控制器及圖形元件的處理器
圖13係根據本發明之實施例之處理器1300的方塊圖,該處理器可具有一個以上核心,可具有整合型記憶體控制器,且可具有整合型圖形元件。圖13中的實線方框說明處理器1300,其具有單個核心1302A、系統代理1310、一或多個匯流排控制器單元1316之集合,而虛線方框之選擇性增添說明替代性處理器1300,其具有多個核心1302A-N、位於系統代理單元1310中的一或多個整合型記憶體控制器單元1314之集合,以及專用邏輯1308。
因此,處理器1300之不同實行方案可包括:1)CPU,其中專用邏輯1308係整合型圖形及/或科學(通量)邏輯(其可包括一或多個核心),且核心1302A-N係一或多個通用核心(例如,通用循序核心、通用亂序核心、上述兩者之組合);2)共處理器,其中核心1302A-N係大量主要意欲用於圖形及/或科學(通量)之專用核心;以及3)共處理器,其中核心1302A-N係大量通用循序核心。因此,處理器1300可為通用處理器、共處理器或專用處理器,諸如網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU(通用圖形處理單元)、高通量多重整合核心(MIC)共處理器(包括30個或更多核心)、嵌入式處理器或類似者。處理器可實施於一或多個晶片上。處理器1300可為一或多個基板之部分及/或可使用許多處理技術(例如BiCMOS、CMOS或NMOS) 中之任一者將處理器1300實施於一或多個基板上。
記憶體階層包括該等核心內的一或多階快取記憶體、一或多個共享快取記憶體單元1306之集合、耦接至整合型記憶體控制器單元1314之集合的外部記憶體(圖中未示)。共享快取記憶體單元1306之集合可包括一或多個中階快取記憶體,諸如2階(L2)、3階(L3)、4階(L4),或其他階快取記憶體、末階快取記憶體(LLC),及/或上述各者之組合。雖然在一實施例中,環式互連單元1312對整合型圖形邏輯1308、共享快取記憶體單元1306之集合及系統代理單元1310/整合型記憶體控制器單元1314進行互連,但替代性實施例可使用任何數種熟知技術來互連此等單元。在一實施例中,在一或多個快取記憶體單元1306與核心1302A-N之間維持同調性。
在一些實施例中,核心1302A-N中之一或多者能夠進行多執行緒處理。系統代理1310包括協調並操作核心1302A-N之彼等組件。系統代理單元1310可包括,例如,功率控制單元(PCU)及顯示單元。PCU可為調節核心1302A-N及整合型圖形邏輯1308之功率狀態所需要的邏輯及組件,或者包括上述邏輯及組件。顯示單元係用於驅動一或多個外部已連接顯示器。
核心1302A-N就架構指令集而言可為同質的或異質的;即,核心1302A-N中之兩者或兩者以上可能能夠執行同一指令集,而其他核心可能僅能夠執行該指令集之子集或不同的指令集。
示範性電腦架構
圖14至圖17係示範性電腦架構之方塊圖。此項技術中已知的關於以下各者之其他系統設計及組配亦適合:膝上型電腦、桌上型電腦、手持式PC、個人數位助理、工程工作站、伺服器、網路裝置、網路集線器(network hub)、交換器(switch)、嵌入式處理器、數位信號處理器(DSP)、圖形裝置、視訊遊戲裝置、機上盒(set-top box)、微控制器、行動電話、攜帶型媒體播放器、手持式裝置,以及各種其他電子裝置。一般而言,能夠併入如本文中所揭示之處理器及/或其他執行邏輯的多種系統或電子裝置通常適合。
現在參考圖14,所展示為根據本發明之一實施例之系統1400的方塊圖。系統1400可包括一或多個處理器1410、1415,該等處理器耦接至控制器集線器1420。在一實施例中,控制器集線器1420包括圖形記憶體控制器集線器(GMCH)1490及輸入/輸出集線器(IOH)1450(上述兩者可位於單獨的晶片上);GMCH 1490包括記憶體控制器及圖形控制器,記憶體1440及共處理器1445耦接至該等控制器;IOH 1450將輸入/輸出(I/O)裝置1460耦接至GMCH 1490。或者,記憶體控制器及圖形控制器中之一者或兩者整合於(如本文中所描述之)處理器內,記憶體1440及共處理器1445直接耦接至處理器1410,且控制器集線器1420與IOH 1450位於單個晶片中。
圖14中用間斷線表示額外處理器1415之可選擇性質。每一處理器1410、1415可包括本文中所描述之處理 核心中之一或多者且可為處理器1300之某一版本。
記憶體1440可為,例如,動態隨機存取記憶體(DRAM)、相位變化記憶體(PCM),或上述兩者之組合。對於至少一個實施例,控制器集線器1420經由以下各者與處理器1410、1415通訊:諸如前端匯流排(FSB)之多分支匯流排(multi-drop bus)、諸如快速路徑互連(QuickPath Interconnect;QPI)之點對點介面,或類似連接1495。
在一實施例中,共處理器1445係專用處理器,諸如高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU、嵌入式處理器或類似者。在一實施例中,控制器集線器1420可包括整合型圖形加速器。
就優點量度範圍而言,實體資源1410與1415之間可能有各種差異,其中包括架構特性、微架構特性、熱特性、功率消耗特性及類似者。
在一實施例中,處理器1410執行控制一般類型資料處理操作的指令。共處理器指令可嵌入該等指令內。處理器1410認定此等共處理器指令係應由已附接之共處理器1445執行的類型。因此,處理器1410在共處理器匯流排或其他互連上發佈此等共處理器指令(或表示共處理器指令的控制信號)至共處理器1445。共處理器1445接受並執行接收到之共處理器指令。
現在參考圖15,所展示為根據本發明之一實施例之第一更特定的示範性系統1500的方塊圖。如圖15中所示,多處理器系統1500係點對點互連系統,且包括第一 處理器1570及第二處理器1580,該等處理器經由點對點互連1550予以耦接。處理器1570及1580中之每一者可為處理器1300之某一版本。在本發明之一實施例中,處理器1570及1580分別為處理器1410及1415,而共處理器1538為共處理器1445。在另一實施例中,處理器1570及1580分別為處理器1410共處理器1445。
所展示處理器1570及1580分別包括整合型記憶體控制器(IMC)單元1572及1582。處理器1570亦包括點對點(P-P)介面1576及1578,作為其匯流排控制器單元的部分;類似地,第二處理器1580包括P-P介面1586及1588。處理器1570、1580可使用P-P介面電路1578、1588經由點對點(P-P)介面1550交換資訊。如圖15中所示,IMC 1572及1582將處理器耦接至各別記憶體,亦即,記憶體1532及記憶體1534,該等記憶體可為局部地附接至各別處理器之主記憶體的部分。
處理器1570、1580各自可使用點對點介面電路1576、1594、1586、1598經由個別P-P介面1552、1554與晶片組1590交換資訊。晶片組1590可選擇性地經由高效能介面1539與共處理器1538交換資訊。在一實施例中,共處理器1538係專用處理器,諸如高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU、嵌入式處理器或類似者。
在任一處理器中或兩個處理器外部,可包括共享快取記憶體(圖中未示),而該共享快取記憶體經由P-P互連 與該等處理器連接,以使得當處理器被置於低功率模式中時,可將任一處理器或兩個處理器之局域快取記憶體資訊儲存在該共享快取記憶體中。
晶片組1590可經由介面1596耦接至第一匯流排1516。在一實施例中,第一匯流排1516可為周邊組件互連(PCI)匯流排,或者諸如高速PCI匯流排或另一第三代I/O互連匯流排之匯流排,但本發明之範疇不限於此。
如圖15中所示,各種I/O裝置1514以及匯流排橋接器1518可耦接至第一匯流排1516,匯流排橋接器1518將第一匯流排1516耦接至第二匯流排1520。在一實施例中,一或多個額外處理器1515(諸如,共處理器、高通量MIC處理器、GPGPU、加速器(諸如,圖形加速器或數位信號處理(DSP)單元)、場可規劃閘陣列,或任何其他處理器)耦接至第一匯流排1516。在一實施例中,第二匯流排1520可為低針腳數(LPC)匯流排。各種裝置可耦接至第二匯流排1520,其中包括,例如,鍵盤及/或滑鼠1522、通訊裝置1527,以及儲存單元1528(諸如磁碟機或其他大容量儲存裝置),在一實施例中,儲存單元1528可包括指令/程式碼及資料1530。此外,音訊I/O 1524可耦接至第二匯流排1520。請注意,其他架構係可能的。例如,代替圖15之點對點架構,系統可實施多分支匯流排或其他此種架構。
現在參考圖16,所展示為根據本發明之一實施例之第二更特定的示範性系統1600的方塊圖。圖15及圖16中的相似元件帶有相似參考數字,且圖16已省略圖15 之某些態樣以避免混淆圖16之態樣。
圖16例示處理器1570、1580分別可包括整合型記憶體及I/O控制邏輯(「CL」)1572及1582。因此,CL 1572及1582包括整合型記憶體控制器單元且包括I/O控制邏輯。圖16例示不僅記憶體1532、1534耦接至CL 1572、1582,而且I/O裝置1614耦接至控制邏輯1572、1582。舊式I/O裝置1615耦接至晶片組1590。
現在參考圖17,所展示為根據本發明之一實施例之SoC 1700的方塊圖。圖13中的類似元件帶有相似參考數字。此外,虛線方框係更先進SoC上之選擇性特徵。在圖17中,互連單元1702耦接至以下各者:應用處理器1710,其包括一或多個核心202A-N之集合及共享快取記憶體單元1306;系統代理單元1310;匯流排控制器單元1316;整合型記憶體控制器單元1314;一或多個共處理器1720之集合,其可包括整合型圖形邏輯、影像處理器、音訊處理器及視訊處理器;靜態隨機存取記憶體(SRAM)單元1730;直接記憶體存取(DMA)單元1732;以及用於耦接至一或多個外部顯示器的顯示單元1740。在一實施例中,共處理器1720包括專用處理器,諸如網路或通訊處理器、壓縮引擎、GPGPU、高通量MIC處理器、嵌入式處理器或類似者。
本文中揭示之機構的實施例可硬體、軟體、韌體或者此類實施方法之組合來實施。本發明之實施例可實施為在可規劃系統上執行之電腦程式或程式碼,可規劃系統 包含至少一個處理器、一儲存系統(包括依電性及非依電性記憶體及/或儲存元件)、至少一個輸入裝置及至少一個輸出裝置。
可將程式碼(諸如圖15中例示之程式碼1530)應用於輸入指令,用來執行本文中所描述之功能且產生輸出資訊。可將輸出資訊以已知方式應用於一或多個輸出裝置。出於本申請案之目的,處理系統包括具有處理器之任何系統,諸如數位信號處理器(DSP)、微控制器、特殊應用積體電路(ASIC)或微處理器。
程式碼可以高階程序性或物件導向式程式設計語言來實施,以便與處理系統通訊。必要時,程式碼亦可以組合語言或機器語言來實施。事實上,本文中所描述之機構的範疇不限於任何特定的程式設計語言。在任何情況下,該語言可為編譯語言或解譯語言。
至少一個實施例之一或多個態樣可藉由儲存於機器可讀媒體上之代表性指令來實施,機器可讀媒體表示處理器內的各種邏輯,該等指令在由機器讀取時使機器製造邏輯來執行本文中所描述之技術。此類表示(稱為「IP核心」)可儲存於有形的機器可讀媒體上,且可供應給各種用戶端或製造設施以載入至實際上製造該邏輯或處理器的製造機中。
此等機器可讀儲存媒體可包括(但不限於)由機器或裝置製造的非暫時性有形物品配置,其中包括:儲存媒體,諸如硬碟、任何其他類型之碟片(包括軟碟片、光碟、 光碟片-唯讀記憶體(CD-ROM)、可重寫光碟片(CD-RW)及磁光碟)、半導體裝置(諸如唯讀記憶體(ROM)、隨機存取記憶體(RAM)(諸如動態隨機存取記憶體(DRAM)、靜態隨機存取記憶體(SRAM))、可抹除可規劃唯讀記憶體(EPROM)、快閃記憶體、電氣可抹除可規劃唯讀記憶體(EEPROM)、相位變化記憶體(PCM)、磁性或光學卡),或者適合於儲存電子指令的任何其他類型之媒體。
因此,本發明之實施例亦包括含有指令或含有諸如硬體描述語言(HDL)之設計資料的非暫時性有形機器可讀媒體,其中設計資料定義本文中所描述之結構、電路、設備、處理器及/或系統特徵。此類實施例亦可被稱為程式產品。
仿真(包括二進位轉譯、程式碼漸變(code morphing)等)
在一些情況下,可使用指令轉換器將指令自來源指令集轉換成目標指令集。例如,指令轉換器可將指令轉譯(例如,使用靜態二進位轉譯、包括動態編譯之動態二進位轉譯)、漸變、仿真或以其他方式轉換成將由核心處理的一或多個其他指令。指令轉換器可以軟體、硬體、韌體或其組合來實施。指令轉換器可位於處理器上、位於處理器外部,或部分位於處理器上而部分位於處理器外部。
圖18係對照根據本發明之實施例之軟體指令轉換器的用途之方塊圖,該轉換器係用以將來源指令集中之二進位指令轉換成目標指令集中之二進位指令。在所說明 之實施例中,指令轉換器係軟體指令轉換器,但指令轉換器或者可以軟體、韌體硬體、或其各種組合來實施。圖18展示出,可使用x86編譯器1804來編譯用高階語言1802撰寫的程式以產生x86二進位碼1806,x86二進位碼1806自然可由具有至少一個x86指令集核心之處理器1816執行。具有至少一個x86指令集核心之處理器1816表示可執行與具有至少一個x86指令集核心之Intel處理器大體相同的功能之任何處理器,上述執行係藉由相容地執行或以其他方式處理以下各者:(1)Intel x86指令集核心之指令集的大部分或(2)旨在在具有至少一個x86指令集核心之Intel處理器上運行的應用程式或其他軟體之目標碼版本,以便達成與具有至少一個x86指令集核心之Intel處理器大體相同的結果。x86編譯器1804表示可操作以產生x86二進位碼1806(例如目標碼)之編譯器,其中x86二進位碼1806在經額外連結處理或未經額外連結處理的情況下可在具有至少一個x86指令集核心之處理器1816上執行。類似地,圖18展示出,可使用替代性指令集編譯器1808來編譯用高階語言1802撰寫的程式以產生替代性指令集二進位碼1810,替代性指令集二進位碼1810自然可由不具有至少一個x86指令集核心之處理器1814(例如,具有多個核心的處理器,該等核心執行MIPS Technologie公司(Sunnyvale,CA)之MIPS指令集,及/或該等核心執行ARM Holdings公司(Sunnyvale,CA)之ARM指令集)執行。使用指令轉換器1812將x86二進位碼1806轉換成自然可由不具有一個x86指令 集核心之處理器1814執行的碼。此轉換後的碼不可能與替代性指令集二進位碼1810相同,因為能夠實現此操作的指令轉換器很難製作,然而,轉換後的碼將完成一般操作且由來自替代性指令集之指令構成。因此,指令轉換器1812表示經由仿真、模擬或任何其他處理程序來允許不具有x86指令集處理器或核心的處理器或其他電子裝置執行x86二進位碼1806的軟體、韌體、硬體或其組合。
雖然諸圖中之流程圖展示出由本發明之某些實施例執行之操作之特定次序,但應理解此次序係示範性的(例如,替代性實施例可以不同順序來執行操作,組合某些操作,重疊某些操作,等等)。
在以上描述中,出於解釋之目的,已闡述眾多特定細節以便提供對本發明之實施例的徹底理解。然而,熟習此項技術者將明白的是,一或多個其他實施例可在無此等特定細節中的一些細節的情況下實踐。所述之特定實施例非提供來限制本發明而是說明本發明之實施例。本發明之範疇不應由以上提供之特定實例決定,而是僅由以下之申請專利範圍決定。
100‧‧‧指令
105‧‧‧目的地運算元
110‧‧‧來源運算元/運算元
140‧‧‧來源向量暫存器之內容
160~166‧‧‧值
170‧‧‧目的地向量暫存器zmm1之內容

Claims (21)

  1. 一種在一電腦處理器中執行一多暫存器聚集指令之方法,該方法包含:擷取該多暫存器聚集指令,其中該多暫存器聚集指令包括指定一目的地向量暫存器的一目的地運算元、及識別指示下列內容的一來源運算元:多個第一向量暫存器,該等多個第一向量暫存器中每一者的一第一組一或多個索引,其中該第一組索引中之每一者識別在與其對應的該等第一向量暫存器之一者中的一來源資料元件,以及針對各經識別的來源資料元件之該目的地向量暫存器的一第二組一或多個索引;解碼該經擷取的多暫存器聚集指令;以及執行該經解碼的多暫存器聚集指令,從而針對該等多個第一向量暫存器中的每一者之該第一組經指示的索引中之每一者,致使對應於該等第一向量暫存器之一者的那個經指示之索引的該來源資料元件要被儲存於對應於針對該來源資料元件之該目的地向量暫存器的該第二組經識別索引之一組一或多個目的地資料元件中。
  2. 如申請專利範圍第1項之方法,其中該來源運算元指定內容包括多個資料元件的一第二向量暫存器,該等多個 資料元件指定該等多個第一向量暫存器及該等多個第一向量暫存器之該第一組索引。
  3. 如申請專利範圍第2項之方法,其中該第二向量暫存器中的該等多個資料元件中每一者的該等內容進一步指示該等多個第一向量暫存器中的一者的一來源資料元件是否將儲存於該目的地向量暫存器的一目的地資料元件中。
  4. 如申請專利範圍第2項之方法,其中針對各經識別的來源資料元件之該目的地向量暫存器的該第二組索引係經由該第二向量暫存器之對應的索引而被指示。
  5. 如申請專利範圍第2項之方法,其中該來源向量暫存器為一512位元暫存器。
  6. 如申請專利範圍第1項之方法,其中該來源運算元指定記憶體中的一位置,該位置之內容指定該等多個第一向量暫存器及該等多個第一向量暫存器之該第一組索引。
  7. 如申請專利範圍第1項之方法,其中該目的地向量暫存器為一512位元暫存器。
  8. 一種處理器核心,其包含:一硬體解碼單元,其用以解碼一多暫存器聚集指令,其中該多暫存器聚集指令包括指定一目的地向量暫存器的一目的地運算元、及識別指示下列內容的一來源運算元:多個第一向量暫存器,該等多個第一向量暫存器中每一者的一第一 組一或多個索引,其中該第一組索引中之每一者用以識別在與其對應的該等第一向量暫存器之一者中的一來源資料元件,以及針對各經識別的來源資料元件之該目的地向量暫存器的一第二組一或多個索引;一執行引擎單元,其用以執行該經解碼的多暫存器聚集指令,從而針對該等多個第一向量暫存器中的每一者之該第一組經指示的索引中之每一者,致使對應於該等第一向量暫存器之一者的那個經指示之索引的該來源資料元件要被儲存於對應於針對該來源資料元件之該目的地向量暫存器的該第二組經識別索引之一組一或多個目的地資料元件中。
  9. 如申請專利範圍第8項之處理器核心,其中該來源運算元指定內容包括多個資料元件的一第二向量暫存器,該等多個資料元件指定該等多個第一向量暫存器及該等多個第一向量暫存器之該第一組索引。
  10. 如申請專利範圍第9項之處理器核心,其中該第二向量暫存器中的該等多個資料元件中每一者的該等內容進一步指示該等多個第一向量暫存器中的一者的一來源資料元件是否將儲存於該目的地向量暫存器的一目的地資料元件中。
  11. 如申請專利範圍第9項之處理器核心,其中針對各經識別的來源資料元件之該目的地向量暫存器的該第二組索引係經由該第二向量暫存器之對應的索引而被指示。
  12. 如申請專利範圍第9項之處理器核心,其中該來源向量暫存器為一512位元暫存器。
  13. 如申請專利範圍第8項之處理器核心,其中該來源運算元指定記憶體中的一位置,該位置之內容指定該等多個第一向量暫存器及該等多個第一向量暫存器之該第一組索引。
  14. 如申請專利範圍第8項之處理器核心,其中該目的地向量暫存器為一512位元暫存器。
  15. 一種製品,其包含:一有形機器可讀儲存媒體,其上儲存有一多暫存器聚集指令,其中該多暫存器聚集指令包括指定一目的地向量暫存器的一目的地運算元、及識別指示下列內容的一來源運算元:多個第一向量暫存器,該等多個第一向量暫存器中每一者的一第一組一或多個索引,其中該第一組索引中之每一者識別在與其對應的該等第一向量暫存器中之一者中的一來源資料元件,以及針對各經識別的來源資料元件之該目的地向量暫存器的一第二組一或多個索引;以及其中該多暫存器聚集指令包括一操作碼,該操作碼指引一機器來執行該指令,從而針對該等多個第一向量暫存器中的每一者之該第一組經指示的索引中之每一者,致使對應於該第一向量暫存器之 一者的那個經指示之索引的該來源資料元件要被儲存於對應於針對該來源資料元件之該目的地向量暫存器的該第二組經識別索引之一組一或多個目的地資料元件中。
  16. 如申請專利範圍第15項之製品,其中該來源運算元指定內容包括多個資料元件的一第二向量暫存器,該等多個資料元件指定該等多個第一向量暫存器及該等多個第一向量暫存器之該第一組索引。
  17. 如申請專利範圍第16項之製品,其中該第二向量暫存器中的該等多個資料元件中每一者的該等內容進一步指示該等多個第一向量暫存器中的一者的一來源資料元件是否將儲存於該目的地向量暫存器的一目的地資料元件中。
  18. 如申請專利範圍第16項之製品,其中針對各經識別的來源資料元件之該目的地向量暫存器的該第二組索引係經由該第二向量暫存器之對應的索引而被指示。
  19. 如申請專利範圍第16項之製品,其中該來源向量暫存器為一512位元暫存器。
  20. 如申請專利範圍第15項之製品,其中該來源運算元指定記憶體中的一位置,該位置之內容指定該等多個第一向量暫存器及該等多個第一向量暫存器之該第一組索引。
  21. 如申請專利範圍第15項之製品,其中該目的地向量暫存器為一512位元暫存器。
TW101149317A 2011-12-23 2012-12-22 多暫存器聚集指令 TWI518590B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/067281 WO2013095672A1 (en) 2011-12-23 2011-12-23 Multi-register gather instruction

Publications (2)

Publication Number Publication Date
TW201346746A TW201346746A (zh) 2013-11-16
TWI518590B true TWI518590B (zh) 2016-01-21

Family

ID=48669310

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101149317A TWI518590B (zh) 2011-12-23 2012-12-22 多暫存器聚集指令

Country Status (4)

Country Link
US (2) US9766887B2 (zh)
CN (1) CN104040489B (zh)
TW (1) TWI518590B (zh)
WO (1) WO2013095672A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9639503B2 (en) * 2013-03-15 2017-05-02 Qualcomm Incorporated Vector indirect element vertical addressing mode with horizontal permute
US9244684B2 (en) 2013-03-15 2016-01-26 Intel Corporation Limited range vector memory access instructions, processors, methods, and systems
EP3001307B1 (en) * 2014-09-25 2019-11-13 Intel Corporation Bit shuffle processors, methods, systems, and instructions
US10013253B2 (en) * 2014-12-23 2018-07-03 Intel Corporation Method and apparatus for performing a vector bit reversal
US10503502B2 (en) * 2015-09-25 2019-12-10 Intel Corporation Data element rearrangement, processors, methods, systems, and instructions
GB2543303B (en) 2015-10-14 2017-12-27 Advanced Risc Mach Ltd Vector data transfer instruction
US10467006B2 (en) * 2015-12-20 2019-11-05 Intel Corporation Permutating vector data scattered in a temporary destination into elements of a destination register based on a permutation factor
US10509726B2 (en) 2015-12-20 2019-12-17 Intel Corporation Instructions and logic for load-indices-and-prefetch-scatters operations
US20170177364A1 (en) * 2015-12-20 2017-06-22 Intel Corporation Instruction and Logic for Reoccurring Adjacent Gathers
US20170177363A1 (en) * 2015-12-22 2017-06-22 Intel Corporation Instructions and Logic for Load-Indices-and-Gather Operations
US20170185413A1 (en) * 2015-12-23 2017-06-29 Intel Corporation Processing devices to perform a conjugate permute instruction
US20170192782A1 (en) * 2015-12-30 2017-07-06 Robert Valentine Systems, Apparatuses, and Methods for Aggregate Gather and Stride
US10289416B2 (en) * 2015-12-30 2019-05-14 Intel Corporation Systems, apparatuses, and methods for lane-based strided gather
US10296342B2 (en) * 2016-07-02 2019-05-21 Intel Corporation Systems, apparatuses, and methods for cumulative summation
WO2018158603A1 (en) * 2017-02-28 2018-09-07 Intel Corporation Strideshift instruction for transposing bits inside vector register
US10782918B2 (en) * 2018-09-06 2020-09-22 Advanced Micro Devices, Inc. Near-memory data-dependent gather and packing
CN111813447B (zh) * 2019-04-12 2022-11-08 杭州中天微系统有限公司 一种数据拼接指令的处理方法和处理装置
CN111813446A (zh) * 2019-04-12 2020-10-23 杭州中天微系统有限公司 一种数据加载和存储指令的处理方法和处理装置
CN112394985B (zh) * 2019-08-12 2024-07-26 上海寒武纪信息科技有限公司 执行方法、装置及相关产品
CN111782270B (zh) * 2020-06-09 2023-12-19 Oppo广东移动通信有限公司 一种数据处理方法及装置、存储介质
TW202344987A (zh) * 2022-05-13 2023-11-16 美商賽發馥股份有限公司 具窄資料路徑向量收集

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5207132A (en) 1991-10-16 1993-05-04 Textron Inc. Elliptical lobed drive system
US5446912A (en) 1993-09-30 1995-08-29 Intel Corporation Partial width stalls within register alias table
US20040236920A1 (en) * 2003-05-20 2004-11-25 Sheaffer Gad S. Methods and apparatus for gathering and scattering data associated with a single-instruction-multiple-data (SIMD) operation
GB2409066B (en) 2003-12-09 2006-09-27 Advanced Risc Mach Ltd A data processing apparatus and method for moving data between registers and memory
US7216218B2 (en) * 2004-06-02 2007-05-08 Broadcom Corporation Microprocessor with high speed memory integrated in load/store unit to efficiently perform scatter and gather operations
KR100921748B1 (ko) * 2007-06-04 2009-10-15 삼성전자주식회사 Ecc 회로를 포함하는 메모리 시스템 및 그 구동 방법
US8447962B2 (en) 2009-12-22 2013-05-21 Intel Corporation Gathering and scattering multiple data elements
US10387151B2 (en) * 2007-12-31 2019-08-20 Intel Corporation Processor and method for tracking progress of gathering/scattering data element pairs in different cache memory banks
US9513905B2 (en) * 2008-03-28 2016-12-06 Intel Corporation Vector instructions to enable efficient synchronization and parallel reduction operations
JP5573134B2 (ja) * 2009-12-04 2014-08-20 日本電気株式会社 ベクトル型計算機及びベクトル型計算機の命令制御方法
US8972698B2 (en) * 2010-12-22 2015-03-03 Intel Corporation Vector conflict instructions
US20120254591A1 (en) * 2011-04-01 2012-10-04 Hughes Christopher J Systems, apparatuses, and methods for stride pattern gathering of data elements and stride pattern scattering of data elements
CN102156637A (zh) * 2011-05-04 2011-08-17 中国人民解放军国防科学技术大学 向量交叉多线程处理方法及向量交叉多线程微处理器

Also Published As

Publication number Publication date
TW201346746A (zh) 2013-11-16
US10180838B2 (en) 2019-01-15
CN104040489B (zh) 2016-11-23
US20180074823A1 (en) 2018-03-15
CN104040489A (zh) 2014-09-10
WO2013095672A1 (en) 2013-06-27
US9766887B2 (en) 2017-09-19
US20140149713A1 (en) 2014-05-29

Similar Documents

Publication Publication Date Title
TWI518590B (zh) 多暫存器聚集指令
TWI470544B (zh) 用以響應於單一指令而執行橫向加法或減法之系統、裝置及方法
TWI496080B (zh) 轉置指令之技術
TWI499976B (zh) 用以產生整數序列的方法、設備、系統及製造物品
TWI517031B (zh) 用於呈現各別複數之複數共軛根之向量指令
TWI473015B (zh) 執行向量頻率擴展指令之方法、處理器核心以及製品
TWI501147B (zh) 用於從通用暫存器至向量暫存器的廣播之裝置及方法
TWI498816B (zh) 用於設定輸出遮罩之方法、製造物品及設備
TWI498815B (zh) 用以響應於單一指令而執行橫向部分和之系統、裝置及方法
TWI544411B (zh) 緊縮旋轉處理器、方法、系統與指令
TWI489383B (zh) 遮蔽排列指令的裝置及方法
KR20170033890A (ko) 비트 셔플 프로세서, 방법, 시스템, 및 명령어
TWI481991B (zh) 改良型排列指令之裝置及方法
TW201640380A (zh) 執行向量位元混洗的方法與裝置
TWI498814B (zh) 用以基於兩個來源寫入遮罩暫存器而產生相依向量之系統、裝置及方法
TW201810029A (zh) 用於跨步載入的系統、設備及方法
TWI599951B (zh) 用於融合乘法乘法指令的處理器、方法及系統
TWI482086B (zh) 用以於緊縮資料元件上執行差分編碼之系統、裝置及方法
TW201643709A (zh) 用以執行向量飽和雙字/四字加法的指令及邏輯
TW201636828A (zh) 用以從4維座標計算4維z曲線指標的機器階層指令
TWI464676B (zh) 映射源運算元至不同範圍的系統、設備及方法
TW201732573A (zh) 用於跨步載入(stride load)的系統、設備及方法
TWI497411B (zh) 用於決定一值是否在一範圍內之指令的裝置及方法
CN107003841B (zh) 用于融合加法-加法指令的装置和方法
TW201730756A (zh) 用於從鏈結結構取回元件的設備和方法

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees