TWI517038B - 用於在多維度陣列中之元件偏移計算的指令 - Google Patents

用於在多維度陣列中之元件偏移計算的指令 Download PDF

Info

Publication number
TWI517038B
TWI517038B TW101147787A TW101147787A TWI517038B TW I517038 B TWI517038 B TW I517038B TW 101147787 A TW101147787 A TW 101147787A TW 101147787 A TW101147787 A TW 101147787A TW I517038 B TWI517038 B TW I517038B
Authority
TW
Taiwan
Prior art keywords
field
instruction
vector
address
input
Prior art date
Application number
TW101147787A
Other languages
English (en)
Other versions
TW201342221A (zh
Inventor
麥克海爾 普洛特尼柯夫
安卓 納賴金
艾哈邁德 瓦爾 艾爾穆斯塔法 烏爾德
Original Assignee
英特爾公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 英特爾公司 filed Critical 英特爾公司
Publication of TW201342221A publication Critical patent/TW201342221A/zh
Application granted granted Critical
Publication of TWI517038B publication Critical patent/TWI517038B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/355Indexed addressing
    • G06F9/3555Indexed addressing using scaling, e.g. multiplication of index
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30025Format conversion instructions, e.g. Floating-Point to Integer, decimal conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • G06F9/30038Instructions to perform operations on packed data, e.g. vector, tile or matrix operations using a mask
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/3016Decoding the operand specifier, e.g. specifier format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/345Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results
    • G06F9/3455Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results using stride
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/355Indexed addressing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3893Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled in tandem, e.g. multiplier-accumulator

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Complex Calculations (AREA)
  • Advance Control (AREA)

Description

用於在多維度陣列中之元件偏移計算的指令 發明領域
發明領域總體上涉及計算系統,並且更具體而言涉及用於在多維度陣列中之元件偏移計算的指令。
發明背景
圖1展示出由半導體晶片上之邏輯電路實行的處理核心100之高階圖。該處理核心包括管線101。該管線由多個級段組成,每一級段係設計來執行多步驟處理程序中的一特定步驟,完全執行一程式碼指令需要該多步驟處理程序。此等級段通常至少包括:1)指令提取及解碼;2)資料提取;3)執行;4)回寫。執行級段對資料執行特定操作,其中該特定操作係由在先前級段中(例如上述步驟1)中)提取及解碼的指令予以識別,該資料係由相同指令予以識別且係在另一先前級段中(例如上述步驟2)中)提取。被操作的資料通常提取自(通用)暫存器儲存空間102。在操作完成時產生的新資料亦通常被「回寫」至暫存器儲存空間(例如在上述步驟4)中)。
與執行級段相關聯之邏輯電路通常由多個「執行 單元」或「功能單元」103_1至103_N組成,每一「執行單元」或「功能單元」係設計來執行其自有之獨特操作子集(例如,第一功能單元執行整數數學操作,第二功能單元執行浮點指令,第三功能單元執行自/至快取記憶體/記憶體的載入/儲存操作,等)。由所有功能單元執行之所有操作的集合對應於處理核心100所支援的「指令集」。
如下兩種類型的處理器架構在電腦科學領域中已得到廣泛認可:「純量」及「向量」。純量處理器係設計來執行對單個資料集執行操作的指令,而向量處理器係設計來執行對多個資料集執行操作的指令。圖2A及圖2B呈現比較實例,該實例演示純量處理器與向量處理器之間的基本差異。
圖2A展示出純量AND(與)指令之實例,其中對單個運算元集合A以及B一起進行AND運算,以得出單數(或「純量」)結果C(亦即,AB=C)。相反,圖2B展示出向量AND指令之實例,其中並行地分別對兩個運算元集合A/B以及D/E一起進行AND運算,以同時產生向量結果C、F(亦即,A.AND.B=C且D.AND.E=F)。作為一術語,「向量」為具有多個「元件」之資料元件。例如,向量V=Q,R,S,T,U具有五個不同元件:Q、R、S、T以及U。示範性向量V之「大小」為五(因為其具有五個元件)。
圖1亦展示出不同於通用暫存器空間102的向量暫存器空間107之存在。具體而言,通用暫存器空間102標稱地用於儲存純量值。因此,當任何執行單元執行純量操 作時,其標稱地使用自通用暫存器儲存空間102調用之運算元(並且將結果寫回至該空間)。相反,當任何執行單元執行向量操作時,其標稱地使用自向量暫存器空間107調用之運算元(並且將結果寫回至該空間)。記憶體之不同區域可同樣地被分配用於儲存純量值及向量值。
亦注意在發至功能單元103_1至103_N之相應輸入及來自該等單元之相應輸出處存在遮蔽邏輯104_1至104_N及105_1至105_N。在不同實行方案中,對於向量操作,實際上僅實施此等層中之一者-但是其並非嚴格的要求(雖然未在圖1中描繪,但是可想得到地,僅執行純量並且不執行向量操作的執行單元不必具有任何遮蔽層)。對於使用遮蔽之任何向量指令而言,輸入遮蔽邏輯104_1至104_N及/或輸出遮蔽邏輯105_1至105_N可用於控制對於向量指令正在有效地操作哪些元件。在此,遮罩向量自遮罩暫存器空間106讀取(例如,與自向量暫存器儲存空間107讀取之輸入運算元向量一起)並且提供至遮蔽邏輯104、105層中之至少一者。
在執行向量程式碼之過程中,每個向量指令不必需要完整資料字。舉例而言,一些指令之輸入向量可為僅8個元件,其他指令之輸入向量可為16個元件,其他指令之輸入向量可為32個元件等。因此,遮蔽層104/105用於識別完整向量資料字之一組元件,其適用於具體指令以便在各個指令中實現不同向量大小。通常,對於每個向量指令,保持於遮罩暫存器空間106中之特定遮罩模式由指令來調 用、自遮罩暫存器空間提取並且提供至遮罩層104/105中之一者或兩者以便「啟用」用於具體向量運算之一組正確元件。
依據本發明之一實施例,係特地提出一種設備,其包含:功能單元邏輯電路,其具有:a)第一暫存器,該第一暫存器用於儲存第一輸入向量運算元,該第一輸入向量運算元具有多維度資料結構之每個維度之元件,該第一向量運算元之每個元件指定其相應維度之大小;b)第二暫存器,該第二暫存器用於儲存第二輸入向量運算元,該第二輸入向量運算元指定該多維度結構之具體區段之坐標;c)邏輯電路,該邏輯電路用於計算相對於該多維度結構之起點區段位址的該具體區段之位址偏移。
101‧‧‧管線
103_1至103_N‧‧‧執行單元
104_1至104_N‧‧‧遮蔽邏輯
105_1至105_N‧‧‧遮蔽邏輯
102‧‧‧通用暫存器儲存空間
107‧‧‧向量暫存器空間
106‧‧‧遮罩向量暫存器空間
301‧‧‧立方體
302‧‧‧系統位址
303‧‧‧最低級系統位址位元
304‧‧‧區段位址
305‧‧‧下方、前側、左側區段
306‧‧‧上方、後側、右側區段
307‧‧‧第一階
308‧‧‧第二階
309‧‧‧第三階
310‧‧‧區域
311‧‧‧區域
401~405‧‧‧過程
501‧‧‧第一暫存器
502‧‧‧第二暫存器
503‧‧‧邏輯電路
504‧‧‧額外輸入暫存器
602‧‧‧VEX前綴
605‧‧‧REX欄位
615‧‧‧操作碼對映/操作碼對照表
620‧‧‧VVVV欄位
625‧‧‧前綴編碼欄位
630‧‧‧實際操作碼欄位
640‧‧‧格式欄位/MOD R/M位元組
642‧‧‧MOD欄位/基本操作欄位
644‧‧‧Reg欄位/暫存器索引欄位
646‧‧‧R/M欄位
650‧‧‧SIB位元組
652‧‧‧SS
654‧‧‧xxx
656‧‧‧bbb
662‧‧‧位移欄位
664‧‧‧W欄位/資料元件寬度欄位
668‧‧‧大小欄位
672‧‧‧立即欄位
674‧‧‧完整的操作碼欄位
700‧‧‧一般向量友善指令格式
705‧‧‧非記憶體存取
710‧‧‧非記憶體存取、完全捨位控制型操作
712‧‧‧非記憶體存取、寫入遮罩控制、部分捨位控制型操作
715‧‧‧非記憶體存取、資料轉換型操作
717‧‧‧非記憶體存取、寫入遮罩控制、VSIZE型操作
725‧‧‧記憶體存取、暫時
740‧‧‧格式欄位
742‧‧‧基本操作欄位
744‧‧‧暫存器索引欄位
746‧‧‧修飾符欄位
746A‧‧‧非記憶體存取
750‧‧‧擴增操作欄位
752‧‧‧α欄位
752A‧‧‧RS欄位
752A.1‧‧‧捨位
752A.2‧‧‧資料轉換
752B‧‧‧收回提示(EH)欄位
752B.1‧‧‧暫時
752B.2‧‧‧非暫時
752C‧‧‧寫入遮罩控制欄位
754‧‧‧β欄位
754A‧‧‧捨位控制欄位
754B‧‧‧資料轉換欄位
754C‧‧‧資料調處欄位
756‧‧‧SAE欄位
757A.1‧‧‧捨位
757A.2‧‧‧向量長度
757B‧‧‧廣播欄位
758‧‧‧捨位操作欄位
759B‧‧‧向量長度欄位
760‧‧‧比例欄位
762A‧‧‧位移欄位
762B位移因數欄位
764‧‧‧資料元件寬度欄位
768‧‧‧類別欄位
768A‧‧‧類別A
768B‧‧‧類別B
769A‧‧‧捨位操作欄位
770‧‧‧寫入遮罩欄位
772‧‧‧立即欄位
774‧‧‧完整的操作碼欄位
802‧‧‧EVEX前綴
805‧‧‧REX欄位
810‧‧‧REX’欄位
820‧‧‧VVVV欄位
825‧‧‧前綴編碼欄位
830‧‧‧實際操作碼欄位
840‧‧‧MOD R/M位元組
842‧‧‧MOD欄位
844‧‧‧Reg欄位
846‧‧‧R/M欄位
854‧‧‧xxx欄位
856‧‧‧bbb欄位
900‧‧‧暫存器架構
910‧‧‧向量暫存器
915‧‧‧寫入遮罩暫存器
925‧‧‧通用暫存器
945‧‧‧純量浮點堆迭暫存器檔案
950‧‧‧MMX壓縮整數平板暫存器檔案
1000‧‧‧管線
1002‧‧‧提取
1004‧‧‧長度解碼
1006‧‧‧解碼
1008‧‧‧分配
1010‧‧‧重新命名
1012‧‧‧排程
1014‧‧‧暫存器讀取/記憶體讀取
1016‧‧‧執行級段
1018‧‧‧回寫/記憶體寫入
1022‧‧‧異常處置
1024‧‧‧確認
1030‧‧‧前端單元
1032‧‧‧分支預測單元
1034‧‧‧指令快取記憶體單元
1036‧‧‧指令TLB單元
1038‧‧‧指令提取
1040‧‧‧解碼單元
1050‧‧‧執行引擎單元
1052‧‧‧重新命名/分配器單元
1056‧‧‧排程器單元
1054‧‧‧引退單元
1058‧‧‧實體暫存器檔案單元
1062‧‧‧執行單元
1064‧‧‧記憶體存取單元
1060‧‧‧執行叢集
1070‧‧‧記憶體單元
1072‧‧‧資料TLB單元
1074‧‧‧資料快取記憶體單元
1076‧‧‧L2快取記憶體單元
1090‧‧‧核心
1100‧‧‧指令解碼
1102‧‧‧環形網路
1104‧‧‧L2快取記憶體局域子集
1106‧‧‧L1快取記憶體
1106A‧‧‧L1資料快取記憶體
1108‧‧‧純量單元
1110‧‧‧向量單元
1112‧‧‧純量暫存器
1114‧‧‧向量暫存器
1120‧‧‧拌和
1122A-B‧‧‧數值轉換
1124‧‧‧複製
1126‧‧‧寫入遮罩暫存器
1128‧‧‧寬度為16之向量ALU
1200‧‧‧處理器
1208‧‧‧特殊用途邏輯
1202A、202N‧‧‧核心
1204A、204N‧‧‧快取記憶體單元
1206‧‧‧共享快取記憶體單元
1212‧‧‧環
1210‧‧‧系統代理單元
1214‧‧‧整合型記憶體控制器單元
1216‧‧‧匯流排控制器單元
1300‧‧‧系統
1310、1315‧‧‧處理器
1320‧‧‧控制器集線器
1340、1432、1434‧‧‧記憶體...記憶體
1345、1438、1620‧‧‧共處理器
1350‧‧‧IOH
1360‧‧‧輸入/輸出(I/O)裝置
1390‧‧‧圖形記憶體控制器集線器
1400、1500‧‧‧系統
1414、1514‧‧‧I/O裝置
1416‧‧‧第一匯流排
1418‧‧‧匯流排橋接器
1420‧‧‧第二匯流排
1422‧‧‧鍵盤/滑鼠
1424‧‧‧音訊I/O
1427‧‧‧通訊裝置
1428‧‧‧資料儲存體
1430‧‧‧程式碼及資料
1439、1492、1496‧‧‧介面
1452、1454、1476、1478、1486、1488、1494、1498‧‧‧點對點(P-P)介面
1470‧‧‧處理器
1472‧‧‧整合型記憶體控制器(IMC)單元
1480‧‧‧共處理器/處理器
1482‧‧‧整合型記憶體控制器(IMC)單元
1490‧‧‧晶片組
1515‧‧‧舊式I/O
1600‧‧‧系統單晶片
1610‧‧‧應用處理器
1602‧‧‧互連單元
1630‧‧‧SRAM單元
1632‧‧‧DMA單元
1640‧‧‧顯示單元
1702‧‧‧高階語言
1704‧‧‧x86編譯器
1706‧‧‧x86二進位碼
1708‧‧‧替代性指令集編譯器
1710‧‧‧替代性指令集二進位碼
1712‧‧‧指令轉換器
1714‧‧‧不具有至少一個x86指令集核心之處理器
1716‧‧‧具有至少一個x86指令集核心之處理器
在隨附圖式之各圖中藉由實例而非限制來說明本發明,其中相似參考符號指示類似元件,且其中:圖1展示出處理器管線;圖2A及圖2B比較純量與向量操作;圖3A、圖3B、圖3C涉及多維度結構及保持多維度結構之每個區段之資料的方式;圖4展示出計算多維度結構之具體區段之位址偏移的方法;圖5展示出可執行圖4之方法的功能單元之電路設計;圖6A例示出示範性AVX指令格式; 圖6B例示出圖6A的哪些欄位組成完整的運算碼欄位以及基本操作欄位;圖6C例示出圖6A的哪些欄位組成暫存器索引欄位;圖7A至圖7B係說明根據本發明之實施例之一般向量友善指令格式及其指令模板的方塊圖;圖8A-D係說明根據本發明之實施例之示範性特定向量友善指令格式的方塊圖;圖9係根據本發明之一實施例之暫存器架構的方塊圖;圖10A係說明根據本發明之實施例之如下兩者的方塊圖:示範性循序(in-order)管線,以及示範性暫存器重新命名亂序(out-of-order)發佈/執行管線;圖10B係說明如下兩者之方塊圖:循序架構核心的示範性實施例,以及示範性暫存器重新命名亂序發佈/執行架構核心,上述兩者將包括於根據本發明之實施例的處理器中;圖11A至圖11B例示出更特定的示範性循序核心架構之方塊圖,該核心將係晶片中的若干邏輯區塊(包括相同類型及/或不同類型的其他核心)中之一者;圖12係根據本發明之實施例之處理器的方塊圖,該處理器可具有一個以上核心,可具有整合型記憶體控制器,且可具有整合型圖形元件(graphics);圖13係根據本發明之一實施例之示範性系統的方塊圖;圖14係根據本發明之一實施例之第一更特定的示範性系統之方塊圖; 圖15係根據本發明之一實施例之第二更特定的示範性系統之方塊圖;圖16係根據本發明之一實施例之SoC(系統單晶片)的方塊圖;圖17係對照根據本發明之實施例之軟體指令轉換器的用途之方塊圖,該轉換器係用以將來源指令集中之二進位指令轉換成目標指令集中之二進位指令。
較佳實施例之詳細說明
概述
向量機可被設計成處理「多維度」資料結構,其中向量之每個元件對應於資料結構之獨特維度。舉例而言,若向量機被程式規劃成涵蓋三維結構(例如「立方體」),則可以產生向量,該向量具有對應於立方體寬度之第一元件、對應於立方體長度之第二元件及對應於立方體高度之第三元件。
一般技藝人士理解在計算系統中計算多維度結構可能需要具有兩個或兩個以上維度包括超過三個維度的結構。然而,為了簡單起見,本申請案主要提供實例。
當特定大小被分配至多維度結構時,結構可分解成許多不同「部分」,該等部分等於每個結構之維度的相應大小的乘積。舉例而言,圖3A視覺上描述3x3x3立方體301。因為立方體之長度、寬度及高度維度中之每一者為3,所以立方體主要由3*3*3=27個單獨部分組成。不同程式規劃環 境可被設計成允許對多維度結構的每個部分進行唯一地定址。
作為簡單實例,參看立圖3A之立方體301,程式可決定對立方體之具體部分著以具體顏色。若立方體之每個區段被組配成唯一地可定址的,則改變顏色可僅藉由直接定址具體區段並且改變其顏色來進行。為了更具體描述,每個區段之資訊欄位可保持於儲存器及/或記憶體(例如,系統記憶體)中。對於每個區段可保持的資訊量(例如,對於每個區段所保持的資訊欄位之數量)隨著個別區段位址在整個系統定址方案中之顯著性而變。
舉例而言,參看圖3B,若立方體301之個別區段位址對應於系統位址302之最低級位元,則對於27個唯一地可定址區段中之每一者可保持項目的一個可定址資料(例如,資訊的一個位元組)。相反,參看圖3C,若存在兩個最低級系統位址位元303附加至個別區段位址304中之每一者,則對於27個唯一地可定址區段中之每一者可保持資料的四個可定址項目(例如,資訊的四個位元組)。
一或多個快取列的資訊可予以保留用於每個區段,其方法僅為在系統位址方案中將區段位址部分304進一步結構化至「左側」(即,附加足夠更多的較低級位元至個別區段位址之右側)。因此,對於每個區段所保持的資訊量為可組配的,然而在二進位位址00000(十進位0)至二進位位址11010(十進位26)範圍內的「基本」二進位位址方案需要能夠唯一地定址每個區段。
回到改變立方體301之一個區段之顏色的實例,對於每個區段所保持的資訊欄位中之一者對應於區段顏色。判定其顏色將要改變之區段的位址。然後執行寫入操作(例如,儲存指令),其目標位址包括具體區段之位址並且其組成寫入資料包括將要寫入至與區段顏色對應之區段資訊的新值。
本發明針對自動計算區段位址之指令SHIFTINSIDE。亦即,根據上文剛剛描述之以上示範性過程,SHIFTINSIDE指令自動判定多維度結構之具體目標區段的位址成分。
在一實施例中,SHIFTINSIDE指令呈SHIFTINSIDE V1;V2之形式。具體而言,SHIFTINSIDE指令接受兩個輸入向量運算元:1)第一輸入向量運算元V1,其定義目標多維度結構之維度及維度之相應大小;以及,2)第二輸入向量運算元V2,其定義需要位址的多維度結構之特定區段。
具體而言,根據一實施例,V1表達如下:V1=X_(N-1);X_(N-2);...;X_(1);X_(0)其係針對具有N個維度之多維度結構。在此,V1之每個X_(i)元件對應於第i個維度之大小。舉例而言,對於圖3A之立方體301,V1=3;3;3。根據一實施例,V2表達如下:V2=Y_(N-1);Y_(N-2);...;Y_(1);Y_(0)。
在此,V2對應於設為目標之多維度結構的區段 之坐標。根據一種方法,一個區段對應於多維度結構之「起點」並且區段坐標藉由在每個維度上自起點之區段偏移而指定為某一區段。
舉例而言,若立方體301之下方、前側、左側區段305為起點,則其坐標可指定為V2=0;0;0。相反,若立方體之上方、後側、右側區段306為目標區段(並且起點保持為區段305),則區段306之坐標可指定為V2=2;2;2。在此,應注意區段306之坐標指定為自區段305之偏移。亦即,自區段305開始,若在寬度方向上前進兩個區段,然後在長度方向上再前進兩個區段,然後在高度方向上最後前進兩個區段,則可到達區段306。
根據此觀點,目標區段之位址可指定為:SHIFTINSIDE結果=(Y_(N-1)*X_(N-2)*X_(N-3)...X_(1)*X_(0))+(Y_(N-2)*X_(N-3)...X_(1)*X_(0))+...+(Y_(1)*X_(0))+(Y_(0))。
在立方體區段306被設為目標的實例中,以上方程對應於
SHIFTINSIDE結果=(2*3*3)+(2*3)+2=18+6+2=26。
在具有在0至26範圍內定址之27個區段的3x3x3立方體的情況下,其中0對應於起點,應注意位址應對應於自起點之「最遠的」區段。藉由識別自起點區段305最遠的 區段306,驗證以上計算。
在此,SHIFTINSIDE指令基本上計算到達目標區段之位址所需要的位址空間「距離」。以另一種方式觀察,SHIFTINSIDE指令計算自起點區段開始到達目標區段所需要計數的區段的數量。
舉例而言,以上實例中之首項(2*3*3)=18為在可到達第三階309之前需要「清除」或超越的立方體301之第一及第二階307、308上之結合區段的總數。第二項(2*3)=6對應於在到達具有目標區段306之列或行之前需要清除或超越的第三階309上之區域310中的區段之數量。第三項2對應於在到達目標區段306之前需要清除(以「最左邊的」(起點中心)區段開始)的區域311中之區段的數量。
SHIFTINSIDE指令之結果基本上為純量,其識別到達目標區段位址所需要的自起點區段位址的偏移。在此,無論起點區段305之真實位址為何,其可假定具有任何值X,經由執行SHIFTINSIDE指令,區段306之位址可理解為X+26。
圖4展示出SHIFTINSIDE指令之方法。如圖4中觀察,SHIFTINSIDE指令接受具有結構之每個維度之元件的第一向量(401),其中每個元件指定其相應維度之大小。SHIFTINSIDE指令亦接受第二向量(402),其定義需要位址之結構區段的坐標。然後,SHIFTINSIDE指令判定到達預期區段所需要計數或超越的自起點區段開始的區段之數量(403)。此判定基本上對應於計算對應於目標區段位址的自 起點區段位址之偏移。
在選擇性實行方案中,提供對應於起點區段位址X的額外純量輸入運算元(404)。SHIFTINSIDE指令將起點區段位址X加總至在過程403中計算之偏移以便提供作為指令合量之區段位址(而非僅提供作為合量之偏移)(405)。
圖5展示出SHIFTINSIDE指令之邏輯電路設計。如圖5中觀察,第一暫存器501接受具有結構之每個維度之元件的第一向量,其中每個元件指定其相應維度之大小。第二暫存器502接受第二向量,其定義需要位址的結構區段之坐標。邏輯電路503被設計成判定到達預期區段需要計數或超越的自起點區段開始之區段之數量。又,此判定基本上對應於計算對應於目標區段位址的自起點區段位址之偏移。純量結果可儲存於純量暫存器空間或向量暫存器空間中,此取決於實行方案。若為後者,則目的向量之元件應理解為予以保留以便儲存純量值。此外,一個輸入向量運算元暫存器可再用於儲存結果。
在選擇性實行方案中,額外輸入暫存器504保持對應於起點區段位址X的純量輸入運算元。加法器將起點區段位址X加總至來自邏輯503之偏移以便提供作為指令合量之區段位址(而非僅提供作為合量之偏移)。純量輸入運算元可自純量暫存器空間或向量暫存器空間讀取,此取決於實行方案。若為後者,則向量之元件應理解為予以保留以便儲存純量值。
示範性指令格式
本文中描述之指令之實施例可以不同格式來體現。例如,本文中描述之指令之可實施為VEX格式、一般向量友善格式或其他格式。下文論述VEX格式及一般向量友善格式之細節。另外,下文詳述示範性系統、架構及管線。可在此等系統、架構及管線上執行指令之實施例,但不限於詳述之彼等系統、架構及管線。
VEX指令格式
VEX編碼允許指令具有兩個以上運算元,且允許SIMD向量暫存器的長度超過128個位元。VEX前綴的使用提供三運算元(或更多)語法。例如,先前兩運算元指令執行諸如A=A+B的運算,此運算會覆寫來源運算元。VEX前綴的使用使得運算元能夠執行諸如A=B+C的非破壞性運算。
圖6A展示出示範性AVX指令格式,其包括VEX前綴602、實際運算碼(real opcode)欄位630、Mod R/M位元組640、SIB位元組650、位移欄位662及IMM8 672。圖6B展示出圖6A的哪些欄位組成完整的運算碼欄位674及基本操作欄位642。圖6C說明圖6A的哪些欄位組成暫存器索引欄位644。
VEX前綴(位元組0-2)602係按三位元組形式予以編碼。第一位元組係格式欄位640(VEX位元組0,位元[7:0]),其包含顯式C4位元組值(用於辨別C4指令格式的獨特值)。第二至第三位元組(VEX位元組1-2)包括提供特定能力的許多位元欄位。具體而言,REX欄位605(VEX位元組 1,位元[7-5])由VEX.R位元欄位(VEX位元組1,位元[7]-R)、VEX.X位元欄位(VEX位元組1,位元[6]-X)及VEX.B位元欄位(VEX位元組1,位元[5]-B)組成。指令之其他欄位如此項技術中已知的來編碼暫存器索引之下三個位元(rrr、xxx及bbb),因此藉由增添VEX.R、VEX.X及VEX.B而形成Rrrr、Xxxx及Bbbb。運算碼對映欄位615(VEX位元組1,位元[4:0]-mmmmm)包括用來編碼隱式引導運算碼位元組的內容。W欄位664(VEX位元組2,位元[7]-W)由符號VEX.W來表示,且取決於指令而提供不同功能。VEX.vvvv 620(VEX位元組2,位元[6:3]-vvvv)之作用可包括以下各者:1)VEX.vvvv編碼以反轉(1的補數)形式指定的第一來源暫存器運算元,且針對具有兩個或兩個以上來源運算元的指令有效;2)VEX.vvvv編碼針對某些向量移位以1的補數形式指定的目的地暫存器運算元;或3)VEX.vvvv不編碼任何運算元,該欄位得以保留且應包含1111b。若VEX.L 668大小欄位(VEX位元組2,位元[2]-L)=0,則其指示128位元的向量;若VEX.L=1,則其指示256位元的向量。前綴編碼欄位625(VEX位元組2,位元[1:0]-pp)為基本操作欄位提供額外位元。
實際運算碼欄位630(位元組3)亦稱為運算碼位元組。操作碼之一部分在此欄位中指定。
MOD R/M欄位640(位元組4)包括MOD欄位642(位元[7-6])、Reg欄位644(位元[5-3])及R/M欄位646(位元[2-0])。Reg欄位644之作用包括以下各者:編碼目的地暫存 器運算元或來源暫存器運算元(rrr或Rrrr),或者被視為運算碼擴展且不用來編碼任何指令運算元。R/M欄位646的作用包括以下各者:編碼參考記憶體位址之指令運算元,或者編碼目的地暫存器運算元或來源暫存器運算元。
比例、索引、基址(SIB)-比例欄位650之內容(位元組5)包括用於記憶體位址產生的SS652(位元[7-6])。SIB.xxx 654之內容(位元[5-3])及SIB.bbb 656之內容(位元[2-0])已在先前關於暫存器索引Xxxx及Bbbb提到。
位移欄位662及立即欄位(IMM8)672含有位址資料。
一般向量友善指令格式
向量友善指令格式係適合於向量指令的指令格式(例如,存在特定針對向量運算的某些欄位)。雖然描述了經由向量友善指令格式支援向量運算及純量運算兩者的實施例,但替代性實施例僅使用向量運算向量友善指令格式。
圖7A至圖7B係說明根據本發明之實施例之一般向量友善指令格式及其指令模板的方塊圖。圖7A係說明根據本發明之實施例之一般向量友善指令格式及其A類指令模板的方塊圖;而圖7B係說明根據本發明之實施例之一般向量友善指令格式及其B類指令模板的方塊圖。具體而言,一般向量友善指令格式700,針對其定義了A類及B類指令模板,兩個指令模板皆包括非記憶體存取705指令模板及記憶體存取720指令模板。在向量友善指令格式的情況下,術語一般代表不與任何特定指令集相關的指令格式。
雖然將描述的本發明之實施例中,向量友善指令格式支援以下各者:64個位元組的向量運算元長度(或大小)與32個位元(4個位元組)或64個位元(8個位元組)的資料元件寬度(或大小)(且因此,64個位元組的向量由16個雙字大小的元件或者8個四字大小的元件組成);64個位元組的向量運算元長度(或大小)與16個位元(2個位元組)或8個位元(1個位元組)的資料元件寬度(或大小);32個位元組的向量運算元長度(或大小)與32個位元(4個位元組)、64個位元(8個位元組)、16個位元(2個位元組)或8個位元(1個位元組)的資料元件寬度(或大小);以及16個位元組的向量運算元長度(或大小)與32個位元(4個位元組)、64個位元(8個位元組)、16個位元(2個位元組)或8個位元(1個位元組)的資料元件寬度(或大小);但替代性實施例可支援更大、更小及/或不同的向量運算元大小(例如,256個位元組的向量運算元)與更大、更小及/或不同的資料元件寬度(例如,128個位元(16個位元組)的資料元件寬度)。
圖7A中的A類指令模板包括:1)在非記憶體存取705指令模板內,展示出非記憶體存取、完全捨位(full round)控制型操作710指令模板及非記憶體存取、資料轉換型操作715指令模板;以及2)在記憶體存取720指令模板內,展示出記憶體存取、暫時725指令模板及記憶體存取、非暫時730指令模板。圖7B中的B類指令模板包括:1)在非記憶體存取705指令模板內,展示出非記憶體存取、寫入遮罩控制、部分捨位控制型操作712指令模板及非記憶體存取、寫入遮罩 控制、vsize型操作717指令模板;以及2)在記憶體存取720指令模板內,展示出記憶體存取、寫入遮罩控制727指令模板。
一般向量友善指令格式700包括以下欄位,下文按圖7A至圖7B中說明之次序列出該等欄位。結合上文之論述,在一實施例中,參考下文在圖7A至圖7B及圖8中提供的格式細節,可利用非記憶體存取指令類型705或記憶體存取指令類型720。可在下文描述之暫存器位址欄位744中識別輸入向量運算元及目的地之位址。以上討論之選擇性實施例亦包括亦可在位址欄位744中指定的純量輸入。
格式欄位740-在此欄位中的特定值(指令格式識別符值)獨特地識別向量友善指令格式,且因此識別呈向量友善指令格式的指令在指令串流中的出現。因而,此欄位在以下意義上來說係選擇性的:僅具有一般向量友善指令格式之指令集並不需要此欄位。
基本操作欄位742-其內容辨別不同的基本操作。
暫存器索引欄位744-其內容(直接或經由位址產生)指定來源及目的地運算元之位置,在暫存器或記憶體中。此等包括充足數目個位元,以自PxQ(例如,32x512、16x128、32x1024、64x1024)暫存器檔案選擇N個暫存器。雖然在一實施例中,N可至多為三個來源及一個目的地暫存器,但替代性實施例可支援更多或更少的來源及目的地暫存器(例如,可支援至多兩個來源,其中此等來源中之一者亦可充當目的地,可支援至多三個來源,其中此等來源中 之一者亦可充當目的地,可支援至多兩個來源及一個目的地)。
修飾符欄位746-其內容區分呈一般向量友善指令格式的指定記憶體存取之指令的出現與不指定記憶體存取之指令的出現;即,區分非記憶體存取705指令模板與記憶體存取720指令模板。記憶體存取操作讀取及/或寫入至記憶體階層(在一些情況下,使用暫存器中的值來指定來源及/或目的地位址),而非記憶體存取操作不讀取及/或寫入至記憶體階層。雖然在一實施例中此欄位亦在執行記憶體位址計算的三種不同方式之間進行選擇,但替代性實施例可支援執行記憶體位址計算的更多、更少或不同的方式。
擴增操作欄位750-其內容辨別除基本操作外還將執行多種不同操作中之哪一者。此欄位係內容脈絡特定的。在本發明之一實施例中,此欄位分成類別欄位768、α(alpha)欄位752及β(beta)欄位754。擴增操作欄位750允許在單個指令而不是2個、3個或4個指令中執行各組常見操作。
比例欄位760-其內容允許針按比例縮放索引欄位之內容以用於記憶體位址產生(例如,針對使用2比例*索引+基址之位址產生)。
位移欄位762A-其內容被用作記憶體位址產生之部分(例如針對使用2比例*索引+基址+位移之位址產生)。
位移因數欄位762B(請注意,位移欄位762A緊靠在位移因數欄位762B上方的並列定位指示使用一個欄位或 另一個欄位)-其內容被用作記憶體位址產生之部分;其指定位移因數,將按記憶體位址之大小(N)按比例縮放該位移因,其中N係記憶體存取中之位元組之數目(例如,針對使用2比例*索引+基址+按比例縮放後的位移的位址產生)。忽略冗餘的低位位元,且因此,將位移因數欄位之內容乘以記憶體運算元總大小(N)以便產生將用於計算有效位址的最終位移。N的值由處理器硬體在執行時間基於完整的運算碼欄位774(本文中稍後描述)及資料調處欄位754C予以判定。位移欄位762A及位移因數欄位762B在以下意義上來說係選擇性的:該等欄位不用於非記憶體存取705指令模板,及/或不同實施例可僅實施該兩個欄位中之一者或不實施該兩個欄位。
資料元件寬度欄位764-其內容辨別將使用許多資料元件寬度中之哪一者(在一些實施例中,針對所有指令;在其他實施例中,僅針對該等指令中之一些)。此欄位在以下意義上來說係選擇性的:若使用運算碼之某一態樣支援僅一個資料元件寬度及/或支援多個資料元件寬度,則不需要此欄位。
寫入遮罩欄位770-其內容以每資料元件位置為基礎控制目的地向量運算元中之該資料元件位置是否反映基本操作及擴增操作的結果。A類指令模板支援合併-寫入遮蔽,而B類指令模板支援合併-寫入遮蔽及歸零-寫入遮蔽兩者。在合併時,向量遮罩允許保護目的地中之任何元件集合,以免在任何操作(由基本操作及擴增操作指定)執行期 間更新;在另一實施例中,在對應的遮罩位元為0時,保持目的地之每一元件的舊值。相比之下,在歸零時,向量遮罩使得目的地中之任何組之元件在執行任何操作期間歸零(由基址操作及增強操作來指定);在一個實施例中,當對應遮罩位元具有0值時,目的地之元件設定為0。此功能之子集為控制所執行之操作之向量長度(即,所限定之元件自第一個至最後一個的跨度)的能力;然而,所限定之元件不需要為連續的。因此,寫入遮罩欄位770允許部分向量運算,其中包括載入、儲存、算術、邏輯等。雖然所描述的本發明之實施例中,寫入遮罩欄位770的內容選擇許多寫入遮罩暫存器中之一者,其含有將使用之寫入遮罩(且因此,寫入遮罩欄位770的內容間接識別將執行之遮蔽),但替代性實施例改為或另外允許寫入遮罩欄位770的內容直接指定將執行之遮蔽。
立即欄位772-其內容允許指定立即。此欄位在以下意義上係選擇性的:在不支援立即的一般向量友善格式之實行方案中不存在此欄位,且在不使用立即的指令中不存在此欄位。
類別欄位768-其內容區分不同類別的指令。參看圖7A至圖7B,此欄位之內容在A類指令與B類指令之間進行選擇。在圖7A至圖7B中,使用圓角正方形來指示欄位中存在特定值(例如,在圖7A至圖7B中針對類別欄位768分別為類別A768A及類別B768B)。
A類指令模板
在A類非記憶體存取705指令模板的情況下,α欄位752被解譯為RS欄位752A,其內容辨別將執行不同擴增操作類型中之哪一者(例如,針對非記憶體存取、捨位型操作710指令模板及非記憶體存取、資料轉換型操作715指令模板,分別指定捨位752A.1及資料轉換752A.2),而β欄位754辨別將執行指定類型之操作中之哪一者。在非記憶體存取705指令模板的情況下,比例欄位760、位移欄位762A及位移比例欄位762B不存在。
非記憶體存取指令模板-完全捨位控制型操作
在非記憶體存取完全捨位控制型操作710指令模板中,β欄位754被解譯為捨位控制欄位754A,其內容提供靜態捨位。雖然在本發明之所描述實施例中,捨位控制欄位754A包括抑制所有浮點異常(SAE)欄位756及捨位操作控制欄位758,但替代性實施例可支援可將兩個此等概念編碼至同一欄位中或者僅具有此等概念/欄位中之一者或另一者(例如,可僅具有捨位操作控制欄位758)。
SAE欄位756-其內容辨別是否要停用異常事件報告;當SAE欄位756的內容指示啟用了抑制時,特定指令不報告任何種類之浮點異常旗標且不提出任何浮點異常處置程式。
捨位操作控制欄位758-其內容辨別要執行一組捨位操作中之哪一者(例如,捨進(Round-up)、捨去(Round-down)、向零捨位(Round-towards-zero)及捨位至最近數值(Round-to-nearest))。因此,捨位操作控制欄位758 允許以每指令為基礎改變捨位模式。在本發明之一實施例中,其中處理器包括用於指定捨位模式之控制暫存器,捨位操作控制欄位750的內容置換該暫存器值。
非記憶體存取指令模板-資料轉換型操作
在非記憶體存取資料轉換型操作715指令模板中,β欄位754被解譯為資料轉換欄位754B,其內容辨別將執行許多資料轉換中之哪一者(例如,非資料轉換、拌和、廣播)。
在A類之記憶體存取720指令模板的情況下,α欄位752解譯為逐出提示欄位752B,其內容區分將要使用逐出提示中之哪一個(在圖7A中,分別對於記憶體存取、時序725指令模板及記憶體存取、非時序730指令模板來指定時序752B.1及非時序752B.2),而β欄位754解譯為資料調處欄位754C,其內容區分將要執行許多資料調處操作(也稱為基元)中之哪一個(例如,無調處;廣播;來源之增頻轉換;及目的地之降頻轉換)。記憶體存取720指令模板包括比例欄位760,且選擇性地包括位移欄位762A或位移比例欄位762B。
向量記憶體指令在有轉換支援的情況下執行自記憶體的向量載入及至記憶體的向量儲存。與規整向量指令一樣,向量記憶體指令以逐個資料元件方式將資料轉移自/至記憶體,並且實際上轉移之元件由被選擇為寫遮罩之向量遮罩的內容來規定。
記憶體存取指令模板-暫時
暫時資料係可能很快被再使用以便足以受益於 快取的資料。然而,此係提示,且不同處理器可以不同方式實施提示,其中包括完全忽略該提示。
記憶體存取指令模板-非暫時
非時序資料為不可能足夠快地再用以便受益於1級快取記憶體中之高速存取的資料並且應優先逐出。然而,此係提示,且不同處理器可以不同方式實施提示,其中包括完全忽略該提示。
B類指令模板
在B類指令模板的情況下,α欄位752被解譯為寫入遮罩控制(Z)欄位752C,其內容辨別由寫入遮罩欄位770控制之寫入遮蔽應為合併還是歸零。
在B類非記憶體存取705指令模板的情況下,β欄位754之部分被解譯為RL欄位757A,其內容辨別將執行不同擴增操作類型中之哪一者(例如,針對非記憶體存取、寫入遮罩控制、部分捨位控制型操作712指令模板及非記憶體存取、寫入遮罩控制、VSIZE型操作717指令模板,分別指定捨位757A.1及向量長度(VSIZE)757A.2),而β欄位754之剩餘部分辨別將執行指定類型之操作中之哪一者。在非記憶體存取705指令模板的情況下,比例欄位760、位移欄位762A及位移比例欄位762B不存在。
在非記憶體存取、寫入遮罩控制、部分捨位控制型操作710指令模板中,β欄位754之剩餘部分被解譯為捨位操作欄位759A,且異常事件報告被停用(特定指令不報告任何種類之浮點異常旗標且不提出任何浮點異常處置程式)。
捨位操作欄位759A-就像捨位操作欄位758一樣,其內容辨別要執行一組捨位操作中之哪一者(例如,捨進、捨去、向零捨位及捨位至最近數值)。因此,捨位操作控制欄位759A允許以每指令為基礎改變捨位模式。在本發明之一實施例中,其中處理器包括用於指定捨位模式之控制暫存器,捨位操作控制欄位750的內容置換該暫存器值。
在非記憶體存取、寫入遮罩控制、VSIZE型操作717指令模板中,β欄位754之剩餘部分被解譯為向量長度欄位759B,其內容辨別將對許多資料向量長度中之哪一者執行(例如,128、256或512個位元組)。
在B類記憶體存取720指令模板的情況下,β欄位754之部分被解譯為廣播欄位757B,其內容辨別是否將執行廣播型資料調處操作,而β欄位754之剩餘部分被解譯為向量長度欄位759B。記憶體存取720指令模板包括比例欄位760,且選擇性地包括位移欄位762A或位移比例欄位762B。
關於一般向量友善指令格式700,完整的運算碼欄位774被展示出為包括格式欄位740、基本操作欄位742及資料元件寬度欄位764。雖然展示出的一實施例中,完整的運算碼欄位774包括所有此等欄位,但在不支援所有此等欄位的實施例中,完整的運算碼欄位774不包括所有此等欄位。完整的運算碼欄位774提供運算碼(opcode)。
擴增操作欄位750、資料元件寬度欄位764及寫入遮罩欄位770允許以一般向量友善指令格式以每指令為基礎來指定此等特徵。
寫遮罩欄位與資料元件寬度欄位之組合產生分型指令,因為其允許基於不同資料元件寬度來應用遮罩。
在類別A及類別B中所建立的各種指令模板在不同情形中有益。在本發明之一些實施例中,不同處理器或處理器內的不同核心可僅支援類別A,僅支援類別B,或支援上述兩種類別。舉例而言,意欲用於通用計算的高效能通用亂序核心可僅支援類別B,主要意欲用於圖形及/或科學(通量)計算之核心可僅支援類別A,且意欲用於上述兩種計算的核心可支援上述兩種類別(當然,具有來自兩種類別之模板及指令的某種混合但不具有來自兩種類別之所有模板及指令的核心在本發明之範圍內)。另外,單一處理器可包括多個核心,其全部支援相同類別或其中不同核心支援不同類別。舉例而言,在具有分開的圖形及通用核心之處理器中,主要意欲用於圖形及/或科學計算之圖形核心中之一者可僅支援類別A,而通用核心中之一或多者可為僅支援類別B的高效能通用核心,其具有亂序執行及暫存器重新命名,意欲用於通用計算。不具有單獨圖形核心之另一種處理器可包括同時支援A類及B類之一個更多個通用按次序或無序核心.當然,在本發明之不同實施例中,來自一個類別之特徵亦可實施於另一個類別中。用高階語言撰寫之程式將被翻譯(例如,即時編譯或靜態編譯)成各種不同可執行形式,其中包括:1)僅具有目標處理器所支援執行之類別的指令之形式;或2)具有替代性常式且具有控制流碼之形式,其中該等常式係使用所有類別的指令之不同組合來 撰寫的,該控制流碼基於當前正在執行該碼的處理器所支援之指令來選擇要執行的常式。
示範性特定向量友善指令格式
圖8A-D係說明根據本發明之實施例之示範性特定向量友善指令格式的方塊圖。圖8展示出特定向量友善指令格式800,該格式在以下意義上係特定的:其指定欄位之位置、大小、解譯及次序以及彼等欄位中之一些的值。特定向量友善指令格式800可用來擴展x86指令集,且因此,該等欄位中之一些與現有x86指令集及其擴展(例如AVX)中所使用的欄位類似或相同。此格式保持與現有x86指令集以及擴展的前綴編碼欄位、實際運算碼位元組欄位、MOD R/M欄位、SIB欄位、位移欄位及立即欄位一致。從圖7之欄位說明圖8之欄位對映至該等欄位中。
應理解,雖然出於說明目的在一般向量友善指令格式700的情況下參考特定向量友善指令格式800來描述本發明之實施例,但除非主張,否則本發明不限於特定向量友善指令格式800。例如,一般向量友善指令格式700考量了各種欄位之各種可能大小,而特定向量友善指令格式800被示出為具有特定大小的欄位。藉由特定實例,雖然在特定向量友善指令格式800中將資料元件寬度欄位764說明為一個位元的欄位,但本發明不限於此(亦即,一般向量友善指令格式700考量了資料元件寬度欄位764之其他大小)。
一般向量友善指令格式700包括以下欄位,下文按圖8A中說明之次序列出該等欄位。
EVEX前綴(位元組0-3)802-以四位元組形式予以編碼。
格式欄位740(EVEX位元組0,位元[7:0])-第一位元組(EVEX位元組0)係格式欄位740,且其含有0x62(在本發明之一實施例中,用來辨別向量友善指令格式的獨特值)。
第二個第四位元組(EVEX位元組1-3)包括提供具體能力的許多位元欄位。
REX欄位805(VEX位元組1,位元[7-5])由EVEX.R位元欄位(EVEX位元組位元[7]-R)、EVEX.X位元欄位(EVEX位元組1,位元[6]-X)及757BEX位元組1,位元[5]-B)組成)。EVEX.R、EVEX.X及EVEX.B位元欄位提供的功能性與對應的VEX位元欄位相同,且系使用1的補數形式予以編碼,亦即,ZMM0系編碼為1111B,ZMM15系編碼為0000B。指令之其他欄位如此項技術中已知的來編碼暫存器索引之下三個位元(rrr、xxx及bbb),因此藉由增添EVEX.R、EVEX.X及EVEX.B而形成Rrrr、Xxxx及Bbbb。
REX’欄位810-此係REX’欄位810之第一部分,且係用來編碼擴展式32暫存器組的上16或下16個暫存器之EVEX.R’位元欄位(EVEX位元組1,位元[4]-R’)。在本發明之一實施例中,以位元反轉格式儲存此位元與如下文所指示之其他位元,以區別於(以熟知的x86 32位元模式)BOUND指令,其實際運算碼位元組為62,但在MOD R/M欄位(下文描述)中不接受MOD欄位中的值11;本發明之替代性實施例不以反轉格式儲存此位元與下文所指示之其他 位元。值1用於編碼較低位16暫存器。換言之,藉由組合EVEX.R’、EVEX.R及來自其他欄位的其他RRR,形成R’Rrrr。
運算碼對映欄位815(EVEX位元組1,位元[3:0]-mmmm)-其內容編碼隱式引導運算碼位元組(0F、0F 38或0F 3)。
資料元件寬度欄位764(EVEX位元組2,位元[7]-W)-係由符號EVEX.W表示。EVEX.W用於定義資料類型之間隔尺寸(大小)(32-位元資料元件或64-位元資料元件)。
EVEX.vvvv 820(EVEX位元組2,位元[6:3]-vvvv)-EVEX.vvvv的作用可包括以下各者:1)EVEX.vvvv編碼以反轉(1的補數)形式指定的第一來源暫存器運算元,且針對具有兩個或兩個以上來源運算元的指令有效;2)EVEX.vvvv編碼針對某些向量移位以1的補數形式指定的目的地暫存器運算元;或3)EVEX.vvvv不編碼任何運算元,該欄位得以保留且應包含1111b。因此,EVEX.vvvv欄位820編碼以反轉(1的補數)形式儲存的第一來源暫存器指定符之4個低位位元。視指令而定,額外不同EVEX位元欄位用於伸展說明符大小至32個暫存器。
EVEX.U 768類別欄位(EVEX位元組2,位元[2]-U)-若EVEX.U=0,則其指示類別A或EVEX.U0;若EVEX.U=1,則其指示類別B或EVEX.U1。
前綴編碼欄位825(EVEX位元組2,位元[1:0]-pp)-提供基本操作欄位之額外位元。除了以EVEX前綴格式提供 對舊式SSE指令的支援,此亦具有緊縮SIMD前綴的益處(不需要一個位元組來表達SIMD前綴,EVEX前綴僅需要2個位元)。在一實施例中,為了以舊式格式及EVEX前綴格式支援使用SIMD前綴(66H、F2H、F3H)之舊式SSE指令,將此等舊式SIMD前綴編碼至SIMD前綴編碼欄位中;且在執行時間將其展開成舊式SIMD前綴,然後提供至解碼器之PLA(因此PLA可執行此等舊式指令的舊式格式及EVEX格式兩者,而無需修改)。雖然較新的指令可直接使用EVEX前綴編碼欄位之內容作為運算碼擴展,但某些實施例以類似方式展開以獲得一致性,但允許此等舊式SIMD前綴指定不同含義。替代性實施例可重新設計PLA來支援2位元的SIMD前綴編碼,且因此不需要該展開。
α欄位752(EVEX位元組3,位元[7]-EH;亦稱為EVEX.EH、EVEX.rs、EVEX.RL、EVEX.寫入遮罩控制及EVEX.N;亦由α說明)-如先前所描述,此欄位係內容脈絡特定的。
β欄位754(EVEX位元組3,位元[6:4]-SSS,亦稱為EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB;亦由βββ說明)-如先前所描述,此欄位係內容脈絡特定的。
REX’欄位810-此係REX’欄位之剩餘部分,且係可用來編碼擴展式32暫存器組的上16或下16個暫存器之EVEX.V’位元欄位(EVEX位元組3,位元[3]-V’)。以位元反轉格式儲存此位元。值1用於編碼較低位16暫存器。換言 之,藉由組合EVEX.V’、EVEX.vvvv,形成V’VVVV。
寫入遮罩欄位770(EVEX位元組3,位元[2:0]-kkk)-其內容如先前所描述指定寫入遮罩暫存器中之暫存器的索引。在本發明之一實施例中,特定值EVEX.kkk=000之特殊作用系暗示不對特定指令使用寫入遮罩(此可以各種方式來實施,其中包括使用硬連線(hardwired)至所有硬體的寫入遮罩或繞過(bypass)遮蔽硬體之硬體)。
實際運算碼欄位830(位元組4)亦稱為運算碼位元組。操作碼之一部分在此欄位中指定。
MOD R/M欄位840(位元組5)包括MOD欄位842、Reg欄位844及R/M欄位846。如先前所描述,MOD欄位842的內容區分記憶體存取操作與非記憶體存取操作。Reg欄位844之作用可概述為兩種情形:編碼目的地暫存器運算元或來源暫存器運算元,或者被視為運算碼擴展且不用來編碼任何指令運算元。R/M欄位846之作用可包括以下各者:編碼參考記憶體位址之指令運算元,或者編碼目的地暫存器運算元或來源暫存器運算元。
比例、索引、基址(SIB)位元組(位元組6)-如先前所描述,比例欄位850的內容係用於記憶體位址產生。SIB.xxx 854及SIB.bbb 856-此等欄位之內容已在先前關於暫存器索引Xxxx及Bbbb提到。
移位欄位762A(位元組7-10)-當MOD欄位842含有10時,位元組7-10係移位欄位762A,且其與舊式32位元 的位移(disp32)相同地起作用,且在位元組細微度上起作用。
位移因數欄位762B(位元組7)-當MOD欄位842含有01時,位元組7係位移因數欄位762B。此欄位之位置與舊式x86指令集8位元的位移(disp8)相同,其在位元組細微度上起作用。因為disp8經正負號擴展,所以disp8僅可解決在-128與127位元組之間的位移;就64個位元組的快取列(cache line)而言,disp8使用8個位元,該等位元可被設定為僅四個實際有用的值-128、-64、0及64;因為常常需要更大範圍,所以使用disp32;然而,disp32需要4個位元組。與disp8及disp32相比,位移因數欄位762B係disp8之重新解譯;當使用位移因數欄位762B時,實際位移係由位移因數欄位的內容乘以記憶體運算元存取之大小(N)判定。此類型之位移被稱為disp8*N。此減少了平均指令長度(單個位元組用於位移,但具有大得多的範圍)。此壓縮位移係基於如下假設:有效位移係記憶體存取之細微度的倍數,且因此,不需要編碼位址位移之冗餘低位位元。換言之,位移因數欄位762B替代了舊式x86指令集8位元的位移。因此,位移因數欄位762B的編碼方式與x86指令集8位元的位移相同(因此ModRM/SIB編碼規則無變化),其中唯一例外為,disp8超載(overload)至disp8*N。換言之,編碼規則或編碼長度無變化,而僅僅係硬體對位移值的解譯有變化(硬體需要按記憶體運算元之大小來按比例縮放該位移以獲得逐個位元組的位址位移)。
立即欄位772如先前所描述而操作。
完整的運算碼欄位
圖8B係說明特定向量友善指令格式800的欄位之方塊圖,該等欄位組成根據本發明之一實施例之完整的運算碼欄位774。具體而言,完整的運算碼欄位774包括格式欄位740、基本操作欄位742及資料元件寬度(W)欄位764。基本操作欄位742包括前綴編碼欄位825、運算碼對映欄位815及實際運算碼欄位830。
暫存器索引欄位
圖8C係說明特定向量友善指令格式800的欄位之方塊圖,該等欄位組成根據本發明之一實施例之暫存器索引欄位744。具體而言,暫存器索引欄位744包括REX欄位805、REX’欄位810、MODR/M.reg欄位844、MODR/M.r/m欄位846、VVVV欄位820、xxx欄位854及bbb欄位856。
擴增操作欄位
圖8D係說明特定向量友善指令格式800的欄位之方塊圖,該等欄位組成根據本發明之一實施例之擴增操作欄位750。當類(U)欄位768含有0時,其表示EVEX.U0(A類768A);當其含有1時,其表示EVEX.U1(B類768B)。當U=0且MOD欄位842含有11(表示非記憶體存取操作)時,α欄位752(EVEX位元組3,位元[7]-EH)被解譯為rs欄位752A。當rs欄位752A含有1(捨位752A.1)時,β欄位754(EVEX位元組3,位元[6:4]-SSS)被解譯為捨位控制欄位754A。捨位控制欄位754A包括一個位元的SAE欄位756及兩 個位元的捨位操作欄位758。當rs欄位752A含有0(資料轉換752A.2)時,β欄位754(EVEX位元組3,位元[6:4]-SSS)被解譯為三個位元的資料轉換欄位754B。當U=0且MOD欄位842含有00、01或10(表示記憶體存取操作)時,α欄位752(EVEX位元組3,位元[7]-EH)被解譯為收回提示(EH)欄位752B且β欄位754(EVEX位元組3,位元[6:4]-SSS)被解譯為三個位元的資料調處欄位754C。
當U=1時,α欄位752(EVEX位元組3,位元[7]-EH) 被解譯為寫入遮罩控制(Z)欄位752C。當U=1且MOD欄位842含有11(表示非記憶體存取操作)時,β欄位754之部分(EVEX位元組3,位元[4]-S0)被解譯為RL欄位757A;當RL欄位757A含有1(捨位757A.1)時,β欄位754之剩餘部分(EVEX位元組3,位元[6-5]-S2-1)被解譯為捨位操作欄位759A,而RL欄位757A含有0(VSIZE 757.A2)時,β欄位754之剩餘部分(EVEX位元組3,位元[6-5]-S2-1)被解譯為向量長度欄位759B(EVEX位元組3,位元[6-5]-L1-0)。當U=1且MOD欄位842含有00、01或10(表示記憶體存取操作)時,β欄位754(EVEX位元組3,位元[6:4]-SSS)被解譯為向量長度欄位759B(EVEX位元組3,位元[6-5]-L1-0)及廣播欄位757B(EVEX位元組3,位元[4]-B)。
示範性暫存器架構
圖9係根據本發明之一實施例之暫存器架構900的方塊圖。在所說明之實施例中,有32個向量暫存器910,其寬度為512個位元;此等暫存器被稱為zmm0至zmm31。 下16個zmm暫存器的低位256個位元覆迭在暫存器ymm0-16上。下16個zmm暫存器的低位128個位元(ymm暫存器的低位128個位元)覆迭在暫存器xmm0-15上。特定向量友善指令格式800如下表中所說明對此等覆迭暫存器檔案進行操作。
換言之,向量長度欄位759B在最大長度與一或 多個其他較短長度之間進行選擇,其中每一此種較短長度係前一長度的一半長度;且不具有向量長度欄位759B的指令模板對最大向量長度進行操作。另外,在一實施例中,特定向量友善指令格式800之B類指令模板對緊縮或純量單精度/雙精度浮點資料及緊縮或純量整數資料進行操作。純量操作為對於暫存器中之最低階資料元件位置zmm/ymm/xmm執行之操作;視實施例而定,較高階資料元件位置與其在指令之前所處之位置保持相同或歸零。
寫入遮罩暫存器915-在所說明之實施例中,有8 個寫入遮罩暫存器(k0至k7),每一寫入遮罩暫存器的大小為64個位元。在替代實施例中,寫入遮罩暫存器915的大小為16個位元。如先前所描述,在本發明之一實施例中,向量遮罩暫存器k0無法用作寫入遮罩;當通常將指示k0之編碼被用於寫入遮罩時,其選擇固線式寫入遮罩0xFFFF,從而有效停用對該指令之寫入遮蔽。
通用暫存器925-在所說明之實施例中,有十六個 64位元的通用暫存器,該等暫存器與現有的x86定址模式一起用來定址記憶體運算元。藉由名稱RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8至R15來參考此等暫存器。
純量浮點堆迭暫存器檔案(x87堆迭)945,上面混 迭有MMX緊縮整數平板暫存器檔案950-在所說明之實施例中,x87堆迭係八個元件的堆迭,用來使用x87指令集擴展 對32/64/80個位元的浮點資料執行純量浮點運算;而MMX暫存器用來對64個位元的緊縮整數資料執行運算以及保存運算元,該等運算元係用於在MMX暫存器與XMM暫存器之間執行的一些運算。
本發明之替代實施例可使用更寬或更窄暫存 器。另外,本發明之替代實施例可使用更多、更少或不同暫存器檔案及暫存器。
示範性核心架構、處理器及電腦架構
處理器核心可以不同方式、針對不同目的並且在不同處理器中來實施。舉例而言,此類核心的實行方案可包括:1)意欲用於通用計算的通用循序核心;2)意欲用於通用計算的高效能通用亂序核心;3)主要意欲用於圖形及/或科學(通量)計算的專用核心。不同處理器之實行方案可包括:1)CPU,其包括意欲用於通用計算的一或多個通用循序核心及/或意欲用於通用計算的一或多個通用亂序核心;以及2)共處理器,其包括主要意欲用於圖形及/或科學(通量)的一或多個專用核心。此等不同處理器導致不同電腦系統架構,該等架構可包括:1)共處理器在與CPU分離之晶片上;2)共處理器與CPU在同一封裝中,但在單獨的晶粒上;3)共處理器與CPU在同一晶粒上(在此情況下,此共處理器有時被稱為專用邏輯,諸如整合型圖形及/或科學(通量)邏輯,或被稱為專用核心);以及4)系統單晶片(system on a chip),其在與所描述CPU(有時被稱為應用核心或應用處理器)相同的晶粒上包括上述共處理器及額外功能性。接下來 描述示範性核心架構,後續接著對示範性處理器及電腦架構的描述。
示範性核心架構
循序及亂序核心方塊圖
圖10A係說明根據本發明之實施例之如下兩者的方塊圖:示範性循序管線,以及示範性暫存器重新命名亂序發佈/執行管線。圖10B係說明如下兩者之方塊圖:循序架構核心的示範性實施例,以及示範性暫存器重新命名亂序發佈/執行架構核心,上述兩者將包括於根據本發明之實施例的處理器中。圖10A至圖10B之實線方框說明循序管線及循序核心,虛線方框之選擇性增添說明暫存器重新命名亂序發佈/執行管線及核心。鑒於按次序態樣為無序態樣之子集,描述無序態樣。
在圖10A中,處理管線1000包括提取級段1002、長度解碼級段1004、解碼級段1006、分配級段1008、重新命名級段1010、排程(亦稱為分派或發佈)級段1012、暫存器讀取/記憶體讀取級段1014、執行級段1016、回寫/記憶體寫入級段1018、異常處置級段1022及確認級段1024。
圖10B展示出處理器核心1090,其包括耦接至執行引擎單元1050之前端單元1030,且執行引擎單元1050及前端單元1030兩者皆耦接至記憶體單元1070。處理器核心1090可為精簡指令集計算(RISC)核心、複雜指令集計算(CISC)核心、極長指令字(VLIW)核心,或者混合式或替代性核心類型。作為另一選擇,核心1090可為專用核心,諸 如網路或通訊核心、壓縮引擎、共處理器核心、通用計算圖形處理單元(GPGPU)核心、圖形核心或類似者。
前端單元1030包括耦接至指令快取記憶體單元 1034之分支預測單元1032,指令快取記憶體單元1034耦接至指令轉譯後備緩衝器(TLB)1036,指令TLB 1036耦接至指令提取單元1038,指令提取單元1038耦接至解碼單元1040。解碼單元1040(或解碼器)可解碼指令,且產生一或多個微操作、微碼進入點、微指令、其他指令或其他控制信號作為輸出,上述各者係自原始指令解碼所得,或以其他方式反映原始指令,或係由原始指令導出。可使用各種不同機構來實施解碼單元1040。合適機構之實例包括但不限於詢查表、硬體實施、可規劃邏輯陣列(PLAs)、微碼唯讀記憶體(ROMs)等。在一實施例中,核心1090包括儲存用於某些巨集指令(macroinstruction)之微碼的微碼ROM或其他媒體(例如在解碼單元1040中,或者在前端單元1030內)。解碼單元1040耦接至執行引擎單元1050中的重新命名/分配器單元1052。
執行引擎單元1050包括重新命名/分配器單元 1052,其耦接至引退(retirement)單元1054及一或多個排程器單元1056之集合。排程器單元1056表示任何數目個不同排程器,其中包括保留站、中央指令視窗等。排程器單元1056耦接至實體暫存器檔案單元1058。實體暫存器檔案單元1058中之每一者表示一或多個實體暫存器檔案,其中不同的實體暫存器檔案單元儲存一或多個不同的資料類型, 諸如純量整數、純量浮點、緊縮整數、緊縮浮點、向量整數、向量浮點、狀態(例如,指令指標器,即下一個待執行指令的位址)等。在一實施例中,實體暫存器檔案單元1058包含向量暫存器單元、寫入遮罩暫存器單元及純量暫存器單元。此等暫存器單元可提供架構向量暫存器、向量遮罩暫存器及通用暫存器。引退單元1054與實體暫存器檔案單元1058重迭,以說明可實施暫存器重新命名及亂序執行的各種方式(例如,使用重新排序緩衝器及引退暫存器檔案;使用未來檔案、歷史緩衝器及引退暫存器檔案;使用暫存器對照表及暫存器集區)。引退單元1054及實體暫存器檔案單元1058耦接至執行叢集1060。執行叢集1060包括一或多個執行單元1062之集合及一或多個記憶體存取單元1064之集合。執行單元1062可執行各種運算(例如,移位、加法、減法、乘法)且對各種類型之資料(例如,純量浮點、緊縮整數、緊縮浮點、向量整數、向量浮點)進行執行。雖然一些實施例可包括專門針對特定功能或功能集合之許多執行單元,但其他實施例可包括僅一個執行單元或多個執行單元,該等執行單元均執行所有功能。排程器單元1056、實體暫存器檔案單元1058及執行叢集1060被示出為可能係多個,因為某些實施例針對某些類型之資料/運算產生單獨的管線(例如,純量整數管線、純量浮點/緊縮整數/緊縮浮點/向量整數/向量浮點管線,及/或記憶體存取管線,其中每一管線具有其自有之排程器單元、實體暫存器檔案單元及/或執行叢集;且在單獨的記憶體存取管線的情況下,所實施 的某些實施例中,唯有此管線之執行叢集具有記憶體存取單元1064)。亦應瞭解在使用單獨管線時,此等管線中之一或多者可為無序發料/執行並且其餘部分為按次序的。
記憶體存取單元1064之集合耦接至記憶體單元 1070,記憶體單元1070包括耦接至資料快取記憶體單元1074的資料TLB單元1072,資料快取記憶體單元1074耦接至2階(L2)快取記憶體單元1076。在一示範性實施例中,記憶體存取單元1064可包括載入單元、儲存位址單元及儲存資料單元,其中每一者耦接至記憶體單元1070中的資料TLB單元1072。指令快取記憶體單元1034進一步耦接至記憶體單元1070中之2級(L2)快取記憶體單元1076。L2快取記憶體單元1076耦接至一或多個其他階快取記憶體且最終耦接至主記憶體。
舉例而言,示例性暫存器重命名、無序發料/執 行核心架構可如下實施管線1000:1)指令提取1038執行提取及長度解碼級1002及1004;2)解碼單元1040執行解碼級1006;3)重命名/分配器單元1052執行分配級1008及重命名級1010;4)排程器單元1056執行排程級1012;5)物理暫存器檔案單元1058及記憶體單元1070執行暫存器讀取/記憶體讀取級1014;執行叢集1060執行執行級1016;6)記憶體單元1070及物理暫存器檔案單元1058執行寫回/記憶體寫入級1018;7)各種單元可涉及異常處置級1022;以及8)引退單元1054及物理暫存器檔案單元1058執行提交級1024。
核心1090可支援一或多個指令集(例如,x86指令 集(以及一些擴展,較新版本已新增該等擴展);MIPS Technologie公司(Sunnyvale,CA)的MIPS指令集;ARM Holdings公司(Sunnyvale,CA)的ARM指令集(以及選擇性的額外擴展,諸如NEON)),其中包括本文中所描述之指令。在一實施例中,核心1090包括支援緊縮資料指令集擴展(例如,AVX1、AVX2及/或先前所描述之某種形式的一般向量友善指令格式(U=0及/或U=1))的邏輯,進而允許使用緊縮資料來執行許多多媒體應用所使用的操作。
應瞭解核心可支援多執行緒處理(執行兩個或兩 個以上並行操作或執行緒組),並且可以各種方法來實現此舉,該等方法包括時間分割多執行緒處理、同時多執行緒處理(其中單一物理核心為物理核心同時多執行緒處理之每個執行緒提供邏輯核心),或其組合(例如,時間分割提取及解碼及其後之同時多執行緒處理,例如Intel®超執行緒技術)。
雖然在亂序執行的情況下描述暫存器重新命 名,但應理解,暫存器重新命名可用於循序架構中。雖然處理器之所說明實施例亦包括單獨的指令與資料快取記憶體單元1034/1074以及共享的L2快取記憶體單元1076,但替代性實施例可具有用於指令與資料兩者的單個內部快取記憶體,諸如1階(L1)內部快取記憶體或多階內部快取記憶體。在一些實施例中,系統可包括內部快取記憶體與在核心及/或處理器外部的外部快取記憶體的組合。或者,所有快取記憶體可在核心及/或處理器外部。
特定示範性循序核心架構
圖11A至圖11B說明更特定的示範性循序核心架構之方塊圖,該核心將係晶片中的若干邏輯區塊(包括相同類型及/或不同類型的其他核心)中之一者。視應用而定,邏輯塊經由高頻寬互連網路(例如,環狀網路)與一些固定功能邏輯、記憶體I/O介面及其他必需I/O邏輯通訊。
圖11A係根據本發明之實施例的單個處理器核 心及其至晶粒上互連網路1102的連接以及其2階(L2)快取記憶體局域子集1104之方塊圖。在一實施例中,指令解碼器1100支援x86指令集與緊縮資料指令集擴展。L1快取記憶體1106允許對快取記憶體進行低延時存取,存取至純量單元及向量單元中。雖然在一實施例中(為了簡化設計),純量單元1108及向量單元1110使用單獨的暫存器組(分別使用純量暫存器1112及向量暫存器1114),且在純量單元1108與向量單元1110之間傳遞的資料被寫入至記憶體,然後自1階(L1)快取記憶體1106被讀回,但本發明之替代性實施例可使用不同方法(例如,使用單個暫存器組,或包括允許在兩個暫存器檔案之間傳遞資料而無需寫入及讀回的通訊路徑)。
L2快取記憶體局域子集1104係全域L2快取記憶 體之部分,全域L2快取記憶體分成單獨的局域子集,每個處理器核心一個局域子集。每一處理器核心具有至其自有之L2快取記憶體局域子集1104的直接存取路徑。處理器核心所讀取之資料係儲存於其自有之L2快取記憶體子集1104 中且可被快速存取,此存取係與其他處理器核心存取其自有之局域L2快取記憶體子集1104並行地進行。由處理器核心所寫入之資料係儲存於其自有之L2快取記憶體子集1104中且必要時自其他子集清除掉。環狀網路確保共享資料之相干性。環形網路係雙向的,以允許諸如處理器核心、L2快取記憶體及其他邏輯區塊之代理在晶片內彼此通訊。每個環狀資料路徑在每個方向上為1012-位元寬的。
圖11B係根據本發明之實施例的圖11A中之處理 器核心之部分的展開圖。圖11B包括L1快取記憶體1104之L1資料快取記憶體1106A部分,以及關於向量單元1110及向量暫存器1114之更多細節。具體而言,向量單元1110係寬度為16之向量處理單元(VPU)(參見寬度為16之ALU 1128),其執行整數、單精度浮點數及雙精度浮點數指令中之一或多者。VPU支援由拌和單元1120對暫存器輸入進行拌和、由數值轉換單元1122A-B進行數值轉換,以及由複製單元1124對記憶體輸入進行複製。寫入遮罩暫存器1126允許預測所得向量寫入。
具有整合型記憶體控制器及圖形之處理器
12係根據本發明之實施例之處理器1200的方塊圖,該處理器可具有一個以上核心,可具有整合型記憶體控制器,且可具有整合型圖形元件。圖12中的實線方框說明處理器1200,其具有單個核心1202A、系統代理1210、一或多個匯流排控制器單元1216之集合,而虛線方框之選擇性增添說明替代性處理器1200,其具有多個核心 1202A-N、位於系統代理單元1210中的一或多個整合型記憶體控制器單元1214之集合,以及專用邏輯1208。
因此,處理器1200之不同實行方案可包括: 1)CPU,其中專用邏輯1208係整合型圖形及/或科學(通量)邏輯(其可包括一或多個核心),且核心1202A-N係一或多個通用核心(例如,通用循序核心、通用亂序核心、上述兩者之組合);2)共處理器,其中核心1202A-N係大量主要意欲用於圖形及/或科學(通量)之專用核心;以及3)共處理器,其中核心1202A-N係大量通用循序核心。因此,處理器1200可為通用處理器、共處理器或專用處理器,諸如網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU(通用圖形處理單元)、高通量多重整合核心(MIC)共處理器(包括30個或更多核心)、嵌入式處理器或類似者。處理器可實施於一或多個晶片上。處理器1200可為一或多個基板之部分及/或可使用許多處理技術(例如BiCMOS、CMOS或NMOS)中之任一者將處理器1200實施於一或多個基板上。
記憶體階層包括該等核心內的一或多階快取記 憶體、一或多個共享快取記憶體單元1206之集合、耦接至整合型記憶體控制器單元1214之集合的外部記憶體(圖中未示)。共享快取記憶體單元1206之集合可包括一或多個中階快取記憶體,諸如2階(L2)、3階(L3)、4階(L4),或其他階快取記憶體、末階快取記憶體(LLC),及/或上述各者之組合。雖然在一實施例中,環式互連單元1212對整合型圖形邏輯1208、共享快取記憶體單元1206之集合及系統代理 單元1210/整合型記憶體控制器單元1214進行互連,但替代性實施例可使用任何數種熟知技術來互連此等單元。在一實施例中,在一或多個快取記憶體單元1206與核心1202A-N之間維持同調性。
在一些實施例中,核心1202A-N中之一或多者能 夠進行多執行緒處理。系統代理1210包括協調並操作核心1202A-N之彼等組件。系統代理單元1210可包括,例如,功率控制單元(PCU)及顯示單元。PCU可為調節核心1202A-N及整合型圖形邏輯1208之功率狀態所需要的邏輯及組件,或者包括上述邏輯及組件。顯示單元用於驅動一或多個外部連接之顯示器。
核心1202A-N就架構指令集而言可為同質的或 異質的;即,核心1202A-N中之兩者或兩者以上可能能夠執行同一指令集,而其他核心可能僅能夠執行該指令集之子集或不同的指令集。
示範性電腦架構
圖13至圖16係示範性電腦架構之方塊圖。此項技術中已知用於以下裝置之其他系統設計及組配亦為合適的:膝上型電腦、桌上型電腦、手持PCs、個人數位助理、工程工作站、伺服器、網路裝置、網路集線器、交換機、嵌入處理器、數位信號處理器(DSPs)、圖形裝置、視訊遊戲裝置、機上盒、微控制器、行動電話、可攜媒體播放器、手持裝置及各種其他電子裝置。總體上,能夠併有如本文揭示之處理器及/或其他執行邏輯的種類繁多的系統或電 子裝置通常為合適的。
現在參考圖13,所展示為根據本發明之一實施例 之系統1300的方塊圖。系統1300可包括一或多個處理器1310、1315,該等處理器耦接至控制器集線器1320。在一實施例中,控制器集線器1320包括圖形記憶體控制器集線器(GMCH)1390及輸入/輸出集線器(IOH)1350(上述兩者可位於單獨的晶片上);GMCH 1390包括記憶體控制器及圖形控制器,記憶體1340及共處理器1345耦接至該等控制器;IOH 1350將輸入/輸出(I/O)裝置1360耦接至GMCH 1390。或者,記憶體控制器及圖形控制器中之一者或兩者整合於(如本文中所描述之)處理器內,記憶體1340及共處理器1345直接耦接至處理器1310,且控制器集線器1320與IOH 1350位於單個晶片中。
圖13中用虛線表示額外處理器1315之可選擇性 質。每一處理器1310、1315可包括本文中所描述之處理核心中之一或多者且可為處理器1200之某一版本。
記憶體1340可為,例如,動態隨機存取記憶體 (DRAM)、相位變化記憶體(PCM),或上述兩者之組合。對於至少一個實施例,控制器集線器1320經由以下各者與處理器1310、1315通訊:諸如前端匯流排(FSB)之多分支匯流排(multi-drop bus)、諸如快速路徑互連(QuickPath Interconnect;QPI)之點對點介面,或類似類似連接1395。
在一實施例中,共處理器1345係專用處理器,諸如高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖 形處理器、GPGPU、嵌入式處理器或類似者。在一實施例中,控制器集線器1320可包括整合型圖形加速器。
就優點量度範圍而言,實體資源1310與1315之間 可能有各種差異,其中包括架構特性、微架構特性、熱特性、功率消耗特性及類似者。
在一實施例中,處理器1310執行控制一般類型資 料處理操作的指令。協同處理器指令可嵌入於指令中。處理器1310認定此等共處理器指令係應由已附接之共處理器1345執行的類型。因此,處理器1310在共處理器匯流排或其他互連上發佈此等共處理器指令(或表示共處理器指令的控制信號)至共處理器1345。共處理器1345接受並執行接收到之共處理器指令。
現在參考圖14,所展示為根據本發明之一實施例 之第一更特定的示範性系統1400的方塊圖。如圖14展示,多處理器系統1400為點對點互連系統,並且包括至經由點對點互連1450耦接之第一處理器1470及第二處理器1480。
處理器1470及1480中之每一者可為處理器1200 之某一版本。在本發明之一實施例中,處理器1470及1480分別為處理器1310及1315,而共處理器1438為共處理器1345。在另一實施例中,處理器1470及1480分別為處理器1310共處理器1345。
所展示處理器1470及1480分別包括整合型記憶 體控制器(IMC)單元1472及1482。處理器1470亦包括點對點(P-P)介面1476及1478,作為其匯流排控制器單元的部分; 類似地,第二處理器1480包括P-P介面1486及1488。處理器1470、1480可使用P-P介面電路1478、1488經由點對點(P-P)介面1450交換資訊。如圖14中所示,IMC 1472及1482將處理器耦接至各別記憶體,亦即,記憶體1432及記憶體1434,該等記憶體可為局部地附接至各別處理器之主記憶體的部分。
處理器1470、1480各自可使用點對點介面電路 1476、1494、1486、1498經由個別P-P介面1452、1454與晶片組1490交換資訊。晶片集1490可選擇性地經由高性能介面1439與協同處理器1438交換資訊。在一實施例中,共處理器1438係專用處理器,諸如高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU、嵌入式處理器或類似者。
共享快取記憶體(未圖示)可包括於處理器中或 兩種處理器外部,仍經由P-P互連與處理器連接,以使得若處理器置於低功率模式下,則一種或兩種處理器之局部快取記憶體資訊可儲存於共享快取記憶體。
晶片組1490可經由介面1496耦接至第一匯流排 1416。在一實施例中,第一匯流排1416可為周邊組件互連(PCI)匯流排,或者諸如高速PCI匯流排或另一第三代I/O互連匯流排之匯流排,但本發明之範疇不限於此。
如圖14中所示,各種I/O裝置1414以及匯流排橋 接器1418可耦接至第一匯流排1416,匯流排橋接器1418將第一匯流排1416耦接至第二匯流排1420。在一實施例中, 一或多個額外處理器1415(諸如,共處理器、高通量MIC處理器、GPGPU、加速器(諸如,圖形加速器或數位信號處理(DSP)單元)、場可規劃閘陣列,或任何其他處理器)耦接至第一匯流排1416。在一實施例中,第二匯流排1420可為低針腳數(LPC)匯流排。各種裝置可耦接至第二匯流排1420,其中包括,例如,鍵盤及/或滑鼠1422、通訊裝置1427,以及儲存單元1428(諸如磁碟機或其他大容量儲存裝置),在一實施例中,儲存單元1428可包括指令/程式碼及資料1430。此外,音訊I/O 1424可耦接至第二匯流排1420。注意其他架構為可能的。例如,代替圖14之點對點架構,系統可實施多分支匯流排或其他此種架構。
現在參考圖15,所展示為根據本發明之一實施例 之第二更特定的示範性系統1500的方塊圖。圖14及15中之相同元件具有相同參考數字,並且圖14之某些態樣自圖15中省略以便避免使圖15之其他態樣模糊。
圖15說明處理器1470、1480分別可包括整合型記 憶體及I/O控制邏輯(「CL」)1472及1482。因此,CL 1472及1482包括整合型記憶體控制器單元且包括I/O控制邏輯。圖15說明不僅記憶體1432、1434耦接至CL 1472、1482,而且I/O裝置1514耦接至控制邏輯1472、1482。舊式I/O裝置1515耦接至晶片組1490。
現在參考圖16,所展示為根據本發明之一實施例 之SoC 1600的方塊圖。圖12中的類似元件帶有相似參考數字。虛線框亦為更進階SoCs上之任擇特徵。在圖16中,互 連單元1602耦接至以下各者:應用處理器1610,其包括一或多個核心202A-N之集合及共享快取記憶體單元1206;系統代理單元1210;匯流排控制器單元1216;整合型記憶體控制器單元1214;一或多個共處理器1620之集合,其可包括整合型圖形邏輯、影像處理器、音訊處理器及視訊處理器;靜態隨機存取記憶體(SRAM)單元1630;直接記憶體存取(DMA)單元1632;以及用於耦接至一或多個外部顯示器的顯示單元1640。在一實施例中,共處理器1620包括專用處理器,諸如網路或通訊處理器、壓縮引擎、GPGPU、高通量MIC處理器、嵌入式處理器或類似者。
本文揭示之機構之實施例可以硬體、軟體、韌體 或此等實施方法之組合來實施。本發明實施例可實施為在可規劃系統上執行之電腦程式或程式碼,該等可規劃系統包含至少一個處理器、儲存系統(包括依電性及非依電性記憶體及/或儲存元件)、至少一個輸入裝置及至少一個輸出裝置。
可將程式碼(諸如圖14中說明之程式碼1430)應 用於輸入指令,用來執行本文中所描述之功能且產生輸出資訊。輸出資訊可以已知方式用於一或多個輸出裝置。出於本申請案之目的,處理系統包括具有處理器之任何系統,諸如數位信號處理器(DSP)、微控制器、特殊應用積體電路(ASIC)或微處理器。
程式碼可以高階程序性或物件導向的程式設計 語言來實施以便與處理系統通訊。若需要,程式碼亦可以 組合或機器語言來實施。事實上,本文描述之機構在範圍上不限於任何特定程式設計語言。在任何情況下,該語言可為編譯語言或解譯語言。
至少一個實施例之一或多個態樣可藉由儲存於 代表處理器內之各種邏輯的機器可讀媒體上之代表性指令來實施,該等指令在藉由機器讀取時導致機器產生邏輯以便執行本文描述之技術。被稱為「IP核心」之此等表現形式可儲存於有形、機器可讀媒體上並且供應至不同客戶或製造設施以便加載至實際上構造邏輯或處理器之製造機器中。
此等機器可讀儲存媒體可包括(但不限於)由機 器或裝置製造的非暫時性有形物品配置,其中包括:儲存媒體,諸如硬碟、任何其他類型之碟片(包括軟碟片、光碟、光碟片-唯讀記憶體(CD-ROM)、可重寫光碟片(CD-RW)及磁光碟)、半導體裝置(諸如唯讀記憶體(ROM)、隨機存取記憶體(RAM)(諸如動態隨機存取記憶體(DRAM)、靜態隨機存取記憶體(SRAM))、可抹除可規劃唯讀記憶體(EPROM)、快閃記憶體、電氣可抹除可規劃唯讀記憶體(EEPROM)、相位變化記憶體(PCM)、磁性或光學卡),或者適合於儲存電子指令的任何其他類型之媒體。
因此,本發明實施例亦包括非暫時性、有形機器 可讀媒體,其含有指令或含有定義本文描述之結構、電路、設備、處理器及/或系統特徵的設計資料,例如硬體描述語言(HDL)。此等實施例亦可被稱為程式產品。
仿真(包括二進位轉譯、程式碼漸變(code morphing)等)
在一些情況下,指令轉換器可用於將指令自來源指令集轉換至目標指令集。舉例而言,指令轉換器可翻譯(例如,使用靜態二進位翻譯、動態二進位翻譯包括動態編譯)、變形、模擬或以其他方式將指令轉換成將要由核心處理之一或多個其他指令。指令轉換器可以軟體、硬體、韌體或其組合來實施。指令轉換器可在處理器上、處理器外或部分在處理器上並且部分在處理器外。
圖17係對照根據本發明之實施例之軟體指令轉換器的用途之方塊圖,該轉換器係用以將來源指令集中之二進位指令轉換成目標指令集中之二進位指令。在所說明之實施例中,指令轉換器係軟體指令轉換器,但指令轉換器或者可以軟體、韌體硬體、或其各種組合來實施。圖17展示出,可使用x86編譯器1704來編譯用高階語言1702撰寫的程式以產生x86二進位碼1706,x86二進位碼1706自然可由具有至少一個x86指令集核心之處理器1716執行。具有至少一個x86指令集核心之處理器1716表示可執行與具有至少一個x86指令集核心之Intel處理器大體相同的功能之任何處理器,上述執行係藉由相容地執行或以其他方式處理以下各者:(1)Intel x86指令集核心之指令集的大部分或(2)旨在在具有至少一個x86指令集核心之Intel處理器上運行的應用程式或其他軟體之目標碼版本,以便達成與具有至少一個x86指令集核心之Intel處理器大體相同的結果。x86編譯器1704表示可操作以產生x86二進位碼1706(例如目標 碼)之編譯器,其中x86二進位碼1706在經額外連結處理或未經額外連結處理的情況下可在具有至少一個x86指令集核心之處理器1716上執行。類似地,圖17展示出,可使用替代性指令集編譯器1708來編譯用高階語言1702撰寫的程式以產生替代性指令集二進位碼1710,替代性指令集二進位碼1710自然可由不具有至少一個x86指令集核心之處理器1714(例如,具有多個核心的處理器,該等核心執行MIPS Technologie公司(Sunnyvale,CA)之MIPS指令集,及/或該等核心執行ARM Holdings公司(Sunnyvale,CA)之ARM指令集)執行。使用指令轉換器1712將x86二進位碼1706轉換成自然可由不具有一個x86指令集核心之處理器1714執行的碼。此轉換後的碼不可能與替代性指令集二進位碼1710相同,因為能夠實現此操作的指令轉換器很難製作,然而,轉換後的碼將完成一般操作且由來自替代性指令集之指令構成。因此,指令轉換器1712表示經由仿真、模擬或任何其他處理程序來允許不具有x86指令集處理器或核心的處理器或其他電子裝置執行x86二進位碼1706的軟體、韌體、硬體或其組合。
501‧‧‧第一暫存器
502‧‧‧第二暫存器
503‧‧‧邏輯電路
504‧‧‧額外輸入暫存器

Claims (20)

  1. 一種用以在多維度資料結構中計算位址偏移之設備,其包含:a)一第一暫存器,其用於儲存一第一輸入向量運算元,該第一輸入向量運算元係要對於多維度資料結構之每一維度具有一元件,該第一輸入向量運算元的每一元件用於指定其各自維度之大小;b)一第二暫存器,其用於儲存一第二輸入向量運算元,該第二輸入向量運算元係用於指定該多維度資料結構之一具體區段的坐標;c)一功能單元,其用於計算相對於該多維度資料結構之起點區段位址的該具體區段之位址偏移。
  2. 如申請專利範圍第1項之設備,其進一步包含用於儲存該起點區段之該位址的一第三暫存器。
  3. 如申請專利範圍第2項之設備,其進一步包含耦接至該邏輯電路之輸出及該第三暫存器的一加法器,該加法器用於計算該具體區段之位址。
  4. 如申請專利範圍第1項之設備,其中該邏輯電路被設計成計算:(Y_(N-1)*X_(N-2)*X_(N-3)...X_(1)*X_(0))+(Y_(N-2)*X_(N-3)...X_(1)*X_(0))+...+(Y_(1)*X_(0))+(Y_(0)) 其中N為該多維度結構之維度之數量,且其中X為該第一向量輸入運算元,且其中Y為該第二向量輸入運算元。
  5. 如申請專利範圍第1項之設備,其中結果係儲存於該等第一與第二暫存器中之一者之中。
  6. 如申請專利範圍第1項之設備,其中該結果係儲存於純量暫存器空間之中。
  7. 一種在多維度資料結構中計算位址偏移之方法,其包含下列步驟:a)提取並且解碼一指令;b)提取該指令的輸入運算元資料,包括提取:一第一輸入向量運算元,該第一輸入向量運算元具有多維度資料結構之每一維度的一元件,該第一輸入向量運算元的每一元件指定其各自維度之大小;一第二輸入向量運算元,該第二輸入向量運算元指定該多維度資料結構之一具體區段的坐標;c)將該等第一及第二輸入向量運算元呈遞至一功能單元,該功能單元計算相對於該多維度資料結構之起點區段位址的該具體區段之位址偏移。
  8. 如申請專利範圍第7項之方法,其進一步包括提取該起點區段的該位址之步驟。
  9. 如申請專利範圍第8項之方法,其進一步包括將該起點區段的該位址加總之步驟。
  10. 如申請專利範圍第7項之方法,其中該計算該位址偏移包括:(Y_(N-1)*X_(N-2)*X_(N-3)...X_(1)*X_(0))+(Y_(N-2)*X_(N-3)...X_(1)*X_(0))+...+(Y_(1)*X_(0))+(Y_(0))其中N為該多維度結構之維度之數量,且其中X為該第一向量輸入運算元,且其中Y為該第二向量輸入運算元。
  11. 如申請專利範圍第7項之方法,其進一步包含將來自該功能單元之結果儲存至純量暫存器空間之中之步驟。
  12. 如申請專利範圍第7項之方法,其進一步包含將來自該功能單元之結果儲存至向量暫存器空間之中之步驟。
  13. 一種在多維度資料結構中存取資料之方法,其包含下列步驟:a)提取並且解碼一指令;b)提取該指令的輸入運算元資料,包括提取:一第一輸入向量運算元,該第一輸入向量運算元具有多維度資料結構之每一維度的一元件,該第一輸入向量運算元的每一元件指定其各自維度之大小;一第二輸入向量運算元,該第二輸入向量運算元指定該多維度資料結構之一具體區段的坐標;c)將該等第一及第二輸入向量運算元呈遞至一功 能單元,該功能單元計算相對於該多維度資料結構之起點區段位址的該具體區段之位址偏移;d)將該位址偏移加至該起點區段之該位址以構建該具體區段之位址;以及e)使用該具體區段之該位址來存取該具體區段之資料。
  14. 如申請專利範圍第13項之方法,其進一步包括提取該起點區段的該位址之步驟。
  15. 如申請專利範圍第13項之方法,其中該計算該位址偏移包括:(Y_(N-1)*X_(N-2)*X_(N-3)...X_(1)*X_(0))+(Y_(N-2)*X_(N-3)...X_(1)*X_(0))+...+(Y_(1)*X_(0))+(Y_(0))其中N為該多維度結構之維度之數量,且其中X為該第一向量輸入運算元,且其中Y為該第二向量輸入運算元。
  16. 如申請專利範圍第14項之方法,其進一步包含將來自該功能單元之結果儲存至純量暫存器空間之中之步驟。
  17. 如申請專利範圍第14項之方法,其進一步包含將來自該功能單元之結果儲存至向量暫存器空間之中之步驟。
  18. 如申請專利範圍第14項之方法,其中該存取之步驟包括將較低級位元附加至該具體區段之該位址。
  19. 如申請專利範圍第14項之方法,其中該起點區段之該位 址不為零。
  20. 如申請專利範圍第14項之方法,其進一步包含將來自該功能單元之結果儲存至暫存器之中之步驟,該功能單元之輸入運算元係自該暫存器提供至該功能單元。
TW101147787A 2011-12-23 2012-12-17 用於在多維度陣列中之元件偏移計算的指令 TWI517038B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/067078 WO2013095601A1 (en) 2011-12-23 2011-12-23 Instruction for element offset calculation in a multi-dimensional array

Publications (2)

Publication Number Publication Date
TW201342221A TW201342221A (zh) 2013-10-16
TWI517038B true TWI517038B (zh) 2016-01-11

Family

ID=48669242

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101147787A TWI517038B (zh) 2011-12-23 2012-12-17 用於在多維度陣列中之元件偏移計算的指令

Country Status (4)

Country Link
US (2) US9507593B2 (zh)
CN (2) CN107908427B (zh)
TW (1) TWI517038B (zh)
WO (1) WO2013095601A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908427B (zh) 2011-12-23 2021-11-09 英特尔公司 用于多维数组中的元素偏移量计算的指令
WO2013095659A1 (en) 2011-12-23 2013-06-27 Intel Corporation Multi-element instruction with different read and write masks
US9619229B2 (en) 2012-12-27 2017-04-11 Intel Corporation Collapsing of multiple nested loops, methods and instructions
US20160179530A1 (en) * 2014-12-23 2016-06-23 Elmoustapha Ould-Ahmed-Vall Instruction and logic to perform a vector saturated doubleword/quadword add
US9996350B2 (en) 2014-12-27 2018-06-12 Intel Corporation Hardware apparatuses and methods to prefetch a multidimensional block of elements from a multidimensional array
US9875104B2 (en) 2016-02-03 2018-01-23 Google Llc Accessing data in multi-dimensional tensors
CN111651201B (zh) * 2016-04-26 2023-06-13 中科寒武纪科技股份有限公司 一种用于执行向量合并运算的装置和方法
US10726514B2 (en) * 2017-04-28 2020-07-28 Intel Corporation Compute optimizations for low precision machine learning operations
US10534607B2 (en) 2017-05-23 2020-01-14 Google Llc Accessing data in multi-dimensional tensors using adders
US10108538B1 (en) 2017-07-31 2018-10-23 Google Llc Accessing prologue and epilogue data
GB2568776B (en) 2017-08-11 2020-10-28 Google Llc Neural network accelerator with parameters resident on chip
US10541708B1 (en) * 2018-09-24 2020-01-21 Redpine Signals, Inc. Decompression engine for executable microcontroller code
US10514891B1 (en) * 2019-05-24 2019-12-24 Google Llc Multi-input floating-point adder
US11841792B1 (en) * 2019-12-09 2023-12-12 Amazon Technologies, Inc. Instructions with multiple memory access modes
US11210221B2 (en) * 2019-12-10 2021-12-28 Pony Ai Inc. Memory architecture for efficient spatial-temporal data storage and access
CN111565157B (zh) * 2020-04-29 2022-07-01 南京苍穹浩瀚信息科技有限公司 支持多维度协作和无限优先级个数的交换机调度方法
US12063157B2 (en) 2021-06-07 2024-08-13 Microsoft Technology Licensing, Llc Transmitting multi-dimensional data between devices

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5717947A (en) 1993-03-31 1998-02-10 Motorola, Inc. Data processing system and method thereof
US5590297A (en) * 1994-01-04 1996-12-31 Intel Corporation Address generation unit with segmented addresses in a mircroprocessor
US7395298B2 (en) * 1995-08-31 2008-07-01 Intel Corporation Method and apparatus for performing multiply-add operations on packed data
TW364976B (en) * 1996-09-23 1999-07-21 Arm Corp Input operand control in data processing systems
US5903769A (en) 1997-03-31 1999-05-11 Sun Microsystems, Inc. Conditional vector processing
US20030154349A1 (en) 2002-01-24 2003-08-14 Berg Stefan G. Program-directed cache prefetching for media processors
TWI289789B (en) * 2002-05-24 2007-11-11 Nxp Bv A scalar/vector processor and processing system
US6957305B2 (en) 2002-08-29 2005-10-18 International Business Machines Corporation Data streaming mechanism in a microprocessor
US7017028B2 (en) 2003-03-14 2006-03-21 International Business Machines Corporation Apparatus and method for updating pointers for indirect and parallel register access
US7539714B2 (en) * 2003-06-30 2009-05-26 Intel Corporation Method, apparatus, and instruction for performing a sign operation that multiplies
WO2005104027A2 (en) 2004-04-22 2005-11-03 Koninklijke Philips Electronics N.V. Data processing apparatus that provides parallel access to multi-dimensional array of data values
CN100538886C (zh) * 2005-03-04 2009-09-09 中国科学院计算技术研究所 多维数组在动态随机存取存储器上的快速读写方法和装置
US7933405B2 (en) 2005-04-08 2011-04-26 Icera Inc. Data access and permute unit
US20070150697A1 (en) 2005-05-10 2007-06-28 Telairity Semiconductor, Inc. Vector processor with multi-pipe vector block matching
DE112006002680T5 (de) * 2005-10-03 2009-09-24 Trimble Navigation Ltd., Sunnyvale GNSS-Signalverarbeitung mit frequenzabhängiger Biasmodellbildung
US9436468B2 (en) 2005-11-22 2016-09-06 Intel Corporation Technique for setting a vector mask
US20070186210A1 (en) 2006-02-06 2007-08-09 Via Technologies, Inc. Instruction set encoding in a dual-mode computer processing environment
US7383402B2 (en) 2006-06-05 2008-06-03 Sun Microsystems, Inc. Method and system for generating prefetch information for multi-block indirect memory access chains
US7493451B2 (en) 2006-06-15 2009-02-17 P.A. Semi, Inc. Prefetch unit
JP2008158662A (ja) 2006-12-21 2008-07-10 Matsushita Electric Ind Co Ltd メモリアクセストレース情報取得方法、メモリアクセストレース情報取得装置、メモリアクセストレース情報取得プログラム、及び記録媒体
US8321849B2 (en) * 2007-01-26 2012-11-27 Nvidia Corporation Virtual architecture and instruction set for parallel thread computing
GB2475653B (en) 2007-03-12 2011-07-13 Advanced Risc Mach Ltd Select and insert instructions within data processing systems
US8255884B2 (en) 2008-06-06 2012-08-28 International Business Machines Corporation Optimized scalar promotion with load and splat SIMD instructions
US9519947B2 (en) * 2009-09-25 2016-12-13 Nvidia Corporation Architecture and instructions for accessing multi-dimensional formatted surface memory
US8996845B2 (en) 2009-12-22 2015-03-31 Intel Corporation Vector compare-and-exchange operation
US20120216011A1 (en) 2011-02-18 2012-08-23 Darryl Gove Apparatus and method of single-instruction, multiple-data vector operation masking
CN107908427B (zh) 2011-12-23 2021-11-09 英特尔公司 用于多维数组中的元素偏移量计算的指令
WO2013095659A1 (en) 2011-12-23 2013-06-27 Intel Corporation Multi-element instruction with different read and write masks
KR101667772B1 (ko) 2012-08-18 2016-10-19 퀄컴 테크놀로지스, 인크. 프리페칭을 갖는 변환 색인 버퍼
US9996350B2 (en) 2014-12-27 2018-06-12 Intel Corporation Hardware apparatuses and methods to prefetch a multidimensional block of elements from a multidimensional array

Also Published As

Publication number Publication date
CN104081341B (zh) 2017-10-27
US9507593B2 (en) 2016-11-29
WO2013095601A1 (en) 2013-06-27
CN104081341A (zh) 2014-10-01
US20140201497A1 (en) 2014-07-17
CN107908427B (zh) 2021-11-09
US10025591B2 (en) 2018-07-17
TW201342221A (zh) 2013-10-16
CN107908427A (zh) 2018-04-13
US20170075691A1 (en) 2017-03-16

Similar Documents

Publication Publication Date Title
TWI517038B (zh) 用於在多維度陣列中之元件偏移計算的指令
TWI470544B (zh) 用以響應於單一指令而執行橫向加法或減法之系統、裝置及方法
TWI517031B (zh) 用於呈現各別複數之複數共軛根之向量指令
TWI502499B (zh) 執行將寫入罩暫存器轉換成向量暫存器中的索引值列表的系統、裝置及方法
TWI496080B (zh) 轉置指令之技術
TWI498815B (zh) 用以響應於單一指令而執行橫向部分和之系統、裝置及方法
TWI502491B (zh) 用於將一表列索引值轉換成為遮罩值之方法、製造物品及處理器
TWI499976B (zh) 用以產生整數序列的方法、設備、系統及製造物品
TWI501147B (zh) 用於從通用暫存器至向量暫存器的廣播之裝置及方法
TWI525538B (zh) 超級乘加(super madd)指令技術
TWI473015B (zh) 執行向量頻率擴展指令之方法、處理器核心以及製品
CN107220029B (zh) 掩码置换指令的装置和方法
KR20130137702A (ko) 데이터 요소들의 스트라이드 패턴 수집 및 데이터 요소들의 스트라이드 패턴 분산을 위한 시스템, 장치 및 방법
TWI610228B (zh) 用於執行向量位元反轉和交叉的方法和設備
TWI550508B (zh) 用於複製資料結構之設備及方法
TW201339966A (zh) 合併光罩圖案之指令
CN107145335B (zh) 用于大整数运算的向量指令的装置和方法
TWI481991B (zh) 改良型排列指令之裝置及方法
CN108415882B (zh) 利用操作数基础系统转换和再转换的向量乘法
TWI498814B (zh) 用以基於兩個來源寫入遮罩暫存器而產生相依向量之系統、裝置及方法
CN108292228B (zh) 用于基于通道的步进收集的系统、设备和方法
TWI567640B (zh) 用於不引發算術旗標的三輸入運算元加法指令之方法及處理器
TWI482086B (zh) 用以於緊縮資料元件上執行差分編碼之系統、裝置及方法
JP2018502364A (ja) 実行のためのデータ要素の読み込みにおいて空間的局所性を考慮する装置および方法
JP6773378B2 (ja) 3d座標から3dのz曲線インデックスを計算するための機械レベル命令

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees