TWI697836B - 處理包括高功率及標準指令之指令集的方法與處理器 - Google Patents

處理包括高功率及標準指令之指令集的方法與處理器 Download PDF

Info

Publication number
TWI697836B
TWI697836B TW105115348A TW105115348A TWI697836B TW I697836 B TWI697836 B TW I697836B TW 105115348 A TW105115348 A TW 105115348A TW 105115348 A TW105115348 A TW 105115348A TW I697836 B TWI697836 B TW I697836B
Authority
TW
Taiwan
Prior art keywords
power
instructions
processor
field
instruction
Prior art date
Application number
TW105115348A
Other languages
English (en)
Other versions
TW201716990A (zh
Inventor
安可許 瓦瑪
克里斯多夫 弗萊明
尤金 格巴托夫
羅伯特 高
克許那肯斯 席斯堤拉
Original Assignee
美商英特爾股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商英特爾股份有限公司 filed Critical 美商英特爾股份有限公司
Publication of TW201716990A publication Critical patent/TW201716990A/zh
Application granted granted Critical
Publication of TWI697836B publication Critical patent/TWI697836B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4893Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues taking into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/3017Runtime instruction translation, e.g. macros
    • G06F9/30174Runtime instruction translation, e.g. macros for non-native instruction set, e.g. Javabyte, legacy code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30181Instruction operation extension or modification
    • G06F9/30189Instruction operation extension or modification according to execution mode, e.g. mode flag
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Executing Machine-Instructions (AREA)
  • Advance Control (AREA)

Abstract

用於執行高性能指令仿真之裝置及方法。例如,本發明的一個實施例包括處理器,其處理包括高功率及標準指令的指令集,該處理器包含:判定在指定窗內的高功率指令之數量是否高於或低於指定的臨限值之分析模組;執行模式選擇模組,若高功率指令數量高於指定的臨限值,選擇針對高功率指令的本機執行模式,或若高功率指令數量低於指定的臨限值,選擇針對高功率指令的仿真執行模式。

Description

處理包括高功率及標準指令之指令集的方法與處理器
本發明主要有關於電腦處理器的領域。尤其,本發明有關於執行模式選擇之方法與裝置。
指令集或指令集架構(ISA)是關於編程之電腦架構的一部分,包括本機資料類型、指令、暫存器架構、定址模式、記憶體架構、中斷及異常處置、及外部輸入及輸出(I/O)。應注意到術語「指令」在此泛指巨集指令-亦即提供到處理器以供執行之指令-有別於微指令或微碼-其為處理器之解碼器解碼巨集指令的結果。微指令可組態成命令處理器上的執行單元執行操作以實施與巨集指令關聯的邏輯。
ISA與微架構有所區別,微架構是用來實施指令集的一組處理器設計技術。具有不同微架構的處理器可共享一個共同的指令集。例如,Intel® Pentium 4處理器、Intel® CoreTM處理器、及來自美國加州桑尼維爾(Sunnyvale)之先進微裝置(Advanced Micro Devices)公司的處理器實施幾乎 相同的版本的x86指令集(具有一些隨較新版本增加的擴充),但有不同的內部設計。例如,可使用熟知的技術在不同微架構中以不同方式實施ISA的相同暫存器架構,包括專用的實體暫存器、使用暫存器重命名機制(例如,使用暫存器別名表(RAT)、重排序緩衝器(ROB)、引退(retirement)暫存器檔)之一或更多個動態分配的實體暫存器。除非另有所指,在此所用的詞語暫存器架構、暫存器檔、及暫存器是指軟體/程式設計師可見者且指令指定暫存器的方式。當需做區別時,將使用形容詞「邏輯」、「架構型」、或「軟體可見」來指示暫存器架構中的暫存器/檔,而不同的形容詞可用來指定一個既定架構中之暫存器(例如,實體暫存器、重排序緩衝器、引退暫存器、暫存器池)。
指令集包括一或更多個指令格式。一個給定的指令格式界定各種欄位(位元數量、位元位置)以除其他外指定待執行的運算及運算將對其執行之運算元。透過指令模板(或子格式)的界定進一步細分一些指令格式。例如,一個給定指令格式的指令模板可界定成具有指令格式欄位的不同子集(所包括的欄位通常為相同順序,但至少一些有不同位元位置,因為包括較少的欄位),和/或界定成具有不同方式翻譯的給定欄位。使用一個給定的指令格式(且若有界定,在那個指令格式的指令模板的一個給定者中)表達一個給定的指令並指定運算及運算元。指令流為一個特定序列的指令,其中序列中之每一個指令為一個指令格式 中一個指令的具體值(occurrence)。
100‧‧‧一般向量親合指令格式
105‧‧‧無記憶體存取
110‧‧‧無記憶體存取及全捨入控制型運算
112‧‧‧無記憶體存取、寫入遮罩控制及部分捨入控制型運算
115‧‧‧無記憶體存取及資料變換型運算
117‧‧‧無記憶體存取、寫入遮罩控制及VSIZE型運算
120‧‧‧記憶體存取
125‧‧‧記慮體存取及時序
127‧‧‧記憶體存取及寫入遮罩控制
130‧‧‧記憶體存取及非時序
140‧‧‧格式欄位
142‧‧‧基礎運算欄位
144‧‧‧暫存器索引欄位
146‧‧‧修飾符欄位
150‧‧‧輔助運算欄位
152‧‧‧阿爾發(alpha)欄位
152A.1‧‧‧捨入
152A.2‧‧‧資料變換
152A‧‧‧RS欄位
152B‧‧‧驅逐暗示欄位
152B.1‧‧‧時序
152B.2‧‧‧非時序
152C‧‧‧寫入遮罩控制欄位
154‧‧‧貝他(beta)欄位
154A‧‧‧捨入控制欄位
154B‧‧‧資料變換欄位
154C‧‧‧資料操縱欄位
156‧‧‧抑制所有浮點異常欄位
157A‧‧‧RL欄位
157A.1‧‧‧捨入
157A.2‧‧‧向量長度
157B‧‧‧廣播欄位
158‧‧‧捨入運算控制欄位
159A‧‧‧捨入運算欄位
159B‧‧‧向量長度欄位
160‧‧‧標度欄位
162A‧‧‧位移欄位
162B‧‧‧位移因數欄位
164‧‧‧資料元件寬度欄位
168‧‧‧類別欄位
168‧‧‧EVEX.U
170‧‧‧寫入遮罩欄位
172‧‧‧立即值欄位
174‧‧‧全運算碼欄位
200‧‧‧特定向量親合指令格式
202‧‧‧EVEX前綴
205‧‧‧REX欄位
210‧‧‧REX’欄位
215‧‧‧運算碼映像欄位
220‧‧‧EVEX.vvvv
225‧‧‧前綴編碼欄位
230‧‧‧真實運算碼欄位
240‧‧‧MOD R/M欄位
242‧‧‧MOD欄位
244‧‧‧Reg欄位
246‧‧‧R/M欄位
254‧‧‧xxx欄位
256‧‧‧bbb欄位
300‧‧‧暫存器架構
310‧‧‧向量暫存器
315‧‧‧寫入遮罩暫存器
325‧‧‧通用暫存器
345‧‧‧純量浮點堆疊暫存器檔
350‧‧‧MMX緊縮整數扁暫存器檔
400‧‧‧處理器管線
402‧‧‧提取階段
404‧‧‧長度解碼階段
406‧‧‧解碼階段
408‧‧‧分配階段
410‧‧‧重命名階段
412‧‧‧排程階段
414‧‧‧暫存器讀取/記憶體讀取階段
416‧‧‧執行階段
418‧‧‧寫回/記憶體寫入階段
422‧‧‧異常處置階段
424‧‧‧提交階段
430‧‧‧前端單元
432‧‧‧分支預測單元
434‧‧‧指令快取單元
436‧‧‧指令翻譯旁看緩衝器
438‧‧‧指令提取單元
450‧‧‧執行引擎單元
440‧‧‧解碼單元
452‧‧‧重命名/分配器單元
454‧‧‧引退單元
456‧‧‧排程器單元
458‧‧‧實體暫存器檔單元
460‧‧‧執行叢集
462‧‧‧執行單元
464‧‧‧記憶體存取單元
470‧‧‧記憶體單元
472‧‧‧資料TLB單元
474‧‧‧資料快取單元
476‧‧‧2階(L2)快取單元
473‧‧‧指令快取單元
490‧‧‧處理器核心
500‧‧‧指令解碼器
502‧‧‧互聯網路
504‧‧‧L2快取
506‧‧‧L1快取
506A‧‧‧L1資料快取
508‧‧‧純量單元
510‧‧‧向量單元
512‧‧‧純量暫存器
514‧‧‧向量暫存器
520‧‧‧拌合單元
522A-B‧‧‧數值轉換單元
524‧‧‧複製單元
526‧‧‧寫入遮罩暫存器
528‧‧‧16寬ALU
600‧‧‧處理器
602A‧‧‧核心
606‧‧‧共享快取單元
608‧‧‧專用邏輯
610‧‧‧系統代理者
614‧‧‧積體記憶體控制器
616‧‧‧匯流排控制器單元
612‧‧‧環式互連單元
700‧‧‧系統
710‧‧‧處理器
715‧‧‧處理器
720‧‧‧控制器集線器
740‧‧‧記憶體
745‧‧‧共處理器
750‧‧‧輸入/輸出集線器
760‧‧‧輸入/輸出裝置
790‧‧‧圖形記憶體控制器集線器
795‧‧‧連結
800‧‧‧系統
815‧‧‧處理器
816‧‧‧第一匯流排
818‧‧‧匯流排橋接器
820‧‧‧第二匯流排
822‧‧‧鍵盤及/或滑鼠
824‧‧‧音頻I/O
827‧‧‧通訊裝置
828‧‧‧儲存單元
830‧‧‧碼及資料
832‧‧‧記憶體
838‧‧‧共處理器
839‧‧‧高性能介面
850‧‧‧點對點互連
852、854‧‧‧P-P介面
870‧‧‧第一處理器
872、882‧‧‧積體記憶體控制器單元
876、878、886、888、894、898‧‧‧點對點介面
880‧‧‧第二處理器
890‧‧‧晶片組
896‧‧‧介面
900‧‧‧系統
915‧‧‧舊有的I/O裝置
1000‧‧‧單晶片系統(SoC)
1002‧‧‧互連單元
1010‧‧‧應用處理器
1020‧‧‧共處理器
1030‧‧‧靜態隨機存取記憶體單元
1032‧‧‧直接記憶體存取單元
1040‧‧‧顯示單元
1102‧‧‧高階語言
1104‧‧‧x86編譯器
1116‧‧‧x86指令集核心
1106‧‧‧x86二元碼
1108‧‧‧替代的指令集編譯器
1110‧‧‧替代的指令集二元碼
1112‧‧‧指令轉換器
1114‧‧‧無x86指令集核心的處理器
1200‧‧‧主記憶體
1201‧‧‧分支目標緩衝器
1202‧‧‧分支預測單元
1203‧‧‧下一個指令指標
1204‧‧‧指令翻譯旁看緩衝器
1205‧‧‧執行模式選擇邏輯
1205‧‧‧通用暫存器(GPR)
1206‧‧‧向量暫存器
1207‧‧‧遮罩暫存器
1210‧‧‧指令提取單元
1211‧‧‧L2快取
1212‧‧‧L1快取
1216‧‧‧L3快取
1220‧‧‧指令快取
1221‧‧‧資料快取
1230‧‧‧解碼單元
1240‧‧‧執行單元
1250‧‧‧寫回單元
1255‧‧‧處理器
1290‧‧‧記憶體管理單元
1300‧‧‧指令
1302‧‧‧計數器
1301‧‧‧指令流分析邏輯
1305‧‧‧指令解碼邏輯
1310‧‧‧本機/仿真模式選擇邏輯
1320‧‧‧「本機」高功率執行模式
1321‧‧‧「仿真」高功率執行模式
可從上述說明連同附圖獲得本發明之更佳理解,圖中:第1A及1B圖為繪示根據本發明的實施例之一般向量親合指令格式及其指令模板的區塊圖;第2A至2D圖為繪示根據本發明的實施例之示範特定向量親合指令格式的區塊圖;第3圖為根據本發明之一個實施例的暫存器架構之區塊圖;第4A圖為繪示根據本發明的實施例之示範循序管線及示範暫存器重命名亂序發出/執行管線兩者的區塊圖;第4B圖為繪示根據本發明的實施例之示範循序提取、解碼、引退管線及示範暫存器重命名亂序發出/執行管線兩者的區塊圖;第5A圖為根據本發明之實施例的單處理器核心連同其至晶粒上互聯網路之區塊圖;第5B圖為根據本發明的實施例在第5A圖中之處理器核心的一部分之放大圖;第6圖為根據本發明之實施例的具有積體記憶體控制器及圖形之單核心處理器及多核心處理器的區塊圖;第7圖繪示根據本發明的一個實施例之系統的區塊圖; 第8圖繪示根據本發明的一個實施例之第二系統之區塊圖;第9圖顯示根據本發明的一個實施例之第三系統之區塊圖;第10圖顯示根據本發明的一個實施例之單晶片系統(SoC)之區塊圖;第11圖為根據本發明的實施例對照軟體指令轉換器的使用以將來源指令集中之二元指令轉換成目標指令集中的二元指令之區塊圖;第12圖繪示其上可實施本發明之實施例的示範處理器;第13圖繪示一種架構的一個實施例,其中執行模式選擇模組在「本機」高功率指令執行和「仿真」高功率指令執行之間做選擇;第14圖繪示用於選擇高功率指令執行的模式之一個實施例。
【發明內容及實施方式】
在下列說明中,為了解釋,提出各種特定細節以提供下述本發明之實施例的詳盡理解。然而,對熟悉此技藝者而言在無這些特定細節的一些下實行本發明的實施例為顯而易見。在其他例子中,以區塊圖方式顯示眾所周知的結構及裝置來避免混淆本發明實施例的基礎原理。
示範處理器架構和資料類型
指令集包括一或更多個指令格式。一個給定的指令格式界定各種欄位(位元數量、位元位置)以除其他外指定待執行的運算及運算將對其執行之運算元。透過指令模板(或子格式)的界定進一步細分一些指令格式。例如,一個給定指令格式的指令模板可界定成具有指令格式欄位的不同子集(所包括的欄位通常為相同順序,但至少一些有不同位元位置,因為包括較少的欄位),和/或界定成具有不同方式翻譯的給定欄位。因此,使用一個給定的指令格式(且若有界定,在那個指令格式的指令模板的一個給定者中)來表達ISA的每個指令並包括用於指定運算及運算元之欄位。例如,示範加法(ADD)指令具有一個特定運算碼和一個指令格式,其包括指定運算碼的運算碼欄位以及選擇運算元(來源1/目的地及來源2)之運算元欄位;並且在指令流中此ADD指令的一個具體值會在選擇特定運算元之運算元欄位中有特定的內容。已釋出及/或公開參照先進向量擴充(Advanced Vector Extensions;AVX)(AVX1及AVX2)並使用向量擴充(VEX)編碼方案的一組SIMD擴充(例如,參見Intel® 64及IA-32架構軟體開發人員手冊,2011年10月;並參見Intel®先進向量擴充編程參考,2011年6月)。
示範指令格式
可以不同格式體現本文所述的指令實施例。另外,於 下詳述示範系統、架構、及管線。可在這類系統、架構、及管線上執行指令的實施例,但不限於詳述的那些。
A.一般(generic)向量親和指令格式
向量親和指令為適用於向量指令的指令格式(例如,有針對向量運算之特定欄位)。雖描述其中透過向量親合指令格式支援向量及純量兩者的實施例,替代實施例僅在向量親合指令格式中使用向量運算。
第1A及1B圖為繪示根據本發明的實施例之一般向量親合指令格式及其指令模板的區塊圖。第1A圖為繪示根據本發明的實施例之一種一般向量親合指令格式及其類別A指令模板之區塊圖;而第1B圖為繪示根據本發明的實施例之該一般向量親合指令格式及其類別B指令模板之區塊圖。詳言之,一般向量親合指令格式100界定有類別A及類別B指令模板,其兩者皆包括無記憶體存取105指令模板及記憶體存取120指令模板。術語一般在向量親合指令格式的上下文中是指未繫至任何特定指令集的指令格式。
雖將本發明的實施例敘述為其中向量親合指令格式支援下列:具有32位元(4位元組)或64位元(8位元組)資料元件寬度(或大小)之64位元組向量運算元長度(或大小)(並因此,64位元組向量由16個雙字大小的元件,或者8個四字大小元件構成);具有16位元(2位元組)或8位元(1位元組)資料元件寬度(或大小)之64位元組向量運 算元長度(或大小);具有32位元(4位元組)、64位元(8位元組)、16位元(2位元組)、或8位元(1位元組)資料元件寬度(或大小)之32位元組向量運算元長度(或大小);及具有32位元(4位元組)、64位元(8位元組)、16位元(2位元組)、或8位元(1位元組)資料元件寬度(或大小)之16位元組向量運算元長度(或大小);替代實施例可支援具有更多、更少、及/或不同資料元件寬度(如128位元(16位元組)資料元件寬度)之更多、更少、及/或不同向量運算元大小(如256位元組向量運算元)。
第1A圖中之類別A指令模板包括:1)在無記憶體存取105指令模板內顯示有一個無記憶體存取及全捨入控制型運算110指令模板以及一個無記憶體存取及資料變換型運算115指令模板;及2)在記憶體存取120指令模板內顯示有一個記憶體存取及時序125指令模板以及一個記憶體存取及非時序130指令模板。第1B圖中之類別B指令模板包括:1)在無記憶體存取105指令模板內顯示有一個無記憶體存取、寫入遮罩控制及部分捨入控制型運算112指令模板以及一個無記憶體存取、寫入遮罩控制及vsize型運算117指令模板;及2)在記憶體存取120指令模板內顯示有一個記憶體存取及寫入遮罩控制127指令模板。
一般向量親合指令格式100包括下面以第1A及1B圖中所示之順序列出之下列欄位: 格式欄位140-在此欄位中之特定值(指令格式識別符值)獨特識別向量親合指令格式,進而指令流中向量親合 指令格式中指令的具體值(occurrences)。因此,此欄位為可選的,意思是對於僅具有一般向量親合指令格式的指令集不需此欄位。
基礎運算欄位142-其內容區別不同基礎運算。
暫存器索引欄位144-其內容,直接或透過位址產生,指定來源及目的地運算元的位置,無論其在暫存器或記憶體中。這些包括足夠位元數量來從PxQ(如32x512、16x128、32x1024、64x1024)暫存器檔選擇N個暫存器。雖在一個實施例中N可為多達三個來源及一個目的地暫存器,替代實施例可支援更多或更少的來源及目的地暫存器(例如,可支援多達兩個來源,其中這些來源之一亦可作為目的地;可支援多達三個來源,其中這些來源之一亦可作為目的地;可支援多達兩個來源及一個目的地)。
修飾符欄位146-其內容區別在一般向量親合指令格式中指定記憶體存取與否之指令的具體值;亦即,區別無記憶體存取105指令模板與記憶體存取120指令模板。記憶體存取運算讀取並/或寫入至記憶體階層(在一些情況中使用暫存器中的值來指定來源及/或目的地位址),而非記憶體存取運算則否(例如來源及目的地為暫存器)。雖在一個實施例中此欄位亦在執行記憶體位址計算三個不同方式之間做選擇,替代實施例可支援執行記憶體位址計算之更多、更少、或不同的方式。
輔助運算欄位150-其內容區別除了基礎運算外還要執行各種不同運算的哪一者。此欄位為上下文特定。在本發 明的一個實施例中,此欄位分成類別欄位168、阿爾發(alpha)欄位152、及貝他(beta)欄位154。此輔助運算欄位150允許在單一個指令而非2、3、或4個指令中執行共同群組的運算。
標度欄位160-其內容允許用於記憶體位址產生之索引欄位的內容之定標(例如,用於使用2標度*索引+基礎之位址產生)。
位移欄位162A-其內容用作記憶體位址產生的一部分(例如,用於使用2標度*索引+基礎+位移之位址產生)。
位移因數欄位162B(注意到位移欄位162A並置於位移因數欄位162B正上方表示只使用其中之一)-其內容用作位址產生的一部分;其指定將以記憶體存取大小(N)定標之位移因術-其中N為記憶體存取中之位元組數量(例如,用於使用2標度*索引+基礎+經定標的位移之位址產生)。忽略冗餘較低次(lower-order)位元並因此,將位移因數欄位的內容乘以記憶體運算元總大小(N)以產生用於計算有效位址之最終位移。依據全運算碼欄位174(本文稍後敘述)及資料操縱欄位154C在運行時間由處理器硬體判定N的值。位移欄位162A及位移因數欄位162B為可選的,意思是它們不用於無記憶體存取105指令模板及/或不同實施例實施例可實施僅兩者之一或皆無。
資料元件寬度欄位164-其內容區別將使用若干資料元件寬度的哪一者(在一些實施例中針對所有指令;在其他實施例中針對僅一些指令)。此欄位為可選,意思是若僅 支援一個資料元件寬度及/或使用運算碼的某些態樣來支援資料元件寬度,則不需要此欄位。
寫入遮罩欄位170-其內容控制,以每資料元件位置為基礎,目的地向量運算元中的資料元件位置是否反映基礎運算及輔助運算的結果。類別A指令模板支援合併-寫入遮罩,而類別B指令模板支援合併-和歸零(zeroing)寫入遮罩。當合併時,向量遮罩保護目的地中之任何元件組在任何運算執行期間(由基礎運算及輔助運算加以指定)不受到更新;在另一個實施例中,保留在其中對應遮罩位元有0之目的地的每一個元件之舊值。相反地,當歸零向量遮罩使目的地中之任何元件組在任何運算執行期間(由基礎運算及輔助運算加以指定)歸零;在一個實施例中,當對應遮罩位元有0值時,將目的地之元件設為0。此功能的子集為控制待執行之運算的向量長度(亦即,被修改之元件的跨度,從第一到最後一個);然而,被修改的元件不需為連續。因此,寫入遮罩欄位170允許部分向量運算,包括載入、儲存、算術、邏輯等等。雖將本發明的實施例描述成其中寫入遮罩欄位170的內容選擇含有將使用的寫入遮罩的若干寫入遮罩暫存器之一(故寫入遮罩欄位170的內容間接識別將執行之遮罩),替代實施例取代或額外地允許寫入遮罩欄位170之內容直接指定將執行的遮罩。
立即值欄位172-其內容允許立即值(immediate)之指定。此欄位為可選的,意思是在不支援中間值之一般向量親合指令格式的實作中此欄位不存在,以及在不使用立即值之指令中此欄位不存在。
類別欄位168-其內容區別指令的不同類別。參照第1A至1B圖,此欄位的內容在類別A與類別B之間做選擇。在第1A至1B圖中,圓角正方形用來表示在欄位中存在特定值(例如,第1A至1B圖中在類別欄位168中分別為類別A 168A及類別B 168B)。
類別A的指令模板
在類別A的無記憶體存取105指令模板情況中,將阿爾發欄位152翻譯為RS欄位152A,其之內容區別將執行不同輔助運算類型之哪一種(例如,針對無記憶體存取全捨入型運算110及無記憶體存取及資料變換型運算115指令模板分別指定捨入152A.1及資料變換152A.2),而貝他欄位154區別將執行指令類型的哪個運算。在無記憶體存取105指令模板中,標度欄位160、位移欄位162A、及位移因數欄位162B不存在。
無記憶體存取指令模板-全捨入控制型運算
在無記憶體存取及全捨入控制型運算110指令模板中,將貝他欄位154翻譯為捨入控制欄位154A,其之內容提供靜態捨入。雖在本發明的所述實施例中,捨入控制欄位154A包括抑制所有浮點異常(SAE)欄位156及捨入運算控制欄位158,替代實施例可支援將這些概念編碼至相同的欄位或僅有這些概念/欄位之其中一者(例如,可僅 有捨入運算控制欄位158)。
SAE欄位156-其內容區別是否禁能異常事件通報;當SAE欄位156的內容表示已致能抑制時,給定指令不會通報任何種類的浮點異常旗標且不會升高任何浮點異常處置器。
捨入運算控制欄位158-其內容區別該執行一群捨入運算的哪一者(如向上捨入、向下捨入、向零捨入、及捨入到最近)。因此,捨入運算控制欄位158允許以每一個指令為基礎地改變捨入模式。在其中處理器包括用於指定捨入模式之控制暫存器的本發明之一個實施例中,捨入運算控制欄位158的內容置換(override)那個暫存器值。
無記憶體存取指令模板-資料變換型運算
在無記憶體存取及資料變換型運算115指令模板中,將貝他欄位154翻譯為資料變換欄位154B,其之內容區別將執行若干資料變換的哪一者(例如,無資料變換、拌合(swizzle)、廣播)。
在類別A的記憶體存取120指令模板情況中,將阿爾發欄位152翻譯為驅逐暗示欄位152B,其之內容區別將使用驅逐暗示的哪一者(在第1A圖中,針對記憶體存取時序125指令模板及記憶體存取非時序130指令模板分別指定時序152B.1及非時序152B.2),而將貝他欄位154翻譯為資料操縱欄位154C,其之內容區別將執行若干資料操縱運算(亦稱為基元)的哪一者(例如,無操縱;廣播;來源 的向上轉換;及目的地之向下轉換)。記憶體存取120指令模板包括標度欄位160,及可選的位移欄位162A或位移因數欄位162B。
向量記憶體指令執行自記憶體之向量載入及至記憶體之向量儲存,此具有轉換支援。如同正常的向量指令一般,向量記憶體指令以資料元件方式自記憶體傳送資料及/或傳送資料至記憶體,其中由選擇作為寫入遮罩之向量遮罩的內容主宰實際傳送的元件。
記憶體存取指令模板-時序
時序資料為可能在不久將來被重複使用而使得快取有效益的資料。然而,此為暗示,且不同處理器可以不同方式實施它,包括完全忽略該暗示。
記憶體存取指令模板-非時序
非時序資料為不大可能在不久將來被重複使用而使得在第一階快取中快取無效益的資料,並應該給予驅逐之優先順序。然而,此為暗示,且不同處理器可以不同方式實施它,包括完全忽略該暗示。
類別B之指令模板
在類別B之指令模板的情況中,將阿爾發欄位152翻譯為寫入遮罩控制(Z)欄位152C,其之內容區別由寫入遮罩欄位170控制的寫入遮罩應該為合併或歸零。
在類別B之無記憶體存取105指令模板的情況中,將貝他欄位154的一部分翻譯成RL欄位157A,其之內容區別將執行不同輔助運算類型的哪一者(例如,針對無記憶體存取、寫入遮罩、部分捨入控制型運算112指令模板及無記憶體存取、寫入遮罩控制及VSIZE型運算117指令模板分別指定捨入157A.1及向量長度(VSIZE)157A.2),而貝他欄位154之其餘部分別將執行指定類型的運算的哪一者。在無記憶體存取105指令模板中,標度欄位160、位移欄位162A、及位移因數欄位162B並不存在。
在無記憶體存取及全捨入控制型運算110指令模板中,將貝他欄位154的其餘部分翻譯成捨入運算欄位159A並禁能異常事件通報(給定指令不會通報任何種類的浮點異常旗標且不會升高任何浮點異常處置器)。
捨入運算控制欄位159A-就如同捨入運算控制欄位158般,其內容區別其該執行一群捨入運算的哪一者(如向上捨入、向下捨入、向零捨入、及捨入到最近)。因此,捨入運算控制欄位159A允許以每一個指令為基礎地改變捨入模式。在其中處理器包括用於指定捨入模式之控制暫存器的本發明之一個實施例中,捨入運算控制欄位159A的內容置換(override)那個暫存器值。
在無記憶體存取、寫入遮罩控制及VSIZE型運算117指令模板中,將貝他欄位154之其餘部分翻譯成向量長度欄位159B,其之內容區別將執行的若干資料向量長度之哪一者(如128、256、或512位元組)。
在類別B的記憶體存取120指令模板之情況中,將貝他欄位154的一部分翻譯成廣播欄位157B,其之內容區別是否將執行廣播類型資料操縱運算,而將貝他欄位154的其餘部分翻譯成向量長度欄位159B。記憶體存取120指令模板包括標度欄位160,及可選地,位移欄位162A或位移因數欄位162B。
關於一般向量親合指令格式100,全運算碼欄位174顯示為包括格式欄位140、基礎運算欄位142、及資料元件寬度欄位164。雖顯示其中全運算碼欄位174包括所有這些欄位的一個實施例,在不支援其全部之實施例中,全運算碼欄位174包括少於所有這些欄位。全運算碼欄位174提供運算碼(opcode)。
輔助運算欄位150、資料元件寬度欄位164、及寫入遮罩欄位170允許在一般向量親合指令格式中以每個指令為基礎的方式指定這些特徵。
寫入遮罩欄位及資料元件寬度欄位的組合產生類型化指令,亦即其允許依據不同的資料元件寬度來施加遮罩。
在類別A及B內出現的各種指令模板在不同情況中有利。在本發明的一些實施例中,不同處理器或一個處理器內不同核心可僅支援類別A、僅支援類別B、或兩者都支援。例如,意圖用於通用運算的高性能通用亂序核心可僅支援類別B;主要意圖用於圖形及/或科學(通量)運算的核心可僅支援類別A;且意圖用於兩者的核心可支援兩者(當然,具有來自這兩種類別的模板及指令的一些混合但 無來自這兩種類別的所有模板及指令之核心是在本發明的範圍內)。還有,單一個處理器可包括多個核心,這些核心全都支援相同類別或不同核心支援不同類別。例如,在具有分別的圖形和通用核心之處理器中,主要意圖用於圖形及/或科學運算之圖形核心之一可僅支援類別A,而通用核心之一或更多個可為具有僅支援類別B之意圖用於通用運算之亂序(out-of-order)程序及暫存器重命名的高性能通用核心。不具有分別的圖形核心之另一個處理器可包括支援類別A及類別B兩者的一或更多個通用循序(in-order)或亂序核心。當然,在本發明的不同實施例中來自一個類別的特徵亦可在另一個類別中實施。以高階語言寫成的程式會被(例如動態編譯或靜態編譯)放置於各種不同的可執行形式中,包括:1)僅有執行用之目標處理器所支援的類別之指令的形式;或2)有使用所有類別的不同指令組合所寫成之替代常式並具有控制流碼(其依據由當前正執行該碼的處理器所支援的指令來選擇欲執行之常式)的形式。
B.示範特定向量親合指令格式
第2圖為繪示根據本發明的實施例之一個示範特定向量親合指令格式的區塊圖。第2圖顯示一個特定向量親合指令格式200,特定之意思在於其指定欄位之位置、大小、翻譯、及順序,還有那些欄位的一些之值。特定向量親合指令格式200可用來擴充x86指令,並因此一些欄位與現存的x86指令集及與其擴充(例如AVX)中所用的那些類似或相同。此格式維持與具有擴充之現存x86指令集的前綴編碼欄位、真實運算碼位元組欄位、MOD R/M欄位、SIB欄位、位移欄位、及立即值欄位一致。繪示第2圖的欄位映射至其中之第1圖的欄位。
應了解到,雖在一般向量親合指令格式100的上下文中參照特定向量親合指令格式200來說明本發明的實施例,本發明不限於特定向量親合指令格式200,除了主張專利權之處外。例如,一般向量親合指令格式100設想到各種欄位之各種可能的大小,而特定向量親合指令格式200則顯示為具有為特定大小之欄位。舉特定範例而言,雖資料元件寬度欄位164在特定向量親合指令格式200中繪示為一位元的欄位,本發明非如此受限(亦即,一般向量親合指令格式100設想到資料元件寬度欄位164之其他大小)。
一般向量親合指令格式100包括在下方以在第2A圖中所示的順序列出下列欄位。
EVEX前綴(位元組0-3)202-以四位元組形式編碼。
格式欄位140(EVEX位元組0,位元[7:0])-第一位元組(EVEX位元組0)為格式欄位140且其含有0x62(在本發明的一個實施例中用於區別向量親合指令格式的獨特值)。
第二至第四位元組(EVEX位元組1-3)包括提供特定能力之若干位元欄位。
REX欄位205(EVEX位元組1,位元[7-5])-由EVEX.R位元欄位(EVEX位元組1,位元[7]-R)、EVEX.X位元欄位(EVEX位元組1,位元[6]-X)、及157BEX位元組1,位元[5]-B)構成。EVEX.R、EVEX.X及EVEX.B位元欄位與相應的VEX位元欄位提供相同的功能,並使用1之補數形式加以編碼,亦即,將ZMM0編碼成1111B,ZMM15編碼成0000B。指令的其他形式以此技藝中已知的方式編碼暫存器索引之較低三個位元(rrr,xxx,及bbb),因此可藉由加上EVEX.R、EVEX.X及EVEX.B形成Rrrr,Xxxx、及Bbbb。
REX’欄位210-此為REX’欄位210的第一部分且為EVEX.R’位元欄位(EVEX位元組1,位元[4]-R’),其用來編碼已擴充的32暫存器集之較高16或較低16個。在本發明的一個實施例中,連同下方所指的其他者,以位元倒置格式儲存此位元,以與BOUND(在眾所周知的x86 32位元模式中)作區別,其之真實運算碼位元組為62,但在MOD R/M欄位(後述)中不接受MOD欄位中11的值;本發明之替代實施例不以倒置格式儲存此及下方所指的其他位元。1的值用來編碼較低16個暫存器。換言之,藉由結合EVEX.R’、EVEX.R及來自其他欄位的其他RRR形成R’Rrrr。
運算碼映像欄位215(EVEX位元組1,位元[3:0]-mmmm)-其之內容編碼一個隱含的前導運算碼位元組(0F、0F 38、或0F 3)。
資料元件寬度欄位164(EVEX位元組2,位元[7]-W)-由符號EVEX.W表示。EVEX.W用來界定資料類型(datatype)之粒度(大小)(32位元資料元件或64位元資料元件)。
EVEX.vvvv 220(EVEX位元組2,位元[6:3]-vvvv)-EVEX.vvvv的作用可包括下列:1)EVEX.vvvv編碼第一來源暫存器運算元,以倒置(1之補數)形式加以指定,並且針對具有2或更多個來源運算元之指令有效;2)EVEX.vvvv編碼目的地暫存器運算元,針對某些向量位移以1之補數的形式加以指定;或3)EVEX.vvvv不編碼任何運算元,保留此欄位且應含有1111b。因此,EVEX.vvvv欄位220編碼以倒置(1之補數)形式儲存的第一來源暫存器說明符之4個較低次位元。取決於指令,使用一個額外不同的EVEX位元欄位來將說明符大小擴充成32個暫存器。
EVEX.U 168類別欄位(EVEX位元組2,位元[2]-U)-若EVEX.U=0,其指示類別A或EVEX.U0;若EVEX.U=1,其指示類別B或EVEX.U1。
前綴編碼欄位225(EVEX位元組2,位元[1:0]-pp)-為基礎運算欄位提供額外位元。除了提供支援給具有EVEX前綴格式之舊有SSE指令外,此亦具有壓緊SIMD前綴之好處(而非需要一個位元組來表達SIMD前綴,EVEX前綴僅需2個位元)。在一個實施例中,欲支援使用具有舊有格式及EVEX前綴格式兩者之SIMD前綴(66H、F2H、F3H)的舊有SSE指令,將這些舊有的SIMD前綴編碼成 SIMD前綴編碼欄位;並且在提供至解碼器的PLA之前在運行時間擴充成舊有的SIMD前綴(使PLA可執行舊有及這些舊有指令之EVEX格式而不需修改)。雖然較新的指令可將EVEX前綴編碼欄位的內容直接使用為運算碼擴充,某些實施例為了連貫性以類似方式擴充但允許由這些舊有的SIMD前綴指定不同的意義。一個替代的實施例可重新設計PLA以支援2位元SIMD前綴編碼,因此不需擴充。
阿爾發欄位152(EVEX位元組3,位元[7]-EH;亦稱為EVEX.EH、EVEX.rs、EVEX.RL、EVEX.寫入遮罩控制、及EVEX.N;亦以α繪示)-如先前所述,此欄位由上下文而定。
貝他欄位154(EVEX位元組3,位元[6:4]-SSS;亦稱為EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、及EVEX.LLB;亦以βββ繪示)-如先前所述,此欄位由上下文而定。
REX’欄位210-此為REX’欄位210的其餘部分且為EVEX.V’位元欄位(EVEX位元組3,位元[3]-V’),其可用來編碼已擴充的32暫存器集之較高16或較低16個。以位元倒置格式儲存此位元。1的值用來編碼較低16個暫存器。換言之,藉由結合EVEX.V’、EVEX.vvvv形成V’VVVV。
寫入遮罩欄位170(EVEX位元組3,位元[2:0]-kkk)-其之內容指定寫入遮罩暫存器中之暫存器的索引。在本發 明的一個實施例中,特定值EVEX.kkk=000具有特殊的行為,暗示針對該特定指令並未使用寫入遮罩(這可以各種方式來實施,包括使用硬接線至全部一之寫入遮罩或略過遮罩硬體之硬體)。
真實運算碼欄位230(位元組4)亦稱為運算碼位元組。在此欄位中指定運算碼之部分。
MOD R/M欄位240(位元組5)包括MOD欄位242、Reg欄位244、及R/M欄位246。如前所述,MOD欄位242的內容區別記憶體存取及非記憶體存取運算。Reg欄位244之作用可總結成兩種情況:編碼目的地暫存器運算元或來源暫存器運算元,或被視為運算碼擴充且不用來編碼任何指令運算元。R/M欄位246之作用可包括下列:編碼參照一個記憶體位址之指令運算元,或編碼目的地暫存器運算元或來源暫存器運算元。
標度、索引、基礎(SIB)位元組(位元組6)-如前述,標度欄位160的內容用於記憶體位址產生。SIB.xxx 254及SIB.bbb 256-已相關於暫存器索引Xxxx及Bbbb參照這些欄位內容。
位移欄位162A(位元組7-10)-當MOD欄位242含有10時,位元組7-10為位移欄位162A,且與舊有32位元位移(disp32)相同方式般作業並以位元組之粒度作業。
位移因數欄位162B(位元組7)-當MOD欄位242含有01時,位元組7為位移因數欄位162B。此欄位的位置與舊有的x86指令集8位元位移(disp8)相同,其以位元組之 粒度作業。由於disp8為正負號擴充,其僅可在-128與127位元組偏移之間定址;以64位元組快取線而言,disp8使用8位元,其僅可設定為四個真正有用的值-128、-64、0、及64;由於經常需要更大範圍,使用disp32;然而disp32需要4位元組。與disp8和disp32相反地,位移因數欄位162B為disp8之重翻譯;當使用位移因數欄位162B時,由位移因數欄位的內容乘以記憶體運算元存取的大小(N)來判定實際的位移。此種位移稱為disp8*N。這減少平均指令長度(單一個位元組用於位移但具有大上許多的範圍)。這種壓縮的位移建立在有效位移為記憶體存取之粒度的倍數之假設;並因此,不需編碼位址偏移之冗餘較低次位元。換言之,位移因數欄位162B取代舊有的x86指令集8位元位移。因此,可與x86指令集8位元位移相同的方式編碼位移因數欄位162B(因此MOD RM/SIB編碼規則中並無改變),唯一不同之處在於將disp8超載至disp8*N。換言之,在編碼規則或編碼長度中並無改變,僅在硬體(其需以記憶體運算元之大小定標位移以取得位元組式之位址偏移)對位移值的翻譯中有變。
立即值欄位172如前述般運作。
全運算碼欄位
第2B圖為繪示根據本發明之一個實施例的構成全運算碼欄位174的特定向量親合指令格式200之欄位的區塊圖。詳言之,全運算碼欄位174包括格式欄位140、基礎 運算欄位142、及資料元件寬度(W)欄位164。基礎運算欄位142包括前綴編碼欄位225、運算碼映像欄位215、及真實運算碼欄位230。
暫存器索引欄位
第2C圖為繪示根據本發明之一個實施例的構成暫存器索引欄位144的特定向量親合指令格式200之欄位的區塊圖。詳言之,暫存器索引欄位144包括REX欄位205、REX’欄位210、MODR/M.reg欄位244、MODR/M.r/m欄位246、VVVV欄位220、xxx欄位254、及bbb欄位256。
輔助運算欄位
第2D圖為繪示根據本發明之一個實施例的構成輔助運算欄位150的特定向量親合指令格式200之欄位的區塊圖。當類別(U)欄位168含有0時,其表示EVEX.U0(類別A 168A);當其含有1時,其表示EVEX.U1(類別B 168B)。當U=0且MOD欄位242含有11時(表示無記憶體存取運算),阿爾發欄位152(EVEX位元組3,位元[7]-EH)翻譯為rs欄位152A。當rs欄位152A含有a1時(捨入152A.1),貝他欄位154(EVEX位元組3,位元[6:4]-SSS)翻譯為捨入控制欄位154A。捨入控制欄位154A包括一位元SAE欄位156及兩位元捨入運算欄位158。當rs欄位152A含有0時(捨入152A.2),貝他欄位154(EVEX位元 組3,位元[6:4]-SSS)翻譯為三位元資料變換欄位154B。當U=0且MOD欄位242含有00、01、或10時(表示記憶體存取運算),阿爾發欄位152(EVEX位元組3,位元[7]-EH)翻譯為驅逐暗示(EH)欄位152B且貝他欄位154(EVEX位元組3,位元[6:4]-SSS)翻譯為三位元資料操縱欄位154C。
當U=1時,阿爾發欄位152(EVEX位元組3,位元[7]-EH)翻譯為寫入遮罩控制(Z)欄位152C。當U=1且MOD欄位242含有11時(表示無記憶體存取運算),貝他欄位154的一部分(EVEX位元組3,位元[4]-S0)翻譯為RL欄位157A;當其含有a 1(捨入157A.1)時,貝他欄位154的其餘部分(EVEX位元組3,位元[6:5]-S2-1)翻譯為捨入運算欄位159A;而當RL欄位157A含有0(VSIZE 157.A2)時,貝他欄位154的其餘部分(EVEX位元組3,位元[6:5]-S2-1)翻譯為向量長度欄位159B(EVEX位元組3,位元[6:5]-L1-0)。當U=1且MOD欄位242含有00、01、或10時(表示記憶體存取運算),貝他欄位154(EVEX位元組3,位元[6:4]-SSS)翻譯為向量長度欄位159B(EVEX位元組3,位元[6:5]-L1-0)及廣播欄位157B(EVEX位元組3,位元[4]-B)。
C.示範暫存器架構
第3圖為根據本發明之一個實施例的暫存器架構300之區塊圖。在所示實施例中,有512位元寬之32個向量 暫存器310;這些暫存器參照為zmm0至zmm31。較低16zmm暫存器的較低次256位元覆加(overlaid)於暫存器ymm0-16上。較低16zmm暫存器的較低次128位元(ymm暫存器的較低128位元)覆加於暫存器xmm0-15上。特定向量親合指令格式200如下表中所示般在這些覆蓋暫存器檔上運算。
Figure 105115348-A0202-12-0025-1
換言之,向量長度欄位159B在最大長度與一或更多個其他較短長度之間做選擇,其中每一個這種較短的長度為前一長度之半長;且無向量長度欄位159B之指令模板在最大向量長度上運算。此外,在一個實施例中,特定向量親合指令格式200之類別B指令模板在緊縮(packed)或純量單/雙倍精度浮點資料及緊縮或純量整數資料上運算。純量運算為在zmm/ymm/xmm暫存器中的最低次資料元件位置上執行之運算;取決於實施例,較高次資料元件位置不是保留成與在指令之前相同般就是歸零。
寫入遮罩暫存器315-在所示實施例中,有8個寫入 遮罩暫存器(k0至k7),每一個大小為64位元。在一個替代實施例中,寫入遮罩暫存器315大小為16位元。如先前所述,在本發明的一個實施例中,向量遮罩暫存器k0無法用為寫入遮罩;當正常會指示k0之編碼用為寫入遮罩時,其選擇0xFFFF之硬接線的寫入遮罩,切實禁能那個指令之寫入遮罩。
通用暫存器325-在所示實施例中,有十六個64位元的通用暫存器,其連同現存的x86定址模式一起用來定址記憶體運算元。以名稱RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、及R8至R15參照這些暫存器。
純量浮點堆疊暫存器檔(x87堆疊)345,MMX緊縮整數扁暫存器檔350別稱(aliased)於其上-在所示實施例中,該x87堆疊為用來使用x87指令集擴充對32/64/80位元浮點資料執行純量浮點運算之8元件堆疊;而MMX暫存器用來對64位元緊縮整數資料執行運算,並針對在MMX與XMM暫存器之間執行的一些運算保持運算元。
本發明的替代實施例可使用更寬或更窄的暫存器。另外,本發明的替代實施例可使用更多、更少、或不同的暫存器檔及暫存器。
D.示範核心架構、處理器、及電腦架構
可以不同方式、針對不同目的、且在不同處理器中實施處理器核心。例如,這種核心之實作可包括:1)擬用於通用運算之通用循序核心;2)擬用於通用運算之高性能通 用亂序核心;3)主要擬用於圖形及/或科學(通量)運算之專用核心。不同處理器的實作可包括:1)包括擬用於通用運算之一或更多個通用循序核心及/或擬用於通用運算之一或更多個通用亂序核心之CPU;以及2)包括一或更多個主要擬用於圖形及/或科學(通量)之專用核心的共處理器。這些不同的處理器導致不同的電腦系統架構,其可包括:1)與CPU不同晶片上的共處理器;2)在與CPU相同封裝中不同晶粒上的共處理器;3)與CPU相同晶粒上的共處理器(在此情況中,這種共處理器有時稱為專用邏輯,諸如積體圖形及/或科學(通量)邏輯,或稱為專用核心);4)單晶片系統,其可在相同晶粒上包括所述CPU(有時稱為應用核心或應用處理器)、上述共處理器、及額外功能。接著敘述示範核心架構,隨後為示範處理器及電腦架構的說明。
第4A圖為繪示根據本發明的實施例之示範循序管線及示範暫存器重命名亂序發出/執行管線兩者的區塊圖。第4B圖為繪示根據本發明的實施例之將包括在處理器中之循序架構核心之示範實施例及示範暫存器重命名亂序發出/執行架構核心兩者的區塊圖。第4A及4B圖中的實線框繪示循序管線及循序核心,同時虛線框之可選添加繪示暫存器重命名亂序發出/執行管線及核心。鑑於循序態樣為亂序態樣的子集,將說明亂序態樣。
在第4A圖中,處理器管線400包括提取階段402、長度解碼階段404、解碼階段406、分配階段408、重命 名階段410、排程(亦稱為調度或發出)階段412、暫存器讀取/記憶體讀取階段414、執行階段416、寫回/記憶體寫入階段418、異常處置階段422、及提交(commit)階段424。
第4B圖顯示包括耦合至執行引擎單元450之前端單元430(這兩者皆耦合至記憶體單元470)的處理器核心490。核心490可為減少指令集運算(RISC)核心、複雜指令集運算(CISC)核心、極長指令字(VLIW)核心、或混合型或替代核心類型。做為另一種選項,核心490可為專用核心,諸如,例如,網路或通訊核心、壓縮引擎、共處理器核心、通用運算圖形處理單元(GPGPU)核心、圖形核心、或類似者。
前端單元430包括耦合到指令快取單元434之分支預測單元432,指令快取單元434耦合到指令翻譯旁看緩衝器(TLB)單元436,其耦合到指令提取單元438,其耦合到解碼單元440。解碼單元440(或解碼器)可解碼指令,並產生作為輸出一或更多個微運算、微碼進入點、微指令、其他指令、或其他控制信號,其從原始指令解碼或否則反射或衍生而來。可使用各種不同的機制來實施解碼單元440。適當機制的範例包括,但不限於,查找表、硬體實作、可編程邏輯陣列(PLA)、微碼唯讀記憶體(ROM)等等。在一個實施例中,核心490包括儲存用於某些微指令之微碼的微碼ROM或其他媒體(例如在解碼單元440中或否則在前端單元430內)。解碼單元440耦合到執行引擎 單元450中的重命名/分配器單元452。
執行引擎單元450包括耦合至引退單元454及一組一或更多個排程器單元456之重命名/分配器單元452。排程器單元456代表任何數量之不同的排程器,包括保留站、中央指令窗等等。排程器單元456耦合到實體暫存器檔單元458。實體暫存器檔單元458的每一個代表一或更多個實體暫存器檔,其之不同者儲存一或更多個不同的資料類型,諸如純量整數、純量浮點、緊縮整數、緊縮浮點、向量整數、向量浮點、狀態(例如,為將執行的下一個指令位址之指令指標)等等。在一個實施例中,實體暫存器檔單元458包含向量暫存器單元、寫入遮罩暫存器單元、及純量暫存器單元。這些暫存器單元可提供架構型向量暫存器、向量遮罩暫存器、及通用暫存器。實體暫存器檔單元458被引退單元454重疊以繪示其中可實施暫存器重命名及亂序執行的各種方式(例如,使用重排序緩衝器及引退暫存器檔;使用未來檔、歷史緩衝器、及引退暫存器檔;使用暫存器映像及一池的暫存器等等)。引退單元454及實體暫存器檔單元458耦合到執行叢集460。執行叢集460包括一組一或更多個的執行單元462及一組一或更多個記憶體存取單元464。執行單元462可執行各種運算(例如,位移、加法、減法、乘法)及對各種類型的資料(例如,純量浮點、緊縮整數、緊縮浮點、向量整數、向量浮點)。雖一些實施例可包括專用於特定功能或功能集之若干執行單元,其他實施例可僅包括一個執行單元或全部都 執行所有功能之多個執行單元。排程器單元456、實體暫存器檔單元458、及執行叢集460可能為複數個,因為某些實施例針對某類型的資料/運算產生分別的管線(例如,各具有其自己的排程器單元、實體暫存器檔單元、及/或執行叢集之純量整數管線、純量浮點/緊縮整數/緊縮浮點/向量整數/向量浮點管線、及/或之記憶體存取管線-並且在分別記憶體存取管線的情況中,實施某些實施例,而使其中僅此管線的執行叢集有記憶體存取單元464)。應了解到在使用分別管線的情況中,這些管線的一或更多者可為亂序發出/執行且其餘為循序。
該組記憶體存取單元464耦合到記憶體單元470,其包括耦合到資料快取單元474之資料TLB單元472,該資料快取單元474耦合到2階(L2)快取單元476。在一個示範實施例中,記憶體存取單元464可包括載入單元、儲存位址單元、及儲存資料單元,其各耦合至記憶體單元470中的資料TLB單元472。指令快取單元434進一步耦合到記憶體單元470中的2階(L2)快取單元476。L2快取單元476耦合到一或更多個其他階的快取且最終至主記憶體。
舉例而言,示範暫存器重命名亂序發出/執行核心架構可如下列般實施管線400:1)指令提取單元438執行提取及長度解碼階段402及404;2)解碼單元440執行解碼階段406;3)重命名/分配器單元452執行分配階段408及重命名階段410;4)排程器單元456執行排程階段412;5)實體暫存器檔單元458及記憶體單元470執行暫存器讀 取/記憶體讀取階段414;執行叢集460執行執行階段416;6)記憶體單元470及實體暫存器檔單元458執行寫回/記憶體寫入階段418;7)在異常處置階段422中可能牽涉各種單元及;及8)引退單元454及實體暫存器檔單元458執行提交階段424。
核心490可支援一或更多個指令集(例如,x86指令集(連同與較新版本增加的一些擴充));來自美國加州桑尼維爾之MIPS技術公司的MIPS指令集;來自美國加州桑尼維爾之ARM控股公司的ARM指令集(連同可選的額外擴充,如NEON),包括在此所述之指令。在一個實施例中,核心490包括支援緊縮資料指令集擴充(如AVX1及AVX2)的邏輯,藉此允許使用緊縮資料來執行由許多多媒體應用所使用的運算。
應了解到核心可支援多線程化(執行兩或更多個平行運算或線程集),並且可以各種方式如此作,包括時間截割多線程化、同時多線程化(其中單一個實體核心針對該實體核心同時多線程化之每一個線程提供邏輯核心)、或上述之組合(例如,時間截割提取及解碼和此後同時多線程化,諸如在Intel®超線程(Hyperthreading)技術中般)。
雖以在亂序執行的上下文中敘述暫存器重命名,應了解到可在循序架構中使用暫存器重命名。雖處理器之所示的實施例亦包括分別的指令和資料快取單元434/474及共享的L2快取單元476,替代實施例可針對指令和資料兩者具有單一個內部快取,諸如,例如,1階(L1)內部快 取,或多階的內部快取。在一些實施例中,系統可包括內部快取及在核心及/或處理器外部之外部快取的組合。或者,所有的快取都在核心及/或處理器之外。
第5A至5B圖繪示一個更特定的示範循序核心架構之區塊圖,其核心可為晶片中之若干邏輯區塊(包括相同及/或不同類型的其他核心)之一。取決於應用,邏輯區塊透過高頻寬互聯網路(如環形網路)與一些固定功能邏輯、記憶體I/O介面、及其他必要的I/O邏輯通訊。
第5A圖為根據本發明之實施例的單一個處理器核心之區塊圖,連同其至晶粒上互聯網路502之連結及其2階(L2)快取之本地子集504。在一個實施例中,指令解碼器500支援具有緊縮資料指令集擴充之x86指令集。L1快取506允許到純量與向量單元中對快取記憶體之低潛時存取。雖在一個實施例(以簡化設計)中,純量單元508及向量單元510使用分別的暫存器集(分別為純量暫存器512及向量暫存器514)並將傳輸於它們之間的資料寫至記憶體並從1階(L1)快取506讀回,本發明的替代實施例可使用不同的方式(例如,使用單一個暫存器集或包括允許在兩個暫存器檔之間傳輸資料的通訊路徑而不需寫入及讀回)。
L2快取的本地子集504為分成不同的本地子集(每個處理核心一個)的總體L2快取之一部分。每一個處理器核心對其自己的L2快取之子集504有直接存取路徑。由處理器核心讀取的資料是儲存在其L2快取子集504中並可與存取其自己的L2快取子集之其他的處理器核心平行地迅速加以存取。由處理器核心寫入的資料是在其自己的L2快取子集504中,且若需要,從其他子集清除(flushed)。環形網路確保共享資料的連貫性。環形網路為雙向式以允許諸如處理器核心、L2快取、及其他邏輯區塊的代理者在晶片內互相通訊。每一個環形資料路徑為每方向1012位元寬。
第5B圖為根據本發明的實施例在第5A圖中之處理器核心的一部分之放大圖。第5B圖包括L1快取506之L1資料快取506A部分,還有關於向量單元510及向量暫存器514的更多細節。詳言之,向量單元510為16寬的向量處理單元(VPU)(參見16寬ALU 528),其執行整數、單倍精度浮點、及雙倍精度浮點指令之一或更多者。VPU以拌合單元520支援暫存器輸入拌合、以數值轉換單元522A-B支援數值轉換、及以複製單元524支援記憶體輸入上的複製。寫入遮罩暫存器526允許預測所得之向量寫入。
第6圖為根據本發明之實施例的可具有超過一個核心、可具有積體記憶體控制器、並可具有積體圖形之處理器600的區塊圖。在第6圖中的實線框繪示具有單一個核心602A、系統代理者610、一組一或更多個匯流排控制器單元616的處理器600,而虛線框的可選添加繪示具有多個核心602A至N、系統代理者610中之一組一或更多個積體記憶體控制器614、及專用邏輯608。
因此,處理器600之不同的實作可包括:1)具有為積體圖形及/或科學(通量)邏輯(其可包括一或更多個核心)之專用邏輯608及為一或更多個通用核心之核心602A至N(例如,通用循序核心、通用亂序核心、兩者之組合)的CPU;2)具有為主要擬用於圖形及/或科學(通量)之大量特殊核心之核心602A至N的共處理器;以及3)具有為大量通用循序核心之核心602A至N的共處理器。因此,處理器600可為通用處理器、共處理器、或專用處理器,諸如,例如,網路或通訊處理器、壓縮引擎、圖形處理器、通用圖形處理單元(GPGPU)、高通量諸多積體核心(MIC)共處理器(包括30或更多個核心)、嵌入式處理器、或類似者。可將處理器實施在一或更多個晶片上。使用若干處理技術的任何者,諸如,例如,BiCMOS、CMOS、或NMOS,處理器600可為一或更多個基板的一部分或實施在一或更多個基板上。
記憶體階層包括在核心內的一或更多階的快取、一組一或更多個共享快取單元606、及耦合到該組積體記憶體控制器614之外部記憶體(未圖示)。該組共享快取單元606可包括一或更多個中階快取,諸如,2階(L2)、3階(L3)、4階(L4)、或其他階的快取、最後一階快取(LLC)、及/或上述的組合。雖在一個實施例中,環式互連單元612互連積體圖形邏輯608、該組共享快取單元606、及系統代理者單元610/積體記憶體控制器614,替代的實施例可使用任何數量的眾所周知的技術來互連這些單元。在一個 實施例中,於一或更多個快取單元606及核心602A至N之間維持連貫性。
在一些實施例中,核心602A至N的一或更多者能進行多線程。系統代理者610包括協調及操作核心602A至N之那些構件。系統代理者610可包括例如功率控制單元(PCU)及顯示單元。PCU可為或包括調節核心602A至N及積體圖形邏輯608之功率狀態所需之邏輯及構件。顯示單元用於驅動一或更多個外部連接的顯示器。
核心602A至N以架構指令集來說可為同質或異質;亦即,核心602A至N之兩或更多個能夠執行相同的指令集;而其他者能夠僅執行那個指令集的子集或不同的指令集。
第7至10圖為示範電腦架構之區塊圖。此技藝中已知針對膝上型電腦、桌上型電腦、手持型PC、個人數位助理、工程工作站、伺服器、網路裝置、網路集線器、交換器、嵌入式處理器、數位信號處理器(DSP)、圖形裝置、電動遊戲裝置、機上盒、微控制器、手機、可攜式媒體播放器、手持裝置、及各種其他電子裝置的其他系統設計和組態亦適用。一般而言,能夠併入在此所揭露之處理器及/或其他執行邏輯的各式各樣的系統或電子裝置通常都適用。
茲參照第7圖,顯示根據本發明的一個實施例之系統700的區塊圖。系統700可包括一或更多個處理器710及715,其耦合到控制器集線器720。在一個實施例中,控 制器集線器720包括圖形記憶體控制器集線器(GMCH)790及輸入/輸出集線器(IOH)750(其可在不同晶片上);GMCH 790包括記憶體及圖形控制器,記憶體740及共處理器745與之耦合;IOH 750將輸入/輸出(I/O)裝置760耦合到GMCH 790。替代地,將記憶體及圖形控制器的一或兩者整合在處理器內(如在此所述),記憶體740及共處理器745直接耦合到處理器710,且控制器集線器720與IOH 750在單一個晶片中。
以虛線在第7圖中標示額外處理器715之可選性質。每一個處理器710及715可包括在此所述之處理器核心的一或更多者並可為處理器600的某種版本。
記憶體740可例如為動態隨機存取記憶體(DRAM)、相變記憶體(PCM)、或兩者之組合。針對至少一個實施例,控制器集線器720經由諸如前端匯流排(FSB)的多點(multi-drop)匯流排、諸如QuickPath Interconnect(QPI)之點對點介面、或類似的連結795與處理器710及715通訊。
在一個實施例中,共處理器745為專用處理器,諸如,例如,高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU、嵌入式處理器、或類似者。在一個實施例中,控制器集線器720可包括積體圖形加速器。
以包括架構、微架構、熱、耗電量特性、及類似的優點衡量範圍而言,實體處理器710及715之間可有各種差異。
在一個實施例中,處理器710執行控制一般類型的資料處理運算之指令。共處理器指令可嵌入指令內。處理器710識別出這些共處理器指令為應該由附接之共處理器745執行的類型。依此,處理器710在共處理器匯流排或其他互連上發出這些共處理器指令(或代表共處理器指令的控制信號)到共處理器745。共處理器745接受並執行接收到的共處理器指令。
茲參照第8圖,顯示有根據本發明的一個實施例之第一個更特定的示範系統800之區塊圖。如第8圖中所示,多處理器系統800為點對點互連系統,並包括經由點對點互連850耦合之第一處理器870和第二處理器880。處理器870及880之各者可為處理器600的某種版本。在本發明的一個實施例中,處理器870及880分別為處理器710及715,而共處理器838為共處理器745。在另一個實施例中,處理器870及880分別為處理器710及共處理器745。
處理器870及880顯示成分別包括積體記憶體控制器(IMC)單元872及882。處理器870亦包括,作為其匯流排控制器單元的一部分,點對點(P-P)介面876及878;類似地,第二處理器880包括P-P介面886及888。處理器870及880可使用P-P介面電路878和888經由點對點(P-P)互連850交換資訊。如第8圖中所示,IMC 872及882將處理器耦合到個別的記憶體,亦即記憶體832及記憶體 834,其可為本地附接至個別處理器之主記憶體的部分。
處理器870及880可各使用點對點介面電路876、894、886、及898經由個別的P-P介面852及854與晶片組890交換資訊。晶片組890可選地經由高性能介面839與共處理器838交換資訊。在一個實施例中,共處理器838為專用處理器,諸如,例如,高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU、嵌入式處理器、或類似者。
共享快取(未圖示)可包括在兩個處理器其中之一者中或兩者之外,但仍經由P-P互連與處理器連接,使得如果處理器被置於低功率模式中,處理器其中之一或兩者的本地快取資訊可儲存在共享快取中。
晶片組890可經由介面896耦合到第一匯流排816。在一個實施例中,第一匯流排816可為周邊構件互連(PCI)匯流排,或諸如PCI快速匯流排或另一種第三代I/O互連匯流排的匯流排,雖本發明的範疇不如此受限。
如第8圖中所示,各種I/O裝置814可耦合到第一匯流排816,還有一個將第一匯流排816耦合到第二匯流排820的匯流排橋接器818。在一個實施例中,一或更多個額外的處理器815,諸如共處理器、高通量MIC處理器、GPGPU、加速器(諸如,例如,圖形加速器或數位信號處理(DSP)單元)、現場可編程閘陣列、或任何其他處理器,耦合到第一匯流排816。在一個實施例中,第二匯流排820可為低接腳數(LPC)匯流排。各種裝置可耦合到第二 匯流排820,包括,例如,鍵盤及/或滑鼠822、通訊裝置827、及諸如在一個實施例中可包括指令/碼及資料830之碟驅動機或其他大量儲存裝置的儲存單元828。此外,音頻I/O 824可耦合到第二匯流排820。注意到可有其他架構。例如,取代第8圖的點對點架構,系統可實施多點欸流排或其他這種架構。
茲參照第9圖,顯示根據本發明的一個實施例之第二個更特定的示範系統900之區塊圖。第8及9圖中類似的元件具有類似的參考符號,且第9圖省略了第8圖之某些態樣以避免混淆第9圖之其他態樣。
第9圖繪示可分別包括積體記憶體和I/O控制邏輯(「CL」)872及882之處理器870及880。因此,CL 872及882包括積體記憶體控制器單元並包括I/O控制邏輯。第9圖繪示不僅記憶體832及834耦合到CL 872及882,但I/O裝置914也耦合到CL 872及882。舊有的I/O裝置915耦合到晶片組890。
茲參照第10圖,顯示根據本發明的一個實施例之單晶片系統(SoC)1000之區塊圖。第6圖中類似的元件有類似的參考符號。另外,虛線框為更先進SoC上的可選特徵。在第10圖中,互連單元1002耦合到:包括一組一或更多個核心602A-N和共享快取單元606的應用處理器1010;系統代理單元610;匯流排控制器單元616;積體記憶體控制器單元614;可包括積體圖形邏輯、影像處理器、音頻處理器、及視頻處理器的一組一或更多個共處理 器1020;靜態隨機存取記憶體(SRAM)單元1030、直接記憶體存取(DMA)單元1032;及用於耦合到一或更多個外部顯示器之顯示單元1040。在一個實施例中,共處理器1020包括專用處理器,諸如,例如,網路或通訊處理器、壓縮引擎、GPGPU、高通量MIC處理器、嵌入式處理器、或類似者。
可在硬體、軟體、韌體、或這種實作方式的組合中實施在此所揭露之機制的實施例。可將本發明之實施例實施為執行於包括至少一個處理器、儲存系統(包括依電及非依電性記憶體及/或儲存元件)、至少一個輸入裝置及至少一個輸出裝置的可編程系統上之電腦程式或程式碼。
程式碼,如第8圖中所示的碼830,可應用於輸入指令以執行在此所述之功能並產生輸出資訊。輸出資訊可依照已知方式應用於一或更多個輸出裝置。有鑑於此申請書的目的,處理系統包括具有處理器的任何系統,諸如,例如;數位信號處理器(DSP)、微控制器、特殊應用積體電路(ASIC)、或微處理器。
可在高階或物件導向編程語言中實施程式碼以與處理系統通訊。若希望,亦可在組合或機器語言中實施程式碼。事實上,在此所述的機制在範疇上不限於任何特定的語言。在任何情況中,語言可為經編譯或翻譯的語言。
可藉由儲存在機器可讀取媒體上的代表性指令來實施至少一個實施例的一或更多個態樣,這些指令代表處理器內的各種邏輯,且當由機器讀取時會令機器製造邏輯以執 行在此所述的技術。這種表示,稱為「IP核心」,可儲存在有形機器可讀取媒體上並且供應給各種客戶或製造廠以載入到實際製造邏輯或處理器之製造機器中。
這種機器可讀取儲存媒體可包括,但不限於,由機器或裝置製造或形成的物品之非暫態有形配置,包括諸如硬碟、任何其他類型的碟(包括軟碟、光碟、光碟唯讀記憶體(CD-ROM)、光碟可讀取(CD-RW)、及光磁碟)、諸如唯讀記憶體(ROM)、諸如動態隨機存取記憶體(DRAM)和靜態隨機存取記憶體(SRAM)的隨機存取記憶體(RAM)、可抹除可編程唯讀記憶體(EPROM)、快閃記憶體、電性可抹除可編程唯讀記憶體(EEPROM)、相變記憶體(PCM)之半導體裝置、磁或光卡之儲存媒體、或適合用於儲存電子指令之任何其他類型的媒體。
依此,本發明之實施例亦包括含有指令或含有設計資料之非暫態有形機器可讀取媒體,諸如硬體描述語言(HDL),其界定在此所述之結構、電路、設備、處理器及/或系統特徵。這類實施例亦可稱為程式產品。
在一些情況中,指令轉換器可用來將指令從來源指令集轉換成目標指令集。例如,指令轉換器可翻譯(例如,使用靜態二元翻譯、包括動態編譯之動態二元翻譯)、形變、仿真、或否則將指令轉換成將由核心處理之一或更多個其他的指令。可在軟體、硬體、韌體、或上述之組合中實施指令轉換器。指令轉換器可在處理器上、處理器外、部分在處理器上及部分在處理器外。
第11圖為根據本發明的實施例對照軟體指令轉換器的使用以將來源指令集中之二元指令轉換成目標指令集中的二元指令之區塊圖。在所示實施例中,指令轉換器為軟體指令轉換器,雖替代地可在軟體、韌體、硬體、或上述之組合中實施指令轉換器。第11圖顯示可用x86編譯器1104編譯在高階語言1102的程式以產生可由具有至少一個x86指令集核心1116的處理器本機執行之x86二元碼1106。具有至少一個x86指令集核心1116的處理器代表可與具有至少一個x86指令集核心的Intel處理器執行實質上相同功能的任何處理器,藉由相容地執行或否則處理(1)Intel x86指令集核心之指令集的相當一部分或(2)旨在於具有至少一個x86指令集核心的Intel處理器上運行的應用或其他軟體之物件碼版本,以實現與具有至少一個x86指令集核心的Intel處理器實質上相同的結果。x86編譯器1104代表可操作成產生x86二元碼1106(如物件碼)之編譯器,在有或無額外鏈結處理下,可由具有至少一個x86指令集核心1116的處理器上執行該x86二元碼。類似地,第11圖顯示可使用一個替代的指令集編譯器1108來編譯在高階語言1102中之程式以產生可由無至少一個x86指令集核心的處理器1114(例如,具有執行美國加州桑尼維爾的MIPS技術公司之MIPS指令集的核心之處理器)本機執行之替代的指令集二元碼1110。指令轉換器1112用來將x86二元碼1106轉換成可由無x86指令集核心的處理器1114本機執行的碼。經轉換的碼不大可能與 替代的指令集二元碼1110相同,因為很難製造能夠如此作的指令轉換器;然而,經轉換的碼可實現一般的操作並由來自替代指令集之指令構成。因此,指令轉換器1112代表軟體、韌體、硬體、或上述的組合,其透過仿真、模擬、或任何其他程序,讓不具有x86指令集處理器或核心的處理器或其他電子裝置執行x86二元碼1106。
用於執行模式選擇之方法及設備
現今某些處理器能夠執行「高功率」指令,諸如寬單指令多資料(SIMD)指令、某些類型的浮點指令、及利用硬體卸載引擎之指令。這些高功率指令具有與其之執行官聯的功率、電壓、及/或頻率損失(penalty)。這通常是因為這種指令的高功率或電流汲取無法總是保持在與低功率指令所需之相同的頻率、電流、及/或電壓位準。在許多核心架構中,處理器在特殊模式中執行這種指令,以將功率相關的差異納入考量。進入此模式會有負擔(通常在微秒的程度),這意味著頻繁進/出該模式對性能有害。藉由停留在該模式夠久的時期(通常在毫秒的程度)以避免頻繁切換出入此模式來減少此性能負擔。
針對高功率指令「密集」的碼,藉由運行大量高性能指令之性能優勢(導致資料通量的顯著增加)遠遠彌補了在保護模式中運行之性能損失。
問題在於一些編譯器所產生的或標準程式庫碼時常含有「零星」或「稀疏」的高功率指令。當執行這種碼時, 會有其中有小量的高功率碼(例如,一百萬中之幾個指令)的時期,其需要進入到保護模式中以執行指令(故導致性能損失),但這種小量的指令意味著此損失未被相應的性能增益平衡掉。
這導致若干問題。例如,因為進入或離開高功率模式所需的時間之關係,會有與含有「零星」高功率指令之工作負載關聯的性能損耗。使用者也很難以恆定頻率或通量運行而無過渡所致之停滯時間(deadtime)。在一些實作中,進入/離開保護模式會導致無法令人接受的潛伏衝擊而無簡單的解決方法(除了重新編譯碼之外)。此外,當產品行為會隨所執行的程式碼大幅變動時(亦即,使用可能會具有不同比例的高功率指令之不同的碼),微處理器製造商很難提供產品行為之清楚的規格。亦難以提供用於功率遞送之運行時間「低功率」模式(在此模式下將不執行任何高功率指令)。
為了解決前述的限制,本發明的一個實施例在下列兩者之間動態選擇:(1)「本機」運行高功率指令(如現今針對所有高功率指令所進行般),或者(2)在「仿真」模式中運行高功率指令,其中這些指令符合在非高功率指令的功率包跡內,代價為可能較慢地被執行。這允許具有零星高功率指令的工作負載在最少性能衝擊下在正常功率位準運行。
第12圖繪示包含其上可實施本發明之實施例的數個核心0至N的示範處理器1255。雖僅顯示單一個核心(核心0)的細節,其他核心1至N的各者可包括與核心0所述相同或類似的架構。在一個實施例中,處理器1255的每一個核心0至N包括用於執行諸如載入/儲存操作之記憶體操作的記憶體管理單元1290。另外,每一個核心0至N包括一組通用暫存器(GPR)1205、一組向量暫存器1206、及一組遮罩暫存器1207。在一個實施例中,將多個向量資料元件緊縮到每一個向量暫存器1206中,其可具有用於儲存兩個256位元值、四個128位元值、八個64位元值、十六個32位元值等等的512位元寬度。然而,本發明的基礎原理不限於向量資料的任何特定大小/類型。在一個實施例中,遮罩暫存器1207包括用於對儲存於向量暫存器1206中之值執行位元遮罩操作的八個64位元運算元遮罩暫存器(例如,如上述般實施為遮罩暫存器k0至k7)。然而,本發明的基礎原理不限於任何特定的遮罩暫存器大小/類型。
在一個實施例中,每一個核心可包括用於根據指定的快取管理策略快取指令及資料之專用的1階(L1)快取1212和2階(L2)快取1211。L1快取1212包括用於儲存指令的分別之指令快取1220及用於儲存資料的分別之資料快取1221。以快取線的粒度管理儲存在各種處理器快取中的指令和資料,該快取線的粒度可為固定大小(例如,64、128、512位元組之長度)。此示範實施例的每一個核心具有用於從主記憶體1200及/或共享的3階(L3)快取1216提取指令之指令提取單元1210;用於解碼指令(例如,將程 式指令解碼成微運算或「μops」)之解碼單元1230;用於執行指令的執行單元1240;及用於引退指令並寫回結果的寫回單元1250。
指令提取單元1210包括各種眾所周知的構件,包括用於儲存將從主記憶體1200(或快取之一)提取的下一個指令之位址的下一個指令指標1203;用於儲存最近使用過的虛擬至實體指令位址的映像以改善位址翻譯速度之指令翻譯旁看緩衝器(ITLB)1204;用於推測性預測指令分支位址的分支預測單元1202;及用於儲存分支位址和目標位址的分支目標緩衝器(BTB)1201。一旦提取到,接著使指令流到指令管線的其餘階段,包括解碼單元1230、執行單元1240、及寫回單元1250。這些單元的各者之結構與功能為此技藝中具通常知識者熟知且不在此詳加敘述以避免混淆本發明之不同實施例的相關態樣。
在所示實施例中,解碼單元1230包括用於實施在此所述之當由執行單元1240執行高功率指令時用於在「本機」執行模式或「仿真」執行模式之間動態選擇的技術之執行模式選擇邏輯1205。雖繪示在第12圖中之解碼單元1230中,執行模式選擇邏輯1205在一替代實施例中可實施在執行單元1240中(例如,在執行單元的前端,微運算指令之前)。本發明之基礎原理不受限於執行模式選擇邏輯1205的任何特定架構位置。
第13圖繪示本發明的一個實施例之額外的細節,其中由解碼單元1230內的指令解碼邏輯1305解碼並由執行 模式選擇邏輯1205分析高功率及標準(亦即,「低功率」)指令流1300以判定在指令流內遇到高功率指令的頻率。在所示的實施例中,指令流分析邏輯1301維持一組一或更多個計數器1302以計算在一段特定時間或指令窗內遇到高功率指令之數量。取決於在該指定的時間或指令窗內檢測到的高功率指令數量,本機/仿真模式選擇邏輯1310選擇執行單元1240內之「本機」高功率執行模式1320或「仿真」高功率執行模式1321。
在一個實施例中,可針對該時間或指令窗指定高功率指令的臨限數。若指令流分析邏輯1301檢測到超過該臨限值,則本機/仿真模式選擇邏輯1310選擇「本機」高功率執行模式1320。相反地,若指令流分析邏輯1301檢測到未超過該臨限值,則本機/仿真模式選擇邏輯1310選擇「仿真」高功率執行模式1321。
可以各種方式指定臨限值而仍符合本發明之基礎原理。例如,在一個實施例中,臨限值可包含在特定指令窗內總指令數量之指定數量的高功率指令(例如,在流1300內最後10000個指令中之高功率指令的數量)。例如,欲執行該計算,一個計數器1302可計算高功率指令的數量,且另一個計數器1302可計算指令總數。在另一個實施例中,臨限值可依據一個指定時間窗(例如,在最後.01微秒、.001微秒等等內)內之高功率指令的數量。當然,本發明之基礎原理不受限於用於判定指令流內高功率指令的數量的任何特定方式。
可以各種方式實施「仿真」高功率執行模式1321。例如,在一個實施例中,執行模式選擇邏輯1205(或解碼單元1230內的其他邏輯)將高功率指令解碼成在較低性能運行之低功率微碼指令。亦可採用動態二元翻譯技術來執行針對「仿真」高功率執行模式1321之解碼和翻譯成低功率指令。
替代或額外地,可在執行單元1240內將高功率指令節流(throttle)在細粒微架構的層級以減少這些指令的功率包跡。這可例如使用諸如管線泡泡射出、埠大小減少、時脈頻率減少、及/或用以減少執行速率的類似機制之技術來達成。使用這些技術,指令和關聯的微運算花較久的時間執行,但不會呈現「本機」高功率行為。
作為又一個範例,可將高功率指令發送到執行單元1240內具有較低性能之替代的「低功率」執行管線。例如,在「低功率」執行管線中可關閉用於本機執行高功率指令之某些「高功率」硬體特徵。
在一個實施例中,本機/仿真模式選擇邏輯1310依據各種準則實施上述選項的一或更多個。例如,在一個實施例中,監測平台最大電流(IccMax)約束,其可在運行時間靜態或動態更新。在一個實施例中,若超過最大電流臨限值,則可將高功率指令轉換成低功率微運算、予以節流、及/或由低功率執行管線加以執行。
亦可使用硬體計數器為基的試探。例如,在一個實施例中,硬體計數器計算在給定時間窗中之高功率運算的數 量,並且若其超過臨限值,從「仿真」切換到「本機」模式,然後若高功率運算的數量在一段指定時期內低於第二臨限值,則切換回去。作為另一個範例,可使用編譯器暗示或特殊軟體可見的指令,其切換於「本機」與「仿真」模式之間。
在第14圖中繪示根據本發明之一個實施例的一種方法。可在上述架構的上下文內實施方法,但不限於任何特定的系統架構。
在1401,解碼序列中的下一個指令。若其並非高功率指令,在1402判定,則在1403,程序返回到1401以解碼序列中的下一個指令。若其為高功率指令,則在1404,作出在當前時間/指令窗中的高功率指令之數量是否超過一個指定的臨限值。例如,如先前討論過,若在給定窗內有N或更多個高功率指令,則在1405,正常執行指令為高功率指令。然而,若在給定窗內有少於N個高功率指令,則在1406,在「仿真」模式中執行指令。例如,如先前討論過,可將指令解碼成低功率微運算,可加以節流、或可使用低功率執行管線。
在前面的說明書中,已參照本發明之特定示範實施例來說明本發明的實施例。然而,很明顯的可對其做出各種修改及改變而不背離由所附之申請專利範圍所提出之本發明之較廣精神及範疇。依此,應將說明書和圖視為說明性而非限制性。
本發明的實施例可包括已於上方敘述的各種步驟。步 驟可體現於機器可執行指令中,其可令通用或專用處理器執行該步驟。替代地,可藉由含有用於執行該步驟之硬接線邏輯的特定硬體構件或藉由經編程的電腦構件與客製化硬體構件的任何組合來執行這些步驟。
如在此所述,指令可指諸如組態成執行某些操作或具有預定功能之特定應用積體電路(ASIC)之硬體的特定組態,或儲存在體現於非暫態電腦可讀取媒體中的記憶體中之軟體指令。因此,可使用儲存並執行於一或更多個電子裝置(如終端站、網路元件等等)上之碼和資料來實施圖中所示的技術。這種電子裝置使用電腦機器可讀取媒體來儲存並通訊(內部式及/或透過網路與其他電子裝置)碼及資料,該媒體比如為非暫態電腦機器可讀取儲存媒體(例如,磁碟、光碟、隨機存取記憶體、唯讀記憶體、快閃記憶體裝置、相變記憶體)及暫態電腦機器可讀取通訊媒體(例如,電性、光學、聲學、或其他形式的傳播信號-比如載波、紅外線信號、數位信號、等等)。另外,這種電子裝置通常包括耦合至一或更多個其他構件之一組一或更多個處理器,其他構件比如為一或更多個儲存裝置(非暫態機器可讀取儲存媒體)、使用者輸入/輸出裝置(例如,鍵盤、觸碰螢幕、及/或顯示器)、及網路連結。該組處理器與其他構件的耦合通常透過一或更多個匯流排及橋接器(亦稱為匯流排控制器)。乘載網路訊務之儲存裝置及信號分別代表一或更多個機器可讀取儲存媒體及機器可讀取通訊媒體。因此,給定電子裝置之儲存裝置通常儲存用於在 那個電子裝置的該組一或更多個處理器上執行的碼及/或資料。當然,可使用軟體、韌體、及/或硬體之不同組合來實施本發明的一個實施例之一或更多個部分。透過此詳細說明,為了解釋而提出各種特定細節來提供本發明之通徹理解。然而,對熟悉此技藝者而言顯然可在無這些特定細節的某些下施行本發明。在某些實例中,並未以縝密的細節敘述眾所周知的結構和功能以避免混淆本發明之標的。依此,應由隨後的申請專利範圍判定本發明之範疇與精神。
300:暫存器架構
310:向量暫存器
315:寫入遮罩暫存器
325:通用暫存器
345:純量浮點堆疊暫存器檔
350:MMX緊縮整數扁暫存器檔

Claims (20)

  1. 一種處理包括高功率及標準指令之指令集的處理器,包含:分析模組,其判定在指定窗內的高功率指令之數量是否高於或低於指定的臨限值;執行模式選擇模組,若所述高功率指令之數量高於該指定的臨限值,則選擇本機執行模式用於所述高功率指令,及若所述高功率指令之數量低於該指定的臨限值,則選擇仿真執行模式用於所述高功率指令,解碼器,用以在該仿真執行模式中,將所述高功率指令解碼為低功率微運算。
  2. 如申請專利範圍第1項之處理器,其中若在窗內之所述高功率指令之數量等於該臨限值,則執行模式選擇模組係組態成選擇該高功率指令之本機執行或仿真執行。
  3. 如申請專利範圍第1項之處理器,其中該窗包含指定數量的時間且該臨限值包含在該指定數量的時間內該高功率指令的臨限數,或其中該窗包含指定數量的指令且該臨限值包含在該指定數量的指令內該高功率指令的臨限數。
  4. 如申請專利範圍第1項之處理器,其中該解碼器,其回應於該執行模式選擇模組判定該高功率指令數量低於該指定的臨限值,而將所述高功率指令解碼成第一組微運算,並且回應於該執行模式選擇模組判定該高功率指令數量高於該指定的臨限值,而將所述高功率指令解碼成 第二組微運算。
  5. 如申請專利範圍第4項之處理器,其中該第一組微運算比該第二組微運算消耗較少功率。
  6. 如申請專利範圍第5項之處理器,其中該第二組微運算比該第一組微運算更快速完成相應巨集指令的執行。
  7. 如申請專利範圍第1項之處理器,其中所述高功率指令包括寬單指令多資料(SIMD)指令、某些類型的浮點指令、及利用硬體卸載引擎之指令。
  8. 如申請專利範圍第1項之處理器,其中高功率指令包含本機消耗更多功率及/或以與標準指令不同的電壓或頻率執行之指令。
  9. 如申請專利範圍第1項之處理器,其中性能負擔與進入及離開該本機執行模式相關聯,且其中有鑑於該性能負擔來設定該臨限值。
  10. 如申請專利範圍第9項之處理器,其中該性能負擔包含進入及/或離開該本機執行模式所需的時間量。
  11. 一種處理包括高功率及標準指令之指令集的方法,包含:判定在指定窗內的高功率指令之數量是否高於或低於指定的臨限值;若所述高功率指令之數量高於該指定的臨限值,選擇本機執行模式用於所述高功率指令,或若所述高功率指令之數量低於該指定的臨限值,選擇仿真執行模式用於所述 高功率指令;及在該仿真執行模式中,將所述高功率指令解碼為低功率微運算。
  12. 如申請專利範圍第11項之方法,其中若在窗內之所述高功率指令之數量等於該臨限值,則選擇所述高功率指令之本機執行或仿真執行。
  13. 如申請專利範圍第11項之方法,其中該窗包含指定數量的時間且該臨限值包含在該指定數量的時間內高功率指令的臨限數,或其中該窗包含指定數量的指令且該臨限值包含在所述指定數量的指令內高功率指令的臨限數。
  14. 如申請專利範圍第13項之方法,其中所述解碼包含:回應於判定所述高功率指令之數量低於該指定的臨限值時,將所述高功率指令解碼成第一組微運算,並且回應於判定所述高功率指令之數量高於該指定的臨限值時,將所述高功率指令解碼成第二組微運算。
  15. 如申請專利範圍第14項之方法,其中該第一組微運算比該第二組微運算消耗較少功率。
  16. 如申請專利範圍第15項之方法,其中該第二組微運算比該第一組微運算更快速完成相應巨集指令的執行。
  17. 如申請專利範圍第11項之方法,其中所述高功率指令包括寬單指令多資料(SIMD)指令、某些類型的浮點 指令、及利用硬體卸載引擎之指令。
  18. 如申請專利範圍第11項之方法,其中高功率指令包含本機消耗更多功率及/或以與標準指令不同的電壓或頻率執行之指令。
  19. 如申請專利範圍第11項之方法,其中性能負擔與進入及離開該本機執行模式相關聯且其中有鑑於該性能負擔來設定該臨限值。
  20. 如申請專利範圍第19項之方法,其中該性能負擔包含進入及/或離開該本機執行模式所需的時間量。
TW105115348A 2015-06-25 2016-05-18 處理包括高功率及標準指令之指令集的方法與處理器 TWI697836B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/750,212 US9841997B2 (en) 2015-06-25 2015-06-25 Method and apparatus for execution mode selection
US14/750,212 2015-06-25

Publications (2)

Publication Number Publication Date
TW201716990A TW201716990A (zh) 2017-05-16
TWI697836B true TWI697836B (zh) 2020-07-01

Family

ID=57586140

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105115348A TWI697836B (zh) 2015-06-25 2016-05-18 處理包括高功率及標準指令之指令集的方法與處理器

Country Status (5)

Country Link
US (1) US9841997B2 (zh)
EP (1) EP3314428A4 (zh)
CN (1) CN107636609A (zh)
TW (1) TWI697836B (zh)
WO (1) WO2016209487A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10310858B2 (en) * 2016-03-08 2019-06-04 The Regents Of The University Of Michigan Controlling transition between using first and second processing circuitry
US10437562B2 (en) * 2016-12-30 2019-10-08 Intel Corporation Apparatus and method for processing sparse data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060282826A1 (en) * 2005-06-09 2006-12-14 Dockser Kenneth A Microprocessor with automatic selection of SIMD parallelism
US7992017B2 (en) * 2007-09-11 2011-08-02 Intel Corporation Methods and apparatuses for reducing step loads of processors
US20140208077A1 (en) * 2013-01-23 2014-07-24 International Business Machines Corporation Vector floating point test data class immediate instruction
US20140317425A1 (en) * 2013-04-17 2014-10-23 Apple Inc. Multi-core processor instruction throttling

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775787B2 (en) * 2002-01-02 2004-08-10 Intel Corporation Instruction scheduling based on power estimation
US6961847B2 (en) 2002-03-20 2005-11-01 Intel Corporation Method and apparatus for controlling execution of speculations in a processor based on monitoring power consumption
US20070220293A1 (en) * 2006-03-16 2007-09-20 Toshiba America Electronic Components Systems and methods for managing power consumption in data processors using execution mode selection
CN100428184C (zh) * 2006-12-13 2008-10-22 南开大学 具有自驱动功能的指令仿真解析系统及其实现方法
US8160862B1 (en) * 2007-12-05 2012-04-17 Cadence Design Systems, Inc. Method and apparatus for controlling power in an emulation system
US8775153B2 (en) * 2009-12-23 2014-07-08 Intel Corporation Transitioning from source instruction set architecture (ISA) code to translated code in a partial emulation environment
US20110208505A1 (en) 2010-02-24 2011-08-25 Advanced Micro Devices, Inc. Assigning floating-point operations to a floating-point unit and an arithmetic logic unit
US9009451B2 (en) * 2011-10-31 2015-04-14 Apple Inc. Instruction type issue throttling upon reaching threshold by adjusting counter increment amount for issued cycle and decrement amount for not issued cycle
US8954775B2 (en) * 2012-06-20 2015-02-10 Intel Corporation Power gating functional units of a processor
US9703562B2 (en) * 2013-03-16 2017-07-11 Intel Corporation Instruction emulation processors, methods, and systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060282826A1 (en) * 2005-06-09 2006-12-14 Dockser Kenneth A Microprocessor with automatic selection of SIMD parallelism
US7992017B2 (en) * 2007-09-11 2011-08-02 Intel Corporation Methods and apparatuses for reducing step loads of processors
US20140208077A1 (en) * 2013-01-23 2014-07-24 International Business Machines Corporation Vector floating point test data class immediate instruction
US20140317425A1 (en) * 2013-04-17 2014-10-23 Apple Inc. Multi-core processor instruction throttling

Also Published As

Publication number Publication date
WO2016209487A1 (en) 2016-12-29
EP3314428A4 (en) 2019-07-03
EP3314428A1 (en) 2018-05-02
CN107636609A (zh) 2018-01-26
TW201716990A (zh) 2017-05-16
US9841997B2 (en) 2017-12-12
US20160378486A1 (en) 2016-12-29

Similar Documents

Publication Publication Date Title
JP6456867B2 (ja) 密結合ヘテロジニアスコンピューティングのためのハードウェアプロセッサ及び方法
JP6238497B2 (ja) プロセッサ、方法、及びシステム
TWI575448B (zh) 三個來源運算元浮點加法處理器、方法、系統及指令
CN108647044B (zh) 浮点缩放处理器、方法、系统和指令
JP6711480B2 (ja) ベクトルインデックスロードおよびストアのための方法および装置
TWI524266B (zh) 用以偵測向量暫存器內相等元素之裝置及方法
US20130290685A1 (en) Floating point rounding processors, methods, systems, and instructions
KR102508075B1 (ko) 인덱스 및 즉치로 벡터 치환을 수행하기 위한 방법 및 장치
KR102462174B1 (ko) 벡터 비트 셔플을 수행하기 위한 방법 및 장치
JP6741006B2 (ja) マスクレジスタとベクトルレジスタとの間で可変に拡張するための方法および装置
CN113076139A (zh) 用于执行指令以转换成16位浮点格式的系统和方法
TW202326409A (zh) 用於融合乘加運算的系統、裝置及方法
CN110659129A (zh) 用于数据表示之间的一致、加速的转换的装置和方法
JP6738579B2 (ja) 命令フローを最適化するチェックを実行するための装置および方法
JP2018500652A (ja) マスクをマスク値のベクトルに拡張するための方法および装置
TWI830927B (zh) 用於處理器非回寫能力的設備、方法、及非暫時性機器可讀取媒體
TWI697836B (zh) 處理包括高功率及標準指令之指令集的方法與處理器
KR102528073B1 (ko) 벡터 비트 수집을 수행하기 위한 방법 및 장치
JP2018500665A (ja) マスク値を圧縮するための方法および装置
US10095517B2 (en) Apparatus and method for retrieving elements from a linked structure
KR102321941B1 (ko) 스핀-루프 점프를 수행하기 위한 장치 및 방법
WO2019005169A1 (en) APPARATUS AND METHOD FOR MEMORY OPERATIONS READY FOR DATA
CN114327622A (zh) 用于转换16位浮点格式的指令的装置、方法和系统