TWI617976B - 用以處理位元流之處理器為基的設備及方法 - Google Patents

用以處理位元流之處理器為基的設備及方法 Download PDF

Info

Publication number
TWI617976B
TWI617976B TW101146190A TW101146190A TWI617976B TW I617976 B TWI617976 B TW I617976B TW 101146190 A TW101146190 A TW 101146190A TW 101146190 A TW101146190 A TW 101146190A TW I617976 B TWI617976 B TW I617976B
Authority
TW
Taiwan
Prior art keywords
bit
byte
address
bits
instruction
Prior art date
Application number
TW101146190A
Other languages
English (en)
Other versions
TW201346728A (zh
Inventor
維諾德 哥帕
詹姆斯 吉佛德
吉爾伯 渥里奇
耳汀 奧茲土克
瓦伊第 裴嘉利
柯克 亞普
辛 加利
馬丁 迪克森
羅伯特 查裴爾
Original Assignee
英特爾股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 英特爾股份有限公司 filed Critical 英特爾股份有限公司
Publication of TW201346728A publication Critical patent/TW201346728A/zh
Application granted granted Critical
Publication of TWI617976B publication Critical patent/TWI617976B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30043LOAD or STORE instructions; Clear instruction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30018Bit or string instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • G06F9/30038Instructions to perform operations on packed data, e.g. vector, tile or matrix operations using a mask
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Advance Control (AREA)

Abstract

描述一種設備及方法,用以使用位元取向指令來處理位元流。例如,依據一實施例之方法包括下列操作:執行一指令以獲得用於一操作之位元,該指令識別待擷取之開始位元位址及位元數;從位元取向暫存器或快取擷取其由該開始位元位址及位元數所識別之位元;及對該些擷取之位元履行指定位元操作之一序列以產生結果。

Description

用以處理位元流之處理器為基的設備及方法
本發明係有關電腦系統之領域。更明確地,本發明之實施例係有關用以處理位元流之處理器為基的設備及方法。
指令集,或指令集架構(ISA),為關於編程之電腦架構的部分,並可包括本機資料類型、指令、暫存器架構、定址模式、記憶體架構、中斷和例外處置、及外部輸入和輸出(I/O)。術語「指令」一般於文中指的是巨集指令-其為提供給處理器(或指令轉換器,其翻譯(例如,使用靜態二元翻譯、包括動態編譯之動態二元翻譯)、編輯、仿真、或轉換指令為一或更多其他指令以供由該處理器所處理)以供執行-相對於微指令或微操作(micro-ops)-其為處理器之解碼器解碼巨集指令的結果。
ISA係不同於微架構,其為實施指令集之處理器的內部設計。具有不同微架構之處理器可共用一共同指令集。例如,Intel® Pentium 4處理器、Intel® CoreTM處理器、及來自Advanced Micro Devices,Inc.of Sunnyvale CA之處理器係實施x86指令集之幾乎完全相同的版本(具有已被加入有新版本之某些擴充),但具有不同的內部設計。例如,ISA之相同的暫存器架構可被實施以不同方式於使 用眾所周知技術之不同微架構中,包括專屬實體暫存器、使用暫存器重新命名機構之一或更多動態配置的實體暫存器(例如,使用暫存器混疊表(RAT)、重排序緩衝器(ROB)、及收回(retirement)暫存器檔案;使用多數映圖及暫存器池),等等。除非另有指明,片語暫存器架構、暫存器檔案、及暫存器於文中被用以指稱軟體/編程器可見者及其中指令指明暫存器之方式。當想要明確性時,形容詞邏輯、架構、或軟體可見將被用以指示暫存器架構中之暫存器/檔案,而不同的形容詞將被用以指定一既定微架構中之暫存器(例如,實體暫存器、重排序緩衝器、收回暫存器、暫存器池)。
指令集包括一或更多指令格式。既定的指令格式係界定各種欄位(位元之數目、位元之位置),以指明(除了別的以外)將履行之操作(運算碼)及該操作所將履行之運算元。某些指令格式係透過指令模板(template)(或子格式)之定義而被進一步分解。例如,一既定指令格式之指令模板可被界定以具有指令格式之欄位的不同子集(所包括之欄位通常為相同順序,但至少某些具有不同的位元位置,因為有較少的欄位包括在內)及/或被界定以具有不同地解讀之既定欄位。因此,ISA之各指令係使用既定指令格式(及,假如已界定的話,以該指令格式之指令模板的一既定者)來表達,並包括用以指明操作及運算元之欄位。例如,一範例ADD指令具有一特定運算碼及一指令格式,其包括用以指明該運算碼之運算碼欄位及用 以選擇運算元之運算元欄位(來源1/目的地及來源2);而一指令流中之此ADD指令的出現將具有特定內容於其選擇特定運算元之運算元欄位中。
科學的、金融的、自動向量化的一般用途,RMS(識別、探勘、及合成),及視覺和多媒體應用(例如,2D/3D圖形、影像處理、視頻壓縮/解壓縮、聲音識別演算法及音頻調處)經常需要對大量資料項目履行相同的操作(稱之為「資料平行化」)。單一指令多重資料(SIMD)指的是一種致使處理器對多重資料項目履行操作之指令的類型。SIMD技術特別適於其可將暫存器中之位元邏輯地劃分為數個固定大小的資料元件之處理器,每一資料元件代表分離的值。例如,256位元暫存器中之位元可被指明為來源運算元以便操作為四個分離的64位元緊縮資料元件(四字元(Q)大小資料元件)、八個分離的32位元緊縮資料元件(雙字元(D)大小資料元件)、十六個分離的16位元緊縮資料元件(字元(W)大小資料元件)、或三十二個分離的8位元緊縮資料元件(位元組(B)大小資料元件)。此資料之類型被稱為緊縮資料類型或向量資料類型,而此資料類型之運算元被稱為緊縮資料運算元或向量運算元。換言之,緊縮資料項目或向量(packed data item or vector)指的是緊縮資料元件之序列,而緊縮資料運算元或向量運算元為SIMD指令之來源或目的地運算元(亦稱為緊縮資料指令或向量指令)。
舉例而言,SIMD指令之一類型係指明單一向量操作 以供用垂直方式履行於兩來源向量運算元來產生相同大小的目的地向量運算元(亦稱為結果向量運算元),具有相同的資料元件數,且依相同的資料元件順序。來源向量運算元中之資料元件被稱為來源資料元件,而目的地向量運算元中之資料元件被稱為目的地或結果資料元件。這些來源向量運算元為相同大小且含有相同寬度的資料元件,而因此其含有相同的資料元件數。兩來源向量運算元中之相同位元位置中的來源資料元件形成資料元件對(亦稱為相應的資料元件;亦即,各來源運算元之資料元件位置0中的資料元件相應、各來源運算元之資料元件位置1中的資料元件相應,依此類推)。由SIMD指令所指明之操作被分離地履行於這些來源資料元件對之每一者,以產生匹配的結果資料元件數,而因此各來源資料元件對具有一相應的結果資料元件。因為操作是垂直的且因為結果向量運算元為相同的大小、具有相同的資料元件數、且結果資料元件依相同的資料元件順序被儲存為來源向量運算元,所以結果資料元件係位於如來源向量運算元中之其相應的來源資料元件對之結果向量運算元的相同位元位置中。除了SIMD指令之此範例類型外,有多種SIMD指令之其他類型(例如,僅具有一個或具有大於二個來源運算元者、以水平方式操作者、產生其為不同大小的結果向量運算元者、具有不同大小的資料元件者、及/或具有不同的資料元件順序者)。應理解術語「目的地向量運算元」(或目的地運算元)被定義為履行由指令所指明之操作的直接結 果,包括將該目的地儲存於某一位置(可為一暫存器或者於該指令所指明之記憶體位址上)以致其可由另一指令存取為來源運算元(藉由另一指令之該相同位置的指明)。
SIMD技術,諸如由具有包括x86、MMXTM、串流SIMD擴充(SSE),SSE2,SSE3,SSE4.1及SSE4.2指令之指令集的Intel® CoreTM處理器所使用者,以達成了應用程式性能之顯著的增進。已釋出及/或公開了SIMD擴充之一額外組,其被稱為先進向量擴充(AVX)(AVX1及AVX2)並使用向量擴充(VEX)編碼技術(例如,參見Intel® 64及IA-32架構軟體開發者手冊,2011年十月;亦參見Intel®先進向量擴充編程參考,2011年六月)。
本發明實施例相關背景資料
讀取並剖析來自輸入緩衝器之位元流是實施資料壓縮常需要的。壓縮程序之主處理迴路重複地需要某些儲存於輸入緩衝器中之少數位元。每次損耗位元時,需要進行相關的簿記操作(book-keeping operations)以更新計數器、指針,等等,來識別待處理之下一組資料。當前系統係保持64位元的通用暫存器(GPR)為「位元殘餘」暫存器,並在當未使用位元之數目下降低於一臨限值時讀入新的資料區塊(例如,Qword=64位元)。此刻,新的資料區塊(例如,Qword)被位移且併入與當前的位元殘餘暫存器且可用的位元數被更新/增加。明確地,保持位元殘餘暫存器亦需要以週期性間隔檢查於處理迴路中,以判定是否有足夠的位元於位元殘餘暫存器 中。這些檢查係以條件性分支(其為資料相依的)來完成。
【發明內容及實施方式】 範例處理器架構及資料類型
圖1A為一方塊圖,其說明依據本發明之實施例的範例依序的管線(exemplary in-order pipeline)及範例暫存器重新命名的、失序的發出/執行管線(exemplary register renaming,out-of-order issue/execution pipeline)兩者。圖1B為一方塊圖,其說明包括於一依據本發明之實施例的處理器中之依序架構核心之範例實施例及範例暫存器重新命名的、失序的發出/執行架構核心兩者。圖1A-B中之實線方塊係說明依序管線及依序核心,而虛線方塊之選配性加入則說明暫存器重新命名的、失序的發出/執行管線及核心。假設依序形態為失序形態之子集,則將描述失序形態。
於圖1A中,處理器管線100包括提取級102、長度解碼級104、解碼級106、配置級108、重新命名級110、排程(亦已知為調度(dispatch)或發出)級112、暫存器讀取/記憶體讀取級114、執行級116、寫回/記憶體寫入級118、異常處置級122、及確定(commit)級124。
圖1B顯示處理器核心190,其包括耦合至執行引擎單元150之前端單元130,兩者均耦合至記憶體單元170。核心190可為精簡指令集計算(RISC)核心、複雜指令集計算(CISC)核心、極長指令字元(VLIW)核心、或者混合或替代核心型。當作又另一選項,核心190 可為特殊用途核心,諸如(例如)網路或通訊核心、壓縮引擎、共處理器核心、通用計算圖形處理單元(GPGPU)核心、圖形核心,等等。
前端單元130包括一耦合至指令快取單元134之分支預測單元132,指令快取單元134係耦合至指令翻譯旁看緩衝器(TLB)136,指令翻譯旁看緩衝器(TLB)136係耦合至指令提取單元138,指令提取單元138係耦合至解碼單元140。解碼單元140(或解碼器)可解碼指令,並產生下列之一者或更多者以當作輸出:微操作、微碼進入點、微指令、其他指令、或其他控制信號,其係解碼(或者反射、或被衍生)自原始指令。解碼單元140可使用各種不同機制而被實施。適當機制之範例包括(但不限定於)查找表、硬體實施、可編程邏輯陣列(PLA)、微碼唯讀記憶體(ROM),等等。於一實施例中,核心190包括微碼ROM或其他媒體,其係儲存某些微指令之微碼(例如,於解碼單元140中或者另外於前端單元130內)。解碼單元140係耦合至執行引擎單元150中之重新命名/配置器單元152。
執行引擎單元150包括重新命名/配置器單元152,其係耦合至收回單元154及一組一或更多排程器單元156。排程器單元156代表任何數目的不同排程器,包括保留站、中央指令視窗,等等。排程器單元156被耦合至實體暫存器檔案單元158。實體暫存器檔案單元158之每一者代表一或更多實體暫存器檔案,其各不同者係儲存一或更 多不同的資料類型,諸如純量整數、純量浮點、緊縮整數、緊縮浮點、向量整數、向量浮點、狀態(例如,其為待執行之下一指令的位址之指令指針),等等。於一實施例中,實體暫存器檔案單元158包含向量暫存器單元、寫入遮罩暫存器單元、及純量暫存器單元。這些暫存器單元可提供架構向量暫存器、向量遮罩暫存器、及通用暫存器。實體暫存器檔案單元158被收回單元154疊置以說明各種方式,其中暫存器重新命名及失序執行可被實施(例如,使用重排序緩衝器及收回暫存器檔案;使用未來檔案、歷史緩衝器、及收回暫存器檔案;使用暫存器映圖及一群暫存器,等等)。收回單元154及實體暫存器檔案單元158被耦合至執行叢集160。執行叢集160包括一組一或更多執行單元162及一組一或更多記憶體存取單元164。執行單元162可履行各種操作(例如,位移、相加、相減、相乘)並針對各種類型的資料(例如,純量浮點、緊縮整數、緊縮浮點、向量整數、向量浮點)。雖然某些實施例可包括專用於特別功能或功能集的數個執行單元,而其他實施例可包括僅有一個執行單元或者多個均履行所有功能之執行單元。排程器單元156、實體暫存器檔案單元158、執行叢集160被顯示為可能多數的,因為某些實施例係產生分離的管線給某些類型的資料/操作(例如,純量整數管線;純量浮點/緊縮整數/緊縮浮點/向量整數/向量浮點管線;及/或各具有其本身的排程器單元、實體暫存器檔案單元、及/或執行叢集的記憶體存取管線- 而於分離記憶體存取管線之情況下,實施某些實施例,其中僅有此管線之執行叢集具有記憶體存取單元164)。亦應理解其中使用分離管線時,一或更多這些管線可為失序發出/執行而其他的為依序。
該組記憶體存取單元164被耦合至記憶體單元170,其包括資料TLB單元172,其耦合至資料快取單元174,其耦合至第二階(L2)快取單元176。於一範例實施例中,記憶體存取單元164可包括載入單元、儲存位址單元、及儲存資料單元,其每一者係耦合至記憶體單元170中之資料TLB單元172。指令快取單元134被進一步耦合至記憶體單元170中之第二階(L2)快取單元176。L2快取單元176被耦合至一或更多其他階的快取且最終耦合至主記憶體。
舉例而言,範例暫存器重新命名、失序發出/執行核心架構可實施管線100如下:1)指令提取138履行提取和長度解碼級102和104;2)解碼單元140履行解碼級106;3)重新命名/配置器單元152履行配置級108和重新命名級110;4)排程器單元156履行排程級112;5)實體暫存器檔案單元158和記憶體單元170履行暫存器讀取/記憶體讀取級114;執行叢集160履行執行級116;6)記憶體單元170和實體暫存器檔案單元158履行寫回/記憶體寫入級118;7)各種單元可被關聯於異常處置級122;及8)收回單元154和實體暫存器檔案單元158履行確定級124。
核心190可支援一或更多指令集(例如,x86指令集(具有某些已隨著較新版本而加入之擴充);MIPS Technologies of Sunnyvale,CA之MIPS指令集;ARM Holdings of Sunnyvale,CA之ARM指令集(具有諸如NEON等選擇性額外擴充)),包括文中所述之指令。於一實施例中,核心190包括邏輯以支援緊縮資料指令集擴充(例如,AVX1、AVX2,及/或一般性向量友善指令格式(U=0及/或U=1)之某形式,如以下所描述),藉此容許由許多多媒體應用程式所使用之操作得以使用緊縮資料來履行。
應理解其核心可支援多執行緒(multi-threading)(指令二或更多組的操作或執行緒),及可用包括時間切割多執行緒、同時多執行緒(其中單一實體核心提供邏輯核心給其實體核心正在同時多執行緒之每一線程)、或其組合之各種方式來進行(例如,時間切割的提取和解碼以及之後的同時多執行緒,諸如於Intel的超執行緒技術)。
雖然暫存器重新命名被描述於失序執行之情境,應理解其暫存器重新命名可被使用於依序架構。雖然處理器之例示實施例亦包括分離指令和資料快取單元134/174以及共用的第二階(L2)快取單元176,但替代實施例可具有用於指令和資料之單一內部快取,諸如(例如)第一階(L1)內部快取、或多階的內部快取。於某些實施例中,系統可包括內部快取與核心及/或處理器外之外部快取的 組合。替代地,所有快取可於核心及/或處理器之外。
圖2為依據本發明之實施例的處理器200之方塊圖,該處理器可具一個以上的核心、可具有一集成記憶體控制器、且可具有集成圖形。圖2中之實線方塊係說明一具有單一核心202A、系統代理器210、一組一或更多匯流排控制器單元216之處理器200,而虛線方塊之額外加入則說明一具有多個核心202A-N、系統代理器單元210中之一組一或更多集成記憶體控制器單元214、及特殊用途邏輯208之處理器200。
因此,處理器200之不同實施方式可包括:1)具有特殊用途邏輯208之CPU為集成圖形及/或科學(通量)邏輯(其可包括一或更多核心),而核心202A-N為一或更多通用核心(例如,通用依序核心、通用失序核心、兩者之組合);2)具有核心202A-N之共處理器為主要用於圖形及/或科學(通量)之大量特殊用途核心;及3)具有核心202A-N之共處理器為大量通用依序核心。因此,處理器200可為通用處理器、共處理器或特殊用途處理器,諸如(例如)網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU(通用圖形處理單元)、高通量多集成核心(MIC)共處理器(包括30或更多核心)嵌入處理器,等等。處理器可被實施於一或更多晶片上。處理器200可為一或更多基底之一部分及/或可被實施於一或更多基底上,使用數種製程科技之任一種,諸如(例如)BiCMOS、CMOS、或NMOS。
記憶體階層包括核心內之一或更多階的快取、一組或者一或更多共用快取單元206、及耦合至該組集成記憶體控制器單元214之外部記憶體(未顯示)。該組共用快取單元206可包括一或更多中階快取,諸如第二階(L2)、第三階(L3)、第四階(L4)、或其他階的快取、最後階快取(LLC)、及/或其組合。雖然於一實施例中,一種環狀為基的互連單元212係互連集成圖形邏輯208、該組共用快取單元206、以及系統代理器單元210/集成記憶體控制器單元214,但替代實施例可使用任何眾所周知的技術來互連此等單元。於一實施例中,相干性被維持於一或更多快取單元206與核心202A-N之間。
於某些實施例中,一或更多核心202A-N能夠進行多執行緒。系統代理器210包括那些協調及操作核心202A-N之組件。系統代理器單元210可包括(例如)電力控制單元(PCU)及顯示單元。PCU可為或者可包括用以調節核心202A-N和集成圖形邏輯208之電力狀態所需的邏輯和組件。顯示單元係用以驅動一或更多外部連接的顯示。
就架構指令集而言,核心202A-N可為同質的或異質的;亦即,二或更多核心202A-N能夠執行相同的指令集,而其他者能夠執行該指令集之僅僅一子集或者一不同指令集。
圖3-6為範例電腦架構之方塊圖。用於筆記型電腦、桌上型電腦、手持式PC、個人數位助理、工程工作站、伺服器、網路裝置、網路集線器、開關、嵌入式處理器、 數位信號處理器(DSP)、圖形裝置、視頻遊戲裝置、機上盒、微處理器、行動電話、可攜式媒體播放器、手持式裝置、及各種其他電子裝置之習知技術中已知的其他系統設計和組態亦為適當的。一般而言,能夠結合處理器及/或其他執行邏輯之多種系統或電子裝置(如文中所揭示者)通常為適當的。
現在參考圖3,其顯示依據本發明之一實施例的系統300之方塊圖。系統300可包括一或更多處理器310、315,其被耦合至控制器集線器320。於一實施例中,控制器集線器320包括一圖形記憶體控制器集線器(GMCH)390及一輸入/輸出集線器(IOH)350(其可於分離的晶片上);GMCH 390包括記憶體和圖形控制器,其係耦合記憶體340和共處理器345;IOH 350將輸入/輸出(I/O)裝置360耦合至GMCH 390。替代地,記憶體和圖形控制器之一或兩者被集成於處理器內(如文中所述者),記憶體340和共處理器345被直接耦合至處理器310、以及一具有IOH 350之單一晶片中的控制器集線器320。
額外處理器315之選擇性本質係以虛線被標示於圖3中。各處理器310、315可包括文中所述之一或更多處理核心並可為某版本的處理器200。
記憶體340可為(例如)動態隨機存取記憶體(DRAM)、相位改變記憶體(PCM)、或兩者之組合。針對至少一實施例,控制器集線器320通連與處理器310、315,經由諸如前側匯流排(FSB)等多點(multi- drop)匯流排、諸如快速路徑互連(QPI)等點對點介面、或類似連接395。
於一實施例中,共處理器345為特殊用途處理器,諸如(例如)高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU、嵌入處理器,等等。於一實施例中,控制器集線器320可包括一集成圖形加速器。
有多種差異於實體資源310、315之間,關於包括架構、微架構、熱、電力耗損特性等等重要量度之波譜。
於一實施例中,處理器310執行其控制一般類型之資料處理操作的指令。共處理器指令可嵌入指令之內。處理器310識別這些共處理器指令為應由附加共處理器345所執行之類型。因此,處理器310將共處理器匯流排或其他互連上之這些共處理器指令(或代表共處理器指令之控制信號)發出至共處理器345。共處理器345接受並執行所接收的共處理器指令。
現在參考圖4,其顯示依據本發明之一實施例的第一更特定範例系統400之方塊圖。如圖4中所示,多處理器系統400為點對點互連系統,並包括經由點對點互連450而耦合之第一處理器470和第二處理器480。處理器470與480之每一者可為相同版本的處理器200。於本發明之一實施例中,處理器470和480個別為處理器310和315,而共處理器438為共處理器345。於另一實施例中,處理器470和480個別為處理器310和共處理器345。
處理器470和480被顯示為個別地包括集成記憶體控 制器(IMC)單元472和482。處理器470亦包括點對點(P-P)介面476和478為其匯流排控制器單元之部分;類似地,第二處理器480包括P-P介面486和488。處理器470、480可使用P-P介面電路478、488而經由點對點(P-P)介面450以交換資訊。如圖4中所示,IMC 472和482將處理器耦合至個別記憶體,亦即記憶體432和記憶體434,其可為局部地裝附至個別處理器之主記憶體的部分。
處理器470、480可各使用點對點介面電路476、494、486、498而經由個別P-P介面452、454與晶片組490交換資訊。晶片組490可選擇性地經由高性能介面439而與共處理器438交換資訊。於一實施例中,共處理器438為特殊用途處理器,諸如(例如)高通量MIC處理器、網路或通訊處理器、壓縮引擎、圖形處理器、GPGPU、嵌入處理器,等等。
共用快取(未顯示)可被包括於任一處理器中或者於兩處理器之外部,而經由P-P互連與處理器連接,以致處理器之局部快取資訊的任一者或兩者可被儲存於共用快取中,假如處理器被置於低電力模式下的話。
晶片組490可經由介面496而被耦合至第一匯流排416。於一實施例中,第一匯流排416可為周邊組件互連(PCI)匯流排,或者諸如PCI Express匯流排或另一第三代I/O互連匯流排,雖然本發明之範圍不因此受限。
如圖4中所示,各種I/O裝置414可被耦合至第一匯 流排416,連同一將第一匯流排416耦合至第二匯流排420之匯流排橋418。於一實施例中,諸如共處理器、高通量MIC處理器、GPGPU、加速器(諸如,例如,圖形加速器或數位信號處理(DSP)單元)、場可編程閘極陣列、或任何其他處理器等一或更多額外處理器415被耦合至第一匯流排416。於一實施例中,第二匯流排420為低接腳數(LPC)匯流排。各種裝置可被耦合至第二匯流排420,包括(例如)鍵盤及/或滑鼠422、通訊裝置427及儲存單元428,諸如碟片驅動器或其他大量儲存裝置,可包括指令/碼及資料430,於一實施例中。再者,聲頻I/O424可被耦合至第二匯流排420。注意:其他架構是可能的。例如,取代圖4之點對點架構,系統可實施多點匯流排其他此類架構。
現在參考圖5,其顯示依據本發明之一實施例的第二更特定範例系統500之方塊圖。圖4和5中之類似元件係使用類似的參考數字,且圖5已省略了圖4之某些形態以避免混淆圖5之其他形態。
圖5顯示其處理器470、480可個別地包括集成記憶體和I/O控制邏輯(「CL」)472和482。因此,CL 472、482包括集成記憶體控制器單元並包括I/O控制邏輯。圖5顯示其不僅記憶體432、434耦合至CL 472、482,同時I/O裝置514亦耦合至控制邏輯472、482。傳統I/O裝置515被耦合至晶片組490。
現在參考圖6,其顯示依據本發明之一實施例的SoC 600之方塊圖。與圖2類似的元件係使用類似參考數字。同時,虛線方塊為更先進的SoC上之選擇性特徵。於圖6中,互連單元602被耦合至:應用程式處理器610,其包括一組一或更多核心202A-N及共用快取單元206;系統代理器單元210;匯流排控制器單元216;集成記憶體控制器單元214;一組一或更多共處理器620,其可包括集成圖形邏輯、影像處理器、聲頻處理器、和視頻處理器;靜態隨機存取記憶體(SRAM)單元630;直接記憶體存取(DMA)單元632;及顯示單元640,用以耦合至一或更多外部顯示。於一實施例中,共處理器620包括特殊用途處理器,諸如(例如)網路或通訊處理器、壓縮引擎、GPGPU、高通量MIC處理器、嵌入處理器,等等。
文中所揭露之機構的實施例可被實施以硬體、軟體、韌體、或此類實施方式之組合。本發明之實施例可被實施為電腦程式或程式碼,其係執行在包括至少一處理器、儲存系統(包括揮發性和非揮發性記憶體及/或儲存元件)、至少一輸入裝置、及至少一輸出裝置之可編程系統上。
程式碼(諸如圖4中所示之碼430)可被應用於輸入指令,以履行文中所述之功能並產生輸出資訊。輸出資訊可被以已知方式應用於一或更多輸出裝置。為了本申請案,處理系統包括任何系統,其具有一處理器,諸如(例如)數位信號處理器(DSP)、微控制器、特殊應用積體電路(ASIC)、或微處理器。
程式碼可被實施以高階程序或物件導向的編程語言來與處理系統通連。程式碼亦可被實施以組合或機械語言(假如需要的話)。事實上,文中所描述之機構對於任何特定編程語言並無範圍上之限制。於任何情況下,該語言可為編譯的或解讀的語言。
至少一實施例之一或更多形態可由機器可讀取媒體上所儲存之代表性指令來實施,該媒體代表處理器內之各種邏輯,當由機器所讀取時其致使機器製造用以履行文中所述之技術的邏輯。此類表示(已知為「IP核心」可被儲存於有形的、機器可讀取的媒體上且被供應至各個消費者或製造商,以供載入其實際上製造該邏輯或處理器之製造機器內。
此類機器可讀取儲存媒體可包括(無限制地)由機器或裝置所製造或形成之物件之非暫態的、有形的配置,包括:諸如硬碟、包括軟碟、光碟、微型碟片唯讀記憶體(CD-ROM)、微型碟片可寫入(CD-RW)和磁光碟之任何類型碟片等儲存媒體;諸如唯讀記憶體(ROM)、隨機存取記憶體(RAM),諸如動態隨機存取記憶體(DRAM)、靜態隨機存取記憶體(SRAM)、可抹除可編程唯讀記憶體(EPROM)、快閃記憶體、電可抹除可編程唯讀記憶體(EEPROM)、相位改變記憶體(PCM)等半導體裝置;磁或光學卡;或者適於儲存電子指令之任何其他類型的媒體。
因此,本發明之實施例亦包括非暫態的、有形的機器 可讀取媒體,其含有指令或含有設計資料,諸如硬體描述語言(HDL),其定義文中所述之結構、電路、設備、處理器及/或系統特徵。此類實施例亦可被稱為程式產品。
於某些情況下,指令轉換器可被用以將來自來源指令集之指令轉換為目標指令集。例如,指令轉換器可將指令翻譯(例如,使用靜態二元翻譯、包括動態編譯之動態二元翻譯)、編輯、仿真、或者轉換為一或更多其他指令以供由核心所處理。指令轉換器可被實施以軟體、硬體、韌體、或其組合。指令轉換器可位於處理器上、處理器外、或部分於處理器上部分於處理器外。
圖7為方塊圖,其對比軟體指令轉換器之使用,以將來源指令集中之二元指令轉換為目標指令集中之二元指令,依據本發明之實施例。於例示之實施例中,指令轉換器為軟體指令轉換器,雖然替代地該指令轉換器可被實施以軟體、韌體、硬體、或其各種組合。圖7顯示高階語言702之程式可使用x86編譯器704來編譯以產生x86二元碼706,其可由一具有至少一x86指令集核心之處理器716所本機地執行。具有至少一x86指令集核心之處理器716代表任何可履行如具有至少一x86指令集核心之Intel處理器的實質上相同功能之處理器,藉由相容地執行或者處理(1)Intel x86指令集核心之指令集的基本部分或(2)用來運行於具有至少一x86指令集核心之Intel處理器上的應用程式或其他軟體的物件碼版本,以便達成如具有至少一x86指令集核心之Intel處理器的實質上相同結 果。x86編譯器704代表一種能夠產生x86二元碼706(例如,物件碼)之編譯器,x86二元碼706可(具有或不具有額外鏈路處理)被執行於具有至少一x86指令集核心之處理器716上。類似地,圖7顯示高階語言702之程式可使用替代指令集編譯器708而被編譯以產生替代的指令集二元碼710,其可由一不具有至少一x86指令集核心之處理器714所本機地執行(例如,具有執行MIPS Technologies of Sunnyvale,CA之MIPS指令集及/或ARM Holdings of Sunnyvale,CA之ARM指令集的核心之處理器)。指令轉換器712被用以將x86二元碼706轉換為可由不具有至少一x86指令集核心之處理器714所本地執行的碼。此轉換的碼不太可能相同於替代的指令集二元碼710,因為能夠執行此操作之指令轉換器是難以製造的;然而,該轉換的碼將完成一般操作並由來自替代指令集之指令所組成。因此,指令轉換器712代表軟體、韌體、硬體、或其組合,其(透過仿真、模擬或任何其他程序)容許不具有x86指令集處理器或核心之處理器或其他電子裝置來執行x86二元碼706。
用以處理位元流之本發明的實施例
所描述之本發明的實施例係處理使用位元取向之指令及變數的位元流。因為這些實施例特別有利於位元流取向之應用,諸如資料壓縮及解壓縮,其係於壓縮/解壓縮應用之背景內描述如下。然而,應注意:本發明之重要原理 不限於這些特定的應用。事實上,本發明之實施例可被利用於其中輸入或輸出為位元之串流的任何應用。
如上所述,資料壓縮/解壓縮演算法係配合可變長度符號而操作,該些符號對於位元組取向的通用處理器之處理是麻煩的,這些通用處理器本質上係操作於其為多重位元組的結構上。於位元組取向的處理器上,每次位元被消耗,相關的簿記操作需被完成以更新計數器、指針,等等,來識別待處理之下一組資料。當前之位元組取向的系統將64位元的通用暫存器(GPR)保持為「位元殘餘」暫存器,且在當未使用的位元數降低於一臨限值時讀入新的資料區塊(例如,Qword=64位元)。此刻,新的資料區塊(例如,Qword)被位移且併入與當前的位元殘餘暫存器且可用的位元數被更新/增加。明確地,保持位元殘餘暫存器亦需要以週期性間隔檢查於處理迴路中,以判定是否有足夠的位元於位元殘餘暫存器中。這些檢查係以條件性分支(其為資料相依的)來完成。
參考圖8,依據本發明之一實施例的處理器850係使用位元取向之指令及硬體以處理位元流。特別地,此實施例係執行形式dst=get_bits(PR,計數)之新指令,其中PR為含有位元位址804之指針暫存器803,而「計數」代表被請求自記憶體809中之位元流815並轉移至目的地暫存器Rn 810的位元數。於一實施例中,變數PR及計數可被支援以即刻及暫存器形式。圖8中所示之特定處理器包括:第1階(L1)快取802(有時亦稱為高階快取 (ULC)),用以依據特定快取管理策略而快取記憶體809中所儲存之資料、及微架構(uarch)暫存器801,其係操作為用於位元取向操作之小型(例如,128位元)L0快取。快取策略為那些熟悉本項技術人士所充分了解的且將不會詳細地描述於此。L1快取802之操作係正交於本發明之重要原理。
於一實施例中,uarch暫存器801係儲存其由解壓縮邏輯811所解碼的位元流815而Rn 810係儲存其由解壓縮邏輯811所處理的位元流之當前部分。指針暫存器803(其可使用x86實施例中之暫存器RDX而被實施)被指針更新邏輯806持續地更新以指向其被解壓縮之位元流的當前部分。比較邏輯807係比較指針暫存器803中所儲存之當前值以判定位元流處理何時完成(亦即,位元流之終點何時到達)。
於一實施例中,在處理之開始時,輸入位元流815之位元組L中的位元組指針位址P和長度係由位元指針更新邏輯806所使用以產生相應的「位元」指針和長度,將值P乘以8以獲得位元指針值。因此,於一實施例中,指針暫存器(PR)803中所儲存之值=8*P,如圖所示。用以停止處理之離開條件(如由比較邏輯807所判定者)係將指針暫存器803中之值與值(P+L)*8進行比較。於一實施例中,比較邏輯807回應於檢測到比較邏輯807中之值等於(P+L)*8而產生離開條件。
上述指令係類似於內建有位元遮蔽之載入操作。於解 壓縮使用時,通常係請求少量的位元,常於4-9位元之範圍內。針對有效率的性能,載入微操作(μop)並未發送給每一此類請求。取而代之,uarch暫存器801(其可為64位元或128位元暫存器)作用為針對L1快取802之極快速ucache。本實施例之uarch暫存器801由於其位元係以串流方式被完全地讀取自輸入流而可適當地工作(亦即,位元被依序地讀取,總是推進開始位元位置)。
舉例而言,考量以Lempel-Ziv(LZ77)解壓縮查找長度/文字符號之使用。某位元數從位元流被提呈給解壓縮邏輯811(例如,10)以當作對於查找表之指標,含有該符號之回復條目(entry)及代表該符號之碼的長度(例如,6)。為了產生用於該查找之指標,例如,指令Rn=get_bits(PR,10)可被用以讀取具有指標Rn之表。碼之長度被用以推進位元指針,指針暫存器+=6。此刻,針對一長度符號,可能有某額外位元數待讀取,通常係編碼於其被讀取之條目中。指令Rk=get_bits(PR,extra_bit_field(表(Rn)))可接著被使用。於此,指針暫存器803可被遞增以所讀取之額外位元數。類似處理係發生於距離碼符號,具有選擇性的額外位元。
針對諸如壓縮等應用,可產生一其為位元取向的輸出流。於此類應用中,一類比的put_bits指令可被使用:put_bits(資料,PR,計數)。除了指明PR 803及計數以外,put_bits指令提供位元流(資料)之新的部分以供儲存於暫存器Rn 810內及/或快取於uarch暫存器801內。
不同的應用可指明位元組內之位元的不同順序(endianness)。此外,指令之形式亦可取決於處理器類型。因此,為了便於理解,各指令之2類型被定義於大endian(BE)及小endian(LE)形式如下:
1. get_bits_BE(PR,count)//Big Endian
2. put_bits_BE(data,PR,count)//Big Endian
3. get_bits_LE(PR,count)//Little Endian
4. put_bits_LE(data,PR,count)//Little Endian
為了簡化,大endian形式被詳細地描述如下。由此描述,熟悉本項技術人士將輕易地理解如何使用大endian或小endian格式以實施本發明之重要原理。
A.大ENDIAN範例
1. get_bits_BE(register with bit-address A, count C){ if(C==0)return 0; end_bit_addr=A+C; end_byte_addr=(end_bit_addr+7)>>3;//byte address of 1st byte beyond end start_byte_addr=A>>3; byte_len=end_byte_addr-start_byte_addr; for(tmp=0;i<byte_len;i++){ tmp=(tmp<<8)+load-byte(start_byte_addr+i);} tmp=tmp>>((8-end_bit_addr)& 0x7); return(tmp &((1<<C)-1)); }
因此,做出有關計數(C)是否為零之判定。假如是的話,則此為一回復0之值的不重要操作(例如,NOP)。假如C為非零,則末端位元位址被設為等於位元位址A加上計數C。在下一行中,將7加至末端位元位址並於位元世界位移三確保其擷取含有所有必要位元資料之完整的、完全的最後位元組。於位元世界位移三具有於位元世界捨去1位元組之效果。假如末端位元位址係於最後位元組之中間且捨去將發生而不加7,則最後位元組將不被讀取。因此,首先將7加至位元位址確保其程序將在捨去前首先跳至下一位元組(針對所有非零end_bit_addresses)。
接下來,藉由位移A之值三來計算start_byte_address。在位元組世界右移三係同等於在位元組世界除以8。因此,假如開始位元位址為200,則start_byte_address為25(200/8)。接著藉由從末端位元組位址(end_byte_addr)減去開始位元組位址(start_byte_addr)以計算位元組長度(byte_len)。
接著針對介於0與位元組長度間之tmp的所有值進入for迴路(for(tmp=0;i<byte_len;i++))。於第一行(tmp=(tmp<<8)+load-byte(start_byte_addr+i))中,tmp暫存器中之值被左移8位元(捨去一位元組以保留空間給被讀取之新位元組)並接著加入於新的位元組(load-byte(start_byte_addr+i))。一新的位元組被讀取於每次在 for迴路中遭遇此行時。下一行(tmp=tmp>>((8-end_bit_addr)& 0x7))去除最後位元組之末端上的任何不需要的位元。例如,假如此程序需結束於位元位址6,則8-6將為2而右移2便丟棄末端處之兩位元。以hex 7(0x7)或modulo 8遮蔽之步驟確保假如(8-末端位元位址)為8之倍數則結果為零。例如,假如位元位址被對齊於位元組邊界上(例如,0、8、16等等),則完全無需位移。
最後行(return(tmp &((1<<C)-1)))提供具有及(&)操作之遮蔽,其確保假如C為計數則以該計數左移1。例如,假如1被左移10,則減去1提供了二元之十個壹。最終結果係丟棄任何大於10位元者。
上述範例之結果在於其必要的位元處理被有效率地履行於位元組取向的機器上。於一實施例中,此虛擬碼可被實施為微碼於通用的、位元組取向的處理器上,以便有效率地處理位元流。替代地,或另外地,這些操作可使用專屬的硬體組件來實施,其部分係參考圖8而被描述如上(例如,指針暫存器803、架構性位元暫存器Rn 810、uarch暫存器801,等等)。
如上所述,於一實施例中,一分離的指令被提供以將位元加至位元流(例如,當作壓縮操作之部分)。於一實施例中,此指令具有形式put_bits_BE(資料,具有位元位址A之暫存器,計數C)。與獲得位元指令相較之下的一差異在於其含有資料之「資料」成分被加至位元流。具 有put_bits之複雜處在於指令執行之開始及結束時需要位元之讀取/修改/寫入,以便確保垃圾不會被寫回至記憶體。因此,put_bits係從記憶體讀入串流之部分、合併該些結果、及寫回該些值。下列虛擬碼係描述針對大endian格式之put_bits操作的一實施例。各行已被編號以簡化如下之描述。
put_bits_BE(data,register with bit-address A,count C){ if(C==0)return 0;//(1) tmp1=data &((1<<C)-1);//(2) start_byte_addr=A>>3;//(3) res1=A & 0x7;//(4) tmp2=read-Byte from start_byte_addr;//(5) tmp2>>=(8-res1);//(6) tmp2<<=C;//(7) tmp1=tmp1 ^ tmp2;//(8) end_bit_addr=A+C;//(9) end_byte_addr=(end_bit_addr+7)>>3;//byte address of 1st byte beyond end//(10) byte_len=end_byte_addr-start_byte_addr;//at least 1 res2=8-(end_bit_addr & 0x7);//(11) tmp3=read-Byte from(end_byte_addr-1);//(12) tmp3=tmp3 &((1<<res2)-1);//(13) tmp1=(tmp1<<res2)^ Tmp3;//(14) for(i=byte_len-1;i>=0;i--){//(15) store-byte(tmp1 & 0xFF)to address(start_byte_addr+i); //(16) tmp1=tmp1>>8;//(17) } }
於行(1),進行其控制變數C是否為零之判定。假如是的話,則此為一回復0之值的不重要操作(例如,NOP)。針對C之所有非零值,於行(2),暫時暫存器(tmp1)被設為等於與值((1<<C)-1)進行AND操作之資料值。藉由C減一之位移確保其資料除C位元之外無其他。
於行(3),開始位元組位址被計算為如上述之get_bits操作中。於行(4),第一殘餘值(res1)被計算以成為A與0x7進行AND操作之值。於行(5),tmp2之值被設為從開始位元組位址讀取之位元組,而行(6)去除最後位元組之末端上的任何不需要的位元。因此,開始位元組被讀取並向下位移8-res1,其識別無法被丟棄之位元。例如,假如有兩個無法被破壞的位元(因為其含有有效資料),則資料值需被寫入在這兩位元之後。於此範例中,res1=2位元,其無法被覆寫。Tmp2>>8-2=6將位移向下2位元,其保持在該位移之後。
於行(7),tmp2<<=C保留空間給其需被加入之資料。回到上述範例,假如兩位元需被保存,則資料被置入而不覆寫該兩位元。於行(8),tmp1被擴增以tmp2。使用 上述範例,其保留來自記憶體之先前符號狀態的兩最高有效位元(亦即,因為tmp2具有來自接續以C零之記憶體的2位元且tmp1具有新資料之剛好C位元)。行(8)對其進行XOR操作並將其結合。接續此操作,tmp1具有來自記憶體之舊資料的資料+2位元的C位元。
於行(9),末端位元位址被計算;以及於行(10),末端位元組位址被計算如前。於行(11),位元組長度係藉由從末端位元組位址減去開始位元組位址來計算。
於行(12),tmp3被設為等於來自末端位元組位址減一之位元組,而於行(13),tmp3係與一特殊值((1<<res2)-1)進行AND操作,以確保其正確的舊資料被讀取。例如,假如需要舊資料之3位元,一左移3-1將提供那3個位元。接續此操作,所有殘留者為舊資料之3位元。
於行(14),tmp3被插入tmp1之最低有效部分。Tmp1現在具有新資料之最高有效位元+C位元。例如,假如需要加入三個新位元,則此步驟將tmp1位移3位元及接著進行XOR操作於tmp3(其中tmp3具有舊的3位元)。最後,從行(15)至(17)之FOR迴路僅一次一位元組地儲存該些位元組(亦即,start_byte_addr+i,i隨著FOR迴路之各循環而增加)。
B.小ENDIAN範例
下列虛擬碼描述其以小endian格式工作之本發明的實施例。熟悉本項技術人士將能夠根據上述大endian格式範 例之描述以依循此範例,且將能夠判定小endian格式之put_bits實施方式。
get_bits_LE(register with bit-address A,count C){ if(C==0)return 0; end_bit_addr=A+C; end_byte_addr=(end_bit_addr+7)>>3;//byte address of 1st byte beyond end start_byte_addr=A>>3; byte_len=end_byte_addr-start_byte_addr;//at least 1 for(tmp=0,i=0;i<byte_len;i++){ tmp=tmp |(load-byte(start_byte_addr+i)<<8*i); } tmp=tmp>>(A & 0x7); return(tmp &((1<<C)-1)); }
一種使用位元取向指令以從位元流獲得位元之方法的一實施例被顯示於圖9。於901,執行位元取向的指令,其含有開始位元位址及識別待擷取位元數之計數。假如於902判定所需的位元已被儲存於位元暫存器或快取中,則其被擷取於903且無需外部記憶體存取(藉此保存外部記憶體存取所需的處理時間)。
假如部分所需的位元目前未被儲存於位元暫存器/快取中,則於904,開始位元位址和末端位元位址被個別地轉換為開始位元組位址和末端位元組位址。於905,由開 始位元組位址和末端位元組位址所識別的位元組被讀取自位元組取向的記憶體。於一實施例中,位元組取向的記憶體為系統記憶體及/或處理器之位元組取向的快取。於906,任何不想要的位元被丟棄自第一和最後位元組,而於907,剩餘的位元被處理(例如,藉由解壓縮程序)。假如串流之末端已到達,則於908判定該程式結束。假如為否,則該程序回到901並執行新的位元取向指令來擷取額外的位元。
圖10係顯示一種用以將位元置入位元流之方法的實施例(例如,當作壓縮程序之部分)。於1001,執行位元取向指令,其含有待併入位元流之資料位元、開始位元位址、及計數。假如用於放置操作所需之來自位元流的現存位元被儲存於位元暫存器或快取中(於1002判定),則其被擷取於1003,省去對系統記憶體/快取之讀取。假如為否,則於1004,開始位元位址和末端位元位址被轉換為開始位元組位址和末端位元組位址且如此所識別之位元組被讀取於1005。於1006,在第一位元組之開始處或在最後位元組之末端處的任何不想要的位元被丟棄,且於1007,新的位元被合併與舊的位元(例如,當作壓縮程序之部分)。於1008,合併的位元被置回入暫存器/快取及/或被儲存至系統記憶體。假如串流之末端已到達,則於1009判定該程式結束。否則,則該程序回到1001,其中係執行新的位元取向指令以將新的位元合併與該位元流。
於一實施例中,圖9-10中所示之方法以及如上所提 供之虛擬碼範例被實施為位於處理器內的及/或使用專屬位元取向硬體資源的微碼,藉此容許處理器更有效率地處理位元流。
本發明之實施例可包括各種步驟,其已被描述於上。這些步驟可被實施以機器可執行指令,其可被用以致使通用或特殊用途處理器履行該些步驟。替代地,這些步驟可由特定硬體組件(其含有硬線邏輯以履行該些步驟)、或者由編程電腦組件與客製化硬體組件之任何組合來履行。
如文中所述,指令可指稱硬體之特定架構,諸如特殊應用積體電路(ASIC),其組態成履行某些操作或者具有預定功能或軟體指令儲存於以非暫態電腦可讀取媒體實施之記憶體中。因此,圖形中所顯示之技術可使用在一或更多電子裝置(例如,終端站、網路元件,等等)上所儲存並執行之碼和資料來實施。此類電子裝置係使用電腦機器可讀取媒體來儲存並傳遞(內部地及/或透過網路而與其他電子裝置)碼和資料,諸如非暫態電腦機器可讀取儲存媒體(例如,磁碟、光碟、隨機存取記憶體、唯讀記憶體、快閃記憶體裝置、相位改變記憶體)及暫態電腦機器可讀取通訊媒體(例如,電、光、聲或其他形式的傳播信號一諸如載波、紅外線信號、數位信號,等等)。此外,此類電子裝置通常包括一組一或更多處理器,其係耦合至一或更多其他組件,諸如一或更多儲存裝置(非暫態機器可讀取儲存媒體)、使用者輸入/輸出裝置(例如,鍵盤、觸控螢幕、及/或顯示)、及網路連接。該組處理器 與其他組件之耦合通常係透過一或更多匯流排及橋(亦稱為匯流排控制器)。儲存裝置及攜載網路流量之信號係個別地代表一或更多機器可讀取儲存媒體及機器可讀取通訊媒體。因此,一既定電子裝置之儲存裝置通常係儲存碼及/或資料以供執行在該電子裝置之該組一或更多處理器上。當然,本發明之一實施例的一或更多部分可使用軟體、韌體、及/或硬體之不同組合來實施。涵蓋此詳細說明,為了解釋之目的,提出了數個特定細節以提供本發明之透徹瞭解。然而,熟悉本項技術人士應清楚明白本發明可被實行而無須這些特定細節的部分。於某些例子中,眾所周知的結構及功能並未被特別詳細地描述,以避免混淆本發明之請求標的。因此,本發明之範圍和精神應由之後的申請專利範圍來判定。
範例指令格式
文中所述之指令的實施例可被實施以不同格式。此外,範例系統、架構、及管線被詳述於下。指令之實施例可被執行於此等系統、架構、及管線之上,但不限定於那些詳述者。
VEX編碼容許具有多於二運算元,並容許SIMD向量暫存器長於128位元。VEX前綴之使用提供三運算元(或更多)語法。例如,先前的二運算元指令係履行諸如A=A+B(其覆寫來源運算元)等操作。VEX前綴之使用致能運算元履行諸如A=B+C等非破壞性操作。
圖11A說明包括VEX前綴1102、真實運算碼欄位1130、Mod R/M位元組1140、SIB位元組1150、置換欄位1162、及IMM8 1172之範例AVX指令格式。圖11B說明來自圖11A之哪些欄位組成全運算碼欄位1174及基礎操作欄位1142。圖11C說明來自圖11A之哪些欄位組成暫存器指標欄位1144。
VEX前綴(位元組0-2)1102被編碼以三位元組形式。第一位元組為格式欄位1140(VEX位元組0,位元[7:0]),其含有明確C4位元組值(用於分辨C4指令格式之獨特值)。第二-第三位元組(VEX位元組1-2)包括提供特定能力之數個位元欄位。明確地,REX欄位1105(VEX位元組1,位元[7-5])包括VEX.R位元欄位(VEX位元組1,位元[7]-R)、VEX.X位元欄位(VEX位元組1,位元[6]-X)、及VEX.B位元欄位(VEX位元組1,位元[5]-B)。指令之其他欄位係編碼暫存器指標之較低三個位元,如本技術中已知者(rrr、xxx、及bbb),以致Rrrr、Xxxx、及Bbbb可藉由將VEX.R、VEX.X、及VEX.B相加而形成。運算元映圖欄位1115(VEX位元組1,位元[4:0]-mmmmm)包括用以編碼暗示的領先運算元位元組之內容。W欄位1164(VEX位元組2,位元[7]-W)係由標號VEX.W所表示,並根據指令而提供不同功能。VEX.vvvv 1120(VEX位元組2,位元[6:3]-vvvv)之角色可包括以下:1)VEX.vvvv編碼第一來源暫存器運算元、以反相(1s補數)形式指明並可用於具有2或更多來 源運算元之指令;2)VEX.vvvv編碼目的地暫存器運算元、針對某些向量位移以1s補數形式指明;或3)VEX.vvvv不編碼任何運算元、該欄位被保留並應含有1111b。假如VEX.L 1168大小欄位(VEX位元組2,位元[2]-L)=0,則指示128位元向量;假如VEX.L=1,則指示256位元向量。前綴編碼欄位1125(VEX位元組2,位元[1:0]-pp)提供額外位元給基礎操作欄位。
真實運算碼欄位1130(位元組3)亦已知為運算碼位元組。運算碼之部分被指明於此欄位中。
MOD R/M欄位1140(位元組4)包括MOD欄位1142(位元[7-6])、Reg欄位1144(位元[5-3])、及R/M欄位1146(位元[2-0])。Reg欄位1144之角色可包括下列:編碼目的地暫存器運算元或來源暫存器運算元之任一者(Rrrr之rrr)、或者被視為運算碼擴充且不被用於編碼任何指令運算元。R/M欄位1146之角色可包括下列:編碼其參照記憶體位址之指令運算元、或者編碼目的地暫存器運算元或來源暫存器運算元之任一者。
比率、指標、基礎(SIB)-比率欄位1150(位元組5)之內容包括SS 1152(位元[7-6]),其被用於記憶體位址產生。SIB.xxx 1154(位元[5-3])及SIB.bbb 1156(位元[2-0])之內容先前已針對暫存器指標Xxxx及Bbbb而被提及。
置換欄位1162及即刻欄位(IMM8)1172含有位址資料。
向量友善指令格式是一種適於向量指令之指令格式(例如,有專屬於向量操作之某些欄位)。雖然描述了其中向量和純量操作兩者均透過向量友善指令格式而被支援的實施例,但其他實施例僅使用向量操作於向量友善指令格式。
圖12A-12B為方塊圖,其說明依據本發明之實施例的一般性向量友善指令格式及其指令模板。圖12A為說明依據本發明之實施例的一般性向量友善指令格式及其類別A指令模板之方塊圖;而圖12B為說明依據本發明之實施例的一般性向量友善指令格式及其類別B指令模板之方塊圖。明確地,一般性向量友善指令格式1200係定義類別A及類別B指令模板,其兩者包括無記憶體存取1205指令和記憶體存取1220指令模板。在向量友善指令格式之背景下的術語「一般性」指的是未連結任何特定指令集之指令格式。
雖然本發明之實施例將描述其中該向量友善指令格式支援下列:具有32位元(4位元組)或64位元(8位元組)資料元件寬度(或大小)之64位元組向量運算元長度(或大小)(而因此,64位元組係由16個雙字元大小的元件或替代地8個四字元大小的元件所構成);具有16位元(2位元組)或8位元(1位元組)資料元件寬度(或大小)之64位元組向量運算元長度(或大小);具有32位元(4位元組)、64位元(8位元組)、16位元(2位元組)、或8位元(1位元組)資料元件寬度(或 大小)之32位元組向量運算元長度(或大小);及具有32位元(4位元組)、64位元(8位元組)、16位元(2位元組)、或8位元(1位元組)資料元件寬度(或大小)之16位元組向量運算元長度(或大小);但是替代實施例可支援具有更多、更少、或不同資料元件寬度(例如,128位元(16位元組)資料元件寬度)之更多、更少及/或不同向量運算元大小(例如,256位元組向量運算元)。
圖12A中之類別A指令模板包括:1)於無記憶體存取1205指令模板內顯示有無記憶體存取、全捨入(full round)控制類型操作1210指令模板及無記憶體存取、資料轉變類型操作1215指令模板;以及2)於記憶體存取1220指令模板內顯示有記憶體存取、暫時1225指令模板及記憶體存取、非暫時1230指令模板。圖12B中之類別B指令模板包括:1)於無記憶體存取1205指令模板內顯示有無記憶體存取、寫入遮罩控制、部分捨入控制類型操作1212指令模板及無記憶體存取、寫入遮罩控制、vsize類型操作1217指令模板;以及2)於記憶體存取1220指令模板內顯示有記憶體存取、寫入遮罩控制1227指令模板。
一般性向量友善指令格式1200包括依圖12A-12B中所示之順序所列出於下的如下欄位。
格式欄位1240-此欄位中之特定值(指令格式識別符值)獨特地識別向量友善指令格式,而因此識別指令流中 之向量友善指令格式的指令之發生。如此一來,此欄位是選擇性的,因為其對於僅具有一般性向量友善指令格式之指令集是不需要的。
基礎操作欄位1242-其內容係分辨不同的基礎操作。
暫存器指標欄位1244-其內容(直接地或透過位址產生)指明來源及目的地運算元之位置,任其於暫存器中或記憶體中。這些包括足夠的位元數以從PxQ(例如,32x512、16x128、32x1024、64x1024)暫存器檔案選擇N暫存器。雖然於一實施例中,N可高達三個來源及一個目的地暫存器,但替代實施例可支援更多或更少來源及目的地暫存器(例如,可支援高達兩個來源,其中這些來源之一亦作用為目的地;可支援高達三個來源,其中這些來源之一亦作用為目的地;可支援高達兩個來源及一個目的地)。
修飾符欄位1246-其內容係從那些不指明記憶體存取者分辨其指明記憶體存取之一般性向量指令格式中的指令之發生;亦即,介於無記憶體存取1205指令模板與記憶體存取1220指令模板之間。記憶體存取操作係讀取及/或寫入至記憶體階層(於某些情況下使用暫存器中之值以指明來源及/或目的地位址),而無記憶體存取操作則不(例如,來源及目的地為暫存器)。雖然於一實施例中,此欄位亦於三個不同方式之間選擇以履行記憶體位址計算,但替代實施例可支援更多、更少、或不同方式以履行記憶體位址計算。
擴增(augmentation)操作欄位1250-其內容係分辨除了基礎操作之外的多種不同操作之何者應被履行。此欄位是背景特定的。於本發明之一實施例中,此欄位被劃分為類別欄位1268、阿爾發欄位1252、及貝他欄位1254。擴增操作欄位1250容許共同族群的操作被履行於單一指令而非2、3或4個指令。
比率欄位1260-其內容容許指標欄位之內容的定標(scaling)以供記憶體位址產生(例如,用於使用2scale*index+base之位址產生)。
置換欄位1262A-其內容被使用為記憶體位址產生之部分(例如,用於使用2scale*index+base+displacement之位址產生)。
置換因數欄位1262B(注意其直接於置換因數欄位1262B上方的置換欄位1262A之並列指示一者或另一者被使用)-其內容被使用為位址產生之部分;其指明將由記憶體存取之大小(N)所定標的置換因數-其中N為記憶體存取中之位元組數(例如,用於使用2scale*index+base+scaled displacement之位址產生)。多餘的低階位元被忽略而因此,置換因數欄位之內容被乘以記憶體運算元總大小(N)以產生最終置換來被用於計算有效位址。N之值係根據全運算碼欄位1274(文中稍後所描述)及資料調處欄位1254C而由處理器硬體判定於運行時間。置換欄位1262A及置換因數欄位1262B是選擇性的,因為其並未用於無記憶體存取1205指令模板及/或不 同的實施例可僅實施兩者之一或無。
資料元件寬度欄位1264-其內容係分辨數個資料元件寬度之何者應被使用(於某些實施例用於所有指令;於其他實施例中僅用於部分指令)。此欄位是選擇性的,因為其是不需要的假如僅有一資料元件寬度被支援及/或資料元件寬度係使用運算碼之某形態而被支援。
寫入遮罩欄位1270-其內容控制,以每資料元件位置為基,目的地向量運算元中之資料元件位置是否反應基礎操作及擴增操作之結果。類別A指令模板支援合併-寫入遮蔽,而類別B指令模板支援合併-和歸零-寫入遮蔽兩者。當合併時,向量遮罩容許目的地中之任一組元件被保護不被更新於任何操作之執行期間(由基礎操作及擴增操作所指明);於另一實施例中,保存目的地之各元件的舊值,其中相應的遮罩位元具有0。反之,當歸零時,向量遮罩容許目的地中之任一組元件被歸零於任何操作之執行期間(由基礎操作及擴增操作所指明);於另一實施例中,當相應的遮罩位元具有0值時目的地之一元件被設為0。此功能之一子集為控制其正履行中之操作的向量長度(亦即,元件之跨距被修改,從第一至最後者);然而,當被修改之元件為連續時則其為不需要的。因此,寫入遮罩欄位1270容許部分向量操作,包括載入、儲存、算術、邏輯,等等。雖然本發明之實施例係描述其中寫入遮罩欄位1270之內容選擇含有待使用之寫入遮罩的數個寫入遮罩暫存器之一(而因此寫入遮罩欄位1270之內容間 接地識別其應履行之遮蔽),但替代實施例取代地或額外地容許寫入遮罩欄位1270之內容直接地指明應履行之遮蔽。
即刻欄位1272-其內容容許一即刻之指明。此欄位是選擇性的,因為在不支援即刻之一般性向量友善指令格式的實施中其並不存在以及在不使用即刻之指令中其並不存在。
類別欄位1268-其內容係分辨於不同類別的指令之間。參考圖12A-B,此欄位之內容係選擇於類別A與類別B指令之間。於圖12A-B中,圓角的方塊係用以指示一特定值出現在一欄位中(例如,個別於圖12A-B中的類別欄位1268之類別A 1268A及類別B 1268B)。
類別A之指令模板
於類別A之無記憶體存取1205指令模板的情況下,阿爾發欄位1252被解讀為RS欄位1252A,其內容係分辨不同擴增操作類型之何者應被履行(例如,捨入1252A.1及資料轉變1252A.2被個別地指明給無記憶體存取、捨入類型操作1210及無記憶體存取、資料轉變類型操作1215指令模板),而貝他欄位1254係分辨已指明類型之操作的何者應被履行。於無記憶體存取1205指令模板中,比率欄位1260、置換欄位1262A、及置換比率欄位1262B並未出現。
無記憶體存取指令模板-全捨入控制類型操作
於無記憶體存取全捨入控制類型操作1210指令模板中,貝他欄位1254被解讀為捨入控制欄位1254A,其內容提供靜態捨入。雖然於本發明之已描述實施例中捨入控制欄位1254A包括一抑制所有浮點例外(SAE)欄位1256及一捨入操作控制欄位1258,但替代實施例可支援將這些觀念編碼入相同欄位中或者僅具有這些觀念/欄位之一或另一(例如,可僅具有捨入操作控制欄位1258)。
SAE欄位1256-其內容係分辨是否使例外事件報告失效;當SAE欄位1256之內容指示抑制已啟動時,則一既定指令不會報告任何種類的浮點例外旗標且不會提出任何浮點例外處置器。
捨入操作控制欄位1258-其內容係分辨捨入操作之族群的何者應履行(例如,捨進、捨去、朝零捨入及捨入至最接近)。因此,捨入操作控制欄位1258容許以每指令為基之捨入模式的改變。於其中處理器包括一用以指明捨入模式之控制暫存器的本發明之一實施例中,捨入操作控制欄位1250之內容係置換該暫存器值。
無記憶體存取指令模板-資料轉變類型操作
於無記憶體存取資料轉變類型操作1215指令模板中,貝他欄位1254被解讀為資料轉變欄位1254B,其內容係分辨數個資料轉變之何者應被履行(例如,無資料轉變、拌和、廣播)。
於類別A之記憶體存取1220指令模板的情況下,阿爾發欄位1252被解讀為逐出(eviction)暗示欄位1252B,其內容係分辨逐出暗示之何者應被使用(於圖12A中,暫時1252B.1及非暫時1252B.2被個別地指明給記憶體存取、暫時1225指令模板及記憶體存取、非暫時1230指令模板),而貝他欄位1254被解讀為資料調處欄位1254C,其內容係分辨數個資料調處操作(亦已知為基元)之何者應被履行(例如,無調處;廣播;來源之上轉換;及目的地之下轉換)。記憶體存取1220指令模板包括比率欄位1260、及選擇性地置換欄位1262A或置換比率欄位1262B。
向量記憶體指令履行向量載入自及向量儲存至記憶體,具有轉換支援。如同普通向量指令,向量記憶體指令以資料元件式方式將資料轉移自/至記憶體,其中被實際地轉移之元件係由其被選擇為寫入遮罩之向量遮罩的內容所支配。
記憶體存取指令模板-暫時
暫時資料為可能夠快地被再使用而受益自快取的資料。然而,此為暗示,且不同處理器可用不同方式來實施之,包括完全忽略暗示。
記憶體存取指令模板-非暫時
非暫時資料為不太可能夠快地被再使用而受益自第一 階快取中之快取且應被優先考慮逐出的資料。然而,此為暗示,且不同處理器可用不同方式來實施之,包括完全忽略暗示。
類別B之指令模板
於類別B之指令模板的情況下,阿爾發欄位1252被解讀為寫入遮罩控制(Z)欄位1252C,其內容係分辨其由寫入遮罩欄位1270所控制之寫入遮蔽是否應為合併或歸零。
於類別B之無記憶體存取1205指令模板的情況下,貝他欄位1254之部分被解讀為RL欄位1257A,其內容係分辨不同擴增操作類型之何者應被履行(例如,捨入1257A.1及向量長度(VSIZE)1257A.2被個別地指明給無記憶體存取、寫入遮罩控制、部分捨入控制類型操作1212指令模板及無記憶體存取、寫入遮罩控制、VSIZE類型操作1217指令模板),而貝他欄位1254之剩餘者係分辨已指明類型之操作的何者應被履行。於無記憶體存取1205指令模板中,比率欄位1260、置換欄位1262A、及置換比率欄位1262B並未出現。
於無記憶體存取、寫入遮罩控制、部分捨入控制類型操作1210指令模板中,貝他欄位1254之剩餘者被解讀為捨入操作欄位1259A並使例外事件報告失效(一既定指令不會報告任何種類的浮點例外旗標且不會提出任何浮點例外處置器)。
捨入操作控制欄位1259A-正如同捨入操作控制欄位1258,其內容係分辨捨入操作之族群的何者應履行(例如,捨進、捨去、朝零捨入及捨入至最接近)。因此,捨入操作控制欄位1259A容許以每指令為基之捨入模式的改變。於其中處理器包括一用以指明捨入模式之控制暫存器的本發明之一實施例中,捨入操作控制欄位1250之內容係置換該暫存器值。
於無記憶體存取、寫入遮罩控制、VSIZE類型操作1217指令模板中,貝他欄位1254被解讀為向量長度欄位1259B,其內容係分辨數個資料向量長度之何者應被履行(例如,128、256、或512位元組)。
於類別B之記憶體存取1220指令模板的情況下,貝他欄位1254之部分被解讀為廣播欄位1257B,其內容係分辨廣播類型資料調處操作是否應被履行,而貝他欄位1254之剩餘者被解讀為向量長度欄位1259B。記憶體存取1220指令模板包括比率欄位1260、置換欄位1262A、或置換比率欄位1262B。
針對一般性向量友善指令格式1200,一全運算碼欄位1274顯示為包括格式欄位1240、基礎操作欄位1242、及資料元件寬度欄位1264。雖然一實施例係顯示全運算碼欄位1274包括所有這些欄位,但於其不支援這些所有的實施例中全運算碼欄位1274可包括少於所有這些欄位。全運算碼欄位1274提供運算碼(opcode)。
擴增操作欄位1250、資料元件寬度欄位1264、及寫 入遮罩欄位1270容許這些特徵以每指令為基被指明於一般性向量友善指令格式中。
寫入遮罩欄位與資料元件寬度欄位之組合產生定型的指令,由於其容許遮罩根據不同資料元件寬度而被應用。
於類別A和類別B中所發現的各種指令模板於不同情況下是有利的。於本發明之某些實施例中,不同處理器或一處理器內之不同核心可支援唯獨類別A、唯獨類別B、或兩個類別。例如,用於通用計算之高性能通用失序核心可支援唯獨類別B;主要用於圖形及/或科學(通量)計算之核心可支援唯獨類別A;而用於上述兩者之核心可支援兩類別(當然,具有來自兩類別之模板與指令的某種混合但非來自兩類別之所有模板和指令的核心仍於本發明之範圍內)。同時,單一處理器可包括多個核心,其所有均支援相同類別或者其中不同核心支援不同類別。例如,於具有分離的圖形和通用核心之處理中,主要用於圖形及/或科學計算的圖形核心之一可支援唯獨類別A,而通用核心之一或更多可為高性能通用核心,其具有用於支援唯獨類別B之通用計算的失序執行和暫存器重新命名。不具有分離圖形核心之另一處理器可包括其支援類別A與類別B兩者之一或更多通用依序或失序核心。當然,來自一類別之特徵亦可被實施於本發明之不同實施例中的其他類別中。以高階語言所寫的程式將被輸入(例如,僅於時間編譯或靜態編譯)多種不同的可執行形式,包括:1)僅具有由用於執行之目標處理器所支援之類別的指令;或2)具有 使用所有類別之指令的不同組合所寫的替代常式並具有其根據由目前正執行碼之處理器所支援的指令以選擇供執行之常式的控制流程碼的形式。
範例特定向量友善指令格式
圖13A-D為方塊圖,其說明依據本發明之實施例的範例特定向量友善指令格式。圖13顯示一特定向量友善指令格式1300,其係由於指明欄位之位置、大小、解讀、和順序、以及那些欄位之部分的值而為特定的。特定向量友善指令格式1300可用以擴充x86指令集,而因此某些欄位係類似於或相同於現有的x86指令集及其擴充(例如,AVX)中所使用的那些欄位。此格式保持為與具有擴充之現有的x86指令集之前綴編碼欄位、真實運算碼位元組欄位、MOD R/M欄位、SIB欄位、置換欄位、及即刻欄位一致。映射入來自圖13之欄位的來自圖12之欄位被顯示。
應理解:雖然本發明係參考於一般性向量友善指令格式1200之背景下的特定向量友善指令格式1300來描述,但本發明除了所請求的範圍之外並不限於特定向量友善指令格式1300。例如,一般性向量友善指令格式1200係考量針對各種欄位之多種可能的大小,而特定向量友善指令格式1300則顯示為具有特定大小的欄位。藉由特定範例,雖然資料元件寬度欄位1264被顯示為特定向量友善指令格式1300中之一位元欄位,但本發明並未如此受限(亦即,一般性向量友善指令格式1200係考量資料元件 寬度欄位1264之其他大小)。
一般性向量友善指令格式1200包括依圖13A所示之順序的如下欄位。
EVEX前綴(位元組0-3)1302-被編碼以四位元組之形式。
格式欄位1240(EVEX位元組0,位元[7:0])-第一位元組(EVEX位元組0)為格式欄位1240且其含有0x62(用於分辨本發明之一實施例中的向量友善指令格式之獨特值)。
第二-第四位元組(EVEX位元組1-3)包括提供特定能力之數個位元欄位。
REX欄位1305(EVEX位元組1,位元[7-5])-由EVEX.R位元欄位(EVEX位元組1,位元[7]-R)、EVEX.X位元欄位(EVEX位元組1,位元[6]-X)、及1257BEX位元組1,位元[5]-B所組成。EVEX.R、EVEX.X及EVEX.B位元欄位係提供如相應VEX位元欄位之相同的功能,且係使用1補數形式來編碼,亦即,ZMM0被編碼為1111B;ZMM15被編碼為0000B。指令之其他欄位將暫存器指標之較低三個位元編碼,如本技術中所已知者(rrr,xxx及bbb),以致Rrrr、Xxxx、及Bbbb可藉由加入EVEX.R、EVEX.X及EVEX.B而形成。
REX’欄位1210-此為REX’欄位1210之第一部分且為用以將擴充的32暫存器集之上16或下16個編碼的EVEX.R’位元欄位(EVEX位元組1,位元[4]-R’)。於本 發明之一實施例中,此位元(連同以下所指出之其他位元)被儲存以位元反轉格式來分辨(以眾所周知的x86 32位元模式)自BOUND指令,其真實運算碼位元組為62,但於MOD R/M欄位(如下所述)中並未接受MOD欄位中之11的值;本發明之替代實施例並未以反轉格式儲存此及以下所指示的位元。1之值被用以編碼下16暫存器。換言之,R’Rrrr係藉由組合EVEX.R’、EVEX.R、及來自其他欄位之其他RRR而形成。
運算碼映圖欄位1315(EVEX位元組1,位元[3:0]-mmmm)-其內容係編碼一隱含的前導(leading)運算碼位元組(0F、0F 38或0F 3)。
資料元件寬度欄位1264(EVEX位元組2,位元[7]-W)-係由記法EVEX.W所表示。EVEX.W係用以定義資料位元組(32位元資料元件或64位元資料元件)之粒度(大小)。
EVEX.vvvv 1320(EVEX位元組2,位元[6:3]-vvvv)-EVEX.vvvv之角色可包括下列:1)EVEX.vvvv編碼第一來源暫存器運算元,以反轉(1補數)形式指明且針對具有二或更多來源運算元之指令是有效的;2)EVEX.vvvv編碼目的地暫存器運算元,以1補數形式指明於某些向量位移;或3)EVEX.vvvv未編碼任何運算元,該欄位被保留且應含有1111b。因此,EVEX.vvvv 1320編碼其以反轉(1補數)形式所儲存之第一來源暫存器指明符的4個低階位元。根據該指令,一額外的不同EVEX位 元欄位被用以擴充指明符大小至32暫存器。
EVEX.U 1268類別欄位(EVEX位元組2,位元[2]-U)-假如EVEX.U=0,其包括類別A或EVEX.U0;假如EVEX.U=1,其指示類別B或EVEX.U1。
前綴編碼欄位1325(EVEX位元組2,位元[1:0]-pp)-提供基礎操作欄位之額外位元。除了提供EVEX前綴格式之傳統SSE指令的支援以外,此亦具有壓縮SIMD前綴之優點(取代需要一位元組來表達SIMD前綴,EVEX前綴僅需要2位元)。於一實施例中,為了支援其使用SIMD前綴(66H,F2H,F3H)之傳統SSE指令於傳統格式和EVEX前綴格式兩者,這些傳統SIMD前綴被編碼入SIMD前綴編碼欄位;且於運行時間被擴充為傳統SIMD前綴,在被提供至解碼器之PLA以前(因此PLA可執行這些傳統指令之傳統和EVEX格式而無修改)。雖然較新的指令可使用EVEX前綴編碼欄位之內容為運算碼擴充,但某些實施例以類似方式擴充一致性而容許由這些傳統SIMD前綴指明不同意義。一替代實施例可重新設計PLA以支援2位元SIMD前綴編碼,而因此不需要擴充。
阿爾發欄位1252(EVEX位元組3,位元[7]-EH;亦已知為EVEX.EH、EVEX.rs、EVEX.RL、EVEX.寫入遮罩控制、及EVEX.N;亦以α顯示)-如先前所述,此欄位為背景特定的。
貝他欄位1254(EVEX位元組3,位元[6:4]-SSS,亦已知為EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、 EVEX.LLB;亦以β β β顯示)-如先前所述,此欄位為背景特定的。
REX’欄位1210-此為REX’欄位之剩餘者且為可用以將擴充的32暫存器集之上16或下16個編碼的EVEX.V’位元欄位(EVEX位元組3,位元[3]-V’)。此位元被儲存以位元反轉格式。1之值被用以編碼下16暫存器。換言之,V’VVVV係藉由組合EVEX.V’、EVEX.vvvv而形成。
寫入遮罩欄位1270(EVEX位元組3,位元[2:0]-kkk)-其內容係指明寫入遮罩暫存器中之暫存器的指標,如先前所述者。於本發明之一實施例中,特定值EVEX.kkk=000具有一特殊行為,其隱含無寫入遮罩被用於特定指令(此可被實施於多種方式,包括使用固線至所有電路之寫入遮罩或者其旁通遮蔽硬體之硬體)。
真實運算碼欄位1330(位元組4)亦已知為運算碼位元組。運算碼之部分被指明於此欄位中。
MOD R/M欄位1340(位元組5)包括MOD欄位1342、Reg欄位1344、及R/M欄位1346。如先前所述,MOD欄位1342之內容係分辨於記憶體存取與非記憶體存取操作之間。Reg欄位1344之角色可被概述為兩種情況:編碼目的地暫存器運算元或來源暫存器運算元之任一者、或者被視為運算碼擴充且不被用於編碼任何指令運算元。R/M欄位1346之角色可包括下列:編碼其參照記憶體位址之指令運算元、或者編碼目的地暫存器運算元或來源暫存器運算元之任一者。
比率、指標、基礎(SIB)位元組(位元組6)-如先前所述,比率欄位1250之內容被用於記憶體位址產生。SIB.xxx 1354及SIB.bbb 1356-這些欄位之內容先前已針對暫存器指標Xxxx及Bbbb而被提及。
置換欄位1262A(位元組7-10)-當MOD欄位1342含有10時,位元組7-10為置換欄位1262A,且其工作相同於傳統32位元置換(disp32)且工作於位元組粒度。
置換因數欄位1262B(位元組7)-當MOD欄位1342含有01時,位元組7為置換因數欄位1262B。此欄位之位置係相同於傳統x86指令集8位元置換(disp8),工作於位元組粒度。因為disp8為符號擴充,所以其僅可定址於-128與127位元組偏移之間;針對64位元組快取線,disp8使用其僅可被設為四個實際有用值-128、-64、0、及64之8個位元;因為常需要較大的範圍,所以disp32被使用;然而,disp32需要4個位元組。相反於disp8及disp32,置換因數欄位1262B為disp8之再解讀;當使用置換因數欄位1262B時,實際置換係由置換因數欄位乘以記憶體運算元存取之大小(N)的內容所決定。此類型的置換被稱為disp8*N。此係減少平均指令長度(用於置換但具有大得多的範圍之單一位元組)。此壓縮的置換係基於假設其有效置換為記憶體存取之粒度的倍數,而因此,位址偏移之多餘的低階位元無須被編碼。換言之,置換因數欄位1262B取代傳統x86指令集8位元置換。因此,置換因數欄位1262B被編碼以如x86指令集8位元置換之相 同方式(因此ModRM/SIB編碼規則並無改變),唯一例外為disp8被超載至disp8*N。換言之,編碼規則或編碼長度並無改變,而僅於藉由硬體之置換值的解讀(其需由記憶體運算元之大小定標該置換以獲得位元組式的位址偏移)。
即刻欄位1272係操作如先前所述。
全運算碼欄位
圖13B為方塊圖,其說明組成全運算碼欄位1274之特定向量友善指令格式1300的欄位,依據本發明之一實施例。明確地,全運算碼欄位1274包括格式欄位1240、基礎操作欄位1242、及資料元件寬度(W)欄位1264。基礎操作欄位1242包括前綴編碼欄位1325、運算碼映圖欄位1315、及真實運算碼欄位1330。
暫存器指標欄位
圖13C為方塊圖,其說明組成暫存器指標欄位1244之特定向量友善指令格式1300的欄位,依據本發明之一實施例。明確地,暫存器指標欄位1244包括REX欄位1305、REX’欄位1310、MODR/M.reg欄位1344、MODR/M.r/m欄位1346、VVVV欄位1320、xxx欄位1354、及bbb欄位1356。
擴增操作欄位
圖13D為方塊圖,其說明組成擴增操作欄位1250之特定向量友善指令格式1300的欄位,依據本發明之一實施例。當類別(U)欄位1268含有0時,其表示EVEX.U0(類別A 1268A);當其含有1時,其表示EVEX.U1(類別B 1268B)。當U=0且MOD欄位1342含有11(表示無記憶體存取操作)時,阿爾發欄位1252(EVEX位元組3,位元[7]-EH)被解讀為rs欄位1252A。當rs欄位1252A含有一個1(捨入1252A.1)時,貝他欄位1254(EVEX位元組3,位元[6:4]-SSS)被解讀為捨入控制欄位1254A。捨入控制欄位1254A包括一位元SAE欄位1256及二位元捨入操作欄位1258。當rs欄位1252A含有0(資料轉變1252A.2)時,貝他欄位1254(EVEX位元組3,位元[6:4]-SSS)被解讀為三位元資料轉變欄位1254B。當U=0且MOD欄位1342含有00、01、或10(表示記憶體存取操作)時,阿爾發欄位1252(EVEX位元組3,位元[7]-EH)被解讀為逐出暗示(EH)欄位1252B而貝他欄位1254(EVEX位元組3,位元[6:4]-SSS)被解讀為三位元資料調處欄位1254C。
當U=1時,阿爾發欄位1252(EVEX位元組3,位元[7]-EH)被解讀為寫入遮罩控制(Z)欄位1252C。當U=1且MOD欄位1342含有11(表示無記憶體存取操作)時,貝他欄位1254之部分(EVEX位元組3,位元[4]-S0)被解讀為RL欄位1257A;當其含有1(捨入1257A.1)時,貝他欄位1254之剩餘者(EVEX位元組3,位元[6-5]- S2-1)被解讀為捨入操作欄位1259A;而當RL欄位1257A含有0(VSIZE 1257.A2)時,貝他欄位1254之剩餘者(EVEX位元組3,位元[6-5]-S2-1)被解讀為向量長度欄位1259B(EVEX位元組3,位元[6-5]-L1-0)。當U=1且MOD欄位1342含有00、01、或10(表示記憶體存取操作)時,貝他欄位1254(EVEX位元組3,位元[6:4]-SSS)被解讀為向量長度欄位1259B(EVEX位元組3,位元[6-5]-L1-0)及廣播欄位1257B(EVEX位元組3,位元[4]-B)。
範例暫存器架構
圖14為依據本發明之一實施例的暫存器架構1400之方塊圖。於所示之實施例中,有32個512位元寬之向量暫存器1410;這些暫存器被稱為zmm0至zmm31。較低的16個zmm暫存器之較低階256位元被疊置在暫存器ymm0-16之上。較低的16個zmm暫存器之較低階128位元(ymm暫存器之較低階128位元)被疊置在暫存器xmm0-15之上。特定向量友善指令格式1300係操作於這些疊置的暫存器檔案上,如下表所示。
換言之,向量長度欄位1259B選擇於最大長度與一或更多其他較短長度之間,其中每一此較短長度為先前長度之長度的一半;而無向量長度欄位1259B之指令模板係操作於最大向量長度上。此外,於一實施例中,特定向量友善指令格式1300之類別B指令模板係操作於緊縮或純量單/雙精確浮點資料上以及緊縮或純量整數資料上。純量操作為履行在zmm/ymm/xmm暫存器中之較低階資料元件位置上的操作;較高階資料元件位置係根據實施例而被保留如執行前之相同者或被歸零。
寫入遮罩暫存器1415-於所示之實施例中,有8個寫入遮罩暫存器(k0至k7),大小各為64位元。於一替代實施例中,寫入遮罩暫存器1415之大小為16位元。如先前所述,於本發明之一實施例中,向量遮罩暫存器k0無法被使用為寫入遮罩;當其通常將指示k0之編碼被用於寫入遮罩時,其選擇0xFFFF之固線式(hardwired)寫入遮罩,有效地除能該指令之寫入遮蔽。
通用暫存器1425-於所示之實施例中,有十六個64位元的通用暫存器,其係配合現有的x86定址模式而使用以定址記憶體運算元。這些暫存器被稱為下列名稱:RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、及R8至R15。
純量(scalar)浮點堆疊暫存器檔案(x87堆疊)1445,於其上係混疊MMX緊縮整數平坦暫存器檔案1450-於所示之實施例中,x87堆疊為八元件的堆疊,用以對其使用x87指令集擴充之32/64/80位元的浮點資料履行純量浮點操作;而MMX暫存器被用以對64位元的緊縮整數資料履行操作,以及保留運算元給某些於MMX與XMM暫存器之間所履行的操作。
本發明之替代實施例可使用較寬的或較窄的暫存器。此外,本發明之替代實施例可使用更多的、更少的、或不同的暫存器檔案及暫存器。
圖15A-B說明更特定的範例依序核心架構之方塊圖,該核心將為一晶片中之數個邏輯區塊(包括相同類型及/或不同類型的其他核心)之一。邏輯區塊透過高頻寬互連網路(例如,環狀網路)而通連與某固定功能邏輯、記憶體I/O介面、及其他必要的I/O邏輯,根據應用而定。
圖15A為依據本發明之實施例的單一處理器核心之方塊圖,連同其連接至晶粒上互連網路1502且具有其第二階(L2)快取之局部子集1504。於一實施例中,指令解碼器1500支援具有緊縮資料指令集擴充之x86指令集。 L1快取1506容許針對快取記憶體之低潛時存取進入純量及向量單元。雖然於一實施例中(為了簡化設計),純量單元1508和向量單元1510係使用分離的暫存器組(個別地,純量暫存器1512和向量暫存器1514)且於其間轉移之資料被寫入至記憶體並從第一階(L1)快取1506讀回,但本發明之替代實施例亦可使用不同的方式(例如,使用單一暫存器組或包括一通訊路徑,其容許資料被轉移於兩暫存器檔案之間而不被寫入或讀回)。
L2快取之局部子集1504為劃分為分離之局部子集(每一處理器核心一個)的總體L2快取之部分。各處理器核心具有通至L2快取1504之其本身局部子集的直接存取路徑。由處理器核心所讀取之資料被儲存於其L2快取子集1504中並可被快速地存取,平行與存取其本身局部L2快取子集之其他處理器核心。由處理器核心所寫入之資料被儲存於其本身的L2快取子集1504且被清除自其他子集(假如需要的話)。環狀網路確保共用資料之相干(coherency)。環狀網路為雙向的,以容許諸如處理器核心、L2快取及其他邏輯區塊等代理器於晶片內彼此通連。各環狀資料路徑為1012位元寬於每方向。
圖15B為依據本發明之實施例的圖15A中之處理器核心的部分之擴充視圖。圖15B包括L1快取1504之L1資料快取1506A部分,以及有關向量單元1510及向量暫存器1514之更多細節。明確地,向量單元1510為16寬的向量處理單元(VPU)(參見16寬的ALU 1528),其執 行整數、單一精確浮點與雙精確浮點指令之一或更多者。VPU支援:利用拌和單元1520以拌和暫存器輸入、利用數字轉換單元1522A-B之數字轉換、及利用記憶體輸入上之複製單元1524的複製。寫入遮罩暫存器1526容許闡述所得的向量寫入。
100‧‧‧處理器管線
102‧‧‧提取級
104‧‧‧長度解碼級
106‧‧‧解碼級
108‧‧‧配置級
110‧‧‧重新命名級
112‧‧‧排程級
114‧‧‧暫存器讀取/記憶體讀取級
116‧‧‧執行級
118‧‧‧寫回/記憶體寫入級
122‧‧‧異常處置級
124‧‧‧確定級
130‧‧‧前端單元
132‧‧‧分支預測單元
134‧‧‧指令快取單元
136‧‧‧指令翻譯旁看緩衝器(TLB)
138‧‧‧指令提取單元
140‧‧‧解碼單元
150‧‧‧執行引擎單元
152‧‧‧重新命名/配置器單元
154‧‧‧收回單元
156‧‧‧排程器單元
158‧‧‧實體暫存器檔案單元
160‧‧‧執行叢集
162‧‧‧執行單元
164‧‧‧記憶體存取單元
170‧‧‧記憶體單元
172‧‧‧資料TLB單元
174‧‧‧資料快取單元
176‧‧‧第二階(L2)快取單元
190‧‧‧處理器核心
200‧‧‧處理器
202A-N‧‧‧核心
206‧‧‧共用快取單元
208‧‧‧特殊用途邏輯
210‧‧‧系統代理器
212‧‧‧環狀為基的互連單元
214‧‧‧集成記憶體控制器單元
216‧‧‧匯流排控制器單元
300‧‧‧系統
310,315‧‧‧處理器
320‧‧‧控制器集線器
340‧‧‧記憶體
345‧‧‧共處理器
350‧‧‧輸入/輸出集線器(IOH)
360‧‧‧輸入/輸出(I/O)裝置
390‧‧‧圖形記憶體控制器集線器(GMCH)
395‧‧‧連接
400‧‧‧多處理器系統
414‧‧‧I/O裝置
415‧‧‧額外處理器
416‧‧‧第一匯流排
418‧‧‧匯流排橋
420‧‧‧第二匯流排
422‧‧‧鍵盤及/或滑鼠
424‧‧‧聲頻I/O
427‧‧‧通訊裝置
428‧‧‧儲存單元
430‧‧‧指令/碼及資料
432‧‧‧記憶體
434‧‧‧記憶體
438‧‧‧共處理器
439‧‧‧高性能介面
450‧‧‧點對點互連
452,454‧‧‧P-P介面
470‧‧‧第一處理器
472,482‧‧‧集成記憶體控制器(IMC)單元
476,478‧‧‧點對點(P-P)介面
480‧‧‧第二處理器
486,488‧‧‧P-P介面
490‧‧‧晶片組
494,498‧‧‧點對點介面電路
496‧‧‧介面
500‧‧‧系統
514‧‧‧I/O裝置
515‧‧‧傳統I/O裝置
600‧‧‧SoC
602‧‧‧互連單元
610‧‧‧應用程式處理器
620‧‧‧共處理器
630‧‧‧靜態隨機存取記憶體(SRAM)單元
632‧‧‧直接記憶體存取(DMA)單元
640‧‧‧顯示單元
702‧‧‧高階語言
704‧‧‧x86編譯器
706‧‧‧x86二元碼
708‧‧‧指令集編譯器
710‧‧‧指令集二元碼
712‧‧‧指令轉換器
714‧‧‧不具有至少一x86指令集核心之處理器
716‧‧‧具有至少一x86指令集核心之處理器
801‧‧‧微架構(uarch)暫存器
802‧‧‧第1階(L1)快取
803‧‧‧指針暫存器
804‧‧‧位元位址
806‧‧‧指針更新邏輯
807‧‧‧比較邏輯
809‧‧‧記憶體
810‧‧‧目的地暫存器Rn
811‧‧‧解壓縮邏輯
815‧‧‧位元流
850‧‧‧處理器
1102‧‧‧VEX前綴
1105‧‧‧REX欄位
1115‧‧‧運算元映圖欄位
1120‧‧‧VEX.vvvv欄位
1125‧‧‧前綴編碼欄位
1130‧‧‧真實運算碼欄位
1140‧‧‧MOD R/M位元組
1142‧‧‧MOD欄位
1144‧‧‧Reg欄位
1146‧‧‧R/M欄位
1150‧‧‧SIB位元組
1152‧‧‧SS
1154‧‧‧SIB.xxx
1156‧‧‧SIB.bbb
1162‧‧‧置換欄位
1164‧‧‧W欄位
1168‧‧‧VEX.L大小欄位
1172‧‧‧即刻欄位(IMM8)
1174‧‧‧全運算碼欄位
1200‧‧‧一般性向量友善指令格式
1205‧‧‧無記憶體存取
1210‧‧‧無記憶體存取、全捨入控制類型操作
1212‧‧‧無記憶體存取、寫入遮罩控制、部分捨入控制類型操作
1215‧‧‧無記憶體存取、資料轉變類型操作
1217‧‧‧無記憶體存取、寫入遮罩控制、vsize類型操作
1220‧‧‧記憶體存取
1227‧‧‧記憶體存取、寫入遮罩控制
1240‧‧‧格式欄位
1242‧‧‧基礎操作欄位
1244‧‧‧暫存器指標欄位
1246‧‧‧修飾符欄位
1250‧‧‧擴增操作欄位
1252‧‧‧阿爾發欄位
1252A‧‧‧RS欄位
1252A.1‧‧‧捨入
1252A.2‧‧‧資料轉變
1252B‧‧‧逐出暗示欄位
1252B.1‧‧‧暫時
1252B.2‧‧‧非暫時
1254‧‧‧貝他欄位
1254A‧‧‧捨入控制欄位
1254B‧‧‧資料轉變欄位
1254C‧‧‧資料調處欄位
1256‧‧‧SAE欄位
1257A‧‧‧RL欄位
1257A.1‧‧‧捨入
1257A.2‧‧‧向量長度(VSIZE)
1257B‧‧‧廣播欄位
1258‧‧‧捨入操作控制欄位
1259A‧‧‧捨入操作欄位
1259B‧‧‧向量長度欄位
1260‧‧‧比率欄位
1262A‧‧‧置換欄位
1262B‧‧‧置換因數欄位
1264‧‧‧資料元件寬度欄位
1268‧‧‧類別欄位
1268A‧‧‧類別A
1268B‧‧‧類別B
1270‧‧‧寫入遮罩欄位
1272‧‧‧即刻欄位
1274‧‧‧全運算碼欄位
1300‧‧‧特定向量友善指令格式
1302‧‧‧EVEX前綴
1305‧‧‧REX欄位
1310‧‧‧REX’欄位
1315‧‧‧運算碼映圖欄位
1320‧‧‧VVVV欄位
1325‧‧‧前綴編碼欄位
1330‧‧‧真實運算碼欄位
1340‧‧‧MOD R/M位元組
1342‧‧‧MOD欄位
1344‧‧‧Reg欄位
1346‧‧‧R/M欄位
1354‧‧‧SIB.xxx
1356‧‧‧SIB.bbb
1400‧‧‧暫存器架構
1410‧‧‧向量暫存器
1415‧‧‧寫入遮罩暫存器
1425‧‧‧通用暫存器
1445‧‧‧純量浮點堆疊暫存器檔案
1450‧‧‧MMX緊縮整數平坦暫存器檔案
1500‧‧‧指令解碼器
1502‧‧‧晶粒上互連網路
1504‧‧‧第二階(L2)快取之局部子集
1506‧‧‧L1快取
1506A‧‧‧L1資料快取
1508‧‧‧純量單元
1510‧‧‧向量單元
1512‧‧‧純量暫存器
1514‧‧‧向量暫存器
1520‧‧‧拌和單元
1522A-B‧‧‧數字轉換單元
1524‧‧‧複製單元
1526‧‧‧寫入遮罩暫存器
1528‧‧‧16寬的ALU
圖1A為一方塊圖,其說明依據本發明之實施例的範例依序的管線及範例暫存器重新命名的、失序的發出/執行管線兩者;圖1B為一方塊圖,其說明依據本發明之實施例的處理器中所包括的範例依序的架構核心及範例暫存器重新命名的、失序的發出/執行架構核心兩者;圖2為依據本發明之實施例的具有集成記憶體控制器和圖形之單核心處理器及多核心處理器的方塊圖;圖3顯示依據本發明之一實施例的系統之方塊圖;圖4顯示依據本發明之一實施例的第二系統之方塊圖;圖5顯示依據本發明之一實施例的第三系統之方塊圖;圖6顯示依據本發明之一實施例的晶片上系統(SoC)之方塊圖;圖7為方塊圖,其對比軟體指令轉換器之使用,以將來源指令集中之二元指令轉換為目標指令集中之二元指 令,依據本發明之實施例;圖8顯示一種依據本發明之一實施例的設備;圖9顯示一種依據本發明之一實施例以從位元流擷取位元的方法;圖10顯示一種依據本發明之一實施例以將位元置入位元流的方法;圖11A-C顯示依據本發明之實施例的包括VEX前綴(prefix)之範例指令格式;圖12A及12B為方塊圖,其說明依據本發明之實施例的一般性向量友善指令格式及其指令模板(template);圖13A-D為方塊圖,其說明依據本發明之實施例的範例特定向量友善指令格式;圖14為依據本發明之一實施例的暫存器架構之方塊圖;圖15A為依據本發明之實施例的單一處理器核心之方塊圖,連同其連接至晶粒上互連網路且具有第二階(L2)快取之其局部子集;圖15B為依據本發明之實施例的圖14A中之處理器核心的部分之擴充視圖。

Claims (18)

  1. 一種方法,包含:執行一指令以獲得用於一操作之位元,該指令識別待擷取之開始位元位址及位元數;判定其由該開始位元位址及位元數所識別之該些位元是否被儲存於位元取向暫存器或快取中;假如不是,則藉由將該開始位元位址及由該指令所識別之該位元數個別地轉換為開始位元組位址及位元組數以判定待擷取自位元組取向記憶體之該開始位元組位址及該位元組數;從該位元組取向記憶體擷取其由該開始位元組位址及該位元組數所識別之位元組;從已擷取自該位元組取向記憶體之第一位元組和最後位元組的至少一者丟棄不想要的位元,其中丟棄該些不想要的位元包括位元位移;及對該位元位移後剩餘之位元履行指定位元操作之序列以產生結果。
  2. 如申請專利範圍第1項之方法,進一步包含:產生一位元組位址,用以將該些結果儲存回至該位元組取向記憶體;及使用該位元組位址以將該些結果儲存回至該位元組取向記憶體。
  3. 如申請專利範圍第1項之方法,其中指定位元操作之該序列為一用以解壓縮位元流之解壓縮程序的一部 分。
  4. 一種方法,包含:執行一指令以將用於一操作之新位元置入一位元流,該指令識別待處理之開始位元位址、位元數、及位元;判定其由該開始位元位址及位元數所識別之該些位元是否被儲存於位元取向暫存器或快取中;假如不是,則藉由將該開始位元位址及由該指令所識別之該位元數個別地轉換為開始位元組位址及位元組數以判定待擷取自位元組取向記憶體之該開始位元組位址及該位元組數;從該位元組取向記憶體擷取其由該開始位元組位址及位元組數所識別之位元組;從已擷取自該位元組取向記憶體之第一位元組和最後位元組的至少一者丟棄不想要的位元,其中丟棄該些不想要的位元包括位元位移;對該位元位移後剩餘之位元及該些新位元履行指定位元操作之一序列以產生結果;及將該些結果儲存回至該位元取向暫存器或快取。
  5. 如申請專利範圍第4項之方法,進一步包含:產生一位元組位址,用以將該些結果儲存回至該位元組取向記憶體;及使用該位元組位址以將該些結果儲存回至該位元組取向記憶體。
  6. 如申請專利範圍第4項之方法,其中指定位元操 作之該序列為一用以壓縮位元流之壓縮程序的一部分。
  7. 一種用以執行程式碼之處理器,該程式碼含有用以履行下列操作之指令:執行一指令以獲得用於一操作之位元,該指令識別待擷取之開始位元位址及位元數;判定其由該開始位元位址及位元數所識別之該些位元是否被儲存於位元取向暫存器或快取中;假如不是,則藉由將該開始位元位址及由該指令所識別之該位元數個別地轉換為開始位元組位址及位元組數以判定待擷取自位元組取向記憶體之該開始位元組位址及該位元組數;從該位元組取向記憶體擷取其由該開始位元組位址及位元組數所識別之位元組;從已擷取自該位元組取向記憶體之第一位元組和最後位元組的至少一者丟棄不想要的位元,其中丟棄該些不想要的位元包括位元位移;及對該位元位移後剩餘之位元履行指定位元操作之序列以產生結果。
  8. 如申請專利範圍第7項之處理器,執行下列額外操作:產生一位元組位址,用以將該些結果儲存回至該位元組取向記憶體;及使用該位元組位址以將該些結果儲存回至該位元組取向記憶體。
  9. 如申請專利範圍第7項之處理器,其中指定位元操作之該序列為一用以解壓縮位元流之解壓縮程序的一部分。
  10. 一種用以執行程式碼之處理器,該程式碼含有用以履行下列操作之指令:執行一指令以將用於一操作之新位元置入一位元流,該指令識別待處理之開始位元位址、位元數、及位元;判定其由該開始位元位址及位元數所識別之該些位元是否被儲存於位元取向暫存器或快取中;假如不是,則藉由將該開始位元位址及由該指令所識別之該位元數個別地轉換為開始位元組位址及位元組數以判定待擷取自位元組取向記憶體之該開始位元組位址及該位元組數;從該位元組取向記憶體擷取其由該開始位元組位址及位元組數所識別之位元組;從已擷取自該位元組取向記憶體之第一位元組和最後位元組的至少一者丟棄不想要的位元,其中丟棄該些不想要的位元包括位元位移;對該位元位移後剩餘之位元及該些新位元履行指定位元操作之一序列以產生結果;及將該些結果儲存回至該位元取向暫存器或快取。
  11. 如申請專利範圍第10項之處理器,執行下列額外操作:產生一位元組位址,用以將該些結果儲存回至該位元 組取向記憶體;及使用該位元組位址以將該些結果儲存回至該位元組取向記憶體。
  12. 如申請專利範圍第10項之處理器,其中指定位元操作之該序列為一用以壓縮位元流之壓縮程序的一部分。
  13. 一種用以執行程式碼之處理器,該程式碼含有用以履行下列操作之指令:執行機構,用以執行一指令以獲得用於一操作之位元,該指令識別待擷取之開始位元位址及位元數;判定機構,用以判定其由該開始位元位址及位元數所識別之該些位元是否被儲存於位元取向暫存器或快取中;判定機構,用以藉由將該開始位元位址及由該指令所識別之該位元數個別地轉換為開始位元組位址及位元組數以判定待擷取自位元組取向記憶體之該開始位元組位址及該位元組數,假如由該開始位元位址及位元數所識別之該些位元不是被儲存於該位元取向暫存器或快取中的話;擷取機構,用以從該位元組取向記憶體擷取其由該開始位元組位址及位元組數所識別之位元組;丟棄機構,用以從已擷取自該位元組取向記憶體之第一位元組和最後位元組的至少一者丟棄不想要的位元,其中丟棄該些不想要的位元包括位元位移;及履行機構,用以對該位元位移後剩餘之位元履行指定位元操作之序列以產生結果。
  14. 如申請專利範圍第13項之處理器,進一步包含:產生機構,用以產生一位元組位址,用以將該些結果儲存回至該位元組取向記憶體;及使用機構,用以使用該位元組位址以將該些結果儲存回至該位元組取向記憶體。
  15. 如申請專利範圍第13項之處理器,其中指定位元操作之該序列為一用以解壓縮位元流之解壓縮程序的一部分。
  16. 一種用以執行含有指令的程式碼之處理器,包含:執行機構,用以執行一指令以將用於一操作之新位元置入一位元流,該指令識別待處理之開始位元位址、位元數、及位元;判定機構,用以判定其由該開始位元位址及位元數所識別之該些位元是否被儲存於位元取向暫存器或快取中;判定機構,用以藉由將該開始位元位址及由該指令所識別之該位元數個別地轉換為開始位元組位址及位元組數以判定待擷取自位元組取向記憶體之該開始位元組位址及該位元組數,假如由該開始位元位址及位元數所識別之該些位元不是被儲存於該位元取向暫存器或快取中的話;擷取機構,用以從位元組取向記憶體擷取其由該開始位元組位址及位元組數所識別之位元組;丟棄機構,用以從已擷取自該位元組取向記憶體之第 一位元組和最後位元組的至少一者丟棄不想要的位元,其中丟棄該些不想要的位元包括位元位移;及履行機構,用以對該位元位移後剩餘之位元及新位元履行指定位元操作之一序列以產生結果;及儲存機構,用以將該些結果儲存回至該位元取向暫存器或快取。
  17. 如申請專利範圍第16項之處理器,進一步包含:產生機構,用以產生一位元組位址,用以將該些結果儲存回至該位元組取向記憶體;及使用機構,用以使用該位元組位址以將該些結果儲存回至該位元組取向記憶體。
  18. 如申請專利範圍第16項之處理器,其中指定位元操作之該序列為一用以壓縮位元流之壓縮程序的一部分。
TW101146190A 2011-12-22 2012-12-07 用以處理位元流之處理器為基的設備及方法 TWI617976B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
??PCT/US11/67036 2011-12-22
PCT/US2011/067036 WO2013095576A1 (en) 2011-12-22 2011-12-22 Processor-based apparatus and method for processing bit streams

Publications (2)

Publication Number Publication Date
TW201346728A TW201346728A (zh) 2013-11-16
TWI617976B true TWI617976B (zh) 2018-03-11

Family

ID=48669217

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101146190A TWI617976B (zh) 2011-12-22 2012-12-07 用以處理位元流之處理器為基的設備及方法

Country Status (4)

Country Link
US (1) US9740484B2 (zh)
CN (1) CN104011660B (zh)
TW (1) TWI617976B (zh)
WO (1) WO2013095576A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130346655A1 (en) * 2012-06-22 2013-12-26 Advanced Micro Devices, Inc. Bus agent capable of supporting extended atomic operations and method therefor
JP6059572B2 (ja) * 2013-03-22 2017-01-11 株式会社メガチップス 画像処理装置
US9696920B2 (en) * 2014-06-02 2017-07-04 Micron Technology, Inc. Systems and methods for improving efficiencies of a memory system
US9910670B2 (en) 2014-07-09 2018-03-06 Intel Corporation Instruction set for eliminating misaligned memory accesses during processing of an array having misaligned data rows
WO2016018386A1 (en) 2014-07-31 2016-02-04 Hewlett-Packard Development Company, L.P. Encoding data within a crossbar memory array
US11048516B2 (en) * 2015-06-27 2021-06-29 Intel Corporation Systems, methods, and apparatuses for last branch record support compatible with binary translation and speculative execution using an architectural bit array and a write bit array
US10691453B2 (en) 2015-11-13 2020-06-23 International Business Machines Corporation Vector load with instruction-specified byte count less than a vector size for big and little endian processing
US10691456B2 (en) 2015-11-13 2020-06-23 International Business Machines Corporation Vector store instruction having instruction-specified byte count to be stored supporting big and little endian processing
US10177782B2 (en) * 2015-12-26 2019-01-08 Intel Corporation Hardware apparatuses and methods for data decompression
US10176090B2 (en) * 2016-09-15 2019-01-08 Qualcomm Incorporated Providing memory bandwidth compression using adaptive compression in central processing unit (CPU)-based systems
US10339057B2 (en) * 2016-12-20 2019-07-02 Texas Instruments Incorporated Streaming engine with flexible streaming engine template supporting differing number of nested loops with corresponding loop counts and loop offsets
US10474575B2 (en) 2017-04-10 2019-11-12 Arm Limited Cache-based communication between execution threads of a data processing system
CN107315710B (zh) * 2017-06-27 2020-09-11 上海兆芯集成电路有限公司 全精度及部分精度数值的计算方法及装置
CN107291420B (zh) 2017-06-27 2020-06-05 上海兆芯集成电路有限公司 整合算术及逻辑处理的装置
CN107562442B (zh) * 2017-09-22 2020-03-17 广州酷狗计算机科技有限公司 一种读取数据的方法和装置
US10620954B2 (en) * 2018-03-29 2020-04-14 Arm Limited Dynamic acceleration of data processor operations using data-flow analysis
CN109584891B (zh) * 2019-01-29 2023-04-25 乐鑫信息科技(上海)股份有限公司 嵌入式环境下的音频解码方法、装置、设备及介质
CN117093510B (zh) * 2023-05-30 2024-04-09 中国人民解放军军事科学院国防科技创新研究院 大小端通用的缓存行高效索引方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6332188B1 (en) * 1998-11-06 2001-12-18 Analog Devices, Inc. Digital signal processor with bit FIFO
US20040128467A1 (en) * 2002-10-25 2004-07-01 Scott Lee Data access method applicable to various platforms

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1004784B (zh) * 1984-01-26 1989-07-12 北方电信有限公司 数据格式转换器
US5442751A (en) * 1993-11-09 1995-08-15 Microsoft Corporation Method and apparatus for processing data through a register portion by portion
US5732266A (en) * 1994-09-02 1998-03-24 Compaq Computer Corporation Storage medium storing application programs and application initialization files and automatic launching of computer applications stored on the storage medium
US7085795B2 (en) * 2001-10-29 2006-08-01 Intel Corporation Apparatus and method for efficient filtering and convolution of content data
US5835793A (en) * 1997-05-02 1998-11-10 Texas Instruments Incorporated Device and method for extracting a bit field from a stream of data
WO1999038170A1 (fr) * 1998-01-21 1999-07-29 Sony Corporation Procede de codage et dispositif de memoire
US6820195B1 (en) * 1999-10-01 2004-11-16 Hitachi, Ltd. Aligning load/store data with big/little endian determined rotation distance control
DE60032794T2 (de) * 1999-11-18 2007-10-11 Sun Microsystems, Inc., Palo Alto Bit-dekompression-verarbeitung mit einem vielseitigen ausrichtungswerkzeug
US6621428B1 (en) * 2000-05-04 2003-09-16 Hewlett-Packard Development Company, L.P. Entropy codec for fast data compression and decompression
US7136990B2 (en) * 2003-01-16 2006-11-14 Ip-First, Llc. Fast POP operation from RAM cache using cache row value stack
DE10314928A1 (de) * 2003-04-02 2004-11-04 Infineon Technologies Ag Verfahren und programmgesteuerte Einheit zur Bitfeldverschiebung
US7436328B2 (en) * 2003-07-09 2008-10-14 Texas Instruments Incorporated Video coding with start code emulation prevention
TWI294569B (en) 2004-01-16 2008-03-11 Ip First Llc Apparatus and method for performing fast pop operation from random access cache memory and computer-readable storage medium
US7334116B2 (en) * 2004-10-06 2008-02-19 Sony Computer Entertainment Inc. Bit manipulation on data in a bitstream that is stored in a memory having an address boundary length
US7269715B2 (en) 2005-02-03 2007-09-11 International Business Machines Corporation Instruction grouping history on fetch-side dispatch group formation
US20070106883A1 (en) * 2005-11-07 2007-05-10 Choquette Jack H Efficient Streaming of Un-Aligned Load/Store Instructions that Save Unused Non-Aligned Data in a Scratch Register for the Next Instruction
US7529918B2 (en) * 2006-07-21 2009-05-05 Broadcom Corporation System and method for efficiently performing bit-field extraction and bit-field combination operations in a processor
US20080162522A1 (en) 2006-12-29 2008-07-03 Guei-Yuan Lueh Methods and apparatuses for compaction and/or decompaction
US7882284B2 (en) * 2007-03-26 2011-02-01 Analog Devices, Inc. Compute unit with an internal bit FIFO circuit
TW200910195A (en) 2007-08-20 2009-03-01 Sunplus Technology Co Ltd A device of using serial bits to determine instruction length at a multi-mode processor and the method thereof
CN101739234B (zh) 2008-11-25 2013-09-11 瑞昱半导体股份有限公司 指令模式识别装置
US20110280314A1 (en) * 2010-05-12 2011-11-17 Texas Instruments Incorporated Slice encoding and decoding processors, circuits, devices, systems and processes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6332188B1 (en) * 1998-11-06 2001-12-18 Analog Devices, Inc. Digital signal processor with bit FIFO
US20040128467A1 (en) * 2002-10-25 2004-07-01 Scott Lee Data access method applicable to various platforms

Also Published As

Publication number Publication date
CN104011660B (zh) 2017-03-01
WO2013095576A1 (en) 2013-06-27
CN104011660A (zh) 2014-08-27
US20130326201A1 (en) 2013-12-05
TW201346728A (zh) 2013-11-16
US9740484B2 (en) 2017-08-22

Similar Documents

Publication Publication Date Title
TWI617976B (zh) 用以處理位元流之處理器為基的設備及方法
TWI582690B (zh) 用於滑動視窗資料存取之設備及方法
TWI483183B (zh) 混洗浮點或整數值的裝置與方法
TWI517039B (zh) 用以對緊縮資料執行差異解碼之系統,設備,及方法
KR101877190B1 (ko) 인접한 수집/분산 연산들의 통합
TWI559220B (zh) 用於向量運算與累加的裝置及方法
TWI475480B (zh) 向量頻率壓縮指令
US20180004517A1 (en) Apparatus and method for propagating conditionally evaluated values in simd/vector execution using an input mask register
TWI556165B (zh) 位元混洗處理器、方法、系統及指令
TWI489383B (zh) 遮蔽排列指令的裝置及方法
TWI515650B (zh) 用於遮罩暫存器擴充操作之設備及方法
TWI489382B (zh) 改良的萃取指令背景之設備及方法
TWI501147B (zh) 用於從通用暫存器至向量暫存器的廣播之裝置及方法
TWI564795B (zh) 四維摩頓座標轉換處理器、方法、系統及指令
TWI590154B (zh) 在z順序曲線中計算下一點的座標的向量指令
KR101729424B1 (ko) 128-비트 프로세서에서의 skein256 sha3 알고리즘에 대한 명령어 세트
TWI493449B (zh) 用於使用遮罩以執行向量緊縮一元解碼的系統、裝置及方法
TW201344573A (zh) 向量頻率擴展指令
WO2013095616A1 (en) Apparatus and method for selecting elements of a vector computation
TWI544408B (zh) 用於滑動視窗資料收集之設備及方法
TW201730756A (zh) 用於從鏈結結構取回元件的設備和方法