TW201337751A - 執行成型記憶體存取作業的系統和方法 - Google Patents

執行成型記憶體存取作業的系統和方法 Download PDF

Info

Publication number
TW201337751A
TW201337751A TW101145697A TW101145697A TW201337751A TW 201337751 A TW201337751 A TW 201337751A TW 101145697 A TW101145697 A TW 101145697A TW 101145697 A TW101145697 A TW 101145697A TW 201337751 A TW201337751 A TW 201337751A
Authority
TW
Taiwan
Prior art keywords
operands
memory
memory access
instruction
scratchpad
Prior art date
Application number
TW101145697A
Other languages
English (en)
Other versions
TWI498819B (zh
Inventor
Xiaogang Qiu
Jack Hilaire Choquette
Manuel Olivier Gautho
Ming Y Michael Siu
Original Assignee
Nvidia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nvidia Corp filed Critical Nvidia Corp
Publication of TW201337751A publication Critical patent/TW201337751A/zh
Application granted granted Critical
Publication of TWI498819B publication Critical patent/TWI498819B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/167Interprocessor communication using a common memory, e.g. mailbox
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/345Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results
    • G06F9/3455Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results using stride
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • G06F9/383Operand prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3851Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution from multiple instruction streams, e.g. multistreaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3887Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Advance Control (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明一具體實施例提出一種技術可提供一種有效率的方式來由一暫存器檔案取得運算元。特別是,該指令分派單元接收一或多個指令,其每一者包括一或多個運算元。該等運算元共同地被組織成可以形成一成型存取的一或多個運算元群組。該等運算元由該暫存器檔案取得,並儲存在一收集器中。一旦所有運算元皆被讀取並收集在該收集器中,該指令分派單元傳送該等指令和相對應的運算元到該串流多處理器內的功能性單元來執行。本發明一項好處在於多個運算元可在一單一暫存器存取作業中自該暫存器檔案取得,而不會有資源衝突。自該暫存器檔案取得運算元的效能藉由形成可有效率地取得呈現出經辨識的記憶體存取樣式之運算元之成型存取而改善。

Description

執行成型記憶體存取作業的系統和方法
本發明概略關於電腦架構,尤指一種在一暫存器檔案中運算元收集的系統和方法。
【相關技術】
在平行處理系統中常見的作法為設計一種可同時執行多個執行緒的處理器。當這些執行緒皆在執行相同指令序列(基本上每一執行緒有不同資料)時,在該等執行緒之間共用某些資源會有實質上的好處。例如,每一執行緒可以執行一指令來存取要由暫存器檔案的一共用記憶庫取得的一或多個運算元,其中每一執行緒存取該暫存器檔案之記憶庫中一不同的暫存器位址。此種作業可見於單一指令多重執行緒(SIMT,“Single instruction multi-thread”)和單一指令多重資料(SIMD,“Single instruction multi-data”)處理器當中。
在作業期間,該處理器可以橫跨多個執行緒來執行一指令,其中該指令自該等暫存器檔案的記憶庫存取一或多個運算元,而該等運算元係位在該等暫存器檔案的記憶庫內不同的暫存器位址處。然後該處理器執行一暫存器存取作業來取得該等運算元。例如,如果四個執行緒同時執行每一個需要三個運算元的一指令,則該處理器取得最多到十二個個別的運算元來執行該指令。當在相同的暫存器存取作業內可取得所有十二個運算元時,即可大幅改善效能。
由於多種限制,例如實體記憶體組態,某些暫存器組合可能無法同時存取。當兩個或更多的運算元位於無法同時被存取的暫存器檔案位置時,該處理器即會遭遇一暫存器記憶庫衝突。在這種狀況下,該處理器無法在一單一暫存器存取作業中取得所有運算元。
可避免暫存器檔案衝突的一種方法為針對由該目前指令 存取的每一運算元序列地執行一個別的暫存器存取作業。此種方法由於每一運算元係一次存取一個而可避免暫存器記憶庫衝突。但是,此種方法的一個缺點為該處理器無法使用不會造成一暫存器記憶庫衝突來存取運算元之相同的暫存器存取作業來取得多個運算元。例如,如果四個執行緒正在執行需要三個運算元的一指令,則該處理器將執行十二次個別的暫存器存取作業來避免暫存器記憶庫衝突。但是,該等運算元在整個該等暫存器檔案的記憶庫中的分佈可使得該處理器在少於十二次暫存器存取作業下取得所有運算元。在這種狀況下,關聯於記憶體存取作業可能有的效率將無法實現。
如前所述,本技術中需要的是一種更有效率的方法來由一暫存器檔案收集運算元。
本發明一具體實施例提出一種用於執行暫存器記憶體作業的電腦實作方法。一指令分派單元接收要被橫跨複數運算元來執行的一指令。該指令分派單元辨識到其中儲存有該等複數運算元的複數暫存器檔案可經由一特定記憶體存取模式來存取。接著,該指令分派單元形成對應於該特定記憶體存取模式的一成型記憶體存取作業。然後該指令分派單元執行該成型記憶體存取作業來由該等複數暫存器檔案存取該等複數運算元。
該揭示技術的一項好處在於多個運算元可在一單一暫存器存取作業中自該暫存器檔案取得,而不會有資源衝突。
在以下的說明中,許多特定細節係被提出來提供對於本發明之更為完整的瞭解。但是本技術專業人士將可瞭解到本發明可不利用一或多個這些特定細節來實施。
系統概述
第一圖係例示設置成實作本發明一或多種態樣之一電腦系統100的方塊圖。電腦系統100包括一中央處理單元(CPU)102與一系統記憶體104,其經由包括一記憶體橋接器105的互連接路徑進行通訊。記憶體橋接器105可為例如一北橋晶片,其經由一匯流排或其它通訊路徑106(例如HyperTransport鏈路)連接到一I/O(輸入/輸出)橋接器107。I/O橋接器107可為例如一南橋晶片,其接收來自一或多個使用者輸入裝置108(例如鍵盤、滑鼠)的使用者輸入,並經由通訊路徑106及記憶體橋接器105轉送該輸入到CPU 102。一平行處理子系統112經由一匯流排或第二通訊路徑113(例如PCI(周邊組件互連接)Express,加速圖形處理埠、或HyperTransport鏈路)耦合至記憶體橋接器105;在一具體實施例中,平行處理子系統112為一圖形子系統,其傳遞像素到一顯示器110(例如一習用陰極射線管或液晶式的監視器)。一系統碟114亦連接至I/O橋接器107。一交換器116提供I/O橋接器107與其它像是網路轉接器118與多種嵌入卡120,121之其它組件之間的連接。其它組件(未明確顯示),包括有通用串列匯流排(USB,"Universal serial bus”)或其它埠連接、光碟(CD)驅動器、數位視訊碟(DVD)驅動器、薄膜記錄裝置及類似者,其亦可連接至I/O橋接器107。第一圖所示之該等多種通訊路徑(包括特定名稱的通訊路徑106與113)可使用任何適當的協定來實作,例如PCI(周邊組件互連,Peripheral Component Interconnect)、PCI Express(PCI快速,PCI-E)、AGP(加速圖形通訊埠,Accelerated Graphics Port)、HyperTransport(超輸送)、或任何其它匯流排或點對點通訊協定、及不同裝置之間的連接,皆可使用如本技術中所知的不同協定。
在一具體實施例中,平行處理子系統112加入可針對圖形及視訊處理最佳化的電路,其包括例如視訊輸出電路,且構成一圖形處理器(GPU)。在另一具體實施例中,平行處理子系統 112加入可針對一般性目的處理最佳化的電路,而可保留底層的運算架構,在此處會有更為詳細的說明。在又另一具體實施例中,平行處理子系統112在一單一子系統中可被整合於一或多個其它系統元件,例如結合記憶體橋接器105、CPU 102、及I/O橋接器107而形成一系統上晶片(SoC,“System on chip”)。
將可瞭解到此處所示的系統僅為例示性,其有可能有多種變化及修正。該連接拓樸,包括橋接器的數目與配置、CPU 102的數目及平行處理子系統112的數目皆可視需要修改。例如,在一些具體實施例中,系統記憶體104直接連接至CPU 102而非透過一橋接器耦接,而其它裝置透過記憶體橋接器105及CPU 102與系統記憶體104進行通訊。在其它可替代的拓樸中,平行處理子系統112連接至I/O橋接器107或直接連接至CPU 102,而非連接至記憶體橋接器105。在又其它具體實施例中,除了做為一或多個分散的裝置之外,I/O橋接器107及記憶體橋接器105可被整合到一單一晶片當中。大型具體實施例可包括兩個或更多的CPU 102,及兩個或更多的平行處理子系統112。此處所示的該等特定組件皆為選擇性的;例如其可支援任何數目的嵌入卡或周邊裝置。在一些具體實施例中,交換器116被省略,且網路轉接器118及嵌入卡120、121直接連接至I/O橋接器107。
第二圖例示根據本發明一具體實施例之一平行處理子系統112。如所示,平行處理子系統112包括一或多個平行處理單元(PPU,“parallel processing unit")202,其每一者耦合於一局部平行處理(PP,“parallel processing”)記憶體204。概言之,一平行處理子系統包括數目為U的PPU,其中U≧1。(在此處類似物件的多個實例標示為辨識該物件之參考編號,而括號中的數目辨識所需要的實例)。PPU 202及平行處理記憶體204可以使用一或多個積體電路裝置來實作,例如可程式化處理器, 特殊應用積體電路(ASIC,“Application specific integrated circuits”),或記憶體裝置,或以任何其它技術上可行的方式來實作。
請再次參照第一圖以及第二圖,在一些具體實施例中,平行處理子系統112中部份或所有的PPU 202為圖形處理器,其具有顯像管線,其能夠設置成執行關於自CPU 102及/或系統記憶體104經由記憶體橋接器105及第二通訊路徑113所供應的圖形資料產生像素資料的多種作業,與本地平行處理記憶體204進行互動(其能夠做為圖形記憶體,其包括例如一習用像框緩衝器),以儲存及更新像素資料,傳遞像素資料到顯示器110及類似者。在一些具體實施例中,平行處理子系統112可以包括可操作為圖形處理器的一或多個PPU 202,及用於通用型運算的一或多個其它PPU 202。該等PPU可為相同或不同,且每個PPU可以具有一專屬的平行處理記憶體裝置或並無專屬的平行處理記憶體裝置。在平行處理系統112中一或多個PPU202可以輸出資料到顯示器110,或在平行處理系統112中每個PPU 202可以輸出資料到一或多個顯示器110。
在作業中,CPU 102為電腦系統100的主控處理器,其控制及協調其它系統組件的作業。特別是CPU 102發出控制PPU 202之作業的命令。在一些具體實施例中,CPU 102對每一PPU 202寫入一命令串流至一資料結構(未明確示於第一圖或第二圖中),其可位於系統記憶體104、平行處理記憶體204或可同時由CPU 102與PPU 202存取的其它儲存位置。指向至每一資料結構的一指標被寫入至一推入緩衝器來啟始在該資料結構中該命令串流之處理。PPU 202自一或多個推入緩衝器讀取命令串流,然後相對於CPU 102的該作業非同步地執行命令。執行優先性可針對每一推入緩衝器藉由一應用程式經由裝置驅動器103來指定,以控制該等不同推入緩衝器的排程。
現在請回頭參照第二圖以及第一圖,每個PPU 202包括一 I/O(輸入/輸出)單元205,其經由通訊路徑113與電腦系統100的其它部份進行通訊,其連接至記憶體橋接器105(或在另一具體實施例中直接連接至CPU 102)。PPU 202與電腦系統100的其餘部份之連接亦可改變。在一些具體實施例中,平行處理子系統112係實作成一嵌入卡,其可被插入到電腦系統100的一擴充槽中。在其它具體實施例中,PPU 202可利用一匯流排橋接器整合在一單一晶片上,例如記憶體橋接器105或I/O橋接器107。在又其它的具體實施例中,PPU 202之部份或所有元件可與CPU 102整合在一單一晶片上。
在一具體實施例中,通訊路徑113為一PCI-EXPRESS鏈路,其中如本技術中所熟知具有專屬的線路會分配給每個PPU 202。其亦可使用其它通訊路徑。一I/O單元205產生封包(或其它信號)在通訊路徑113上傳輸,且亦自通訊路徑113接收所有進入的封包(或其它信號),導引該等進入封包到PPU 202的適當組件。例如,關於處理工作的命令可被導引到一主控介面206,而關於記憶體作業的命令(例如自平行處理記憶體204讀取或寫入其中)可被導引到一記憶體交叉開關單元210。主控介面206讀取每個推入緩衝器,並輸出儲存在該推入緩衝器中的該命令串流至一前端212。
每一PPU 202較佳地是實作一高度平行的處理架構。如詳細所示,PPU 202(0)包括一處理叢集陣列230,其包括數目為C的通用處理叢集(GPC,“General processing clusters”)208,其中C 1。每一GPC 208能夠同時執行大量(例如數百或數千)的執行緒,其中每個執行緒為一程式的一實例。在多種應用中,不同的GPC 208可分配來處理不同種類的程式,或執行不同種類的運算。GPC 208的分配可根據每種程式或運算所提升的工作負荷而改變。
GPC 208由一任務/工作單元207內的一工作分配單元接收要被執行的處理任務。該工作分配單元接收指向至被編碼成 任務中介資料(TMD)且儲存在記憶體中的處理任務的指標。該等指向至TMD的指標被包括在儲存成一推入緩衝器且由前端單元212自主控介面206接收的該命令串流中。可被編碼成TMD的處理任務包括要被處理之資料的索引,以及定義了該資料要如何被處理的狀態參數和命令(例如那一個程式要被執行)。任務/工作單元207自前端212接收任務,並確保GPC 208在由該等TMD之每一者所指定的該處理啟始之前被設置成一有效狀態。一優先性可針對用於排程該處理任務之執行的每一TMD來指定。處理任務亦可自處理叢集陣列230接收。視需要,該TMD可包括一參數,其控制該TMD是否要被加入一處理任務清單(或指向至該等處理任務的指標清單)的頭端或尾端,藉此提供在優先性之上的另一控制層級。
記憶體介面214包括數目為D的區隔單元215,其每一者被直接耦合至平行處理記憶體204的一部份,其中D 1。如所示,區隔單元215的該數目大致上等於動態隨機存取記憶體(DRAM)220的數目。在其它具體實施例中,區隔單元215的數目可能不等於記憶體裝置的數目。本技術專業人士將可瞭解到DRAM 220可由其它適當儲存裝置取代,並可為一般的習用設計。因此可省略詳細說明。顯像目標,例如圖框緩衝器或紋路地圖,其可儲存在不同DRAM 220中,其允許區隔單元215平行地寫入每個顯像目標之不同部份而有效率地使用平行處理記憶體204之可使用頻寬。
GPC 208之任何一者可處理要被寫入到平行處理記憶體204內DRAM 220中任一者的資料。交叉開關單元210設置成導引每個GPC 208之輸出到任何區隔單元215的輸入或到另一個GPC 208做進一步處理。GPC 208經由交叉開關單元210與記憶體介面214進行通訊,以自多個外部記憶體裝置讀取或寫入其中。在一具體實施例中,交叉開關單元210具有到記憶體介面214的一連接來與I/O單元205進行通訊,以及到局部 平行處理記憶體204的一連接,藉此使得不同GPC 208內該等處理核心能夠與系統記憶體104或並非位在PPU 202局部之其它記憶體進行通訊。在第二圖所示的該具體實施例中,交叉開關單元210直接連接於I/O單元205。交叉開關單元210可使用虛擬通道來隔開GPC 208與區隔單元215之間的流量串流。
再次地,GPC 208可被程式化來執行關於許多種應用之處理工作,其中包括但不限於線性及非線性資料轉換、影片及/或聲音資料的過濾、模型化作業(例如應用物理定律來決定物體的位置、速度及其它屬性)、影像顯像作業(例如鑲嵌遮影器、頂點遮影器、幾何遮影器及/或像素遮影器程式)等等。PPU 202可將來自系統記憶體104及/或局部平行處理記憶體204的資料轉移到內部(晶片上)記憶體、處理該資料、及將結果資料寫回到系統記憶體104及/或局部平行處理記憶體204,其中這些資料可由其它系統組件存取,包括CPU 102或另一個平行處理子系統112。
一PPU 202可具有任何數量的局部平行處理記憶體204,並不包括局部記憶體,並可用任何的組合來使用局部記憶體及系統記憶體。例如,一PPU 202可為在一統一記憶體架構(UMA,“Unified memory architecture”)具體實施例中的一圖形處理器。在這些具體實施例中,將可提供少數或沒有專屬的圖形(平行處理)記憶體,且PPU 202將專有地或大致專有地使用系統記憶體。在UMA具體實施例中,一PPU 202可被整合到一橋接器晶片中或處理器晶片中,或提供成具有一高速鏈路(例如PCI-EXPRESS)之一分離的晶片,其經由一橋接器晶片或其它通訊手段連接PPU 202到系統記憶體。
如上所述,任何數目的PPU 202可以包括在一平行處理子系統112中。例如,多個PPU 202可提供在一單一嵌入卡上,或多個嵌入卡可被連接至通訊路徑113,或一或多個PPU 202 可被整合到一橋接器晶片中。在一多PPU系統中PPU 202可彼此相同或彼此不相同。例如,不同的PPU 202可具有不同數目的處理核心、不同數量的局部平行處理記憶體等等。當存在有多個PPU 202時,那些PPU可平行地作業而以高於一單一PPU 202所可能的流量來處理資料。加入有一或多個PPU 202之系統可實作成多種組態及型式因子,其中包括桌上型、膝上型、或掌上型個人電腦、伺服器、工作站、遊戲主機、嵌入式系統及類似者。
多並行任務排程
多個處理任務可在GPC 208上並行地執行,且一處理任務於執行期間可以產生一或多個「子」(child)處理任務。任務/工作單元207接收該等任務,並動態地排程該等處理任務和子處理任務來由GPC 208執行。
第三A圖係根據本發明一具體實施例中第二圖之任務/工作單元207的方塊圖。任務/工作單元207包括一任務管理單元300和工作分配單元340。任務管理單元300基於執行優先性程度組織要被排程的任務。針對每一優先性程度,任務管理單元300儲存一指標清單至對應於在排程器表321中該等任務的該等TMD 322,其中該清單可利用一鏈接串列來實作。TMD 322可被儲存在PP記憶體204或系統記憶體104中。任務管理單元300接受任務並儲存該等任務在排程器表321中的速率與任務管理單元300排程任務來執行的速率相脫離。因此,任務管理單元300可基於優先性資訊或使用其它技術來收集數個任務,例如循環式排程。
工作分配單元340包括一任務表345,其具有位置,而每一位置可由將要被執行的一任務之TMD 322佔用。任務管理單元300在當任務表345中有空的位置時即可排程任務來執行。當沒有空位置時,不會佔用一位置的一較高優先性的任務可以逐出佔用一空位的一較低優先性的任務。當一任務被逐出 時,該任務即停止,且如果該任務的執行尚未完成,則指向至該任務的一指標被加入到要被排程的一任務指標清單,所以該任務的執行將在稍後恢復。當於一任務執行期間產生一子處理任務時,指向至該子任務的一指標被加入到要被排程的一任務指標清單。一子任務可由在處理叢集陣列230中執行的一TMD 322來產生。
不像是任務/工作單元207自前端212接收的一任務,子任務係自處理叢集陣列230接收。子任務不會被插入到推入緩衝器中或被傳送至該前端。當產生一子任務或該子任務的資料被儲存在記憶體中時,不會通知CPU 102。經由推入緩衝器提供的該等任務和子任務之間另一個差別在於經由該等推入緩衝器提供的該等任務由該應用程式定義,然而該等子任務係於該等任務的執行期間被動態地產生。
任務處理概述
第三B圖為根據本發明一具體實施例中第二圖之該等PPU 202中之一者內一GPC 208的方塊圖。每個GPC 208可構形成平行地執行大量的執行緒,其中術語「執行緒」(thread)代表在一特定組合的輸入資料上執行的一特定程式之實例。在一些具體實施例中,使用單一指令、多重資料(SIMD,“Single-instruction,multiple-data”)指令發行技術來支援大量執行緒之平行執行,而不需要提供多個獨立指令單元。在其它具體實施例中,單一指令多重執行緒(SIMT,“Single-instruction,multiple-thread”)技術係用來支援大量概略同步化執行緒的平行執行,其使用一共用指令單元設置成發出指令到GPU 208之每一者內一組處理引擎。不像是一SIMD執行方式,其中所有處理引擎基本上執行相同的指令,SIMT的執行係允許不同的執行緒經由一給定執行緒程式而更可立即地遵循相異的執行路徑。本技術專業人士將可瞭解到一SIMD處理規範代表一SIMT處理規範的一功能子集合。
GPC 208的作業較佳地是經由一管線管理員305控制,其可分配處理任務至串流多處理器(SM,“Streaming multiprocessor”)310。管線管理員305亦可設置成藉由指定SM 310輸出之已處理資料的目的地來控制一工作分配交叉開關330。
在一具體實施例中,每個GPC 208包括M個數目的SM 310,其中M1,每個SM 310設置成處理一或多個執行緒群組。同時,每個SM 310較佳地是包括可被管線化的相同組合的功能性執行單元(例如執行單元合載入儲存單元,如第三C圖中所示的執行單元302和LSU 303),允許在一先前指令已經完成之前發出一新指令,其為本技術中已知。並可提供任何功能性執行單元的組合。在一具體實施例中,該等功能單元支援多種運算,其中包括整數及浮點數算術(例如加法及乘法),比較運算,布林運算(AND,OR,XOR)、位元偏位,及多種代數函數的運算(例如平面內插、三角函數、指數、及對數函數等);及相同的功能單元硬體可被利用來執行不同的運算。
傳送到一特定GPC 208之該等系列的指令構成一執行緒,如先前此處所定義者,橫跨一SM 310內該等平行處理引擎(未示出)並行地執行某個數目之執行緒的集合在此稱之為「包繞」(warp)或「執行緒群組」(thread group)。如此處所使用者,一「執行緒群組」代表同步地對於不同輸入資料執行相同程式的一執行緒的群組,該群組的每一執行緒被指定給一SM 310內的一不同處理引擎。一執行緒群組可包括比SM 310內處理引擎的數目要少的執行緒,其中當該執行緒群組正在被處理的循環期間一些處理引擎將為閒置。一執行緒群組亦可包括比SM 310內處理引擎之數目要更多的執行緒,其中處理將發生在連續的時脈循環之上。因為每個SM 310可並行地支援最多到G個執行緒群組,因此在任何給定時間在GPC 208中最高可執行G * M個執行緒群組。
此外,在相同時間於一SM 310內可以啟動複數相關的執行緒群組(在不同的執行階段)。此執行緒群組的集合在此處稱之為「協同執行緒陣列」(CTA,“Cooperative thread array”)或「執行緒陣列」(thread array)。一特定CTA之大小等於m*k,其中k為在一執行緒群組中並行地執行的執行緒之數目,其基本上為SM 310內平行處理引擎數目之整數倍數,而m為在SM 310內同時啟動的執行緒群組之數目。一CTA的大小概略由程式師及該CTA可使用之硬體資源(例如記憶體或暫存器)的數量所決定。
每一SM 310包含一階(L1)快取(如第三C圖所示),或使用在SM 310外部一相對應L1快取中用於執行載入與儲存作業的空間。每個SM 310亦可存取到所有GPC 208之間共用的二階(L2)快取,並可用於在執行緒之間傳送資料。最後,SM 310亦可存取到晶片外的「通用」記憶體,其可包括例如平行處理記憶體204及/或系統記憶體104。應瞭解到在PPU 202外部的任何記憶體皆可做為通用記憶體。此外,一1.5階(L1.5)快取335可包括在GPC 208之內,設置成由SM 310要求經由記憶體介面214接收及保持自記憶體提取的資料,其中包括指令、一致性資料與常數資料,並提供該要求的資料至SM 310。在GPC 208中具有多個SM 310的具體實施例較佳地是共用被快取在L1.5快取335中的共通指令和資料。
每一GPC 208可包括一記憶體管理單元(MMU,“Memory management unit”)328,其設置成將虛擬位址映射到實體位置。在其它具體實施例中,MMU 328可存在於記憶體介面214內。MMU 328包括一組頁表項(PTE,“Page table entries”),用於將一虛擬位置映射到一瓷磚的一實體位址,或是一快取線索引。MMU 328可以包括位址轉譯旁看緩衝器(TLB,“Translation lookaside buffer”)或可以存在於多處理器SM 310或L1快取或GPC 208內的快取。該實體位址被處理成分佈表面資料存取局 部性,以允許在區隔單元215之間有效率的要求交叉。該快取線索引可用於決定一快取線的一要求為一命中或錯失。
在圖形和運算應用中,一GPC 208可設置成使得每個SM 310耦合於一紋路單元315,用於執行紋路映射作業,例如決定紋路樣本位置、讀取紋路資料及過濾該紋路資料。紋路資料自一內部紋路L1快取(未示出)讀取,或是在一些具體實施例中自SM 310內的L1快取讀取,且視需要自一L2快取、平行處理記憶體204或系統記憶體104提取。每一SM 310輸出已處理的任務至工作分配交叉開關330,藉以提供該已處理的任務至另一GPC 208進行進一步處理,或是將該已處理的任務經由交叉開關單元210儲存在由所有GPC 208之間共用的一L2快取、平行處理記憶體204或系統記憶體104中。一preROP(預先掃描場化作業)325設置成自SM 310接收資料、導引資料到隔間單元215內的ROP單元、並進行色彩混合的最佳化、組織像素色彩資料、並執行位址轉譯。
將可瞭解到此處所示的核心架構僅為例示性,其有可能有多種變化及修正。在一GPC 208內可包括任何數目的處理單元,例如SM 310或紋路單元315、preROP 325。再者,如第二圖所示,一PPU 202可以包括任何數目的GPC 208,其較佳地是在功能上彼此類似,所以執行行為並不會根據是那一個GPC 208接收一特定處理任務而決定。再者,每個GPC 208較佳地是與其它使用分開且不同的處理單元、L1快取的GPC 208獨立地運作,以針對一或多個應用程式來執行任務。
本技術專業人士將可瞭解到在第一、二、三A和三B圖中所述之該架構並未以任何方式限制本發明之範圍,而此處所教示的技術可以實作在任何適當設置的處理單元上,其包括但不限於一或多個CPU、一或多個多核心CPU、一或多個PPU 202、一或多個GPC 208、一或多個圖形或特殊目的處理單元或類似者,其皆不背離本發明之範圍。
在本發明之具體實施例中,需要使用PPU 202或一運算系統的其它處理器來使用執行緒陣列執行一般性運算。在該執行緒陣列中每一執行緒被指定一唯一執行緒識別(thread ID),其可在該執行緒的執行期間由該執行緒存取。可被定義成一維或多維度數值的執行緒ID控制該執行緒的處理行為之多種態樣。例如,一執行緒ID可用於決定一執行緒要做處理的是該輸入資料集的那一部份,及/或決定一執行緒要產生或寫入的是在一輸出資料集的那一部份。
每個執行緒指令的一序列可以包括至少一指令來定義該代表性執行緒和該執行緒陣列的一或多個其它執行緒之間的一協同行為。例如,每個執行緒的該指令序列可以包括一指令來在該序列中一特定點處中止該代表性執行緒之作業的執行,直到當該等其它執行緒中一或多者到達該特定點為止,該代表性執行緒的一指令係儲存資料在該等其它執行緒中一或多者可存取的一共用記憶體中,該代表性執行緒的一指令係基於它們的執行緒ID原子性地讀取和更新儲存在該等其它執行緒中一或多者可存取的一共用記憶體中的資料,或類似者。該CTA程式亦可包括一指令來運算資料在該共用記憶體中要被讀取的一位址,利用該位址為執行緒ID的函數。藉由定義適當的函數和提供同步化技術,資料可藉由一CTA的一執行緒被寫入到共用記憶體中一給定的位置,並以一可預測的方式由該相同CTA的一不同執行緒自該位置讀取。因此,即可支援可在執行緒當中共用任何需要的資料型式,且在一CTA中任何執行緒能夠與該相同CTA中任何其它執行緒共用資料。如果有的話,在一CTA的執行緒當中資料共用的程度係由該CTA程式決定;因此,應瞭解到在使用CTA的一特定應用中,根據該CTA程式,一CTA的該等執行緒可以或不需要實際地彼此共用資料,該等術語"CTA”和「執行緒陣列」在此處為同義地使用。
第三C圖為根據本發明一具體實施例中第三B圖的SM 310的方塊圖。SM 310包括一指令L1快取370,其設置成經由L1.5快取335自記憶體接收指令和常數。一包繞排程器和指令單元312自指令L1快取370接收指令和常數,並根據該等指令和常數控制局部暫存器檔案304和SM 310功能性單元。SM 310功能性單元包括N個執行(執行或處理)單元302和P個載入儲存單元(LSU)303。
SM 310提供具有不同程度存取性的晶片上(內部)資料儲存。特殊暫存器(未示出)可由LSU 303讀取但不能寫入,並用於儲存定義每一執行緒的「位置」之參數。在一具體實施例中,特殊暫存器包括每一執行緒(或SM 310內每一執行單元302)的一暫存器,用於儲存一執行緒ID;每一執行緒ID暫存器僅可由執行單元302的個別單元存取。特殊暫存器亦可包括額外的暫存器、其可由執行由儲存一CTA識別的一TMD 322(或由所有LSU 303)所代表的相同處理任務的所有執行緒來讀取、該等CTA維度、該CTA所屬的一格柵的該等維度(或如果TMD 322編碼一佇列任務而非一格柵任務時的佇列位置),以及該CTA被指定到的TMD 322之一識別。
如果TMD 322為一格柵TMD,TMD 322的執行造成固定數目的CTA被啟動及執行,以處理儲存在佇列525中固定數量的資料。CTA的數目係界定成是格柵的寬、高與深的乘積。該固定數量的資料可以儲存在TMD 322中,或者TMD 322可以儲存指向至將由該等CTA處理的資料之一指標。TMD 322亦儲存由該等CTA執行的該程式之一開始位址。
如果TMD 322為一佇列TMD,則使用TMD 322的一佇列特徵,代表要被處理的資料量並不一定是固定的。佇列項目儲存資料來由指定給TMD 322的該等CTA做處理。該等佇列項目亦可代表於一執行緒的執行期間由另一TMD 322產生的一子任務,藉此提供巢化的平行度。基本上,該執行緒或包括 該執行緒的CTA之執行被中止,直到該子任務的執行完成為止。該佇列可儲存在TMD 322中或隔離於TMD 322,其中TMD 322儲存指向至該佇列的一佇列指標。較佳地是,當代表該子任務的TMD 322正在執行時,由該子任務產生的資料可被寫入到該佇列。該佇列可實作成一圓形佇列,所以資料的總量並不限於該佇列的大小。
屬於一網格的CTA具有隱式格柵寬度、高度和深度參數以指明該網格內個別CTA的位置。特殊暫存器回應於經由前端212自裝置驅動器103接收的該等命令而被寫入,且於一處理任務的執行期間不會改變。前端212排程每一處理任務來執行。每一CTA關聯於一特定TMD 322來用於一或多個任務的並行執行。此外,一單一GPC 208可以並行地執行多個任務。
一參數記憶體(未示出)儲存運行時間參數(常數),其可被相同CTA(或任何LSU 303)內任何執行緒讀取但無法寫入。在一具體實施例中,裝置驅動器103在導引SM 310開始使用這些參數的一項任務之執行之前提供參數至該參數記憶體。任何CTA(或SM 310內任何執行單元302)內的任何執行緒能夠經由一記憶體介面214存取共通記憶體。共通記憶體的一些部份可被儲存在L1快取320中。
局部暫存器檔案304由每一執行緒使用做為暫存空間;每一暫存器被分配做為一執行緒的專屬使用,而在任何局部暫存器檔案304中的資料僅可由該暫存器被分配到的該執行緒來存取。局部暫存器檔案304可實作成被實體或邏輯性地區分成P條線路的一暫存器檔案,其每一者具有某個數目的項目(其中每個項目可以儲存例如32位元的字元)。一條線路被指定給N個執行單元302和P個載入儲存單元LSU 303的每一者,且在不同線路中的相對應的項目可存在有執行相同程式的不同執行緒之資料來實施SIMD執行。該等線路的不同部份可被分配給該等G個並行執行緒群組之不同的執行緒群組,所以在 局部暫存器檔案304中一給定項目僅可由一特定執行緒存取。在一具體實施例中,局部暫存器檔案304內某些項目被保留來儲存執行緒識別及實作該等特殊暫存器之一。此外,一一致性L1快取375儲存N個執行單元302和P個載入儲存單元LSU 303之每一線路的一致性或常數值。
共用的記憶體306可由一單一CTA內的執行緒存取;換言之,在共用記憶體306中任何位置可由該相同CTA內任何執行緒存取(或可由SM 310內任何處理引擎存取)。共用的記憶體306可實作成利用一互連接的一共用暫存器檔案或共用的晶片上快取記憶體,其可允許任何處理引擎可讀取或寫入到該共用記憶體中任何位置。在其它具體實施例中,共用的狀態空間可映射到晶片外記憶體的一每一CTA的區域之上,且被快取在L1快取320中。該參數記憶體可被實作成該相同共用的暫存器檔案或實作共用記憶體306的共用快取記憶體內一指定的區段,或是實作成一獨立的共用暫存器檔案或LSU 303具有唯讀性存取的晶片上快取記憶體。在一具體實施例中,實作該參數記憶體的該區域亦用於儲存該CTA ID與任務ID,以及CTA與網格維度或佇列位置,實作該等特殊暫存器的某些部份。在SM 310中每一LSU 303耦合至一統一位址映射單元352,其轉換提供用於載入與儲存在一統一記憶體空間中指定的指令之一位址成為在每一不同記憶體空間中的一位址。因此,一指令可用於藉由指定在該統一記憶體空間中一位址來存取該等局部、共用、或共通記憶體空間之任一者。
在每一SM 310中的L1快取320可用於快取私密的每一執行緒之局部資料,以及每一應用程式的共通資料。在一些具體實施例中,該由每一CTA共用的資料可被快取在L1快取320中。LSU 303經由一記憶體和快取互連接380耦合至共用記憶體306和L1快取320。
暫存器檔案中的運算元收集
如第四A到四D圖所示,暫存器檔案402包括有暫存器,其可儲存該處理器在執行指令時所存取的資料,例如指令運算元。每一個別的暫存器胞由一執行緒位址和一暫存器位址來辨識。例如,在暫存器檔案0 402(0)的左上角之暫存器為執行緒4的暫存器10,所以由該命名T4:10來辨識。同樣地,在暫存器檔案0 402(0)的右下角之暫存器為執行緒3的暫存器0,所以該命名T3:0來辨識。每一暫存器檔案被組織成使得在每一暫存器檔案中一列的暫存器於一給定的暫存器存取作業期間可被同時地存取。例如,暫存器T0:0、T1:0、T2:0和T3:0在一單一暫存器存取作業中可被同時地存取。暫存器檔案402根據於一特定暫存器存取作業期間被存取之運算元種類而被組織成邏輯記憶庫。當運算元自該等暫存器檔案讀取時,該等暫存器存取作業橫跨該等暫存器檔案形成樣式,在此處辨識為「成型存取」(shaped accesses)。將暫存器放置在該等暫存器檔案內以及於暫存器存取作業期間形成的該等成型存取樣式可具有共通運算元組態之優點。因此,使用成型存取相對於針對每一運算元之個別的序列暫存器存取作業,可降低自該等暫存器檔案收集指令運算元的潛時,因而可改善效能。第四A到四D圖之每一圖例示了不同的示例性成型存取樣式。
第四A圖例示根據本發明一具體實施例設置用於運算元收集的一暫存器檔案之記憶庫。如所示,該等暫存器檔案的記憶庫包括暫存器檔案402和邏輯記憶庫420。在此例中,邏輯記憶庫420可以形成使得邏輯記憶庫0 420(0)包括暫存器檔案0 402(0)和暫存器檔案2 402(1),邏輯記憶庫1 420(1)包括暫存器檔案1 402(2)和暫存器檔案3 402(3),依此類推。利用此配置,暫存器檔案402被最佳化來取得單一寬度運算元。例如,如果執行緒0到7皆存取儲存在暫存器0中的一單一寬度運算元,則該處理器可以形成邏輯記憶庫0 420(0)內一成型存取,以取得該底列的暫存器,包括T0:0到T7:0。該處理器可以形 成邏輯記憶庫1 420(1)內一成型存取以取得一相同群組執行緒的一不同的單一寬度運算元,例如T0:1到T7:1。同樣地,該處理器可形成邏輯記憶庫2 420(2)和邏輯記憶庫3 420(3)內一成型存取,以取得相同組合的八個執行緒之暫存器4和5的一單一寬度運算元。在一單一暫存器存取作業期間,該例示的成型存取取得八個執行緒之每一者的四個單一寬度運算元,如第四A圖中陰影區域所示。
第四B圖例示根據本發明另一具體實施例設置用於運算元收集的一暫存器檔案之記憶庫。如所示,該等暫存器檔案的記憶庫包括暫存器檔案402和邏輯記憶庫440。在此例中,邏輯記憶庫440可以形成使得邏輯記憶庫440(0)包括暫存器檔案0 402(0)和暫存器檔案2 402(2),邏輯記憶庫1 440(1)包括暫存器檔案1 402(1)和暫存器檔案3 402(3),依此類推。利用此配置,暫存器檔案402被最佳化來取得雙重寬度運算元。例如,如果執行緒0到3皆存取儲存在暫存器配對0-1中的一雙重寬度運算元,則該處理器可以形成邏輯記憶庫0 440(0)內一成型存取,以取得該底列的暫存器,包括T0:0-1到T3:0-1。該處理器可以形成邏輯記憶庫1 440(1)內一成型存取以取得一不同群組執行緒的一雙重寬度運算元,例如T4:0-1到T7:0-1。同樣地,該處理器可以形成邏輯記憶庫2 440(2)和邏輯記憶庫3 440(3)內一成型存取,以由每一邏輯記憶庫取得四個執行緒的一雙重寬度運算元。例如,在一單一暫存器存取作業期間,該例示的成型存取取得八個執行緒之每一者的兩個雙重寬度運算元,如第四B圖中陰影區域所示。
第四C圖例示根據本發明又另一具體實施例設置用於運算元收集的一暫存器檔案之記憶庫。如所示,該等暫存檔案的記憶庫包括暫存器檔案402和邏輯記憶庫460。在此例中,邏輯記憶庫460可形成為使得兩個邏輯記憶庫460(2)460(3)被最佳化來取得單一寬度運算元,而兩個邏輯記憶庫460(0)460(1) 被最佳化來取得雙重寬度運算元。例如,於一單一暫存器存取作業期間,該例示的成型存取自邏輯記憶庫0 460(0)和邏輯記憶庫1 460(1)取得八個執行緒之每一者的一個雙重寬度運算元,也就是暫存器T0:0-1到T7:0-1。在相同的暫存器存取作業期間,該例示的成型存取自邏輯記憶庫2 460(2)和邏輯記憶庫3 460(3)取得八個執行緒之每一者的兩個雙重寬度運算元,也就是執行緒0-7的暫存器4和5。此示例性成型存取由第四C圖中的陰影區域所示。
第四D圖例示根據本發明再又另一具體實施例設置用於運算元收集的一暫存器檔案之記憶庫。如所示,該等暫存器檔案的記憶庫包括暫存器檔案402和邏輯記憶庫480。在此例中,邏輯記憶庫480可形成為使得邏輯記憶庫480被最佳化來取得四重寬度運算元。例如,於一單一暫存器存取作業期間,該例示的成型存取自邏輯記憶庫0/1 480(0)取得四個執行緒之每一者的一個四重寬度運算元,也就是暫存器T0:0-3到T3:0-3。在相同的暫存器存取作業期間,該例示的成型存取自邏輯記憶庫2/3 480(1)取得該等相同四個執行緒的一第二四重寬度運算元,也就是T0:4-7到T3:4-7。此示例性成型存取由第四D圖中的陰影區域所示。
第五圖例示根據本發明一具體實施例第三C圖的該包繞排程器和指令單元312與局部暫存器檔案304之方塊圖。如所示,包繞排程器和指令單元312包括一包繞排程器502和一指令分派單元504。包繞排程器502自指令L1快取370取得指令和常數,並排程該指令來當做一執行緒群組內一或多個執行緒來執行。指令分派單元504根據自指令L1快取370取得的該等指令和常數來控制局部暫存器檔案304和SM 310功能性單元。指令分派單元504評估該等指令運算元來決定該等運算元是否可配合在一經識別的成型存取樣式之內。然後指令分派單元504選擇一成型存取來由暫存器檔案506讀取一組運算 元。然後指令分派單元504產生該等位址和讀取致能來由暫存器檔案506讀取該等運算元。
局部暫存器檔案304包括一暫存器檔案506和一收集器508。暫存器檔案506根據該成型存取的樣式於該暫存器存取作業期間取得該等運算元,並傳送該等運算元至收集器508。收集器508根據在該等原始指令中該等運算元的位置來對準該等運算元,並依此儲存該等運算元。如果所有運算元皆於該第一暫存器存取作業期間被取得,則該等指令和運算元被傳送至SM 310功能性單元,其中包括執行單元302和載入儲存單元303。如果部份運算元未在該第一暫存器存取作業期間被取得,則收集器508儲存每一成型存取的結果,直到所有運算元皆被收集為止。一旦所有運算元被儲存在收集器508之內,該等指令和運算元被傳送至SM 310功能性單元,其中包括執行單元302和載入儲存單元303。
為了形成一成型存取,指令分派單元504自包繞排程器502接收一或多個指令。每一指令係關聯於一或多個運算元。該等運算元共同地被組織成可以形成一成型存取的一或多個運算元群組。指令分派單元504設置成可辨識由該等一或多個運算元群組所利用的該等不同的記憶體存取樣式。指令分派單元504形成成型存取來有效率地取得呈現一或多個這些記憶體存取樣式的運算元群組。在一具體實施例中,指令分派單元504將該等暫存器檔案的記憶庫分開成兩個分區,即暫存器檔案0-3 402(0)-402(3)和暫存器檔案4-7 402(4)-402(7)。針對這兩個暫存器檔案分區,指令分派單元504產生一或多次成型存取。指令分派單元504辨識出該等暫存器檔案的記憶庫內每一運算元的位置。指令分派單元504記錄需要該運算元的該等特定執行緒、保持這些執行緒之每一者的該運算元之暫存器檔案、和該暫存器檔案內運算元所在的該列。接著,指令分派單元504選擇該等運算元之一,並決定該運算元係為一單一寬 度、雙重寬度或四重寬度運算元。指令分派單元根據該運算元寬度形成該等暫存器檔案的該分區內的邏輯記憶庫。然後指令分派單元504形成橫跨該邏輯記憶庫的一成型存取,其中儲存有該經選擇的運算元,其基本上設置成讀取橫跨該邏輯記憶庫的相同列位址。同樣地,針對該等暫存器檔案的該分區內其它的邏輯記憶庫選擇一運算元,且亦形成該邏輯記憶庫的一成型存取。然後該程序針對暫存器檔案的其它分區來重複。因為該等暫存器檔案的兩個分區被獨立地處理,該等邏輯記憶庫的配置和該成型存取類型在該等暫存器檔案的兩個分區之每一分區中可以不同。
一旦該等成型存取被適當地辨識和設置時,指令分派單元504使得暫存器檔案506來讀取關聯於該等成型存取的該等暫存器,如上所述。指令分派單元504將該等經取得的運算元對準於該等相對應的指令,並傳送該等經對準的運算元至該等運算元被儲存的收集器508。接著,指令分派單元504決定關聯於該目前指令集的所有運算元是否已被讀取、已自暫存器檔案506收集、並儲存在收集器508中。如果有額外的運算元要讀取,則指令分派單元504停止SM 310內該管線,並重複上述的該程序來針對該等剩餘的運算元形成額外的成型存取。該程序繼續直到所有關聯於該目前指令集的所有運算元被讀取和收集,此時指令分派單元504解除停止SM 310內的該管線,藉此使得該等指令可被執行。
前述程序的一示例如下所述。假設指令分派單元504能夠選擇位在該等暫存器檔案的第一分區內的暫存器0-1處的執行緒0之一雙重寬度運算元。該運算元可位在暫存器檔案0 402(0)和暫存器檔案2 402(2)的左下方胞中,如第四C圖所示。因此,指令分派單元504將形成設置成包括暫存器檔案0 402(0)和暫存器檔案2 402(2)的邏輯記憶庫0 460(0)。同樣地,指令分派單元504將形成設置成包括暫存器檔案1 402(1)和暫存器檔案 3 402(3)的邏輯記憶庫1 460(1)。所得到的成型存取將針對四個執行緒之每一者存取兩組的雙重寬度運算元。同樣地,指令分派單元504能夠選擇位在該等暫存器檔案的第二分區內的暫存器4處的執行緒0之一單一寬度運算元。該運算元可位在暫存器檔案4 402(4)的左下方胞中,如第四C圖所示。因此,指令分派單元504將形成設置成包括暫存器檔案4 402(4)和暫存器檔案5 402(5)的邏輯記憶庫2 460(2)。同樣地,指令分派單元504將形成設置成包括暫存器檔案6 402(6)和暫存器檔案7 402(7)的邏輯記憶庫3 460(3)。所得到的成型存取將針對八個執行緒之每一者存取兩組的單一寬度運算元。一旦完成該等成型存取,指令分派單元504將決定是否仍有額外的運算元。如果有更多的運算元要被收集,指令分派單元504將停止SM 310管線、形成額外的成型存取來收集任何剩餘的運算元、然後解除停止SM 310管線。
第六圖係根據本發明一具體實施例用於收集暫存器檔案運算元的方法步驟之流程圖。雖然該等方法步驟係配合第一到五圖之該等系統做說明,本技術專業人士將可瞭解到設置成以任何順序執行該等方法步驟的任何系統皆在本發明之範圍內。
如所示,方法600開始於步驟602,其中指令分派單元504自包繞排程器502接收一組一或多個指令。每一指令可包括一或多個運算元,且被排程來在一或多個執行緒上執行。在步驟604,指令分派單元504評估由該等一或多個指令存取的該組運算元,藉以決定該等運算元是否可配合到數個經辨識的成型存取樣式中之一個樣式。視一成型存取樣式被辨識的程度,在步驟606,指令分派單元504形成一成型暫存器檔案存取來取得該等指令運算元。在步驟608,指令分派單元504藉由傳送該等相對應暫存器位址和讀取致能至暫存器檔案506來執行該成型暫存器檔案存取。在步驟610,指令分派單元504將該等經取得的運算元對準於該等相對應指令。在步驟612, 指令分派單元504寫入該等經取得的運算元到收集器508。
在步驟614,指令分派單元504決定是否已經取得所有的運算元。如果尚未取得所有運算元,方法600繼續進行到步驟614,其中指令分派單元504停止該管線來防止進一步的指令進入到包繞排程器和指令單元312。然後方法600回到步驟606,其中指令分派單元504形成另一個成型暫存器存取。方法600繼續進行直到指令分派單元504在步驟614決定已經取得所有運算元。然後方法600進行到步驟618,其中指令分派單元504解除停止該管線,此時方法600中止。
總而言之,該揭示技術提供一種有效率的方式來由一暫存器檔案取得運算元。特定而言,指令分派單元504自包繞排程器502取得一或多個指令,其每一者包括一或多個運算元來橫跨一或多個執行緒被執行。該等運算元共同地被組織成可以形成一「成型存取」的一或多個運算元群組。指令分派單元504設置成可辨識由該等運算元群組所利用的不同記憶體存取樣式。指令分派單元504形成對應於該等記憶體存取樣式的一成型存取。對應於由該成型存取涵蓋的暫存器之該等運算元係自暫存器檔案506取得,並儲存在一收集器508中。如果在該成型存取之後所有指令運算元並未被讀取並收集在收集器508中,則指令分派單元504停止SM 310內該管線,並形成另一個成型存取來由暫存器檔案506取得該等額外的運算元,並儲存該等運算元在收集器508中。一旦所有運算元皆被讀取並收集在收集器508中,指令分派單元504解除停止該管線,並傳送該等指令和相對應的運算元到SM 310內的功能性單元來執行。
較佳地是,多個運算元在一單一暫存器存取作業中由暫存器檔案506取得,而不會有資源衝突。當指令運算元利用經辨識的記憶體存取樣式時,由暫存器檔案506取得運算元的效能可藉由形成有效率地取得呈現這些存取樣式的運算元之成型 存取所改善。另外,在該等暫存器檔案的記憶庫內的暫存器檔案402可被彈性地配置到邏輯記憶庫當中來取得在一組指令之內的多個運算元。因此,每一暫存器存取作業可具有一不同的成型存取,其係利用由該組運算元所擔保的一不同邏輯記憶庫配置。指令分派單元504使用成型存取來執行一或多個暫存器存取作業,直到所有的運算元皆被讀取且被收集為止。
前述係關於本發明之具體實施例,本發明之其它及進一步的具體實施例皆可進行,而並不背離其基本範圍,且其範圍由以下的申請專利範圍所決定。
100‧‧‧電腦系統
102‧‧‧中央處理單元
103‧‧‧裝置驅動器
104‧‧‧系統記憶體
105‧‧‧記憶體橋接器
106‧‧‧通訊路徑
107‧‧‧輸入/輸出橋接器
108‧‧‧輸入裝置
110‧‧‧顯示器
112‧‧‧平行處理子系統
113‧‧‧通訊路徑
114‧‧‧系統碟
116‧‧‧交換器
118‧‧‧網路轉接器
120,121‧‧‧嵌入卡
202‧‧‧平行處理單元
204‧‧‧平行處理記憶體
205‧‧‧輸入/輸出單元
206‧‧‧主控介面
207‧‧‧任務/工作單元
208‧‧‧通用處理叢集
210‧‧‧交叉開關單元
212‧‧‧前端
214‧‧‧記憶體介面
215‧‧‧區隔單元
220‧‧‧動態隨機存取記憶體
230‧‧‧處理叢集陣列
300‧‧‧任務管理單元
302‧‧‧執行單元
303‧‧‧載入儲存單元
304‧‧‧局部暫存器檔案
305‧‧‧管線管理員
306‧‧‧共用記憶體
310‧‧‧串流多處理器
312‧‧‧包繞排程器和指令 單元
315‧‧‧紋路單元
320‧‧‧L1快取
321‧‧‧排程器表
322‧‧‧任務中介資料
325‧‧‧預先掃描場化作業
328‧‧‧記憶體管理單元
330‧‧‧工作分配交叉開關
335‧‧‧L1.5快取
340‧‧‧工作分配單元
345‧‧‧任務表
352‧‧‧統一位址映射單元
370‧‧‧指令L1快取
380‧‧‧記憶體和快取互連 接
402‧‧‧暫存器檔案
420,440,460,480‧‧‧邏輯記憶庫
502‧‧‧包繞排程器
504‧‧‧指令分派單元
506‧‧‧暫存器檔案
508‧‧‧收集器
所以,可以詳細瞭解本發明上述特徵之方式當中,本發明之一更為特定的說明簡述如上,其可藉由參照具體實施例來進行,其中一些例示於所附圖式中。但是應要注意到,該等附屬圖式僅例示本發明的典型具體實施例,因此其並非要做為本發明之範圍的限制,其可允許其它同等有效的具體實施例。
第一圖例示設置成實作本發明一或多種態樣之電腦系統的方塊圖;第二圖為根據本發明一或多種態樣中第一圖之電腦系統的一平行處理子系統之方塊圖;第三A圖為根據本發明一具體實施例中第二圖的該前端的方塊圖;第三B圖為根據本發明一具體實施例中第二圖之該等平行處理單元中之一者內一通用處理叢集的方塊圖;第三C圖為根據本發明一具體實施例中第三B圖的該串流多處理器之一部份的方塊圖;第四A圖例示根據本發明一具體實施例設置用於運算元收集的一暫存器檔案之記憶庫;第四B圖例示根據本發明另一具體實施例設置用於運算 元收集的一暫存器檔案之記憶庫;第四C圖例示根據本發明又另一具體實施例設置用於運算元收集的一暫存器檔案之記憶庫;第四D圖例示根據本發明再又另一具體實施例設置用於運算元收集的一暫存器檔案之記憶庫;第五圖例示根據本發明一具體實施例第三C圖的該包繞排程器和指令單元與該局部暫存器檔案之方塊圖;以及第六圖係根據本發明一具體實施例用於收集暫存器檔案運算元的方法步驟之流程圖。
402‧‧‧暫存器檔案
440‧‧‧邏輯記憶庫

Claims (10)

  1. 一種用於執行暫存器記憶體作業的電腦實作方法,該方法包括:接收要橫跨複數運算元來執行的一指令;辨識出其中儲存有該等複數運算元的複數暫存器檔案,其可經由一特定記憶體存取模式來存取;形成對應於該特定記憶體存取樣式的一成型記憶體存取作業;以及執行該成型記憶體存取作業,以由該等複數暫存器檔案存取該等複數運算元。
  2. 一種用於執行暫存器記憶體作業的子系統,其包含:一指令分派單元,其設置成:接收要橫跨複數運算元來執行的一指令;辨識出其中儲存有該等複數運算元的複數暫存器檔案,其可經由一特定記憶體存取模式來存取;形成對應於該特定記憶體存取樣式的一成型記憶體存取作業;以及執行該成型記憶體存取作業,以由該等複數暫存器檔案存取該等複數運算元。
  3. 如申請專利範圍第2項之子系統,其中該指令分派單元進一步設置成根據該指令對準該等複數運算元;以及儲存該等複數運算元在一運算元收集器中。
  4. 如申請專利範圍第2項之子系統,其中形成一成型記憶體存取作業包含形成該等複數暫存器檔案中至少一部份所屬於的一或多個邏輯記憶庫。
  5. 如申請專利範圍第2項之子系統,其中該成型記憶體存取作業設置成存取單一寬度運算元。
  6. 如申請專利範圍第2項之子系統,其中該成型記憶體存取作業設置成存取雙重寬度運算元。
  7. 如申請專利範圍第2項之子系統,其中該成型記憶體存取 作業設置成存取四重寬度運算元。
  8. 如申請專利範圍第2項之子系統,其中該成型記憶體存取作業設置成存取具有不同運算元寬度的運算元。
  9. 如申請專利範圍第2項之子系統,其中該指令分派單元進一步設置成傳送該指令和至少該等複數運算元至一功能性單元來執行。
  10. 一種運算裝置,其包含:一子系統,其包括一指令分派單元設置成:接收要橫跨複數運算元來執行的一指令;辨識出其中儲存有該等複數運算元的複數暫存器檔案,其可經由一特定記憶體存取模式來存取;形成對應於該特定記憶體存取樣式的一成型記憶體存取作業;以及執行該成型記憶體存取作業,以由該等複數暫存器檔案存取該等複數運算元。
TW101145697A 2011-12-06 2012-12-05 執行成型記憶體存取作業的系統和方法 TWI498819B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/312,954 US10255228B2 (en) 2011-12-06 2011-12-06 System and method for performing shaped memory access operations

Publications (2)

Publication Number Publication Date
TW201337751A true TW201337751A (zh) 2013-09-16
TWI498819B TWI498819B (zh) 2015-09-01

Family

ID=48431581

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101145697A TWI498819B (zh) 2011-12-06 2012-12-05 執行成型記憶體存取作業的系統和方法

Country Status (4)

Country Link
US (1) US10255228B2 (zh)
CN (1) CN103218208B (zh)
DE (1) DE102012221502A1 (zh)
TW (1) TWI498819B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11847427B2 (en) 2015-04-04 2023-12-19 Texas Instruments Incorporated Load store circuit with dedicated single or dual bit shift circuit and opcodes for low power accelerator processor
US9952865B2 (en) 2015-04-04 2018-04-24 Texas Instruments Incorporated Low energy accelerator processor architecture with short parallel instruction word and non-orthogonal register data file
US9817791B2 (en) 2015-04-04 2017-11-14 Texas Instruments Incorporated Low energy accelerator processor architecture with short parallel instruction word
GB2540971B (en) * 2015-07-31 2018-03-14 Advanced Risc Mach Ltd Graphics processing systems
US10768935B2 (en) * 2015-10-29 2020-09-08 Intel Corporation Boosting local memory performance in processor graphics
US10503474B2 (en) 2015-12-31 2019-12-10 Texas Instruments Incorporated Methods and instructions for 32-bit arithmetic support using 16-bit multiply and 32-bit addition
US10401412B2 (en) 2016-12-16 2019-09-03 Texas Instruments Incorporated Line fault signature analysis
US10866806B2 (en) * 2017-11-14 2020-12-15 Nvidia Corporation Uniform register file for improved resource utilization
EP4009186A1 (en) 2018-10-18 2022-06-08 Shanghai Cambricon Information Technology Co., Ltd Network-on-chip data processing method and device
CN111079908B (zh) * 2018-10-18 2024-02-13 上海寒武纪信息科技有限公司 片上网络数据处理方法、存储介质、计算机设备和装置
CN111459543B (zh) * 2019-01-21 2022-09-13 上海登临科技有限公司 一种管理寄存器文件单元的方法
US11436166B2 (en) * 2019-02-05 2022-09-06 Arm Limited Data processing systems
US11281496B2 (en) * 2019-03-15 2022-03-22 Intel Corporation Thread group scheduling for graphics processing
KR102201352B1 (ko) * 2019-04-03 2021-01-08 연세대학교 산학협력단 스핀 전달 토크 랜덤 액세스 메모리 기반의 계층적 레지스터 파일 장치
US10839478B2 (en) * 2019-04-08 2020-11-17 Intel Corporation Accumulator pooling mechanism
CN112817639B (zh) * 2021-01-13 2022-04-08 中国民航大学 Gpu读写单元通过操作数收集器访问寄存器文件的方法
CN114489792B (zh) * 2021-03-25 2022-10-11 沐曦集成电路(上海)有限公司 处理器装置及其指令执行方法
CN114281414B (zh) * 2021-12-29 2022-12-27 海飞科(南京)信息技术有限公司 Aigpu架构中urf寄存器的数据写入方法
CN114546329B (zh) * 2022-03-01 2023-07-18 上海壁仞智能科技有限公司 用于实现数据奇偶重排的方法、设备和介质
CN115904510B (zh) * 2023-02-15 2023-05-09 南京砺算科技有限公司 多操作数指令的处理方法、图形处理器及存储介质
CN117742794A (zh) * 2023-12-05 2024-03-22 摩尔线程智能科技(北京)有限责任公司 数据处理系统、方法、装置及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55164961A (en) * 1979-06-11 1980-12-23 Canon Inc Calculator
US5513366A (en) 1994-09-28 1996-04-30 International Business Machines Corporation Method and system for dynamically reconfiguring a register file in a vector processor
US7219213B2 (en) * 2004-12-17 2007-05-15 Intel Corporation Flag bits evaluation for multiple vector SIMD channels execution
US7257695B2 (en) 2004-12-28 2007-08-14 Intel Corporation Register file regions for a processing system
US8966223B2 (en) * 2005-05-05 2015-02-24 Icera, Inc. Apparatus and method for configurable processing
US8321849B2 (en) 2007-01-26 2012-11-27 Nvidia Corporation Virtual architecture and instruction set for parallel thread computing
US10360039B2 (en) 2009-09-28 2019-07-23 Nvidia Corporation Predicted instruction execution in parallel processors with reduced per-thread state information including choosing a minimum or maximum of two operands based on a predicate value

Also Published As

Publication number Publication date
CN103218208B (zh) 2016-05-04
DE102012221502A1 (de) 2013-06-06
US20130145124A1 (en) 2013-06-06
US10255228B2 (en) 2019-04-09
CN103218208A (zh) 2013-07-24
TWI498819B (zh) 2015-09-01

Similar Documents

Publication Publication Date Title
TWI498819B (zh) 執行成型記憶體存取作業的系統和方法
TWI490782B (zh) 來源運算元收集器快取的方法和裝置
US8533435B2 (en) Reordering operands assigned to each one of read request ports concurrently accessing multibank register file to avoid bank conflict
TWI619075B (zh) 自動依附任務啟始
US8732713B2 (en) Thread group scheduler for computing on a parallel thread processor
TWI489385B (zh) 一種用於預先擷取快取線的電腦實作方法與子系統
TWI493451B (zh) 使用預解碼資料進行指令排程的方法和裝置
US10007527B2 (en) Uniform load processing for parallel thread sub-sets
TWI490779B (zh) 無鎖的先進先出裝置
TWI501150B (zh) 無指令解碼而排程指令的方法和裝置
TWI533222B (zh) 處理任務的工作分配控制
US9069609B2 (en) Scheduling and execution of compute tasks
TW201333829A (zh) 分配運算工作的參考運數器
CN103885902A (zh) 用于经由纹理硬件实施存储器访问操作的技术
US9436969B2 (en) Time slice processing of tessellation and geometry shaders
TW201337829A (zh) 暫存器檔案型讀取
US20140232729A1 (en) Power efficient attribute handling for tessellation and geometry shaders
US8195858B1 (en) Managing conflicts on shared L2 bus
CN103885903A (zh) 用于经由纹理硬件实施存储器访问操作的技术
TWI501156B (zh) 多頻時間切面組
CN103294449B (zh) 发散操作的预调度重演
US8321618B1 (en) Managing conflicts on shared L2 bus
TW201432573A (zh) 工作佇列型圖形處理單元工作創建
TW201351276A (zh) 計算工作的排程和執行
US9147224B2 (en) Method for handling state transitions in a network of virtual processing nodes