TWI559729B - 用於低功率圖形著色的像素著色器省略 - Google Patents

用於低功率圖形著色的像素著色器省略 Download PDF

Info

Publication number
TWI559729B
TWI559729B TW102147979A TW102147979A TWI559729B TW I559729 B TWI559729 B TW I559729B TW 102147979 A TW102147979 A TW 102147979A TW 102147979 A TW102147979 A TW 102147979A TW I559729 B TWI559729 B TW I559729B
Authority
TW
Taiwan
Prior art keywords
unit
processing unit
processing
data
graphics processing
Prior art date
Application number
TW102147979A
Other languages
English (en)
Other versions
TW201448564A (zh
Inventor
艾瑞克B 林
賈斯汀 柯布
魯伊M 巴斯托斯
克里斯帝安 魯埃
Original Assignee
輝達公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 輝達公司 filed Critical 輝達公司
Publication of TW201448564A publication Critical patent/TW201448564A/zh
Application granted granted Critical
Publication of TWI559729B publication Critical patent/TWI559729B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Image Generation (AREA)
  • Image Processing (AREA)

Description

用於低功率圖形著色的像素著色器省略
本發明的具體實施例通常有關三維圖形處理管線,更具體地,有關用於低功率圖形著色的像素著色器省略。
一應用程式有時可發出命令,在透過圖形處理管線著色的三維場景內繪製二維物件,例如,一應用程式可要求一圖形處理管線著色固定色彩二維或貼圖二維多邊形,以在三維著色場景中顯示使用者界面元件或顯示簡單圖形元件。圖形處理管線有許多方式顯示這種二維物件。
在一方式中,該應用程式傳送命令至該圖形處理管線,在具有特定想要特性的三維場景內繪製多邊形。然後,使用該圖形處理管線的標準工具,以產生及顯示該想要的二維物件。這種方式的一缺點在於,通常不需要用於繪製簡單二維物件的該圖形處理管線的特定工具。因此,使該圖形處理管線產生二維物件浪費處理能力。
在另一方式中,二維映像可用來將二維物件直接繪製到該圖形處理管線的著色目標,然後搭配有關該著色目標的其餘資料以顯示該二維物件。這種方式的一缺點在於,該二維映像通常省略大量或全部該圖形處理管線,因此透過二維映像繪製的二維物件品質通常低於透過圖形處理管線所產生的二維物件品質。使用二維映像的另一缺點在於,該二維映像與該圖形處理管線之間的協調操作困難,可能導致該圖形處理管線閒置及清空,以操作該二維映像,如此會降低效能。
如先前所例示,業界所需為一種使用低功率並且不需要圖形處理管線清空與閒置的二維物件顯示方法。
本發明揭示一種用於在圖形處理管線內繪製圖形物件的電 腦實施方法,該方法包括決定一第一圖元的省略模式是否為一無省略模式。該方法更包括將該第一圖元光柵化,以產生一第一組光柵化結果。該方法更包括透過一像素著色器單元,產生該第一組光柵化結果的一第一組色彩。該方法更包括將該第二圖元光柵化,以產生一第二組光柵化結果。該方法更包括無需該像素著色器單元在該第二組光柵化結果上執行任何處理操作,便可產生該第二組光柵化結果的一第二組色彩。該方法更包括傳輸該第一組像素色彩及該第二組像素色彩至一光柵操作(ROP,Raster Operation)單元供進一步處理。
100‧‧‧電腦系統
102‧‧‧中央處理單元
103‧‧‧裝置驅動程式
104‧‧‧系統記憶體
105‧‧‧記憶體橋接器
106‧‧‧通訊路徑
107‧‧‧輸入/輸出橋接器
108‧‧‧使用者輸入裝置
110‧‧‧顯示裝置
112‧‧‧平行處理子系統
113‧‧‧第二通訊路徑
114‧‧‧系統磁碟
116‧‧‧開關
118‧‧‧網路配接器
120-121‧‧‧外接卡
202‧‧‧平行處理單元
204‧‧‧平行處理記憶體
205‧‧‧輸入/輸出橋接器
206‧‧‧主介面
207‧‧‧任務/工作單元
208‧‧‧一般處理叢集
210‧‧‧記憶體交換開關單元
212‧‧‧前端
214‧‧‧記憶體介面
215‧‧‧劃分單元
220‧‧‧動態隨機存取記憶體
230‧‧‧處理叢集陣列
302‧‧‧執行單元
303‧‧‧載入儲存單元
304‧‧‧區域暫存檔
305‧‧‧管線管理員
306‧‧‧共用記憶體
310‧‧‧串流多重處理器
312‧‧‧線程束排程器與指令單元
320‧‧‧L1快取單元
328‧‧‧記憶體管理單元
335‧‧‧第1.5層快取單元
350‧‧‧L2快取單元
352‧‧‧統一位址映射單元
355‧‧‧訊框緩衝區動態隨機存取記憶體介面
360‧‧‧光柵操作單元
370‧‧‧指令L1快取單元
380‧‧‧記憶體與快取互連
400‧‧‧圖形處理管線
410‧‧‧圖元分配器與頂點屬性擷取
415‧‧‧頂點處理單元
420‧‧‧曲面細分初始化處理單元
425‧‧‧任務產生單元
430‧‧‧任務分配器
435‧‧‧拓撲產生單元
440‧‧‧曲面細分處理單元
445‧‧‧幾何處理單元
450‧‧‧視埠縮放、消隱與裁切單元
455‧‧‧光柵器
460‧‧‧片段處理單元
465‧‧‧光柵操作單元
502‧‧‧資料流
506‧‧‧像素座標要求
508‧‧‧貼圖座標
510‧‧‧資料流
512‧‧‧色彩值
514‧‧‧結果片段
516‧‧‧值
518
520‧‧‧資料流
522‧‧‧資料路徑
524‧‧‧光柵操作單元
525‧‧‧佇列
525‧‧‧資料流
526‧‧‧資料流
527‧‧‧資料流
528‧‧‧資料流
529‧‧‧資料流
530‧‧‧固定點貼圖座標產生器單元
535‧‧‧像素著色器單元
540‧‧‧貼圖座標產生器單元
545‧‧‧貼圖單元
600‧‧‧場景
602‧‧‧圖元
603‧‧‧圖元
604‧‧‧圖元
606‧‧‧圖元
608‧‧‧圖元
610‧‧‧圖元
700‧‧‧方法
如此上面簡單彙總可詳細了解本發明上述特色的方式,本發明的更特定說明則參照具體實施例,某些具體實施例說明於附圖。不過吾人應該注意,附圖只說明本發明的典型具體實施例,因此並不對本發明的領域產生限制,本發明承認其他等效具體實施例。
第一圖為例示構成實施本發明之一或多個態樣之電腦系統的方塊圖;第二圖為根據本發明之一具體實施例之用於第一圖中該電腦系統之一平行處理子系統的方塊圖;第三A圖為根據本發明之一具體實施例之第二圖中平行處理單元之一者內之一劃分單元的方塊圖;第三B圖為根據本發明之一具體實施例之第二圖中一般處理叢集(GPC,General Processing Cluster)內的一串流多重處理器(SM,Streaming Multiprocessor)之一部分的方塊圖;第四圖為根據本發明之一具體實施例之可構成第二圖中平行處理單元之一或多者來實施之概念圖;第五A圖為例示根據本發明之一具體實施例之構成實施一無省略模式的一圖形處理管線;第五B圖為例示根據本發明之一具體實施例之構成實施一貼圖省略模式的圖形處理管線;第五C圖為例示根據本發明之一具體實施例之構成實施一 固定色彩省略模式的圖形處理管線;第五D圖為例示根據本發明之一具體實施例之構成實施一漸層色彩省略模式的圖形處理管線;第六圖描述由根據本發明之一或多個具體實施例構成一圖形處理管線所著色的範例場景;及第七圖為根據本發明之一具體實施例之用於在構成實施一省略模式的圖形處理管線內產生片段資料之方法步驟的流程圖。
在以下描述中,揭示許多特定細節以對本發明有更徹底之理解。但是,精通技術人士應瞭解,在沒有一或多個該等特定細節之下還是可實施本發明。
系統概觀
第一圖為例示構成實施本發明一或多個態樣的電腦系統100之方塊圖。電腦系統100包括一中央處理單元(CPU,Central Processing Unit)102,及通過一互連路徑通訊的一系統記憶體104,其中該路徑可包括一記憶體橋接器105。例如可為北橋晶片的記憶體橋接器105透過匯流排或其他通訊路徑106(例如超傳輸連結),連接一I/O(輸入/輸出)橋接器107。例如可為南僑晶片的輸入/輸出橋接器107接收來自一或多個使用者輸入裝置108(例如鍵盤、滑鼠)的使用者輸入,並透過通訊路徑106和記憶體橋接器105將該輸入轉送至中央處理單元102。一平行處理子系統112透過匯流排或第二通訊路徑113(例如週邊組件互連(PCI)Express、加速圖形連接埠(Accelerated Graphics Port)或HyperTransport連結)連接記憶體橋接器105;在一具體實施例中,平行處理子系統112為傳遞畫素給顯示裝置110(任何傳統陰極射線管、液晶監視器、發光二極體顯示器等等)的圖形子系統。系統磁碟114也連接I/O橋接器107,並且可構成儲存內容與應用程式以及資料,供中央處理單元102及平行處理子系統112使用。系統磁碟114提供用於應用程式與資料的非揮發性儲存裝置,並且可包括固定式或可移除式硬碟機、快閃記憶體裝置以及CD-ROM(小型光碟唯讀記憶體)、DVD-ROM(數位多用途光碟-ROM)、藍光、HD-DVD(高傳真DVD)或其他磁性、光學 或固態儲存裝置。
一開關116提供輸入/輸出橋接器107與其他組件,像是網路配接器118及許多外接卡120和121之間的連接。其他組件(未明確顯示),包括萬用序列匯流排(USB,universal serial bus)或其他連接埠連接、小型光碟(CD)光碟機、數位多用途光碟(DVD)光碟機、檔案記錄裝置等等,也可連接輸入/輸出橋接器107。第一圖顯示的許多通訊路徑,包括特別指名的通訊路徑106和113,可使用任何合適的協定來實施,例如PCI Express、AGP(加速圖形連接埠)、HyperTransport或任何其他匯流排或點對點通訊協定,及不同組件之間的連接可使用業界內已知的不同協定。
在一具體實施例中,平行處理子系統112併入將圖形與視訊處理最佳化的電路,包括例如視訊輸出電路,並且構成一圖形處理單元(GPU,Graphics Processing Unit)。在另一具體實施例中,平行處理子系統112併入將一般用途處理最佳化的電路,同時保留底層計算架構,本說明書內有更詳細描述。在仍舊另一具體實施例中,平行處理子系統112可在單一子系統內合併一或多個其他系統元件,例如結合記憶體橋接器105、中央處理單元102和輸入/輸出橋接器107以形成一晶片上系統(SoC,system on chip)。
應瞭解,本說明書中顯示的該系統為例示,故可進行改變與修改。包括橋接器的數量與配置、中央處理單元102的數量及平行處理子系統112的數量這類連接拓撲可依照需求修改。例如,在某些具體實施例中,系統記憶體104直接連接中央處理單元102,而不是透過橋接器,並且其他裝置透過記憶體橋接器105及中央處理單元102與系統記憶體104通訊。在其他替代拓撲中,平行處理子系統112連接輸入/輸出橋接器107或直接連接中央處理單元102,而不是連接記憶體橋接器105。在仍舊其他具體實施例中,輸入/輸出橋接器107和記憶體橋接器105可整合成為單一晶片,替代現有的一或多個分散裝置。大型組件可包括兩或多個中央處理單元102及兩或多個平行處理子系統112。本說明書中顯示的該等特定組件為選擇性;例如可支援任何數量的外接卡或周邊裝置。在某些具體實施例中,可省略開關116,並且網路配接器118和外接卡120、121直接連接輸入/輸 出橋接器107。
第二圖例示根據本發明之一具體實施例的平行處理子系統112。如所示,平行處理子系統112包括一或多個平行處理單元(PPU,Parallel Processing Unit)202,每一者耦接至區域平行處理(PP,Parallel Processing)記憶體204。一般來說,平行處理子系統包括數量為U的PPU,其中U1。(本說明書中多個類似物體的實例用參考號碼標示出該物體,並且括號標示所需的實例。)平行處理單元202及平行處理記憶體204可使用一或多個積體電路裝置來實施,例如可程式處理器、特殊應用積體電路(ASIC,Application Specific Integrated Circuit)或記憶體裝置,或以任何其他技術可行方式。
請即重新參考第一圖以及第二圖所示,在一具體實施例中,平行處理子系統112內的某些或全部平行處理單元202為具有著色管線的圖形處理器,其可構成執行許多操作,這些操作有關透過記憶體橋接器105和通訊路徑113,從中央處理單元102及/或系統記憶體104供應的圖形資料產生畫素資料、與區域平行處理記憶體204(可用來當成圖形記憶體,包括例如傳統訊框緩衝區)互動以儲存與更新畫素資料、傳遞畫素資料給顯示裝置110等等。在某些具體實施例中,平行處理子系統112可包括操作當成圖形處理器的一或多個平行處理單元202、及用於一般用途計算的一或多個其他平行處理單元202。該等平行處理單元可相同或不同,並且每一平行處理單元可擁有一專屬的平行處理記憶體裝置或無專屬的平行處理記憶體裝置。平行處理子系統112內的一或多個平行處理單元202可輸出資料至顯示裝置110,或平行處理子系統112內的每一平行處理單元202可輸出資料至一或多個顯示裝置110。
在操作上,中央處理單元102為電腦系統100的主要處理器,控制與協調其他系統組件的操作。尤其是,中央處理單元102發出指令控制平行處理單元202的操作。在某些具體實施例中,中央處理單元102將每一平行處理單元202的指令串流寫入一資料結構(第一圖或第二圖未明確顯示),其可位於系統記憶體104、平行處理記憶體204或可存取中央處理單元102和平行處理單元202的其他儲存位置內。每一資料結構已經寫 入一推送緩衝區的指標,開始在該資料結構內處理該指令串流。平行處理單元202讀取來自一或多個推送緩衝區的指令串流,然後關於中央處理單元102的操作非同步執行指令。利用應用程式透過裝置驅動程式103來控制不同推送緩衝區的排程,指定每一推送緩衝區的執行優先順序。
請即重新參考第二圖以及第一圖,每一平行處理單元202包括一I/O(輸入/輸出)單元205,其透過連接記憶體橋接器105(或在替代具體實施例中,直接至中央處理單元102)的通訊路徑113而與電腦系統100的其餘組件通訊。平行處理單元202與電腦系統100其餘組件的連接也可改變。在某些具體實施例中,平行處理子系統112實施成為可插入電腦系統100內擴充槽的外接卡。在其他具體實施例中,平行處理單元202可與例如記憶體橋接器105或輸入/輸出橋接器107這類匯流排橋接器整合在單一晶片上。仍舊在其他具體實施例中,平行處理單元202的某些或全部元件可與中央處理單元102整合在單一晶片上。
在一具體實施例中,通訊路徑113為一PCI Express連結,其中分配專屬通道給每一平行處理單元202,如業界內所熟知。在一具體實施例中,通訊路徑113為一PCI Express連結,其中分配專屬通道給每一平行處理單元202,如業界內所熟知。一輸入/輸出單元205產生在通訊路徑113傳輸的封包(或其他信號),也從通訊路徑113接收所有傳入封包(或其他信號),將該等傳入封包導引至平行處理單元202的適當組件。例如,有關處理任務的指令可導引至主介面206,而有關記憶體操作的指令(例如讀取或寫入平行處理記憶體204)可導引至記憶體交換開關單元210。主介面206讀取每一推送緩衝區,並將該推送緩衝區內儲存的該指令串流輸出至一前端212。
每一平行處理單元202有利地實施一高度平行處理架構。如細節內所示,平行處理單元202(0)包括一處理叢集陣列230,其包括數量為C的一般處理叢集(GPC,General Processing Cluster)208,其中C1。每個一般處理叢集208可同時執行大量的(例如數百或數千)執行緒,其中每一執行緒是一程式的實例。在許多應用當中,不同的一般處理叢集208可分配用於處理不同類型的程式,或用於執行不同類型的計算。一般處理叢集208 的分配絕大部分取決加諸於每一類型程式或計算的工作負荷。
一般處理叢集208從任務/工作單元207內的工作分配單元當中接收要執行的處理任務,該工作分配單元接收指標來處理任務,其編碼為任務中繼資料(TMD,Task Metadata)並儲存在記憶體內。該指標至任務中繼資料包括在指令串流內,其儲存當成一推送緩衝區並由前端單元212從主介面206接收。可編碼為任務中繼資料的處理任務包括要處理的資料索引,及定義如何處理該資料的狀態參數與指令(例如要執行哪個程式)。任務/工作單元207從前端212接收任務,並且確保在任務中繼資料之每一者指定的處理開始之前已經將一般處理叢集208構成有效狀態。一優先順序可指定給每一任務中繼資料,用來排定該處理任務的執行時間。處理任務也可從處理叢集陣列230接收。或者,該任務中繼資料可包括一參數,其控制該任務中繼資料加入處理任務清單(或處理任務指標清單)的頭部或尾部,藉此提供優先順序的另一控制等級。
記憶體介面214包括數量為D的劃分單元215,這些單元之每一者直接連接平行處理記憶體204之一部分,其中D1。如所示,劃分單元215的數量一般等於動態隨機存取記憶體(DRAM,Dynamic Random Access Memory)220的數量。在其他具體實施例中,劃分單元215的數量可不等於記憶體裝置的數量。精通技術人士應瞭解,動態隨機存取記憶體220可用其他合適的裝置取代,並且可為一般傳統設計,因此省略其詳細說明。像是訊框緩衝區或貼圖地圖這類著色目標可通過動態隨機存取記憶體220儲存,允許劃分單元215平行寫入每一著色目標的部分,以有效使用平行處理記憶體204的可用頻寬。
一般處理叢集208之任一者可處理寫入平行處理記憶體204內任一動態隨機存取記憶體220的資料。交換開關單元210構成將每一一般處理叢集208的輸出繞送至任意劃分單元215的輸入或至用於進一步處理的其他一般處理叢集208。一般處理叢集208透過交換開關單元210與記憶體介面214通訊,以讀取或寫入許多外部記憶體裝置。在一具體實施例中,交換開關單元210具有一連接記憶體介面214來與輸入/輸出單元205通訊,及一連接區域平行處理記憶體204,藉此讓不同一般處理叢集208內 的處理核心與系統記憶體104或不在平行處理單元202區域上的其他記憶體通訊。在第二圖所示的具體實施例中,交換開關單元210直接連接輸入/輸出單元205。交換開關單元210可使用虛擬通道,以分隔一般處理叢集208與劃分單元215之間的流量串流。
一般處理叢集208同樣可程式編輯來執行有關廣泛應用的處理任務,包括但不受限於線性與非線性資料傳輸、視訊及/或音訊資料篩選、模型化運算(例如套用實體規則來決定位置、速度及其他物體屬性)、影像著色運算(例如曲線細分著色、影點著色、幾何著色及/或畫素著色程式)等等。平行處理單元202可從系統記憶體104及/或區域平行處理記憶體204將資料傳輸至內部(晶片上)記憶體、處理該資料並將結果資料寫回系統記憶體104及/或區域平行處理記憶體204,其中這種資料可由其他系統組件存取,包括中央處理單元102或另一平行處理子系統112。
一平行處理單元202可提供任何數量的區域平行處理記憶體204,包括非區域記憶體,並且可任何情況下使用區域記憶體和系統記憶體。例如,平行處理單元202可為統一記憶體架構(UMA,Unified Memory Architecture)具體實施例內的圖形處理器。在這種具體實施例中,提供一些或無專屬圖形(平行處理)記憶體,並且平行處理單元202完全或幾乎完全使用系統記憶體。在統一記憶體架構具體實施例中,平行處理單元202可整合至橋接器晶片或處理器晶片,或提供當成分散式晶片,具有高速連結(例如PCI Express)透過橋接器晶片或其他通訊方式將平行處理單元202連接系統記憶體。
如上述,任何數量的平行處理單元202可包括在一平行處理子系統112內。例如,單一外接卡上可提供多個平行處理單元202,或多張外接卡可連接通訊路徑113,或一或多個平行處理單元202可整合到一橋接器晶片上。多平行處理單元系統內的平行處理單元202可彼此相同或不同。例如,不同的平行處理單元202可具有不同數量的處理核心、不同大小的區域平行處理記憶體等等。當存在多個平行處理單元202時,這些平行處理單元可平行操作,以比單一平行處理單元202還要高產量的方式來處理資料。合併一或多個平行處理單元202的系統可在許多設置與外型因素之 下實施,包括桌上型、膝上型或手持式個人電腦、伺服器、工作站、遊戲機、嵌入式系統等等。
第三A圖為根據本發明之一具體實施例之第二圖中平行處理單元202之一者內的劃分單元215的方塊圖。如所示,劃分單元215包括一L2快取單元350、一訊框緩衝區(FB,Frame Buffer)隨機存取記憶體介面355及一光柵操作單元(ROP,Raster Operations Unit)360。L2快取單元350為一讀取/寫入快取,構成執行接收自交換開關單元210和光柵操作單元360的載入與儲存操作。讀取遺失與緊急寫回要求由L2快取單元350輸出至訊框緩衝區隨機存取記憶體介面355進行處理。髒更新也傳送至訊框緩衝區355進行隨機處理。訊框緩衝區355直接與隨機存取記憶體220介接、輸出讀取與寫入要求並且接收讀取自隨機存取記憶體220的資料。
在圖形應用當中,光柵操作單元360為一種處理單元,其執行光柵操作,例如模板、z測試、混色等等,並且將像素資料當成處理過的圖形資料輸出,以便儲存在圖形記憶體內。在本發明的某些具體實施例中,光柵操作單元360包括在每個一般處理叢集208而非劃分單元215內,並且像素讀取與寫入要求透過交換開關單元210傳輸,而非像素片段資料。
該處理圖形資料可顯示在顯示裝置110上,或繞送供中央處理單元102或平行處理子系統112內該等處理實體之一者進一步處理。每一劃分單元215包括一光柵操作單元360,以分配該等光柵操作的處理。在本發明的某些具體實施例中,光柵操作單元360構成將寫入記憶體的z或顏色資料壓縮,並且將從記憶體讀取的z或顏色資料解壓縮。
第三B圖為根據本發明之一具體實施例之第二圖中一般處理叢集(GPC,General Processing Cluster)208內的一串流多重處理器(SM,Streaming Multiprocessor)310之一部分的方塊圖。每個一般處理叢集208可構成同時執行大量執行緒,其中術語「執行緒」代表在特定輸入資料集上執行的特定程式之實例。在某些具體實施例中,單一指令、多重資料(SIMD,Single-Instruction,Multiple-Data)指令發行技術用於支援大量執行緒的平行執行,而無需提供多個獨立指令單元。在其他具體實施例中,單一指令、多重執行緒(SIMT,Single-Instruction,Multiple-Thread)技術用於支援使用共 用指令單元以平行執行大量通常同步執行緒,該使用共用指令單元構成發出指令至每個一般處理叢集208內的一組處理引擎。不同於一單一指令、多重資料執行引擎,其中所有處理引擎通常執行相同的指令,單一指令、多重執行緒執行允許不同執行緒更迅速遵循分散的執行路徑通過一已知執行緒程式。業界內精通技術人士應瞭解,單一指令、多重資料處理區域代表一單一指令、多重執行緒處理區域的函數子集。
透過將處理任務分配至一或多個串流多重處理器(SM,Streaming Multiprocessor)310的管線管理員(未顯示)可有利地控制一般處理叢集208的操作,其中每一串流多重處理器310構成處理一或多個執行緒群組。每一串流多重處理器310包括一指令L1快取單元370,其構成透過一般處理叢集208內的一L1.5快取單元(未顯示)接收指令與常數。線程束排程器與指令單元312接收來自指令L1快取單元370的指令與常數,並且根據該等指令與常數控制區域暫存檔304及串流多重處理器310功能單元。串流多重處理器310功能單元包括N個執行(執行或處理)單元302及P個載入儲存單元(LSU,Load-Store Unit)303。該串流多重處理器功能單元可管線化,允許在先前指令完成之前發出新指令,如業界所熟知。本發明可提供任何功能執行單元組合。在一具體實施例中,該等功能單元支援許多種運算,包括整數與浮點演算(例如加法與乘算)、比較運算、布林運算(AND、OR、XOR)、位元位移和許多代數函數的計算(例如平面插值、三角函數以及對數函數等等);並且可運用該相同功能單元來執行不同運算。
傳輸至特定一般處理叢集208的此系列指令構成一執行緒,如本說明書先前所定義,並且通過串流多重處理器310內平行處理引擎(未顯示)的特定數量同時執行的執行緒之集合在此稱為「線程束」或「執行緒群組」。如本說明書所使用,「執行緒群組」代表在不同輸入資料上同時執行相同程式的執行緒群組,其中該群組的一執行緒指派給串流多重處理器310內不同的處理引擎。一執行緒群組可包括數量比串流多重處理器310內處理引擎數量還要少的執行緒,在此案例中,某些處理引擎會在循環期間處理該執行緒群組時閒置。執行緒群組也可包括數量比串流多重處理器310內處理引擎數量還要多的執行緒,在此案例中,將在連續時脈循環 上進行處理。因為每一串流多重處理器310可同時支援最多G個執行緒群組,接著在任何已知時間上一般處理叢集208內可執行最多G*M個執行緒群組之系統,其位於包括 M 個串流多重處理器310的一般處理叢集208內。
此外,在串流多重處理器310內可同時啟用複數個相關執行緒群組(在不同執行相位內)。此執行緒群組的集合稱為「協作執行緒陣列」(CAT,Cooperative Thread Array)或「執行緒陣列」。特定協作執行緒陣列的大小等於m*k,其中k為執行緒群組內同時執行的執行緒數量,通常為串流多重處理器310內的平行處理引擎數量的整數倍數,並且m為串流多重處理器310內同時啟用的執行緒群組數量。協作執行緒陣列的大小一般由程式設計師及該協作執行緒陣列可用的硬體資源數量(例如記憶體或暫存器)來決定。
在本發明的具體實施例中,吾人想要使用一計算系統的平行處理單元202或其他處理器,運用執行緒陣列來執行一般用途計算。該執行緒陣列內的每一執行緒可指派一唯獨的執行緒識別碼(「執行緒ID」),其可在該執行緒執行期間存取該執行緒。該執行緒ID可定義為一維度或多維度數值,控制該執行緒處理行為的許多態樣。例如,一執行緒ID可用於決定一執行緒要處理的輸入資料集部分及/或決定一執行緒要產生或寫入的輸入資料部分。
每個執行緒指令的序列可包括至少一指令,其定義該代表性執行緒與該執行緒陣列的一或多個其他執行緒之間的協作行為。例如,該序列的每個執行緒指令可包括:一中斷指令,將在該順序內特定點上該代表執行緒運算執行中斷,直到一或多個其他執行緒到達該特定點上為止;一儲存指令,用以該代表執行緒將一或多個其他執行緒可存的資料儲存至一共用記憶體內;及一讀取與更新指令,用以該代表執行緒根據其執行緒ID自動讀取與更新一共用記憶體內的一或多個該等其他執行緒已經存取過的資料等等。該協作執行緒陣列程式也可包括一計算指令,用以計算該共用記憶體內所要讀取資料的位址,其中該位址為執行緒ID的函數。利用定義合適的功能並且提供同步技術,資料可利用CAT的一執行緒寫入共用記憶體內一已知位置,並且以可預測方式用相同協作執行緒陣列的不同執行 緒從該位置當中讀取。因此,支援在執行緒之間共用的任何資料圖案,並且一協作執行緒陣列內的任何執行緒可與相同協作執行緒陣列內任何其他執行緒共用資料。在協作執行緒陣列執行緒之間共用的資料內容(若有的話)由該協作執行緒陣列程式決定;如此,應瞭解,在使用協作執行緒陣列的特定應用當中,根據該協作執行緒陣列程式,協作執行緒陣列的執行緒彼此之間不會確實共用資料,並且在本說明書中可同時使用「協作執行緒陣列」與「執行緒陣列」等詞。
串流多重處理器310提供具備不同存取階層的晶片上(內部)資料儲存。特殊暫存器(未顯示)可由載入儲存單元303讀取但是無法寫入,並且可用於定義每一直執行緒「位置」的參數。在一具體實施例中,特殊暫存器包括每一執行緒(或串流多重處理器310內的每一執行單元302)的一暫存器,該暫存器儲存一執行緒ID;每一執行緒ID暫存器只能由執行單元302之個別一者存取。特殊暫存器也可包括額外暫存器,可由執行任務中繼資料(TMD)(未顯示)(或由所有載入儲存單元303)所代表相同處理任務的所有執行緒讀取,該等特殊暫存器儲存一協作執行緒陣列識別碼、該協作執行緒陣列維度、該協作執行緒陣列所屬網格的維度(或若任務中繼資料編碼一佇列任務而非一網格任務時的佇列位置)、及指派協作執行緒陣列的任務中繼資料之識別碼。
zzz若任務中繼資料為一網格任務中繼資料,則執行任務中繼資料會導致啟動並執行固定數量的協作執行緒陣列,以處理佇列525內所儲存的固定數量資料。協作執行緒陣列的數量依照網格寬度、高度與深度的乘積來指定。該固定數量的資料可儲存在任務中繼資料內,或任務中繼資料可儲存將由協作執行緒陣列處理的資料之指標。任務中繼資料也儲存該協作執行緒陣列所執行程式的開始位址。
若任務中繼資料為佇列任務中繼資料,然後使用任務中繼資料的佇列功能,表示要處理的資料量並不需要固定。佇列記錄儲存資料,供指派給任務中繼資料的該等協作執行緒陣列處理。該等佇列記錄也呈現執行緒執行期間由另一任務中繼資料產生的子任務,藉此提供巢狀平行。一般來說,執行緒的執行或包括該執行緒的協作執行緒陣列會中止,直到 子任務執行完成為止。該佇列可儲存在任務中繼資料內,或與任務中繼資料分開,在此案例中任務中繼資料儲存至該佇列的佇列指標。有利的是,由該子任務產生的資料可寫入該佇列,同時任務中繼資料代表已經執行的該子任務。該佇列可實施為一圓形佇列,如此資料總量並不受限於該佇列的大小。
屬於一網格的協作執行緒陣列具有隱涵的網格寬度、高度和深度參數,指示該網格內個別協作執行緒陣列的位置。在初始化期間會寫入特殊暫存器,以回應透過前端212從裝置驅動程式103接收命令,並且在一處理任務期間不會改變。前端212排程執行每一處理任務。每一協作執行緒陣列係有關一特定任務中繼資料,以同時執行一或多個任務。此外,單一一般處理叢集208可同時執行多個任務。
一參數記憶體(未顯示)儲存可由相同協作執行緒陣列(或任何載入儲存單元303)內任何執行緒讀取但無法寫入的執行時間參數(常數)。在一具體實施例中,裝置驅動程式103在導引串流多重處理器310開始執行使用這些參數的任務之前,提供參數該參數記憶體。任何協作執行緒陣列內的任何執行緒(或串流多重處理器310內的任何執行單元)可透過記憶體介面214存取全域記憶體。全域記憶體的一部分可儲存在L1快取單元320內。
每一執行緒使用區域暫存檔304當成暫存空間;每一暫存器分配給一執行緒專用,並且任何區域暫存檔304內的資料只能由分配給該暫存器的該執行緒存取。區域暫存檔304可實施為實體或邏輯區分成P個通路的暫存檔,每一通路具有某些數量的記錄(在此每一記錄可儲存例如32位元字)。一通路指派給該N個執行單元302以及P個載入儲存單元載入儲存單元303之每一者,並且不同通路內的對應記錄可填入執行相同程式的不同執行緒之資料,以幫助單一指令、多重資料執行。通路的不同部分可分配給該G個同時執行緒群組中不同的執行緒,如此區域暫存檔304內的一已知記錄只能由特定執行緒存取。在一具體實施例中,區域暫存檔304內的特定記錄保留用於儲存執行緒識別碼,實施該等特殊暫存器之一者。此外,一同型L1快取單元375儲存N個執行單元302以及P個載入儲存單 元載入儲存單元303的每一通路之同型或常數值。
共用記憶體306可由單一協作執行緒陣列內的執行緒存取;換言之,共用記憶體306內任何位置可由相同協作執行緒陣列內任何執行緒(或串流多重處理器310內任何處理引擎)來存取。共用記憶體306可實施為具有互連的一共用暫存檔或共用晶片上記憶體,允許任何處理引擎從該共用記憶體內任何位置讀取或寫入。在其他具體實施例中,共用的狀態空間可映射至晶片外記憶體的每一協作執行緒陣列區域,並且快取在L1快取單元320內。該參數記憶體可實施為該相同共用暫存檔或實施共用記憶體306的共用快取記憶體內的一指定區段,或實施為載入儲存單元303具有唯讀存取的一個別共用暫存檔或晶片上快取記憶體。在一具體實施例中,實施該參數記憶體的區域也用於儲存該協作執行緒陣列ID和任務ID,以及協作執行緒陣列和網格尺寸或佇列位置,實施該特殊暫存器的位置。串流多重處理器310內的每一載入儲存單元303耦接至統一位址映射單元352,將提供用於載入與儲存統一記憶體空間內所指定指令的一位址轉換成每一分散記憶體空間內的一位址。因此,利用指定該統一記憶體空間內一位址,可使用一指令來存取任何該區域、共用或全域記憶體空間。
每一串流多重處理器310內的L1快取單元320可用於快取私用每一執行緒區域資料,並且也快取每一應用程式全域資料。在某些具體實施例中,該每一協作執行緒陣列共用資料可快取在L1快取單元320內。載入儲存單元303可透過一記憶體與快取互連380耦接至共用記憶體306以及L1快取單元320。
應瞭解,本說明書中顯示的該核心架構為例示,所以可進行改變與修改。任何數量的處理單元,例如串流多重處理器310可包括在一般處理叢集208內。此外,如第二圖所示,平行處理單元202可包括任意數量功能彼此類似的一般處理叢集208,如此執行行為並不取決於接收特定處理任務的一般處理叢集208。此外,每個一般處理叢集208得利於與其他一般處理叢集208無關的操作,運用分離並分散的處理單元、L1快取單元,以執行一或多個應用程式的任務。
精通此技術人士應瞭解,第一圖至第三B圖描述的架構並 非用於限制本發明範疇,本說明書內的技術可在任何正確設置的處理單元上實施,在不悖離本發明範疇之下包括但不受限於一或多個中央處理單元、一或多個多核心中央處理單元、一或多個平行處理單元202、一或多個一般處理叢集208、一或多個圖形或特殊用途處理單元等等。
圖形管線架構
第四圖為根據本發明之一具體實施例之可構成第二圖中平行處理單元202之一或多者來實施之一圖形處理管線400的概念圖。例如,一串流多重處理器310可構成執行頂點處理單元415、曲面細分初始化處理單元420、曲面細分處理單元440、幾何處理單元445及片段處理單元460之一者或多者的功能。圖元分配器410、任務產生單元425、任務分配器430、拓撲產生單元435、視埠縮放、消隱與裁切單元450、光柵器455及光柵操作單元465的功能也可由一般處理叢集208與對應劃分單元215內其他處理引擎所執行。另外,可使用一或多個功能的專屬處理單元,實施圖形處理管線400。
圖形處理管線400也包括在圖形處理管線400之間共用的一區域記憶體。例如,該圖形處理管線應該串流多重處理器310內的使用共用記憶體360,例如一區域記憶體。如以下進一步描述,依照需要,共用記憶體306內的中間階段緩衝區(未顯示)已經由圖形處理管線400內許多處理單元分配與取消分配。一處理單元從一或多個中間階段緩衝區讀取輸入資料、處理該輸入資料以產生輸出資料,並且將該結果輸出資料儲存在一或多個中間緩衝區內。一後續處理單元可讀取此結果輸出資料,當成該後續處理單元的輸入資料。該後續處理單元處理該資料,並且將輸出資料儲存在一或多個中間階段緩衝區內,以此類推。共用記憶體306和該圖形處理管線的許多其他階段透過記憶體介面214,與外部記憶體相連。
圖元分配器410匯集高階表面、圖元等等的頂點資料,並且將包括該等頂點屬性的該頂點資料輸出至頂點處理單元415。在某些具體實施例中,圖元分配器410包括一頂點屬性擷取單元(未顯示),其取得共用記憶體306內的該等頂點屬性並且將該等頂點屬性儲存至此。頂點處理單元415為一可程式執行單元,其構成執行頂點著色程式,依照該頂點著色程式 所規定照明與轉換頂點資料。例如,頂點處理單元415可編程將該頂點資料從一物件型座標代表(物件空間)轉換成一替代型座標系統,例如世界空間或標準化裝置座標(NDC,Normalized Device Coordinates)空間。頂點處理單元415可用圖元分配器410讀取共用記憶體306、L1快取單元320、平行處理記憶體204或系統記憶體104內儲存的資料,用來處理該頂點資料。頂點處理單元415將處理過的頂點儲存在共用記憶體306內的中間階段緩衝區內。
曲面細分初始化處理單元420為一可程式執行單元,其構成執行曲面細分初始化著色程式。曲面細分初始化處理單元420處理頂點處理單元415所產生的頂點,並產生圖形圖元,就是塊面。曲面細分初始化處理單元420也產生許多塊面屬性,然後曲面細分初始化處理單元420將該塊面資料及塊面屬性儲存在共用記憶體360內的該等中間階段緩衝區內。在某些具體實施例中,該曲面細分著色程式可稱為外表著色或曲面細分控制著色。
任務產生單元425從共用記憶體306的該等中間階段緩衝區當中取得頂點的資料與屬性及塊面。任務產生單元產生425用於處理該等頂點與塊面的任務,供圖形處理管線400內稍後階段進行處理。
任務分配器430重新分配任務產生單元425所產生的任務。該頂點著色程式及該曲面細分初始化程式的許多實例所產生之任務可在一圖形處理管線400與另一之間顯著改變。任務分配器430重新分配這些任務,如此每一圖形處理管線400在稍後管線階段期間具有大約相同的工作負荷。
拓撲產生單元435獲得任務分配器430分配的任務。拓撲產生單元435將該等頂點索引,包括有關塊面的頂點,並且計算對應至該等頂點的貼圖座標。然後拓撲產生單元435將索引頂點儲存在共用記憶體306內的中間階段緩衝區內。
曲面細分處理單元440為一可程式執行單元,其構成執行曲面細分著色程式。曲面細分處理單元440讀取來自共用記憶體的輸入資料,並且將輸出資料寫入共用記憶體306的該等中間階段緩衝區。在該中間階 段緩衝區內的此輸出資料會傳遞至下一著色階段,當成幾何處理單元455的輸入資料。在某些具體實施例中,該曲面細分著色程式可稱為領域著色或曲面細分評估著色。
曲面細分處理單元445為一可程式執行單元,其構成執行幾何著色程式,藉此轉換圖形圖元。頂點經過分組,建構用於處理的圖形圖元,其中圖形圖元包括三角形、線段、點等等。例如,幾何處理單元445可程式編輯成將該等圖形圖元分成一或多個新圖形圖元,並且計算參數,例如平面等式係數,用來將該等新圖形圖元光柵化。
在某些具體實施例中,幾何處理單元445也可新增或刪除該幾何串流內的元件。幾何處理單元445輸出將新圖形圖元指定至一視埠縮放、消隱以及裁切單元450的該等參數與頂點。幾何處理單元445可讀取儲存在共用記憶體306、平行處理記憶體204或系統記憶體104內的資料,用來處理該幾何資料。視埠縮放、消隱與裁切單元450執行裁切、消隱與視埠縮放,並且將處理過的圖形圖元輸出至一光柵器455。
光柵器455掃描轉換新圖形圖元,並且將片段與覆蓋率資料輸出至片段處理單元460。此外,光柵器455可構成執行z消隱及其他z型最佳化。
片段處理單元460為一可程式執行單元,其構成執行片段著色程式,依照該片段著色程式所規定轉換接收自光柵器455的片段。例如,片段處理單元460可程式編輯成執行操作,例如透視修正、貼圖映射、著色、混色等等,以產生輸出至光柵操作單元465的已著色片段。片段處理單元460可讀取儲存在共用記憶體306、平行處理記憶體204或系統記憶體104內的資料,用來處理該片段資料。根據該程式編輯的取樣率,片段可依照像素、取樣或其他粒度來著色。
光柵操作單元465為一種處理單元,其執行光柵操作,例如模板、z測試、混色等等,並且將像素資料當成處理過的圖形資料,以儲存在圖形記憶體內。該處理過的圖形資料可儲存在圖形記憶體內,例如平行處理記憶體204,及/或系統記憶體104,用於顯示在顯示裝置110上或用於由中央處理單元102或平行處理子系統112進一步處理。在本發明的某些 具體實施例中,光柵操作單元465構成將寫入記憶體的z或顏色資料壓縮,並且將從記憶體讀取的z或顏色資料解壓縮。在許多具體實施例中,光柵運算單元465可位於記憶體介面214、一般處理叢集208、該一般處理叢集之外的處理叢集陣列230或平行處理單元202內的一別單元(未顯示)內。
用於低功率圖形著色的像素著色器省略
第五A圖至第五D圖例示構成實施四個不同像素著色器省略模式的圖形處理管線400。像素著色器535為片段處理單元460內執行像素著色程式的一執行單元,像素著色器535包括一可程式執行核心,用於執行像素著色程式,並且片段處理單元460包括額外固定功能硬體。
為了實施該等四個不同像素著色器省略模式,圖形處理管線400切換成第五A圖至第五D圖所描述的該等四個組態之一者。在第五A圖描述的該省略模式中,像素著色器535執行像素程式來處理片段,因此並未省略,而在第五B圖至第五D圖描述的該等組態中,像素著色器535不執行像素程式,如此便省略。在像素著色器535不針對一圖元執行像素著色器程式時,像素著色器535可閒置,或像素著色器535可針對另一圖元執行像素著色器程式,藉此提高效能並且/或降低功率消耗。
圖形處理管線400依照逐一圖元方式,在第五A圖至第五D圖描述的該等組態之間切換。為了進入該等組態之一者,圖形處理管線400接收一指令以繪製一圖元;及對應像素著色氣省略模式的指示。接著,圖形處理管線400進入第五A圖至第五D圖描述的該等組態之一者,其對應至圖形處理管線400接收的該像素著色器省略模式。以下將參考第五A圖至第五D圖,更詳細描述該等組態。
第五A圖為例示根據本發明一具體實施例之構成實施一無省略模式的一圖形處理管線400。如所示,圖形處理管線400構成實施該無省略模式,包括光柵器455、固定點貼圖座標產生器單元530、片段處理單元460、像素著色器單元535、光柵處理單元465、貼圖座標產生器單元(STRI單元)540和貼圖單元545,及資料路徑502、506、508、510、512、514和516。
當圖形處理管線400構成實施該無省略模式,光柵器455 將幾何資料光柵化,以從圖元產生片段與覆蓋率資料。如此資料流502由光柵器455處理,並且流至片段處理單元460內的像素著色器535。可程式像素著色器535執行像素著色器程式,以產生已著色的片段。在執行像素著色器程式時,若一圖元已經套用一貼圖,則像素著色器535將像素座標要求506傳送至貼圖座標產生器單元540(STRI單元),並且從貼圖座標產生器單元540接收貼圖座標508。然後,像素著色器535將資料流510內的貼圖座標傳送至貼圖單元545,並且接收對應至所傳送貼圖座標510的色彩值512。像素著色器將色彩值512供應給像素著色器535處理過的像素、執行對應至像素著色器535的功能之其他任務,並且將結果片段514傳送至光柵操作單元465供進一步處理,例如混色。光柵操作輸出要寫入一訊框緩衝區或用於其他處理之值516。
第五B圖為例示根據本發明之一具體實施例之構成實施一貼圖省略模式的一圖形處理管線400。如所示,圖形處理管線400構成實施該貼圖省略模式,包括光柵器455、固定點貼圖座標產生器單元530、片段處理單元460、像素著色器單元535、光柵處理單元465、貼圖座標產生器單元(STRI單元)540和貼圖單元545,及資料路徑518、520、522和524。
當圖形處理管線400構成實施該貼圖省略模式時,光柵器455接收有關用於在目標表面上光柵化的一「平坦」二維物體之資訊,及要套用至該二維物件的一貼圖。該「平坦」二維物件與該「平坦」二維物件的著色目標平行,該「平坦」二維物件可為任何二維形狀,例如四邊形、三角形、其他多邊形或其他二維形狀。在許多具體實施例中,「平坦」二維形狀對於顯示貼圖圖形使用者界面(GUI,Graphical User Interface)元件、顯示簡單圖形應用,例如休閒遊戲,或用於其他目的很有用。
為了在該圖形處理管線構成實施該貼圖省略模式時著色一「平坦」二維物件,光柵器455計算該「平坦」二維物件的覆蓋率資料,並且在資料流520內輸出片段與覆蓋率資料。因為該二維物件與該著色目標平行,所以用來產生貼圖座標的計算相對簡單。因此,固定點貼圖座標產生器530根據該二維物件的形狀及一選取的貼圖,產生固定點貼圖座標。在一具體實施例中,固定點貼圖座標產生器530透過固定點演算法產生固 定點貼圖座標。
一旦固定點貼圖座標產生器530計算貼圖座標,則來自光柵器455的資料,包括覆蓋率資料及貼圖座標,沿著路徑520提供。貼圖座標提供給貼圖單元545,接著提供對應至該貼圖座標的色彩來回應。包括貼圖單元545提供的色彩之資料522提供給光柵操作單元465,然後發送來自光柵操作單元524的輸出供進一步處理,並且最終寫入該著色目標。
資料路徑520和522移動通過片段處理單元460,指出片段處理單元460內的某些固定功能硬體,例如色彩轉換器等等,處理資料路徑520和522內的資料。不過像素著色器535並不處理資料路徑520和522內的資料。在某些具體實施例中,資料路徑520和522並不經通過片段處理單元460。
當圖形處理管線400構成實施貼圖省略模式時,像素著色器535並不會針對已經著色的圖元執行像素著色器程式。此外,貼圖座標產生器單元(STRI)540並不計算貼圖座標,如此像素著色器535並不參與著色該圖元。在某些具體實施例中,像素著色器535閒置,降低功率消耗。在其他具體實施例中,像素著色器535執行其他圖元的計算。在某些具體實施例中,因為該平坦貼圖圖元與該著色目標平行,所以光柵器455的單元上游不會處理已經在貼圖省略模式內處理過的一圖元之資料。例如,幾何處理單元445不會處理已經在貼圖省略模式內處理過的一圖元之資料。
第五C圖例示為根據本發明一具體實施例之構成實施一固定色彩省略模式的一圖形處理管線400。如所示,圖形處理管線400構成實施該固定色彩省略模式,包括光柵器455、固定點貼圖座標產生器單元530、片段處理單元460、像素著色器單元535、光柵處理單元465、貼圖座標產生器單元(STRI單元)540和貼圖單元545,及資料路徑526和528。
當圖形處理管線400構成實施該固定色彩省略模式時,光柵器455接收有關要光柵化至一目標表面的一固定色彩二維物體之資訊,以及要供應至該固定色彩二維物件的一固定色彩。該固定色彩二維物件並不受限於位置與方位條件,因此不需要與該著色目標平行。在許多具體實施例中,該固定色彩二維形狀對於顯示貼圖圖形使用者界面(GUI)元件、顯示 簡單圖形應用,例如休閒遊戲,或用於其他目的很有用。
光柵器455將該圖元光柵化,包括產生像素與樣本的片段與覆蓋率資料。然後光柵器455將該固定色彩指派給由光柵器455輸出的該等片段。該等片段在資料流526內傳送至光柵操作單元465,光柵操作單元465處理該等片段,並且發出資料流528。此時未套用貼圖,因此省略過固定點貼圖座標產生器530、貼圖座標產生器單元(STRI)540、貼圖單元545及像素著色器535。因此使用單一固定色彩著色三維空間內的二維物件。利用省略像素著色器535,圖形處理管線400著色物件,而不消耗像素著色器535的功率。
第五D圖為例示根據本發明之一具體實施例之構成實施一漸層色彩省略模式的一圖形處理管線400。如所示,圖形處理管線400構成實施該漸層色彩省略模式,包括光柵器455、固定點貼圖座標產生器單元530、片段處理單元460、像素著色器單元535、光柵處理單元465、貼圖座標產生器單元(STRI單元)540和貼圖單元545,及資料路徑525、527和529。
當圖形處理管線400構成實施該漸層色彩省略模式時,光柵器455接收有關要光柵化至一目標表面的一漸層色彩二維物體之資訊,以及要供應至該漸層色彩二維物件的一漸層色彩。該漸層色彩二維物件與用於該漸層色彩二維物件的該著色目標平行,類似於由構成實施貼圖省略模式的圖形處理管線400所處理之該平坦二維物件。該漸層色彩二維物件可為任何二維形狀,例如四邊形、三角形、其他多邊形或其他二維形狀。在許多具體實施例中,漸層色彩二維形狀對於顯示貼圖圖形使用者界面(GUI)元件、顯示簡單圖形應用,例如休閒遊戲,或用於其他目的很有用。
光柵器455計算漸層色彩二維物件的覆蓋率資料,固定點貼圖座標產生器530計算用於漸層色彩二維物件片段的漸層色彩,光柵器455在資料流527內輸出片段與覆蓋率資料,光柵操作單元465處理該資料,並且發出資料流529。
因為該二維物件與該著色目標平行,所以用來產生漸層色彩的計算相對簡單。產生漸層色彩的計算類似在圖形處理管線400構成實施該貼圖省略模式時,用於產生平坦二維物件的貼圖座標之計算。尤其是, 對於由構成實施該貼圖省略模式的圖形處理管線所處理之貼圖座標,固定點貼圖座標產生器530線性內插在螢幕座標之間,以決定貼圖座標。當該圖形處理管線構成實施該漸層色彩省略模式時,固定點貼圖座標產生器530線性內插在色彩值之間,以產生漸層色彩值。因為固定點座標產生器530產生漸層色彩,因此省略像素著色器535,如此節省處理功率。
在某些具體實施例中,因為該漸層色彩圖元與該著色目標平行,所以光柵器455的單元上游不會處理已經在漸層色彩省略模式內處理過的一圖元之資料。例如,幾何處理單元445不會處理已經在漸層色彩省略模式內處理過的一圖元之資料。
應瞭解,本說明書中顯示的該架構僅為例示,所以可進行改變與修改。在一範例中,當圖形處理管線400構成實施貼圖省略模式時,資料流520和522不會經過片段處理單元460。在另一範例中,在特定組態中可省略圖形處理管線400內的特定單元,例如,當圖形處理管線400構成實施貼圖省略模式及漸層色彩省略模式時,則可省略過幾何處理單元445。
第六圖描述根據本發明之一具體實施例之由圖形處理管線400著色的一範例場景600。如所示,場景600包括由構成實施無省略模式的圖形處理管線400所繪製之圖元602、603、由構成實施貼圖省略模式的圖形處理管線400所繪製之圖元606、由構成實施固定色彩省略模式的圖形處理管線400所繪製之圖元608、及由構成實施漸層色彩省略模式的圖形處理管線400所繪製之圖元610。
圖元602和604與該著色目標(該螢幕)夾一角度,圖元602和604由構成實施無省略模式500的圖形處理管線400所處理,表示像素著色器535針對圖元602和604執行像素著色程式。
圖元606與該著色目標(該螢幕)的平面平行,圖形處理管線400構成實施貼圖省略模式,以處理圖元606。當圖形處理管線400構成實施貼圖省略模式時,貼圖座標產生器530產生貼圖座標給圖元606。因此,省略過像素著色器535。
圖元608位在與該著色目標(該螢幕)形成的一角度,圖形處 理管線400構成實施固定色彩省略模式,以處理圖元608。因此,省略像素著色器535。
最後,圖元610與該著色目標(該螢幕)的平面平行,圖形處理管線400構成實施漸層色彩省略模式,以處理圖元610。因此,省略像素著色器535。
第七圖為根據本發明之一具體實施例之用於在構成實施一省略模式的一圖形處理管線內產生片段資料之方法步驟的流程圖。雖然已經結合第一圖至第五D圖來描述該等方法步驟,不過精通技術人士應瞭解,構成執行該等方法步驟(以任何順序)的任何系統在本發明範疇內。
如所示,方法700從步驟702開始,其中圖形處理單元400接收實施一省略模式的一指令,以繪製一圖元。該省略模式可為貼圖省略模式、固定色彩省略模式、無省略模式、或漸層色彩省略模式。在步驟704,圖形處理管線400決定該省略模式是否為無省略模式。若該省略模式為無省略模式,則該方法前往步驟706,並且圖形處理管線400處理該指令繪製該圖元,而不省略像素著色器535。尤其是,圖形處理管線400將該圖元光柵化,並且透過像素著色器535來著色及貼圖圖元。
請即重新參考步驟704,若該省略模式並非一無省略模式,則該方法前往步驟708。在步驟708,圖形處理管線400決定該省略模式是否為貼圖省略模式。若該省略模式為貼圖省略模式,則該方法前往步驟709。在步驟709,光柵器455將該圖元光柵化,以決定光柵化結果,例如片段與覆蓋率資料。在步驟710,固定點貼圖座標產生器530產生該圖元的貼圖座標。在步驟712,固定點貼圖座標產生器530將貼圖座標傳送至貼圖單元545,以決定套用至該圖元的色彩。在步驟714,貼圖單元545將決定的色彩傳送至光柵操作單元465,供光柵操作單元465處理。
請即重新參考步驟708,若該省略模式並非貼圖省略模式,則該方法前往步驟715。在步驟715,圖形處理管線400決定該省略模式是否為固定色彩省略模式。若該省略模式為固定色彩省略模式,則該方法前往步驟716。在步驟716,光柵器455將該圖元光柵化,以決定光柵化結果,例如片段與覆蓋率資料。在步驟718,該光柵器將該光柵化結果與該固定色 彩傳送至光柵操作單元465進行處理。
請即重新參考步驟715,若該省略模式並非固定色彩省略模式,則該省略模式為漸層色彩省略模式,並且該方法前往步驟720。在步驟720,光柵器455將該圖元光柵化,以決定光柵化結果,例如片段與覆蓋率資料。在步驟722,固定點貼圖座標產生器530產生漸層色彩。在步驟724內,固定點貼圖座標產生器530將該等色彩傳送至光柵操作單元465進行處理。
總結來說,圖形處理管線提供給三種省略模式,可讓該圖形處理管線更有效率產生用來顯示的二維物件。在貼圖省略模式內,光柵器內的固定點貼圖座標產生器計算要在該著色目標平面內著色的貼圖二維物件之貼圖座標。該等貼圖座標傳送至貼圖單元,並且擷取貼圖色彩並傳送至該光柵操作單元進行混色。像素著色器單元與貼圖座標產生器單元(STRI單元)並無需於決定所產生像素的色彩或貼圖色彩,因此可閒置、切換至低功率模式或用於其他圖形操作。在固定色彩著色模式內,該圖形處理管線在三維空間內著色二維物件,但是不使用該貼圖單元、像素著色器單元或貼圖座標產生器單元。該光柵器用固定色彩值將該二維物件光柵化,並且將該光柵化操作結果直接傳送至該光柵操作單元進行混色,省略過該像素著色器單元、貼圖單元及貼圖座標產生器單元。在漸層色彩省略模式內,光柵器內的固定點貼圖座標產生器線性計算要在該著色目標平面內著色的漸層二維物件之變化漸層色彩。該光柵器用漸層色彩將該漸層色彩二維物件光柵化,並且將該光柵化結果(包括該漸層色彩)直接傳送至該光柵操作單元進行混色,省略該像素著色器單元、貼圖單元及貼圖座標產生器單元。
本說明書所提供技術的優點在於,一圖形處理管線可構成不使用該像素著色器單元便可繪製二維物件供顯示,藉此省電並且提高整體效能。本說明書內技術的另一優點在於,繪製二維物件時不需要一映像,因此在一映像繪製二維物件時不需要清空該圖形處理管線並閒置,藉此提高整體效能。仍舊本說明書所提供技術的另一優點在於,一圖形處理管線可構成使用具優點的圖形操作,例如混色,便可繪製二維物件來改善整體影像品質。
本發明的一具體實施例可實施當成搭配電腦系統使用的程式產品。該程式產品的程式定義該等具體實施例(包括本說明書所述的方法)的功能,並且可包括在電腦可讀取儲存媒體上。例示的電腦可讀取儲存媒體包括但不受限於:(i)其上資訊永久儲存的不可抹寫儲存媒體(例如電腦內的唯讀記憶體裝置,例如小型碟片唯讀記憶體(CD-ROM)光碟機可讀取的CD-ROM光碟、快閃記憶體、ROM晶片或任何一種固態非揮發性半導體記憶體);及(ii)上其儲存可變資訊的可抹寫儲存媒體(例如磁碟機或硬碟內的磁碟或任何一種固態隨機存取半導體記憶體)。
在此已經參考特定具體實施例說明本發明。不過精通此技術的人士將會了解,在不悖離申請專利範圍內公佈之本發明廣泛精神以及領域下,可進行許多修改與變更。因此前述說明與圖式僅供參考而不做限制。
因此,本發明具體實施例的範疇公布於以下的申請專利範圍內。

Claims (11)

  1. 一種構成繪製圖形物件的圖形處理單元,包括:一光柵器,其構成將一第一圖元與一第二圖元光柵化,以產生一第一組光柵化結果與一第二組光柵化結果;一像素著色器單元,其構成決定該第一圖元的一省略模式是否為一無省略模式,並且產生該第一組光柵化結果的一第一組像素色彩;及一光柵操作(ROP)單元,其構成接收該第一組像素色彩及一第二組像素色彩,其中該第二組像素色彩用於該第二組光柵化結果,並且無需該像素著色器單元在該第二組光柵化結果上執行任何處理操作便可產生。
  2. 如申請專利範圍第1項之圖形處理單元,其中:該光柵器構成決定該第二圖元的一省略模式是否為一貼圖省略模式;及一貼圖座標產生器,其構成計算該第二組光柵化結果的貼圖座標。
  3. 如申請專利範圍第2項之圖形處理單元,其中該貼圖座標產生器構成將該等貼圖座標傳送至一貼圖單元。
  4. 如申請專利範圍第3項之圖形處理單元,其中計算該等貼圖座標更包括透過固定點演算法計算該貼圖座標。
  5. 如申請專利範圍第4項之圖形處理單元,其中該第二圖元無需一幾何處理單元在該第二圖元上執行任何處理操作便可處理。
  6. 如申請專利範圍第3項之圖形處理單元,其中該像素著色器單元構成當產生該第二組色彩時閒置。
  7. 如申請專利範圍第1項之圖形處理單元,其中:該光柵器構成決定一省略模式是否為該該第二圖元的一固定色彩省略模式;及該光柵器構成決定該第二組光柵化結果的一固定色彩。
  8. 如申請專利範圍第7項之圖形處理單元,其中產生該第二組色彩包括將該第二組色彩內的每一色彩設定成等於該固定色彩。
  9. 如申請專利範圍第8項之圖形處理單元,其中該光柵器構成無需一貼圖座標產生器單元或一貼圖單元在該第二組色彩上執行任何處理操作,便可將該第二組色彩傳送至該光柵操作單元。
  10. 如申請專利範圍第9項之圖形處理單元,其中該像素著色器單元構成當產生該第二組色彩時閒置。
  11. 如申請專利範圍第1項之圖形處理單元,其中:該光柵器構成決定一省略模式是否為該第二圖元的一漸層色彩省略模式;及一貼圖座標產生器構成計算漸層色彩;及該光柵器構成將該第二組色彩設定成等於該已計算漸層色彩。
TW102147979A 2013-03-12 2013-12-24 用於低功率圖形著色的像素著色器省略 TWI559729B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/795,693 US9286647B2 (en) 2013-03-12 2013-03-12 Pixel shader bypass for low power graphics rendering

Publications (2)

Publication Number Publication Date
TW201448564A TW201448564A (zh) 2014-12-16
TWI559729B true TWI559729B (zh) 2016-11-21

Family

ID=51418502

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102147979A TWI559729B (zh) 2013-03-12 2013-12-24 用於低功率圖形著色的像素著色器省略

Country Status (4)

Country Link
US (1) US9286647B2 (zh)
CN (1) CN104050706B (zh)
DE (1) DE102013020613A1 (zh)
TW (1) TWI559729B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9256976B2 (en) * 2013-07-09 2016-02-09 Intel Corporation Techniques for extracting and displaying partially processed graphics information
KR101582578B1 (ko) * 2014-01-20 2016-01-11 (주)넥셀 그래픽 처리 장치 및 방법
US9626733B2 (en) 2014-11-24 2017-04-18 Industrial Technology Research Institute Data-processing apparatus and operation method thereof
US11170460B2 (en) * 2014-12-05 2021-11-09 Intel Corporation Dedicated hardware unit to offload blending of values from memory
CN104933752B (zh) * 2015-06-29 2018-08-07 上海兆芯集成电路有限公司 一种计算机系统、图形处理单元及其图形处理方法
US9779542B2 (en) * 2015-09-25 2017-10-03 Intel Corporation Apparatus and method for implementing flexible finite differences in a graphics processor
CN105513003B (zh) * 2015-12-11 2018-10-26 中国航空工业集团公司西安航空计算技术研究所 一种图形处理器统一染色器阵列体系结构
US10089708B2 (en) * 2016-04-28 2018-10-02 Qualcomm Incorporated Constant multiplication with texture unit of graphics processing unit
US9953395B2 (en) * 2016-08-29 2018-04-24 Intel Corporation On-die tessellation distribution
US9984434B1 (en) * 2016-09-23 2018-05-29 Apple Inc. Techniques to derive efficient conversion and/or color correction of video data
US10311627B2 (en) * 2016-12-16 2019-06-04 Samsung Electronics Co., Ltd. Graphics processing apparatus and method of processing graphics pipeline thereof
US10706612B2 (en) * 2017-04-01 2020-07-07 Intel Corporation Tile-based immediate mode rendering with early hierarchical-z
US10579121B2 (en) * 2017-04-01 2020-03-03 Intel Corporation Processor power management
US10109078B1 (en) * 2017-04-10 2018-10-23 Intel Corporation Controlling coarse pixel size from a stencil buffer
US10474408B2 (en) 2017-09-07 2019-11-12 Apple Inc. Image data processing pipeline bypass systems and methods
US11195308B2 (en) * 2018-12-05 2021-12-07 Sony Group Corporation Patcher tool
CN111105477B (zh) * 2019-11-25 2023-04-28 航天科技控股集团股份有限公司 全液晶仪表2d虚拟指针绘制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6016151A (en) * 1997-09-12 2000-01-18 Neomagic Corp. 3D triangle rendering by texture hardware and color software using simultaneous triangle-walking and interpolation for parallel operation
US20050174346A1 (en) * 2004-02-10 2005-08-11 Samsung Electronics Co., Ltd. Method and/or apparatus for high speed visualization of depth image-based 3D graphic data
US7385609B1 (en) * 2004-11-02 2008-06-10 Nvidia Corporation Apparatus, system, and method for increased processing flexibility of a graphic pipeline
US20090073168A1 (en) * 2007-09-14 2009-03-19 Qualcomm Incorporated Fragment shader bypass in a graphics processing unit, and apparatus and method thereof

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928918B (zh) * 2005-10-14 2012-10-10 威盛电子股份有限公司 图形处理装置及于图形处理装置中执行着色操作的方法
US9135017B2 (en) 2007-01-16 2015-09-15 Ati Technologies Ulc Configurable shader ALU units

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6016151A (en) * 1997-09-12 2000-01-18 Neomagic Corp. 3D triangle rendering by texture hardware and color software using simultaneous triangle-walking and interpolation for parallel operation
US20050174346A1 (en) * 2004-02-10 2005-08-11 Samsung Electronics Co., Ltd. Method and/or apparatus for high speed visualization of depth image-based 3D graphic data
US7385609B1 (en) * 2004-11-02 2008-06-10 Nvidia Corporation Apparatus, system, and method for increased processing flexibility of a graphic pipeline
US20090073168A1 (en) * 2007-09-14 2009-03-19 Qualcomm Incorporated Fragment shader bypass in a graphics processing unit, and apparatus and method thereof

Also Published As

Publication number Publication date
CN104050706B (zh) 2017-07-07
US9286647B2 (en) 2016-03-15
CN104050706A (zh) 2014-09-17
DE102013020613A1 (de) 2014-09-18
TW201448564A (zh) 2014-12-16
US20140267318A1 (en) 2014-09-18

Similar Documents

Publication Publication Date Title
TWI559729B (zh) 用於低功率圖形著色的像素著色器省略
TWI537870B (zh) 多重解析度一致性光柵化
TWI529660B (zh) 使用每像素著色器執行緒的高效超取樣
TWI515716B (zh) 具備緩衝區限制處理的世界空間與螢幕空間管線間之圖元重新排序
TWI525584B (zh) 多執行緒處理單元內之可程式繫結
US9293109B2 (en) Technique for storing shared vertices
TWI533255B (zh) 快取具有表面壓縮的統一l2快取內之自調適大小快取拼貼
TWI645371B (zh) 在上游著色器內設定下游著色狀態
TW201432609A (zh) 已分配的拼貼快取
TW201439975A (zh) 在光柵操作中處理後置z覆蓋率資料
TWI633516B (zh) 曲面細分及幾何著色器的功率效率屬性處理
TWI611373B (zh) 路徑著色的最佳化三角形拓撲
US9418616B2 (en) Technique for storing shared vertices
US9720842B2 (en) Adaptive multilevel binning to improve hierarchical caching
TWI528178B (zh) 用於分析圖形處理管線效能之方法及計算系統
TWI525438B (zh) 透過貼圖硬體執行記憶體存取操作之技術
TW201447812A (zh) 有共用邊緣的先印後蓋路徑描繪
US9406101B2 (en) Technique for improving the performance of a tessellation pipeline
US9111360B2 (en) Technique for improving the performance of a tessellation pipeline