TWI793685B

TWI793685B - 一種圖形處理單元、一種系統、一種方法及一種儲存程式碼的機器可讀媒體用以針對機器學習執行浮點及整數運算

Info

Publication number: TWI793685B
Application number: TW110127153A
Authority: TW
Inventors: 希曼修卡爾; 馬克安德斯; 薩努馬修; 姚安邦; 喬伊迪普雷; 屏唐; 麥可史崔克蘭; 陳曉明; 塔提安那許斯曼; 亞奇雪克亞布; 歐塔寇克; 卡馬爾辛哈; 巴拉吉凡佈; 華森士雷岡納森; 桑吉夫傑哈吉爾達; 尼可加羅馮波利; 艾瑞科努維塔希; 拉齊秀巴里; 林宗翰
Original assignee: 美商英特爾股份有限公司
Priority date: 2017-04-28
Filing date: 2018-02-22
Publication date: 2023-02-21
Also published as: CN113672197B; ES2929797T3; US11080046B2; EP3637246A1; EP3637246B1; EP4160387C0; EP3637247B1; EP3859519A1; EP3859519B1; US20210182058A1; US10474458B2; US20180315398A1; EP3937004A1; TWI784372B; EP4242838A3; TW202141513A; TWI834576B; US20210124579A1; TW202123253A; TW201839642A

Abstract

實施例提供了一種機器學習硬體加速器，其包含：計算單元，具有在整數資料路徑和浮點資料路徑之間共享的加法器和乘法器，在浮點運算期間對至乘法器的輸入運算元的高位元進行閘控。

Description

一種圖形處理單元、一種系統、一種方法及一種儲存程式碼的機器可讀媒體用以針對機器學習執行浮點及整數運算

實施例總體上關於資料處理，且更具體地關於經由通用圖形處理單元的資料處理。

相關申請案的交叉引用

本申請案源自2017年4月28日提交的美國臨時專利申請號62/491,699，其藉由參照併入本文，如同再現其全部。

當前的平行圖形資料處理包含開發用於對圖形資料執行特定運算的系統和方法，例如線性內插、曲面細分、光柵化、紋理映射、深度測試等。傳統上，圖形處理器使用固定功能計算單元來處理圖形資料；然而，最近，圖形處理器的部分已被製成可編程的，使得這些處理器能夠支援更廣泛的運算來處理頂點和片段資料。

為了進一步增加性能，圖形處理器通常係實施處理技術，諸如管線運算，其嘗試平行地處理盡可能多的圖形資料，遍及圖形管線之不同部分。具有單指令、多執行緒(SIMT)架構之平行圖形處理器被設計以將圖形管線中之平行處理的量最大化。於SIMT架構中，平行執行緒之群組嘗試盡可能頻繁地一起同步地執行程式指令以增加處理效率。針對SIMT架構之軟體及硬體的一般概述可見於Shane Cook,CUDA Programming,Chapter 3，第37-51頁(2013年)及/或Nicholas Wilt,CUDA Handbook,A Comprehensive Guide to GPU Programming，段落2.6.2至3.1.2(2013年6月)。

100:計算系統

101:處理子系統

102:處理器

104:系統記憶體

105:記憶體集線器

106:通訊鏈路

107:I/O集線器

108:輸入裝置

111:I/O子系統

112:平行處理器

113:通訊鏈路

114:系統儲存單元

116:I/O開關

118:網路適配器

119:無線網路適配器

120:附加裝置

200:平行處理器

202:平行處理單元

204:I/O單元

206:主機介面

208:前端

210:排程器

212:處理集群陣列

214:處理集群

216:記憶體交叉開關

218:記憶體介面

220:分區單元

221:L2快取記憶體

222:平行處理器記憶體

224:記憶體單元

225:幀緩衝器介面

226:ROP

232:管線管理器

234:圖形多處理器

236:紋理單元

240:資料交叉開關

242:preROP

245:MMU

248:L1快取記憶體

252:指令快取記憶體

254:指令單元

256:位址映射單元

258:暫存器檔

262:GPGPU核心

266:加載/儲存單元

268:記憶體和快取記憶體互連

270:共享記憶體

272:快取記憶體

325:圖形多處理器

327:互連結構

330:公共指令快取記憶體

342:資料快取記憶體

346:共享記憶體

350:圖形多處理器

352:互連結構

354:指令快取記憶體

362:共享記憶體

401:處理器記憶體

402:處理器記憶體

405:多核心處理器

406:多核心處理器

407:處理器

410:GPU

411:GPU

412:GPU

413:GPU

420:GPU記憶體

421:GPU記憶體

422:GPU記憶體

423:GPU記憶體

425:代理電路

430:記憶體互連

431:記憶體互連

432:圖形處理引擎

433:圖形記憶體

434:圖形記憶體

435:介面

436:加速器積體電路

437:介面

438:快取記憶體

439:記憶體管理單元

440:高速鏈路

441:系統記憶體

444:高速鏈路

445:高速鏈路

446:圖形加速模組

447:中斷管理電路

448:上下文管理電路

450:GPU記憶體互連

451:GPU記憶體互連

452:GPU記憶體互連

453:GPU記憶體互連

456:核心快取記憶體

460A:核心

460B:核心

460C:核心

460D:核心

462A:核心快取記憶體

462B:核心快取記憶體

462C:核心快取記憶體

462D:核心快取記憶體

464:同調匯流排

480:應用程式

481:GPU調用

482:應用程式有效位址空間

483:處理元件

484:工作描述符(WD)

485:OS虛擬位址空間

486:段/頁表

490:加速器整合切片

491:WD讀取單元

492:中斷事件

493:有效位址

494A:偏置/同調管理電路

494B:偏置/同調管理電路

494C:偏置/同調管理電路

494D:偏置/同調管理電路

494E:偏置/同調管理電路

495:作業系統

496:管理程式

498:管理程式實位址空間

499:處理元素列表

500:圖形處理管線

502:資料組譯器

504:頂點處理單元

506:基元組譯器

508:曲面細化控制處理單元

510:曲面細分單元

512:曲面細分評估處理單元

514:基元組譯器

516:幾何處理單元

518:基元組譯器

520:視口比例、剔除和剪裁單元

522:光柵器

524:片段/像素處理單元

526:光柵運算單元

528:記憶體介面

600:機器學習軟體堆棧

602:機器學習應用

604:機器學習框架

606:計算框架

608:GPGPU驅動程式

610:GPGPU硬體

615:暫存器

700:高度平行通用圖形處理單元

702:主機介面

704:全局排程器

706A:計算集群

706B:計算集群

706C:計算集群

706D:計算集群

706E:計算集群

706F:計算集群

706G:計算集群

706H:計算集群

708:快取記憶體

709:I/O集線器

710:GPU鏈路

800:多GPU計算系統

802:處理器

804:主機介面交換機

806A:GPGPU

806B:GPGPU

806C:GPGPU

806D:GPGPU

816:GPU鏈路

902:輸入

904:卷積層

906:卷積層

908:完全連接的層

912:卷積層

914:卷積層

916:卷積級

918:檢測器級

920:匯集級

922:下一層

1000:循環神經網路

1002:輸入層

1004:隱藏層

1005:反饋機制

1102:訓練資料集

1104:訓練框架

1106:未訓練的神經網路

1108:訓練的神經網路

1112:新資料

1114:結果

1202:模型平行

1204:資料平行

1206:模型和資料平行

1300:系統單晶片

1302:媒體處理器

1304:視覺處理器

1305:晶載記憶體

1306:GPGPU

1308:多核心處理器

1400:多處理器單元

1402:讀取和解碼單元

1404:分支單元

1406:暫存器檔

1408:執行緒管理器

1410:SIMT單元

1411:計算單元

1412:計算單元

1413:計算單元

1414:計算單元

1415:計算單元

1416:計算單元

1417:計算單元

1418:計算單元

1411A:整數ALU

1412A:整數ALU

1413A:整數ALU

1414A:整數ALU

1415A:整數ALU

1416A:整數ALU

1417A:整數ALU

1418A:整數ALU

1411B:浮點單元

1412B:浮點單元

1413B:浮點單元

1414B:浮點單元

1415B:浮點單元

1416B:浮點單元

1417B:浮點單元

1418B:浮點單元

1418:計算單元

1420:電壓和頻率管理器

1500:邏輯單元

1501:16位元輸入運算元

1510:16位元浮點資料路徑

1520:16位元整數資料路徑

1530:輸出端口

1518:f16o

1528:i16o

1532:運算模式

1525:isum

1521:帶正負號16b×16b乘法器

1522:32b加法器

1511:右移

1617:無符號11b×11b乘法器

1512A:對準移位器

1513:22位元尾數加法器

1519:22位元前導零預測器

1514:左移

1515:歸一化移位器

1516:捨入邏輯

1540:乘加邏輯單元

1541:乘法運算

1512B:對準移位器

1542:最後捨入增量器

1540:邏輯單元

1600:融合乘加邏輯單元

1602A:16位元×16位元帶正負號乘法器

1604:32位元加法器

1602B:11位元尾數

1601A:輸入開關

1601B:輸入開關

1601C:輸入開關

1608:指數單元

1609A:3位元符號運算元匯流排

1609B:15位元指數匯流排

1605:1位元增量器

1606:高位元

1610A:旁路電路

1610B:旁路電路

1608:指數單元

1612:對準移位器

1613:歸一化移位器

1616:捨入邏輯

1611:指數增量器

1630:輸出

1700:邏輯單元

1708:指數單元

1709:尾數單元

1701:16位元輸入端口

1730:16位元輸出端口

1702A:帶正負號乘法器

1702B:帶正負號乘法器

1704:32位元加法器

1703A:累加器輸入

1713:對準移位器

1705:多工器邏輯

1707:Eun

1710:右移

1711:乘積

1714:歸一化移位器

1740:邏輯單元

1750:16位元輸出

1742:否定增量器

1703B:32位元累加器輸入

1704:32位元加法器

1800:資料處理系統

1802:處理器

1810:統一記憶體

1812:系統記憶體

1815:編譯器

1816:運行時庫

1818:GPGPU記憶體

1820:GPGPU

1821:指令讀取和解碼單元

1822:排程器控制器

1823:機器學習加速器

1825:暫存器

1826:功率和性能模組

1827:快取記憶體

1828:GPGPU本地記憶體

1829:統計單元

1832:激活指令模組

1834:FPU編碼和配置模組

1836:快取記憶體

1838:隨機量化單元

1902:FMADD/FMAC執行緒排程器單元

2002A:輸出

2002B:輸出

2004:量化單元

2006:隨機數產生器

2008:統計累加器/估計器

2009:隨機捨入單元

2010:層N+1

2102:FPU配置模組

2104:FPU編碼模組

2106:記憶體控制器

2202:流程

2204:流程

2206:流程

2208:流程

2302:流程

2304:流程

2306:流程

2308:流程

2312:流程

2314:流程

2316:流程

2318:流程

2400:處理系統

2402:處理器

2404:快取記憶體

2406:暫存器檔

2407:處理器核心

2408:圖形處理器

2409:指令集

2410:處理器匯流排

2412:外部圖形處理器

2416:記憶體控制器集線器

2420:記憶體裝置

2421:指令

2422:資料

2424:資料儲存裝置

2426:無線收發器

2428:韌體介面

2430:I/O控制器集線器

2434:網路控制器

2440:傳統I/O控制器

2442:USB控制器

2444:鍵盤和滑鼠

2446:音頻控制器

2500:處理器

2506:共享快取記憶體單元

2508:圖形處理器

2510:系統代理核心

2511:顯示控制器

2512:環形互連

2513:I/O鏈路

2514:整合記憶體控制器

2516:匯流排控制器單元

2518:嵌入式記憶體模組

2600:圖形處理器

2602:顯示控制器

2604:BLIT引擎

2606:視頻編解碼器引擎

2610:圖形處理引擎

2612:3D管線

2614:記憶體介面

2615:3D/媒體子系統

2616:媒體管線

2620:顯示裝置

2703:命令串流器

2710:圖形處理引擎

2714:圖形核心陣列

2718:統一返回緩衝器

2720:共享功能邏輯

2721:取樣器

2722:數學

2723:執行緒間通訊

2725:快取記憶體

2800:圖形處理器

2802:環形互連

2803:命令串流器

2804:管線前端

2830:視頻品質引擎

2833:多格式編碼/解碼

2834:視頻前端

2836:幾何管線

2837:媒體引擎

2900:緒執行邏輯

2902:著色器處理器

2904:執行緒分派器

2906:指令快取記憶體

2908A:執行單元

2908B:執行單元

2908C:執行單元

2908D:執行單元

2908N-1:執行單元

2908N:執行單元

2910:取樣器

2912:資料快取記憶體

2914:資料端口

3000:圖形處理器指令格式

3010:128位元指令格式

3012:指令運算碼

3013:索引字段

3014:指令控制字段

3016:exec大小字段

3018:目標

3020:源運算元

3022:源運算元

3024:源運算元

3026:存取/位址模式字段

3030:64位元格式

3040:運算碼解碼

3042:移動和邏輯運算碼組

3044:流程控制指令組

3046:雜項指令組

3048:平行數學指令組

3050:向量數學群組

3100:圖形處理器

3102:環形互連

3103:命令串流器

3105:頂點讀取器

3107:頂點著色器

3111:外殼著色器

3113:曲面細分器

3117:域著色器

3119:幾何著色器

3120:圖形管線

3123:串流輸出單元

3129:剪裁器

3130:媒體管線

3131:執行緒分派器

3134:視頻前端

3137:媒體引擎

3140:顯示引擎

3141:2D引擎

3143:顯示控制器

3150:執行緒執行邏輯

3151:L1快取記憶體

3152A:執行單元

3152B:執行單元

3154:紋理和媒體取樣器

3156:資料端口

3158:紋理/取樣器快取記憶體

3170:渲染輸出管線

3173:光柵器和深度測試元件

3175:L3快取記憶體

3177:像素運算元件

3178:渲染快取記憶體

3179:深度快取記憶體

3200:圖形處理器命令格式

3202:用戶端

3204:命令運算碼

3205:子運算碼

3206:資料

3208:命令大小

3210:圖形處理器命令序列

3212:管線刷新命令

3213:管線選擇命令

3214:管線控制命令

3216:返回緩衝器狀態

3220:管線確定

3222:3D管線

3224:媒體管線

3230:3D管線狀態

3232:3D基元

3234:執行

3240:媒體管線狀態

3242:媒體物件命令

3244:執行命令

3300:資料處理系統

3310:3D圖形應用程式

3312:著色器指令

3314:可執行指令

3316:圖形物件

3320:作業系統

3322:圖形API

3324:前端著色器編譯器

3326:用戶模式圖形驅動器

3327:後端著色器編譯器

3328:OS核心模式功能

3329:核心模式圖形驅動器

3330:處理器

3332:圖形處理器

3334:通用處理器核心

3350:系統記憶體

3400:IP核心開發系統

3410:軟體模擬

3412:模擬模型

3415:暫存器傳輸級別

3420:硬體模型(HDL或實體設計資料)

3430:設計設施

3440:非揮發性記憶體

3450:有線連接

3460:無線連接

3465:第三方製造設施

3500:積體電路

3505:應用處理器

3510:圖形處理器

3515:圖像處理器

3520:視頻處理器

3525:USB控制器

3530:UART控制器

3535:SPI/SDIO控制器

3540:I²S/I²C控制器

3545:顯示裝置

3550:HDMI控制器

3555:MIPI顯示器介面

3560:快閃記憶體子系統

3565:記憶體控制器

3570:安全引擎

3605:頂點處理器

3610:圖形處理器

3705:核心間任務管理器

3710:圖形處理器

3718:圖塊單元

110A:顯示裝置

110B:顯示裝置

1814A:原始碼

1814B:編譯代碼

1824A:計算方塊

1824B:計算方塊

1824C:計算方塊

1824N:計算方塊

1904A:激活函數邏輯

1904N:激活函數邏輯

2002A:輸出

2002B:輸出

214A:集群

214B:集群

214N:集群

220A:分區單元

220B:分區單元

220N:分區單元

224A:記憶體單元

224B:記憶體單元

224N:記憶體單元

2502A:處理器核心

2502N:處理器核心

2504A:內部快取記憶體單元

2504N:內部快取記憶體單元

2850A:子核心

2850N:子核心

2852A:EUs

2852N:EUs

2854A:媒體/紋理取樣器

2854N:媒體/紋理取樣器

2860A:子核心

2860N:子核心

2862A:EUs

2862N:EUs

2864A:取樣器

2864N:取樣器

2870A:共享資源

2870N:共享資源

2880A:圖形核心

2880N:圖形核心

3152A:執行單元

3152B:執行單元

332A:指令單元

332B:指令單元

334A:暫存器檔

334B:暫存器檔

336A:GPGPU核心

336B:GPGPU核心

337A:GPGPU核心

337B:GPGPU核心

338A:GPGPU核心

338B:GPGPU核心

340A:加載/儲存單元

340B:加載/儲存單元

344A:紋理單元

344B:紋理單元

356A:執行資源

356B:執行資源

356C:執行資源

356D:執行資源

358A:資料快取記憶體

358B:資料快取記憶體

360A:紋理單元

360B:紋理單元

360C:紋理單元

360D:紋理單元

3615A:片段處理器

3615B:片段處理器

3615C:片段處理器

3615D:片段處理器

3615N:片段處理器

3615N-1:片段處理器

3620A:MMU

3620B:MMU

3625A:快取記憶體

3625B:快取記憶體

3630A:電路互連

3630B:電路互連

3715A:著色器核心

3715B:著色器核心

3715C:著色器核心

3715D:著色器核心

3715E:著色器核心

3715F:著色器核心

3715N:著色器核心

3715N-1:著色器核心

460A:核心

460B:核心

460C:核心

460D:核心

461A:TLB

461B:TLB

461C:TLB

461D:TLB

462A:快取記憶體

462B:快取記憶體

462C:快取記憶體

462D:快取記憶體

494A:偏置/同調管理電路

494B:偏置/同調管理電路

494C:偏置/同調管理電路

494D:偏置/同調管理電路

494E:偏置/同調管理電路

706A:計算集群

706B:計算集群

706C:計算集群

706D:計算集群

706E:計算集群

706F:計算集群

706G:計算集群

706H:計算集群

712A:記憶體控制器

712B:記憶體控制器

714A:記憶體

714B:記憶體

為了能夠詳細理解本發明的特徵，可以參照實施例對本發明進行更具體的描述，其中一些實施例在附圖中示出。然而，要注意的是，附圖僅示出典型的實施例，因此不應被視為限制所有實施例的範圍。

[圖1]是示出被配置為實現這裡描述的實施例的一或多個態樣的電腦系統的方塊圖；[圖2A-2D]示出根據一個實施例的平行處理器元件；[圖3A-3B]是根據實施例的圖形多處理器的方塊圖；[圖4A-4F]示出其中多個GPU通訊地耦合到多個多核心處理器的示例性架構；[圖5]示出根據一個實施例的圖形處理管線；[圖6]示出根據一個實施例的機器學習軟體堆疊；[圖7]示出根據一個實施例的高度平行的通用圖形處理單元；[圖8]示出根據一個實施例的多GPU計算系統；[圖9A-9B]示出示例性深度神經網路的層；[圖10]示出示例性循環神經網路；[圖11]示出深度神經網路的訓練和部署；[圖12]是表示分散式學習的方塊圖；[圖13]示出適用於使用訓練模型執行推理的示例性推理系統單晶片(SOC)；[圖14]是根據一個實施例的多處理器單元的方塊圖；[圖15A-15B]示出根據一個實施例的用於邏輯單元執行整數和浮點融合乘加運算的設計；[圖16]示出根據一個實施例的具有合併的浮點和整數資料路徑的融合乘加邏輯單元；[圖17A-17B]示出根據一個實施例的包含用於執行浮點和整數融合乘法累積運算的合併計算電路的邏輯單元；[圖18A-18B]示出執行用於機器學習的加速訓練和推理運算的資料處理系統和相關聯的計算和邏輯單元；[圖19]示出根據一個實施例的激活指令模組的細節；[圖20]示出根據一個實施例的隨機量化單元；[圖21]示出根據一個實施例的FPU編碼和配置模組；[圖22]示出根據一個實施例的用於使用動態可配置計算單元來處理指令的邏輯；[圖23A-23B]是示出由本文描述的實施例提供的用於執行GPGPU內的稀疏計算運算的邏輯的流程圖；[圖24]是根據一個實施例的處理系統的方塊圖；[圖25]是根據一個實施例的處理器的方塊圖；[圖26]是根據一個實施例的圖形處理器的方塊圖；[圖27]是根據一些實施例的圖形處理器的圖形處理引擎的方塊圖；[圖28]是由另一實施例提供的圖形處理器的方塊圖；[圖29]示出包含在一些實施例中採用的處理元件的陣列的執行緒執行邏輯；[圖30]是示出根據一些實施例的圖形處理器指令格式的方塊圖；[圖31]是根據另一實施例的圖形處理器的方塊圖。[圖32A-32B]說明根據一些實施例的圖形處理器命令格式和命令序列；[圖33]示出根據一些實施例的用於資料處理系統的示例性圖形軟體結構；[圖34]是示出根據一個實施例的IP核心開發系統的方塊圖；[圖35]是示出根據一個實施例的示例性系統單晶片積體電路的方塊圖；[圖36]是示出根據一個實施例的附加圖形處理器的方塊圖；及[圖37]是圖示根據實施例的系統單晶片積體電路上的附加示例性圖形處理器的方塊圖。

【發明內容】及【實施方式】

在一些實施例中，圖形處理單元(graphics processing unit,GPU)通訊地耦合到主機/處理器核心以加速圖形運算、機器學習運算、模式分析運算和各種通用GPU(general purpose GPU,GPGPU)功能。GPU可以通過匯流排或另一互連(例如，諸如PCIe或NVLink的高速互連)通訊地耦合到主機處理器/核心。在其他實施例中，GPU可以與核心一樣整合在相同的封裝或晶片上，並通過內部處理器匯流排/互連(即，在封裝或晶片內部)通訊地耦合到核心。不管GPU連接的方式如何，處理器核心都可以以包含在工作描述符中的命令/指令序列的形式將工作分配給GPU。GPU然後使用專用電路/邏輯來有效地處理這些命令/指令。

在以下描述中，闡述了許多具體細節以提供更透徹的理解。然而，對於本領域技術人員來說顯而易見的是，可以在沒有這些具體細節中的一或多個的情況下實踐本文描述的實施例。在其他情況下，公知特徵未被描述以避免模糊本實施例的細節。

系統總覽

圖1是說明經配置以實施本文中所描述的實施例的一個或一個以上態樣的計算系統100的方塊圖。計算系統100包含處理子系統101，其具有經由可包含記憶體集線器105的互連路徑通訊的一或多個處理器102和系統記憶體104。記憶體集線器105可以是晶片組元件內的獨立元件，或者可以整合在一或多個處理器102內。記憶體集線器105經由通訊鏈路106與I/O子系統111耦合。所述I/O子系統111包含I/O集線器107，可以使計算系統100從一或多個輸入裝置(一或多個)108接收輸入。另外，I/O集線器107可以使得可以包含在一或多個處理器102中的顯示控制器，向一或多個顯示裝置110A提供輸出。在一個實施例中，與I/O集線器107耦合的一或多個顯示裝置110A可以包含本地、內部或嵌入式顯示裝置。

在一個實施例中，處理子系統101包含經由匯流排或其他通訊鏈路113耦合到記憶體集線器105的一或多個平行處理器112。通訊鏈路113可以是任何數量的基於標準的通訊鏈路技術或協議之一，例如但不限於PCI Express，或者可以是供應商特定的通訊介面或通訊結構。在一個實施例中，一或多個平行處理器112形成計算集中的平行或向量處理系統，其包含大量處理核心及/或處理群集，諸如許多整合核心(many integrated core,MIC)處理器。在一個實施例中，一或多個平行處理器112形成圖形處理子系統，其可以將像素輸出到經由I/O集線器107耦合的一或多個顯示裝置110A中的一個。一或多個平行處理器112還可以包含顯示控制器和顯示介面(未示出)以致能到一或多個顯示裝置110B的直接連接。

在I/O子系統111內，系統儲存單元114可以連接到I/O集線器107以為計算系統100提供儲存機制。I/O開關116可用於提供介面機制以使I/O集線器107與可整合到平台中的其他元件(例如網路適配器118及/或無線網路適配器119及可以經由一或多個附加裝置120添加的各種其他裝置)之間能夠連接。網路適配器118可以是以太網適配器(Ethernet adapter)或另一有線網路適配器。無線網路適配器119可以包含Wi-Fi、藍芽、近場通訊(near field communication,NFC)或包含一或多個無線電的其他網路裝置中的一或多個。

計算系統100可以包含未明確示出的其他元件，包含USB或其他端口連接、光儲存驅動器、視頻擷取裝置等，也可以連接到I/O集線器107。圖1中互連各種元件的通訊路徑可以使用諸如基於PCI(週邊組件互連(Peripheral Component Interconnect))的協議(例如，PCI-Express)或任何其它匯流排或點對點通訊介面及/或協議(諸如NV-Link高速互連或本領域中已知的互連協議而實施。

在一個實施例中，一或多個平行處理器112結合針對圖形和視頻處理而優化的電路，包含例如視頻輸出電路，且構成圖形處理單元(graphics processing unit,GPU)。在另一實施例中，一或多個平行處理器112結合為通用處理而優化的電路，同時保留在此更詳細描述的底層計算架構。在又一個實施例中，計算系統100的元件可以與單個積體電路上的一或多個其他系統元件整合。例如，一或多個平行處理器112、記憶體集線器105、處理器102和I/O集線器107可以整合到系統單晶片(system on chip,SoC)積體電路中。或者，計算系統100的元件可以被整合到單個封裝中以形成系統封裝(system in package,SIP)配置。在一個實施例中，計算系統100的元件的至少一部分可以被整合到多晶片模組(multi-chip module,MCM)中，其可以與其他多晶片模組互連成模組化計算系統。

將會理解，這裡示出的計算系統100是說明性的，且變化和修改是可能的。包含橋接器的數量和佈置、處理器102的數量及平行處理器112的數量的連接拓撲可以根據需要進行修改。例如，在一些實施例中，系統記憶體104直接連接到處理器102而不是通過橋接器，而其他裝置經由記憶體集線器105和處理器102與系統記憶體104通訊。在其它替代拓撲中，平行處理器112連接到I/O集線器107或直接連接到一或多個處理器102中的一個，而不連接到記憶體集線器105。在其他實施例中，I/O集線器107和記憶體集線器105可以被整合到單晶片中。一些實施例可以包含經由多個插座連接的兩或更多組處理器102，其可以與平行處理器112的兩或更多個實例耦合。

這裡所示的一些特定元件是可選的且可能不包含在計算系統100的所有實現。例如，任何數量的附加卡或週邊裝置可被支撐，或一些元件可被消除。此外，一些架構可以使用不同的術語來用於與圖1中所示的元件類似的元件。例如，記憶體集線器105在一些架構中可以被稱為北橋接器，而I/O集線器107可以被稱為南橋接器。

圖2A示出根據一個實施例的平行處理器200。平行處理器200的各種元件可以使用諸如可編程處理器，專用積體電路(ASIC)或場可程式閘陣列(field programmable gate arrays,FPGA)之類的一或多個積體電路裝置來實現。根據一個實施例，圖示的平行處理器200是圖1所示的一或多個平行處理器112的變體。

在一個實施例中，平行處理器200包含平行處理單元202。平行處理單元包含I/O單元204，其能夠與包含平行處理單元202的其他實例的其他裝置進行通訊。I/O單元204可以直接連接到其他裝置。在一個實施例中，I/O單元204通過使用集線器或交換機介面(例如記憶體集線器105)與其他裝置連接。記憶體集線器105和I/O單元204之間的連接形成通訊鏈路113。在平行處理單元202內，I/O單元204與主機介面206和記憶體交叉開關216連接，其中主機介面206接收指向執行處理運算的命令，且記憶體交叉開關216接收指向執行記憶體運算的命令。

當主機介面206經由I/O單元204接收到命令緩衝器時，主機介面206可以引導工作運算以將這些命令執行到前端208。在一個實施例中，前端208與排程器210耦合，其被配置為將命令或其他工作項目分發到處理集群陣列212。在一個實施例中，排程器210確保處理集群陣列212被正確地配置且在任務被分配到處理集群陣列212的處理集群之前處於有效狀態。在一個實施例中，排程器210經由在微控制器上執行的韌體邏輯來實現。微控制器實現的排程器210可配置為以粗粒度和細粒度執行複雜的排程和工作分配運算，從而實現在處理陣列212上執行的執行緒的快速搶先和上下文切換。在一個實施例中，主機軟體可以經由多個圖形處理門鈴中的一個來證明用於在處理陣列212上排程的工作量。然後，工作量可以通過排程器微控制器內的排程器210邏輯在處理陣列212上自動分配。

處理集群陣列212可以包含多達“N”個處理集群(例如，集群214A、集群214B、到集群214N)。處理集群陣列212的每個集群214A-214N可以執行大量的並發執行緒。排程器210可以使用各種排程及/或工作分配演算法將工作分配給處理集群陣列212的集群214A-214N，這些演算法可以根據為每種類型的程式或計算產生的工作量而變化。排程可以由排程器210動態地處理，或者可以在編譯被配置為由處理集群陣列212執行的程式邏輯的過程中由編譯器邏輯部分地協助。在一個實施例中，處理群集陣列212的不同群集214A-214N可被分配用於處理不同類型的程式或用於執行不同類型的計算。

處理集群陣列212可以被配置為執行各種類型的平行處理運算。在一個實施例中，處理集群陣列212被配置為執行通用平行計算運算。例如，處理集群陣列212可以包含執行處理任務的邏輯，該處理任務包含視頻及/或音頻資料的過濾、執行建模運算(包含實體運算)及執行資料轉換。

在一個實施例中，處理群集陣列212被配置為執行平行圖形處理運算。在平行處理器200被配置為執行圖形處理運算的實施例中，處理群集陣列212可以包含用於支持這些圖形處理運算的執行的附加邏輯，包含但不限於用於執行紋理運算的紋理採樣邏輯，及曲面細分邏輯和其他頂點處理邏輯。另外，處理群集陣列212可以被配置為執行與圖形處理相關的著色器(shader)程式，例如但不限於頂點著色器、曲面細分著色器、幾何著色器和像素著色器。平行處理單元202可以經由I/O單元204從系統記憶體傳輸資料以進行處理。在處理期間，傳輸的資料可以在處理期間被儲存到晶載記憶體(例如，平行處理器記憶體222)，然後被寫回到系統記憶體。

在一個實施例中，當平行處理單元202被用於執行圖形處理時，排程器210可以被配置為將處理工作量分成大致相等大小的任務，以更好地實現向處理集群陣列212的多個集群214A-214N分配圖形處理運算。在一些實施例中，處理群集陣列212的部分可以被配置為執行不同類型的處理。例如，第一部分可以被配置為執行頂點著色和拓撲產生，第二部分可以被配置為執行曲面細分和幾何著色，第三部分可以被配置為執行像素著色或其他屏幕空間運算，以產生用於顯示的渲染圖像。由一或多個集群214A-214N產生的中間資料可被儲存在緩衝器中以允許中間資料在集群214A-214N之間傳輸以用於進一步處理。

在運算期間，處理集群陣列212可以接收經由排程器210執行的處理任務，排程器210從前端208接收定義處理任務的命令。對於圖形處理運算，處理任務可以包含要處理的資料的索引，例如表面(補丁)資料、基元資料、頂點資料及/或像素資料，及定義資料將如何被處理的狀態參數和命令(例如，要執行什麼程式)。排程器210可以被配置為讀取對應於任務的索引或者可以從前端208接收索引。前端208可以被配置成確保處理群集陣列212在由傳入命令緩衝器(例如，批次處理緩衝器、推送緩衝器等)指定的工作量被啟動之前被配置為有效狀態。

平行處理單元202的一或多個實例中的每一個可以與平行處理器記憶體222耦合。平行處理器記憶體222可以經由記憶體交叉開關216被存取，其可以接收來自處理集群陣列212及I/O單元204的記憶體請求。記憶體交叉開關216可以經由記憶體介面218存取平行處理器記憶體222。記憶體介面218可以包含多個分區單元(例如，分區單元220A、分區單元220B、至分區單元220N)，其可各自耦合到平行處理器記憶體222的一部分(例如，記憶體單元)。在一個實施方式中，分區單元220A-220N的數量被配置為等於記憶體單元的數量，使得第一分區單元220A具有對應的第一記憶體單元224A，第二分區單元220B具有對應的記憶體單元224B，第N分區單元220N具有對應的第N個記憶體單元224N。在其他實施例中，分區單元220A-220N的數量可能不等於記憶體裝置的數量。

在各種實施例中，記憶體單元224A-224N可以包含各種類型的記憶體裝置，包含動態隨機存取記憶體(dynamic random access memory,DRAM)或圖形隨機存取記憶體，諸如同步圖形隨機存取記憶體(synchronous graphics random access memory,SGRAM)、包含圖形雙倍資料速率(graphics double data rate,GDDR)記憶體。在一個實施例中，記憶體單元224A-224N還可以包含3D堆疊記憶體，包含但不限於高頻寬記憶體(high bandwidth memory,HBM)。本領域的技術人員將會理解，記憶體單元224A-224N的具體實施方式可以變化，且可以從各種常規設計之一中選擇。諸如幀緩衝器或紋理映射之類的渲染目標可跨越記憶體單元224A-224N被儲存，允許分區單元220A-220N平行地寫入每個渲染目標的部分以有效地使用平行處理器記憶體222的可用頻寬。在一些實施例中，平行處理器記憶體222的本地實例可以被排除在外，以利用與本地快取記憶體結合使用系統記憶體的統一記憶體設計。

在一個實施例中，處理集群陣列212的集群214A-214N中的任何一個可以處理將被寫入平行處理器記憶體222內的任何記憶體單元224A-224N的資料。記憶體交叉開關216可以被配置為將每個集群214A-214N的輸出傳輸到任何分區單元220A-220N或另一集群214A-214N，其可以對輸出執行附加的處理運算。每個集群214A-214N可以通過記憶體交叉開關216與記憶體介面218通訊，以從各種外部記憶體裝置讀取或寫入各種外部記憶體裝置。在一個實施例中，記憶體交叉開關216具有到記憶體介面218的連接以與I/O單元204通訊，及到平行處理器記憶體222的本地實例的連接，使得不同處理集群214A-214N內的處理單元，與系統記憶體、或對平行處理單元202不是本地的其他記憶體進行通訊。在一個實施例中，記憶體交叉開關216可以使用虛擬通道來分離集群214A-214N與分區單元220A-220N之間的流量。

雖然平行處理單元202的單個實例被圖示在平行處理器200內，但是可以包含任何數量實例的平行處理單元202。例如，可以在單個附加卡上提供平行處理單元202的多個實例，或者可以互連多個附加卡。即使不同實例具有不同數量的處理核心，不同數量的本地平行處理器記憶體及/或其他配置差異，平行處理單元202的不同實例也可以被配置為相互運算。例如且在一個實施例中，平行處理單元202的一些實例可以包含相對於其他實例的更高精度的浮點單元。包含平行處理單元202或平行處理器200的一或多個實例的系統可以以各種配置和形式因素來實現，包含但不限於桌上型電腦、膝上型電腦或手持式個人電腦、伺服器、工作站、遊戲主機及/或嵌入式系統。

圖2B是根據一個實施例的分區單元220的方塊圖。在一個實施例中，分區單元220是圖2A的分區單元220A-220N之一的實例。如圖所示，分區單元220包含L2快取記憶體221、幀緩衝器介面225和ROP226(光柵運算單元)。L2快取記憶體221是被配置成執行從交叉開關216和ROP 226的記憶體接收加載和儲存運算的讀/寫快取記憶體。讀取未命中和緊急回寫請求由L2快取記憶體221輸出到幀緩衝介面225進行處理。更新也可以經由幀緩衝器介面225發送到幀緩衝器以進行處理。在一個實施例中，幀緩衝器介面225與平行處理器記憶體中的一個記憶體單元(例如圖2的記憶體單元224A-224N)界接(例如，在平行處理器記憶體222內)。

在圖形應用中，ROP 226是執行諸如模板、z測試、混合等的光柵運算的處理單元。ROP 226隨後輸出儲存在圖形記憶體中的經處理的圖形資料。在一些實施例中，ROP 226包含壓縮邏輯以壓縮寫入記憶體的深度或顏色資料，並解壓縮從記憶體讀取的深度或顏色資料。壓縮邏輯可以是使用多種壓縮演算法中的一種或多種的無損壓縮邏輯。由ROP 226執行的壓縮類型可以基於要壓縮的資料的統計特性而變化。例如，在一個實施例中，在每個圖塊的基礎上對深度和顏色資料執行增量色彩壓縮。

在一些實施例中，ROP 226被包含在每個處理群集(例如，圖2的群集214A-214N)內而不是在分區單元220內。在這樣的實施例中，像素資料的讀取和寫入請求通過記憶體交叉開關216而不是像素片段資料來傳輸。經處理的圖形資料可以顯示在顯示裝置上，諸如圖1的一或多個顯示裝置110之一，被處理器102排定路由以供進一步處理，或被排定路由以供圖2A的平行處理器200內的處理實體之進一步處理。

圖2C是根據一個實施例的平行處理單元內的處理群集214的方塊圖。在一個實施例中，處理群集是圖2的處理群集214A-214N中的一個的實例。處理群集214可以被配置為平行執行多個執行緒，其中術語“執行緒”是指在特定的一組輸入資料上執行的特定程式的實例。在一些實施例中，單指令多資料(single-instruction,multiple-data,SIMD)指令發布技術被用於支持大量執行緒的平行執行而不提供多個獨立的指令單元。在其它實施例中，使用單指令多執行緒(single-instruction,multiple-thread,SIMT)技術來支持大量通常同步的執行緒的平行執行，使用被配置為向每一個處理群集中的一組處理引擎發出指令的公共指令單元。與所有處理引擎通常執行相同指令的SIMD執行機制不同，SIMT執行允許不同執行緒更容易地遵循給定執行緒程式中的不同執行路徑。本領域的技術人員將會理解，SIMD處理機制表示SIMT處理機制的功能子集。

處理集群214的運算可以經由將處理任務分配給SIMT平行處理器的管線管理器232來控制。管線管理器232從圖2的排程器210接收指令，且經由圖形多處理器234及/或紋理單元236來管理那些指令的執行。所示出的圖形多處理器234是SIMT平行處理器的示例性實例。然而，不同架構的各種類型的SIMT平行處理器可以被包含在處理群集214內。圖形多處理器234的一或多個實例可被包含在處理群集214內。圖形多處理器234可以處理資料，且資料交叉開關240可以用於將處理後的資料分發到包含其他著色單元的多個可能目的地中的一個。管線管理器232可以通過指定要分發的處理資料的目的地，透過資料交叉開關240來促進已處理資料的分發。

處理群集214內的每個圖形多處理器234可以包含相同的一組功能執行邏輯(例如算術邏輯單元，加載儲存單元等)。功能執行邏輯可以以管線方式進行配置，在先前的指令完成之前可以發布新的指令。功能執行邏輯支持各種運算，包含整數和浮點運算、比較運算、布林運算、位元移位和各種代數函數的計算。在一個實施例中，可以利用相同的功能單元硬體來執行不同的運算，且可以存在功能單元的任何組合。

傳送到處理群集214的指令構成一個執行緒。在一組平行處理引擎上執行的一組執行緒是一個執行緒組。一個執行緒組在不同的輸入資料上執行相同的程式。執行緒組內的每個執行緒可以被分配給圖形多處理器234內的不同處理引擎。執行緒組可以包含比圖形多處理器234內的處理引擎的數量更少的執行緒。當執行緒組包含比處理引擎的數量更少的執行緒時，處理引擎中的一或多個可能在處理該執行緒組的週期期間閒置。執行緒組還可以包含比圖形多處理器234內的處理引擎的數量更多的執行緒。當執行緒組包含比圖形多處理器234內的處理引擎的數量更多的執行緒時，可以在連續的時脈週期上執行處理。在一個實施例中，可以在圖形多處理器234上同時執行多個執行緒組。

在一個實施例中，圖形多處理器234包含內部快取記憶體以執行加載和儲存運算。在一個實施例中，圖形多處理器234可以放棄內部快取記憶體並使用處理集群214內的快取記憶體(例如，L1快取記憶體308)。每個圖形多處理器234還可以存取在所有處理群集214之間共享的分區單元(例如，圖2的分區單元220A-220N)內的L2快取記憶體，且可以用來在執行緒之間傳輸資料。圖形多處理器234還可以存取晶片外全局記憶體，其可以包含本地平行處理器記憶體及/或系統記憶體中的一或多個。平行處理單元202外部的任何記憶體可以用作全局記憶體。在處理集群214包含圖形多處理器234的多個實例的實施例，可共享可儲存在L1快取記憶體308中的公共指令和資料。

每個處理群集214可以包含被配置為將虛擬位址映射到實體位址的MMU245(記憶體管理單元)。在其他實施例中，MMU245的一或多個實例可以駐留在圖2的記憶體介面218內。MMU245包含用於將虛擬位址映射到圖塊的實體位址且可選地包含快取線索引的一組頁面表項(page table entries,PTEs)。MMU245可以包含可駐留在圖形多處理器234或L1快取記憶體或處理集群214內的位址轉換後備緩衝器(translation lookaside buffers,TLB)或快取記憶體。處理實體位址以分佈表面資料存取位置以允許分區單元之間的高效請求交錯(interleaving)。快取記憶體線索引可用於確定對快取記憶體線的請求是命中還是未命中。

在圖形和計算應用中，處理群集214可以被配置為使得每個圖形多處理器234耦合到紋理單元236以執行紋理映射運算，例如確定紋理樣本位置，讀取紋理資料和過濾紋理資料。紋理資料從內部紋理L1快取記憶體(未示出)或者在一些實施例中從圖形多處理器234內的L1快取記憶體讀取，且根據需要從L2快取記憶體、本地平行處理器記憶體或系統記憶體中讀取。每個圖形多處理器234將處理後的任務輸出到資料交叉開關240，以將處理後的任務提供給另一處理群集214，用於進一步處理或經由記憶體交叉開關216將處理後的任務儲存在L2快取記憶體、本地平行處理器記憶體或系統記憶體中。preROP 242(前光柵運算單元)被配置為從圖形多處理器234接收資料，將資料引導到ROP單元，ROP單元可以如本文中所描述的那樣與分區單元一起定位(例如，圖2的分區單元220A-220N)。preROP242單元可以對顏色混合進行優化、組織像素顏色資料及執行位址轉換。

應該理解，這裡描述的核心架構是說明性的，且變化和修改是可能的。處理集群214內可以包含任何數量的處理單元，例如圖形多處理器234、紋理單元236、preROPs 242等。此外，雖然僅示出一個處理群集214，但是如本文所述的平行處理單元可以包含處理群集214的任何數量的實例。在一個實施例中，每個處理集群214可以被配置為獨立於使用分離的和不同的處理單元、L1快取記憶體等的其他處理集群214進行運算。

圖2D示出根據一個實施例的圖形多處理器234。在這樣的實施例中，圖形多處理器234與處理群集214的管線管理器232耦合。圖形多處理器234具有一執行管線，其包含但不限於指令快取記憶體252、指令單元254、位址映射單元256、暫存器檔258、一或多個通用圖形處理單元(general purpose graphics processing unit,GPGPU)核心262及一個或更多的加載/儲存單元266。GPGPU核心262和加載/儲存單元266經由記憶體和快取記憶體互連268與快取記憶體272和共享記憶體270耦合。

在一個實施例中，指令快取記憶體252從管線管理器232接收要執行的指令流。這些指令被快取在指令快取記憶體252中並被指令單元254排程執行。指令單元254可以將指令分派為執行緒組(例如，扭曲(warps))，執行緒組的每個執行緒被分配給GPGPU核心262內的不同執行單元。指令可以通過在統一位址空間內指定位址來存取本地、共享或全局位址空間中的任何一個。位址映射單元256可用於轉換在統一的位址空間中的位址成可以由加載/儲存單元266可存取的不同的記憶體位址。

暫存器檔258為圖形多處理器324的功能單元提供一組暫存器。暫存器檔258為連接到圖形多處理器324的功能單元(例如，GPGPU核心262，加載/儲存單元266)的資料路徑的運算元提供臨時儲存。在一個實施例中，暫存器檔258在每個功能單元之間被劃分，使得每個功能單元被分配暫存器檔258的專用部分。在一個實施例中，暫存器檔258在由圖形多處理器324執行的不同的扭曲之間劃分。

GPGPU核心262可以各自包含用於執行圖形多處理器324的指令的浮點單元(floating point units,FPU)及/或整數算術邏輯單元(arithmetic logic units,ALU)。根據實施例，GPGPU核心262可以在架構上類似或者可以在架構上不同。例如且在一個實施例中，GPGPU核心262的第一部分包含單精度FPU和整數ALU，而GPGPU核心的第二部分包含雙精度FPU。在一個實施例中，FPU可以實現用於浮點運算的IEEE754-2008標準或啟用可變精度浮點運算。圖形多處理器324可以另外包含一或多個固定功能或特殊功能單元以執行諸如複製矩形或像素混合運算的特定功能。在一個實施例中，一或多個GPGPU核心還可以包含固定的或特殊的功能邏輯。

在一個實施例中，GPGPU核心262包含能夠對多組資料執行單指令的SIMD邏輯。在一個實施例中，GPGPU核心262可以實體地執行SIMD4、SIMD8和SIMD16指令，並在邏輯上執行SIMD1、SIMD2和SIMD32指令。用於GPGPU核心的SIMD指令可以在編譯時由著色器編譯器產生，或者在執行為單個程式多資料(single program multiple data,SPMD)或SIMT架構編寫和編譯的程式時自動產生。配置用於SIMT執行模型的程式的多個執行緒可通過單個SIMD指令執行。例如且在一個實施例中，執行相同或相似運算的八個SIMT執行緒可以經由單個SIMD8邏輯單元平行執行。

記憶體和快取記憶體互連268是互連網路，其將圖形多處理器324的每個功能單元連接到暫存器檔258 和共享記憶體270。在一個實施例中，記憶體和快取記憶體互連268是允許加載/儲存單元266在共享記憶體270和暫存器檔258之間實現加載和儲存運算的交叉開關互連。暫存器檔258可以以與GPGPU核心262相同的頻率運算，因此GPGPU核心262與暫存器檔258之間的資料傳輸是非常低的等待時間。共享記憶體270可用於致能在圖形多處理器234內的功能單元上執行的執行緒之間的通訊。例如，快取記憶體272可以用作資料快取記憶體，以快取在功能單元和紋理單元236之間通訊的紋理資料。共享記憶體270也可以用作管理快取的程式。除了儲存在快取記憶體272內的自動快取的資料之外，在GPGPU核心262上執行的執行緒還可以以編程方式在共享記憶體內儲存資料。

圖3A-3B示出根據實施例的附加圖形多處理器。所說明的圖形多處理器325、350是圖2C的圖形多處理器234的變體。所示出的圖形多處理器325、350可以被配置為能夠同時執行大量執行的執行緒的串流多處理器(streaming multiprocessor,SM)。

圖3A示出根據另一實施例的圖形多處理器325。圖形多處理器325包含相對於圖2D的圖形多處理器234的多個額外的執行資源單元實例。例如，圖形多處理器325可以包含指令單元332A-332B、暫存器檔334A-334B和紋理單元344A-344B的多個實例。圖形多處理器325還包含多組圖形或計算執行單元(例如，GPGPU核心336A-336B、GPGPU核心337A-337B、GPGPU核心338A-338B)和多組的加載/儲存單元340A-340B。在一個實施例中，執行資源單元具有公共指令快取記憶體330、紋理及/或資料快取記憶體342及共享記憶體346。

各種元件可以經由互連結構327進行通訊。在一個實施例中，互連結構327包含一或多個交叉開關，以實現圖形多處理器325的各種元件之間的通訊。在一個實施例中，互連結構327獨立的高速網路結構層，圖形多處理器325的每個元件堆疊在其上。圖形多處理器325的元件經由互連結構327與遠程元件通訊。例如，GPGPU核心336A-336B、337A-337B和3378A-338B均可以經由互連結構327與共享記憶體346通訊。互連結構327可以仲裁圖形多處理器325內的通訊以確保元件之間的公平頻寬分配。

圖3B示出根據另一實施例的圖形多處理器350。如圖2D、3A所示，圖形處理器包含多組執行資源356A-356D，其中每組執行資源包含多個指令單元、暫存器檔、GPGPU核心和加載儲存單元。執行資源356A-356D可以與紋理運算的紋理單元360A-360D一起工作，同時共享指令快取記憶體354和共享記憶體362。在一個實施例中，執行資源356A-356D可以共享指令快取記憶體354和共享記憶體362及紋理及/或資料快取記憶體358A-358B的多個實例。各種元件可以通過類似於圖3A的互連結構327的互連結構352進行通訊。

本領域的技術人員將會理解，圖1、2A-2D和3A-3B是描述性的，且不限制本實施例的範圍。因此，本文描述的技術可以在任何適當配置的處理單元上實現，包含但不限於一或多個行動應用處理器，包含多核心CPU的一或多個桌上型電腦或伺服器中央處理單元(CPU)、一或多個平行處理單元，諸如圖2的平行處理單元202及一或多個圖形處理器或專用處理單元，而不偏離本文描述的實施例的範圍。

在一些實施例中，如本文所述的平行處理器或GPGPU可通訊地耦合到主機/處理器核心以加速圖形運算、機器學習運算、模式分析運算和各種通用GPU(GPGPU)功能。GPU可以通過匯流排或其他互連(例如，諸如PCIe或NVLink的高速互連)通訊地耦合到主機處理器/核心。在其他實施例中，GPU可以與核心一樣整合在相同的封裝或晶片上，並通過內部處理器匯流排/互連(即，在封裝或晶片內部)通訊地耦合到核心。不管GPU連接的方式如何，處理器核心都可以以包含在工作描述符中的命令/指令序列的形式將工作分配給GPU。GPU然後使用專用電路/邏輯來有效地處理這些命令/指令。

GPU承載處理器互連技術

圖4A示出其中多個GPU410-413通過高速鏈路440-443(例如，匯流排、點對點互連等)通訊地耦合到多個多核心處理器405-406的示例性架構)。在一個實施例中，根據實施，高速鏈路440-443支持4GB/s、30GB/s、80GB/s或更高的通訊吞吐量(throughput)。可以使用各種互連協議，包含但不限於PCIe 4.0或5.0和NVLink 2.0。然而，本發明的基本原理不限於任何特定的通訊協議或吞吐量。

另外，在一個實施例中，兩或更多個GPU 410-413通過高速鏈路444-445互連，這可以使用與用於高速鏈路440-443的協議/鏈路相同或不同的協議/鏈路來實現。類似地，兩或更多個多核心處理器405-406可以通過高速鏈路433連接，所述高速鏈路433可以是以20GB/s、30GB/s、120GB/s或更高的速度運行的對稱多處理器(symmetric multi-processor,SMP)匯流排。可選地，圖4A中所示的各種系統元件之間的全部通訊可以使用相同的協議/鏈路(例如，通過公共互連結構)來完成。然而，如上所述，本發明的基本原理不限於任何特定類型的互連技術。

在一個實施例中，每個多核心處理器405-406分別經由記憶體互連430-431通訊地耦合到處理器記憶體401-402，且每個GPU 410-413通過GPU記憶體互連450-453通訊地耦合到GPU記憶體420-423。記憶體互連430-431和450-453可以使用相同或不同的記憶體存取技術。作為示例而非限制，處理器記憶體401-402和GPU記憶體420-423可以是揮發性記憶體，諸如動態隨機存取記憶體(dynamic random access memory,DRAM)(包含堆疊的DRAM)、圖形DDR SDRAM(Graphics DDR SDRAM,GDDR)(例如，GDDR5、GDDR6)或高頻寬記憶體(High Bandwidth Memory,HBM)，及/或可以是非揮發性記憶體，諸如3D XPoint或Nano-RAM的。在一個實施例中，記憶體的一些部分可以是揮發性記憶體，且另一部分可以是非揮發性記憶體(例如，使用兩級記憶體(two-level memory,2LM)階層)。

如下所述，儘管各種處理器405-406和GPU 410-413可以分別實體地耦合到特定記憶體401-402、420-423，但是可以實現統一的記憶體架構，其中相同的虛擬系統位址空間(也稱為“有效位址”空間)分佈在所有各種實體記憶體中。例如，處理器記憶體401-402每個可以包含64GB的系統記憶體位址空間，且GPU記憶體420-423每個可以包含32GB的系統記憶體位址空間(在該示例中導致總共256GB的可尋址記憶體)。

圖4B示出根據一個實施例的用於多核心處理器407與圖形加速模組446之間的互連的附加細節。圖形加速模組446可包含整合於經由高速鏈路440耦合到處理器407的線路卡上的一或多個GPU晶片。或者，圖形加速模組446可以與處理器407整合在相同的封裝或晶片上。

所示出的處理器407包含多個核心460A-460D，每個核心具有轉換後備緩衝區461A-461D和一或多個快取記憶體462A-462D。核心可以包含用於未示出，以避免模糊本發明的基本原理的執行指令和處理資料的各種其他元件(例如，指令讀取單元、分支預測單元、解碼器、執行單元、重新排序緩衝器等)。快取記憶體462A-462D可以包含級別1(L1)和級別2(L2)快取記憶體。另外，一或多個共享快取記憶體426可以被包含在快取記憶體階層結構中且被多組核心460A-460D共享。例如，處理器407的一個實施例包含24個核心，每個核心具有其自己的L1快取記憶體、12個共享L2快取記憶體及12個共享L3快取記憶體。在該實施例中，L2和L3快取記憶體中的一個被兩個相鄰核心共享。處理器407和圖形加速器整合模組446與系統記憶體441連接，其可以包含處理器記憶體401-402。

通過同調匯流排464上的核心間通訊，為儲存在各種快取記憶體462A-462D、456和系統記憶體441中的資料和指令保持同調。例如，每個快取記憶體可以具有與其關聯的快取同調邏輯/電路，以回應於對特定快取線檢測的讀取或寫入而在同調匯流排464上進行通訊。在一個實現中，快取記憶體監聽(cache snooping)協議在同調匯流排464上實現以監聽快取記憶體存取。快取記憶體監聽/同調技術是本領域技術人員很好理解的，為了避免混淆本發明的基本原理，這裡不再詳細描述。

在一個實施例中，代理電路(proxy circuit)425將圖形加速模組446通訊地耦合到同調匯流排464，允許圖形加速模組446作為核心的對等體(peer)參與快取記憶體同調協議。特別地，介面435通過高速鏈路440(例如，PCIe匯流排，NVLink等)向代理電路425提供連接，且介面437將圖形加速模組446連接到高速鏈路440。

在一個實現中，加速器積體電路436代表圖形加速模組446的多個圖形處理引擎431、432、N提供快取記憶體管理、記憶體存取、上下文管理和中斷管理服務。圖形處理引擎431、432、N每個可以包含單獨的圖形處理單元(graphics processing unit,GPU)。可選地，圖形處理引擎431、432、N可包含GPU內的不同類型的圖形處理引擎，諸如圖形執行單元、媒體處理引擎(例如，視頻編碼器/解碼器)、取樣器和blit引擎。換句話說，圖形加速模組可以是具有多個圖形處理引擎431-432、N或圖形處理引擎431-432的GPU，N可以是整合在公共包(common package)、線卡(line card)或晶片上的各個GPU。

在一個實施例中，加速器積體電路436包含用於執行各種記憶體管理功能的記憶體管理單元(memory management unit,MMU)439，諸如虛擬到實體記憶體轉換(也被稱為有效到實際記憶體轉換)和用於存取系統記憶體441的記憶體存取協議。MMU439還可以包含用於將虛擬/有效快取到實體/實位址轉換的轉換後備緩衝器(translation lookaside buffer,TLB)(未示出)。在一個實現中，快取記憶體438儲存用於圖形處理引擎431-432、N有效存取的命令和資料。在一個實施例中，儲存在快取記憶體438和圖形記憶體433-434、N中的資料與核心快取記憶體462A-462D、456和系統記憶體411保持同調。如上所述，這可以通過代表快取記憶體438和記憶體433-434、N(例如，向快取記憶體438發送與處理器快取記憶體462A-462D、456的快取線的修改/存取有關的更新及從快取記憶體438接收更新)參與快取記憶體同調機制的代理電路425而完成。

一組暫存器445儲存由圖形處理引擎431-432、N執行的執行緒的上下文資料，且上下文管理電路448管理執行緒上下文。例如，上下文管理電路448可以執行保存和恢復運算以在上下文切換期間保存和恢復各種執行緒的上下文(例如，在第一執行緒被保存且第二執行緒被儲存的情況下，使得第二執行緒可以由圖形處理引擎執行)。例如，在上下文切換時，上下文管理電路448可以將當前暫存器值儲存到記憶體中的指定區域(例如，由上下文指標標識)。它可能會在返回上下文時恢復暫存器值。在一個實施例中，中斷管理電路447接收並處理從系統裝置接收的中斷。

在一個實現中，來自圖形處理引擎431的虛擬/有效位址由MMU439轉換為系統記憶體411中的實際/實體位址。加速器積體電路436的一個實施例支持多個(例如4、8、16)圖形加速器模組446及/或其他加速器裝置。圖形加速器模組446可以專用於在處理器407上執行的單個應用程式，或者可以在多個應用程式之間共享。在一個實施例中，呈現虛擬化圖形執行環境，其中圖形處理引擎431-432、N的資源與多個應用程式或虛擬機(virtual machine,VM)共享。資源可以被細分為基於與VM及/或應用相關聯的處理要求和優先級而被分配給不同的VM及/或應用的“切片(slice)”。

因此，加速器積體電路充當連接到針對圖形加速模組446的系統的橋接器，並提供位址轉換和系統記憶體快取服務。另外，加速器積體電路436可以為主處理器提供虛擬化設施以管理圖形處理引擎的虛擬化、中斷和記憶體管理。

因為圖形處理引擎431-432、N的硬體資源明確地映射到由主處理器407看到的實位址空間，所以任何主處理器都可以使用有效位址值直接尋址這些資源。在一個實施例中，加速器積體電路436的一個功能是圖形處理引擎431-432、N的實體分離，使得它們作為獨立單元出現在系統上。

如所提及的，在所示實施例中，一或多個圖形記憶體433-434、M分別耦合到圖形處理引擎431-432、N中的每一個。圖形記憶體433-434、M儲存由圖形處理引擎431-432、N中的每一個處理的指令和資料。圖形記憶體433-434、M可以是諸如DRAM(包含堆疊的DRAM)、GDDR記憶體(例如GDDR5、GDDR6)或HBM及/或可以是諸如3D XPoint或Nano-RAM的揮發性記憶體。

在一個實施例中，為了減少高速鏈路440上的資料通訊量，使用偏置技術來確保儲存在圖形記憶體433-434、M中的資料是將由圖形處理引擎431-432、N最頻繁使用的資料，且優選地不被核心460A-460D使用(至少不頻繁)。類似地，偏置機制試圖保持核心和系統記憶體411的快取記憶體462A-462D、456內的核心(且優選地不包含圖形處理引擎431-432、N)所需的資料。

圖4C示出其中加速器積體電路436被整合在處理器407內的另一實施例。在該實施例中，圖形處理引擎431-432、N經由介面437和介面435直接通過高速鏈路440與加速器積體電路436通訊(其也可以利用任何形式的匯流排或介面協議)。加速器積體電路436可以執行與關於圖4B所描述的運算相同的運算，但是由於其靠近同調匯流排462和快取記憶體462A-462D、426，所以可能處於較高的吞吐量。

一個實施例支持包含專用處理編程模型(無圖形加速模組虛擬化)和共享編程模型(具有虛擬化)的不同編程模型。後者可以包含由加速器積體電路436控制的編程模型和由圖形加速模組446控制的編程模型。

在專用處理模型的一個實施例中，圖形處理引擎431-432、N專用於單個作業系統下的單個應用或處理。單個應用程式可以將其他應用程式請求集中到圖形引擎431-432、N，從而在VM/分區內提供虛擬化。

在專用程式編程模型中，圖形處理引擎431-432、N可以由多個VM/應用程式分區共享。共享模型需要系統管理程式虛擬化圖形處理引擎431-432、N，以允許每個作業系統存取。對於沒有管理程式的單分區系統，圖形處理引擎431-432、N由作業系統擁有。在這兩種情況下，作業系統都可以虛擬化圖形處理引擎431-432、N以提供對每個處理或應用程式的存取。

對於共享編程模型，圖形加速模組446或獨立圖形處理引擎431-432、N使用處理句柄(process handle)來選擇處理元素。在一個實施例中，處理元件被儲存在系統記憶體411中，且可使用本文描述的有效位址到實位址轉換技術來尋址。處理句柄可以是當向圖形處理引擎431-432、N(即，呼叫將處理元素(process element)添加到處理元素鏈接列表的系統軟體)註冊其上下文時提供給主處理的實現特定值。處理句柄的低16位元可以是處理元素鍊表內的處理元素的偏移量。

圖4D示出示例性加速器整合切片490。如這裡所使用的，“切片(slice)”包含加速器積體電路436的處理資源的指定部分。系統記憶體411內的應用程式有效位址空間482儲存處理元素483。在一個實施例中，處理元件483回應於來自在處理器407上執行的應用程式480的GPU調用481而被儲存。處理元素483包含相應應用程式480的處理狀態。包含在處理元件483中的工作描述符(work descriptor,WD)484可以是應用程式所請求的單個作業，或者可以包含指向作業佇列的指標。在後一種情況下，WD 484是指向應用程式位址空間482中的作業請求佇列的指標。

圖形加速模組446及/或獨立圖形處理引擎431-432、N可以由系統中的全部或部分處理共享。本發明的實施例包含用於建立處理狀態並將WD484發送到圖形加速模組446以在虛擬環境中開始作業的基礎設施。

在一個實現中，專用處理編程模型是特定實現的。在該模型中，單個處理擁有圖形加速模組446或單獨的圖形處理引擎431。因為圖形加速模組446由單個處理擁有，所以在圖形加速模組446被分配時，管理程式初始化加速器積體電路436以獲取所屬分區，且作業系統初始化加速器積體電路436以獲取所屬處理。

在運算中，加速器整合切片490中的WD讀取單元491讀取下一個WD484，其包含將由圖形加速模組446的圖形處理引擎之一完成的工作的指示。如圖所示，來自WD484的資料可以儲存在暫存器445中並由MMU439、中斷管理電路447及/或上下文管理電路446使用。例如，MMU439的一個實施例包含用於存取OS虛擬位址空間485內的段/頁表(segment/page table)486的段/頁面鏈路(page walk)選擇電路。中斷管理電路447可以處理從圖形加速模組446接收到的中斷事件492。當執行圖形運算時，由圖形處理引擎431-432、N產生的有效位址493由MMU439轉換為實位址。

在一個實施例中，為每個圖形處理引擎431-432、N及/或圖形加速模組446複製同一組暫存器445，且可以由管理程式或作業系統初始化。這些複製的暫存器中的每一個可以被包含在加速器整合切片490中。表1中示出可以由管理程式初始化的示例性暫存器。

表2中示出可以由作業系統初始化的示例性暫存器。

在一個實施例中，每個WD484特定於特定圖形加速模組446及/或圖形處理引擎431-432、N。它包含圖形處理引擎431-432、N需要完成其工作的所需所有資訊，或者它可以是指向應用程式已經建立了要完成的工作命令佇列的記憶體位置的指標。

圖4E示出共享模型的一個實施例的附加細節。該實施例包含其中儲存處理元素列表499的管理程式實位址空間498。管理程式實位址空間498可以通過管理程式496存取，管理程式496虛擬化作業系統495的圖形加速模組引擎。

共享編程模型允許來自系統中的分區的全部或子集的全部或子集的處理，使用圖形加速模組446。有兩種編程模型，其中圖形加速模組446由多個處理和分區共享：時間切片共享和圖形指向共享。

在該模型中，系統管理程式496擁有圖形加速模組446且使其功能對所有作業系統495可用。對於圖形加速模組446來支持系統管理程式496的虛擬化，圖形加速模組446可遵守以下要求：1)應用程式的作業請求必須是自律的(即，狀態不需要在作業之間維持)，或者圖形加速模組446必須提供上下文保存和恢復機制。2)應用程式的作業請求由圖形加速模組446保證在指定的時間量內完成，包含任何翻譯錯誤，或者圖形加速模組446提供搶先作業處理的能力。3)當在定向共享編程模型中運算時，必須保證圖形加速模組446之間的公平性。

在一個實施例中，對於共享模型，需要應用程式480以圖形加速模組446類型、工作描述符(work descriptor,WD)、權限遮罩暫存器(authority mask register,AMR)值和上下文保存/恢復區域指標(context save/restore area pointer,CSRP)來進行作業系統495系統呼叫。圖形加速模組446型描述了系統呼叫的目標加速功能。圖形加速模組446類型可以是特定於系統的值。WD特別針對圖形加速模組446進行格式化，且可以採用圖形加速模組446命令，指向用戶定義結構的有效位址指標、指向佇列命令的有效位址指標或任何其他資料的形式結構來描述待由圖形加速模組446完成的工作。在一個實施例中，AMR值是用於當前處理的AMR狀態。傳遞給作業系統的值與設置AMR的應用程式類似。如果加速器積體電路436和圖形加速模組446的實現不支持用戶權限遮罩覆蓋暫存器(User Authority Mask Override Register,UAMOR)，則作業系統可以在管理程式呼叫中通過AMR之前將當前UAMOR值應用於AMR值。在將AMR放入處理元件483之前，管理程式496可以可選地應用當前權限遮罩覆蓋暫存器(Authority Mask Override Register,AMOR)值。在一個實施例中，CSRP是包含應用程式位址空間482中的區域的有效位址的暫存器445中的一個，用於圖形加速模組446保存和恢復上下文狀態。如果不需要在作業之間保存狀態或作業被搶先，則此指標是可選的。上下文保存/恢復區域可能是固定的系統記憶體。

在接收到系統呼叫時，作業系統495可以驗證應用程式480已經註冊且被授權使用圖形加速模組446。作業系統495然後用表3中所示的資訊，呼叫管理程式496。

一旦接收到管理程式呼叫，管理程式496就驗證作業系統495已經註冊並被授權使用圖形加速模組446。管理程式496然後將處理元素483放入用於相應圖形加速模組446類型的處理元素鏈接列表中。處理元素可能包含表4中所示的資訊。

在一個實施例中，管理程式初始化多個加速器整合切片490暫存器445。

如圖4F所示，本發明的一個實施例採用可通過用於存取實體處理器記憶體401-402和GPU記憶體420-423的公共虛擬記憶體位址空間尋址的統一記憶體。在該實現中，在GPU410-413上執行的運算利用相同的虛擬/有效記憶體位址空間來存取處理器記憶體401-402，反之亦然，由此簡化可編程性。在一個實施例中，將虛擬/有效位址空間的第一部分分配給處理器記憶體401，將第二部分分配給第二處理器記憶體402，將第三部分分配給GPU記憶體420，等等。整個虛擬/有效記憶體空間(有時稱為有效位址空間)由此分佈在每個處理器記憶體401-402和GPU記憶體420-423中，允許任何處理器或GPU存取任何具有虛擬位址映射到該記憶體的實體記憶體。

在一個實施例中，一或多個MMU439A-439E內的偏置/同調管理電路494A-494E確保主機處理器(例如405)和GPU410-413的快取記憶體之間的快取同調，並實現指示應該儲存某些類型資料的實體記憶體。儘管如圖4F示出偏置/同調管理電路494A-494E的多個實例，偏置/同調電路可以在一或多個主機處理器405的MMU內及/或在加速器積體電路436內實現。

一個實施例允許將GPU連接的記憶體420-423映射為系統記憶體的一部分，並使用共享虛擬記憶體(shared virtual memory,SVM)技術進行存取，但不會遭受與全系統快取同調相關的典型性能缺陷。將GPU連接的記憶體420-423作為系統記憶體進行存取而沒有繁重的快取同調管理負擔的能力為GPU卸載提供了有益的運算環境。這種配置允許主機處理器405軟體設置運算元並存取計算結果，而無需傳統I/O直接記憶體存取(direct memory access,DMA)資料副本的管理負擔。這些傳統拷貝關於驅動程式呼叫、中斷和記憶體映射I/O(memory mapped I/O,MMIO)存取，其相對於簡單記憶體存取來說都是低效的。同時，在沒有快取同調管理負擔的情況下存取GPU連接的記憶體420-423的能力對於卸載計算的執行時間可能是關鍵的。例如，在具有大量串流寫入記憶體業務的情況下，快取同調管理負擔可以顯著降低由GPU410-413看到的有效寫入頻寬。運算元設置的效率、結果存取的效率及GPU計算的效率都在確定GPU卸載的有效性方面發揮著重要作用。

在一個實現中，GPU偏差和主機處理器偏差之間的選擇由偏差跟踪器資料結構驅動。例如，可以使用偏置表，其可以是每個GPU連接的記憶體頁面包含1或2個位元的頁面粒度結構(page-granular structure)(即，以記憶體頁面的粒度來控制)。偏置表可以在一或多個GPU連接的記憶體420-423的被盜記憶體範圍中實現，在GPU410-413中具有或不具有偏置快取(例如，以頻繁/最近快取偏置表的使用條目(entry))。或者，整個偏置表可以保持在GPU內。

在一個實現中，在實際存取GPU記憶體之前存取與對GPU連接的記憶體420-423的每個存取相關聯的偏置表條目，導致以下運算。首先，來自GPU410-413，在GPU偏差中發現其頁面的本地請求，被直接轉發到對應的GPU記憶體420-423。在主機偏差中發現其頁面的來自GPU的本地請求，被轉發給處理器405(例如，如上所述通過高速鏈路)。在一個實施例中，來自處理器405，在主機處理器偏差中找到所請求的頁面的請求，像正常的記憶體讀取一樣完成請求。或者，針對GPU偏置頁面的請求可以被轉發給GPU410-413。如果GPU當前未使用該頁面，則GPU可以將該頁面轉換為主機處理器偏置。

頁面的偏置狀態可以通過基於軟體的機制、硬體輔助的基於軟體的機制來改變，或者對於有限的情況，可以通過純基於硬體的機制來改變。

一種改變偏置狀態的機制採用了API呼叫(例如OpenCL)，該呼叫又呼叫GPU的裝置驅動程式，該驅動程式又向GPU發送消息(或命令描述符進入佇列)，指示它改變偏差狀態，且對於某些轉換，在主機中執行快取刷新運算。快取刷新運算對於從主機處理器405偏置到GPU偏置的轉換是需要的，但是對於相反的轉換不需要。

在一個實施例中，快取同調通過暫時呈現主處理器405不可快取的GPU偏置頁面來維持。為了存取這些頁面，取決於實現，處理器405可以請求來自GPU410的存取，GPU410可以立即授權或者不授權存取。因此，為了減少處理器405與GPU410之間的通訊，有利的是確保GPU偏置頁面是GPU所需但不是主處理器405所需的頁面，反之亦然。

圖形處理管線

圖5示出根據一個實施例的圖形處理管線500。在一個實施例中，圖形處理器可以實現圖示的圖形處理管線500。圖形處理器可以被包含在這裡描述的平行處理子系統內，諸如圖2的平行處理器200，在一個實施例中，圖2是圖1的平行處理器112的變體。如本文所述，各種平行處理系統可以經由平行處理單元(例如，圖2的平行處理單元202)的一或多個實例來實現圖形處理管線500。例如，著色器單元(例如，圖3的圖形多處理器234)可以被配置為執行頂點處理單元504、曲面細分控制處理單元508、曲面細分評估處理單元512、幾何處理單元516和片段/像素處理單元524。資料組譯器502、基元組譯器506、514、518、曲面細分單元510、光柵器522和光柵運算單元526的功能也可以由處理集群內的其他處理引擎(例如，圖3的處理集群214)和相應的分區單元(例如，圖2的分區單元220A-220N)執行。圖形處理管線500也可以使用用於一或多個功能的專用處理單元來實現。在一個實施例中，圖形處理管線500的一或多個部分可以由通用處理器(例如，CPU)內的平行處理邏輯來執行。在一個實施例中，圖形處理管線500的一或多個部分可以經由記憶體介面528存取晶載記憶體(例如，如圖2中的平行處理器記憶體222)，記憶體介面528可以是圖2的記憶體介面218。

在一個實施例中，資料組譯器502是收集表面和基元的頂點資料的處理單元。然後資料組譯器502將包含頂點屬性的頂點資料輸出到頂點處理單元504。頂點處理單元504是可編程執行單元，其執行頂點著色器程式、照明和變換頂點著色器程式指定的頂點資料。頂點處理單元504讀取儲存在快取、本地或系統記憶體中用於處理頂點資料的資料，且可以編程為將頂點資料從基於物件的坐標表示轉換為世界空間坐標空間或歸一化裝置坐標空間。

基元組譯器506的第一實例從頂點處理單元50接收頂點屬性。基元組譯器506讀數根據需要儲存頂點屬性，構造圖形基元以通過曲面細分控制處理單元508進行處理。圖形基元包含三角形、線段、點、補丁等等，用各種圖形處理應用編程介面(application programming interface,API)支持。

曲面細分控制處理單元508將輸入頂點視為幾何補丁的控制點。控制點從來自補丁的輸入表示(例如，補丁的基部)變換為適用於由曲面細分評估處理單元512使用於表面評估的表示。曲面細分控制處理單元508還可以計算幾何補丁的邊緣的曲面細分因子。曲面細分因子適用於單個邊緣，並量化與邊緣相關的細節的視點相關水平。曲面細分單元510被配置為接收補丁邊緣的曲面細分因子並將補丁細分為多個幾何基元，諸如線、三角形或四邊形基元，其被發送到曲面細分評估處理單元512。曲面細分評估處理單元512對細分的補丁的參數化坐標進行運算，以產生與幾何基元關聯的每個頂點的表面表示和頂點屬性。

基元組譯器514的第二實例接收來自曲面細分評估處理單元512的頂點屬性，根據需要讀取儲存的頂點屬性，並構建圖形基元以供幾何處理單元516處理。幾何處理單元516是可編程執行單元，其執行幾何著色器程式以變換由幾何著色器程式指定的從基元組譯器514接收的圖形基元。在一個實施例中，幾何處理單元516被編程為將圖形基元細分成一或多個新的圖形基元且計算用於光柵化新的圖形基元的參數。

在一些實施例中，幾何處理單元516可以添加或刪除幾何串流中的元素。幾何處理單元516將指定新圖形基元的參數和頂點輸出到基元組譯器518。基元組譯器518從幾何處理單元516接收參數和頂點，並構建圖形基元以供視口比例、剔除和剪裁單元520處理。幾何處理單元516讀取儲存在平行處理器記憶體或系統記憶體中的資料以用於處理幾何資料。視口比例、剔除和剪裁單元520執行剪裁、剔除和視口縮放，並將處理後的圖形基元輸出到光柵器522。

光柵器522可以執行深度剔除和其他基於深度的優化。光柵器522還對新圖形基元執行掃描轉換，以產生片段並將這些片段和關聯的覆蓋資料輸出到片段/像素處理單元524。片段/像素處理單元524是被配置為執行片段著色器程式或像素著色器程式的可編程執行單元。片段/像素處理單元524變換如片段或像素著色器程式所指定的，從光柵器522接收的片段或像素。例如，片段/像素處理單元524可以被編程為執行運算包含但不限於紋理映射、著色、混合、紋理校正和透視校正，以產生輸出到光柵運算單元526的陰影片段或像素。片段/像素處理單元524可以讀取儲存在平行處理器記憶體或系統記憶體中的資料，以在處理片段資料時使用。片段或像素著色器程式可以被配置成根據為處理單元配置的採樣速率，在採樣、像素、圖塊或其他粒度上變暗。

光柵運算單元526是執行光柵運算的處理單元，包含但不限於模板、z測試、混合等，且將像素資料作為處理的圖形資料輸出以儲存在圖形記憶體(例如圖2的平行處理器記憶體222及/或圖1中的系統記憶體104，顯示在一或多個顯示裝置110上，或通過一或多個處理器102或者處理器112中的一個進行進一步處理。在一些實施例中，光柵運算單元526被配置為壓縮寫入記憶體的z或顏色資料，並解壓縮從記憶體讀取的z或顏色資料。

機器學習概述

機器學習演算法是一種可以基於一組資料進行學習的演算法。機器學習演算法的實施例可以被設計成在資料集內進行高階抽象化。例如，可以使用圖像識別演算法來確定給定輸入屬於哪個類別；迴歸演算法可以輸出給定輸入的數值；且模式識別演算法可以用於產生翻譯的文本或執行文本到語音及/或語音識別。

機器學習演算法的示例性類型是神經網路。有許多類型的神經網路；一個簡單類型的神經網路就是一個前饋網路。前饋網路可以被實現為一個非循環圖，其中，節點被佈置在層。通常，前饋網路拓撲結構包含由至少一個隱藏層分開的輸入層和輸出層。隱藏層變換由所述輸入層接收的輸入到一個是在輸出層產生輸出是有用的表示。網路節點通過邊緣完全連接到相鄰層中的節點，但每層中的節點之間沒有邊緣。在前饋網路的輸入層的節點處接收到的資料經由激活函數被傳播(即，“前饋”)到輸出層的節點，該激活函數基於分別與連接層的每個邊緣相關聯的係數(“權重”)來計算網路中的每個連續層的節點的狀態。根據正在執行的演算法所表示的具體模型，神經網路演算法的輸出可以採取各種形式。

在可以使用機器學習演算法來模擬特定問題之前，使用訓練資料集來訓練演算法。訓練神經網路關於選擇網路拓撲，使用表示由網路建模的問題的一組訓練資料，且調整權重直到網路模型以訓練資料集的所有實例的最小誤差執行。例如，在用於神經網路的監督學習訓練過程中，通過網路而產生的輸出回應於輸入，表示訓練資料集的實例與該實例的“正確的”標記輸出相比較，誤差訊號表示計算輸出和標記輸出之間的差異，且調整與連接相關聯的權重以使誤差最小化，因為誤差訊號會通過網路的層向後傳播。當從訓練資料集的實例產生的每個輸出的誤差最小化時，網路被認為是“訓練的”。

機器學習演算法的準確性可能會受到用於訓練演算法的資料集的品質而顯著影響。訓練過程可能是計算密集型的，且可能在傳統通用處理器上需要大量時間。因此，平行處理硬體被用於訓練許多類型的機器學習演算法。這對於優化神經網路的訓練特別有用，因為在調整神經網路中的係數中執行的計算本身適合於平行實現。具體來說，許多機器學習演算法和軟體應用已經適應於利用通用圖形處理裝置內的平行處理硬體。

圖6是機器學習軟體堆疊600的概括圖。機器學習應用602可以配置為使用訓練資料集訓練神經網路，或者使用經過訓練的深層神經網路來實現機器智能。機器學習應用602可以包含用於神經網路的訓練和推理功能，及/或可用於部署前訓練神經網路的專門軟體。機器學習應用602可以實現任何類型的機器智能，包含但不限於圖像識別、映射和定位、自主導航、語音合成、醫學成像或語言翻譯。

機器學習應用602的硬體加速可以通過機器學習框架604被致能。機器學習框架604可以提供機器學習基元的資料庫。機器學習基元是通常由機器學習演算法執行的基本運算。如果沒有機器學習框架604，機器學習演算法的開發人員需要創建和優化與機器學習演算法相關的主要計算邏輯，然後在開發新的平行處理器時重新優化計算邏輯。取而代之的是，機器學習應用程式可以被配置成執行使用由機器學習框架604提供的基元必要的計算。示例性基元包含張量卷積、激活函數和匯集，其是在訓練卷積神經網路(convolutional neural network,CNN)時執行的計算運算。機器學習框架604還可以提供基元來實現由許多機器學習演算法執行的基本線性代數子程式，諸如矩陣和向量運算。

機器學習框架604可以處理從機器學習應用程式602接收的輸入資料且產生到計算框架606的適當輸入。計算框架606可以抽象化提供給GPGPU驅動程式608的基本指令，以使機器學習框架604能夠通過GPGPU硬體610利用硬體加速，而不需要機器學習框架604具有對GPGPU硬體610的架構深入了解。另外，計算框架606可以致能跨越GPGPU硬體610的各種類型和產生的機器學習框架604的硬體加速。

GPGPU機器學習加速

圖7示出根據一個實施例的高度平行通用圖形處理單元700。在一個實施例中，通用處理單元(GPGPU)700可被配置為在處理與訓練深度神經網路相關聯的計算工作量的類型時特別有效。此外，GPGPU700可以直接鏈接到GPGPU的其他實例以創建多GPU集群以提高特別的深度神經網路的訓練速度。

GPGPU700包含主機介面702以實現與主機處理器的連接。在一個實施例中，主機介面702是PCI Express介面。但是，主機介面也可以是供應商特定的通訊介面或通訊結構。GPGPU700從主處理器接收命令，並使用全局排程器704將與這些命令相關聯的執行執行緒分配給一組計算集群706A-706H。計算集群706A-706H共享快取記憶體708。快取記憶體708可以用作計算集群706A-706H內的快取記憶體的更高階快取記憶體。

GPGPU700包含經由一組記憶體控制器712A-712B與計算集群706A-H耦合的記憶體714A-714B。在各種實施例中，記憶體714A-714B可包含各種類型的記憶體裝置，包含動態隨機存取記憶體(dynamic random access memory,DRAM)或圖形隨機存取記憶體，諸如包含圖形雙倍資料速率(graphics double data rate,GDDR)記憶體的同步圖形隨機存取記憶體(SGRAM)，或3D堆疊式記憶體(3D stacked memory)，包含但不限於高頻寬記憶體(high bandwidth memory,HBM)。

在一個實施例中，每個計算集群706A-706H包含一組圖形多處理器，諸如圖4A的圖形多處理器400。可以執行一系列精度的計算運算的整數和浮點邏輯單元的計算集群多種類型的圖形多處理器，包含適合於機器學習計算。例如，且在一個實施例中，每個計算集群706A-706H中的浮點單元的至少一個子集可以被配置為執行16位元或32位元浮點運算，而浮點單元的不同子集可以被配置為執行64位元浮點運算。

可以將GPGPU700的多個實例配置為作為計算集群運行。計算集群用於同步和資料交換的通訊機制因實施例而異。在一個實施例中，GPGPU700的多個實例通過主機介面702進行通訊。在一個實施例中，GPGPU700包含將GPGPU700與GPU鏈路710耦合的I/O集線器709，該鏈路使得能夠直接連接到GPGPU的其他實例。在一個實施例中，GPU鏈路710耦合到專用的GPU到GPU橋接器，該橋接器允許GPGPU700的多個實例之間的通訊和同步。在一個實施例中，GPU鏈路710耦合高速互連來發送和接收資料到其它GPGPUs或平行處理器。在一個實施例中，GPGPU700的多個實例位於分離的資料處理系統中且經由可經由主機介面702存取的網路裝置進行通訊。在一個實施例中，GPU鏈路710可以被配置為除了主機介面702之外或者作為主機介面702的替代，能夠連接到主機處理器。

雖然GPGPU700的所示配置可以被配置為訓練神經網路，但是一個實施例提供了可以被配置用於在高性能或低功率推理平台內部署的GPGPU700的替代配置。在推理配置中，GPGPU700相對於訓練配置包含更少的計算集群706A-706H。另外與記憶體714A-714B相關聯的記憶體技術可能在推理和訓練配置之間不同。在一個實施例中，GPGPU700的推理配置可以支持推理特定指令。例如，推理配置可以提供對一或多個8位元整數點積(dot product)指令的支持，這些指令通常在部署神經網路的推理運算期間使用。

圖8示出根據一個實施例的多GPU計算系統800。多GPU計算系統800可以包含經由主機介面交換機804耦合到多個GPGPUs 806A-806D的處理器802。在一個實施例中，主機介面交換機804是PCI Express交換機裝置，其將處理器802耦合到PCI Express匯流排，處理器802可以在其上與該組GPGPUs 806A-806D通訊。多個GPGPUs 806A-806D中的每一個都可以是圖7的GPGPU 700的實例。 GPGPUs 806A-806D可以通過一組高速點對點GPU到GPU鏈路816互連。高速GPU到GPU鏈路可以經由專用GPU鏈路(諸如圖7中的GPU鏈路710)連接到每個GPGPUs 806A-806D。P2P GPU鏈路816允許每個GPGPUs 806A-806D之間的直接通訊，而不需要通過處理器802所連接的主機介面匯流排進行通訊。利用將GPU到GPU的流量(GPU-to-GPU traffic)導向到P2P GPU鏈路，主機介面匯流排保持可用於系統記憶體存取或與多GPU計算系統800的其他實例通訊，例如經由一或多個網路裝置。雖然在所示實施例中，GPGPUs 806A-806D經由主機介面交換機804連接到處理器802，但是在一個實施例中，處理器802包含對P2P GPU鏈路816的直接支持且可以直接連接到GPGPUs 806A-806D。

機器學習神經網路實現

由在此描述的實施例提供的計算架構可以被配置為執行特別適合訓練和部署用於機器學習的神經網路的平行處理類型。神經網路可以概括為具有圖形關係的函數網路。如本領域所熟知的，在機器學習中使用了各種類型的神經網路實現。如前所述，一種示例性類型的神經網路是前饋網路。

第二種示例性類型的神經網路是卷積神經網路(Convolutional Neural Network,CNN)。CNN是用於處理具有已知似網格狀拓撲結構(例如圖像資料)的資料的專用前饋神經網路。因此，CNN通常用於計算視覺和圖像識別應用，但它們也可用於其他類型的模式識別，如語音和語言處理。CNN輸入層中的節點被組織成一組“過濾器”(特徵檢測器受到視網膜中發現的感受野的啟發)，且每組過濾器的輸出被傳播到網路連續層中的節點。CNN的計算包含將卷積數學運算應用於每個過濾器以產生該過濾器的輸出。卷積是由兩個函數執行的一種特殊的數學運算，以產生第三個函數，該函數是兩個原始函數之一的修改版本。在卷積網路術語中，卷積的第一個函數可以稱為輸入，而第二個函數可以稱為卷積核心(kernel)。輸出可以被稱為特徵映射。例如，卷積層的輸入可以是定義輸入圖像的各種顏色分量的多維資料陣列。卷積核心可以是參數的多維陣列，其中通過神經網路的訓練過程來調整參數。

循環神經網路(Recurrent neural network,RNN)是包含層之間的反饋連接的前饋神經網路家族。RNN通過在神經網路的不同部分共享參數資料來對順序資料進行建模。RNN的架構包含週期。這些週期代表在將來時間，變量的當前值對其自己的值的影響，因為來自RNN的輸出資料的至少一部分被用作用於處理序列中後續輸入的反饋。由於可以組成語言資料的變量性質，此功能使得RNN對語言處理特別有用。

下面描述的型態給出了示例性的前饋，CNN和RNN網路，且描述了分別訓練和部署這些類型的網路中的每一個的一般過程。將理解的是，這些描述對於本文描述的任何特定實施例而言是示例性的且非限制性的，且所示的概念一般可應用於深度神經網路和機器學習技術。

上面描述的示例性神經網路可以用於執行深度學習。深度學習是使用深度神經網路的機器學習。用於深度學習的深度神經網路是由多個隱藏層組成的人工神經網路，而淺層神經網路只包含一個隱藏層。更深的神經網路通常是更計算集中以進行訓練。然而，網路的附加隱藏層使得多步模式識別能夠相對於淺層機器學習技術，導致減少輸出錯誤。

用於深度學習的深度神經網路通常包含前端網路以執行耦合到後端網路的特徵識別，後端網路表示可以基於提供給模型的表示特徵，執行運算(例如，物件分類，語音識別等)的數學模型。深度學習可以執行機器學習，而無需為模型執行手工製作的特徵工程。相反，深度神經網路可以根據輸入資料中的統計結構或相關性來學習特徵。可以將學習到的特徵提供給可以將檢測到的特徵映射到輸出的數學模型。網路使用的數學模型通常專用於要執行的特定任務，且將使用不同的模型來執行不同的任務。

一旦神經網路結構化，可以將學習模型應用於網路以訓練網路執行特定的任務。學習模型描述如何調整模型中的權重以減少網路的輸出錯誤。反向傳播錯誤是用來訓練神經網路的常用方法。輸入向量呈現給網路進行處理。使用損失函數將網路的輸出與期望的輸出進行比較，且針對輸出層中的每個神經元計算誤差值。然後誤差值向後傳播，直到每個神經元都具有相關的誤差值，該誤差值大致表示其對原始輸出的貢獻。網路然後可以使用演算法(例如隨機梯度下降演算法(stochastic gradient descent algorithm))從這些誤差中學習以更新神經網路的權重。

圖9A-9B示出示例卷積神經網路。圖9A示出CNN內的各個層。如9A圖所示，用於對圖像處理建模的示例性CNN可以接收描述輸入圖像的紅色、綠色和藍色(RGB)分量的輸入902。輸入902可以由多個卷積層(例如，卷積層904、卷積層906)處理。來自多個卷積層的輸出可以可選地由一組完全連接的層908進行處理。完全連接層中的神經元與前一層中的所有激活都具有完全連接，如前面針對前饋網路所描述的那樣。來自完全連接的層908的輸出可以用於從網路產生輸出結果。可以使用矩陣乘法而不是卷積來計算完全連接層908內的激活。並非所有的CNN實施都使用完全連接層908。例如，在一些實現中，卷積層906可以為CNN產生輸出。

卷積層是稀疏連接的，這不同於在完全連接層908中發現的傳統神經網路配置。傳統的神經網路層是完全連接，使得每個輸出單元與每個輸入單元進行互動。然而，卷積層是稀疏連接的，因為如圖所示，場(field)的卷積的輸出被輸入(而不是場中每個節點的相應狀態值)到後續層的節點。與卷積層相關的核心執行卷積運算，其輸出被發送到下一層。卷積圖層中執行的降維是使CNN能夠縮放以處理大圖像的一個態樣。

圖9B例示了CNN的卷積層內的示例性計算階段。輸入到CNN的卷積層912可以在卷積層914的三級中進行處理。三級可以包含卷積級916、檢測器級918和匯集級920。卷積層914然後可以將資料輸出到連續的卷積層。網路的最終卷積層可以產生輸出特徵地圖資料或向完全連接層提供輸入，例如以產生CNN輸入的分類值。

在卷積級916中平行執行多個卷積以產生一組線性激活。卷積級916可以包含仿射(affine)變換，仿射變換是可以被指定為線性變換加上平移的任何變換。仿射變換包含旋轉、平移、縮放和這些變換的組合。卷積級演算法計算連接到輸入中特定區域的函數(例如，神經元)的輸出，其可以被確定為與神經元相關聯的本地區域。神經元計算神經元的權重與神經元所連接的本地輸入中的區域之間的點積。卷積級916的輸出定義了由卷積層914的連續級處理的一組線性激活。

線性激活可以由檢測器級918處理。在檢測器級918中，每個線性激活由非線性激活函數處理。非線性激活函數增加了整個網路的非線性特性，而不影響卷積層的感受野。可以使用幾種類型的非線性激活函數。一種特殊類型是整流線性單元(rectified linear unit,RELU)，它使用定義為f(x)=max(0,x)的激活函數，使得激活臨限值為零。

匯集級920使用匯集函數，該匯集函數用附近輸出的總結統計來替換卷積層906的輸出。匯集函數可用於將平移不變量引入神經網路，從而對輸入的小型平移不會改變匯集輸出。在輸入資料中存在特徵比特徵的精確位置更重要的情況下，對本地平移的不變性可能非常有用。在匯集級920期間可以使用各種類型的匯集(pooling)功能，包含最大匯集，平均匯集和l2-標準(12-norm)匯集。另外，一些CNN實現不包含匯集階段。相反，這種實現取而代之，且額外的卷積階段相對於先前的卷積階段具有增加的步幅。

然後可以由下一層922處理來自卷積層914的輸出。下一層922可以是附加的卷積層或完全連接層908之一。舉例來說，圖9A的第一卷積層904可以輸出到第二卷積層906，而第二卷積層可以輸出到完全連接層908的第一層。

圖10示出示例性的循環神經網路1000。在循環神經網路(RNN)中，網路的先前狀態影響網路當前狀態的輸出。RNN神經網路可以建立在使用各種功能的各種方式。RNN的使用通常圍繞使用數學模型來基於先前的輸入序列來預測未來。例如，可以使用RNN來執行統計語言建模以預測給定先前單詞序列的即將到來的單詞。所描述的RNN1000可被描述為具有接收輸入向量的輸入層1002、實現循環函數的隱藏層1004、啟用先前狀態的“記憶體”的反饋機制1005、及輸出層1006以輸出結果。RNN1000基於時間步驟(time-step)運行。通過反饋機構1005基於前一時間步驟影響給定時間步驟的RNN的狀態。對於給定的時間步驟，隱藏層1004的狀態由當前時間步長的先前狀態和輸入來定義。第一時間步驟處的初始輸入(x₁)可以由隱藏層1004處理。第二輸入(x₂)可以由隱藏層1004使用在初始輸入(x₁)的處理期間確定的狀態資訊來處理。給定的狀態可以計算為s _t=f(Ux _t+Ws _t-1)，其中U和W是參數矩陣。函數f通常是非線性的，例如雙曲正切函數(Tanh)或整流器函數的變體f(x)=max(0,x)。然而，隱藏層1004中使用的特定數學函數可以根據RNN1000的具體實現細節而變化。

除了描述的基本CNN和RNN網路之外，還可以啟用這些網路的變體。一個示例RNN變體是長期短期記憶(long short term memory,LSTM)RNN。LSTM RNN能夠學習處理更長序列語言所需的長期依賴性。CNN上的變體是卷積深層信念網路(convolutional deep belief network)，其結構類似於CNN且以類似於深層信念網路的方式進行訓練。深層信念網路(DBN)是由多層隨機(stochastic,random)變量組成的產生神經網路。DBN可以使用貪心無監督學習(greedy unsupervised learning)逐層訓練。通過確定神經網路的最佳初始權值組，DBN的學習權重可用於提供預訓練神經網路。

圖11示出深度神經網路的訓練和部署。一旦給定網路已經被構建用於任務，則使用訓練資料集1102訓練神經網路。已經開發了各種訓練框架1104以使硬體加速訓練過程。例如，圖6的機器學習圖框架604，可以被配置為訓練框架604。訓練框架604可以鉤入未訓練的神經網路 1106，且使用本文所述的平行處理資源來訓練未訓練的神經網路，以產生訓練的神經網路1108。

為了開始訓練過程，初始權重可以隨機選擇或者通過使用深層信念網路的預訓練來選擇。訓練週期然後以監督或無監督的方式進行。

監督式學習是一種學習方法，其中訓練作為中介運算來執行，諸如當訓練資料集1102包含與輸入所希望的輸出配對的輸入時，或者訓練資料集包含具有已知輸出的輸入和輸出神經網路是手動分級的。網路處理輸入並將結果輸出與一組預期或期望的輸出進行比較。然後通過系統往回傳播錯誤。訓練框架1104可以調整以調整控制未訓練的神經網路1106的權重。訓練框架1104可以提供工具以監測未訓練的神經網路1106向適合基於已知輸入資料產生正確答案的模型收斂的程度。隨著網路權重的調整，訓練過程重複進行，以改進神經網路產生的輸出。訓練處理能夠繼續下去，直到神經網路達到了訓練的神經網路1108相關的統計所需的精度。然後可以部署訓練的神經網路1108以實現任何數量的機器學習運算。

無監督學習是一種學習方法，其中網路試圖使用未標記的資料進行自我訓練。因此，對於無監督學習，訓練資料集1102將包含沒有任何相關輸出資料的輸入資料。未訓練的神經網路1106可以學習未標記的輸入內的分組且可以確定單獨輸入如何與總體資料集相關。可以使用無監督訓練來產生自我組織地圖，其是一種訓練的神經網路1107，其能夠執行用於減少資料的維度的運算。無監督訓練也可用於執行異常檢測，這可以識別輸入資料集的偏離資料的正常模式的資料點。

也可以採用有監督和無監督訓練的變化。半監督學習是一種技術，其中在訓練資料集1102中包含相同分佈的標記資料和未標記資料的混合。增量學習是監督學習的一種變體，其中輸入資料不斷用於進一步訓練模型。增量學習使得訓練的神經網路1108能夠適應新資料1112而不會忘記在初始訓練期間灌輸到網路內的知識。

無論是有監督還是無監督，針對特定深度神經網路的訓練過程對於單個計算節點來說可能計算量過大。可以使用計算節點的分佈式網路來加速訓練過程，而不是使用單個計算節點。

圖12是圖示分佈式學習的方塊圖。分佈式學習是一種訓練模型，其使用多個分佈式計算節點來執行神經網路的有監督或無監督訓練。分佈式計算節點可以各自包含一或多個主機處理器及一或多個通用處理節點，諸如圖700中的高度平行通用圖形處理單元700。如圖所示，可以執行分佈式學習模型平行1202、資料平行1204或模型和資料平行1204的組合。

在模型平行1202中，分佈式系統中的不同計算節點可以針對單個網路的不同部分執行訓練計算。例如，神經網路的每一層都可以由分佈式系統的不同處理節點來訓練。模型平行的好處包含能夠擴展到特別大的模型。拆分與神經網路的不同層相關聯的計算，使能訓練非常大的神經網路，其中所有層的權重不適合單個計算節點的記憶體。在某些情況下，模型平行對於執行大型神經網路的無監督訓練可能特別有用。

在資料中平行1204，分佈式網路的不同節點具有模型的完整實例，且每個節點接收不同部分的資料。然後結合來自不同節點的結果。雖然資料平行的不同方法是可行的，但資料平行訓練方法都需要一種技術，即將結果合併並在每個節點之間同步模型參數。用於組合資料的示例性方法包含參數平均和基於更新的資料平行。參數平均訓練所述訓練資料的子集上的每個節點，並將全局參數(例如，權重，偏差)設置為來自每個節點的參數的平均值。參數平均使用維護參數資料的中央參數伺服器。基於更新的資料平行與參數平均類似，不是將參數從節點傳輸到參數伺服器，而是傳輸模型的更新。另外，基於更新的資料平行可以以分散的方式執行，其中更新在節點之間被壓縮和傳送。

組合的模型和資料平行1206可以例如在其中每個計算節點包含多個GPU的分佈式系統中實現。每個節點可以有一個完整的模型實例，每個節點內的單獨GPU用於訓練模型的不同部分。

相對於單台機器的訓練，分佈式訓練增加了管理負擔。然而，這裡描述的平行處理器和GPGPU可以各自實現各種技術以減少分佈式訓練的管理負擔，包含實現高頻寬GPU到GPU資料傳輸和加速的遠程資料同步的技術。

示例性機器學習應用

機器學習可以應用於解決各種技術問題，包含但不限於電腦視覺，自動駕駛和導航、語音識別和語言處理。傳統上，電腦視覺一直是機器學習應用最活躍的研究領域之一。電腦視覺的應用，範圍從複製人的視覺能力，如識別面孔，到創造視覺能力的新類別。例如，電腦視覺應用程式可以配置為識別視頻中可見物體中引發的振動產生的聲波。平行處理器加速機器學習使電腦視覺應用程式能夠使用比先前可行的更大的訓練資料集進行訓練，並使得推理系統能夠使用低功耗平行處理器進行部署。

平行處理器加速機器學習具有自動駕駛應用，包含車道和道路標誌識別、避障、導航和駕駛控制。加速機器學習技術可以用來訓練基於資料集的駕駛模型，這些資料集定義了對特定訓練輸入的適當回應。這裡描述的平行處理器可以實現用於自動駕駛解決方案的日益複雜的神經網路的快速訓練，且使得能夠在適合於整合到自動駕駛車輛中的行動平台中部署低功率推理處理器。

平行處理器加速深度神經網路使機器學習方法能夠實現自動語音識別(automatic speech recognition,ASR)。ASR包含創建一個函數，該函數根據輸入聲音序列計算最可能的語言序列。使用深度神經網路的加速機器學習能夠替代先前用於ASR的隱馬爾可夫模型(hidden Markov model,HMM)和高斯混合模型(Gaussian mixture model,GMM)。

平行處理器加速機器學習也可用於加速自然語言處理。自動學習程序可以利用統計推理演算法來產生對錯誤或不熟悉的輸入堅固的模型。示例性自然語言處理器應用包含人類語言之間的自動機器翻譯。

用於機器學習的平行處理平台可以分為訓練平台和部署平台。訓練平台通常是高度平行的，包含優化以加速多GPU單節點訓練和多節點多GPU訓練。適用於訓練的示例性平行處理器包含圖700的高度平行通用圖形處理單元700和圖800的多GPU計算系統800。相反地，部署的機器學習平台通常包含適用於產品(如相機、自動機器人和自動駕駛汽車)的低功耗平行處理器。

圖13示出適用於使用訓練模型執行推理的示例性推理系統單晶片(system on a chip,SOC)1300。SOC1300可以整合包含媒體處理器1302、視覺處理器1304、GPGPU1306和多核心處理器1308的處理元件。SOC1300可以另外包含晶載記憶體1305，晶載記憶體1305可以啟用可由每個處理元件存取的共享晶載資料池。處理元件可針對低功耗運算進行優化，以支持部署到各種機器學習平台，包含自動車輛和自動機器人。例如，SOC1300的一個實施方式可以用作自動駕駛車輛的主控制系統的一部分。在SOC1300被配置用於自動駕駛車輛中的情況下， SOC被設計和配置用於符合部署管轄權的相關功能安全標準。

在運算期間，媒體處理器1302和視覺處理器1304可協同工作以加速電腦視覺運算。媒體處理器1302可以啟用多個高解析度(例如4K、8K)視頻串流的低等待時間解碼。解碼的視頻串流可以被寫入晶載記憶體1305中的緩衝器。視覺處理器1304然後可以解析解碼的視頻且對解碼視頻的幀執行初步處理運算，以準備使用訓練的圖像識別模型來處理幀。例如，視覺處理器1304可以加速用於對高解析度視頻資料執行圖像識別的CNN的卷積運算，而由GPGPU 1306執行後端模型計算。

多核心處理器1308可以包含控制邏輯以輔助由媒體處理器1302和視覺處理器1304執行的資料傳輸和共享記憶體運算的排序和同步。多核心處理器1308還可以用作應用處理器來執行可以利用GPGPU 1306的推理計算能力的軟體應用。例如，導航和驅動邏輯的至少一部分可以在多核心處理器1308上執行的軟體中實現。這種軟體可以將計算工作量直接發布給GPGPU 1306，或者可以將計算工作量發布給多核心處理器1308，其可以將這些運算中的至少一部分卸載到GPGPU 1306。

GPGPU 1306可以包含計算集群，例如高度平行通用圖形處理單元700內的計算集群706A-706H的低功率配置。GPGPU 1306內的計算集群可以支持專門優化的指令，以在訓練的神經網路上執行推理計算。例如， GPGPU 1306可以支持執行低精度計算的指令，例如8位元和4位元整數向量運算。

用於高效機器學習運算的專用硬體

這裡描述的實施例提供高階機器學習計算基元，其可以用於抽象化執行機器學習計算的許多基礎計算細節。這裡描述的高階基元使得軟體邏輯能夠請求高階機器學習運算，同時抽像化這些運算的底層實現細節。例如且在一個實施例中，軟體邏輯可以使用給定的一組過濾器請求圖像的卷積運算。可以執行單個高階指令，該指令具有運算元來為儲存過濾器及/或核心資料的緩衝區定義輸入和輸出緩衝區位址和位址。GPGPU然後可以將高階卷積指令劃分為由GPGPU的底層計算單元執行的多個子運算。在一個實施例中，提供了對基本線性演算法子程式(basic linear algorithm subprograms,BLAS)的一或多個子例程的直接硬體支持，但是實施例可以為其他子例程庫(subroutine)提供硬體支持。編譯器邏輯和關聯的運行時庫(runtime library)可以編譯使用受支持的高階計算子例程的原始碼，並輸出編譯的原始碼，將其呼叫到機器學習巨集指令(macro-instruction)單元中。

指令和邏輯執行機器學習的計算運算

電腦視覺和機器學習的硬體加速器可以提高應用程式，如物件、面部和語音識別幾個數量級能效。這些加速器使用互連的處理元件(PE)陣列，與乘加電路被性能、面積和能量佔主導地位用於CNN計算運算映射密鑰演算法(key algorithm)。例如，一些機器學習硬體加速器使用窄位寬(16b)的固定點乘加資料路徑構建塊，以滿足嚴格的記憶體、面積和功率預算在低功率或嵌入空間的SoC。由浮點數/計算所提供的更高動態範圍可以為一些資料集和演算法實現更好品質的結果，同時仍保持相同的記憶體佔用(16b的運算元)。現有的硬體解決方案，適應數值計算使用單獨的定點和浮點資料路徑或PEs的兩種類型，造成為了實現這個靈活性而產生高區成本。相反，這裡描述的實施例提供了合併的整數/浮點融合乘加和乘法累積資料路徑，其利用現有的帶正負號整數乘加電路來完成浮點尾數乘加運算。在一個實施例中，通過僅添加對準/歸一化移位和指數單元所需的電路，在組合浮點/整數單元中啟用浮點支持而不增加輸入/輸出資料寬度和資料記憶體佔用空間。單個控制訊號用於，在每個週期的基礎上，在浮點和整數的計算模式之間進行切換。

由實施例提供的組合的整數/浮點單元補充了可整合到GPGPU中的多種類型的機器學習加速單元。本文描述的實施例提供了用於實現將融合乘加運算與神經網路激活函數(例如整流線性單位函數(rectified linear unit,RELU)、S形函數(sigmoid function)或硬S形函數(hard-sigmoid function))組合的附加指令的邏輯。

一個實施例允許擴展16位元浮點編碼以支持來自標準IEEE 754半精度浮點格式的替代編碼。IEEE半精度浮點格式指定一個1位元符號、一個5位元指數和一個10位元小數部分。這裡描述的實施例可以基於待編碼的資料的模式來選擇性地支持FP16資料的替代編碼。在一個實施例中，支持的替代格式指定具有8位元指數和7位元小數分量的1位元符號。一個實施例允許用1位元符號、3位元指數和12位元小數分量進行編碼。在這樣的實施例中，不同的指令集支持不同的浮點編碼，允許開發者基於程式代碼中指定的指令來選擇編碼。在一個實施例中，當對浮點資料進行捨入或下採樣時，例如從累加的32位元浮點值到16位元值，可以使用不同的浮點編碼。

這裡描述的合併的浮點單元可以在每個週期的基礎上選擇性地執行16位元整數或浮點運算。一個實施例使得能夠動態地重新配置這裡描述的浮點單元以實現多格式支持。例如，使用多通道配置，16位元整數或浮點單元可以配置為執行兩通道32元位運算或四通道64位元運算。這種邏輯能夠將針對低精度推理運算優化的浮點邏輯進行叢集(cluster)，以用於更高精度的訓練運算。

一個實施例提供用於低精度網路的隨機捨入單元和統計累加器。隨機捨入相對於低精度深度神經網路的傳統量化和捨入能夠提高精度。捨入單位可以以不同的模式工作。第一種模式是使用隨機數產生器來控制捨入單位的隨機模式。第二種模式使用後續輸入的輸出機率分佈，並利用耦合到GPGPU記憶體的近資料(near-data)統計估計器單元。

這裡描述的技術可以在通過機器學習加速器單元提供機器學習優化的通用計算系統內實現。這裡描述的實施例所提供的多處理器如圖14所示。

圖14是根據一個實施例的多處理器單元1400的方塊圖。多處理器單元1400可以是圖2D的圖形多處理器234的變體。多處理器單元1400包含讀取和解碼單元1402、分支單元1404、暫存器檔1406、執行緒管理器1406、單指令多執行緒單元(SIMT單元1410)及電壓和頻率管理器1420。讀取和解碼單元1402可以讀取由多處理器單元1400執行的指令。分支單元1404可以基於執行的跳轉指令來計算指令指標調整。暫存器檔1406可以儲存由SIMT單元1410使用的通用和架構暫存器。執行緒管理器1406可以在SIMT單元1410的計算單元之間分配和重新分配執行緒。在一個實施例中，SIMT單元1410被配置為執行單指令作為多個執行緒，其中每個執行緒的指令由單獨的計算單元執行。在一個實施例中，計算單元1411到計算單元1418每個都包含整數ALU(例如，ALU 1411A-1418A)和浮點單元(例如FPU 1411B-1418B)。SIMT單元1410內的每個計算單元1411-1418的電壓和頻率可以由電壓和頻率管理器1420動態地管理，該電壓和頻率管理器1420可以增加或減少作為計算單元的元件提供給各個計算單元的電壓和時脈頻率被啟用和禁用。

在一些以前啟用的配置中，每個計算單元可以執行整數指令或浮點指令的單個執行緒。如果ALU 1411A-1418A中的任何一個任務執行整數指令的執行緒，則各個FPU 1411B-FPU 1418B不能用於執行浮點指令的執行緒，且可能在對應的ALU 1411A-ALU 1418A的運算期間被功率閘控。例如，雖然ALU 1411A可以執行整數指令的執行緒，而FPU 1413B執行浮點指令的執行緒，但是當ALU 1411A處於活動狀態時，FPU 1411B被功率閘控(power gated)。本文描述的實施例通過啟用克服這些限制，例如，當FPU 1411B執行不同的指令的執行緒，ALU 1411A執行單指令的執行緒。此外，一個實施例提供對混合精度或混合資料類型運算元的支持，使得單個計算單元可以對具有浮點和整數運算元的指令及/或具有不同精度的運算元同時執行運算。

這裡描述的實施例通過使得每個計算單元內的所有邏輯單元可用於執行計算來實現針對計算單元集群的增加的運算吞吐量。在這樣的實施例中，計算單元內邏輯單元被設計為以多個精度或多個資料類型之一選擇性地執行計算，可以被配置為針對計算單元支持的每個精度或資料類型執行多個同時運算。對於給定的計算單元1411-1418，ALUs 1411A-1418A可以執行整數運算，而FPU 1411B-1418B執行浮點運算。這些運算可以針對單指令或多指令執行。在一個實施例中，啟用一類新的混合精度指令，其中一或多個運算元具有一種資料類型或精度，而一或多個不同運算元具有不同的資料類型或精度。例如，一指令可以接受兩或多個包含浮點和整數資料類型的多元素運算元，且單指令可以按照每個資料類型或每個精度的基礎執行。

一個可重新配置的16位元浮點/整數融合乘加單元

由此處描述的實施例提供的邏輯單元設計具有單週期和多週期等待時間，同時針對融合乘加(例如，3個運算元輸入，在跨週期中無相關性)和乘法累積(例如，2個運算元輸入，在跨週期中具有資料相關性)維持單週期吞吐量。相反，本領域中已知的邏輯單元設計實現融合乘加，而不考慮多週期等待時間和單週期吞吐量乘法累積運算，這可能是關鍵機器學習運算的性能的限制因素，例如點積運算。

這裡描述的一個實施例提供了合併的整數/浮點融合乘加資料路徑，利用現有的帶正負號整數乘加電路還實現浮點尾數乘加運算。除了只有對準(alignment)/歸一化位移和指數單位所需的電路外，浮點支持被啟用。輸入/輸出資料寬度和資料記憶體佔用空間保持不變，只需要單個控制訊號即可在兩種計算模式之間在每個週期的基礎上切換。

一個實施例提供了合併的16位元整數/浮點融合乘加設計，其改進了具有獨立整數/浮點資料路徑的傳統單週期設計。這裡描述的設計為一個合併的int16/float16資料路徑實現乘加電路，總面積減少高達 29%。一個實施例提供了改進的浮點資料路徑，僅與加數(addend)對準，沿著組合的否定和捨入(negation and rounding)增量器，其幫助減少11%總面積。一個實施例提供具有兩個輸入和兩個週期等待時間、單週期吞吐量的乘法累積變體。一個實施例提供了一種替代電路，其顯著提高累積精度，通過以僅僅增加11%的面積的成本來使累加器寬度加倍。

圖15A-15B示出根據一個實施例的用於執行整數和浮點融合乘加運算的邏輯單元的設計。圖15A示出用於邏輯單元1500的常規設計，該設計能夠實現融合乘加運算，同時保持完整的中間產品精度和範圍。在IEEE半精度浮點(float16)或帶正負號16b整數(int16)模式下，對三個16位元輸入運算元1501執行融合乘加運算(o=a*b+c)。將輸入提供給16位元浮點資料路徑1510或16位元整數資料路徑1520，輸出端口(o 1530)基於運算模式1532選擇適當的結果(f16o 1518或i16o 1528)。int16結果(i16o 1528)選擇並捨入到最接近由帶正負號16b×16b乘法器1521和32b加法器1522產生的32b帶正負號整數結果(isum 1525)的上半部分。float16資料路徑1510右移(1511)無符號(unsigned)11bx11b乘法器1617的乘積中較小者的尾數，且在通過22位元尾數加法器1513處理該乘積之前，右移位該加數以在對準移位器1512A處對準。基於加法器的輸入，22位元前導零預測器(leading zero anticipator)(LZA 1519)預測由22位元尾數加法器1513執行的浮點加法結果的最高有效位元位置的位置。在將中間結果提供給捨入邏輯1516之前，由歸一化移位器1515執行左移(1514)。

圖15B是根據一個實施例的乘加邏輯單元1540的方塊圖。圖15B的邏輯單元1540維持單獨的16位元浮點/整數電路，同時改進邏輯單元1500的浮點資料路徑。在一個實施例中，邏輯單元1540的設計通過與乘法運算(1541)平行地僅在加數上執行對準來從關鍵路徑移除對準移位器1512B。較寬的33位元總和只需要一個11位元的增量器的高位元。另外，對於減法運算，加法器的輸出可以被否定以產生無符號尾數。在一個實施例中，通過組合增量運算與最後捨入增量器(1542)，將增量器從邏輯單元1540的資料路徑的關鍵路徑中移除。相反，圖15A中的邏輯單元1500要求增量器在加法器之後完成任何所需的二進制補碼求反運算(two’s complement negate operation)。利用邏輯單元1540的16位元浮點資料路徑減少關鍵路徑導致較小的閘極電路，並允許相對於邏輯單元1500減少11%的面積，同時保持相同的單週期等待時間。

圖16示出根據一個實施例的具有合併浮點和整數資料路徑的融合乘加邏輯單元1600。整數資料路徑的16位元×16位元帶正負號乘法器1602A和32位元加法器1604被重新用於浮點尾數運算，其中上運算元位元被閘控以產生11位元尾數(1602B)的結果。輸入開關1601A-1601C用於當啟用浮點模式時，輸入運算元(a、b、c)的高6位元重新定向到指數單元1608。來自輸入的符號和指數值被打包並通過固定的3位元符號運算元匯流排1609A和15位元指數匯流排1609B提供給指數單元1608。對於16位元浮點運算，共享的32位元加法器使用1位元增量器1605來創建33位元和的高位元(一或多個)1606。指數單元1608內及對準移位器1612和歸一化移位器1613內的旁路電路(1610A、1610B)確保以整數模式的這些單元中的最小切換活動進行固定的對準/歸一化，而零上尾數位元確保在浮點模式下乘法器未使用部分內的無切換活動。捨入邏輯1616和浮點資料路徑的增量器重新用於整數模式，以捨入計算整數結果i16o的較低10位元。i16o的高6位元是通過將該運算映射到現有的指數增量器1611來計算的，該增量器1611還在浮點模式下從尾數資料路徑執行任何捨入溢出運算。當處理完成時，可以通過輸出1630提供16位元浮點或整數值。

圖17A示出根據一個實施例的包含合併計算電路以執行浮點和整數融合乘法累積運算的邏輯單元1700。邏輯單元1700包含指數單元1708和尾數單元1709，兩個16位元輸入端口1701和16位元輸出端口1730。輸入端口1701包含用於將輸入資料的符號位元和指數位元切換到指數單元1708的開關。當執行整數運算時，使用指數單元1708和尾數單元1709。在一個實施例中，邏輯單元支持用於16位元定點模式的8.8輸入和16.0輸出格式。邏輯單元1700支持雙週期等待時間和單週期吞吐量要求。一些所示電路在運算模式之間共享，包含用於整數和浮點模式的帶正負號乘法器1702A-1702B和32位元加法器1704。在第二週期的累加期間，16位元累加器輸入1703A被判斷，其中累加器的值被提供給32位元加法器1704。累加器輸入1703A中的高10位元(例如c[15：6])對於16位元整數運算是獨占的。對於兩種計算模式，在第一個週期中執行乘法，在第二個週期中執行加法/捨入。

圖17A的邏輯單元1700使用三種關鍵技術來實現高效的合併設計。第一，圖16的單週期合併設計的直接管線化，用於累積運算將在第一週期中以加數對準將吞吐量降低一半，或者在第二週期在關鍵路徑中以右移計算和33b對準增加週期時間。相反，邏輯單元1700的設計利用指數單元1708的時序/區域非關鍵性來預先計算對準移位器1713的較大(或較小)尾數和右移量。在一個實施例中，邏輯單元1700通過將輸出反饋回第二週期作為加數輸入來執行雙週期運算，同時保持單週期吞吐量，僅為22位元對準選擇較小的尾數且在第一週期預先計算較小的尾數/右移位量，使用乘法器輸出和先前由第二級計算的累加器指數。

第二，在16位元整數模式中到最近運算的捨入利用了8.8定點格式，且消除了將整數捨入映射到浮點捨入增量器的需要。在加法器之前，通過多工器邏輯1705在位元位置15處插入一來代替零以實現相同的捨入運算。

第三，在兩種模式之間，正反器(flip-flop)被重新用於互斥訊號，例如指數計算(例如，Eun 1707，右移1710)和乘積(1711)的上部10b。第二週期定時路徑減少也通過組合反向/捨入增量器，且通過使用基於遠/近路徑的優化來減少通過對準移位器1713和歸一化移位器1714的關鍵路徑來實現。

如圖17B所示，通過僅將累加器的寬度加倍到32位元，雙週期乘法累積設計的準確度顯著提高。累加器可以基於具有5位元指數和22位元尾數(隱式前導1未儲存)的中間結果，以16.16定點格式和16位元浮點結果累加16位元整數結果。在各種實施例中，中間結果的22位元尾數可以被捨入、截斷或量化為IEEE標準尾數。邏輯單元1740的設計主要將雙倍累加器的成本限制在尾數資料路徑中的輸出正反器和最終增量器，因為乘法器之後的其餘資料路徑已經適應乘積的附加寬度。在一個實施例中，較高的準確度使得將捨入簡化為簡單的截斷以從32位元累加器產生16位元輸出1750。在邏輯單元1740中從指數單元1708中去除後指數標準化增量器。相反，當加法器的輸出將被否定時，反向增量器1742在尾數中執行最終增量以計算二進制補碼。在第二週期的累加期間，32位元累加器輸入1703B被判斷，其中累加器的值被提供給32位元加法器1704。累加器輸入1703B的高10位元(例如，c[31：22])對於16位元整數運算是排他的。相對於圖17A的邏輯單元1700的設計，該設計的合成總面積僅增加了11%的面積增加，同時加倍累加器精度。

儘管上面的描述是為16位元運算元提供的，但是這些技術可以很容易地擴展到更大的資料寬度以實現類似的目標。另外，雖然描述了IEEE半精度輸出，但是本文描述的設計也可以被調整以支持非標準浮點格式。另外，不同的非標準浮點格式可以用於中間值，如下所述。

上面描述的實施例提供了可重新配置的16位元浮點/整數融合乘加單元的各種實現，其提供了相對於現有設計的多個優點。提出的設計不影響記憶體佔用浮點或整數儲存。所提出的設計僅增加乘法器面積而不改變浮點資料路徑的其餘部分。相反，本領域已知的邏輯設計將整個浮點有效數/尾數擴展到與整數相同的寬度，而用於符號和指數的附加儲存區域是分開的且僅排除在浮點數上，導致增加浮點數儲存註冊文件大小和占用空間。現有的設計也增加了整個尾數資料路徑的寬度，這可能導致顯著的面積增加。提供單週期(例如，圖16的邏輯單元1600)和多週期(例如，圖17A的邏輯單元1700和圖17B的邏輯單元1740)設計，其中多週期在初始等待時間後，每個週期產生一個輸出。圖17B的邏輯單元1740提供了一個合併浮點/整數乘法累積設計，其局部累加器寬度是輸入運算元的兩倍。這樣可以為像點積(dot-product)這樣的運算提供更高的累積準確性，而不會影響輸入運算元的記憶體儲存佔用空間，且只影響設計的一小部分，影響總面積的11%。此外，每個邏輯單元將整數運算的一部分映射到現有的指數資料路徑上，以在針對整數模式重新配置時最大化電路重用。另外，對於具有減法運算的浮點運算，圖15B的邏輯單元1540和圖17A的邏輯單元1700可以用來執行浮點運算，將2的補碼增量結合到循環增量中，以減少延遲和面積。

機器學習資料處理系統和加速邏輯

一個實施例使用圖14的多處理器單元1400和圖15A-17B的一或多個浮點/整數邏輯單元，可以用作機器學習資料處理系統的構建模組，其包含經過優化以執行當使用深度神經網路進行訓練或推理時通常執行的計算運算類型的硬體、軟體和韌體。圖18A-18B示出例如通過使用深度神經網路，來執行用於機器學習的加速訓練和推理運算的資料處理系統和相關聯的計算和邏輯單元。圖18A示出由在此描述的實施例提供的示例性機器學習資料處理系統。圖18B示出根據一個實施例的機器學習加速器的元件。

圖18A的資料處理系統1800是具有處理器1802，統一記憶體1810和包含機器學習加速邏輯的GPGPU 1820的異質處理系統。處理器1802和GPGPU 1820可以是如本文所述的任何處理器和GPGPU/平行處理器。處理器1802可以執行儲存在系統記憶體1812中的用於編譯器1815的指令。編譯器1815在處理器1802上執行以將原始碼1814A編譯成編譯代碼1814B。編譯代碼1814B可以包含可以由處理器1802執行的代碼及/或可以由GPGPU 1820執行的代碼。在編譯期間，編譯器1815可以執行運算來插入元資料(metadata)，包含於在已編譯碼1814B所呈現的資料平行性之層次提示及/或與基於已編譯碼1814B所調度執行緒相關的資料局部性之提示。編譯器1815可包含執行這種運算所需的資訊，或者可以在運行時庫1816的幫助下執行運算。運行時庫1816還可以便於編譯器1815編譯原始碼1814A，且還可以包含在運行時與編譯代碼1814B鏈接的指令，以便於執行GPGPU 1820上的編譯指令。

統一記憶體1810表示可由處理器1802和GPGPU 1820存取的統一位址空間。統一的記憶體包含系統記憶體1812及GPGPU記憶體1818。GPGPU記憶體1818包含GPGPU 1820內的GPGPU本地記憶體1834A-1834B，且還可以包含系統記憶體1812中的一些或全部。例如，儲存在系統記憶體1812中的編譯代碼1814B也可以被映射到GPGPU記憶體1818中供GPGPU 1820存取。

GPGPU 1820包含多個計算方塊1824A-1824N，其可以是圖2A的處理群集214A-214N的實例，且可以包含本文所描述的圖形多處理器234的一或多個實例。在各種實施例中，計算方塊1824A-1824N包含具有圖15B-17B中的一或多個邏輯單元的計算單元。GPGPU 1820還包含一組暫存器1825、快取記憶體1827及可用作計算方塊1824A-1824N的共享資源的功率和性能模組1826。在一個實施例中，暫存器1825包含直接和間接可存取的暫存器，其中間接可存取的暫存器可以被優化以用於矩陣計算運算。功率和性能模組1826可以被配置為調整計算方塊1824A-1824N的功率輸送和時脈頻率，以在繁重的工作負荷下為計算方塊1824A-1824N內的閒置元件供電。GPGPU 1820包含GPGPU本地記憶體1828，其是與GPGPU 1820共享圖形卡或多晶片模組的實體記憶體模組。

在一個實施例中，GPGPU 1820包含硬體邏輯，其包含讀取和解碼單元1821、排程器控制器1822和機器學習加速器1823。指令讀取和解碼單元1821是包含邏輯的讀取和解碼單元，用於讀取和解碼包含機器學習特定指令的指令，該指令可以定義複雜的、可定制的行為。這些指令可以使得計算邏輯經由排程器控制器1822排程，一組運算要經由一或多個計算方塊1824A-1824N執行。在一個實施例中，排程器控制器1822是可配置為執行高階排程運算的ASIC。在一個實施例中，排程器控制器1822是能夠執行從韌體模組加載的指令的微控制器或低的每指令能量(energy-per-instruction)處理核心。

在一個實施例中，要由計算方塊1824A-1824N執行的一些功能可以被直接排程或者卸載到機器學習加速器1823。機器學習加速器1823包含處理元件邏輯，其被配置成機器學習過程中通常執行的高效率執行矩陣及其他計算運算。

在一些實施例中，GPGPU 1820另外包含可以被配置為近資料(near-data)計算單元的統計單元1829。例如，統計單元1829可以被整合到，或者分佈在GPGPU本地記憶體1828的一或多個記憶體控制器中。在一個實施例中，當由機器學習加速器1823啟用時，統計單元1829可用於在執行向GPGPU本地記憶體1828寫入或讀取的機器學習運算時，確定加權或激活映射資料的機率分佈。統計單元1829包含用於基於記憶體存取期間的位址和資料模式，確定在GPGPU本地記憶體1828中存取的資料是否符合一或多個統計分佈(例如，高斯、統一(uniform)、帕松(Poisson)等)的邏輯。在一個實施例中，對於記憶體存取的至少一個子集，可以在採樣週期期間收集統計資訊(例如，平均值、中值、模式、標準偏差等)。統計單元1829可以被配置為使得收集統計資訊不會顯著增加通過主控(host)統計單元1829的記憶體控制器執行的記憶體存取的等待時間。統計資訊可以週期性地提供給機器學習加速器1823或者機器學習加速器1823可以從統計單元請求資料。在一個實施例中，統計單元1829可以針對一組已知可能分佈來檢查與記憶體存取相關聯的資料。包含與每個已知可能分佈相關聯的一組機率的向量，可以週期性地或根據請求被提供給機器學習加速器1823。在各種實施例中，機器學習加速器1823可以將由統計單元1829提供的機率及/或統計資訊用於各種運算。在一個實施例中，如圖18B和20進一步所述，機器學習加速器1823可以使用由統計單元1829提供的資料，來在低精度神經網路的量化期間執行隨機捨入。

圖18A的機器學習加速器1823在圖18B中進一步詳細示出。在一個實施例中，機器學習加速器1823包含在機器學習加速器1823內的各個模組之間共享的激活指令模組1832、FPU編碼和配置模組1834、隨機量化單元 1838和快取記憶體1836。

激活指令模組1832包含用於回應於單指令而對組合的融合乘加和激活的執行進行排序的邏輯。回應於對GPGPU 1820上的FMAC或FMADD加激活函數的解碼，排程器單元1822可以通過機器學習加速器1823排程運算。機器學習加速器1823經由激活指令模組1832可以對每個執行緒或向量元素的兩或三個輸入運算元執行一組融合乘加或融合乘法累積運算，且對於每個執行緒或元素，提供輸出硬體邏輯配置為執行多個可選激活函數之一。不同的激活函數可以與不同的指令相關聯，或者單指令可以包含用於選擇激活函數的欄位(field)。在一個實施例中，激活指令模組可執行向量或變形運算以產生中間FMADD或FMAC結果並將中間結果儲存在快取記憶體1836中。然後激活指令模組1832可以將激活函數應用於中間資料。示例性支持的激活函數包含方程式(1)的整流線性單元(rectified linear unit,RELU)函數、方程式(2)的S形函數或方程式(3)的硬S形函數。

f(x)=max(0,x) (1)

FPU編碼和配置模組1834包含邏輯，以用於定義GPGPU 1820的計算方塊1824A-1824N內的浮點單元的動態配置的參數。在一個實施例中，圖16和17A-17B的合併整數/浮點單元的某些動態態樣，可以通過FPU編碼和配置模組1834進行配置。例如，計算模組1825A-1824N可以被超量配置以包含比給定GPGPU 1820的功率預算的任何一個時間處可以最大地活動的計算單元更多的計算單元。然而，FPU編碼和配置模組1834可以配置動態浮點單元以使某些邏輯方塊閘控以降低精度和降低功率消耗。降低的每個單元的精度和功率要求，可以使更多的單元在線，從而允許更多的執行緒將被執行用於較低精度的運算。例如且在一個實施例中，可以被配置為執行16位元整數運算的邏輯單元可以被配置為執行8位元整數運算，從而降低功率需求。在一個實施例中，可以執行雙8位元整數運算，在整個期間增加而不顯著增加功率消耗。在一個實施例中，多個半精度邏輯單元可平行工作以執行單精度或雙精度浮點運算。在一個實施例中，可以通過多次通過邏輯單元，來執行更高精度的運算。

在一個實施例中，FPU編碼和配置模組1834還可以配置由浮點單元支持的浮點編碼方法。除了IEEE 754浮點標準，用於浮點值的半精度、單精度和雙精度編碼外，還可以根據當前正在處理的資料的動態範圍來支持多種替代編碼格式。例如，基於給定資料集的動態範圍及/或分佈，通過對指數或尾數資料使用更多或較少的位元，可以從更高到更低的精度更準確地量化資料。在一個實施例中，支持的替代格式指定具有8位元指數和7位元小數分量的1位元符號。一個實施例允許用1位元符號、3位元指數和12位元小數分量進行編碼。在這樣的實施例中，不同的指令集支持不同的浮點編碼，允許開發者基於程式代碼中指定的指令來選擇編碼。在一個實施例中，當對浮點資料進行捨入或下採樣時，例如從累加的32位元浮點值到16位元值，可以使用不同的浮點編碼。在一個實施例中，可以利用統計單元1829來確定哪個16位元編碼最適合給定的資料方塊。

在一個實施例中，機器學習加速器1823另外包含隨機量化單元1838以實現用於機器學習運算的隨機量化。隨機量化單元1838可以用於在量化運算期間實現隨機捨入。一個實施例能夠使用隨機數產生器進行隨機捨入，其中可以使用分數值來確定捨入機率。一個實施例利用統計單元1829來確定與來自神經網路的給定層的輸出資料組相關聯的機率分佈。對於每一層，可以確定資料值的機率密度，其中機率密度由包含為神經網路的每層確定的資料的平均值、標準偏差和方差(variance)的統計特性確定。使用這樣的資料，可以以不改變神經網路的每層內的資料的機率分佈的方式來執行隨機捨入。

圖19示出根據一個實施例的激活指令模組1832的細節。激活指令模組1832包含用於回應於單指令而對組合的融合乘加和激活的執行進行排序的邏輯。回應於通過圖18A的指令讀取和解碼單元1821對FMAC/FMADD+激活函數的解碼，可以經由機器學習加速器1823將指令執行分派給激活指令模組1832。機器學習加速器1823在接收到該指令時可以使用融合乘加/融合乘法累積執行緒排程器單元1902來排程一組融合乘加或融合乘法累積運算以計算計算方塊內的單元1824A-1824N。在一個實施例中，可以將計算方塊1824A-1824N輸出的中間資料儲存在機器學習加速器1823內的快取記憶體1836中。在一個實施例中，可以在激活指令模組1832內以串流方式處理大量的中間資料。在一個實施例中，中間資料可以表示將應用激活函數的非線性的激活圖。激活函數邏輯1904A-1904N可以應用選定激活函數的一個。可以基於由激活指令模組1832處理的特定指令或隨指令提供的參數，來選擇激活函數。具體的指令可以根據這裡描述的任何指令格式進行格式化。

浮點運算在不同點包含捨入運算。捨入用於浮點計算，因為浮點數字的位數有限，無法準確表示所有實數。因此，當一個數字的任務是表示一個需要比所選浮點格式允許的更多數字的值時，剩餘數字被省略，且數字被捨入到可以用浮點格式表示的最接近的值。可表示的具體數字取決於所選的浮點格式。

可以執行在浮點計算期間進行捨入的各種方法。這裡描述的實施例包含用於對機器學習運算執行隨機捨入的硬體邏輯。與其他捨入方法相比，其他方法捨入到最近的數字或嚴格上下，隨機方法隨機捨入數字。這裡描述的實施例使得用於深度神經網路的資料值的量化的隨機捨入成為可能。提供一個捨入單元，其可以使用多個捨入模式之一進行硬體隨機捨入。一個實施例使得能夠使用隨機數產生器進行隨機捨入。可以使用分數值來確定捨入機率。可以將隨機數與捨入機率進行比較，以確定在量化期間捨入哪個最接近的可表示值。或者，一個實施例利用統計累加器/估計器邏輯來確定與來自神經網路的給定層的輸出資料組相關聯的機率分佈。對於每一層，可以確定資料值分佈的機率密度，其中機率密度由針對神經網路的每一層確定的資料的平均值、標準偏差和方差來定義。使用這樣的資料，可以以不改變神經網路的每層的機率分佈的方式來執行隨機捨入。

圖20示出根據一個實施例的隨機量化單元1838。在一個實施例中，隨機量化單元1838被用來將在神經網路的層內產生的原始輸出資料量化為由神經網路的下一層使用的格式。例如，用於產生輸出資料的計算運算可以以更高的精度處理，且可以在將結果作為輸入提供給下一層之前將結果量化為較低的精度。在一個實施例中，來自給定層n的輸出2002B，例如以32位元處理且由量化單元2004量化成16位元資料類型。量化運算可以使用隨機捨入，其可以通過隨機捨入單元2009來實現。然後可以將量化的和捨入的值提供給神經網路的下一層(層N+1)2010。

在各種實施例中，隨機量化單元1838可以通過使用隨機數產生器2006來執行隨機捨入。在浮點算術中，捨入旨在將給定值x轉換為具有指定有效數字位數的值z，其中，z是取決於x的大小的數字m的倍數。數字m是浮點表示的基數(通常為2或10)的冪。數字z是一個可接近值x的可表示值。值x是向上捨入還是向下以實現值z是基於由隨機數產生器2006選擇的隨機值。將產生的隨機值與有效表示之間的小數部分進行比較。小數部分可以用作向上或向下捨入到最接近的可表示值的機率。量化過程中可表示值之間的差距取決於適當位置的浮點表示的編碼格式。例如，如果量化要捨入為整數值且小數值為0.3，則向上捨入的機率可等於30%，而向下捨入的機率可等於70%。在這樣的場景中，隨機數產生器2006是適當驗證的真隨機數產生器，隨機捨入單元2009將與小數值成比例地向上或向下捨入。

可選地，隨機捨入單元2009可以利用統計累加器/估計器2008，在一個實施例中，統計累加器/估計器2008是如圖18A中的近資料統計單元1829。統計累加器/估計器2008可以分析來自先前層2002A-2002B的輸出以確定與神經網路資料相關聯的分佈。隨機捨入單元2009然後可以在量化期間捨入資料，使得量化資料具有與預量化資料相似的分佈。

圖21示出根據一個實施例的FPU編碼和配置模組1834。在一個實施例中，GPU編碼和配置模組1834包含一個FPU配置模組2102和FPU編碼模組2104。FPU配置模組2102可用於配置為執行16位元整數邏輯單元以執行8位元整數運算，包含雙8位元整數運算。在一個實施例中，多個半精度邏輯單元可以平行地工作以執行單精度或雙精度浮點運算。FPU編碼模組2104可用於配置在資料計算期間在計算方塊1824A-1824N內使用的特定浮點編碼格式。在一個實施例中，FPU編碼模組2104可以回應於指定要以非標準浮點格式儲存輸入或輸出資料的指令，來配置計算方塊1824A-1824N中的一或多個。然後，可以將執行指令的計算方塊配置為，在執行指令的運算之前解釋非標準格式的資料。在一個實施例中，FPU編碼模組2104將配置一或多個計算方塊以使用能夠最高效地儲存要處理的資料的浮點編碼格式。這種確定可以部分地基於統計單元1829提供的機率和統計資訊來執行，統計單元1829可以用作位於GPGPU本地記憶體1828的記憶體控制器2106內的近資料計算單元。

圖22示出根據一個實施例的用於使用動態可配置計算單元來處理指令的邏輯2200。邏輯2200可以是如本文所述的GPGPU及/或GPGPU多處理器內的硬體或韌體邏輯，諸如圖14中的多處理器單元1400，或者圖18的GPGPU 1820。如方塊2202所示，邏輯2200被配置為讀取並解碼單指令以對一組運算元執行組合乘加運算。如方塊2204所示，邏輯2200然後可以發出單指令或由計算單元執行以供動態可配置計算單元執行。如方塊2206所示，邏輯2200然後可以配置計算單元的一或多個邏輯單元以在運算元的精度和資料類型處執行運算。如方塊2208所示，邏輯2200然後可以在計算單元處執行單指令以基於乘加運算來產生輸出。

在一個實施例中，在方塊2202處執行的組合乘法和加法運算可以是包含單個捨入的融合浮點運算。例如，乘法和加法運算可以是融合乘加或融合乘法累積運算。組合的乘法和加法運算也可以是整數運算。整數運算可以包含乘法和加法之間的捨入運算。可以通過在邏輯單元內由多工器在整數資料類型的最高位元位置插入零來執行該捨入。多工器可以位於乘法器之後，位於邏輯單元內的加法器之前。

在一個實施例中，方塊2204的動態可配置邏輯單元是可配置為執行整數或浮點運算的合併浮點和整數邏輯單元。例如，動態可配置邏輯單元可以是圖16的邏輯單元1600、圖17A的邏輯單元1700或圖17B的邏輯單元1740中的一個。計算單元可以包含這種邏輯單元的多個不同實例。在一個實施例中，邏輯單元可以基於每個週期來配置。在一個實施例中，邏輯單元是第一邏輯單元，其被配置為使用在浮點資料路徑和整數資料路徑之間共享的乘法器和加法器來執行單週期融合乘加運算。在一個實施例中，邏輯單元是被配置為執行具有單週期吞吐量的雙週期融合乘法累積運算的第二邏輯單元。在一個實施例中，邏輯單元是被配置為執行雙週期融合乘法累積運算的第三邏輯單元，其中第三邏輯包含具有輸入和輸出運算元的兩倍位元寬的累加器。在一個實施例中，第三邏輯單元的晶粒面積(die area)最多比第二邏輯單元的晶粒面積多11%。

這裡描述的動態可配置邏輯單元可以被配置為執行整數或浮點運算。在一個實施例中，一或多個邏輯單元可以被配置為以多個不同的精度執行運算。在一個實施例中，邏輯單元可以用於通過多週期運算以多種不同精度執行運算。在一個實施例中，可以選擇不同的浮點編碼，包含IEEE 754半精度浮點格式、單精度浮點格式和雙精度浮點格式。也可以使用非標準浮點格式，其中不同位元分配被用於浮點值的指數和尾數。

在一個實施例中，基於乘法和加法運算的輸出然後可以通過激活函數附加地處理。例如，回應於單指令，可以由FMADD/FMAC執行緒排程器單元排程FMADD或FMAC運算，如圖19所示。這些運算的輸出可以是可以被提供給激活函數邏輯(例如，如圖19中的激活函數邏輯1904)以產生神經元激活資料的激活圖資料。

圖23A示出根據一個實施例的執行機器學習指令的邏輯2300。邏輯2300可以是如本文所述的GPGPU及/或GPGPU多處理器內的硬體或韌體邏輯，諸如圖14中的多處理器單元1400，或者圖18的GPGPU 1820。如方塊2302所示，邏輯2300被配置為讀取並解碼單指令以經由機器學習加速器單元執行一組機器學習運算。機器學習加速器單元包含這裡描述的機器學習加速器1823的元件，包含圖18B的激活指令模組1832、FPU編碼和配置模組1834及隨機量化單元1838。如方塊2304所示，邏輯2300然後可以發出單指令以供一組動態可配置計算單元執行。如方塊2306所示，邏輯然後可以配置該組計算單元以比運算的輸入和輸出更高的精度，執行該組機器學習運算。在一個實施例中，配置由本文所述的FPU配置模組執行。FPU配置模組可以配置計算單元以例如使用32位元中間資料對16位元浮點矩陣資料執行卷積運算。如方塊2308所示，邏輯2300然後可以在通過機器學習加速器內的隨機捨入邏輯輸出之前，將較高精度中間值量化為較低精度。例如，可以使用隨機捨入將32位元中間資料量化為16位元以輸出。

圖23B示出根據實施例的基於神經網路資料的分佈來配置浮點運算的邏輯2310。在一個實施例中，邏輯2300包含這裡描述的硬體和韌體邏輯和邏輯單元，包含圖18B和圖20的隨機量化單元1838、圖18B的FPU編碼和配置模組1834。圖20的統計累加器/估計器2008在一個實施例中，被包含在圖18A的統計單元1829內。所述統計單元1829可以是包含用於GPGPU記憶體控制器內，如圖21的近資料計算單元。

如方塊2312所示，使用統計單元，邏輯2310可以確定儲存在記憶體中的神經網路資料的一組統計度量。如方塊2314所示，邏輯2310然後可以通過統計度量確定記憶體中神經網路資料的分佈。在一個實施例中，如方塊2316所示，邏輯2310可以配置用於執行一組機器學習運算的計算單元的浮點編碼。如方塊2318所示，邏輯2310然後可以配置機器學習加速器內的隨機捨入邏輯以基於分佈進行捨入。隨機捨入邏輯可以被配置為基於分佈進行捨入，使得量化的神經網路資料的機率分佈比使用基於隨機捨入技術的隨機數產生器的預量化資料，可能更接近。

附加的示例性圖形處理系統

上述實施例的細節可以被結合在下面描述的圖形處理系統和裝置中。圖24至圖37的圖形處理系統和裝置，說明可實施上文所描述的任何及所有技術的替代系統及圖形處理硬體。

附加的示例性圖形處理系統概述

圖24是根據一個實施例的處理系統2400的方塊圖。在各種實施例中，系統2400包含一或多個處理器2402和一或多個圖形處理器2408，且可以是具有大量處理器2402或處理器核心2407的單處理器桌上型電腦系統，多處理器工作站系統或伺服器系統。在一個實施例中，系統2400是結合在用於移動、手持或嵌入式裝置的系統單晶片(SoC)積體電路內的處理平台。

系統2400的實施例可以包含或者被併入基於伺服器的遊戲平台、包含遊戲和媒體控制台、行動遊戲控制台、手持遊戲控制台或在線遊戲控制台的遊戲控制台。在一些實施例中，系統2400是行動電話、智慧型電話、平板計算裝置或行動網際網路裝置。資料處理系統2400還可以包含、耦合或整合在可穿戴裝置(諸如智慧型手錶可穿戴裝置，智慧型眼鏡裝置，擴增式實境裝置(augmented reality device)或虛擬實境裝置(virtual reality device))內。在一些實施例中，資料處理系統2400是電視或機頂盒裝置，其具有一或多個處理器2402和由一或多個圖形處理器2408產生的圖形界面。

在一些實施例中，一或多個處理器2402各自包含一或多個處理器核心2407，以處理在被執行時，執行用於系統和用戶軟體的運算的指令。在一些實施例中，一或多個處理器核心2407中的每一個被配置為處理特定指令集2409。在一些實施例中，指令集2409可以促進複雜指令集計算(Complex Instruction Set Computing,CISC)，簡化指令集計算(Reduced Instruction Set Computing,RISC)或通過超長指令字(Very Long Instruction Word,VLIW)計算。多個處理器核心2407可以各自處理不同的指令集2409，其可以包含便於仿真其他指令集的指令。處理器核心2407還可以包含其他處理裝置，諸如數位訊號處理器(Digital Signal Processor,DSP)。

在一些實施例中，處理器2402包含快取記憶體2404。取決於架構，處理器2402可以具有單個內部快取或多個級別的內部快取。在一些實施例中，快取記憶體在處理器2402的各種元件之間共享。在一些實施例中，處理器2402還使用已知的快取同調技術在處理器核心2407之間共享的外部快取記憶體(例如，級別3(Level-3,L3)快取記憶體或最終級別快取記憶體(Last Level Cache,LLC))(未示出)。暫存器檔2406另外包含於處理器2402，其可以包含用於儲存不同類型的資料(例如，整數暫存器、浮點暫存器、狀態暫存器和指令指標暫存器)的不同類型的暫存器。一些暫存器可以是通用暫存器，而其他暫存器可以專用於處理器2402的設計。

在一些實施例中，處理器2402與處理器匯流排2410耦合以在處理器2402與系統2400中的其它元件之間傳輸諸如位址、資料或控制訊號的通訊訊號。在一個實施例中，系統2400使用包含記憶體控制器集線器2416和輸入輸出(Input Output,I/O)控制器集線器2430的示例性“集線器(hub)”系統架構。記憶體控制器集線器2416促進記憶體裝置與系統2400的其他元件之間的通訊，而I/O控制器集線器(I/O Controller Hub,ICH)2430經由本地I/O匯流排提供到I/O裝置的連接。在一個實施例中，記憶體控制器集線器2416的邏輯被整合在處理器內。

記憶體裝置2420可以是動態隨機存取記憶體(dynamic random access memory,DRAM)裝置、靜態隨機存取記憶體(static random access memory,SRAM)裝置、快閃記憶體裝置(flash memory device)、相變記憶體裝置(phase-change memory)或一些其他具有合適性能以充當處理記憶體的儲存裝置。在一個實施例中，當一或多個處理器2402執行應用或處理時，記憶體裝置2420可以作為系統2400的系統記憶體來運算，以儲存資料2422和指令2421以供使用。記憶體控制器集線器2416還與可選的外部圖形處理器2412耦合，該外部圖形處理器2412可與處理器2402中的一或多個圖形處理器2408進行通訊以執行圖形和媒體運算。

在一些實施例中，ICH2430使週邊裝置能夠經由高速I/O匯流排連接到記憶體裝置2420和處理器2402。I/O週邊裝置包含但不限於音頻控制器2446、韌體介面2428、無線收發器2426(例如，Wi-Fi、藍芽)、資料儲存裝置2424(例如硬盤驅動器、快閃記憶體等)及用於將傳統(例如，個人系統2(Personal System 2,PS/2))裝置耦合到系統的傳統I/O控制器2440。一或多個通用串行匯流排(Universal Serial Bus,USB)控制器2442連接輸入裝置，諸如鍵盤和滑鼠2444組合。網路控制器2434也可以與ICH2430耦合。在一些實施方案中，高性能網路控制器(未示出)與處理器匯流排2410耦合。應該理解的是，所示的系統2400是示例性的而非限制性的，因為也可以使用不同配置的其他類型的資料處理系統。例如，I/O控制器集線器2430可以被整合在一或多個處理器2402內，或者記憶體控制器集線器2416和I/O控制器集線器2430可以被整合到離散的外部圖形處理器，諸如外部圖形處理器2412。

圖25是具有一或多個處理器核心2502A-2502N、整合記憶體控制器2514和整合圖形處理器2508的處理器2500的實施例的方塊圖。那些圖25的元件具有與本文任何其它附圖相同的附圖標記(或名稱)，可以以類似於本文其他地方描述的任何方式進行運算或功能的元件，但並不限於此。處理器2500可以包含額外的核心，直到並包含由虛線方塊表示的附加核心2502N。每個處理器核心2502A-2502N包含一或多個內部快取記憶體單元2504A- 2504N。在一些實施例中，每個處理器核心還可以存取一或多個共享快取單元2506。

內部快取記憶體單元2504A-2504N和共享快取記憶體單元2506表示處理器2500內的快取記憶體階層。快取記憶體階層可以包含每個處理器核心中的至少一個級別的指令和資料快取記憶體及一或多個級別的共享中級(mid-level)快取記憶體，諸如級別2(L2)、級別3(L3)、級別4(L4)或其他級別的快取記憶體，其中外部記憶體之前的最高級別的快取記憶體被分類為LLC。在一些實施例中，快取同調邏輯保持各個快取記憶體單元2506和2504A-2504N之間的同調。

在一些實施例中，處理器2500還可以包含一組一或多個匯流排控制器單元2516和系統代理核心(system agent core)2510。一或多個匯流排控制器單元2516管理一組週邊匯流排，例如一或多個週邊元件互連匯流排(例如，PCI、PCIExpress)。系統代理核心2510為各種處理器元件提供管理功能。在一些實施例中，系統代理核心2510包含一或多個整合記憶體控制器2514，以管理對各種外部記憶體裝置(未示出)的存取。

在一些實施例中，處理器核心2502A-2502N中的一或多個包含對同時多執行緒的支持。在這樣的實施例中，系統代理核心2510包含用於在多執行緒處理期間協調和運算核心2502A-2502N的元件。系統代理核心2510可以另外包含功率控制單元(power control unit,PCU)，其包含用於調節處理器核心2502A-2502N和圖形處理器2508的功率狀態的邏輯和元件。

在一些實施例中，處理器2500另外包含圖形處理器2508以執行圖形處理運算。在一些實施例中，圖形處理器2508與共享快取記憶體單元集合2506及系統代理核心2510(包含一或多個整合記憶體控制器2514)耦合。在一些實施例中，顯示控制器2511與圖形處理器2508耦合，以將圖形處理器輸出驅動到一或多個耦合的顯示器。在一些實施例中，顯示控制器2511可以是經由至少一個互連，與圖形處理器耦合的獨立模組，或者可以整合在圖形處理器2508或系統代理核心2510內。

在一些實施例中，使用基於環(ring based)的互連單元2512來耦合處理器2500的內部元件。然而，可以使用替代的互連單元，諸如點對點互連、交換互連或其他技術，包含本領域公知的技術。在一些實施例中，圖形處理器2508經由I/O鏈路2513與環形互連(ring interconnect)2512耦合。

示例性I/O鏈路2513表示多種I/O互連中的至少一種，包含在線封裝(on package)I/O互連，其促進各種處理器元件與高性能嵌入式記憶體模組2518(諸如eDRAM模組)之間的通訊。在一些實施例中，處理器核心2502A-2502N和圖形處理器2508中的每一個使用嵌入式記憶體模組2518作為共享的最後級別快取記憶體。

在一些實施例中，處理器核心2502A-2502N 是執行相同指令集架構的同質(homogenous)核心。在另一實施例中，處理器核心2502A-2502N在指令集架構(ISA)方面是異質的(heterogeneous)，其中處理器核心2502A-2502N中的一或多個執行第一指令集，而其他核心中的至少一個執行第一個指令集或不同的指令集。在一個實施例中，就微架構而言，處理器核心2502A-2502N是異質的，其中具有相對較高功耗的一或多個核心與具有較低功耗的一或多個功率核心耦合。另外，除了其他元件之外，處理器2500可以在一或多個晶片上實現或者作為具有所示元件的SoC積體電路來實現。

圖26是圖形處理器2600的方塊圖，其可以是離散圖形處理單元，或者可以是與多個處理核心整合的圖形處理器。在一些實施例中，圖形處理器經由記憶體映射的I/O介面，與圖形處理器上的暫存器及放置在處理器記憶體中的命令進行通訊。在一些實施例中，圖形處理器2600包含存取記憶體的記憶體介面2614。記憶體介面2614可以是到本地記憶體、一或多個內部快取記憶體、一或多個共享外部快取記憶體、及/或到系統記憶體的介面。

在一些實施例中，圖形處理器2600還包含顯示控制器2602以將顯示輸出資料驅動到顯示裝置2620。顯示控制器2602包含硬體，用於一或多個重疊平面，其用以顯示、及視頻或用戶界面元素的多個層的組合物。在一些實施例中，圖形處理器2600包含視頻編解碼器引擎2606，以將媒體編碼、解碼或轉碼為、來自或介於一或多個媒體編碼格式，包含但不限於諸如MPEG-2的運動圖像專家組(Moving Picture Experts Group,MPEG)格式、諸如H.264/MPEG-4AVC的高階視頻編碼(Advanced Video Coding,AVC)格式及電影和電視工程師協會(Society of Motion Picture & Television Engineer,SMPTE)421M/VC-1和聯合圖像專家組(Joint Photographic Experts Group,JPEG)格式，如JPEG和MotionJPEG(Motion JPEG,MJPEG)格式。

在一些實施例中，圖形處理器2600包含方塊圖像傳輸(block image transfer,BLIT)引擎2604以執行二維(2D)光柵器運算，包含例如位元邊界方塊傳輸。然而，在一個實施例中，2D圖形運算是使用的圖形處理引擎(graphics processing engine,GPE)2610的一或多個元件來執行。在一些實施例中，GPE2610是用於執行包含三維(3D)圖形運算和媒體運算的圖形運算的計算引擎。

在一些實施例中，GPE310包含3D管線2612，用於執行3D運算，諸如使用作用於3D基元形狀(例如，矩形、三角形等)的處理功能來渲染三維圖像和場景。3D管線2612包含可編程和固定功能元件，其可執行元件內的各種任務及/或產生執行執行緒到3D/媒體子系統2615。雖然3D管線2612可以用於執行媒體運算，但是GPE 2610的實施例還包含專門用於執行媒體運算(例如視頻後處理和圖像增強)的媒體管線2616。

在一些實施例中，媒體管線2616包含固定功能或可編程邏輯單元，以代替或代表視頻編解碼器引擎2606執行一或多個專用媒體運算，諸如視頻解碼加速、視頻去交錯(de-interlacing)和視頻編碼加速。在一些實施例中，媒體管線2616另外包含執行緒產生單元以產生執行緒，以在3D/媒體子系統2615上執行。產生的執行緒對包含在3D/媒體子系統2615中的一或多個圖形執行單元上的媒體運算執行計算。

在一些實施例中，3D/媒體子系統2615包含用於執行3D管線2612和媒體管線2616產生的執行緒的邏輯。在一個實施例中，管線將執行緒執行請求發送到3D/媒體子系統2615，其包含執行緒分派邏輯，用於將各種請求仲裁並分派給可用執行緒執行資源。執行資源包含一陣列圖形執行單元來處理3D和媒體執行緒。在一些實施例中，3D/媒體子系統2615包含用於執行緒指令和資料的一或多個內部快取記憶體。在一些實施例中，子系統還包含共享記憶體(包含暫存器和可尋址記憶體)以在執行緒之間共享資料並儲存輸出資料。

附加的示例性圖形處理引擎

圖27是根據一些實施例的圖形處理器的圖形處理引擎2710的方塊圖。在一個實施例中，圖形處理引擎(graphics processing engine,GPE)2710是圖26中所示的GPE 2610的版本。圖27的元件具有與本文任何其它附圖相同的附圖標記(或名稱)，可以以類似於本文其他地方描述的任何方式進行運算或功能的元件，但並不限於此。例如，圖26示出3D管線2612和媒體管線2616。媒體管線2616在GPE 2710的一些實施例中是可選的，且可以不明確地包含在GPE 2710內。例如且在至少一個實施例中，分離的媒體及/或圖像處理器耦合到GPE 2710。

在一些實施例中，GPE 2710與命令串流器2703耦合或包含命令串流器(streamer)2703，命令串流器2703向3D管線2612及/或媒體管線2616提供命令串流。在一些實施例中，命令串流器2703與可以是系統記憶體的記憶體或者內部快取記憶體和共享快取記憶體中的一或多個相耦合。在一些實施例中，命令串流器2703從記憶體接收命令並將命令發送到3D管線2612及/或媒體管線2616。這些命令是從環形緩衝器中讀取的指令(directive)，其儲存用於3D管線2612和媒體管線2616的命令。在一個實施例中，環形緩衝器可以另外包含儲存多個命令的批次的批次命令緩衝器。用於3D管線2612的命令還可以包含對儲存在記憶體中的資料的引用，例如但不限於用於3D管線2612的頂點和幾何資料及/或用於媒體管線2616的圖像資料和記憶體物件。3D管線2612和媒體管線2616通過經由相應管線內的邏輯執行運算或通過將一或多個執行執行緒分派到圖形核心陣列2714來處理命令和資料。

在各種實施例中，3D管線2612可通過處理指令並將執行執行緒分派給圖形核心陣列2714來執行一或多個著色器程式，諸如頂點著色器、幾何著色器、像素著色器、片段著色器、計算著色器或其他著色器程式。圖形核心陣列2714提供統一的執行資源方塊。圖形核心陣列2714內的多用途執行邏輯(例如，執行單元)包含對各種3D API著色器語言的支持，且可以執行與多個著色器相關聯的多個同時執行執行緒。

在一些實施例中，圖形核心陣列2714還包含執行邏輯，其用於執行諸如視頻及/或圖像處理的媒體功能。在一個實施例中，除了圖形處理運算之外，執行單元還包含可編程以執行平行通用計算運算的通用邏輯。通用邏輯可以平行或結合圖24的處理器核心2407或圖25的核心2502A-2502N內的通用邏輯來執行處理運算。

由在圖形核心陣列2714上執行的執行緒產生的輸出資料，可以將資料輸出到統一返回緩衝器(unified return buffer,URB)2718中的記憶體。URB2718可以儲存多個執行緒的資料。在一些實施例中，URB2718可以用於在圖形核心陣列2714上執行的不同執行緒之間發送資料。在一些實施例中，URB2718可另外用於圖形核心陣列上的執行緒與共享功能邏輯2720內的固定功能邏輯之間的同步。

在一些實施例中，圖形核心陣列2714是可擴充的，使得陣列包含可變數量的圖形核心，每個圖形核心具有基於GPE2710的目標功率和性能水平的可變數量的執行單元。在一個實施例中，執行資源是動態可擴充的，從而可以根據需要啟用或禁用執行資源。

圖形核心陣列2714與共享功能邏輯2720耦合，其包含在圖形核心陣列中的圖形核心之間共享的多個資源。共享功能邏輯2720內的共享功能是向圖形核心陣列2714提供專用補充功能的硬體邏輯單元。在各種實施例中，共享功能邏輯2720包含但不限於取樣器2721、數學2722和執行緒間通訊(inter-thread communication,ITC)2723邏輯。另外，一些實施例實現共享功能邏輯2720內的一或多個快取記體2725。在對給定專用功能的需求不足以包含在圖形核心陣列2714內的情況下實施共享功能。相反，該專用功能的單個實例被實現為共享功能邏輯2720中的獨立實體且在圖形核心陣列2714內的執行資源之間共享。在圖形核心陣列2714之間共享且被包含在圖形核心陣列2714內的精確的一組功能，在實施例之間變化。

圖28是圖形處理器2800的另一實施例的方塊圖。圖28的元件具有與本文任何其它附圖相同的附圖標記(或名稱)，可以以類似於本文其他地方描述的任何方式進行運算或功能的元件，但並不限於此。

在一些實施例中，圖形處理器2800包含環形互連2802、管線前端2804、媒體引擎2837和圖形核心2880A-2880N。在一些實施例中，環形互連2802耦合圖形處理器至其它處理單元，包含其他圖形處理器或一或多個通用處理器核心。在一些實施例中，圖形處理器是整合在多核心處理系統內的許多處理器中的一個。

在一些實施例中，圖形處理器2800經由環形互連2802接收批次的命令。進入的命令由管線前端2804中的命令串流器2803解譯。在一些實施例中，圖形處理器2800包含可擴充執行邏輯，以經由圖形核心2880A-2880N執行3D幾何處理和媒體處理。對於3D幾何處理命令，命令串流器2803將命令提供給幾何管線2836。對於至少一些媒體處理命令，命令串流器2803將命令提供給與媒體引擎2837耦合的視頻前端2834。在一些實施例中，媒體引擎2837包含用於視頻和圖像後處理的視頻品質引擎(Video Quality Engine,VQE)2830和用於提供硬體加速的媒體資料編碼和解碼的多格式編碼/解碼(multi-format encode/decode,MFX)2833引擎。在一些實施例中，幾何管線2836和媒體引擎2837各自為由至少一個圖形核心2880A提供的執行緒執行資源產生執行執行緒。

在一些實施例中，圖形處理器2800包含具有模組化核心2880A-2880N(有時被稱為核心切片)的可擴充執行緒執行資源，每個模組核心具有多個子核心2850A-550N、2860A-2860N(有時被稱為核心子切片)。在一些實施例中，圖形處理器2800可具有任何數量的圖形核心2880A到2880N。在一些實施例中，圖形處理器2800包含具有至少第一子核心2850A和第二子核心2860A的圖形核心2880A。在其它實施例中，圖形處理器是具有單個子核心(例如，2850A)的低功率處理器。在一些實施例中，圖形處理器2800包含多個圖形核心2880A-2880N，每個圖形核心包含一組第一子核心2850A-2850N和一組第二子核心 2860A-2860N。第一子核心組2850A-2850N中的每個子核心至少包含第一組執行單元2852A-2852N和媒體/紋理取樣器2854A-2854N。該組第二子核心2860A-2860N中的每個子核心至少包含第二組執行單元2862A-2862N和取樣器2864A-2864N。在一些實施例中，每個子核心2850A-2850N、2860A-2860N共享一組共享資源2870A-2870N。在一些實施例中，共享資源包含共享快取記憶體和像素運算邏輯。其他共享資源也可以被包含在圖形處理器的各種實施例中。

附加的示例性執行單元

圖29示出包含在GPE的一些實施例中，採用的處理元件的陣列的執行緒執行邏輯2900。圖29的元件具有與本文任何其它附圖相同的附圖標記(或名稱)，可以以類似於本文其他地方描述的任何方式進行運算或功能的元件，但並不限於此。

在一些實施例中，執行緒執行邏輯2900包含著色器處理器2902、執行緒分派器2904、指令快取記憶體2906、包含多個執行單元2908A-2908N的可擴充執行單元陣列、取樣器2910、資料快取記憶體2912和資料端口2914。在一個實施例中，可擴充執行單元陣列可以通過基於工作負載的計算需求來啟用或禁用一或多個執行單元(例如，執行單元2908A、2908B、2908C、2908D、至2908N-1和2908N中的任何一個)。在一個實施例中，所包含的元件經由鏈接到每個元件的互連結構互連。在一些實施例中，執行緒執行邏輯2900包含通過指令快取記憶體2906、資料端口2914、取樣器2910和執行單元2908A-2908N中的一或多個，到記憶體(例如系統記憶體或快取記憶體)的一或多個連接。在一些實施例中，每個執行單元(例如2908A)是一個獨立的可編程通用計算單元，能夠執行多個同時硬體執行緒，同時為每個執行緒平行處理多個資料元素。在各種實施例中，執行單元2908A-2908N的陣列是可擴充的以包含任何數量的單獨執行單元。

在一些實施例中，執行單元2908A-2908N主要用於執行著色器程式。著色器處理器2902可以經由執行緒分派器2904處理與著色器程式相關聯的各種著色器程式和排程執行執行緒。在一個實施例中，執行緒分派器包含邏輯，其用於仲裁來自圖形和媒體管線的執行緒起始(initiation)請求且在執行單元2908A-2908N中的一或多個執行單元上實例化(instantiate)所請求的執行緒。例如，幾何管線(例如，圖28的2836)可以將頂點、曲面細分或幾何著色器分派給執行緒執行邏輯2900(圖29)以進行處理。在一些實施例中，執行緒分派器2904還可以處理來自正在執行的著色器程式的運行時執行緒產生請求。

在一些實施例中，執行單元2908A-2908N支持包含對許多標準3D圖形著色器指令的本機支持的指令集，使得來自圖形庫(例如，Direct3D和OpenGL)的著色器程式以最小的平移執行。執行單元支持頂點和幾何處理 (例如，頂點程式、幾何程式、頂點著色器)、像素處理(例如，像素著色器、片段著色器)和通用處理(例如，計算和媒體著色器)。執行單元2908A-2908N中的每一個都能夠執行多發行單指令多資料(single instruction multiple data,SIMD)執行，且多執行緒運算能夠在較高等待時間的記憶體存取的情況下，實現有效的執行環境。每個執行單元中的每個硬體執行緒都有一個專用的高頻寬暫存器檔和相關的獨立執行緒狀態。對於可以進行整數、單精度浮點運算和雙精度浮點運算、SIMD分支功能、邏輯運算、超越(transcendental)運算和其他雜項(miscellaneous)運算的管線，執行是每個週期多個發出。在等待來自記憶體或共享功能之一的資料的同時，執行單元2908A-2908N內的依賴性邏輯引起等待執行緒休眠，直到所請求的資料已被返回。當等待執行緒正在休眠時，硬體資源可能會專門用於處理其他執行緒。舉例來說，在與頂點著色器運算相關聯的延遲期間，執行單元可執行像素著色器、片段著色器或包含不同頂點著色器的另一類型著色器程式的運算。

執行單元2908A-2908N中的每個執行單元對資料元素的陣列進行運算。資料元素的數量是“執行大小”，或指令的通道數量。執行通道是資料元素存取、遮罩和指令內流程控制的邏輯執行單位。通道的數量可以獨立於特定圖形處理器的實體算術邏輯單元(Arithmetic Logic Unit,ALU)或浮點單元(Floating Point Unit,FPU)的數量。在一些實施例中，執行單元2908A-2908N支持整數和浮點資料類型。

執行單元指令集包含SIMD指令。各種資料元素可以作為打包資料(packed data)類型儲存在暫存器中，且執行單元將根據元素的資料大小處理各種元素。例如，當在256位元寬度的向量上運行時，向量的256位元被儲存在一個暫存器中，且執行單元將該向量作為四個獨立的64位元打包資料元素(四字(Quad-Word,QW)大小的資料元素)、8個獨立的32位元打包資料元素(雙字(Double Word,DW)大小的資料元素)、16個獨立的16位元打包資料元素(字(Word,W)大小的資料元素)或32個獨立的8位元資料元素(位元組(byte,B)大小的資料元素)。但是，不同的向量寬度和暫存器大小是可能的。

一或多個內部指令快取記憶體(例如2906)被包含在執行緒執行邏輯2900中，以快取執行單元的執行緒指令。在一些實施例中，包含一或多個資料快取記憶體(例如，2912)以在執行緒執行期間快取執行緒資料。在一些實施例中，包含取樣器2910以提供用於3D運算的紋理採樣和用於媒體運算的媒體採樣。在一些實施例中，取樣器2910包含專用紋理或媒體採樣功能，以在採樣資料提供給執行單元之前，處理採樣過程期間的紋理或媒體資料。

在執行期間，圖形和媒體管線通過執行緒產生和分派邏輯將執行緒起始請求發送到執行緒執行邏輯2900。一旦處理了一組幾何物件並將其光柵化為像素資料，則調用著色器處理器2902內的像素處理器邏輯(例如像素著色器邏輯、片段著色器邏輯等)以進一步計算輸出資訊並使結果成為寫入輸出表面(例如，顏色緩衝器、深度緩衝器、模板緩衝器等)。在一些實施例中，像素著色器或片段著色器計算要在光柵化對像上內插的各種頂點屬性的值。在一些實施例中，著色器處理器2902內的像素處理器邏輯然後執行應用程式介面(application programming interface,API)供應的像素或片段著色器程式。為了執行著色器程式，著色器處理器2902經由執行緒分派器2904向執行單元(例如，2908A)分派執行緒。在一些實施例中，像素著色器2902使用取樣器2910中的紋理採樣邏輯來存取儲存在記憶體中的紋理貼圖中的紋理資料。對紋理資料和輸入幾何資料的算術運算計算每個幾何片段的像素顏色資料，或丟棄來自進一步處理的一或多個像素。

在一些實施例中，資料端口2914提供記憶體存取機制，為執行緒執行邏輯2900輸出經處理的資料至記憶體以供在圖形處理器輸出管線上處理。在一些實施例中，資料端口2914包含或耦合到一或多個快取記憶體(例如，資料快取記憶體2912)以經由資料端口快取用於記憶體存取的資料。

圖30是示出根據一些實施例的圖形處理器指令格式3000的方塊圖。在一或多個實施例中，圖形處理器執行單元支持具有多種格式的指令的指令集。實線框說明通常包含在執行單元指令中的元件，而虛線包含可選元件或僅包含在指令的子集中的元件。在一些實施例中，所描述和說明的指令格式3000是巨集指令，因為它們是提供給執行單元的指令，而不是指令處理後由指令解碼產生的微運算。

在一些實施例中，圖形處理器執行單元本地支持128位元指令格式3010中的指令。基於所選指令、指令選項和運算元的數量，在一些指令中可以使用64位元壓縮指令格式3030。本地128位元指令格式710提供對所有指令選項的存取，而某些選項和運算受限於64位元格式3030。在64位元格式中可用的本地指令3030因實施例而異。在一些實施例中，部分地使用索引欄位3013中的一組索引值來壓縮指令。執行單元硬體基於索引值參考一組壓縮表並使用壓縮表輸出來重構128位元指令格式3010中的本機指令。

對於每種格式，指令運算碼3012定義執行單元要執行的運算。執行單元跨每個運算元的多個資料元素，平行執行每條指令。例如，回應於添加(add)指令，執行單元在表示紋理元素或圖片元素的每個顏色通道上執行同時添加運算。預設情況下，執行單元在運算元的所有資料通道上執行每條指令。在一些實施例中，指令控制欄位3014使得能夠在某些執行選項，諸如通道選擇(例如，預測)和資料通道的順序(例如，拌和(swizzle))控制。對於128位元指令格式3010中的指令，exec大小欄位3016限制將被平行執行的資料通道的數量。在一些實施例中，exec大小欄位3016不可用於64位元緊湊指令(compact instruction)格式3030。

某些執行單元指令最多有三個運算元，包含兩個源運算元src0 3020、src1 3022和一個目標3018。在一些實施例中，執行單元支持雙目的地指令，其中隱含目的地之一。資料運算指令可以具有第三源運算元(例如，SRC2 3024)，其中指令運算碼3012確定源運算元的數量。指令的最後一個源運算元可以是與指令一起傳送的立即數值(immediate value)(例如，硬編碼(hard-coded))值。

在一些實施例中，128位元指令格式3010包含存取/位址模式欄位3026，其指定例如是否使用直接暫存器尋址模式或間接暫存器尋址模式。當使用直接暫存器尋址模式時，一或多個運算元的暫存器位址由指令中的位元直接提供。

在一些實施例中，128位元指令格式3010包含存取/位址模式欄位3026，其指定該指令的位址模式及/或存取模式。在一個實施例中，存取模式被用來為指令定義資料存取對準。一些實施例支持存取模式，其包含16位元組(byte)對準存取模式和1位元組對準存取模式，其中存取模式的位元組對準確定指令運算元的存取對準。例如，當處於第一模式時，指令可以對源運算元和目的運算元使用位元組對準尋址，且當處於第二模式時，指令可以對所有源運算元和目的運算元使用16位元組對準尋址。

在一個實施例中，存取/位址模式欄位3026的位址模式部分確定指令是使用直接還是間接尋址。當使用直接暫存器尋址模式時，指令中的位元直接提供一或多個運算元的暫存器位址。當使用間接暫存器尋址模式時，可以根據指令中的位址暫存器值和位址立即欄位來計算一或多個運算元的暫存器位址。

在一些實施例中，基於運算碼3012位元欄位對指令進行分組以簡化運算碼解碼3040。對於8位元運算碼，位元4、5和6允許執行單元確定運算碼的類型。所示的精確運算碼分組僅僅是一個例子。在一些實施例中，移動和邏輯運算碼組3042包含資料移動和邏輯指令(例如，移動(mov)、比較(cmp))。在一些實施例中，移動和邏輯組3042共享五個最高有效位元(most significant bit,MSB)，其中移動(mov)指令以0000xxxxb的形式且邏輯指令以0001xxxxb的形式。流程(flow)控制指令組3044(例如，呼叫、跳轉(jmp))包含0010xxxxb(例如，0x20)形式的指令。雜項指令組3046包含以0011xxxxb(例如，0x30)的形式的指令混合，包含同步指令(例如，等待、發送)。平行數學指令組3048包含0100xxxxb(例如，0x40)形式的分量算術(component-wise)指令(例如，加法、乘法(mul))。平行數學組3048在資料通道上平行執行算術運算。向量數學群組3050包含形式為0101xxxxb(例如，0x50)的算術指令(例如，dp4)。向量數學組對向量運算元執行算術運算，例如點積計算。

額外的示例性圖形管線

圖31是圖形處理器3100的另一實施例的方塊圖。圖31的元件具有與本文任何其它附圖相同的附圖標記(或名稱)，可以以類似於本文其他地方描述的任何方式進行運算或功能的元件，但並不限於此。

在一些實施例中，圖形處理器3100包含圖形管線3120、媒體管線3130、顯示引擎3140、執行緒執行邏輯3150和渲染輸出管線3170。在一些實施例中，圖形處理器3100是包含一或多個通用處理核心的多核心處理系統內的圖形處理器。圖形處理器通過暫存器寫入一或多個控制暫存器(未示出)或經由環形互連3102發布給圖形處理器3100的命令來控制。在一些實施例中，環形互連3102將圖形處理器3100耦合到其他處理元件，諸如其他圖形處理器或通用處理器。來自環形互連3102的命令由命令串流器3103解譯，命令串流器3103向圖形管線3120或媒體管線3130的各個元件提供指令。

在一些實施例中，命令串流器3103引導從記憶體讀取頂點資料的頂點讀取器3105的運算且執行由命令串流器3103提供的頂點處理命令。在一些實施例中，頂點讀取器3105向頂點著色器3107提供頂點資料，頂點著色器3107對每個頂點執行坐標空間變換和照明運算。在一些實施例中，頂點讀取器3105和頂點著色器3107通過經由執行緒分派器3131將執行執行緒分派給執行單元3152A-3152B來執行頂點處理指令。

在一些實施例中，執行單元3152A-3152B是向量處理器的陣列，其具有用於執行圖形和媒體運算的指令集。在一些實施例中，執行單元3152A-3152B具有連接的L1快取記憶體3151，其專用於每個陣列或在陣列之間共享。快取可以配置為資料快取、指令快取或分區以在不同分區中包含資料和指令的單個快取。

在一些實施例中，圖形管線3120包含曲面細分元件以執行3D物件的硬體加速曲面細分。在一些實施例中，可編程外殼(hull)著色器811配置曲面細分運算。可編程域(domain)著色器817提供曲面細分輸出的後端評估。曲面細分器3113工作在外殼著色器3111的方向，並包含專用邏輯，以產生一組詳細的幾何物件，基於被作為輸入提供給圖形管線3120的粗(coarse)幾何模型。在一些實施例中，如果不使用曲面細分細分，則可以繞過曲面細分元件(例如，外殼著色器3111、曲面細分器3113和域著色器3117)。

在一些實施例中，完整的幾何物件可以由幾何著色器3119經由分派到執行單元3152A-3152B的一或多個執行緒來處理，或者可以直接進行到剪裁器(clipper)3129。在一些實施例中，幾何形狀著色器對整個幾何物件進行運算，而不是像在圖形管線的前一階段中那樣對頂點或補丁進行運算。如果曲面細分被禁用，則幾何著色器3119接收來自頂點著色器3107的輸入。在一些實施例中，如果曲面細分單元被禁用，則幾何著色器3119可由幾何著色器程式編程以執行幾何曲面細分。

在光柵化之前，剪裁器3129處理頂點資料。剪裁器3129可以是固定功能剪裁器或具有剪裁和幾何著色器功能的可編程剪裁器。在一些實施例中，渲染輸出管線3170中的光柵器和深度測試元件3173分派像素著色器以將幾何物件轉換為它們的每像素表示。在一些實施例中，像素著色器邏輯被包含在執行緒執行邏輯3150中。在一些實施例中，應用可以繞過光柵器和深度測試元件3173且經由串流輸出單元3123存取未光柵化的頂點資料。

圖形處理器3100具有互連匯流排、互連結構或一些其他允許資料和消息在處理器的主要元件之間傳遞的互連機制，。在一些實施例中，執行單元3152A-3152B和關聯的快取記憶體3151，紋理和媒體取樣器3154及紋理/取樣器快取記憶體3158經由資料端口3156互連以執行記憶體存取且與處理器的渲染輸出管線元件通信。在一些實施例中，取樣器3154、快取記憶體3151、3158和執行單元3152A-3152B各自具有分離的記憶體存取路徑。

在一些實施例中，渲染輸出管線3170包含光柵器和深度測試元件3173，其將基於頂點的物件轉換為關聯的基於像素的表示。在一些實施例中，光柵器邏輯包含執行固定功能三角形和線光柵化的分窗器(windower)/遮蔽器(masker)單元。在一些實施例中，相關的渲染快取記憶體3178和深度快取記憶體3179也是可用的。像素運算元件3177對資料執行基於像素的運算，但是在一些情況下，與2D運算相關聯的像素運算(例如，具有混合的位元方塊圖像傳送)由2D引擎3141執行，或者在顯示時間通過顯示器控制器3143使用覆蓋顯示平面取代。在一些實施例中，共享L3快取記憶體3175可用於所有圖形元件，允許在不使用主系統記憶體的情況下共享資料。

在一些實施例中，圖形處理器媒體管線3130包含媒體引擎3137和視頻前端3134。在一些實施例中，視頻前端3134從命令串流器3103接收管線命令。在一些實施例中，媒體管線3130包含單獨的命令串流器。在一些實施例中，視頻前端3134在將命令發送到媒體引擎3137之前處理媒體命令。在一些實施例中，媒體引擎3137包含執行緒產生功能以產生執行緒以經由執行緒分派器3131分派給執行緒執行邏輯3150。

在一些實施例中，圖形處理器3100包含顯示引擎3140。在一些實施例中，顯示引擎3140在處理器3100的外部，並經由環形互連3102或一些其他互連匯流排或結構與圖形處理器耦合。在一些實施例中，顯示引擎3140包含2D引擎3141和顯示控制器3143。在一些實施例中，顯示引擎3140包含能夠獨立於3D管線而運算的專用邏輯。在一些實施例中，顯示控制器3143與顯示裝置(未示出)耦合，該顯示裝置可以是如膝上型電腦中的系統整合顯示裝置，或者經由顯示裝置連接器連接的外部顯示裝置。

在一些實施例中，圖形管線3120和媒體管線3130可配置成基於多個圖形和媒體編程介面來執行運算，且不特定於任何一個應用編程介面(application programming interface,API)。在一些實施例中，用於圖形處理器的驅動器軟體將對特定圖形或媒體庫特定的API呼叫轉換成可由圖形處理器處理的命令。在一些實施例中，提供支持以用於全部來自Khronos Group的開放圖形庫(Open Graphics Library,OpenGL)、開放計算語言(Open Computing Language,OpenCL)及/或Vulkan圖形和計算API。在一些實施例中，還可以提供支持以用於來自微軟公司的Direct3D庫。在一些實施例中，可以支持這些庫的組合。也可以為開源電腦視覺庫(Open Source Computer Vision Library,OpenCV)提供支持。如果能夠從未來API的管線到圖形處理器的管線進行映射，則還將支持具有兼容3D管線的未來API。

圖形管線編程

圖32A是示出根據一些實施例的圖形處理器命令格式3200的方塊圖。圖32B是示出根據一個實施例的圖形處理器命令序列3210的方塊圖。圖32A中的實線框示出通常包含在圖形命令中的元件，而虛線包含可選的元件或僅包含在圖形命令的子集中的元件。圖32A的示例性的圖形處理器的命令格式3200包含資料欄位，其用於標識該命令的目標用戶端3202、命令運算碼(運算碼)3204及該命令的相關資料3206。子運算碼3205和命令大小3208也包含在一些命令中。

在一些實施例中，用戶端3202指定處理命令資料的圖形裝置的用戶端單元。在一些實施例中，圖形處理器命令解析器檢查每個命令的用戶端欄位，以調節命令的進一步處理並將命令資料排定路由到適當的用戶端單元。在一些實施例中，圖形處理器用戶端單元包含記憶體介面單元、渲染單元、2D單元、3D單元和媒體單元。每個用戶端單元都有一個處理這些命令的相應處理管線。一旦用戶端單元接收到該命令，用戶端單元就讀取運算碼3204及子運算碼3205(如果存在的話)以確定要執行的運算。用戶端單元使用資料欄位3206中的資訊來執行命令。對於一些命令，顯式(explicit)命令大小3208被預期以指定命令的大小。在一些實施例中，命令解析器基於命令運算碼自動確定至少一些命令的大小。在一些實施例中，命令經由多個雙字而對準。

圖32B的流程圖示出示例性圖形處理器命令序列3210。在一些實施例中，以圖形處理器的實施例為特徵的資料處理系統的軟體或韌體，使用所示的命令序列的版本來建立、執行和終止一組圖形運算。僅出於示例的目的示出並描述了示例命令序列，因為實施例不限於這些特定命令或該命令序列。而且，命令可以作為命令序列中的批次(batch)命令發布，使得圖形處理器將至少部分地同時處理命令序列。

在一些實施例中，圖形處理器命令序列3210可以以管線刷新(flush)命令3212開始，以使任何活動圖形管線完成管線的當前未決(pending)命令。在一些實施例中，3D管線3222和媒體管線3224不同時運算。執行管線刷新以使活動圖形管線完成任何未決命令。為了回應管線刷新，圖形處理器的命令解析器將暫停命令處理，直到活動繪圖引擎完成未決運算且相關讀取快取記憶體失效。可選地，渲染快取中標記為“髒(dirty)”的任何資料都可以刷新到記憶體。在一些實施例中，管線刷新命令3212可以用於管線同步或者在將圖形處理器置於低功率狀態之前。

在一些實施例中，當命令序列要求圖形處理器在管線之間明確切換時，使用管線選擇命令3213。在一些實施例中，在發布管線命令之前，在執行上下文中僅需要一次管線選擇命令3213，除非上下文要發布兩個管線的命令。在一些實施例中，在經由管線選擇命令3213的管線切換之前，立即需要管線刷新命令3212。

在一些實施例中，管線控制命令3214配置用於運算的圖形管線，並用於對3D管線3222和媒體管線3224進行編程。在一些實施例中，管線控制命令3214配置活動管線的管線狀態。在一個實施例中，管線控制命令3214被用於管線同步，並在處理一批命令之前清除活動管線內的一或多個快取記憶體的資料。

在一些實施例中，特定於返回緩衝器狀態3216的命令，被用於配置用於寫入資料的相應管線的一組返回緩衝器。一些管線運算需要分配、選擇或配置一或多個返回緩衝器，運算在處理期間將運算寫入中間資料。在一些實施例中，圖形處理器還使用一或多個返回緩衝器來儲存輸出資料並執行交叉(cross)執行緒通訊。在一些實施例中，返回緩衝器狀態3216包含選擇用於一組管線運算的返回緩衝器的大小和數量。

命令序列中的其餘命令根據運算的活動管線而不同。基於管線確定3220，命令序列調節(tailor)成，3D管線3222以3D管線狀態3230開始或媒體管線狀態3240以媒體管線3224開始。

用於配置3D管線狀態3230的命令包含3D狀態設置命令，其用於頂點緩衝器狀態、頂點元件狀態、恆定顏色狀態、深度緩衝器狀態及在處理3D基元命令之前要配置的其他狀態變量。這些命令的值至少部分基於所使用的特定3D API來確定。在一些實施例中，3D管線狀態3230命令還能夠選擇性地禁用或繞過某些管線元素，如果那些元素將不被使用的話。

在一些實施例中，使用3D基元3232命令來提交將由3D管線處理的3D基元。通過3D基元3232命令傳遞給圖形處理器的命令和相關參數，被轉發到圖形管線中的頂點讀取功能。頂點讀取功能使用3D基元3232命令資料來產生頂點資料結構。頂點資料結構儲存在一或多個返回緩衝器中。在一些實施例中，3D基元3232命令被用於經由頂點著色器對3D基元執行頂點運算。為了處理頂點著色器，3D管線3222將著色器執行執行緒分派給圖形處理器執行單元。

在一些實施例中，3D管線3222經由執行3234 命令或事件來觸發。在一些實施例中，暫存器寫入觸發命令執行。在一些實施例中，通過命令序列中的“去”或“踢”命令觸發執行。在一個實施例中，使用管線同步命令觸發命令執行，以通過圖形管線刷新命令序列。3D管線將執行3D基元的幾何處理。一旦運算完成，產生的幾何物件被光柵化，且像素引擎為結果像素著色。用於控制像素著色和像素後端運算的其他命令也可以包含在這些運算中。

在一些實施例中，當執行媒體運算時，圖形處理器命令序列3210跟隨媒體管線3224路徑。通常，媒體管線3224的具體使用和編程方式取決於要執行的媒體或計算運算。在媒體解碼期間，特定的媒體解碼運算可以被卸載到媒體管線。在一些實施例中，媒體管線也可以被繞過，且可以使用由一或多個通用處理核心提供的資源，全部或部分地執行媒體解碼。在一個實施例中，媒體管線還包含用於通用圖形處理器單元(GPGPU)運算的元件，其中圖形處理器用於使用與圖形基元的呈現不明確相關的計算著色器程式來執行SIMD向量運算。

在一些實施例中，媒體管線3224以與3D管線3222類似的方式配置。一組命令來配置在媒體物件命令3242之前，媒體管線狀態3240被分派或放置到命令佇列。在一些實施例中，媒體管線狀態命令3240包含配置將用於處理媒體物件的媒體管線元素的資料。這包含配置媒體管線內的視頻解碼和視頻編碼邏輯的資料，如編碼或解碼格式。在一些實施例中，媒體管線狀態命令3240還支持使用一或多個指向包含一批狀態設置的“間接”狀態元素的。

在一些實施例中，媒體物件命令3242提供指向媒體物件的指標以供媒體管線處理。媒體物件包含記憶體緩衝器，其包含要處理的視頻資料。在一些實施例中，在發布媒體物件命令3242之前，所有媒體管線狀態必須是有效的。一旦管線狀態被配置且媒體物件命令3242被佇列，媒體管線3224就通過執行命令3244或等同的執行事件(例如暫存器寫入)被觸發。然後，來自媒體管線3224的輸出可以由3D管線3222或媒體管線3224提供的運算進行後處理。在一些實施例中，GPGPU運算以與媒體運算類似的方式被配置和執行。

圖形軟體架構

圖33示出根據一些實施例的用於資料處理系統3300的示例性圖形軟體架構。在一些實施例中，軟體架構包含3D圖形應用程式3310、作業系統3320和至少一個處理器3330。在一些實施例中，處理器3330包含圖形處理器3332和一或多個通用處理器核心3334。圖形應用程式3310和作業系統3320各自在資料處理系統的系統記憶體3350中執行。

在一些實施例中，3D圖形應用程式3310包含一或多個著色器程式，其包含著色器指令3312。著色器語言指令可以是在高階的著色語言，如高階著色語言(High Level Shader Language,HLSL)或OpenGL著色語言 (OpenGL Shader Language,GLSL)。該應用程式還包含適用於由通用處理器核心3334執行的機器語言的可執行指令3314。該應用程式還包含由頂點資料定義的圖形物件3316。

在一些實施例中，作業系統3320是來自微軟公司的微軟Windows作業系統，專屬的類UNIX作業系統或者使用Linux核心的變體的開源UNIX類作業系統。作業系統3320可以支持圖形API 3322，例如Direct3D API，OpenGL API或Vulkan API。當Direct3D API被使用時，作業系統3320使用前端著色器編譯器3324來將HLSL中的任何著色器指令3312編譯成較低階的著色器語言。編譯可以是即時(just-in-time,JIT)編譯，或者應用程式可以執行著色器預編譯。在一些實施例中，在編譯3D圖形應用程式3310期間將高階著色器編譯成低級著色器。在一些實施例中，著色器指令3312以中間形式提供，諸如由Vulkan API使用的標準行動中間代表(Standard Portable Intermediate Representation,SPIR)的版本。

在一些實施例中，用戶模式圖形驅動器3326包含後端著色器編譯器3327以將著色器指令3312轉換成硬體特定表示。當OpenGL API被使用時，GLSL高階語言中的著色器指令3312被傳遞給用戶模式圖形驅動器3326以進行編譯。在一些實施例中，用戶模式圖形驅動器3326使用作業系統核心模式功能3328來與核心模式圖形驅動器3329通訊。在一些實施例中，核心模式圖形驅動器3329與圖形處理器3332通訊以分派命令和指令。

IP核心實現

至少一個實施例的一或多個態樣可以通過儲存在代表及/或定義諸如處理器的積體電路內的邏輯的機器可讀媒體上的代表性代碼來實現。例如，機器可讀媒體可以包含表示處理器內的各種邏輯的指令。當由機器讀取時，指令可以使機器製造邏輯以執行本文描述的技術。被稱為“IP核心”的這種表示，是用於積體電路的邏輯的可重用單元，其可以儲存在有形的機器可讀媒體上作為描述積體電路的結構的硬體模型。硬體模型可以提供給各種客戶或製造設施，這些客戶或製造設施在製造積體電路的製造機器上加載硬體模型。積體電路可以被製造為使得電路執行結合本文描述的任何實施例所描述的運算。

圖34是示出根據實施例的可用於製造積體電路以執行運算的IP核心開發系統3400的方塊圖。IP核心開發系統3400可以用於產生模組化的，可重複使用的設計，其可以被結合到更大的設計中或被用於構建整個積體電路(例如，SOC積體電路)。設計設施3430可以用高階編程語言(例如，C/C++)產生IP核心設計的軟體模擬3410。軟體模擬3410可以用於使用模擬模型3412來設計、測試和驗證IP核心的行為。模擬模型3412可以包含功能、行為及/或時序模擬。然後可以從模擬模型3412創建或合成暫存器傳輸級別(register transfer level,RTL)設計3415。RTL設計 3415是模擬硬體暫存器之間的數字訊號流的積體電路行為的抽象化，包含使用建模的數字訊號執行的相關邏輯。除了RTL設計3415，在邏輯階或電晶體階中較低階的設計也可以被創建、設計、或合成的。因此，初始設計和模擬的具體細節可能會有所不同。

RTL設計3415或等同物可以由設計工具進一步合成為硬體模型3`0，其可以是硬體描述語言(hardware description language,HDL)或實體設計資料的一些其他表示。可以進一步模擬或測試HDL以驗證IP核心設計。IP核心設計可以儲存用於傳遞到使用非揮發性記憶體3440中的第三方製造設施3465(例如，硬碟、快閃記憶體、或任何非揮發性儲存媒體)。或者，IP核心設計可以通過有線連接3450或無線連接3460傳輸(例如，經由網際網路)。製造設施3465然後可以製造至少部分基於IP核心設計的積體電路。所製造的積體電路可以被配置為執行根據本文描述的至少一個實施例的運算。

示例性系統單晶片積體電路

圖35-37示出根據本文描述的各種實施例中可使用一或多個IP核心製造的示例性積體電路和相關聯的圖形處理器。除了所說明的之外，可以包含其他邏輯和電路，包含附加的圖形處理器/核心，週邊介面控制器或通用處理器核心。

圖35是示出根據實施例的可以使用一或多個 IP核心製造的示例性系統單晶片積體電路3500的方塊圖。示例性積體電路3500包含一或多個應用處理器3505(例如，CPU)、至少一個圖形處理器3510、且可以另外包含圖像處理器3515及/或視頻處理器3520、其中的任何一個可以是來自相同或多個不同設計設施的模組化IP核心。積體電路3500包含週邊或匯流排邏輯，其包含USB控制器3525、UART控制器3530、SPI/SDIO控制器3535和I²S/I²C控制器3540。另外，積體電路可以包含耦合到高清多媒體介面(high-definition multimedia interface,HDMI)控制器3550和行動工業處理器介面(mobile industry processor interface,MIPI)顯示器介面3555中的一或多個的顯示裝置3545。儲存可以由包含快閃記憶體和快閃記憶體控制器的快閃記憶體子系統3560提供。記憶體介面可以經由記憶體控制器3565被提供用於存取SDRAM或SRAM記憶體裝置。一些積體電路還包含嵌入式安全引擎3570。

圖36是示出根據實施例的可以使用一或多個IP核心製造的系統單晶片積體電路的示例性圖形處理器3610的方塊圖。圖形處理器3610可以是圖36的圖形處理器3610的變體。圖形處理器3610包含頂點處理器3605和一或多個片段處理器3615A-3615N(例如，3615A、3615B、3615C、3615D、至3615N-1和3615N)。圖形處理器3610可以通過單獨的邏輯執行不同的著色器程式，使得頂點處理器3605被優化以執行頂點著色器程式的運算，而一或多個片段處理器3615A-3615N執行片段(例如，像素)著色運算以用於片段或像素著色器程式。頂點處理器3605執行3D圖形管線的頂點處理階段並產生基元和頂點資料。該片段處理器3615A-3615N使用由頂點處理器3605產生的基元和頂點資料，以產生被顯示在顯示裝置上的幀緩衝器。在一個實施例中，片段處理器3615A-3615N被優化為執行OpenGL API中提供的片段著色器程式，其可以用於執行與Direct3D API中提供的像素著色器程式類似的運算。

圖形處理器3610另外包含一或多個記憶體管理單元(memory management unit,MMU)3620A-3620B、快取記憶體3625A-3625B及電路互連3630A-3630B。一或多個MMU 3620A-3620B為積體電路3610提供虛擬到實體位址映射，包含頂點處理器3605及/或片段處理器3615A-3615N，其可以引用儲存在記憶體中的頂點或圖像/紋理資料，除了儲存在一或多個快取記憶體3625A-3625B中的頂點或圖像/紋理資料之外。在一個實施例中，一或多個MMU 3625A-3625B可以與系統內的其他MMU同步，包含與圖36的一或多個應用處理器3605、圖像處理器3615及/或視頻處理器3620相關聯的一或多個MMU，使得每個處理器3605-3620能夠參與共享或統一虛擬記憶體系統。根據實施例，一或多個電路互連3630A-3630B使圖形處理器3610能夠經由SoC的內部匯流排或經由直接連接，與SoC內的其他IP核心進行介面連接。

圖37是示出根據實施例的可以使用一或多個IP核心製造的系統單晶片積體電路的附加示例性圖形處理器3710的方塊圖。圖形處理器3710可以是圖35的圖形處理器3510的變體。圖形處理器3710包含圖35的一或多個MMU3520A-3520B、快取記憶體3525A-3525B及積體電路3500的電路互連3530A-3530B。

圖形處理器3710包含提供統一著色器核心架構的一或多個著色器核心3715A-3715N(例如，3715A、3715B、3715C、3715D、3715E、3715F、至3715N-1和3715N)，其中單核心或類型或核心可以執行所有類型的可編程著色器代碼，包含著色器程式代碼以實現頂點著色器、片段著色器及/或計算著色器。存在的著色器核心的確切數量可以在實施例和實施方式中變化。此外，圖形處理器3710包含核心間任務管理器3705，核心任務管理器3705充當執行緒分派器以將執行執行緒分派給一或多個著色器核心3715A-3715N和圖塊單元3718以加速用於基於圖塊渲染的圖塊運算，其中場景的渲染運算在圖像空間中被細分，例如以利用場景內的局部空間連貫性或優化內部快取的使用。

這裡描述的實施例提供了一種邏輯單元，其包含用於乘加(例如，a*b+c)和乘法累積(例如，c=c+a*b)運算的合併的整數/浮點資料路徑。在一個實施例中，用於添加運算的加數基於先前運算的累積。在一個實施例中，邏輯單元的整數資料路徑被合併到具有與乘法運算平行的加數對準運算的浮點資料路徑中。在一個實施例中，整數資料路徑被合併成在乘法運算之後具有加數對準運算的浮點資料路徑。這裡描述的乘加和乘法累積資料路徑可以是單週期或多週期的。

在一個實施例中，在兩週期浮點乘法累積期間，邏輯單元不比較第二階段開始時的尾數(例如，加法器階段)。相反，邏輯單元基於來自第二階段的累加器指數和第一階段期間計算的乘法器輸出，預計算更大(或更小)的尾數。

在一個實施例中，累加器或加數尾數位元寬度大於乘法器輸入的尾數位元寬度。在一個實施例中，整數運算被映射到浮點單元。除了浮點單元的尾數電路之外，一些整數運算也映射到現有的指數電路上。在一個實施例中，這裡描述的邏輯單元包含在浮點運算和整數運算之間共享的乘法器單元和加法器單元，且用於執行浮點運算和整數運算。

以下條款及/或示例關於特定實施例或其示例。示例中的細節可以在一或多個實施例中的任何地方使用。不同實施例或示例的各種特徵可以與所包含的一些特徵及排除在外的一些特徵進行各種組合，以適應各種不同的應用。示例可以包含諸如方法之類的主題、用於執行方法的動作的裝置、包含指令的至少一個機器可讀媒體、所述指令在由機器執行時使機器執行方法的動作，或者裝置或系統根據這裡描述的實施例和示例。各種元件可以是用於執行所述運算或功能的手段。

一個實施例提供了一種機器學習硬體加速器，其包含計算單元，該計算單元具有在整數資料路徑和浮點資料路徑之間共享的加法器和乘法器，乘法器的輸入運算元的高位元將在浮點運算被閘控。在一個實施例中，加法器和乘法器可配置為執行浮點運算和整數運算。在一個實施例中，計算單元將通過乘法器和加法器執行乘加運算。在一個實施例中，計算單元接受至少兩個輸入運算元。一個實施例提供計算單元使用兩輸入運算元和累加值來執行乘法累積運算。一個實施例提供計算單元使用三個輸入運算元來執行乘加運算。在一個實施例中，計算單元將在單個週期內執行乘法累積運算或乘加運算。在一個實施例中，計算單元將執行兩週期乘加運算或兩週期乘法累積運算。在一個實施例中，計算單元內的乘法器在第一週期期間產生輸出，且加法器在第二週期期間產生輸出。在一個實施例中，計算單元執行兩週期乘法累積運算，其中第一週期與第一邏輯階段關聯，第二週期與第二邏輯階段關聯，且計算單元包含指數單元通過第二級的前一個週期的累積輸出和來自第一級的乘法器輸出，預計算第二級的較大尾數和對準移位。

在一個實施例中，整數資料路徑被合併到具有與乘法運算平行的加數對準運算的浮點資料路徑中。在一個實施例中，整數資料路徑在乘法運算之後，被合併到具有加數對準運算的浮點資料路徑中。計算單元可以具有模式輸入以在整數運算和浮點運算之間切換計算單元。在一個實施例中，該計算單元可配置為8.8定點輸入和16.0定點輸出。

一個實施例提供了一種資料處理系統，該資料處理系統包含用於儲存由資料處理系統的一或多個處理器執行的指令的非暫態機器可讀媒體；及包含機器學習硬體加速器和動態精度計算單元的通用圖形處理單元，所述機器學習硬體加速器包含硬體邏輯執行多個機器學習計算運算以回應於單指令。在一個實施例中，動態精度計算單元可在整數運算和浮點運算之間切換。在一個實施例中，動態精度計算單元包含共享乘法器和加法器的整數資料路徑和浮點資料路徑，其中乘法器對整數資料路徑和浮點資料路徑執行乘法運算。在一個實施例中，浮點資料路徑包含與乘法運算平行執行的加數對準運算。在一個實施例中，浮點資料路徑包含在乘法運算之後執行的加數對準運算。在一個實施例中，動態精度計算單元被配置用於單週期融合乘加運算或雙週期融合乘法累積運算。

一個實施例提供了一種加速機器學習運算的方法，該方法包含讀取和解碼單指令以對一組運算元執行組合的乘法和加法運算；發布由動態可配置計算單元執行的單指令；配置所述計算單元的更多邏輯單元中的一個以在所述一組運算元的精度和資料類型下執行運算；及在所述動態可配置計算單元處執行所述單指令的至少一部分以基於所述乘法和加法運算來產生和輸出。

這裡描述的實施例關於配置為執行某些運算或具有預定功能的硬體的特定配置，諸如專用積體電路 (application specific integrated circuit,ASIC)。這樣的電子裝置通常包含耦合到一或多個其他元件的一或多個處理器的集合，諸如一或多個儲存裝置(非暫態機器可讀媒體)，用戶輸入/輸出裝置(例如鍵盤，觸控螢幕及/或顯示器)和網路連接。該組處理器和其他元件的耦合通常通過一或多個匯流排和橋接器(也稱為匯流排控制器)。攜帶網路業務的儲存裝置和訊號分別代表一或多個機器可讀儲存媒體和機器可讀通訊媒體。因此，給定電子裝置的儲存裝置通常儲存用於在該電子裝置的一或多個處理器的集合上執行的代碼及/或資料。

當然，實施例的一或多個部分可以使用軟體、韌體及/或硬體的不同組合來實現。在整個詳細描述中，出於解釋的目的，闡述了許多具體細節以便提供對本發明的透徹理解。然而，對於本領域技術人員顯而易見的是，可以在沒有這些具體細節中的一些的情況下實施這些實施例。在某些情況下，沒有詳細描述公知的結構和功能以避免模糊實施例的發明主題。因此，本發明的範圍和精神應該根據下面的申請專利範圍來判斷。