TW202046181A

TW202046181A - 用於執行矩陣乘法之方法、硬體電路、運算系統及電腦儲存媒體

Info

Publication number: TW202046181A
Application number: TW109105926A
Authority: TW
Inventors: 安德魯艾佛列特菲而普斯; 諾曼保羅約皮
Original assignee: 美商谷歌有限責任公司
Priority date: 2017-05-17
Filing date: 2018-05-17
Publication date: 2020-12-16
Also published as: US10831862B2; TWI751500B; US20210124795A1; CN117273096A; CN110447010A; TWI689873B; TW201905768A; KR20210062739A; KR20190117714A; JP2022106737A; EP3625670B1; US20180336165A1; TWI807539B; US11989258B2; CN110447010B; JP7312879B2; JP7114622B2; KR102258120B1; TW202213189A; US20200257754A1

Abstract

本發明闡述用於使用一硬體電路執行一矩陣乘法之方法、系統及設備。一實例性方法藉由獲得一第一浮點格式的一啟動輸入值及一權數輸入值而開始。使該啟動輸入值與該權數輸入值相乘從而產生一第二浮點格式的一乘積值，該第二浮點格式具有比該第一浮點格式高之精確度。獲得一第三浮點格式的一部分總和值，該第三浮點格式具有比該第一浮點格式高之一精確度。組合該部分總和值與該乘積值以產生具有該第三浮點格式之一經更新部分總和值。

Description

用於執行矩陣乘法之方法、硬體電路、運算系統及電腦儲存媒體

本說明書係關於執行硬體中之神經網路運算。

神經網路係採用一或多個層以針對一所接收輸入產生一輸出(例如，一分類)之機器學習模型。除一輸出層之外，某些神經網路亦包含一或多個隱藏層。各隱藏層之輸出用作至網路中之另一層(例如，網路之下一隱藏層或輸出層)之輸入。根據一各別參數集之當前值，網路之各層依據一所接收輸入產生一輸出。

一般而言，本說明書闡述一種運算神經網路推斷之特殊用途硬體電路。

一般而言，本說明書中所闡述之標的物之一個創新態樣可體現在使用一硬體電路執行一矩陣乘法之方法中，該等方法包含如下動作：藉由該硬體電路之一矩陣運算單元獲得一啟動輸入值及一權數輸入值，該啟動輸入值及該權數輸入值各自具有一第一浮點格式；藉由該矩陣運算單元之一乘法電路使該啟動輸入值與該權數輸入值相乘以產生一乘積值，該乘積值具有一第二浮點格式，該第二浮點格式具比該第一浮點格式高之一精確度且具有與該第一浮點格式之動態範圍至少一樣大之一動態範圍；藉由該矩陣運算單元獲得一第三浮點格式的一部分總和值，該第三浮點格式具有比該第一浮點格式高之一精確度且具有與該第一浮點格式之該動態範圍至少一樣大之一動態範圍；及藉由該硬體電路之一求和電路至少組合該部分總和值與該乘積值以產生具有該第三浮點格式之一經更新部分總和值。

此態樣之實施例可包含以下選用特徵中之一或多者。可基於呈一浮點格式之一有效數之一可用位元計數而判定該浮點格式之精確度且基於呈一浮點格式之一指數之一可用位元計數而判定該浮點格式之動態範圍。該第二浮點格式可具有與該第一浮點格式相同之動態範圍且該第三浮點格式可具有與該第一浮點格式相同之動態範圍。該第三浮點格式可具有比該第二浮點格式高之一精確度。

該硬體電路可經組態以針對具有複數個層之一神經網路執行運算，且該啟動輸入值及該權數輸入值可與該複數個層中之一層相關聯。

該等方法可包含如下動作：針對具有該第三浮點格式之第一矩陣運算胞元獲得一原始啟動值及一原始權數值；將該原始啟動值轉換成該第一浮點格式以產生該啟動輸入值；及將該原始權數值轉換成該第一浮點格式以產生該權數輸入值。該等方法可進一步包含如下動作：接收以經增強精確度處理該原始啟動值之一請求；針對該輸入值產生一啟動經增強精確度值，該啟動經增強精確度值係該啟動輸入值與該原始啟動值之間的差之一量度；及針對該權數輸入值產生一權數經增強精確度值，該權數經增強精確度值係該權數輸入值與該原始權數值之間的差之一量度。使該啟動輸入值與該權數輸入值相乘以產生該乘積值可包含如下動作：藉由該矩陣運算單元之該乘法電路使該輸入值與該權數輸入值相乘，使該輸入值與該權數經增強精確度值相乘，使該權數輸入值與該啟動經增強精確度值相乘，且使該啟動經增強精確度值與該權數經增強精確度值相乘；且組合該等乘法之乘積產生該乘積值。

此態樣之其他實施例包含對應電腦系統、設備及記錄於一或多個電腦儲存裝置上之電腦程式，各者經組態以執行該等方法之該等動作。一或多個電腦之一系統可經組態以藉助於安裝於該系統上之在操作中可致使該系統執行該等動作之軟體、韌體、硬體或其任何組合執行特定操作或動作。一或多個電腦程式可經組態以藉助於包含在由資料處理設備執行時致使該設備執行該等動作之指令而執行特定操作或動作。

本說明書中所闡述之標的物之另一新穎態樣可體現在包含一矩陣運算單元之硬體電路中，該矩陣運算單元經組態以執行包含以下各項之一第一操作群組：獲得一啟動輸入值及一權數輸入值，該啟動輸入值及該權數輸入值兩者皆具有一第一浮點格式；將該權數輸入值儲存於一權數暫存器中，該權數暫存器經組態以儲存具有該第一浮點格式之值；使用該硬體電路之一乘法電路使該啟動輸入值與該權數輸入值相乘以產生一乘積值，該乘積值具有一第二浮點格式，該第二浮點格式具有比該第一浮點格式高之一精確度且具有與該第一浮點格式之動態範圍至少一樣大之一動態範圍；獲得一第三浮點格式的一部分總和值，該第三浮點格式具有比該第一浮點格式高之一精確度且具有與該第一浮點格式之該動態範圍至少一樣大之一動態範圍；將該部分總和值儲存於暫存器中之一總和中，該總和輸入暫存器經組態以儲存具有該第三浮點格式之值；及使用該矩陣運算單元之一求和電路組合該部分總和值與該乘積值以產生具有該第三浮點格式之一經更新部分總和值。

此態樣之實施例可包含以下選用特徵中之一或多者。該第一操作群組可包含：將該啟動輸入值儲存於一啟動暫存器中，該啟動暫存器經組態以儲存具有該第一浮點格式之值。該第一操作群組可包含：將該權數輸入值儲存於一權數暫存器中，該權數暫存器經組態以儲存具有該第一浮點格式之值。該第一操作群組可包含：將該部分總和值儲存於暫存器中之一總和中，該總和輸入暫存器經組態以儲存具有該第三浮點格式之值。該硬體電路可包含在該矩陣運算單元外側之一外部求和電路。該第一操作群組可包含：接收以經增強精確度處理該原始啟動值之一請求；針對該輸入值產生一啟動經增強精確度值，該啟動經增強精確度值係該啟動輸入值與該原始啟動值之間的差之一量度；及針對該權數輸入值產生一權數經增強精確度值，該權數經增強精確度值係該權數輸入值與該原始權數值之間的差之一量度。使該啟動輸入值與該權數輸入值相乘以產生該乘積值可包含如下動作：藉由該矩陣運算單元之該乘法電路使該輸入值與該權數輸入值相乘，使該輸入值與該權數經增強精確度值相乘，使該權數輸入值與該啟動經增強精確度值相乘，且使該啟動經增強精確度值與該權數經增強精確度值相乘。該外部求和電路可經組態以執行包含如下操作之一第二操作群組：組合該等乘法之乘積以產生該乘積值。

此態樣之其他實施例包含對應電腦系統、設備及記錄於一或多個電腦儲存裝置上之電腦程式，各者經組態以執行該第一操作群組及/或該第二操作群組之該等動作。一或多個電腦之一系統可經組態以藉助於安裝於該系統上之在操作中可致使該系統執行該等動作之軟體、韌體、硬體或其任何組合執行特定操作或動作。一或多個電腦程式可經組態以藉助於包含在由資料處理設備執行時致使該設備執行該等動作之指令執行特定操作或動作。

本說明書中所闡述之標的物之特定實施例可經實施以便實現以下優點中之一或多者。一硬體電路可以經減少溢位及/或精確度損失執行矩陣乘法。一硬體電路可以超過由硬體電路中之輸入暫存器之浮點格式提供之精確度的經增強精確度執行矩陣乘法。一硬體電路可對一輸入矩陣執行矩陣乘法，使用具有經減少溢位之一IEEE單精確度浮點格式儲存該輸入矩陣之值，即使該硬體電路以具有16個位元之一浮點格式儲存輸入矩陣值。

在附圖及以下說明中陳述本說明書之標的物之一或多個實施例之細節。標的物之其他特徵、態樣及優點將依據說明、圖式及申請專利範圍而變得顯而易見。

具有多個層之一神經網路可用於執行運算。舉例而言，給定一輸入，該神經網路可針對該輸入運算一推斷。該神經網路藉由透過該神經網路之該等層中之各者處理該輸入而運算此推斷。各層接收一輸入且根據該層之權數集處理該輸入以產生一輸出。

因此，為了依據一所接收輸入運算一推斷，該神經網路接收該輸入且透過神經網路層中之各者處理該輸入以產生該推斷，其中提供來自一個神經網路層之輸出作為至下一神經網路層之輸入。至一神經網路層之資料輸入(例如，至神經網路之輸入或序列中位於該層下面之層至一神經網路層之輸出)可稱為至層之啟動輸入。

在某些實施方案中，神經網路之層配置成一序列。在某些其他實施方案中，該等層經配置為有向圖。亦即，任何特定層可接收多個輸入、多個輸出或兩者。神經網路之層亦可經配置使得一層之一輸出可作為一輸入發送回至一先前層。

神經網路亦可經訓練以判定神經網路中之層之權數之經訓練值。一般而言，在訓練期間，使用神經網路來處理輸入且基於由神經網路針對該等輸入所產生之輸出而調整權數。

本說明書闡述執行神經網路運算(亦即，推斷或訓練操作，包含由神經網路層執行之矩陣乘法運算)之特殊用途硬體電路。

圖1A展示用於訓練一神經網路之一實例性特殊用途硬體晶片之一高階圖式。如所圖解說明，一單個特殊用途硬體晶片包含兩個獨立處理器(102a、102b)。各處理器(102a、102b)含有兩個相異核心：(1)一運算核心，亦即一極長指令字(VLIW)機器，(103a、103b)；及(2)一稀疏運算核心，亦即一嵌入層加速度計，(105a、105b)。

針對密集線性代數問題最佳化各運算核心(103a、103b)。各運算核心執行其自身之極長指令字指令串流。

一實例性稀疏運算核心(105a、105b)將非常稀疏、高維資料映射至密集低維資料中，使得層之其餘部分處理密集封裝之輸入資料。舉例而言，該稀疏運算核心可在訓練神經網路中執行任何嵌入層之運算。

為執行此稀疏至密集映射，稀疏運算核心使用一預建查詢表、一嵌入表。舉例而言，當存在一系列查詢字作為使用者輸入時，將各查詢字轉換成一雜湊識別項或一單熱經編碼向量。使用該識別項作為一表索引，嵌入表傳回對應密集向量，該對應密集向量可係至下一層之一啟動輸入向量。稀疏運算核心亦可跨越搜尋查詢字執行歸約運算以形成一個密集啟動向量。稀疏運算核心執行高效稀疏分佈式查詢，此乃因嵌入表可係巨大的且不適合特殊用途硬體晶片中之一者之有限容量高頻寬記憶體。關於稀疏運算核心功能性之更多細節可存在於2016年2月5日提出申請之標題為「MATRIX PROCESSING APPARATUS」之第15/016,486號美國專利申請案中。

圖1B展示運算核心(101)之一高階實例。該運算核心可係並行控制數個運算單元之一機器，亦即一VLIW機器。各運算核心(101)含有：一純量記憶體(104)、一向量記憶體(108)、一純量處理器(107)、向量暫存器(106)及經擴展向量單元(亦即，一矩陣乘法單元(MXU) (113)、一轉置單元 (XU) (114)及一歸約與排列單元(RPU) (116))。

一實例性純量處理器執行VLIW指令提取/執行迴圈且控制運算核心。在提取且解碼一指令束之後，純量處理器自身僅使用純量處理器(107)及純量記憶體(104)之多個多位元暫存器(亦即，32個32位元暫存器)執行存在於束之純量槽中之指令。純量指令集包含(例如)如在位址計算中使用之正常算術運算、載入/儲存指令及分支指令。剩餘指令槽編碼用於向量處理器或其他經擴展向量單元(113、114、116)之指令。將該等經解碼向量指令轉發至向量處理器。

連同向量指令一起，純量處理器(107)可將高達三個純量暫存器之值轉發至其他處理器及單元以執行操作。純量處理器亦可自向量處理器直接擷取運算結果。然而，在某些實施方案中，實例性晶片具有自向量處理器至純量處理器之一低頻寬通信路徑。

一向量指令分派器位於純量處理器與向量處理器之間。此分派器自非純量VLIW槽接收經解碼指令且將彼等指令廣播至向量處理器。關於圖1C詳細地闡述向量處理器。

一實例性純量處理器(107)對由一大得多但較慢之高頻寬記憶體(HBM) (110)支持之一小的快速私有純量記憶體(104)進行存取。類似地，一實例性向量處理單元(106)對亦由HBM (110)支持之一小的快速私有向量記憶體(108)進行存取。在純量處理器(107)與純量記憶體(104)之間或在向量處理單元(106)與向量記憶體(108)之間發生字組細微度存取。向量處理器與向量記憶體之間的載入及儲存之細微度係128個32位元字組之一向量。在純量記憶體(104)與HBM (110)之間且在向量記憶體(108)與HBM (110)之間發生直接記憶體存取。在某些實施方案中，可僅透過純量或向量記憶體進行自HBM (110)至處理器(107)之記憶體傳送。另外，可不存在純量記憶體與向量記憶體之間的直接記憶體傳送。

指令可規定經擴展向量單元操作。連同各經執行向量單元指令一起，存在各自可將一個暫存器值作為輸入運算元發送至經擴展向量單元之二維(亦即，128×8個)向量單元。各經擴展向量單元獲取輸入運算元，執行對應操作，且將結果傳回至向量處理單元(106)。下文將關於圖4闡述該等經擴展向量單元。

圖1C展示用於執行神經網路運算之一實例性特殊用途積體電路100。如所圖解說明，晶片含有兩個運算核心(103a、103b)及兩個稀疏運算核心(152a、152b)。

晶片具有一共用區，該共用區包含至一主機電腦之一主機介面(150)、沿著底部之四個高頻寬記憶體堆疊(156a至156d)及將介面及記憶體連接在一起之一晶片間互連件(148)以及來自其他晶片之資料。兩個高頻寬記憶體堆疊(156a至156b、156c至156d)與各運算核心(103a、103b)相關聯。

晶片將資料儲存於高頻寬記憶體(156c至156d)中，讀取進入及離開向量記憶體(108)之資料，且處理該資料。運算核心(103b)自身包含一向量記憶體(108)，向量記憶體(108)係劃分成兩個維度之晶片上S-RAM。向量記憶體具有位址空間，其中位址保存浮點數字，亦即，各自係32位元之128個數字。運算核心(103b)亦包含運算值之一運算單元及控制運算單元之一純量單元。

向量處理器由向量處理單元之一2維陣列(亦即，128×8)組成，該等向量處理單元全部以一單指令多資料(SIMD)方式執行同一指令。向量處理器具有通道及子通道，亦即128個通道及8個子通道。在通道內，向量單元透過載入及儲存指令彼此通信。各向量單元可一次存取一個4位元組值。不屬同一通道之向量單元無法直接通信。此等向量單元必須使用下文所闡述之歸約/排列單元。

運算單元包含在一向量處理單元(106)中之向量暫存器(亦即，32個向量暫存器)，該向量處理單元(106)可用於浮點運算及整數運算兩者。運算單元包含用以執行運算之兩個算術邏輯單元(ALU) (126c至126d)。一個ALU (126c)執行浮點加法且另一ALU (126d)執行浮點乘法。兩個ALU (126c至126d)可執行各種其他操作，諸如移位、遮罩及比較。舉例而言，一運算核心(103b)可想要使一向量暫存器V₁ 與一第二向量暫存器V₂ 相加，且將結果放在一第三向量暫存器V₃ 中。為了運算加法，運算核心(103b)在一個時脈循環中執行多個(亦即，1024個)運算。使用此等暫存器作為運算元，向量單元中之各者可每時脈循環同時執行兩個ALU指令以及一個載入指令及一個儲存指令。可在純量處理器中運算一載入指令或一儲存指令之一基底位址且將該基底位址轉發至向量處理器。各子通道中之向量單元中之各者可使用各種方法(諸如跨越)及一特殊經索引位址暫存器運算其自身之位移位址。

運算單元亦含有執行諸如平方根及倒數之運算之一經擴展一元管線(EUP) (162)。運算核心(103b)採取三個時脈循環來執行此等運算，此乃因其一次接受一個運算元。由於EUP處理採取一個以上時脈循環，因此存在用以儲存結果之一先進先出資料儲存器。當完成一運算時，將結果儲存於FIFO中。運算核心可在一稍後時間使用一分開之指令來從FIFO提取資料且將資料放入向量暫存器。一隨機數產生器(120)允許運算核心(103b)產生每循環隨機數，亦即，每循環128個隨機數。

如上文所闡述，各處理器具有三個經擴展向量單元：一矩陣乘法單元(113)，其執行矩陣乘法運算；一交叉通道單元(XLU)，其包含執行一矩陣(亦即，128×128矩陣)之一轉置操作之一轉置單元(XU) (114)；及一歸約與排列單元(在圖1C中經圖解說明為分開之單元，歸約單元115及排列單元116)。

矩陣乘法單元執行兩個矩陣之間的矩陣乘法。矩陣乘法單元(113)接受資料，此乃因運算核心需要載入一數字集(其係將要相乘之矩陣)。如所圖解說明，資料來自向量暫存器(106)。各向量暫存器含有128×8個數字，亦即32位元數字。然而，在將資料發送至矩陣乘法單元(113)時可發生浮點轉換以將數字改變成一較小位元大小，亦即自32位元改變成16位元。一串列化器(130)確保當自向量暫存器讀出數字時一個二維陣列(亦即，一128×8矩陣)經讀取為在接下來八個時脈循環中之各者內發送至矩陣乘法單元(113)之128個數字之若干集合。在矩陣乘法已完成其運算之後，將結果解串列化(132a、132b)，此意味在若干個時脈循環內保存結果矩陣。舉例而言，針對一128×8陣列，在8個時脈循環中之各者內保存128個數字且然後將該128個數字推送至一FIFO (轉置結果FIFO (TRF) 134或乘法結果FIFO (MRF) 136)，使得可在一個時脈循環中抓取128×8個數字之一個二維陣列且將該二維陣列儲存於向量暫存器(106)中。

在一循環(亦即，128個循環)週期內，將權數作為藉以使矩陣相乘之數字移位至矩陣乘法單元(113)中。一旦已載入矩陣及權數，運算核心(103b)便可將數字(亦即，128×8個數字)集合發送至矩陣乘法單元(113)。可使集合之各線與矩陣相乘以每時脈循環產生若干個結果，亦即128個結果。當運算核心執行矩陣乘法時，運算核心亦使背景中之新數字集移位為係運算核心將藉以進行乘法運算之下一矩陣，使得下一矩陣在已完成先前矩陣之運算程序時係可用的。矩陣乘法單元(113)可處理權數輸入及啟動輸入且將一輸出向量提供至向量暫存器106。向量處理單元可處理該輸出向量且將一經處理輸出向量儲存至向量記憶體。舉例而言，向量處理單元可將一非線性函數應用於矩陣乘法單元之輸出以產生經啟動值。在某些實施方案中，向量運算單元114產生正規化值、合併值或兩者。經處理輸出向量可用作至矩陣乘法單元112之啟動輸入，例如，以供在神經網路中之一後續層中使用。

轉置單元轉置一矩陣。轉置單元(114)接受數字且轉置該等數字使得跨越一通道之數字與在其他維度上之數字一起經轉置。在某些實施方案中，向量處理器包含128×8個向量單元。因此，為轉置一128×128矩陣，針對全矩陣轉置需要十六個個別轉置指令。一旦完成轉置，經轉置矩陣便將係可用的。然而，需要一明確指令來將經轉置矩陣移動至向量暫存器檔案中。

歸約/排列單元(或單元115、116)藉由支援諸如排列、通道旋轉、旋轉排列、通道歸約、經排列通道歸約及分割式經排列通道歸約之各種操作而解決交叉通道通信之問題。如所圖解說明，此等運算係分開，然而，一運算核心可使用一個運算或另一運算或鏈接至另一運算之一個運算。歸約單元(115)使各數字線歸約且將該等數字饋送至排列單元(116)中。排列單元變更不同通道之間的資料。轉置單元、歸約單元、排列單元及矩陣乘法單元各自採取一個以上時脈循環來完成。因此，各單元具有與其相關聯之一FIFO，使得可將運算之結果推送至FIFO且可在一稍後時間執行一分開之指令以從FIFO提取資料且將資料置入一向量暫存器。藉由使用FIFO，運算核心不需要在冗長操作之持續時間內保留多個向量暫存器。如所圖解說明，單元中之各者自向量暫存器(106)獲取資料。

運算核心使用一純量單元來控制運算單元。純量單元具有兩個主要功能：(1)執行迴圈計數及定址及(2)產生直接記憶體位址(DMA)請求，使得DMA控制器使背景中之資料在高頻寬記憶體(156c至156d)與向量記憶體(108)之間移動且然後移動至晶片間連接件(148)從而移動至一實例性系統中之其他晶片。純量單元含有一指令記憶體(104)、一指令解碼與發佈(102)、含有純量暫存器(亦即，32位元)之純量處理單元(107)、一純量記憶體(104)及用於每時脈循環執行兩個操作之兩個ALU (126a、126b)。純量單元可將運算元及立即值饋送至向量運算中。可將各指令作為含有對向量暫存器(106)執行之指令之一指令束自指令解碼與發佈(102)發送。各指令束係一極長指令字(VLIW)，其中各指令係若干個位元寬，劃分成若干個指令欄位。

圖2圖解說明包含矩陣乘法單元(MXU) 113a及113b之一實例性架構200。各MXU係一個二維脈動式陣列。該陣列經佈線以執行矩陣乘法運算。一MXU在具有每時脈循環一個乘法之一恆定輸出之情況下使一128元素向量與一經預載入128×128矩陣相乘。

各MXU可具有128列及128行。一MXU可劃分成完全相同區塊，稱為方塊。舉例而言，一MXU可劃分成32個方塊，其中之各者含有32列乘以16行。各方塊可進一步劃分成乘法-加法子單元胞元。各胞元採取一向量資料輸入運算元，使該運算元與經儲存權數相乘以獲得一結果，且使該結果與一部分總和相加以產生一新部分總和。在某些實施方案中，子單元胞元可分組成更大多胞元，亦即，乘法-加法子單元胞元之2×2陣列或乘法-加法子單元胞元之4×4陣列(稱為十六胞元)。替代以每時脈循環一個之一速率將輸入資料自一個乘法-加法子單元胞元移動至下一乘法-加法子單元胞元，資料可跨越脈動式陣列以每時脈循環一個多胞元而移動。

在開始一系列向量-矩陣乘法之前，一矩陣需要預載入至MXU中。用於此矩陣之資料稱為「權數」資料。權數矩陣藉由連接至MXU匯流排在源匯流排上遞送至MXU且移位至權數移位暫存器中。權數移位暫存器之內容然後載入至一權數矩陣暫存器中使得可開始矩陣乘法。

如圖2中所圖解說明，各MXU (例如，113a及113b)連接至三個匯流排，用於正常權數(230a、230b)之一第一源匯流排、用於經轉置權數(220a、220b)之一第二源匯流排及用於將與儲存於MXU中之矩陣相乘之向量資料之一左手邊匯流排(210a、210b)。該等MXU藉由附接至MXU之邊緣之導線連接至匯流排。各轉置單元(XU) (例如，114a及114b)亦連接至第一源匯流排及第二源匯流排。

第一源匯流排及第二源匯流排係含有自向量處理單元發送以由XU或MXU消耗之資料的多用途匯流排。資料處理發生在向量處理資料路徑中，該向量處理資料路徑包含向量暫存器206、一串列化處理單元202及一選擇單元204。存在向量處理單元可在一匯流排上發送權數之數種方式。該等權數可發送為正常、「高」或「低」。每通道八個32位元浮點數字(每子通道一個)經捨入至bfloat，16位元浮點數字。此等值經封裝成四對且在8個循環之過程中每隔一個循環發送至MXU。正常、「高」及「低」之間的差異係向量處理單元進行浮點32至bfloat轉換之方式。該等權數可經封裝，此意味每通道八個32位元值中之各者含有一經封裝bfloat對。十六個值而非八個值在八個連續循環內每循環使用源匯流排發送至MXU。在奇數循環期間，各子通道之低16位元發送至MXU，且在偶數循環期間，各子通道之高16位元發送至MXU。該等權數可另外或另一選擇係藉由位元組來發送。各32位元運算元含有四個8位元帶正負號2的補碼整數之一經封裝集合。各位元組轉換為一經修改正負號量值值。此等值在八個連續循環內藉助於一源匯流排發送至MXU。

將可使用第一或第二源匯流排將權數作為未經轉置或經轉置指令發送且移位至權數移位暫存器中。當藉助一載入操作來觸發時，將權數移位暫存器之內容載入至權數矩陣中，如下文所闡述。自權數移位暫存器至權數矩陣暫存器之載入路徑亦係藉助位元組模式資料進行自經修改正負號量值至bfloat之轉換的地方。一載入控制匯流排指示是否將進行此轉換。

取決於執行指令，來自源匯流排之32位元值可含有在位元[15:0]中之值表示較早(在時間上)值之情況下16位元浮點值之一經封裝對或在位元[7:0]中之值表示最早(在時間上)值且其他值順序地跟隨之情況下呈經修改正負號量值格式之四個8位元整數之一經封裝集合。當MXU自匯流排接收資料時，資料值跨越MXU均勻地散佈，其中值0在左側且值127在右側。

LHS資料匯流排以一特定格式(例如，bfloat)遞送128個16位元浮點數字以與儲存於經連接MXU中之矩陣相乘。LHS資料匯流排之資料來自向量處理單元且透過轉置單元(例如，114a及114b)傳遞。當LHS輸入到達MXU時，值跨越MXU均勻地散佈，其中值0在左側且值127在右側。

矩陣乘法之結果跨越MXU均勻地散佈且自MXU發送至矩陣結果FIFO (MRF)，例如，136a及136b。來自XU之結果發送至對應轉置結果FIFO (TRF)，例如，134a及134b。

圖3圖解說明在一矩陣乘法單元內側之一個多胞元之一實例性架構。如上文所論述，該矩陣乘法單元係一個二維脈動式陣列。該陣列包含可分組成若干多胞元之多個乘法-加法子單元。在某些實施方案中，該脈動式陣列之一第一維度對應於胞元行且該脈動式陣列之一第二維度對應於胞元列。該脈動式陣列可具有比行多之列、比列多之行或相等數目個行及列。本說明書闡述針對行或垂直地進行特定處理。然而，不同設計可針對列或水平地執行處理。

在所圖解說明實例中，左手邊資料暫存器315a、315b將向量資料輸入發送至陣列之列。權數移位鏈301a及301b將權數輸入值發送至陣列之行，且權數移位鏈302a及302b將權數輸入值發送至陣列之列。一移位鏈係一經佈線路徑，值可沿著該經佈線路徑(例如)自一源匯流排傳遞且傳遞至在矩陣乘法單元內之各種暫存器中之各者。

各權數移位暫存器305經設計以使權數內容值沿著權數移位暫存器305之鏈自一源匯流排移位。在所有資料經移入之後，一並行複製操作確保所有資料自權數移位暫存器305複製至對應權數矩陣暫存器325。當資料在權數矩陣暫存器325中時，在任何數目個乘法循環中使用資料。在此時間期間，更多權數可(且通常)經移位至背景中之權數暫存器305中以準備進行下一乘法集合。

左手邊資料暫存器315a、315b可接收向量資料輸入。各左手邊資料暫存器在一個時脈循環內各時脈循環保存一個LHS資料項。由一個多胞元接收之各向量資料輸入可在該多胞元之一對應左手邊暫存器(諸如左手邊資料暫存器315a、315b)中自由流動。取決於多胞元在陣列內之位置，左手邊資料暫存器儲存可由一向量暫存器或由位於給定多胞元左邊之一毗鄰多胞元提供之向量資料輸入。舉例而言，若多胞元300位於矩陣乘法單元之脈動式陣列內之最左邊位置處，則向量資料輸入由一向量暫存器提供。該向量暫存器可將多個不同向量資料輸入提供至多胞元300，其中各所接收向量資料輸入然後可由左手邊資料暫存器315中之一不同者儲存。各列各時脈循環接收一個值，而不管分組成一個多胞元之列之數目。

各左手邊暫存器可沿著多胞元陣列之一第一維度耦合至胞元。左手邊暫存器至胞元之連接由圖3中之虛線指示。舉例而言，多胞元中之左手邊資料暫存器315a (一左手邊資料暫存器)耦合至第一列之胞元350a及350c。類似地，多胞元中之左手邊資料暫存器315b (一第二左邊暫存器)耦合至第二列之胞元350b及350d。各左手邊暫存器315將所儲存向量資料輸入傳送至胞元350，左手邊暫存器耦合至胞元350。因此，對於沿著一第一維度(例如，沿著一給定列或沿著一給定行)延伸之給定數目個胞元，向量資料輸入可傳遞至多胞元中之所有胞元而非僅僅一單個胞元，藉此致使啟動輸入貫穿胞元陣列迅速地散佈，從而改良多胞元之操作效率。

多個向量資料輸入亦可發送至一毗鄰左手邊暫存器，使得可在陣列之另一多胞元處使用多個向量資料輸入。此程序允許向量輸入經移位以供在陣列之另一特定多胞元中使用。

一個多胞元300之各胞元350含有一所儲存權數值。在開始一矩陣乘法程序之前，藉由將權數移位至脈動式陣列之胞元中而載入權數。提供專用鏈及權數移位暫存器以用於權數移位，使得可與先前矩陣乘法處理之執行同時地將新權數移位。可以降低總體矩陣乘法操作處理之延時之方式將權數輸入載入至多胞元中。

如上文所論述，權數移位鏈301、302可自一源匯流排接收權數輸入。移位鏈可將多個對應權數輸入發送至與多胞元300相關聯之權數暫存器325。

在某些實施方案中，權數移位暫存器使向量資料輸入貫穿陣列沿著一個維度移位(例如)至右邊，同時使權數輸入貫穿陣列沿著一個或兩個維度移位(例如)至右邊或移位至底部。舉例而言，在一個時脈循環內，多胞元300處之多個啟動輸入之各向量資料輸入可移位至同一列中之下一多胞元中之一對應左手邊資料暫存器。水平資料(左手邊資料)及垂直資料(部分總和)各時脈循環各自移動每時脈循環一個多胞元。權數僅在由系統指令時移位，且取決於實施方案及所執行之指令，可使1個、2個或4個列(或行)移位。

一多工器330自第一移位鏈301或第二移位鏈302之一權數移位暫存器305選擇一權數且將選定輸入轉發至一單個線中從而轉發至權數矩陣暫存器325中。儘管多工器330經展示為在胞元350邊界線外側，但在某些實施方案中，多工器330存在於胞元350內。

在一時脈循環上，各個多胞元可處理多個給定權數輸入及多個給定啟動輸入以產生多個所累積輸出。一般而言，處理包含一乘法運算以使一啟動輸入與一所儲存權數相乘。該等所累積輸出亦可作為給定權數輸入而沿著相同維度向下傳遞至一毗鄰多胞元。在某些實施方案中，在一給定時脈循環期間使權數移位一個以上多胞元以自一個廻旋計算轉變成另一廻旋計算。

該等所累積輸出可作為權數輸入沿著相同行(例如)朝向陣列中之行之底部傳遞。在某些實施方案中，一部分總和暫存器310a、311a將一部分總和值自一先前多胞元傳遞至多胞元中。該陣列可包含儲存來自各多胞元行之所累積輸出之部分總和暫存器310b、311b。對於多胞元之各行，由行中之子單元胞元產生之乘積與來自以上多胞元之傳入部分總和組合，且然後作為下一部分總和經發送。對於特定多胞元，例如，脈動式陣列之底部行中之多胞元，所累積輸出可包含可傳送至一向量運算單元之最後所累積值。在某些實施方案中，最後所累積值自陣列之底部多胞元直接傳送至向量運算單元，而在其他實施方案中，最後所累積值首先儲存於一記憶體中或在發送至向量運算單元之前由一不同組件處理。

在某些實施方案中，在各時脈循環上，各胞元使一給定權數輸入與左手邊資料輸入相乘以產生一乘積值。一胞元可然後組合該乘積值與自另一胞元接收之一部分總和值以產生一經更新部分總和值。該胞元可然後將該部分總和值傳輸至矩陣運算單元中之另一胞元。

圖4展示在一脈動式陣列內側之一胞元之一實例性架構400。

該胞元可包含儲存一啟動輸入之一啟動暫存器406。取決於胞元在脈動式陣列內之位置，該啟動暫存器可自一左毗鄰胞元(亦即，位於給定胞元之左邊之一毗鄰胞元)或自一統一緩衝器接收啟動輸入。該胞元可包含儲存一權數輸入之一權數暫存器402。取決於胞元在脈動式陣列內之位置，該權數輸入可自一頂部毗鄰胞元或自一權數提取器介面傳送。該胞元亦可包含暫存器404中之一總和。總和暫存器404可儲存來自頂部毗鄰胞元之一所累積值。啟動暫存器406及權數暫存器402可係經組態以儲存一特定大小之值(諸如一特定格式之浮點值)之暫存器。

乘法電路408可用於使來自權數暫存器402之權數輸入與來自啟動暫存器406之啟動輸入相乘。乘法電路408可將乘積輸出至求和電路410。在某些實施方案中，乘法電路408之輸入及輸出值可係為不同大小及/或格式。

求和電路410可對乘積與來自總和輸入暫存器404之所累積值求和以產生一新的所累積值。求和電路410然後可將該新的所累積值發送至位於一底部毗鄰胞元中之暫存器中之另一總和。該新的所累積值可用作一運算元以用於底部毗鄰胞元中之一求和。求和電路410亦可自總和輸入暫存器404接受一值且將該值自總和輸入暫存器404發送至一底部毗鄰胞元而不對來自總和輸入暫存器404之值與來自乘法電路408之乘積求和。在某些實施方案中，求和電路410之輸入值可係為不同大小及/或格式。在某些實施方案中，求和電路410之某些輸入及輸出值可係為不同大小及/或格式。

胞元亦可使權數輸入及啟動輸入移位至毗鄰胞元以進行處理。舉例而言，權數路徑暫存器412可將權數輸入發送至底部毗鄰胞元中之另一權數暫存器。啟動暫存器406可將啟動輸入發送至右毗鄰胞元中之另一啟動暫存器。權數輸入及啟動輸入兩者因此可由陣列中之其他胞元在一後續時脈循環處重新使用。

在某些實施方案中，胞元亦包含一控制暫存器。該控制暫存器可儲存判定胞元應使權數輸入還是啟動輸入移位至毗鄰胞元之一控制信號。在某些實施方案中，使權數輸入或啟動輸入移位耗費一或多個時脈循環。控制信號亦可判定將啟動輸入還是權數輸入傳送至乘法電路408，或可判定乘法電路408是否對啟動輸入及權數輸入進行操作。控制信號亦可(例如)使用一導線傳遞至一或多個毗鄰胞元。

在某些實施方案中，將權數預移位至一權數路徑暫存器412中。權數路徑暫存器412可(例如)自一頂部毗鄰胞元接收權數輸入，且基於控制信號而將權數輸入傳送至權數暫存器402。權數暫存器402可靜態地儲存權數輸入，使得當在多個時脈循環內(例如)透過啟動暫存器406將啟動輸入傳送至胞元時，權數輸入保持在胞元內且未傳送至一毗鄰胞元。因此，可(例如)使用乘法電路408將權數輸入施加至多個啟動輸入，且可將各別所累積值傳送至一毗鄰胞元。

圖5展示一向量運算單元502之一實例性架構500。向量運算單元502可自一矩陣運算單元(例如，參考圖3所闡述之矩陣運算單元312)接收所累積值之一向量。

可傳送控制信號510且控制信號510可調節向量運算單元502處理所累積值之向量之方式。亦即，控制信號510可調節左邊資料值是否經合併(其中左邊資料值儲存(例如)於ve中)，或可以其他方式調節啟動值之處置。控制信號510亦可規定啟動或合併功能以及用於處理啟動值或合併值(例如，一跨步值)之其他參數。

向量運算單元502可發送值，例如，左邊資料值或合併值。在某些實施方案中，合併電路508接收啟動值或合併值且將啟動值或合併值儲存於統一緩衝器中。

圖6展示一浮點值之一實例性格式600。由一矩陣運算單元處理之值(例如，由一矩陣運算單元之胞元之暫存器儲存之值)中之各者可經儲存為具有一特定格式之一浮點值。

格式600由一正負號位元601、稱為有效數602之一位元群組及稱為一指數603之另一位元群組表徵。

正負號位元601指示使用格式600儲存之一值是正的還是負的。有效數602包含使用格式600儲存之一值之一或多個有效數位。因此，格式600之有效數602之大小(亦即，位元數目)表示使用格式600儲存之任一值之一最大可能精確度。指數603表示用於將所儲存值轉換為一正規化形式之一比例縮放基數之冪。因此，格式600之指數603之大小表示使用格式600儲存之任一值之一最大可能動態範圍。

在某些情形中，系統用來解譯浮點數字之正規化形式含有一或多個恆定值。舉例而言，正規化形式可始終係形式1.XXXX * 2^XXXX，其中第一值之整數部分始終係恆定的，例如，等於1。在某些此等情形中，有效數602可僅包含正規化值之非恆定位元且不包含恆定位元。在此等情形中，正規化形式之係恆定的且因此不出現在有效數602中之位元被稱為係「隱藏位元」。解譯具有隱藏位元之一個二進制浮點值之一電腦系統將根據為值之格式600之基礎之正規化形式使隱藏位元與有效數602相加。

一電腦系統將一個二進制數字儲存為一浮點值之方式取決於系統用來解譯浮點數字及所使用之特定浮點格式600之有效數602及指數603之大小的正規化形式。舉例而言，一浮點格式600可包含一正負號位元601、4個位元之有效數602及3個位元之指數603，且一電腦系統可藉由以下方式解譯具有此格式600之一個二進制數字：假定該數字具有正規化形式X.XXX * 2^XXX，其中X係一單個二進制數字，亦即，一「0」或一「1」。此外，電腦系統可假定在正規化形式之第一值中之小數點前面之二進制值係始終為一且未出現在有效數602中之一隱藏位元。因此，此一電腦系統可儲存且解譯二進制數字+11.111，其中一浮點值具有「0」之一正負號位元601 (此乃因二進制數字係正的)、「001」之一指數603及1111之一有效數602。

若一電腦系統無法使用一格式恰當地儲存一數字，則儲存該數字之一嘗試可導致一溢位且導致不可預測或不合意行為。上文之實例圖解說明一電腦系統可儲存一個二進制數字，其數位之數目超過由系統採用之格式600之有效數602中所允許之最大精確度而不具有透過對數位進行捨入而發生之一溢位。即使此捨入導致經減小精確度，其亦將不導致一溢位。

另一方面，若一個二進制數字之動態範圍超過格式600之指數603中所允許之最大範圍，則電腦系統無法對動態範圍進行捨入。繼續上文所給出之實例，電腦系統無法儲存且解譯數字111111111.01₂ ，此乃因彼數字之正規化形式具有1000₂ 之一動態範圍且無法使用3個位元之實例性指數寬度在格式600之指數603中所允許之值範圍中表示此動態範圍。

作為另一實例，系統可使用8個位元之指數及7個位元之有效數之一bfloat格式。為降低一溢位之可能性，若一電腦系統中以任一方式之一操作將具有一第一格式之一第一浮點值變換為具有一第二格式之一第二浮點值，則第二格式之動態範圍大於或等於第一格式之動態範圍係重要的。此包含其中系統將第一浮點值轉換為第二浮點值之情況及其中系統對第一浮點值施加一操作以產生第二浮點值之情況。舉例而言，若電腦系統使具有一第一格式之兩個值相乘以產生具有一第二格式之一結果值，則第二格式之動態範圍大於或等於第一格式之動態範圍以減小一溢位之可能性係重要的。若經相乘之兩個值具有不同格式，則第二格式之動態範圍大於或等於具有更大動態範圍之格式之動態範圍以減小一溢位之可能性係重要的。

浮點格式600之實例包含一IEEE單精確度格式、一bfloat格式及一經擴展bfloat格式。

該IEEE單精確度格式係包含一正負號位元601、8個位元之指數603及23個位元之有效數602的一32位元格式。一bfloat格式係具有一正負號位元601、8個位元之指數603及7個位元之有效數602的一16位元格式。一經擴展bfloat格式係包含一正負號位元601、8個位元之指數603及11個位元之有效數602之一20位元格式。

重要的係，上文所述之所有三個格式具有相同指數603大小且因此具有相同動態範圍。然而，單精確度格式允許比經擴展bfloat格式多之精確度，且經擴展bfloat格式允許比bfloat格式多之精確度。為降低溢位可能性但增加精確度，一矩陣運算單元可將啟動輸入及權數輸入值儲存於保存bfloat格式之值之暫存器中，將輸入值之乘積保存於保存經擴展bfloat格式之值之一暫存器中，且將乘積值與一部分總和值之總和保存於保存IEEE單精確度格式之值之一暫存器中。

圖7展示一矩陣運算胞元之乘法電路之一實例性架構700。圖7中所繪示之矩陣運算胞元使兩個輸入值(例如，一啟動輸入值701及一權數輸入值702)相乘以產生一所得值，例如，一乘積值705。

架構700包含使兩個輸入值之有效數及正負號位元相乘以產生所得值之一有效數及一正負號位元的一乘法器703及使兩個輸入值之指數相加以產生所得值之一指數的一加法器704。有效數及正負號位元與所得值之指數之組合產生所得值。

圖8係用於使用一矩陣運算單元執行矩陣乘法之一實例性程序800之一流程圖。程序800可由一矩陣運算單元(例如，圖2之矩陣運算單元113)執行以根據矩陣運算單元之一架構執行矩陣乘法。

一矩陣運算單元可並行執行程序800多次以運算係一向量與一矩陣(例如，包含多個啟動輸入值之一輸入向量及包含多個啟動權數值之一權數矩陣)之一乘積之一向量輸出。

該矩陣運算單元獲得兩者皆具有一第一浮點格式之一啟動輸入值及一權數輸入值(802)。下文參考圖9更詳細地闡述獲得啟動輸入值及權數輸入值。

矩陣運算單元使用矩陣運算單元之一乘法電路使啟動輸入值與權數輸入值相乘以產生具有一第二浮點格式之一乘積值(804)。第二浮點格式具有比第一浮點格式高之一精確度且具有與第一浮點格式之動態範圍至少一樣大之一動態範圍。藉由以具有比啟動輸入值及權數輸入值之格式高之一精確度之一格式儲存彼等輸入值相乘之結果，矩陣運算單元在儲存乘法之結果時降低失去精確度之可能性。藉由以具有與啟動輸入值及權數輸入值之格式之動態範圍至少一樣大之一動態範圍之一格式儲存彼等輸入值相乘之結果，矩陣運算單元亦在儲存乘法之結果時降低溢位可能性。

下文參考圖8至圖9更詳細地闡述使啟動輸入值與權數輸入值相乘。

在某些實施方案中，第一浮點格式係具有一正負號位元、一8位元指數及一7位元有效數(其在一對應二進制數字之正規化形式中視情況不包含一隱藏位元)之一16位元格式，且第二浮點格式係具有一正負號位元、一8位元指數及一11位元有效數(其在一對應二進制數字之正規化形式中視情況不包含一隱藏位元)之一20位元格式。

矩陣運算單元獲得一第三浮點格式的一部分總和值(806)。矩陣運算單元可自矩陣運算單元中之一胞元獲得部分總和值。

第三浮點格式具有比第一浮點格式高之一精確度且具有與第一浮點格式之動態範圍至少一樣大之一動態範圍。因此，部分總和值具有允許比輸入值之格式大之精確度及與輸入值之格式之動態範圍至少一樣大之一動態範圍的一格式。

在某些實施方案中，第三浮點格式具有比第二浮點格式高之一精確度。換言之，可就其精確度而言以如下次序來將三個浮點格式排名，以具有最高精確度之格式開始：第三浮點格式、第二浮點格式及第一浮點格式。在某些實施方案中，第三浮點格式具有與第二浮點格式之動態範圍至少一樣大之一動態範圍。

在某些實施方案中，第三浮點格式係一IEEE標準754單精確度格式或其他32位元格式，該32位元格式具有一正負號位元、一8位元指數及一23位元有效數(在一對應二進制數字之正規化形式中不包含一隱藏位元)。

矩陣運算單元使用矩陣運算單元之一求和電路組合部分總和值與乘積值以產生具有第三格式之一經更新部分總和值(808)。藉由以與部分總和值之格式相同之格式儲存組合乘積值與部分總和值之結果，矩陣運算單元降低溢位或失去精確度之可能性。在其中乘積值之格式(亦即，第二格式)具有比經更新部分總和值之格式(亦即，第三格式)低之一精確度之實施方案中尤其係此情形。在此等實施方案中，矩陣運算單元藉由以具有比乘積值之格式高之一精確度之一格式儲存組合之結果而降低失去精確度之可能性。類似地，在其中第三格式具有與第二格式之動態範圍至少一樣大之一動態範圍之實施方案中，矩陣運算單元藉由以具有比乘積值之格式大之一動態範圍之一格式儲存組合之結果而降低溢位可能性。

在某些實施方案中，矩陣運算單元將經更新部分總和傳輸至矩陣運算單元之另一組件，例如，矩陣運算單元中之一胞元或矩陣運算單元中之一個多胞元結構。

圖9係用於執行一啟動輸入值與一權數輸入值之一乘法之一實例性程序900之一流程圖。為了方便，程序900將經闡述為由位於一或多個位置中之一或多個電腦之一系統執行。舉例而言，根據本說明書適當地程式化之一神經網路處理系統(例如，圖1之神經網路處理系統100)可執行程序900。

一神經網路系統可並行執行程序900多次以運算包含一向量與一矩陣(例如，包含多個啟動輸入值之一輸入向量與包含多個啟動權數值之一權數矩陣)之乘積之較高精確度部分的一向量輸出，及包含向量與矩陣之乘積之較低精確度部分的一向量輸出。

系統獲得一原始啟動值及一原始權數值(902)。系統可自系統之一神經網路實施引擎(例如，圖1之神經網路實施引擎150)獲得原始值。原始值可呈任一格式，諸如一IEEE單精確度浮點格式。

系統將原始啟動值轉換為一第一格式以產生一啟動輸入值(904)且將原始權數值轉換為該第一格式以產生一權數輸入值(906)。系統可將由原始啟動值表示之數字儲存為具有一新格式之一新值。

系統判定其是否已接收以經增強精確度使原始啟動值與啟動輸入值相乘之一請求(908)。系統可自系統之一終端使用者及/或藉由系統之一神經網路實施引擎(例如，圖1之神經網路實施引擎150)接收此經增強精確度請求。請求指示系統必須以經減少精確度損失儲存使原始啟動值與啟動輸入值相乘之結果。

在某些實施方案中，系統透過軟體指令(亦即，VLIW指令束)接收一經增強精確度請求。此等指令束可包含具有用於表達各種選項(諸如一經增強精確度矩陣乘法之構成部分)之若干個不同可能運算碼的矩陣乘法指令。若系統判定其尚未接收到一經增強精確度請求，則系統使用在其上實施系統之一硬體電路之一矩陣運算單元使作為個別值之啟動輸入值與原始啟動值相乘以產生具有一第二格式之一乘積值(910)。

以其他方式，若系統判定其已接收到一經增強精確度請求，則系統產生係原始啟動值與啟動輸入值之間的差之一啟動經增強精確度值(912)且產生係原始權數值與權數輸入值之間的差之一權數經增強精確度值(914)。系統藉由自原始啟動值減去啟動輸入值而產生啟動輸入值與原始輸入值之間的差且藉由自原始權數值減去權數輸入值而產生權數輸入值與原始權數值之間的差。系統可藉由使一第一值與一第二值之一否定相加而使用在矩陣運算單元外側之適當電路(諸如使用在矩陣運算單元外側之求和電路)進行兩個值之減法。啟動經增強精確度值及權數經增強精確度值係呈第一浮點格式之兩個值。

系統使用矩陣運算單元執行啟動輸入值、權數輸入值、啟動經增強精確度值及權數經增強精確度值之間的一乘法集合(916)。為使用矩陣運算單元執行兩個值之間的一乘法，系統將兩個值提供至矩陣運算單元以致使矩陣運算單元執行兩個值之一乘法。

在某些實施方案中，乘法集合包含：使啟動輸入值與權數輸入值相乘，使啟動輸入值與權數經增強精確度值相乘，使權數輸入值與啟動經增強精確度值相乘，且使啟動經增強精確度值與權數經增強精確度值相乘。

軟體指令判定將包含什麼可能乘法子集。在某些實施方案中，乘法集合僅包含使啟動輸入值與權數輸入值相乘且使啟動經增強精確度值與權數經增強精確度值相乘。此技術可用於在系統判定至少某些個別輸入值及經增強精確度值具有一所需要精度位準時減少所需要乘法之數目。

經增強精確度值指示在將原始值儲存於具有第一格式之輸入值中時在捨入中丟失之原始值之較低精確度部分中之至少某些部分。藉由在一乘法中使用彼等經增強精確度值，系統可執行涉及原始值之較高精確度部分且因此產生具有一較大精確度之一乘法結果的乘法。

系統然後組合四個乘法之乘積以產生(918)包含使原始值相乘之結果之較低精確度部分之呈第一格式之一第一值及包含使原始值相乘之結果之較高精確度部分之呈第一格式之一第二值。在某些實施方案中，系統使用在矩陣運算單元外部之一外部求和電路執行求和。

本說明書中所闡述之標的物及功能操作之實施例可實施於包含本說明書中所揭示之結構及其結構等效物之數位電子電路、有形地體現之電腦軟體或韌體、電腦硬體或者其中之一或多者之組合中。本說明書中所闡述之標的物之實施例可實施為一或多個電腦程式，亦即，編碼於一有形非暫時性程式載體上以供資料處理設備執行或控制資料處理設備之操作之電腦程式指令之一或多個模組。另一選擇係或另外，程式指令可編碼於一人工產生之所傳播信號(例如，一機器產生之電、光學或電磁信號)上，該人工產生之所傳播信號經產生以編碼用於傳輸至適合接收器設備以供一資料處理設備執行之資訊。電腦儲存媒體可係一機器可讀儲存裝置、一機器可讀儲存基板、一隨機或串列存取記憶體裝置或其中之一或多者之一組合。

術語「資料處理設備」囊括用於處理資料之所有種類之設備、裝置及機器，藉由實例方式包含一可程式化處理器、一電腦或者多個處理器或電腦。該設備可包含特殊用途邏輯電路，例如，一FPGA (場可程式化閘陣列)或一ASIC (特殊應用積體電路)。除硬體之外，該設備亦可包含為所討論之電腦程式創建一執行環境之程式碼，例如，構成處理器韌體、一協定堆疊、一資料庫管理系統、一作業系統或其中之一或多者之一組合的程式碼。

一電腦程式(其亦可稱為或闡述為一程式、軟體、一軟體應用程式、一模組、一軟體模組、一描述性語言或程式碼)可以任一形式之程式設計語言(包含經編譯語言或經解譯語言或者宣告語言或程序語言)來撰寫，且其可以任一形式(包含作為一獨立程式或作為一模組、組件、次常式或適合在一運算環境中使用之其他單元)來部署。一電腦程式可以但無需對應於一檔案系統中之一檔案。一程式可儲存於保存其他程式或資料(例如，儲存於一標記語言文檔中之一或多個描述性語言)之一檔案之一部分中、儲存於專用於所討論之程式之一單個檔案中或儲存於多個協調檔案(例如，儲存一或多個模組、子程式或程式碼部分之檔案)中。一電腦程式可經部署以在一個電腦上或者在位於一個位點處或跨越多個位點分佈且由一通信網路互連之多個電腦上執行。

在本說明書中所闡述之程序及邏輯流程可由一或多個可程式化電腦執行，該一或多個可程式化電腦執行一或多個電腦程式以藉由對輸入資料進行操作且產生輸出而執行功能。程序及邏輯流程亦可由特殊用途邏輯電路(例如，一FPGA (場可程式化閘陣列)或一ASIC(特殊應用積體電路))執行，且設備亦可實施為該特殊用途邏輯電路。

適合用於執行一電腦程式之電腦藉由實例方式包含、可基於一般用途或特殊用途微處理器或兩者或者任何其他種類之中央處理單元。一般而言，一中央處理單元將自一唯讀記憶體或一隨機存取記憶體或兩者接收指令及資料。一電腦之基本元件係用於執行指令之一中央處理單元及用於儲存指令及資料之一或多個記憶體裝置。一般而言，一電腦亦將包含用於儲存資料之一或多個大容量儲存裝置(例如，磁碟、磁光碟或光碟)或以操作方式耦合以自該一或多個大容量儲存裝置接收資料或向其傳送資料或既接收又傳送資料。然而，一電腦不需要具有此等裝置。此外，一電腦可嵌入於另一裝置中，例如僅舉幾例，一行動電話、一個人數位助理(PDA)、一行動音訊或視訊播放器、一遊戲控制台、一全球定位系統(GPS)接收器或一便攜式儲存裝置(例如，一通用串列匯流排(USB)快閃磁碟機)。

適合於儲存電腦程式指令及資料之電腦可讀媒體包含所有形式之非揮發性記憶體、媒體及記憶體裝置，藉由實例方式包含：半導體記憶體裝置，例如EPROM、EEPROM及快閃記憶體裝置；磁碟，例如內部硬碟或可拆卸磁碟；磁光碟；及CD ROM及DVD-ROM磁碟。處理器及記憶體可由特殊用途邏輯電路補充或併入於特殊用途邏輯電路中。

為發送與一使用者之互動，本說明書中所闡述之標的物之實施例可實施於具有用於向使用者顯示資訊之一顯示器裝置(例如，一CRT (陰極射線管)或LCD (液晶顯示器)監視器)及用戶可藉以將輸入發送至電腦之一鍵盤及一指向裝置(例如，一滑鼠或一軌跡球)之一電腦上。亦可使用其他種類之裝置來發送與一使用者之互動；舉例而言，提供給使用者之回饋可係任何形式之感觀回饋，例如，視覺回饋、聽覺回饋或觸覺回饋；且來自使用者之輸入可以任何形式來接收，包含聲音、語音或觸覺輸入。另外，一電腦可藉由將文件發送至由一使用者使用之一裝置且自該裝置接收文件而與該使用者互動；舉例而言，藉由回應於自一web瀏覽器接收之請求而在一使用者之用戶端裝置上將網頁發送至該web瀏覽器。

本說明書中所闡述之標的物之實施例可實施於一運算系統中，該運算系統包含一後端組件(例如，作為一資料伺服器)，或包含中間軟體組件(例如，一應用程式伺服器)，或包含一前端組件(例如，具有一使用者可透過其與本說明書中所闡述之標的物之一實施方案互動之一圖形使用者介面或一Web瀏覽器的一用戶端電腦)或者一或多個此類後端、中間軟體或前端組件之任何組合。該系統之該等組件可藉由任何數位資料通信形式或媒體(例如，一通信網路)來互連。通信網路之實例包含一區域網路(「LAN」)及一廣域網路(「WAN」)，例如，網際網路。

該運算系統可包含用戶端及伺服器。一用戶端與伺服器一般彼此遠離且通常透過一通信網路互動。用戶端與伺服器之關係藉助於在各別電腦上運行且彼此之間具有一用戶端-伺服器關係之電腦程式而產生。

實施例1係一種使用一硬體電路執行一矩陣乘法之方法，該方法包括：藉由該硬體電路之一矩陣運算單元獲得一啟動輸入值及一權數輸入值，該啟動輸入值及該權數輸入值各自具有一第一浮點格式；藉由該矩陣運算單元之一乘法電路使該啟動輸入值與該權數輸入值相乘以產生一乘積值，該乘積值具有一第二浮點格式，該第二浮點格式具有比該第一浮點格式高之一精確度且具有與該第一浮點格式之動態範圍至少一樣大之一動態範圍；藉由該矩陣運算單元獲得一第三浮點格式的一部分總和值，該第三浮點格式具有比該第一浮點格式高之一精確度且具有與該第一浮點格式之該動態範圍至少一樣大之一動態範圍；及藉由該硬體電路之一求和電路至少組合該部分總和值與該乘積值以產生具有該第三浮點格式之一經更新部分總和值。

實施例2係實施例1之方法，其中基於呈一浮點格式之一有效數之一可用位元計數而判定該浮點格式之精確度且基於呈一浮點格式之一指數之一可用位元計數而判定該浮點格式之動態範圍。

實施例3係實施例1至2中任一實施例之方法，其中該第二浮點格式具有與該第一浮點格式相同之動態範圍且該第三浮點格式具有與該第一浮點格式相同之動態範圍。

實施例4係實施例1至3中任一實施例之方法，其中該第三浮點格式具有比該第二浮點格式高之一精確度。

實施例5係實施例1至4中任一實施例之方法，其中：該硬體電路經組態以針對具有複數個層之一神經網路執行運算，且該啟動輸入值及該權數輸入值與該複數個層中之一層相關聯。

實施例6係實施例1至5中任一實施例之方法，其進一步包括：針對具有該第三浮點格式之第一矩陣運算胞元獲得一原始啟動值及一原始權數值；將該原始啟動值轉換成該第一浮點格式以產生該啟動輸入值；及將該原始權數值轉換成該第一浮點格式以產生該權數輸入值。

實施例7係實施例1至6中任一實施例之方法，其進一步包括：接收以經增強精確度處理該原始啟動值之一請求；針對該啟動輸入值產生一啟動經增強精確度值，該啟動經增強精確度值係該啟動輸入值與該原始啟動值之間的差之一量度；及針對該權數輸入值產生一權數經增強精確度值，該權數經增強精確度值係該權數輸入值與該原始權數值之間的差之一量度；且其中使該啟動輸入值與該權數輸入值相乘以產生該乘積值包括：藉由該矩陣運算單元之該乘法電路使該啟動輸入值與該權數輸入值相乘，使該啟動輸入值與該權數經增強精確度值相乘，使該權數輸入值與該啟動經增強精確度值相乘，且使該啟動經增強精確度值與該權數經增強精確度值相乘；及組合組合該等乘法之乘積以產生該乘積值。

實施例8係一種包括一矩陣運算單元之硬體電路，該矩陣運算單元經組態以執行包括以下各項之一第一操作群組：獲得一啟動輸入值及一權數輸入值，該啟動輸入值及該權數輸入值兩者皆具有一第一浮點格式；將該權數輸入值儲存於一權數暫存器中，該權數暫存器經組態以儲存具有該第一浮點格式之值；使用該硬體電路之一乘法電路使該啟動輸入值與該權數輸入值相乘以產生一乘積值，該乘積值具有一第二浮點格式，該第二浮點格式具有比該第一浮點格式高之一精確度且具有與該第一浮點格式之動態範圍至少一樣大之一動態範圍；獲得一第三浮點格式的一部分總和值，該第三浮點格式具有比該第一浮點格式高之一精確度且具有與該第一浮點格式之該動態範圍至少一樣大之一動態範圍；將該部分總和值儲存於暫存器中之一總和中，該總和輸入暫存器經組態以儲存具有該第三浮點格式之值；及使用該矩陣運算單元之一求和電路組合該部分總和值與該乘積值以產生具有該第三浮點格式之一經更新部分總和值。

實施例9係實施例8之硬體電路，該第一操作群組進一步包括：將該啟動輸入值儲存於一啟動暫存器中，該啟動暫存器經組態以儲存具有該第一浮點格式之值。

實施例10係實施例8至9中任一實施例之硬體電路，該第一操作群組進一步包括：將該權數輸入值儲存於一權數暫存器中，該權數暫存器經組態以儲存具有該第一浮點格式之值。

實施例11係實施例8至10中任一實施例之硬體電路，該第一操作群組進一步包括：將該部分總和值儲存於暫存器中之一總和中，該總和輸入暫存器經組態以儲存具有該第三浮點格式之值。

實施例12係實施例8至11中任一實施例之硬體電路，其進一步包括在該矩陣運算單元外側之一外部求和電路，且其中該第一操作群組進一步包括：接收以經增強精確度處理該原始啟動值之一請求；針對該啟動輸入值產生一啟動經增強精確度值，該啟動經增強精確度值係該啟動輸入值與該原始啟動值之間的差之一量度；及針對該權數輸入值產生一權數經增強精確度值，該權數經增強精確度值係該權數輸入值與該原始權數值之間的差之一量度；且其中使該啟動輸入值與該權數輸入值相乘以產生該乘積值包括：藉由該矩陣運算單元之該乘法電路使該啟動輸入值與該權數輸入值相乘，使該啟動輸入值與該權數經增強精確度值相乘，使該權數輸入值與該啟動經增強精確度值相乘，且使該啟動經增強精確度值與該權數經增強精確度值相乘，且其中該外部求和電路經組態以執行包括如下操作之一第二操作群組：組合該等乘法之乘積以產生該乘積值。

實施例13係一種包括一或多個電腦及儲存指令之一或多個儲存裝置之系統，該等指令在由該一或多個電腦執行時可操作以致使該一或多個電腦執行各別如實施例1至7中任一項之方法之操作。

實施例14係一種編碼有指令之電腦儲存媒體，該等指令在由一或多個電腦執行時致使該一或多個電腦執行各別如實施例1至7中任一項之方法之操作。

實施例15係一種包括一或多個電腦及儲存指令之一或多個儲存裝置之系統，該等指令在由該一或多個電腦執行時可操作以致使該一或多個電腦執行各別如實施例8至12中任一項之硬體電路之操作。

實施例16係一種編碼有指令之電腦儲存媒體，該等指令在由一或多個電腦執行時致使該一或多個電腦執行各別如實施例8至12中任一項之硬體電路之操作。

雖然本說明書含有諸多特定實施細節，但此等細節不應解釋為對任何發明或可主張之內容之範疇之限制，而是應解釋為可係特定發明之特定實施例所特有之特徵之說明。在分開之實施例之內容脈絡中於本說明書中闡述之特定特徵亦可以組合方式實施於一單個實施例中。相反地，在一單個實施例之內容脈絡中闡述之各種特徵亦可單獨地或以任何適合子組合方式實施於多個實施例中。此外，儘管上文可將特徵闡述為以特定組合起作用且甚至最初主張如此，但來自一所主張組合之一或多個特徵在某些情形中可自該組合去除，且該所主張組合可針對於一子組合或一子組合之變化形式。

類似地，雖然在圖式中以一特定次序繪示操作，但不應將此理解為需要以所展示之特定次序或以順序次序執行此等操作，或執行所有所圖解說明操作以實現合意結果。在特定情況中，多任務及並行處理可係有利的。此外，不應將在上文所闡述之實施例中之各種系統模組及組件之分離理解為在所有實施例中需要此分離，且應理解，一般可將所闡述之程式組件及系統一起整合於一單個軟體產品中或封裝至多個軟體產品中。

已闡述標的物之特定實施例。其他實施例在所附申請專利範圍之範疇內。舉例而言，在申請專利範圍中所引用之行動可以一不同次序來執行且仍實現合意結果。作為另一實例，附圖中所繪示之程序未必需要所展示之特定次序或順序次序來實現合意結果。在特定實施方案中，多任務及並行處理可係有利的。

100:特殊用途積體電路/神經網路處理系統 101:運算核心 102:處理器/指令解碼與發佈 102a:處理器 102b:處理器 103a:運算核心/極長指令字機器 103b:運算核心/極長指令字機器 104:純量記憶體/指令記憶體 105a:稀疏運算核心/嵌入層加速度計 105b:稀疏運算核心/嵌入層加速度計 106:向量暫存器/向量處理單元 107:純量處理器/處理器/純量處理單元 108:向量記憶體 110:高頻寬記憶體 112:矩陣乘法單元 113:矩陣乘法單元/經擴展向量單元/矩陣運算單元 113a:矩陣乘法單元 113b:矩陣乘法單元 114:轉置單元/經擴展向量單元/向量運算單元 114a:轉置單元 114b:轉置單元 115:歸約單元/單元 116:歸約與排列單元/經擴展向量單元/經擴展一元管線/排列單元/單元 120:隨機數產生器 126a:算術邏輯單元 126b:算術邏輯單元 126c:算術邏輯單元 126d:算術邏輯單元 130:串列化器 132a:解串列化 132b:解串列化 134:轉置結果先進先出 134a:轉置結果先進先出 134b:轉置結果先進先出 136:乘法結果先進先出 136a:矩陣結果先進先出 136b:矩陣結果先進先出 148:晶片間互連件 150:主機介面/神經網路實施引擎 152a:稀疏運算核心 152b:稀疏運算核心 156a:高頻寬記憶體堆疊 156b:高頻寬記憶體堆疊 156c:高頻寬記憶體堆疊 156d:高頻寬記憶體堆疊 162:高頻寬記憶體堆疊 200:架構 202:串列化處理單元 204:選擇單元 206:向量暫存器 210a:左手邊匯流排 210b:左手邊匯流排 220a:經轉置權數 220b:經轉置權數 230a:未經轉置權數 230b:未經轉置權數 300:多胞元 301a:權數移位鏈 301b:權數移位鏈 302a:權數移位鏈 302b:權數移位鏈 310a:部分總和暫存器 310b:部分總和暫存器 311a:部分總和暫存器 311b:部分總和暫存器 315a:左手邊資料暫存器 315b:左手邊資料暫存器 350a:胞元 350b:胞元 350c:胞元 350d:胞元 402:權數暫存器 404:總和輸入暫存器 406:啟動暫存器 408:乘法電路 410:求和電路 412:權數路徑暫存器 500:架構 502:向量運算單元 510:控制信號 600:格式/浮點格式 601:正負號位元 602:有效數 603:指數 700:架構 701:啟動輸入值 702:權數輸入值 703:乘法器 704:加法器 705:乘積值 800:程序 802:操作 804:操作 806:操作 808:操作 900:程序 902:操作 904:操作 906:操作 908:操作 910:操作 912:操作 914:操作 916:操作 918:操作

圖1A展示用於訓練一神經網路之一實例性特殊用途硬體晶片之一高階圖式。圖1B展示運算核心之一高階實例。圖1C展示一實例性神經網路處理系統。圖2圖解說明包含一矩陣乘法單元之一實例性架構。該矩陣乘法單元係一個二維脈動式陣列。圖3圖解說明在一脈動式陣列內側之一個多胞元之一實例性架構。圖4展示一矩陣運算單元中之一胞元之一實例性架構。圖5展示一向量運算單元之一實例性架構。圖6展示一浮點值之一實例性格式。圖7展示一矩陣運算胞元之乘法電路之一實例性架構。圖8係用於使用一矩陣運算單元執行矩陣乘法之一實例性程序之一流程圖。圖9係用於執行一啟動輸入值與一權數輸入值之乘法之一實例性程序之一流程圖。在各種圖式中，相似元件符號及名稱指示相似元件。

800:程序

802:操作

804:操作

806:操作

808:操作

Claims

一種使用一硬體電路執行一矩陣乘法之方法，該方法包括：藉由該硬體電路之一矩陣運算單元獲得一啟動輸入值及一權數輸入值，該啟動輸入值及該權數輸入值各自具有一第一浮點格式；藉由該矩陣運算單元之一乘法電路使該啟動輸入值與該權數輸入值相乘以產生一乘積值，該乘積值具有一第二浮點格式，該第二浮點格式具有比該第一浮點格式高之一精確度且具有與該第一浮點格式之動態範圍至少一樣大之一動態範圍；藉由該矩陣運算單元獲得一第三浮點格式的一部分總和值，該第三浮點格式具有比該第一浮點格式高之一精確度且具有與該第一浮點格式之該動態範圍至少一樣大之一動態範圍；及藉由該硬體電路之一求和電路至少組合該部分總和值與該乘積值以產生具有該第三浮點格式之一經更新部分總和值。
如請求項1之方法，其中基於呈一浮點格式之一有效數之一可用位元計數而判定該浮點格式之精確度，且基於呈一浮點格式之一指數之一可用位元計數而判定該浮點格式之動態範圍。
如請求項1至2中任一項之方法，其中該第二浮點格式具有與該第一浮點格式相同之動態範圍且該第三浮點格式具有與該第一浮點格式相同之動態範圍。
如請求項1至2中任一項之方法，其中該第三浮點格式具有比該第二浮點格式高之一精確度。
如請求項1至2中任一項之方法，其中：該硬體電路經組態以針對具有複數個層之一神經網路執行運算，且該啟動輸入值及該權數輸入值與該複數個層中之一層相關聯。
如請求項1至2中任一項之方法，其進一步包括：針對具有該第三浮點格式之一第一矩陣運算胞元獲得一原始啟動值及一原始權數值；將該原始啟動值轉換成該第一浮點格式以產生該啟動輸入值；及將該原始權數值轉換成該第一浮點格式以產生該權數輸入值。
如請求項6之方法，其進一步包括：接收以經增強精確度處理該原始啟動值之一請求；針對該啟動輸入值產生一啟動經增強精確度值，該啟動經增強精確度值係該啟動輸入值與該原始啟動值之間的差之一量度；及針對該權數輸入值產生一權數經增強精確度值，該權數經增強精確度值係該權數輸入值與該原始權數值之間的差之一量度；且其中使該啟動輸入值與該權數輸入值相乘以產生該乘積值包括：藉由該矩陣運算單元之該乘法電路，使該啟動輸入值與該權數輸入值相乘，使該啟動輸入值與該權數經增強精確度值相乘，使該權數輸入值與該啟動經增強精確度值相乘，及使該啟動經增強精確度值與該權數經增強精確度值相乘，及組合該等乘法之乘積以產生該乘積值。
一種硬體電路，其包括：一矩陣運算單元，其經組態以執行包括以下各項之一第一操作群組：獲得一啟動輸入值及一權數輸入值，該啟動輸入值及該權數輸入值兩者皆具有一第一浮點格式；將該權數輸入值儲存於一權數暫存器中，該權數暫存器經組態以儲存具有該第一浮點格式之值；使用該硬體電路之一乘法電路使該啟動輸入值與該權數輸入值相乘以產生一乘積值，該乘積值具有一第二浮點格式，該第二浮點格式具有比該第一浮點格式高之一精確度且具有與該第一浮點格式之動態範圍至少一樣大之一動態範圍；獲得一第三浮點格式的一部分總和值，該第三浮點格式具有比該第一浮點格式高之一精確度且具有與該第一浮點格式之該動態範圍至少一樣大之一動態範圍；將該部分總和值儲存於一總和輸入暫存器中，該總和輸入暫存器經組態以儲存具有該第三浮點格式之值；及使用該矩陣運算單元之一求和電路組合該部分總和值與該乘積值以產生具有該第三浮點格式之一經更新部分總和值。
如請求項8之硬體電路，該第一操作群組進一步包括：將該啟動輸入值儲存於一啟動暫存器中，該啟動暫存器經組態以儲存具有該第一浮點格式之值。
如請求項8至9中任一項之硬體電路，該第一操作群組進一步包括：將該權數輸入值儲存於一權數暫存器中，該權數暫存器經組態以儲存具有該第一浮點格式之值。
如請求項8至9中任一項之硬體電路，該第一操作群組進一步包括：將該部分總和值儲存於一總和輸入暫存器中，該總和輸入暫存器經組態以儲存具有該第三浮點格式之值。
如請求項8至9中任一項之硬體電路，其進一步包括在該矩陣運算單元外側之一外部求和電路，且其中該第一操作群組進一步包括：接收以經增強精確度處理一原始啟動值之一請求；針對該啟動輸入值產生一啟動經增強精確度值，該啟動經增強精確度值係該啟動輸入值與該原始啟動值之間的差之一量度；及針對該權數輸入值產生一權數經增強精確度值，該權數經增強精確度值係該權數輸入值與原始權數值之間的差之一量度；且其中使該啟動輸入值與該權數輸入值相乘以產生該乘積值包括：藉由該矩陣運算單元之該乘法電路，使該啟動輸入值與該權數輸入值相乘，使該啟動輸入值與該權數經增強精確度值相乘，使該權數輸入值與該啟動經增強精確度值相乘，及使該啟動經增強精確度值與該權數經增強精確度值相乘，且其中該外部求和電路經組態以執行包括以下操作之一第二操作群組：組合該等乘法之乘積以產生該乘積值。
一種包括一或多個電腦及儲存指令之一或多個儲存裝置之系統，該等指令在由該一或多個電腦執行時可操作以致使該一或多個電腦執行如請求項1至7中任一項之各別方法之操作。
一種編碼有指令之電腦儲存媒體，該等指令在由一或多個電腦執行時致使該一或多個電腦執行如請求項1至7中任一項之各別方法之操作。
一種包括一或多個電腦及儲存指令之一或多個儲存裝置之系統，該等指令在由該一或多個電腦執行時可操作以致使該一或多個電腦執行如請求項8至12中任一項之各別硬體電路之操作。
一種編碼有指令之電腦儲存媒體，該等指令在由一或多個電腦執行時致使該一或多個電腦執行如請求項8至12中任一項之各別硬體電路之操作。