TW202024961A

TW202024961A - 低延遲矩陣乘法單元

Info

Publication number: TW202024961A
Application number: TW109105071A
Authority: TW
Inventors: 安德魯艾佛列特菲而普斯; 諾曼保羅約皮
Original assignee: 美商谷歌有限責任公司
Priority date: 2017-05-17
Filing date: 2018-05-17
Publication date: 2020-07-01
Also published as: EP3800563B1; WO2018213635A1; US20200226202A1; TWI771155B; JP2021184293A; US11907330B2; US10635740B2; JP6929958B2; US10698974B2; TWI685757B; BR112019023395A2; US10698976B2; BR112019023395B1; US11989259B2; US20180336164A1; EP3757823A1; CN116414350A; US20200327186A1; US20180336163A1; US20210209193A1

Abstract

本發明揭示用於實施為一脈動式胞元陣列之一矩陣乘法單元之方法、系統及設備。該胞元陣列中之各胞元包含：一權數矩陣暫存器，其經組態以自一經轉置權數移位暫存器或一未經轉置權數移位暫存器接收一權數輸入；一經轉置權數移位暫存器，其經組態以自一水平方向接收將儲存於該權數矩陣暫存器中之一權數輸入；一未經轉置權數移位暫存器，其經組態以自一垂直方向接收將儲存於該權數矩陣暫存器中之一權數輸入；及一乘法單元，其耦合至該權數矩陣暫存器且經組態以使該權數矩陣暫存器之該權數輸入與一向量資料輸入相乘以便獲得一乘法結果。

Description

低延遲矩陣乘法單元

本說明書係關於執行硬體中之神經網路運算。

神經網路係採用一或多個模型層以針對一所接收輸入產生一輸出(例如，一分類)之機器學習模型。除一輸出層之外，某些神經網路亦包含一或多個隱藏層。各隱藏層之輸出用作至網路中之下一層(例如，網路之下一隱藏層或輸出層)之輸入。根據一各別參數集之當前值，網路之各層依據一所接收輸入產生一輸出。

本說明書闡述與訓練神經網路、運算神經網路推斷或兩者之特殊用途硬體電路有關之技術，且具體而言係關於藉由增加將權數值載入至矩陣乘法單元內之權數矩陣暫存器中之速率而跨越一矩陣乘法單元減少延遲的特殊用途硬體電路。

一脈動式陣列經佈線以執行矩陣乘法且通常貫穿該陣列具有一均勻結構。一脈動式陣列之一矩陣乘法單元由乘法-加法子單元構成，該等乘法-加法子單元中之各者獲取一輸入運算元，使該運算元與一所儲存權數相乘以獲得一結果，且使該結果與一部分總和相加以產生一新的部分總和。

降低延遲之一種方式係增加將權數載入至乘法-加法單元中之速率。

一般而言，本說明書中所闡述之標的物之一個新穎態樣可體現在訓練神經網路、運算神經網路推斷或兩者之一特殊用途硬體電路中。

此態樣之其他實施例包含對應電腦系統、設備及記錄於一或多個電腦儲存裝置上之電腦程式，各者經組態以執行該等方法之該等動作。使一或多個電腦之一系統經組態以執行特定操作或動作意味該系統已將軟體、韌體、硬體或在操作中致使該系統執行該等操作或動作之其各項之一組合安裝於其上。使一或多個電腦程式經組態以執行特定操作或動作意味一或多個程式包含在由資料處理設備執行時致使該設備執行操作或動作之指令。

前文及其他實施例可各自視情況單獨地或組合地包含以下特徵中之一或多者。特定而言，一項實施例組合地包含所有以下特徵。

一矩陣乘法單元可實施為一脈動式胞元陣列。該胞元陣列中之各胞元可包含：一權數矩陣暫存器，其經組態以自一經轉置權數移位暫存器或一未經轉置權數移位暫存器接收一權數輸入；一經轉置權數移位暫存器，其經組態以自一水平方向接收將儲存於該權數矩陣暫存器中之一權數輸入；一未經轉置權數移位暫存器，其經組態以自一垂直方向接收將儲存於該權數矩陣暫存器中之一權數輸入；及一乘法單元，其耦合至該權數矩陣暫存器且經組態以使該權數矩陣暫存器之該權數輸入與一向量資料輸入相乘以便獲得一乘法結果。各胞元可包含一多工器，該多工器經組態以在該經轉置權數移位暫存器之該權數輸入與該未經轉置權數移位暫存器之該權數輸入之間進行選擇且將該選定權數輸入轉發至該權數矩陣暫存器。

該矩陣乘法單元可包含一第一權數保存暫存器，該第一權數保存暫存器經組態以保存來自該經轉置權數移位暫存器或該未經轉置權數移位暫存器之一權數值。

該矩陣乘法單元可包含一第二權數保存暫存器，該第二權數保存暫存器經組態以保存來自該經轉置權數移位暫存器或該未經轉置權數移位暫存器之一權數值。

可在一水平方向上將權數值自一經轉置權數移位暫存器載入至該矩陣乘法單元中從而載入至該第一權數保存暫存器中且在一垂直方向上將權數值自一未經轉置權數移位暫存器載入至該第二權數保存暫存器中。

該權數矩陣暫存器可載入有來自該第一權數保存暫存器或該第二權數保存暫存器之一值。

在另一實施例中，實施為一脈動式陣列之一矩陣乘法單元可包含：複數個胞元，其配置於該脈動式陣列之行中；該脈動式陣列之每行之兩個權數移位暫存器鏈；每胞元之一權數矩陣暫存器，其經組態以儲存自一權數移位暫存器接收之一權數輸入；及一乘法單元，其耦合至該權數矩陣暫存器且經組態以使該權數矩陣暫存器之該權數輸入與一向量資料輸入相乘以便獲得一乘法結果。各權數移位暫存器連接至僅一個鏈且各胞元連接至僅一個權數移位暫存器。

可自含有權數值對之一向量暫存器沿著該兩個權數移位暫存器鏈向上發送該等權數值。

在各行之頂部處之一保存暫存器可在不可自該向量暫存器獲得兩個權數值時保存一權數值。

當可獲得兩個權數值時，在時脈循環上將該兩個權數值移位至該等胞元中之該等權數移位暫存器。

當不可獲得兩個權數值時，在可獲得一第一權數值之一第一時脈循環上，該保存暫存器載入有作為一經保存值之該第一權數值且不進行移位。在下一時脈循環上，當可獲得一第二權數值時，藉由該兩個移位鏈使該第二權數值及該經保存值移位。藉由各移位鏈使一個值移位至連接至該等移位鏈之權數移位暫存器。

各移位鏈可具有用於注入權數值之兩個注入點，一個注入點在行之頂部處且另一注入點在行中之一第二點處。一向量暫存器可含有各自表示一分開之權數值之四個8位元整數之經封裝集合。可在行之頂部處注入四個整數中之兩個整數且可在陣列中之第二點處注入四個整數中之另外兩個整數。

本說明書中所闡述之標的物可在特定實施例中經實施以便實現以下優點中之一或多者。該脈動式陣列之每行具有兩個權數移位暫存器鏈之一矩陣乘法單元將權數自一向量暫存器遞送至該矩陣乘法單元之速率可為具有僅一個權數移位暫存器鏈之一矩陣乘法單元之兩倍。另外，每行具有兩個權數移位暫存器鏈之一矩陣乘法單元(其將權數值發送至陣列中之兩個點，亦即，陣列之頂部及中間點)將權數自一向量暫存器遞送至該矩陣乘法單元之速率可為具有僅一個權數移位暫存器鏈之一矩陣乘法單元之四倍。

另外或另一選擇係，一矩陣乘法單元可具有各自含有一未經轉置權數移位暫存器及一經轉置權數移位暫存器之胞元。該矩陣乘法單元然後可使用用於垂直及水平權數移位鏈之分開之暫存器，從而致使該矩陣乘法單元能夠以不具有用於該兩個權數移位鏈之分開之暫存器之矩陣乘法單元之速率之兩倍載入權數值。

此等權數移位載入方法可經組合以自不具有每行兩個權數移位暫存器鏈及用於垂直及水平權數移位鏈之分開之暫存器之一矩陣乘法單元獲得載入時間之八倍增加。此等權數移位鏈及/或分開之暫存器可添加至一矩陣乘法單元而不顯著增加該矩陣乘法單元之複雜度或佔用面積。

在附圖及以下說明中陳述本說明書之標的物之一或多個實施例之細節。標的物之其他特徵、態樣及優點將依據說明、圖式及申請專利範圍而變得顯而易見。

相關申請案之交叉參考本申請案主張2017年5月17日提出申請之第62/507,766號美國申請案之申請日期之權益。先前申請案之揭示內容被視為本申請案之揭示內容之一部分且以引用方式併入本申請案之揭示內容中。

可訓練具有多個層之一神經網路且然後使用該神經網路來運算推斷。舉例而言，該神經網路具有各自用一值初始化之參數。在訓練期間，該神經網路執行一神經網路訓練過程以調整該神經網路之該等參數之值，例如，以使用反向傳播依據該等參數之初始值判定參數之經訓練值。該經訓練神經網路然後可運算推斷，亦即，透過神經網路之層處理輸入以針對該輸入產生一神經網路輸出。

舉例而言，給定一輸入，該神經網路可運算針對該輸入之一推斷。該神經網路藉由透過該神經網路之該等層中之各者處理該輸入而運算此推斷。在某些實施方案中，神經網路之層配置成一序列。

因此，為了依據一所接收輸入運算一推斷，該神經網路接收該輸入且透過序列中之神經網路層中之各者處理該輸入以產生該推斷，其中提供來自一個神經網路層之輸出作為至下一神經網路層之輸入。至一神經網路層之資料輸入(例如，至神經網路之輸入或序列中位於該層下面之層至一神經網路層之輸出)可稱為至層之啟動輸入。

在某些實施方案中，神經網路之層配置成一有向圖。亦即，任何特定層可接收多個輸入、多個輸出或兩者。神經網路之層亦可經配置使得一層之一輸出可作為一輸入發送回至一先前層。

圖1A展示用於訓練一神經網路之一實例性特殊用途硬體晶片之一高階圖式。如所圖解說明，一單個特殊用途硬體晶片包含兩個獨立處理器(例如，102a、102b)。各處理器102a、102b含有兩個相異核心：(1)一運算核心，亦即一極長指令字(VLIW)機器，(103a、103b)；及(2)一稀疏運算核心，亦即一嵌入層加速度計，(105a、105b)。

針對密集線性代數問題最佳化各運算核心(例如，103a、103b)。各運算核心由一單個極長指令字控制。各運算核心執行其自身之極長指令字指令串流。

一實例性稀疏運算核心(例如，105a、105b)將非常稀疏高維資料映射至密集低維資料中，使得層之其餘部分處理密集封裝之輸入資料。舉例而言，該稀疏運算核心可在訓練神經網路中執行任何嵌入層之運算。

為執行此稀疏至密集映射，稀疏運算核心使用一預建查詢表、一嵌入表。舉例而言，當存在一系列查詢字作為使用者輸入時，將各查詢字轉換成一雜湊識別項或一單熱經編碼向量。使用該識別項作為一表索引，嵌入表傳回對應密集向量，該對應密集向量可係至下一層之一輸入啟動向量。稀疏運算核心亦可跨越搜尋查詢字執行歸約運算以形成一個密集啟動向量。稀疏運算核心一起工作以執行高效稀疏分佈式查詢，此乃因嵌入表可係巨大的且不適合特殊用途硬體晶片中之一者之有限容量高頻寬記憶體。關於稀疏運算核心功能性之更多細節可存在於2016年2月5日提出申請之標題為「MATRIX PROCESSING APPARATUS」之第15/016,486號美國專利申請案中。

圖1B展示運算核心(101)之一高階實例。該運算核心可係並行控制數個運算單元之一機器，亦即一VLIW機器。各運算核心(101)含有：一純量記憶體(104)、一向量記憶體(108)、一純量處理單元(107)、向量暫存器(106)及經擴展向量單元(亦即，一矩陣乘法單元(MXU) (113)、一轉置單元(XU) (114)及一歸約與排列單元(RPU) (116))。

一實例性純量處理器執行VLIW指令提取/執行迴圈且控制運算核心。在提取且解碼一指令束之後，純量處理器自身僅使用純量處理器(107)及純量記憶體(104)之多個多位元暫存器(亦即，32個32位元暫存器)執行存在於束之純量槽中之指令。純量指令集包含(例如)如在位址計算中使用之正常算術運算、載入/儲存指令及分支指令。剩餘指令槽編碼用於向量處理單元或其他經擴展向量單元(113、114、116)之指令。將該等經解碼向量指令轉發至向量處理單元。

連同向量指令一起，純量處理器(107)可將高達三個純量暫存器之值轉發至其他處理器及單元以執行操作。純量處理器亦可自向量處理器直接擷取運算結果。然而，在某些實施方案中，實例性晶片具有自向量處理器至純量處理器之一低頻寬通信路徑。

一向量指令分派器位於純量處理器與向量處理器之間。此分派器自非純量VLIW槽接收經解碼指令且將彼等指令廣播至向量處理單元。關於圖1C詳細地闡述向量處理單元。

一實例性純量處理器(107)對由一大得多但較慢之高頻寬記憶體(HBM) (110)支持之一小的快速私有純量記憶體(104)進行存取。類似地，一實例性向量處理單元對亦由HBM (110)支持之一小的快速私有向量記憶體(108)進行存取。在純量處理器(107)與純量記憶體(104)之間或在向量處理單元與向量記憶體(108)之間發生字組細微度存取。向量處理器與向量記憶體之間的載入及儲存之細微度係128個32位元字組之一向量。在純量記憶體(104)與HBM (110)之間且在向量記憶體(108)與HBM (110)之間發生直接記憶體存取。在某些實施方案中，可僅透過純量或向量記憶體進行自HBM (110)至處理單元(107)之記憶體傳送。另外，可不存在純量記憶體與向量記憶體之間的直接記憶體傳送。

指令可規定經擴展向量單元操作。連同各經執行向量單元指令一起，存在各自可將一個暫存器值作為輸入運算元發送至經擴展向量單元之二維(亦即，128×8個)向量單元。各經擴展向量單元獲取輸入運算元，執行對應操作，且將結果傳回至向量處理器(亦即，向量暫存器106)。下文將關於圖4闡述該等經擴展向量單元。

圖1C展示用於執行神經網路運算之一實例性特殊用途積體電路100。如所圖解說明，晶片含有兩個運算核心(103a、103b)及兩個稀疏運算核心(152a、152b)。

晶片具有一共用區，該共用區包含至一主機電腦之一主機介面(150)、沿著底部之四個高頻寬記憶體堆疊(156a至156d)及將介面及記憶體連接在一起之一晶片間互連件(148)以及來自其他晶片之資料。兩個高頻寬記憶體堆疊(156a至156b、156c至156d)與各運算核心(103a、103b)相關聯。

晶片將資料儲存於高頻寬記憶體(156c至156d)中，讀取進入及離開向量記憶體(108)之資料，且處理該資料。運算核心(103b)自身包含一向量記憶體(108)，向量記憶體(108)係劃分成兩個維度之晶片上S-RAM。向量記憶體具有位址空間，其中位址保存浮點數字，亦即，各自係32位元之128個數字。運算核心(103b)亦包含運算值之一運算單元及控制運算單元之一純量單元。

向量處理單元由向量處理單元之一2維陣列(亦即，128×8)組成，該等向量處理單元全部以一單指令多資料(SIMD)方式執行同一指令。向量處理器具有通道及子通道，亦即128個通道及8個子通道。在通道內，向量單元透過載入及儲存指令彼此通信。各向量單元可一次存取一個4位元組值。不屬同一通道之向量單元無法直接通信。此等向量單元必須使用下文所闡述之歸約/排列單元。

運算單元包含在一向量處理單元(106)中之向量暫存器(亦即，32個向量暫存器)，該向量處理單元(106)可用於浮點運算及整數運算兩者。運算單元包含用以執行運算之兩個算術邏輯單元(ALU) (126c至126d)。一個ALU (126c)執行浮點加法且另一ALU (126d)執行浮點乘法。兩個ALU (126c至126d)可執行各種其他操作，諸如移位、遮罩及比較。舉例而言，一運算核心(103b)可想要使一向量暫存器V₁ 與一第二向量暫存器V₂ 相加，且將結果放在一第三向量暫存器V₃ 中。為了運算加法，運算核心(103b)在一個時脈循環中執行多個(亦即，1024個)運算。使用此等暫存器作為運算元，向量單元中之各者可每時脈循環同時執行兩個ALU指令、一個載入指令及一個儲存指令。可在純量處理器中運算一載入指令或一儲存指令之一基底位址且將該基底位址轉發至向量處理器。各子通道中之向量單元中之各者可使用各種方法(諸如跨越)及一特殊經索引位址暫存器運算其自身之位移位址。

運算單元亦含有執行諸如平方根及倒數之運算之一經擴展一元管線(EUP) (116)。運算核心(103b)採取三個時脈循環來執行此等運算，此乃因其一次接受一個運算元。由於EUP處理採取一個以上時脈循環，因此存在用以儲存結果之一先進先出資料儲存器。當完成一運算時，將結果儲存於FIFO中。運算核心可在一稍後時間使用一分開之指令來從FIFO提取資料且將資料置入向量暫存器。一隨機數產生器(120)允許運算核心(103b)產生每循環隨機數，亦即，每循環128個隨機數。

如上文所闡述，各處理器具有三個經擴展向量單元：一矩陣乘法單元(113)，其執行矩陣乘法運算；一交叉通道單元(XLU)，其包含執行一矩陣(亦即，128×128矩陣)之一轉置操作之一轉置單元(XU) (114)；及一歸約與排列單元(在圖1C中經圖解說明為分開之單元，歸約單元115及排列單元116)。

矩陣乘法單元執行兩個矩陣之間的矩陣乘法。矩陣乘法單元(113)接受資料，此乃因運算核心需要載入一數字集(其係將要相乘之矩陣)。如所圖解說明，資料來自向量暫存器(106)。各向量暫存器含有一數字，亦即，一32位元數字。然而，在將資料發送至矩陣乘法單元(113)時可發生浮點轉換以將數字改變成一較小位元大小，亦即自32位元改變成16位元。一串列化器(130)確保當自向量暫存器讀出數字時，一個二維陣列(亦即，一128×8矩陣)經讀取為在接下來八個時脈循環中之各者內發送至矩陣乘法單元(113)之128個數字之若干集合。在矩陣乘法已完成其運算之後，將結果解串列化(132a、132b)，此意味在若干個時脈循環內保存結果矩陣。舉例而言，針對一128×8陣列，在8個時脈循環中之各者內保存128個數字且然後將該128個數字推送至一適當FIFO，例如，轉置結果FIFO (TRF) 134或乘法結果FIFO (MRF) 136，使得可在一個時脈循環中抓取128×8個數字之一個二維陣列且將該二維陣列儲存於向量處理單元(106)中所含有之向量暫存器中。

在一循環(亦即，128個循環)週期內，將權數作為藉以使矩陣相乘之數字移位至矩陣乘法單元(113)中。一旦已載入矩陣及權數，運算核心(103b)便可將數字(亦即，128×8個數字)集合發送至矩陣乘法單元(113)。可使集合之各線與矩陣相乘以每時脈循環產生若干個結果，亦即128個結果。當運算核心執行矩陣乘法時，運算核心亦使背景中之新數字集移位為係運算核心將藉以進行乘法運算之下一矩陣，使得下一矩陣在已完成先前矩陣之運算程序時係可用的。該矩陣乘法單元(113)可處理權數輸入(其係一矩陣中之將相乘之資料)及左手邊資料輸入(其係一向量中之將與該矩陣相乘之資料)，且將一輸出向量提供至向量處理單元。該向量處理單元可處理該輸出向量且將一經處理輸出向量儲存至該向量記憶體。舉例而言，該向量處理單元可將一非線性函數應用於矩陣乘法單元之輸出以產生向量資料值。在某些實施方案中，向量處理單元106產生正規化值、合併值或兩者。經處理輸出向量可用作至矩陣乘法單元113之左手邊資料輸入，例如，以供在神經網路中之一後續層中使用。

轉置單元轉置一矩陣。轉置邏輯單元(114)接受數字且轉置該等數字使得跨越一通道之數字與在其他維度上之數字一起經轉置。在某些實施方案中，向量處理器包含128×8個向量單元。因此，為轉置一128×128矩陣，針對全矩陣轉置需要十六個個別轉置指令。一旦完成轉置，經轉置矩陣便將係可用的。然而，需要一明確指令來將經轉置矩陣移動至向量暫存器檔案中。

歸約/排列單元(或單元115、116)藉由支援諸如排列、通道旋轉、旋轉排列、通道歸約、經排列通道歸約及分割式經排列通道歸約之各種操作而解決交叉通道通信之問題。如所圖解說明，此等運算係分開的，然而，一運算核心可使用一個運算或另一運算或鏈接至另一運算之一個運算。歸約單元(115)使各數字線歸約且將該等數字饋送至排列單元(116)中。排列單元變更不同通道之間的資料。轉置單元、歸約單元、排列單元及矩陣乘法單元各自採取一個以上時脈循環來完成。因此，各單元具有與其相關聯之一FIFO，使得可將運算之結果推送至FIFO且可在一稍後時間執行一分開之指令以從FIFO提取資料且置入一向量暫存器。藉由使用FIFO，運算核心不需要在冗長操作之持續時間內保留多個向量暫存器。如所圖解說明，單元中之各者自向量處理單元(106)中之向量暫存器獲取資料。

運算核心使用一純量單元來控制運算單元。純量單元具有兩個主要功能：(1)執行迴圈計數及定址及(2)產生直接記憶體位址(DMA)請求，使得DMA控制器使背景中之資料在高頻寬記憶體(156c至156d)與向量記憶體(108)之間移動且然後移動至晶片間連接件(148)從而移動至一實例性系統中之其他晶片。純量單元含有一指令記憶體(104)、一指令解碼與發佈(102)、含有純量暫存器(亦即，32位元)之純量處理單元(107)、一純量記憶體(104)及用於每時脈循環執行兩個操作之兩個ALU (126a、126b)。純量單元可將運算元及立即值饋送至向量運算中。可將各指令作為含有對向量處理單元(106)中之向量暫存器執行之指令之一指令束自指令解碼與發佈(102)發送。各指令束係一極長指令字(VLIW)，其中各指令係若干個位元寬，劃分成若干個指令欄位。

圖2圖解說明包含矩陣乘法單元(MXU) 201a及201b之一實例性核心架構200。各MXU係一個二維脈動式陣列。該陣列經佈線以執行矩陣乘法運算。一MXU在具有每時脈循環一個乘法之一恆定輸出之情況下使一128元素向量與一經預載入128×128矩陣相乘。

各MXU可具有128列及128行。一MXU可劃分成完全相同區塊，稱為方塊。舉例而言，一MXU可劃分成32個方塊，其中之各者含有32列乘以16行。各方塊可進一步劃分成乘法-加法子單元胞元。各胞元採取一向量資料輸入運算元，使該運算元與經儲存權數相乘以獲得一結果，且使該結果與一部分總和相加以產生一新部分總和。在某些實施方案中，子單元胞元可分組成更大多胞元，亦即，乘法-加法子單元胞元之2×2陣列或乘法-加法子單元胞元之4×4陣列(稱為十六胞元)。替代以每時脈循環一個之一速率將輸入資料自一個乘法-加法子單元胞元移動至下一乘法-加法子單元胞元，資料可跨越脈動式陣列以每時脈循環一個多胞元而移動。

在開始一系列向量-矩陣乘法之前，一矩陣需要預載入至MXU中。用於此矩陣之資料稱為「權數」資料。權數矩陣藉由連接至MXU匯流排在源匯流排上遞送至MXU且移位至權數移位暫存器中。權數移位暫存器之內容然後載入至一權數矩陣暫存器中使得可開始矩陣乘法。關於圖3至圖8更詳細地闡述此權數載入程序。

如圖2中所圖解說明，各MXU (例如，113a及113b)連接至三個匯流排，用於未經轉置權數(230a、230b)之一第一源匯流排、用於經轉置權數(220a、220b)之一第二源匯流排及用於將與儲存於MXU中之矩陣相乘之向量資料之一左手邊匯流排(210a、210b)。該等MXU藉由附接至MXU之邊緣之導線連接至匯流排。各轉置單元(XU) (例如，114a及114b)亦連接至第一源匯流排及第二源匯流排。

第一源匯流排及第二源匯流排係含有自向量處理單元發送以由XU或MXU消耗之資料的多用途匯流排。資料處理發生在向量處理資料路徑中，該向量處理資料路徑包含向量暫存器206、一串列化處理單元202及一選擇單元204。存在向量處理單元可在一匯流排上發送權數之數種方式。該等權數可發送為正常、「高」或「低」。每通道八個32位元浮點數字(每子通道一個)經捨入至bfloat，16位元浮點數字。此等值經封裝成四對且在8個循環之過程中每隔一個循環發送至MXU。正常、「高」及「低」之間的差異係向量處理單元進行浮點32至bfloat轉換之方式。該等權數可經封裝，此意味每通道八個32位元值中之各者含有一經封裝bfloat對。十六個值而非八個值在八個連續循環內每循環使用源匯流排發送至MXU。在奇數循環期間，各子通道之低16位元發送至MXU，且在偶數循環期間，發送各子通道之高16位元。該等權數可另外或另一選擇係藉由位元組來發送。各32位元運算元含有四個8位元帶正負號2的補碼整數之一經封裝集合。各位元組轉換為一經修改正負號量值值。此等值在八個連續循環內藉由一源匯流排發送至MXU。

將可使用第一或第二源匯流排將權數作為未經轉置或經轉置指令發送且移位至權數移位暫存器中。當藉助一載入操作來觸發時，將權數移位暫存器之內容載入至權數矩陣暫存器中，如下文所闡述。自權數移位暫存器至權數矩陣暫存器之載入路徑亦係藉助位元組模式資料進行自經修改正負號量值至bfloat之轉換的地方。一載入控制匯流排指示是否將進行此轉換。

取決於執行指令，來自源匯流排之32位元值可含有在位元[15:0]中之值表示較早(在時間上)值之情況下16位元浮點值之一經封裝對或在位元[7:0]中之值表示最早(在時間上)值且其他值順序地跟隨之情況下呈經修改正負號量值格式之四個8位元整數之一經封裝集合。當MXU自匯流排接收資料時，資料值跨越MXU均勻地散佈，其中值0在左側且值127在右側。

左手邊(LHS)資料匯流排以一特定格式(例如，bfloat)遞送128個16位元浮點數字以與儲存於經連接MXU中之矩陣相乘。LHS資料匯流排之資料來自向量處理單元且透過轉置單元(例如，114a及114b)傳遞。當LHS輸入到達MXU時，值跨越MXU均勻地散佈，其中值0在左側且值127在右側。

矩陣乘法之結果跨越MXU均勻地散佈且自MXU發送至矩陣結果FIFO (MRF)，例如，136a及136b。來自XU之結果發送至對應轉置結果FIFO (TRF)，例如，134a及134b。

圖3圖解說明在一矩陣乘法單元內側之一個多胞元之一實例性架構。如上文所論述，該矩陣乘法單元係一個二維脈動式陣列。該陣列包含可分組成若干多胞元之多個乘法-加法子單元。在某些實施方案中，該脈動式陣列之一第一維度對應於胞元行且該脈動式陣列之一第二維度對應於胞元列。該脈動式陣列可具有比行多之列、比列多之行或相等數目個行及列。本說明書闡述針對行或垂直地進行特定處理。然而，不同設計可針對列或水平地執行處理。

在所圖解說明實例中，左手邊資料暫存器315a、315b將向量資料輸入發送至陣列之列。權數移位鏈301a及301b將權數輸入值發送至陣列之行，且權數移位鏈302a及302b將權數輸入值發送至陣列之列。一移位鏈係一經佈線路徑，值可沿著該經佈線路徑(例如)自一記憶體傳遞且傳遞至在矩陣乘法單元內之各種暫存器中之各者。

各權數移位暫存器305經設計以使其權數內容值沿著權數移位暫存器305之鏈自一源匯流排移位。在資料經移入之後，一並行複製操作確保所有資料自權數移位暫存器305複製至對應權數矩陣暫存器325。當資料在權數矩陣暫存器325中時，在任何數目個乘法循環中使用資料。在此時間期間，更多權數可(且通常)經移位至背景中之權數暫存器305中以準備進行下一乘法集合。

左手邊資料暫存器315a、315b可接收向量資料輸入。各左手邊資料暫存器在一個時脈循環內各時脈循環保存一個LHS資料項。由一個多胞元接收之各向量資料輸入可在該多胞元之一對應左手邊暫存器(諸如左手邊資料暫存器315a、315b)中自由流動。取決於多胞元在陣列內之位置，左手邊資料暫存器儲存可由一向量暫存器或由位於給定多胞元左邊之一毗鄰多胞元提供之向量資料輸入。舉例而言，若多胞元300位於矩陣乘法單元之脈動式陣列內之最左邊位置處，則向量資料輸入由一向量暫存器提供。該向量暫存器可將多個不同向量資料輸入提供至多胞元300，其中各所接收向量資料輸入然後可由左手邊資料暫存器315中之一不同者儲存。各列各時脈循環接收一個值，而不管分組成一個多胞元之列之數目。

各左手邊暫存器可沿著多胞元陣列之一第一維度耦合至胞元。左手邊暫存器至胞元之連接由圖3中之虛線指示。舉例而言，多胞元中之左手邊資料暫存器315a (一左手邊資料暫存器)耦合至第一列之胞元350a及350c。類似地，多胞元中之左手邊資料暫存器315b (一第二左手邊暫存器)耦合至第二列之胞元350b及350d。各左手邊暫存器315將所儲存向量資料輸入傳送至胞元350，左手邊暫存器耦合至胞元350。因此，對於沿著一第一維度(例如，沿著一給定列或沿著一給定行)延伸之給定數目個胞元，向量資料輸入可傳遞至多胞元中之所有胞元而非僅僅一單個胞元，藉此致使向量資料輸入貫穿胞元陣列迅速地散佈，從而改良多胞元之操作效率。

多個向量資料輸入亦可發送至一毗鄰左手邊暫存器，使得可在陣列之另一多胞元處使用多個向量資料輸入。此程序允許向量資料輸入經移位以供在陣列之另一特定多胞元中使用。

一個多胞元300之各胞元350含有一所儲存權數值。在開始一矩陣乘法程序之前，藉由將權數移位至脈動式陣列之胞元中而載入權數。提供專用鏈及權數移位暫存器以用於權數移位，使得可與先前矩陣乘法處理之執行同時地將新權數移位。可以降低總體矩陣乘法操作處理之延時之方式將權數輸入載入至多胞元中。

如上文所論述，權數移位鏈301、302可自一記憶體單元(例如，圖1之向量記憶體108)接收權數輸入。移位鏈可將多個對應權數輸入發送至與多胞元300相關聯之權數矩陣暫存器325。

在某些實施方案中，權數移位暫存器使向量資料輸入貫穿陣列沿著一個維度移位(例如)至右邊，同時使權數輸入貫穿陣列沿著一個或兩個維度移位(例如)至右邊或移位至底部。舉例而言，在一個時脈循環內，多胞元300處之多個向量資料輸入中之各向量資料輸入可移位至同一列中之下一多胞元中之一對應左手邊資料暫存器。水平資料(左手邊資料)及垂直資料(部分總和)各時脈循環各自移動每時脈循環一個多胞元。權數僅在由系統指令時移位，且取決於實施方案及所執行之指令，可使1個、2個或4個列(或行)移位。

一多工器330自第一移位鏈301或第二移位鏈302之一權數移位暫存器305選擇一權數且將選定輸入轉發至一單個線中從而轉發至權數矩陣暫存器325中。儘管多工器330經展示為在胞元350邊界線外側，但在某些實施方案中，多工器330存在於胞元350內。

在一時脈循環上，各個多胞元可處理多個給定權數輸入及多個給定向量資料輸入以產生多個所累積輸出。一般而言，處理包含一乘法運算以使一向量資料輸入與一所儲存權數相乘。該等所累積輸出亦可作為給定權數輸入而沿著相同維度向下傳遞至一毗鄰多胞元。在某些實施方案中，在一給定時脈循環期間使權數移位一個以上多胞元以自一個廻旋計算轉變成另一廻旋計算。

該等所累積輸出可作為權數輸入沿著相同行(例如)朝向陣列中之行之底部傳遞。在某些實施方案中，一部分總和暫存器310a、311a將一部分總和值自一先前多胞元傳遞至多胞元中。該陣列可包含儲存來自各多胞元行之所累積輸出之部分總和暫存器310b、311b。對於多胞元之各行，由行中之子單元胞元產生之乘積與來自以上多胞元之傳入部分總和組合，且然後作為下一部分總和經發送。對於特定多胞元，例如，脈動式陣列之底部行中之多胞元，所累積輸出可包含可傳送至一向量運算單元之最後所累積值。在某些實施方案中，最後所累積值自陣列之底部多胞元直接傳送至向量運算單元，而在其他實施方案中，最後所累積值首先儲存於一記憶體中或在發送至向量運算單元之前由一不同組件處理。

圖4展示多胞元子陣列之每行具有兩個權數移位暫存器鏈以便增加載入權數值之速率之一矩陣乘法單元之一多胞元之架構之一實例。如圖4中所展示，胞元435a及胞元435b構成多胞元400之一個行且胞元435c及胞元435d構成多胞元400之一第二行。各行具有兩個權數移位暫存器鏈。一給定行中之各胞元經組態以自該行中之兩個鏈中之僅一者接收權數輸入。如圖4中所展示，一個鏈401連接至偶數編號列中之權數移位暫存器且一個鏈402連接至奇數編號列中之權數移位暫存器。各循環，將兩個新值移位至各行中且使所有現有權數值向下移位兩個列。因此，可以不具有脈動式陣列之每行兩個權數移位暫存器鏈之矩陣乘法單元之速率之兩倍將權數載入至一多胞元中。

如所圖解說明，將權數值自向量暫存器403移入。在一實施方案中，矩陣乘法單元之每行存在一個向量暫存器403。儘管在圖3之實例中向量暫存器403經圖解說明在矩陣乘法單元之頂部處，但向量暫存器403可實體地位於相對於矩陣乘法單元之各種位置中，例如，位於單元之底部處。

一向量暫存器403可保存比由矩陣乘法單元操作之值大或小一些量值之暫存器值。舉例而言，一暫存器可在矩陣乘法單元對n/2位元值進行操作時保存n位元值。在某一實施方案中，各向量暫存器保存32位元值且矩陣乘法單元對16位元值進行操作。一實例性矩陣乘法單元具有將暫存器之各32位元值視為一對16位元值之一模式，其中將該對中之一個16位元值發送至第一權數移位鏈401且將該對中之第二16位元值發送至第二權數移位鏈402。儘管每行展示一個向量暫存器403，但可每多胞元存在僅一個向量暫存器403。另外或另一選擇係，各鏈可連接至一分開之向量暫存器303，分開之向量暫存器303將一單個16位元權數值提供至該鏈。在此情形中，將向量暫存器403中之32位元浮點值轉換為16位元值。

在一些實施方案中，權數值可並非可獲得的從而以不具有每行兩個移位鏈之一矩陣乘法單元之速率之兩倍發送該等值。為了處置此情景，將一保存暫存器445放置在各行之頂部處以保存一權數值直至可獲得兩個權數值(一個權數值針對各垂直移位鏈)為止。在可獲得僅一個權數值之第一時脈循環上，將可獲得權數值複製至保存暫存器445中。在可獲得一新權數值之下一時脈循環上，將藉由一個權數移位鏈使保存暫存器中之權數值自保存暫存器移位至一權數移位暫存器且將藉由第二權數移位鏈使可在時脈循環上獲得之新權數值移位至一第二權數移位暫存器。

一水平移位鏈405可將權數值提供至如上文所闡述之胞元。在某些實施方案中，可存在用於以與上文所闡述之垂直移位鏈401、402相同之方式減小權數載入延遲之兩個水平移位鏈。

一多工器430判定發送至一胞元內之一權數矩陣暫存器之一權數值來自水平移位鏈405還是垂直移位鏈401b或402b。一旦已將一權數值載入至權數矩陣暫存器中且左手邊資料暫存器415提供向量資料輸入，然後便可由胞元435執行一矩陣乘法。

圖5係用於將權數值載入至一給定多胞元之一行中之一實例性程序500之一流程圖。介面自一向量暫存器接收至少一個權數值501。

介面判定是否可獲得多個權數值502。

若可獲得多個權數值，則介面在時脈循環上藉由移位鏈使權數值移位至多胞元內之胞元435中之權數移位暫存器504。

介面繼續載入權數值直至來自一權數矩陣之所有權數值載入於矩陣乘法單元中為止506。

若不可在同一時脈循環處獲得兩個權數值，則在可獲得一單個權數值之第一循環上，使保存暫存器445載入有可獲得權數值且不進行移位503。

在下一循環上當另一權數值變得可獲得時，介面藉由兩個移位鏈使新值及保存於保存暫存器445中之值移位至多胞元中之權數移位暫存器505。

然後，介面繼續載入權數值直至將來自一權數矩陣之所有權數值載入於矩陣乘法單元中為止506。

在其中每循環不可獲得多個權數值之情形中，介面僅每隔一個循環啟動移位鏈。

圖6展示每行具有兩個權數移位暫存器鏈之一矩陣乘法單元之架構之一實例，該矩陣乘法單元在行中之兩個點處注入權數值以便使載入權數值之速率增加四倍。如圖3中所展示，一矩陣乘法單元具有脈動式陣列之每行兩個移位鏈。各胞元650含有連接至僅一個移位鏈之一移位暫存器635。如上文所論述，一向量暫存器603可保存比由矩陣乘法單元操作之值大或小某些量值之暫存器值。舉例而言，一暫存器可在矩陣乘法單元對n/2位元值進行操作時保存n位元值。向量暫存器中之值可經分裂或以某一方式經變換以匹配由矩陣乘法單元預期之值大小。

在一個實施方案中，各暫存器603可保存32位元值。將各向量暫存器603中之值視為四個8位元帶正負號整數之一經封裝集合，各8位元帶正負號整數為一分開之權數值。在兩個16位元鏈上發送各8位元帶正負號整數，如圖3中所圖解說明。然而，將該等整數發送至脈動式陣列中之每行之兩個注入點680、681。將該等整數發送至頂部(680a、681a)及沿著陣列向下之另一點(680b、681b)。如所闡述之具有多個注入點之實施例可與本文中所論述之其他實施例及特徵組合。

在某些實施方案中，若將整數發送至沿著陣列向下之一中間點，則不需要額外佈線來注入整數，此乃因自向量暫存器至陣列之頂部之鏈在自底部至頂部之陣列之長度內橫越。在各行之頂部處，將整數中之兩個整數轉換為陣列所使用之格式之16位元浮點值，然後將該等16位元浮點值注入至如上文所闡述之兩個權數移位鏈(680a、681a)中。由一多工器在中間點處切割移位鏈，且彼點處之整數至浮動轉換器之一第二集合自各32位元值獲取另外兩個整數，轉換該另外兩個整數，且在彼點(680b、681b)處注入另外兩個整數。舉例而言，一32位元字組可劃分成8位元之四個相等部分：A、B、C及D。一權數介面可將部分A及B發送至陣列之頂部且將其轉換為由矩陣乘法單元操作之16位元值。權數介面亦可經由一多工器將部分C及D發送至陣列之中間點。在此實施方案中，不將部分C及D發送至陣列之頂部，而是在移位鏈上之中間點處注入至胞元之權數移位暫存器中。一多工器存在於移位鏈上在中間點處，使得權數值選自注入點而非選自移位鏈上之先前權數移位暫存器。

可能的係，將第二對權數注入至陣列中之點並非中間點而係某一其他點。舉例而言，其可係沿著陣列向下四分之一處的一點。在此情形中，將在頂部處注入之權數移位至矩陣乘法單元之第一四分之一胞元及矩陣乘法單元之第三四分之一胞元同時將在四分之一點處注入之權數移位至矩陣乘法單元之第二四分之一胞元及第四四分之一胞元。此程序需要額外佈線，但在完成一先前矩陣乘法時允許權數開始更迅速地移位。

如所展示，每行出現兩個移位鏈。然而，在某些實施方案中，另外或另一選擇係，可在每移位鏈具有兩個注入點之情況下每列出現兩個移位鏈。

圖7展示具有用於經轉置權數移位及正常未經轉置權數移位之分開之暫存器以增加載入權數值之速率之一矩陣乘法單元之架構之一實例。各多胞元700包含多個胞元750且可自一垂直或水平方向載入有權數值。在一垂直方向上自頂部載入權數致使一權數矩陣儲存於矩陣乘法單元中。以相同次序但自側面載入相同權數致使權數矩陣之轉置儲存於矩陣乘法單元中。在神經網路系統訓練中，必須在訓練演算法之不同步驟處載入未經轉置權數矩陣及經轉置權數矩陣兩者。當在垂直方向上自頂部載入權數時，使權數值向下移位穿過胞元。當在一水平方向上自左側載入權數時，使權數值向右移位穿過多胞元700。圖7圖解說明連接至正常移位暫存器705之正常移位鏈701a、701b。經轉置移位鏈702a、702b連接至經轉置移位暫存器705。一多工器730判定自哪一移位鏈701、702載入一權數矩陣暫存器725。

在某些實施方案中，其花費n個循環來將一權數集合移位至一矩陣乘法單元之權數矩陣暫存器中。第二權數集合可在載入第一權數值之後n/2個循環開始進行其移位，且可每n/2個循環將一新權數集合自移位暫存器載入至權數矩陣暫存器中。

在某些實施方案中，並非始終有必要使用128×128個權數之一整個集合。可將未使用位置中之權數設定至零，從而有效地使權數矩陣更小。一矩陣乘法單元然後不需要將資料移位至權數移位暫存器之所有列或所有行中。各權數移位指令將使8個列或(對於經轉置載入) 8個行之資料移位至脈動式陣列中。十六個權數移位指令載入全部128×128矩陣從而替換所有先前資料。當將資料自權數移位暫存器複製至對應權數矩陣暫存器時清除各權數移位暫存器。將新資料移位至權數移位暫存器中可在此載入與清除信號開始傳播之後立即開始。針對在載入與清除波前下面及右側之所有胞元抑制權數移位信號，使得資料在其具有載入之一機會之前不移位。由於陳舊資料完全經清除，因此不必要移入允許資料列或行。僅移位暫存器之頂部(或左側)部分將填充有新資料且其餘的將保持為零，因此致使至彼等列之傳入資料被忽視(或來自彼等行之輸出資料為零)。

圖8展示具有一保存暫存器集合以增加載入權數值之速率之一實例性胞元800。胞元800包含權數保存暫存器之一或多個集合，該等權數保存暫存器用作已經移入之權數集合之暫時儲存器。替代或除複製至權數矩陣暫存器825之外，權數移位暫存器805a之一個集合之值亦可複製至權數保存暫存器845a之一個集合。替代或除複製至權數矩陣暫存器825之外，權數移位暫存器805b之一第二集合之值可複製至權數保存暫存器845b之一第二集合中。在將一權數值集合載入至權數矩陣暫存器中時，可自保存暫存器845之集合中之一者而非直接自權數移位暫存器805a、805b獲取權數值集合。此程序允許一權數值集合在移位至陣列中之後經載入不止一次。舉例而言，若一演算法要求兩個權數集合之間的切換，則來自一個移位鏈之權數值可在載入之間移位至保存暫存器。此程序亦允許權數移位之定時與權數載入之解耦。舉例而言，當一新權數值集合開始每n/c個循環進行移位時，可能同時使兩個權數值集合移位且當將第一集合載入至權數矩陣暫存器時使另一集合移動至一權數保存暫存器。在n/2個額外循環之後，將第二集合自保存暫存器載入至權數矩陣暫存器。

在某些實施方案中，圖4及/或圖6之兩個移位鏈可與正常及經轉置移位暫存器之添加組合以達成可在一給定時間處載入至矩陣乘法單元中之權數值量之一增加。

本說明書中所闡述之標的物及功能操作之實施例可實施於包含本說明書中所揭示之結構及其結構等效物之數位電子電路、有形地體現之電腦軟體或韌體、電腦硬體或者其中之一或多者之組合中。本說明書中所闡述之標的物之實施例可實施為一或多個電腦程式，亦即，編碼於一有形非暫時性儲存載體上以供資料處理設備執行或控制資料處理設備之操作之電腦程式指令之一或多個模組。電腦儲存媒體可係一機器可讀儲存裝置、一機器可讀儲存基板、一隨機或串列存取記憶體裝置或其中之一或多者之一組合。另一選擇係或另外，程式指令可編碼於一人工產生之所傳播信號(例如，一機器產生之電、光學或電磁信號)上，該人工產生之所傳播信號經產生以編碼用於傳輸至適合接收器設備以供一資料處理設備執行之資訊。

術語「資料處理設備」係指資料處理硬體且囊括用於處理資料之所有種類之設備、裝置及機器，藉由實例方式包含一可程式化處理器、一電腦或者多個處理器或電腦。該設備亦可係或進一步包含特殊用途邏輯電路，例如，一FPGA (場可程式化閘陣列)或一ASIC (特殊應用積體電路)。除硬體之外，該設備亦可視情況包含為電腦程式創建一執行環境之程式碼，例如，構成處理器韌體、一協定堆疊、一資料庫管理系統、一作業系統或其中之一或多者之一組合的程式碼。

一電腦程式(其亦可稱為或闡述為一程式、軟體、一軟體應用程式、一應用程式、一模組、一軟體模組、一描述性語言或程式碼)可以任一形式之程式設計語言(包含經編譯語言或經解譯語言或者宣告語言或程序語言)來撰寫，且其可以任一形式(包含作為一獨立程式或作為一模組、組件、次常式或適合在一運算環境中使用之其他單元)來佈署。一程式可以但無需對應於一檔案系統中之一檔案。一程式可儲存於保存其他程式或資料(例如，儲存於一標記語言文檔中之一或多個描述性語言)之一檔案之一部分中、儲存於專用於所討論之程式之一單個檔案中或儲存於多個協調檔案(例如，儲存一或多個模組、子程式或程式碼部分之檔案)中。一電腦程式可經部署以在一個電腦上或者在位於一個位點處或跨越多個位點分佈且由一資料通信網路互連之多個電腦上執行。

在本說明書中所闡述之程序及邏輯流程可由一或多個可程式化電腦執行，該一或多個可程式化電腦執行一或多個電腦程式以藉由對輸入資料進行操作且產生輸出而執行功能。該等程序及邏輯流程亦可由特殊用途邏輯電路(例如，一FPGA或一ASIC)或由特殊用途邏輯電路與一或多個經程式化電腦之一組合執行。

適合用於執行一電腦程式之電腦可基於一般用途或特殊用途微處理器或兩者或者任何其他種類之中央處理單元。一般而言，一中央處理單元將自一唯讀記憶體或一隨機存取記憶體或兩者接收指令及資料。一電腦之基本元件係用於執行指令之一中央處理單元及用於儲存指令及資料之一或多個記憶體裝置。中央處理單元及記憶體可由特殊用途邏輯電路補充或併入於特殊用途邏輯電路中。一般而言，一電腦亦將包含用於儲存資料之一或多個大容量儲存裝置(例如，磁碟、磁光碟或光碟)或以操作方式耦合以自該一或多個大容量儲存裝置接收資料或向其傳送資料或既接收又傳送資料。然而，一電腦不需要具有此等裝置。此外，一電腦可嵌入於另一裝置中，例如僅舉幾例，一行動電話、一個人數位助理(PDA)、一行動音訊或視訊播放器、一遊戲控制台、一全球定位系統(GPS)接收器或一便攜式儲存裝置(例如，一通用串列匯流排(USB)快閃磁碟機)。

適合於儲存電腦程式指令及資料之電腦可讀媒體包含所有形式之非揮發性記憶體、媒體及記憶體裝置，藉由實例方式包含：半導體記憶體裝置，例如EPROM、EEPROM及快閃記憶體裝置；磁碟，例如內部硬碟或可拆卸磁碟；磁光碟；及CD-ROM及DVD-ROM磁碟。

為提供與一使用者之互動，本說明書中所闡述之標的物之實施例可實施於具有用於向使用者顯示資訊之一顯示器裝置(例如，一CRT (陰極射線管)或LCD (液晶顯示器)監視器)及用戶可藉以將輸入提供至電腦之一鍵盤及一指向裝置(例如，一滑鼠或一軌跡球)之一電腦上。亦可使用其他種類之裝置來提供與一使用者之互動；舉例而言，提供給使用者之回饋可係任何形式之感觀回饋，例如，視覺回饋、聽覺回饋或觸覺回饋；且來自使用者之輸入可以任何形式來接收，包含聲音、語音或觸覺輸入。另外，一電腦可藉由將文件發送至由一使用者使用之一裝置且自該裝置接收文件而與該使用者互動；舉例而言，藉由回應於自一web瀏覽器接收之請求而在一使用者之用戶端裝置上將網頁發送至該web瀏覽器。而且，一電腦可藉由將文字訊息或其他形式之訊息發送至一個人裝置(例如，一智慧型電話)、運行一訊息傳送應用程式及作為回報自一使用者接收回應性訊息而與該使用者互動。

本說明書中所闡述之標的物之實施例可實施於一運算系統中，該運算系統包含一後端組件(例如，作為一資料伺服器)，或包含一中間軟體組件(例如，一應用程式伺服器)，或包含一前端組件(例如，具有一使用者可透過其與本說明書中所闡述之標的物之一實施方案互動之一圖形使用者介面、一web瀏覽器或一應用程式的一用戶端電腦)或者一或多個此類後端、中間軟體或前端組件之任何組合。該系統之該等組件可藉由任何數位資料通信形式或媒體(例如，一通信網路)來互連。通信網路之實例包含一區域網路(LAN)及一廣域網路(WAN)，例如，網際網路。

該運算系統可包含用戶端及伺服器。一用戶端與伺服器一般彼此遠離且通常透過一通信網路互動。用戶端與伺服器之關係藉助於在各別電腦上運行且彼此之間具有一用戶端-伺服器關係之電腦程式而產生。在某些實施例中，一伺服器將資料(例如，一HTML頁)傳輸至一使用者裝置，例如，以用於將資料顯示給與裝置(其用作一客戶端)互動之一使用者及自該使用者接收使用者輸入之目的。可在伺服器處自裝置接收在使用者裝置處產生之資料(例如，使用者互動之一結果)。

實施例1係一種實施為一脈動式胞元陣列之矩陣乘法單元，該胞元陣列中之各胞元包括：一權數矩陣暫存器，其經組態以自一經轉置權數移位暫存器或一未經轉置權數移位暫存器接收一權數輸入；一經轉置權數移位暫存器，其經組態以自一水平方向接收將儲存於該權數矩陣暫存器中之一權數輸入；一未經轉置權數移位暫存器，其經組態以自一垂直方向接收將儲存於該權數矩陣暫存器中之一權數輸入；及一乘法單元，其耦合至該權數矩陣暫存器且經組態以使該權數矩陣暫存器之該權數輸入與一向量資料輸入相乘以便獲得一乘法結果。

實施例2係實施例1之矩陣乘法單元，其中各胞元進一步包括：一多工器，其經組態以在該經轉置權數移位暫存器之該權數輸入與該未經轉置權數移位暫存器之該權數輸入之間進行選擇且將該選定權數輸入轉發至該權數矩陣暫存器。

實施例3係實施例1或2之矩陣乘法單元，其進一步包括一第一權數保存暫存器，該第一權數保存暫存器經組態以保存來自該經轉置權數移位暫存器或該未經轉置權數移位暫存器之一權數值。

實施例4係實施例1至3中之任一者之矩陣乘法單元，其進一步包括一第二權數保存暫存器，該第二權數保存暫存器經組態以保存來自該經轉置權數移位暫存器或該未經轉置權數移位暫存器之一權數值。

實施例5係實施例1至4中之任一者之矩陣乘法單元，其中將一權數值自一經轉置權數移位暫存器載入至該第一權數保存暫存器中且將一權數值自一垂直方向載入至該第二權數保存暫存器中。

實施例6係實施例1至5中之任一者之矩陣乘法單元，其中該權數矩陣暫存器載入有來自該第一權數保存暫存器或該第二權數保存暫存器之一值。

實施例7係一種實施為一脈動式陣列之矩陣乘法單元，其包括：複數個胞元，其配置於該脈動式陣列之行中；該脈動式陣列之每行之兩個權數移位暫存器鏈，其中各權數移位暫存器連接至僅一個鏈且各胞元連接至僅一個權數移位暫存器；每胞元之一權數矩陣暫存器，其經組態以儲存自一權數移位暫存器接收之一權數輸入；及一乘法單元，其耦合至該權數矩陣暫存器且經組態以使該權數矩陣暫存器之該權數輸入與一向量資料輸入相乘以便獲得一乘法結果。

實施例8係實施例7之矩陣乘法單元，其中自含有權數值對之一向量暫存器沿著該兩個權數移位暫存器鏈向上發送權數值。

實施例9係實施例7或8之矩陣乘法單元，其進一步包括在各行之頂部處之一保存暫存器，該保存暫存器用以在不可自該向量暫存器獲得兩個權數值時保存一權數值。

實施例10係實施例7至9中之任一者之矩陣乘法單元，其中當可獲得兩個權數值時，在時脈循環上將該兩個權數值移位至該等胞元中之該等權數移位暫存器。

實施例11係實施例7至10中之任一者之矩陣乘法單元，其中當不可獲得兩個權數值時：在可獲得一第一權數值之一第一時脈循環上，該保存暫存器載入有作為一經保存值之該第一權數值且不進行移位；且在一接下來時脈循環上，當可獲得一第二權數值時，藉由該兩個移位鏈使該第二權數值及該經保存值移位至連接至該等移位鏈之權數移位暫存器，各移位鏈使一個值移位。

實施例12係實施例7至11中之任一者之矩陣乘法單元，其進一步包括：具有用於注入權數值之兩個注入點之各移位鏈，一個注入點在該行之該頂部處且另一注入點在該行中之一第二點處。

實施例13係實施例7至12中之任一者之矩陣乘法單元，其進一步包括：一向量暫存器，其含有各自表示一分開之權數值之四個8位元整數之經封裝集合。

實施例14係實施例7至13中之任一者之矩陣乘法單元，其進一步包括：在該行之該頂部處注入該四個整數中之兩個整數且將該四個整數中之另外兩個整數注入至該陣列中之該第二點。

雖然本說明書含有諸多特定實施細節，但此等細節不應解釋為對任何發明之範疇或對可主張之內容之範疇之限制，而是應解釋為可係特定發明之特定實施例所特有之特徵之說明。在分開之實施例之內容脈絡中於本說明書中闡述之特定特徵亦可以組合方式實施於一單個實施例中。相反地，在一單個實施例之內容脈絡中闡述之各種特徵亦可單獨地或以任何適合子組合方式實施於多個實施例中。此外，儘管上文可將特徵闡述為以特定組合起作用且甚至最初主張如此，但來自一所主張組合之一或多個特徵在某些情形中可自該組合去除，且該所主張組合可針對於一子組合或一子組合之變化形式。

類似地，雖然在圖式中以一特定次序繪示操作，但不應將此理解為需要以所展示之特定次序或以順序次序執行此等操作，或執行所有所圖解說明操作以實現合意結果。在特定情況中，多任務及並行處理可係有利的。此外，不應將在上文所闡述之實施例中之各種系統模組及組件之分離理解為在所有實施例中需要此分離，且應理解，一般可將所闡述之程式組件及系統一起整合於一單個軟體產品中或封裝至多個軟體產品中。

已闡述標的物之特定實施例。其他實施例在所附申請專利範圍之範疇內。舉例而言，在申請專利範圍中所引用之行動可以一不同次序來執行且仍實現合意結果。作為另一實例，附圖中所繪示之程序未必需要所展示之特定次序或順序次序來實現合意結果。在某些情形中，多任務及並行處理可係有利的。

100:特殊用途積體電路 101:運算核心 102:指令解碼與發佈 102a:處理器 102b:處理器 103a:運算核心 103b:運算核心 104:純量記憶體/快速私有純量記憶體/指令記憶體 105a:稀疏運算核心 105b:稀疏運算核心 106:向量暫存器/向量處理單元 107:純量處理單元/純量處理器/處理單元 108:向量記憶體/快速私有向量記憶體 110:高頻寬記憶體 113:矩陣乘法單元/經擴展向量單元 113a:矩陣乘法單元 113b:矩陣乘法單元 114:轉置單元/經擴展向量單元/轉置邏輯單元 114a:轉置單元 114b:轉置單元 115:歸約單元/單元 116:歸約與排列單元/經擴展向量單元/經擴展一元管線/排列單元/單元 120:隨機數產生器 126a:算術邏輯單元 126b:算術邏輯單元 126c:算術邏輯單元 126d:算術邏輯單元 130:串列化器 132a:解串列化 132b:解串列化 134:轉置結果先進先出 134a:轉置結果先進先出 134b:轉置結果先進先出 136:乘法結果先進先出 136a:矩陣結果先進先出 136b:矩陣結果先進先出 148:晶片間互連件 150:主機介面 152a:稀疏運算核心 152b:稀疏運算核心 156a:高頻寬記憶體堆疊 156b:高頻寬記憶體堆疊 156c:高頻寬記憶體堆疊 156d:高頻寬記憶體堆疊 200:核心架構 202:串列化處理單元 204:選擇單元 206:向量暫存器 210a:左手邊匯流排 210b:左手邊匯流排 220a:經轉置權數 220b:經轉置權數 230a:未經轉置權數 230b:未經轉置權數 300:多胞元 301a:權數移位鏈 301b:權數移位鏈 302a:權數移位鏈 302b:權數移位鏈 305a:權數移位暫存器/權數暫存器 305b:權數移位暫存器/權數暫存器 305c:權數移位暫存器/權數暫存器 305d:權數移位暫存器/權數暫存器 310a:部分總和暫存器 310b:部分總和暫存器 311a:部分總和暫存器 311b:部分總和暫存器 315a:左手邊資料暫存器 315b:左手邊資料暫存器 330a:多工器 330b:多工器 330c:多工器 330d:多工器 325a:權數矩陣暫存器 325b:權數矩陣暫存器 325c:權數矩陣暫存器 325d:權數矩陣暫存器 350a:胞元 350b:胞元 350c:胞元 350d:胞元 400:多胞元 401b:垂直移位鏈 402b:垂直移位鏈 403a:向量暫存器 403b:向量暫存器 405a:水平移位鏈 405b:水平移位鏈 415a:左手邊資料暫存器 415b:左手邊資料暫存器 430a:多工器 430b:多工器 430c:多工器 430d:多工器 435a:胞元 435b:胞元 435c:胞元 435d:胞元 445a:保存暫存器 445b:保存暫存器 500:程序 501:步驟 502:步驟 503:步驟 504:步驟 505:步驟 506:步驟 603a:向量暫存器/暫存器 603b:向量暫存器/暫存器 635a:移位暫存器 635b:移位暫存器 635c:移位暫存器 635d:移位暫存器 650a:胞元 650b:胞元 650c:胞元 650d:胞元 650y:胞元 650z:胞元 680a:頂部/權數移位鏈 680b:點 681a:頂部/權數移位鏈 681b:點 700:多胞元 701a:正常移位鏈 701b:正常移位鏈 702a:經轉置移位鏈 702b:經轉置移位鏈 705a:移位暫存器 705b:移位暫存器 705c:移位暫存器 705d:移位暫存器 725a:權數矩陣暫存器 725b:權數矩陣暫存器 725c:權數矩陣暫存器 725d:權數矩陣暫存器 730a:多工器 730b:多工器 730c:多工器 730d:多工器 750a:胞元 750b:胞元 750c:胞元 750d:胞元 800:胞元 805a:權數移位暫存器 805b:權數移位暫存器 845a:權數保存暫存器 845b:權數保存暫存器

圖1A展示用於訓練一神經網路之一實例性特殊用途硬體晶片之一高階圖式。圖1B展示運算核心之一高階實例。圖1C展示一實例性神經網路處理系統。圖2圖解說明包含矩陣乘法單元之一實例性核心架構。各矩陣乘法單元係一個二維脈動式陣列。圖3圖解說明在一脈動式陣列內側之一個多胞元之一實例性架構。圖4展示每行具有兩個權數移位暫存器鏈以便增加載入權數值之速率之一矩陣乘法單元之架構之一實例。圖5係用於將權數值載入至一給定多胞元之一行中之一實例性方法之一流程圖。圖6展示每行具有兩個權數移位暫存器鏈之一矩陣乘法單元之架構之一實例，該矩陣乘法單元在行中之兩個點處發送權數值以增加載入權數值之速率。圖7展示具有用於水平權數移位及垂直權數移位之分開之暫存器以增加載入權數值之速率之一矩陣乘法單元之架構之一實例。圖8展示具有一保存暫存器集合以增加載入權數值之速率之一實例性胞元。在各種圖式中，相似元件符號及名稱指示相似元件。

106:向量暫存器/向量處理單元

113a:矩陣乘法單元

113b:矩陣乘法單元

114a:轉置單元

114b:轉置單元

134a:轉置結果先進先出

134b:轉置結果先進先出

136a:矩陣結果先進先出

136b:矩陣結果先進先出

200:核心架構

202:串列化處理單元

204:選擇單元

206:向量暫存器

210a:左手邊匯流排

210b:左手邊匯流排

220a:經轉置權數

220b:經轉置權數

230a:未經轉置權數

230b:未經轉置權數

Claims

一種實施為一脈動式胞元陣列之矩陣乘法單元，該胞元陣列中之各胞元包括：一權數矩陣暫存器，其經組態以自一或多個權數儲存暫存器接收一權數輸入；其中該一或多個權數儲存暫存器經組態以自一水平方向及一垂直方向兩者接收將儲存於該權數矩陣暫存器中之權數輸入；及一乘法單元，其耦合至該權數矩陣暫存器且經組態以使該權數矩陣暫存器之該權數輸入與一向量資料輸入相乘以便獲得一乘法結果。