TWI768383B

TWI768383B - 用於操作加速器電路的指令

Info

Publication number: TWI768383B
Application number: TW109121402A
Authority: TW
Inventors: 王磊; 史少波; 任建軍
Original assignee: 大陸商華夏芯（北京）通用處理器技術有限公司
Priority date: 2019-07-03
Filing date: 2020-06-23
Publication date: 2022-06-21
Also published as: EP3994621A1; CN114341888A; TW202105175A; WO2021000281A1; US20220365782A1; KR20220038694A

Abstract

一種系統包括用以儲存輸入資料的記憶體、加速器電路、以及處理器，加速器電路包括輸入命令執行電路、神經元矩陣命令執行電路、以及輸出命令執行電路，處理器通訊地耦合至記憶體以及加速器電路，以從針對加速器電路的來源碼產生指令串流，每一個指令串流包括輸入命令、神經元矩陣命令、或輸出命令的至少其中之一，並將指令串流發送至加速器電路，以由輸入命令執行電路、神經元矩陣命令執行電路、以及輸出命令執行電路來執行。

Description

用於操作加速器電路的指令

本揭露內容與硬體處理器電路以及加速器電路有關，且特別地，與用於操作加速器電路的處理器的指令集架構有關。

處理器是一種實施含有在資料元件上操作的指令的指令集架構（ISA）的硬體處理裝置（例如， 中央處理單元（CPU）或圖形處理單元（GPU））。張量處理器（或陣列處理器）可實施含有在資料元件的張量上操作的指令的ISA。張量是含有可由沿著不同維度的索引存取的多維度資料物體資料元件。藉由在含有複數資料元件的張量上操作，張量處理器可在只在單一資料元件上支援純量指令操作的純量處理器上達成顯著的性能改進。

處理器，特別是張量處理器，可用以執行複雜的計算，例如，神經網路應用。神經網路被廣泛地用於人工智慧（AI）應用中。在此揭露內容中的神經網路是可在電路上實施以基於輸入資料做出決定的人工神經網路。神經網路可包括一或更多層的節點。層可為任何輸入層、隱藏層或輸出層。

輸入層可包括曝露至輸入資料的節點，且輸出層可包括曝露至輸出的節點。輸入層以及輸出層是可見層，因為它們可從神經網路外面觀察到。在輸入層以及輸出層之間的層稱為隱藏層。隱藏層可包括在硬體中實施的節點，以執行從輸入層傳播至輸出層的計算。可使用共同的預定函數集來執行計算，例如，濾波函數以及激勵函數。濾波函數可包括乘法運算操作以及求和（也稱為約化）操作。激勵函數可為全通函數、S型函數（sig）、或雙曲正切函數（tanh）的其中任何一個。

在一些實施方式中，CPU可委派GPU以執行與神經網路或其他的計算密集型工作有關的計算。在另一個實施方式中，可實施耦合至CPU的加速器電路以接管GPU的工作量。加速器電路可包括製造用於神經網路計算的加速計算的特殊用途硬體電路系統。雖然加速器電路目前是在雲端或在裝置端實施，相較於GPU可以相當低的成本執行高性能計算，相較於GPU，這些加速器電路的實施方式不與CPU的程式設計介面整合，且因此更難以由程式設計師除錯。

為了克服上述識別的問題以及目前加速器電路實施方式的其他的缺陷，本揭露內容提供了技術解決方案，包括可由主機的處理器發送的指令可程式化的硬體加速器電路的實施方式。可根據包括被指示至加速器電路的指令的指令集架構（ISA）來程式化處理器（CPU、GPU）。當發送至加速器電路並由加速器電路執行時，這些指令可使用加速器電路以執行主機的操作，並在成功完成執行之後將結果回傳至主機。

在一個實施方式中，被指示至加速器電路的指令可在允許加速器電路的直接程式設計以及除錯方便的純函數語言框架內具體說明。純函數語言框架處理類似於數學函數評估的所有計算。藉由定義，純函數語言框架保證框架內指令執行的結果只取決於其自變數，無論全域或區域狀況的狀態。因此，在框架內的指令執行結果是由輸入值決定。

純函數語言框架的架構實施方式提供了特定的技術特徵。在框架內的所有指令是可作為純函數處理的記憶體至記憶體的指令。記憶體至記憶體指令從第一記憶體檢索資料、處理資料、並將資料轉移至第二記憶體，其中第一記憶體以及第二記憶體可為相同的（或在相同的記憶體位置）或不同的記憶體。框架內的指令可為單一純函數指令、或從單一純函數指令建構出的複合純函數。在框架內的指令可被同時執行，以隱藏記憶體存取的階段。CPU直接控制並監控指令執行的流程。框架可提供客戶調用指令，其允許加速器電路與由CPU或由另一個系統（例如，從屬系統）中的其他加速器電路所執行的其他程式配合工作。框架也可在沒有編譯器最佳化的情況下允許指令的直接加速。此外，框架可允許遲緩評估（即，當需要時函數的評估時）以及貝他歸化（即，使用表達式輸入來計算結果）。在有遲緩評估以及貝他歸化的情況下，框架可達到資料局部性（即，將計算移動至接近資料位在節點上的地方，而非將大量的資料移動至計算位置的能力）。框架使得指令的控制流程以及加速器電路的行為可經由CPU所執行的程式來觀察到，而沒有外部狀態所施加的作用。因為純函數的特徵，這確保了性能在所給定的環境中是可靠且可預測的，因此使程式設計師較容易將他們的應用程式除錯。

框架可提供包括互連（非分離）計算單元電路的加乘累積（multiplication-addition-cumulation，MAC）矩陣電路。CPU可重複使用MAC矩陣電路，以用於捲積、點乘積、集用以及線性整流函數（ReLU）計算。框架可允許四維組織化區域資料佈局以及三維組織化MAC矩陣，以進一步加強系統的能力。

CPU可執行針對加速器電路的指令。在一個實施方式中，可建構指令以包括四個（4）部分：操作部分、全球資訊部分、局部資訊部分以及內部記憶體分配部分。操作部分可具體說明加速器電路是用以執行的功能性。具體而言，操作部分可包括具體說明加乘累積（MAC）、最大集用、或線性整流函數（ReLU）計算的其中之一的計算領域。

全球資訊部分可具體說明影響張量資料作為整體的參數值，例如起始點、寬度、高度等等。全球資訊可包括四個張量，包括輸入特徵映射（基數、全球寬度、面積=全球寬度*全球高度）、核心（基數、核心寬度、核心高度、核心面積=核心寬度*核心高度，輸入核心大小=核心寬度*核心高度*全球輸入頻道）、部分總和（基數、全球寬度（與輸出共享）、全球寬度*全球高度（與輸出共享））以及輸出特徵映射（基數、全球寬度、全球寬度*全球高度）以及元資料基數。

局部資訊部分可具體說明與張量資料的分割相關聯的維度值，例如，分割寬度、分割高度、與分割相關聯的頻道數目等等。此外，局部資訊部分可具體說明硬體執行偏好，以允許指令在特定維度上選擇平行執行。局部資訊可包括四個張量，包括部分總和與輸出共享的特徵映射（減退抽樣之前的寬度、局部寬度、局部寬度*局部高度、局部輸出頻道）、核心映射（輸入核心映射大小=核心寬度*核心高度*局部輸入頻道）、輸入特徵映射（差量寬度=輸入局部寬度–輸出局部寬度，差量高度=輸入局部高度–輸出局部高度，局部輸入頻道）以及硬體分割（計算單元的分割）。

內部記憶體分配部分可具體說明用於指令的記憶庫。內部記憶體分配可包括區域記憶庫識別碼，其中每個識別碼是運算元，例如，輸入特徵映射、邊界特徵映射、核心映射、部分總和映射以及作為張量、向量或純量銀行的輸出特徵映射。內部記憶體分配資訊也可包括用以結合指令以形成新的複合純函數，同時節省不必要的資料轉移的再用旗標以及無同步化旗標。內部記憶體分配資訊也可包括區域記憶體資料類型以在區域記憶體中指出運算元的資料類型。

每個指令的執行可包括直接記憶體存取（DMA）輸入、計算、以及DMA輸出的三個階段。在DMA輸入階段中，加速器電路可使用DMA模式直接將資料從外部記憶體載入至與加速器電路相關聯的區域記憶體。在計算階段中，加速器電路可從來源位置從區域記憶體讀取資料、執行計算，並將結果寫入回區域記憶體至區域記憶體中的目的位置。在DMA輸出階段中，加速器電路可在DMA模式中將儲存在區域記憶體中的結果資料轉移至外部記憶體。

在一個實施方式中，框架可允許虛擬指令的執行。虛擬指令是對大小參數（例如，寬度、長度、或頻道的數目）不具有限制的指令。這可藉由移除局部資訊部分來達成。內部記憶體分配可被延伸至較大數目的記憶庫，且每個記憶庫是用以支援資料的總體大小的保持。

在一個實施方式中，應用程式可由程式設計師使用程式設計語言工（例如，C或C++）以來源碼的形式具體說明。應用程式可包括與神經網路計算有關的操作（例如，張量捲積、張量點乘積）。主機的處理器可執行編譯器以基於為了處理器具體說明的指令集架構（ISA）的實施來將來源碼轉換成機器碼。除了具體說明處理器操作共同的指令之外，ISA可包括被指示至加速器電路的函數的說明書。這些函數可包括用於從記憶體檢索輸入資料（稱為「特徵映射」）及/或從記憶體檢索過濾器資料（稱為「核心」）的輸入命令。這些函數也可包括具體說明由加速器電路執行的計算的神經元矩陣命令。這些函數也可包括用於將計算結果儲存在記憶體中的輸出命令。編譯器可將這些命令進一步結合成被指示至加速器電路的指令串流。每個指令可包括一或複數輸入命令、一或複數神經元矩陣命令、以及一或複數輸出命令。在一個實施方式中，輸入命令可為直接記憶體存取（DMA）輸入命令，以及輸出命令可為DMA輸出命令。在加速器電路上實施的硬體機制確保命令執行的正確順序，因此允許命令的執行作為加速器電路上的管線。當資料以及資源沒有衝突時，命令的管線執行允許命令的同時執行，因此顯著地改進了加速器電路的性能。

圖 1 示例了根據本揭露內容的一個實施方式的一種包括加速器電路的系統100。系統100可包括硬體處理器（例如，CPU或GPU）102、加速器電路104以及將處理器102通訊地連接至加速器電路104的介面電路106。此外，系統114可包括在加速器電路104的外部用於儲存資料的記憶體108。

在一個實施方式中，系統114可為計算系統或單晶片系統（SoC）。處理器102可為硬體處理器，例如中央處理單元（CPU）、圖形處理單元（GPU）、或任何適合類型的處理裝置。處理器102可包括指令執行管線（未示出）、寄存檔案（未示出）以及根據指令集架構（ISA）112具體說明的電路實施指令。

在一個實施方式中，處理器102可為向量/張量處理器，其包括向量/張量指令執行管線（未示出）、向量/張量寄存檔案（未示出）、以及根據向量/張量指令集架構（ISA）112具體說明的電路實施向量/張量指令。向量/張量指令可在含有特定數目的資料元件的向量/張量資料物體上操作。為了簡明的描述，本揭露內容將在本文中把定標器以及向量處理器歸類於處理器。因此，處理器可被了解為定標器處理器或向量處理器，除非另外明確地具體說明。

記憶體裝置108可包括通訊地耦合至處理器102以及至加速器電路104的儲存裝置。在一個實施方式中，記憶體裝置108可儲存用於神經網路應用程式的輸入資料114以及由神經網路應用程式產生的輸出資料116。輸入資料114可為包括取自應用程式資料的特徵值的特徵映射（一或複數維度），例如，影像資料、語音資料、光達資料等等，或過濾器的核心，且輸出資料116可為由神經網路做出的決定，其中決定可包括將影像中的物體分成不同類別的分類、影像中物體的識別、或語音中片語的辨識。記憶體裝置108也可儲存以例如C或C++之類的程式設計語言撰寫的神經網路應用程式的來源碼。神經網路應用程式118可利用需要大量的計算資源的特定計算（例如，捲積），且較適合在加速器電路104上執行。

系統100可安裝有可基於ISA112的說明書將神經網路應用程式118的來源碼轉換成機器碼的編譯器110。ISA112可包括可將部分來源碼轉換成可由加速器電路104執行的機器碼的說明書。機器碼可包括用於使用直接記憶體存取將儲存在記憶體108中的DMA輸入資料114轉移至加速器電路104的區域記憶體中的輸入命令、具體說明由加速器電路104執行的計算的神經元矩陣命令、以及用於使用直接記憶體存取將結果從加速器電路104的內部記憶體DMA轉移至記憶體108的輸出命令。處理器102可進一步執行編譯器110以將DMA輸入命令、神經元矩陣命令、以及DMA輸出命令組合成指令串流。串流中的每個指令可包括一或複數DMA輸入命令、一或複數神經元矩陣命令、以及一或複數DMA輸出命令。在神經網路應用程式的執行期間，處理器102可藉由將指令串流傳輸至加速器電路104來將指令串流的執行委派至加速器電路104。

加速器電路104可通訊地耦合至處理器102以及至記憶體裝置108以使用其中的特殊用途電路來執行計算密集的工作。加速器電路104可代表處理器102來執行這些工作。例如，可將程式化處理器102以將神經網路應用拆解成複數（數百或數千個）計算工作，並將這些工作的性能委派至加速器電路104。在由加速器電路104完成這些工作之後，處理器102可接收計算結果作為回報。加速器電路104可為專用積體電路（ASIC）、現場可程式閘陣列（FPGA）、數位訊號處理器（DSP）、網路處理器或諸如此類。在一個實施方式中，加速器電路104是在純函數語言平台內實施，以至於由處理器102發送至加速器電路104的指令被作為純函數執行。因此，藉由在加速器電路104上執行指令所產生的輸出只取決於輸入值。加速器電路104的純函數語言實施方式允許程式設計師對於指令執行的控制流程的能見度以及除錯由處理器102所執行的神經元網路應用程式的能力。結合圖 2 ，在下述中提供了加速器電路104的詳細描述。

介面電路106可為實施以將指令以及資料從處理器102傳輸至加速器電路104及/或記憶體108的通用匯流排介面。例如，處理器102可利用介面電路106以將指令發送至加速器電路104，並將控制訊號產生至記憶體108，以造成從記憶體108的DMA讀取以及至記憶體108的DMA寫入。

圖 2 示例了根據本揭露內容的一個實施方式的一種加速器電路200的示意圖。如圖 2 中所示，加速器電路200可包括引擎電路202、控制介面204、系統匯流排主埠206、中斷控制器210以及性能監視器212。加速器電路200可隨選地包括高速從屬埠208以連接至另一個從屬系統。

引擎電路202可包括指令剖析以及調度電路、異步化命令佇列、神經元矩陣命令執行電路、暫存器以及區域記憶庫。在由處理器（例如，CPU、GPU）發送的指令方向，引擎電路202可在純函數語言平台中執行處理器的計算，在這情況之下，由引擎電路202產生的輸出結果只取決於輸入值。由引擎電路202執行的計算可包括捲積、點乘積、ReLU等等。結合圖 3 ，提供了引擎電路202的詳細描述。

控制介面204可將引擎電路202連接至主機的處理器（CPU、GPU），從而主機的處理器可將指令發送至引擎電路202。在一個實施方式中，控制介面204可直接連接至指令執行管線以接收指令以及被指示至引擎電路202的配置資料。在另一個實施方式中，控制介面204連接至主機的通用匯流排系統以接收指令以及被指示至引擎電路202的配置資料。在兩個實施方式中，指令以及被指示至引擎電路202的配置資料可被與引擎電路202相關聯的識別碼識別。對接收來自主機的處理器的指令做出反應，控制介面204可將從處理器接收的指令傳遞至引擎電路202。對接收配置資料做出反應，控制介面204可設定中斷控制器210以及性能監視器212的配置。

系統匯流排主埠206是用於連接外部記憶體（加速器電路200之外）的介面。外部記憶體（例如，記憶體108）可使用直接記憶體存取（DMA）輸入頻道來儲存可被轉移至引擎電路202的區域記憶體的輸入資料，並使用DMA輸出頻道將輸出結果從區域記憶體轉移至外部記憶體。DMA輸入/輸出可獨立於主機的處理器在區域記憶體以及主記憶體之間轉移資料，因此降低了施加在主機的處理器上的資料轉移負擔。在一個實施方式中，取決於系統的配置，系統匯流排主埠206可為一或兩個高級可擴充介面（AXI）埠。

高速從屬埠208是用於將加速器電路200的引擎電路202連接至從屬系統的介面。高速從屬埠208可幫助引擎電路202中的內部記憶體以及從屬系統的內部記憶體之間的資料交換，不經由主外部記憶體傳遞，因此達到主系統以及從屬系統之間的低潛時資料傳輸。

性能監視器212可包括電路邏輯以監控與引擎電路202相關聯的不同性能參數。控制介面204可接收可用以設定以及復位要被監控的性能參數的配置資料。性能參數可包括資料傳輸的利用率以及引擎電路202內神經元矩陣命令執行電路的利用率。考慮到頻道頻寬，資料傳輸的利用率可測量在引擎電路202以及外部記憶體之間轉移的資料量。考慮到矩陣中神經元的總數目，神經元矩陣命令執行電路的利用率可測量神經元矩陣命令執行電路內的主動神經元數目。性能監視器212可經由控制介面將這些性能參數回饋至主機的處理器。

中斷控制器210可對偵測到與引擎電路202相關聯的高度優先事件已發生做出反應而產生中斷訊號至主機。高度優先事件可包括與引擎電路202相關聯的硬體錯誤（或故障）。其他的高度優先事件可包括命令完成、命令緩衝區已滿或空事件。中斷訊號可被傳輸至主機的中斷處置器，其中中斷處置器可代表主機的處理器進一步處理中斷訊號。例如，中斷處置器可懸置目前由處理器執行的工作，並指示處理器處置中斷。替代地，中斷處置器可遮蔽中斷訊號而沒有通知處理器。在一個實施方式中，控制介面204可接收用於中斷控制器210的配置資料，並基於配置資料設定中斷控制器210。例如，配置資料可用以設定儲存在中斷狀態暫存器中的旗標。每個旗標可相對應於特定的中斷事件。當旗標被設定時，中斷控制器210可將相對應於中斷事件的中斷訊號轉送至主機。當旗標被復位時，中斷控制器210可忽略中斷事件並拒絕將中斷訊號轉送至主機。

如上所討論，引擎電路202可經由控制介面204從主機的處理器接收指令。一些指令可指示引擎電路202以執行某些計算工作（例如，捲積、點乘積、或ReLU）。其他的指令可在指令執行串流中插入檢查點以經由控制介面204將除錯資訊提供回主機的處理器。

引擎電路是執行資料載入、處理以及儲存工作的加速器電路的部分。為此目的，引擎電路可被實施以具有兩個資訊流程。第一流程（稱為「控制平面」，在圖 3 中使用虛線代表）可管理由控制介面接收的指令串流。第二流程（稱為「資料平面」，在圖 3 中由實線代表）可管理向量/張量的資料元件。

圖 3 示例了根據本揭露內容的一個實施方式的一種引擎電路300的示意圖。參見圖 3 ，引擎電路300可包括調度邏輯304、神經元矩陣命令佇列312、DMA輸入命令佇列314、DMA輸出命令佇列316、神經元矩陣命令執行電路318、DMA輸入命令執行電路320、DMA輸出指令執行電路322、區域記憶庫參考板324以及區域記憶庫326的硬體組件。對於控制平面，調度邏輯304可從控制介面接收指令302。

調度邏輯304可剖析與由主機的處理器發送的指令串流中的指令相關聯的資訊，並用於指令的命令。命令可包括一或複數DMA輸入命令308、一或複數神經元矩陣命令306以及一或複數DMA輸出命令310。這三個類型的命令分別相對應於指令執行的DMA輸入階段、計算階段以及DMA輸出階段。調度器邏輯304可將DMA輸入命令308放置於DMA輸入命令佇列314中，將神經元矩陣命令306放置在神經元矩陣命令佇列312中，以及將DMA輸出命令310放置在DMA輸出命令佇列316中。在一個實施方式中，使用儲存在儲存裝置（例如，局部暫存器、區域記憶體）中的堆疊資料結構來實施DMA輸入命令佇列314、神經元矩陣命令佇列312以及DMA輸出命令佇列316。可將DMA輸入命令佇列314、神經元矩陣命令佇列312以及DMA輸出命令佇列316實施為具有登錄數目的（例如，在每個佇列中16個登錄）的先入先出（FiFo）佇列。FiFo佇列確保在三個佇列任何一個中的命令以它們被放置在佇列中的順序被依序地發送。然而，沒有必要讓源自相同指令的三個命令被同步地執行。因此，即使它們已源自共同的指令，在不同佇列中的命令可以紊亂的順序發送。也就是說，在來自指令串流中較晚指令的佇列中的命令可比來自指令串流中較早指令的另一佇列中的另一命令早發送用於執行。三個佇列的利用允許了源自不同指令的不同命令被同時執行。此特徵使資料能夠預先載入（例如，在使用資料的神經元矩陣命令被發送之前將資料載入至區域記憶庫），因此隱藏了記憶體潛時並改進了引擎電路300的整體性能。

DMA輸入命令執行電路320可接收取自DMA輸入命令佇列314的DMA輸入命令308並執行DMA輸入命令308；神經元矩陣命令執行電路318可接收神經元矩陣命令306取自神經元矩陣命令佇列312以及執行神經元矩陣命令306；DMA輸出命令執行電路322可接收DMA輸出命令310取自DMA輸出命令佇列316以及執行DMA輸出命令310。區域記憶庫參考板324可包括邏輯電路，以確保雖然指令的DMA輸入命令308、神經元矩陣命令306以及DMA輸出命令310以異步化的方式執行，執行的結果是正確的。

在一個實施方式中，區域記憶庫參考板324可包括實施在硬體中、負責確保具有互鎖相依的命令以正確的順序執行的計數器。區域記憶庫參考板324可產生控制讀取以及寫入操作至區域記憶庫326的訊號。有兩種類型的相依，包括資料相依以及資源相依。資料相依可包括指令的神經元矩陣命令306可能需要由相同指令的DMA輸入命令308所提供的資料；神經元矩陣命令306可能需要資料來自相同的神經元矩陣命令執行電路所執行的先前神經元矩陣命令的結果；指令的DMA輸出命令310可能需要來自相同指令的神經元矩陣命令306的資料。資源相依可包括DMA輸入命令308不能寫入至區域記憶庫，因為記憶庫正被神經元矩陣命令306讀取或正由DMA輸出命令310輸出至外部記憶體；神經元矩陣命令不能寫入至區域記憶庫因為記憶庫由DMA輸出命令310輸出至外部記憶體。

圖 4 示例了根據本揭露內容的一個實施的一種區域記憶體參考板400的的示意圖。區域記憶體參考板400可包括硬體計數器以基於資料相依以及資源相依來確保命令執行的正確順序。參見圖 4 ，區域記憶體參考板400可包括計數器402、404、以及可用以產生訊號以控制讀取以及寫入操作至區域記憶庫326的參考暫存器406、408。

在一個實施方式中，可提供DMA輸入屏障訊號、神經元矩陣屏障訊號以及DMA輸出屏障訊號給區域記憶庫326中的每個記憶庫。這些屏障訊號可決定記憶庫是否可被讀取或寫入。對決定DMA輸入命令執行電路320結束至記憶庫的資料傳輸、指出了對記憶庫有新的讀取參考（或位址指標）做出反應，DMA輸入命令執行電路320可造成計數器402的增量（di_prod_cnt）增加一。對決定神經元矩陣命令執行電路318完成了讀取記憶庫做出反應，神經元矩陣命令執行電路318可造成計數器404的增量（di_cons_cnt）。當儲存在計數器402中的值（di_prod_cnt）等於儲存在計數器404中的值（di_cons_cnt）時，由DMA輸入命令執行電路320產生的參考全被神經元矩陣命令執行電路318所消耗。在此情況中，神經元矩陣命令執行電路318需要等待更多新的參考。當儲存在計數器402中的值（di_prod_cnt）不匹配儲存在計數器404中的值（di_cons_cnt）時，由DMA輸入命令執行電路320之前所產生的參考尚未被神經元矩陣命令執行電路318消耗，且DMA輸入命令執行電路318需要等待。一個特殊的情況是，當與憶體銀行相關聯記的再用旗標被設定時，DMA輸入命令執行電路320可造成計數器402的增量，不等待所有的先前參考被消耗。這允許了事先更多DMA輸入命令的執行。

當DMA輸入命令執行電路320開始保留對於記憶庫的存取權用於節省計算結果時，DMA輸入命令執行電路320可設定參考暫存器406（nr_w_ref）。這標記了指令執行的起始點。當計算結果被存至記憶庫時，參考暫存器406可被神經元矩陣命令執行電路318清除。DMA輸入命令執行電路320或神經元矩陣命令執行電路318可設定參考暫存器408（do_r_ref），指出儲存在記憶庫中的資料正被轉移至外部記憶體。DMA輸出命令執行電路322可清除參考暫存器408，指出資料已被轉移出至外部記憶體，且記憶庫被釋放。

計數器402、404以及參考暫存器406、408被提供給每個區域記憶庫。因此，在執行之前，所有的命令必須檢查所有的屏障訊號。如圖 4 中所示，DMA輸入屏障訊號是由下述任一條件設定：（1）di_prod_cnt == di_cons_cnt；或rn_w_ref被設定成1；或do_r_ref被設定成1。神經元矩陣屏障訊號被設定如果di_prod_cnt != di_cons_cnt。DMA輸出屏障訊號是由下述任一條件設定：（1）nr_w_ref = 1；或（2）do_r_ref = 0。屏障訊號可防止相對應命令的執行。例如，當DMA輸入屏障訊號被設定時，DMA命令執行電路320可懸置對記憶庫的存取；當神經元矩陣屏障訊號被設定時，神經元矩陣命令執行電路318可停止對記憶庫的存取；當DMA輸出屏障訊號被設定時，DMA輸出命令執行電路322可懸置對記憶庫的存取。

圖 4 中所示的範例實施方式只包括一個神經元矩陣命令執行電路以及一個DMA輸出命令執行電路。因此，參考暫存器406、408只包括可被設定成一或復位成零的一個位元旗標。其他的實施方式可包括多於一個神經元矩陣命令執行電路或多於一個DMA輸出命令執行電路，計數器（像那些402、404）可代替位元旗標被使用。

參見圖 3 ，與引擎電路相關聯的資料平面有兩個資料流。主動資料流可包括藉由執行DMA輸入命令308檢索從外部記憶體至區域記憶庫326的資料、由神經元矩陣命令執行電路處理資料以及將資料儲存回區域記憶庫326，以及藉由執行DMA輸出命令322將資料寫出至外部記憶體。主動資料流是由引擎電路300控制，所有的請求是由引擎電路300發送。被動資料流包括從外部記憶體直接流至神經元矩陣命令執行電路318以及從神經元矩陣命令執行電路318流至外部記憶體的資料。被動資料流包括為了神經元矩陣命令執行電路318流動以檢索來自內部記憶體的資料並將結果儲存在內部記憶體中的資料。

神經元矩陣命令執行電路可執行在指令的操作部分中由操作碼（運算碼）具體說明的操作。神經元矩陣命令執行電路可包括計算胞元的矩陣以及屏障訊號控制邏輯。圖 5 示例了根據本揭露內容的一個實施的一種計算胞元500的矩陣。矩陣可為沿著x以及y維度具有相同數目的胞元的正方形矩陣或沿著x以及y維度具有不相等數目的胞元的長方形矩陣。如圖 5 中所示，在二維陣列內的胞元在水平（x）以及垂直（y）維度中連接。每個胞元可包括一組維度計數器、饋送器電路、寫入器電路、計算單元陣列以及一組區域記憶庫。因此，其中每個胞元包括計算單元陣列的胞元矩陣特別適合用於執行張量計算。張量資料物體是沿著三或更多維編入索引的資料立方體，而陣列物體是沿著二維編入索引的資料陣列。

每個計算胞元可被配置成使用於其中的計算單元陣列來執行向量操作。圖 6 示例了根據本揭露內容的一個實施方式的一種計算胞元600的示意圖。參見圖 6 ，計算胞元600可包括計算單元陣列（每個單元由U代表）602以及控制邏輯電路。控制邏輯電路可包括維度計數器604、三個饋送器電路606、608、610、區域記憶庫612、寫入器電路614以及定標器暫存器616。計算胞元600可基於神經元矩陣命令以及被指示至胞元的神經元矩陣屏障訊號在儲存於區域記憶體中的資料上操作。每個計算單元是可在一或複數控制訊號的控制下執行一種類型的計算的單一電路區塊。可將控制訊號分成兩個群組。第一群組的控制訊號是由解碼神經元矩陣命令產生，且獨立於胞元的內部元件，在某種意義上而言，一旦神經元矩陣命令被發送至神經元矩陣命令執行電路，第一群組的控制訊號被設定。第一群組的控制訊號被施加至所有的計算單元。第二群組的控制訊號是基於儲存在維度計數器604中的值由第一饋送器電路606（Fmap饋送器）於內部動態地產生。第二群組的控制訊號可隨著施加至陣列內不同的計算單元而改變。第二群組的控制訊號可包括，如後所討論，mac_en 、acc_clear_en 、export 、acc_reset_en 等等。當維度計數器跨越資料結構（例如，陣列）的界限時，這些控制訊號被致能以執行較高的維度操作例如，3D張量、關於深度、關於點、關於元件等等。第二群組的控制訊號可幫助確保每個計算單元具有具有二維陣列結構的正確輸入/輸出值以及正確計算結果。

維度計數器604可用以倒數與計算相關聯的不同維度值。在一個實施方式中，可將神經元矩陣屏障訊號提供至維度計數器604用於致能或去能計算胞元。如果神經元矩陣屏障訊號被設定（例如，成1），維度計數器可被為去能以及防止由神經元矩陣命令存取。如果神經元矩陣屏障訊號未被設定（例如，在0），維度計數器可由神經元矩陣命令初始化。神經元矩陣命令可提供維度計數器代表輸入資料（稱為特徵映射）以及過濾器資料（稱為核心）的高度以及寬度的初始值。計算是用以使用捲積將過濾器（例如，高/低傳遞過濾器）應用至輸入資料（例如，2D影像）上。

維度計數器604可包括核心寬度計數器、核心高度計數器、輸入頻道計數器、輸入面積計數器（輸入的高度及/或寬度）以及輸出頻道計數器。核心寬度計數器以及核心高度計數器可儲存核心的寬度以及高度。輸入頻道計數器可具體說明從記憶庫檢索資料的次數。對於特定的計算，因為計算單元的大小限制，可能有需要檢索輸入資料多次。大特徵映射可被分割成被分開處理的較小部分。在這樣的解決方案中，頻道計數器可儲存與特徵映射相關聯的部分的數目。輸出頻道計數器可具體說明記憶庫以接收輸出結果。例如，輸出頻道計數器可儲存在這些特徵映射部分上執行捲積計算的次數。計算的總量可與核心寬度*核心高度*分割計數器*輸入頻道計數器*輸出頻道計數器成比例。

儲存在維度計數器中的值可被饋送至饋送器電路606、608、610。饋送器電路606（Fmap饋送器）可控制來自區域記憶庫612的輸入資料（特徵映射、或部分的特徵映射）的轉移。饋送器電路608（核心饋送器）可控制來自區域記憶庫612的核心的轉移。饋送器電路610（psum饋送器）可控制區域記憶庫612中部分總和值的轉移。饋送器電路606可，基於儲存在維度計數器604中的值以及從神經元矩陣命令接收的運算碼，將運算元值（op0s）供應至計算單元以及控制訊號mac_en 、acc_clear 以及export 。可結合饋送器電路608、610以將其他兩個運算元（op1s、op2s）供應至計算單元。饋送器電路610可產生控制訊號acc_reset 。運算元值op0s可為特徵映射可從其檢索的區域記憶庫的參考；運算元值op1s可為提供核心的區域記憶庫的參考；運算元值op2s可為用於儲存部分總和的區域記憶庫的參考。

可基於儲存在維度計數器中的值來致能以及去能控制訊號。當核心寬度計數器或核心高度計數器儲存非零的值時，饋送器電路606可設定mac_en 訊號、觸發加乘累積（MAC）操作。當在核心寬度計數器中的值減少時，饋送器電路606可致能平移至西邊的訊號，造成在計算單元陣列602中的值平移至西方（如圖 6 中所示的N，S、E、W分別代表北、南、東、西方向）。當核心高度計數器中的值減少時，饋送器電路606可致能平移至北邊的訊號，造成在計算單元陣列602中的值平移至北方。當輸入頻道計數器中的值減少時，饋送器電路606可致能特徵映射就緒訊號，指出特徵映射已就緒由計算單元陣列讀取用於計算。當輸入面積計數器中的值減少時，饋送器電路606可致能acc_clear 以及export 訊號，造成從計算單元至區域記憶庫的結果匯出以及計算單元中累加器的清除。

饋送器電路（Fmap饋送器）控制了特徵映射資料以及邊界特徵映射資料的運算元從區域記憶庫至四種類型的緩衝器中的轉移。四種類型的緩衝器可包括用於供應op0s至計算單元的運算元緩衝器、用於供應東鄰近資料值至面積保持運算元緩衝器的東邊界緩衝器、用於供應南鄰近資料值至面積保持運算元緩衝器的南邊界緩衝器、以及用於供應東邊鄰近資料值至面積保持南邊界緩衝器的角落（或東南）邊界緩衝器。

可在三個（3）級別中實施運算元緩衝器以及東邊界緩衝器。級別0緩衝器是用於Fmap饋送器以檢索資料（從區域記憶庫）至級別0緩衝器；級別1緩衝器是用以保持用於向北平移資料；級別2緩衝器是用以保持用於向東平移的資料。當特徵映射就緒訊號第一次被致能時，Fmap饋送器將資料讀取至級別0緩衝器中，且在計算單元完成處理在級別0緩衝器中的資料之後，Fmap饋送器可將級別0緩衝器中的資料值推送至級別1緩衝器，並當特徵映射就緒訊號被再次致能時釋放用於載入下一個區塊的資料的級別0緩衝器。儲存在級別2緩衝器中的資料值對致能平移至西邊的訊號做出反應而被平移至西邊。Fmap饋送器可從級別1緩衝器重新載入資料，並對致能平移至北邊的訊號做出反應將級別1緩衝器中的資料值平移至北邊一列。雖然多級別緩衝器方案可能需要更多的緩衝器，當有數千個計算單元時，多級別緩衝器方案可顯著地降低連接線的量。每個緩衝器可與每個識別行或列是否是最後一個有效的行或列的位元旗標相關聯。當資料被平移至北邊的行或東邊的列時，由大旗標識別為最後一個行或列的行或列最後可被自動地填入零。

可基於輸入面積（跨步：1）、輸入頻道（跨步：四捨五入至胞元高度的倍數的特徵映射高度，其中四捨五入確保在相同位置且來自不同輸入頻道的資料被饋送至相同的單元中）、特徵映射高度計數器、以及輸出頻道來計算存取區域記憶庫612的位址。

核心饋送器608可控制用於核心映射運算元的區域記憶庫中的資料轉移。核心饋送器可包括兩個級別的緩衝器，級別0緩衝器保持來自記憶庫的核心元件的列，以及級別1緩衝器保持被廣播至胞元中所有單元的重複元件。

Psum饋送器可控制部分總和映射運算元的區域記憶庫中的資料轉移。Psum饋送器可只包括一個級別的緩衝器。

寫入器電路614可控制從計算單元至區域記憶庫中的資料輸出。計算單元可發送寫入致能（wen）訊號以致能寫入器中的啟動單元，然後將啟動單元的輸出寫入至區域記憶體中。啟動單元支援線性、ReLU、S型以及雙曲正切函數。

可以類似於區域記憶庫的方式來定址並參考純量暫存器616。純量暫存器616可儲存可被施加至特徵映射中的元件的純量值。例如，純量暫存器616可儲存可被施加至特徵映射中每個元件的倍數值。

主機的處理器可利用加速器電路以執行計算工作。圖 7 是根據本揭露內容的一個實施方式的主機的處理器使用加速器電路來執行神經網路應用程式方法700的流程圖。

如圖 7 中所示，在702，處理器可接收神經網路應用程式的來源碼，以將應用程式編譯成可由處理器或加速器電路執行的機器碼。

在704，處理器可執行編譯器以將來源碼轉換成機器碼。機器碼可包括可由加速器電路執行的命令。

在706，處理器可進一步執行編譯器以將針對加速器電路的一些命令結合成加速器電路指令串流，每個加速器電路指令包括一或複數命令。在上面討論的一個實施中，每個加速器電路指令可包括一或複數DMA輸入命令、一或複數神經元矩陣命令以及一或複數DMA輸出命令。加速器電路指令的串流可構成神經網路應用程式的部分可執行碼。

在708，在神經網路應用程式的執行期間，處理器可將加速器電路指令的串流調度至加速器電路，以用於執行由加速器電路指令串流具體說明的操作。例如，加速器電路指令的串流可具體說明可能需要來自加速器電路的計算支援的張量特徵映射的過濾。

在710，處理器在其已成功完成由加速器電路指令串流具體說明的操作之後從加速器電路接收結果。

加速器電路可執行由串流具體說明的操作。圖 8 是根據本揭露內容的一個實施方式的加速器電路執行加速器電路指令串流的方法800的流程圖。

如圖 8 中所示，在802，加速器電路可包括可從主機的處理器接收加速器電路指令串流的調度邏輯。加速器電路指令的串流可具體說明要由加速器電路執行的操作。

在804，調度邏輯可將在加速器電路指令串流中的加速器電路指令分解成包括一或複數DMA輸入命令、一或複數神經元矩陣命令、以及一或複數DMA輸出命令的命令.

在806，調度邏輯可根據命令的類型將它們儲存至命令佇列中。例如，可將一或複數DMA輸入命令儲存在DMA命令佇列中；可將一或複數神經元矩陣命令儲存在神經元矩陣命令佇列中；可將一或複數DMA輸出命令可為儲存在DMA命令佇列中。

在808，命令執行電路可執行儲存在相對應佇列中的命令。例如，DMA輸入命令執行電路可根據在DMA輸入命令佇列中的順序來執行DMA輸入命令；神經元矩陣命令執行電路可根據在神經元矩陣命令佇列中的順序來執行神經元矩陣命令；DMA輸出命令執行電路可根據在DMA輸出命令佇列中的順序來執行DMA輸出命令。

在810，加速器電路可將由神經元矩陣命令執行電路產生的結果傳輸回處理器。這可藉由DMA輸出命令的執行來達成。

本揭露內容的實施方式可提供針對加速器電路的函數庫。這些函數，當被神經網路應用程式呼叫時，可部署加速器電路以代表主機的處理器來執行某些計算密集的工作。在下述提供了可從C程式設計語言來源碼呼叫的函數庫。

在庫中定義的函數可使用張量資料物體。分割內在呼叫可回傳可幫助加速器電路的最佳使用的一組分割維度。與張量相關聯的回傳值被定義為： typedef struct { unsigned short id; // tensor identifier unsigned short oh; //tensor height unsigned short ow; //tensor width unsigned short od; //tensor depth } __partition_t

編譯器可被提供有特定內在函數（稱為內在或內建函數）。內在函數可用於在由編譯器特別處理的給定程式設計語言（例如，C）中使用。當所有或一些自變數是定值時，如下述中所提供的張量內在函數支援常數約化。編譯器可靜態地最佳化與定值相關聯的張量維度。

分割內在函數可包括下述函數呼叫。4D 捲 積分割 __partition_t __builtin_gptx_tensor_part(uint32_t h, uint32_t w, uint32_t in_ch, uint32_t out_ch, uint32_t kh, uint32_t kw);

4D捲積分割函數可為用於不是深度方向（3D）或點乘積（2D）的四維張量捲積，其中h以及w可分別代表特徵映射高度以及寬度，in_ch以及out_ch可分別代表輸入頻道以及輸出頻道，以及kh與kw可分別代表核心高度以及核心寬度。深度方向分割 __partition_t __builtin_gptx_tensor_part_dw(uint32_t h, uint32_t w, uint32_t in_ch, uint32_t kh, uint32_t kw);

在回傳分割值中的od值是未定義的，因為其與id值相同。點乘積分割 __partition_t __builtin_gptx_tensor_part_dp(uint32_t out_ch)

在點乘積分割函數中，為點乘積的out_ch是輸出向量的長度。回傳分割值中的id是未定義的，因為對於點乘積其永遠是1。集用分割 __partition_t __builtin_gptx_tensor_part_dw(uint32_t h, uint32_t w, uint32_t in_ch, uint32_t kh, uint32_t kw, uint32_t stride_h, uint32_t stride_w);

除了沿著高度方向的特徵映射是以跨步_h次取樣，且沿著寬度方向的特徵映射是以跨步_w之外，集用分割函數類似於深度方向分割。

載入函數可將張量資料載入至加速器電路。張量暫存器類型是用以定義要在張量內在函數之間傳遞的張量暫存器變數。當編譯器以及架構支援張量暫存器時，張量變數可在運行時間由編譯器分配。替代地，當張量暫存器不可用時，張量變數可被分配為記憶體。在一個實施方式中，類型大小是固定類似於緊縮SIMD類型（例如， __t16x128x8x8_fp16_t）。在另一個實施方式中，類型大小將支援所有其維度的各種大小。載入內在函數

載入內在函數包括下述函數：基本載入內在函數 ： void __builtin_gptx_tensor_ld_u_b(__t16x128x8x8_fp16_t dest, void *src, uint16_t global_w, uint32_t global_a, uint16_t local_d, uint16_t local_h, uint16_t local_w); //load instruction to load unsigned byte data (8 bits) void __builtin_gptx_tensor_ld_s_b(__t16x128x8x8_fp16_t dest, void *src, uint16_t global_w, uint32_t global_a, uint16_t local_d, uint16_t local_h, uint16_t local_w); //load instruction to load signed byte data (8 bits) void __builtin_gptx_tensor_ld_hf(__t16x128x8x8_fp16_t dest, void *src, uint16_t global_w, uint32_t global_a, uint16_t local_d, uint16_t local_h, uint16_t local_w); //load instruction to load half-precision floating point format (half) data (16 bits)表格查詢載入內在函數 ： void __builtin_gptx_tensor_ld_tab_b(__t16x128x8x8_fp16_t dest, void *src, uint16_t global_w, uint32_t global_a, uint16_t local_d, uint16_t local_h, uint16_t local_w, void *tab); //load instruction to load look-up table data, byte data (8 bits) void __builtin_gptx_tensor_ld_tab_n(__t16x128x8x8_fp16_t dest, void *src, uint16_t global_w, uint32_t global_a, uint16_t local_d, uint16_t local_h, uint16_t local_w, void *tab); //load instruction to load look-up data, nibble data (4 bits)稀疏載入內在函數 ： void __builtin_gptx_tensor_ld_tab_n(__t16x128x8x8_fp16_t dest, void *src, uint16_t global_w, uint32_t global_a, uint16_t local_d, uint16_t local_h, uint16_t local_w, void *tab); //load instruction to load look-up table for decompress, nibble data (4 bits) 載入延伸內在函數

載入延伸內在函數是可應用在載入與計算的目的以及在儲存內在函數的來源上的函數。在編譯中，編譯器可需要基於延伸將載入延伸內在函數結合至其延伸內在函數中。中間結果被消除。複製 void __builtin_gptx_tensor_dup_fmap(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src); //duplicate instruction to duplicate feature map data, usually with a load instruction void __builtin_gptx_tensor_dup_kmap(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src); //duplicate instruction to duplicate a kernel map data, usually with a load instruction轉置 void __builtin_gptx_tensor_trp(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src); //transpose instruction to transpose the tensor data, usually with a load instructions or a store instruction填充 void __builtin_gptx_tensor_pad(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src, uint8_t n, uint8_t w); // padding instruction to pad the input feature map data to the west and north (with data the same to the east and south correspondingly) 計算內在函數加法 void __builtin_gptx_tensor_add_tt(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __t16x128x8x8_fp16_t src1, uint16_t d, uint16_t h, uint16_t w); //dest tensor = src0 tensor + src1 tensor void __builtin_gptx_tensor_add_tv(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __vfp16x2048_t src1, uint16_t d, uint16_t h, uint16_t w); //dest tensor = src0 tensor + src1 vector void __builtin_gptx_tensor_add_ts(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __fp16_t src1, uint16_t d, uint16_t h, uint16_t w); //dest tensor = src0 tensor + src1 scalar乘法運算 void __builtin_gptx_tensor_mul_tt(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __t16x128x8x8_fp16_t src1, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); // tensor dest = src0 tensor * src1 tensor void __builtin_gptx_tensor_mul_tv(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __vfp16x2048_t src1, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //dest tensor = src0 tensor * src1 vector void __builtin_gptx_tensor_mul_ts(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __fp16_t src1, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //dest tensor = src0 tensor * src1 scalar乘法運算以及加法 void __builtin_gptx_tensor_mac_ttt(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __t16x128x8x8_fp16_t src1, __t16x128x8x8_fp16_t src2, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //dest tensor = src0 tensor * src1 tensor + src2 tensor void __builtin_gptx_tensor_mac_tvt(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __vfp16x2048_t src1, __t16x128x8x8_fp16_t src2, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //dest tensor = src0 tensor * src1 vector + src2 tensor void __builtin_gptx_tensor_mac_ttv(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __t16x128x8x8_fp16_t src1, __vfp16x2048_t src2, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //dest tensor = src0 tensor * src1 tensor + src2 vector void __builtin_gptx_tensor_mac_tvv(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __ vfp16x2048_t src1, __vfp16x2048_t src2, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //dest tensor = src0 tensor * src1 vector + src2 vector void __builtin_gptx_tensor_mac_tst(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __fp16_t src1, __t16x128x8x8_fp16_t src2, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //dest tensor = src0 tensor *src1 scalar + src2 tensor void __builtin_gptx_tensor_mac_tts(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __t16x128x8x8_fp16_t src1, __fp16_t src2, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //dest tensor = src0 tensor * src1 tensor + src2 scalar void __builtin_gptx_tensor_mac_tsv(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __fp16_t src1, __vfp16x2048_t src2, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); // dest tensor = src0 tensor * src1 scalar + src2 vector void __builtin_gptx_tensor_mac_tvs(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __vfp16x2048_t src1, __fp16_t src2, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //dest tensor = src0 tensor * src1 vector + src2 scalar void __builtin_gptx_tensor_mac_tvs(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __fp16_t src1, __fp16_t src2, uint16_t od, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); // dest tensor = src0 tensor * src1 scalar + src2 scalar

相較於下述4D乘法運算指令，上述乘法運算以及加法指令被被指示至在複數頻道計算之中不具有約化/累計操作的3D操作。4D 乘法運算 void __builtin_gptx_tensor_mul4_tt(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __t16x128x8x8_fp16_t src1, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //tensor dest[i] = reduce (tensor src0 * tensor src1 [i]); compose tensor dest[0] – [i] into the final tensor dest; slice number of tensor dest is od (the slice of tensor src0 multiplies the slice of tensor srce1[i] and accumulates into one slice, the number of tensor srce1 is od, and slice number of resulting tensor from this function is also od) void __builtin_gptx_tensor_mul4_tv(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __vfp16x2048_t src1, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //similar to above except for the src1 is a vector void __builtin_gptx_tensor_mul4_ts(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __fp16_t src1, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //similar to above except for the src1 is a scalar void __builtin_gptx_tensor_mac4_ttt(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __t16x128x8x8_fp16_t src1, __t16x128x8x8_fp16_t src2, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //similar to above but having 一initial accumulate tensor dest[i] = reduce (tensor src0 * tensor src1[i] + tensor src2[i]) void __builtin_gptx_tensor_mac4_tvt(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __vfp16x2048_t src1, __t16x128x8x8_fp16_t src2, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //similar to above but having 一initial accumulate tensor dest[i] = reduce (tensor src0 * vector src1[i] + tensor src2[i]) void __builtin_gptx_tensor_mac4_ttv(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __t16x128x8x8_fp16_t src1, __vfp16x2048_t src2, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //similar to above but having 一initial accumulate tensor dest[i] = reduce (tensor src0 * tensor src1[i] + vector src2[i]) void __builtin_gptx_tensor_mac4_tvv(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __ vfp16x2048_t src1, __vfp16x2048_t src2, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //similar to above but having 一initial accumulate tensor dest[i] = reduce (tensor src0 * vector src1[i] + vector src2[i]) void __builtin_gptx_tensor_mac4_tst(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __fp16_t src1, __t16x128x8x8_fp16_t src2, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //similar to above but having 一initial accumulate tensor dest[i] = reduce (tensor src0 * scalar src1 + tensor src2[i]) void __builtin_gptx_tensor_mac4_tts(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __t16x128x8x8_fp16_t src1, __fp16_t src2, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); //similar to above but having 一initial accumulate tensor dest[i] = reduce (tensor src0 * tensor src1[i] + scalar src2) void __builtin_gptx_tensor_mac4_tsv(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __fp16_t src1, __vfp16x2048_t src2, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); // similar to above but having 一initial accumulate tensor dest[i] = reduce (tensor src0 * scalar src1 + vector src2[i]) void __builtin_gptx_tensor_mac4_tvs(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __vfp16x2048_t src1, __fp16_t src2, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); // similar to above but having 一initial accumulate tensor dest[i] = reduce (tensor src0 * vector src1[i] + scalar src2) void __builtin_gptx_tensor_mac4_tvs(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __fp16_t src1, __fp16_t src2, uint16_t od, uint16_t d2, uint16_t oh, uint16_t ow, uint8_t h2, uint8_t w2); // similar to above but having 一initial accumulate tensor dest[i] = reduce (tensor src0 * scalar src1 + scalar src2[i])激勵函數 ReLU void __builtin_gptx_tensor_relu(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, uint16_t d, uint16_t h, uint16_t w); //tensor dest = ReLU (tensor src0) 漏型ReLU void __builtin_gptx_tensor_leaky_relu(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __fp16_t src1, uint16_t d, uint16_t h, uint16_t w); //tensor dest = leaky ReLU(tensor src0) PReLU void __builtin_gptx_tensor_leaky_relu(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, __ t16x128x8x8_fp16_t src1, uint16_t d, uint16_t h, uint16_t w); //tensor dest = PReLU(tensor src0) 邏輯 void __builtin_gptx_tensor_sigmoid(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, uint16_t d, uint16_t h, uint16_t w); //tensor dest = Sigmoid(tensor src0) Tanh void __builtin_gptx_tensor_tanh(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, uint16_t d, uint16_t h, uint16_t w); //tensor dest = Tanh(tensor src0)約化最大 void __builtin_gptx_tensor_rmax(__t16x128x8x8_fp16_t dest, __t16x128x8x8_fp16_t src0, uint16_t d, uint16_t h, uint16_t w, uint8_t h2, uint8_t w2); //dest tensor = reduce Max(src0 tensor) with the kernel of height of h and width of w 儲存函數 void __builtin_gptx_tensor_st_u_b(__t16x128x8x8_fp16_t src, void *dest, uint16_t global_w, uint32_t global_a, uint16_t local_d, uint16_t local_h, uint16_t local_w, uint8_t stride_h, uint8_t stride_w); //store tensor src in dest //store instruction to store unsigned byte data (8 bits) void __builtin_gptx_tensor_st_s_b(__t16x128x8x8_fp16_t src, void *dest, uint16_t global_w, uint32_t global_a, uint16_t local_d, uint16_t local_h, uint16_t local_w, uint8_t stride_h, uint8_t stride_w); //store instruction to store signed byte data (8 bits) void __builtin_gptx_tensor_st_hf(__t16x128x8x8_fp16_t src, void *dest, uint16_t global_w, uint32_t global_a, uint16_t local_d, uint16_t local_h, uint16_t local_w, uint8_t stride_h, uint8_t stride_w); //store instruction to store hafl data (16 bits)

編譯器可將編譯器特定的內在函數轉換成包括可由加速器電路執行的機器指令的機器碼。機器指令可為32、64、或96位元長。可將指令以每列32位元來編碼，具有第一位元保留用於位元旗標，當位元旗標設定（例如，至1）時，指出32位元列不是指令的結束，以及當位元旗標復位（例如，至0）時，指出32位元列是指令的結束。

每個機器指令可包括用以以編碼操作碼的第一部分（例如，12位元）以及用以編碼操作應用至的運算元的第二部分（例如，36位元）。機器指令包括下述指令：載入指令ldtsdup0f_c_ft $eta, $asa, $rsa, $nsa, $nsb

其中EXT_CAT相對應於嵌入張量延伸； OP = ldtsdup0是代表載入指令的操作碼； DUP0代表當資料元件被複製至不同的硬體分割至它們相對應的本身胞元時，在一個引擎電路中相同硬體分割中的胞元（由張量控制暫存器配置）可具有不同的資料值； C指出資料是否被提供在捲積或點乘積中（conv/dp）； FT指出浮點資料元件類型； ASA是輸入資料基數位址； ETA是用於目的的張量暫存器id； RSA儲存整體維度資訊如下：

G0儲存整體寬度，以及G1儲存頻道的整體面積； NSA儲存局部維度資訊如下：

L0儲存局部寬度，L1儲存局部高度，以及L2儲存局部深度； NSB是填充要求如下：

N是填充至北邊的元件數目，以及W是填充至西邊的元件數目。lddtsdup0f_c_ft $eta, $asa, $rsa, $nsa, $nsb, $etb

OP = lddtsdup0是操作碼； ETB是第二目的暫存器，當C是conv時，用於邊界資料或另外用以複製ETA資料以加倍計算中的頻寬。ldtsdup0f_c_ft 的相對應整數版本是ldtsdup0_c_it ，以及lddtsdup0f_c_ft 的相對應整數版本是lddtsdup0_c_it。ldtsdup1f_t_c_ft $eta, $asa, $rsa, $nsa

OP = ldtsdup1是操作碼； DUP1指出當不同的分割具有不同的資料值時，在相同硬體分割中的胞元（由張量控制暫存器配置）具有相同的資料值； T是應用至維度0以及維度1的轉置運算子。ldtsdup1f_t_c_ft 的整數版本是ldtsdup1_t_c_it 。機器指令也可具有壓縮版本：ldtsdup1lookup_t_c_s_it $eta, $asa, $rsa, $nsa, $asb

OP = ldtsfdup1lookup是操作碼； ASB是用於載入查詢表格的基數位址； S指出資料是在稀疏儲存格式中（稀疏或n稀疏＜nsparse＞）。ldtsdup2f_ft $eta, $asa, $rsa, $nsa

OP = ldtsdup2是操作碼； DUP2指出在分割中或在分割之間沒有資料複製；以及 RSA儲存整體維度資訊如下：

PH是水平方向中的集用跨步，以及PV是垂直方向中的集用跨步。ldtsdup2f_ft 的整數版本是ldtsdup2_it 。ldtsnop $eta

OP = nop是指出沒有操作的操作碼。儲存指令sttsf_b_ft $esa, $asa, $rsa, $nsa

OP = stts是操作碼； B是屏障訊號（bar/nbar）； ESA是來源張量暫存器id； RSA儲存全球資訊如下：

NSA儲存局部維度資訊如下：

PL0 在集用之後儲存局部寬度。sttsf_b_ft 的整數版本是stts_b_it 。計算指令maddttt_act_c_s_d $eta, $esa, $esb, $esc, $nsa, $nsb

OP = maddttt是用於在三個張量運算元上的乘法運算以及加法的操作碼； D 指出深度方向（dw/ndw）； ACT是啟動次運算子（nact/relu/tanh/S型）； ESA、ESB、以及ESC是輸入資料識別碼（例如，用於張量暫存器或儲存一部分的特徵映射以及核心映射的區域記憶庫的識別碼）； ETA是輸出資料識別碼（例如，用於張量暫存器或區域記憶庫以儲存輸出資料的識別碼）； NSA儲存局部維度資訊如下：NSA儲存主機中64位元暫存器的位址，並含有例如輸入特徵映射的寬度/高度（L00/L01）、或輸出特徵映射的寬度/高度（L20/L21）之類的局部維度資訊

類似於NSA，NSB含有操作維度資訊例如核心的膨脹維度（D0/D1）、相對應於L0、L1、L2、L3的核心寬度、核心高度、輸入頻道數目、輸出頻道數目。

相同的操作可為應用至張量/張量/向量（maddttr）、張量/向量/張量（maddtrt）、張量/向量/向量（maddtrr）、向量/張量/張量（maddrtt）、向量/張量/向量（maddrtr）、或向量/向量/張量（maddrrt）的三個運算元。preluXX_s $eta, $esa, $esb, $nsa

Op = preluXX是用於在張量/張量（tt）或張量/向量（tr）的兩個運算元上的preLU的操作碼。 NSA儲存局部維度資訊如下：

rmaxt_act $eta, $esa $nsa, $nsb

Op = rmaxt是用於約化最大張量的操作碼，即，用以在張量中找尋最大值。

編譯器可進一步結合機器指令以形成加速器電路指令。表格1是用於在特徵映射以及核心之間的捲積的範例碼。表格1

void conv_hf(fp16* src, fp16*kernel, fp16*dest) { __gptx_glob0_t glob_fmap; __gptx_loc0_t loc; __gptx_loc_pad_t pad; __gptx_dual_tensor_t fb = __builtin_gptx_ldtddup0_conv_hf(src, glob_fmap, loc, pad);//FN1 __gptx_glob1_t glob_kern; __gptx_loc1_t loc; __gptx_tensor_t kb = __builtin_gptx_ldtdup1f_conv_hf(kernel, glob_kern, loc);//FN2 __gptx_loc3_t loc; __gptx_cal_dim_t comp; __gptx_tensor_t ob = __builtin_gptx_mad_conv_dual(fb, kb, NULL_BANK, loc, comp, FN_NOOP);//FN3 __gptx_glob2_t glob; __gptx_loc2_t loc; __builtin_gptx_sttsf_hf(dest, ob, glob, loc);//FN4 }

如表格1中所示的碼可由編譯器編譯以產生機器碼。處理器可執行機器碼並將計算密集捲積工作委派至加速器電路。捲積函數conv_hf包括三個參數，包括特徵映射位址*src、核心映射位址、*核心、以及目的位址*dest。捲積函數含有四個子函數，包括用於載入特徵映射的FN1、用於載入核心映射的FN2、用於神經元矩陣計算的FN3、以及用於儲存結果的FN4。每個子函數可在參數的準備之前。FN1–FN3的輸出是局部銀行識別碼，其中fb或kb是用於儲存從外部記憶體檢索的特徵映射或核心映射的局部銀行識別碼，以及ob是用於儲存來自神經元矩陣計算的結果的局部銀行識別碼。每個對捲積函數conv_hf的呼叫可在張量中達到一片資料的捲積。迴圈可用以在全張量上達到捲積。

在編譯期間，可將conv_hf的來源碼轉換成機器碼。可將機器碼結合成單一加速器指令，其中FN1以及FN2的機器碼可構成DMA輸入命令，FN2可構成神經元矩陣命令，以及FN4可構成DMA輸出命令。可將加速器指令發送至加速器電路來執行，如結合圖 2 至圖 6 所述的。

範例1是一種系統，其包括用以儲存輸入資料的記憶體、加速器電路、以及處理器，加速器電路包括輸入命令執行電路、一神經元矩陣命令執行電路以及輸出命令執行電路，處理器通訊地耦合至記憶體以及加速器電路，以從針對加速器電路的來源碼產生指令串流，每一個指令串流包括輸入命令、神經元矩陣命令、或輸出命令的至少其中之一，並將指令串流發送至加速器電路讓輸入命令執行電路、神經元矩陣命令執行電路以及輸出命令執行電路來執行。

雖然以關於有限數目的實施方式來描述了本揭露內容，本領域的技術人員將從其領略許多修飾以及變化。意欲所附申請專利範圍涵蓋落在此揭露內容的真實精神與範圍內的所有這樣的修飾以及變化。

設計可經歷各種階段，從創造至模擬至製造。代表一個設計的資料可以許多方式來代表此設計。首先，如同在模擬中有用的是，硬體可使用硬體描述語言或另一個函數描述語言來代表。此外，具有邏輯及/或電晶體閘的電路級別模型可在設計過程的一些階段被製造。此外，大部分的設計，在某個階段，到達了代表硬體模型中各種裝置實體佈置的資料級別。在其中使用傳統半導體製造技術的例子中，代表硬體模型的資料可能是具體說明在存在或缺乏用以製造積體電路的遮罩的不同遮蔽層上的各種特徵的資料。在設計的任何表現中，資料可被儲存在任何形式的機器可讀取媒體中。記憶體或例如碟片之類的磁性或光學儲存可為機器可讀取媒體以儲存經由光學或電波調變來傳輸的資訊或以另外產生以傳輸這樣的資訊。當指出或攜帶碼或設計的電載波被傳輸至執行電訊號的複製、緩衝或再傳輸的程度時，會做出新的副本。因此，通訊提供者或網路提供者可至少暫時地將例如編碼成載波的資訊之類的文章儲存在有形、機器可讀取的媒體上，體現了本揭露內容實施方式的技術。

如本文中所使用的模組意指硬體、軟體及/或韌體的任何組合。作為範例，模組包括與非暫時性媒體相關聯的硬體，例如微控制器，以儲存被調適以由微控制器執行的碼。因此，對模組的提及，在一個實施方式中，意指硬體，其被具體配置用以辨識及/或執行要被保持在非暫時媒體上的碼。此外，在另一個實施方式中，模組意指包括碼的非暫時媒體，其被具體調適成由微控制器執行以執行預定的操作。且如同可推斷的，在更另一個實施方式中，用語模組（在此範例中）可意指微控制器以及非暫時媒體的組合。被示例為分開的模組邊界通常會不同且有可能會重疊。例如，第一以及第二模組可共享硬體、軟體、韌體或其組合，而可能保留一些獨立的硬體、軟體或韌體。在一個實施方式中，用語邏輯的使用包括硬體，例如電晶體、暫存器，或其他的硬體，例如可程式化邏輯裝置。

在一個實施方式中，片語「被配置成」的使用意指配置、放在一起、製造、提供用以販售、引進及/或設計裝置、硬體、邏輯或元件，以執行指定的或確定的工作。在此範例中，如果其是被設計、耦合及/或互連以執行所述指定的工作，沒有被操作的裝置或其元件仍「被配置成」執行指定的工作。如純示例性的範例，邏輯閘可在操作期間提供0或1。但是「被配置成」提供致能訊號至時鐘的邏輯閘不包括每個可提供1或0的潛在邏輯閘。反而，邏輯閘是一種以某種方式耦合以在操作期間1或0輸出是用以致能時鐘的邏輯閘。再次注意，用語「被配置成」的使用不需要操作，但反而著重在裝置、硬體及/或元件的潛伏狀態，其中在潛伏狀態中，當裝置、硬體及/或元件正在運作時，裝置、硬體及/或元件被設計以執行特定工作。

此外，在一個實施方式中，片語「以（to）」、「能夠/以（capable of/to）」及/或「可操作用以」的使用意指以這樣的方式設計以以特定方式致能裝置、邏輯、硬體及/或元件的使用的某些裝置、邏輯、硬體及/或元件。注意，在一個實施方式中，如上「以」、「能夠/以」及/或「可操作用以」的使用意指裝置、邏輯、硬體及/或元件的潛伏狀態，其中裝置、邏輯、硬體及/或元件未被操作，但以這樣的方式設計以以特定方式來致能裝置的使用。

如本文中所使用的值包括數目、狀態、邏輯狀態或二進制邏輯狀態的任何已知表示形式。通常，邏輯位準、邏輯值（logic value）、或邏輯值（logical value）也稱為1以及0，其僅表示二進制邏輯狀態。例如，1意指高邏輯位準以及0意指低邏輯位準。在一個實施方式中，儲存胞元，例如電晶體或快閃胞元，可能能夠保持單一邏輯值或複數邏輯值。然而，已使用過電腦系統中值的其他表示形式。例如，十進位數字十也可表示為910的二進制值以及十六進位字母A。因此，值包括能夠被保持在電腦系統中的資訊的任何表示形式。

此外，狀態可由值或值的部分來表示。作為範例，第一值，例如邏輯一，可表示預設或初始狀態，而第二值，例如邏輯零，可表示非預設狀態。此外，在一個實施方式中，用語重設以及設定分別意指預設以及更新值或狀態。例如，預設值潛在地包括高邏輯值，即重設，而更新值潛在地包括低邏輯值，即設定。注意，可利用值的任何組合來表示任何數量的狀態。

上述提及的方法、硬體、軟體、韌體或碼的實施方式可經由儲存在可由處理元件來執行的機器可存取、機器可讀取、電腦可存取或電腦可讀取媒體上的指令或碼來實施。非暫時機器可存取/可讀取媒體包括提供（即，儲存及/或傳輸）為例如電腦或電子系統之類的機器可讀取形式的資訊的任何機制。例如，非暫時機器可存取媒體包括隨機存取記憶體（RAM），例如靜態RAM（SRAM）或動態RAM（DRAM）；ROM；磁性或光學儲存媒體；快閃記憶體裝置；電儲存裝置；光學儲存裝置；音響儲存裝置；用於保持從暫時（傳播）訊號（例如，載波、紅外線訊號、數位訊號）接收的資訊的其他形式的儲存裝置；等等，其與可從其資訊的非暫時媒體區別。

可將用以設計程式邏輯以執行本揭露內容實施方式的指令儲存在系統的記憶體中，例如DRAM、快取記憶體、快閃記憶體或其他的儲存。此外，指令可經由網路或藉由其他電腦可讀取媒體。因為機器可讀取媒體可包括用於儲存或傳輸為機器（例如，電腦）可讀取形式的資訊的任何機制，但不限於軟式磁片、光碟（optical disk）、光碟（Compact Disc）、唯讀記憶體（CD-ROM）以及磁光碟、唯讀記憶體（ROM）、隨機存取記憶體（RAM）、可清除可程式化唯讀記憶體（EPROM）、電氣可清除可程式化唯讀記憶體（EEPROM）、磁性或光學卡、快閃記憶體、或在經由電、光學、音響或其他形式的傳播訊號（例如，載波、紅外線訊號、數位訊號，等等）在網際網路上的資訊傳輸中使用的有形機器可讀取儲存。因此，電腦可讀取媒體包括適合用於儲存或傳輸為機器（例如，電腦）可讀取形式的電子指令或資訊的任何類型的有形機器可讀取媒體。

此說明書從頭到尾對於「一個（one）實施方式」或「一個（an）實施方式」意指與實施方式有關的所述特定特徵（feature）、結構或特徵（characteristic）被包括在本揭露內容的至少一個實施方式中。因此，在此說明書從頭到尾各處中的片語「在一個（one）實施方式中」或「在一個（an）實施方式中」不一定全意指相同的實施方式。此外，可以任何適合的方式將特定的特徵（feature）、結構、或特徵（characteristic）結合在一或複數實施方式中。

在前述的說明書中，已參照特定的範例實施方式給出了詳細的描述。然而，將顯而易見的是，在不悖離如所附申請專利範圍中所提及的本揭露內容的較廣精神與範圍的情況下，可對其做出各種修飾以及改變。因此，說明書以及圖式要以示例性的概念而非限制性的概念來看待。此外，前述實施方式的使用以及其他示範性的語言不一定意指相同的實施方式或相同的範例，但可意指不同且有區別的實施方式，以及潛在相同的實施方式。

100:系統 102:處理器（CPU） 104、200:加速器電路 106:介面電路 108:記憶體 110:編譯器 112:指令集架構 114:輸入資料 116:輸出資料 118:神經網路應用程式 202:引擎 204:控制介面 206:系統匯流排主埠 208:高速從屬埠 210:中斷控制器 212:性能監視器 300:引擎電路 302:指令 304:調度邏輯 306:神經元矩陣命令 308:DMA輸入命令 310:DMA輸出命令 312:神經元矩陣命令佇列 314:DMA輸入命令佇列 316:DMA輸出命令佇列 318:神經元矩陣 320:DMA輸入 322:DMA輸出 324:區域記憶庫參考板 326:區域記憶庫 400:區域記憶體參考板 402、404:計數器 406、408:參考暫存器 500、600:計算胞元 602:計算單元陣列（每個單元由U代表） 604:維度計數器 606:Fmap饋送器 608:核心饋送器 610:Psum饋送器 612:區域記憶庫0-9 614:寫入器 616:定標器暫存器0-7 700、800:方法 AXI:可擴充介面 DMA:直接記憶體存取

從下面給出的實施方式以及從本揭露內容各種實施方式的所附圖式將更完全地了解本揭露內容。然而，圖式不應被視為將本揭露內容限制於具體實施方式，但僅用於解釋以及了解。圖 1 示例了根據本揭露內容的一個實施方式的一種包括加速器電路的系統。圖 2 示例了根據本揭露內容的一個實施方式的一種加速器電路的示意圖。圖 3 示例了根據本揭露內容的一個實施方式的一種引擎電路的示意圖。圖 4 示例了根據本揭露內容的一個實施方式的一種區域記憶體參考板的示意圖。圖 5 示例了根據本揭露內容的一個實施方式的一種計算胞元的矩陣。圖 6 示例了根據本揭露內容的一個實施方式的一種計算胞元的示意圖。圖 7 是根據本揭露內容的一個實施方式之主機的處理器使用加速器電路來執行一神經網路應用的方法的流程圖。圖 8 是根據本揭露內容的一個實施方式之加速器電路執行指令串流的方法的流程圖。

100:系統

102:處理器(CPU)

104:加速器電路

106:介面電路

108:記憶體

110:編譯器

112:指令集架構

114:輸入資料

116:輸出資料

118:神經網路應用程式

Claims

一種用於操作加速器電路之系統，包括：一記憶體，用以儲存一輸入資料；一加速器電路，包括一輸入命令執行電路、一神經元矩陣命令執行電路、以及一輸出命令執行電路；以及一處理器，通訊地耦合至該記憶體以及該加速器電路，用以：從針對該加速器電路的一來源碼產生一指令串流，該指令串流的每一個包括一輸入命令、一神經元矩陣命令、或一輸出命令的至少其中之一；以及將該指令串流發送至該加速器電路，以由該輸入命令執行電路、該神經元矩陣命令執行電路、以及該輸出命令執行電路來執行。
如請求項1所述的系統，其中該輸入命令是一載入指令，包括：一操作碼，指出在硬體分割上的資料複製的一類型、一目標操作、或一資料類型的至少其中之一；一第一運算元，表示相對應於儲存在該記憶體中的該輸入資料的一起始點的一基數位址；一第二運算元，表示儲存一整體維度資訊的一第一暫存器的一參考；一第三運算元，表示儲存一局部維度資訊的一第二暫存器的一參考；以及一第四運算元，表示指出該加速器電路的一區域記憶體中的該輸入資料的一目的的一位址。
如請求項2所述的系統，其中在硬體分割上的資料複製的該類型包括在該加速器電路的一硬體分割中複製所有胞元中的一第一資料值、在該加速器電路的一第二硬體分割中將一第一硬體分割中的一胞元中的一第二資料值複製至一相對應胞元、或未複製，其中該目標操作是一捲積或一點乘積的其中之一，以及其中該資料類型是未簽署位元、簽署位元、一半精確浮點、一浮點、或一整數的其中之一。
如請求項2所述的系統，其中該整體維度資訊包括該輸入資料的一寬度以及一面積，以及其中該局部維度資訊包括該輸入資料的一部分的一寬度、一高度、以及一深度。
如請求項2所述的系統，其中該區域記憶體包括複數區域記憶庫，以及其中該目的包括該複數區域記憶庫的其中之一的一識別碼。
如請求項1所述的系統，其中該輸出命令包括：一操作碼，指出一資料儲存操作；一第一運算元，表示指出該加速器電路的一區域記憶體中的該輸出資料的一來源的一位址；一第二運算元，表示對儲存一整體維度資訊的一第一暫存器的一參考；一第三運算元，表示對儲存一局部維度資訊的一第二暫存器的一參考；以及一第四運算元，表示相對應於儲存在該記憶體中的該輸出資料的一起始點的一基數位址。
如請求項6所述的系統，其中該整體維度資訊包括該輸入資料的一寬度以及一面積，其中該局部維度資訊包括該輸入資料的一部分的一寬度、一高度、以及一深度。
如請求項6所述的系統，其中該區域記憶體包括複數區域記憶庫，且其中該來源包括該複數區域記憶庫的其中之一的一識別碼。
如請求項1所述的系統，其中該神經元矩陣命令包括：一操作碼，指出一計算、運算元的一或複數維度、一激勵函數、或一目標操作的至少其中之一；表示該計算的一第一資料來源的一第一運算元、表示該計算的一第二資料來源的一第二運算元、或表示該計算的一第三資料來源的一第三運算元的至少其中之一；一第四運算元，表示該計算的一結果的一目的；以及一第五運算元，表示對儲存一局部維度資訊的一第一暫存器的一參考。
如請求項9所述的系統，其中該神經元矩陣命令的該計算包括一乘法運算以及加法(MADD)、一線性整流函數(ReLU)或一約化最大張量的其中之一，其中該神經元矩陣命令的運算元的該一或複數維度包括一張量以及一向量，其中該神經元矩陣命令的該激勵函數包括不啟動、一ReLU函數、一雙曲正切函數、或一S型函數的其中之一，以及其中該神經元矩陣命令的該目標操作是一捲積或一點乘積的其中之一。
如請求項10所述的系統，其中該MADD操作是將來自該第一資料來源的一資料元件乘以來自該第二資料來源的一資料元件以產生一中間結果，並將該中間結果加上來自該第三資料來源的一資料元件以產生這些結果。
如請求項10所述的系統，其中該約化最大張量操作是確定該第一資料來源中的一最大值。
如請求項1所述的系統，其中該處理器用以：在該來源碼中識別與該加速器電路相關聯的複數內在函數；執行一編譯器以將該複數內在函數轉換成複數機器指令；以及藉由結合該複數機器指令的其中之一或複數來產生每個該指令串流。
如請求項1所述的系統，其中該加速器電路包括：一控制介面，用以接收該指令串流；該區域記憶體；以及一引擎電路，通訊地耦合至該控制介面以及該區域記憶體，該引擎電路包括：一調度電路，用以將該指令串流的一指令解碼成該輸入命令、該神經元矩陣命令、以及該輸出命令；一輸入命令佇列電路用以將該輸入命令儲存在一輸入命令佇列中，一神經元矩陣命令執行電路用以將該神經元矩陣命令儲存在一神經元矩陣命令佇列中，以及一輸出命令佇列電路用以將該輸出命令儲存在一輸出命令佇列中；以及該輸入命令執行電路用以執行該輸入命令，該神經元矩陣執行電路用以執行該神經元矩陣命令，以及該輸出命令執行電路用以執行該輸出命令。
如請求項14所述的系統，其中該輸入命令執行電路、該神經元矩陣命令執行電路、以及該輸出命令執行電路分別用以執行從該指令所解碼的該輸入命令、該神經元矩陣命令、以及該輸出命令，而無需同步化。
如請求項15所述的系統，其中該輸入命令是一直接記憶體存取(DMA)輸入命令，以及該輸出命令是一DMA輸出命令。
如請求項14所述的系統，其中該神經元矩陣命令執行電路包括：一計算胞元矩陣，每個計算胞元連接至該矩陣的至少另一個計算胞元，其中在該計算胞元矩陣中的每個計算胞元包括：一計算單元陣列；複數維度計數器；複數饋送器電路，通訊地耦合至該計算單元陣列；以及與該複數饋送器電路相關聯的複數區域記憶庫。
一種用於操作加速器電路之方法，該方法包括：藉由一處理器，識別包括針對一加速器電路的複數內在函數的一來源碼；藉由該處理器，將該來源碼轉換成包括相對應於該複數內在函數的複數機器指令的一機器碼；藉由該處理器，將該複數機器指令的一或複數結合成一加速器電路指令；以及藉由該處理器，將該加速器電路指令發送至該加速器電路以用於執行。
如請求項18所述的方法，更包括：產生一加速器電路指令串流；以及將該加速器電路指令串流發送至該加速器電路。
如請求項18所述的方法，其中該加速器電路指令包括一輸入命令、一神經元矩陣命令、或一輸出命令的至少其中之一。
如請求項20所述的方法，其中該加速器電路包括一輸入命令執行電路用以執行該輸入命令、一神經元矩陣命令執行電路用以執行該神經元矩陣命令、以及一輸出命令執行電路用以執行該輸出命令。