TW201824096A

TW201824096A - 執行卷積計算的系統及方法

Info

Publication number: TW201824096A
Application number: TW106144577A
Authority: TW
Inventors: 蔡松芳; 叢培貴; 范博鈞; 賴守仁
Original assignee: 聯發科技股份有限公司
Priority date: 2016-12-20
Filing date: 2017-12-19
Publication date: 2018-07-01
Also published as: TWI639119B; CN108205701A; US20180173676A1; CN108205701B; US10394929B2

Abstract

本發明提供一種以矩陣模式或者濾波器模式執行卷積計算的系統。分析模組生成模式選擇信號，以基於分析卷積特徵的結果而選擇矩陣模式或者濾波器模式。該結果包括至少矩陣模式與濾波器模式之間的資源利用的比較。卷積模組包括複數處理元件，每一處理元件進一步包括算術計算電路。卷積模組用於根據矩陣模式執行自卷積計算轉換而來的矩陣乘法，並用於根據濾波器模組執行卷積計算。本發明還提供了對應的方法。本發明能有效執行卷積計算，並提高資源利用率。

Description

執行卷積計算的系統及方法

本發明的實施例涉及用於卷積計算(convolution computing)的電腦架構，更具體地，涉及一種執行卷積計算的系統及方法。

在電腦視覺、語音辨識、自然語言處理和生物資訊學的領域中，深度學習以其優越的性能已得到廣泛的認可。深度學習是機器學習的分支，其利用包含多個隱藏層的人工神經網路。稱為卷積神經網路(convolutional neural network，CNN)的一種類型的人工神經網路由深度學習在大資料集上使用，例如，圖像資料的大資料集。CNN已在圖像應用中顯現出良好的結果。例如，CNN可以被用在特徵提取上。從輸入端所接收的原始圖像像素中，CNN可以在輸出端為不同級別的特徵生成分數。

CNN的計算工作量很大。CNN的核心計算為卷積，其涉及高階嵌套環(high-order nested loop)。對於特徵提取，CNN在通道集(例如，紅、綠及藍)上對具有二維濾波器集的輸入圖像像素進行卷積，然後進行非線性計算、向下採樣計算與級別分數計算。已經瞭解卷積計算對資源要求很高。除了CNN，卷積計算還經常用於解決科學問題與工程問題。因此，需要優化卷積計算以提高性能。

本發明的目的在於，提供一種執行卷積計算的系統及方法，以解決上述問題。

在一個實施例中，提供了一種用於執行卷積計算的系統。該系統包括分析模組，其根據分析多個卷積特徵的多個結果，生成模式選擇信號以選擇矩陣模式與濾波器模式中的一個。該等結果包括至少矩陣模式及濾波器模式之間的資源利用的比較。該系統還包括與所述分析模組耦接的卷積模組。該卷積模組包括複數處理元件，每一處理元件包括算術計算電路。所述卷積模組用於根據所述矩陣模式執行自多個卷積計算轉換而來的複數矩陣乘法，並用於根據所述濾波器模式執行該等卷積計算。

在另一實施例中，提供了用於執行卷積計算的方法。該方法包括：卷積模組接收用於選擇矩陣模式與濾波器模式中的一個的模式選擇信號。所述模式選擇信號是基於分析多個卷積特徵的多個結果生成而來，該等卷積特徵包括至少矩陣模式與濾波器模式之間的資源利用的比較。所述卷積模組包括複數處理元件，每一處理元件包括算術計算電路。該方法還包括：回應於選擇所述矩陣模式，執行自多個卷積計算轉換而來的複數矩陣乘法；以及回應於選擇所述濾波器模式，執行該等卷積計算。

透過根據一個給定的CNN問題的特徵而使用處理元件的配置及/或資料調度到處理元件，本發明實施例使得卷積計算有效，實施例的有益效果將在下文中詳細解釋。

本發明透過分析卷積特徵，根據分析的結果產生模式選擇信號以選擇矩陣模式或濾波器模式，進而多個處理元件根據矩陣模式進行矩陣乘法，並根據濾波器模式進行卷積計算，有效執行卷積計算，並透過多個處理元件既進行矩陣乘法又進行卷積計算，提高資源利用率。

100‧‧‧系統

110‧‧‧處理模組

120，210，220，610‧‧‧卷積模組

130‧‧‧記憶體

140‧‧‧系統記憶體

150‧‧‧分析模組

230‧‧‧矩陣引擎

240‧‧‧濾波器引擎

231，331‧‧‧第一陣列

241，441‧‧‧第二陣列

250‧‧‧混合引擎

251‧‧‧混合陣列

310，410，510，710，810‧‧‧處理元件

315，515，711，811‧‧‧累加器

320，420，520‧‧‧第一輸入暫存器

330，430，530‧‧‧第二輸入暫存器

340，440，540‧‧‧輸出暫存器

350，550，640，740，840‧‧‧資料調度引擎

360‧‧‧圖像矩陣

370‧‧‧濾波器矩陣

620‧‧‧載入引擎

630‧‧‧本地暫存器

650，750，850‧‧‧處理元件陣列

712，812‧‧‧加法器

713，813‧‧‧乘法器

900‧‧‧方法

910-930‧‧‧步驟

本發明之不同實施例之描述可一併參考後面之圖示，其中同樣的標號代表同樣元件，其中：第1圖是根據一個實施例的執行CNN計算的系統；第2A圖是根據一個實施例的包括矩陣引擎和濾波器引擎的卷積模組；第2B圖是根據另一實施例的包括混合引擎的卷積模組；第3圖是根據一個實施例的矩陣引擎；第4圖是根據一個實施例的濾波器引擎；第5圖是根據一個實施例的混合引擎；第6圖是根據另一實施例的卷積模組；第7圖是根據一個實施例的矩陣模式中具有調度資料(dispatched data)的硬體設定；第8圖是根據一個實施例的濾波器模式中具有調度資料的硬體設定；第9圖是根據一個實施例的執行卷積計算的方法的流程示意圖。

本發明實施例提供一種用於有效卷積計算的方法及系統。該系統包括卷積模組，其進一步包括用於執行卷積計算的處理元件。卷積模組是卷積計算系統的核心計算模組。在下文中，以CNN為例，對卷積計算進行描述。可以理解的是，本文所描述的卷積計算技術可以被應用到計算卷積的任何應用或者問題中。

在描述用於CNN計算的硬體架構之前，可能先描述CNN計算中使用的一些技術是有幫助的。通常，相比於輸入圖像尺寸，用於CNN計算的濾波器在尺寸上是較小的。例如，一個濾波器可以由5x5的濾波器權重構成，即沿著寬度方向有5個濾波器權重，且沿著高度方向有5個濾波器權重。相對而言，在每個寬度方向與高度方向中，輸入圖像可以具有成千上萬個像素。除了寬度與高度，輸入圖像具有深度方向，其可以是輸入圖像中顏色通道的數量。在卷積期間，濾波器滑過輸入圖像的寬度及/或高度，並且計算任何位置處的濾波器權重與圖像像素值之間的點積(dot product)。當濾波器在輸入圖像上滑動時，生成二維輸出特徵圖。輸出特徵圖表示位於輸入圖像的每個空間位置處的濾波器回應。當多個濾波器被應用到輸入圖像時，生成多個輸出特徵圖。每個輸出特徵圖透過使用濾波器而產生，並且不同的輸出特徵圖可以用於檢測輸入圖像中的不同的特徵。當計算點積(即卷積)時，濾波器可以按照一次一個像素的方式在輸入圖像上滑動。在一些情況中，濾波器可以按照一次多個像素的方式在輸入圖像上滑動。濾波器在卷積的每個步驟中在輸入圖像上滑過的像素的數量稱為步幅大小(stride size)。

在一個實施例中，CNN計算系統包括至少兩個引擎：矩陣引擎與濾波器引擎。矩陣引擎執行兩個矩陣的矩陣乘法，其自輸入圖像與濾波器的卷積轉換而來。很容易並行執行矩陣乘法，但是需要較大記憶體及頻寬。濾波器引擎可以包括處理元件，其接收圖像資料及以對卷積計算有效的方式而分配的濾波器權重。但是，當問題尺寸與硬體尺寸不匹配時，濾波器引擎或者矩陣引擎可能遭受硬體利用效率低的問題。

第1圖示出了本發明實施例可操作的系統100的示例。該系統100包括處理模組110，其與用於執行卷積計算的卷積模組120耦接。處理模組110可以包括一個或者多個處理器，每個處理器進一步包括用於執行算術操作和/或邏輯操作的電路。處理器的實施例包括，但不限於，中央處理單元(central processing unit，CPU)、算術及邏輯單元(arithmetic and logic unit，ALU)、向量處理器(vector processor)和其他通用及/或專用處理電路。卷積模組120是用於執行卷積的執行引擎。卷積模組120可以包括多個被參考為處理元件的硬體元件，其中每個包括算術計算電路，例如一個或多個乘法器、加法器、累加器(accumulator，ACC)、ALU、處理器或其任何組合。處理元件可以被設置成一個或多個陣列。根據來自於分析模組150的模式選擇信號，卷積模組120以矩陣模式或濾波器模式執行卷積計算。

在一個實施例中，卷積模組120的輸出可以被發送到處理模組110，其根據具體的圖像應用的要求，執行非線性操作、環路操作、全連接的神經網路操作等的組合。在一個實施例中，處理模組110與卷積模組120一起用作特徵提取器，其用於從給定的輸入圖像中提取特定特徵(例如，車、人、船等)。可選地，處理模組110與卷積模組120執行CNN計算，以用於不限於上述說明的大量的圖像應用。系統100可以是計算設備、通信設備或者計算及通信設備的組合的一部分。在另一實施例中，處理模組110和卷積模組120一起可以執行與CNN相關或者不相關的其他科學的計算或者工程計算。

分析模組150對卷積特徵集進行分析。在一個實施例中，分析模組150可以與處理模組110及/或記憶體130耦接，以接收卷積特徵。分析模組150也可以與卷積模組120耦接，以發送模式選擇信號，其用於根據分析結果選擇卷積模式。在一個可選的實施例中，分析模組150可以是處理模組110的一部分。分析模組150可以是硬體元件或者存儲在由諸如處理模組110中的電路的機器執行的機器可讀介質中的軟體程式。

在一個實施例中，考慮到如果存在的硬體約束和使用者需求，分析模組150確定每個卷積特徵如何影響包括資源利用的性能統計。性能統計也可以包括所需要的處理時間和/或能量消耗限度。在一個實施例中，分析模組150可以線上(即在運行操作的期間)或線下執行這個分析。硬體約束可以包括，但不限於卷積模組120中的處理元件的數量，分配給矩陣模式與濾波器模式中每個的處理元件陣列的高度及寬度，每個處理元件的能量消耗，處理速度與通信頻寬，以及記憶體容量與記憶體頻寬。用戶需求可以包括用於能量消耗的上限、所需處理時間的上限以及用於諸如記憶體資源與處理資源的利用的資源利用的下限中的一個或多個。

當用於圖像應用的給定具體卷積特徵時，對於卷積模組120中如果存在的給定的硬體及需求而言，分析模組150比較矩陣模式與濾波器模式之間的性能統計。分析模組150比較這兩個模式的性能，並相應地產生用於卷積模組150的模式選擇信號。在一個實施例中，基於卷積計算的尺寸與卷積模組120中的陣列或者陣列組尺寸是否匹配，或者卷積計算的尺寸與卷積模組120中的陣列或者陣列組尺寸的不匹配程度，分析模組150可以進行模式選擇。

在一個實施例中，由分析模組150所分析的卷積特徵可以包括，但不限於輸入圖像高度與寬度、通道數量、輸入圖像計數、輸入濾波器高度與寬度、輸入濾波器計數、步幅大小、輸入批量尺寸(input batch size)、並行方向度、輸入通道順序、輸出通道順序等。更具體而言，輸入批量尺寸是在卷積計算中一起處理以提高重新使用率的資料集合的尺寸。並行方向度是並行分配給卷積計算的處理元件的方向度。這些所分配的處理元件被稱為並行處理單元(parallel processing unit，PPU)。例如，一個PPU可以包括3x3=9個ALU，以用於並行的卷積計算，並且另一個PPU可以包括7x7=49個ALU。並行緯度也包括PPU放置形狀。例如，具有32個ALU的PPU可以被放置在8x4個ALU的二維陣列，或者16x2個 ALU的二維陣列，或者32x1個ALU的一方向陣列中，以用於不同的輸入資料足跡(data footprints)。關於輸入通道與輸出通道的通道順序，通道順序表示關於顏色通道排列的記憶體中的圖像足跡(image footprint)。對於RGB通道，一個通道順序可以是RGB的重複模型(repeated pattern)，另一個通道順序可以是所有R通道，其後先是所有G通道，再是所有的B通道。

分析模組150用覆蓋寬範圍的情景的卷積特徵的不同組合，可以計算用於矩陣模式及濾波器模式兩者的性能統計。在系統運行操作期間，當系統100被給定用於圖像應用的卷積特徵集時，基於所計算的性能統計，分析模組150確定將選擇哪個模式。分析模組150可以在系統100的執行時間中產生並發送模式選擇信號到卷積模組120。

雖然第1圖示出分析模組150作為位於處理模組110外部的硬體模組，但是在一些實施例中，分析模組150與處理模組110可以被實現為一個包含通用計算元件與專用計算元件中至少一個的硬體設備。在一個實施例中，分析模組150可以是可程式設計的。在可選實施例中，分析模組150可以在另一處理平臺上，例如計算設備，並與卷積模組120透過網路交互分析結果。在一個實施例中，分析模組150可以執行機器可讀指令，以執行上述的分析，並以機器可讀指令的形式發送模式選擇信號到卷積模組120，以選擇矩陣模式或者濾波器模式。

在一個實施例中，系統100可以包括記憶體130，其可以位於片上(on-chip)(即與處理模組110中的處理器位於相同的晶片上)，並包括快取記憶體器、寄存器檔及由隨機訪問記憶體(random access memory，RAM)組成的暫存器，例如，靜態隨機訪問記憶體(static random access memory，SRAM)設備。可選地，記憶體130可以位於片下(off-chip)，並是由RAM組成的主記憶體的一部分，例如動態隨機訪問記憶體(dynamic random access memory，DRAM)設備。記憶體130可以由卷積模組120中的所有處理元件共用。系統100還可以與系統記憶體140耦接，例如DRAM設備或者其他易失性設備和/或非易失性設備。

第2A圖示出了根據第1圖中的卷積模組120的第一實施例的卷積模組210。卷積模組210包括矩陣引擎230與濾波器引擎240。矩陣引擎230與濾波器引擎240中每個為硬體設備，並分別包括處理元件的第一陣列231與第二陣列241。第一陣列231中的處理元件具有第一陣列配置，第二陣列241中的處理元件具有第二陣列配置。第一陣列配置與第二陣列配置的具體描述將結合第3圖與第4圖來分別提供。第一陣列231與第二陣列241可以是相同尺寸或者不同尺寸。當來自於分析模組150(第1圖中)的模式選擇信號表示矩陣模式被選擇以用於圖像應用時，矩陣引擎230被啟動以用於卷積計算(其首先被轉換成矩陣乘法)。當來自於分析模組150的模式選擇信號表示濾波器模式被選擇以用於圖像應用時，濾波器引擎240被啟動以用於卷積計算。

第2B圖示出了根據第1圖中的卷積模組120的第二實施例的卷積模組220。卷積模組220包括混合引擎250，其進一步包括由矩陣模式與濾波器模式所共用的處理元件的混合陣列251。當來自於分析模組150的模式選擇信號表示矩陣模式被選擇以用於圖像應用時，混合引擎250用於根據矩陣模式而用作第一陣列配置。當來自於分析模組150的模式選擇信號表示濾波器模式被選擇以用於圖像應用時，混合引擎250用於根據濾波器模式而用作第二陣列配置。

第3圖示出了根據一個實施例的矩陣引擎230的示例。為了說明目的，第3圖顯示了矩陣引擎230中的硬體元件以及由硬體元件將進行卷積的資料(用虛線表示)的示例。待卷積的資料包括輸入圖像(例如，由九個像素值M0,M1,M2,....,M8所構成的3x3圖像M)及四個2x2濾波器F、G、H和I，其所有或者部分可以被存儲在記憶體130中。如上所述，當卷積模組120的矩陣模式被選擇時，矩陣引擎230被啟動。

在本示例中，矩陣引擎230包括處理元件310的第一陣列331，其可以根據第一陣列配置透過垂直連接和水準連接而相互連接。第一陣列331是第2A圖的第一陣列231的一個示例。每個處理元件310與累加器315耦接，以對部分和(partial sum)進行累加。在可選實施例中，累加器315可以是處理元件310的部分。矩陣引擎230可以與第一輸入暫存器320、第二輸入暫存器330和輸出暫存器340耦接。第一輸入暫存器320可以用於暫時存儲輸入圖像的像素值；因此，在所示的本示例中，像素值可以從上到下(即沿著垂直方向)進入第一陣列331。第二輸入暫存器330可以用於暫時存儲一個或多個濾波器的濾波器權重；因此，在所示的本示例中，濾波器權重可以從左到右(即沿著水平方向)進入第一陣列331。輸出暫存器340可以用於暫時存儲輸出特徵圖的值(即像素值與濾波器權重的卷積結果)，或者至少部分輸出特徵圖。可選地，像素值可以水平方向進入第一陣列331，並且濾波器權重可以以垂直方向進入第一陣列331。

矩陣引擎230高效地執行矩陣乘法。在一個實施例中，矩陣引擎230包括資料調度引擎350，其將二維卷積視窗(convolution window)中的像素值展開到展開的圖像矩陣360的行中，並透過輸入暫存器320或者輸入暫存器330，將展開的像素值分配到第一陣列331。被應用到輸入圖像的每個濾波器定義二維卷積視窗。當二維卷積視窗(即濾波器)在整個輸入圖像M上滑動時，生成展開的圖像矩陣360的行。在本簡化的示例中，3x3的輸入圖像M被展開到更大的4x4的展開的圖像矩陣360中。資料調度引擎350還將濾波器權重展開到展開的濾波器矩陣370的行中，並透過輸入暫存器320或者輸入暫存器330，將展開的濾波器權重分配到第一陣列331中。在本示例中，每個濾波器的濾波器權重被展開到展開的濾波器矩陣370的單行中。在可選實施例中，圖像資料與濾波器資料的展開可以在矩陣引擎230的外部由另一引擎來執行，即系統100中的處理器或者電路，並被存儲在由矩陣引擎230可訪問的記憶體130中。應注意，展開的圖像矩陣360中的每個元件也是輸入圖像M的元件，並且展開的濾波器矩陣370中的每個元件也是其中一個濾波器的元件。

如第3圖所示，展開的圖像矩陣360的行可以在從第一陣列331的上到下的垂直方向上繼續，而展開的圖像矩陣370的列在第一陣列331的從左到右的水平方向上繼續。所有的處理元件310均相同，並且在相同時鐘下運行。第一陣列331中的每對處理元件310與累加器315執行乘法-加法操作以及累加操作，以將像素值乘以濾波器權重，並將乘積增加到累加的部分和中。矩陣乘法的結果是輸入特徵圖的卷積結果，其被發送到輸出暫存器340中。

由矩陣引擎230所執行的矩陣乘法很容易在單指令多資料(single-instruction-multiple-data，SIMD)架構上並存執行，例如處理元件310的第一陣列331。但是，由於展開的圖像矩陣比原始輸入圖像佔用更多存儲空間，並佔據更多記憶體頻寬，將輸入圖像展開到展開的圖像矩陣(例如展開的圖像矩陣360)在系統資源上創建了大量的開銷，例如記憶體容量和記憶體頻寬。

第4圖示出了根據一個實施例的濾波器引擎240的示例。如上所述，當卷積模組120的濾波器模式被選擇時，濾波器引擎240被啟動。

濾波器引擎240包括處理元件410的第二陣列441，其根據第二陣列配置，透過垂直連接、水準連接及對角線連接相互連接。第二陣列441是第2A圖的第二陣列241的一個示例。濾波器引擎240可以與第一輸入暫存器420、第二輸入暫存器430與輸出暫存器440耦接。水準連接允許濾波器權重的行水準地穿過處理元件410而被重新使用。對角線連接允許像素值的行對角線地穿過處理元件410而被重新使用，垂直連接允許部分及垂直地被累加。

在第4圖的實施例中，資料調度引擎450透過輸入暫存器420與輸入暫存器430，將像素值及濾波器權重分配到第二陣列441中。透過各自的對角線連接，濾波器權重傳播透過第二陣列441。每個處理元件410在一對像素值與濾波器權重上進行操作，並透過各自的垂直連接傳播結果。累加器415將在各自垂直連接上傳播的卷積的部分和進行累加。在可選實施例中，濾波器權重可以使用垂直連接，部分和可用使用水準連接。另外，可選的對角線連接可以正交於第4圖中所顯示的，即可選的對角線連接可以從左下指向右上。

在一個實施例中，在同一對角線上的所有處理元件410可以直接連接到第一輸入暫存器420，以在同一週期內接收相同的圖像像素值。同理，在同一行中的所有處理元件410可以直接連接到第二輸入暫存器430，以在同一週期內接收相同的濾波器權重。每個處理元件410執行一方向卷積，即乘法-加法操作，將像素值乘以濾波器權重，並將乘積增加到同一處理元件中累加的部分和中。所有處理元件410均相同，並在相同的時鐘下運行。重新使用同一值的所有處理元件410在同一週期內接收該值。從每個處理元件410中產生的部分和被立即發送到其相鄰的處理元件410。

濾波器引擎240提供硬體加速器平臺，其允許二維卷積直接映射到處理元件的陣列(即第二陣列441)上。該映射簡單明瞭且易如實現。但是，當二維卷積的尺寸與第二陣列441的尺寸之間存在不一致時，一些處理元件410可以保留不被使用，並導致資源利用效率低。

因此，第1圖的分析模組150用於分析卷積計算的參數，以在計算發生前確定矩陣模式或者濾波器模式是否是最適合於計算。在一個實施例中，分析模組150可以在用於矩陣模式的矩陣引擎230與用於濾波器模式的濾波器引擎240之間進行選擇。在可選的實施例中，分析模組150可以在相同硬體引擎的矩陣模式和濾波器模式之間進行選擇，例如，第2B圖的混合引擎250。

第5圖是根據一個實施例的混合引擎250的示例示意圖。混合引擎250包括處理元件510的混合陣列251，其可以用於在運行期間在矩陣模式被選擇時具有第一陣列配置，並在濾波器模式被選擇時具有第二陣列配置。更具體地，當矩陣模式被選擇時，混合陣列251可以禁用其對角線連接，並使能其垂直連接與水平連接，以用於分別傳播像素值與濾波器權重。在矩陣模式中的混合引擎250執行與第3圖的矩陣引擎230相同的操作，並且每個處理元件510執行與相應的一對處理元件310與累加器315的相同的操作。當累加操作由處理元件510來執行時，矩陣模式中的累加器515可以被禁能。當濾波器模式被選擇時，混合陣列251可以使能其對角線連接以用於傳播像素值，並且也使能其垂直連接與水平連接以分別傳播部分和濾波器權重。濾波器模式中的混合引擎250執行與第4圖的濾波器引擎240的相同的操作，並且每個處理元件510執行與相應的處理元件410的相同的操作。濾波器模式中的累加器可以被使能以執行部分和的累加。

混合引擎250包括資料調度引擎550，其根據模式選擇信號將資料分配到混合陣列251。在一個實施例中，如第3圖所示，矩陣模式中的資料調度引擎分別將像素值與濾波器權重展開到展開的圖像矩陣與展開的濾波器矩陣中，並且分別在垂直方向與水平方向上將像素值與濾波器權重調度到混合陣列251中。在可選的實施例中，圖像資料與濾波器資料的展開可以在混合引擎250的外部由另一引擎來執行，即處理器或電路，並可以被存儲在由混合引擎250可訪問的記憶體中。結合第4圖所述，濾波器模式中的資料調度引擎550分別在對角線方向與水平方向上將像素值與濾波器權重調度到混合陣列251中。

在可選實施例中，矩陣模式操作中，由垂直連接和水平連接所承載的資料可以互換，例如像素值可以在水平連接上被發送，濾波器權重可以在垂直連接上被發送。結合濾波器模式操作，如上所述，也可以對由對角線連接、垂直連接和水平連接所承載的資料做出相似的改變。

混合引擎250還包括第一輸入暫存器520、第二輸入暫存器530和輸出暫存器540，其用於矩陣模式與濾波器模式中，以緩存混合陣列251的輸入資料與輸出資料。由於無論選擇哪個模式均使用相同的處理元件集與相同的暫存器集，混合引擎250的使用可以提高資源利用率。

第6圖示出了根據另一實施例的系統100(即第1圖中)的卷積模組610。卷積模組610可以是第1圖中的卷積模組120的一個實施例。在本實施例中，載入引擎620從記憶體130中載入圖像資料與濾波器權重到卷積模組610中的本地暫存器630中。本地暫存器630與資料調度引擎640耦接，其根據模式選擇信號將來自於本地暫存器630的資料調度到處理元件陣列(processing element array，PE陣列)650中的相應的處理元件。在一個實施例中，卷積模組610包括兩個PE陣列650，其中一個用作矩陣引擎以用於執行矩陣乘法，另一個用作濾波器引擎以用於執行卷積計算。在另一實施例中，卷積模組610包括一個PE陣列650，其用作混合引擎以用於根據來自於分析模組150的模式選擇信號而執行矩陣乘法或者卷積計算。在第6圖的示例中，一個PE陣列650以虛線所示，以表示在不同的實施例中卷積模組610可以包括一個PE陣列650或者兩個PE陣列650。

在本實施例中，PE陣列650包括一方向陣列的處理元件，其中每個包括算術計算電路，例如乘法器、加法器、累加器、ALU、處理器或者上述任何組合中的一個或多個。在一個實施例中，PE陣列650可以是向量處理器，其根據向量命令執行向量操作。

第7圖示出了根據一個實施例的矩陣模式中的資料調度引擎740和PE陣列750。資料調度引擎740為資料調度引擎640的一個示例，並且PE陣列750為PE陣列650(第6圖中)的一個示例。資料調度引擎740將展開的濾波器權重(由陣列A的元件所示)與展開的圖像資料(由陣列B的元件所示)展開到PE陣列750中的處理元件710中，以用於矩陣乘法。

在本示例中，每個處理元件710被顯示以包括累加器711、加法器712及乘法器713，以用於先執行乘法-加法操作然後執行累加操作。在可選的實施例中，每個處理元件710可以包括可程式設計電路，其執行指令或命令來執行乘法-加法操作及累加操作。可理解的是，PE陣列750中所示的硬體元件為示意的，在可選實施例中，PE陣列750可以包括不同數量及/或不同類型的硬體元件。

第8圖示出了根據一個實施例的濾波器模式中的資料調度引擎840與PE陣列850。資料調度引擎840為資料調度引擎640的一個示例，並且PE陣列850為PE陣列650(第6圖中)的一個示例。資料調度引擎840將濾波器權重(由陣列F的元件所示)和圖像資料(由陣列I的元件所示)展開到PE陣列850中的處理元件810中，以用於卷積計算。在第8圖的示例中，作為卷積計算的部分，濾波器權重F1被調度到所有四個處理元件810，以用於具有四個不同的圖像資料元件的乘法。

在本示例中，每個處理元件810被顯示以包括累加器811、加法器812與乘法器813，以用於先執行乘法-加法操作然後執行累加操作。在可選的實施例中，每個處理元件810可以包括可程式設計電路，其執行指令或命令來執行乘法-加法操作與累加操作。可理解的是，PE陣列850中所示的硬體元件為示意的，在可選實施例中，PE陣列850可以包括不同數量和/或不同類型的硬體元件。

第9圖示出了根據一個實施例的用於執行卷積計算的方法900的流程圖。在一個實施例中，方法900可以由系統(例如第1圖的系統100)來執行，更具體地，由包括多個處理元件的卷積模組來執行，其中每個處理元件進一步包括算術計算電路。方法900開始於卷積模組接收選擇矩陣模式與濾波器模式中一個的模式選擇信號(步驟910)。基於分析卷積特徵的結果生成模式選擇信號，該結果包括至少矩陣模式與濾波器模式之間的資源利用率的比較。回應於選擇矩陣模式，卷積模組執行自卷積計算轉換而來的矩陣乘法(步驟920)。回應於選擇濾波器模式，卷積模組執行卷積計算(步驟930)。

在一個實施例中，卷積模組可以包括兩個PE陣列：一個PE陣列用作矩陣引擎，其執行自卷積計算轉換而來的矩陣乘法，另一個PE陣列用作濾波器引擎，其執行卷積計算。在可選實施例中，卷積模組可以包括一個PE陣列，其用作混合引擎，其在運行期間根據模式選擇信號執行矩陣模式中的矩陣乘法和濾波器模式中的卷積計算。這一個PE陣列或者兩個PE陣列可以是二維、一方向或者其他方向度。

第9圖的流程圖的操作已結合第1圖到第8圖的示例性實施例而被描述。但是，應理解的是，第9圖的流程圖的操作可以由本發明的除了第1圖到第8圖中討論的實施例之外的實施例來執行，並且第1圖到第8圖中討論的實施例可以執行與這些結合流程圖所討論的操作不同的操作。雖然第9圖的流程圖顯示了由本發明的某些實施例執行的操作的特定順序，但是，應理解的是，這個順序是示例性的(例如，可選實施例可以以不同的循序執行這些操作，組合某些操作，覆蓋某些操作等)。例如，步驟920與步驟930可以以基於在不同時刻處所選擇的模式的任何順序而被執行。

本文已描述了各種功能元件或模組。由本領域技術人員將所理解的是，功能模組將優選地透過電路(專用電路，或通用電路，其在一個或多個處理器的控制，及編碼指令下進行操作)，其通常將包括電晶體，該電晶體以根據本文所描述的功能和操作而控制電路的操作的這樣一種方式來被配置。

本文描述的主題有時展示包含的不同元件，或連接到不同其他元件。需要瞭解，這樣的描繪的架構僅僅是為了舉例說明，實際上，可以採用許多其他的架構來實施並實現同樣功能。從概念上說，任何實現同樣功能的組件的安排都是有效“相關的”，只要期望的功能可以達到。而且，任何兩個組合來實現一特定功能的元件都可以被看作是彼此“相關”，只要期望的功能達到，無論架構或中間組件。同樣，兩個如此相關的元件可被看作是“功能性連接”，或“功能上連接”到彼此，來達到期望的功能，任何兩個能夠如此相關的元件也可被看作“功能性連接”到彼此來達到期望的功能。功能性連接的具體實施例包含，但不限於物理上相連，以及/或物理上交互的元件，以及/或無線可交互的，以及/或無線交互的元件，以及/或邏輯交互，以及或邏輯可交互元件。

而且，應瞭解本領域技術人員，總體來說，本文所用的詞彙，特別是權利要求中所用的，例如後附的權利要求，總體上應被解讀為“開方式”詞彙，例如，詞彙“包含”應該被解讀為“包含但不限於”，而詞彙“具有”也應被解讀為“至少有”，詞彙“包括”應該被解讀為“包含但不限於”等等。

本發明上面描述以特定實施進行範例說明，但實施例可被修改，調整，變化。因此，上述實施例僅作為說明而非用來限制本發明。凡依本發明申請專利範圍所做之均等變化與修飾，皆不脫離本發明之精神與範圍。

Claims

一種執行卷積計算的系統，包括：一分析模組，用於根據分析複數卷積特徵的複數結果，生成模式選擇信號以選擇矩陣模式與濾波器模式其中之一，其中該等結果包括至少該矩陣模式與該濾波器模式之間的資源利用的比較；以及一卷積模組，與該分析模組耦接，包括多個處理元件，每個該處理元件包括算術計算電路，其中該卷積模組用於根據該矩陣模式執行自複數卷積計算轉換而來的複數矩陣乘法，並根據該濾波器模式執行該等卷積計算。
如申請專利範圍第1項所述之執行卷積計算的系統，其中該等處理元件配置為兩個二維陣列，該兩個二維陣列包括用於執行該矩陣模式中的該等矩陣乘法的第一二維陣列，以及用於執行該濾波器模式中的該等卷積計算的第二二維陣列。
如申請專利範圍第1項所述之執行卷積計算的系統，其中該等處理元件用作一個混合二維陣列，所述混合二維陣列在運行期間根據所述模式選擇信號執行所述矩陣模式中的該等矩陣乘法和所述濾波器模式中的該等卷積計算。
如申請專利範圍第1項所述之執行卷積計算的系統，其中該等處理元件用作兩個一維陣列，該兩個一維陣列包括用於執行該矩陣模式中的該等矩陣乘法的第一一維陣列，以及用於執行該濾波器模式中的該等卷積計算的第二一維陣列。
如申請專利範圍第1項所述之執行卷積計算的系統，其中該等處理元件用作一混合一維陣列，該混合一維陣列在運行期間根據該模式選擇信號執行該矩陣模式中的該等矩陣乘法與該濾波器模式中的該等卷積計算。
如申請專利範圍第1項所述之執行卷積計算的系統，其中還包括：一資料調度引擎，用於根據該模式選擇信號將輸入圖像資料與複數濾波器權重調度到相應的該等處理元件中。
如申請專利範圍第1項所述之執行卷積計算的系統，其中該卷積計算包括卷積神經網路計算。
如申請專利範圍第1項所述之執行卷積計算的系統，其中該等結果包括該矩陣模式與該濾波器模式之間的功率性能比較。
如申請專利範圍第1項所述之執行卷積計算的系統，其中該等卷積特徵包括輸入圖像的維度、該卷積計算中所使用的濾波器的維度以及用於並行執行該卷積計算的該等處理元件的緯度。
如申請專利範圍第9項所述之執行卷積計算的系統，其中該等卷積特徵還包括輸入濾波器計數、關於該輸入圖像的複數像素值的複數濾波器權重的步幅大小、輸入資料批量尺寸、輸入到該卷積計算的該等濾波器權重與該等像素值的複數顏色通道排列以及該卷積計算輸出的複數卷積結果的複數顏色通道排列中的一或多個。
一種執行卷積計算的方法，包括：一卷積模組接收用於選擇矩陣模式與濾波器模式其中之一的模式選擇信號，其中該模式選擇信號是基於分析複數卷積特徵的複數結果生成而來，該等卷積特徵包括至少該矩陣模式與該濾波器模式之間的資源利用的比較，該卷積模組包括複數處理元件，每一處理元件包括一算術計算電路；回應於選擇該矩陣模式，執行自複數卷積計算轉換而來的複數矩陣乘法；以及回應於選擇該濾波器模式，執行該等卷積計算。
如申請專利範圍第11項所述之執行卷積計算的方法，其中還包括：由該等處理元件的第一二維陣列執行該矩陣模式中的該等矩陣乘法；以及由該等處理元件的第二二維陣列執行該濾波器模式中的該等卷積計算，其中該第二二維陣列包括與該第一二維陣列不同的複數處理元件。
如申請專利範圍第11項所述之執行卷積計算的方法，其中還包括：由混合二維陣列執行該矩陣模式中的該等矩陣乘法與該濾波器模式中的該等卷積計算，其中該混合二維陣列包括該等處理元件的相同集以用於該等矩陣乘法與該等卷積計算。
如申請專利範圍第11項所述之執行卷積計算的方法，其中還包括：由該等處理元件的第一一維陣列執行該矩陣模式中的該等矩陣乘法；以及由該等處理元件的第二一維陣列執行該濾波器模式中的該等卷積計算，其中該第二一維陣列包括與該第一一維陣列不同的複數處理元件。
如申請專利範圍第11項所述之執行卷積計算的方法，其中還包括：由混合一維陣列執行該矩陣模式中的該等矩陣乘法與該濾波器模式中的該等卷積計算，其中該混合一維陣列包括該等處理元件的相同集以用於該等矩陣乘法與該等卷積計算。
如申請專利範圍第11項所述之執行卷積計算的方法，其中還包括：根據該模式選擇信號，將輸入圖像資料與複數濾波器權重調度到相應的該等處理元件中。
如申請專利範圍第11項所述之執行卷積計算的方法，其中該卷積計算包括卷積神經網路計算。
如申請專利範圍第11項所述之執行卷積計算的方法，其中該等結果包括該矩陣模式與該濾波器模式之間的功率性能比較。
如申請專利範圍第11項所述之執行卷積計算的方法，其中該等卷積特徵包括輸入圖像的維度、該卷積計算中所使用的濾波器的維度以及用於並行執行該卷積計算的該等處理元件的緯度。
如申請專利範圍第19項所述之執行卷積計算的方法，其中該等卷積特徵還包括輸入濾波器計數、關於所述輸入圖像的複數像素值的複數濾波器權重的步幅大小、輸入資料批量尺寸、輸入到該卷積計算的該等濾波器權重與該等像素值的複數顏色通道排列以及該卷積計算輸出的複數卷積結果的複數顏色通道排列中的一或多個。