TWI788257B

TWI788257B - 記憶體內計算巨集排列的方法、電腦可讀介質及電子裝置

Info

Publication number: TWI788257B
Application number: TW111117998A
Authority: TW
Inventors: 董建德; 阮志峰; 梁仁尉
Original assignee: 聯詠科技股份有限公司
Priority date: 2021-05-13
Filing date: 2022-05-13
Publication date: 2022-12-21
Also published as: CN115344528A; TW202244722A; TW202244794A; US20220366947A1; CN115345287A; US20220366216A1; TWI798081B

Abstract

本揭露提出一種記憶體內計算巨集排列的方法、電腦可讀介質以及電子裝置。所述記憶體內計算巨集排列的方法包括：獲得記憶體內計算巨集的數目的資訊及記憶體內計算巨集中的每一者的維度的資訊；獲得指定神經網路的指定卷積層的輸入通道的數目及輸出通道的數目的資訊；以及根據記憶體內計算巨集的數目、記憶體內計算巨集中的每一者的維度、指定神經網路的指定卷積層的輸入通道的數目及輸出通道的數目，判斷用於對記憶體內計算巨集進行排列的記憶體內計算巨集排列，以用於對輸入通道應用卷積運算以產生輸出通道。

Description

記憶體內計算巨集排列的方法、電腦可讀介質及電子裝置

本揭露是有關於一種記憶體內計算(compute-in-memory，CIM)巨集排列的方法及非暫時性電腦可讀介質以及電子裝置。

CIM是一種用於對流行且廣泛使用的馮諾依曼(von-Neumann)處理器/架構內的頻寬與計算不匹配問題進行解決的技術。可通過將記憶體與計算組合在同一區塊中來解決頻寬不匹配問題。然而，由於卷積神經網路的高計算要求，將使用並且應使用多個CIM巨集，但多個CIM巨集的水平/垂直比例是固定的且無法根據用於不同卷積計算的不同數目的輸入通道及輸出通道來進行調整，且所述固定的比例不會針對計算功率/能量度量而進行優化。

本揭露提出一種CIM巨集排列的方法及非暫時性電腦可讀介質以及電子裝置。

根據示例性實施例中的一者，所述用於CIM巨集排列的方法包括：獲得CIM巨集的數目的資訊及所述CIM巨集中的每一者的維度的資訊；獲得指定神經網路的指定卷積層的輸入通道的數目及輸出通道的數目的資訊；以及根據所述CIM巨集的所述數目、所述CIM巨集中的每一者的所述維度、所述指定神經網路的所述指定卷積層的所述輸入通道的所述數目及所述輸出通道的所述數目來判斷用於對所述CIM巨集進行排列的CIM巨集排列，以用於對所述輸入通道進行卷積運算以產生所述輸出通道。

根據示例性實施例中的一者，電子裝置包括CIM巨集及處理電路。所述CIM巨集基於所述CIM巨集的數目、所述CIM巨集中的每一者的維度、以及指定神經網路的指定卷積層的輸入通道的數目及輸出通道的數目而排列成預定的CIM巨集排列。所述處理電路被配置成：在經排列的所述CIM巨集中載入權重；以及將一個輸入特徵圖的多個輸入通道輸入到具有載入的所述權重的經排列的所述CIM巨集中，以進行用於產生多個輸出特徵圖中的一者的輸出激活的卷積運算。

根據示例性實施例中的一者，所述非暫時性電腦可讀介質存儲程式，所述程式使電腦獲得CIM巨集的數目的資訊及所述CIM巨集中的每一者的維度的資訊；獲得指定神經網路的指定卷積層的輸入通道的數目及輸出通道的數目的資訊；以及根據所述CIM巨集的所述數目、所述CIM巨集中的每一者的所述維度、所述指定神經網路的所述指定卷積層的所述輸入通道的所述數目及所述輸出通道的所述數目來判斷用於對所述CIM巨集進行排列的CIM巨集排列，以用於對所述輸入通道進行卷積運算以產生所述輸出通道。

1~256、257~512:輸入通道

75:資料線性位址處理器(DLA)

100:計算

110:3D濾波器

120:輸入特徵圖

130:輸出特徵圖

310:垂直排列

320:水平排列

330:正方形排列

410、510、610:輸入立方體

700:系統

710:中央處理器(CPU)

720:DRAM

730:DDR控制器

740:系統晶片(SoC)匯流排

750:指令解析器

760:晶片上SRAM/SRAM

770:CNN調度器

800:電子裝置

810、CIM0、CIM1、CIM2、CIM3、CIM4:CIM巨集

820:處理電路

F0、F1~F63~F127:濾波器

S202、S204、S206:步驟

圖1示出卷積神經網路(convolutional neural network，CNN)中的卷積。

圖2示出根據本揭露示例性實施例中的一者的用於CIM巨集排列的所提出方法的流程圖。

圖3示出根據本揭露示例性實施例中的一者的不同CIM巨集排列。

圖4示出根據本揭露示例性實施例中的一者的卷積運算。

圖5示出根據本揭露示例性實施例中的一者的垂直CIM巨集排列。

圖6示出根據本揭露示例性實施例中的一者的水平CIM巨集排列。

圖7示出根據本揭露示例性實施例中的一者的實行卷積運算的系統的方塊圖。

圖8示出根據本揭露示例性實施例中的一者的所提出電子裝置的示意圖。

深度神經網路(deep neural network，DNN)的常見形式是由多個卷積層構成的卷積神經網路(CNN)。在此種網路中，每一卷積層獲取輸入激活(input activation)資料且產生輸入資料的更高層次的抽象(被稱為特徵圖)，所述更高層次的抽象保留必要而獨特的資訊。CNN中的卷積層中的每一者主要由高維卷積構成。舉例來說，圖1示出CNN中的卷積。

參照圖1，在此計算100中，一個層的輸入激活被構造為具有多個通道的一組二維(2D)輸入特徵圖(IX×IY且具有C個通道)，所述多個通道中的每一者被稱為輸入通道。每一輸入通道與來自2D濾波器堆疊的不同2D濾波器(即，內核)進行卷積。此2D濾波器堆疊也被稱為單一個三維(3D)濾波器。多個3D濾波器110(具有維度FX×FY×C的M個濾波器)與輸入特徵圖120進行卷積。跨所有輸入通道對每一點的卷積結果進行求和。此計算的結果是一個輸出通道的所有輸出激活(output activations)，即，具有維度OX×OY的一個輸出特徵圖。換句話說，3D濾波器110被應用於3D輸入特徵圖120(具有批次大小N)以創建N個輸出特徵圖130。對於不同DNN中的不同層，輸入通道的數目(由C或IC表示)及輸出通道的數目(由M或OC表示)將依據不同的參數設計而發生大量變化。然而，現有技術中用於多個CIM巨集的CIM巨集排列是固定的且與卷積的輸入/輸出通道數目無關。

為解決上述問題，現在將在下文中參考附圖更全面地闡述本揭露的一些實施例，在附圖中示出本揭露的一些實施例但並非全部實施例。實際上，本揭露的各種實施例可以許多不同的形式來實施且不應被視為僅限於本文中陳述的實施例；確切來說，提供這些實施例是為了使本揭露滿足適用的法律要求。通篇中相同的參考編號指代相同的元件。

圖2示出根據本揭露示例性實施例中的一者的用於CIM巨集排列的所提出方法的流程圖。圖2中的步驟將由產品開發階段中的電腦系統來實施。

參照圖2，獲得CIM巨集的數目的資訊及CIM巨集中的每一者的維度的資訊(步驟S202)，且獲得指定神經網路的指定卷積層的輸入通道的數目及輸出通道的數目的資訊(步驟S204)。接下來，根據CIM巨集的數目、CIM巨集中的每一者的維度、指定神經網路的指定卷積層的輸入通道的數目及輸出通道的數目來判斷用於對CIM巨集進行排列的CIM巨集排列，以用於對輸入通道進行卷積運算以產生輸出通道(步驟S206)。也就是說，通過在硬體中提供動態CIM形狀配置，在軟體中被實施為模組的CIM形狀決策器(decider)可將輸入通道及輸出通道作為輸入且決定能夠產生最優配置的CIM形狀配置。

在本示例性實施例中，根據延遲(latency)、能量消耗(energy consumption)及利用率(utilization)來判斷能夠實行多個濾波器與輸入通道的卷積的CIM巨集排列。所述延遲與存取動態隨機存取記憶體(dynamic random access memory，DRAM)的延遲、用於將權重載入到CIM巨集中的延遲以及CIM巨集的處理時間中的至少一者相關聯。在本文中，權重意指濾波器的參數，且濾波器的參數的數目等於FX×FY×IC×OC。能量是表示用於使用一種類型的CIM巨集排列來對卷積層進行計算的能量成本的因素，且能量消耗與用於存取至少一個記憶體的能量成本相關聯，所述至少一個記憶體包括與CIM巨集位於同一晶片中的晶片上靜態隨機存取記憶體(static random access memory，SRAM)以及位於晶片之外的DRAM。利用率是CIM巨集的已使用部分對所有CIM巨集的比例。舉例來說，DRAM：SRAM：CIM=200：6：1的比例意指在存取相同數量的資料的基礎上，存取SRAM相對於存取CIM要花費6倍的能量成本。

在一種情況下，所判斷的CIM巨集排列可提供的所有CIM巨集在垂直維度的總和能夠讓此排列的CIM巨集適於以最少的批次下載次數去下載輸入通道以實行濾波器與指定卷積層的輸入通道的卷積。在另一種情況下，所判斷的CIM巨集排列可提供的所有CIM巨集在水平維度的總和能夠讓此排列的CIM巨集適於以最少的批次下載次數去下載輸入通道以實行濾波器與指定卷積層的輸入通道的卷積。

為直觀地闡釋如何有效地使用多個CIM巨集來將計算性能最大化，圖3示出根據本揭露示例性實施例中的一者的不同CIM巨集排列。

參照圖3，CNN網路的每一卷積層可具有輸入/輸出通道的相應配置。假設CIM巨集的數目是4且每一CIM巨集具有256列(row)及64行(column)的CIM單元。如果輸入通道的數目多於輸出通道的數目，則使用垂直排列310的CIM巨集可更高效率。如果輸出通道的數目多於輸入通道的數目，則使用水平排列320的CIM巨集可更高效率。如果輸入通道的數目等於輸出通道的數目，則使用正方形排列330的CIM巨集可更高效率。

為更方便理解，圖4示出根據本揭露示例性實施例中的一者的卷積運算。

參照圖4，假設對於輸入資料來說IC=512、OX=28且OY=28，對於濾波器F0到F127來說FX=1、FY=1，且OC=128、IX=1、IY=1。在使用兩個巨集、每一巨集具有256列及64行的情形中，用於對卷積進行計算的高效CIM巨集排列可為如圖5中所示的根據本揭露示例性實施例中的一者的垂直CIM巨集排列。

參照圖5，64個濾波器F0、F1、...、F63預先存儲在CIM巨集中。輸入通道1到256被輸入到第一CIM巨集(上部CIM巨集)且輸入通道257到512被輸入到第二CIM巨集(下部CIM巨集)。換句話說，具有維度1×1×512的輸入立方體510的資料(對應於圖4中的輸入立方體410的資料)被分成兩部分且分別被輸入到第一CIM巨集及第二CIM巨集的每一行(每一行存儲濾波器)以進行乘法運算。對於第一CIM巨集及第二CIM巨集中的每一者，由CIM巨集對每一行的256個乘法結果進行求和以作為輸出值，且外部電路可將所述兩個輸出值相加作為512個乘法結果的總和，以產生卷積輸出。因此，作為整體的第一CIM巨集與第二CIM巨集可產生64個卷積輸出。舉例來說，對於濾波器F0的行，輸出Output以及輸入Input的關係如下：

，且對於濾波器F1的行，輸出Output以及輸入Input的關係如下：

其餘64個濾波器F65、F66、...、F127的卷積運算將是相似的。

在使用兩個CIM巨集、每一CIM巨集具有256列及64行的相同情形中，也可使用水平排列的CIM巨集對卷積進行計算。在此種情形中，第一半數量的輸入通道1到256可被輸入到兩個水平排列的CIM巨集的共128行(所述128行分別預先存儲128個濾波器)中的每一行，且每一行的256個乘法結果由CIM巨集進行求和以作為輸出值。然而，由於尚未對第二半數量的輸入通道257到512進行計算，因此此種輸出值無法作為完整的卷積輸出。這些輸出值(不完整的卷積輸出)必須存儲在累加緩衝器(SRAM或D觸發器(D Flip-flop，DFF))中。直到也完成第二半數量的輸入通道257到512的卷積運算才將不完整的卷積輸出的兩個部分相加以產生128個卷積輸出。在此種情形中，在對累加緩衝器進行存取上花費較多的能量，因此其效率比使用兩個垂直排列的CIM巨集低。

接下來，假設輸入通道的數目是128且輸出通道的數目是512。由於每一巨集具有256列(大於128)，因此無需將兩個CIM巨集垂直排列。單個CIM巨集將能夠完成輸入通道1到256的卷積運算(即，單個CIM巨集的利用率僅為50%)。在此種情形中，用於對卷積進行計算的高效CIM巨集排列可為如圖6中所示的根據本揭露示例性實施例中的一者的水平CIM巨集排列。

參照圖6，將一次性載入128個濾波器F0到F127，以減少載入權重的數目。相似地，輸入立方體610的資料被分別輸入到第一CIM巨集及第二CIM巨集的每一行，以用於進行對應的輸出的乘法運算。

不同的產品可應用不同的CNN架構進行資料處理。舉例來說，監視系統(surveillance system)可應用CNN架構A進行資料處理，而外科器械(surgical instrument)可應用CNN架構B進行資料處理。可由離線工具基於產品所選擇的CNN架構的卷積層的配置(即，OX、OY、IC、OC、FX、FY、...等)來預先確定產品的適當CIM巨集排列。

一旦離線確定出產品的CIM巨集排列，圖7示出根據本揭露示例性實施例中的一者的實行卷積運算的系統的方塊圖。

參照圖7，CIM巨集CIM0、CIM1、CIM2及CIM3在系統700中排列成預定的CIM巨集排列。權重(即，濾波器的參數)及指令可存儲在DRAM 720中。當系統700接收到輸入特徵圖時，中央處理器(central processing unit，CPU)710可觸發CNN調度器770及CIM巨集CIM0到CIM3，以通過硬體(例如DRAM 720、DDR控制器730、系統晶片(system on chip，SoC)匯流排740及資料線性位址(data linear address，DLA)處理器75)對指定神經網路的指定卷積層進行卷積。CNN調度器770可從晶片上SRAM 760接收權重及輸入特徵圖(input feature map，IFM)且從指令解析器750接收CIM配置，將權重及輸入特徵圖載入到CIM0到CIM3中以進行卷積運算，從CIM0到CIM3接收CIM輸出，對所有CIM輸出實行求和以向SRAM 760產生中間結果作為當前卷積層的輸出特徵圖(output feature map，OFM)中且等待另一新的觸發。

在實際應用中，圖8示出根據本揭露示例性實施例中的一者的所提出電子裝置的示意圖，其中假設所述電子裝置由終端使用者使用。

參照圖8，電子裝置800包括多個CIM巨集810及處理電路820。CIM巨集810基於CIM巨集的數目、CIM巨集中的每一者的維度、以及指定神經網路的指定卷積層的輸入通道的數目及輸出通道的數目而排列成預定的CIM巨集排列。在本示例性實施例中，可基於圖2中提出的用於CIM巨集排列的方法來判斷預定的CIM巨集排列。處理電路820被配置成在經排列的CIM巨集中載入權重，且將一個輸入特徵圖的多個輸入通道輸入到具有載入的權重的經排列的CIM巨集中，以進行用於產生輸出特徵圖中的一者的輸出激活的卷積運算。

在實例中，首先可將濾波器的權重載入到CIM巨集中，且然後可將輸入通道(輸入特徵圖)輸入到CIM巨集中以進行卷積運算。在另一個實例中，首先可將輸入用到載入到CIM巨集，且然後可將權重輸入到CIM巨集以進行卷積運算。

在本示例性實施例中，處理電路820基於預定的CIM巨集排列、濾波器的數目、濾波器中的每一者的每一內核的高度及寬度以及每一濾波器中的內核的數目來在經排列的CIM巨集中載入多個濾波器的權重，其中每一濾波器的內核中的每一者分別被應用於指定神經網路的指定卷積層的輸入通道中的對應一者。

在一個示例性實施例中，處理電路820將濾波器中的每一者逐行載入到經排列的CIM巨集中。處理電路820可基於每一內核的高度及寬度以及經排列的CIM巨集的水平維度的總和來判斷是否在經排列的CIM巨集中批次載入濾波器的權重。

本揭露還提供一種非暫時性電腦可讀記錄介質，所述非暫時性電腦可讀記錄介質對欲載入到電腦系統中的電腦程式進行記錄以執行所提出方法的步驟。電腦程式由多個程式指令構成。一旦程式區段被載入到電腦系統中且由電腦系統執行，便完成所提出方法的步驟。

鑒於前述說明，本揭露所提出技術使得能夠有效地使用具有最優配置的多個CIM巨集來將計算性能最大化。

S202、S204、S206：步驟

Claims

一種記憶體內計算巨集排列的方法，包括：獲得多個記憶體內計算巨集的數目的資訊及所述多個記憶體內計算巨集中的每一者的維度的資訊；獲得指定神經網路的指定卷積層的多個輸入通道的數目及多個輸出通道的數目的資訊；以及根據所述多個記憶體內計算巨集的所述數目、所述多個記憶體內計算巨集中的每一者的所述維度、所述指定神經網路的所述指定卷積層的所述多個輸入通道的所述數目及所述多個輸出通道的所述數目，判斷用於對所述多個記憶體內計算巨集進行排列的記憶體內計算巨集排列，以用於對所述多個輸入通道進行卷積運算以產生所述多個輸出通道。
如請求項1所述的方法，其中所述根據所述多個記憶體內計算巨集的所述數目、所述多個記憶體內計算巨集中的每一者的所述維度、以及所述指定神經網路的所述指定卷積層的所述多個輸入通道的所述數目及所述多個輸出通道的所述數目，判斷所述記憶體內計算巨集排列的步驟包括：根據延遲、能量消耗以及利用率，判斷能夠實行多個濾波器與所述多個輸入通道的卷積的所述記憶體內計算巨集排列。
如請求項1所述的方法，其中所判斷的所述記憶體內計算巨集排列提供所述多個記憶體內計算巨集的垂直維度的總和，所述多個記憶體內計算巨集適於以最小次數實行所述多個濾波器與所述指定卷積層的所述多個輸入通道的所述卷積，以用於批次載入所述多個輸入通道。
如請求項1所述的方法，其中所判斷的所述記憶體內計算巨集排列提供所述多個記憶體內計算巨集的水平維度的總和，所述多個記憶體內計算巨集適於以最小次數實行所述多個濾波器與所述指定卷積層的所述多個輸入通道的所述卷積，以用於批次載入所述多個濾波器。
如請求項2所述的方法，其中所述延遲與動態隨機存取記憶體延遲、用於將權重載入到所述多個記憶體內計算巨集中的延遲以及所述多個記憶體內計算巨集的處理時間中的至少一者相關聯，其中所述能量消耗與用於存取至少一個記憶體的能量成本相關聯，所述至少一個記憶體包括與所述多個記憶體內計算巨集位於同一晶片中的晶片上靜態隨機存取記憶體以及位於所述晶片之外的動態隨機存取記憶體，以及其中所述利用率是所述多個記憶體內計算巨集的已使用部分對所有所述多個記憶體內計算巨集的比例。
一種電子裝置，包括：多個記憶體內計算巨集，其中所述多個記憶體內計算巨集基於所述多個記憶體內計算巨集的數目、所述多個記憶體內計算巨集中的每一者的維度、以及指定神經網路的指定卷積層的多個輸入通道的數目及多個輸出通道的數目而排列成預定的記憶體內計算巨集排列；以及處理電路，被配置成：在經排列的所述多個記憶體內計算巨集中載入權重；以及將一個輸入特徵圖的多個輸入通道輸入到具有載入的所述權重的經排列的所述多個記憶體內計算巨集中，以進行用於產生多個輸出特徵圖中的一者的輸出激活的卷積運算。
如請求項6所述的電子裝置，其中所述處理電路基於所述預定的記憶體內計算巨集排列、多個濾波器的數目、所述多個濾波器中的每一者的多個內核中的每一內核的高度及寬度以及所述多個濾波器中的每一濾波器中的所述多個內核的數目來在經排列的所述多個記憶體內計算巨集中載入所述多個濾波器的所述權重，其中每一濾波器的所述多個內核中的每一者分別被應用於所述指定神經網路的所述指定卷積層的所述多個輸入通道中的對應一者。
如請求項6所述的電子裝置，其中所述處理電路將所述多個濾波器中的每一者逐行載入到經排列的所述多個記憶體內計算巨集中。
如請求項6所述的電子裝置，其中所述處理電路基於每一內核的所述高度及所述寬度以及經排列的所述多個記憶體內計算巨集的水平維度的總和來判斷是否在經排列的所述多個記憶體內計算巨集中批次載入所述多個濾波器的所述權重。
一種非暫時性電腦可讀介質，存儲程式，所述程式使電腦：獲得多個記憶體內計算巨集的數目的資訊及所述多個記憶體內計算巨集中的每一者的維度的資訊；獲得指定神經網路的指定卷積層的多個輸入通道的數目及多個輸出通道的數目的資訊；以及根據所述多個記憶體內計算巨集的所述數目、所述多個記憶體內計算巨集中的每一者的所述維度、所述指定神經網路的所述指定卷積層的所述多個輸入通道的所述數目及所述多個輸出通道的所述數目，判斷用於對所述多個記憶體內計算巨集進行排列的記憶體內計算巨集排列，以用於對所述多個輸入通道進行卷積運算以產生所述多個輸出通道。