TWI825980B

TWI825980B - 記憶體內計算的模擬器的設定方法

Info

Publication number: TWI825980B
Application number: TW111133799A
Authority: TW
Inventors: 李可瀚; 許之凡; 林裕盛; 陳維超
Original assignee: 英業達股份有限公司
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2023-12-11
Also published as: TW202411892A

Abstract

一種記憶體內計算的模擬器的設定方法，包括：以記憶體內計算裝置運行多個測試組合，並記錄分別對應於這些測試組合的多個第一評估指標，其中每個測試組合包含多個神經網路模型中的一者及多個資料集中的一者，以處理裝置依據這些測試組合運行一模擬器，並記錄分別對應於這些測試組合的多個第二評估指標，其中模擬器具有可調整的多個設定，以處理裝置依據這些第一評估指標及這些第二評估指標計算一關聯度總和，以及以處理裝置執行一優化演算法以在這些設定構成的設定空間中搜索一最佳配置使關聯度總和具有最大值。

Description

記憶體內計算的模擬器的設定方法

本發明涉及人工智慧、機器學習與記憶體內計算，特別是一種用於記憶體內計算的模擬器的設定方法。

機器學習(machine learning，ML)技術經常在訓練和推理(inference)期間，在處理器和儲存裝置(如：記憶體)之間移動和存取資料。因此，使用記憶體內計算(in-memory computing，IMC)有機會減少這些移動和存取操作產生的能耗成本和計算延遲，從而加速ML技術的輸出效率。

然而，在硬體層面上具有變異性(variability)的記憶體使得IMC的輸出不可避免地具有不確定性，例如電導變化(conductance variation)、記憶保持力(retention)。不確定性會導致不穩定的計算結果，並成為將IMC技術用於ML服務或商業產品上的障礙。

因此，掌握IMC硬體的輸入輸出行為是利用硬體滿足商業需求的起點。在這種情況下，需要一個複雜的IMC硬體模擬器(simulator)來探索IMC硬體的行為。然而，模擬IMC硬體的行為相當困難，因為行為高度取決於所用的材料和實作方式。因此，現有的硬體使用者只能等待硬體開發商提供模擬器。另外，不同的開發商提供的模擬器通常具有不同的設定方式。因此，使用者無法輕易地使用甲方提供的模擬器去模擬乙方的IMC硬體。

有鑑於此，本發明提出一種記憶體內計算的模擬器的設定方法，讓使用者將現有的IMC模擬器調校成任意的IMC硬體，節省廠商開發硬體模擬器的成本或是使用者被動等待的時間。

依據本發明一實施例的一種記憶體內計算的模擬器的設定方法，包括：以一記憶體內計算裝置運行多個測試組合，並記錄分別對應於該些測試組合的多個第一評估指標，其中該些測試組合各包含多個神經網路模型中的一者及多個資料集中的一者；以一處理裝置依據該些測試組合運行一模擬器，並記錄分別對應於該些測試組合的多個第二評估指標，其中該模擬器具有可調整的多個設定；以該處理裝置依據該些第一評估指標及該些第二評估指標計算一關聯度總和；以及以該處理裝置執行一優化演算法以在該些設定構成的設定空間中搜索一最佳配置使該關聯度總和具有最大值。

依據本發明一實施例的一種記憶體內計算的模擬器的設定方法，包括以一處理裝置執行：依據多個測試組合運行一第一模擬器，並記錄分別對應於該些測試組合的多個第一評估指標，其中該些測試組合各包含多個神經網路模型中的一者及多個資料集中的一者；依據該些測試組合運行一第二模擬器，並記錄分別對應於該些測試組合的多個第二評估指標，其中該模擬器具有可調整的多個設定；依據該些第一評估指標及該些第二評估指標計算一關聯度總和；以及執行一優化演算法以在該些設定構成的設定空間中搜索一最佳配置使該關聯度總和具有最大值。

綜上所述，本發明一實施例的目的是使用現有的模擬器去模擬任意的IMC硬體或是IMC模擬器，以節省開發一個新模擬器的時間。本發明一實施例將硬體與模擬器的匹配問題轉換為在設定空間中尋找最佳配置的優化問題。本發明一實施例計算在目標硬體和具有設定的模擬器之間於每個類別的測試精確度的關聯度，並透過多個實驗結果展示本發明一實施例的有效性。本發明一實施例中，在尋找最佳配置的步驟可以採用任何現有的優化演算法，這展示了本發明一實施例在實作上的彈性。

以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理，並且提供本發明之專利申請範圍更進一步之解釋。

11,11’,12,12’,21,22,30,40:步驟

▲:最佳配置

圖1A是依據本發明一實施例的記憶體內計算的模擬器的設定方法的流程圖；圖1B是依據本發明另一實施例的記憶體內計算的模擬器的設定方法的流程圖；以及圖2至圖11是依據本發明一實施例的記憶體內計算的模擬器的設定方法的實驗圖。

以下在實施方式中詳細敘述本發明之詳細特徵以及特點，其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本發明相關之構想及特點。以下之實施例係進一步詳細說明本發明之觀點，但非以任何觀點限制本發明之範疇。

本發明的實施例的詳細說明中包含多個技術名詞，以下為這些技術名詞的定義：記憶體內計算(In-Memory Computing，IMC)：以儲存在隨機存取記憶體中的資料進行計算的技術。

隨機存取記憶體(random-access memory，RAM)：一種可用任意順序讀取和更改的電腦記憶體的形式，它是電腦中的主記憶體。

機器學習(Machine Learning,ML)：一個研究領域，使電腦能夠在沒有明確編寫程式的情況下學習。

優化問題(Optimization problem)：從所有可行解中找到最佳解的問題。

損失函數，距離函數(Loss function,distance function)：優化過程的目標函數。

本發明的目的包括：(1)使用現有的任意一種IMC模擬器去模擬任意的IMC硬體，以及(2)使用現有的任意一種IMC模擬器模擬另一種IMC模擬器。對於前者而言，IMC開發商在製造硬體時採用的內部參數通常無法被外界得知，而透過本發明提出的方法，可讓第三方模擬器模擬出IMC硬體的行為。對於後者而言，應先理解：不同IMC開發者所產生的IMC模擬器通常具有不全相同的多個設定。因此，無法輕易地將某個IMC模擬器的配置沿用於另一個IMC模擬器。

圖1A是依據本發明一實施例的記憶體內計算的模擬器的設定方法的流程圖，包括步驟11至步驟40。圖1A的實施例用於實現本發明第一個目的：以IMC模擬器模擬IMC硬體。

在步驟11中，記憶體內計算裝置運行多個測試組合。所述記憶體內裝置為模擬目標。在一實施例中，記憶體內計算裝置是實際硬體，例如為晶片的形式。所述硬體可採用ISAAC架構(Ali Shafiee et.al,ISAAC：A Convolutional Neural Network Accelerator with In-Situ Analog Arithmetic in Crossbars)或是PRIME架構(Ping Chi,et.al,PRIME：A Novel Processing-in-memory Architecture for Neural Network Computation in ReRAM-based Main Memory)。請注意：上述硬體架構只是範例，本發明不限制記憶體內裝置的硬體架構。

所述多個測試組合由多個神經網路模型及多個資料集構成。在一實施例中，所述多個神經網路模型可採用不同層數的視覺幾何組(visual geometry group,VGG)，例如VGG8、VGG13。本發明不限制神經網路模型的種類及其超參數。在一實施例中，所述多個資料集可採用CIFAR-10(Canadian Institute For Advanced Research)以及EMNIST字母(Extension Modified National Institute of Standards and Technology,EMNIST Letters)。每個資料集中具有多個類別，如CIFAR-10資料集包括10種不同類別的彩色圖像，EMNIST字母包括26個類別。本發明不限制資料集的種類以及類別的數量。

測試組合的數量是神經網路模型的數量和資料集的數量的乘積。例如：神經網路模型包括M1、M2及M3；資料集包括D1、D2。在步驟11的一實施例中，記憶體內計算裝置依據D1執行M1，然後依據D2執行 M1，然後依據D1執行M2，然後依據D2執行M2，然後依據D1執行M3，最後依據D2執行M3。記憶體內計算裝置總共執行(3×2)個測試組合，本發明不限制這些測試組合的執行順序。

在步驟11中，可將記憶體內計算裝置電性連接至處理裝置，以透過處理裝置控制記憶體內計算裝置的輸入並接收其輸出。所述處理裝置例如是可執行IMC模擬器的通用(general purpose)電腦或任何電子裝置。

在步驟12中，處理裝置依據這些測試組合運行模擬器。模擬器具有可調整的多個設定。在一實施例中，模擬器是下列開源(open-source)的IMC模擬器的其中一者：NeuroSim、MemTorch以及國際商業機器公司(International Business Machines Corporation，IBM)推出的模擬硬體加速套件(Analog Hardware Acceleration Kit,aihwkit)。然而，可應用於本發明的模擬器並不僅限於上述範例，任何現有的模擬器或未來釋出的IMC模擬器皆適用於本發明一實施例提出的方法。值得注意的是，不同模擬器的設定通常不相同，例如NeuroSim包含保留時間(retention time)、飄移係數(drift coefficient)、權重精確度(weight precision)、電導變化(conductance variation)等設定；MemTorch包含交叉開關分塊形狀(crossbar tile shape)、權重精確度等設定；aihwkit包含推論時間(time of inference)、重新映射權重(remap weight)等設定。不同的模擬器的參數即使名稱相同，對於裝置輸出結果的影響也有可能不同。另外，設定的數量可以是一個或多個，以下皆採用多個設定為例說明。

在步驟21中，由電性連接至記憶體內運算裝置的處理裝置記錄分別對應於這些測試組合的多個第一評估指標。在步驟22中，處理裝置記錄分別對應於這些測試組合的多個第二評估指標。第一評估指標及第二評估指標是用來反映測試組合中的神經網路模型的效能。在一實施例中，第一評估指標及第二評估指標為準確度(accuracy)、精確度(precision)、召回率(recall)及F1分數(F1-score)中的一者。然而，評估指標並不僅限於上述範例，但凡用於評估神經網路模型效能的參數，皆應被視為本發明所述的第一評估指標和第二評估指標的一種實施例。

在步驟30中，處理裝置依據多個第一評估指標及多個第二評估指標計算關聯度總和。在一實施例中，關聯度總和係多個關聯度的加總，且這些關聯度的每一者為皮爾森相關係數(Pearson correlation coefficient)、L1損失函數、L2損失函數、餘弦相似度(cosine similarity)及歐幾里得距離(Euclidean distance)中的一者。然而，關聯度的計算方式並不僅限於上述範例，但凡用於計算第一評估指標和第二評估指標之間相似程度的函數，皆應被視為本發明所述的關聯度的一種實施例。

在步驟30的一實施例，處理裝置計算一目標函數(objective function)的輸出作為所述關聯度總和。本發明基於以下假設提出此目標函數：在兩個IMC裝置(模擬器)上運行的神經網路具有相似的輸出，等價於(若且唯若)這兩個IMC裝置(模擬器)是相似的。進一步而言，本發明期望每個類別的準確度應該是相似的，如下方式一所示：

其中F(．)代表目標函數，F(H,S _θ)代表關聯度總和，H代表記憶體內計算裝置，S代表模擬器，θ代表多個設定構成的設定空間中的一候選者，S _θ代表以該候選者設定的模擬器，｜D｜代表資料集的數量，｜M｜代表神經網路模型的數量，

代表關聯度，

代表多個第一評估指標的一者，

代表多個第二評估指標中的一者。

關於設定空間及候選者，舉例說明如下：多個設定包括P及Q，其中P有p種設定值、Q有q種設定值。因此，P及Q構成的設定空間將包括(p×q)個元素，每個元素對應到P的一種設定值和Q的一種設定值，而所述候選者是這(p×q)個元素中的一者。

在一實施例中，資料集的數量｜D｜至少為1，神經網路模型的數量｜M｜至少為1。

在一實施例中，

是皮爾森相關係數。此係數是依據記憶體內計算裝置H在每個類別的評估指標的平均

以及模擬器S _θ在每個類別的評估指標的平均

計算得到。此處採用的評估指標為準確度，而準確度可以從混淆矩陣(confusion matrix)的對角線計算得到。皮爾森相關係數

的計算方式如下方式三所示，其中為了簡潔而省略用於指示資料集d和模型m的上標代號

其中｜C｜代表每個資料集的多個類別的數量，

代表記憶體內計算裝置H在｜C｜個類別中的第c個類別的評估指標，

代表以候選者θ設定的模擬器S _θ在｜C｜個類別中的第c個類別的評估指標，

代表記憶體內計算裝置H在｜C｜個類別對應的多個評估指標的平均，

代表以候選者θ設定的模擬器S _θ在｜C｜個類別對應的多個評估指標的平均。

在一實施例中，硬體H或模擬器S _θ在多個評估指標a ^c的平均

的計算方式，如下式四所示：

在步驟40中，處理裝置執行優化演算法(optimization algorithm)在多個設定構成的設定空間中搜索最佳配置使該關聯度總和具有最大值。在一實施例中，所述優化演算法是模擬退火法(Simulated annealing)及基因演算法中的一者。然而，優化演算法並不僅限於上述範例，但凡任何在高維向量空間中計算一最佳向量的演算法，皆應被視為本發明所述的優化演算法的一種實施例。

圖1B是依據本發明一實施例的記憶體內計算的模擬器的設定方法的流程圖，包括步驟11’至步驟40。圖1B的實施例用於實現本發明第二個目的：以IMC模擬器模擬IMC模擬器。圖1B與圖1A僅有兩個步驟不同，因此以下僅說明具有差異的這兩個步驟。

在步驟11’中，處理裝置依據多個測試組合運行第一模擬器。第一模擬器是模擬目標，等同於圖1A實施例中的記憶體內計算裝置。第一模擬器可採用NeuroSIM、aihwkit與MemTorch中的任一者，並且具有未知且固定的一組設定。因此，步驟11與步驟11’二者基本上運作相同，差別在於執行主體從記憶體內運算裝置更改為模擬器。

在步驟12’中，處理裝置依據多個測試組合運行第二模擬器。第二模擬器等同於圖1B實施例中所述的模擬器。第二模擬器可採用 NeuroSIM、aihwkit與MemTorch中的任一者，並且具有可調整的多個設定。

整體來說，本發明一實施例提出的記憶體內計算的模擬器的設定方法可將模擬器與硬體的匹配問題轉換為優化問題，如下方式五所示：

其中θ^*代表優化演算法搜索到的最佳配置，F代表目標函數，其用於測量記憶體內計算裝置H及以候選者θ設定的模擬器S _θ之間於輸入輸出行為的相關性。在前文已詳細說明目標函數F的一實施例。在其他實施例中，F(H,S _θ)也可以採用任何用來反映記憶體內計算裝置H及以候選者θ設定的模擬器S _θ之間的輸出差異的距離函數或損失函數，例如L1損失函數、L2損失函數、餘弦相似度及歐幾里得距離中的一者。

為了驗證本發明提出的記憶體內計算的模擬器的設定方法，採用三個開源的IMC模擬器：NeuroSIM、aihwkit與MemTorch、兩個常見的影像分類資料集CIFAR-10與EMNIST字母、兩個神經網路模型VGG8與VGG13綜合進行了三個不同的實驗，藉此展現本發明的有效性，即：本發明可以真正獲得最佳配置，讓IMC模擬器得以模擬未知的IMC硬體或甚至是另一個具有未知設定的IMC模擬器。另外，所述實驗採用單一參數(對於輸出影響最大的參數)的設定，以便於視覺化的呈現本發明提出的目標函數的趨勢(landscape)。

實驗一：相同模擬器內(intra-simulator)的實驗。

在實驗一中，將具有預設設定的模擬器作為記憶體內計算裝置(以下簡稱為硬體)，然後應用本發明一實施例提出的方法改變另一個模擬器(與記憶體內計算裝置採用同一種模擬器)的設定。圖2是在NeuroSim上的實驗結果，其中橫軸代表電導變化。圖3是在aihwkit上的實驗結果，其中橫軸代表推論時間。圖2及圖3中的縱軸皆代表相關係數，數值愈高代表硬體與模擬器的匹配程度愈高。在圖2及圖3中可觀察VGG8、VGG13以及兩者平均的趨勢(landscape)，圖2及圖3中的▲符號代表應用本發明的方法找到的最佳配置θ^*。在圖2的實驗中，應用本發明的方法找到的最佳配置θ^*=0.15。在圖3的實驗中，應用本發明的方法找到的最佳配置θ^*=150。圖2及圖3中的虛線代表左右兩圖(不同資料集之實驗)的兩條實線(平均值線)取平均後得到的資料集實驗平均線的最大值。

由圖2及圖3可觀察到：最佳配置θ^*對應的相關係數完全相等於最大值，這展示了本發明的有效性。此外還可觀察到：趨勢是平滑(smooth)的，整體沒有劇烈的震盪或連續起伏的狀況。這意味著▲符號代表的最大值具有較高機會成為特定資料集的全域最大值而非局部最大值。

實驗二：不同模擬器之間(inter-simulator)的實驗。

在實驗二中，使用三個不同的模擬器NeuroSim、MemTorch以及aihwkit進一步測試本發明提出的方法。一個模擬器代表具有未知設定的硬體H，另一個模擬器代表具有設定θ的模擬器S _θ。對於NeuroSim、MemTorch以及aihwkit模擬器，本發明分別選擇電導變化、推理時間以及飄移係數作為設定。圖4及圖5是硬體採用NeuroSim，模擬器採用MemTorch的實驗圖。圖6及圖7分別為用NeuroSim和MemTorch模擬aihwkit的實驗圖。

須注意的是，即使三個模擬器彼此的設定不相同，使得實驗二沒有基準真相(ground truth)可供參照。然而，本發明提出的方法仍然可以從圖4至圖7呈現的趨勢中搜索到最佳配置θ^*。

實驗三：硬體與模擬器之間的實驗。

在實驗三中，使用aihwkit的四種預設配置：aihwkit-GoKm(GokmenVlasovPreset)、aihwkit-Tiki(TikiTakaEcRamPreset)、aihwkit-Mixand(MixedPrecisionEcRamPreset)以及aihwkit-Ideal(Idealized4Preset)作為硬體，這四種配置是IBM依據其生產的真實硬體裝置提供的模擬器設定。另外，選擇NeuroSim作為模擬器。圖8至圖11分別展示了硬體為aihwkit-GoKm、aihwkit-Tiki、aihwkit-Mix及aihwkit-Ideal，且模擬器採用NeuroSim的實驗結果。整體而言，本發明提出的目標函數在硬體的輸入輸出行為建構了平滑的趨勢，這代表本發明提出的方法在解決IMC硬體-模擬器匹配問題上相當具有潛力。

綜上所述，本發明的目的是使用現有的模擬器去模擬任意的IMC硬體或IMC模擬器，以避免從頭建立一個新模擬器所耗費的開發成本，例如時間。藉由假設存在與硬體行為匹配的指定模擬器的最佳配置設定，本發明將硬體模擬器的匹配問題轉換為在設定空間中尋找最佳配置的優化問題。本發明設計了一個目標函數，該函數計算在目標硬體和具有設定的模擬器之間於每個類別的測試精確度的皮爾森相關係數。實驗結果展示本發明提出的目標函數所建構的設定空間的趨勢，這顯示本發明提出的方法可以被現有的優化演算法解決的潛力。

雖然本發明以前述之實施例揭露如上，然其並非用以限定本發明。在不脫離本發明之精神和範圍內，所為之更動與潤飾，均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。

11~40:步驟

Claims

一種記憶體內計算的模擬器的設定方法，包括：以一記憶體內計算裝置運行多個測試組合，並記錄分別對應於該些測試組合的多個第一評估指標，其中該些測試組合各包含多個神經網路模型中的一者及多個資料集中的一者；以一處理裝置依據該些測試組合運行一模擬器，並記錄分別對應於該些測試組合的多個第二評估指標，其中該模擬器具有可調整的多個設定；以該處理裝置依據該些第一評估指標及該些第二評估指標計算一關聯度總和；以及以該處理裝置執行一優化演算法以在該些設定構成的設定空間中搜索一最佳配置使該關聯度總和具有最大值。
如請求項1的記憶體內計算的模擬器的設定方法，其中依據該些第一評估指標及該些第二評估指標計算該關聯度總和係依據下式：，其中代表該關聯度總和，代表該記憶體內計算裝置，代表該模擬器，代表該些設定構成的設定空間中的一候選者，代表以該候選者設定的該模擬器，代表該些資料集的數量，代表該些神經網路模型的數量，代表及該些第一評估指標及該些第二評估指標的一關聯度，代表該些第一評估指標中的一者，代表該些第二評估指標中的一者。
如請求項2的記憶體內計算的模擬器的設定方法，其中該關聯度係依據下式計算：，其中代表該些資料集的每一者的多個類別的數量，代表該該記憶體內計算裝置在該些類別中的第個類別的評估指標，代表以該候選者設定的該模擬器在該些類別中的第個類別的評估指標，代表該該記憶體內計算裝置在該些類別中的評估指標的平均以及代表以該候選者設定的該模擬器在該些類別中的評估指標的平均。
如請求項1的記憶體內計算的模擬器的設定方法，其中該關聯度總和係多個關聯度的加總，且該些關聯度的每一者為皮爾森相關係數、L1損失函數、L2損失函數、餘弦相似度及歐幾里得距離中的一者。
如請求項1的記憶體內計算的模擬器的設定方法，其中該優化演算法為模擬退火法及基因演算法中的一者。
如請求項1的記憶體內計算的模擬器的設定方法，其中該些第一評估指標及該些第二評估指標各為準確度（accuracy）、精確度（precision）、召回率（recall）及F1分數（F1-score）中的一者。
如請求項1的記憶體內計算的模擬器的設定方法，其中該些神經網路模型為VGG8及VGG13。
如請求項1的記憶體內計算的模擬器的設定方法，其中該些資料集為CIFAR-10以及EMNIST。
如請求項1的記憶體內計算的模擬器的設定方法，其中該模擬器為NeuroSIM、aihwkit以及MemTorch中的一者。
一種記憶體內計算的模擬器的設定方法，包括以一處理裝置執行：依據多個測試組合運行一第一模擬器，並記錄分別對應於該些測試組合的多個第一評估指標，其中該些測試組合各包含多個神經網路模型中的一者及多個資料集中的一者；依據該些測試組合運行一第二模擬器，並記錄分別對應於該些測試組合的多個第二評估指標，其中該模擬器具有可調整的多個設定；依據該些第一評估指標及該些第二評估指標計算一關聯度總和；以及執行一優化演算法以在該些設定構成的設定空間中搜索一最佳配置使該關聯度總和具有最大值。