TWI724788B

TWI724788B - 感測器內處理單元及記憶體內運算單元之整合方法及其系統

Info

Publication number: TWI724788B
Application number: TW109104791A
Authority: TW
Inventors: 鄭桂忠; 張孟凡; 謝志成; 謝軒顥
Original assignee: 國立清華大學
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2021-04-11
Also published as: TW202131329A; US11048650B1

Abstract

一種感測器內處理單元及記憶體內運算單元之整合方法包含以下步驟，提供步驟驅動感測器內處理單元提供第一指令訊號及複數初始資料並傳輸至匯流排單元。轉換步驟驅動第一指令訊號及初始資料經過同步模組而轉換為第二指令訊號及複數輸入資料。擷取步驟驅動畫面差異模組接收輸入資料，以擷取成複數差異資料。分割步驟驅動位元分割模組接收差異資料，並將各差異資料分割成複數位元片。控制步驟驅動編碼模組接收差異位址，並將差異位址編碼成控制訊號，且記憶體內運算單元依據控制訊號存取各位元片。藉此，有利於降低運算的耗能與時間。

Description

感測器內處理單元及記憶體內運算單元之整合方法及其系統

本發明係關於一種感測器內處理單元及記憶體內運算單元之整合方法及其系統，且特別是關於一種用以影像辨識的感測器內處理單元及記憶體內運算單元之整合方法及其系統。

一般深度神經網路所應用之影像辨識技術有兩個關鍵：感測器內處理(Processing-In-Sensor，PIS)及記憶體內運算(In-Memory Computing，CIM)。PIS為影像擷取裝置(例如：數位相機)將所記錄的原始影像資料作初步的前處理，可實現邊緣擷取、量化或低層神經網路之計算。CIM為深層神經網路架構中「卷積層」乃至「全連階層」之運算，其兼具記憶體及加速器的功能。一個影像辨識系統需兼備兩項特點才能達成完整且高效的圖像辨識應用。

傳統上，基於范紐曼(Von Neumann)模型，若需要對像素陣列(Pixel Array)或記憶體內資料進行處理時，需要將資料搬運至運算單元(例如：處理器)作計算。然而，各自獨立處理並透過各式載體分別進行計算及單元之間的資料搬運，其中大量資料搬運過程中容易導致系統低效且耗能，目前尚無將兩者進行溝通整合之系統。

因此，本發明之目的在於提供一種感測器內處理單元及記憶體內運算單元之整合方法及其系統，透過匯流排整合並傳輸感測器內處理及記憶體內運算之間的大量資料，進而達到降低卷積神經網路運算的耗能與時間。

依據本發明一實施方式提供一種感測器內處理單元及記憶體內運算單元之整合方法，感測器內處理單元操作於一第一時脈，記憶體內運算單元操作於一第二時脈，感測器內處理單元及記憶體內運算單元之整合方法包含一提供步驟、一轉換步驟、一擷取步驟、一分割步驟以及一控制步驟。提供步驟驅動感測器內處理單元提供一第一指令訊號及複數初始資料並傳輸至一匯流排單元，其中第一指令訊號及各初始資料操作於第一時脈，匯流排單元包含一同步模組及一畫面差異模組。轉換步驟驅動同步模組接收第一指令訊號及初始資料，第一指令訊號及初始資料經過同步模組而轉換為一第二指令訊號及複數輸入資料，使第二指令訊號及各輸入資料操作於第二時脈，第一時脈與第二時脈相異，藉以令第二指令訊號傳輸至記憶體內運算單元。擷取步驟驅動畫面差異模組接收輸入資料，並根據輸入資料以擷取成複數差異資料，且各差異資料具有一差異位址。分割步驟驅動一位元分割模組接收差異資料，並將各差異資料分割成複數位元片。控制步驟驅動一編碼模組接收差異位址，並將差異位址編碼成一控制訊號，且記憶體內運算單元依據控制訊號存取各位元片。

藉此，本發明之感測器內處理單元及記憶體內運算單元之整合方法可藉由提供步驟、轉換步驟、擷取步驟、分割步驟及控制步驟將感測器內處理單元輸出的資料傳輸至記憶體內運算單元作運算。

根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合方法，其中在提供步驟中，當第一指令訊號為1時，各輸入資料依序傳輸至匯流排單元。當第一指令訊號為0時，各輸入資料未傳輸至匯流排單元。

根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合方法，其中匯流排單元更包含一記憶體，且擷取步驟包含一資料儲存子步驟及一資料擷取子步驟。資料儲存子步驟驅動記憶體儲存一輸入資料。一資料擷取子步驟驅動畫面差異模組讀取一輸入資料，且與另一輸入資料比較以擷取出各差異資料。

根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合方法更包含一輸出步驟。輸出步驟驅動一傳輸模組接收位元片，並將位元片轉換為一輸出資料，藉以令輸出資料傳輸至記憶體內運算單元。其中，各位元片具有一第一頻寬，輸出資料具有一第二頻寬，第一頻寬與第二頻寬相異。

根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合方法，其中記憶體內運算單元包含一靜態隨機存取記憶體，且在控制步驟中，當控制訊號為1時，各位元片依序寫入靜態隨機存取記憶體。當控制訊號為0時，各位元片未寫入靜態隨機存取記憶體。

依據本發明一實施方式提供一種感測器內處理單元及記憶體內運算單元之整合系統包含一感測器內處理單元、一匯流排單元以及一記憶體內運算單元。感測器內處理單元包含一微處理器及一感測器，微處理器電性連接於感測器，用以產生一第一指令訊號及複數初始資料。匯流排單元電性連接於感測器內處理單元，且包含一同步模組、一畫面差異模組、一位元分割模組及一編碼模組。同步模組電性連接微處理器並接收第一指令訊號及初始資料而產生一第二指令訊號及複數輸入資料。畫面差異模組電性連接於同步模組，且畫面差異模組接收輸入資料而產生複數差異資料，且各差異資料具有一差異位址。位元分割模組電性連接於畫面差異模組，且位元分割模組接收差異資料而產生複數位元片。編碼模組電性連接於畫面差異模組，且編碼模組接收差異位址而產生一控制訊號。記憶體內運算單元電性連接於匯流排單元，記憶體內運算單元依據控制訊號存取各位元片。

藉此，本發明之感測器內處理單元及記憶體內運算單元之整合系統可藉由匯流排單元將感測器內處理單元輸出的資料傳輸至記憶體內運算單元作運算。

根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合系統，其中感測器內處理單元操作於一第一時脈。記憶體內運算單元操作於一第二時脈。其中，第一時脈經由同步模組轉換為第二時脈。其中，第一時脈與第二時脈相異。

根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合系統，其中匯流排單元更包含一記憶體。記憶體電性連接於畫面差異模組。其中，記憶體儲存一輸入資料，畫面差異模組讀取記憶體之一輸入資料並與另一輸入資料比較以擷取出各差異資料。

根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合系統，其中記憶體內運算單元包含一處理單元及一靜態隨機存取記憶體。處理單元電性連接於同步模組及編碼模組並接收第二指令訊號及控制訊號。靜態隨機存取記憶體電性連接於處理單元，且靜態隨機存取記憶體依據控制訊號存取各位元片。

根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合系統，其中匯流排單元更包含一傳輸模組。傳輸模組電性連接於位元分割模組與靜態隨機存取記憶體，且傳輸模組接收位元片，並將位元片轉換為一輸出資料，藉以令輸出資料傳輸至靜態隨機存取記憶體。其中，各位元片具有一第一頻寬，輸出資料具有一第二頻寬，第一頻寬與第二頻寬相異。

S100:感測器內處理單元及記憶體內運算單元之整合方法

S110:提供步驟

S120:轉換步驟

S130:擷取步驟

S140:分割步驟

S150:控制步驟

S160:輸出步驟

S131:資料儲存子步驟

S132:資料擷取子步驟

100:感測器內處理單元及記憶體內運算單元之整合系統

110:感測器內處理單元

111:微處理器

1111:第一指令訊號

112:感測器

1121:初始資料

120:記憶體內運算單元

121:處理單元

122:靜態隨機存取記憶體

1221:靜態隨機存取記憶體位址

130:匯流排單元

131:同步模組

1311:第二指令訊號

1312:輸入資料

132:畫面差異模組

1321:差異資料

1322:差異位址

133:位元分割模組

1331:位元片

134:編碼模組

1341:控制訊號

135:記憶體

136:傳輸模組

1361:輸出資料

clk1:第一時脈

clk2:第二時脈

第1圖係繪示依照本發明一結構態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合系統之方塊圖；

第2圖係繪示依照本發明另一結構態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合系統之方塊圖；

第3圖係繪示依照第2圖態樣之實施方式的感測器內處理單元及記憶體內運算單元之整合系統的第一指令訊號及初始資料轉換為第二指令訊號及輸入資料之示意圖；

第4圖係繪示依照第2圖態樣之實施方式的感測器內處理單元及記憶體內運算單元之整合系統的差異資料分割成位元片之示意圖；

第5圖係繪示依照本發明一方法態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合方法之步驟方塊圖；以及

第6圖係繪示依照第5圖之方法態樣之實施方式的感測器內處理單元及記憶體內運算單元之整合方法的擷取步驟之步驟方塊圖。

以下將參照圖式說明本發明之複數個實施例。為明確說明起見，許多實務上的細節將在以下敘述中一併說明。然而，應瞭解到，這些實務上的細節不應用以限制本發明。也就是說，在本發明部分實施例中，這些實務上的細節是非必要的。此外，為簡化圖式起見，一些習知慣用的結構與元件在圖式中將以簡單示意的方式繪示之；並且重複之元件將可能使用相同的編號表示之。

此外，本文中當某一元件(或機構或模組等)「連接」、「設置」或「耦合」於另一元件，可指所述元件是直接連接、直接設置或直接耦合於另一元件，亦可指某一元件是間接連接、間接設置或間接耦合於另一元件，意即，有其他元件介於所述元件及另一元件之間。而當有明示某一元件是「直接連接」、「直接設置」或「直接耦合」於另一元件時，才表示沒有其他元件介於所述元件及另一元件之間。而第一、第二、第三等用語只是用來描述不同元件或成分，而對元件/成分本身並無限制，因此，第一元件/成分亦可改稱為第二元件/成分。且本文中之元件/成分/機構/模組之組合非此領域中之一般周知、常規或習知之組合，不能以元件/成分/機構/模組本身是否為習知，來判定其組合關係是否容易被技術領域中之通常知識者輕易完成。

請一併參照第1圖及第2圖，其中第1圖係繪示依照本發明一結構態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合系統100之方塊圖。第2圖係繪示依照本發明另一結構態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合系統100之方塊圖。由第1圖及第2圖可知，感測器內處理單元及記憶體內運算單元之整合系統100包含一感測器內處理單元110、一記憶體內運算單元120以及一匯流排單元130。感測器內處理單元110包含一微處理器111及一感測器112，微處理器111電性連接於感測器112，用以產生一第一指令訊號1111及複數初始資料1121。

匯流排單元130電性連接於感測器內處理單元110，且包含一同步模組131、一畫面差異模組132、一位元分割模組133及一編碼模組134。同步模組131電性連接微處理器111並接收第一指令訊號1111及初始資料1121而產生一第二指令訊號1311及複數輸入資料1312。畫面差異模組132電性連接於同步模組131，且畫面差異模組132接收輸入資料1312而產生複數差異資料1321，且各差異資料1321具有一差異位址1322。位元分割模組133電性連接於畫面差異模組132，且位元分割模組133接收差異資料1321而產生複數位元片1331。編碼模組134電性連接於畫面差異模組132，且編碼模組134接收差異位址1322而產生一控制訊號1341。記憶體內運算單元120電性連接於匯流排單元130，且記憶體內運算單元120依據控制訊號1341存取各位元片1331。

藉此，本發明之感測器內處理單元及記憶體內運算單元之整合系統100可藉由匯流排單元130將感測器內處理單元110輸出的資料傳輸至記憶體內運算單元120作運算，有利於降低資料在傳輸過程中的耗能與時間。

請一併參照第2圖及第3圖，其中第3圖係繪示依照第2圖態樣之實施方式的感測器內處理單元及記憶體內運算單元之整合系統100的第一指令訊號1111及初始資料1121轉換為第二指令訊號1311及輸入資料1312之示意圖。由第3圖可知，當第一指令訊號1111上升至1時，表示感測器內處理單元110已準備就緒並可傳送前處理的資料至匯流排單元130。初始資料1121將通過感測器內處理單元110的數據端口(未另繪示)並依序地輸出。感測器內處理單元110可操作於一第一時脈clk1(例如：10KHz)，記憶體內運算單元120可操作於一第二時脈clk2(例如：100KHz)。其中，第一時脈clk1與第二時脈clk2相異。因此，第一指令訊號1111及複數初始資料1121之第一時脈clk1經由同步模組131轉換為第二指令訊號1311及複數輸入資料1312之第二時脈clk2。藉此，將資料同步並由感測器內處理單元110傳輸至記憶體內運算單元120。

值得注意的是，匯流排單元130可更包含一記憶體135。記憶體135電性連接於畫面差異模組132。其中，記憶體135儲存一輸入資料1312，畫面差異模組132讀取記憶體135之輸入資料1312並與另一輸入資料1312比較以擷取出各差異資料1321。詳細地說，畫面差異模組132依序接收各輸入資料1312，其中一輸入資料1312儲存於記憶體135，且比較下一輸入資料1312(即另一輸入資料1312)與記憶體135之輸入資料1312的相異處，以擷取出各差異資料1321(如第3圖之“012345678”、“12”)。藉此，減少傳輸多餘的資料量，有利於提高傳輸效率。

請一併參照第2圖及第4圖，其中第4圖係繪示依照第2圖態樣之實施方式的感測器內處理單元及記憶體內運算單元之整合系統100的差異資料1321分割成位元片1331之示意圖。位元分割模組133接收複數差異資料1321，並將各差異資料1321分割成複數位元片1331。編碼模組134接收複數差異位址1322，並編碼成控制訊號1341，且記憶體內運算單元120依據控制訊號1341存取各位元片1331。此外，記憶體內運算單元120包含一處理單元121及一靜態隨機存取記憶體122。處理單元121電性連接於同步模組131及編碼模組134並接收第二指令訊號1311及控制訊號1341。靜態隨機存取記憶體122電性連接於處理單元121，且靜態隨機存取記憶體122依據控制訊號1341存取各位元片1331。具體來說，記憶體內運算單元120內部的每筆資料的各bit皆是分開存在不同的位址，因此需要將資料切成單一位元串列(bitserial)輸入，並寫入對應的一靜態隨機存取記憶體位址1221。當控制訊號1341上升至1時，代表開始將位元片1331依據靜態隨機存取記憶體位址1221寫入靜態隨機存取記憶體122。

再者，匯流排單元130可更包含一傳輸模組136。傳輸模組136電性連接於位元分割模組133與靜態隨機存取記憶體122，且傳輸模組136接收複數位元片1331，並將複數位元片1331轉換為一輸出資料1361，藉以令輸出資料1361傳輸至靜態隨機存取記憶體122。詳細地說，各位元片1331具有一第一頻寬(例如：1'b1)，輸出資料1361具有一第二頻寬(例如：16bits/cycle)，第一頻寬與第二頻寬相異。藉此，輸出資料1361可滿足記憶體內運算單元120的輸入頻寬。

第5圖係繪示依照本發明一方法態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合方法S100之步驟方塊圖。在第5圖中，感測器內處理單元及記憶體內運算單元之整合方法S100包含一提供步驟S110、一轉換步驟S120、一擷取步驟S130、一分割步驟S140及一控制步驟S150。

請配合參照第2圖，詳細來說，感測器內處理單元110操作於第一時脈clk1，記憶體內運算單元120操作於第二時脈clk2。提供步驟S110驅動感測器內處理單元110提供第一指令訊號1111及複數初始資料1121並傳輸至匯流排單元130，其中第一指令訊號1111及各初始資料1121操作於第一時脈clk1，匯流排單元130包含同步模組131及畫面差異模組132。轉換步驟S120驅動同步模組131接收第一指令訊號1111及初始資料1121，第一指令訊號1111及初始資料1121經過同步模組131而轉換為第二指令訊號1311及複數輸入資料1312，使第二指令訊號1311及各輸入資料1312操作於第二時脈clk2，第一時脈clk1與第二時脈clk2相異，藉以令第二指令訊號1311傳輸至記憶體內運算單元120。擷取步驟S130驅動畫面差異模組132接收輸入資料1312，並根據輸入資料1312以擷取成複數差異資料1321，且各差異資料1321具有差異位址1322。分割步驟S140驅動位元分割模組133接收差異資料1321，並將各差異資料1321分割成複數位元片1331。控制步驟S150驅動編碼模組134接收差異位址1322，並將差異位址1322編碼成控制訊號1341，且記憶體內運算單元120依據控制訊號1341存取各位元片1331。

藉此，本發明之感測器內處理單元及記憶體內運算單元之整合方法S100可藉由提供步驟S110、轉換步驟S120、擷取步驟S130、分割步驟S140及控制步驟S150將感測器內處理單元110輸出的資料傳輸至記憶體內運算單元120作運算。

舉例來說，在第5圖中，在感測器內處理單元及記憶體內運算單元之整合方法S100之提供步驟S110中，當第一指令訊號1111為1時，各輸入資料1312依序傳輸至匯流排單元130。當第一指令訊號1111為0時，各輸入資料1312未傳輸至匯流排單元130。此外，第一時脈clk1可為10KHz，第二時脈clk2可為100KHz。接續地，於轉換步驟S120中，第一指令訊號1111及複數初始資料1121之第一時脈clk1經由同步模組131轉換為第二指令訊號1311及複數輸入資料1312之第二時脈clk2。藉此，將資料同步並由感測器內處理單元110傳輸至記憶體內運算單元120。

請一併參照第5圖及第6圖，其中第6圖係繪示依照第5圖之方法態樣之實施方式的感測器內處理單元及記憶體內運算單元之整合方法S100的擷取步驟S130之步驟方塊圖。匯流排單元130可更包含記憶體135，其中擷取步驟S130包含一資料儲存子步驟S131及一資料擷取子步驟S132。資料儲存子步驟S131驅動記憶體135儲存其中一輸入資料1312。資料擷取子步驟S132驅動畫面差異模組132讀取一輸入資料1312，且與另一輸入資料1312比較以擷取出各差異資料1321。藉此，減少傳輸多餘的資料量，有利於提高傳輸效率。

特別的是，在一個週期之間，差異資料1321可為4bits或8bits，但記憶體內運算單元120在寫入或儲存資料時，只可存入1bit。因此，於分割步驟S140中，位元分割模組133接收複數差異資料1321，並將各差異資料1321分割成複數位元片1331。

請一併參照第2圖及第4圖，記憶體內運算單元120可包含靜態隨機存取記憶體122。於控制步驟S150中，編碼模組134接收複數差異位址1322，並編碼成控制訊號1341，且記憶體內運算單元120依據控制訊號1341存取各位元片1331。具體來說，記憶體內運算單元120內部的每筆資料的各bit皆是分開存在不同的位址，因此需要將資料切成單一位元串列(bitserial)輸入，並寫入對應的靜態隨機存取記憶體位址1221。當控制訊號1341為1時，各位元片1331依序寫入靜態隨機存取記憶體122。當控制訊號1341為0時，各位元片1331未寫入靜態隨機存取記憶體122。

再者，感測器內處理單元及記憶體內運算單元之整合方法S100可更包含一輸出步驟S160。輸出步驟S160驅動傳輸模組136接收複數位元片1331，並將複數位元片1331轉換為輸出資料1361，藉以令輸出資料1361傳輸至記憶體內運算單元120。其中，各位元片1331具有第一頻寬(例如：1'b1)，輸出資料1361具有第二頻寬(例如：16bits/cycle)。藉此，輸出資料1361可滿足記憶體內運算單元120的輸入頻寬。

綜合上述，本發明具有下列優點：其一，可將感測器內處理單元輸出的資料傳輸至記憶體內運算單元作運算。其二，有利於降低運算的耗能與時間。其三，減少傳輸多餘的資料量，有利於提高傳輸效率。

雖然本發明已以實施方式揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明的精神和範圍內，當可作各種的更動與潤飾，因此本發明的保護範圍當視後附的申請專利範圍所界定者為準。