TWI724788B - 感測器內處理單元及記憶體內運算單元之整合方法及其系統 - Google Patents

感測器內處理單元及記憶體內運算單元之整合方法及其系統 Download PDF

Info

Publication number
TWI724788B
TWI724788B TW109104791A TW109104791A TWI724788B TW I724788 B TWI724788 B TW I724788B TW 109104791 A TW109104791 A TW 109104791A TW 109104791 A TW109104791 A TW 109104791A TW I724788 B TWI724788 B TW I724788B
Authority
TW
Taiwan
Prior art keywords
memory
data
module
sensor
difference
Prior art date
Application number
TW109104791A
Other languages
English (en)
Other versions
TW202131329A (zh
Inventor
鄭桂忠
張孟凡
謝志成
謝軒顥
Original Assignee
國立清華大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立清華大學 filed Critical 國立清華大學
Priority to TW109104791A priority Critical patent/TWI724788B/zh
Priority to US16/894,899 priority patent/US11048650B1/en
Application granted granted Critical
Publication of TWI724788B publication Critical patent/TWI724788B/zh
Publication of TW202131329A publication Critical patent/TW202131329A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/16Handling requests for interconnection or transfer for access to memory bus
    • G06F13/1668Details of memory controller
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/04Generating or distributing clock signals or signals derived directly therefrom
    • G06F1/10Distribution of clock signals, e.g. skew
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一種感測器內處理單元及記憶體內運算單元之整合方法包含以下步驟,提供步驟驅動感測器內處理單元提供第一指令訊號及複數初始資料並傳輸至匯流排單元。轉換步驟驅動第一指令訊號及初始資料經過同步模組而轉換為第二指令訊號及複數輸入資料。擷取步驟驅動畫面差異模組接收輸入資料,以擷取成複數差異資料。分割步驟驅動位元分割模組接收差異資料,並將各差異資料分割成複數位元片。控制步驟驅動編碼模組接收差異位址,並將差異位址編碼成控制訊號,且記憶體內運算單元依據控制訊號存取各位元片。藉此,有利於降低運算的耗能與時間。

Description

感測器內處理單元及記憶體內運算單元之整合方法及其系統
本發明係關於一種感測器內處理單元及記憶體內運算單元之整合方法及其系統,且特別是關於一種用以影像辨識的感測器內處理單元及記憶體內運算單元之整合方法及其系統。
一般深度神經網路所應用之影像辨識技術有兩個關鍵:感測器內處理(Processing-In-Sensor,PIS)及記憶體內運算(In-Memory Computing,CIM)。PIS為影像擷取裝置(例如:數位相機)將所記錄的原始影像資料作初步的前處理,可實現邊緣擷取、量化或低層神經網路之計算。CIM為深層神經網路架構中「卷積層」乃至「全連階層」之運算,其兼具記憶體及加速器的功能。一個影像辨識系統需兼備兩項特點才能達成完整且高效的圖像辨識應用。
傳統上,基於范紐曼(Von Neumann)模型,若需要對像素陣列(Pixel Array)或記憶體內資料進行處理 時,需要將資料搬運至運算單元(例如:處理器)作計算。然而,各自獨立處理並透過各式載體分別進行計算及單元之間的資料搬運,其中大量資料搬運過程中容易導致系統低效且耗能,目前尚無將兩者進行溝通整合之系統。
因此,本發明之目的在於提供一種感測器內處理單元及記憶體內運算單元之整合方法及其系統,透過匯流排整合並傳輸感測器內處理及記憶體內運算之間的大量資料,進而達到降低卷積神經網路運算的耗能與時間。
依據本發明一實施方式提供一種感測器內處理單元及記憶體內運算單元之整合方法,感測器內處理單元操作於一第一時脈,記憶體內運算單元操作於一第二時脈,感測器內處理單元及記憶體內運算單元之整合方法包含一提供步驟、一轉換步驟、一擷取步驟、一分割步驟以及一控制步驟。提供步驟驅動感測器內處理單元提供一第一指令訊號及複數初始資料並傳輸至一匯流排單元,其中第一指令訊號及各初始資料操作於第一時脈,匯流排單元包含一同步模組及一畫面差異模組。轉換步驟驅動同步模組接收第一指令訊號及初始資料,第一指令訊號及初始資料經過同步模組而轉換為一第二指令訊號及複數輸入資料,使第二指令訊號及各輸入資料操作於第二時脈,第一時脈與第二時脈相異,藉以令第二指令訊號傳輸至記憶體內運算單元。擷取步驟驅動畫面差異模組接收輸入資料,並根據 輸入資料以擷取成複數差異資料,且各差異資料具有一差異位址。分割步驟驅動一位元分割模組接收差異資料,並將各差異資料分割成複數位元片。控制步驟驅動一編碼模組接收差異位址,並將差異位址編碼成一控制訊號,且記憶體內運算單元依據控制訊號存取各位元片。
藉此,本發明之感測器內處理單元及記憶體內運算單元之整合方法可藉由提供步驟、轉換步驟、擷取步驟、分割步驟及控制步驟將感測器內處理單元輸出的資料傳輸至記憶體內運算單元作運算。
根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合方法,其中在提供步驟中,當第一指令訊號為1時,各輸入資料依序傳輸至匯流排單元。當第一指令訊號為0時,各輸入資料未傳輸至匯流排單元。
根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合方法,其中匯流排單元更包含一記憶體,且擷取步驟包含一資料儲存子步驟及一資料擷取子步驟。資料儲存子步驟驅動記憶體儲存一輸入資料。一資料擷取子步驟驅動畫面差異模組讀取一輸入資料,且與另一輸入資料比較以擷取出各差異資料。
根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合方法更包含一輸出步驟。輸出步驟驅動一傳輸模組接收位元片,並將位元片轉換為一輸出資料,藉以令輸出資料傳輸至記憶體內運算單元。其中,各位元片具有一第一頻寬,輸出資料具有一第二頻寬,第一 頻寬與第二頻寬相異。
根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合方法,其中記憶體內運算單元包含一靜態隨機存取記憶體,且在控制步驟中,當控制訊號為1時,各位元片依序寫入靜態隨機存取記憶體。當控制訊號為0時,各位元片未寫入靜態隨機存取記憶體。
依據本發明一實施方式提供一種感測器內處理單元及記憶體內運算單元之整合系統包含一感測器內處理單元、一匯流排單元以及一記憶體內運算單元。感測器內處理單元包含一微處理器及一感測器,微處理器電性連接於感測器,用以產生一第一指令訊號及複數初始資料。匯流排單元電性連接於感測器內處理單元,且包含一同步模組、一畫面差異模組、一位元分割模組及一編碼模組。同步模組電性連接微處理器並接收第一指令訊號及初始資料而產生一第二指令訊號及複數輸入資料。畫面差異模組電性連接於同步模組,且畫面差異模組接收輸入資料而產生複數差異資料,且各差異資料具有一差異位址。位元分割模組電性連接於畫面差異模組,且位元分割模組接收差異資料而產生複數位元片。編碼模組電性連接於畫面差異模組,且編碼模組接收差異位址而產生一控制訊號。記憶體內運算單元電性連接於匯流排單元,記憶體內運算單元依據控制訊號存取各位元片。
藉此,本發明之感測器內處理單元及記憶體內運算單元之整合系統可藉由匯流排單元將感測器內處理單元輸 出的資料傳輸至記憶體內運算單元作運算。
根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合系統,其中感測器內處理單元操作於一第一時脈。記憶體內運算單元操作於一第二時脈。其中,第一時脈經由同步模組轉換為第二時脈。其中,第一時脈與第二時脈相異。
根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合系統,其中匯流排單元更包含一記憶體。記憶體電性連接於畫面差異模組。其中,記憶體儲存一輸入資料,畫面差異模組讀取記憶體之一輸入資料並與另一輸入資料比較以擷取出各差異資料。
根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合系統,其中記憶體內運算單元包含一處理單元及一靜態隨機存取記憶體。處理單元電性連接於同步模組及編碼模組並接收第二指令訊號及控制訊號。靜態隨機存取記憶體電性連接於處理單元,且靜態隨機存取記憶體依據控制訊號存取各位元片。
根據前段所述實施方式的感測器內處理單元及記憶體內運算單元之整合系統,其中匯流排單元更包含一傳輸模組。傳輸模組電性連接於位元分割模組與靜態隨機存取記憶體,且傳輸模組接收位元片,並將位元片轉換為一輸出資料,藉以令輸出資料傳輸至靜態隨機存取記憶體。其中,各位元片具有一第一頻寬,輸出資料具有一第二頻寬,第一頻寬與第二頻寬相異。
S100:感測器內處理單元及記憶體內運算單元之整合方法
S110:提供步驟
S120:轉換步驟
S130:擷取步驟
S140:分割步驟
S150:控制步驟
S160:輸出步驟
S131:資料儲存子步驟
S132:資料擷取子步驟
100:感測器內處理單元及記憶體內運算單元之整合系統
110:感測器內處理單元
111:微處理器
1111:第一指令訊號
112:感測器
1121:初始資料
120:記憶體內運算單元
121:處理單元
122:靜態隨機存取記憶體
1221:靜態隨機存取記憶體位址
130:匯流排單元
131:同步模組
1311:第二指令訊號
1312:輸入資料
132:畫面差異模組
1321:差異資料
1322:差異位址
133:位元分割模組
1331:位元片
134:編碼模組
1341:控制訊號
135:記憶體
136:傳輸模組
1361:輸出資料
clk1:第一時脈
clk2:第二時脈
第1圖係繪示依照本發明一結構態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合系統之方塊圖;
第2圖係繪示依照本發明另一結構態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合系統之方塊圖;
第3圖係繪示依照第2圖態樣之實施方式的感測器內處理單元及記憶體內運算單元之整合系統的第一指令訊號及初始資料轉換為第二指令訊號及輸入資料之示意圖;
第4圖係繪示依照第2圖態樣之實施方式的感測器內處理單元及記憶體內運算單元之整合系統的差異資料分割成位元片之示意圖;
第5圖係繪示依照本發明一方法態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合方法之步驟方塊圖;以及
第6圖係繪示依照第5圖之方法態樣之實施方式的感測器內處理單元及記憶體內運算單元之整合方法的擷取步驟之步驟方塊圖。
以下將參照圖式說明本發明之複數個實施例。為明確說明起見,許多實務上的細節將在以下敘述中一併說明。然而,應瞭解到,這些實務上的細節不應用以限制本發明。 也就是說,在本發明部分實施例中,這些實務上的細節是非必要的。此外,為簡化圖式起見,一些習知慣用的結構與元件在圖式中將以簡單示意的方式繪示之;並且重複之元件將可能使用相同的編號表示之。
此外,本文中當某一元件(或機構或模組等)「連接」、「設置」或「耦合」於另一元件,可指所述元件是直接連接、直接設置或直接耦合於另一元件,亦可指某一元件是間接連接、間接設置或間接耦合於另一元件,意即,有其他元件介於所述元件及另一元件之間。而當有明示某一元件是「直接連接」、「直接設置」或「直接耦合」於另一元件時,才表示沒有其他元件介於所述元件及另一元件之間。而第一、第二、第三等用語只是用來描述不同元件或成分,而對元件/成分本身並無限制,因此,第一元件/成分亦可改稱為第二元件/成分。且本文中之元件/成分/機構/模組之組合非此領域中之一般周知、常規或習知之組合,不能以元件/成分/機構/模組本身是否為習知,來判定其組合關係是否容易被技術領域中之通常知識者輕易完成。
請一併參照第1圖及第2圖,其中第1圖係繪示依照本發明一結構態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合系統100之方塊圖。第2圖係繪示依照本發明另一結構態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合系統100之方塊圖。由第1圖及第2圖可知,感測器內處理單元及記憶體內運算單元之整合系統100包含一感測器內處理單元110、一記 憶體內運算單元120以及一匯流排單元130。感測器內處理單元110包含一微處理器111及一感測器112,微處理器111電性連接於感測器112,用以產生一第一指令訊號1111及複數初始資料1121。
匯流排單元130電性連接於感測器內處理單元110,且包含一同步模組131、一畫面差異模組132、一位元分割模組133及一編碼模組134。同步模組131電性連接微處理器111並接收第一指令訊號1111及初始資料1121而產生一第二指令訊號1311及複數輸入資料1312。畫面差異模組132電性連接於同步模組131,且畫面差異模組132接收輸入資料1312而產生複數差異資料1321,且各差異資料1321具有一差異位址1322。位元分割模組133電性連接於畫面差異模組132,且位元分割模組133接收差異資料1321而產生複數位元片1331。編碼模組134電性連接於畫面差異模組132,且編碼模組134接收差異位址1322而產生一控制訊號1341。記憶體內運算單元120電性連接於匯流排單元130,且記憶體內運算單元120依據控制訊號1341存取各位元片1331。
藉此,本發明之感測器內處理單元及記憶體內運算單元之整合系統100可藉由匯流排單元130將感測器內處理單元110輸出的資料傳輸至記憶體內運算單元120作運算,有利於降低資料在傳輸過程中的耗能與時間。
請一併參照第2圖及第3圖,其中第3圖係繪示依照第2圖態樣之實施方式的感測器內處理單元及記憶體 內運算單元之整合系統100的第一指令訊號1111及初始資料1121轉換為第二指令訊號1311及輸入資料1312之示意圖。由第3圖可知,當第一指令訊號1111上升至1時,表示感測器內處理單元110已準備就緒並可傳送前處理的資料至匯流排單元130。初始資料1121將通過感測器內處理單元110的數據端口(未另繪示)並依序地輸出。感測器內處理單元110可操作於一第一時脈clk1(例如:10KHz),記憶體內運算單元120可操作於一第二時脈clk2(例如:100KHz)。其中,第一時脈clk1與第二時脈clk2相異。因此,第一指令訊號1111及複數初始資料1121之第一時脈clk1經由同步模組131轉換為第二指令訊號1311及複數輸入資料1312之第二時脈clk2。藉此,將資料同步並由感測器內處理單元110傳輸至記憶體內運算單元120。
值得注意的是,匯流排單元130可更包含一記憶體135。記憶體135電性連接於畫面差異模組132。其中,記憶體135儲存一輸入資料1312,畫面差異模組132讀取記憶體135之輸入資料1312並與另一輸入資料1312比較以擷取出各差異資料1321。詳細地說,畫面差異模組132依序接收各輸入資料1312,其中一輸入資料1312儲存於記憶體135,且比較下一輸入資料1312(即另一輸入資料1312)與記憶體135之輸入資料1312的相異處,以擷取出各差異資料1321(如第3圖之“012345678”、“12”)。藉此,減少傳輸多餘的資料量,有利於提高傳輸 效率。
請一併參照第2圖及第4圖,其中第4圖係繪示依照第2圖態樣之實施方式的感測器內處理單元及記憶體內運算單元之整合系統100的差異資料1321分割成位元片1331之示意圖。位元分割模組133接收複數差異資料1321,並將各差異資料1321分割成複數位元片1331。編碼模組134接收複數差異位址1322,並編碼成控制訊號1341,且記憶體內運算單元120依據控制訊號1341存取各位元片1331。此外,記憶體內運算單元120包含一處理單元121及一靜態隨機存取記憶體122。處理單元121電性連接於同步模組131及編碼模組134並接收第二指令訊號1311及控制訊號1341。靜態隨機存取記憶體122電性連接於處理單元121,且靜態隨機存取記憶體122依據控制訊號1341存取各位元片1331。具體來說,記憶體內運算單元120內部的每筆資料的各bit皆是分開存在不同的位址,因此需要將資料切成單一位元串列(bitserial)輸入,並寫入對應的一靜態隨機存取記憶體位址1221。當控制訊號1341上升至1時,代表開始將位元片1331依據靜態隨機存取記憶體位址1221寫入靜態隨機存取記憶體122。
再者,匯流排單元130可更包含一傳輸模組136。傳輸模組136電性連接於位元分割模組133與靜態隨機存取記憶體122,且傳輸模組136接收複數位元片1331,並將複數位元片1331轉換為一輸出資料1361,藉以令輸 出資料1361傳輸至靜態隨機存取記憶體122。詳細地說,各位元片1331具有一第一頻寬(例如:1'b1),輸出資料1361具有一第二頻寬(例如:16bits/cycle),第一頻寬與第二頻寬相異。藉此,輸出資料1361可滿足記憶體內運算單元120的輸入頻寬。
第5圖係繪示依照本發明一方法態樣之一實施方式的感測器內處理單元及記憶體內運算單元之整合方法S100之步驟方塊圖。在第5圖中,感測器內處理單元及記憶體內運算單元之整合方法S100包含一提供步驟S110、一轉換步驟S120、一擷取步驟S130、一分割步驟S140及一控制步驟S150。
請配合參照第2圖,詳細來說,感測器內處理單元110操作於第一時脈clk1,記憶體內運算單元120操作於第二時脈clk2。提供步驟S110驅動感測器內處理單元110提供第一指令訊號1111及複數初始資料1121並傳輸至匯流排單元130,其中第一指令訊號1111及各初始資料1121操作於第一時脈clk1,匯流排單元130包含同步模組131及畫面差異模組132。轉換步驟S120驅動同步模組131接收第一指令訊號1111及初始資料1121,第一指令訊號1111及初始資料1121經過同步模組131而轉換為第二指令訊號1311及複數輸入資料1312,使第二指令訊號1311及各輸入資料1312操作於第二時脈clk2,第一時脈clk1與第二時脈clk2相異,藉以令第二指令訊號1311傳輸至記憶體內運算單元120。 擷取步驟S130驅動畫面差異模組132接收輸入資料1312,並根據輸入資料1312以擷取成複數差異資料1321,且各差異資料1321具有差異位址1322。分割步驟S140驅動位元分割模組133接收差異資料1321,並將各差異資料1321分割成複數位元片1331。控制步驟S150驅動編碼模組134接收差異位址1322,並將差異位址1322編碼成控制訊號1341,且記憶體內運算單元120依據控制訊號1341存取各位元片1331。
藉此,本發明之感測器內處理單元及記憶體內運算單元之整合方法S100可藉由提供步驟S110、轉換步驟S120、擷取步驟S130、分割步驟S140及控制步驟S150將感測器內處理單元110輸出的資料傳輸至記憶體內運算單元120作運算。
舉例來說,在第5圖中,在感測器內處理單元及記憶體內運算單元之整合方法S100之提供步驟S110中,當第一指令訊號1111為1時,各輸入資料1312依序傳輸至匯流排單元130。當第一指令訊號1111為0時,各輸入資料1312未傳輸至匯流排單元130。此外,第一時脈clk1可為10KHz,第二時脈clk2可為100KHz。接續地,於轉換步驟S120中,第一指令訊號1111及複數初始資料1121之第一時脈clk1經由同步模組131轉換為第二指令訊號1311及複數輸入資料1312之第二時脈clk2。藉此,將資料同步並由感測器內處理單元110傳輸至記憶體內運算單元120。
請一併參照第5圖及第6圖,其中第6圖係繪示依照第5圖之方法態樣之實施方式的感測器內處理單元及記憶體內運算單元之整合方法S100的擷取步驟S130之步驟方塊圖。匯流排單元130可更包含記憶體135,其中擷取步驟S130包含一資料儲存子步驟S131及一資料擷取子步驟S132。資料儲存子步驟S131驅動記憶體135儲存其中一輸入資料1312。資料擷取子步驟S132驅動畫面差異模組132讀取一輸入資料1312,且與另一輸入資料1312比較以擷取出各差異資料1321。藉此,減少傳輸多餘的資料量,有利於提高傳輸效率。
特別的是,在一個週期之間,差異資料1321可為4bits或8bits,但記憶體內運算單元120在寫入或儲存資料時,只可存入1bit。因此,於分割步驟S140中,位元分割模組133接收複數差異資料1321,並將各差異資料1321分割成複數位元片1331。
請一併參照第2圖及第4圖,記憶體內運算單元120可包含靜態隨機存取記憶體122。於控制步驟S150中,編碼模組134接收複數差異位址1322,並編碼成控制訊號1341,且記憶體內運算單元120依據控制訊號1341存取各位元片1331。具體來說,記憶體內運算單元120內部的每筆資料的各bit皆是分開存在不同的位址,因此需要將資料切成單一位元串列(bitserial)輸入,並寫入對應的靜態隨機存取記憶體位址1221。當控制訊號1341為1時,各位元片1331依序寫入靜態隨機存取記憶 體122。當控制訊號1341為0時,各位元片1331未寫入靜態隨機存取記憶體122。
再者,感測器內處理單元及記憶體內運算單元之整合方法S100可更包含一輸出步驟S160。輸出步驟S160驅動傳輸模組136接收複數位元片1331,並將複數位元片1331轉換為輸出資料1361,藉以令輸出資料1361傳輸至記憶體內運算單元120。其中,各位元片1331具有第一頻寬(例如:1'b1),輸出資料1361具有第二頻寬(例如:16bits/cycle)。藉此,輸出資料1361可滿足記憶體內運算單元120的輸入頻寬。
綜合上述,本發明具有下列優點:其一,可將感測器內處理單元輸出的資料傳輸至記憶體內運算單元作運算。其二,有利於降低運算的耗能與時間。其三,減少傳輸多餘的資料量,有利於提高傳輸效率。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本發明的精神和範圍內,當可作各種的更動與潤飾,因此本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100:感測器內處理單元及記憶體內運算單元之整合系統
110:感測器內處理單元
111:微處理器
1111:第一指令訊號
112:感測器
1121:初始資料
120:記憶體內運算單元
121:處理單元
122:靜態隨機存取記憶體
130:匯流排單元
131:同步模組
1311:第二指令訊號
1312:輸入資料
132:畫面差異模組
1321:差異資料
1322:差異位址
133:位元分割模組
1331:位元片
134:編碼模組
1341:控制訊號
135:記憶體
136:傳輸模組
1361:輸出資料

Claims (7)

  1. 一種感測器內處理單元及記憶體內運算單元之整合方法,該感測器內處理單元操作於一第一時脈,該記憶體內運算單元操作於一第二時脈,該感測器內處理單元及該記憶體內運算單元之整合方法包含:一提供步驟,驅動該感測器內處理單元提供一第一指令訊號及複數初始資料並傳輸至一匯流排單元,其中該第一指令訊號及各該初始資料操作於該第一時脈,該匯流排單元包含一記憶體、一同步模組及一畫面差異模組;一轉換步驟,驅動該同步模組接收該第一指令訊號及該些初始資料,該第一指令訊號及該些初始資料經過該同步模組而轉換為一第二指令訊號及複數輸入資料,使該第二指令訊號及各該輸入資料操作於該第二時脈,該第一時脈與該第二時脈相異,藉以令該第二指令訊號傳輸至該記憶體內運算單元;一擷取步驟,驅動該畫面差異模組接收該些輸入資料,並根據該些輸入資料以擷取成複數差異資料,且各該差異資料具有一差異位址,且該擷取步驟包含:一資料儲存子步驟,驅動該記憶體儲存一該輸入資料;及一資料擷取子步驟,驅動該畫面差異模組讀取一該輸入資料,且與另一該輸入資料比較以擷取出各該差異資料;一分割步驟,驅動一位元分割模組接收該些差異資料, 並將各該差異資料分割成複數位元片;以及一控制步驟,驅動一編碼模組接收該些差異位址,並將該些差異位址編碼成一控制訊號,且該記憶體內運算單元依據該控制訊號存取各該位元片。
  2. 如請求項1所述之感測器內處理單元及記憶體內運算單元之整合方法,其中在該提供步驟中,當該第一指令訊號為1時,各該輸入資料依序傳輸至該匯流排單元;及當該第一指令訊號為0時,各該輸入資料未傳輸至該匯流排單元。
  3. 如請求項1所述之感測器內處理單元及記憶體內運算單元之整合方法,更包含:一輸出步驟,驅動一傳輸模組接收該些位元片,並將該些位元片轉換為一輸出資料,藉以令該輸出資料傳輸至該記憶體內運算單元;其中,各該位元片具有一第一頻寬,該輸出資料具有一第二頻寬,該第一頻寬與該第二頻寬相異。
  4. 如請求項3所述之感測器內處理單元及記憶體內運算單元之整合方法,其中該記憶體內運算單元包含一靜態隨機存取記憶體,且在該控制步驟中,當該控制訊號為1時,各該位元片依序寫入該靜態隨機 存取記憶體;及當該控制訊號為0時,各該位元片未寫入該靜態隨機存取記憶體。
  5. 一種感測器內處理單元及記憶體內運算單元之整合系統,包含:一感測器內處理單元,包含一微處理器及一感測器,該微處理器電性連接於該感測器,用以產生一第一指令訊號及複數初始資料;一匯流排單元,電性連接於該感測器內處理單元,且包含:一同步模組,電性連接該微處理器並接收該第一指令訊號及該些初始資料而產生一第二指令訊號及複數輸入資料;一畫面差異模組,電性連接於該同步模組,且該畫面差異模組接收該些輸入資料而產生複數差異資料,且各該差異資料具有一差異位址;一記憶體,電性連接於該畫面差異模組並儲存一該輸入資料,且該畫面差異模組讀取該記憶體之一該輸入資料並與另一該輸入資料比較以擷取出各該差異資料;一位元分割模組,電性連接於該畫面差異模組,且該位元分割模組接收該些差異資料而產生複數位元片;及一編碼模組,電性連接於該畫面差異模組,且該編碼模組接收該些差異位址而產生一控制訊號;以及 一記憶體內運算單元,電性連接於該匯流排單元,該記憶體內運算單元依據該控制訊號存取各該位元片;其中,該感測器內處理單元操作於一第一時脈,該記憶體內運算單元操作於一第二時脈,且該第一時脈經由該同步模組轉換為該第二時脈,該第一時脈與該第二時脈相異。
  6. 如請求項5所述之感測器內處理單元及記憶體內運算單元之整合系統,其中該記憶體內運算單元包含:一處理單元,電性連接於該同步模組及該編碼模組並接收該第二指令訊號及該控制訊號;及一靜態隨機存取記憶體,電性連接於該處理單元,且該靜態隨機存取記憶體依據該控制訊號存取各該位元片。
  7. 如請求項6所述之感測器內處理單元及記憶體內運算單元之整合系統,其中該匯流排單元更包含:一傳輸模組,電性連接於該位元分割模組與該靜態隨機存取記憶體,且該傳輸模組接收該些位元片,並將該些位元片轉換為一輸出資料,藉以令該輸出資料傳輸至該靜態隨機存取記憶體;其中,各該位元片具有一第一頻寬,該輸出資料具有一第二頻寬,該第一頻寬與該第二頻寬相異。
TW109104791A 2020-02-14 2020-02-14 感測器內處理單元及記憶體內運算單元之整合方法及其系統 TWI724788B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109104791A TWI724788B (zh) 2020-02-14 2020-02-14 感測器內處理單元及記憶體內運算單元之整合方法及其系統
US16/894,899 US11048650B1 (en) 2020-02-14 2020-06-08 Method and system for integrating processing-in-sensor unit and in-memory computing unit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109104791A TWI724788B (zh) 2020-02-14 2020-02-14 感測器內處理單元及記憶體內運算單元之整合方法及其系統

Publications (2)

Publication Number Publication Date
TWI724788B true TWI724788B (zh) 2021-04-11
TW202131329A TW202131329A (zh) 2021-08-16

Family

ID=76548225

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109104791A TWI724788B (zh) 2020-02-14 2020-02-14 感測器內處理單元及記憶體內運算單元之整合方法及其系統

Country Status (2)

Country Link
US (1) US11048650B1 (zh)
TW (1) TWI724788B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11392303B2 (en) * 2020-09-11 2022-07-19 International Business Machines Corporation Metering computing power in memory subsystems

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130101275A1 (en) * 2011-10-20 2013-04-25 Broadcom Corporation Video Memory Having Internal Programmable Scanning Element
US20190080231A1 (en) * 2017-09-08 2019-03-14 Analog Devices, Inc. Analog switched-capacitor neural network

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8872799B2 (en) * 2011-06-20 2014-10-28 The Regents Of The University Of California Scalable distributed/cooperative/collaborative paradigm for multi-user interaction with projection-based display walls
US11249511B2 (en) * 2019-06-28 2022-02-15 Intel Corporation High performance clock domain crossing FIFO

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130101275A1 (en) * 2011-10-20 2013-04-25 Broadcom Corporation Video Memory Having Internal Programmable Scanning Element
US20190080231A1 (en) * 2017-09-08 2019-03-14 Analog Devices, Inc. Analog switched-capacitor neural network

Also Published As

Publication number Publication date
TW202131329A (zh) 2021-08-16
US11048650B1 (en) 2021-06-29

Similar Documents

Publication Publication Date Title
EP3346423B1 (en) Deep convolutional network heterogeneous architecture system and device
US10606787B2 (en) Methods and apparatuses for providing data received by a state machine engine
CN210428520U (zh) 用于深度学习加速的集成电路
JP6974270B2 (ja) 知能型高帯域幅メモリシステム及びそのための論理ダイ
US10769749B2 (en) Processor, information processing apparatus, and operation method of processor
EP3346427B1 (en) Configurable accelerator framework, system and method
WO2022037257A1 (zh) 卷积计算引擎、人工智能芯片以及数据处理方法
CN104954795A (zh) 一种基于jpeg2000的图像采集传输系统
TWI724788B (zh) 感測器內處理單元及記憶體內運算單元之整合方法及其系統
US20220366968A1 (en) Sram-based in-memory computing macro using analog computation scheme
CN115460414B (zh) 一种基板管理控制芯片的视频压缩方法、系统及相关组件
CN110941577A (zh) 基于fpga的sata接口链路层功能实现方法
Sardar et al. Hardware implementation of real-time, high performance, RCE-NN based face recognition system
CN114359662B (zh) 一种基于异构fpga和融合多分辨率的卷积神经网络的实现方法
CN109525844B (zh) 一种多路视频编解码的加速系统及方法
CN109472734B (zh) 一种基于fpga的目标检测网络及其实现方法
Im et al. DSPU: A 281.6 mW real-time depth signal processing unit for deep learning-based dense RGB-D data acquisition with depth fusion and 3D bounding box extraction in mobile platforms
CN114610483A (zh) 一种基于npu+fpga架构的vpx型异构加速模块
CN114462587A (zh) 一种用于光电混合计算神经网络的fpga实现方法
TWI766568B (zh) 用於執行卷積神經網路運算的處理裝置與其操作方法
CN104407367B (zh) 提高卫星导航终端接收机基带信号处理能力的装置与方法
CN113269211A (zh) 感测器内处理单元及存储器内运算单元的整合方法及系统
TW202226005A (zh) 深度學習加速晶片之資料壓縮方法、資料壓縮系統及運算方法
CN111125627A (zh) 用于池化多维矩阵的方法及相关产品
CN112380158B (zh) 一种面向深度学习的计算平台