TWI821746B

TWI821746B - 記憶體裝置及其操作方法

Info

Publication number: TWI821746B
Application number: TW110134382A
Authority: TW
Inventors: 呂函庭; 許柏凱
Original assignee: 旺宏電子股份有限公司
Priority date: 2021-02-02
Filing date: 2021-09-15
Publication date: 2023-11-11
Also published as: TW202232489A

Abstract

本案提出記憶體裝置及其操作方法。該操作方法包括：於進行一乘積累加運算操作時，透過複數個第一信號線輸入複數個輸入至該記憶體裝置之複數個記憶體單元；根據該些記憶體單元的複數個權重，該些記憶體單元輸出複數個單元電流於複數個第二信號線；加總各該些第二信號線上的該些單元電流成複數個信號線電流；加總該些信號線電流成一整體信號線電流；以及將該整體信號線電流轉換成一輸出，其中，該輸出代表該些輸入與該些權重的一乘積累加運算操作結果。

Description

記憶體裝置及其操作方法

本發明是有關於一種記憶體裝置及其操作方法。

人工智慧(AI)日漸重要。乘積累加運算(Multiply Accumulate,MAC)操作是AI的核心操作。

在傳統上，為完成MAC操作，要透過算術邏輯單元(Arithmetic logic unit，ALU)、浮點運算器等，把資料從記憶體存取出來進行運算，這需要大量資料搬移，故而，運算速度較慢。

現已發展出記憶體內運算(Computing-in-Memory,CIM)記憶體，以求快速完成MAC，適合用於實施AI加速器。

以目前而言，記憶體裝置已朝向3D堆疊發展，以提高記憶體密度。以3D結構而言，除了3D NAND快閃記憶體與3D NOR快閃記憶體之外，目前又已發展出3D AND快閃記憶體。

如何在3D記憶體中，在不額外佔電路面積的前提下，提高MAC運算量，乃是業界努力方向之一。

根據本案一實施例，提出一種記憶體裝置之操作方法，該操作方法包括：於進行一乘積累加運算(Multiply Accumulate,MAC)操作時，透過複數個第一信號線輸入複數個輸入至該記憶體裝置之複數個記憶體單元；根據該些記憶體單元的複數個權重，該些記憶體單元輸出複數個單元電流於複數個第二信號線；加總各該些第二信號線上的該些單元電流成複數個信號線電流；加總該些信號線電流成一整體信號線電流；以及將該整體信號線電流轉換成一輸出，其中，該輸出代表該些輸入與該些權重的一乘積累加運算操作結果。

根據本案又一實施例，提出一種記憶體裝置，包括：一記憶體陣列，包括複數個記憶體單元，該些記憶體單元儲存複數個權重，該些記憶體單元耦接至複數個第一信號線與複數個第二信號線；至少一第一區域信號線解碼器，耦接至該記憶體陣列與至少一第一整體信號線；以及至少一轉換單元，耦接至該至少一第一區域信號線解碼器與該至少一第一整體信號線。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

100:記憶體裝置

110:記憶體陣列

D_LBL(1)~D_LBL(M):區域位元線解碼器

D_LSL(1)~D_LSL(M):區域源極線解碼器

ADC(1)~ADC(M):轉換單元

BLT(1)~BLT(Q):位元線電晶體

SLT(1)~SLT(Q):源極線電晶體

MC(i,j,k):記憶體單元

WL(1)~WL(N):字元線

LBL:區域位元線

LSL:區域源極線

310~350:步驟

第1圖繪示根據本案一實施例的記憶體裝置的電路示意圖。

第2圖顯示根據本案一實施例的記憶體裝置進行MAC操作時的示意圖。

第3圖顯示根據本案一實施例的記憶體操作方法流程圖。

第4A圖至第4D圖顯示根據本案一實施例的裝置性能特徵圖。

本說明書的技術用語係參照本技術領域之習慣用語，如本說明書對部分用語有加以說明或定義，該部分用語之解釋係以本說明書之說明或定義為準。本揭露之各個實施例分別具有一或多個技術特徵。在可能實施的前提下，本技術領域具有通常知識者可選擇性地實施任一實施例中部分或全部的技術特徵，或者選擇性地將這些實施例中部分或全部的技術特徵加以組合。

請參照第1圖，其繪示根據本案一實施例的記憶體裝置的電路示意圖。如第1圖所示，本案一實施例的記憶體裝置100包括：記憶體陣列110，複數個區域位元線解碼器D_LBL(1)~D_LBL(M)(M為正整數)、複數個區域源極線解碼器D_LSL(1)~D_LSL(M)，與複數個轉換單元ADC(1)~ADC(M)。在此，轉換單元為類比數位轉換單元為例做說明，但當知本案並不受限於此。記憶體裝置100例如但不受限於，為3D(三維)AND型記憶體裝置，而記憶體陣列110為3D AND型記憶體陣列。

各區域位元線解碼器D_LBL(1)~D_LBL(M)包括複數個位元線電晶體BLT(1)~BLT(Q)(Q為正整數)。相似地，各區域源極線解碼器D_LSL(1)~D_LSL(M)包括複數個源極線電晶體SLT(1)~SLT(Q)。

記憶體陣列110包括以陣列排列的複數個記憶體單元MC(i,j,k)。該些記憶體單元MC(i,j,k)耦接至複數條字元線WL(1)~WL(N)(N為正整數)、複數條區域源極線LSL與複數條區域位元線LBL。i=1~N，j=1~M，k=1~Q。i、j與k為正整數。

以位元線電晶體BLT(1)為例，位元線電晶體BLT(1)具有：一第一端(如源極)耦接至區域位元線LBL，一第二端(如汲極)耦接至轉換單元之輸入端與一整體位元線(未示出)，以及一控制端(如閘極)接收一控制信號(未示出)。位元線電晶體BLT(2)~BLT(Q)具有類似耦接關係。

相似地，以源極線電晶體SLT(1)為例，源極線電晶體SLT(1)具有：一第一端(如源極)耦接至區域源極線LSL，一第二端(如汲極)耦接至一整體源極線(未示出)，以及一控制端(如閘極)接收一控制信號(未示出)。源極線電晶體SLT(2)~SLT(Q)具有類似耦接關係。

當進行乘積累加運算(Multiply Accumulate,MAC)時，字元線WL(1)~WL(N)接收字元線電壓VWL(1)~VWL(N)，其中，字元線電壓VWL(1)~VWL(N)為高位準電壓或低位準電壓。當進行MAC運算時，該些字元線電壓VWL(1)~VWL(N)即為輸入。

該些記憶體單元可被程式化為邏輯1或邏輯0，亦即，在本案一實施例中，該些記憶體單元乃是單階儲存單元(Single-Level Cell，SLC)，但本案並不受限於此。在本案其他可能實施例中，該些記憶體單元可為多階儲存單元(Multi-Level Cell，MLC)，此亦在本案精神範圍內。當該記憶體單元被程式化為邏輯1時且相關的字元線上被施加高位準電壓時，則該記憶體單元會輸出單元電流(cell current)；當該記憶體單元被程式化為邏輯1時且相關的字元線上被施加低位準電壓時，則該記憶體單元不會輸出單元電流；以及，當該記憶體單元被程式化為邏輯0時，不論相關的字元線上被施加高位準電壓或低位準電壓時，該記憶體單元不會輸出單元電流。該記憶體單元MC(i,j,k)所輸出的單元電流Icell(i,j,k)可表示為Icell(i,j,k)=VWL(i)*w(i,j,k)，其中，w(i,j,k)代表該記憶體單元MC(i,j,k)所儲存的權重值，亦即，該記憶體單元MC(i,j,k)的跨導值(transconductance)。

故而，以同一條區域位元線LBL而言，從該條區域位元線LBL流向該轉換單元ADC(j)的位元線電流(信號線電流)乃是在該條區域位元線LBL上的N個記憶體單元的單元電流的總和。

各區域位元線解碼器D_LBL(1)~D_LBL(M)將該些區域位元線LBL上的位元線電流(信號線電流)加總成一整體位元線電流(亦可稱為整體信號線電流)。故而，由此可推出，整體位元線電流=

。

轉換單元ADC(1)~ADC(M)接收區域位元線解碼器D_LBL(1)~D_LBL(M)的個別整體位元線電流並轉換成輸出(數位碼)後得到輸出OUT(1)~OUT(M)。例如但不受限於，當轉換單元ADC(1)~ADC(M)具有8位元解析度，則可將輸入電流轉換成8位元的輸出OUT(1)~OUT(M)。故而，輸出OUT(j)可表示為：

，其中，IN(i)代表輸入至記憶體陣列110的字元線WL(i)的輸入資料。當輸入資料IN(i)為邏輯高時，字元線電壓VWL(i)為高準位電壓；以及當輸入資料IN(i)為邏輯低時，字元線電壓VWL(i)為低準位電壓。

亦即，轉換單元ADC(j)的輸出OUT(j)相關於耦接至同一轉換單元ADC(j)的該些記憶體單元的儲存權重與該些相關字元線電壓(輸入資料)的MAC操作結果。

現請參照第2圖，其顯示根據本案一實施例的記憶體裝置進行MAC操作時的示意圖。如第2圖所示，於進行MAC操作時，該些位元線電晶體BLT(1)~BLT(3)與該些源極線電晶體SLT(1)~SLT(3)為導通，且施加至整體位元線GBLj的整體位元線電壓為1.8V，而施加至整體源極線GSLj的整體源極線電壓為0V。字元線電壓VWL(1)~VWL(4)的高位準電壓為2.8V，而低位準電壓為0V。

故而，在第2圖中，整體位元線電流=

。

由第2圖可看出，由該3個位元線電晶體 BLT(1)~BLT(3)所加總的電流可代表多階權重(multi-level weight)0、1、2與3，亦即，0代表2階的00，1代表2階的01，2代表2階的10與3代表2階的11。各記憶體單元乃儲存單階權重1或0。

進一步說，當想要代表x階權重時，則耦接至同一轉換單元的區域位元線數量為：Q=2^x-1。例如，想要代表4階權重時，則耦接至同一轉換單元的區域位元線數量為：Q=2⁴-1=15。

也就是說，在本案一實施例中，即便是使用單階儲存單元，仍可進行多階權重的運算。故而，本案實施例具有架構簡單但可執行複雜MAC運算的優點。

第3圖顯示根據本案一實施例的記憶體操作方法流程圖。於步驟310中，於進行一乘積累加運算(Multiply Accumulate,MAC)操作時，透過複數個第一信號線輸入複數個輸入至該記憶體裝置之複數個記憶體單元。於步驟320中，根據該些記憶體單元的複數個權重，該些記憶體單元輸出複數個單元電流於複數個第二信號線。於步驟330中，加總各該些第二信號線上的該些單元電流成複數個信號線電流。於步驟340中，加總該些信號線電流成一整體信號線電流。於步驟350中，將該整體信號線電流轉換成一輸出，其中，該輸出代表該些輸入與該些權重的一乘積累加運算操作結果。

第4A圖至第4D圖顯示根據本案一實施例的裝置性能特徵圖。如第4A圖所示，在本案一實施例中，如果可以讓記憶體單元的導通電流(Ion)與關閉電流(Ioff)之間的差異愈大的話(例如，(Ion/Ioff)>10⁴)，則可以允許更多的平行加總(parallel summation)與降低背景漏電流(background leakage)。此外，透過步增程式脈衝(ISPP，Increment Step Programming Pulse)可以逐漸將臨界電壓抬高。當字元線電壓固定為2.8V時，可逐漸地將單元電流修改地更小。

第4B圖顯示可調整且緊縮(tunable and tight)的單元電流。如第4B圖所示，可將單元電流Icell修改成不同範圍，例如但不受限於，從單元電流Icell的範圍可從150nA至1.5μA。而且，單元電流Icell的分布更加緊縮，單元電流Icell的標準差(Standard Deviation，數學符號σ(sigma))可小於2%(σ<2%)。

第4C圖顯示根據本案一實施例中，3D AND型記憶體裝置可免於讀取干擾(Read-disturb free)，例如是當字元線電壓約為+7V至+8V時。對於具有CIM功能的記憶體裝置，讀取偏壓約為2.8V，這可更進一步降低讀取干擾。

第4D圖顯示在本案一實施例中，記憶體裝置具有小的隨機電報雜訊(Random Telegraph Noise(RTN))。當單元電流Icell為150nA時，隨機電報雜訊僅為+/-0.02μA，相當於平均值的1.9%左右。

此外，在本案一實施例中，可將操作電壓VCC(例如為3.3V)降壓而產生字元線電壓(例如但不受限於，為2.8V)，故而無需額外的電荷幫浦，具有節省成本的優點。

在本案一實施例中，3D記憶體裝置可提供平行的N*M MAC運算，以提供高運算頻寬。

此外，在本案一實施例中，如果可以提供更多個字元線電壓與更多個ADC輸出的話，則可大幅提高運算量。例如，如果可以提供1000個字元線電壓(N=1000)與1000個ADC輸出(M=1000)的話(約等於8Mb的記憶體磚(memory tile))，則可在極短讀取時間(如150ns，8位元ADC的輸出讀取約為150ns)計算高達1M的MAC運算量，這相當於6.7TOPS的MAC運算能力，其中，TOPS是Tera Operations Per Second(每秒兆次運算)的縮寫，1個TOPS代表每秒鐘可進行一兆次(10^12)操作。

更一步說，本案實施例在佔用極小記憶體電路面積下，可進行超高速MAC運算。故而，本案實施例具有低電路成本但高速運算的優點。

綜上所述，雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。