TW202403757A

TW202403757A - 記憶體內計算用的記憶體裝置

Info

Publication number: TW202403757A
Application number: TW112103278A
Authority: TW
Inventors: 呂函庭; 徐子軒; 葉騰豪; 謝志昌; 洪俊雄; 李永駿
Original assignee: 旺宏電子股份有限公司
Priority date: 2022-07-13
Filing date: 2023-01-31
Publication date: 2024-01-16

Abstract

一種記憶體內計算用的記憶體裝置，可應用於3D AND型快閃記憶體，包括記憶體陣列、多個輸入字元線對及訊號處理電路。記憶體陣列具有多個第一對記憶胞與多個第二對記憶胞，各第一對記憶胞包括耦接到第一全域位元線的第一組記憶胞及耦接至第二全域位元線的第二組記憶胞，各第二對記憶胞包括耦接到第一全域位元線的第三組記憶胞及耦接至第二全域位元線的第四組記憶胞。各輸入字元線對包括第一與第二輸入字元線，第一輸入字元線耦接到第一組記憶胞與第二組記憶胞，第二輸入字元線耦接到第三組記憶胞與第四組記憶胞。訊號處理電路耦接到第一與第二全域位元線。

Description

記憶體內計算用的記憶體裝置

本發明是有關於一種記憶體裝置，且特別關於一種記憶體內計算的記憶體裝置。

向量矩陣乘法（VMM）是深度神經網路(Deep Neural Network，DNN)、餘弦相似度（cosine similarity）和模擬退火中適合“以記憶體為中心的計算”。具有高密度和高帶寬的 VMM 加速器適合用來補足馮紐曼(Von-Neumann)數位方式。

利用記憶體內運算來進行向量矩陣乘法存在幾個問題。首先，VMM通常同時涉及正（+）和負（-）輸入和權重值。因此，如何實現正/負極性的模擬電路是一個具有挑戰性的話題。另外，輸入和權重值往往是多位元解析度（軟體中為32b-FP，但在邊緣DNN中可以降低到4位元，而相似度搜尋中解析度甚至可以更低少（如2-3位元））。

因此，發展出一種VMM加速器為本領域的一大課題。

基於上述說明，本發明提出一種利用3D AND型NOR快閃記憶體來架構VMM加速器。

根據本發明一實施例，提供一種記憶體內計算用的記憶體裝置，包括記憶體陣列、多個輸入字元線對、以及訊號處理電路。記憶體陣列具有多個第一對記憶胞與多個第二對記憶胞，其中多個第一對記憶胞的每一個包括耦接到第一全域位元線的第一組記憶胞及耦接至第二全域位元線的第二組記憶胞，多個第二對記憶胞的每一個包括耦接到第一全域位元線的第三組記憶胞及耦接至第二全域位元線的第四組記憶胞。多個輸入字元線對的每一個包括第一輸入字元線與第二輸入字元線，其中第一輸入字元線耦接到第一組記憶胞與第二組記憶胞，第二輸入字元線耦接到第三組記憶胞與所述第四組記憶胞。訊號處理電路耦接到第一全域位元線與第二全域位元線。

基於上述，根據本發明實施例，利用3D AND型NOR快閃記憶體來建構記憶體內計算的記憶體裝置的操作架構。由此，本發明實施例可以不用將記憶體內的資料讀取到外部，以另外的ALU進行計算，故可以節省系統資料，不必因為讀取到外部的儲存裝置而一直需要資料更新。同時，本發明的架構可以達到高容量、高速且高效率的記憶體內計算。由此，在如影像處理、人臉辨識、深度神經網路等之大數據或AI應用常用的VMM計算、IMS計算等都可以通過本發明的架構來實施。

本發明是關於一種記憶體內部計算的架構。通過此架構，儲存在記憶體內部的資料可以不用被讀取出來，傳送到外部的運算邏輯單元(Arithmetic logic unit，ALU)進行運算。通過感測記憶體內部儲存的權重值(weight)與字元線輸入的電壓值，便可以直接獲得讀取電流(Icell)。將讀取電流累加後，便可以直接進行如向量矩陣乘法(vector matrix multiplication，VMM)、餘弦相似度(cosine similarity) 或記憶體內搜尋(in-memory search，IMS)。3D AND-型NOR快閃記憶體裝是一種適合此種記憶體內計算(CIM)的架構。

圖1繪示根據本發明實施例之3D AND-型 NOR快閃記憶體裝置的結構示意圖。3D AND-型NOR快閃記憶體裝置可以包括多個圖1所示的堆疊結構10。此堆疊結構10例如在垂直方向(Z方向)延伸形成多層的閘極層20，閘極層20可以進一步耦接到作為字元線(未繪出)的導體層。ONO層22形成在閘極層20與中空通道柱之間。堆疊結構10包括沿著垂直方向Z延伸的中空通道柱(channel pillar)18。中空通道柱18內形成有兩個沿著垂直方向Z延伸的導體柱(conductive pillar)12、14，其可以作為記憶胞的源極和汲極。兩個導體柱12、14則具有沿著垂直方向Z延伸的隔離結構16，將兩個導體柱12、14隔離。

此堆疊結構10例如可以是32層的結構，可以容易地在小的晶粒尺寸中產生數十億個記憶胞，藉此可以被用來進行大量的CIM運算。在其他實施例，堆疊結構10可以是64層或更高的結構。

圖2繪示根據本發明實施例之3D NOR快閃記憶體裝置的等效電路示意圖。如圖2所示，3D NOR快閃記憶體裝置100設置為堆疊結構，如堆疊110、堆疊111等。每一個堆疊包括多個記憶胞C堆疊而成。例如堆疊100包括多條本地位元線LBL1~16與多條本地源極線LSL1~16。每一條本地位元線LBL1~16分別垂直地延伸且連接到每個記憶胞的第一端(源極/汲極端)，並且各堆疊(如110、111)的每一條本地位元線分別耦接到相對應的位元線BL1~16，如圖2所例示的位元線BL1、BL8、BL9、BL16等。此外，每一條本地源極線LSL1~16分別垂直地延伸且連接到每個記憶胞的第二端(另一源極/汲極端)，並且各堆疊(如110、111)的每一條本地源極線LSL1~16分別耦接到相對應的源極線SL1~16，如圖2所例示的源極線SL1、SL8、SL9、SL16等。

此外，一組位元線BL1、BL8等更分別經由位元線電晶體BLT1、BLT8等耦接到第一全域位元線GBL (N)，亦即，以圖2為例，兩個第一汲極側導體串(BL1、BL8)耦接到記憶胞以及第一全域位元線GBL (N)。另一組位元線BL9、BL16等更分別經由位元線電晶體BLT9、BLT16等耦接到第二全域位元線GBLB (N)，亦即兩個第二汲極側導體串(BL9、BL16)耦接到記憶胞以及第二全域位元線GBLB (N)。此外，源極位元線SBL1、SBL8、SL9、SL16等更分別經由源極線電晶體SLT1、SLT8、SLT9、SLT16等耦接到共同源極線CSL。

此外，在每個堆疊的同一層的記憶胞C的控制端(閘極)是耦接到同一條字元線WL。作為一個例子，字元線WL可以有4K條，128節區(sector)。另外，第一全域位元線GBL (N)與第二全域位元線GBLB (N)耦接至感測放大比較器150。在正常讀取模式，感測放大比較器150作為感測流過所選取記憶胞C的讀取電流Icell。

在正常讀取模式時，假設圖2中圈起的記憶胞C要被讀取，則對應該記憶胞C的字元線線WL會被施加讀取電壓Vread(選擇的字元線)，如Vread=7V；其他未被選擇記憶胞C所對應的字元線則施加非選電壓，如0V。此外，位元線電晶體BLT1會被導通，其他的位元線電晶體BLT8、BLT9、BLT16等則被關閉。同時，源極線電晶體SLT1會被導通，使源極線SL1耦接到共同源極線CSL (例如施加0V)，其他的源極線電晶體SLT8、SLT9、SLT16則關閉。第一全域位元線GBL (N)與第二全域位元線GBLB (N)則施加例如1.2V。如此，被選擇記憶胞的讀取電流Icell傳送到感測放大比較器150。由此可經由第一全域位元線GBL (N)來感測被選擇記憶胞C的讀取電流Icell，此時第一全域位元線GBL (N)作為讀取路徑。另外，第二全域位元線GBLB (N)則作為電容性匹配路徑(capacitive matching path)。

圖3A繪示根據本發明實施例之3D NOR快閃記憶體裝置在進行向量矩陣乘法操作的說明圖。接著，說明如何應用上述3D NOR快閃記憶體來進行向量矩陣陳法(vector matrix multiplication，VMM)，或稱為記憶體內計算(computing-in-memory，CIM)。此實施例例示單階權重值CIM的例子。

當應用於VMM時，圖2的記體體裝置100重新架構為記憶體裝置200，相同或類似的符號將繼續沿用，僅標示不同之處。如圖3A所示，記憶體陣列(如由圖2所示的堆疊110、111等所構成)，具有多個第一對記憶胞與多個第二對記憶胞。在此，為了說明簡單，僅例示出一個第一對記憶胞與一個第二對記憶胞。第一對記憶胞包括耦接到第一全域位元線GBL(N)的第一組記憶胞(或稱第一記憶胞)215及耦接至第二全域位元線GBLB(N)的第二組記憶胞(或稱第二記憶胞)216，第二對記憶胞包括耦接到第一全域位元線GBL(N)的第三組記憶胞(或稱第三記憶胞)217及耦接至第二全域位元線第二全域位元線GBLB(N)的第四組記憶胞(或稱第四記憶胞)218。在此實施例，每一組記憶胞215、216、217、218均包含一個記憶胞。

記憶體裝置200還包括多個輸入字元線對220，在此例示出一個做為說明例。輸入字元線對220的每一個包括第一輸入字元線input_1與第二輸入字元線input_1B，第一輸入字元線input_1耦接到第一組記憶胞215與第二組記憶胞216，而第二輸入字元線input_1B耦接到第三組記憶胞217與第四組記憶胞218。記憶體裝置200還包括訊號處理電路250，其耦接到第一全域位元線GBL(N)與第二全域位元線GBLB(N)。在此實施例中，訊號處理電路250可以利用差動類比數位轉換器(differential ADC)250來實施。輸入字元線對220可以提供二元(binary)或三元(ternary)的輸入訊號。此外，此處對輸入字元線對220的輸入是單階(SLC)輸入。

此外，第一組記憶胞215與第三組記憶胞217每一條位元線(如BL1)可分別經由位元線電晶體BLT1耦接到第一全域位元線GBL(N)，第二組記憶胞216與第四組記憶胞218每一條位元線(如BL9)可分別經由位元線電晶體BLT8耦接到第二全域位元線GBLB(N)。第一全域位元線GBL(N)與第二全域位元線GBLB(N)則作為輸入，耦接到差動類比數位轉換器250。在此，第一全域位元線GBL(N)可以用來收集代表VMM乘積大於0的讀取電流，而第二全域位元線GBLB(N) 可以用來收集代表VMM乘積小於0的讀取電流。

差動類比數位轉換器250用來偵測第一全域位元線GBL(N)和第二全域位元線GBLB(N)哪一條路徑的電流值較大。在一實施例，在偵測第一全域位元線GBL(N)和第二全域位元線GBLB(N)之後，差動類比數位轉換器250彼此抵消兩條路徑的電流，以獲取ADC值。

在使用圖3A的記憶體陣列進行VMM運算時，源極線電晶體SLT1、SLT9為導通且源極線電晶體SLT8、SLT16為關閉，使源極線SL1、SL9耦接到共同源極線CSL，例如共同源極線CSL被施加0V的電壓。此外，位元線電晶體BLT1、BLT9為導通且位元線電晶體BLT8、BLT16為關閉，使源極線BL1耦接到第一全域位元線GBL(N)，且BL9耦接到第二全域位元線GBLB(N)，例如第一全域位元線GBL(N)與第二全域位元線GBLB(N)均被施加0.2V的電壓。

第一組記憶胞211、第二組記憶胞212、第三組記憶胞213、第四組記憶胞214內所儲存的資料例如別是單階(single level)的權重值。

在進行VMM乘法運算時，運算結果會有正和負的區分。此外，如上所述，第一全域位元線GBL(N)可以用來收集代表VMM乘積大於0的讀取電流，而第二全域位元線GBLB(N) 可以用來收集代表VMM乘積小於0的讀取電流Icell。因此，電路的運作上必須要可以產生正和負的輸入(字元線電壓)以及正和負的權重值。但是，在實際上，在VMM計算應用上，並沒有物理上負輸入和負權重值。因此，必須設計一個運算規則。

如上所述，根據本發明實施例，在輸入電壓(施加字元線的電壓)部分，採用一輸入字元線對220，其中第一輸入字元線input_1可以輸入1或0，而第二輸入字元線input_1B也可以輸入1或0。在此1或0代表邏輯，在輸入1時，例如可以對字元線施加大約3V的電壓，在輸入0時，例如可以對字元線施加大約0V的電壓。如此，通過輸入字元線對220的第一輸入字元線input_1和第二輸入字元線input_1B的輸入組合，便可以產生三元(ternary)輸入訊號。例如，第一輸入字元線input_1輸入1且第二輸入字元線input_1B輸入0，可以產生正的輸入(+1)；第一輸入字元線input_1輸入0且第二輸入字元線input_1B輸入0，可以產生零的輸入(0)；以及第一輸入字元線input_1輸入0且第二輸入字元線input_1B輸入1，可以產生負的輸入(-1)。由此方式，本發明可以不需要物理上提供負的輸入，便可以產生三元輸入訊號 (+1, 0, -1)。此外，以此方式也可以產生二元(binary)輸入訊號。

關於權重值之正負的部分，根據本發明實施例，例如當第一組記憶胞215和第四組記憶胞218可以讀出讀取電流Icell，而第二組記憶胞216和第三組記憶胞217的讀取電流Icell為0，則在此狀況下可以產生正的權重值(+1)。當第二組記憶胞216和第三組記憶胞217可以讀出讀取電流Icell，而第一組記憶胞215和第四組記憶胞218的讀取電流Icell為0，則在此狀況下可以產生負的權重值(-1)。此外，第一組記憶胞215至第四組記憶胞218的讀取電流Icell都為0的話，代表零權重值。

當操作圖3A的記憶體裝置時，如果是輸入正的電壓，則此輸入電壓會施加在第一輸入字元線input_1，如果第一組記憶胞215為正的權重，則兩者相乘則代表正的讀取電流Icell。此時，此讀取電流Icell會經由第一全域位元線GBL(N)流到差動類比數位轉換器250，即代表負的乘積。同理，當輸入電壓施加在第一輸入字元線input_1，第二組記憶胞216為負的權重，則兩者相乘則代表負的讀取電流Icell。此時，此讀取電流Icell會經由第二全域位元線GBLB(N)流到差動類比數位轉換器250，即代表負的乘積。同理，當輸入電壓施加在第二輸入字元線input_1B (代表輸入為負)，第三組記憶胞217為負的權重，則兩者相乘則代表正的讀取電流Icell。此時，此讀取電流Icell會經由第一全域位元線GBL(N)流到差動類比數位轉換器250，即代表正的乘積。同理，當輸入電壓施加在第二輸入字元線input_1B(代表輸入為負)，第四組記憶胞218為正的權重，則兩者相乘則代表負的讀取電流Icell。此時，此讀取電流Icell會經由第二全域位元線GBLB(N)流到差動類比數位轉換器250，即代表負的乘積。

圖3B繪示根據本發明實施例之3D AND型NOR快閃記憶體裝置在進行向量矩陣乘法操作的說明圖。接著，說明如何應用上述3D AND型NOR快閃記憶體來進行向量矩陣陳法(vector matrix multiplication，VMM)，或稱為記憶體內計算(computing-in-memory，CIM)。此實施例例示執行多階權重值CIM的例子。

當應用於VMM時，圖2的記體體裝置100重新架構為記憶體裝置200，相同或類似的符號將繼續沿用，僅標示不同之處。如圖3B所示，記憶體陣列(如由圖2所示的堆疊110、111等所構成)，具有多個第一對記憶胞與多個第二對記憶胞。在此，為了說明簡單，僅例示出一個第一對記憶胞與一個第二對記憶胞。第一對記憶胞包括耦接到第一全域位元線GBL(N)的第一組記憶胞211及耦接至第二全域位元線GBLB(N)的第二組記憶胞212，第二對記憶胞包括耦接到第一全域位元線GBL(N)的第三組記憶胞213及耦接至第二全域位元線第二全域位元線GBLB(N)的第四組記憶胞。在此，每一組記憶胞211、212、213、214均例示為包含兩個記憶胞，但非用以限制本發明的實施方式。記憶體裝置200還包括多個輸入字元線對220，在此例示出一個做為說明例。輸入字元線對220的每一個包括第一輸入字元線input_1與第二輸入字元線input_1B，第一輸入字元線input_1耦接到第一組記憶胞211與第二組記憶胞212，而第二輸入字元線input_1B耦接到第三組記憶胞213與第四組記憶胞214。記憶體裝置200還包括訊號處理電路250，其耦接到第一全域位元線GBL(N)與第二全域位元線GBLB(N)。在此實施例，訊號處理電路250可以利用差動類比數位轉換器(differential ADC)250來實施。輸入字元線對220可以提供二元(binary)或三元(ternary)的輸入訊號。此外，此處對輸入字元線對220的輸入是單階(SLC)輸入。

此外，配合圖1所示的3D NOR快閃記憶體結構，記憶體裝置200包括兩個第一汲極側導體串以及兩個第二汲極側導體串，其分別對應到本地位元線LBL1、LBL8、LBL9、LBL16。兩個第一汲極側導體串分別耦接到第一組記憶胞211與第三組記憶胞213，並且耦接到第一全域位元線GBL(N)。兩個第二汲極側導體串分別耦接到第二組記憶胞212與第四組記憶胞214，並且耦接到第二全域位元線GBLB(N)。此外，記憶體裝置200包括兩個第一源極側導體串以及兩個第二源極側導體串。兩個第一源極側導體串分別耦接到第一組記憶胞211與第三組記憶胞213，並且耦接到第共同源極線CSL。兩個第二源極側導體串分別耦接到第二組記憶胞212與第四組記憶胞214，並且耦接到共同源極線CSL。

此外，第一組記憶胞211與第三組記憶胞213每一條位元線(如BL1、BL8)可分別經由位元線電晶體BLT1、BLT8耦接到第一全域位元線GBL(N)，第二組記憶胞212與第四組記憶胞214每一條位元線(如BL9、BL16)可分別經由位元線電晶體BLT8、BLT16耦接到第二全域位元線GBLB(N)。第一全域位元線GBL(N)與第二全域位元線GBLB(N)則作為輸出，耦接到差動類比數位轉換器250。在此，第一全域位元線GBL(N)可以用來收集代表VMM乘積大於0的讀取電流，而第二全域位元線GBLB(N) 可以用來收集代表VMM乘積小於0的讀取電流。

差動類比數位轉換器250用來偵測第一全域位元線GBL(N)和第二全域位元線GBLB(N)哪一條路徑的電流值較大。在一實施例，在偵測第一全域位元線GBL(N)和第二全域位元線GBLB(N)之後，差動類比數位轉換器250可以彼此抵消兩路徑的電流，以獲取ADC值。

在使用圖3B的記憶體陣列進行VMM運算時，源極線電晶體SLT1、SLT8、SLT9、SLT16為導通，使源極線SL1、SL8、SL9、SL16耦接到共同源極線CSL，例如共同源極線CSL被施加0V的電壓。此外，位元線電晶體BLT1、BLT8、BLT9、BLT16為導通，使位元線BL1、BL8耦接到第一全域位元線GBL(N)，且位元線BL9、BL16耦接到第二全域位元線GBLB(N)，例如第一全域位元線GBL(N)與第二全域位元線GBLB(N)均被施加0.2V的電壓。

第一組記憶胞211、第二組記憶胞212、第三組記憶胞213、第四組記憶胞214內所儲存的資料例如別是四階(4 levels)的權重值。在此例中，每一組記憶胞是兩個記憶胞，故可以產生8階的權重值。當然，如果需要更多階的權重值資料，每一組記憶胞可以並聯更多的記憶胞來產生更多階的權重值。

在進行VMM乘法運算時，運算結果會有正和負的區分。此外，如上所述，第一全域位元線GBL(N)可以用來收集代表VMM乘積大於0的讀取電流Icell，而第二全域位元線GBLB(N) 可以用來收集代表VMM乘積小於0的讀取電流Icell。因此，電路的運作上必須要可以產生正和負的輸入(字元線電壓)以及正和負的權重值。在此實施例，在應用於VMM計算上，並沒有物理上負的輸入和負的權重值。一個新的運算規則要被設計。

關於權重值之正負的部分，根據本發明實施例，例如當第一組記憶胞211和第四組記憶胞214可以讀出讀取電流Icell，而第二組記憶胞212和第三組記憶胞213的讀取電流Icell為0，則在此狀況下，可以形成正的權重值(+1)。當第二組記憶胞212和第三組記憶胞213可以讀出讀取電流Icell，而第一組記憶胞211和第四組記憶胞214的讀取電流Icell為0，則在此狀況下，可以形成負的權重值(-1)。此外，第一組記憶胞211至第四組記憶胞214的讀取電流Icell都為0的話，則在此狀況下，可以形成零權重值。

當操作圖3B的記憶體裝置時，如果是輸入正的電壓，則此輸入電壓會施加在第一輸入字元線input_1，如果第一組記憶胞211為正的權重，則兩者相乘則代表正的讀取電流Icell。此時，此讀取電流Icell會經由第一全域位元線GBL(N)流到差動類比數位轉換器250，即代表正的乘積。同理，當輸入電壓施加在第一輸入字元線input_1，第二組記憶胞212為負的權重，則兩者相乘則代表負的讀取電流Icell。此時，此讀取電流Icell會經由第二全域位元線GBLB(N)流到差動類比數位轉換器250，即代表負的乘積。同理，當輸入電壓施加在第二輸入字元線input_1B (代表輸入為負)，第三組記憶胞213為負的權重，則兩者相乘則代表正的讀取電流Icell。此時，此讀取電流Icell會經由第一全域位元線GBL(N)流到差動類比數位轉換器250，即代表正的乘積。同理，當輸入電壓施加在第二輸入字元線input_1B(代表輸入為負)，第四組記憶胞214為正的權重，則兩者相乘則代表負的讀取電流Icell。此時，此讀取電流Icell會經由第二全域位元線GBLB(N)流到差動類比數位轉換器250，即代表負的乘積。

綜上所述，以下表I列出第一全域位元線GBL(N)、第二全域位元線GBLB(N)之輸出與第一輸入字元線Input_1、第二輸入字元線Input_1B (正、零與負輸入)以及權重值(正、零與負權重值)之關係。表 I

	正輸入 Input_1=1, Input_1B=0	零輸入 Input_1=0, Input_1B=0	負輸入 Input_1=0, Input_1B=1
正權重第一與第四組記憶胞=1) 第二與第三組記憶胞=0	GBL(N): 1 GBLB(N): 0	GBL(N): 0 GBL(N): 0	GBL(N): 0 GBLB(N): 1 (代表-1)
零權重第一與第四組記憶胞=0 ) 第二與第三組記憶胞=0	GBL(N): 0 GBLB(N): 0	GBL(N): 0 GBLB(N): 0	GBL(N): 0 GBLB(N): 0
負權重第一與第四組記憶胞=0) 第二與第三組記憶胞=1	GBL(N): 0 GBLB(N): 1 (代表-1)	GBL(N): 0 GBLB(N): 0	GBL(N): 1 GBLB(N): 0

由此方式，所有字元線和位元線中，正的讀取電流Icell，會被加總而產生正的VMM乘積和負的VMM乘積，並且傳送到差動類比數位轉換器250進行比較，以產生數位值。

總結來說，通過圖3B所示的架構以及運算規則，經過第一全域位元線GBL(N)之讀取電流Icell加總後，其加總值可以代表正的VMM乘積值VMM(pasitive)，而經過第二全域位元線GBLB(N)之讀取電流Icell加總後，其加總值可以代表負的VMM乘積值VMM(negative)。兩者的計算是可以如下所示。其中g _m(i, k)是記憶胞的轉導(transconductance)，V _WL(i)是施加在字元線的電壓，i為字元線數，k為位元縣數，j為全域位元線數。由此，施加在字元線上的電壓V _WL(i)乘上記憶胞的轉導g _m(i, k)便相當於該記憶胞的讀取電流Icell。此轉導g _m(i, k)相當於上述的權重。由此，就可以由記憶陣列之記憶胞的讀取電流的加總來運算出 p _i x q _i ＞ 0 (VMM乘積大於0) 和 p _i x q _i ＜ 0 (VMM乘積小於0)。其中， p _i 和 q _i 為任意數，亦即可以使用上述的字元線電壓V _WL(i)和權重g _m(i, k)來運算的數值。

圖3C繪示閘極電壓與讀取電流Icell之分布圖(左)、修整後記憶胞讀取電流與標準差σ之分布圖(中)，以及正規劃RTN與位元計數之分布圖(右)。如圖3C左側所示，其為進行ISPP (incremental step pulse programming )程式化時，汲極電流(Id)與閘極電壓(Vg)的測量圖。橫軸代表閘極電壓Vg，亦即施加在字元線的電壓；縱軸為位元線電壓V _BL在0.2V下的讀取電流Icell。在此，希望是可以在操作在低位元線電壓V _BL=0.2V下來進行讀取電流Icell的控制 (正常讀取時的位元線電壓V _BL=1.2V)。在上述說明的例子中，輸入電壓(字元線電壓V _WL)是約2V~3V，因此可以在圖3B之Vg=2V~3V間，找出對應的電流進行不同讀取電流Icell範圍的修整(trim)，如從次100nA~次1μA的範圍。從圖3C中間的圖來看，讀取電流Icell在次1μA範圍是較好的，而從3C右側的圖來看，在次1μA範圍有較小的RTN。

圖3D繪示記憶胞的讀取電流Icell分布示意圖。如上述，為了讓上述記憶體內運算可以有好的效果，希望可以產生一個緊緻且適當間距的讀取電流Icell分布，並且可以具有較小的RTN與好的保持性(retention)。因此，如果在輸入電壓(字元線電壓)在2~3V左右，讀取電流Icell分布較好的是修整(trim)到如圖3D所示之次1μA(sub-1μA)範圍內的分布，如200nA、400nA、600nA、800nA。。當輸入電壓為在2~3V左右，將讀取電流Icell分布修正到次1μA範圍內是較好的。如此，可以獲得4階的權重值。

以上述第一對記憶胞之第一組記憶胞211(儲存正權重值)與第二組記憶胞212(儲存負權重值)為例，每一組記憶胞均包含兩個，所以第一對記憶胞共有四個記憶胞，每一個記憶胞具有4階的讀取電流Icell。在四個位元線電晶體BLT1、BLT8、BLT9、BLT16均為導通時，總共可以產生16階的權重值 (例如，負權重值為-8至-1，正權重值為0至+7)，亦即代表4位元的解析度。

上述的架構中，輸入訊號是以單階為主。如果要產生多階輸入的話，可以採用多個上述圖3B為基礎的架構。圖4繪示在數位領域產生4個輸入4權重(4I4W)的架構示意圖。

如圖4所示，記憶體裝置300包括4個記憶體陣列301a、301b、301c、301d (4個塊元(tiles))。每個記憶體陣列301a、301b、301c、301d都有各自對應的X解碼器302a、302b、302c、302d以及AD轉換器303a、303b、303c、303d。在此每個記憶體陣列301a、301b、301c、301d及其相應的X解碼器302a、302b、302c、302d以及AD轉換器303a、303b、303c、303d都可以使用圖3B所示的架構。每個記憶體陣列301a、301b、301c、301d都具備4位元的權重值，亦即具有4個位元線電晶體BLTs之4階的讀取電流Icell。因此，此處的記憶胞為多階單元(multiple level cell，MLC)，此例為4階。

此外，每個記憶體陣列301a、301b、301c、301d的字元線都是接收單階(SLC)輸入，但是輸入電壓不同，如記憶體陣列301a的輸入是a ₀，記憶體陣列301b的輸入是a ₁，記憶體陣列301c的輸入是a ₂，記憶體陣列301d的輸入是a ₃。

此外，此四個記憶體陣列301a、301b、301c、301d會循環重複運算而輸出結果，最後再將四個AD轉換器的輸出加總。此處可以使用移位器(shifter)和加法器(adder)來達成。其中，記憶體陣列301a的輸出為相當於最低有效位 (least significant bit，LSB)，而記憶體陣列301d的輸出為相當於最高有效位 (most significant bit，MSB)。因此，四個記憶體陣列301a、301b、301c、301d的輸出會分別乘上相應的加權係數(weight coefficient)，如1(=2 ⁰)、2(=2 ¹)、4(=2 ²)、8(=2 ³)等。

通過上述的架構，可以產生具有正負極性之4輸入4權重值(4I4W)的架構。總結來說，要產生此架構需要 [1] 兩個塊元(tiles)中4個記憶胞的設計，以產生正負極性； [2] 多階單元記憶胞(此例為4階)，以產生4個讀取電流Icell (對應4個權重值(W0、W1、W2、W3)； [3] 4個位元線電晶體BLT，連接到各位元腺； [4] 4塊元，以產生4位元輸入(a ₀、a ₁、a ₂、a ₃)。

最後，上述記憶體裝置300的VMM輸出可以用以下數式表示： VMM = (W3W2W1W0)×1×a ₀+ (W3W2W1W0)×2×a ₁+ (W3W2W1W0)×4×a ₂+ (W3W2W1W0)×8×a ₃

圖5繪示根據本發明實施例所繪示的固態驅動模組示意圖。圖5所示的固態驅動模組(solid-state drive module，SSD module)350例如可以應用到AI推論系統(AI inference system)，其需要進行大量數據的運算，特別是矩陣乘法運算。如圖5所示，此固態驅動模組350包括控制器晶片352和泛用型矩陣乘法(general matrix multiplication，GEMM)晶片354，控制器晶片352和泛用型矩陣乘法晶片354兩者之間可以通過介面356來進行資料傳輸。此介面可以例如是與DDR4/5同等或類似的介面。此外，控制器晶片352可以耦接多個泛用型矩陣乘法晶片354。在其他實施例，泛用型矩陣乘法晶片354是一種獨立晶片(standalone chip)。

由上述圖3B所建構成(亦即使用3D NOR快閃記憶體)的泛用型矩陣乘法晶片354例如可以具有512輸入(4位元)，1024輸出(4位元)。每個GEMM晶片354可以支持多個GB記憶胞，以直接計算大型神經網絡中的數十億個參數。GEMM晶片354 通過如DDR5的介面356 (4.8Gbps, 16 I/O)與控制器晶片352連接。控制器晶片352除了控制電路外，只需要一個適當的SRAM大小來儲存元數據(meta data)，用以控制AI資料流，而不需要大量的ALU和多核心(例如SOC ASIC架構需要超過100個核心來達到同等的運算)來支持向量矩陣乘法 (VMM)。在此架構下，所有VMM 計算均在GEMM晶片354中進行。在上述的4I4W架構下，內部最大VMM 計算帶寬~3.7 TOPS，遠大於DDR5的I/O。此外，每一晶片的消耗功率是小於1W。因此，GEMM晶片354具有快速且低耗電的功效。

在此架構中，因為所有的向量矩陣乘法運算都是在GEMM晶片354內進行，控制器晶片352僅需要提供輸入給GEMM晶片354。GEMM晶片354執行向量矩陣乘法運算後，在輸出給控制器晶片352。因此，在此架構下可以不用將記憶體內的資料讀取出來，之後在通過ALU進行計算，故可以有效地且迅速地計算大量數據的向量矩陣乘法。

圖6A繪示根據本發明實施例將3D AND型NOR快閃記憶體應用於用於餘弦相似度計算的架構與操作方式。如圖6所示，此架構基本上與圖3B的架構類似，以下僅針對差異的部分進行說明，其餘部分與圖3B相同。餘弦相似度計算可以應用於記憶體搜尋(in-memory search，IMS)。

記憶體裝置400之記憶體陣列具有多個第一組記憶胞與多個第二組記憶胞。在此，為了說明簡單，具有多個第一對記憶胞與多個第二對記憶胞。在此，為了說明簡單，僅例示出一個第一對記憶胞與一個第二對記憶胞。。第一對記憶胞包括耦接到第一全域位元線GBL(N)的第一組記憶胞(或稱第一記憶胞)411以及耦接到第二全域位元線GBLB(N)的第二組記憶胞(或稱第二記憶胞)412，且第二對記憶胞包括耦接到第一全域位元線GBL(N)的第三組記憶胞(或稱第三記憶胞)413以及耦接到第二全域位元線GBLB(N)的第四組記憶胞(或稱第四記憶胞)414。在此實施例，第一至第四組記憶胞411-414的每一個都包括一個記憶胞。

記憶體裝置400還包括多個輸入字元線對420，多個輸入字元線對420的每一個(例如WL1對)包括第一輸入字元線input_1與第二輸入字元線input_1B，其中第一輸入字元線input_1耦接到第一記憶胞411與第二記憶胞412，第二輸入字元線input_1B耦接到第三記憶胞413與第四記憶414胞。此多個輸入字元線對的每一個都提供三元輸入訊號，亦即如上述的三元輸入(+1，0，-1)，具體說明可以參考圖3A或圖3B的說明。

在此，正輸入訊號(+1)是以將輸入字元線對420 (以WL1對為例)之第一輸入字元線input_1導通，第二輸入字元線input_1B關閉；零輸入訊號(0)是以將輸入字元線對420 (以WL1對為例)之第一輸入字元線input_1關閉，第二輸入字元線input_1B關閉；負輸入訊號(-1)是以將輸入字元線對420 (以WL1對為例)之第一輸入字元線input_1關閉，第二輸入字元線input_1B導通。同樣地，此處對輸入字元線對420的輸入是單階(SLC)輸入。

記憶體裝置400還包括訊號處理電路450，其耦接到第一全域位元線GBL(N)與第二全域位元線GBLB(N)。在一實施例，訊號處理電路450可以利用差動感測放大器450來實施。當此架構運用在餘弦相似度計算時，其主要是進行輸入訊號與儲存在記憶體內的資料進行比較，所以不需要如圖3A或圖3B所示的差動類比數位轉換器350。

此外，與圖3A或圖3B的VMM計算相同，記憶體陣列儲存用作IMS計算的權重值資訊，其中正IMS權重值儲存於第一記憶胞411與第四記憶胞414，且負IMS權重值儲存於第二記憶胞412與第三記憶胞414。

此外，記憶體裝置400還可以包括控制電路460，其耦接到記憶體陣列與多個輸入字元線對，用以控制記憶體陣列進行餘弦相似度計算。例如控制電路460可以包括解碼器，將輸入訊號輸入到對應的輸入字元線對。記憶體裝置400還可以包括比較器452與參考電流產生器454。比較器452耦接到差動感測放大器450與參考電流產生器454。參考電流產生器454產生參考訊號Iref，比較器452將差動感測放大器450的輸出與參考訊號Iref進行比較。在一實施方式，參考訊號Iref是對應於餘弦相似度計算臨界值而可調整。

此外，與圖3A或圖3B所述的操作相同，第一全域位元線GBL(N)是收集正讀取電流Icell，第二全域位元線GBLB(N)是收集負讀取電流Icell。正讀取電流Icell的加總與負讀取電流Icell的加總則傳送到差動感測放大器450，並輸出正讀取電流Icell的加總與負讀取電流Icell的加總之差值。

餘弦相似度計算的計算如以下的數式所示：餘弦相似度計算的計算也試向量矩陣乘法的應用。此處 p _i 為輸入向量(詢問，query)，即從字元線對420輸入的輸入訊號(如+1、0、-1之三元訊號)。 q _i 為儲存在記憶體的資料，即權重值資訊。

在餘弦相似度計算，記憶胞是使用如圖6B所示的單階讀取電流分布，較佳是使用讀取電流Icell為200Μa的分布。此分布下，其標準差σ為4%。

此外，在此架構下，可以有512條字元線WL，1024個輸出。亦即對應到1024個差動感測放大器。此外，執行緒(tread)約為100ns如此，相似度搜尋的帶寬為512×1024/100ns，即5TB/s。故，可以達成高容量且高速的運算。

如此，當比較器452將感測放大器450的輸出與參考訊號Iref比較後，可以偵測到輸入訊號與記憶體內部儲存的資料是匹配的(通過(pass))，或者不匹配(不通過(fail))。因此，當將記憶體內計算應用在餘弦相似度計算，可以用來進行人臉辨識的應用。在此架構下，不需要將記憶體裝置內部的資料讀取出來進行搜尋，只要將輸入訊號(例如要被確認的人臉資料)輸入到記憶體裝置內去進行IMS計算即可。記憶體裝置會將搜尋提供給外部的系統。此外，如上述本發明的記憶體裝置，其容量夠大且執行速度夠快，故可以不佔用系統的資源，便可以快速地將搜尋輸出。

根據本發明實施例，利用3D AND型NOR快閃記憶體來建構記憶體內計算的記憶體裝置的操作架構。由此，本發明實施例可以不用將記憶體內的資料讀取到外部，以另外的ALU進行計算，故可以節省系統資料，不必因為讀取到外部的儲存裝置而一直需要資料更新。同時，本發明的架構可以達到高容量、高速且高效率的記憶體內計算。由此，在如影像處理、人臉辨識、深度神經網路等之大數據或AI應用常用的VMM計算、IMS計算等都可以通過本發明的架構來實施。

10:堆疊結構 12、14:導體柱 16:隔離結構 18:中空通道柱 20:閘極層 100、200:記憶體裝置 110、111:堆疊 150:感測放大比較器 211~218:第一至第四組記憶胞 220:輸入字元線對 250:差動類比數位轉換器 300:記憶體裝置 301a、301b、301c、301d:記憶體陣列 302a、302b、302c、302d:X解碼器 303a、303b、303c、303d:AD轉換器 350:固態驅動模組 352:控制器晶片 354:泛用型矩陣乘法晶片 356:介面 400:記憶體裝置 411~414:第一至第四記憶胞 420:輸入字元線對 450:差動感測放大器 452:比較器 454:參考電流產生器 460:控制電路 BL1、BL8、BL9、BL16:位元線 SL1、SL8、SL9、SL16:源極線 LBL1、LBL8、LBL9、LBL16:本地位元線 LSL1、LSL8、LSL9、LSL16:本地源極線 CSL:共同源極線 SLT1、SLT8、SLT9、SLT16:源極線電晶體 BLT1、BLT8、BLT9、BLT16:位元線電晶體 WL:字元線 input_1:第一輸入字元線 input_1B:第二輸入字元線 C:記憶胞 GBL(N):第一全域位元線 GBLB(N):第二全域位元線 Iref:參考電流

圖1繪示根據本發明實施例之3D AND-型 NOR快閃記憶體裝置的結構示意圖。圖2繪示根據本發明實施例之3D AND-型NOR快閃記憶體裝置的等效電路示意圖。圖3A繪示根據本發明實施例之3D AND-型NOR快閃記憶體裝置在進行向量矩陣乘法操作的說明圖。圖3B繪示根據本發明另一實施例之3D AND-型NOR快閃記憶體裝置在進行向量矩陣乘法操作的說明圖。圖3C繪示閘極電壓與讀取電流Icell之分布圖(左)、修整後記憶胞讀取電流與標準差σ之分布圖(中)，以及正規劃RTN與位元計數之分布圖(右)。圖3D繪示記憶胞的讀取電流Icell分布示意圖。圖4繪示在數位領域產生4個輸入4權重(4I4W)的架構示意圖。圖5繪示根據本發明實施例所繪示的固態驅動模組示意圖。圖6A繪示根據本發明實施例將3D AND型NOR快閃記憶體應用於用於餘弦相似度計算的架構與操作方式。圖6B繪示圖6A架構下之記憶胞的讀取電流Icell分布示意圖。

200:記憶體裝置

215~218:第一至第四組記憶胞

220:輸入字元線對

250:差動類比數位轉換器

BL1、BL8、BL9、BL16:位元線

SL1、SL8、SL9、SL16:源極線

LBL1、LBL8、LBL9、LBL16:本地位元線

LSL1、LSL8、LSL9、LSL16:本地源極線

CSL:共同源極線

SLT1、SLT8、SLT9、SLT16:源極線電晶體

BLT1、BLT8、BLT9、BLT16:位元線電晶體

WL:字元線

input_1:第一輸入字元線

input_1B:第二輸入字元線

GBL(N):第一全域位元線

GBLB(N):第二全域位元線

Claims

一種記憶體裝置，用於記憶體內計算，包括：　　記憶體陣列，具有多個第一對記憶胞與多個第二對記憶胞，其中所述多個第一對記憶胞的每一個包括耦接到第一全域位元線的第一組記憶胞及耦接至第二全域位元線的第二組記憶胞，所述多個第二對記憶胞的每一個包括耦接到所述第一全域位元線的第三組記憶胞及耦接至所述第二全域位元線的第四組記憶胞；以及多個輸入字元線對，所述多個輸入字元線對的每一個包括第一輸入字元線與第二輸入字元線，其中所述第一輸入字元線耦接到所述第一組記憶胞與所述第二組記憶胞，所述第二輸入字元線耦接到所述第三組記憶胞與所述第四組記憶胞；以及訊號處理電路，耦接到所述第一全域位元線與所述第二全域位元線。
如請求項1所述的記憶體裝置，其中所述多個輸入字元線對提供二元(binary)或三元(ternary)輸入訊號。
如請求項2所述的記憶體裝置，其中所述記憶體陣列儲存用作記憶體內計算的權重值資訊，其中第一VMM權重值儲存於所述第一組記憶胞與所述第四組記憶胞，且第二VMM權重值儲存於所述第二組記憶胞與所述第三組記憶胞。
如請求項1所述的記憶體裝置，其中所述訊號處理電路為差動類比數位轉換器，所述第一至所述第四組記憶胞分別包括一個記憶胞。
如請求項1所述的記憶體裝置，其中所述訊號處理電路為差動類比數位轉換器，所述第一至所述第四組記憶胞分別包括兩個記憶胞，所述記憶體裝置更包括：兩個第一汲極側導體串，耦接到所述第一組記憶胞、所述第三組記憶胞以及所述第一全域位元線；以及兩個第二汲極側導體串，耦接到所述第四組記憶胞、所述第二組記憶胞以及所述第二全域位元線。
如請求項5所述的記憶體裝置，更包括：多個位元線電晶體，耦接在所述兩個第一汲極側導體串與所述第一全域位元線之間，以及耦接在所述兩個第二汲極側導體串與所述第二全域位元線之間。
如請求項5所述的記憶體裝置，更包括：兩個第一源極側導體串，分別耦接到所述第一組記憶胞與所述第三組記憶胞，並且耦接到共同源極線；以及兩個第二源極側導體串，分別耦接到所述第二組記憶胞與所述第四組記憶胞，並且耦接到所述共同源極線。
如請求項4所述的記憶體裝置，其中儲存在所述記憶體陣列的所述權重資訊包括4階權重值。
如請求項1所述的記憶體裝置，其中所述第一全域位元線與所述第二全域位元線用以對來自所述記憶體陣列的記憶胞電流進行加總，且對於所述記憶體陣列的一個記憶胞的所述記憶胞電流大於100nA且小於1μA。
如請求項1所述的記憶體裝置，其中對所述第一全域位元線與所述第二全域位元線施加感測電壓，以對來自所述記憶體陣列的記憶胞電流進行加總，且所述感測電壓小於0.2V。
如請求項1所述的記憶體裝置，其中所述多個輸入字元線對的每一個為提供1位元輸入訊號。
如請求項1所述的記憶體裝置，其中所述記憶體陣列為3D NOR快閃記憶體。
如請求項5所述的記憶體裝置，其中所述兩個第一汲極側導體串與所述兩個第二汲極側導體串為摻雜多晶矽插塞。
如請求項1所述的記憶體裝置，其中所述第一至所述第四組記憶胞分別包括一個記憶胞，所述記憶體裝置架構為執行記憶體內搜尋(IMS)，且所述訊號處理電路為差動感測放大器，所述差動感測放大器耦接到所述第一全域位元線與所述第二全域位元線。
如請求項14所述的記憶體裝置，其中所述多個輸入字元線對的每一個提供二元或三元輸入訊號。
如請求項14所述的記憶體裝置，其中所述記憶體陣列儲存用作所述記憶體內搜尋的權重值資訊，其中第一IMS權重值儲存於所述第一記憶胞與所述第四記憶胞，且第二IMS權重值儲存於所述第二記憶胞與所述第三記憶胞。
如請求項14所述的記憶體裝置，更包括：控制電路，耦接到所述記憶體陣列與所述多個輸入字元線對，控制記憶體陣列利用餘弦相似度計算來執行所述記憶體內搜尋；以及比較器，耦接到所述差動感測放大器與參考訊號產生器，其中所述參考訊號產生器產生參考訊號，所述比較器將所述差動感測放大器的輸出與所述參考訊號進行比較。
如請求項17所述的記憶體裝置，其中所述參考訊號是對應於餘弦相似度計算臨界值而可調整。
一種固態驅動模組，包括：控制器晶片；記憶體晶片，為如請求項1所述的記憶體內計算用的記憶體裝置，耦接至所述控制器晶片；以及介面，耦接所述控制器晶片與所述記憶體晶片。
如請求項19所述的固態驅動模組，其中所述介面為DDR4或DDR5。