KR20240009334A - 인-메모리 컴퓨팅을 위한 메모리 디바이스 - Google Patents

인-메모리 컴퓨팅을 위한 메모리 디바이스 Download PDF

Info

Publication number
KR20240009334A
KR20240009334A KR1020230042903A KR20230042903A KR20240009334A KR 20240009334 A KR20240009334 A KR 20240009334A KR 1020230042903 A KR1020230042903 A KR 1020230042903A KR 20230042903 A KR20230042903 A KR 20230042903A KR 20240009334 A KR20240009334 A KR 20240009334A
Authority
KR
South Korea
Prior art keywords
memory
coupled
memory cells
bit line
input
Prior art date
Application number
KR1020230042903A
Other languages
English (en)
Inventor
루에 항-팅
휴 추-슈완
예 텡-하오
시에 치-창
헝 춘-슝
리 융-춘
Original Assignee
매크로닉스 인터내셔널 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 매크로닉스 인터내셔널 컴퍼니 리미티드 filed Critical 매크로닉스 인터내셔널 컴퍼니 리미티드
Publication of KR20240009334A publication Critical patent/KR20240009334A/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C16/00Erasable programmable read-only memories
    • G11C16/02Erasable programmable read-only memories electrically programmable
    • G11C16/04Erasable programmable read-only memories electrically programmable using variable threshold transistors, e.g. FAMOS
    • G11C16/0466Erasable programmable read-only memories electrically programmable using variable threshold transistors, e.g. FAMOS comprising cells with charge storage in an insulating layer, e.g. metal-nitride-oxide-silicon [MNOS], silicon-oxide-nitride-oxide-silicon [SONOS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0679Non-volatile semiconductor memory device, e.g. flash memory, one time programmable memory [OTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • G06F15/7821Tightly coupled to memory, e.g. computational memory, smart memory, processor in memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/49Computations with a radix, other than binary, 8, 16 or decimal, e.g. ternary, negative or imaginary radices, mixed radix non-linear PCM
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C11/00Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
    • G11C11/54Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using elements simulating biological cells, e.g. neuron
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C11/00Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
    • G11C11/56Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using storage elements with more than two stable states represented by steps, e.g. of voltage, current, phase, frequency
    • G11C11/5671Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using storage elements with more than two stable states represented by steps, e.g. of voltage, current, phase, frequency using charge trapping in an insulator
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C16/00Erasable programmable read-only memories
    • G11C16/02Erasable programmable read-only memories electrically programmable
    • G11C16/06Auxiliary circuits, e.g. for writing into memory
    • G11C16/08Address circuits; Decoders; Word-line control circuits
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C16/00Erasable programmable read-only memories
    • G11C16/02Erasable programmable read-only memories electrically programmable
    • G11C16/06Auxiliary circuits, e.g. for writing into memory
    • G11C16/24Bit-line control circuits
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C16/00Erasable programmable read-only memories
    • G11C16/02Erasable programmable read-only memories electrically programmable
    • G11C16/06Auxiliary circuits, e.g. for writing into memory
    • G11C16/26Sensing or reading circuits; Data output circuits
    • G11C16/28Sensing or reading circuits; Data output circuits using differential sensing or reference cells, e.g. dummy cells
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/18Bit line organisation; Bit line lay-out
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C8/00Arrangements for selecting an address in a digital store
    • G11C8/14Word line organisation; Word line lay-out

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Neurology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Nonlinear Science (AREA)
  • Read Only Memory (AREA)
  • Memory System (AREA)

Abstract

3D AND-타입 플래시 메모리에 적용가능한 CIM을 위한 메모리 디바이스는, 메모리 어레이, 입력 워드 라인 쌍들, 및 신호 프로세싱 회로를 포함한다. 메모리 어레이는 메모리 셀들의 제1 및 제2 쌍들을 포함한다. 메모리 셀들의 각각의 제1 쌍은 제1 GBL에 결합된 제1 메모리 셀 세트 및 제2 GBL에 결합된 제2 메모리 셀 세트를 포함한다. 메모리 셀들의 각각의 제2 쌍은 제1 GBL에 결합된 제3 메모리 셀 세트 및 제2 GBL에 결합된 제4 메모리 셀 세트를 포함한다. 각각의 입력 워드 라인 쌍은 제1 및 제2 메모리 셀 세트들에 결합된 제1 입력 워드 라인, 및 제3 및 제4 메모리 셀 세트들에 결합된 제2 입력 워드 라인을 포함한다. 신호 프로세싱 회로는 제1 및 제2 전역 비트 라인들에 결합된다.

Description

인-메모리 컴퓨팅을 위한 메모리 디바이스{MEMORY DEVICE FOR COMPUTING IN-MEMORY}
관련 출원에 대한 상호 참조
본 출원은 2022년 07월 13일자로 출원된 미국 특허 출원 일련번호 제63/388,647호의 우선권 이익을 주장한다. 이로써 이상에서 언급된 특허 출원 전체가 본원에 참조로서 통합되며 본 명세서의 일 부분을 이룬다.
기술분야
본 개시는 메모리 디바이스에 관한 것으로서, 더 구체적으로는 인-메모리(in-memory) 컴퓨팅을 위한 메모리 디바이스에 관한 것이다.
벡터 매트릭스 곱셈(vector matrix multiplication; VMM)은 심층 신경망(deep neural network; DNN), 코사인 유사도, 및 시뮬레이션된 어닐링(annealing)에서 "메모리-중심 컴퓨팅"에 대한 적절한 접근 방식이다. 고 밀도 및 고 대역폭을 갖는 VMM 가속기들은 폰-노이만 디지털 접근 방식을 보완하기에 적절하다.
벡터 매트릭스 곱셈에 대해 인-메모리 컴퓨팅을 사용하는 것과 관련된 몇몇 이슈들이 존재한다. 먼저, VMM은 흔히 포지티브 (+) 및 네거티브 (-)입력들 둘 모두와 가중치들을 수반한다. 따라서, 포지티브 및 네거티브 극성들에 대한 아날로그 회로를 구현하는 방법은 어려운 주제이다. 그 외에, 입력들 및 가중치들은 흔히 멀티-비트 해상도이다(소프웨어에서는 32b-FP이지만, 에지 DNN에서는 4 비트로 감소될 수 있으며, 유사도 검색에서는 훨씬 더 적을 수 있다(예를 들어, 2 내지 3 비트)).
따라서, VMM 가속기의 개발은 이러한 분야에서 주요한 이슈이다.
본 개시는 3D AND-타입 NOR 플래시 메모리를 사용하여 구성된 VMM 가속기를 제공한다.
본 개시의 일 실시예에 따르면, 메모리 어레이, 복수의 입력 워드 라인 쌍들 및 신호 프로세싱 회로를 포함하는 인-메모리 컴퓨팅을 위한 메모리 디바이스가 제공된다. 메모리 어레이는 메모리 셀들의 복수의 제1 쌍들 및 메모리 셀들의 복수의 제2 쌍들을 포함한다. 메모리 셀들의 복수의 제1 쌍들의 각각은 제1 전역 비트 라인에 결합된 제1 메모리 셀 세트 및 제2 전역 비트 라인에 결합된 제2 메모리 셀 세트를 포함하며, 메모리 셀들의 복수의 제2 쌍들의 각각은 제1 전역 비트 라인에 결합된 제3 메모리 셀 세트 및 제2 전역 비트 라인에 결합된 제4 메모리 셀 세트를 포함한다. 복수의 입력 워드 라인 쌍들의 각각은 제1 입력 워드 라인 및 제2 입력 워드 라인을 포함한다. 제1 입력 워드 라인은 제1 메모리 셀 세트 및 제2 세트 메모리 셀에 결합되며, 제2 입력 워드 라인은 제3 메모리 셀 세트 및 메모리 셀들의 제4 세트에 결합된다. 신호 프로세싱 회로는 제1 전역 비트 라인 및 제2 전역 비트 라인에 결합된다.
이상에 기초하면, 본 개시의 일 실시예에 따르면, 인-메모리 컴퓨팅을 위한 메모리 디바이스의 동작 아키텍처는 3D AND-타입 NOR 플래시 메모리를 사용하여 구성된다. 따라서, 본 개시의 실시예에서, 메모리 내의 데이터는 다른 ALU에 의해 컴퓨팅되도록 외부로 판독되지 않을 수 있으며, 따라서 시스템 데이터는 저장될 수 있고, 외부 저장 디바이스로 판독된 데이터에 대한 데이터 업데이트는 항상 요구되지는 않는다. 또한, 본 개시의 아키텍처는 고-용량, 고속 및 고-효율 인-메모리 컴퓨팅을 달성할 수 있다. 따라서, 이미징 프로세싱, 안면 인식, 심층 신경망, 등과 같은 AI 애플리케이션들 또는 빅 데이터에서 일반적으로 사용되는 VMM 컴퓨팅, IMS 컴퓨팅, 등은 본 개시의 아키텍처를 통해 구현될 수 있다.
첨부된 도면들은 본 개시의 추가적인 이해를 제공하기 위하여 포함되며, 본 명세서 내에 통합되고 이의 일 부분을 구성한다. 도면들은 본 개시의 예시적인 실시예들을 예시하며, 설명과 함께 본 개시의 원리들을 설명하는데 기여한다.
도 1은 본 개시의 일 실시예에 따른 3D AND-타입 NOR 플래시 메모리 디바이스의 구조를 도시하는 개략도이다.
도 2는 본 개시의 일 실시예에 따른 3D AND-타입 NOR 플래시 메모리 디바이스의 등가 회로를 도시하는 개략도이다.
도 3a는 본 개시의 일 실시예에 따른 3D AND-타입 NOR 플래시 메모리 디바이스에 의해 수행되는 벡터 매트릭스 곱셈 연산을 도시하는 예시적인 도면이다.
도 3b는 본 개시의 일 실시예에 따른 3D AND-타입 NOR 플래시 메모리 디바이스에 의해 수행되는 벡터 매트릭스 곱셈 연산을 도시하는 다른 예시적인 도면이다.
도 3c는, 게이트 전압 및 판독 전류(Icell)(좌측)의 분포 도면, 트리밍(trimming) 이후의 메모리 셀 판독 전류 및 표준 편차(σ)의 분포 도면(중간), 및 포지티브 플래닝(positive planning) RTN 및 비트 카운트의 분포 도면(우측)을 도시한다.
도 3d는 메모리 셀의 판독 전류(Icell)의 분포를 도시하는 개략도이다.
도 4는 디지털 영역에서 4개의 입력들 4개의 가중치들(4 inputs 4 weights; 4I4W)을 생성하기 위한 아키텍처를 도시하는 개략도이다.
도 5는 본 개시의 일 실시예에 따른 고체-상태 드라이브 모듈을 도시하는 개략도이다.
도 6a는 본 개시의 일 실시예에 따른 코사인 유사도를 컴퓨팅하기 위해 적용된 3D AND-타입 NOR 플래시 메모리 디바이스의 아키텍처 및 동작을 도시한다.
도 6b는 도 6a의 아키텍처 하에서 메모리 셀의 판독 전류(Icell)의 분포를 도시하는 개략도이다.
본 개시는 인-메모리 컴퓨팅을 위한 아키텍처에 관한 것이다. 이러한 아키텍처를 통해, 메모리에 저장된 데이터는 컴퓨팅을 위해 외부 산술 논리 유닛(arithmetic logic unit; ALU)으로 전송되기 위해 판독될 필요가 없다. 판독 전류(Icell)는 메모리에 저장된 가중치 및 워드 라인에 의해 입력된 전압 값을 센싱함으로써 직접적으로 획득될 수 있다. 판독 전류들을 축적한 다음, 벡터 매트릭스 곱셈(vector matrix multiplication; VMM), 코사인 유사도, 또는 인-메모리 검색(in-memory search; IMS)이 직접적으로 수행될 수 있다. 3D AND-타입 NOR 플래시 메모리는 이러한 인-메모리 컴퓨팅(in-memory computing; CIM)에 대해 적절한 아키텍처이다.
도 1은 본 개시의 일 실시예에 따른 3D AND-타입 NOR 플래시 메모리 디바이스의 구조를 도시하는 개략도이다. 3D AND-타입 NOR 플래시 메모리 디바이스는 도 1에 도시된 복수의 스택 구조체들(10)을 포함할 수 있다. 예를 들어, 스택 구조체(10)는 다수의 게이트 층들(20)을 형성하기 위해 수직 방향(Z 방향)으로 연장되며, 이는 워드 라인들(미도시)로서 역할하는 전도성 층들에 추가로 연결될 수 있다. ONO 층(22)은 게이트 층(20)과 채널 필러(pillar)(18) 사이에 형성된다. 스택 구조체(10)는 수직 방향(Z)을 따라 연장되는 중공 채널 필러(18)를 포함한다. 수직 방향(Z)을 따라 연장되는 2개의 전도성 필러들(12 및 14)은 중공 채널 필러(18) 내에 형성되며, 이들은 메모리 셀의 소스 및 드레인으로서 역할할 수 있다. 2개의 전도성 필러들(12 및 14)은 2개의 전도성 필러들(12 및 14)을 격리하기 위해 수직 방향(Z)을 따라 연장되는 격리 구조체(16)를 갖는다.
스택 구조체(10)는, 예를 들어, 32-층 구조체일 수 있으며, 이는 많은 양의 CIM에 대해 사용될 작은 그레인(grain) 크기로 수십억 개의 메모리 셀들을 쉽게 생성할 수 있다. 다른 실시예들에서, 스택 구조체(10)는 64-층 구조체이거나 또는 그 이상일 수 있다.
도 2는 본 개시의 일 실시예에 따른 3D NOR 플래시 메모리 디바이스의 등가 회로를 도시하는 개략도이다. 도 2에 도시된 바와 같이, 3D NOR 플래시 디바이스(100)는 스택(110), 스택(111), 등과 같은 스택 구조체로서 구성된다. 각각의 스택은 복수의 메모리 셀들(C)을 적층함으로써 형성된다. 예를 들어, 스택(100)은 복수의 로컬 비트 라인들(LBL1 내지 LBL16) 및 복수의 로컬 소스 라인들(LSL1 내지 LSL16)을 포함한다. 로컬 비트 라인들(LBL1 내지 LBL16)의 각각은 수직으로 연장되고 각각의 메모리 셀의 제1 말단(소스/드레인 말단)에 연결되며, 각각의 스택(예를 들어, 110, 111)의 각각의 로컬 비트 라인은, 도 2에 도시된 바와 같이, 비트 라인들(BL1, BL8, BL9, BL16, 등)과 같은 비트 라인들(BL1 내지 BL16) 중 대응하는 비트 라인에 결합된다. 또한, 로컬 소스 라인들(LSL1 내지 LSL16)의 각각은 수직으로 연장되고 각각의 메모리 셀의 제2 말단(다른 소스/드레인 말단)에 연결되며, 각각의 스택(예를 들어, 110, 111)의 각각의 로컬 소스 라인들(LSL1 내지 LSL16)은, 도 2에 도시된 바와 같이, 소스 라인들(SL1, SL8, SL9, SL16, 등)과 같은 소스 라인들(SL1 내지 SL16) 중 대응하는 비트 라인에 결합된다.
또한, 비트 라인들(BL1, BL8, 등)의 하나의 세트는 각각 비트 라인 트랜지스터들(BLT1, BLT8, 등)을 통해 제1 전역 비트 라인(GBL(N))에 추가로 결합된다. 즉, 일 예로서 도 2를 취하면, 2개의 제1 드레인 측면 전도성 스트링들(BL1, BL8)은 메모리 셀들 및 제1 전역 비트 라인(GBL (N))에 결합된다. 비트 라인들(BL9, BL16, 등)의 다른 세트는 각각 비트 라인 트랜지스터들(BLT9, BLT16, 등)을 통해 제2 전역 비트 라인(GBLB(N))에 추가로 결합된다. 즉, 2개의 제2 드레인 측면 전도성 스트링들(BL9, BL16)은 메모리 셀들 및 제2 전역 비트 라인(GBLB(N))에 결합된다. 또한, 소스 비트 라인들(SL1, SL8, SL9, SL16, 등)은 각각 소스 라인 트랜지스터들(SLT1, SLT8, SLT9, SLT16, 등)을 통해 공통 소스 라인(CSL)에 추가로 결합된다.
또한, 각각의 스택 내의 동일한 층의 메모리 셀들(C)의 제어 말단들(게이트들)은 동일한 워드 라인(WL)에 결합된다. 일 예로서, 128개의 섹터들을 갖는 4K개의 워드 라인들(WL)이 있다. 이에 더하여, 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N))은 센싱 증폭기 비교기(150)에 결합된다. 정상 판독 모드에서, 센싱 증폭기 비교기(150)는 선택된 메모리 셀(C)을 통해 흐르는 판독 전류(Icell)를 센싱한다.
정상 판독 모드에서, 도 2에서 원으로 표시된 메모리 셀(C)이 판독될 것을 가정하면, 메모리 셀(C)에 대응하는 워드 라인(WL)(선택된 워드 라인)에는 Vread = 7V과 같은 판독 전압(Vread)이 인가되며; 다른 선택되지 않은 메모리 셀들(C)에 대응하는 워드 라인들에는 0과 같은 비선택(unselected) 전압이 인가된다. 이에 더하여, 비트 라인 트랜지스터(BLT1)는 턴 온되며, 다른 비트 라인 트랜지스터들(BLT8, BLT9, BLT16, 등)은 턴 오프된다. 동시에, 소스 라인 트랜지스터(SLT1)는 턴 온되며, 그 결과 소스 라인(SL1)은 공통 소스 라인(CSL)(예를 들어, 0V가 인가됨)에 결합되고, 다른 소스 라인 트랜지스터들(SLT8, SLT9, 및 SLT16)은 턴 오프된다. 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N))에는, 예를 들어, 1.2V가 인가된다. 따라서, 선택된 메모리 셀의 판독 전류(Icell)는 센싱 증폭기 비교기(150)로 송신된다. 따라서, 선택된 메모리 셀(C)의 판독 전류(Icell)는 제1 전역 비트 라인(GBL(N))을 통해 센싱될 수 있으며, 이러한 시점에, 제1 전역 비트 라인(GBL(N))은 판독 경로로서 역할한다. 이에 더하여, 제2 전역 비트 라인(GBLB(N))은 용량성 매칭 경로로서 역할한다.
도 3a는 본 개시의 일 실시예에 따른 3D NOR 플래시 메모리 디바이스에 의해 수행되는 벡터 매트릭스 곱셈 연산을 도시하는 예시적인 도면이다. 다음은, 벡터 매트릭스 곱셈(vector matrix multiplication; VMM), 또는 소위 인-메모리 컴퓨팅(in-memory computing; CIM)을 수행하기 위해 이상에서 언급된 3D NOR 플래시 메모리를 적용하는 방법을 설명한다. 이러한 실시예는 단일-레벨 가중치 CIM의 일 예를 설명한다.
VMM에 적용될 때, 도 2의 메모리 디바이스(100)는 메모리 디바이스(200)로서 재구성된다. 동일하거나 또는 유사한 참조 번호들이 계속해서 사용될 것이며, 차이점들만이 표시된다. 도 3a에 도시된 바와 같이, 메모리 어레이(예를 들어, 도 2에 도시된 스택들(110 및 111)로 구성됨)는 메모리 셀들의 복수의 제1 쌍들 및 메모리 셀들의 복수의 제2 쌍들을 포함한다. 여기서, 단순성을 위해, 메모리 셀들의 하나의 제1 쌍 및 메모리 셀들의 하나의 제2 쌍만이 예시된다. 메모리 셀들의 제1 쌍은 제1 전역 비트 라인(GBL(N))에 결합된 제1 메모리 셀 세트(또는 제1 메모리 셀로 지칭함)(215) 및 제2 전역 비트 라인(GBLB(N))에 결합된 제2 메모리 셀 세트(또는 제2 메모리 셀로 지칭함)(216)를 포함하며, 메모리 셀들의 제2 쌍은 제1 전역 비트 라인(GBL(N))에 결합된 제3 메모리 셀 세트(또는 제3 메모리 셀로 지칭함)(217) 및 제2 전역 비트 라인(GBLB(N))에 결합된 제4 메모리 셀 세트(또는 제4 메모리 셀로 지칭함)(218)를 포함한다. 이러한 실시예에서, 제1 내지 제4 메모리 셀 세트들(215-218)의 각각은 하나의 메모리 셀을 포함한다.
메모리 디바이스(200)는 복수의 입력 워드 라인 쌍들(220)을 더 포함하며, 이들 중 하나가 여기에 일 예로서 예시된다. 입력 워드 라인 쌍들(220)의 각각은 제1 입력 워드 라인(input_1) 및 제2 입력 워드 라인(input_1B)을 포함한다. 제1 입력 워드 라인(input_1)은 제1 메모리 셀 세트(215) 및 제2 메모리 셀 세트(216)에 결합되며, 제2 입력 워드 라인(input_1B)은 제3 메모리 셀 세트(217) 및 제4 메모리 셀 세트(218)에 결합된다. 메모리 디바이스(200)는 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N))에 결합된 신호 프로세싱 회로(250)를 더 포함한다. 이러한 실시예에서, 신호 프로세싱 회로(250)는 차동 아날로그-디지털 컨버터(analog-to-digital converter; ADC)(250)에 의해 구현된다. 입력 워드 라인 쌍(220)은 2진수 또는 3진수(ternary) 입력 신호를 제공할 수 있다. 이에 더하여, 입력 워드 라인 쌍(220)에 대한 입력은 여기에서 단일-레벨(single-level; SLC) 입력이다.
추가로, 제1 메모리 셀 세트(215) 및 제3 메모리 셀 세트(217)의 비트 라인(예를 들어, BL1)은 비트 라인 트랜지스터(BLT1)를 통해 제1 전역 비트 라인(GBL(N))에 결합될 수 있으며, 제2 메모리 셀 세트(216) 및 제4 메모리 셀 세트(218)의 비트 라인(예를 들어, BL9)은 비트 라인 트랜지스터(BLT9)를 통해 제2 전역 비트 라인(GBLB(N))에 결합될 수 있다. 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N))은 출력으로서 역할하며, 차동 아날로그-디지털 컨버터(250)에 결합된다. 여기서, 제1 전역 비트 라인(GBL(N))은 0보다 더 큰 VMM 곱을 나타내는 판독 전류를 수집하기 위해 사용될 수 있으며, 제2 전역 비트 라인(GBLB(N))은 0보다 더 작은 VMM 곱을 나타내는 판독 전류를 수집하기 위해 사용될 수 있다.
차동 아날로그-디지털 컨버터(250)는, 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N)) 중 어떤 경로가 더 큰 전류 값을 갖는지를 검출하도록 구성된다. 실시예들 중 하나에서, 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N))의 검출 이후에, 차동 아날로그-디지털 컨버터(250)는 ADC 값을 획득하기 위해 2개의 경로들에서 전류를 서로 상쇄시킬 수 있다.
VMM 컴퓨팅이 도 3a의 메모리 어레이를 사용하여 수행될 때, 소스 라인 트랜지스터들(SLT1 및 SLT9)은 턴 온되고 소스 라인 트랜지스터들(SLT8 및 SLT16)은 턴 오프되며, 그 결과 소스 라인들(SL1 및 SL9)은 공통 소스 라인(CSL)에 결합된다. 예를 들어, 공통 소스 라인(CSL)에는 0V의 전압이 인가된다. 또한, 비트 라인 트랜지스터들(BLT1 및 BLT9)은 턴 온되고 비트 라인 트랜지스터들(BLT8 및 BLT16)은 턴 오프되며, 그 결과 소스 라인(BL1)은 제1 전역 비트 라인(GBL(N))에 결합되고, 비트 라인(BL9)은 제2 전역 비트 라인(GBLB(N))에 결합된다. 예를 들어, 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N))에는 0.2V가 인가된다.
제1 메모리 셀 세트(215), 제2 메모리 셀 세트(216), 제3 메모리 셀 세트(217) 및 제4 메모리 셀 세트(218)의 각각에 저장된 데이터는, 예를 들어, 단일 레벨의 가중치이다.
VMM 컴퓨팅이 수행될 때, 컴퓨팅 결과는 포지티브와 네거티브로 구분된다. 추가로, 이상에서 설명된 바와 같이, 제1 전역 비트 라인(GBL(N))은 0보다 더 큰 VMM 곱을 나타내는 판독 전류(Icell)를 수집하기 위해 사용될 수 있으며, 제2 전역 비트 라인(GBLB(N))은 0보다 더 작은 VMM 곱을 나타내는 판독 전류(Icell)를 수집하기 위해 사용될 수 있다. 따라서, 포지티브와 네거티브 입력들(워드 라인 전압들) 및 포지티브와 네거티브 가중치들을 생성하기 위해 회로의 동작이 요구된다. 본 실시예들에서, 어떠한 물리적인 네거티브 입력들 및 네거티브 가중치들도 VMM 컴퓨팅에 적용되지 않는다. 새로운 알고리즘이 설계될 것이다.
이상에서 설명된 바와 같이, 본 개시의 실시예에 따르면, 입력 워드 라인 쌍(220)은 전압(워드 라인에 인가되는 전압)을 입력하는 데 사용된다. 제1 입력 워드 라인(input_1)은 1 또는 0을 입력할 수 있으며, 제2 입력 워드 라인(input_1B)도 1 또는 0을 입력할 수 있다. 여기서, 1 또는 0은 논리를 나타낸다. 1이 입력될 때, 예를 들어, 약 3V의 전압이 워드 라인에 인가될 수 있으며, 0이 입력될 때, 예를 들어, 약 0V의 전압이 워드 라인에 인가될 수 있다. 따라서, 입력 워드 라인 쌍(220)의 제1 입력 워드 라인(input_1) 및 제2 입력 워드 라인(input_1B)의 입력 조합을 통해, 3진수 입력 신호가 생성될 수 있다. 예를 들어, 제1 입력 워드 라인(input_1)은 1을 입력하고 제2 입력 워드 라인(input_1B)은 0을 입력하며, 이는 포지티브 입력 (+1)을 생성하며; 제1 입력 워드 라인(input_1)은 0을 입력하고 제2 입력 워드 라인(input_1B)은 0을 입력하며, 이는 제로 입력 (0)을 생성하고; 그리고 제1 입력 워드 라인(input_1)은 1을 입력하고 제2 입력 워드 라인(input_1B)은 1을 입력하며, 이는 네거티브 입력 (-1)을 생성한다. 따라서, 본 개시는 네거티브 입력을 물리적으로 제공하지 않고 3진수 입력 신호 (+1, 0, -1)를 생성할 수 있다. 이에 더하여, 2진수 입력 신호가 또한 이러한 방식으로 생성될 수 있다.
포지티브 및 네거티브 가중치들과 관련하여, 본 개시의 실시예에 따르면, 예를 들어, 제1 메모리 셀 세트(215) 및 제4 메모리 셀 세트(218)가 판독 전류(Icell)를 판독할 수 있고, 제2 메모리 셀 세트(216) 및 제3 메모리 셀 세트(217)의 판독 전류(Icell)가 0일 때, 이러한 상황에서 포지티브 가중치 (+1)가 생성될 수 있다. 제2 메모리 셀 세트(216) 및 제3 메모리 셀 세트(217)가 판독 전류(Icell)를 판독할 수 있고, 제1 메모리 셀 세트(215) 및 제4 메모리 셀 세트(218)의 판독 전류(Icell)가 0일 때, 이러한 상황에서 네거티브 가중치 (-1)가 생성될 수 있다. 이에 더하여, 제1 메모리 셀 세트(215) 내지 제4 메모리 셀 세트(218)의 판독 전류(Icell)가 모두 0인 경우, 제로 가중치가 생성된다.
도 3a의 메모리 디바이스를 동작시킬 때, 포지티브 전압이 입력되는 경우, 입력 전압은 제1 입력 워드 라인(input_1)에 인가되며, 제1 메모리 셀 세트(215)가 포지티브 가중치를 갖는 경우, 이들의 곱셈은 포지티브 판독 전류(Icell)를 나타낸다. 이러한 시점에, 판독 전류(Icell)는 제1 전역 비트 라인(GBL(N))을 통해 차동 아날로그-디지털 컨버터(250)로 흐르며, 이는 포지티브 곱을 나타낸다. 유사하게, 입력 전압이 제1 입력 워드 라인(input_1)에 인가될 때, 제2 메모리 셀 세트(216)는 네거티브 가중치를 가지며, 이들의 곱셈은 네거티브 판독 전류(Icell)를 나타낸다. 이러한 시점에, 판독 전류(Icell)는 제2 전역 비트 라인(GBLB(N))을 통해 차동 아날로그-디지털 컨버터(250)로 흐르며, 이는 네거티브 곱을 나타낸다. 유사하게, 입력 전압이 제2 입력 워드 라인(input_1B)에 인가될 때(입력이 네거티브임을 나타냄), 제3 메모리 셀 세트(217)는 네거티브 가중치를 가지며, 이들의 곱셈은 포지티브 판독 전류(Icell)를 나타낸다. 이러한 시점에, 판독 전류(Icell)는 제1 전역 비트 라인(GBL(N))을 통해 차동 아날로그-디지털 컨버터(250)로 흐르며, 이는 포지티브 곱을 나타낸다. 유사하게, 입력 전압이 제2 입력 워드 라인(input_1B)에 인가될 때(입력이 네거티브임을 나타냄), 제4 메모리 셀 세트(218)는 포지티브 가중치를 가지며, 이들의 곱셈은 네거티브 판독 전류(Icell)를 나타낸다. 이러한 시점에, 판독 전류(Icell)는 제2 전역 비트 라인(GBLB(N))을 통해 차동 아날로그-디지털 컨버터(250)로 흐르며, 이는 네거티브 곱을 나타낸다.
도 3b는 본 개시의 일 실시예에 따른 3D AND-타입 NOR 플래시 메모리 디바이스에 의해 수행되는 벡터 매트릭스 곱셈 연산을 도시하는 다른 예시적인 도면이다. 다음은, 벡터 매트릭스 곱셈(vector matrix multiplication; VMM), 또는 소위 인-메모리 컴퓨팅(in-memory computing; CIM)을 수행하기 위해 이상에서 언급된 3D AND-타입 NOR 플래시 메모리를 적용하는 방법을 설명한다. 이러한 실시예는 다중-레벨 가중치 CIM의 일 예를 설명한다.
VMM에 적용될 때, 도 2의 메모리 디바이스(100)는 메모리 디바이스(200)로서 재구성된다. 동일하거나 또는 유사한 참조 번호들이 계속해서 사용될 것이며, 차이점들만이 표시된다. 도 3b에 도시된 바와 같이, 메모리 어레이(예를 들어, 도 2에 도시된 스택들(110 및 111)로 구성됨)는 메모리 셀들의 복수의 제1 쌍들 및 메모리 셀들의 복수의 제2 쌍들을 포함한다. 여기서, 단순성을 위해, 메모리 셀들의 하나의 제1 쌍 및 메모리 셀들의 하나의 제2 쌍만이 예시된다. 메모리 셀들의 제1 쌍은 제1 전역 비트 라인(GBL(N))에 결합된 제1 메모리 셀 세트(211) 및 제2 전역 비트 라인(GBLB(N))에 결합된 제2 메모리 셀 세트(212)를 포함하며, 메모리 셀들의 제2 쌍은 제1 전역 비트 라인(GBL(N))에 결합된 제3 메모리 셀 세트(213) 및 제2 전역 비트 라인(GBLB(N))에 결합된 제4 메모리 셀 세트를 포함한다. 여기서, 각각의 메모리 셀 세트(211, 212, 213, 및 214)는 2개의 메모리 셀들을 포함하는 것으로서 예시되지만, 이러한 수는 본 개시의 실시예를 제한하도록 의도되지 않는다. 메모리 디바이스(200)는 복수의 입력 워드 라인 쌍들(220)을 더 포함하며, 이들 중 하나가 여기에 일 예로서 예시된다. 입력 워드 라인 쌍들(220)의 각각은 제1 입력 워드 라인(input_1) 및 제2 입력 워드 라인(input_1B)을 포함한다. 제1 입력 워드 라인(input_1)은 제1 메모리 셀 세트(211) 및 제2 메모리 셀 세트(212)에 결합되며, 제2 입력 워드 라인(input_1B)은 제3 세트 메모리 셀(213) 및 제4 메모리 셀 세트(214)에 결합된다. 메모리 디바이스(200)는 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N))에 결합된 신호 프로세싱 회로(250)를 더 포함한다. 이러한 실시예에서, 신호 프로세싱 회로는 차동 아날로그-디지털 컨버터(analog-to-digital converter; ADC)(250)에 의해 구현된다. 입력 워드 라인 쌍(220)은 2진수 또는 3진수 입력 신호를 제공할 수 있다. 이에 더하여, 입력 워드 라인 쌍(220)에 대한 입력은 여기에서 단일-레벨(single-level; SLC) 입력이다.
추가로, 도 1에 도시된 3D NOR 플래시 메모리에 따르면, 메모리 디바이스(200)는 2개의 제1 드레인 측면 전도성 스트링들 및 2개의 제2 드레인 측면 전도성 스트링들을 포함하며, 이들은 각각 로컬 비트 라인들(LBL1, LBL8, LBL9, 및 LBL16)에 대응한다. 2개의 제1 드레인 측면 전도성 스트링들은 각각 제1 메모리 셀 세트(211) 및 제3 메모리 셀 세트(213)에 결합되며, 제1 전역 비트 라인(GBL(N))에 결합된다. 2개의 제2 드레인 측면 전도성 스트링들은 각각 제2 메모리 셀 세트(212) 및 제4 메모리 셀 세트(214)에 결합되며, 제2 전역 비트 라인(GBLB(N))에 결합된다. 이에 더하여, 메모리 디바이스(200)는 2개의 제1 소스 측면 전도성 스트링들 및 2개의 제2 소스 측면 전도성 스트링들을 포함한다. 2개의 제1 소스 측면 전도성 스트링들은 각각 제1 메모리 셀 세트(211) 및 제3 메모리 셀 세트(213)에 결합되며, 공통 소스 라인(CSL)에 결합된다. 2개의 제2 소스 측면 전도성 스트링들은 각각 제2 메모리 셀 세트(212) 및 제4 메모리 셀 세트(214)에 결합되며, 공통 소스 라인(CSL)에 결합된다.
추가로, 제1 메모리 셀 세트(211) 및 제3 메모리 셀 세트(213)의 각각의 비트 라인(예를 들어, BL1, BL8)은 각각 비트 라인 트랜지스터들(BLT1 및 BLT8)를 통해 제1 전역 비트 라인(GBL(N))에 결합될 수 있으며, 제2 메모리 셀 세트(212) 및 제4 메모리 셀 세트(214)의 각각의 비트 라인(예를 들어, BL9, BL16)은 각각 비트 라인 트랜지스터들(BLT9 및 BLT16)를 통해 제2 전역 비트 라인(GBLB(N))에 결합될 수 있다. 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N))은 출력으로서 역할하며, 차동 아날로그-디지털 컨버터(250)에 결합된다. 여기서, 제1 전역 비트 라인(GBL(N))은 0보다 더 큰 VMM 곱을 나타내는 판독 전류를 수집하기 위해 사용될 수 있으며, 제2 전역 비트 라인(GBLB(N))은 0보다 더 작은 VMM 곱을 나타내는 판독 전류를 수집하기 위해 사용될 수 있다.
차동 아날로그-디지털 컨버터(250)는, 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N)) 중 어떤 경로가 더 큰 전류 값을 갖는지를 검출하도록 구성된다. 실시예들 중 하나에서, 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N))의 검출 이후에, 차동 아날로그-디지털 컨버터(250)는 ADC 값을 획득하기 위해 2개의 경로들에서 전류를 서로 상쇄시킬 수 있다.
VMM 컴퓨팅이 도 3b의 메모리 어레이를 사용하여 수행될 때, 소스 라인 트랜지스터들(SLT1, SLT8, SLT9, 및 SLT16)은 턴 온되며, 그 결과 소스 라인들(SL1, SL8, SL9, 및 SL16)은 공통 소스 라인(CSL)에 결합된다. 예를 들어, 공통 소스 라인(CSL)에는 0V의 전압이 인가된다. 또한, 비트 라인 트랜지스터들(BLT1, BLT8, BLT9, 및 BLT16)은 턴 온되며, 그 결과 비트 라인들(BL1 및 BL8)은 제1 전역 비트 라인(GBL(N))에 결합되고, 비트 라인들(BL9 및 BL16)은 제2 전역 비트 라인(GBLB(N))에 결합된다. 예를 들어, 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N))에는 0.2V가 인가된다.
제1 메모리 셀 세트(211), 제2 메모리 셀 세트(212), 제3 메모리 셀 세트(213) 및 제4 메모리 셀 세트(214)에 저장된 데이터는, 예를 들어, 4개의 레벨들의 가중치들이다. 이러한 예에서, 각각의 메모리 셀 세트는 2개의 메모리 셀들을 가지며, 따라서 8개 레벨의 가중치들이 생성될 수 있다. 이에 더하여, 더 많은 레벨의 가중치 데이터가 필요한 경우, 각각의 메모리 셀 세트는 더 많은 레벨들의 가중치들을 생성하기 위해 병렬로 연결된 더 많은 메모리 셀들을 가질 수 있다.
VMM 컴퓨팅이 수행될 때, 컴퓨팅 결과는 포지티브와 네거티브로 구분된다. 추가로, 이상에서 설명된 바와 같이, 제1 전역 비트 라인(GBL(N))은 0보다 더 큰 VMM 곱을 나타내는 판독 전류(Icell)를 수집하기 위해 사용될 수 있으며, 제2 전역 비트 라인(GBLB(N))은 0보다 더 작은 VMM 곱을 나타내는 판독 전류(Icell)를 수집하기 위해 사용될 수 있다. 따라서, 포지티브와 네거티브 입력들(워드 라인 전압들) 및 포지티브와 네거티브 가중치들을 생성하기 위해 회로의 동작이 요구된다. 본 실시예들에서, 어떠한 물리적인 네거티브 입력들 및 네거티브 가중치들도 VMM 컴퓨팅에 적용되지 않는다. 새로운 알고리즘이 설계될 것이다.
이상에서 설명된 바와 같이, 본 개시의 실시예에 따르면, 입력 워드 라인 쌍(220)은 전압(워드 라인에 인가되는 전압)을 입력하는 데 사용된다. 제1 입력 워드 라인(input_1)은 1 또는 0을 입력할 수 있으며, 제2 입력 워드 라인(input_1B)도 1 또는 0을 입력할 수 있다. 여기서, 1 또는 0은 논리를 나타낸다. 1이 입력될 때, 예를 들어, 약 3V의 전압이 워드 라인에 인가될 수 있으며, 0이 입력될 때, 예를 들어, 약 0V의 전압이 워드 라인에 인가될 수 있다. 따라서, 입력 워드 라인 쌍(220)의 제1 입력 워드 라인(input_1) 및 제2 입력 워드 라인(input_1B)의 입력 조합을 통해, 3진수 입력 신호가 생성될 수 있다. 예를 들어, 제1 입력 워드 라인(input_1)은 1을 입력하고 제2 입력 워드 라인(input_1B)은 0을 입력하며, 이는 포지티브 입력 (+1)을 생성하며; 제1 입력 워드 라인(input_1)은 0을 입력하고 제2 입력 워드 라인(input_1B)은 0을 입력하며, 이는 제로 입력 (0)을 생성하고; 그리고 제1 입력 워드 라인(input_1)은 1을 입력하고 제2 입력 워드 라인(input_1B)은 1을 입력하며, 이는 네거티브 입력 (-1)을 생성한다. 따라서, 본 개시는 네거티브 입력을 물리적으로 제공하지 않고 3진수 입력 신호 (+1, 0, -1)를 생성할 수 있다. 이에 더하여, 2진수 입력 신호가 또한 이러한 방식으로 생성될 수 있다.
포지티브 및 네거티브 가중치들과 관련하여, 본 개시의 실시예에 따르면, 예를 들어, 제1 메모리 셀 세트(211) 및 제4 메모리 셀 세트(214)가 판독 전류(Icell)를 판독할 수 있고, 제2 메모리 셀 세트(212) 및 제3 메모리 셀 세트(213)의 판독 전류(Icell)가 0일 때, 이러한 상황에서 포지티브 가중치 (+1)가 생성될 수 있다. 제2 메모리 셀 세트(212) 및 제3 메모리 셀 세트(213)가 판독 전류(Icell)를 판독할 수 있고, 제1 메모리 셀 세트(211) 및 제4 메모리 셀 세트(214)의 판독 전류(Icell)가 0일 때, 이러한 상황에서 네거티브 가중치 (-1)가 생성될 수 있다. 이에 더하여, 제1 메모리 셀 세트(211) 내지 제4 메모리 셀 세트(214)의 판독 전류(Icell)가 모두 0인 경우, 제로 가중치가 생성될 수 있다.
도 3b의 메모리 디바이스를 동작시킬 때, 포지티브 전압이 입력되는 경우, 입력 전압은 제1 입력 워드 라인(input_1)에 인가되며, 제1 메모리 셀 세트(211)가 포지티브 가중치를 갖는 경우, 이들의 곱셈은 포지티브 판독 전류(Icell)를 나타낸다. 이러한 시점에, 판독 전류(Icell)는 제1 전역 비트 라인(GBL(N))을 통해 차동 아날로그-디지털 컨버터(250)로 흐르며, 이는 포지티브 곱을 나타낸다. 유사하게, 입력 전압이 제1 입력 워드 라인(input_1)에 인가될 때, 제2 메모리 셀 세트(212)는 네거티브 가중치를 가지며, 이들의 곱셈은 네거티브 판독 전류(Icell)를 나타낸다. 이러한 시점에, 판독 전류(Icell)는 제2 전역 비트 라인(GBLB(N))을 통해 차동 아날로그-디지털 컨버터(250)로 흐르며, 이는 네거티브 곱을 나타낸다. 유사하게, 입력 전압이 제2 입력 워드 라인(input_1B)에 인가될 때(입력이 네거티브임을 나타냄), 제3 메모리 셀 세트는 네거티브 가중치를 가지며, 이들의 곱셈은 포지티브 판독 전류(Icell)를 나타낸다. 이러한 시점에, 판독 전류(Icell)는 제1 전역 비트 라인(GBL(N))을 통해 차동 아날로그-디지털 컨버터(250)로 흐르며, 이는 포지티브 곱을 나타낸다. 유사하게, 입력 전압이 제2 입력 워드 라인(input_1B)에 인가될 때(입력이 네거티브임을 나타냄), 제4 메모리 셀 세트(214)는 포지티브 가중치를 가지며, 이들의 곱셈은 네거티브 판독 전류(Icell)를 나타낸다. 이러한 시점에, 판독 전류(Icell)는 제2 전역 비트 라인(GBLB(N))을 통해 차동 아날로그-디지털 컨버터(250)로 흐르며, 이는 네거티브 곱을 나타낸다.
요약하면, 다음의 표 1은, Input_1 및 Input_1B의 입력(포지티브, 제로 및 네거티브 입력들) 및 가중치들(포지티브, 제로 및 네거티브 가중치들)과 관련된 GBL(N) 및 GBLB(N)의 출력들을 열거한다.
표 1
따라서, 모든 워드 라인들 및 비트 라인들에서, 포지티브 판독 전류들(Icell)은 포지티브 VMM 곱 및 네거티브 VMM 곱을 생성하기 위해 합산되며, 디지털 값을 생성하기 위하여 비교를 위해 차동 아날로그-디지털 컨버터(250)로 송신된다.
요약하면, 도 3b에 도시된 아키텍처 및 알고리즘을 통해, 제1 전역 비트 라인(GBL(N))의 판독 전류들(Icell)이 합산된 이후에, 합은 포지티브 VMM 곱 값 VMM(포지티브)을 나타낼 수 있으며, 제2 전역 비트 라인(GBLB(N))의 판독 전류들(Icell)이 합산된 이후에, 합은 네거티브 VMM 곱 값 VMM(네거티브)을 나타낼 수 있다. 이상의 2가지의 계산들은 다음과 같을 수 있다.
여기서 gm (i, k)은 메모리 셀의 트랜스컨덕턴스이며, VWL(i)은 워드 라인에 인가되는 전압이고, i는 워드 라인들의 수이며, k는 비트 라인들의 수이고, j는 전역 비트 라인들의 수이다. 따라서, 워드 라인에 인가된 전압(VWL(i))에 메모리 셀의 트랜스컨덕턴스(gm (i, k))를 곱한 것은 메모리 셀의 판독 전류(Icell)에 대응한다. 이러한 트랜스컨덕턴스(gm (i, k))는 이상에서 설명된 가중치에 대응한다. 따라서, pi x qi > 0(VMM 곱이 0보다 더 큼) 및 pi x qi < 0(VMM 곱이 0보다 더 작음)은 메모리 어레이의 메모리 셀들의 판독 전류들의 합계로부터 획득될 수 있다. pi 및 qi는 임의적인 수들, 즉, 이상에서 언급된 워드 라인 전압(VWL(i)) 및 가중치(gm (i, k))를 사용하여 계산될 수 있는 값들이다.
도 3c는, 게이트 전압 및 판독 전류(Icell)(좌측)의 분포 도면, 트리밍(trimming) 이후의 메모리 셀 판독 전류 및 표준 편차(σ)의 분포 도면(중간), 및 포지티브 플래닝(positive planning) RTN 및 비트 카운트의 분포 도면(우측)을 도시한다. 도 3c의 좌측에 도시된 바와 같이, 이는, 증분 단계 펄스 프로그래밍(incremental step pulse programming; ISPP)이 수행될 때 드레인 전류(Id) 및 게이트 전압(Vg)의 측정 도면이다. 수평 축은 게이트 전압(Vg), 즉, 워드 라인에 인가되는 전압을 나타내며; 그리고 수직 축은, 비트 라인 전압(VBL)이 0.2V일 때의 판독 전압(Icell)을 나타낸다. 여기서, 낮은 비트 라인 전압 VBL = 0.2V(정상 판독 동안의 비트 라인 전압 VBL = 1.2V)으로 동작할 때 판독 전류(Icell)가 제어될 수 있다는 것이 바람직하다. 이상에서 설명된 예에서, 입력 전압(워드 라인 전압(VWL))은 약 2V 내지 3V이며, 따라서, 도 3c에서 Vg = 2V 내지 3V 사이의 대응하는 전류를 찾고, 서브-100nA 내지 서브-1μA의 범위와 같이 상이한 판독 전류들(Icell)의 범위를 트리밍(trim)하는 것이 가능하다. 도 3c의 중간의 도면에 따르면, 판독 전류(Icell)는 서브-1μA 범위에서 더 양호하며, 도 3c의 우측의 도면에 따르면, 서브-1μA 범위 범위에서 더 작은 RTN이 존재한다.
도 3d는 메모리 셀의 판독 전류(Icell)의 분포를 도시하는 개략도이다. 이상에서 설명된 바와 같이, 인-메모리 컴퓨팅이 좋은 결과를 얻기 위해, 판독 전류들(Icell)의 타이트하고 적절하게 이격된 분포를 생성하고 더 작은 RTN 및 양호한 유지를 갖는 것이 바람직하다. 따라서, 입력 전압(워드 라인 전압)이 약 2V 내지 3V인 경우, 판독 전류(Icell)의 분포는 바람직하게는, 200nA, 400nA, 600nA, 및 800nA와 같이, 도 3d에 도시된 바와 같은 서브-1μA의 범위 내의 분포로 트리밍된다. 입력 전압이 약 2V 내지 3V일 때, 판독 전류(Icell)의 분포를 서브-1μA의 범위로 정정하는 것이 바람직하다. 따라서, 4개의 레벨들의 가중치들이 획득될 수 있다.
일 예로서 메모리 셀들의 제1 쌍의 메모리 셀들의 제1 세트(211)(포지티브 가중치들을 저장함) 및 메모리 셀들의 제2 세트(212)(네거티브 가중치들을 저장함)를 취하면, 메모리 셀들의 각각의 세트는 2개의 메모리 셀들을 포함하며, 그 결과 메모리 셀들의 제1 쌍은 총 4개의 메모리 셀들을 포함하고, 각각의 메모리 셀은 4개의 레벨들의 판독 전류(Icell)를 가지며, 이는 4 레벨 가중치들을 나타낸다. 4개의 비트 라인 트랜지스터들(BLT1, BLT8, BLT9, 및 BLT16) 모두가 턴 온될 때, 총 16개 레벨들의 가중치들(예를 들어, 네거티브 가중치에 대해 -8 내지 -1, 포지티브 가중치에 대해 0 내지 +7)이 생성될 수 있으며, 즉, 4-비트 해상도가 생성될 수 있다.
이상의 아키텍처에서, 입력 신호들은 주로 단일-레벨 입력이다. 다중-레벨 입력들이 생성될 경우, 이상의 도 3b에 기초하는 다수의 아키텍처들이 사용될 수 있다. 도 4는 디지털 영역에서 4개의 입력들 4개의 가중치들(4 inputs 4 weights; 4I4W)을 생성하기 위한 아키텍처를 도시하는 개략도이다.
도 4에 도시된 바와 같이, 메모리 디바이스(300)는 4개의 메모리 어레이들(301a, 301b, 301c, 및 301d)(4개의 타일들)을 포함한다. 메모리 어레이들(301a, 301b, 301c, 및 301d)은 각각 X 디코더들(302a, 302b, 302c, 및 302d) 및 이에 대응하는 AD 컨버터들(303a, 303b, 303c, 및 303d)을 갖는다. 여기서, 메모리 어레이들(301a, 301b, 301c, 및 301d), 대응하는 X 디코더들(302a, 302b, 302c, 및 302d), 및 대응하는 AD 컨버터들(303a, 303b, 303c, 및 303d)의 각각은 도 3b에 도시된 아키텍처를 사용할 수 있다. 메모리 어레이들(301a, 301b, 301c, 및 301d)의 각각은 4비트의 가중치를 가지며, 즉, 4개의 비트 라인 트랜지스터(BLT)들을 갖는 4 레벨들의 판독 전류(Icell)를 갖는다. 따라서, 메모리 셀은 여기서, 이러한 예에서는 4 레벨인 다중 레벨 셀(multiple level cell; MLC)이다.
이에 더하여, 메모리 어레이들(301a, 301b, 301c, 및 301d)의 각각의 워드 라인은 단일-레벨(single-level; SLC) 입력을 수신하지만, 입력 전압이 상이하다. 예를 들어, 메모리 어레이(301a)의 입력은 a0이며, 메모리 어레이(301b)의 입력은 a1이고, 메모리 어레이(301c)의 입력은 a2이며, 메모리 어레이(301d)의 입력은 a3이다.
추가로, 4개의 메모리 어레이들(301a, 301b, 301c, 및 301d)은 결과들을 출력하기 위해 컴퓨팅을 주기적으로 반복하며, 최종적으로 4개의 AD 컨버터들의 출력들이 합산된다. 이는 시프터(shifter)들 및 가산기들을 사용하여 달성될 수 있다. 메모리 어레이(301a)의 출력은 최하위 비트(least significant bit; LSB)에 상응하며, 메모리 어레이(301d)의 출력은 최상위 비트(most significant bit; MSB)에 상응한다. 따라서, 4개의 메모리 어레이들(301a, 301b, 301c, 및 301d)의 출력들은 각각, 1(= 20), 2(= 21), 4(= 22), 8(= 23), 등과 같은 대응하는 가중치 계수들로 곱해진다.
이상의 아키텍처를 통해, 포지티브 및 네거티브 극성들을 갖는 4-입력 4-가중치(4-input 4-weight; 4I4W) 아키텍처가 생성될 수 있다. 요약하며, 이러한 아키텍처의 생성은 다음을 필요로 한다:
[1] 포지티브 및 네거티브 극성들을 생성하기 위한 2개의 타일들 내의 4개의 메모리 셀들의 설계;
[2] (4개의 가중치들(W0, W1, W2, and W3)에 대응하는) 4개의 판독 전류들(Icell)을 생성하기 위한 다중-레벨 유닛 메모리 셀(이러한 예에서 4 레벨);
[3] 각각의 비트 라인에 연결되는 4개의 비트 라인 트랜지스터(BLT)들; 및
[4] 4-비트 입력들(a0, a1, a2, 및 a3)을 생성하기 위한 4개의 타일들.
마지막으로, 이상에서 언급된 메모리 디바이스(300)의 VMM 출력은 다음의 수학식에 의해 표현될 수 있다:
VMM = (W3W2W1W0)×1×a0 + (W3W2W1W0)×2×a1 + (W3W2W1W0)×4×a2 + (W3W2W1W0)×8×a3
도 5는 본 개시의 일 실시예에 따른 고체-상태 드라이브 모듈을 도시하는 개략도이다. 도 5에 도시된 고체-상태 드라이브(solid-state drive; SSD) 모듈(350)은, 예를 들어, 많은 양의 데이터에 대한 컴퓨팅, 특히 매트릭스 곱셈 컴퓨팅을 수행해야 하는 AI 추론 시스템에 적용될 수 있다. 도 5에 도시된 바와 같이, 고체-상태 드라이브 모듈(350)은 제어기 칩(352) 및 일반 매트릭스 곱셈(general matrix multiplication; GEMM) 칩(354)을 포함하며, 제어기 칩(352)과 일반 매트릭스 곱셈 칩(354) 사이의 데이터 송신은 인터페이스(356)를 통해 수행될 수 있다. 이러한 인터페이스는, 예를 들어, DDR4/5에 상응하는 또는 유사한 인터페이스일 수 있다. 추가적으로, 제어기 칩(352)은 복수의 일반 매트릭스 곱셈 칩(354)에 결합될 수 있다. 다른 실시예들에서, 일반 매트릭스 곱셈 칩(354)은 독립형 칩이다.
이상에서 언급된 도 3b로부터(즉, 3D NOR 플래시 메모리를 사용하여) 구성된 일반 매트릭스 곱셈 칩(354)은, 예를 들어, 512개의 입력들(4 비트) 및 1024개의 출력들(4 비트)을 가질 수 있다. 각각의 GEMM 칩(354)은 대규모 신경망들에서 수십억 개의 파라미터들을 직접적으로 컴퓨팅하기 위해 다수의 GB 메모리 셀들을 지원할 수 있다. GEMM 칩(354)은 DDR5(4.8Gbps, 16 I/O)와 같은 인터페이스(356)를 통해 제어기 칩(352)에 연결된다. 제어 회로 이외에, 제어기 칩(352)은 AI 데이터 흐름을 제어하기 위한 메타 데이터를 저장하기 위한 적절한 크기의 SRAM만을 필요로 하며, 벡터 매트릭스 곱셈(vector matrix multiplication; VMM)을 지원하기 위해 많은 수의 ALU들 및 다수의 코어들(예를 들어, SOC ASIC 아키텍처는 동등한 컴퓨팅을 달성하기 위해 100개가 넘는 코어들을 필요로 함)을 필요로 하지 않는다. 이러한 아키텍처 하에서, 모든 VMM 컴퓨팅은 GEMM 칩(354)에서 수행된다. 이상에서 언급된 4I4W 아키텍처 하에서, 내부 최대 VMM 컴퓨팅 대역폭은 ~3.7 TOPS이며, 이는 DDR5의 I/O보다 훨씬 더 크다. 이에 더하여, 칩당 전력 소비는 1W 미만이다. 따라서, GEMM 칩(354)은 빠르고, 낮은 전력 소비를 갖는다.
이러한 아키텍처에서, 모든 벡터 매트릭스 곱셈 컴퓨팅이 GEMM 칩(354) 내에서 수행되기 때문에, 제어기 칩(352)은 단지 GEMM 칩(354)에 입력들을 제공하기만 하면 된다. GEMM 칩(354)은 벡터 매트릭스 곱셈 컴퓨팅을 수행하고, 그런 다음 출력들을 제어기 칩(352)에 제공한다. 따라서, 이러한 아키텍처 하에서, 메모리에서 데이터를 판독하고 ALU를 통해 컴퓨팅을 수행할 필요가 없다. 결과적으로, 많은 양의 데이터에 대한 벡터 매트릭스 곱셈은 효율적이고 빠르게 수행될 수 있다.
도 6a는 본 개시의 일 실시예에 따른 코사인 유사도를 컴퓨팅하기 위해 적용된 3D AND-타입 NOR 플래시 메모리 디바이스의 아키텍처 및 동작을 도시한다. 도 6a에 도시된 바와 같이, 이러한 아키텍처는 기본적으로 도 3a의 아키텍처와 유사하다. 이하에서 차이점들만이 설명될 것이며, 다른 세부사항들은 도 3과 동일하다. 코사인 유사도 컴퓨팅은 인-메모리 검색(in-memory search; IMS)을 수행하기 위해 적용될 수 있다.
메모리 디바이스(400)의 메모리 어레이는 메모리 셀들의 복수의 제1 쌍들 및 메모리 셀들의 복수의 제2 쌍들을 포함한다. 여기서, 단순성을 위해, 메모리 셀들의 하나의 제1 쌍 및 메모리 셀들의 하나의 제2 쌍만이 예시된다. 메모리 셀들의 제1 쌍은 제1 전역 비트 라인(GBL(N))에 결합된 제1 메모리 셀 세트(또는 제1 메모리 셀로 지칭함)(411) 및 제2 전역 비트 라인(GBLB(N))에 결합된 제2 메모리 셀 세트(또는 제2 메모리 셀로 지칭함)(412)를 포함하며, 메모리 셀들의 제2 쌍은 제1 전역 비트 라인(GBL(N))에 결합된 제3 메모리 셀 세트(또는 제3 메모리 셀로 지칭함)(413) 및 제2 전역 비트 라인(GBLB(N))에 결합된 제4 메모리 셀 세트(또는 제4 메모리로 지칭함)(414)를 포함한다. 이러한 실시예에서, 메모리 셀 세트들(411-414)의 각각은 하나의 메모리 셀을 포함한다.
메모리 디바이스(400)는 복수의 입력 워드 라인 쌍들(420)을 더 포함한다. 복수의 입력 워드 라인 쌍들(420)의 각각(예를 들어, WL1 쌍)은 제1 입력 워드 라인(input_1) 및 제2 입력 워드 라인(input_1B)을 포함한다. 제1 입력 워드 라인(input_1)은 제1 메모리 셀 (411) 및 제2 메모리 셀(412)에 결합되며, 제2 입력 워드 라인(input_1B)은 제3 메모리 셀(413) 및 제4 메모리 셀(414)에 결합된다. 복수의 입력 워드 라인 쌍들의 각각은, 이상에서 설명된 바와 같이, 3진수 입력 신호, 즉, 3진수 입력 (+1, 0, -1)을 제공한다. 세부사항들에 대해, 도 3a 또는 도 3b의 설명을 참조하도록 한다.
여기서, 포지티브 입력 신호 (+1)는 (일 예로서, WL1 쌍을 취하면) 입력 워드 라인 쌍(420)의 제1 입력 워드 라인(input_1)을 턴 온하고, 제2 입력 워드 라인(input_1B)을 턴 오프하며; 제로 입력 신호 (0)은 (일 예로서, WL1 쌍을 취하면) 입력 워드 라인 쌍(420)의 제1 입력 워드 라인(input_1)을 턴 오프하고, 제2 입력 워드 라인(input_1B)을 턴 오프하며; 그리고 네거티브 입력 신호 (-1)는 (일 예로서, WL1 쌍을 취하면) 입력 워드 라인 쌍(420)의 제1 입력 워드 라인(input_1)을 턴 오프하고, 제2 입력 워드 라인(input_1B)을 턴 온한다. 유사하게, 입력 워드 라인 쌍(420)에 대한 입력은 여기에서 단일-레벨(single-level; SLC) 입력이다.
메모리 디바이스(400)는 제1 전역 비트 라인(GBL(N)) 및 제2 전역 비트 라인(GBLB(N))에 연결된 신호 프로세싱 회로(450)를 더 포함한다. 이러한 실시예에서, 신호 프로세싱 회로(450)는 차동 센싱 증폭기에 의해 구현된다. 이러한 아키텍처가 코사인 유사도 컴퓨팅에서 사용될 때, 이것은 주로 입력 신호와 메모리에 저장된 데이터를 비교한다. 실시예들 중 하나에서, 도 3a 또는 도 3b에 도시된 차동 아날로그-디지털 컨버터(350)는 필요하지 않다.
이에 더하여, 도 3a 또는 도 3b의 VMM 컴퓨팅과 동일하게, 메모리 어레이는 IMS 컴퓨팅에 대해 사용되는 가중치 정보를 저장한다. 포지티브 IMS 가중치는 제1 메모리 셀(411) 및 제4 메모리 셀(414)에 저장되며, 네거티브 IMS 가중치는 제2 메모리 셀(412) 및 제3 메모리 셀(413)에 저장된다.
또한, 메모리 디바이스(400)는, 코사인 유사도 컴퓨팅을 수행하기 위해 메모리 어레이를 제어하기 위해 메모리 어레이 및 복수의 입력 워드 라인 쌍들에 결합된 제어 회로(460)를 더 포함할 수 있다. 예를 들어, 제어 회로(460)는 입력 신호를 대응하는 입력 워드 라인 쌍에 입력하기 위한 디코더를 포함할 수 있다. 메모리 디바이스(400)는 비교기(452) 및 기준 전류 생성기(454)를 더 포함할 수 있다. 비교기(452)는 차동 센싱 증폭기(450) 및 기준 전류 생성기(454)에 결합된다. 기준 전류 생성기(454)는 기준 전류(Iref)를 생성하며, 비교기(452)는 차동 센싱 증폭기(450)의 출력과 기준 신호(Iref)를 비교한다. 일 실시예에서, 기준 신호(Iref)는 코사인 유사도 컴퓨팅 임계치에 대응하여 조정가능하다.
이에 더하여, 도 3a 또는 도 3b에서 설명된 동작과 동일하게, 제1 전역 비트 라인(GBL(N))은 포지티브 판독 전류들(Icell)을 수집하며, 제2 전역 비트 라인(GBLB(N))은 네거티브 판독 전류들(Icell)을 수집한다. 포지티브 판독 전류들(Icell)의 합 및 네거티브 판독 전류들(Icell)의 합은 차동 센싱 증폭기(450)로 전송되며, 포지티브 판독 전류들(Icell)의 합과 네거티브 판독 전류들(Icell)의 합 사이의 차이가 출력된다.
코사인 유사도 컴퓨팅은 다음과 같이 표현된다:
코사인 유사도 컴퓨팅은 또한 벡터 매트릭스 곱셈의 애플리케이션이다. 여기서, pi는 입력 벡터(쿼리), 즉, 워드 라인 쌍(420)으로부터 입력된 입력 신호(예를 들어, +1, 0, 및 -1의 3진수 신호)이다. qi는 메모리에 저장된 데이터, 즉, 가중치 정보이다.
코사인 유사도 컴퓨팅에서, 메모리 셀은 도 6b에 도시된 단일-레벨 판독 전류 분포, 바람직하게는 200nA의 판독 전류(Icell)를 갖는 분포를 사용한다. 이러한 분포 하에서, 표준 편차(σ)는 4%이다.
이에 더하여, 이러한 아키텍처 하에서, 1024개의 차동 센싱 증폭기들에 대응하는, 512개의 워드 라인(WL)들 및 1024개의 출력들이 있을 수 있다. 또한, 임계치는 약 100ns이며, 유사도 검색의 대역폭은 512x1024/100ns, 즉, 5TB/s이다. 따라서, 고용량 및 고속 컴퓨팅을 달성하는 것이 가능하다.
따라서, 비교기(452)가 센싱 증폭기(450)의 출력과 기준 신호(Iref)를 비교한 이후에, 입력 신호가 메모리에 저장된 데이터와 매칭되는지(통과), 또는 매칭되지 않는지(실패) 여부를 검출하는 것이 가능하다. 따라서, 인-메모리 컴퓨팅이 코사인 유사도 컴퓨팅에 적용될 때, 이것은 안면 인식에 대해 사용될 수 있다. 이러한 아키텍처 하에서, 검색을 위해 메모리 내의 데이터를 판독할 필요가 없으며, IMS 컴퓨팅은, 단순하게 입력 신호(예를 들어, 확인될 안면 데이터)를 메모리 디바이스에 입력함으로써 수행될 수 있다. 그런 다음, 메모리 디바이스는 검색 결과를 외부 시스템에 제공한다. 이에 더하여, 이상에서 설명된 바와 같은 본 개시에 따른 메모리 디바이스는 충분히 큰 용량 및 충분히 빠른 실행 속도를 가지며, 시스템 자원들을 점유하지 않고 검색 결과를 빠르게 출력할 수 있다.
본 개시의 일 실시예에 따르면, 인-메모리 컴퓨팅을 위한 메모리 디바이스의 동작 아키텍처는 3D AND-타입 NOR 플래시 메모리를 사용하여 구성된다. 따라서, 본 개시의 실시예에서, 메모리 내의 데이터는 다른 ALU에 의해 컴퓨팅되도록 외부로 판독되지 않을 수 있으며, 따라서 시스템 데이터는 저장될 수 있고, 외부 저장 디바이스로 판독된 데이터에 대한 데이터 업데이트는 항상 요구되지는 않는다. 또한, 본 개시의 아키텍처는 고-용량, 고속 및 고-효율 인-메모리 컴퓨팅을 달성할 수 있다. 따라서, 이미징 프로세싱, 안면 인식, 심층 신경망, 등과 같은 AI 애플리케이션들 또는 빅 데이터에서 일반적으로 사용되는 VMM 컴퓨팅, IMS 컴퓨팅, 등은 본 개시의 아키텍처를 통해 구현될 수 있다.

Claims (20)

  1. 인-메모리 컴퓨팅을 위한 메모리 디바이스로서,
    메모리 셀들의 복수의 제1 쌍들 및 메모리 셀들의 복수의 제2 쌍들을 포함하는 메모리 어레이로서, 메모리 셀들의 상기 복수의 제1 쌍들의 각각은 제1 전역 비트 라인에 결합된 제1 메모리 셀 세트 및 제2 전역 비트 라인에 결합된 제2 메모리 셀 세트를 포함하며, 메모리 셀들의 상기 복수의 제2 쌍들의 각각은 상기 제1 전역 비트 라인에 결합된 제3 메모리 셀 세트 및 상기 제2 전역 비트 라인에 결합된 제4 메모리 셀 세트를 포함하는, 상기 메모리 어레이;
    복수의 입력 워드 라인 쌍들로서, 상기 복수의 입력 워드 라인 쌍들의 각각은 제1 입력 워드 라인 및 제2 입력 워드 라인을 포함하며, 상기 제1 입력 워드 라인은 상기 제1 메모리 셀 세트 및 상기 제2 메모리 셀 세트에 결합되고, 상기 제2 입력 워드 라인은 상기 제3 메모리 셀 세트 및 상기 제4 메모리 셀 세트에 결합되는, 상기 복수의 입력 워드 라인 쌍들; 및
    상기 제1 전역 비트 라인 및 상기 제2 전역 비트 라인에 결합되는 신호 프로세싱 회로를 포함하는, 메모리 디바이스.
  2. 청구항 1에 있어서,
    상기 복수의 입력 워드 라인 쌍들은 2진수 또는 3진수 입력 신호들을 제공하는, 메모리 디바이스.
  3. 청구항 2에 있어서,
    상기 메모리 어레이는 인-메모리 컴퓨팅을 위한 가중치 정보를 저장하며, 제1 VMM 가중치는 상기 제1 메모리 셀 세트 및 상기 제4 메모리 셀 세트에 저장되고, 제2 VMM 가중치는 상기 제2 메모리 셀 세트 및 상기 제3 메모리 셀 세트에 저장되는, 메모리 디바이스.
  4. 청구항 1에 있어서,
    상기 신호 프로세싱 회로는 차동 아날로그-디지털 컨버터이며, 상기 제1 내지 제4 메모리 셀 세트들은 각각 하나의 메모리 셀을 포함하는, 메모리 디바이스.
  5. 청구항 1에 있어서,
    상기 신호 프로세싱 회로는 차동 아날로그-디지털 컨버터이며, 상기 제1 내지 제4 메모리 셀 세트들은 각각 2개의 메모리 셀들을 포함하고,
    상기 메모리 디바이스는,
    상기 제1 메모리 셀 세트, 상기 제3 메모리 셀 세트, 및 상기 제1 전역 비트라인에 결합되는 2개의 제1 드레인 측면 전도성 스트링들; 및
    상기 제4 메모리 셀 세트, 상기 제2 메모리 셀 세트, 및 상기 제2 전역 비트라인에 결합되는 2개의 제2 드레인 측면 전도성 스트링들을 더 포함하는, 메모리 디바이스.
  6. 청구항 5에 있어서,
    상기 메모리 디바이스는,
    상기 2개의 제1 드레인 측면 전도성 스트링들과 상기 제1 전역 비트 라인 사이에 결합되며, 상기 2개의 제2 드레인 측면 전도성 스트링들과 상기 제2 전역 비트 라인 사이에 결합되는 복수의 비트 라인 트랜지스터들을 더 포함하는, 메모리 디바이스.
  7. 청구항 5에 있어서,
    상기 메모리 디바이스는,
    상기 제1 메모리 셀 세트 및 상기 제3 메모리 셀 세트에 각각 결합되며, 공통 소스 라인에 결합되는 2개의 제1 소스 측면 전도성 스트링들; 및
    상기 제2 메모리 셀 세트 및 상기 제4 메모리 셀 세트에 각각 결합되며, 상기 공통 소스 라인에 결합되는 2개의 제2 소스 측면 전도성 스트링들을 더 포함하는, 메모리 디바이스.
  8. 청구항 3에 있어서,
    상기 메모리 어레이에 저장된 상기 가중치 정보는 4개의 레벨들의 가중치들을 포함하는, 메모리 디바이스.
  9. 청구항 1에 있어서,
    상기 제1 전역 비트 라인 및 상기 제2 전역 비트 라인은 상기 메모리 어레이로부터의 메모리 셀 전류들을 합산하도록 구성되며, 상기 메모리 어레이의 하나의 메모리 셀에 대한 상기 메모리 셀 전류는 100nA보다 더 크고 1μA보다 더 작은, 메모리 디바이스.
  10. 청구항 1에 있어서,
    상기 메모리 어레이로부터의 상기 메모리 셀 전류들을 합산하기 위해 센싱 전압이 상기 제1 전역 비트 라인 및 상기 제2 전역 비트 라인에 인가되며, 상기 센싱 전압은 0.2V보다 더 작은, 메모리 디바이스.
  11. 청구항 1에 있어서,
    상기 복수의 입력 워드 라인 쌍들의 각각은 1-비트 입력 신호를 제공하는, 메모리 디바이스.
  12. 청구항 1에 있어서,
    상기 메모리 어레이는 3D NOR 플래시 메모리인, 메모리 디바이스.
  13. 청구항 1에 있어서,
    상기 2개의 제1 드레인 측면 전도성 스트링들 및 상기 2개의 제2 드레인 측면 전도성 스트링들은 도핑된 폴리실리콘 플러그들인, 메모리 디바이스.
  14. 청구항 1에 있어서,
    상기 제1 내지 제4 메모리 셀 세트들은 각각 하나의 메모리 셀을 포함하며, 상기 메모리 디바이스는 인-메모리 검색을 수행하도록 구성되고,
    상기 신호 프로세싱 회로는 차동 센싱 증폭기이며, 상기 차동 센싱 증폭기는 상기 제1 전역 비트 라인 및 상기 제2 전역 비트 라인에 결합되는, 메모리 디바이스.
  15. 청구항 14에 있어서,
    상기 복수의 입력 워드 라인 쌍들의 각각은 2진수 또는 3진수 입력 신호를 제공하는, 메모리 디바이스.
  16. 청구항 14에 있어서,
    상기 메모리 어레이는 인-메모리 검색을 위한 가중치 정보를 저장하며, 제1 IMS 가중치는 상기 제1 메모리 셀 및 상기 제4 메모리 셀에 저장되고, 제2 IMS 가중치는 상기 제2 메모리 셀 및 상기 제3 메모리 셀에 저장되는, 메모리 디바이스.
  17. 청구항 14에 있어서,
    상기 메모리 디바이스는,
    상기 메모리 어레이 및 상기 복수의 입력 워드 라인 쌍들에 결합에 결합되며, 상기 인-메모리 검색을 수행하기 위하여 코사인 유사도 컴퓨팅을 수행하기 위해 상기 메모리 어레이를 제어하는 제어 회로; 및
    상기 차동 센싱 증폭기 및 기준 신호 생성기에 결합되는 비교기로서, 상기 기준 신호 생성기는 기준 신호를 생성하고, 상기 비교기는 상기 차동 센싱 증폭기의 출력과 상기 기준 신호를 비교하는, 상기 비교기를 더 포함하는, 메모리 디바이스.
  18. 청구항 17에 있어서,
    상기 기준 신호는 코사인 유사도 컴퓨팅 임계치에 대응하여 조정가능한, 메모리 디바이스.
  19. 고체-상태 드라이브 모듈로서,
    제어기 칩;
    상기 제어기 칩에 연결되며, 청구항 1에 따른 인-메모리 컴퓨팅을 위한 상기 메모리 디바이스인 메모리 칩; 및
    상기 제어기 칩 및 상기 메모리 칩에 결합되는 인터페이스를 포함하는, 고체-상태 드라이브 모듈.
  20. 청구항 19에 있어서,
    상기 인터페이스는 DDR4 또는 DDR5인, 고체-상태 드라이브 모듈.
KR1020230042903A 2022-07-13 2023-03-31 인-메모리 컴퓨팅을 위한 메모리 디바이스 KR20240009334A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263388647P 2022-07-13 2022-07-13
US63/388,647 2022-07-13
US18/161,900 2023-01-31
US18/161,900 US20240028211A1 (en) 2022-07-13 2023-01-31 Memory device for computing in-memory

Publications (1)

Publication Number Publication Date
KR20240009334A true KR20240009334A (ko) 2024-01-22

Family

ID=89577714

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230042903A KR20240009334A (ko) 2022-07-13 2023-03-31 인-메모리 컴퓨팅을 위한 메모리 디바이스

Country Status (3)

Country Link
US (1) US20240028211A1 (ko)
JP (1) JP7480391B2 (ko)
KR (1) KR20240009334A (ko)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11600321B2 (en) 2020-03-05 2023-03-07 Silicon Storage Technology, Inc. Analog neural memory array storing synapsis weights in differential cell pairs in artificial neural network

Also Published As

Publication number Publication date
JP2024012076A (ja) 2024-01-25
US20240028211A1 (en) 2024-01-25
JP7480391B2 (ja) 2024-05-09

Similar Documents

Publication Publication Date Title
US11663457B2 (en) Neural network circuits having non-volatile synapse arrays
US10552510B2 (en) Vector-by-matrix multiplier modules based on non-volatile 2D and 3D memory arrays
US20200311512A1 (en) Realization of binary neural networks in nand memory arrays
US11568200B2 (en) Accelerating sparse matrix multiplication in storage class memory-based convolutional neural network inference
US11328204B2 (en) Realization of binary neural networks in NAND memory arrays
TWI699711B (zh) 記憶體裝置及其製造方法
US20220398438A1 (en) Compute in memory three-dimensional non-volatile nor memory for neural networks
US20200286553A1 (en) In-memory computation device with inter-page and intra-page data circuits
WO2019147522A2 (en) Neural network circuits having non-volatile synapse arrays
US11443174B2 (en) Machine learning accelerator
CN110543937A (zh) 神经网络及操作方法、神经网络信息处理系统
US20220398439A1 (en) Compute in memory three-dimensional non-volatile nand memory for neural networks with weight and input level expansions
US10249360B1 (en) Method and circuit for generating a reference voltage in neuromorphic system
CN115691613B (zh) 一种基于忆阻器的电荷型存内计算实现方法及其单元结构
JP7480391B2 (ja) インメモリコンピューティングのための記憶装置
TW202403757A (zh) 記憶體內計算用的記憶體裝置
CN117409830A (zh) 存储器内计算的存储器装置以及固态驱动模块
US11875850B2 (en) Content addressable memory device, content addressable memory cell and method for data searching with a range or single-bit data
CN111243648A (zh) 闪存单元、闪存模块以及闪存芯片
US20230367497A1 (en) Memory system, operating method and controller
CN111656371B (zh) 具有非易失性突触阵列的神经网络电路
US20230229922A1 (en) Training method, operating method and memory system
CN117275556A (zh) 多比特内容寻址存储器单元、存储阵列及操作方法