KR20220146197A

KR20220146197A - 이미지 센서 모듈 및 이의 동작 방법

Info

Publication number: KR20220146197A
Application number: KR1020210053166A
Authority: KR
Inventors: 김경영; 고상수; 김병수; 하상혁
Original assignee: 삼성전자주식회사
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2022-11-01
Also published as: CN115242990A; US20220345624A1; TW202308374A

Abstract

본 개시의 예시적 실시예에 따른 이미지 센서 모듈에 있어서, 이미지 데이터를 생성하는 이미지 센서, 상기 이미지 데이터를 저장하는 복수의 뱅크들을 구비한 메모리 뱅크와 복수의 프로세싱 소자들을 포함하는 PIM(Processor In Memory) 회로를 포함하는 메모리 및 신호 프로세서를 포함하고, 상기 메모리는, 상기 복수의 뱅크들로부터 상기 이미지 데이터를 독출하고, 상기 복수의 뱅크들에 대응하는 프로세싱 소자들을 이용하여 상기 독출한 이미지 데이터에 대한 제1 이미지 처리를 수행하고, 상기 제1 이미지 처리가 수행된 이미지 데이터를 상기 복수의 뱅크들에 저장하거나, 출력할 수 있다.

Description

이미지 센서 모듈 및 이의 동작 방법{IMAGE SENSOR MODULE AND OPERATING METHOD OF THEREOF}

본 개시의 기술적 사상은 이미지 센서 모듈 및 이의 동작 방법에 관한 것으로서, 더욱 상세하게는, 연산 처리를 수행하는 메모리를 포함하는 이미지 센서 모듈 및 이의 동작 방법에 관한 것이다.

이미지 센서(image sensor)는 대상물의 2차원적 또는 3차원적 이미지를 캡쳐(capture)하는 장치이다. 이미지 센서는 대상물로부터 반사되는 빛의 세기에 따라 반응하는 광전 변환 소자를 이용해 대상물의 이미지를 생성한다. 최근 CMOS (Complementary Metal-Oxide Semiconductor) 기술이 발전하면서, CMOS를 이용한 CMOS 이미지 센서가 널리 사용되고 있다.

최근 고품질 및 고화질의 사진, 영상 등에 대한 요구가 커짐에 따라 이미지 센서가 생성하는 이미지 데이터의 크기가 증가하고 있다. 한편, 이미지 데이터의 크기가 증가하면 원활한 연산 처리를 위해 높은 대역폭(bandwidth)이 필요로 된다.

본 개시의 기술적 사상은, 연산 처리를 수행하는 메모리를 포함하는 이미지 센서 모듈 및 이의 동작 방법을 제공하는 데 있다.

본 개시의 예시적 실시예에 따른 이미지 센서 모듈의 동작 방법은, 상기 이미지 센서를 이용하여 이미지 데이터를 획득하는 단계, 상기 이미지 데이터를 상기 메모리에 포함된 복수의 뱅크들에 저장하는 단계, 상기 메모리에 포함되며 상기 복수의 뱅크들에 대응하는 복수의 프로세싱 소자들을 이용하여, 상기 저장된 이미지 데이터에 대해 이미지 처리를 수행하는 단계 및 상기 이미지 처리된 이미지 데이터를 상기 메모리에 저장하거나, 상기 메모리로부터 출력하는 단계를 포함할 수 있다.

본 개시의 예시적 실시예에 따른 이미지 센서 모듈은, 이미지 데이터를 생성하는 이미지 센서 및 상기 이미지 데이터를 저장하는 메모리를 포함하고, 상기 메모리는, 서로 인접한 제1 뱅크 및 제2 뱅크를 구비한 메모리 뱅크, 상기 제1 뱅크에 연결된 제1 프로세싱 소자 및 상기 제2 뱅크에 연결된 제2 프로세싱 소자를 포함하는 PIM(Processor In Memory) 회로 및 상기 메모리 뱅크와 상기 PIM 회로 간의 데이터를 송수신하는 로컬 버스를 포함할 수 있다.

본 개시의 예시적 실시예에 따른 이미지 센서 모듈 및 이의 동작 방법은 연산 처리를 수행하는 메모리를 이용하여 이미지 데이터에 대한 연산 처리를 수행함으로써, 이미지 처리 동작의 연산 속도를 증가시킬 수 있다.

도 1은 본 개시의 예시적 실시예에 따른 이미지 센서 모듈을 나타내는 블록도이다.
도 2는 뉴럴 네트워크 구조의 일 예를 나타낸다.
도 3a 내지 도 3c는 본 개시의 예시적 실시예에 따른 메모리의 일부를 도시하는 블록도이다.
도 4는 본 개시의 예시적 실시예에 따른 메모리의 구조를 나타내는 블록도이다.
도 5는 본 개시의 예시적 실시예에 따른 메모리의 구조를 구체적으로 나타내는 도면이다.
도 6은 본 개시의 예시적 실시예에 따른 서로 인접한 뱅크들의 구조를 나타내는 도면이다.
도 7은 서로 인접한 이미지 영역들을 나타내는 도면이다.
도 8은 본 개시의 예시적 실시예에 따른 서로 인접한 메모리 뱅크들의 구조를 나타내는 도면이다.
도 9는 본 개시의 예시적 실시예에 따른 메모리의 일 구현 예를 나타내는 블록도이다.
도 10은 본 개시의 예시적 실시예에 따른 이미지 센서 모듈의 동작 방법을 나타내는 흐름도이다.
도 11은 이미지 센서 모듈의 분리 사시도이다.
도 12는 이미지 센서 모듈의 평면도이다.
도 13은 본 개시의 예시적 실시예에 따른 전자 장치를 나타내는 블록도이다.

이하, 첨부한 도면을 참조하여 본 개시의 실시예들에 대해 상세히 설명한다.

도 1은 본 개시의 예시적 실시예에 따른 이미지 센서 모듈을 나타내는 블록도이다.

이미지 센서 모듈(100)은 피사체에 대한 이미지를 센싱할 수 있고, 센싱된 이미지를 처리하거나 메모리에 저장할 수 있으며, 처리된 이미지를 메모리에 저장할 수 있다. 예시적 실시예에서, 이미지 센서 모듈(100)은 디지털 카메라, 디지털 캠코더, 모바일 폰, 또는 태블릿 컴퓨터, 또는 휴대용 전자 장치에 탑재될 수 있다. 휴대용 전자 장치는, 랩탑 컴퓨터, 이동 전화기, 스마트폰, 태블릿 PC, PDA(personal digital assistant), EDA(enterprise digital assistant), 디지털 스틸 카메라, 디지털 비디오 카메라, 오디오 장치, PMP(portable multimedia player), PND(personal navigation device), MP3 플레이어, 휴대용 게임 콘솔(handheld game console), e-북(e-book), 웨어러블 기기 등을 포함할 수 있다. 또한, 이미지 센서 모듈(100)은 드론(drone), 첨단 운전자 보조 시스템(Advanced Drivers Assistance System; ADAS) 등과 같은 전자 기기 또는 차량, 가구, 제조 설비, 도어, 각종 계측 기기 등에 부품으로 탑재될 수 있다.

도 1을 참조하면, 이미지 센서 모듈(100)은 이미지 센서(110), 메모리(120), 신호 프로세서(130) 및 인터페이스(140)를 포함할 수 있다. 예시적 실시예에서, 이미지 센서 모듈(100)은 복수의 반도체 칩으로 구현될 수 있다. 그러나, 이에 제한되는 것은 아니며, 이미지 센서 모듈(100)은 하나의 반도체 칩으로 구현될 수도 있다.

이미지 센서 모듈(100)은 외부의 피사체(또는 객체)를 촬영하고, 이미지 데이터를 생성할 수 있다. 이미지 센서 모듈(100)은 렌즈(LS)를 통해 입사된 피사체의 광학적 신호를 전기적 신호로 변환할 수 있는 이미지 센서(110)를 포함할 수 있다. 이미지 센서(110)는 복수의 픽셀들이 2차원적으로 배열되는 픽셀 어레이를 포함할 수 있으며, 픽셀 어레이의 복수의 픽셀들 각각에 대응하는 복수의 픽셀 값을 포함하는 이미지 데이터를 출력할 수 있다.u

픽셀 어레이는 복수의 행(row) 라인, 복수의 열(column) 라인 및 각각이 행 라인과 열 라인에 접속되며 매트릭스 형태로 배치된 복수의 픽셀을 포함할 수 있다. 복수의 픽셀 각각은 적어도 하나의 광전 변환 소자(또는 광 감지 소자라고 함)를 포함할 수 있으며. 광전 변환 소자는 빛을 감지하고, 감지된 빛을 광전하로 변환할 수 있다. 예를 들어, 광전 변환 소자는 무기 포토(photo) 다이오드, 유기 포토 다이오드, 페로브 스카이트 포토 다이오드, 포토 트랜지스터, 포토 게이트 또는 핀드 포토 다이오드(pinned photodiode) 등과 같이, 유기 물질 또는 무기 물질로 구성되는 광 감지 소자일 수 있다. 실시예에 있어서, 복수의 픽셀들 각각은 복수의 광전 변환 소자를 포함할 수 있다.

픽셀 어레이의 복수의 픽셀들 각각은 복수의 기준 컬러 중 적어도 하나의 컬러의 광 신호를 감지할 수 있다. 예를 들어, 복수의 기준 컬러들은 레드(red), 그린(green), 및 블루(blue) 또는 레드, 그린, 블루 및 화이트(white)를 포함할 수 있으며, 이 외의 다른 컬러를 포함할 수도 있다. 예를 들어, 복수의 기준 컬러들은 시안(cyan), 옐로우(yellow), 그린(green), 마젠타(magenta)를 포함할 수 있다. 픽셀 어레이는 복수의 픽셀들 각각의 기준 컬러에 대한 정보를 포함하는 픽셀 신호들을 생성할 수 있다.

복수의 픽셀의 상부에는 특정 스펙트럼 영역의 빛을 투과시키기 위한 컬러 필터 어레이가 배치될 수 있으며, 복수의 픽셀 각각의 상부에 배치된 컬러 필터에 따라 해당 픽셀이 감지할 수 있는 색상이 결정될 수 있다. 그러나, 이에 제한되는 것은 아니며, 실시예에 있어서, 특정 광전 변환 소자의 경우, 광전 변환 소자에 인가되는 전기 신호의 레벨에 따라서, 특정 파장대역의 빛을 전기적 신호로 변환할 수도 있다.

예시적 실시예에서, 이미지 센서(110)가 생성한 이미지 데이터는 픽셀 어레이로부터 출력되는 복수의 픽셀 신호들이 디지털-아날로그 변환된 복수의 픽셀 값들을 포함하는 원본 이미지 데이터(row image data) 또는 원본 이미지 데이터에 대하여 전처리(pre-processing)가 수행된 이미지 데이터를 포함할 수 있다. 예시적 실시예에서, 이미지 센서(110)는 픽셀 어레이를 제어하고, 픽셀 어레이로부터 수신된 픽셀 신호들을 픽셀 값들로 변환하기 위한 구동 및 독출 회로를 포함할 수 있다. 예를 들어, 구동 및 독출 회로는 로우 드라이버, 리드아웃 회로, 램프 신호 생성기, 타이밍 컨트롤러 등을 포함할 수 있다. 구동 및 독출 회로는 수신된 픽셀 신호들에 대응하는 픽셀 값들을 포함하는 원본 이미지 데이터를 생성할 수 있다. 예시적 실시예에서, 이미지 센서(110)는 원본 이미지 데이터에 대하여 전처리를 수행하는 처리 로직을 추가적으로 포함할 수도 있다. 이미지 센서(110)는 원본 이미지 데이터 또는 전처리가 수행된 이미지 데이터를 메모리(120) 또는 신호 프로세서(130)로 전송할 수 있다.

메모리(120)는 메모리 뱅크(122), PIM (Processor In Memory) 회로(124) 및 제어 로직(126)을 포함할 수 있다. 메모리 뱅크(122)는 복수의 뱅크들(Bank1~BankN)을 포함할 수 있으며, 뱅크들(Bank1~BankN) 각각은 복수의 메모리 셀들을 포함하는 메모리 셀 어레이를 구비할 수 있다. 뱅크는 다양하게 정의될 수 있으며, 일 예로서 메모리 셀들을 포함하는 구성으로 정의될 수 있고, 또는 메모리 셀들과 함께 하나 이상의 주변 회로들을 포함하는 구성으로 정의될 수도 있을 것이다.

메모리(120)는 이미지 센서(110)에 의해 생성된 이미지 데이터, 또는 신호 프로세서(130)에 의해 처리된 이미지 데이터를 저장할 수 있다. 예시적 실시예에서, 메모리 뱅크(122)는 이미지 센서(110) 또는 신호 프로세서(130)로부터 수신한 이미지 데이터를 복수의 뱅크들(Bank1~BankN) 중 적어도 하나에 저장할 수 있다. 예를 들어, 메모리 뱅크(122)는, 이미지 센서(110) 또는 신호 프로세서(130)로부터 수신한 이미지 데이터를 일정 크기로 분할하여 뱅크들(Bank1~BankN) 중 적어도 하나에 저장할 수 있다. 또한, 메모리 뱅크(122)는 이미지 센서 모듈(100)의 제어에 따라 기저장된 이미지 데이터를 독출하고, 독출한 이미지 데이터를 신호 프로세서(130) 또는 인터페이스(140)로 전송할 수 있다.

메모리(120)는 PIM 회로(124)를 이용하여 이미지 센서(110)로부터 수신한 이미지 데이터 또는 메모리(120) 내에 저장된 이미지 데이터에 대하여 연산 처리를 수행할 수 있다. 예시적 실시예에서, PIM 회로(124)는 프로세싱 소자들(processing elements, PEs)을 이용하여 다양한 종류의 이미지 처리 동작과 관련된 연산 처리를 수행할 수 있다.

예시적 실시예에서, PIM 회로(124)는 이미지 데이터에 포함된 이미지 아티팩트들(artifacts)에 대해 이미지 향상 알고리즘(Image Enhancement Algorithm)을 적용한 동작, 분류(Classification) 동작, 세분화(Segmentation) 동작 등의 다양한 이미지 처리 동작을 수행할 수 있다. 이미지 향상 알고리즘을 적용한 동작은 화이트 밸런싱(white balancing), 디노이징(denoising), 디모자이킹(demosaicking), 리모자이킹(Remosaicking), 렌즈 쉐이딩(lens shading), 및 감마 보정(gamma corrections) 등을 포함할 수 있으나 이에 제한되지 않고 다양한 이미지 처리 동작을 포함할 수 있다.

예시적 실시예에서, 전술한 이미지 처리 동작은 뉴럴 네트워크 기반의 태스크들로 구현될 수 있으며, PIM 회로(124)는 뉴럴 네트워크 기반의 연산 처리들 중 적어도 일부를 수행할 수 있다. 뉴럴 네트워크는 ANN(Artificial Neural Network), CNN(Convolution Neural Network), R-CNN(Region with Convolution Neural Network), RPN(Region Proposal Network), RNN(Recurrent Neural Network), S-DNN(Stacking-based deep Neural Network), S-SDNN(State-Space Dynamic Neural Network), Deconvolution Network, DBN(Deep Belief Network), RBM(Restricted Boltzman Machine), Fully Convolutional Network, LSTM(Long Short-Term Memory) Network, Classification Network, Plain Residual Network, Dense Network, Hierarchical Pyramid Network, Fully Convolutional Network 중 적어도 하나에 기초한 뉴럴 네트워크 모델일 수 있다. 한편, 뉴럴 네트워크 모델의 종류는 전술한 예에 한하지 않는다. PIM 회로(124)의 뉴럴 네트워크 기반의 연산 처리를 수행하는 방법은 후술하는 도 2를 참조하여 구체적으로 설명한다.

예시적 실시예에서, PIM 회로(124)의 프로세싱 소자들(PEs)은 메모리 뱅크(122)의 복수의 뱅크들(Bank1~BankN)로부터 이미지 데이터를 독출하고, 독출한 이미지 데이터에 대하여 전술한 이미지 처리 동작을 수행할 수 있다. 그리고 메모리(120)는 PIM 회로(124)를 이용하여 연산 처리를 수행한 이미지 데이터를 다시 메모리 뱅크(122)에 저장할 수 있다. 또한, 메모리(120)는 PIM 회로(124)를 이용하여 연산 처리를 수행한 이미지 데이터를 신호 프로세서(130)로 제공할 수도 있다. 또한, 메모리(120)는 연산 처리를 수행한 이미지 데이터를 인터페이스(140)를 통해 이미지 센서 모듈(100)의 외부 장치로 출력할 수 있다.

제어 로직(126)은 메모리 뱅크(122) 및 PIM 회로(124)에 대한 제어 동작을 수행할 수 있다. 예시적 실시예에서, 제어 로직(126)은 메모리(120)로 제공된 커맨드 및 어드레스에 대한 디코딩 동작을 수행할 수 있으며, 디코딩 결과에 따라 메모리 동작이 수행되도록 메모리 뱅크(122) 및 PIM 회로(124)를 제어할 수 있다. 예를 들어, 메모리(120)로 제공되는 커맨드는, 데이터의 기입/독출 등의 메모리 동작과 관련된 커맨드와 연산 동작과 관련된 커맨드를 포함할 수 있다. 제어 로직(126)은 디코딩 결과에 따라 어드레스에 대응하는 저장 영역에 대하여 데이터를 기입/독출하는 메모리 동작을 수행하도록 메모리 뱅크(122)를 제어하거나, 어드레스에 대응하는 저장 영역에 기입된 데이터를 기초로 연산 동작을 수행하도록 PIM 회로(124)를 제어할 수 있다.

메모리(120)는 DDR SDRAM (Double Data Rate Synchronous Dynamic Random Access Memory), LPDDR (Low Power Double Data Rate) SDRAM, GDDR (Graphics Double Data Rate) SDRAM, RDRAM (Rambus Dynamic Random Access Memory) 등과 같은 동적 랜덤 억세스 메모리(Dynamic Random Access Memory, DRAM)일 수 있다. 그러나, 본 발명의 실시예들은 이에 국한될 필요가 없으며, 일 예로서 메모리 장치(200A)는 플래시(flash) 메모리, MRAM(Magnetic RAM), FeRAM(Ferroelectric RAM), PRAM(Phase change RAM) 및 ReRAM(Resistive RAM) 등의 불휘발성 메모리로 구현되어도 무방하다.

또한, 메모리(120)는 하나의 반도체 칩에 해당하거나, 또는 독립적인 인터페이스를 갖는 다수의 채널들을 포함하는 메모리 장치에서 하나의 채널에 상응하는 구성일 수도 있다. 또는, 메모리(120)는 메모리 모듈에 상응하는 구성일 수 있으며, 또는 메모리 모듈이 다수의 메모리 칩들을 포함하고 도 1의 메모리(120)는 모듈 보드 상에 장착되는 하나의 메모리 칩에 해당할 수도 있다.

신호 프로세서(130)는 이미지 센서(110) 또는 메모리(120)로부터 수신한 이미지 데이터에 대하여 연산 처리를 수행할 수 있다. 예를 들어, 신호 프로세서(130)는 중앙 처리 장치(CPU), 마이크로프로세서(Microprocessor), 또는 MCU(Micro Controller Unit)를 포함할 수 있다. 예시적 실시예에서, 신호 프로세서(130)는 다양한 종류의 이미지 처리 동작과 관련된 연산 처리를 수행할 수 있다. 예를 들어, 신호 프로세서(130)는 메모리(120)의 PIM 회로(124)와 같이, 화이트 밸런싱(white balancing), 디노이징(denoising), 디모자이킹(demosaicking), 리모자이킹(Remosaicking), 렌즈 쉐이딩(lens shading), 및 감마 보정(gamma corrections), 분류(Classification) 동작, 세분화(Segmentation) 동작 등의 다양한 이미지 처리 동작을 수행할 수 있다.

예시적 실시예에서, 신호 프로세서(130)는 메모리(120)에 의해 특정 이미지 처리 동작이 수행된 이미지 데이터를 수신하고, 수신한 이미지 데이터에 대하여 나머지 이미지 처리 동작을 수행할 수 있다. 예를 들어, 신호 프로세서(130)는 메모리(120)에 의해 디노이징이 수행된 이미지 데이터를 수신하고, 수신한 이미지 데이터에 대하여 화이트 밸런싱, 디모자이킹, 리모자이킹, 렌즈 쉐이딩, 감마 보정, 분류 동작, 세분화 동작 등 중 적어도 하나를 수행할 수 있다.

또 다른 예로, 신호 프로세서(130)는 이미지 센서(110)로부터 이미지 데이터를 수신하고, 수신한 이미지에 대하여 다양한 이미지 처리 동작을 수행할 수 있다. 그리고 신호 프로세서(130)는 처리된 이미지 데이터를 메모리(120)에 전송할 수 있다. 메모리(120)는 신호 프로세서(130)로부터 수신한 이미지 데이터를 저장할 수 있다.

이미지 센서 모듈(100)은 인터페이스(140)를 통해 이미지 데이터를 출력할 수 있다. 예시적 실시예에서, 인터페이스(140)는 메모리(120)에 저장된 이미지 데이터 또는 신호 프로세서(130)를 통해 처리된 이미지 데이터를 출력할 수 있다. 예를 들어, 인터페이스(140)는 MIPI(Mobile Industry Processor Interface)에 기반한 카메라 직렬 인터페이스(CSI; Camera Serial Interface)로 구현될 수 있다. 한편, 인터페이스(140)의 종류는 이에 제한되지 않으며, 다양한 프로토콜 규격에 따라 구현될 수 있다.

본 개시의 예시적 실시예에 따른 이미지 센서 모듈(100)은, 연산 처리를 수행하는 메모리(120)를 이용하여 연산 처리를 수행함으로써, 이미지 처리 동작의 연산 속도가 증가할 수 있다. 구체적으로, 메모리(120) 내의 메모리 뱅크(122)와 PIM 회로(124) 간의 대역폭이 일반적으로 메모리(120)와 신호 프로세서(130) 간의 대역폭보다 높으므로, 메모리(120)를 이용하여 연산 처리를 수행하면 연산 속도가 증가할 수 있다. 또한, 연산 속도가 증가하면 더 많은 레이어가 적용된 뉴럴 네트워크 연산을 동일 시간 내에 수행할 수 있으므로, 이미지 센서 모듈(100)의 연산 동작의 정확도가 개선될 수 있다.

한편, 도 1에 도시된 실시예에서 프로세싱 소자들(PEs)은 다양한 개수의 프로세싱 소자를 포함할 수 있다. 일 예로서, 각각의 프로세싱 소자가 하나의 뱅크에 대응하여 배치될 수도 있으며, 또는 각각의 프로세싱 소자가 두 개 이상의 뱅크들에 대응하여 배치될 수도 있을 것이다.

또한, 도 1에서 쉬운 이해를 위해 메모리 뱅크(122) 및 PIM 회로(124)가 구분된 것으로 도시하였지만, 본 개시는 이에 한하지 않으며, 메모리 뱅크(122) 및 PIM 회로(124) 각각의 적어도 일부는 서로 병합되는 방식으로 구현될 수 있다. 이에 대한 구체적인 설명은 도 3a 내지 도 3c에서 후술한다.

도 2는 뉴럴 네트워크 구조의 일 예를 나타낸다. 도 1의 PIM 회로(124)는 도 2의 뉴럴 네트워크(NN)의 구조의 적어도 일부의 구현에 적용될 수 있다.

도 2를 참조하면, 뉴럴 네트워크(NN)는 복수의 레이어들(L1 내지 Ln)을 포함할 수 있다. 이와 같은 멀티-레이어드 구조의 뉴럴 네트워크는 딥 뉴럴 네트워크(deep neural network; DNN) 또는 딥 러닝 구조(deep learning architecture)로 지칭될 수 있다. 복수의 레이어들(L1 내지 Ln) 각각은 선형 레이어 또는 비선형 레이어일 수 있으며, 실시예에 있어서, 적어도 하나의 레이어 및 적어도 하나의 비선형 레이어가 겹합되어 하나의 레이어로 지칭될 수도 있다. 예시적으로, 선형 레이어는 컨볼루션 레이어(convolution), 풀리 커넥티드(fully connected) 레이어를 포함할 수 있으며, 비선형 레이어는 풀링(pooling) 레이어, 액티베이션 레이어를 포함할 수 있다.

예시적으로, 제1 레이어(L1)는 컨볼루션 레이어이고, 제2 레이어(L2)는 풀링(pooling) 레이어이고, 제n 레이어(Ln)는 출력 레이어로서 풀리 커넥티드(fully connected) 레이어일 수 있다. 뉴럴 네트워크(NN)는 활성(activation) 레이어를 더 포함할 수 있으며, 다른 종류의 연산을 수행하는 레이어를 더 포함할 수 있다.

복수의 레이어들(L1 내지 Ln) 각각은 입력되는 이미지 프레임 또는 이전 레이어에서 생성된 피처 맵을 입력 피처 맵으로서 수신하고, 입력 피처 맵을 연산하여 출력 피처 맵 또는 인식 신호(REC)를 생성할 수 있다. 이때, 피처 맵은 입력 데이터의 다양한 특징이 표현된 데이터를 의미한다. 피처 맵들(FM1, FM2, FM3, FMn)은 예컨대 복수의 피처 값들을 포함하는 2차원 매트릭스 또는 3차원 매트릭스(또는 텐서(tensor)라고 함) 형태를 가질 수 있다. 피처 맵들(FM1, FM2, FM3, FMn)은 너비(W)(또는 칼럼이라고 함), 높이(H)(또는 로우라고 함) 및 깊이(D)를 가지며, 이는 좌표상의 x축, y축 및 z축에 각각 대응할 수 있다. 이때, 깊이(D)는 채널 수로 지칭될 수 있다.

제1 레이어(L1)는 제1 피처 맵(FM1)을 웨이트 맵(WM)과 컨볼루션하여 제2 피처 맵(FM2)을 생성할 수 있다. 웨이트 맵(WM)은 복수의 웨이트 값들을 포함하는 2차원 매트릭스 또는 3차원 매트릭스 형태를 가질 수 있다. 웨이트 맵(WM)은 커널로 지칭될 수 있다. 웨이트 맵(WM)은 제1 피처 맵(FM1)을 필터링할 수 있으며, 필터 또는 커널로 지칭될 수 있다. 웨이트 맵(WM)의 깊이, 즉 채널 개수는 제1 피처 맵(FM1)의 깊이, 즉 채널 개수와 동일하며, 웨이트 맵(WM)과 제1 피처 맵(FM1)의 동일한 채널끼리 컨볼루션될 수 있다. 웨이트 맵(WM)이 제1 입력 피처 맵(FM1)을 슬라이딩 윈도로하여 횡단하는 방식으로 시프트된다. 각 시프트동안, 웨이트 맵(WM)에 포함되는 웨이트들 각각이 제1 피처 맵(FM1)과 중첩된 영역에서의 모든 피처값과 곱해지고 더해질 수 있다. 제1 피처 맵(FM1)과 웨이트 맵(WM)이 컨볼루션 됨에 따라, 제2 피처 맵(FM2)의 하나의 채널이 생성될 수 있다. 도 2에는 하나의 웨이트 맵(WM)이 표시되었으나, 실질적으로는 복수개의 웨이트 맵이 제1 피처 맵(FM1)과 컨볼루션됨으로써, 제2 피처 맵(FM2)의 복수개의 채널이 생성될 수 있다. 다시 말해, 제2 피처 맵(FM2)의 채널의 수는 웨이트 맵의 개수에 대응할 수 있다.

제2 레이어(L2)는 풀링을 통해 제2 피처 맵(FM2)의 공간적 크기(spatial size)를 변경함으로써, 제3 피처 맵(FM3)을 생성할 수 있다. 풀링은 샘플링 또는 다운-샘플링으로 지칭될 수 있다. 2차원의 풀링 윈도우(PW)가 풀링 윈도우(PW)의 사이즈 단위로 제2 피처 맵(FM2) 상에서 쉬프트되고, 풀링 윈도우(PW)와 중첩되는 영역의 피처값들 중 최대값(또는 피처값들의 평균값)이 선택될 수 있다. 이에 따라, 제2 피처 맵(FM2)으로부터 공간적 사이즈가 변경된 제3 피처 맵(FM3)이 생성될 수 있다. 제3 피처 맵(FM3)의 채널과 제2 피처 맵(FM2)의 채널 개수는 동일하다.

제n 레이어(Ln)는 제n 피처 맵(FMn)의 피처들을 조합하여 입력 데이터의 클래스(class)(CL)를 분류할 수 있다. 또한, 클래스에 상응하는 인식 신호(REC)를 생성할 수 있다. 한편 뉴럴 네트워크(NN)의 구조는 전술한 예에 한하지 않으며, 뉴럴 네트워크(NN)는 복수의 레이어들(L1 내지 Ln)의 일부가 생략되거나, 별도의 레이어가 추가되도록 구현될 수 있음은 물론이다.

본 개시의 예시적 실시예에 따르면, 도 1의 PIM 회로(124)의 프로세싱 소자들(PEs)은 뉴럴 네트워크(NN)의 컨볼루션 레이어, 풀리 커넥티드 레이어, 풀링 레이어, 액티베이션 레이어 중 적어도 하나를 구현할 수 있다. 예를 들어, PIM 회로(124)의 일부 프로세싱 소자들은 복수의 뱅크들(Bank1~BankN)로부터 독출된 이미지 데이터에 대하여 컨볼루션 연산을 수행하고, PIM 회로(124)의 또 다른 프로세싱 소자들은 컨볼루션 결과에 대하여 풀링 연산을 수행하도록 구현될 수 있다.

도 3a 내지 도 3c는 본 개시의 예시적 실시예에 따른 메모리의 일부를 도시하는 블록도이다. 도 3a 내지 도 3c의 메모리(200, 200a, 200b)는 도 1의 메모리(120)에 대응할 수 있다.

먼저 도 3a를 참조하면, 메모리(200)는 뱅크 그룹(210), 프로세싱 소자 그룹(220) 및 로컬 버스(230)를 포함한다. 예시적 실시예에서, 뱅크 그룹(210)은 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4)를 포함하고, 프로세싱 소자 그룹(220)은 상기 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4) 각각에 대응하는 제1 프로세싱 소자(PE1) 내지 제4 프로세싱 소자(PE4)를 포함한다. 또한, 프로세싱 소자 그룹(220)은 뱅크 그룹(210)에 독립적인 제5 프로세싱 소자(PE5)를 더 포함할 수 있다.

예시적 실시예에서, 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4), 및 제1 프로세싱 소자(PE1) 내지 제4 프로세싱 소자(PE4)는 대응 관계에 따라 서로 연결될 수 있다. 예를 들어, 도 3a를 참조하면, 제1 뱅크(Bank1) 및 제1 프로세싱 소자(PE1)는 서로 연결되고, 제2 뱅크(Bank2) 및 제2 프로세싱 소자(PE2)는 서로 연결되고, 제3 뱅크(Bank3) 및 제3 뱅크(Bank3) 및 제3 프로세싱 소자(PE3)는 서로 연결되고, 제4 뱅크(Bank4) 및 제4 프로세싱 소자(PE4)는 서로 연결될 수 있다.

메모리(200)의 저장 동작에서, 뱅크 그룹(210)은 로컬 버스(230)를 통해 전송된 데이터를 저장할 수 있다. 예시적 실시예에서, 메모리(200)는 도 1의 이미지 센서(110)로부터 이미지 데이터를 수신하고, 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4) 중 적어도 하나는 이미지 데이터의 적어도 일부를 저장할 수 있다. 예를 들어, 이미지 데이터는 기설정된 크기로 분할되어 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4) 중 적어도 하나에 저장될 수 있다.

메모리(200)의 연산 동작에서, 프로세싱 소자 그룹(220)의 프로세싱 소자들 중 일부(예컨대, 제1 프로세싱 소자(PE1) 내지 제4 프로세싱 소자(PE4))는 뱅크 그룹(210) 중 대응하는 뱅크에 저장된 데이터를 기초로 연산 동작을 수행할 수 있다. 이때, 제1 프로세싱 소자(PE1) 내지 제4 프로세싱 소자(PE4)는 병렬적으로 연산 동작을 수행할 수 있다. 비제한적인 예로, 제1 프로세싱 소자(PE1) 내지 제4 프로세싱 소자(PE4)들은 대응하는 뱅크에 저장된 이미지 데이터를 기초로 뉴럴 네트워크 연산 중 컨볼루션 연산을 수행할 수 있다.

예를 들어, 도 3a를 참조하면, 제1 프로세싱 소자(PE1)는 제1 뱅크(Bank1)에 저장된 데이터를 기초로 연산 동작을 수행하고, 제2 프로세싱 소자(PE2)는 제2 뱅크(Bank2)에 저장된 데이터를 기초로 연산 동작을 수행하고, 제3 프로세싱 소자(PE3)는 제3 뱅크(Bank3)에 저장된 데이터를 기초로 연산 동작을 수행하고, 제4 프로세싱 소자(PE4)는 제4 뱅크(Bank4)에 저장된 데이터를 기초로 연산 동작을 수행할 수 있다.

예시적 실시예에서, 프로세싱 소자 그룹(220) 중 뱅크 그룹(210)에 독립적인 프로세싱 소자(예컨대, 제5 프로세싱 소자(PE5))는 전술한 프로세싱 소자들의 연산 결과를 기초로 연산 동작을 수행할 수 있다. 비제한적인 예로, 제5 프로세싱 소자(PE5)는 제1 프로세싱 소자(PE1) 내지 제4 프로세싱 소자(PE4)의 연산 결과를 기초로 뉴럴 네트워크 연산 중 풀링 연산을 수행할 수 있다. 제5 프로세싱 소자(PE5)는 로컬 버스(230)를 통해 제1 프로세싱 소자(PE1) 내지 제4 프로세싱 소자(PE4)의 연산 결과를 수신하고, 수신한 연산 결과들을 기초로 풀링 연산을 수행할 수 있다.

예시적 실시예에서, 프로세싱 소자 그룹(220)의 연산 결과들은 뱅크 그룹(210)에 저장될 수 있다. 예를 들어, 제1 프로세싱 소자(PE1) 내지 제4 프로세싱 소자(PE4)의 연산 결과는 대응하는 뱅크에 저장될 수 있다. 또한, 제5 프로세싱 소자(PE5)의 연산 결과는 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4) 중 적어도 하나에 저장될 수 있다.

한편, 프로세싱 소자 그룹(220)의 연산 결과의 저장 위치는 전술한 예에 한하지 않으며, 프로세싱 소자와 뱅크의 대응 관계와 독립적으로 설정될 수 있다. 예를 들어, 제1 프로세싱 소자(PE1)의 연산 결과는 로컬 버스(230)를 통해 제2 뱅크(Bank2)로 전송되어 저장될 수 있다.

도 3b를 참조하면, 메모리(200a)는 뱅크 그룹(210a), 프로세싱 소자 그룹(220a) 및 로컬 버스(230a)를 포함한다. 예시적 실시예에서, 뱅크 그룹(210a)은 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4)를 포함하고, 프로세싱 소자 그룹(220a)은 상기 제1 뱅크(Bank1) 내지 제3 뱅크(Bank3) 각각에 대응하는 제1 프로세싱 소자(PE1) 내지 제3 프로세싱 소자(PE3)를 포함한다. 또한, 프로세싱 소자 그룹(220a)은 뱅크 그룹(210a)에 독립적인 제4 프로세싱 소자(PE4)를 더 포함할 수 있다. 이하에서는, 도 3b에 대한 설명 중 도 3a의 설명과 중복되는 설명은 생략한다.

메모리(200a)의 저장 동작에서, 뱅크 그룹(210a)은 로컬 버스(230a)를 통해 전송된 데이터를 저장할 수 있다. 예시적 실시예에서, 메모리(200a)는 도 1의 이미지 센서(110)로부터 이미지 데이터를 수신하고, 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4) 중 적어도 하나는 이미지 데이터의 적어도 일부를 저장할 수 있다. 예를 들어, 이미지 데이터는 기설정된 크기로 분할되어 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4) 중 적어도 하나에 저장될 수 있다.

메모리(200a)의 연산 동작에서, 프로세싱 소자 그룹(220a)의 프로세싱 소자들 중 일부(예컨대, 제1 프로세싱 소자(PE1) 내지 제3 프로세싱 소자(PE3))는 뱅크 그룹(210a) 중 대응하는 뱅크에 저장된 데이터를 기초로 연산 동작을 수행할 수 있다. 이때, 제1 프로세싱 소자(PE1) 내지 제3 프로세싱 소자(PE3)는 병렬적으로 연산 동작을 수행할 수 있다. 비제한적인 예로, 제1 프로세싱 소자(PE1) 내지 제3 프로세싱 소자(PE3)들은 대응하는 뱅크에 저장된 이미지 데이터를 기초로 뉴럴 네트워크 연산 중 컨볼루션 연산을 수행할 수 있다.

예시적 실시예에서, 도 3b의 프로세싱 소자 그룹(220a)은 제4 뱅크(Bank4)에 대응하는 프로세싱 소자를 포함하지 않으나, 제4 뱅크(Bank4)에 저장된 데이터는 로컬 버스(230a)를 통해 프로세싱 소자 그룹(220a)에 전송될 수 있다. 그리고 프로세싱 소자 그룹(220a)은 로컬 버스(230a)를 통해 수신한 제4 뱅크(Bank4)의 데이터를 기초로 연산 동작을 수행할 수 있다.

예를 들어, 도 3a를 참조하면, 제1 프로세싱 소자(PE1) 내지 제3 프로세싱 소자(PE3) 중 제1 프로세싱 소자(PE1)는 제4 뱅크(Bank4)에 저장된 이미지 데이터를 기초로 뉴럴 네트워크 연산 중 컨볼루션 연산을 수행할 수 있다. 구체적으로, 제4 뱅크(Bank4)에 저장된 타겟 이미지 데이터는 로컬 버스(230a)를 통해 제1 프로세싱 소자(PE1)에 연결된 제1 뱅크(Bank1)로 전송되어 저장될 수 있다. 그리고 제1 프로세싱 소자(PE1)는 제1 뱅크(Bank1)로부터 독출된 타겟 이미지 데이터에 대해 연산 동작을 수행할 수 있다. 또한, 실시예에 따라, 제4 뱅크(Bank4)에 저장된 타겟 이미지 데이터는 제1 뱅크(Bank1)로의 전송 및 저장과 제1 뱅크(Bank1)로부터의 독출 없이, 로컬 버스(230a)를 통해 제1 프로세싱 소자(PE1)로 전송될 수 있다. 그리고 제1 프로세싱 소자(PE1)는 로컬 버스(230a)를 통해 수신한 타겟 이미지 데이터에 대해 연산 동작을 수행할 수 있다.

즉, 도 3b의 실시예에 따른 프로세싱 소자들은 대응하는 뱅크에 저장된 데이터를 기초로 연산 동작을 수행할 수 있을 뿐만 아니라, 대응하지 않는 뱅크에 저장된 데이터를 로컬 버스(230a)를 통해 수신하고, 수신한 데이터를 기초로 연산 동작을 수행할 수 있다. 이에 따라, 프로세싱 소자 그룹(220a)이 적은 개수의 프로세싱 소자를 포함하더라도 뱅크 그룹(210a)에 저장된 데이터들에 대하여 컨볼루션 연산을 수행할 수 있다.

상기와 같은 컨볼루션 연산을 수행하기 위해, 도 1의 제어 로직(126)은 어드레스 정보와 연산 순서 정보를 기초로 도 1의 메모리 뱅크(122)와 도 1의 PIM 회로(124)를 제어할 수 있다. 예를 들어, 제어 로직(126)은 제4 뱅크(Bank4)의 어드레스 정보를 기초로 제4 뱅크(Bank4)로부터 제4 이미지 데이터를 독출하고, 독출한 제4 이미지 데이터를 제1 프로세싱 소자(PE1)로 전송할 수 있다. 이때, 제1 프로세싱 소자(PE1)는 제1 뱅크(Bank1)로부터 독출된 제1 이미지 데이터에 대한 연산 처리도 수행하도록 설정될 수 있다. 따라서, 제어 로직(126)은 연산 순서 정보에 따라 제1 뱅크(Bank1)로부터 독출된 제1 이미지 데이터에 대한 연산 처리가 수행되기 전 또는 후에 제4 이미지 데이터를 제1 프로세싱 소자(PE1)로 전송하고, 제1 프로세싱 소자(PE1)가 제4 이미지 데이터에 대한 연산 처리를 수행하도록 제어할 수 있다.

예시적 실시예에서, 프로세싱 소자 그룹(220a)의 중 뱅크 그룹(210a)에 독립적인 프로세싱 소자(예컨대, 제4 프로세싱 소자(PE4))는 전술한 프로세싱 소자들의 연산 결과를 기초로 연산 동작을 수행할 수 있다. 비제한적인 예로, 제4 프로세싱 소자(PE4)는 제1 프로세싱 소자(PE1) 내지 제3 프로세싱 소자(PE3)의 연산 결과를 기초로 뉴럴 네트워크 연산 중 풀링 연산을 수행할 수 있다. 제4 프로세싱 소자(PE4)는 로컬 버스(230a)를 통해 제1 프로세싱 소자(PE1) 내지 제3 프로세싱 소자(PE3)의 연산 결과를 수신하고, 수신한 연산 결과들을 기초로 풀링 연산을 수행할 수 있다.

예시적 실시예에서, 프로세싱 소자 그룹(220a)의 연산 결과들은 뱅크 그룹(210a)에 저장될 수 있다. 예를 들어, 제1 프로세싱 소자(PE1) 내지 제3 프로세싱 소자(PE3)의 연산 결과는 대응하는 뱅크에 저장될 수 있다. 또는, 제1 프로세싱 소자(PE1) 내지 제3 프로세싱 소자(PE3)의 연산 결과는 로컬 버스(230a)를 통해 제4 뱅크(Bank4)로 전송되어 저장될 수 있다. 또한, 제4 프로세싱 소자(PE4)의 연산 결과는 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4) 중 적어도 하나에 저장될 수 있다.

한편, 프로세싱 소자 그룹(220a)의 연산 결과의 저장 위치는 전술한 예에 한하지 않으며, 프로세싱 소자와 뱅크의 대응 관계와 독립적으로 설정될 수 있다. 예를 들어, 제1 프로세싱 소자(PE1)의 연산 결과는 로컬 버스(230)를 통해 제2 뱅크(Bank2)로 전송되어 저장될 수 있다.

한편, 도 3a 및 도 3b에 도시된 실시예에서, 뱅크 그룹(210)에 포함된 뱅크들의 개수 및 프로세싱 소자 그룹(220)에 포함된 프로세싱 소자들의 개수는 하나의 예일뿐, 본 개시는 이에 한하지 않으며, 더 적거나 많은 개수의 뱅크들 또는 프로세싱 소자들이 포함될 수 있음은 물론이다.

또한, 도 3a 및 도 3b에 도시된 실시예에서, 메모리(200, 200a)가 풀링 연산을 수행하는 프로세싱 소자(예컨대, 도 3a의 제5 프로세싱 소자(PE5) 또는 도 3b의 제4 프로세싱 소자(PE4))를 포함하는 것으로 도시하고 설명하였지만, 본 개시는 이에 한하지 않는다. 예를 들어, 메모리(200, 200a)는 풀링 연산을 수행하는 프로세싱 소자를 포함하지 않을 수 있다.

도 3c를 참조하면, 메모리(200b)는 제1 뱅크 그룹(210_1b), 제2 뱅크 그룹(210_2b), 제1 프로세싱 소자 그룹(220_1b) 및 제2 프로세싱 소자 그룹(220_2b)을 포함할 수 있다. 예시적 실시예에서, 제1 뱅크 그룹(210_1b)은 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4)를 포함하고, 제1 프로세싱 소자 그룹(220_1b)은 상기 제1 뱅크(Bank1) 내지 제4 뱅크(Bank4) 각각에 대응하는 제1 프로세싱 소자(PE1) 내지 제4 프로세싱 소자(PE4)를 포함한다. 또한, 제2 뱅크 그룹(210_2b)은 제5 뱅크(Bank5) 내지 제8 뱅크(Bank8)를 포함하고, 제2 프로세싱 소자 그룹(220_2b)은 상기 제5 뱅크(Bank5) 내지 제8 뱅크(Bank8) 각각에 대응하는 제5 프로세싱 소자(PE5) 내지 제8 프로세싱 소자(PE8)를 포함한다. 이하에서는, 도 3c에 대한 설명 중 도 3a 및 도 3b의 설명과 중복되는 설명은 생략한다.

예시적 실시예에서, 메모리(200b)는 제1 뱅크 그룹(210_1b) 및 제1 프로세싱 소자 그룹(220_1b)이 제2 뱅크 그룹(210_2b) 및 제2 프로세싱 소자 그룹(220_2b)의 상부에 적층되는 구조를 가질 수 있다. 또한, 메모리(200b)의 각종 데이터들은 로컬 버스(230b)를 통해 제1 뱅크 그룹(210_1b), 제2 뱅크 그룹(210_2b), 제1 프로세싱 소자 그룹(220_1b) 및 제2 프로세싱 소자 그룹(220_2b)으로 전송될 수 있다.

메모리(200b)의 저장 동작에서, 제1 뱅크 그룹(210_1b) 및 제2 뱅크 그룹(210_2b)은 로컬 버스(230b)를 통해 전송된 데이터를 저장할 수 있다. 예시적 실시예에서, 메모리(200b)는 도 1의 이미지 센서(110)로부터 이미지 데이터를 수신하고, 제1 뱅크(Bank1) 내지 제8 뱅크(Bank8) 중 적어도 하나는 이미지 데이터의 적어도 일부를 저장할 수 있다. 예를 들어, 이미지 데이터는 기설정된 크기로 분할되어 제1 뱅크(Bank1) 내지 제8 뱅크(Bank8) 중 적어도 하나에 저장될 수 있다.

메모리(200b)의 연산 동작에서, 제1 프로세싱 그룹(220_1b)은 제1 뱅크 그룹(210_1b)에 저장된 데이터를 기초로 제1 연산 동작을 수행할 수 있으며, 제2 프로세싱 그룹(220_2b)은 제2 뱅크 그룹(210_2b)에 저장된 데이터를 기초로 제2 연산 동작을 수행할 수 있다. 제1 연산 동작 및 제2 연산 동작은 서로 동일하거나 상이할 수 있다.

한편, 본 개시는 이에 한하지 않으며, 제1 프로세싱 그룹(220_1b)은 로컬 버스(230b)를 통해 제2 뱅크 그룹(210_2b)에 저장된 데이터를 수신하고, 수신한 데이터를 기초로 제1 연산 동작을 수행할 수 있다. 또한, 제2 프로세싱 그룹(220_2b)은 로컬 버스(230b)를 통해 제1 뱅크 그룹(210_1b)에 저장된 데이터를 수신하고, 수신한 데이터를 기초로 제2 연산 동작을 수행할 수 있다.

또한, 실시예에 따라, 제1 프로세싱 그룹(220_1b)은 로컬 버스(230b)를 통해 제2 프로세싱 그룹(220_2b)이 수행한 제2 연산 동작의 제2 연산 결과를 수신하고, 수신한 제2 연산 결과를 기초로 제1 연산 동작을 수행할 수 있다. 또한, 제2 프로세싱 그룹(220_2b)은 로컬 버스(230b)를 통해 제1 프로세싱 그룹(220_1b)이 수행한 제1 연산 동작의 제1 연산 결과를 수신하고, 수신한 제1 연산 결과를 기초로 제2 연산 동작을 수행할 수 있다.

한편, 도 3c에 도시된 실시예에서, 메모리(200b)가 풀링 연산을 수행하는 프로세싱 소자(예컨대, 도 3a의 제5 프로세싱 소자(PE5) 또는 도 3b의 제4 프로세싱 소자(PE4))를 포함하지 않는 것으로 도시하고 설명하였지만, 본 개시는 이에 한하지 않는다. 예를 들어, 메모리(200b)는 풀링 연산을 수행하는 프로세싱 소자를 더 포함할 수 있다.

도 4는 본 개시의 예시적 실시예에 따른 메모리의 구조를 나타내는 블록도이다. 도 4의 메모리(300)는 도 1의 메모리(120), 도 3a 내지 도 3c의 메모리(200, 200a, 200b)에 대응할 수 있다. 또한, 도 4는 메모리(300)에서 서로 연결된 뱅크와 프로세싱 소자의 구조를 나타내는 블록도로, 예컨대 도 3a의 제1 뱅크(Bank1) 및 프로세싱 소자(PE1)의 구조에 적용될 수 있다.

도 4를 참조하면, 메모리(300)는 메모리 셀 어레이(310), 어드레스 버퍼(320), 로우 디코더(330), 컬럼 디코더(340), 센스 앰프(350), 입출력 게이팅 회로(360), 프로세싱 소자(370), 데이터 입출력 회로(380) 및 제어 로직(390)을 포함할 수 있다.

메모리 셀 어레이(310)는 로우들 및 칼럼들로 배열되는 매트릭스 형태로 제공되는 복수의 메모리 셀들을 포함한다. 메모리 셀 어레이(310)는 메모리 셀들과 연결되는 복수개의 워드라인(WL)들과 복수개의 비트라인(BL)들을 포함한다. 복수의 워드라인(WL)들은 메모리 셀들의 로우들과 연결되고, 복수의 비트라인(BL)들은 메모리 셀들의 칼럼들과 연결될 수 있다.

어드레스 버퍼(320)는 어드레스(ADDR)를 수신한다. 어드레스(ADDR)는 메모리 셀 어레이(310)의 로우를 어드레싱하는 로우 어드레스(RA)와 메모리 셀 어레이(310)의 칼럼을 어드레싱하는 칼럼 어드레스(CA)를 포함한다. 어드레스 버퍼(320)는 로우 어드레스(RA)를 로우 디코더(330)로 전송하고, 칼럼 어드레스(CA)를 칼럼 디코더(340)로 전송할 수 있다.

로우 디코더(330)는 메모리 셀 어레이(310)와 연결된 복수의 워드라인들(WL) 중 어느 하나를 선택할 수 있다. 로우 디코더(330)는 어드레스 버퍼(320)로부터 수신된 로우 어드레스(RA)를 디코딩하여, 로우 어드레스(RA)에 상응하는 어느 하나의 워드라인(WL)을 선택하고, 선택된 워드라인(WL)을 활성화시킬 수 있다.

칼럼 디코더(340)는 메모리 셀 어레이(310)의 복수의 비트라인들(BL) 중 소정의 비트라인들(BL)을 선택할 수 있다. 칼럼 디코더(340)는 어드레스 버퍼(320)로부터 수신된 칼럼 어드레스(CA)를 디코딩하여 칼럼 선택 신호를 발생하고, 입출력 게이팅 회로(360)를 통하여 칼럼 선택 신호에 연결된 비트라인들(BL)을 선택할 수 있다.

센스 앰프(350)는 메모리 셀 어레이(310)의 비트라인들(BL)과 연결된다. 센스 앰프(350)는 비트라인들(BL)의 전압 변화를 감지하고, 이를 증폭하여 출력한다. 센스 앰프(350)에 의해 감지 증폭된 비트라인들(BL)은 입출력 게이팅 회로(360)에 통해 선택될 수 있다.

입출력 게이팅 회로(360)는 칼럼 선택 신호에 의해 선택된 비트라인들(BL)의 독출 데이터를 저장하는 독출 데이터 래치들과, 메모리 셀 어레이(310)에 기입 데이터를 기입하기 위한 기입 드라이버를 포함할 수 있다. 독출 데이터 래치들에 저장된 데이터는 데이터 입출력 회로(380)를 통하여 데이터 패드(DQ)로 제공될 수 있다. 데이터 패드(DQ)를 통해 데이터 입출력 회로(380)로 제공된 기입 데이터는 기입 드라이버를 통하여 메모리 셀 어레이(310)에 기입될 수 있다. 데이터 패드(DQ)는 메모리(300) 내 로컬 버스(예컨대, 도 3a의 로컬 버스(230))로 연결될 수 있다.

프로세싱 소자(370)는 입출력 게이팅 회로(360) 및 데이터 입출력 회로(380)의 사이에 배치될 수 있다. 프로세싱 소자(370)는 메모리 셀 어레이(310)로부터 독출된 데이터 또는 데이터 입출력 회로(380)로부터 수신한 데이터를 기초로 연산 동작을 수행할 수 있다. 프로세싱 소자(370)는 산술 논리 연산 장치(arithmetic logic unit: ALU)일 수 있다. 프로세싱 소자(370)는 연산 결과를 메모리 셀 어레이(310)에 기입하거나, 데이터 입출력 회로(380)를 통하여 데이터 패드(DQ)로 제공할 수 있다.

제어 로직(390)은 클록(CLK) 신호 및 커맨드(CMD)를 수신하고 메모리(300)의 동작 타이밍, 메모리 동작 및/또는 연산 동작을 제어하는 제어 신호들(CTRLS)을 생성할 수 있다. 제어 로직(390)은 제어 신호들(CTRLS)을 이용하여 메모리 셀 어레이(310)로부터 데이터를 독출하고, 메모리 셀 어레이(310)에 데이터를 기입할 수 있다. 또한, 제어 로직(390)은 제어 신호들(CTRLS)을 이용하여 프로세싱 소자가 연산 처리를 수행하도록 제어할 수 있다.

한편, 도 4에 도시된 실시예에서 제어 로직(390)이 메모리(300)의 메모리 동작 및 연산 동작을 모두 제어하는 것으로 도시하고 설명하였지만, 본 개시는 이에 한하지 않는다. 예를 들어, 메모리(300)는 메모리(300)의 연산 동작을 제어하는 제어 신호들을 생성하는 별도의 구성 요소, 예컨대 프로세싱 컨트롤러를 포함할 수 있다. 예시적 실시예로, 프로세싱 컨트롤러는 프로세싱 소자(370)를 제어하는 제어 신호들을 생성할 수 있다.

또한, 도 4에 도시된 실시예에서 프로세싱 소자(370)가 포함되는 것으로 도시하고 설명하였지만, 본 개시는 이에 한하지 않는다. 예를 들어, 도 3b의 제4 뱅크(Bank4)와 같이 뱅크에 연결되는 프로세싱 소자가 없는 경우, 도 4의 실시예에서 프로세싱 소자(370)는 생략될 수 있다.

도 5는 본 개시의 예시적 실시예에 따른 메모리의 구조를 구체적으로 나타내는 도면이다. 상세하게는, 도 5는 도 4의 메모리(300)의 구조를 구체적으로 나타내는 도면이다. 이하에서는, 도 5에 대한 설명 중 도 4의 설명과 중복되는 설명은 생략한다.

도 4 및 도 5를 참조하면, 메모리(300)는 연산 동작에 관련된 다양한 구성들을 더 포함할 수 있고, 일 예로서, 프로세싱 소자(370)는 메모리 셀 어레이(310)의 복수의 비트라인들(BL1~BLK) 각각에 대응하는 산술 논리 연산 장치(ALU)를 포함할 수 있다.

산술 논리 연산 장치(ALU)는, 제1 내지 제3 곱셈 회로(MC1, MC2, MC3)와 제1 및 제2 덧셈 회로(AC1, AC2)를 포함할 수 있다. 제1 내지 제3 곱셈 회로(MC1, MC2, MC3)는 대응하는 비트라인 및 인접한 비트라인 각각으로부터 독출된 데이터들과 가중치(weight)들 간의 곱셈 연산을 수행함으로써, 복수의 곱셈 연산 결과를 출력할 수 있다.

예를 들어, 도 5를 참조하면, 제2 곱셈 회로(MC2)는 대응하는 비트라인으로부터 독출된 데이터와 제2 가중치 간의 곱셈 연산을 수행함으로써, 제2 곱셈 연산 결과를 출력할 수 있다. 제1 곱셈 회로(MC1)는 대응하는 비트라인의 왼쪽에 배치된 비트라인으로부터 독출된 데이터와 제1 가중치 간의 곱셈 연산을 수행함으로써, 제1 곱셈 연산 결과를 출력할 수 있다. 또한, 제3 곱셈 회로(MC3)는 대응하는 비트라인의 오른쪽에 배치된 비트라인으로부터 독출된 데이터와 제3 가중치 간의 곱셈 연산을 수행함으로써, 제3 곱셈 연산 결과를 출력할 수 있다. 여기서, 제1 가중치 내지 제3 가중치는 서로 동일 또는 상이할 수 있다. 또한, 대응하는 비트라인 및 인접한 비트라인으로부터 독출된 데이터는 센스 앰프(350)를 거쳐 독출 데이터 래치(Latch1)에 저장된 데이터에 해당될 수 있다.

제1 덧셈 회로(AC1)는 제1 내지 제3 곱셈 회로(MC1, MC2, MC3)의 곱셈 연산 결과들 간의 덧셈 연산을 수행함으로써, 제1 덧셈 연산 결과를 출력할 수 있다. 또한, 제2 덧셈 회로(AC2)는 제1 덧셈 연산 결과 및 대응하는 비트라인으로부터 독출한 데이터 간의 덧셈 연산을 수행함으로써, 제2 덧셈 연산 결과를 출력할 수 있다. 이때, 대응하는 비트라인으로부터 독출된 데이터는 센스 앰프(350) 및 독출 데이터 래치(Latch1)를 거치지 않고 메모리 셀 어레이(310)로부터 전송된 데이터에 해당될 수 있다.

이와 같이, 산술 논리 연산 장치(ALU)의 제1 내지 제3 곱셈 회로(MC1, MC2, MC3)와 제1 및 제2 덧셈 회로(AC1, AC2)를 이용한 연산 동작은, 대응하는 비트라인의 데이터뿐만 아니라 인접한 비트라인들의 데이터도 입력받아 연산을 수행하므로, 컨볼루션 연산에 적용될 수 있다.

데이터 입출력 회로(380)는 제2 덧셈 회로(AC2)가 출력한 제2 덧셈 연산 결과를 저장하는 연산 데이터 래치(Latch2)와, 데이터 패드(DQ)로 제공할 데이터를 선택하는 데이터 선택기(Data Selector)를 포함할 수 있다. 연산 데이터 래치(Latch2)는 제2 덧셈 회로(AC2)가 출력한 제2 덧셈 연산 결과를 저장할 수 있다. 예시적 실시예에서, 데이터 선택기(Data Selector)는 적어도 하나의 멀티 플렉서(multiplexer)를 포함할 수 있다.

한편, 도 4 및 도 5는 서로 연결된 뱅크와 프로세싱 소자의 구조를 나타내는 도면이나, 본 개시는 이에 한하지 않는다. 예를 들어, 프로세싱 소자가 연결되지 않는 뱅크(예컨대, 도 3b의 제4 뱅크(Bank4)의 경우, 도 4 및 도 5의 프로세싱 소자(370)와, 도 5의 데이터 입출력 회로(380)에 포함된 래치(Latch2)는 생략될 수 있다.

도 6은 본 개시의 예시적 실시예에 따른 서로 인접한 뱅크들의 구조를 나타내는 도면이다. 도 7은 서로 인접한 이미지 영역들을 나타내는 도면이다. 도 6의 서로 인접한 뱅크들의 구조를 설명함에 있어서, 제1 뱅크(Bank1) 및 제2 뱅크(Bank2)를 예로 들어 설명한다. 도 6의 제1 뱅크(Bank1) 및 제2 뱅크(Bank2) 각각에는 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)가 배치될 수 있다. 또한, 도 6의 제1 뱅크(Bank1) 및 제2 뱅크(Bank2)는 도 4 및 도 5에서 전술한 메모리의 구조가 적용될 수 있으므로, 도 4 및 도 5의 설명과 중복되는 설명은 생략된다.

예시적 실시예에서, 제1 뱅크(Bank1) 및 제2 뱅크(Bank2)는 하나의 이미지에 포함된 서로 인접한 이미지 영역들을 저장할 수 있다. 예를 들어, 도 7을 참조하면, 서로 인접한 제1 이미지 영역(AR1) 및 제2 이미지 영역(AR2)에 대하여, 제1 뱅크(Bank1)는 제1 이미지 영역(AR1)을 저장하고, 제2 뱅크(Bank2)는 제2 이미지 영역(AR2)을 저장할 수 있다.

그리고 제1 뱅크(Bank1)의 제1 프로세싱 소자(PE1)와 제2 뱅크(Bank2)의 제2 프로세싱 소자(PE2)는 데이터 라인(DL)을 통해 연결될 수 있다. 구체적으로, 제1 뱅크(Bank1) 및 제2 뱅크(Bank2) 각각은 복수의 산술 논리 연산 장치들(ALU1~ALUK)을 포함할 수 있으며, 서로 인접한 산술 논리 연산 장치들은 데이터 라인(DL)을 통해 연결될 수 있다.

또한, 본 개시의 예시적 실시예에 따르면, 제1 뱅크(Bank1) 및 제2 뱅크(Bank2) 각각의 복수의 산술 논리 연산 장치들(ALU1~ALUK) 중 가장자리에 배치된 산술 논리 연산 장치들은 데이터 라인(DL)을 통해 인접한 뱅크의 가장자리에 배치된 산술 논리 연산 장치와 연결될 수 있다.

도 6을 참조하면, 제1 뱅크(Bank1)의 산술 논리 장치(ALUK)와 제2 뱅크(Bank2)의 산술 논리 장치(ALU1)는 데이터 라인(DL)을 통해 연결될 수 있다. 예시적 실시예에서, 제1 뱅크(Bank1)의 산술 논리 장치(ALUK)는 데이터 라인(DL)을 통해 제2 뱅크(Bank2)의 산술 논리 장치(ALU1)에 대응하는 비트라인(BL1)의 데이터를 수신할 수 있다. 수신한 데이터는 제1 뱅크(Bank1)의 산술 논리 장치(ALUK)에 포함된 도 5의 제3 곱셈 회로(MC3)에 입력될 수 있다. 또한, 제2 뱅크(Bank2)의 산술 논리 장치(ALU1)는 데이터 라인(DL)을 통해 제1 뱅크(Bank1)의 산술 논리 장치(ALUK)에 대응하는 비트라인(BLK)의 데이터를 수신할 수 있다. 수신한 데이터는 제2 뱅크(Bank2)의 산술 논리 장치(ALU1)에 포함된 도 5의 제1 곱셈 회로(MC1)에 입력될 수 있다.

정리하면, 특정 뱅크에 포함된 복수의 산술 논리 장치들 중 가장자리에 배치된 산술 논리 장치는, 인접한 뱅크에 포함된 가장자리에 배치된 산술 논리 장치와 데이터 라인(DL)을 통해 연결될 수 있다. 구체적으로, 왼쪽(또는 오른쪽) 가장자리에 배치된 산술 논리 장치는, 왼쪽(또는 오른쪽)에 인접한 뱅크에 포함된 오른쪽(왼쪽) 가장자리에 배치된 산술 논리 장치와 데이터 라인(DL)을 통해 연결될 수 있다.

이에 따라, 도 6의 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)는 이미지 영역들의 가장자리에 대한 연산 동작(예컨대, 컨볼루션 연산 동작)을 수행할 수 있다. 예를 들어, 도 7을 참조하면, 제1 이미지 영역(AR1) 및 제2 이미지 영역(AR2)의 서로 인접한 가장자리에 해당하는 데이터들이 데이터 라인(DL)을 통해 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)에 입력될 수 있으므로, 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)는 이미지 영역들(AR1, AR2)의 가장자리에 대한 연산 동작을 수행할 수 있다.

한편, 도 6에 도시된 실시예에서, 데이터 라인(DL)이 프로세싱 소자들(PE1, PE2)의 산술 논리 장치들(ALU1~ALUK)의 사이에 형성되는 것으로 도시하고 설명하였지만, 본 개시는 이에 한하지 않는다. 예를 들어, 데이터 라인(DL)은 산술 논리 장치들(ALU1~ALUK)과 입출력 게이팅 회로의 출력 라인들에 연결되는 방식으로 구현될 수도 있다. 예를 들어, 제1 뱅크(Bank1)의 산술 논리 장치(ALUK)는 제2 뱅크(Bank2)의 입출력 게이팅 회로의 출력 라인 중 제1 비트라인(BL1)에 대응하는 출력 라인에 연결된 데이터 라인(DL)을 통해 데이터를 수신할 수 있다.

도 8은 본 개시의 예시적 실시예에 따른 서로 인접한 메모리 뱅크들의 구조를 나타내는 도면이다. 도 8은 도 6의 변형 가능한 실시예를 나타내는 도면이다. 도 8의 서로 인접한 뱅크들의 구조를 설명함에 있어서, 제1 뱅크(Bank1), 제2 뱅크(Bank2) 및 제N 뱅크(BankN)를 예로 설명한다. 도 8의 제1 뱅크(Bank1) 및 제2 뱅크(Bank2)는 도 6의 제1 뱅크(Bank1) 및 제2 뱅크(Bank2)에 대응할 수 있으며, 도 8의 제N 뱅크(BankN)에는 제N 프로세싱 소자(PEN)가 배치될 수 있다. 또한, 도 8의 제1 뱅크(Bank1), 제2 뱅크(Bank2) 및 제N 뱅크(BankN)는 도 4 및 도 5에서 전술한 메모리의 구조가 적용될 수 있으므로, 도 4 및 도 5의 설명과 중복되는 설명은 생략된다.

예시적 실시예에서, 제1 뱅크(Bank1) 및 제2 뱅크(Bank2)는 하나의 이미지에 포함된 서로 인접한 이미지 영역들을 저장할 수 있으며, 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)는 제1 뱅크(Bank1) 및 제2 뱅크(Bank2)에 저장된 이미지 영역에 대한 연산 처리를 수행할 수 있다. 또한, 제N 뱅크(BankN)는 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)의 연산 처리에 이용되는 가중치들을 저장할 수 있으며, 저장된 가중치들을 제1 뱅크(Bank1) 및 제2 뱅크(Bank2)에 제공할 수 있다.

예를 들어, 도 8을 참조하면, 제2 데이터 라인(DL2)은 제N 뱅크(BankN)의 메모리 셀 어레이(MCA)의 비트라인들(BL1~BLK)에 대응하는 라인들을 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)에 연결할 수 있다. 제N 뱅크(BankN)는 제2 데이터 라인(DL2)을 통해 제N 뱅크(BankN)의 메모리 셀 어레이(MCA)에 저장된 가중치들을 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)로 전송할 수 있다.

예시적 실시예에서, 제2 데이터 라인(DL2)은 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)에 포함된 산술 논리 연산 장치들 각각에 연결될 수 있다. 예를 들어, 제2 데이터 라인(DL2)은 도 5의 산술 논리 연산 장치(ALU)들 각각에 연결될 수 있고, 각 산술 논리 연산 장치(ALU)는 제2 데이터 라인(DL2)을 통해 수신한 가중치들을 기초로 연산 동작을 수행할 수 있다. 제2 데이터 라인(DL2)을 통해 수신되는 가중치들은, 산술 논리 연산 장치(ALU)의 제1 내지 제3 곱셈 회로(MC1, MC2, MC3)와 제1 및 제2 덧셈 회로(AC1, AC2) 중 적어도 하나의 연산 동작에 이용되는 가중치일 수 있다.

한편, 도 8에 도시된 실시예에서, 제N 뱅크(BankN)가 제2 데이터 라인(DL2)을 통해 가중치들을 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)에 전송하는 것으로 도시하고 설명하였지만, 본 개시는 이에 한하지 않는다. 예시적 실시예에서, 제2 데이터 라인(DL2)이 구비되지 않더라도, 제N 뱅크(BankN)는 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)에 가중치들을 전송할 수 있다. 예를 들어, 도 1의 제어 로직(126)은 가중치들을 독출하여 로컬 버스(예컨대, 도 3a의 로컬 버스(230))를 통해 제1 프로세싱 소자(PE1) 및 제2 프로세싱 소자(PE2)에 제공하도록 제N 뱅크(BankN)를 제어할 수 있다.

또한, 도 8에 도시된 실시예에서, 제N 뱅크(BankN)에 제N 프로세싱 소자(PEN)가 배치되는 것으로 도시되었지만, 본 개시는 이에 한하지 않으며, 제N 뱅크(BankN)에 제N 프로세싱 소자(PEN)가 배치되지 않을 수 있다.

도 9는 본 개시의 예시적 실시예에 따른 메모리의 일 구현 예를 나타내는 블록도이다.

도 9를 참조하면, 메모리(400)는 제1 내지 제4의 뱅크 그룹(410_1~410_4), 제1 내지 제4 프로세싱 소자 그룹(420_1~420_2), 제1 내지 제4 로컬 버스(430_1~430_4), 데이터 패드들(DQ), 메인 버스(440) 및 제어 로직(450)을 포함할 수 있다.

제1 내지 제4의 뱅크 그룹(410_1~410_4) 각각은 다수의 뱅크들을 포함할 수 있으며, 제1 내지 제4 프로세싱 소자 그룹(420_1~420_2) 각각은 다수의 프로세싱 소자들을 포함할 수 있다. 예시적 실시예에서, 제1 내지 제4 프로세싱 소자 그룹(420_1~420_2) 각각은 제1 내지 제4의 뱅크 그룹(410_1~410_4) 각각에 대응하여 배치될 수 있다. 또한, 제1 내지 제4 로컬 버스(430_1~430_4)는 제1 내지 제4 프로세싱 소자 그룹(420_1~420_2) 각각에 대응하여 배치될 수 있으며, 데이터 패드(DQ)를 통해 메인 버스(440)로 데이터를 송수신할 수 있다. 메인 버스(440)는 메모리(400) 내 구성 요소들 간의 데이터를 전달하기 위한 경로를 포함할 수 있다.

제어 로직(450)은 제1 내지 제4의 뱅크 그룹(410_1~410_4)으로부터 데이터를 독출하거나 데이터를 기입하기 위한 메모리 동작을 제어할 수 있다. 예시적 실시예에서, 제어 로직(450)은 기입 위치에 대응하는 어드레스를 기초로 이미지 데이터를 저장하도록 제1 내지 제4의 뱅크 그룹(410_1~410_4) 중 적어도 하나를 제어하거나, 독출 위치에 대응하는 어드레스를 기초로 이미지 데이터를 독출하도록 제1 내지 제4의 뱅크 그룹(410_1~410_4) 중 적어도 하나를 제어할 수 있다.

또한, 제어 로직(450)은 제1 내지 제4 프로세싱 소자 그룹(420_1~420_2)의 연산 동작을 제어할 수 있다. 예시적 실시예에서, 제어 로직(450)은 연산 처리의 타겟 데이터의 저장 위치에 대응하는 어드레스를 기초로 타겟 데이터를 독출하여 연산을 수행하도록 제1 내지 제4의 뱅크 그룹(410_1~410_4) 중 적어도 하나 및 제1 내지 제4 프로세싱 소자 그룹(420_1~420_2) 중 적어도 하나를 제어할 수 있다.

예시적 실시예에서, 프로세싱 소자들의 개수가 뱅크들의 개수보다 적은 경우, 대응하는 프로세싱 소자가 없는 특정 뱅크의 데이터는 제1 내지 제4 로컬 버스(LB1) 중 적어도 하나를 통해 이동하여 다른 뱅크에 대응하는 프로세싱 소자로 전송된 후, 연산 처리될 수 있다. 제어 로직(450)은 대응하는 프로세싱 소자가 없는 특정 뱅크의 데이터를 버스를 통해 다른 뱅크에 대응하는 프로세싱 소자로 전송하도록 뱅크 그룹을 제어할 수 있고, 데이터를 수신한 프로세싱 소자가 연산을 수행하도록 프로세싱 소자를 제어할 수 있다.

예시적 실시예에서, 제1 내지 제4의 뱅크 그룹(410_1~410_4) 중 일부는 개별적인 프레임에 대응하는 이미지 데이터를 저장하도록 설정될 수 있다. 예를 들어, 메모리(400)가 3개의 프레임에 대응하는 이미지 데이터를 이용하는 이미지 처리 동작(예컨대, 디노이징 동작)을 수행하는 경우, 제어 로직(450)은 제1 프레임에 대응하는 이미지 데이터를 저장하도록 제1 뱅크 그룹(410_1)을 제어하고, 제2 프레임에 대응하는 이미지 데이터를 저장하도록 제2 뱅크 그룹(410_2)을 제어하고, 제3 프레임에 대응하는 이미지 데이터를 저장하도록 제3 뱅크 그룹(410_3)을 설정될 수 있다. 그리고 제어 로직(450)은 제1 내지 제3 프레임에 대응하는 이미지 데이터를 이용하여 연산 동작을 수행하도록 제1 내지 제3 프로세싱 소자 그룹(420_1~420_3)을 제어할 수 있다.

또한, 제1 내지 제4의 뱅크 그룹(410_1~410_4) 중 일부는 뉴럴 네트워크 연산에 이용되는 가중치들을 저장하도록 설정될 수 있다. 예를 들어, 제4 뱅크 그룹(410_4)은 제1 내지 제3 프로세싱 소자 그룹(420_1~420_3)의 연산 동작에 적용되는 가중치들을 저장할 수 있다. 제어 로직(450)은 제4 뱅크 그룹(410_4)에 저장된 가중치들을 독출하여 제1 내지 제3 프로세싱 소자 그룹(420_1~420_3)으로 전송하도록 제4 뱅크 그룹(410_4)을 제어하고, 수신한 가중치들을 기초로 연산 처리를 수행하도록 제1 내지 제3 프로세싱 소자 그룹(420_1~420_3)을 제어할 수 있다.

한편, 본 개시는 이에 한하지 않고, 하나의 뱅크 그룹이 연산 처리의 타겟 데이터를 저장하는 뱅크와 가중치들을 저장하는 뱅크를 포함하도록 구현될 수도 있다. 또한, 도 8에 도시된 실시예에서 메모리(400)는 다양한 개수의 뱅크 그룹, 프로세싱 소자 그룹 및 로컬 버스를 포함할 수 있다.

도 10은 본 개시의 예시적 실시예에 따른 이미지 센서 모듈의 동작 방법을 나타내는 흐름도이다. 도 10의 방법은 도 1에서 설명된 이미지 센서 모듈(100)을 이용하여 수행될 수 있다.

도 1 및 도 10을 참조하면, 이미지 센서 모듈(100)은 먼저 이미지 센서(110)를 통해 이미지 데이터를 획득할 수 있다(S100). 그리고 이미지 센서 모듈(110)은 이미지 데이터를 메모리(120)에 포함된 복수의 뱅크들에 저장할 수 있다(S200). 예시적 실시예에서, 이미지 센서 모듈(110)은 하나의 이미지 데이터를 복수의 이미지 영역들로 구분하고, 구분한 복수의 이미지 영역들을 복수의 뱅크들에 저장할 수 있다. 예를 들어, 이미지 센서 모듈(110)은 이미지 데이터의 제1 이미지 영역을 제1 뱅크에 저장하고, 이미지 데이터의 제2 이미지 영역을 제2 뱅크에 저장할 수 있다.

그리고 이미지 센서 모듈(110)은 메모리 포함되며 복수의 뱅크들에 대응하는 프로세싱 소자들을 이용하여 저장된 이미지 데이터에 대해 이미지 처리 동작을 수행할 수 있다(S300). 구체적으로, 이미지 센서 모듈(110)은 복수의 뱅크들로부터 이미지 데이터를 독출하고, 복수의 뱅크들에 대응하는 프로세싱 소자들을 이용하여 독출한 이미지 데이터에 대한 연산 처리를 수행할 수 있다. 예시적 실시예에서, 이미지 센서 모듈(110)은 복수의 뱅크들에 저장된 복수의 이미지 영역들을 독출하고, 복수의 뱅크들 각각에 연결된 프로세싱 소자들을 이용하여 독출한 복수의 이미지 영역들에 대한 연산 처리를 수행할 수 있다. 예시적 실시예에서, 이미지 센서 모듈(110)이 수행하는 연산 처리는 이미지 처리 동작에 대응할 수 있으며, 뉴럴 네트워크 기반의 연산 처리들에 해당될 수 있다.

예시적 실시예에서, 이미지 센서 모듈(110)은 복수의 프로세싱 소자들 간에 연결된 데이터 라인을 통해, 복수의 이미지 영역들의 가장자리에 해당하는 데이터를 교환할 수 있다. 예를 들어, 서로 인접한 제1 프로세싱 소자 및 제2 프로세싱 소자는 데이터 라인을 통해 제1 이미지 영역의 가장자리에 해당하는 데이터와 제2 이미지 영역의 가장자리에 해당하는 데이터를 교환할 수 있다.

그리고 이미지 센서 모듈(110)은 복수의 프로세싱 소자들을 이용하여 독출한 복수의 이미지 영역들과 교환한 데이터를 기초로 이미지 처리를 수행할 수 있다. 예를 들어, 제1 프로세싱 소자는 독출한 제1 이미지 영역과, 교환을 통해 획득한 제2 이미지 영역의 가장자리에 해당하는 데이터를 기초로 이미지 처리를 수행할 수 있다. 또한, 제2 프로세싱 소자는 독출한 제2 이미지 영역과, 교환을 통해 획득한 제1 이미지 영역의 가장자리에 해당하는 데이터를 기초로 이미지 처리를 수행할 수 있다.

그리고 이미지 센서 모듈(110)은 이미지 처리된 이미지 데이터를 메모리(120)에 저장하거나, 메모리(120)로부터 출력할 수 있다(S400). 예시적 실시예에서, 이미지 센서 모듈(110)은 메모리(120)에 의해 연산 처리된 이미지 데이터를 메모리(120)에 저장할 수 있다. 또는, 이미지 센서 모듈(110)은 메모리(120)에 의해 연산 처리된 이미지 데이터를 바로 신호 프로세서(130)에 전송할 수 있다. 신호 프로세서(130)는 수신한 이미지 데이터에 대하여 추가적인 이미지 처리 동작을 수행할 수 있다. 또는, 인터페이스(140)를 통해 이미지 센서 모듈(110)의 외부로 출력할 수도 있다.

도 11은 이미지 센서 모듈의 분리 사시도이고, 도 12는 이미지 센서 모듈의 평면도이다. 도 11 및 도 12를 참조하면, 이미지 센서 모듈(100a)은 제1 칩(CH1), 제2 칩(CH2) 및 제3 칩(CH3)이 적층된 구조를 가질 수 있다. 제1 칩(CH1)에는 이미지 센서(도 1의 110)의 픽셀 어레이에 포함되는 복수의 픽셀들 각각의 픽셀 코어(예컨대, 적어도 하나의 광전 변환 소자 및 픽셀 회로)가 형성될 수 있다. 제2 칩(CH2)에는 로직 회로, 예컨대, 로우 드라이버, 리드아웃 회로, 램프 신호 생성기, 타이밍 컨트롤러 등을 포함하는 구동 및 독출 회로가 형성될 수 있다. 제3 칩(CH3)에는 메모리(도 1의 120)가 형성될 수 있다. 제1 칩(CH1), 제2 찹(CH2) 및 제3 칩(CH3)은 연결 부재를 통해 전기적으로 연결되거나 관통 비아를 통해 서로 전기적으로 연결될 수 있다. 그러나, 이에 제한되는 것은 아니며, 이미지 센서 모듈(100a)은 하나의 반도체 칩으로 구현될 수도 있다.

도 12에 도시된 바와 같이, 제1 칩(CH1), 제2 칩(CH1) 및 제3 칩(CH3)은 중심부에 배치되는 픽셀 어레이, 로직 회로 및 메모리(도 1의 120)를 각각 포함하고, 또한, 칩의 외곽에 배치되는 주변 영역을 포함할 수 있다.

제1 칩(CH1), 제2 칩(CH2) 및 제3 칩(CH3)의 주변 영역에는 제3 방향(Z 방향)으로 연장된 관통 비아들(through vias)(TV)이 배치될 수 있다. 제1 칩(CH1) 및 제2 칩(CH1)은 관통 비아들(TV)을 통해 서로 전기적으로 결합될 수 있다. 제1 칩(CH1), 제2 칩(CH2) 및 제3 칩(CH3)의 주변 영역에는 제1 방향(X 방향) 또는 제2 방향(Y 방향)으로 연장된 배선들이 형성될 수 있다.

도 13은 본 개시의 예시적 실시예에 따른 전자 장치를 나타내는 블록도이다. 도 13의 전자 장치(1000)는 디지털 카메라, 디지털 캠코더, 모바일 폰, 또는 태블릿 컴퓨터, 또는 휴대용 전자 장치로 구현될 수 있다. 휴대용 전자 장치는, 랩탑 컴퓨터, 이동 전화기, 스마트폰, 태블릿 PC, PDA(personal digital assistant), EDA(enterprise digital assistant), 디지털 스틸 카메라, 디지털 비디오 카메라, 오디오 장치, PMP(portable multimedia player), PND(personal navigation device), MP3 플레이어, 휴대용 게임 콘솔(handheld game console), e-북(e-book), 웨어러블 기기 등을 포함할 수 있다. 또한, 전자 장치(1000)는 드론(drone), 첨단 운전자 보조 시스템(Advanced Drivers Assistance System; ADAS) 등과 같은 전자 장치 또는 차량, 가구, 제조 설비, 도어, 각종 계측 기기 등에 부품으로 탑재될 수 있다. 도 13을 참조하면, 전자 장치(1000)는 어플리케이션 프로세서(1100), 카메라 모듈(1200), 워킹 메모리(1300), 스토리지(1400), 디스플레이 장치(1600), 유저 인터페이스(1700) 및 무선 송수신부(1500)를 포함할 수 있다.

어플리케이션 프로세서(1100)는 전자 장치(1000)의 전반적인 동작을 제어하며 응용 프로그램, 운영 체제 등을 구동하는 시스템 온 칩(SoC)으로 구현될 수 있다. 어플리케이션 프로세서(1100)는 카메라 모듈(1200)로부터 제공되는 이미지 데이터를 디스플레이 장치(1600)에 제공하거나 또는 스토리지(1400)에 저장할 수 있다.

도 1 내지 도 12를 참조하여 설명한 이미지 센서 모듈(100, 100a)이 카메라 모듈(1200)에 적용될 수 있다. 카메라 모듈(1200)은 연산 처리를 수행하는 메모리(1210)를 포함할 수 있으며, 메모리(1210)는 PIM 회로를 이용하여 메모리(1210)의 뱅크에 저장된 이미지 데이터에 대해 연산 처리를 수행할 수 있다.

어플리케이션 프로세서(1100)는 카메라 모듈(1200)로부터 수신된 이미지 데이터에 추가적인 이미지 처리를 수행하고, 이미지 처리된 이미지 데이터를 디스플레이 장치(1600)에 표시하거나 또는 스토리지(1400)에 저장할 수 있다.

워킹 메모리(1300)는 DRAM, SRAM 등의 휘발성 메모리 또는 FeRAM, RRAM PRAM 등의 비휘발성의 저항성 메모리로 구현될 수 있다. 워킹 메모리(1300)는 어플리케이션 프로세서(1100)가 처리 또는 실행하는 프로그램들 및/또는 데이터를 저장할 수 있다.

스토리지(1400)는 NAND 플래시, 저항성 메모리 등의 비휘발성 메모리 장치로 구현될 수 있으며, 예컨대 스토리지(1400)는 메모리 카드(MMC, eMMC, SD, micro SD) 등으로 제공될 수 있다. 스토리지(1400)는 카메라 모듈(1200)로부터 수신되는 이미지 데이터 또는 어플리케이션(1100)에서 처리 또는 생성되는 데이터를 저장할 수 있다.

유저 인터페이스(1700)는 키보드, 커튼 키 패널, 터치 패널, 지문 센서, 마이크 등 사용자 입력을 수신할 수 있는 다양한 장치들로 구현될 수 있다. 유저 인터페이스(1700)는 사용자 입력을 수신하고, 수신된 사용자 입력에 대응하는 신호를 어플리케이션 프로세서(1100)에 제공할 수 있다.

무선 송수신부(1500)는 트랜시버(1510), 모뎀(1520) 및 안테나(1530)를 포함할 수 있다.

이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 개시의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 개시의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 본 개시의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

이미지 센서 모듈에 있어서,
이미지 데이터를 생성하는 이미지 센서;
상기 이미지 데이터를 저장하는 복수의 뱅크들을 구비한 메모리 뱅크와 복수의 프로세싱 소자들을 포함하는 PIM(Processor In Memory) 회로를 포함하는 메모리; 및
신호 프로세서를 포함하고,
상기 메모리는,
상기 복수의 뱅크들로부터 상기 이미지 데이터를 독출하고, 상기 복수의 뱅크들에 대응하는 프로세싱 소자들을 이용하여 상기 독출한 이미지 데이터에 대한 제1 이미지 처리를 수행하고, 상기 제1 이미지 처리가 수행된 이미지 데이터를 상기 복수의 뱅크들에 저장하거나, 출력하는 것을 특징으로 하는 이미지 센서 모듈.
제1항에 있어서,
상기 복수의 뱅크들 중 제1 뱅크는, 상기 복수의 프로세싱 소자들 중 제1 프로세싱 소자와 연결되고,
상기 제1 프로세싱 소자는, 상기 제1 뱅크로부터 독출된 데이터를 기초로 상기 제1 이미지 처리에 대응하는 연산 처리를 수행하는 것을 특징으로 하는 이미지 센서 모듈.
제2항에 있어서,
상기 복수의 뱅크들 중 제2 뱅크는, 상기 제1 뱅크와 인접하고, 상기 복수의 프로세싱 소자들 중 제2 프로세싱 소자와 연결되고,
상기 제1 프로세싱 소자는, 상기 제2 프로세싱 소자와 데이터 라인을 통해 연결되는 것을 특징으로 하는 이미지 센서 모듈.
제3항에 있어서,
상기 제1 프로세싱 소자는, 상기 제1 뱅크로부터 독출된 데이터 및 상기 제2 뱅크로부터 독출된 데이터의 적어도 일부를 기초로 상기 제1 이미지 처리에 대응하는 연산 처리를 수행하는 것을 특징으로 하는 이미지 센서 모듈.
제4항에 있어서,
상기 제1 프로세싱 소자는,
상기 제1 뱅크의 복수의 비트라인들에 대응하는 복수의 산술 논리 연산 장치(arithmetic logic unit: ALU)들을 포함하고,
상기 제2 프로세싱 소자는,
상기 제2 뱅크의 복수의 비트라인들에 대응하는 복수의 산술 논리 연산 장치들을 포함하는 것을 특징으로 하는 이미지 센서 모듈.
제5항에 있어서,
상기 제1 프로세싱 소자의 복수의 산술 논리 연산 장치들 중 상기 제2 뱅크에 인접하게 배치된 제1 산술 논리 연산 장치는,
상기 제2 프로세싱 소자의 복수의 산술 논리 연산 장치들 중 상기 제1 뱅크에 인접하게 배치된 제2 산술 논리 연산 장치와 데이터 라인을 통해 연결되는 것을 특징으로 하는 이미지 센서 모듈.
제3항에 있어서,
상기 메모리는,
상기 복수의 뱅크들 및 상기 복수의 프로세싱 소자들 간의 데이터를 송수신하기 위한 로컬 버스를 포함하는 것을 특징으로 하는 이미지 센서 모듈.
제7항에 있어서,
상기 복수의 뱅크들 중 제3 뱅크는, 상기 복수의 프로세싱 소자들 각각에 대응하는 가중치 정보를 저장하고, 상기 가중치 정보를 상기 로컬 버스를 통해 상기 복수의 소자들 중 적어도 하나에 전송하는 것을 특징으로 하는 이미지 센서 모듈.
제7항에 있어서,
상기 메모리는, 상기 복수의 뱅크들 중 제4 뱅크에 저장된 데이터를 독출하고, 상기 독출한 데이터를 상기 로컬 버스를 통해 상기 제1 프로세싱 소자 또는 상기 제2 프로세싱 소자로 전송하는 것을 특징으로 하는 이미지 센서 모듈.
제1항에 있어서,
상기 제1 이미지 처리는,
뉴럴 네트워크(Neural Network) 기반의 연산 처리인 것을 특징으로 하는 이미지 센서 모듈.
제10항에 있어서,
상기 복수의 프로세싱 소자들은,
뉴럴 네트워크(Neural Network) 기반의 연산 처리 중 컨볼루션(convoluation) 연산 및 풀링(Pooling) 연산 중 적어도 하나를 포함하는 것을 특징으로 하는 이미지 센서 모듈.
제10항에 있어서,
상기 제1 이미지 처리는,
디노이징(Denoising), 디모자이킹(Demosaicing), 리모자이킹(Remosaicing) 중 적어도 하나인 것을 특징으로 하는 이미지 센서 모듈.
이미지 센서 및 메모리를 포함하는 이미지 센서 모듈의 동작 방법에 있어서,
상기 이미지 센서를 이용하여 이미지 데이터를 획득하는 단계;
상기 이미지 데이터를 상기 메모리에 포함된 복수의 뱅크들에 저장하는 단계;
상기 메모리에 포함되며 상기 복수의 뱅크들에 대응하는 복수의 프로세싱 소자들을 이용하여, 상기 저장된 이미지 데이터에 대해 이미지 처리를 수행하는 단계; 및
상기 이미지 처리된 이미지 데이터를 상기 메모리에 저장하거나, 상기 메모리로부터 출력하는 단계를 포함하는 동작 방법.
제13항에 있어서,
상기 복수의 뱅크들에 저장하는 단계는,
상기 이미지 데이터를 복수의 이미지 영역들로 구분하는 단계; 및
상기 복수의 이미지 영역들을 상기 복수의 뱅크들에 저장하는 단계를 포함하는 동작 방법.
제14항에 있어서,
상기 이미지 처리를 수행하는 단계는,
상기 복수의 뱅크들에 저장된 상기 복수의 이미지 영역들을 독출하는 단계; 및
상기 복수의 뱅크들 각각에 연결된 상기 복수의 프로세싱 소자들을 이용하여 독출한 상기 복수의 이미지 영역들에 대한 이미지 처리를 수행하는 단계;를 포함하는 동작 방법.
제15항에 있어서,
상기 복수의 이미지 영역들에 대한 이미지 처리를 수행하는 단계는,
상기 복수의 프로세싱 소자들 간에 연결된 데이터 라인을 통해, 상기 복수의 이미지 영역들의 가장자리에 해당하는 데이터를 교환하는 단계; 및
상기 복수의 뱅크들 각각에 연결된 상기 복수의 프로세싱 소자들을 이용하여, 독출한 상기 복수의 이미지 영역들과 교환된 데이터를 기초로 이미지 처리를 수행하는 단계를 포함하는 것을 특징으로 하는 동작 방법.
이미지 센서 모듈에 있어서,
이미지 데이터를 생성하는 이미지 센서; 및
상기 이미지 데이터를 저장하는 메모리를 포함하고,
상기 메모리는,
서로 인접한 제1 뱅크 및 제2 뱅크를 구비한 메모리 뱅크;
상기 제1 뱅크에 연결된 제1 프로세싱 소자 및 상기 제2 뱅크에 연결된 제2 프로세싱 소자를 포함하는 PIM(Processor In Memory) 회로; 및
상기 메모리 뱅크와 상기 PIM 회로 간의 데이터를 송수신하는 로컬 버스를 포함하는 것을 특징으로 하는 이미지 센서 모듈.
제17항에 있어서,
상기 메모리는,
상기 이미지 데이터 중 제1 이미지 영역을 상기 제1 뱅크에 저장하고,
상기 이미지 데이터 중 상기 제1 이미지 영역에 인접한 제2 이미지 영역을 상기 제2 뱅크에 저장하고,
상기 제1 프로세싱 소자 및 상기 제2 프로세싱 소자를 이용하여, 상기 제1 이미지 영역 및 상기 제2 이미지 영역에 대한 이미지 처리를 수행하는 것을 특징으로 하는 이미지 센서 모듈.
제18항에 있어서,
상기 제1 프로세싱 소자는,
상기 제1 뱅크의 복수의 비트라인들에 대응하는 복수의 산술 논리 연산 장치(arithmetic logic unit: ALU)들을 포함하고,
상기 제2 프로세싱 소자는,
상기 제2 뱅크의 복수의 비트라인들에 대응하는 복수의 산술 논리 연산 장치들을 포함하는 것을 특징으로 하는 이미지 센서 모듈.
제19항에 있어서,
상기 제1 프로세싱 소자의 복수의 산술 논리 연산 장치들 중 상기 제2 뱅크에 인접하게 배치된 제1 산술 논리 연산 장치는,
상기 제2 프로세싱 소자의 복수의 산술 논리 연산 장치들 중 상기 제1 뱅크에 인접하게 배치된 제2 산술 논리 연산 장치와 데이터 라인을 통해 연결되는 것을 특징으로 하는 이미지 센서 모듈.