KR20170089678A - 처리 유닛, 인-메모리 데이터 처리 장치 및 방법 - Google Patents
처리 유닛, 인-메모리 데이터 처리 장치 및 방법 Download PDFInfo
- Publication number
- KR20170089678A KR20170089678A KR1020160010215A KR20160010215A KR20170089678A KR 20170089678 A KR20170089678 A KR 20170089678A KR 1020160010215 A KR1020160010215 A KR 1020160010215A KR 20160010215 A KR20160010215 A KR 20160010215A KR 20170089678 A KR20170089678 A KR 20170089678A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- processing unit
- processing
- instruction
- unit
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4204—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
- G06F13/4234—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being a memory bus
- G06F13/4239—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being a memory bus with asynchronous protocol
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C7/00—Arrangements for writing information into, or reading information out from, a digital store
- G11C7/10—Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
- G11C7/1051—Data output circuits, e.g. read-out amplifiers, data output buffers, data output registers, data output level conversion circuits
- G11C7/106—Data output latches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/325—Power saving in peripheral device
- G06F1/3275—Power saving in memory, e.g. RAM, cache
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/16—Handling requests for interconnection or transfer for access to memory bus
- G06F13/1605—Handling requests for interconnection or transfer for access to memory bus based on arbitration
- G06F13/161—Handling requests for interconnection or transfer for access to memory bus based on arbitration with latency improvement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/40—Bus structure
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/3004—Arrangements for executing specific machine instructions to perform operations on memory
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C7/00—Arrangements for writing information into, or reading information out from, a digital store
- G11C7/10—Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
- G11C7/1072—Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers for memories with random access ports synchronised on clock signal pulse trains, e.g. synchronous memories, self timed memories
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C7/00—Arrangements for writing information into, or reading information out from, a digital store
- G11C7/10—Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
- G11C7/1006—Data managing, e.g. manipulating data before writing or reading out, data bus switches or control circuits therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Advance Control (AREA)
- Computer Hardware Design (AREA)
Abstract
처리 유닛, 인-메모리 데이터 처리 장치 및 방법이 개시된다. 본 발명에 따른 인-메모리 데이터 처리 장치는 정해진 위치에 데이터를 저장하는 메모리, 저장된 상기 데이터 중에서 연산에 사용할 데이터 셋을 선택하는 복수개의 셀렉터 유닛들, 그리고 외부로부터 순차적으로 인가받은 명령어 셋과 선택된 상기 데이터 셋을 이용하여 연산을 수행하는 복수개의 처리 유닛들을 포함한다.
Description
본 발명은 데이터 중심의 인-메모리 데이터 처리 장치 및 방법에 관한 것으로, 특히 메모리 장치의 데이터 위치를 고정하고, 메모리 장치와 연결된 처리 유닛에서 실행되는 연산 명령을 이동시키면서 데이터를 처리하는 기술에 관한 것입니다.
컴퓨터 시스템은 데이터를 처리하기 위하여 주로 고속의 프로세서를 사용하며, 오늘날 반도체 공정의 발달로 프로세서는 고속의 데이터 처리가 가능해졌다.
그러나 처리를 위하여 프로세서에 제공되는 데이터는 프로세서에 비하여 상대적으로 느린 외부의 메모리에 위치하며, 이로 인하여 프로세서에서의 데이터 처리가 지연되는 문제가 발생한다. 이러한 문제를 해결하기 위하여, 프로세서 내부에 캐쉬(Cache)를 내장하여, 외부의 느린 메모리 속도를 보완하도록 하였다.
최근에는 처리해야 하는 데이터의 절대적인 양이 증가함에 따라, 잦은 데이터 로딩으로 인한 속도 저하를 보완하기 위하여, 다층의 캐쉬 구조를 채용하고 있다. 또한, 메모리 내부에서 데이터를 처리하기 위한 데이터 처리 구조(PIM, Processing In-Memory)에 관한 연구도 활발히 진행되고 있다.
기존의 프로세서 구조 및 최근의 PIM 구조에서, 데이터를 처리하기 위해서는 데이터를 처리하는 처리 유닛으로 데이터를 이동하는 방식이 기본적으로 사용된다. 그러나 이러한 종래 기술은 데이터 처리 속도와 데이터 이동 속도 간의 차이로 인하여 문제가 발생하거나, 데이터 이동을 위하여 필요로 하는 에너지와 데이터 처리에 사용되는 에너지와의 차이로 인하여 문제가 발생할 수 있다.
반도체 기술의 발전으로 단일 명령어에서의 데이터 처리 속도는 매우 빨라졌다. 그러나 프로세서 내의 실행 유닛과 같은 데이터를 처리하는 처리 유닛으로 데이터를 이동할 때에는 상대적으로 많은 시간이 소요되며, 이로 인하여 데이터의 처리 속도가 느려진다.
예를 들어, 1GHz로 동작하는 프로세서는 1개의 명령어 처리에 1ns의 시간이 소요된다. 그러나, 프로세서의 외부에 존재하는 메모리로 버스를 통하여 데이터에 접근하는 경우 수 십ns의 시간이 소요된다. 그리고 최악의 경우 메모리 접근 속도로 데이터의 처리 성능이 저하될 수 있다.
또한, 빅 데이터(Big Data) 응용과 같이, 많은 양의 데이터를 처리하는 응용의 경우, 데이터 처리를 위하여 데이터를 처리장소인 프로세서로 옮겨야 한다. 이때 소모되는 에너지는 단일 명령어를 수행하는데 소모되는 에너지의 수 십~수 백배에 해당한다.
예를 들어, 1개의 ADD 명령어를 처리할 때는 0.64nJ의 에너지가 소비되지만, 데이터를 외부 메모리에서 내부 레지스터로 옮기기 위해서는 63.64nJ의 에너지가 필요하다.
따라서, 종래의 데이터 처리시, 데이터를 외부 메모리로부터 메모리 제어기와 버스를 통해 처리 유닛으로 옮겨서 사용하는 방식으로 인한 성능 저하 문제와 과다한 양의 에너지 사용 문제를 해결하기 위한 기술 개발이 시급하다.
본 발명의 목적은 데이터 처리를 위하여, 외부 메모리에 저장된 데이터를 버스를 통하여 처리 유닛으로 이동시킴에 따른 시간 지연 문제를 해결하고, 시간 지연으로 인한 성능 저하를 방지하여, 고속으로 데이터를 처리할 수 있도록 하는 것이다.
또한, 본 발명의 목적은 데이터 처리에 소모되는 불필요한 에너지를 절감하여, 적은 전력 소모로 많은 양의 데이터를 처리할 수 있도록 하는 것이다.
상기한 목적을 달성하기 위한 본 발명에 따른 인-메모리 데이터 처리 장치는, 정해진 위치에 데이터를 저장하는 메모리, 저장된 상기 데이터 중에서 연산에 사용할 데이터 셋을 선택하는 복수개의 셀렉터 유닛들, 그리고 외부로부터 순차적으로 인가받은 명령어 셋과 선택된 상기 데이터 셋을 이용하여 연산을 수행하는 복수개의 처리 유닛들을 포함한다.
이때, 상기 메모리는, 데이터를 저장하는 메모리 외에, 상기 셀렉터 유닛들과 상기 처리 유닛들을 포함하여 구성될 수 있다.
이때, 상기 복수개의 처리 유닛들은, 다차원 배열로 상호 연결되어 구성될 수 있다.
이때, 상기 메모리에 저장된 각각의 상기 데이터들은, 상기 처리 유닛과 상기 셀렉터 유닛을 통하여, 각각의 상기 처리 유닛으로 직접 연결될 수 있다.
이때, 상기 셀렉터 유닛의 수는, 상기 복수개의 처리 유닛들의 개수에 상응하며, 상기 복수개의 셀렉터 유닛들은 다차원 배열로 상호 연결되어 구성될 수 있다.
이때, 상기 각각의 처리 유닛들은, 상기 처리 유닛이 처리할 데이터를 선택하는 상기 셀렉터 유닛과 쌍을 이룰 수 있다.
이때, 상기 각각의 셀렉터 유닛들은, 상기 쌍을 이룬 각각의 처리 유닛들이 상기 메모리의 특정 위치에 저장된 데이터와 결합하여 쌍을 이룰 수 있다.
이때, 상기 처리 유닛과 상기 데이터의 쌍은 직렬로 연결되어, 상기 각각의 처리 유닛들에 의해 연산될 수 있다.
이때, 상기 처리 유닛의 입력은, 인접한 이전 처리 유닛으로부터 수신된 것으로, 해당 상기 처리 유닛이 수행할 연산과 데이터 지정 명령어인 이전 명령어 및 이전 처리 결과와, 상기 처리 유닛에 상응하는 상기 셀렉터 유닛으로부터 수신된 상기 데이터일 수 있다.
이때, 상기 처리 유닛의 출력은, 상기 처리 유닛이 입력받아 수행중인 명령어, 상기 명령어에 상응하는 처리 결과일 수 있다.
이때, 상기 처리 유닛들은, 상기 처리 유닛의 출력인 상기 명령어 및 상기 처리 결과를 인접한 다음 처리 유닛으로 전달하기 위하여, 공통의 클럭을 사용하거나, 비동기적 핸드쉐이킹 방식을 사용할 수 있다.
이때, 상기 처리 유닛은, 상기 연산에 사용할 데이터의 선택을 요청하는 데이터 선택 신호를 상기 처리 유닛에 상응하는 상기 셀렉터 유닛으로 출력하고, 상기 셀렉터 유닛은, 상기 처리 유닛에 상응하는 상기 데이터 셋 중에서 일부의 데이터를 선택하여 상기 처리 유닛으로 전송할 수 있다.
이때, 상기 명령어 셋은, 상기 처리 유닛으로 순차적으로 인가되며, 상기 명령어 셋에 포함된 명령어는, 하나 이상의 연산자 필드, 복수개의 피연산자 필드들, 하나 이상의 연산결과 필드로 구성될 수 있다.
또한, 처리 유닛은, 수행할 연산과 상기 연산에 사용되는 데이터를 포함하는 명령어를 디코딩하여 제어 신호를 생성하는 명령어 디코더, 상기 명령어에 상응하도록 상기 데이터를 연산하는 내부 실행 유닛, 상기 제어 신호를 이용하여, 입력된 이전 처리 유닛의 처리 결과를 사용할지 여부를 판단하는 입력 결과 셀렉터, 그리고 상기 명령어 및 상기 명령어에 상응하는 처리 결과를 전달할 다음 처리 유닛을 선택하는 출력 셀렉터를 포함한다.
이때, 상기 명령어 디코더는, 외부로부터 순차적으로 인가받은 명령어 셋 또는 인접한 이전 처리 유닛으로부터 수신된 이전 명령어를 디코딩할 수 있다.
이때, 상기 내부 실행 유닛은,
상기 처리 유닛이 수행중인 상기 명령어 및 상기 명령어에 상응하는 처리 결과를 출력할 수 있다.
이때, 상기 명령어 셋은, 하나 이상의 연산자 필드, 복수개의 피연산자 필드들, 하나 이상의 연산결과 필드로 구성된 것일 수 있다.
이때, 상기 연산자 필드는, 상기 내부 실행 유닛에서 수행할 연산의 종류를 의미하고, 상기 피연산자 필드는, 데이터 셋 중에서 연산에 필요한 데이터를 의미하며, 상기 연산결과 필드는, 상기 이전 처리 유닛의 처리 결과를 사용하여 상기 처리 유닛이 연산을 수행할지 여부를 의미하거나, 상기 처리 유닛의 연산 결과를 상기 다음 처리 유닛으로 전달할지 여부를 의미할 수 있다.
이때, 상기 처리 유닛은, 상기 데이터가 저장된 메모리 장치에 내장된 것일 수 있다.
또한, 인-메모리 데이터 처리 장치에 의해 수행되는 데이터 처리 방법은 외부로부터 순차적으로 명령어 셋을 인가받는 단계, 셀렉터 유닛을 이용하여, 정해진 위치에 데이터가 저장된 메모리에서 상기 명령어 셋에 상응하는 연산에 사용할 데이터 셋을 선택하는 단계, 그리고 복수개의 처리 유닛들을 이용하여, 상기 명령어 셋과 상기 데이터 셋에 상응하는 연산을 수행하는 단계를 포함한다.
이때, 상기 복수개의 처리 유닛들은, 다차원 배열로 상호 연결되어 구성될 수 있다.
이때, 상기 명령어 셋에 포함된 각각의 명령어들을 인접한 다음 처리 유닛으로 전달하는 단계를 더 포함할 수 있다.
본 발명에 따르면, 데이터 처리를 위하여, 외부 메모리에 저장된 데이터를 버스를 통하여 처리 유닛으로 이동시킴에 따른 시간 지연 문제를 해결하고, 시간 지연으로 인한 성능 저하를 방지하여, 고속으로 데이터를 처리할 수 있다.
또한, 본 발명은 데이터 처리에 소모되는 불필요한 에너지를 절감하여, 적은 전력 소모로 많은 양의 데이터를 처리할 수 있다.
도 1은 종래 기술에 따른 컴퓨터 연산 처리를 위한 프로세서 구조를 나타낸 도면이다.
도 2는 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일실시예에 따른 인-메모리 데이터 처리 구조를 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 처리 유닛의 명령어 전달 및 데이터 처리 흐름을 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치의 하드웨어 논리 구조를 나타낸 예시도이다.
도 6은 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치의 물리 구조를 나타낸 예시도이다.
도 7은 본 발명의 일실시예에 따른 처리 유닛의 구조를 설명하기 위한 도면이다.
도 8은 본 발명의 일실시예에 따른 셀렉터 유닛의 구조를 설명하기 위한 도면이다.
도 9는 본 발명의 일실시예에 따른 명령어 셋의 구조를 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일실시예에 따른 인-메모리 데이터 처리 구조를 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 처리 유닛의 명령어 전달 및 데이터 처리 흐름을 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치의 하드웨어 논리 구조를 나타낸 예시도이다.
도 6은 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치의 물리 구조를 나타낸 예시도이다.
도 7은 본 발명의 일실시예에 따른 처리 유닛의 구조를 설명하기 위한 도면이다.
도 8은 본 발명의 일실시예에 따른 셀렉터 유닛의 구조를 설명하기 위한 도면이다.
도 9는 본 발명의 일실시예에 따른 명령어 셋의 구조를 설명하기 위한 도면이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 종래 기술에 따른 컴퓨터 연산 처리를 위한 프로세서 구조를 나타낸 도면이다.
도 1에 도시한 바와 같이, 마이크로프로세서를 의미하는 종래의 처리 유닛(PU, Processing Unit)(10)은 명령어 메모리(Instruction Memory)(20)으로부터 처리 유닛 외부의 메모리 제어기와 명령어 버스를 통하여 순차적으로 공급되는 명령어(I1, I2, I3, ... In)의 순서에 따라, 처리 유닛 외부의 메모리 제어기와 데이터 버스를 통하여 데이터 메모리(Data Memory)(30)으로부터 복수개의 데이터 셋(D1, D2, D3, ... DN)을 읽는다.
그리고 처리 유닛(10)은 데이터 셋을 읽은 해당 시점에서의 명령어를 처리하고, 그 결과(R1, R2, R3, ... RN)를 처리 유닛 외부의 메모리 제어기와 데이터 버스를 통하여 데이터 메모리(30)에 저장한다.
예를 들어, 10번의 덧셈을 수행하고자 하는 경우, 10개의 덧셈 명령과 20개의 데이터를 필요로 한다. 각 덧셈 연산에서 2개의 데이터를 외부 메모리인 데이터 메모리(30)로부터 데이터 버스를 통하여 읽어 들여 처리 유닛(10)에서 연산하는 과정을 시간의 순서에 따라 10번 반복한다.
이때, 외부 메모리인 데이터 메모리(30)로부터 메모리 제어기와 데이터 버스를 통하여 데이터를 읽어 들이는 속도가 처리 유닛(10)에서 데이터를 연산하는 속도보다 느릴 경우, 데이터 처리는 메모리의 읽기 성능에 따라 결정되고, 이로 인하여 성능 저하가 발생한다. 또한, 데이터 메모리(30)로부터의 데이터 읽기를 빈번하게 수행하므로, 많은 에너지 소모가 발생한다.
그리고 종래의 마이크로 프로세서는 파이프라인 기반의 데이터 처리를 주로 적용하여 데이터를 처리하였다. 종래의 파이프라인 방식의 데이터 처리는 파이프라인 내의 각 처리 유닛의 처리 연산 종류와 기능이 정해진 단일 연산 기능만 수행하였다.
즉, 일련의 연산 처리 과정에 따라 정해진 기능을 가지는 복수개의 처리 유닛을 연결한 후, 파이프라인의 외부에서 처리하고자 하는 데이터를 순차적으로 인가하여 데이터를 처리하였다.
반면, 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치는 종래의 데이터 처리 방식의 문제점을 해결하기 위하여, 데이터 중심의 인-메모리 처리 방식을 적용하였다.
이하에서는 도 2 내지 도 9를 통하여, 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치에 대하여 상세하게 설명한다.
도 2는 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치의 구성을 나타낸 블록도이다.
도 2에 도시한 바와 같이, 인-메모리 데이터 처리 장치(200)는 메모리(210), 복수개의 셀렉터 유닛들(220) 및 복수개의 처리 유닛들(230)을 포함한다.
도 2의 인-메모리 데이터 처리 장치(200)를 구성하는 메모리(210), 복수개의 셀렉터 유닛들(220) 및 복수개의 처리 유닛들(230)의 상호 연결은 종래의 메모리 제어기와 이에 기반한 버스를 통하여 메모리(210)와 처리 유닛들(230)을 연결하는 방식이 아니며, 메모리(210)의 개별 데이터 비트가 셀렉터 유닛들(230)을 통하여 그에 상응하는 처리 유닛들(230)에 직접 연결되는 구조이다.
먼저, 메모리(210)는 연산을 수행하고자 하는 데이터들을 저장한다. 이때, 메모리(210)는 정해진 위치에 데이터들을 저장한다.
다음으로 복수개의 셀렉터 유닛들(220)은 각각에 상응하는 처리 유닛들(230)과 연관되어 직접 연결 되어 있는 저장된 데이터들 중에서 연산에 사용할 데이터 셋을 선택한다.
이때, 복수개의 셀렉터 유닛들(220)의 수는 복수개의 처리 유닛들(230)의 개수에 상응하며, 복수개의 셀렉터 유닛들(220)은 다차원 배열로 상호 연결되어 구성될 수 있다.
마지막으로, 복수개의 처리 유닛들(230)은 외부로부터 순차적으로 입력받은 명령어 셋과 선택된 데이터 셋을 이용하여 연산을 수행한다. 이때, 명령어 셋은 복수개의 처리 유닛들(230)로 순차적으로 인가되며, 명령어 셋에 포함된 명령어는 하나 이상의 연산자 필드, 복수개의 피연산자 필드들 및 하나 이상의 연산결과 필드로 구성될 수 있다. 그리고 복수개의 처리 유닛들(230)은 다차원 배열로 상호 연결되어 구성될 수 있다.
또한, 복수개의 처리 유닛들(230)은 각각 해당 처리 유닛이 처리할 데이터를 선택하는 셀렉터 유닛과 쌍을 이룬다. 이때, 각각의 셀렉터 유닛들(220)은 쌍을 이룬 각각의 처리 유닛들(230)이 메모리(210)의 특정 위치에 저장된 데이터와 결합하여 쌍을 이루도록 할 수 있다. 그리고 처리 유닛과 데이터 쌍은 직렬로 연결되며, 각각의 처리 유닛들에 의해 데이터가 연산된다.
즉, 처리 유닛들(230)과 셀렉터 유닛들(220)의 개별 처리 유닛-셀렉터 유닛 쌍은 해당 처리 유닛-셀렉터 유닛 쌍과 짝을 이루는 메모리(210)의 내부에 위치하는 고정된 위치의 개별 데이터와 결합된 쌍을 이루어 데이터를 처리한다.
복수개의 처리 유닛들(230)의 입력은 해당 처리 유닛과 인접한 이전 처리 유닛으로부터 수신된 이전 명령어 및 이전 처리 결과와, 해당 처리 유닛에 상응하는 셀렉터 유닛으로부터 수신된 데이터이다.
즉, 처리 유닛은 인접한 이전 처리 유닛이 이전 단위 시간에 수행한 명령어를 입력받아 해당 단위 시간에 명령어에 상응하는 연산을 수행한다. 그리고 처리 유닛은 이전 처리 유닛의 연산 결과 대신 상수를 입력받을 수도 있다.
또한, 복수개의 처리 유닛들(230)의 출력은 각각의 해당 처리 유닛이 입력받아 수행중인 명령어 및 수행중인 명령어에 상응하는 처리 결과이다.
그리고 복수개의 처리 유닛들(230)은 출력인 명령어 및 처리 결과를 인접한 다음 처리 유닛으로 전달하기 위하여, 공통의 클럭을 사용하거나, 비동기적 핸드쉐이킹 방식을 사용할 수 있다.
또한, 각각의 처리 유닛들은 연산에 사용할 데이터의 선택을 요청하는 데이터 선택 신호를 처리 유닛에 상응하는 셀렉터 유닛으로 출력하고, 셀렉터 유닛으로부터 처리 유닛에 상응하는 데이터 셋 중에서 선택된 일부의 데이터를 수신할 수 있다.
도 3은 본 발명의 일실시예에 따른 인-메모리 데이터 처리 구조를 설명하기 위한 도면이다.
도 3과 같이, 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치는 고정된 단일 연산 기능이 아닌, 범용 연산 처리가 가능한 산술 논리 처리 장치 기반의 처리 유닛(PU)를 사용한다.
인-메모리 데이터 처리 장치는 일련의 명령을 처리하기 위하여, 처리 유닛(PU)을 연산하고자 하는 데이터가 위치하는 메모리 장치에 내장되어 있다. 그리고 인-메모리 데이터 처리 장치는 데이터 셋의 크기에 상응하도록 복수개의 처리 유닛(PU)을 구비할 수 있다.
인-메모리 데이터 처리 장치는 메모리 장치에 내장되며, 메모리 장치 내의 개별 데이터는 해당되는 개별 데이터에 상응하는 처리 유닛(PU)과 쌍을 이루어 구성되며, 개별 데이터는 특정 처리 유닛(PU)과 직접 연결될 수 있다.
또한, 종래의 마이크로프로세서 및 파이프라인 장치와 달리, 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치는 데이터가 메모리 상에 정해진 위치에 저장되어 있으므로, 외부에서 데이터를 인가하는 방식이 아니라 일련의 명령어 셋을 외부에서 순차적으로 인가하는 방식으로 동작한다. 즉, 인-메모리 데이터 처리 장치는 데이터의 연산시 종래의 방식과 달리 메모리 제어기와 데이터 버스를 통하여 외부로부터 데이터를 인가 받지 않는다. 그리고 외부로부터 인가되는 각각의 명령어들은 인-메모리 데이터 처리 장치 내부의 각 처리 유닛(PU)으로 이동되면서 연산이 수행된다.
그리고 처리 유닛(PU)들은 해당 처리 유닛에서 수행하고자 하는 연산과 연산에 사용할 데이터를 지정하는 명령어(I)와 상수 또는 이전 처리 유닛의 연산 결과(R) 및 해당 처리 유닛(PU)과 쌍을 이루어 메모리의 고정된 위치에 존재하는 데이터 셋(D)을 입력받는다. 또한, 해당 처리 유닛(PU)들은 해당 처리 유닛이 이전 단위 시간에 입력받아 연산을 수행한 명령어(I)와 해당 명령어에 상응하는 연산 결과(R)를 출력한다.
데이터 처리를 위하여, 각각의 처리 유닛(PU)들은 처리하고자 하는 데이터와 쌍(PUn-Dn PAIRS)을 이룬다. 그리고 각각의 처리 유닛-데이터 쌍은 직렬로 연결되어 일련의 데이터로 처리된다.
도 3과 같이, 고정된 데이터에 일련의 연산이 반복적으로 처리되도록 하기 위하여, 각각의 처리 유닛(PU)들은 외부로부터 각 처리 유닛(PU)에서 수행해야 하는 일련의 연산 명령을 순차적으로 입력받아 처리한다.
예를 들어, 10번의 덧셈을 수행하고자 하는 경우, 처리 유닛-데이터 쌍이 직렬로 연결하여 구성된 데이터 중심 인-메모리 데이터 처리 장치는 10개의 덧셈 명령을 순차적으로 인가하여, 직렬 연결의 최종 출력으로 20개의 데이터에 대한 덧셈 결과를 출력한다.
도 4는 본 발명의 일실시예에 따른 처리 유닛의 명령어 전달 및 데이터 처리 흐름을 설명하기 위한 도면이다.
PUn-Dn PAIRS는 데이터 처리가 일어나는 처리 유닛-데이터 쌍을 의미하고, 각 단위 시간 T에 따라 인가되는 명령어에 의해 수행되는 연산의 수행 과정을 나타내었다.
도 4에 도시한 바와 같이, 첫번째 명령어인 I1이 PUn-Dn 쌍으로 인가되면, T=1의 단위 시간에, PUn-Dn 쌍은 I1에 따른 연산을 수행하고 그 결과로 I1 명령과 연산결과 R1을 출력한다.
그리고 T=2의 시간에, PUn-Dn 쌍은 새로운 명령어인 I2를 입력받아 명령을 수행하고, 동시에 PU(n-1)-D(n-1) 쌍은 이전 단계인 PUn-Dn 쌍의 출력인 I1 명령과 연산 결과 R1을 입력으로하는 D(n-1) 데이터 셋에 대한 연산을 수행한다. 이와 같이 연산을 n번의 단위 시간 동안 반복 수행하여 도4의 우측 최종 열과 같이 PU1-D1 쌍의 출력으로 모든 연산에 대한 결과가 출력된다.
즉, 도 4에 도시한 바와 같이, 인-메모리 데이터 처리 장치는 외부로부터 순차적으로 명령어 셋(I)을 인가받는 단계, 셀렉터 유닛을 이용하여 명령어 셋에 상응하는 연산에 사용할 데이터 셋(D)을 선택하는 단계, 복수개의 처리 유닛(PU)들을 이용하여 명령어 셋(I)과 데이터 셋(D)에 상응하는 연산을 수행하는 단계, 그리고 명령어 셋에 포함된 명령어들을 인접한 다음 처리 유닛(PU)으로 전달하는 단계를 수행한다.
도 5는 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치의 하드웨어 논리 구조를 나타낸 예시도이다.
본 발명의 일 실시예에 따른 인-메모리 데이터 처리 장치의 구조는 다양한 형태로 구성 및 구현될 수 있으며, 도 5와 같이 처리 유닛(511), 데이터 메모리(531) 및 추가적인 셀렉터 유닛(521)을 이용하여 인-메모리 데이터 처리 장치의 하드웨어가 구현될 수도 있다.
도 5는 처리 유닛(511)을 2차원으로 배열하여 매트릭스 연산과 같이 복잡한 연산을 수행할 수 있도록 구현한 구조이다. 도 5와 같이, 인-메모리 데이터 처리 장치는 복잡한 연산을 수행하는 경우, 사용 가능한 데이터 셋 중에서 필요한 데이터를 선택하여 연산을 수행하기 위한 셀렉터 유닛을 포함할 수 있다.
도 5에 도시한 바와 같이, 처리 계층(Processing Layer)(510)은 복수 개의 단위 처리 유닛(511)들을 2차원으로 배열한 구조를 특징으로 한다. 그리고 각 처리 유닛(511)들은 인접한 처리 유닛으로 명령어와 해당 처리 유닛의 처리 결과를 전달하여, 연산을 순차적으로 처리한다.
데이터 셀렉션 계층(Data Selection Layer)(520)은 처리 유닛 PUnm과 하나 또는 그 이상 개수의 데이터로 구성된 데이터 셋 Dnm의 사이에 위치하며, PUnm에서 사용할 데이터 셋 Dnm를 선택한다. 셀렉터 유닛(522)은 처리 유닛(511)이 복수의 오퍼랜드(데이터) 중에서 연산에 사용할 데이터를 메모리로부터 선택한다.
그리고 데이터 계층(Data Layer)(530)은 물리적인 메모리 장치로 구성된다.
도 5에서는 하나의 데이터 셋을 처리하기 위하여 처리 유닛-셀렉터 유닛-데이터 셋이 하나의 단위(PUnm-Snm-Dnm pair)를 구성하는 것으로 설명하였으나, 이에 한정되지 않는다.
도 6은 본 발명의 일실시예에 따른 인-메모리 데이터 처리 장치의 물리 구조를 나타낸 예시도이다.
도 6에 도시한 바와 같이, 인-메모리 데이터 처리 장치의 하드웨어 물리 구조는 처리 계층(610), 데이터 셀렉션 계층(620) 및 데이터 계층(630)이 적층되어 구성될 수 있다. 즉, 처리 계층(610), 데이터 셀렉션 계층(620) 및 데이터 계층(630)을 구현한 복수개의 실리콘 기판(silicon die)을 적층하여 3D stacked silicon die 형태로 구현될 수 있다.
그러나, 본 발명의 실시예에 따른 데이터 중심 인-메모리 데이터 처리 장치의 논리적 구조, 물리적 구조 및 형상은 도 5 및 도 6에 도시한 예시에 국한하지 않는다.
도 7은 본 발명의 일실시예에 따른 처리 유닛의 구조를 설명하기 위한 도면이다.
도 7에 도시한 바와 같이, 처리 계층에 위치한 임의의 처리 유닛 PUnm(700)은 이전 처리 유닛으로부터 입력된 명령어 Inm과 이전 처리 유닛의 연산 결과인 Rnm을 입력으로 전달받아 사용한다. 그리고 처리 유닛 PUnm(700)는 이전 단위 시간에서 사용한 명령어를 2차원 배치에서 인접한 다음 단계인 PUn(m+1), PU(n+1)(m+1), PU(n+1)m 중에서 어느 하나의 처리 유닛으로 전달하기 위한 명령어인 In(m+1), I(n+1)(m+1), I(n+1)m과, 연산 결과인 Rn(m+1), R(n+1)(m+1), R(n+1)m을 출력한다.
또한, 처리 유닛 PUnm(700)은 데이터 셋 Dnm에서 연산에 필요한 데이터를 선택하기 위한 신호인 DSELnm 신호를 출력하고, 입력 연산 데이터로 DAnm, DBnm을 입력받는다.
그리고 처리 유닛 PUnm(700)은 내부적으로 명령어 디코더(Instruction Decoder)(710), 내부 실행 유닛(Execution Unit)(720), 입출력 선택을 위한 RSelector(740) 및 ISelector(730-1, 730-2)를 포함한다.
처리 유닛 PUnm(700)은 입력된 명령어를 분석하고, 처리해야 하는 연산의 종류를 명시하여 실행 유닛으로 전달함으로써 데이터를 처리한다. 또한, 명령어 디코더(710)는 이전 단계 결과 선택 및 다음 단계 선택을 위한 신호를 생성한다. 그리고 입력 결과 셀렉터(RSelector)(740)는 디코더의 결과에 따라 입력되는 이전 단계의 결과를 사용할지 여부를 선택하고, 출력 셀렉터(ISelector)(730-1, 730-2)는 다음 단계에 어떤 처리 유닛으로 명령어 및 연산 결과를 전달할지를 결정한다.
또한, 명령어 디코더(710)는 데이터 셀렉션 신호인 DSELnm 신호를 생성하고, 데이터 셀렉션 계층의 Snm를 통하여 입력 연산 데이터인 DAnm, DBnm을 입력받도록 한다.
설명의 편의상, 처리 유닛이 셀렉터 유닛을 포함하는 것으로 설명하였으나, 이에 한정하지 않고, 별도의 외부 셀렉터 유닛을 사용하여 구현될 수 있다. 또한, 외부의 셀렉터 유닛을 별도로 사용하거나, 처리 유닛이 1차원으로 연결되는 경우, 또는 필요에 따라 ISelector, RSelector, DSELnm 등은 선택적으로 생략되어 구현될 수 있다.
도 8은 본 발명의 일실시예에 따른 셀렉터 유닛의 구조를 설명하기 위한 도면이다.
도 8와 같이, 셀렉터 유닛(800)은 처리 유닛(PUnm)으로부터 전달받은 DSELnm 신호를 이용하여, 연산에 사용될 데이터를 선택하여 출력한다. 즉, 셀렉터 유닛(800)은 DSELnm 신호를 이용하여 데이터 셋(Dnm)을 구성하는 D(n-1)m, Dn (m-1), Dnm, D(n+1)m, Dn (m+1) 데이터 들 중에서 연산에 사용될 데이터 DAnm, DBnm을 선택한다. 이때, 데이터 셋(Dnm)을 구성하는 데이터의 종류 및 개수는 도 8의 설명으로 제한되지 않는다.
도 9는 본 발명의 일실시예에 따른 명령어 셋의 구조를 설명하기 위한 도면이다.
도 9와 같이, 명령어 셋(900)은 하나 이상의 연산자(901), 복수개의 피연산자(OPERAND_A, OPERAND_B)(902, 903) 및 하나 이상의 연산 결과(OPERAND_C)(904)로 구성된다.
먼저, 연산자(901)는 처리 유닛 내의 실행 유닛에서 수행할 연산의 종류를 의미한다.
그리고 제1 피연산자(902) 및 제2 피연산자(903)는 실행 유닛에서 필요로 하는 메모리 내의 데이터를 의미한다. 또한, 제1 피연산자(902) 및 제2 피연산자(903)는 셀렉터 유닛을 위한 DSELnm 신호 생성에 사용된다.
마지막으로, 연산 결과(904)는 처리 유닛이 이전 단계의 출력을 사용할지 여부, 현재 처리 유닛이 다음 단계에 어느 처리 유닛으로 결과를 전달할지에 관한 정보를 의미한다. 또한, 연산 결과(904)는 처리 유닛 내의 RSelector 및 ISelector의 제어에 사용될 수 있다.
설명의 편의상 명령어 셋의 구조가 도 9와 같은 것으로 설명하였으나, 명령어 셋 내의 필드별 비트 폭, 비트별 할당 등의 방식 및 구성은 이에 한정되지 않는다.
이상에서와 같이 본 발명에 따른 처리 유닛, 인-메모리 데이터 처리 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
10: 처리 유닛
20: 명령어 메모리
30: 데이터 메모리
200: 인-메모리 데이터 처리 장치
210: 메모리
220: 복수개의 셀렉터 유닛들
230: 복수개의 처리 유닛들
510, 610: 처리 계층
511: 처리 유닛
520, 620: 데이터 셀렉션 계층
522: 셀렉터 유닛
530, 630: 데이터 계층
533: 데이터 셋
700: 처리 유닛
710: 명령어 디코더
720: 내부 실행 유닛
730: 출력 셀렉터
740: 입력 셀렉터
800: 셀렉터 유닛
801~805: 데이터 셋
900: 명령어 셋
901: 연산자 필드
902: 제1 피연산자 필드
903: 제2 피연산자 필드
904: 연산결과 필드
20: 명령어 메모리
30: 데이터 메모리
200: 인-메모리 데이터 처리 장치
210: 메모리
220: 복수개의 셀렉터 유닛들
230: 복수개의 처리 유닛들
510, 610: 처리 계층
511: 처리 유닛
520, 620: 데이터 셀렉션 계층
522: 셀렉터 유닛
530, 630: 데이터 계층
533: 데이터 셋
700: 처리 유닛
710: 명령어 디코더
720: 내부 실행 유닛
730: 출력 셀렉터
740: 입력 셀렉터
800: 셀렉터 유닛
801~805: 데이터 셋
900: 명령어 셋
901: 연산자 필드
902: 제1 피연산자 필드
903: 제2 피연산자 필드
904: 연산결과 필드
Claims (21)
- 정해진 위치에 데이터를 저장하는 메모리,
저장된 상기 데이터 중에서 연산에 사용할 데이터 셋을 선택하는 복수개의 셀렉터 유닛들, 그리고
외부로부터 순차적으로 인가받은 명령어 셋과 선택된 상기 데이터 셋을 이용하여 연산을 수행하는 복수개의 처리 유닛들
을 포함하는 인-메모리 데이터 처리 장치. - 제1항에 있어서,
상기 복수개의 처리 유닛들은,
다차원 배열로 상호 연결되어 구성된 것을 특징으로 하는 인-메모리 데이터 처리 장치. - 제1항에 있어서,
상기 메모리에 저장된 각각의 상기 데이터들은,
상기 처리 유닛과 상기 셀렉터 유닛을 통하여, 각각의 상기 처리 유닛으로 직접 연결되는 것을 특징으로 하는 인-메모리 데이터 처리 장치. - 제1항에 있어서,
상기 셀렉터 유닛의 수는, 상기 복수개의 처리 유닛들의 개수에 상응하며, 상기 복수개의 셀렉터 유닛들은 다차원 배열로 상호 연결되어 구성된 것을 특징으로 하는 인-메모리 데이터 처리 장치. - 제4항에 있어서,
상기 각각의 처리 유닛들은, 상기 처리 유닛이 처리할 데이터를 선택하는 상기 셀렉터 유닛과 쌍을 이루는 것을 특징으로 하는 인-메모리 데이터 처리 장치. - 제5항에 있어서,
상기 각각의 셀렉터 유닛들은,
상기 쌍을 이룬 각각의 처리 유닛들이 상기 메모리의 특정 위치에 저장된 데이터와 결합하여 쌍을 이루도록 하는 것을 특징으로 하는 인-메모리 데이터 처리 장치. - 제6항에 있어서,
상기 처리 유닛과 상기 데이터의 쌍은 직렬로 연결되어, 상기 각각의 처리 유닛들에 의해 연산되는 것을 특징으로 하는 인-메모리 데이터 처리 장치. - 제7항에 있어서,
상기 처리 유닛의 입력은,
인접한 이전 처리 유닛으로부터 수신된 것으로, 해당 상기 처리 유닛이 수행할 연산과 데이터 지정 명령어인 이전 명령어 및 이전 처리 결과와, 상기 처리 유닛에 상응하는 상기 셀렉터 유닛으로부터 수신된 상기 데이터인 것을 특징으로 하는 인-메모리 데이터 처리 장치. - 제8항에 있어서,
상기 처리 유닛의 출력은,
상기 처리 유닛이 입력받아 수행중인 명령어, 상기 명령어에 상응하는 처리 결과인 것을 특징으로 하는 인-메모리 데이터 처리 장치. - 제9항에 있어서,
상기 처리 유닛들은,
상기 처리 유닛의 출력인 상기 명령어 및 상기 처리 결과를 인접한 다음 처리 유닛으로 전달하기 위하여, 공통의 클럭을 사용하거나, 비동기적 핸드쉐이킹 방식을 사용하는 것을 특징으로 하는 인-메모리 데이터 처리 장치. - 제9항에 있어서,
상기 처리 유닛은, 상기 연산에 사용할 데이터의 선택을 요청하는 데이터 선택 신호를 상기 처리 유닛에 상응하는 상기 셀렉터 유닛으로 출력하고,
상기 셀렉터 유닛은, 상기 처리 유닛에 상응하는 상기 데이터 셋 중에서 일부의 데이터를 선택하여 상기 처리 유닛으로 전송하는 것을 특징으로 하는 인-메모리 데이터 처리 장치. - 제1항에 있어서,
상기 명령어 셋은, 상기 처리 유닛으로 순차적으로 인가되며,
상기 명령어 셋에 포함된 명령어는, 하나 이상의 연산자 필드, 복수개의 피연산자 필드들, 하나 이상의 연산결과 필드로 구성된 것을 특징으로 하는 인-메모리 데이터 처리 장치. - 수행할 연산과 상기 연산에 사용되는 데이터를 포함하는 명령어를 디코딩하여 제어 신호를 생성하는 명령어 디코더,
상기 명령어에 상응하도록 상기 데이터를 연산하는 내부 실행 유닛,
상기 제어 신호를 이용하여, 입력된 이전 처리 유닛의 처리 결과를 사용할지 여부를 판단하는 입력 결과 셀렉터, 그리고
상기 명령어 및 상기 명령어에 상응하는 처리 결과를 전달할 다음 처리 유닛을 선택하는 출력 셀렉터
를 포함하는 처리 유닛. - 제13항에 있어서,
상기 명령어 디코더는,
외부로부터 순차적으로 인가받은 명령어 셋 또는 인접한 이전 처리 유닛으로부터 수신된 이전 명령어를 디코딩하는 것을 특징으로 하는 단위 처리 유닛. - 제13항에 있어서,
상기 내부 실행 유닛은,
상기 처리 유닛이 수행중인 상기 명령어 및 상기 명령어에 상응하는 처리 결과를 출력하는 것을 특징으로 하는 처리 유닛. - 제14항에 있어서,
상기 명령어 셋은,
하나 이상의 연산자 필드, 복수개의 피연산자 필드들, 하나 이상의 연산결과 필드로 구성된 것을 특징으로 하는 처리 유닛. - 제16항에 있어서,
상기 연산자 필드는, 상기 내부 실행 유닛에서 수행할 연산의 종류를 의미하고,
상기 피연산자 필드는, 데이터 셋 중에서 연산에 필요한 데이터를 의미하며,
상기 연산결과 필드는, 상기 이전 처리 유닛의 처리 결과를 사용하여 상기 처리 유닛이 연산을 수행할지 여부를 의미하거나, 상기 처리 유닛의 연산 결과를 상기 다음 처리 유닛으로 전달할지 여부를 의미하는 것을 특징으로 하는 처리 유닛. - 제13항에 있어서,
상기 처리 유닛은,
상기 데이터가 저장된 메모리 장치에 내장된 것을 특징으로 하는 처리 유닛. - 인-메모리 데이터 처리 장치에 의해 수행되는 데이터 처리 방법에 있어서,
외부로부터 순차적으로 명령어 셋을 인가받는 단계,
셀렉터 유닛을 이용하여, 정해진 위치에 데이터가 저장된 메모리에서 상기 명령어 셋에 상응하는 연산에 사용할 데이터 셋을 선택하는 단계, 그리고
복수개의 처리 유닛들을 이용하여, 상기 명령어 셋과 상기 데이터 셋에 상응하는 연산을 수행하는 단계를 포함하는 데이터 처리 방법. - 제19항에 있어서,
상기 복수개의 처리 유닛들은,
다차원 배열로 상호 연결되어 구성된 것을 특징으로 하는 데이터 처리 방법. - 제20항에 있어서,
상기 명령어 셋에 포함된 각각의 명령어들을 인접한 다음 처리 유닛으로 전달하는 단계를 더 포함하는 데이터 처리 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160010215A KR20170089678A (ko) | 2016-01-27 | 2016-01-27 | 처리 유닛, 인-메모리 데이터 처리 장치 및 방법 |
US15/198,555 US20170213581A1 (en) | 2016-01-27 | 2016-06-30 | Processing unit, in-memory data processing apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160010215A KR20170089678A (ko) | 2016-01-27 | 2016-01-27 | 처리 유닛, 인-메모리 데이터 처리 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20170089678A true KR20170089678A (ko) | 2017-08-04 |
Family
ID=59359865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160010215A KR20170089678A (ko) | 2016-01-27 | 2016-01-27 | 처리 유닛, 인-메모리 데이터 처리 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20170213581A1 (ko) |
KR (1) | KR20170089678A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021020646A1 (ko) * | 2019-07-29 | 2021-02-04 | 전자부품연구원 | 효율적인 명령어 처리를 위한 프로세싱-인-메모리 제어 방법 및 이를 적용한 연산장치 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11182158B2 (en) * | 2019-05-22 | 2021-11-23 | Intel Corporation | Technologies for providing adaptive memory media management |
US11372585B2 (en) | 2020-05-05 | 2022-06-28 | Micron Technology, Inc. | Asynchronous process topology in a memory device |
KR20220127601A (ko) | 2021-03-11 | 2022-09-20 | 삼성전자주식회사 | 인터페이스를 이용하여 내부 프로세싱을 수행하는 메모리 시스템, 메모리 장치 및 메모리 장치의 동작 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001184300A (ja) * | 1999-12-27 | 2001-07-06 | Hitachi Ltd | データ処理プロセッサ |
US6928501B2 (en) * | 2001-10-15 | 2005-08-09 | Silicon Laboratories, Inc. | Serial device daisy chaining method and apparatus |
GB2419006B (en) * | 2002-04-22 | 2006-06-07 | Micron Technology Inc | Providing a register file memory with local addressing in a SIMD parallel processor |
US20070076502A1 (en) * | 2005-09-30 | 2007-04-05 | Pyeon Hong B | Daisy chain cascading devices |
US7752364B2 (en) * | 2006-12-06 | 2010-07-06 | Mosaid Technologies Incorporated | Apparatus and method for communicating with semiconductor devices of a serial interconnection |
-
2016
- 2016-01-27 KR KR1020160010215A patent/KR20170089678A/ko unknown
- 2016-06-30 US US15/198,555 patent/US20170213581A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021020646A1 (ko) * | 2019-07-29 | 2021-02-04 | 전자부품연구원 | 효율적인 명령어 처리를 위한 프로세싱-인-메모리 제어 방법 및 이를 적용한 연산장치 |
US11907578B2 (en) | 2019-07-29 | 2024-02-20 | Korea Electronics Technology Institute | Processing-in-memory control method for efficient instruction processing and computing device applying same |
Also Published As
Publication number | Publication date |
---|---|
US20170213581A1 (en) | 2017-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI795107B (zh) | 向量處理單元與具有向量處理單元之計算系統,以及電腦實施方法 | |
CN109147842B (zh) | 同时进行数据路径中计算操作的设备及方法 | |
CN110326046B (zh) | 用于在数据路径中计算的设备及方法 | |
US10678541B2 (en) | Processors having fully-connected interconnects shared by vector conflict instructions and permute instructions | |
US11474965B2 (en) | Apparatuses and methods for in-memory data switching networks | |
CN111656339B (zh) | 存储器装置及其控制方法 | |
KR102318531B1 (ko) | 스트리밍 메모리의 치환 동작 | |
US8959276B2 (en) | Byte selection and steering logic for combined byte shift and byte permute vector unit | |
KR20120019329A (ko) | 프로세서, 메모리 관리 장치 및 방법 | |
JP2010102719A (ja) | メモリサブシステムに複数のメモリアルゴリズムプロセッサを組込むマルチプロセッサコンピュータアーキテクチャ | |
KR20170089678A (ko) | 처리 유닛, 인-메모리 데이터 처리 장치 및 방법 | |
EP3729261B1 (en) | A centralized-distributed mixed organization of shared memory for neural network processing | |
JP2018073413A (ja) | Dram基盤の確率論的コンピューティングシステム | |
CN107273205B (zh) | 用于在计算机处理器中调度指令的方法和系统 | |
US11640444B2 (en) | Device and method for accelerating matrix multiply operations | |
US20210117375A1 (en) | Vector Processor with Vector First and Multiple Lane Configuration | |
US8024549B2 (en) | Two-dimensional processor array of processing elements | |
CN108874730B (zh) | 一种数据处理器及数据处理方法 | |
CN111164583A (zh) | 可配置的硬件的运行时间优化 | |
KR100722428B1 (ko) | 리소스 공유 및 파이프 라이닝 구성을 갖는 재구성가능배열구조 | |
JP6130058B2 (ja) | 条件付きのチャネルルーティングおよびインプレースの機能性を持つ再設定可能な命令セルのアレイ | |
WO2007099950A1 (ja) | 高速pe間データ再配置機能を有するプロセッサアレイシステム | |
KR20090003217A (ko) | 컴퓨터들의 어레이 간의 자원들의 할당 |