WO2017065379A1

WO2017065379A1 - 프로세싱-인-메모리를 이용한 명령어 처리 방법 및 그 장치

Info

Publication number: WO2017065379A1
Application number: PCT/KR2016/006154
Authority: WO
Inventors: 최기영; 안준환; 유승주
Original assignee: 삼성전자 주식회사
Priority date: 2015-10-16
Filing date: 2016-06-10
Publication date: 2017-04-20
Also published as: US20180336035A1; KR20170045098A; CN108369507A; KR101814577B1; US10860323B2

Abstract

프로세싱-인-메모리를 이용한 명령어 처리 방법 및 그 장치가 개시된다. PIM 관리장치는 명령어가 액세스하는 메모리 주소에 대한 읽기-쓰기 락(lock)을 포함하는 PIM 디렉토리 및 명령어가 액세스하는 메모리 주소에 대한 지역성을 파악하고, 상기 지역성을 기초로 명령어의 수행 주체가 프로세싱-인-메모리(PIM)인지 결정하는 지역성 추적부를 포함한다.

Description

프로세싱-인-메모리를 이용한 명령어 처리 방법 및 그 장치

본 발명은 프로세싱-인-메모리(PIM)를 이용한 명령어 처리 방법 및 그 장치에 관한 것이다.

최근 프로세서의 성능 향상이 메모리 성능의 병목으로 인해 둔화되는 경향을 보이고 있다. 특히 메모리 벽(Memory Wall)이라고 불리는 메모리 대역폭 제한으로 인해 프로세서가 계산을 빨리하여도 메모리에서 데이터를 가져오는 시간이 오래 걸려 전체 성능이 저하되는 현상을 나타내는 데이터 집약적인 애플리케이션이 많아 지고 있다. 따라서 이를 해결하기 위하여 최근 제안된 Hybrid Memory Cube 표준 등에서는 메모리 안에서 간단한 계산을 수행하는 Processing-In-Memory(PIM) 명령어를 표준의 일부로 포함하고 있다. 그러나 이러한 PIM 구조는 다음과 같은 문제점을 가지고 있다.

1. 익숙하지 않은 프로그램 모델: 종래 제안된 PIM 구조는 모두 새로운 종류의 가속기(accelerator)를 메모리 안에 구현하는 방법으로 PIM 개념을 활용하였다. 따라서 PIM을 활용하기 위해서는 기존의 프로그램을 모두 새로운 가속기를 활용할 수 있도록 새로 구현해야 하므로, 프로그래머의 많은 노력을 필요로 한다.

2. 기존 시스템의 캐시 및 가상 메모리(Virtual Memory)와 낮은 호환성: 기존 PIM 구조는 메모리에 저장되어 있는 값을 메모리에 안에서 읽고 쓰는 연산이 필수로 동반된다. 그러나 프로세서는 이러한 동작을 확인할 수 없으므로 다음의 두 가지 문제가 발생한다. 첫째, 프로세서의 캐시가 가지고 있는 데이터가 메모리 안에서 변경될 경우 캐시의 값이 최신의 것이 아니므로 데이터의 일관성(coherence)에 문제가 생긴다. 동일한 이유로 캐시에 있는 데이터가 수정될 경우 메모리에서 이를 알 수 없는 문제가 발생한다. 둘째, 가상 메모리 주소변환은 모두 프로세서에서 수행되므로 메모리 안의 가속기는 가상 메모리 주소를 사용할 수 없다. 정리하면, 기존의 PIM 구조는 캐시 및 가상 메모리와 호환되지 않으므로, 메모리 안 가속기가 접근할 수 있는 메모리 영역을 단순히 캐시 불가능(non-cacheable)하게 하고 물리 메모리 주소로만 접근(physically-addressed)하는 방법을 사용했다. 이는 기존 애플리케이션을 PIM 구조가 사용 가능하게 수정하는데 많은 노력이 들게 한다.

3. 메모리 접근 지역성(locality) 고려 부재: 기존 PIM 구조는 특정 계산을 항상 메모리 안 가속기를 활용하는 방식으로 되어 있다. 그러나 입력의 크기가 작을 경우 입력 데이터가 프로세서의 캐시 안에 모두 들어갈 수 있고, 이 경우 캐시에서 데이터를 읽어오는 것이 메모리에서 읽어 오는 것보다 효율적이므로 메모리 안 가속기가 기존 프로세서 구조보다 성능이 떨어질 수 있다.

본 발명이 이루고자 하는 기술적 과제는, 데이터 지역성에 따라 프로세서와 PIM을 모두 활용하여 명령어를 처리할 수 있는 방법 및 그 장치를 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 PIM 관리 장치의 일 예는, 명령어가 액세스하는 메모리 주소에 대한 읽기-쓰기 락(lock)을 포함하는 PIM 디렉토리; 및 명령어가 액세스하는 메모리 주소에 대한 지역성을 파악하고, 상기 지역성을 기초로 명령어의 수행 주체가 프로세싱-인-메모리(PIM)인지 결정하는 지역성 추적부;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 PIM 명령어 처리 방법의 일 예는, 메모리 주소에 대한 읽기-쓰기 락 및 캐시에 데이터가 저장되어 있는지 여부를 나타내는 지역성 정보를 이용한 PIM 명령어 처리 방법에 있어서, 명령어가 액세스하는 메모리 주소에 대한 읽기-쓰기 락을 획득하는 단계; 상기 명령어가 액세스하는 메모리 주소의 지역성을 파악하는 단계; 및 상기 지역성을 기초로 명령어의 수행 주체가 프로세싱-인-메모리(PIM)인지 결정하는 단계;를 포함한다.

본 발명에 따르면, 다음과 같은 효과를 가진다.

1. 기존 프로그래밍 모델과 유사한 방법으로 PIM 사용 가능: 본 발명은 메모리 안 계산 능력을 프로세서의 새로운 명령어(instruction)를 통해 활용 가능하다. 따라서 기존의 PIM 구조에서 새로운 메모리 안 가속기의 프로그래밍 모델에 맞게 기존 애플리케이션을 새로 개발해야 했던 것과 달리, 기존 애플리케이션에서 새로운 명령어를 사용하기만 하면 메모리 안의 계산 능력을 활용할 수 있다.

2. 기존 캐시 일관성 관리 및 가상 메모리 기술 지원 가능: 종래 PIM 구조는 시스템에 존재하는 캐시 일관성(cache coherence) 및 가상 메모리 관리기술과 호환되지 않기 때문에 이들을 비활성화하고 사용해야 한다. 그러나 본 발명은 캐시 일관성과 가상 메모리 주소변환을 프로세서가 수행한 후 메모리에 보내주는 방법을 통해 기존 시스템에 존재하는 캐시 일관성 관리 및 가상 메모리 기술을 그대로 지원할 수 있다.

3. 메모리 접근 지역성을 고려한 선택적 PIM 사용: 기존 PIM 구조는 특정 계산에 대해 PIM을 사용하도록 애플리케이션을 개발하면 해당 부분에서는 항상 메모리에서 계산하는 방법을 사용하였다. 이러한 종래 방법은 입력 크기에 따라 데이터의 지역성이 달라지는 경우, 입력 크기가 작은 수행에 대해 프로세서의 캐시를 활용할 수 없는 단점을 가진다. 그러나 본 발명의 구조는 PIM 명령어가 접근하는 캐시 블록의 지역성을 하드웨어가 추적하고, 이를 바탕으로 메모리 지역성이 낮은 PIM 명령어만 메모리에서 수행하고, 메모리 지역성이 높은 PIM 명령어는 캐시를 활용하기 위하여 프로세서에 수행할 수 있다. 이를 통해 서로 다른 입력 크기에서도 항상 기존 프로세서 구조와 PIM 구조의 장점만을 살릴 수 있다.

4. 이 외에도, 메모리 대역폭에 성능이 제한되는 데이터 집약적인 애플리케이션의 속도를 가속할 수 있다. 기하급수적으로 빠르게 증가하는 데이터를 분석해야 하는 빅데이터 애플리케이션의 중요성이 커지는 최근 경향을 고려할 때, 데이터 집약적인 애플리케이션을 가속하는 본 발명은 빅 데이터 분석을 위한 서버 프로세서 구조에 중요하게 사용될 수 있다. 특히 에너지 소모에 성능이 제한되기도 하는 현재 서버 구조의 관점에서 봤을 때, 시스템 성능뿐만 아니라 에너지 소모를 줄일 수 있어 서버를 설계하는데 중요한 기술로 사용될 수 있다.

도 1은 본 발명에 따른 PIM 명령어 처리를 위한 일 실시 예의 구성을 도시한 도면,

도 2는 본 발명에 따른 PIM 관리장치의 일 실시 예의 구성을 도시한 도면,

도 3은 본 발명에 따른 PIM 관리장치의 PIM 디렉토리의 일 실시 예를 도시한 도면,

도 4는 PIM 디렉토리 내 읽기-쓰기 락을 찾기 위한 해시 함수의 일 예를 도시한 도면,

도 5는 본 발명에 따른 PIM 디렉토리의 읽기-쓰기 락에 포함되는 정보의 일 예를 도시한 도면,

도 6은 본 발명에 따른 PIM 관리장치의 지역성 추적부의 일 실시 예의 구성을 도시한 도면,

도 7은 본 발명에 따른 지역성 추적부의 각 태그에 저장되는 정보의 일 예를 도시한 도면,

도 8은 본 발명에 따른 PIM 명령어 처리를 위한 다른 실시 예의 구성을 도시한 도면,

도 9 및 도 10은 본 발명에 따른 PIM을 이용한 명령어 처리 방법을 도 8의 구조를 기초로 도시한 도면,

도 11은 본 발명에 따른 PIM 수행 가능 명령어와 일반 명령어 사이의 일관성을 유지하는 방법의 일 예를 도시한 도면,

도 12는 본 발명에 따른 PIM을 이용한 명령어 처리 방법의 시뮬레이션을 위한 시스템 구성의 일 예를 도시한 도면, 그리고,

도 13 및 도 14는 도 12의 시스템을 통한 시뮬레이션 결과를 도시한 도면이다.

이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 프로세싱-인-메모리(Processing-In-Memory, PIM)를 이용한 명령어 처리 방법 및 그 장치에 대해 상세히 설명한다.

도 1은 본 발명에 따른 PIM 명령어 처리를 위한 일 실시 예의 구성을 도시한 도면이다.

도 1을 참조하면, 프로세서(150)는 적어도 하나 이상의 코어(core)(110), 적어도 하나 이상의 캐시(cache)(120) 및 PIM 관리장치(100)를 포함한다. 프로세서(150)는 CPU(Central processing unit) 또는 GPU(graphic processing unit) 등 다양한 형태로 구현될 수 있다. PIM 관리장치(100)는 프로세서(150) 내에 구현되거나 코어(110) 및 캐시(120)를 포함하는 부분(140)과 별개로 구현될 수 있다. 또 다른 실시 예로, PIM 관리장치(100)는 코어(110) 또는 캐시(120)의 일부 구성으로 구현될 수 있다. 본 실시 예는 PIM 명령어 처리를 위한 하나의 실시 예에 해당하며 하드웨어 구조가 반드시 본 실시 예에 한정되는 것은 아니다.

프로세싱-인-메모리(PIM)(130)는 명령어를 자체에서 수행할 수 있는 메모리로서 그 구현 형태는 다양할 수 있다. 예를 들어, PIM은 3차원-적층 DRAM(3D-stacked DRAM), DDR3/4(Double Data Rate 3/4) 등으로 구현될 수 있다.

일반적으로 PIM(130)에서 수행 가능한 명령어와 PIM(130)에서 수행 불가능한 명령어가 존재할 수 있다. 이하에서는 설명의 편의를 위하여 PIM에서 수행 가능한 명령어를 PEI(PIM-enabled instruction)라고 하고, 그 외 명령어를 일반 명령어(normal instruction)라고 한다. 일반 명령어는 종래의 방법에 따라 프로세서에 수행된다.

PIM 관리장치(100)는 PEI가 접근하는 데이터의 지역성(locality)을 기초로 PEI를 프로세서(150)에서 처리할지 아니면 PIM(130)에서 처리할지 결정한다. 여기서 지역성이라고 함은 데이터가 자주 사용되는 정도를 나타내는 것으로, 같은 데이터가 짧은 시간 안에 반복적으로 사용되거나 공간적으로 근처에 있는 여러 데이터가 짧은 시간 안에 접근되는 경우 지역성이 높다고 할 수 있다. 일반적으로 캐시는 지역성이 높은 데이터를 저장하도록 구성되며, 따라서 지역성이 높은 데이터는 캐시에 저장되어 있을 확률이 높고 지역성이 낮은 데이터는 캐시가 아닌 메모리에 저장되어 있을 확률이 높다. 따라서, PIM 관리장치는 PEI가 접근하는 데이터의 지역성이 높으면 코어(110)가 캐시(120)를 활용하여 명령어를 수행하도록 하고, 지역성이 낮으면 PIM(130)이 메모리에 저장된 데이터를 활용하여 명령어를 수행하도록 한다.

일 예로써, PIM 관리장치(100)는 사용 횟수가 많거나 사용 빈도가 높은 데이터는 지역성이 높고, 사용 횟수가 적거나 사용 빈도가 낮은 데이터는 지역성이 낮은 것으로 판단할 수 있다. 이 경우, PIM 관리장치(100)는 지역성이 임계치 이상인 데이터를 사용하려는 PEI를 프로세서(150)에서 처리하도록 결정하고, 지역성이 임계치 미만인 데이터를 사용하려는 PEI는 PIM(130)에서 처리하도록 결정할 수 있다

데이터의 지역성은 해당 데이터가 저장된 메모리 주소의 지역성으로 달리 표현될 수 있다. 따라서 PIM 관리장치(100)는 명령어의 접근 횟수가 많거나 일정 시간 구간 동안에 명령어의 접근 빈도가 높은 메모리 주소는 지역성이 높고, 접근 횟수가 적거나 접근 빈도가 낮은 메모리 주소는 지역성이 낮은 것으로 판단할 수 있다.

다른 예로써, PIM 관리장치(100)는 PEI 실행 시 사용할 데이터의 최신 버전이 캐시에 저장되어 있는 경우, 해당 데이터의 지역성이 높은 것으로 판단하여 PEI를 프로세서(150)에서 처리하도록 결정하고, 사용할 데이터의 최신 버전이 메모리에 저장되어 있는 경우 해당 데이터의 지역성이 낮은 것으로 판단하여 PEI를 PIM(130)에서 처리하도록 결정할 수 있다.

이 밖에도, 앞서 언급된 지역성 판단 조건들의 조합을 통해 지역성을 판단하거나 다른 조건을 추가적으로 사용하여 지역성을 판단하는 것도 가능하며, 지역성에 대한 앞선 설명은 실시예이므로 본 발명이 이에 한정되는 것은 아니다.

PIM 관리장치(100)는 PEI가 접근하는 캐시 블록의 정보를 이용하여 PEI의 데이터 지역성을 추적한다. PIM 관리장치(100)는 캐시에 저장된 데이터의 메모리 주소에 대한 정보를 포함하는 태그 어레이와 동일 또는 유사한 정보를 이용하여 지역성을 추적할 수 있다. 예를 들어, PIM 관리장치(100)는 캐시에 저장된 태그 어레이를 통해 PEI가 접근하는 데이터의 지역성을 파악하거나, PIM 관리장치(100)에 캐시의 태그 어레이와 동일 또는 유사한 정보를 자체 저장하여 지역성을 관리할 수 있다. PIM 관리장치(100)의 다양한 실시 예는 도 2 내지 도 5에 도시되어 있다.

본 실시 예에서, PEI의 수행 주체의 결정은 애플리케이션 등의 소프트웨어에 의해 결정되는 것이 아니라, PEI가 접근하는 데이터의 지역성에 따라 PIM 관리장치(100)가 결정하므로, 프로그래머 등은 PEI의 수행 주체에 대해 별도의 고민없이 기존 프로그래밍 모델에 따라 애플리케이션을 개발하면 된다.

지역성을 기초로 PEI가 프로세서 또는 PIM에서 수행되므로, 캐시와 메모리에 저장된 데이터 사이의 일관성(coherence)에서 문제가 발생할 수 있다. 예를 들어, PEI가 PIM(130)에 수행될 때 최신 데이터(the latest version of data)가 캐시(120)에 존재하고 PIM(130)에는 이전 데이터가 존재할 수 있다. 반대로, PEI 또는 일반 명령어가 프로세서(150)에서 수행될 때 최신 데이터가 PIM(130)에 존재하고 캐시(120)에 이전 데이터가 존재할 수 있다. 이를 해결하기 위하여, PIM 관리장치(100)는 PEI의 수행 주체가 PIM(130)인 경우에, PIM(130)에게 PEI를 전달하기 전에, 캐시(120)에 저장된 데이터를 메모리에 반영하는 요청(writeback request)(읽기 동작의 PEI인 경우) 또는 캐시(120)에 저장된 데이터의 무효화 요청(invalidation request)(쓰기 동작의 PEI인 경우)을 캐시(120)에 전송한다. 다시 말해, PEI가 PIM(130)에서 수행되기 전에, 캐시(120)에 저장된 최신 데이터가 PIM에 반영되거나, 캐시에 저장된 데이터의 무효화가 진행되므로, 캐시 일관성을 만족할 수 있다.

복수의 PEI가 동시에 수행되는 경우, 동일 메모리 주소에 동시에 접근하는 경우가 발생할 수 있다. 예를 들어, 제1 PEI가 제1 메모리 주소의 데이터를 읽거나 쓰는 동작을 수행할 때, 제2 PEI가 제1 메모리 주소에 접근하여 데이터를 변경하는 것을 방지하여야 한다. 명령어(PEI 또는 일반 명령어)가 다른 명령어(PEI 또는 일반 명령어)에 의해 간섭받지 않도록 하는 것을 명령어의 원자성(atomicity) 보장이라고 한다. 원자성 보장을 위하여, PIM 관리장치(100)는 PEI가 락(lock)을 획득한 후 수행될 수 있도록 PEI가 접근하는 메모리 주소에 대한 락(lock)을 저장하고 관리한다. PIM 관리장치(100)가 락을 관리하는 방법의 다양한 실시 예는 도 2, 도 6 및 도 7에 도시되어 있다.

예를 들어, 제1 PEI가 제1 메모리 주소에 대한 읽기 또는 쓰기 동작을 수행하고자 할 경우에, 제1 PEI는 PIM 관리장치로부터 제1 메모리 주소에 대한 락을 획득한다. 락을 획득한 이후 제1 PEI가 수행된다. 제2 PEI가 제1 메모리 주소에 대한 읽기 또는 쓰기 동작을 수행하고자 할 경우에, 제1 PEI가 락을 가지고 있으므로, 제2 PEI는 해당 락이 해제될 때까지 대기 상태가 된다. PEI 사이의 원자성뿐만 아니라 PEI와 일반 명령어 사이의 원자성도 보장되어야 하는데 이에 대해서는 도 11에서 설명한다.

PEI는 일반 명령어처럼 가상 메모리 주소(virtual memory address)를 사용할 수 있다. 따라서 PEI의 가상 메모리 지원을 위해 기존의 운영 체제(operating system)나 애플리케이션을 변경할 필요가 없다. 예를 들어, PEI의 가상 메모리 주소를 기존 프로세서에 존재하는 TLB(Translation Lookaside Buffer)를 이용하여 물리 주소(physical address)로 변경한 후, PIM 관리장치(100)에 의해 결정된 수행 주체에 따라 프로세서 또는 PIM에서 PEI가 수행된다.

도 2는 본 발명에 따른 PIM 관리장치의 일 실시 예의 구성을 도시한 도면이다.

도 2를 참조하면, PIM 관리장치(100)는 PIM 디렉토리(200) 및 지역성 추적부(210)를 포함한다.

PIM 디렉토리(200)는 PEI 사이의 원자성을 보장하기 위하여 각 PEI가 접근하는 메모리 주소에 대한 읽기-쓰기 락(reader-writer lock)을 포함한다. PIM 디렉토리(200)는 PEI가 접근 가능한 모든 메모리 주소별로 읽기-쓰기 락을 포함할 수 있다. PEI가 캐시 블록 단위로 읽기 또는 쓰기 동작을 수행하는 경우에, PIM 디렉토리(200)에 포함되는 읽기-쓰기 락의 엔트리 총 개수는 메인 메모리 크기(즉, PIM의 메모리 크기)를 캐시 블록의 크기로 나눈 값 이하일 수 있다.

다른 예로, PIM 디렉토리(200)는 읽기-쓰기 락의 저장 공간을 줄일 수 있도록 일정 개수의 읽기-쓰기 락을 저장할 수 있다. 이 경우, 서로 다른 메모리 주소가 하나의 읽기-쓰기 락을 공유할 수 있으나, PEI 사이의 원자성에는 아무런 문제가 발생하지 아니한다. 이에 대해서는 도 3에서 다시 설명한다.

지역성 추적부(210)는 PEI가 프로세서에 수행될지 PIM에서 수행될지 결정하기 위한 지역성 정보를 관리한다. 지역성이 높은 경우 캐시를 활용하는 것이 유리하므로 PEI는 프로세서에 수행되고, 지역성이 낮은 경우 캐시가 크게 도움이 되지 않으므로 PEI는 메모리에서 수행되는 것이 높은 성능을 보인다.

지역성 추적부(210)는 PEI가 접근하는 데이터의 메모리 주소에 대한 정보를 포함하는 태그 어레이로 구성된다. 지역성 추적부(210)에 포함되는 태그는 캐시(120)의 태그와 동일 또는 유사한 형태일 수 있다. 태그의 일 예는 도 6 및 도 7에 도시되어 있다.

도 3은 본 발명에 따른 PIM 관리장치의 PIM 디렉토리의 일 실시 예를 도시한 도면이고, 도 4는 PIM 디렉토리 내 읽기-쓰기 락을 찾기 위한 해시 함수의 일 예를 도시한 도면이다.

도 3을 참조하면, PIM 디렉토리는 읽기-쓰기 락의 엔트리(entry)(320)를 복수 개 포함하는 어레이(310)로 구성된다. PIM 디렉토리는 읽기-쓰기 락 엔트리(320)의 저장 공간의 크기를 줄이기 위하여 일정 개수(N개)의 읽기-쓰기 락을 포함할 수 있다. 이 경우 PEI가 액세스하는 메모리 주소와 PIM 디렉토리의 읽기-쓰기 락은 일대일 대응되지 않는다. 다시 말해 복수의 메모리 주소가 하나의 읽기-쓰기 락과 대응될 수 있다.

예를 들어, 제1 메모리 주소에 대한 해시함수(330)의 값과 제2 메모리 주소에 대한 해시함수(330)의 값이 동일하면, 제1 메모리 주소와 제2 메모리 주소는 하나의 읽기-쓰기 락을 공유한다. 따라서 제1 메모리 주소에 접근하는 제1 PEI와 제2 메모리 주소에 접근하는 제2 PEI는 서로 다른 메모리 주소에 접근함에도 불구하고, 제1 PEI가 먼저 읽기-쓰기 락을 획득하면, 제2 PEI는 제1 PEI가 획득한 락이 해제될 때까지 대기한다.

각 메모리 주소에 대한 읽기-쓰기 락을 찾는 방법은 다양할 수 있으며, 일 예로, 도 4와 같이 해시함수로 XOR를 이용하여 PIM 디렉토리 내 메모리 주소에 대한 읽기-쓰기 락을 찾을 수 있다.

도 4를 참조하면, PIM 디렉토리 내 읽기-쓰기 락의 개수가 N개 일 경우, 먼저 PEI가 접근하는 메모리 주소(400)를 log₂N-bit 단위로 쪼개고, 모든 조각(410,420,430,440)을 XOR하여 log₂N-bit의 주소 Y를 만든다. 그리고 PIM 디렉토리에서 Y번째 읽기-쓰기 락을 해당 PEI를 위한 락으로 사용한다.

도 5는 본 발명에 따른 PIM 디렉토리의 읽기-쓰기 락에 포함되는 정보의 일 예를 도시한 도면이다.

도 5를 참조하면, 각 읽기-쓰기 락 엔트리(320)는 쓰기 락 필드(500), 읽기 락 필드(510), 읽기-카운터 필드(520) 및 쓰기-카운터 필드(530)를 포함한다.

쓰기 락 필드(500)는 PEI에게 쓰기 동작을 위한 락이 설정되었는지를 나타낸다. 예를 들어, 쓰기 락 필드(500)는 1비트로 구성되며 '1'이면 락 설정, '0'이면 락 해제를 나타낼 수 있다.

읽기 락 필드(510)는 PEI에게 읽기 동작을 위한 락이 설정되었는지를 나타낸다. 예를 들어, 읽기 락 필드(510)는 1비트로 구성되어 '1'이면 락 설정, '0'이면 락 해제를 나타낼 수 있다.

읽기-카운터 필드(520)는 읽기 락이 설정된 개수를 나타낸다. 동일한 메모리 주소에 대해 복수의 PEI가 읽기 동작만 수행하는 경우 데이터에 아무런 변경이 없으므로, 복수의 PEI가 동시 수행되어도 괜찮다. 예를 들어, 제1 PEI가 제1 메모리 주소에 대해 읽기 동작을 위한 락을 획득하면, 제1 메모리 주소에 대한 읽기-쓰기 락의 읽기-카운터 필(520)드는 1이 된다. 제1 PEI의 완료 전에 제2 PEI가 제1 메모리 주소에 대해 다시 읽기 동작을 위한 락을 획득하면, 읽기-카운터 필드(520)는 2가 된다. 락을 획득한 제1 및 제2 PEI는 동시에 수행이 가능하다. 읽기 락의 최대 허용 개수가 될 때까지 읽기-카운터 필드(520)의 값은 증가한다. 읽기 락의 최대 허용 개수를 초과하면 PEI는 락이 해제될 때까지 대기하여야 한다.

쓰기-카운터 필드(530)는 쓰기 락이 설정된 개수를 나타낸다. 읽기 락과는 달리 쓰기 락은 복수의 PEI가 쓰기 동작을 수행하는 경우 또는 복수의 PEI가 읽기 및 쓰기 동작을 수행하는 경우를 허용하지 않는다.

도 6은 본 발명에 따른 PIM 관리장치의 지역성 추적부의 일 실시 예의 구성을 도시한 도면이다.

도 6을 참조하면, 지역성 추적부(210)는 태그 어레이(600)로 구성된다. 각 태그(610)는 PEI가 접근하는 메모리 주소에 대한 데이터가 캐시에 존재하는지 여부를 나타낸다. 예를 들어, 지역성 추적부(210)의 태그 어레이(600)는 캐시(120)의 태그 어레이와 동일 또는 유사한 형태일 수 있다. 지역성 추적부(210)의 태그 어레이에 포함되는 정보의 일 예는 도 7에 도시되어 있다.

지역성 추적부(210)는 메모리 주소에 대한 해시값으로 각 태그(610)를 구분하여 저장한다. 따라서 PEI가 접근하는 메모리 주소에 대한 지역성을 파악할 때, 지역성 추적부(210)는 메모리 주소에 대한 해시값에 해당하는 태그가 존재하는지 여부를 기초로 지역성이 높은지 여부를 파악한다. 메모리 주소에 대한 해시값을 구하기 위한 해시함수(620)는 다양하며, 일 예로, 도 4와 같이 메모리 주소를 복수의 그룹으로 분할하고, 각 그룹에 대해 XOR한 값을 해시값으로 구할 수 있다.

지역성 추적부(210)의 태그 어레이(600)는 PEI가 캐시에 접근할 때마다 갱신될 뿐만 아니라 PEI가 PIM(130)에서 수행될 때에도 해당 캐시 블록에 대한 접근이 있었던 것처럼 갱신된다. 여기서 갱신이라고 함은, 캐시(120)의 태그 어레이에서 캐시 블록을 교체 또는 갱신하는 것과 동일하게 지역성 추적부(210) 내에서 각 태그(610)를 캐시의 캐시 블록 교체 알고리즘에 맞추어 교체 또는 갱신하는 작업을 말한다. PEI가 PIM(130)에서 수행될 경우, PEI가 접근하는 데이터가 캐시에 저장되지 않으므로 해당 데이터가 PEI에 의해 여러 번 접근되더라도 그 데이터의 지역성을 알 수 없기 때문이다. PEI가 메모리에서 수행될 때마다 지역성 추적부(210)를 갱신하면 여러 PEI가 동일한 메모리에 주소에 접근할 때 지역성 추적부(210)에 그 기록이 남으므로 해당 데이터가 높은 지역성을 가진다는 것을 알 수 있다.

도 7은 본 발명에 따른 지역성 추적부의 각 태그에 저장되는 정보의 일 예를 도시한 도면이다.

도 7을 참조하면, 지역성 추적부(210)에 저장되는 각 태그(610)는 유효비트 필드(700), 캐시 태그 필드(710), 갱신정보 필드(720) 등을 포함한다.

유효비트(700)는 캐시에 저장된 데이터의 유효 여부를 나타낸다.

캐시 태그 필드(710)는 캐시의 태그에 저장된 정보 또는 그 일부의 정보를 포함한다. 예를 들어, 캐시 태그 필드(710)는 캐시(120)의 태그에 저장된 메모리 주소를 도 4와 같이 해시한 값을 포함할 수 있다.

갱신정보(replacement information) 필드(720)는 캐시에 저장된 데이터의 교체를 위한 정보를 포함한다. 예를 들어, 캐시에 새로운 데이터를 저장하고자 할 경우 가장 오래전에 참조된 데이터를 삭제하는 데, 이때 갱신정보 필드(720)를 이용하여 가장 오래전 참조된 데이터를 식별한다.

도 8은 본 발명에 따른 PIM 명령어 처리를 위한 다른 실시 예의 구성을 도시한 도면이다.

도 8을 참조하면, 코어(110)는 제1 코어(112)와 PCU(PEI Computation Unit)(114)로 구성되고, 캐시(120)는 L1캐시(122), L2캐시(124) 및 LL캐시(126) 등과 같이 복수 개로 구성된다. 이 외, PIM과 데이터의 송수신을 위한 메모리 컨트롤러(800)를 포함한다. 또한 PIM(130)은 크로스바 네트워크(810), 복수 개의 DRAM 컨트롤러(820,830,840), 복수 개의 PCU(822,832,842)로 구성된다. PIM은 이 외에도 다양한 형태로 구현 가능하다.

PEI가 접근하는 메모리 주소의 데이터 크기가 캐시 블록의 크기보다 클 수 있다. 이 경우, PIM(130)는 PEI를 수행하기 위하여 데이터 사이의 맵핑 관계를 관리하기 위한 구성이 더 필요하다. 따라서 PIM이 캐시 블록 크기 이상의 데이터를 지원하는 경우에 PEI가 접근하는 메모리 주소의 데이터 크기는 제한이 없을 수 있다. 다만 이하의 실시 예에서 설명의 편의를 위하여 PEI가 접근하는 데이터의 크기는 하나의 캐시 블록이라고 가정한다. 다시 말해, PEI는 하나의 캐시 블록에 대한 쓰기 동작 또는 읽기 동작 또는 쓰기와 읽기의 동시 동작 등을 수행한다고 가정한다.

LL(Last Level) 캐시(126)는 L1 캐시(122) 및 L2 캐시(124)에 저장된 데이터와 태그 정보를 모두 포함하고 있다고 가정한다. 따라서 PIM 관리장치(100)는 본 실시 예에서 LL캐시(126)와 연결된다. 만약 LL 캐시(126)가 L1 캐시(122) 또는 L2 캐시(124)에 대한 정보를 포함하고 있지 아니하다면, PIM 관리장치(100)는 L1 캐시(122), L2 캐시(124), LL 캐시(126) 등과 각각 연결되어 본 실시 예에 따른 동작을 수행할 수 있다.

PEI가 PIM(130)에서 수행되면서 데이터를 변경할 때 캐시에 이전 버전의 데이터가 그대로 존재하는 경우에 코어(110)가 캐시(120)를 통해 최신 버전의 데이터를 읽지 못하는 문제가 있다. 따라서 쓰기 동작을 포함하는 PEI가 PIM(130)으로 보내지기 전에 PIM 관리장치(100)는 대상 캐시 블록에 대한 무효화(invalidation) 요청을 LL 캐시(126)로 보낸다. 이 요청을 받으면 프로세서의 모든 캐시(122,124,126)에서 해당 캐시 블록을 무효화시킨다. 이에 대한 구현 방법은 다양할 수 있으며, 캐시(120)가 포함 캐시 계층(inclusive cache hierarchy)이라면, 종래에 이미 존재하는 back-invalidation 요청을 그대로 사용할 수 있다. 따라서 PIM에서 변경된 데이터가 캐시에 남아 있는 데이터에 의해 가려지는 현상을 방지해 캐시 일관성을 유지할 수 있다.

PEI가 PIM(130)에서 수행되면서 데이터를 변경하지 않고, 캐시(120)에 데이터가 바뀜(dirty) 상태로 남아있는 경우 캐시(120)에 저장된 최신 데이터를 PIM(130)의 PCU(822,832,842)가 읽을 수 없으므로 해당 PEI가 이전 데이터를 기초로 수행되는 문제가 있다. 이를 해결하기 위하여 PIM의 데이터를 변경하지 않는 PEI가 PIM으로 보내지기 전에 PIM 관리장치(100)는 캐시(120)의 데이터를 메모리에 반영하도록 하는 요청을 LL 캐시(126)로 보낸다. LL 캐시(126)가 이 요청을 받으면 해당 데이터가 바뀜 상태로 남아있는 경우 이를 바뀌지 않음(clean) 상태로 바꾸고 해당 최신 데이터를 메모리(130)에 쓴다. 이후에 PEI가 수행되면 최신 데이터가 PIM(130)에 반영된 후이므로, 캐시 일관성이 유지된다.

가상 메모리를 지원하기 위하여, 각 PEI가 시작되기 전에 주어진 가상 메모리 주소를 물리 주소로 변환한다. 주소 변환을 위하여 TLB를 이용할 수 있다. 메모리 주소를 물리 주소로 변환할 경우 이후 과정에서 PEI가 수행되는 위치에 상관없이 항상 물리 주소를 사용하게 되므로 PEI에 대해 가상 메모리를 완전히 지원하게 된다. 또한, 모든 PEI가 물리 메모리 주소를 사용하기 때문에 메모리 안에 MMU(Memory Management Unit)를 넣지 않고도 PIM(130)을 위한 가상 메모리를 지원할 수 있다.

본 실시 예는, 도 1과 달리 프로세서(150) 및 PMI(130)에 각각 PCU(114,822,832,842)를 포함한다. 본 실시 예에서 각 DRAM별로 PCU(822,832,842)가 존재하므로, PEI는 하나의 캐시 블록 단위로 데이터를 읽고 쓰는 것이 바람직하다. PCU(114,822,832,842)는 지원하는 연산의 종류에 따라 그 구조가 달라질 수 있다. 프로세서 측 PCU(114)는 캐시(120)로부터 데이터를 읽고 연산하고, 필요한 경우 캐시에 데이터를 쓰는 것을 수행할 수 있는 장치이면 어떤 형태로든 구현 가능하다. 프로세서 측 PCU(114)는 본 실시 예의 이해를 돕기 위해 도시한 것으로서, 프로세서 측 PCU(114)는 코어의 일부분으로 구현되거나 소프트웨어적으로 구현되는 등 실시 예에 따라 다양한 형태로 변형 가능하다.

도 9 및 도 10은 본 발명에 따른 PIM을 이용한 명령어 처리 방법을 도 8의 구조를 기초로 도시한 도면이다.

본 실시 예의 이해를 돕기 위하여 PEI가 'x+y'의 연산을 수행하는 명령어이고, y는 코어를 통해 입력받는 피연산자(operand)이고, x는 캐시 또는 메모리에 저장된 피연산자라고 가정한다.

먼저, 도 9를 참조하면, PEI가 프로세서 측에서 수행되는 경우이다. 코어(112)가 PEI의 피연산자(operand) y를 PCU(114)에 전송한다(S900). 실시 예에 따라, PCU(114)는 TLB(Translation Lookaside Buffer)를 이용하여 PEI가 접근할 가상 메모리 주소를 물리 메모리 주소로 변환할 수 있다.

PIM 관리장치(100)는 PEI에게 피연산자 x에 대한 읽기-쓰기 락을 제공하고, 피연산자 x의 지역성을 확인한다(S910). PIM 관리장치(100)는 지역성을 기초로 PEI의 수행 주체가 프로세서(150)인지 PIM(130)인지 결정한다(S920). 본 실시 예는 지역성이 높아 PEI의 수행 주체가 프로세서(150)로 결정되었다고 가정한다.

PCU(114)는 L1 캐시(122)로부터 피연산자 x의 데이터를 읽어오고(S930). PEI를 수행한다(S940). 그리고 캐시(120)에 데이터의 저장이 필요하다면 캐시(120)에 데이터(예를 들어, x+y의 결과)를 저장한다(S950). PEI 수행이 완료되면, PCU(114)는 PIM 관리장치(100)에게 PEI 수행 완료를 통보한다(S960). 그러면 PIM 관리장치(100)는 PEI에게 제공된 읽기-쓰기 락을 해제한다. 그리고 PCU(114)는 PEI 결과값을 코어(112)에게 제공한다(S970).

다음으로, 도 10을 참조하면, PEI가 PIM에서 수행되는 경우이다. 코어(112)가 PEI의 피연산자 y를 PCU(114)에 전송한다(S1000). 실시 예에 따라, PCU(114)는 TLB(Translation Lookaside Buffer)를 이용하여 PEI가 접근할 가상 메모리 주소를 물리 메모리 주소로 변환할 수 있다.

PCU(114)는 PIM 관리장치(100)로부터 피연산자 x에 대한 읽기-쓰기 락을 획득하고 피연산자 x의 지역성을 확인한다(S1005). PIM 관리장치(100)는 지역성을 기초로 PEI의 수행 주체가 프로세서인지 PIM인지 결정한다(S1010). 본 실시 예는 지역성이 낮아 PEI의 수행 주체가 PIM으로 결정되었다고 가정한다.

PEI가 읽기 동작만 수행하는 경우에, PIM 관리장치(100)는 LL캐시(126)에 back-writeback 요청을 보내어(S1015), PEI가 접근할 데이터가 캐시에 바뀜(dirth) 상태로 존재하는 경우 이를 메인 메모리에 쓰기(writeback) 하도록 한다. PEI가 데이터를 읽고 쓰는 경우에, PIM 관리장치(100)는 LL캐시(126)에 back-invalidation 요청을 보내어(S1015), PEI가 접근할 데이터가 캐시(120)에 존재하는 경우 모두 버리도록 한다.

이후, PCU(114)는 피연산자 y를 PIM 관리장치(100)로 전송하고(S1020), PIM 관리장치(100)는 피연산자 y와 PEI를 PIM(130)으로 전송한다(S1025). PIM 관리장치(100)는 PIM(130)으로부터 결과값을 수신하면(S1030), 이를 PCU(114)를 통해 코어(112)로 전송하고(S1035,S1040), PEI에게 설정된 읽기-쓰기 락을 해제한다.

도 11은 본 발명에 따른 PIM 수행 가능 명령어와 일반 명령어 사이의 일관성을 유지하는 방법의 일 예를 도시한 도면이다.

도 11을 참조하면, PEI와 일반 명령어 사이의 일관성 유지를 위하여 새로운 함수를 도입한다. 본 실시 예에서 그 함수를 pfence()로 표시한다.

애플리케이션에서 프로세서가 명령어를 수행하다가 pfence()를 만나면, 프로세서는 pfence()전에 수행 중인 PEI를 파악한다(1120). 예를 들어, PIM 관리장치의 PIM 디렉토리를 통해 락을 획득한 PEI가 제1 및 제2 PEI(1100,1105)인 경우에, 프로세서는 제1 및 제2 PEI(1100,1105)의 수행이 완료될 때까지 일반 명령어의 수행을 대기한다.

제1 및 제2 PEI(1100,1105)에 대한 수행이 완료된 경우, 다시 말해 제1 및 제2 PEI(1100,1105)에 대한 락이 모두 해제된 경우에(1125), 프로세서는 일반 명령어를 수행한다. 제3 PEI(1110)는 pfence() 이후에 수행된 것이므로, 일반 명령어는 제3 PEI이 수행 완료되었는지와 무관하게 수행된다.

도 12는 본 발명에 따른 PIM을 이용한 명령어 처리 방법의 시뮬레이션을 위한 시스템 구성의 일 예를 도시한 도면이고, 도 13 및 도 14는 도 12의 시스템을 통한 시뮬레이션 결과를 도시한 도면이다.

본 시뮬레이션은 데이터 지역성에 따른 성능을 보여주기 위하여 10개의 애플리케이션에 대해 서로 다른 세 종류 크기의 데이터 입력을 사용하였으며, 그 결과는 도 13과 같다.

도 13을 참조하면, 모든 PEI를 프로세서에서 수행한 경우, 모든 PEI를 PIM에서 수행한 경우, 지역성을 기초로 PEI의 수행 주체를 달리한 경우의 결과값을 IPC(instructions per cycle)로 정규화한 결과가 도시되어 있다.

본 발명에 따른 방법은 입력 데이터가 클 경우(도 13(c)) 모든 PEI를 메모리에서 수행하는 것과 동일한 성능을 나타내고(프로세서에서 모두 수행하는 경우 대비 평균 47% 성능 향상), 입력 데이터가 작은 경우(도 13(a)) 모든 PEI를 프로세서 수행하는 것과 동일한 성능을 나타낸다. 입력 데이터가 작은 경우에 본 발명은 PMI에서 수행하는 경우와 대비하여 평균 32% 성능 향상을 보인다. 또한, 입력 크기가 중간 정도인 경우(도 13(b)) 프로세서에서의 수행과 PIM에서의 수행을 모두 사용하기 때문에 둘 중 한 쪽만 사용하는 것보다 향상된 성능을 보인다.

도 14를 참조하면, 에너지 소모 평가에서도 본 발명이 우수한 성능을 나타냄을 알 수 있다. 본 발명은 입력 데이터의 크기와 상관없이 종래에 비해 에너지 소모가 적은 것을 확인할 수 있다. 또한, 도 13의 성능 평가와 마찬가지로 중간 크기의 입력 데이터에 대해서는 프로세서에서의 수행과 PIM에서의 수행보다 모두 적은 에너지 소모를 나타냄을 알 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

명령어가 액세스하는 메모리 주소에 대한 읽기-쓰기 락(lock)을 포함하는 PIM 디렉토리; 및

명령어가 액세스하는 메모리 주소에 대한 지역성을 파악하고, 상기 지역성을 기초로 명령어의 수행 주체가 프로세싱-인-메모리(PIM)인지 결정하는 지역성 추적부;를 포함하는 PIM 관리 장치.
제 1항에 있어서,

상기 PIM 디렉토리에 존재하는 읽기-쓰기 락의 총 개수는 상기 PIM의 전체 저장 공간의 크기를 캐시 단위 블록의 크기로 나눈 값 이하인 것을 특징으로 하는 PIM 관리 장치.
제 1항에 있어서, 상기 PIM 디렉토리는,

메모리 주소에 대한 해시값으로 구분하여 저장되는 읽기-쓰기 락을 포함하는 것을 특징으로 하는 PIM 관리 장치.
제 1항에 있어서, 상기 PIM 디렉토리의 각 읽기-쓰기 락은,

쓰기 락 설정 여부를 나타내는 정보;

읽기 락 설정 여부를 나타내는 정보; 및

읽기 락의 개수 정보;를 포함하는 것을 특징으로 하는 PIM 관리 장치.
제 1항에 있어서, 상기 지역성 추적부는,

캐시에 저장된 데이터의 메모리 주소에 대한 정보를 포함하는 태그를 기초로, 명령어가 접근하는 메모리 주소가 상기 태그에 존재하지 아니하면 명령어의 수행 주체를 PIM으로 결정하는 것을 특징으로 하는 PIM 관리 장치.
제 5항에 있어서, 상기 지역성 추적부는,

캐시에 액세스하는 경우 또는 명령어의 수행 주체가 PIM으로 결정되는 경우에 태그를 갱신하는 것을 특징으로 하는 PIM 관리 장치.
제 5항에 있어서,

상기 태그는 캐시 태그의 해시값으로 구성되는 것을 특징으로 하는 PIM 관리 장치.
제 1항에 있어서, 상기 지역성 추적부는,

명령어의 수행주체가 PIM이면, 명령어의 동작이 쓰기 동작인지 읽기 동작인지에 따라, 캐시에 저장된 데이터를 PIM에게 반영하는 요청 또는 캐시에 저장된 데이터를 버리는 요청을 상기 캐시에게 전송하는 것을 특징으로 하는 PIM 관리 장치.
메모리 주소에 대한 읽기-쓰기 락 및 캐시에 데이터가 저장되어 있는지 여부를 나타내는 지역성 정보를 이용한 PIM 명령어 처리 방법에 있어서,

명령어가 액세스하는 메모리 주소에 대한 읽기-쓰기 락을 획득하는 단계;

상기 명령어가 액세스하는 메모리 주소의 지역성을 파악하는 단계; 및

상기 지역성을 기초로 명령어의 수행 주체가 프로세싱-인-메모리(PIM)인지 결정하는 단계;를 포함하는 것을 특징으로 하는 PIM 명령어 처리 방법.
제 9항에 있어서, 상기 읽기-쓰기 락을 획득하는 단계는,

읽기-쓰기 락 어레이로 구성된 PIM 디렉토리에서, 상기 명령어가 액세스하는 메모리 주소에 읽기-쓰기 락이 설정되어 있는지 파악하는 단계;

락이 설정되어 있다면 락이 해제될 때까지 대기하는 단계;

락이 설정되어 있지 않다면, 상기 명령어를 위한 락을 설정하는 단계;를 포함하는 것을 특징으로 하는 PIM 명령어 처리 방법.
제 10항에 있어서, 상기 명령어를 위한 락을 설정하는 단계는,

상기 명령어가 읽기 동작이고, 읽기-쓰기 락의 설정 개수가 일정 개수 이하이면 명령어를 위한 락을 획득하는 단계;를 포함하는 것을 특징으로 하는 PIM 명령어 처리 방법.
제 10항에 있어서, 상기 읽기-쓰기 락이 설정되어 있는지 파악하는 단계는,

상기 명령어가 액세스하는 메모리 주소에 대해 해시값을 구하는 단계; 및

상기 해시값으로 상기 PIM 디렉토리를 검색하여 읽기-쓰기 락이 설정되어 있는지 확인하는 단계;를 포함하는 것을 특징으로 하는 PIM 명령어 처리 방법.
제 9항에 있어서, 상기 결정하는 단계는,

지역성 정보를 기초로 상기 명령어가 액세스하는 메모리 주소에 대한 데이터가 캐시에 존재하면 상기 명령어의 수행 주체를 프로세서로 결정하는 단계;

상기 메모리 주소에 대한 데이터가 캐시에 존재하지 아니하면, 상기 명령어의 수행 주체를 PIM으로 결정하는 단계;를 포함하는 것을 특징으로 하는 PIM 명령어 처리 방법.
제 13항에 있어서,

상기 명령어의 수행 주체가 PIM으로 결정되면, 명령어가 읽기 동작에 관한 것이면 캐시에 저장된 데이터를 PIM에게 반영하는 요청을 캐시에게 전송하고, 명령어가 쓰기 동작에 관한 것이면, 캐시에 저장된 데이터를 버리는 요청을 캐시에게 전송하는 단계;를 더 포함하는 것을 특징으로 하는 PIM 명령어 처리 방법.
제 13항에 있어서,

상기 명령어의 수행 주체가 PIM으로 결정되면, 상기 지역성 정보를 갱신하는 단계;를 더 포함하는 것을 특징으로 하는 PIM 명령어 처리 방법.
제 9항에 있어서,

상기 명령어가 액세스하는 메모리 주소는 TLB(Translation Lookaside Buffer)를 이용하여 물리 주소로 변환된 주소인 것을 특징으로 하는 PIM 명령어 처리 방법.
제1항에 기재된 방법을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.