WO2016099036A1

WO2016099036A1 - 메모리 접근 방법 및 장치

Info

Publication number: WO2016099036A1
Application number: PCT/KR2015/012317
Authority: WO
Inventors: 조정욱; 김석진; 서동관
Original assignee: 삼성전자 주식회사
Priority date: 2014-12-15
Filing date: 2015-11-17
Publication date: 2016-06-23
Also published as: KR102357863B1; US10409596B2; EP3220274B1; CN107223237B; EP3220274A1; EP3220274A4; KR20160072620A; US20170344369A1; CN107223237A

Abstract

복수의 메모리 뱅크(Bank)와 복수의 메모리 뱅크에 저장된 데이터 중 벡터 연산에 필요한 데이터를 복사하여 저장한 복수의 룩업 테이블을 생성하고, 생성된 룩업 테이블로부터 데이터를 읽어 벡터 데이터를 생성하는 제어부를 포함하는 장치가 개시된다.

Description

메모리 접근 방법 및 장치

본 발명은 프로세서(Processor)가 메모리에 접근하는 방법 및 장치에 관한 것으로, 보다 구체적으로는 벡터 프로세서(Vector Processor)가 메모리로부터 복수의 데이터를 게더(Gather)하고, 복수의 데이터를 다시 메모리로 스캐터(Scatter)하는 방법 및 장치에 관한 것이다.

프로세서(Processor)는 연산에 필요한 데이터를 읽어오고 연산 결과를 다시 저장하기 위해 메모리에 접근할 수 있다. 예를 들어, 프로세서는 메모리로부터 데이터를 읽는 로드 명령어(Load Instruction) 및 메모리에 데이터를 저장하는 저장 명령어(Store Instruction)을 실행할 수 있다.

초기 프로세서 기술에서는 하나의 명령으로 하나의 데이터를 처리하는 방식(Single Instruction Single Data)을 채용한 스칼라(Scalar)프로세서를 채용하였다.

그러나 스마트폰, 고해상도 텔레비전 등의 보급화되면서 영상 처리, 비전 처리, 화질 처리 또는 그래픽 렌더링(Graphic rendering)과 같은 분야에서 대용량 데이터의 처리가 가능한 프로세서의 필요성이 증대되었다. 이에 따라, 단일 명령으로 복수의 데이터를 처리하는 방식(Single Instruction Multiple Data)을 채용한 벡터(Vector) 프로세서의 사용이 보편화되었다. 벡터 프로세서는 벡터를 구성하는 복수의 데이터에 대해 동일한 반복 연산을 고속 수행하기 위한 프로세서로, 메모리로부터 복수의 데이터를 동시에 읽어 처리한 후 결과를 다시 메모리에 저장할 수 있다.

벡터 프로세서가 메모리로부터 복수의 데이터를 동시게 읽거나 또는 복수의 데이터를 메모리에 저장하기를 수행할 때, 동일한 메모리 뱅크를 접근하는 경우가 빈번히 발생한다. 이 경우 메모리 뱅크 충돌(Memory Bank Conflict)의 발생으로 스톨(Stall)을 야기하여 시스템의 성능이 저하된다.

따라서, 벡터 프로세서가 메모리로부터 동시에 복수의 데이터를 읽거나 복수의 데이터를 메모리에 저장하기 위해서는, 메모리 뱅크 충돌을 예측하고 예측을 기반으로 벡터 프로세서의 메모리 접근을 스케줄링하여 충돌의 발생을 최소화할 수 있는 전용 하드웨어가 추가적으로 필요할 수 있다.

그러나, 추가적인 하드웨어로 인해 프로세서의 전체 면적이 증가될 수 있으며, 설계의 복잡도는 높아진다. 또한 소프트웨어의 복잡한 구현은 프로세서의 또 다른 성능저하를 야기할 수 있다.

프로세서가 메모리로부터 룩업 테이블(Lookup table)형태의 복수의 데이터를 읽거나, 복수의 데이터를 메모리에 룩업 테이블 형태로 저장하는 방법 및 장치를 제공할 수 있다.

또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 있다. 본 실시 예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 이하의 실시 예들로부터 또 다른 기술적 과제들이 유추될 수 있다.

도1은 일 실시예에 따른 벡터 프로세서가 메모리로부터 데이터를 읽고 쓰는 구조도를 나타낸다.

도2는 일 실시예에 따른 벡터 프로세서가 게더 및 스캐터를 수행하는 방법을 나타낸다.

도3는 일 실시예에 따른 벡터 프로세서의 구조도를 나타낸다.

도4는 일 실시예에 따른 메인 메모리 상에 생성된 복수개의 룩업 테이블을 나타낸다.

도5는 일 실시예에 따른 메인 메모리 상에 생성된 복수개의 룩업 테이블을 나타낸다.

도6a은 일 실시예에 따른 벡터 프로세서의 구조도를 나타낸다.

도6b은 일 실시예에 따른 벡터 프로세서가 복수의 룩업 테이블을 동기화시키는 방법을 나타낸다.

도7은 일 실시예에 따른 벡터 프로세서의 구조도를 나타낸다.

도8a는 일 실시예에 따른 벡터 프로세서가 게더를 수행하는 방법을 나타낸다.

도8b는 일 실시예에 따른 벡터 프로세서가 게더를 수행하는 방법을 나타낸다.

도9는 일 실시예에 따른 벡터 프로세서가 스캐터를 수행하는 방법을 나타낸다.

도 10은 일 실시예에 따른 벡터 프로세서가 게더를 수행하는 방법의 흐름도를 도시한다.

도 11는 일 실시예에 따른 벡터 프로세서가 복수의 룩업 테이블을 생성하는 방법의 흐름도를 도시한다.

도 12 는 일 실시예에 따른 벡터 프로세서가 스캐터를 수행하는 방법의 흐름도를 도시한다.

도 13은 일 실시예에 따른 벡터 프로세서가 게더 및 스캐터를 수행하는 방법의 흐름도를 도시한다.

일 실시예에 따른 장치는 복수의 메모리 뱅크(Bank), 및 상기 복수의 메모리 뱅크에 저장된 데이터 중 벡터 연산에 필요한 데이터를 복사하여 저장한 복수의 룩업 테이블을 생성하고, 상기 복수의 룩업 테이블로부터 데이터를 읽어 벡터 데이터를 생성하는 제어부를 포함할 수 있다.

일 실시예에 따른 상기 제어부는, 상기 복수의 룩업 테이블을 생성하는 룩업 테이블 생성부, 및 상기 복수의 룩업 테이블로부터 데이터를 읽어 벡터 데이터를 생성하는 게더(Gather)부를 포함한다.

일 실시예에 따른 상기 제어부는, 상기 각각의 뱅크에 하나의 룩업 테이블을 생성하여, 상기 복수의 뱅크들의 개수와 동일한 개수의 룩업 테이블을 생성하는 것을 특징으로 한다.

일 실시예에 따른 상기 제어부는, 상기 복수의 뱅크들을 소정의 그룹으로 나누어, 상기 그룹별로 하나의 룩업 테이블을 생성하고, 상기 그룹별로 생성된 하나의 룩업 테이블은 상기 그룹에 속하는 복수개의 뱅크에 인터리빙(interleaving)형태로 저장되는 것을 특징으로 한다.

일 실시예에 따른 상기 제어부는, 랜덤(random)하게 생성된 복수의 인덱스로 구성된 인덱스 벡터를 이용하여 상기 각각의 룩업 테이블을 접근하고, 상기 각각의 룩업 테이블 내의 상기 인덱스 위치에 저장된 데이터를 읽는 것을 특징으로 한다.

일 실시예에 따른 상기 제어부는, 상기 벡터 데이터에 소정의 벡터 연산이 수행된 결과 벡터 데이터를 엘리먼트 단위로 분리하여 상기 복수의 룩업 테이블로 저장한다.

일 실시예에 따른 상기 제어부는, 상기 각각의 엘리먼트를 상기 각각의 룩업 테이블 내의 소정의 인덱스 위치에 저장한다.

일 실시예에 따른 상기 제어부는, 상기 복수의 룩업 테이블들 중 어느 하나의 룩업 테이블 내의 제1인덱스에 저장된 데이터의 값이 변경되면, 변경되지 않은 나머지 룩업 테이블의 상기 제1인덱스에 저장된 데이터를 상기 변경된 값으로 갱신한다.

일 실시예에 따른 상기 장치는, 상기 각각의 룩업 테이블에 대응하는 복수의 서브 스위치부로 구성된 스위칭부를 더 포함하고, 상기 복수의 서브 스위치부는 상기 제어부가 상기 각각의 룩업 테이블의 소정의 인덱스 위치에 접근하는 것을 허용할지 여부를 결정하는 것을 특징으로 한다.

일 실시예에 따른 상기 복수의 서브 스위치부는, 상기 각각의 뱅크와 대응되는 복수의 스위치를 포함하고, 상기 각각의 스위치는 상기 각각의 뱅크에 대한 상기 제어부의 접근 가능 여부를 결정하는 것을 특징으로 한다.

일 실시예에 따른 방법은, 복수의 메모리 뱅크(Bank)에 저장된 데이터 중 벡터 연산에 필요한 데이터를 복사하여 저장한 복수의 룩업 테이블을 생성하는 단계, 및 상기 룩업 테이블로부터 데이터를 읽어 벡터 데이터를 생성하는 단계를 포함한다.

일 실시예에 따른 상기 룩업 테이블을 생성하는 단계는, 상기 각각의 뱅크에 하나의 룩업 테이블을 생성하여, 상기 각각의 뱅크에 상기 복수의 뱅크들의 개수와 동일한 개수의 룩업 테이블을 생성하는 것을 특징으로 한다.

일 실시예에 따른 상기 룩업 테이블을 생성하는 단계는, 상기 복수의 뱅크들을 소정의 그룹으로 나누어, 상기 그룹별로 하나의 룩업 테이블을 생성하고, 상기 그룹별로 생성된 하나의 룩업 테이블은 상기 그룹에 속하는 복수개의 뱅크에 인터리빙(interleaving)형태로 저장되는 것을 특징으로 한다.

일 실시예에 따른 상기 룩업 테이블로부터 데이터를 읽어 벡터 데이터를 생성하는 단계는, 랜덤(random)하게 생성된 복수의 인덱스로 구성된 인덱스 벡터를 이용하여 상기 각각의 룩업 테이블을 접근하고, 상기 각각의 룩업 테이블 내의 상기 인덱스 위치에 저장된 데이터를 읽는 것을 특징으로 한다.

일 실시예에 따른 방법은, 상기 벡터 데이터에 소정의 벡터 연산이 수행된 결과 벡터 데이터를 엘리먼트 단위로 분리하여 상기 복수의 룩업 테이블로 저장한다.

일 실시예에 따른 상기 복수의 룩업 테이블로 저장하는 단계는, 상기 각각의 엘리먼트를 상기 각각의 룩업 테이블 내의 소정의 인덱스 위치에 저장하는 것을 특징으로 한다.

일 실시예에 따른 상기 복수의 룩업 테이블로 저장하는 단계는, 상기 복수의 룩업 테이블들 중 어느 하나의 룩업 테이블 내의 제1인덱스에 저장된 데이터의 값이 변경되면, 변경되지 않은 나머지 룩업 테이블의 상기 제1인덱스에 저장된 데이터를 상기 변경된 값으로 갱신하는 것을 특징으로 한다.

일 실시예에 따른 상기 룩업 테이블로부터 데이터를 읽어 벡터 데이터를 생성하는 단계는, 상기 각각의 룩업 테이블 내에서 접근이 허용된 소정의 인덱스 위치에 존재하는 데이터를 읽어 상기 벡터 데이터를 생성하고, 상기 복수의 룩업 테이블로 저장하는 단계는, 상기 결과 벡터 데이터를 상기 각각의 룩업 테이블 내에서 접근이 허용된 소정의 인덱스 위치에 저장하는 것을 특징으로 한다.

일 실시예에 따른 상기 룩업 테이블로부터 데이터를 읽어 벡터 데이터를 생성하는 단계 및 상기 복수의 룩업 테이블로 저장하는 단계는, 상기 각각의 뱅크에 대한 접근 가능 여부를 결정하는 단계를 포함한다.

일 실시예에 따른 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공된다.

이하에서는 도면을 참조하여 실시 예들을 상세히 설명한다. 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

메인 메모리(110)는 컴퓨터, TV, 휴대 전화, 모바일 장치 등을 구성하는 랜덤 억세스 메모리(Random Access Memory)일 수 있으나 이에 제한되지 않는다.

이하 '메인 메모리'라 함은, 소정의 기기(Machine)의 기억 장치를 구성하는 메모리의 전체 또는 일부 영역을 의미한다. 일 실시예에 따른 메인 메모리(110)는 메모리 충돌을 최소화시키기 위해 하나 이상의 메모리 뱅크(Memory Bank)(이하 '뱅크'라 한다)로 구성된 다중 뱅크 구조일 수 있다.

벡터 프로세서(180)는 복수의 데이터를 동시에 처리할 수 있는 프로세서로, 벡터 프로세서(180)내의 명령어는 SIMD(Single Instruction Multiple Data) 또는 MIMD(Multiple Instruction Multiple Data)형태로 처리될 수 있으나 이에 제한되지 않는다.

벡터 프로세서(180)는 메인 메모리(110)로부터 복수의 데이터를 읽어 복수의 데이터를 벡터 형태로 생성하여 벡터 연산을 수행하고, 벡터 연산이 수행된 결과를 다시 메인 메모리(110)에 저장할 수 있다. 벡터 프로세서(180)는 동시에 복수의 데이터를 읽거나 저장하기 위해 메인 메모리(110)내의 복수의 뱅크(120, 121, 122, 123, 124, 125, 126, 127)에 접근할 수 있다.

벡터 프로세서(180)는 벡터 레지스터(160)를 포함할 수 있다. 벡터 레지스터(160)는 벡터 연산을 구성하는 요소를 접근하기 위한 메모리의 주소를 저장할 수 있고, 벡터 명령에 의한 읽기 또는 쓰기가 가능한 레지스터이다.

벡터 레지스터(160)는 복수의 엘리먼트로 파티션되어 있을 수 있다. 예를 들어, 16바이트의 벡터 레지스터(160)가 8-way 벡터를 저장한다면, 벡터 레지스터(160)는 8개의 엘리먼트로 구성되며, 하나의 엘리먼트는 2바이트의 크기를 가질 수 있다.

도1에서는 도시되지 않았으나 벡터 프로세서(180)는 파이프라인 구조(pipelined architecture)를 가지고 매 클록(clock)마다 연산을 수행하는 벡터 기능부(Vector Functional Unit), 메모리에서 데이터를 읽고 저장하는 벡터 로드/스토어부(Vector Load/Store Unit), 메모리 주소 및 제어 신호를 저장하기 위한 스칼라 레지스터(Scalar Register), 레지스터를 연결하는 크로스바(Cross-bar)를 포함할 수 있다.

일 실시예에 따른 벡터 프로세서(180)는 메인 메모리(110)로부터 복수의 데이터를 읽거나 또는 메인 메모리(110)에 복수의 데이터를 쓰기 위해, 다양한 방법으로 메인 메모리(110)에 접근할 수 있다.

예를 들어, 벡터 프로세서(180)는 메모리 주소를 하나씩 증가시키면서 순차적으로 메인 메모리(110)로부터 복수의 데이터를 읽어와 벡터 형태로 생성할 수 있다. 벡터 프로세서(180)는 생성된 벡터를 이용하여 벡터 연산을 수행하고, 수행된 결과를 다시 순차적으로 메인 메모리(110)에 저장하는 단위 활보(Unit Stride) 기법을 이용할 수 있다.

또한 예를 들어, 벡터 프로세서(180)는 메모리 주소를 스칼라 레지스터(미도시)에 저장된 상수 값만큼 증가시키며 메인 메모리(110)로부터 복수의 데이터를 읽어와서 벡터 형태로 생성할 수 있다. 벡터 프로세서(180)는 생성된 벡터를 이용하여 벡터 연산을 수행하고 수행된 결과를 동일한 방법으로 상수 값만큼 증가시키며 메인 메모리(110)에 다시 저장하는 활보 접근(Stride Access) 기법을 이용할 수 있다.

또한 예를 들어, 벡터 프로세서(180)는 메인 메모리(110)로부터 데이터를 랜덤하게 읽고, 읽어온 복수의 데이터를 벡터 형태로 생성할 수 있다. 벡터 프로세서(180)는 생성된 벡터를 이용하여 벡터 연산을 수행하고 수행된 결과를 다시 랜덤하게 메인 메모리(110)에 저장하는 기법인 인덱스 로드/스토어(Indexed Load and Store) 기법을 사용할 수 있다. 인덱스 로드/스토어 방법은 인덱스 벡터를 사용하여 메인 메모리(110)에 흩어진 데이터를 읽어 벡터를 생성하고, 벡터 연산을 수행한 결과를 다시 메인 메모리(110)에 저장하는 기법이다.

일반적으로 인덱스 벡터를 사용하여 메인 메모리(110) 상에 흩어진 복수의 데이터를 읽는 것을 게더(Gather)라 하고, 인덱스 벡터를 사용하여 복수의 데이터(즉, 벡터)를 메인 메모리(110)에 흩어지게 저장하는 것을 스캐터(Scatter)라 한다.

일 실시예에 따른 벡터 프로세서(180)는 인덱스 벡터에 저장된 복수의 오프셋(offset)값을 베이스 주소(base address)와 합하여 계산된 각각의 메모리 주소에 있는 데이터들을 읽어와서 게더를 수행하고, 벡터 레지스터(160)에 벡터 형태로 저장할 수 있다.

예를 들어, 8-way 벡터 연산을 수행하는 벡터 프로세서(180)의 경우, 인덱스 벡터에는 8개의 인덱스, 즉 8개 각각의 데이터가 저장된 메모리의 상대 주소가 저장되어 있고, 이를 베이스 주소와 합하여 해당 주소의 데이터를 읽어올 수 있다. 읽어온 8개의 데이터는 벡터 레지스터(160)에 벡터 형태로 저장된다.

스캐터 연산은 게더 연산의 역과정이다. 벡터 레지스터(160)에 저장된 벡터를 8개의 엘리먼트로 분리하여 인덱스 벡터의 오프셋을 베이스 주소에 더한 각각의 메모리 주소에 각각 저장한다.

그러나 벡터 프로세서(180)가 게더 및 스캐터를 수행할 때 복수의 데이터를 동시에 읽거나 저장하게 되면 동일한 메모리 뱅크를 접근하는 경우가 빈번히 발생할 수 있다. 이 경우 메모리 뱅크 충돌(Memory Bank Conflict)의 발생으로 스톨(stall)을 야기하여 벡터 프로세서의 성능과 효율성이 크게 저하될 수 있다.

상술한 바와 같이, 벡터 프로세서(180)는 복수의 데이터를 메인 메모리(110)로부터 읽고, 복수의 데이터를 메인 메모리(110)에 저장하기 위해 메인 메모리(110)에 동시에 접근할 필요가 있다. 따라서, 벡터 프로세서(180)가 메인 메모리(110)에 동시 접근하기 위해서 메인 메모리(110)는 다중 메모리 뱅크 구조일 수 있으며, 벡터 프로세서(180)는 각 메모리 뱅크의 어드레스를 독립적으로 제어할 수 있는 메모리 시스템(미도시)을 추가적으로 필요로 할 수 있다.

벡터 프로세서(180)는 메인 메모리(110)에 저장된 데이터 중 벡터 연산에 필요한 데이터를 복사하여 저장한 복수의 룩업 테이블(음영색 부분)(210, 220, 230, 240, 250, 260, 270, 280)을 생성할 수 있다. 메인 메모리(110)는 복수의 메모리 뱅크로 구성된 다중 뱅크 구조이다.

벡터 프로세서(180)는 생성된 룩업 테이블(210, 220, 230, 240, 250, 260, 270, 280)로부터 각각의 룩업 테이블의 소정의 인덱스 위치에 저장된 복수의 데이터를 게더하여 벡터 형태로 생성할 수 있다.

일 실시예에 따른 벡터 프로세서(180)는 각각의 룩업 테이블(210, 220, 230, 240, 250, 260, 270, 280)로부터 복수의 데이터(A, B, C, D, E, F, G, H)를 게더할 수 있다. 게더된 복수의 데이터(A, B, C, D, E, F, G, H)는 벡터 레지스터(160)에 벡터 형태로 저장되고, 벡터 레지스터(160)내의 벡터는 벡터 연산의 피연산자가 될 수 있다.

벡터 프로세서(180)는 벡터 레지스터(160)에 저장된 벡터를 엘리먼트 단위로 분리하여 각각의 룩업 테이블(210, 220, 230, 240, 250, 260, 270, 280)내의 소정의 인덱스 위치에 스캐터할 수 있다. 스캐터의 대상이 되는 벡터 레지스터(160)내의 벡터는, 게더하여 생성된 벡터 데이터에 소정의 벡터 연산을 수행하고, 연산이 수행된 결과 벡터 데이터일 수 있다.

상술한 바와 같이, 벡터 프로세서(180)가 메인 메모리(110)의 복수의 뱅크에 접근하여 게더 및 스캐터를 수행할 때 메모리 뱅크의 충돌이 발생한다면, 성능이 크게 저하된다. 이하, 일 실시예에 따른 벡터 프로세서(180)가 룩업 테이블을 이용하여 게더 및 스캐터를 수행하여 메모리 뱅크 충돌 횟수를 감소시키는 방법이 도3내지 도10을 참조하여 상세히 후술된다.

상술한 바와 같이 메인 메모리(110)는 다중 뱅크 구조일 수 있다. 설명의 편의를 위해 메인 메모리(110)는 8개의 뱅크(120, 121, 122, 123, 124, 125, 126, 127)로 구성되어 있으며, 벡터 프로세서(180)는 8-way 벡터 연산을 수행한다고 가정한다.

도3에서 벡터 프로세서(180)는 8-way 벡터 연산을 수행하고, 벡터 레지스터(160)가 8-way 벡터를 저장하는 것으로 도시하였으나, 이에 제한되지 않고 벡터 프로세서(180) 및 벡터 레지스터(160)는 n-way 벡터를 처리하고 저장할 수 있음은 자명하다.

일 실시예에 따른 벡터 프로세서(180)는 게더(Gather)부(320) 및 룩업 테이블 생성부(340)를 포함할 수 있다. 또한 벡터 프로세서(180)는 게더부(320) 및 룩업 테이블 생성부(340)를 포함하는 제어부(미도시)를 포함할 수 있다.

일 실시예에 따른 룩업 테이블 생성부(340)는 복수의 룩업 테이블을 생성할 수 있다. 룩업 테이블 생성부(340)는 메인 메모리(110) 내부의 뱅크(120, 121, 122, 123, 124, 125, 126, 127) 각각에 대해서 또는 소정의 개수의 뱅크를 하나의 그룹으로 묶은 다음 각각의 그룹 별로 하나의 룩업 테이블을 생성할 수 있다. 즉, 룩업 테이블 생성부(340)는 메인 메모리(110) 내부의 복수의 뱅크들을 N개의 그룹으로 나누어 그룹별로 하나의 룩업 테이블을 생성할 수 있다. N은 1보다 큰 정수이다.

룩업 테이블은 메인 메모리(110)에 존재하는 현재 수행하는 벡터 연산에 필요한 데이터를 복사하여 저장하고 있는 테이블을 말한다. 예를 들어, 8K의 UHD급의 영상을 화질 개선을 수행하고자 할 때, 이미지의 래스터(raster) 순서대로16x16 크기의 가우시안 필터를 적용할 수 있다. 16x16 크기의 가우시안 필터를 적용하기 위해 필요한 256개의 가우시안 계수는 메인 메모리(110)상에 흩어져서 저장되어 있을 수 있다. 일 실시예예 따른 룩업 테이블 생성부(340)는 화질 개선을 수행하기 전의 초기화 단계에서, 메인 메모리(110)상에서 흩어져서 존재하는 모든 가우시안 계수에 대한 데이터를 복사하여 저장하고 있는 룩업 테이블을 복수 개 생성할 수 있다.

일 실시예에 따른 룩업 테이블 생성부(340)는 도4에 도시된 바와 같이 8개의 뱅크(120, 121, 122, 123, 124, 125, 126, 127)에 대해 모두 동일한 룩업 테이블을 생성할 수 있다. 이 경우, 생성되는 룩업 테이블은 8개가 되며, 생성된 각각의 룩업 테이블은 8개의 뱅크(120, 121, 122, 123, 124, 125, 126, 127) 각각에 저장될 수 있다.

또한 일 실시예에 따른 룩업 테이블 생성부(340)는, 도5에 도시된 바와 같이 메인 메모리(110)를 제1그룹(뱅크0(120), 뱅크1(121)), 제2그룹(뱅크2(122), 뱅크3(123)), 제3그룹(뱅크4(124), 뱅크5(125)), 제4그룹(뱅크6(126), 뱅크7(127))으로 그룹핑하고 각각의 그룹에 대해 하나의 룩업 테이블을 생성할 수 있다. 이 경우, 생성되는 룩업 테이블은 4개가 되며, 생성된 4개의 룩업 테이블은 2개의 뱅크 상에 분리되어 저장될 수 있다.

또한 일 실시예에 따른 룩업 테이블 생성부(340)는, 메인 메모리(110)를 제1그룹(뱅크0(120), 뱅크1(121), 뱅크2(122), 뱅크3(123)), 제2그룹(뱅크4(124), 뱅크5(125), 뱅크6(126), 뱅크7(127))으로 그룹핑하고 각각의 그룹에 대해 룩업 테이블을 생성할 수 있다. 이 경우, 생성되는 룩업 테이블은 2개가 된다.

일 실시예에 따른 룩업 테이블 생성부(340)는 룩업 테이블을 저장하는 메인 메모리(110)상의 공간과 벡터 프로세서(180)가 룩업 테이블을 접근함으로서 발생하는 메모리 충돌 횟수를 고려하여, 생성할 룩업 테이블의 개수를 결정할 수 있다. 즉, 각각의 룩업 테이블은 메인 메모리(110)상의 저장 공간이 필요하고 생성된 룩업 테이블의 개수가 많아질수록 뱅크에서 발생하는 충돌 횟수는 감소하므로 룩업 테이블의 개수와 메모리 뱅크 충돌은 상충 관계(Trade off)가 존재한다.

다시 말하면, 룩업 테이블 생성부(340)가 뱅크(120, 121, 122, 123, 124, 125, 126, 127)의 개수만큼 룩업 테이블을 생성하고, 게더부(320)가 뱅크의 개수와 동일한 엘리먼트 개수로 구성된 벡터를 생성하는 경우 복수 개의 데이터를 동시에 랜덤하게 읽어도 하나의 메모리 뱅크에는 하나의 접근만 수행된다. 이 경우 메모리 뱅크 충돌은 발생하지 않지만 룩업 테이블들을 저장하는 공간이 최대가 된다. 그러나, 소정의 개수의 뱅크 별로 룩업 테이블을 하나씩 생성한다면 메모리 뱅크 충돌 횟수는 증가하나 룩업 테이블을 저장하는 공간은 감소할 수 있다.

룩업 테이블 생성부(340)는 벡터 프로세서(180)의 성능을 중요시 한다면 룩업 테이블을 최대로(즉, 뱅크별로) 생성할 수도 있고, 룩업 테이블이 저장될 저장 공간을 고려하여 소정의 개수의 뱅크를 하나의 그룹으로 묶어 각각의 그룹에 대해 하나의 룩업 테이블을 생성할 수 있다. 룩업 테이블 생성부(340)는 소정의 개수의 뱅크를 하나의 그룹으로 묶어 각각의 그룹에 대해 룩업 테이블을 생성하는 경우에, 각각의 룩업 테이블은 인터리빙(interleaving) 형태로 복수의 메모리 뱅크에 저장될 수 있다. 이는 도5을 참조하여 상세히 후술한다.

게더(Gather)부(320)는 룩업 테이블을 이용하여, 메인 메모리(110)로부터 복수의 데이터를 읽을 수 있다. 복수의 데이터는 벡터 레지스터(160)에 벡터 형태로 저장될 수 있다. 게더부(320)는 복수의 룩업 테이블 별로 접근할 때 랜덤하게 생성된 복수의 인덱스로 구성된 인덱스 벡터를 이용하여 메인 메모리(110)상에 존재하는 각각의 룩업 테이블의 인덱스 위치에 접근할 수 있다.

예를 들어, 게더부(320)는 8개의 인덱스로 구성된 벡터를 인덱스 벡터를 이용하여8-way 벡터를 생성할 수 있다. 보다 구체적으로, 게더부(320)는 인덱스 벡터에 저장된 각각의 오프셋을 베이스 주소와 합한 메모리 주소(address)를 이용하여 각각의 룩업 테이블의 소정의 인덱스 위치에 접근하여 데이터를 읽을 수 있다.

게더부(320)는 복수의 룩업 테이블로부터 데이터를 읽음으로서, 일정한 읽기 사이클(Reading Cycle) 후에 벡터를 구성하는 모든 데이터를 게더하여 벡터 데이터를 생성할 수 있다.

일 실시예에 따른 메인 메모리(110)의 크기는 512KB(0x800x_0000 부터 0x800x_FFFF 까지)이고 각각의 뱅크(120, 121, 122, 123, 124, 125, 126, 127)들은 64KB 의 크기이다. 도4의 각 뱅크(120, 121, 122, 123, 124, 125, 126, 127)의 상단에 기재된 0x8000x~0x807x 는 각 뱅크의 메모리 시작 주소이다.

상술한 바와 같이 룩업 테이블은 8개의 뱅크 각각에 대해 또는 소정의 개수의 뱅크들을 하나의 그룹으로 묶고 각각의 그룹에 대해서 생성될 수 있다. 복수의 룩업 테이블은 룩업 테이블 생성부(340)에 의해 생성될 수 있다.

도4는 8개의 뱅크 각각에 대해 룩업 테이블이 생성되는 경우를 도시하며, 도5는 2개의 뱅크별로 하나의 룩업 테이블이 생성되는 경우를 도시한다.

도4는 8개의 뱅크들 중 뱅크 0(120), 뱅크3(123), 뱅크 7(127)에 대한 룩업 테이블(410, 415, 420)만 도시하였으며 나머지 룩업 테이블들은 생략하여 도시하였다. 또한 설명의 편의를 위해 각각의 룩업 테이블(410, 415, 420)내의 데이터는 각 인덱스와 동일한 값을 가지는 것으로 도시하였다.

일 실시예에 따른 룩업 테이블 생성부(340)는 룩업 테이블들을 2차원 배열 형태로 생성할 수 있다. 즉, 생성된 룩업 테이블의 개수를 I 라고 하고, 벡터 연산에 필요한 데이터의 개수를 J 라고 할 때, 룩업 테이블은I x J 의 2차원 배열로 생성될 수 있다. 각각의 룩업 테이블은 상위 주소를 달리하여 구별될 수 있다.

2차원 배열은 벡터 프로세서(180)가 벡터 연산을 수행하기 전에 초기화 단계에서 생성될 수 있다. 도4에서 뱅크는 8개(120, 121, 122, 123, 124, 125, 126, 127)이고 뱅크 각각에 대해 모두 룩업 테이블이 생성되었으므로, 생성된 룩업 테이블은 8개이고 각각의 룩업 테이블은 256개의 데이터를 포함하고 있으므로 8 x 256 크기의 2차원 배열이 선언될 수 있다.

일 실시예에 따른 벡터 프로세서(180)는 아래 표1과 같은 소프트웨어 코드를 이용하여, 게더를 수행할 수 있다. 표1의 소프트웨어 코드는 게더를 수행하는 일 실시예일 뿐이며 다른 형태로 구현될 수 있음은 자명하다.

표 1

ushort8 _I_intr_gather8_uh(ushort8 _I_src1, uchar** _I_src2){　　ushort8 ret;　　 ret = (ushort8)(0, 0, 0, 0, 0, 0, 0, 0);　　　　 ret.s0 = _I_src2[0][_I_src1.s0];　　 ret.s1 = _I_src2[1][_I_src1.s1];　　 ret.s2 = _I_src2[2][_I_src1.s2];　　 ret.s3 = _I_src2[3][_I_src1.s3];　　 ret.s4 = _I_src2[4][_I_src1.s4];　　 ret.s5 = _I_src2[5][_I_src1.s5];　　 ret.s6 = _I_src2[6][_I_src1.s6];　　 ret.s7 = _I_src2[7][_I_src1.s7];　　　　 return ret;}

표1의 코드를 참조하면, "ret"는 게더 연산을 수행하여 생성된 벡터이다. "ret" 벡터는 unsigned short 형의 데이터로 구성된 8-way 벡터이다. 즉, 표1에 기재된 "I_intr_gather8_uh" 함수는 8개의 인덱스를 사용하여 8개의 뱅크로부터 데이터를 읽어와 벡터를 생성할 수 있다.

"I_src1" 는 unsigned short 타입의 데이터로 구성된 8개의 인덱스를 포함하는 8-way 인덱스 벡터이다. "I_src1.s0, _I_src1.s1, ... , _I_src1.s7" 은 각각의 룩업 테이블로부터 읽어올 데이터가 존재하는 인덱스 위치이며 랜덤하게 생성된 인덱스일 수 있다.

"I_src2"는 unsigned character형의 2차원 배열로 선언된 룩업 테이블이다. 각각의 룩업 테이블(_I_src2[0 : 7])은 하나의 접근만 수행된다. 예를 들어, _I_src2[0]의 룩업 테이블로부터는 _I_src1.s0의 인덱스를 이용하여 데이터를 읽고 _I_src2[1]의 룩업 테이블로부터는 _I_src1.s1의 인덱스를 이용하여 데이터를 읽을 수 있다. 즉, 각각의 룩업 테이블 별로 인덱스를 달리하여 데이터를 읽을 수 있다. 즉, 랜덤하게 생성된 인덱스 벡터를 사용하여 메인 메모리(110)로부터 복수의 데이터를 읽어도 8개의 데이터 각각이 서로 다른 뱅크로부터 독출되므로 메모리 뱅크 충돌은 발생하지 않는다.

즉, 뱅크0(120)과 뱅크1(121)에 대한 룩업 테이블(530)을 생성하고, 뱅크2(122)와 뱅크3(123)에 대한 룩업 테이블(540)을 생성하고, 뱅크4(124)와 뱅크5(125)에 대한 룩업 테이블(550)을 생성하고, 뱅크6(126)과 뱅크7(127)에 대한 룩업 테이블(560)을 생성할 수 있다.

생성된 4개의 룩업 테이블 각각은 2개의 뱅크에 분리되어 저장된다. 예를 들어, 룩업 테이블(350)은 뱅크0(120)과 뱅크1(121)상에 분리되어 저장되고, 룩업 테이블(360)은 뱅크4(124)와 뱅크5(125)상에 분리되어 저장될 수 있다.

일 실시예에 따른 룩업 테이블은 복수의 뱅크에 인터리빙(interleaving, 510)형태로 저장될 수 있다. 즉, 인접한 메모리에 위치한 데이터를 서로 다른 두 개의 뱅크에 번갈아가면서 저장함으로서, 메모리 뱅크 충돌을 최소화할 수 있다. 예를 들어, 뱅크0(120)에는 {0,2,4, ..., 252, 254}의 인덱스의 데이터를 저장하고 뱅크1(121)에는 {1,3,5, ..., 253, 255}의 인덱스를 저장할 수 있다.

일 실시예에 따른 벡터 프로세서(180)는 아래 표2과 같은 소프트웨어 코드를 이용하여, 게더 연산을 수행할 수 있다. 표2의 소프트웨어 코드는 게더 연산을 수행하는 일 실시예일 뿐이며 다른 형태로 구현될 수 있음은 자명하다.

표 2

ushort8 _I_intr_gather8_uh(ushort8 _I_src1, uchar** _I_src2){ ushort8 ret; ret = (ushort8)(0, 0, 0, 0, 0, 0, 0, 0); ret.s0 = _I_src2[0][_I_src1.s0]; ret.s1 = _I_src2[0][_I_src1.s1]; ret.s2 = _I_src2[1][_I_src1.s2]; ret.s3 = _I_src2[1][_I_src1.s3]; ret.s4 = _I_src2[2][_I_src1.s4]; ret.s5 = _I_src2[2][_I_src1.s5]; ret.s6 = _I_src2[3][_I_src1.s6]; ret.s7 = _I_src2[3][_I_src1.s7]; return ret;}

표2의 코드에서, 변수에 대한 설명은 표1에서와 동일하므로 생략한다. 표1과 다른 점은, 최종적으로 반환되는 벡터 "ret"를 구성하는 8개의 엘리먼트들 중 두 개의 엘리먼트씩 같은 룩업 테이블을 참조하여 생성된다는 것이다. 예를 들어, "ret"의 첫 번째와 두 번째 엘리먼트는 룩업 테이블(530)을 참조하여 읽어온 데이터이고, 세 번째와 네 번째 엘리먼트는 룩업 테이블(540)을 참조하여 읽어온 데이터이다.

생성되는 룩업 테이블의 개수를 감소시킨다면 복수의 엘리먼트가 하나의 룩업 테이블을 참조하게 되므로 메모리 뱅크 충돌 횟수는 증가하지만, 상술한 바와 같이, 복수의 뱅크에 존재하는 하나의 룩업 테이블을 인터리빙 형태로 구현한다면, 메모리 충돌 횟수를 최소화할 수 있다.

도5에서 도시된 바와 같이, 뱅크0(120), 뱅크2(122), 뱅크4(124), 뱅크6(126)에는 짝수 인덱스의 데이터를 저장하고, 뱅크1(121), 뱅크3(123), 뱅크5(125), 뱅크7(127)에는 홀수 인덱스의 데이터를 저장하는 인터리빙(510) 형태로 룩업 테이블이 구현되어 있고, 호출하는 인덱스 벡터가 {짝수, 홀수, 짝수, 홀수, 짝수, 홀수, 짝수, 홀수}로 구성되어 있는 8-way 벡터인 경우 메모리 뱅크 충돌은 발생하지 않는다.

일 실시예에 따른 벡터 프로세서(180)는 게더(Gather)부(320), 룩업 테이블 생성부(340) 및 스캐터(Scatter)부(630)를 포함할 수 있다. 게더부(320)와 룩업 테이블 생성부(340)는 도3을 참조하여 상술하였으므로 생략한다.

스캐터부(630)는 게더부(320)에서 수행되는 과정의 역과정에 해당한다. 따라서, 이하 생략된 내용이라 하더라도 도 2내지 도5에서 게더부(320) 및 룩업 테이블 생성부(340)에 관하여 기술된 내용은 도6의 실시 예에 따른 스캐터부(630)에도 동일하게 적용된다.

스캐터부(630)는 벡터 레지스터(160)에 저장된 벡터 데이터를 엘리먼트 단위로 분리하여 다시 복수의 룩업 테이블에 저장할 수 있다. 벡터 레지스터(160)에는 게더부(320)가 생성한 벡터 데이터에 소정의 벡터 연산이 수행된 결과 벡터 데이터가 저장되어 있을 수 있다.

일 실시예에 따른 스캐터부(630)는 아래 표3과 같은 소프트웨어 코드를 이용하여, 스캐터를 수행할 수 있다. 표3의 소프트웨어 코드는 스캐터를 수행하는 일 실시예일 뿐이며 다른 형태로 구현될 수 있음은 자명하다.

표 3

void _I_intr_scatter8_uh(ushort8 _I_src1, ushort** _I_src2, ushort8 _I_src3){　　　　　　　　　　　_I_src2[0][_I_src1.s0] = _I_src3.s0;　　　　　　　　　　　_I_src2[1][_I_src1.s1] = _I_src3.s1;　　　　　　　　　　　_I_src2[2][_I_src1.s2] = _I_src3.s2;　　　　　　　　　　　_I_src2[3][_I_src1.s3] = _I_src3.s3;　　　　　　　　　　　_I_src2[4][_I_src1.s4] = _I_src3.s4;　　　　　　　　　　　_I_src2[5][_I_src1.s5] = _I_src3.s5;　　　　　　　　　　　_I_src2[6][_I_src1.s6] = _I_src3.s6;　　　　　　　　　　　_I_src2[7][_I_src1.s7] = _I_src3.s7;}

표3의 코드를 참조하면, "_intr_scatter8_uh" 함수는 벡터 레지스터(160)에 저장된 벡터(8-way vector)를 엘리먼트 단위로 분리하여 뱅크 별로 생성된 룩업 테이블의 소정의 위치에 저장할 수 있다. "I_src3"는 벡터 레지스터(160)에 저장되어 있는 벡터로서 벡터 연산이 수행된 결과 벡터를 저장하고 있을 수 있다. "I_src3"는 unsigned integer 형의 데이터로 구성된 8-way 벡터이다.

"I_src1"는 unsigned short 형의 데이터로 구성된 8-way 인덱스 벡터이다. 예를 들어, "_intr_scatter8_uh" 함수는 _I_src3.s3을 룩업 테이블 _I_src2[3]의 _I_src1.s3 의 위치에 저장할 수 있다.

상술한 바와 같이, 초기화 단계에서 룩업 테이블 생성부(340)는 동일한 복수개의 룩업 테이블을 생성하므로, 복수의 룩업 테이블의 데이터는 서로 동기화될 수 있다. 즉, 스캐터부(630)는 게더부(320)와 달리, 각각의 룩업 테이블의 소정의 인덱스 위치에 저장된 값을 변경하고, 다른 룩업 테이블의 동일한 인덱스 위치에도 변경된 값으로 동일하게 갱신할 수 있다. 이러한 룩업 테이블 간의 동기화는 도7을 참조하여 후술할 스위칭부(745)에 의해 구현될 수 있다.

다시 말하면, 스캐터부(630)는 벡터 레지스터(160)에 저장된 벡터의 엘리먼트 값이 변경되어 특정 룩업 테이블의 특정 인덱스에 저장된 값을 갱신한다면, 나머지 룩업 테이블에 대한 특정 인덱스에 저장된 데이터 역시 동일하게 갱신할 수 있다.

예를 들어, 벡터 연산이 수행된 후 뱅크0(120)의 12번째 인덱스(620)의 값이 X로 변경되었다면, 나머지 뱅크들(120, 121, 123, 124, 125, 126, 127)의 12번째 인덱스 위치의 값도 동일하게 X로 갱신할 수 있다.

그러나 스캐터부(630)는 모든 경우에 반드시 모든 룩업 테이블의 값을 동일하게 변경할 필요는 없으며, 도8내지 10을 참조하여 후술할 스위칭부(745)를 이용하여 선택적으로 스캐터 연산을 수행할 수 있다.

일 실시예에 따른 벡터 프로세서는 게더(Gather)부(320), 스캐터(Scatter)부(630), 스위칭부(745), 룩업 테이블 생성부(340)를 포함할 수 있다.

스위칭부(745)는 게더부(320) 및 스캐터부(630)의 각 뱅크에 대한 접근을 제어하여, 각각의 룩업 테이블의 소정의 인덱스 위치에 대해 게더 및 스캐터를 수행할지 여부를 결정할 수 있다. 스위칭부(745)는 각각의 룩업 테이블에 대응되는 서브 스위치부(미도시)를 포함할 수 있으며, 서브 스위치부는 게더부(320) 및 스캐터부(630)가 룩업 테이블이 존재하는 뱅크들 내의 소정의 인덱스 위치에 접근하는 것을 허용할지 여부를 결정할 수 있다.

각각의 서브 스위치부는 복수의 룩업 테이블이 존재하는 각 뱅크들에 대한 온(On)/오프(Off) 스위치를 가질 수 있다. 즉, 각각의 서브 스위치부는 뱅크들의 개수와 동일한 개수의 스위치를 포함하고 각 스위치는 각각의 뱅크에 대한 게더부(320) 및 스캐터부(630)의 접근 가능 여부를 결정할 수 있다.

서브 스위치부가 특정 뱅크에 대한 스위치를 오프(Off)시켰다면, 게더부(320)는 오프 상태의 뱅크로부터 데이터를 읽을 수 없고, 스캐터부(630) 역시 오프 상태의 뱅크에 데이터를 저장할 수 없다. 또한, 특정 뱅크에 대한 스위치가 온(On)되었다면, 게더부(320) 및 스캐터부(630)은 온-상태의 뱅크의 소정의 인덱스 위치에 대해 각각 게더와 스캐터를 수행할 수 있다.

예를 들어, 메인 메모리(110)에 8개의 뱅크가 존재하고, 뱅크 당 한 개의 룩업 테이블이 생성되어8개의 룩업 테이블이 존재하는 경우, 스위칭부(745)는 8개의 서브 스위치부를 포함할 수 있고, 각각의 서브 스위치부는 뱅크의 개수와 동일한 서브 스위치부를 포함할 수 있다. 벡터 프로세서(180)는 복수개의 동일한 룩업 테이블을 동기화시킬 필요가 있는 경우, 스위칭부(745)내의 각각의 서브 스위치부의 스위치를 적절하게 온(On)상태로 만들어 스캐터를 수행할 수 있다. 이는 도9를 참조하여 후술한다.

또한, 벡터 프로세서(180)가 각각의 룩업 테이블로부터 한 개 또는 두 개의 데이터를 게더하여 벡터 형태로 생성하는 경우, 스위칭부(745)내의 각각의 서브 스위치부 내의 한 개 또는 두 개의 스위치만 온(On)상태로 설정하여 게더를 수행할 수 있다. 이는 도8을 참조하여 후술한다.

도8a 는 일 실시예에 따른 벡터 프로세서가 게더를 수행하는 방법을 나타낸다.

설명의 편의를 위해, 벡터 연산에 필요한 데이터의 개수는 8개이고, 각각의 룩업 테이블은 두 개의 뱅크에 인터리빙 형태로 저장되어 있다고 가정한다. 예를 들어, 룩업 테이블(850)은 뱅크0(120)과 뱅크1(121)에 인터리빙 형태로 저장되었다. 게더부(320)는 룩업 테이블 별로 두 개의 데이터를 게더하여 8-way 벡터를 생성할 수 있다.

스위칭부(745)는 각각의 룩업 테이블과 대응되는 4개의 서브 스위치부(810, 820, 830, 840)를 포함할 수 있다. 각각의 서브 스위치부(810, 820, 830, 840) 내에는 뱅크(120, 121, 122, 123, 124, 125, 126, 127)의 개수와 동일한8개의 스위치를 포함할 수 있다. 각각의 서브 스위치부(810, 820, 830, 840) 내의 가장 좌측 상단의 스위치는 각 뱅크0(120)에 대한 접근을 제어하고, 가장 우측 하단의 스위치는 뱅크7(127)에 대한 접근을 제어할 수 있다.

서브 스위치부(810, 820, 830, 840)내의 스위치 중 온(On)상태로 설정된 스위치는 음영 처리하여 도시되었다. 이하, 서브 스위치부 내에서 가장 좌측 상단을 첫 번째 스위치라고 지칭하고 왼쪽에서 오른쪽의 순서로, 그 다음은 위에서 아래의 순서로 스위치에 순번을 매긴다. 즉, 서브 스위치부(810, 820, 830, 840)내의 가장 우측 하단의 스위치는 여덟 번째 스위치이다.

일 실시예에 따른 게더부(320)는 첫 번째, 두 번째 스위치가 온(On)되어 있는 서브 스위치부(810)를 이용하여, 뱅크0(120)과 뱅크1(121)에 저장되어 있는 룩업 테이블(850)의 인덱스0과 5의 데이터를 읽을 수 있다. 또 예를 들어, 게더부(320)는 다섯 번째, 여섯 번째 스위치가 온(On)되어 있는 서브 스위치부(830)를 이용하여, 뱅크4(124)와 뱅크5(125)에 저장되어 있는 룩업 테이블(870)의 인덱스4와 1의 데이터를 읽을 수 있다.

도8b 는 일 실시예에 따른 벡터 프로세서가 게더를 수행하는 방법을 나타낸다.

도8b는 룩업 테이블이 뱅크 별(120, 121, 122, 123, 124, 125, 126, 127)로 하나씩 생성된 경우를 도시한다. 스위칭부(745)는 각각의 룩업 테이블에 대응되는 8개의 서브 스위치부(815, 825, 835, 845, 855, 865, 875, 885)를 포함할 수 있다. 각각의 서브 스위치부(815, 825, 835, 845, 855, 865, 875, 885) 내에는 뱅크의 개수와 동일한 8개의 스위치를 포함할 수 있다.

일 실시예에 따른 벡터 프로세서(180)는 각각의 서브 스위치부(815, 825, 835, 845, 855, 865, 875, 885)에 포함된 8개의 스위치 중 하나의 스위치만 온 상태로 설정하여, 각 룩업 테이블(818, 828, 838, 848, 858, 868, 878, 888)로부터 소정의 인덱스 위치에 존재하는 한 개의 데이터를 읽을 수 있다.

예를 들어, 게더부(320)는 첫 번째 스위치가 온(On)되어 있는 서브 스위치부(815)를 이용하여, 뱅크0(120)에 저장된 룩업 테이블(818)의 인덱스0에 저장되어 있는 데이터를 읽고, 여섯 번째 스위치가 온(On)되어 있는 서브 스위치부(865)를 이용하여, 뱅크5(125)에 저장된 룩업 테이블(868)의 인덱스7에 저장되어 있는 데이터를 읽을 수 있다.

도9 는 일 실시예에 따른 벡터 프로세서가 스캐터를 수행하는 방법을 나타낸다.

설명의 편의를 위해, 하나의 룩업 테이블은 4개의 데이터를 저장하고 있으며, 두 개의 뱅크에 인터리빙 형태로 저장되어 있다고 가정한다. 예를 들어, 룩업 테이블(950)은 뱅크0(120)과 뱅크1(121)에 인터리빙 형태로 저장되었다. 즉, 각 룩업 테이블의 인덱스 0, 2 는 짝수 번째 뱅크(120, 122, 124, 126)에 존재하며, 인덱스 1, 3은 홀수 번째 뱅크(121, 123, 125, 127)에 존재한다.

일 실시예에 따른 스캐터부(630)은 벡터 레지스터(160)에 저장된 벡터를 엘리먼트 단위로 분리하여 룩업 테이블 (950, 960, 970, 980)로 흩어지게 저장할 수 있다.

예를 들어, 기존에 벡터 레지스터(160)에 저장되어 있었던 벡터가 4-way 벡터이고, 벡터 연산이 수행된 후 벡터의 모든 엘리먼트가 갱신되었다고 가정한다. 스캐터부(630)는 4-way의 벡터의 첫 번째 엘리먼트를 룩업 테이블(950)로 저장하고, 두 번째 엘리먼트를 룩업 테이블(960)로 저장하고, 세 번째 엘리먼트를 룩업 테이블(970)로 저장하고, 네 번째 엘리먼트를 룩업 테이블(980)로 저장할 수 있다. 즉, 4개의 엘리먼트는 각각의 룩업 테이블(950, 960, 970, 980)내의 서로 다른 인덱스에 흩어지게 저장될 수 있다.

그러나 상술한 바와 같이, 복수의 룩업 테이블은 동기화가 필요할 수 있다. 벡터 프로세서(180)는 각각의 서브 스위치부(910, 920, 930, 940)에 존재하는 8개의 스위치를 적절하게 온(On) 상태로 설정하여, 각각의 룩업 테이블 내의 모든 인덱스 위치에 대해 스캐터를 수행할 수 있다.

즉, 서브 스위치부(910)의 첫 번째, 세 번째, 다섯 번째, 일곱 번째 스위치를 온(On)하여 각 룩업 테이블(950, 960, 970, 980)의 인덱스 2에 데이터를 저장할 수 있다.

또한, 서브 스위치부(920)의 두 번째, 네 번째, 여섯 번째, 여덟 번째 스위치를 온(On)하여 각 룩업 테이블(950, 960, 970, 980)의 인덱스3에 데이터를 저장할 수 있다.

또한, 서브 스위치부(930)의 첫 번째, 세 번째, 다섯 번째, 일곱 번째 스위치를 온(On)하여 각 룩업 테이블(950, 960, 970, 980)의 인덱스 0에 데이터를 저장할 수 있다.

또한, 서브 스위치부(940)의 두 번째, 네 번째, 여섯 번째, 여덟 번째 스위치를 온(On)하여 각 룩업 테이블(950, 960, 970, 980)의 인덱스1에 데이터를 저장할 수 있다.

결과적으로 각각의 룩업 테이블(950, 960, 970, 980)내의 인덱스0부터 3까지 저장된 모든 데이터가 갱신될 수 있다.

룩업 테이블의 동기화가 필요 없는 경우, 벡터 프로세서(180)는 각각의 서브 스위치부(910, 920, 930, 940)중 일부의 스위치만 온(On) 상태로 설정하여 스캐터를 수행할 수 있음은 자명하다. 예를 들어, 도9에는 도시되지 않았지만, 서브 스위치부(910)의 첫 번째 스위치만을 온(On)하여 뱅크0(120)에 저장된 룩업 테이블(950)의 인덱스2의 위치에 데이터를 저장할 수 있다. 또한, 서브 스위치부(920)의 네 번째 스위치만을 온(On)하여 뱅크3(123)에 저장된 룩업 테이블(960)의 인덱스3의 위치에 데이터를 저장할 수 있다. 또한, 서브 스위치부(930)의 다섯 번째 스위치만을 온(On)하여 뱅크4(124)에 저장된 룩업 테이블(970)의 인덱스0의 위치에 데이터를 저장할 수 있다. 또한, 서브 스위치부(940)의 여덟 번째 스위치만을 온(On)하여 뱅크7(127)에 저장된 룩업 테이블(980)의 인덱스1의 위치에 데이터를 저장할 수 있다.

일 실시예에 따른 게더(Gather)부(320), 스캐터(Scatter)부(630), 스위칭부(745), 룩업 테이블 생성부(340)는 벡터 프로세서(180)의 구조를 변경하지 않고, 룩업 테이블의 생성 및 벡터 프로세서의 로드와 스토어 연산만을 확장하여 구현될 수 있다. 따라서, 벡터 프로세서(180)의 ISA(Instruction set architecture)를 변경하지 않는 인트린직(Intrinsic)형태로 구현되어 벡터 프로세서(180)의 구조 수정 또는 추가적인 하드웨어 없이 구현할 수 있다.

이하 일 실시예에 따른 벡터 프로세서(180)가 메모리에 접근하여 데이터를 게더 및 스캐터를 수행하는 방법이 도10 내지 13 의 흐름도를 참조하여 후술된다. 도10내지 13는 도1내지9에서 도시된 벡터 프로세서(180)에서 수행되는 게더 및 스캐터를 수행하는 방법을 설명하기 위한 도면이다. 따라서, 이하 생략된 내용이라 하더라도 도1내지9에서 벡터 프로세서(180)에 관하여 이상에서 기술된 내용은 도10내지 13의 일 실시 예에 따른 게더 및 스캐터 방법에도 적용된다.

단계 1020에서, 벡터 프로세서(180)는 메인 메모리에 대해 복수의 룩업 테이블을 생성할 수 있다. 룩업 테이블은 메인 메모리에 저장된 데이터 중 현재 수행하는 벡터 연산에 필요한 데이터를 복사하여 저장하고 있는 테이블을 말한다. 메인 메모리는 다중 뱅크구조일 수 있다. 생성된 룩업 테이블은 각각의 뱅크 또는 복수의 뱅크의 뱅크에 분리되어 저장될 수 있다.

단계 1030에서, 벡터 프로세서(180)는 룩업 테이블로부터 복수의 데이터를 읽어 벡터 데이터를 생성하는 게더(Gather)를 수행할 수 있다. 보다 구체적으로, 일 실시예에 따른 벡터 프로세서(180)는 생성된 룩업 테이블을 이용하여, 메인 메모리로부터 복수의 데이터를 읽어와 벡터 레지스터에 벡터 형태로 저장하는 게더 연산을 수행할 수 있다.

단계 1030에서, 벡터 프로세서(180)는 랜덤하게 생성된 복수의 인덱스로 구성된 인덱스 벡터를 이용하여 메인 메모리 상에 존재하는 각각의 룩업 테이블의 인덱스 위치에 접근하여 데이터를 읽을 수 있다.

단계 1110에서, 벡터 프로세서(180)는 생성할 룩업 테이블의 개수를 결정할 수 있다. 일 실시예에 따른 벡터 프로세서(180)는 룩업 테이블을 저장하는 메인 메모리상의 공간과 벡터 프로세서가 룩업 테이블을 접근함으로서 발생하는 메모리 충돌 횟수의 상충 관계(Trade off)를 고려하여, 생성할 룩업 테이블의 개수를 결정할 수 있다.

단계 1120에서, 벡터 프로세서(180)는 메모리 뱅크의 개수와 동일한 개수의 룩업 테이블을 생성할 것인지 판단하여, 생성하는 룩업 테이블의 개수가 뱅크의 개수와 동일하다면 단계 1140으로 넘어가고 그렇지 않으면 단계 1130으로 넘어간다.

단계 1130에서, 벡터 프로세서(180)는 생성된 룩업 테이블 각각을 복수의 뱅크에 분리하여 저장할 수 있다. 일 실시예에 따른 벡터 프로세서(180)는 룩업 테이블 각각을 복수의 뱅크에 인터리빙 형태로 분리하여 저장할 수 있다. 즉, 복수의 데이터를 서로 다른 뱅크에 번갈아가면서 저장함으로서 메모리 뱅크 충돌을 최소화할 수 있다.

단계 1140에서, 벡터 프로세서(180)는 뱅크 별로 하나의 룩업 테이블을 생성할 수 있다. 각각의 룩업 테이블은 각각의 뱅크 내에 저장된다.

단계 1020 과 단계 1030은 도10를 참조하여 상술하였으므로 생략한다.

일 실시예에 따른 벡터 프로세서(180)는 벡터 데이터를 룩업 테이블로 흩어지게 저장하는 스캐터(Scatter)를 수행할 수 있다.

단계 1230 에서, 일 실시예에 따른 벡터 프로세서(180)는 벡터 레지스터에 저장된 벡터를 엘리먼트 단위로 분리하여 다시 룩업 테이블에 저장할 수 있다. 벡터 레지스터에 저장된 벡터는 단계 1030에서 생성된 벡터에 벡터 연산을 수행하고, 연산이 수행된 결과 벡터 데이터가 저장되어 있으며, 단계 1230에서 결과 벡터 데이터를 다시 복수의 룩업 테이블로 저장할 수 있다.

단계 1230에서, 일 실시예에 따른 벡터 프로세서(180)는 룩업 테이블 간의 동기화를 위해, 특정 룩업 테이블의 특정 인덱스에 저장된 값을 갱신하면, 나머지 룩업 테이블에 대한 특정 인덱스에 저장된 데이터 역시 동일하게 갱신할 수 있다.

단계 1020, 단계 1030, 단계 1230은 도 10 및 도12를 참조하여 상술하였으므로 생략한다.

일 실시예에 따른 벡터 프로세서(180)는 게더를 수행(단계 1030)하거나 스캐터를 수행(단계 1230)하기 전에, 단계 1310에서 각 룩업 테이블의 소정의 인덱스 위치에 대해 접근 허용 여부를 결정할 수 있다. 즉, 벡터 프로세서(180)는 각각의 룩업 테이블이 저장된 각 뱅크에 대해 접근 가능 여부를 결정함으로서, 게더(단계 1030) 또는 스캐터(단계 1230)를 수행할 대상이 되는 룩업 테이블의 인덱스 위치를 결정할 수 있다.

단계 1030에서, 각각의 룩업 테이블 내에서 접근이 허용된 소정의 인덱스 위치에 존재하는 데이터를 읽어 벡터 데이터를 생성할 수 있다. 일 실시예에 따른 벡터 프로세서(180)는 접근이 가능한 뱅크에 존재하는 룩업 테이블로부터 소정의 위치에 저장된 데이터를 읽어 벡터 데이터를 생성할 수 있다.

단계 1230에서, 벡터 데이터를 각각의 룩업 테이블 내에서 접근이 허용된 소정의 인덱스 위치에 저장할 수 있다. 일 실시예에 따른 벡터 프로세서(180)는 접근이 가능한 뱅크에 존재하는 룩업 테이블로 소정의 위치에 데이터를 저장할 수 있다.

일 실시예에 따른 벡터 프로세서(180)는 범용 프로세서, 디지털 신호처리 프로세서(DSP), 응용특화 명령어 셋 프로세서 (ASIP), 그래픽 처리 장치(Graphic Processing Unit) 등의 벡터 연산을 수행하는 대부분의 프로세서에 적용 가능하다.

한편, 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM. CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송 등과 같은 캐리어 웨이브의 형태로 구현되는 것도 포함한다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 프로세서가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

본 발명은 특정한 최상의 실시 예와 관련하여 설명되었지만, 이외에 본 발명에 대체, 변형 및 수정이 적용된 발명들은 전술한 설명에 비추어 당업자에게 명백할 것이다. 즉, 청구영역은 이러한 모든 대체, 변형 및 수정된 발명을 포함하도록 해석한다. 그러므로 이 명세서 및 도면에서 설명한 모든 내용은 예시적이고 비제한적인 의미로 해석해야 한다.

Claims

복수의 메모리 뱅크(Bank); 및

상기 복수의 메모리 뱅크에 저장된 데이터 중 벡터 연산에 필요한 데이터를 복사하여 저장한 복수의 룩업 테이블을 생성하고, 상기 복수의 룩업 테이블로부터 데이터를 읽어 벡터 데이터를 생성하는 제어부를 포함하는 장치.
제1항에 있어서, 상기 제어부는,

상기 복수의 룩업 테이블을 생성하는 룩업 테이블 생성부; 및

상기 복수의 룩업 테이블로부터 데이터를 읽어 벡터 데이터를 생성하는 게더(Gather)부를 포함하는 장치.
제1항에 있어서, 상기 제어부는,

상기 각각의 뱅크에 하나의 룩업 테이블을 생성하여, 상기 복수의 뱅크들의 개수와 동일한 개수의 룩업 테이블을 생성하는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 제어부는,

상기 복수의 뱅크들을 소정의 그룹으로 나누어, 상기 그룹별로 하나의 룩업 테이블을 생성하고,

상기 그룹별로 생성된 하나의 룩업 테이블은 상기 그룹에 속하는 복수개의 뱅크에 인터리빙(interleaving)형태로 저장되는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 제어부는,

랜덤(random)하게 생성된 복수의 인덱스로 구성된 인덱스 벡터를 이용하여 상기 각각의 룩업 테이블을 접근하고, 상기 각각의 룩업 테이블 내의 상기 인덱스 위치에 저장된 데이터를 읽는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 제어부는,

상기 벡터 데이터에 소정의 벡터 연산이 수행된 결과 벡터 데이터를 엘리먼트 단위로 분리하여 상기 복수의 룩업 테이블로 저장하는 것을 특징으로 하는 장치.
제6항에 있어서, 상기 제어부는,

상기 각각의 엘리먼트를 상기 각각의 룩업 테이블 내의 소정의 인덱스 위치에 저장하는 것을 특징으로 하는 장치.
제6항에 있어서, 상기 제어부는,

상기 복수의 룩업 테이블들 중 어느 하나의 룩업 테이블 내의 제1인덱스에 저장된 데이터의 값이 변경되면, 변경되지 않은 나머지 룩업 테이블의 상기 제1인덱스에 저장된 데이터를 상기 변경된 값으로 갱신하는 것을 특징으로 하는 장치.
제6항에 있어서,

상기 각각의 룩업 테이블에 대응하는 복수의 서브 스위치부로 구성된 스위칭부를 더 포함하고,

상기 복수의 서브 스위치부는 상기 제어부가 상기 각각의 룩업 테이블의 소정의 인덱스 위치에 접근하는 것을 허용할지 여부를 결정하는 것을 특징으로 하는 장치.
제9항에 있어서, 상기 복수의 서브 스위치부는,

상기 각각의 뱅크와 대응되는 복수의 스위치를 포함하고,

상기 각각의 스위치는 상기 각각의 뱅크에 대한 상기 제어부의 접근 가능 여부를 결정하는 것을 특징으로 하는 장치.
복수의 메모리 뱅크(Bank)에 저장된 데이터 중 벡터 연산에 필요한 데이터를 복사하여 저장한 복수의 룩업 테이블을 생성하는 단계; 및

상기 룩업 테이블로부터 데이터를 읽어 벡터 데이터를 생성하는 단계를 포함하는 방법.
제11항에 있어서, 상기 룩업 테이블을 생성하는 단계는,

상기 각각의 뱅크에 하나의 룩업 테이블을 생성하여, 상기 각각의 뱅크에 상기 복수의 뱅크들의 개수와 동일한 개수의 룩업 테이블을 생성하는 것을 특징으로 하는 방법.
제11항에 있어서, 상기 룩업 테이블을 생성하는 단계는,

상기 복수의 뱅크들을 소정의 그룹으로 나누어, 상기 그룹별로 하나의 룩업 테이블을 생성하고,

상기 그룹별로 생성된 하나의 룩업 테이블은 상기 그룹에 속하는 복수개의 뱅크에 인터리빙(interleaving)형태로 저장되는 것을 특징으로 하는 방법.
제11항에 있어서, 상기 룩업 테이블로부터 데이터를 읽어 벡터 데이터를 생성하는 단계는,

랜덤(random)하게 생성된 복수의 인덱스로 구성된 인덱스 벡터를 이용하여 상기 각각의 룩업 테이블을 접근하고, 상기 각각의 룩업 테이블 내의 상기 인덱스 위치에 저장된 데이터를 읽는 것을 특징으로 하는 방법.
제 11항 내지 14항 중 어느 한 항에서 수행되는 방법을 컴퓨터에서 실행시키기 위 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.