KR20070046496A

KR20070046496A - 빠른 곱셈기능을 갖는 ｄｓｐ에서의 레지스터 파일 구조

Info

Publication number: KR20070046496A
Application number: KR1020050103270A
Authority: KR
Inventors: 김정욱
Original assignee: 삼성전자주식회사
Priority date: 2005-10-31
Filing date: 2005-10-31
Publication date: 2007-05-03

Abstract

본 발명은 빠른 곱셈기능을 갖는 DSP의 레지스터 파일 구조를 개시한다. 본 발명에 의한 DSP의 레지스터 파일 구조는, 복수의 레지스터를 구비하며 일부의 레지스터들을 구성하는 소정 비트수의 단위들이 행렬 형태를 이루며 컬럼방향으로 인접한 다른 레지스터의 비트수 단위들과 접속되어 컬럼 레지스터를 형성하고, 로우와 컬럼 레지스터 각각에 접속된 멀티플렉서에 의해 각각 로우 방향의 레지스터들의 소정 비트수의 단위에 저장된 데이터인 컬럼 레지스터에 저장된 데이터를 하나의 명령어로 추출하여 로우 방향의 레지스터에 저장된 데이터와 곱셈 연산을 수행함으로써, 영상처리 알고리듬 수행시에 적용되는 곱셈연산을 적은 클럭수로 신속하게 수행할 수 있다.

Description

빠른 곱셈기능을 갖는 ＤＳＰ에서의 레지스터 파일 구조{Register file structure of digital signal processor having enhanced multiplication speed}

도 1은 종래의 DSP에서의 레지스터 파일의 구성도이다.

도 2는 일반적인 레지스터 파일을 이용한 연산을 설명하기 위한 구성도이다.

도 3은 테트라헤드럴 보간 알고리듬 수행시 종래의 DSP에서의 레지스터 파일의 데이터 배치도이다.

도 4는 본 발명에 의한 DSP에서의 레지스터 파일의 구성도이다.

도 5는 도 4의 구성도로서 테트라헤드럴 보간 알고리듬 수행시 레지스터 파일의 데이터 배치도이다.

<도면의 주요 부분에 대한 부호의 설명>

R2~R7 ... 레지스터, SR0~SR3 ... 컬럼 레지스터

400 ... 제1멀티플렉서, 410 ... 제2멀티플렉서

420 ... 제3멀티플렉서, 440 ... 제4멀티플렉서

본 발명은 DSP(digital signal processor)에서의 레지스터 파일 구조에 관한 것으로서, 보다 상세하게는 영상처리 알고리듬 수행시에 자주 나타나는 레지스터 파일에서의 데이터 배치에 따라 DSP 레지스터의 파일의 구조를 변경하여 곱셈연산의 처리 속도를 향상시킨 빠른 곱셈기능을 갖는 DSP에서의 레지스터 파일 구조에 관한 것이다.

일반적으로 DSP는 프로그램이 가능하면서 영상처리 알고리듬을 일반 CPU보다 높은 연산성능을 가지고 있어, 다양한 영상처리 분야에서 사용되고 있다. 이러한 프로그램 처리가 가능한 DSP와 같은 하드웨어의 내부에 있는 저장공간으로서 레지스터 파일은 그 크기는 매우 작으나 해당 하드웨어의 코어와 동일한 빠른 속도로 데이터를 입출력할 수 있다.

레지스터 파일은 일정한 비트 폭의 레지스터들이 인덱스로 묶여 있고, 비트 폭은 일반적으로 많이 사용되는 32-비트 DSP는 32비트의 비트 폭을 가지고 있으며 엔트리의 숫자는 8개, 16, 32개 등으로 다양하다. 예컨대, ARM 프로세서와 MIPS 프로세서의 경우는 16개의 32비트 레지스터로 구성된 레지스터 파일을 구비하고 있으며, TI사의 TMS320C6200 DSP는 32비트 레지스터를 32개 가진 레지스터 파일을 구비하고 있다.

도 1은 일반적인 레지스터 파일을 이용한 연산을 설명하기 위한 구성도이다.

이러한 레지스터 파일을 이용한 연산은 명령어를 통해 이루어지는데, 명령어는 소스 데이터를 가진 레지스터 파일의 인덱스, 타겟이 되는 레지스터 파일의 인덱스, 그리고 연산의 종류를 명시한다. DSP 코어에서 명령어를 실행되는데 소스 레지스터(10,12)에서 데이터를 가져와서 수행유닛(14)에서 연산을 수행하며, 수행된 연산의 결과는 타겟 레지스터(16)에 저장된다. 소스 레지스터(10,12)는 1개, 2개, 3개 등 그 이상의 복수개가 될 수 있으며, 타겟 레지스터는 1개나 2개 정도가 된다. 예컨대, add R3, R2, R1이라는 명령어가 수행되는 경우, 레지스터 파일의 첫번째 엔트리의 레지스터에 있는 데이터와 두번째 엔트리에 있는 데이터를 가져와서 덧셈 연산을 한 후, 그 결과를 레지스터 파일의 세번째 엔트리에 있는 레지스터에 저장하라는 의미이다. 이 경우 1 사이클에 1개 이상이 수행된다.

도 2는 종래의 DSP 레지스터 파일의 일예의 구성도이다.

데이터를 저장하는 32비트의 레지스터(200 내지 214)각각은 제1멀티플렉서(216)와 제2멀티플렉서(218)에 접속되며, 소스0와 소스1 인덱스의 값에 따라 레지스터(200 내지 214)에서 특정레지스터의 데이터가 소스데이터로서 선택되어 출력되고 수행유닛(14)에서 연산된다.

종래 레지스터 파일 구조를 이용하여 영상처리하는 알고리듬의 일예로서 테드라헤드럴 보간의 알고리듬은 컬러 스페이스 컨버젼 응용에 사용되어지며, 디지털 카메라, 캠코더, 프린터 등 영상처리를 이용하는 기기에서 모두 적용될 수 있다.

도 3은 테트라헤드럴(tetrahedral) 보간 알고리듬 실행시 종래의 DSP에서의 레지스터 파일의 데이터 배치도이다.

테트라헤드럴 보간 알고리듬에 따라 수행해야 할 영상데이터의 연산은 다음과 같다.

R_C = CA_C*D0 + CB_C*D1 + CC_C*D2 + CD_C*D3

R_M = CA_M*D0 + CB_M*D1 + CC_M*D2 + CD_M*D3

R_Y = CA_Y*D0 + CB_Y*D1 + CC_Y*D2 + CD_Y*D3

R_K = CA_K*D0 + CB_K*D1 + CC_K*D2 + CD_K*D3

먼저 레지스터(R2, R4 내지 R8) 파일에 도 3과 같이 데이터를 배치하고, 첫 번째 수식에 대한 연산을 위해 다음과 같은 각 단계를 수행한다.

1. R2에서 31비트~24비트 부분인 D0를 추출하여 R9에 저장한다.

2. R4에서 31비트~24비트 부분인 CA_C를 추출하여 R10에 저장한다.

3. R9와 R10를 곱하여 R12에 저장한다.

4. R2에서 23비트~16비트 부분인 D1를 추출하여 R9에 저장한다.

5. R5에서 31비트~24비트 부분인 CB_C를 추출하여 R10에 저장한다.

6. R9와 R10의 데이터를 곱하여 R11에 저장한다.

7. R11과 R12의 데이터를 더하여 R12에 저장한다.

8. R2에서 15비트~8비트 부분인 D2를 추출하여 R9에 저장한다.

9. R6에서 31비트~24비트 부분인 CC_C를 추출하여 R10에 저장한다.

10. R9와 R10의 데이터를 곱하여 R11에 저장한다.

11. R11과 R12의 데이터를 더하여 R12에 저장한다.

12. R2에서 7비트~0비트 부분인 D0를 추출하여 R9에 저장한다.

13. R7 레지스터에서 31비트~24비트 부분인 CD_C를 추출하여 R10에 저장한다.

14. R9와 R10를 곱하여 R11에 저장한다.

15. R11과 R12를 더하여 R12에 저장한다.

16. R12의 결과중 15비트~8비트 부분을 추출하여 R8 레지스터의 31비트~24비트 부분인 R_C에 저장한다. 여기서, R9 내지 R12는 미도시된 레지스터이다.

나머지 R_M, R_Y, R_K의 연산결과를 구하기 위해서도 상술된 단계를 반복하여 연산해야 하며, 예컨대 TI의 TMS320C32xx series DSP에서는 클럭이 60~70개 정도 소요된다. 따라서 상기 알고리듬을 수행하기 위해서는 종래의 레지스터 파일 구조에서는 8비트 데이터를 각각 다른 레지스터에서 추출한 다음에 MAC 연산을 해야 하기 때문에 전체적인 연산속도가 저하된다.

이에 따라, 종래의 레지스터 파일 구조로는 빠른 연산을 수행하는 데 한계가 있었으며, 보다 연산속도가 향상된 레지스터 파일 구조가 요구되었다.

본 발명의 기술적 과제는 상기와 같은 영상처리 알고리듬의 곱셈 연산을 보다 신속하게 처리할 수 있는 DSP 레지스터 파일의 구조를 제공하는 데 있다.

상기 기술적 과제를 달성하기 위한 본 발명의 복수의 레지스터를 구비하며 일부의 레지스터들을 구성하는 소정 비트수의 단위들이 행렬 형태를 이루며 컬럼방향으로 상기 비트수 단위들과 접속이 가능한 빠른 곱셈기능을 갖는 DSP의 레지스터 파일 구조는,

n개의 비트수를 갖고 로우 방향이 소정 비트수로 분할된 복수의 레지스터; 상기 복수의 로우 방향의 레지스터 중 소정 개수의 레지스터에 접속하여 제1소스 인덱스신호에 따라 하나의 레지스터를 선택하여 해당 비트들을 소스0 데이터로 출 력하는 제1멀티플렉서; 상기 복수의 로우 방향의 레지스터 중 소정 개수의 레지스터에 접속하여 제1소스 인덱스신호에 따라 하나의 레지스터를 선택하여 해당 비트들을 출력하는 제2멀티플렉서; 상기 레지스터내에서 분할된 로우 방향의 각 소정 비트수 단위가 인접되어 있는 레지스터들의 로우 방향의 소정의 비트수 단위와 컬럼방향으로 접속되어 형성된 복수의 컬럼 레지스터; 제2소스 인덱스 신호에 따라 상기 컬럼 레지스터들 중 하나를 선택하여 해당 비트들을 출력하는 제3멀티플렉서; 및 상기 제2멀티플렉서와 제3멀티플렉서의 출력을 제3소스 인덱스 신호에 따라 선택하여 출력하는 제4멀티플렉서를 포함함이 바람직하다.

또한, 상기 컬럼 레지스터의 비트의 개수는 상기 레지스터의 비트수와 동일하게 설정됨이 바람직하다.

또한, 상기 각 인덱스 신호는 명령어에 따라 상기 DSP의 코어에서 생성됨을 특징으로 한다.

이하, 첨부 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.

DSP는 연산량이 많은 알고리듬을 수행하기 위해서 CPU에 비해 특수한 명령어들을 가지고 있으며, 그 중에 대표적인 것이 MAC (Multiplication-and-Accumulation) 연산이며, 이 연산은 다음과 같은 형태를 지닌다.

dst = src1*src2 + LA

LA(last accumulator)는 DSP내부의 특수한 레지스터로 지난 번 연산 결과를 저장하고 있다. 따라서 MAC 명령어를 연속으로 사용한다면 다음과 같은 연산을 빠 르게 수행할 수 있다.

dst = src1*src2 + src3*src4 + src5*src6 + src7*src8

상술된 알고리듬에서와 같이 이러한 형태의 연산 빈도는 상당히 높다. 그러나 src1, src2 등의 레지스터는 32비트의 크기를 가지며 영상정보는 8비트이기 때문에 단순히 MAC 명령어만을 이용한다면 사전에 32비트 레지스터에서 8비트 데이터 4개를 각각 추출하는 연산이 필요하다. 따라서 이를 위한 명령어로 Quad MAC이 지원되는데, 이 명령어의 연산형태는 다음과 같다.

dst = src1_0*src2_0 + src1_1*src2_1 + src1_2*src2_2 + src1_3*src2_3

여기서, src1_0은 31비트~24비트, src1_1은 23비트~16비트, src1_2는 15비트~8비트, src1_3은 7비트~0비트번째의 데이터이다.

이 Quad MAC 명령어를 이용하면 비트 추출을 따로 하지 않아도 되고 4개의 MAC연산을 한 번에 수행할 수 있으며, 8비트 곱셈이기 때문에 하드웨어의 추가가 적게 적용된다.

Quad MAC에서 연산의 단위가 되는 8비트는 모두 한 개의 32비트 레지스터에 속해야 하는 것들이나, 위의 알고리듬의 연산을 살펴보면 8비트의 데이터가 각각 다른 레지스터에서 추출되는 것을 알 수 있다. 본 발명에서는 종래의 레지스터 파일 구조에서 각각 다른 레지스터에서 추출이 동시에 가능하도록 한 컬럼 레지스터 파일 구조를 구현하여 상기 알고리듬에서 Quad MAC을 사용하여 연산 처리 속도를 향상시킨다.

도 4는 본 발명에 의한 DSP 레지스터 파일 구조를 설명하기 위한 개략도이 다.

레지스터 (R2, R4 내지 R7)은 종래의 레지스터와 동일하게 32비트로 구성되어 있으며, 레지스터(R4 내지 R7)는 매트릭스 구조로서 컬럼 방향으로도 32비트의 컬럼 레지스터(SR0 내지 SR3)로 구성된다. 레지스터(R7)는 다른 레지스터와 동일하게 4개의 8비트군(40 내지 46) 즉, 31비트~ 24비트, 23비트~16비트, 15비트~8비트, 7비트~0비트군으로 분할되며, SR0는 R4 내지 R7의 각각의 31비트~24비트군 컬럼방향으로 형성된 32비트 레지스터를 형성한다. 동일하게 , SR1은 R4 내지 R7의 각각의 23비트~16비트군을 컬럼방향으로 형성된 32비트 컬럼 레지스터를 형성한다

SR2와 SR3도 각각 대응된 컬럼방향의 비트군이 조합된 동일한 구조의 32비트 컬럼 레지스터로 구성된다.

레지스터(R2, R4 내지 R7)의 각각의 32비트는 제1멀티플렉서(400)에 접속되어 소스0 인덱스 신호에 따라 하나의 레지스터에 해당하는 32비트가 선택되어 출력된다.

또한, 각각의 32비트는 제2멀티플렉서(410)에 접속되어 소스1 인덱스신호에 따라 하나의 레지스터에 해당하는 32비트가 선택되어 출력된다.

또한, 레지스터(SR0 내지 SR3)는 제3멀티플렉서(420)에 접속되어 소스1 인덱스 신호에 따라 컬럼방향의 32비트의 컬럼 레지스터가 선택되어 출력된다.

제4멀티플렉서(440)는 제2와 제3멀티플렉서(410, 420)에서 각각 출력되는 32비트를 인덱스 신호인 PER-MAC신호에 따라 선택하여 출력한다. 여기서, 각 멀티플렉서에 인가되는 인덱스 신호는 명령어에 따라 미도시된 DSP 코어에서 출력되는 제 어신호이다.

도 5는 도 4의 데이터 파일 구조에서의 테드라헤드럴 보간 알고리듬 수행시의 데이터 배치도이다.

테드라헤드럴 보간 알고리듬에서 데이터는 도 5의 레지스터 파일에서와 같이 배치되며, 수행해야 할 연산은 다음과 같다.

R_C = CA_C*D0 + CB_C*D1 + CC_C*D2 + CD_C*D3

R_M = CA_M*D0 + CB_M*D1 + CC_M*D2 + CD_M*D3

R_Y = CA_Y*D0 + CB_Y*D1 + CC_Y*D2 + CD_Y*D3

R_K = CA_K*D0 + CB_K*D1 + CC_K*D2 + CD_K*D3

첫번째 R_C를 연산하기 위해서 다음과 같은 단계를 수행한다.

1. R2와 SR0에 저장된 데이터의 곱셈을 Quad MAC 명령어로 수행하여 그 결과를 미도시된 레지스터 R9에 저장한다.

2. R9에 저장된 데이터를 R8의 R_C 영역에 저장한다.

나머지 데이터 R_M, R_Y, R_K에 대해서도 동일한 연산을 수행한다. 결과적으로 전체 연산을 하는데 종래의 레지스터 파일구조에서는 CA_C, CB_C, CC_C, CD_C의 8비트 데이터를 추출하기 위해서는 각각의 레지스터 R4 내지 R7에서 추출하여 8비트씩 연산해야 되므로 클럭이 60~70개 정도 사용되는 명령어가 필요했지만, 도 5의 데이터 파일 구조에서는 SR0의 레지스터에서의 32비트를 한번에 추출하여 연산처리를 할 수 있으므로 대략 10개의 클럭수로서 모든 연산을 완료할 수 있다.

본 발명의 실시예에서는 테트라헤드럴 보간 알고리듬의 연산처리에 대하여 설명하였으나, FIR 필터링, DCT, 로테이션 등의 다수의 영상처리 알고리듬도 유사한 연산 구조를 가지고 있으므로 본 발명의 레지스터 파일 구조를 이용하여 동일한 효과를 기대할 수 있다.

본 발명에 의한 DSP 레지스터 파일구조는 영상처리 알고리듬에서 빈번히 발생되는 데이터 곱셈 수행시의 데이터 배치에 근거하여 로우와 컬럼 레지스터 파일 구조를 구현함으로써 로우방향 각 레지스터의 소정 비트수 단위에 저장된 데이터를 복잡한 추출 과정을 거치지 않고 컬럼 레지스터를 이용하여 간단히 추출한 후 DSP의 특징적으로 명령어를 수행할 수 있어 곱셈식의 연산속도를 향상시킬 수 있다.

Claims

복수의 레지스터를 구비하며 일부의 레지스터들을 구성하는 소정 비트수의 단위들이 행렬 형태를 이루며 컬럼방향으로 상기 비트수 단위들과 접속이 가능한 빠른 곱셈기능을 갖는 DSP의 레지스터 파일 구조에 있어서,

n개의 비트수를 갖고 로우 방향이 소정 비트수로 분할된 복수의 레지스터;

상기 복수의 로우 방향의 레지스터 중 소정 개수의 레지스터에 접속하여 제1소스 인덱스신호에 따라 하나의 레지스터를 선택하여 해당 비트들을 소스0 데이터로 출력하는 제1멀티플렉서;

상기 복수의 로우 방향의 레지스터 중 소정 개수의 레지스터에 접속하여 제1소스 인덱스신호에 따라 하나의 레지스터를 선택하여 해당 비트들을 출력하는 제2멀티플렉서;

상기 레지스터내에서 분할된 로우 방향의 소정 비트수 단위가 인접되어 있는 레지스터들의 로우 방향의 소정의 비트수 단위와 컬럼방향으로 접속되어 형성된 복수의 컬럼 레지스터;

제2소스 인덱스 신호에 따라 상기 컬럼 레지스터들 중 하나를 선택하여 해당 비트들을 출력하는 제3멀티플렉서; 및

상기 제2멀티플렉서와 제3멀티플렉서의 출력을 제3소스 인덱스 신호에 따라 선택하여 출력하는 제4멀티플렉서를 포함함을 특징으로 하는 빠른 곱셈 기능을 갖는 DSP의 레지스터 파일 구조.
제 1항에 있어서,

상기 컬럼 레지스터의 비트의 개수는 상기 레지스터의 비트수와 동일하게 설정됨을 특징으로 하는 빠른 곱셈기능을 갖는 DSP의 레지스터 파일 구조.
제 1항에 있어서,

상기 각 인덱스 신호는 명령어에 따라 상기 DSP의 코어에서 생성됨을 특징으로 하는 빠른 곱셈기능을 갖는 DSP의 레지스터 파일 구조.