KR100350943B1

KR100350943B1 - 분포연산방식을 이용한 고속 ｄｃｔ 연산회로

Info

Publication number: KR100350943B1
Application number: KR1020000042045A
Authority: KR
Inventors: 박태규
Original assignee: (주)씨앤에스 테크놀로지
Priority date: 2000-07-21
Filing date: 2000-07-21
Publication date: 2002-08-28
Also published as: KR20020008324A

Abstract

본 발명은 영상압축과 복원을 위한 분포연산(Distributed Arithmetic) 방식을 이용한 고속 DCT 연산회로에 관한 것이다.

본 발명에서는 DCT 연산회로의 구조 중 RAC(ROM Accumulator) 유니트의 새로운 구조와 이를 이용한 DCT 연산회로가 제시된다. 각각 쉬프터를 통하여 데이터를 출력하는 2M개의 DCT ROM의 각각의 출력 데이터값이 M개의 합산기에 의해 병렬로 합산되고 M개의 합산 데이터값이 M/2개의 합산기에 의해서 병렬로 합산되어 결과적으로 최종 하나의 합산기로 데이터가 출력되고, 상기 합산기 출력신호와 액큐뮬레이터 레지스터, 쉬프터의 출력신호를 합산하는 합산기를 포함하는 RAC 유니트 구조와, 이 구조를 이용한 DCT 연산회로가 제시된다.

본 발명에 의하면 고속의 DCT 계수 연산을 가능하게 함으로써 영상압축시스템의 프레임 레이트를 높일 수 있다.

Description

분포연산방식을 이용한 고속 ＤＣＴ 연산회로{Fast Discrete Cosine Transform Processors using Distributed Arithmetic}

본 발명은 영상압축 시스템에 사용되는 DCT 연산회로에 관한 것이다. 특히, DCT 연산을 고속화하기 위해서 분포연산(Distributed Arithmetic)방식을 이용한 RAC(ROM Accumulator)의 새로운 구조와 이를 이용한 고속 DCT 연산회로에 관한 것이다.

영상압축시스템으로 사용되는 DCT(Discrete Cosine Transform)은 휘도(Y)와 색채(Cb)(Cr)로 표현되는 영상 소스 시그널을 공간상의 주파수 영역으로 옮겨주고 에너지 컴팩션을 해주어 영상압축을 해주는 것으로써, MPEG, H.263 등의 국제 표준 규격에서 채택하고 있다.

영상압축시스템의 성능은 초당 처리(부호화, 복호화)할 수 있는 화면의 수와 관계되며, 초당 처리할 수 있는 화면의 수가 많을수록 더 부드럽고 자연스런 화질을 얻을 수 있다. 따라서 영상압축시스템의 성능향상을 위해서는 DCT/IDCT 연산속도의 고속화가 필수적이다.

상기 DCT 연산은 블록이라 불리우는 64개(8 ×8)의 픽셀을 하나의 단위로 해서 이루어진다. 즉 하나의 화면을 여러개의 블록으로 쪼개고 각각의 블록에 대해 DCT 연산을 반복 수행하여 DCT 계수를 얻게 된다.

상기 8 ×8 포인트 DCT 연산을 회로로 구현하는 방식은 멀티플리어 (Multiplier)를 이용해 곱셈을 직점 수행하는 방식과, ROM과 액큐뮬레이터 (Accumulator)를 이용하는 분포연산(Distributed Arithmetic) 방식이 있다. 멀티플리어를 이용할 경우에는 게이트수가 많아지는 단점이 있기 때문에 영상압축을 위한 다른 디바이스들과 함께 하나의 칩에 집적되어야 하는 프로세서의 경우는 일반적으로 분포연산방식이 사용된다.

상기 분포연산방식(Distributed Arithmetic)을 이용하여 DCT 계수를 계산할 경우에는 상술한 바와 같이 ROM과 액큐뮬레이터가 사용된다. 입력되는 데이터의 bit precision을 N이라 할 때, ROM의 데이터를 읽어서 1bit 오른쪽 쉬프트한 후에더하는 작업을 N회 반복한 결과는 멀티플리어를 이용하여 곱셈을 한 결과와 같게된다.

도 1은 분포연상방식(Distributed Arithmetic)을 이용한 8 ×8 DCT/IDCT 연산회로(이하 DCT 연산방식이라 한다)의 일반적인 구성도이다.

도 1에 도시한 바와 같이, f_k데이터 벡터가 입력되는 측에 구비된 8개의 입력레지스터(1)와, 상기 8개의 입력레지스터의 출력신호를 합산 또는 감산하기 위한 합산기(2)와 감산기(3)로 구성되는 버터플라이 로직과, 상기 버터플라이 로직(2)(3)에서 출력되는 u 데이터와 v 데이터를 분배하여 입력되는 8개의 RAC(ROM Accumulator)유니트(4)와, 상기 RAC 유니트(4)로부터 출력되는 신호를 입력받아 y 데이터를 출력하기 위한 8개의 출력레지스터(5)를 포함하여 이루어진다.

상기 DCT 연산은 64개의 픽셀값에 변환식에 의한 새로운 값을 부여하는 것으로써, 먼저 가로 방향으로 1차원 DCT 연산을 수행한 후 그 결과를 천이 하고, 이 결과를 세로 방향으로 1차원 DCT 연산을 수행한 후 그 결과를 천이하면 최종 8 ×8 DCT 연산 결과를 얻게 된다. 이 과정을 수식으로 정리하면 다음의 수학식 1과 같다.

상기 수학식 1에서 첫번째 식은 Forward DCT(FDCT)를 나타내고 두번째 식은Inverse DCT(IDCT)를 나타낸다.

상기 수학식 1은 8 ×8 매트릭스 또는 64 ×64 매트릭스로 표현될 수 있는데, 이 경우 상기 수학식 1에서 알 수 있듯이 많은 수의 곱셈은 DCT 연산을 하드웨어로 구현하는데 커다란 부담이 된다. 따라서 DCT 연산을 하드웨어로 구현하기 위해 곱셈식을 줄이는 알고리즘에 대한 연구가 꾸준하게 진행되어 왔다. 최근 가장 일반적으로 사용되는 DCT/IDCT 연산 알고리즘으로 Chen에 의한 수식으로 다음식과 같이 정리할 수 있다.

상기 수학식 2를 회로로 구현하는데 있어서, 종래의 기술에 있어서는 상기 도 1 및 후술하는 도 2에 나타난 방법을 이용한다. 상기 도 1에서 도시한 바와 같이, 한 블록을 DCT연산을 하기 위해서 8개의 픽셀이 동시에 계산된다. 8개의 9bit 입력이 버터플라이 로직을 통해서 합과 차가 구해져 ROM을 위한 어드레스로 변환된 후, RCA 유니트로 들어가게 되고, RCA 유니트는 ROM의 리딩(reading), 쉬프팅(shifting) 및 애딩(adding)을 반복해서 수행한 후 최종 DCT 연산 결과를 출력하게 된다.

도 2는 상기 종래의 DCT 연산회로에 따른 RAC(Rom Accumulator) 유니트의 세부 구조에 대한 것이다.

도 2에 도시한 바와 같이, 입력 데이터()가 입력되는 ROM(6)과, 상기 하나의 ROM(6)과 사이클(A)을 이루는 액큐뮬레이터(7)와, 상기 액큐뮬레이터(7)의 출력측에서 액큐뮬레이터(7)와 사이클(B)를 이루는 하나의 쉬프터(8)로 구성된다. 상기 종래기술의 구성에서 하나의 RCA 유니트에 한개의 ROM이 사용되고 있음을 알 수 있다.

상기 ROM(6)에서 나온 첫번째 데이터는 1bit 오른쪽 쉬프트되고, ROM(6)에서 나온 두번째 데이터와 합해져서 액큐뮬레이터 레지스터(7)에 저장되고, 곱셈의 기능을 하기 위해 이러한 과정을 반복하게 된다. 즉, 상기 RAC는 사이클(A)를 종료한 후 액큐뮬레이터(7)의 출력이 상기 쉬프터(8)에 의해서 1 비트 쉬프트되어 최종 출력합이 사이클(B)에서 연산된다.

이렇게 함으로써 입력되는 데이터의 bit precision을 N이라 할 때, ROM의 데이터를 읽어서 1bit 오른쪽 쉬프트 한 후에 더하는 작업을 N회 반복한 결과는 멀티플리어를 이용하여 곱셈을 수행한 결과와 같게된다.

그러나 상기 종래 기술에 의하면, 입력되는 데이터 bit precision이 N이라면 ROM의 데이터를 읽어서 쉬프트한 후 더하는데 한 클럭 피리어드(clock period)의 시간이 걸리게 되고, 이러한 작업을 N회 반복하여야 함으로 DCT 계수를 연산하는데 N 클럭 피리어드의 시간이 걸리게 된다. 예를 들면, 데이터 bit precision이 16이라면 8개의 RAC 유니트가 동시에 동작할 때, 8 ×8 DCT 연산을 수행하는데 걸리는 시간은 16 클럭 피리어드가 된다. 따라서 DCT 계수의 연산 속도가 느려서 영상 압축 시스템의 초당 처리 프레임수를 늘리는데 문제점이 있다.

또한, RAC 유니트를 이용한 DCT 계수 연산 과정은 더 빠른 DCT 연산을 위해서 입력 데이터의 bit precision을 줄일 수 있지만, DCT 연산의 정밀도를 위해서 이를 임의로 줄이는 것은 불가능하다.

본 발명은 상기 종래기술의 문제점을 해결하기 위한 것으로써, 본 발명의 목적은 분포연산방식 DCT 연산회로에 사용되는 RAC 유니트에서 2M개의 ROM을 병렬로 배치하여 고속화를 이루는 RAC 유니트 구조를 제공하는데 있다.

본 발명의 또 다른 목적은 상기 본 발명의 RAC 유니트를 사용한 고속 DCT 연산회로를 제공하는데 있다.

상기 본 발명의 목적을 달성하기 위한 기술적 사상으로써, 본 발명에서는 DCT 연산회로의 구조 중 RAC(ROM Accumulator) 유니트의 새로운 구조와 이를 이용한 DCT 연산회로가 제시된다. 각각 쉬프터를 통하여 데이터를 출력하는 2M개의 DCT ROM의 각각의 출력 데이터값이 M개의 합산기에 의해 병렬로 합산되고 M개의 합산 데이터값이 M/2개의 합산기에 의해서 병렬로 합산되어 결과적으로 최종 하나의 합산기로 데이터가 출력되고, 상기 합산기 출력신호와 액큐뮬레이터 레지스터, 쉬프터의 출력신호를 합산하는 합산기를 포함하는 RAC 유니트 구조와, 이 구조를 이용한 DCT 연산회로가 제시된다.

상기 구성의 회로는 상기 수학식 2를 곱셈기를 사용하지 않고 분산연산방식을 이용하여 위 수학식을 회로로 옮긴 것을 특징으로 하고 있다.

도 1은 DCT 연산회로의 개략적인 블록도이다.

도 2는 종래의 RAC 유니트의 구조도이다.

도 3은 본 발명의 RAC 유니트의 실시예에 대한 구조도이다.

<도면의 주요부호에 대한 설명>

1 : 입력레지스터 2, 45, 50, 55, 60: 합산기

3 : 감산기 4 : RAC

5 : 출력레지스터 6, 10, 15, 25, 30 : DCT ROM

7, 70 : 액큐뮬레이터 8,20, 35, 40, 65 : 쉬프터

이하에서는 본 발명의 실시예의 구성 및 작용에 대하여 첨부한 도면을 참조하면서 상세히 설명하기로 한다.

도 3은 본 발명의 RAC 유니트의 실시예에 대한 구조도이다.

도 3에 도시한 바와 같이, 입력 데이터측의 홀수번째 데이터가 입력되는 DCT ROM 1(10),……DCT ROM 2M-1(25)과 짝수번째 데이터가 입력되는 DCT ROM 2(15), ……DCT ROM 2M(30)가 각각 쉬프터(20)(35)(40)를 통하여 합산기(45),……(55)에서 홀수번째와 직상위 짝수번째 ROM이 각각 합산되고, 상기 합산기(45),……(55)로부터 출력되는 데이터를 합산하기 위한 합산기(50)와, 상기 합산기(50)의 출력 데이터와 액큐뮬레이터 레지스터(70)의 쉬프터(65)를 통하여 쉬프트된 출력데이터를 합산하기 위한 합산기(60)로 구성되어 있다.

상기 본 발명의 실시예에서는 하나의 RAC 유니트에 2M개의 ROM을 병렬로 배치하고 동시에 읽어서 8 포인트 DCT 연산을 수행하게 되므로, 이에 소요되는 시간은 N/2M 클럭 피리어드로 줄어들게 된다.

상기 본 발명의 실시예의 작용을 살펴보면, 우선 RAC 유니트에 있는 2M개의 ROM을 동시에 억세스해서 데이터를 읽는다. 이 때 입력되는 데이터의 bit precision이 Nbit라면 한 클럭 피리어드에 2M개의 데이터를 동시에 읽어서 쉬프팅, 합산을 수행하므로, 입력에 해당되는 ROM의 데이터를 모두 처리하는데 N/2m 클럭 피리어드가 걸리게 된다. RAC 유니트로 입력되는 데이터의 bit precision 이 N, 하나의 RAC 유니트에 들어있는 ROM의 갯수를 2M이라 할 때, 상기 본 발명의 실시예의 작용을 좀 더 상세히 설명하기로 한다. 본 발명의 실시예의 데이터 흐름은 다음의 순서에 의해 수행된다.

(1) 입력되는 데이터를 각 bit 자리수별로 묶어서 ROM의 데이터를 읽기 위한 2M개의 어드레스를 만든다.

(2) 2M개의 어드레스를 2M개의 ROM에 동시에 인가하여 데이터를 읽는다.

(3) ROM 1(10)의 데이터는 쉬프팅하지 않고, ROM 2(15)의 데이터는 1bit 오른쪽 쉬프트하고, ROM 3의 데이터는 2bit 오른쪽 쉬프트한다. 이와 같은 방법으로 진행되어 ROM 2M(30)의 데이터는 2M-1bit 오른쪽 쉬프트한다.

(4) ROM1과 ROM2에서 읽은 데이터를 더하고, ROM3과 ROM4에서 읽은 데이터를 더한다. 이와같은 방법으로 ROM 2M-1과 ROM 2M에서 읽은 데이터를 더한다.

(5) 상기 4에서 나온 각 결과를 모두 더하여 첫번째 최종 합을 만들어서 액큐레이터 레지스터(70)에 저장한다.(최종 합을 만들 때 어드레스의 MSB(Most Significant Bit)에 해당되는 주소에 의한 데이터에 대해서는 마이너스 오퍼레이션을 수행해야 한다.)

(6) 상기 1∼5의 과정을 반복하여 두번째 최종 합을 만든다.

(7) 액큐레이터 레지스터(70)에 저장된 첫번째 최종 합을 2M bit 오른쪽 쉬프트한 결과와 상기 6에서 나온 두번째 최종 합을 더해서 액큐레이터 레지스터(70)에 저장한다.

(8) 상기 1∼7의 과정을 N/2M 번째 최종 합이 액큐레이터 레지스터(70)에 저장될 때까지 반복한다. 이때 저장된 최종 합이 연산 된 DCT 계수가 된다.

이 경우 만약 상기 1~8 과정을 수행하는데 쉬프팅 작용이 시간을 차지하게 된다면, 2M개의 ROM에 각각 0bit, 1bit, ……2M-2bit, 2Mbit 쉬프트된 결과를 저장해 놓으면 쉬프팅하는데 걸리는 시간을 없앨 수 있다.

본 발명의 상기 RAC 유니트를 이용한 고속 DCT 연산회로는 상기 도 1의 DCT 연산회로에서 RAC 유니트를 상술한 실시예의 RAC 유니트로 채용함으로써 이루어진다.

상기 실시예에서는 예를 들면 M의 값이 2인 경우에 대한 실시예를 들어 설명했지만, 본 발명의 다른 실시예로 M의 값이 4인 경우, M의 값이 8인 경우 등 M의값이 2n인 경우의 다양한 실시예를 들 수 있다. 이 경우 n의 수가 커질수록 합산기의 트리(tree)가 늘어남을 물론이다.

이상에서 설명한 바와 같이, 본 발명에서는 DCT 연산회로의 구조 중 RAC(ROM Accumulator) 유니트의 새로운 구조와 이를 이용한 DCT 연산회로가 제시된다. 각각 한쌍의 DCT ROM이 쉬프터를 통하여 합산기에 결합되어 결과적으로 2M개의 DCT ROM이 병렬로 결합되고, 상기 전체 DCT ROM을 적어도 하나의 합산기로 결합하며, 상기 합산기 출력신호와 액큐뮬레이터 레지스터, 쉬프터의 출력신호를 합산하는 합산기를 포함하는 RAC 유니트 구조와, 이 구조를 이용한 DCT 연산회로사용 함으로써, 고속의 DCT 계수 연산을 가능하게 하여 영상압축시스템의 프레임 레이트를 높일 수 있는 효과가 있다.

Claims

입력 데이터측에 병렬 배치된 2M개의 ROM과,

상기 2M개의 ROM의 출력을 합산하기 위해 트리구조를 형성하는 복수의 합산기로 구성되는 합산기군과,

상기 합산기군의 최종 합산기로부터의 출력데이터를 저장하기 위한 액큐레이터 레지스터와,

입력단이 상기 최종 합산기의 출력단과 접속되고, 출력단이 상기 액큐레이터 레지스터의 입력단과 결합되는 합산기와,

상기 액큐레이터 레지스터의 출력단과 상기 합산기의 입력단 사이에 결합되는 쉬프터를 포함하여 구성하고,

상기 2M개의 ROM에 저장된 데이터를 동시에 읽어내는 것을 특징으로 하는 RAC(ROM Accumulator) 유니트.
청구항 1에 있어서,

상기 2M개의 ROM은 ROM 1, ROM 2, ROM 3,……ROM 2M-1, ROM 2M으로 이루어지고, 상기 ROM 2는 1비트 오른쪽 쉬프트하고, 상위 번째 ROM은 직하위 번째 ROM에 대하여 1비트씩 더하여 오른쪽 쉬프트하기 위한 쉬프터를 각각 구비하고 있는 것을 특징으로 하는 RAC(ROM Accumulator) 유니트.
청구항 1에 있어서,

상기 트리구조의 합산기군은 상기 2M개의 ROM 중 각각의 홀수번째 ROM과 각각의 직상위 짝수번째 ROM을 결합하는 M개의 제1 합산기와, 상기 M개의 각 제1 합산기의 출력을 병렬 결합하는 M/2개의 제2 합산기와, 상기 제2 합산기의 출력을 병렬결합하는 M/4개의 제3 결합기, 제4 결합기, ,,,,,, 의 순으로 다단 결합의 구조로 된 것을 특징으로 하는 RAC(ROM Accumulator) 유니트.
청구항 1에 있어서,

상기 최종 합산기에서 출력되는 첫번째 최종 합 데이터를 상기 액큐레이터 레지스터에 저장하고, 상기 최종 합산기의 두번째 최종 합 데이터와 상기 액큐레이터 레지스터에 저장되어 있는 상기 첫번째 최종 합 데이터를 2M 비트 오른쪽 쉬프트한 데이터를 상기 합산기로 합산하여 상기 액큐래이터 레지스터에 저장하고, 상기 과정을 반복 수행하여 상기 RAC 유니트로 입력되는 데이터 비트 프리시즌(precision)이 N인 경우 N/2M번째 최종합을 액큐레이터 레지스터에 저장하는 것을 특징으로 하는 RAC(ROM Accumulator) 유니트.
청구항 1에 있어서,

상기 2M개의 ROM에 각각 0비트, 1비트,……2M-2비트, 2M 비트 쉬프트된 결과를 저장한 것을 특징으로 하는 RAC(ROM Accumulator) 유니트.
영상압축시스템에 사용되는 제1데이터 벡터가 입력되는 측에 구비된 복수의 입력레지스터와, 상기 입력레지스터의 출력신호를 합산 또는 감산하기 위한 합산기 및 감산기와, 상기 합산기 및 감산기에서 출력되는 제2 데이터와 제3 데이터를 분배하여 입력되는 복수개의 RAC(ROM Accumulator)유니트와, 상기 RAC 유니트로부터 출력되는 신호를 입력받아 제4 데이터를 출력하기 위한 복수의 출력레지스터를 포함하여 이루어지는 분포연산(Distributed Arithmetic)방식 DCT/IDCT 연산회로에 있어서,

상기 RAC 유니트는,

입력 데이터측에 병렬 배치된 2M개의 ROM과,

상기 2M개의 ROM의 출력을 합산하기 위해 트리구조를 형성하는 복수의 합산기로 구성되는 합산기군과,

상기 합산기군의 최종 합산기로부터의 출력데이터를 저장하기 위한 액큐레이터 레지스터와,

입력단이 상기 최종 합산기의 출력단과 접속되고, 출력단이 상기 액큐레이터 레지스터의 입력단과 결합되는 합산기와,

상기 액큐레이터 레지스터의 출력단과 상기 합산기의 입력단 사이에 결합되는 쉬프터를 포함하여 구성하고,

상기 2M개의 ROM에 저장된 데이터를 동시에 읽어내는 것을 특징으로 하는 분포연산(Distributed Arithmetic)방식 DCT/IDCT 연산회로.
청구항 6에 있어서,

상기 2M개의 ROM은 ROM 1, ROM 2, ROM 3,……ROM 2M-1, ROM 2M으로 이루어지고, 상기 ROM 2는 1비트 오른쪽 쉬프트하고, 상위 번째 ROM은 직하위 번째 ROM에 대하여 1비트씩 더하여 오른쪽 쉬프트하기 위한 쉬프터를 각각 구비하고 있는 것을 특징으로 하는 분포연산(Distributed Arithmetic)방식 DCT/IDCT 연산회로.
청구항 6에 있어서,

상기 트리구조의 합산기군은 상기 2M개의 ROM 중 각각의 홀수번째 ROM과 각각의 직상위 짝수번째 ROM을 결합하는 M개의 제1 합산기와, 상기 M개의 각 제1 합산기의 출력을 병렬 결합하는 M/2개의 제2 합산기와, 상기 제2 합산기의 출력을 병렬결합하는 M/4개의 제3 결합기, 제4 결합기, ,,,,,, 의 순으로 다단 결합의 구조로 된 것을 특징으로 하는 분포연산(Distributed Arithmetic)방식 DCT/IDCT 연산회로.
청구항 6에 있어서,

상기 최종 합산기에서 출력되는 첫번째 최종 합 데이터를 상기 액큐레이터 레지스터에 저장하고, 상기 최종 합산기의 두번째 최종 합 데이터와 상기 액큐레이터 레지스터에 저장되어 있는 상기 첫번째 최종 합 데이터를 2M 비트 오른쪽 쉬프트한 데이터를 상기 합산기로 합산하여 상기 액큐래이터 레지스터에 저장하고, 상기 과정을 반복 수행하여 상기 RAC 유니트로 입력되는 데이터 비트 프리시즌(precision)이 N인 경우 N/2M번째 최종합을 액큐레이터 레지스터에 저장하는 것을 특징으로 하는 분포연산(Distributed Arithmetic)방식 DCT/IDCT 연산회로.
청구항 6에 있어서,

상기 2M개의 ROM에 각각 0비트, 1비트,……2M-2비트, 2M 비트 쉬프트된 결과를 저장한 것을 특징으로 하는 분포연산(Distributed Arithmetic)방식 DCT/IDCT 연산회로.