KR101412964B1

KR101412964B1 - Ｈｅｖｃ를 위한 저면적 고성능 다중모드 1ｄ 변환블록 및 이를 이용한 데이터 처리방법

Info

Publication number: KR101412964B1
Application number: KR1020130003469A
Authority: KR
Inventors: 류광기; 김기현
Original assignee: 한밭대학교 산학협력단
Priority date: 2013-01-11
Filing date: 2013-01-11
Publication date: 2014-06-30

Abstract

본 발명은 기존의 H.264/AVC의 압축률보다 2배 이상의 높은 압축률을 가지는 차세대 영상압축 코덱인 HEVC(High Efficiency Video Coding)의 처리효율을 높일 수 있는 방법에 관한 것으로, 본 발명에 따르면, 기존의 H.264/AVC보다 높은 압축률을 가지나 기존의 H.264/AVC에 비해 2 ~ 4배 증가된 여러 종류의 블록 크기를 사용하는 특징 및 내부 연산의 복잡도 증가로 인해 연산량이 급증하여 하드웨어로 구현시 전체 면적이 커지는 단점을 가지는 종래의 HEVC의 단점을 해소하여, 차세대 영상압축 코덱인 HEVC의 블록 중 특히 처리하는 기본 블록의 크기에 영향을 받는 변환블록을 최적화함으로써, 저면적을 요구하면서도 고성능의 처리 효율을 보이는 동시에 다양한 블록 크기를 모두 지원 가능한 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법이 제공된다.

Description

ＨＥＶＣ를 위한 저면적 고성능 다중모드 1Ｄ 변환블록 및 이를 이용한 데이터 처리방법{Low area and high performance multi-mode 1D transform block for HEVC and data processing method using thereof}

본 발명은 고화질, 고해상도의 영상을 압축하기 위한 영상압축 기술에 관한 것으로, 더 상세하게는, 기존의 영상 분야에서 많이 쓰이고 있는 H.264/AVC의 압축률보다 2배 이상의 높은 압축률을 가지는 차세대 영상압축 코덱인 HEVC(High Efficiency Video Coding)의 처리효율을 높일 수 있는 방법에 관한 것이다.

또한, 본 발명은, 차세대 영상압축 코덱인 HEVC의 블록 중 특히 처리하는 기본 블록의 크기에 영향을 받는 변환블록을 최적화하여 저면적, 고성능의 처리효율을 가지는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법에 관한 것이다.

최근, HDTV와 디지털 영상기술의 발전 및 방송기술의 발전과 함께, 이러한 영상을 재생할 수 있는 재생장치에 대한 기술이 발전함에 따라, TV 뿐만 아니라 휴대용 멀티미디어 재생장치나 스마트폰과 같은 모바일 기기에도 고화질, 고해상도의 영상 서비스가 확대되고 있다.

또한, 최근에는, 기존의 2D 영상을 넘어서 3D 비디오 영상에 대한 보급도 확대됨에 따라, 고해상도의 영상에 대한 필요성이 더욱 대두되고 있다.

그러나 이러한 고해상도와 고화질의 영상들은 기존의 일반적인 화질의 영상에 비하여 상대적으로 매우 많은 데이터량을 가지게 되므로, 이러한 많은 데이터량을 가지는 영상을 전송하기 위하여는, 종래의 방식보다 더욱 효율적인 영상 압축기술이 요구된다.

더 상세하게는, 최근, MPEG과 VCEG에서는, 기존의 영상 분야에서 많이 쓰이고 있는 H.264/AVC 압축률보다 2배 이상의 높은 압축률을 목표로, JCT-VC(Joint Collaborative Team on Video Coding)를 제시하였다.

또한, 고화질, 고해상도 영상 압축에 대하여 고효율, 저복잡도를 가지는 차세대 영상 압축 코덱으로서 제시된 HEVC(High Efficiency Video Coding)에 대하여 2010년 4월 회의를 시작으로 표준화 회의를 시작하였으며, 2012년 10월 중국 광저우에서 개최된 3차 회의에서 최초의 레퍼런스 소프트웨어인 HM 1.0이 결정되었고, 이러한 HEVC에 대한 표준화는 현재도 진행중이다.

여기서, HEVC는, 예를 들면, "High Efficiency Video Coding(HEVC) text specification draft 9, Benjamin Bross, et al., JCTVC-K1003, Shanghai, October 2012."에 제시된 바와 같이, 고화질, 고해상도의 영상을 위한 비디오 압축 코덱으로서 압축 효율을 높이기 위해 CU(Coding Unit), PU(Prediction Unit), TU(Transform Unit)와 같은 다양한 블록을 지원하며, 각각의 블록에서도 다양한 사이즈를 지원하고 있다.

그러나 HEVC는, 예를 들면, "CU 깊이 우선 결정 기반의 HEVC 고속 부호화 방법, 유성은, 안용조, 심동규, 대한전자공학회 논문지, 제49권, SP편, 제3호, pp.40 - 50, 2012년 5월."에 제시된 바와 같이, 종래의 H.264/AVC에 비해 2 ~ 4배 증가된 여러 종류의 블록 크기를 사용하는 특징과 내부 연산의 복잡도 증가로 인하여, 연산량이 급증하기 때문에 하드웨어로 구현할 시 전체 면적이 커지는 단점을 가진다.

따라서 상기한 바와 같은 HEVC의 단점을 해소하기 위하여는, HEVC 블록 중 특히 처리하는 기본 블록의 크기에 영향을 받는 변환블록의 최적화된 설계방법을 제시함으로써, 저면적을 요구하면서도 고성능의 처리 효율을 보이는 동시에 다양한 블록 크기를 모두 지원 가능한 변환블록 및 그 구현방법을 제공하는 것이 바람직하나, 아직까지 그러한 요구를 모두 만족시키는 방법은 제공되지 못하고 있는 실정이다.

본 발명은 상기한 바와 같은 종래기술의 문제점을 해결하고자 하는 것으로, 따라서 본 발명의 목적은, 기존의 영상 분야에서 많이 쓰이고 있는 H.264/AVC보다 높은 압축률을 가지나 기존의 H.264/AVC에 비해 2 ~ 4배 증가된 여러 종류의 블록 크기를 사용하는 특징 및 내부 연산의 복잡도 증가로 인해 연산량이 급증하여 하드웨어로 구현시 전체 면적이 커지는 단점을 가지는 종래의 HEVC의 단점을 해소하여, 저면적을 요구하면서도 고성능의 처리 효율을 보이는 동시에, 다양한 블록 크기를 모두 지원 가능한 HEVC 변환블록 및 이를 이용한 데이터 처리방법을 제공하고자 하는 것이다.

더 상세하게는, 본 발명의 목적은, HEVC 블록 중 특히 처리하는 기본 블록의 크기에 영향을 받는 변환블록의 최적화된 설계방법을 제시함으로써, 저면적을 요구하면서도 고성능의 처리 효율을 보이는 동시에 다양한 블록 크기를 모두 지원 가능한 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법을 제공하고자 하는 것이다.

상기한 바와 같은 목적을 달성하기 위해, 본 발명에 따르면, HEVC 블록 중 처리하는 기본 블록의 크기에 영향을 받는 변환블록을 최적화함으로써 저면적, 고성능의 처리 효율을 가지는 동시에 다양한 블록 크기를 모두 지원 가능하도록 하기 위한 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록에 있어서, 행렬의 계수 특성에 근거하여, 부분 집합 구조를 가지는 변환행렬의 중복되는 행렬 계수를 공통으로 적용하여 상기 변환행렬을 상수로 이루어진 행렬과 입력데이터인 변수의 곱의 형태로 변환하는 전처리부; 상기 전처리부에 의해 전처리된 데이터(preprocessed input data)를 입력하기 위한 입력부; 상기 입력부로부터 입력되는 상기 전처리된 데이터에 근거하여 곱셈 연산을 행하는 곱셈기(multiplier); 상기 곱셈기에 의해 연산된 값을 수신하여 행렬 연산을 수행하는 누산기(accumulator); 및 상기 누산기에 의해 연산된 값을 수신하여 출력 데이터(output data)를 생성하여 출력하는 출력부를 포함하여 구성되는 것을 특징으로 하는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록이 제공된다.

여기서, 상기 입력부는, 매 사이클마다 적절한 타이밍에 상기 곱셈기로 상기 전처리 데이터를 입력하도록 구성되는 MUX를 포함하여 구성되는 것을 특징으로 한다.

또한, 상기 곱셈기는, 상수와 변수를 입력으로 수신하여 상기 상수와 상기 변수의 곱을 연산하는 상수 곱셈기(constant variable multiplier)로 구성되는 것을 특징으로 한다.

아울러, 상기 상수 곱셈기는, 시프트 연산을 수행하는 시프터(shifter)와 덧셈 연산을 수행하는 덧셈기(adder)만으로 구성되는 것을 특징으로 한다.

더욱이, 상기 누산기는, 행과 열의 연산 대신에, 열과 열의 연산을 수행하도록 구성되는 것을 특징으로 한다.

또한, 상기 출력부는, 상기 누산기로부터 수신된 값에 리미팅 및 라운딩(limiting and rounding)을 행하여 상기 출력 데이터를 생성하도록 구성되는 것을 특징으로 한다.

아울러, 상기 변환블록은, 상수와 변수를 입력으로 수신하는 상수 곱셈기를 이용함으로써, 전체 곱셈기의 개수는 증가하나 곱셈기의 전체 면적은 감소하도록 구성되는 것을 특징으로 한다.

더욱이, 상기 변환블록은, 상기 상수 곱셈기를 이용하는 것에 의해 증가되는 상기 곱셈기의 숫자를 통하여 전체적인 처리량을 증가시키며, 증가된 처리량으로 인해 남는 동작 사이클을 이용하여 연산시간이 많이 걸리는 곱셈기 부분에 멀티 사이클 패스를 구성함으로써, 곱셈기의 동작 주파수는 저감하는 동시에 전체 연산량은 유지할 수 있도록 구성되는 것을 특징으로 한다.

또한, 본 발명에 따르면, HEVC 블록 중 처리하는 기본 블록의 크기에 영향을 받는 변환블록을 최적화함으로써 저면적, 고성능의 처리 효율을 가지는 동시에 다양한 블록 크기를 모두 지원 가능하도록 하기 위해, 상기에 기재된 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록을 이용한 HEVC를 위한 데이터 처리방법에 있어서, 행렬의 계수 특성에 근거하여, 부분 집합 구조를 가지는 변환행렬의 중복되는 행렬 계수를 공통으로 적용하여 상기 변환행렬을 상수로 이루어진 행렬과 입력데이터인 변수의 곱의 형태로 변환하는 전처리 단계; 상기 변환블록의 입력부를 통해 상기 전처리 단계에서 전처리된 데이터를 상기 변환블록의 곱셈기(multiplier)에 입력하는 입력단계; 상기 입력단계에서 입력된 데이터에 근거하여 상기 곱셈기에서 상기 전처리된 데이터의 곱셈 연산을 수행하는 곱셈단계; 상기 곱셈단계에서 곱셈 연산된 값을 상기 변환블록의 누산기(accumulator)에서 수신하여 행렬 연산을 수행하는 누산단계; 및 상기 변환블록의 출력부를 통해 상기 누산기에 의해 연산된 값을 수신하여 출력 데이터를 생성하여 출력하는 출력단계를 포함하여 구성되는 것을 특징으로 하는 HEVC를 위한 데이터 처리방법이 제공된다.

여기서, 상기 입력단계에서, 상기 입력부는, 매 사이클마다 적절한 타이밍에 상기 곱셈기로 상기 전처리 데이터를 입력하도록 구성되는 MUX를 포함하여 구성되는 것을 특징으로 한다.

또한, 상기 곱셈단계에서, 상기 곱셈기는, 상수와 변수를 입력으로 수신하여 상기 상수와 상기 변수의 곱을 연산하는 상수 곱셈기로 구성되는 것을 특징으로 한다.

아울러, 상기 상수 곱셈기는, 시프트 연산을 수행하는 시프터와 덧셈 연산을 수행하는 덧셈기만으로 구성되는 것을 특징으로 한다.

더욱이, 상기 누산단계에서, 상기 누산기는, 행과 열의 연산 대신에, 열과 열의 연산을 수행하도록 구성되는 것을 특징으로 한다.

또한, 상기 출력단계에서, 상기 출력부는, 상기 누산기로부터 수신된 값에 리미팅 및 라운딩을 행하여 상기 출력 데이터를 생성하도록 구성되는 것을 특징으로 한다.

아울러, 상기 방법은, 상수와 변수를 입력으로 수신하는 상수 곱셈기를 이용함으로써, 전체 곱셈기의 개수는 증가하나 곱셈기의 전체 면적은 감소하도록 구성되는 것을 특징으로 한다.

더욱이, 상기 방법은, 상기 상수 곱셈기를 이용하는 것에 의해 증가되는 상기 곱셈기의 숫자를 통하여 전체적인 처리량을 증가시키며, 증가된 처리량으로 인해 남는 동작 사이클을 이용하여 연산시간이 많이 걸리는 곱셈기 부분에 멀티 사이클 패스를 구성함으로써, 곱셈기의 동작 주파수는 저감하는 동시에 전체 연산량은 유지할 수 있도록 구성되는 것을 특징으로 한다.

상기한 바와 같이, 본 발명에 따르면, 변환행렬의 계수특성을 이용하여 전체 면적을 줄일 수 있는 상수 곱셈기를 사용하고, 16×16, 8×8, 4×4 크기의 변환 행렬들이 32×32 변환 행렬의 부분 집합인 특징을 이용하여, 블록 크기를 최대 32×32 크기까지 지원하는 차세대 영상 압축 코덱인 HEVC용 변환블록을 효율적으로 구현할 수 있는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법을 제공할 수 있다.

또한, 본 발명에 따르면, 계산 시간이 오래 걸리는 곱셈기 부분은 멀티 사이클 패스로 적용하여 보다 낮은 주파수에서 고화소 영상을 처리할 수 있고, 용이하게 다중 블록 처리가 가능한 행렬 연산기를 구현함으로써, 저면적을 요구하면서도 고성능의 처리 효율을 보이는 동시에 다양한 블록 크기를 모두 지원 가능한 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법을 제공할 수 있다.

도 1은 Chen 알고리즘을 사용하여 실제 HEVC에서 사용되는 16×16 변환 행렬을 재구성한 예를 나타내는 도면이다.
도 2는 HEVC에서 사용하는 TU의 구조를 개략적으로 나타내는 도면이다.
도 3은 부분집합 특성을 가지는 변환행렬의 구조를 나타내는 도면이다.
도 4는 상수로 이루어진 행렬과 입력 데이터의 곱셈 연산의 개념을 개략적으로 나타내는 도면이다.
도 5는 시프트와 덧셈기만으로 구성되는 변수와 상수와의 곱셈기의 전체적인 구성을 개략적으로 나타내는 도면이다.
도 6은 본 발명에 따라 재구성된 HEVC의 변환 행렬을 상수 곱셈기로 처리할 때 필요한 상수 곱셈기의 개수를 블록의 크기에 따라 표로 정리하여 나타낸 도면이다.
도 7은 단일 사이클과 멀티 사이클의 패스를 비교하여 나타내는 도면이다.
도 8은 본 발명에 따른 DCT 기반 정수 변환 블록의 전체적인 구성을 개략적으로 나타내는 도면이다.
도 9는 도 8에 나타낸 본 발명에 따른 DCT 기반 정수 변환 블록의 전체적인 동작 단계를 개략적으로 나타내는 플로차트이다.
도 10은 기존에 제안되었던 1D 변환 블록들의 구조와 본 발명에 따른 1D 변환 블록을 비교한 내용을 표로 나타내는 도면이다.

이하, 첨부된 도면을 참조하여, 본 발명에 따른 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법의 구체적인 실시예에 대하여 설명한다.

여기서, 이하에 설명하는 내용은 본 발명을 실시하기 위한 하나의 실시예일 뿐이며, 본 발명은 이하에 설명하는 실시예의 내용으로만 한정되는 것은 아니라는 사실에 유념해야 한다.

또한, 이하의 본 발명의 실시예에 대한 설명에 있어서, 종래기술의 내용과 동일 또는 유사하거나 당업자의 수준에서 용이하게 이해하고 실시할 수 있다고 판단되는 부분에 대하여는, 설명을 간략히 하기 위해 그 상세한 설명을 생략하였음에 유념해야 한다.

즉, 본 발명은, 후술하는 바와 같이, 연산시간이 긴 곱셈기 패스를 낮은 주파수에서 동작하는 저면적의 HEVC(High Efficiency Video Coding)용 다중모드 일차원 변환블록으로 구현하는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법에 관한 것이다.

더 상세하게는, 본 발명은, 후술하는 바와 같이, 곱셈 연산을 줄이기 위해 4×4, 8×8, 16×16, 32×32 크기의 행렬을 두 개의 2×2, 4×4, 8×8, 16×16 크기의 행렬로 분해하는 행렬 재구성 방법을 사용하고, 또한, 전체 면적을 줄이기 위하여 일반적인 변수와 변수를 입력으로 받는 곱셈기 대신에, 행렬의 계수 특성을 이용한 상수와 변수를 입력으로 받는 상수 곱셈기를 사용함으로써, 상수 곱셈기의 사용으로 전체 곱셈기의 개수는 증가하나, 32×32 행렬의 계수가 4×4, 8×8, 16×16 행렬의 계수를 포함하는 특성을 이용하여 전체 면적은 줄어드는 것을 특징으로 하는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법에 관한 것이다.

아울러, 본 발명은, 후술하는 바와 같이, 늘어난 곱셈기의 숫자에 의해 전체적인 처리량을 증가시킴으로써, 늘어난 처리량으로 인해 남는 동작 사이클을 이용하여 연산시간이 많이 걸리는 곱셈기 부분에 멀티 사이클 패스를 구성하고, 이러한 멀티 사이클 패스의 적용에 의해 곱셈기의 동작 주파수는 낮게 하면서도 전체 연산량은 유지시킬 수 있으며, TSMC 0.18㎛ CMOS 공정 라이브러리를 이용하여 실제 하드웨어를 구현한 결과 4k(3840×2160) 영상의 이미지를 186MHz에 처리 가능한 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법에 관한 것이다.

계속해서, 첨부된 도면을 참조하여, 본 발명에 따른 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법의 구체적인 내용에 대하여 설명한다.

먼저, 본 발명에 따른 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법을 설명하기 전에, 기존의 변환 블록에서의 일반적인 변환 연산에 대하여 설명하면, 현재 쓰이고 있는 영상 압축 코덱인 H.264/AVC의 변환블록은 공간적 영역의 데이터를 주파수 영역으로 바꾼 후 중요도가 떨어지는 데이터를 제거하여 압축률을 높이는 방법을 공통적으로 사용하고 있다.

즉, 예를 들면, "Discrete Cosine and Sine Transform : General Properties, Fast Algorithms and Integer Approximations", Britanak, P. C. Yip, and K. R. Rao, Academic Press, 2007.에 제시된 바와 같이, 대부분의 표준이 채택하고 있는 DCT(Discrete Cosine Transform) 연산은 이하의 [수학식 1] 및 [수학식 2]와 같이 나타낼 수 있다.

[수학식 1]

[수학식 2]

여기서, [수학식 1] 및 [수학식 2]에 있어서, k의 범위는 0, 1, 2, ..., N이고, [수학식 1]을 X에 맞게 매트릭스 구조인

으로 다시 쓰면 이하의 [수학식 3]과 같다.

[수학식 3]

또한, DCT 연산은, 기본적으로 행렬연산으로 구성되어 있고, 효과적인 하드웨어 구현을 위한 여러 가지 방법들이 제시된 바 있으며, 이와 같이 기존에 제시된 여러 가지 방법들 중, 예를 들면, "고속 DCT/IDCT 설계, 안덕철, 김희석, 산업과학회지, Vol. 17, pp. 309-313, 1999."에 제시된 바와 같이, 행렬을 재구성하여 축소된 복수의 행렬을 이용해 연산량을 줄인 방법인 Chen 알고리즘이 많이 이용된다.

여기서, 코사인(Cosine)의 주기 특성을 이용하여 중복 계산을 줄인 Chen 알고리즘 중 DCT 부분을 나타내면 이하의 [수학식 4]와 같다.

[수학식 4]

[수학식 4]에 있어서, X_e는 짝수 항을 가지는 N/2 포인트 트랜스폼 계수 벡터이고, X_o는 홀수 항을 가지는 N/2 포인트 트랜스폼 계수 벡터이며, x_f는 x의 앞부분 반절을 가지는 N/2- 포인트 DCT 행렬이고, x_r은 x의 뒷부분 반절(역방향)을 가지는 N/2- 포인트 DCT 행렬이며, S_N _/2는 N/2×N/2 대칭 행렬이고, C_N _/2는 N/2-포인트 DCT 행렬이다.

또한, 도 1을 참조하면, 도 1은 Chen 알고리즘을 사용하여 실제 HEVC에서 사용되는 16×16 변환 행렬을 재구성한 예를 나타내는 도면이다.

즉, 도 1에 나타낸 바와 같이, Chen 알고리즘에서는, 한 개의 16×16 행렬이 행렬계수의 규칙성을 이용하여 두 개의 8×8 행렬로 재구성되며, 이와 같이 함으로써 곱셈기의 사용과 곱셈 연산량을 반으로 줄일 수 있고, 아울러, 이러한 방법은 다른 블록 크기의 변환행렬에서도 동일하게 적용시킬 수 있다.

다음으로, 블록 크기에 따르는 연산량의 증가에 대하여 설명하면, 일반적으로, 변환 연산은, 처리하는 블록의 크기에 따라 비례하여 전체 크기가 커지는 경향을 가진다.

특히, 현재 그 표준이 정해지는 단계에 있는 HEVC의 경우, 압축률을 높이기 위해 영상의 특성에 따라 처리하고자 하는 블록의 크기가 최소 4×4에서 최대 32×32까지 가변하게 되는데, 이러한 블록 크기에 비례하여 사용되는 연산기의 수가 증가하기 때문에 효율적인 설계 방법이 더 중시된다.

더 상세하게는, 도 2를 참조하면, 도 2는 HEVC에서 사용하는 TU의 구조를 개략적으로 나타내는 도면이다.

도 2에 나타낸 바와 같이, 특히, 곱셈기는, 그 크기가 다른 연산기들에 비해 크기 때문에 곱셈기의 크기를 줄이려는 많은 노력이 이루어져 왔으며, 과거에는 단순히 사용하는 곱셈기의 수를 줄이려는 방법이 사용되어 왔으나, 근래에는, 예를 들면, "VLSI implementation of 16-point DCT for H.265/HEVC using walsh hadamard transform and lifting scheme, A. Ahmed, M. Awais, M. Maurizio, G. Masera, IEEE Multitopic Conference, 14th, pp. 144-148, Dec 2011."에 제시된 바와 같이, 변환 연산에 쓰이는 곱셈 연산을 일반적인 변수와 변수와의 곱셈이 아니라 고정된 상수와의 곱셈 연산을 이용하여, 시프트 연산과 덧셈기만을 사용하여 곱셈 연산을 수행하도록 구성하는 방법이 많이 사용되고 있다.

즉, 상기한 바와 같이, 변환 블록은, 다양한 블록 크기를 지원하여 크기가 커질수록 연산기의 수가 늘어나는 특성으로 인해, 하드웨어로 구현할 시 전체 크기가 커지는 단점을 가진다.

이러한 단점을 해결하기 위해, 근래에는, 고정된 상수와의 곱셈 연산을 이용한 방법을 많이 사용하고 있으나, 본 발명에서는, 변환 연산에 이러한 방법을 이용하는 동시에, 누산기와 멀티 사이클 구조를 사용하였다.

계속해서, 상기한 바와 같은 본 발명에 따른 HEVC를 위한 저면적 고성능 변환블록 및 이를 이용한 데이터 처리방법의 구체적인 내용에 대하여 설명한다.

상기한 바와 같이, 변환 블록에서 사용하는 변환행렬은 32×32 행렬에 16×16, 8×8, 4×4 행렬들이 부분 집합을 이루는 특성을 가진다.

도 3을 참조하면, 도 3은 부분집합 특성을 가지는 변환행렬의 구조를 나타내는 도면이다.

즉, 도 3에 나타낸 바와 같이, 본 발명은, 이러한 행렬 계수 특징을 이용하여, 중복되는 행렬 계수를 하나로 적용하여 구현하였다.

다음으로, 도 4를 참조하여, 상수와 변수 곱셈기 사용에 대하여 설명한다.

즉, 도 4를 참조하면, 도 4는 상수로 이루어진 행렬과 입력 데이터(변수)의 곱셈 연산의 개념을 개략적으로 나타내는 도면이다.

도 4에 나타낸 바와 같이, 변환 블록에서 사용되는 행렬 연산은, 블록 크기가 32×32일 때 16×16의 상수로 이루어진 행렬과 16×1의 입력 데이터의 곱이다.

따라서 한 클록 당 한 개의 데이터를 처리하기 위해서는, 최소 한 개의 행에 해당하는 16개의 일반적인 변수와 변수의 연산을 처리하는 일반적인 곱셈기가 필요하게 된다.

이에 대하여, 본 발명에서는, 변환 행렬의 곱이 정해져 있는 상수와 변수인 입력 데이터와의 곱임을 이용하여, 면적이 작은 시프트 연산과 덧셈기만으로 구성되는 입력되는 변수와 상수와의 곱셈기를 구성하여 사용하였다.

즉, 도 5를 참조하면, 도 5는 시프트와 덧셈기만으로 구성되는 변수와 상수와의 곱셈기의 전체적인 구성을 개략적으로 나타내는 도면이다.

도 5에 나타낸 바와 같이, 본 발명의 실시예에 따른 상수와 변수 곱셈기는, 정해진 상수에 대하여 개별적으로 곱셈기를 사용하기 때문에 상수의 수만큼의 곱셈기만이 필요하다.

또한, 도 6을 참조하면, 도 6은 상기한 바와 같이 하여 재구성된 HEVC의 변환 행렬을 상수 곱셈기로 처리할 때 필요한 상수 곱셈기의 개수를 블록의 크기에 따라 표로 정리하여 나타낸 도면이다.

도 6에 나타낸 바와 같이, 본 발명에 따르면, 종래와 같은 일반적인 곱셈기를 사용할 때보다 개수로는 두 배의 곱셈기가 필요하지만, 일반적으로 상수 곱셈기의 크기가 일반 곱셈기보다 훨씬 작기 때문에 전체 크기는 줄어들 것으로 기대할 수 있다.

다음으로, 본 발명에 적용되는 누산기에 대하여 설명하면, 본 발명에 따른 변환 블록은 누산기를 사용하여 행렬 연산 값을 구하며, 최소의 클록 주기 안에 행렬 연산을 완료하기 위해서는 상수 곱셈기의 활용을 최대로 하여야 한다.

또한, 변환 연산의 계수 특성상, 일반적인 행과 열의 곱을 수행하면 매 클록 동안 모든 상수 곱셈기를 활용한 연산을 할 수 없다.

따라서 본 발명에서는, 행과 열의 연산 대신에, 도 4를 참조하여 상기한 바와 같이, 열과 열의 연산을 수행하도록 구성된다.

이와 같이 하면, 변환 행렬의 계수 특성상 매 클록마다 모든 상수 연산기를 활용할 수 있기 때문에, 전체 행렬 연산에 필요한 클록 수를 최소화 할 수 있을 뿐만 아니라, 상수 곱셈기의 수가 일반적인 곱셈기의 수보다 두 배가 되기 때문에 전체 연산처리량도 두 배가 되는 장점을 가진다.

다음으로, 본 발명에 따른 변환블록 및 이를 이용한 데이터 처리방법의 멀티 사이클 구조에 대하여 설명하면, 상기한 바와 같이 하여 증가한 상수 곱셈기의 수로 인해 단위 시간당 연산 처리량은 입력되는 데이터의 양보다 두 배가 된다.

따라서 본 발명은, 이를 이용하여 가장 시간이 많이 걸리는 데이터 패스인 곱셈기 부분을 멀티 사이클 구조로 구현함으로써 전체적인 동작 주파수를 높이도록 구성된다.

더 상세하게는, 도 7을 참조하면, 도 7은 단일 사이클과 멀티 사이클의 패스를 비교하여 나타내는 도면이다.

도 7에 나타낸 바와 같이, 본 발명에 따르면, 단일 사이클 패스로 처리할 경우 남는 사이클을 멀티 사이클 패스로 적용하여 모두 활용함으로써 전체적인 동작 주파수를 높일 수 있다.

계속해서, 도 8 및 도 9를 참조하여, 본 발명에 따른 변환블록 및 이를 이용한 데이터 처리방법에 의해 구성된 DCT 기반(DCT-based) 정수 변환 블록의 구조 및 그 구체적인 동작에 대하여 설명한다.

먼저, 도 8을 참조하면, 도 8은 본 발명에 따른 DCT 기반 정수 변환 블록의 전체적인 구성을 개략적으로 나타내는 도면이다.

더 상세하게는, 도 8에 나타낸 바와 같이, 전처리된 데이터(preprocessed input data)가 매 사이클마다 MUX를 통해 적절한 타이밍에 시프트(shifter)와 덧셈기(adder)만으로 구성되는 변수와 상수의 곱셈기(constant variable multiplier)로 입력되면, 곱셈기에서 연산된 값을 누산기(accumulator)에서 수신하여 상기한 바와 같은 변환 연산을 이용하여 행렬 연산을 행한 후, 리미팅 및 라운딩(limiting and rounding)을 거쳐 출력 데이터(output data)로서 내보낸다.

아울러, 도 9를 참조하면, 도 9는 상기한 바와 같은 도 8에 나타낸 본 발명에 따른 DCT 기반 정수 변환 블록의 전체적인 동작 단계를 개략적으로 나타내는 플로차트이다.

즉, 도 9에 나타낸 바와 같이, 본 발명에 따른 DCT 기반 정수 변환 블록의 전체적인 동작 단계는, 먼저, 부분 집합 구조를 가지는 변환행렬의 중복되는 행렬 계수를 이용하여 상기 변환행렬을 상수로 이루어진 행렬과 입력데이터인 변수의 곱의 형태로 변환하는 전처리 단계(S91)와, 상기 전처리 단계에서 전처리된 데이터를 매 사이클마다 MUX를 통해 적절한 타이밍에 시프트와 덧셈기만으로 구성되는 곱셈기로 입력하는 입력단계(S92)와, 상기 입력단계(S92)에서 입력된 데이터에 근거하여 상기 곱셈기에서 시프트와 덧셈 연산을 통해 상기 전처리된 데이터의 곱셈 연산을 수행하는 곱셈단계(S93)와, 상기 곱셈단계(S93)에서 곱셈 연산된 값을 누산기에서 수신하여 행렬 연산을 수행하는 누산단계(S94) 상기 누산단계(S94) 후, 리미팅 및 라운딩을 거쳐 출력 데이터를 생성하는 출력단계(S95)를 포함하여 이루어진다.

계속해서, 도 10을 참조하여, 상기한 바와 같은 본 발명에 따른 변환 블록을 실제 회로로서 구현한 구성예에 대하여 설명한다.

즉, 도 10을 참조하면, 도 10은 기존에 제안되었던 1D 변환 블록들의 구조와 상기한 바와 같이 하여 구현된 본 발명에 따른 1D 변환 블록을 비교한 내용을 표로 나타내는 도면이다.

여기서, 도 10에 나타낸 본 실시예에서는, Verilog HDL로 설계한 RTL 코드를 TSMC 0.18㎛ CMOS 고정의 라이브러리와 함께 IDEC에서 지원하는 Syopsys 사의 Design Compiler를 통해 합성하여 상기한 바와 같은 본 발명에 따른 변환 블록을 구성하였다.

이때, 총 게이트 수는 49k이고, 4k(3840×2160)@30fps 영상을 186MHz의 동작 주파수로 처리하였다.

또한, 도 10에 제시된 기존의 변환블록들은, "High-Efficiency and Low Power Architectures for 2-D DCT and IDCT Based on CORDIC Rotation, T. Y. Sung, Y. S. Shieh, C. W. Yu, and H. C. Hsin, Proceedings of International Conference on Parallel and Distributed Computing, Applications, and Technologies(PDCAT), pp. 191-196, Dec 2006."(Sung)과, "A Performance Aware IP Core Design for Multi-mode Transform Coding Using Scalable-DA Algorithm, J. W. Chen, K. Hung, J. S. Wang, and J. I. Guo, Processing of International Symposium on Circuits and Systems(ISCAS), pp. 21-24, May 2006."(Chen) 및 "2-D Large Inverse Transform(16×16, 32×32) for HEVC(High Efficiency Video Coding), J. S. Park, W. J. Nam, S. M. Han, S. S. Lee, Journal of Semiconductor Technology and Science, Vol. 12, No. 2, pp. 203-211, June 2012."(Park)에 제시된 것을 각각 이용하였다.

따라서, 도 10에 나타낸 바와 같이, 종래의 구조와 비교하여 본 발명에 따른 변환 블록 구조의 총 게이트 수가 감소하였음을 알 수 있다.

상기한 바와 같이 하여, 본 발명에 따른 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법을 구현할 수 있다.

즉, 상기한 바와 같이 하여 본 발명에 따른 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록을 구현함으로써, 본 발명에 따르면, 변환행렬의 계수특성을 이용하여 전체 면적을 줄일 수 있는 상수 곱셈기를 사용하고, 16×16, 8×8, 4×4 크기의 변환 행렬들이 32×32 변환 행렬의 부분 집합인 특징을 이용하여, 블록 크기를 최대 32×32 크기까지 지원하는 차세대 영상 압축 코덱인 HEVC용 변환블록을 효율적으로 구현할 수 있다.

또한, 본 발명에 따르면, 계산 시간이 오래 걸리는 곱셈기 부분은 멀티 사이클 패스로 적용하여 보다 낮은 주파수에서 고화소 영상을 처리할 수 있도록 구성되어 다중 블록 처리가 용이한 행렬 연산기를 구현함으로써, 저면적을 요구하면서도 고성능의 처리 효율을 가지는 동시에 다양한 블록 크기를 모두 지원 가능한 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록 및 이를 이용한 데이터 처리방법을 제공할 수 있다.

이상, 상기한 바와 같은 본 발명의 실시예를 통하여 본 발명에 따른 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록의 구현방법 및 이를 이용한 데이터 처리방법의 상세한 내용에 대하여 설명하였으나, 본 발명은 상기한 실시예에 기재된 내용으로만 한정되는 것은 아니며, 따라서 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 설계상의 필요 및 기타 다양한 요인에 따라 여러 가지 수정, 변경, 결합 및 대체 등이 가능한 것임은 당연한 일이라 하겠다.

Claims

HEVC 블록 중 처리하는 기본 블록의 크기에 영향을 받는 변환블록을 최적화함으로써 저면적, 고성능의 처리 효율을 가지는 동시에 다양한 블록 크기를 모두 지원 가능하도록 하기 위한 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록에 있어서,
4×4, 8×8, 16×16, 32×32 크기의 행렬을 두 개의 2×2, 4×4, 8×8, 16×16 크기의 행렬로 분해하는 행렬 재구성 방법 및 32×32 행렬의 계수가 4×4, 8×8, 16×16 행렬의 계수를 포함하는 행렬의 계수 특성에 근거하여, 부분 집합 구조를 가지는 변환행렬의 중복되는 행렬 계수를 공통으로 적용하여 상기 변환행렬을 상수로 이루어진 행렬과 입력데이터인 변수의 곱의 형태로 변환하는 전처리부;
상기 전처리부에 의해 전처리된 데이터(preprocessed input data)를 입력하기 위한 입력부;
상기 입력부로부터 입력되는 상기 전처리된 데이터에 근거하여 곱셈 연산을 행하는 곱셈기(multiplier);
상기 곱셈기에 의해 연산된 값을 수신하여 행렬 연산을 수행하는 누산기(accumulator); 및
상기 누산기에 의해 연산된 값을 수신하여 출력 데이터(output data)를 생성하여 출력하는 출력부를 포함하여 구성되고,
상기 전처리부는,
이하의 수학식에 나타낸 Chen 알고리즘을 이용한 DCT(Discrete Cosine Transform) 연산에 의해, 상기 변환행렬의 블록 크기가 32×32, 16×16, 8×8 또는 4×4일 때, 상기 변환행렬을 16×16, 8×8, 4×4 또는 2×2의 상수로 이루어진 행렬과 16×1, 8×1, 4×1 또는 2×1의 입력 데이터의 곱으로 변환하는 것을 특징으로 하는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록.

(여기서, X_e는 짝수 항을 가지는 N/2 포인트 트랜스폼 계수 벡터이고, X_o는 홀수 항을 가지는 N/2 포인트 트랜스폼 계수 벡터이며, x_f는 x의 앞부분 반절을 가지는 N/2- 포인트 DCT 행렬이고, x_r은 x의 뒷부분 반절(역방향)을 가지는 N/2- 포인트 DCT 행렬이며, S_N/2는 N/2×N/2 대칭 행렬이고, C_N/2는 N/2-포인트 DCT 행렬임)
제 1항에 있어서,
상기 입력부는,
상기 전처리부에 의한 처리가 완료된 데이터를 상기 곱셈기로 입력하는 MUX를 포함하여 구성되는 것을 특징으로 하는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록.
제 1항에 있어서,
상기 곱셈기는,
상수와 변수를 입력으로 수신하여 상기 상수와 상기 변수의 곱을 연산하는 상수 곱셈기(constant variable multiplier)로 구성되는 것을 특징으로 하는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록.
제 3항에 있어서,
상기 상수 곱셈기는,
시프트 연산을 수행하는 시프터(shifter)와 덧셈 연산을 수행하는 덧셈기(adder)만으로 구성되는 것을 특징으로 하는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록.
제 1항에 있어서,
상기 누산기는,
행과 열의 연산 대신에, 열과 열의 연산을 수행하도록 구성되는 것을 특징으로 하는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록.
제 1항에 있어서,
상기 출력부는,
상기 누산기로부터 수신된 값에 리미팅 및 라운딩(limiting and rounding)을 행하여 상기 출력 데이터를 생성하도록 구성되는 것을 특징으로 하는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록.
제 1항에 있어서,
상기 변환블록은,
상수와 변수를 입력으로 수신하는 상수 곱셈기를 이용함으로써, 전체 곱셈기의 개수는 증가하나 곱셈기의 전체 면적은 감소하도록 구성되는 것을 특징으로 하는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록.
제 7항에 있어서,
상기 변환블록은,
상기 상수 곱셈기를 이용하는 것에 의해 증가되는 상기 곱셈기의 숫자를 통하여 전체적인 처리량을 증가시키며, 증가된 처리량으로 인해 남는 동작 사이클을 이용하여 연산시간이 많이 걸리는 곱셈기 부분에 멀티 사이클 패스를 구성함으로써, 곱셈기의 동작 주파수는 저감하는 동시에 전체 연산량은 유지할 수 있도록 구성되는 것을 특징으로 하는 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록.
HEVC 블록 중 처리하는 기본 블록의 크기에 영향을 받는 변환블록을 최적화함으로써 저면적, 고성능의 처리 효율을 가지는 동시에 다양한 블록 크기를 모두 지원 가능하도록 하기 위해, 청구항 1항 내지 8항 중 어느 한 항에 기재된 HEVC를 위한 저면적 고성능 다중모드 1D 변환블록을 이용한 HEVC를 위한 데이터 처리방법에 있어서,
4×4, 8×8, 16×16, 32×32 크기의 행렬을 두 개의 2×2, 4×4, 8×8, 16×16 크기의 행렬로 분해하는 행렬 재구성 방법 및 32×32 행렬의 계수가 4×4, 8×8, 16×16 행렬의 계수를 포함하는 행렬의 계수 특성에 근거하여, 부분 집합 구조를 가지는 변환행렬의 중복되는 행렬 계수를 공통으로 적용하여 상기 변환행렬을 상수로 이루어진 행렬과 입력데이터인 변수의 곱의 형태로 변환하는 전처리 단계;
상기 변환블록의 입력부를 통해 상기 전처리 단계에서 전처리된 데이터를 상기 변환블록의 곱셈기(multiplier)에 입력하는 입력단계;
상기 입력단계에서 입력된 데이터에 근거하여 상기 곱셈기에서 상기 전처리된 데이터의 곱셈 연산을 수행하는 곱셈단계;
상기 곱셈단계에서 곱셈 연산된 값을 상기 변환블록의 누산기(accumulator)에서 수신하여 행렬 연산을 수행하는 누산단계; 및
상기 변환블록의 출력부를 통해 상기 누산기에 의해 연산된 값을 수신하여 출력 데이터를 생성하여 출력하는 출력단계를 포함하여 구성되고,
상기 전처리 단계는,
이하의 수학식에 나타낸 Chen 알고리즘을 이용한 DCT(Discrete Cosine Transform) 연산에 의해, 상기 변환행렬의 블록 크기가 32×32, 16×16, 8×8 또는 4×4일 때, 상기 변환행렬을 16×16, 8×8, 4×4 또는 2×2의 상수로 이루어진 행렬과 16×1, 8×1, 4×1 또는 2×1의 입력 데이터의 곱으로 변환하는 것을 특징으로 하는 HEVC를 위한 데이터 처리방법.

(여기서, X_e는 짝수 항을 가지는 N/2 포인트 트랜스폼 계수 벡터이고, X_o는 홀수 항을 가지는 N/2 포인트 트랜스폼 계수 벡터이며, x_f는 x의 앞부분 반절을 가지는 N/2- 포인트 DCT 행렬이고, x_r은 x의 뒷부분 반절(역방향)을 가지는 N/2- 포인트 DCT 행렬이며, S_N/2는 N/2×N/2 대칭 행렬이고, C_N/2는 N/2-포인트 DCT 행렬임)
제 9항에 있어서,
상기 입력단계에서,
상기 입력부는, 상기 전처리 단계에 의한 처리가 완료된 데이터를 상기 곱셈기로 입력하는 MUX를 포함하여 구성되는 것을 특징으로 하는 HEVC를 위한 데이터 처리방법.
제 9항에 있어서,
상기 곱셈단계에서,
상기 곱셈기는, 상수와 변수를 입력으로 수신하여 상기 상수와 상기 변수의 곱을 연산하는 상수 곱셈기로 구성되는 것을 특징으로 하는 HEVC를 위한 데이터 처리방법.
제 11항에 있어서,
상기 상수 곱셈기는,
시프트 연산을 수행하는 시프터와 덧셈 연산을 수행하는 덧셈기만으로 구성되는 것을 특징으로 하는 HEVC를 위한 데이터 처리방법.
제 9항에 있어서,
상기 누산단계에서,
상기 누산기는, 행과 열의 연산 대신에, 열과 열의 연산을 수행하도록 구성되는 것을 특징으로 하는 HEVC를 위한 데이터 처리방법.
제 9항에 있어서,
상기 출력단계에서,
상기 출력부는, 상기 누산기로부터 수신된 값에 리미팅 및 라운딩을 행하여 상기 출력 데이터를 생성하도록 구성되는 것을 특징으로 하는 HEVC를 위한 데이터 처리방법.
제 9항에 있어서,
상기 방법은,
상수와 변수를 입력으로 수신하는 상수 곱셈기를 이용함으로써, 전체 곱셈기의 개수는 증가하나 곱셈기의 전체 면적은 감소하도록 구성되는 것을 특징으로 하는 HEVC를 위한 데이터 처리방법.
제 15항에 있어서,
상기 방법은,
상기 상수 곱셈기를 이용하는 것에 의해 증가되는 상기 곱셈기의 숫자를 통하여 전체적인 처리량을 증가시키며, 증가된 처리량으로 인해 남는 동작 사이클을 이용하여 연산시간이 많이 걸리는 곱셈기 부분에 멀티 사이클 패스를 구성함으로써, 곱셈기의 동작 주파수는 저감하는 동시에 전체 연산량은 유지할 수 있도록 구성되는 것을 특징으로 하는 HEVC를 위한 데이터 처리방법.