KR20160059732A

KR20160059732A - 에이치이브이씨에서 y, u 및 v 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처

Info

Publication number: KR20160059732A
Application number: KR1020140161598A
Authority: KR
Inventors: 이채은
Original assignee: 인하대학교 산학협력단
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2016-05-27
Also published as: KR101711495B1

Abstract

본 발명은 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처에 관한 것으로, HEVC의 luma component Y, chrominance component U와 V로 이루어지는 TU(Transform Unit)를 위한 Y, U 와 V 잔차 블록(residual block)들을 전치 메모리(transpose memory)를 이용해 수행하는 DCT 아키텍처에 있어서, 상기 전치 메모리(transpose memory)는 16×1 사이즈의 TU를 위해 1D 변환된 Y, U 및 V 잔차를 제1 색상으로 저장하고, 8×8 TU의 Y, U 및 V 잔차를 제2 색상으로 저장하는 것을 특징으로 한다. 본 발명은 Y 잔차 변환(Y residual transform)과 병행하여 U와 V 잔차 변환(U and V residual transform)을 계산하기 위해 사용되지 않는 전치 메모리(transpose memory)를 효율적으로 사용할 수 있을 뿐만아니라, Y 변환(Y transform)을 계산하기 위해 요구되는 시간 동안에 U와 V 잔차 변환(U and V residual transform)를 수행하기 때문에 상당수의 사이클이 절약된다.

Description

에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처 { Reusable DCT Architecture for Parallel Processing of Y, U and V Transforms in HEVC }

본 발명은 HEVC에서 Y 잔차 변환(Y residual transform)과 병행하여 U와 V 잔차 변환(U and V residual transform)을 계산하기 위해 사용되지 않는 전치 메모리(transpose memory)를 이용하여 Y 변환(Y transform)을 계산하기 위해 요구되는 시간 동안에 U와 V 잔차 변환(U and V residual transform)을 수행하여 사이클 절약하며, 다중 DCT 사이즈(multiple DCT sizes)를 위한 전치 메모리(transpose memory)의 재사용에도 고려될 수 있는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처에 관한 것이다.

일반적으로 영상 압축 기술은 영상회의, 스트리밍, 영상 저장 및 화상통신 등의 영상 애플리케이션들 뿐만 아니라 HD(High-definition) 영상 콘텐츠에 대한 폭발적인 수요 증가로 인해 다양한 산업 분야에서 주목받고 있다. 이때, H.264/AVC는 표준화되고 가장 널리 사용되고 있는 영상 부호화기술이다.

한편, 최근에는 차세대 영상 부호화기술 표준으로 알려진 에이치브이이씨(HEVC, High Efficiency Video Coding)는 ISO/IEC MPEG와 ITU-T VCEG에 의해 발전되어져 왔다.

상기 HEVC는 유연한 블록 구조(flexible block structure), 증가된 인트라코딩방향(increased intra-coding direction)들, 정교한 인터폴레이션 필터들(sophisticated interpolation filters), 다양한 인루프 필터들(various in-loop filters), 그리고 향상된 엔트로피 부호화 스킴들(enhanced entropy coding schemes) 등의 여러 새로운 형태가 소개되고 있다.

현재 표준화된 HEVC(High Efficiency Video Coding)는 동일한 화질을 기준으로 H.264/AVC에 비해 상당히 높은 압축 성능을 달성한다. 이에 대한 주요 이유 중 하나는 HEVC가 4×4에서부터 32×32까지 큰 사이즈(big size)의 2차원 DCT(Discrete Cosine Transform)를 지원한다는 것이다. 그러나, 이와 같은 큰 사이즈(big size)의 DCT는 하드웨어의 복잡성을 증가시킨다. 따라서, 효율적인 변환 아키텍처 설계는 하드웨어 기반 HEVC 부호화기(encoder)를 위해 해결해야 할 중요한 문제이다.

HEVC에서 잔차 행렬들(residual matrices)에 대한 DCT는 그 잔차 행렬들(residual matrices)과 해당 크기의 DCT 정수 계수 행렬(coefficient matrices)을 함께 곱함으로써 구해진다.

이러한 HEVC의 계수 행렬(coefficient matrices)은 2D 변환(2D transform)이 1D 행 변환(1D row transform)을 수행한 다음 1D 열 변환(1D column transform)을 하는 것과 동등하게 2D 변환이 수행되는 것처럼 선택된다.

이것은 단순화된 하드웨어 구현에 이르게 한다. 따라서, 변환 아키텍처는 일반적으로 세 가지 구성 요소인 조합된 1D 열 변환(combinational 1D row transform), 전치 메모리(transpose memory), 조합된 1D 행 변환(combinational 1D column transform)으로 구성된다. 이때, 주어진 변환 아키텍처의 사이즈에 따라 요구되는 전치 메모리(transpose memory)는 그 차수(dimension)의 제곱만큼 증가한다. 따라서, 큰 사이즈의 변환을 위해서는 하드웨어 영역의 대부분을 전치 메모리(transpose memory)가 차지한다. 예를 들어 32 point DCT architecture에서는 65% 이상을 전치 메모리(transpose memory)가 차지한다. 그러나, 작은 크기의 변환이 전치 메모리(transpose memory)상에서 구동될 때 대부분의 영역은 사용되지 않은 상태(unused)가 유지된다.

따라서, 이와 같은 구조는 메모리의 낭비는 시스템 운영에 비효율성을 야기한다.

참고문헌 1: M. Budagavi, A. Fuldseth, G. Bjontegaard, V. Sze and M. Sadafale, "Core Transform Design in the High Efficiency Video Coding (HEVC) Standard," IEEE Journal of Selected Topics in Signal Processing, 7(6):1029-1041, 2013 참고문헌 2: J. D. Bruguera, R. R. Osorio, "A Unified Architecture for H.264 Multiple Block-Size DCT with Fast and Low Cost Quantization,"9th EUROMICRO Conference on Digital System Design: Architectures, Methods and Tools, 407-414, 2006 참고문헌 3: A. G. Dempster and M. D. Macleod, "Constant integer multiplication using minimum adders,"IEEE Proceedings - Circuits, Devices and Systems, 141(5):407-413, 1994

따라서, 본 발명은 이러한 문제점들을 해결하기 위한 것으로서, 본 발명은 Y 잔차 변환(Y residual transform)과 병행하여 U와 V 잔차 변환(U and V residual transform)을 계산하기 위해 사용되지 않는 전치 메모리(transpose memory)를 이용하는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처를 제공하는데 그 목적이 있다.

아울러, 본 발명은 다중 DCT 사이즈(multiple DCT sizes)를 위해 전치 메모리(transpose memory)의 재사용에 고려될 수 있는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처를 제공하는데 그 목적이 있다.

이와 같은 기술적 과제를 해결하기 위해 본 발명은;

HEVC의 luma component Y, chrominance component U와 V로 이루어지는 TU(Transform Unit)를 위한 Y, U 와 V 잔차 블록(residual block)들을 전치 메모리(transpose memory)를 이용해 수행하는 DCT 아키텍처에 있어서, 상기 전치 메모리(transpose memory)는 16×1 사이즈의 TU를 위해 1D 변환된 Y, U 및 V 잔차를 제1 색상으로 저장하고, 8×8 TU의 Y, U 및 V 잔차를 제2 색상으로 저장하는 것을 특징으로 하는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처를 제공한다.

이때, 상기 제1색상은 밝은 회색 컬러이고, 상기 제2색상은 어두운 회색 컬러인 것을 특징으로 한다.

그리고, 상기 DCT 아키텍처는 2D DCT 아키텍처이고, 상기 2D DCT 아키텍쳐에 사용되는 전치 메모리(transpose memory)는 32×32 행렬인 것을 특징으로 한다.

아울러, 상기 Y, U 및 V 잔차 블록(residual block)은 전치 메모리(transpose memory)를 통해 병렬처리되는 것을 특징으로 한다.

또한, 상기 DCT 아키텍처는 32 포인트 1D 변환 모듈을 사용하는 2D DCT 아키텍처인 것을 특징으로 한다.

이때, 상기 32 포인트 1D 변환 모듈은 더 낮은 사이즈의 입력을 위해 각 모듈로부터 입력들과 출력들을 주거나 읽을 수 있는 위치의 변경을 통해 1D 변환을 수행하는 것을 특징으로 한다.

아울러, 상기 2D DCT 아키텍처는 1D 행 DCT 모듈(1D row DCT module)과 1D 열 DCT 모듈(1D column DCT module)이 사용되며, 1D DCT 블록은 부분적으로 버터플라이 구조로 설계되는 것을 특징으로 한다.

그리고, 상기 2D DCT 아키텍처는 여러 곱셈 연산을 거쳐 발생하는 공통의 시프트 연산들을 탐지하고 공유하는 MCM(Multiple Constant Multiplication)을 위한 알고리즘이 게이트수를 더 최적화하기 위해 사용되는 것을 특징으로 한다.

본 발명에 따르면, Y 잔차 변환(Y residual transform)과 병행하여 U와 V 잔차 변환(U and V residual transform)을 계산하기 위해 사용되지 않는 전치 메모리(transpose memory)를 효율적으로 사용할 수 있을 뿐만아니라, Y 변환(Y transform)을 계산하기 위해 요구되는 시간 동안에 U와 V 잔차 변환(U and V residual transform)를 수행하기 때문에 상당수의 사이클이 절약된다.

아울러, 본 발명에 따른 재사용 DCT 아키텍처는 다중 DCT 사이즈(multiple DCT sizes)를 위한 전치 메모리(transpose memory)의 재사용에도 고려될 수 있고, 이를 통한 하드웨어 설계 비용의 절감 효과도 얻을 수 있다.

도 1은 통상의 HEVC 부호화기와 복호화기의 구성을 도시한 개념도이다.
도 2는 표시 영역 위치 16×16 Y, 8×8 Y, 8×8 U, 8×8 V, 4×4 U, 4×4 V 1D 변환 된 잔차를 위한 위치가 표시된 32×32 계수의 전치 메모리(transpose memory)를 도시한 도면이다.
도 3은 본 발명에 따른 병렬 2D DCT 아키텍처를 설명하기 위해 도시한 도면이다.

본 발명에 따른 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처를 첨부한 도면을 참고로 하여 이하 상세히 기술되는 실시 예에 의하여 그 특징들을 이해할 수 있을 것이다.

이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.

따라서, 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들은 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

도 1은 통상의 HEVC 부호화기와 복호화기의 구성을 도시한 개념도이다. 이에 의하면 하드웨어 기반의 HEVC(High Efficiency Video Coding)에서 영상의 압축에 사용되는 부호화기(100)는 입력 영상에 대해 인트라(intra) 모드 또는 인터(inter) 모드로 부호화를 수행하고 비트스트림을 출력할 수 있다.

그리고, 영상 복호화기(200)는 상기 부호화기(100)에서 출력된 비트스트림을 입력 받아 인트라 모드 또는 인터 모드로 복호화를 수행하고 재구성된 영상, 즉 복원 영상을 출력할 수 있다.

이때, 인트라 모드인 경우에는 스위치가 인트라로 전환되고, 인터 모드인 경우 스위치가 인터로 전환될 수 있다.

그리고, 표준화된 HEVC(High Efficiency Video Coding)는 4×4에서 부터 32×32 까지 큰 사이즈(big size)의 2차원 DCT(Discrete Cosine Transform)를 지원하지만, 큰 사이즈(big size)의 DCT는 하드웨어의 복잡성을 증가시키므로 하드웨어 기반 HEVC 부호화기(encoder)에서 아키텍처 설계는 매우 중요하다.

본 발명은 Y 잔차 변환(Y residual transform)과 병행하여 U와 V 잔차 변환(U and V residual transform)을 계산하기 위해 사용되지 않는 전치 메모리(transpose memory)를 이용한다.

이때, Y 변환(Y transform) 계산시 요구되는 시간 동안 U와 V 잔차 변환(U and V residual transform)을 수행하여 수행 사이클을 상당폭 절약할 수 있고, 다중 DCT 사이즈(multiple DCT sizes)를 위한 전치 메모리(transpose memory)의 재사용을 고려할 수 있다.

통상 상기 HEVC의 TU(Transform Unit)는 3개의 콤포넌트로서 하나의 luma component Y, 두개의 chrominance component U와 V로 이루어진다. 상기 DCT는 각 TU(Transform Unit)를 위한 Y, U 와 V의 잔차 블록(residual block)들을 위해 수행된다. 그래서, HEVC에서는 DCT가 3개의 잔차 블록(residual block)들을 위해 항상 수행된다. 게다가 U와 V의 잔차 블록(residual block)의 차원은 Y 블럭에 상응하는 값의 1/2이다.

한편, HEVC에서 최대로 지원되는 2D DCT의 크기는 32×32이므로, DCT 아키텍쳐에 사용되는 전치 메모리(transpose memory)는 32×32 행렬이다. 32 × 32 이외 크기의 TU들을 위해 Y, U 및 V 변환을 수행할 때, 대부분의 메모리는 미사용상태로 남아있다.

따라서, 본 발명에서 제안되는 재사용 DCT 아키텍처는 병렬로 다수의 변환을 처리할 수 있도록 속도를 향상시킬 수 있도록 상기 전치 메모리(transpose memory)를 사용한다.

도 2는 Y, U 및 V 변환을 함께 처리하는 전치 메모리(transpose memory)의 사용 구성을 도시한 도면이다. 이에 의하면 16×1 사이즈의 TU를 위해, 상기 전치 메모리(transpose memory)는 모든 1D 변환 전치 Y, U 및 V의 모든 1D 변환 잔차를 밝은 회색 컬러 표현으로 저장한다. 마찬가지로 8×8 TU의 Y, U 및 V 잔차 어두운 회색으로 셀을 점유한다. Y 잔차 블록(residual block)이 전체적으로 병렬 처리됨에 반해 U 및 V 잔차 블록(residual block)은 직렬로 처리된다.

따라서, Y 잔차 블록(residual block)의 한 행과, U 또는 V 잔차 블록(residual block) 중의 하나의 행은 매 사이클 마다 1D 행 변환 유닛으로 전송되고, 전치 메모리(transpose memory)로 전송된다.

본 발명에 따른 아키텍쳐의 한가지 장점은 Y, U 및 V 잔차 블록(residual block)의 병렬처리를 통해 16×16 및 8×8 TU의 처리 시간을 줄일 수 있다는데 있다.

아울러 본 발명에 따른 아키텍쳐의 다른 장점은 입력되는 TU 사이즈가 변할때 일어난다. 다양한 사이즈의 TU들이 처리될 때, 풀리 파이프라인 실행(fully pipelined execution)이 불가능하다. 다양한 사이즈의 TU들이 입력시 추가적인 버블 사이클이 필요하다. 제안된 아키텍처의 버블 사이클들은 간단한 시리얼 실행(simple serial execution)에 비해 현저히 작다. 이는 Y, U 및 V 잔차 블록(residual block) 등의 입력 사이즈의 변화들은 동시에 처리됨에 따라 제거되기 때문이다.

한편, 도 3은 본 발명에서 제안된 Y, U and V 잔차 블록(residual block)의 병렬처리를 지원하기 위한 2D DCT 아키텍처를 도시한 도면이다. 이에 의하면 1D 행 DCT 모듈(1D row DCT module)과 1D 열 DCT 모듈(1D column DCT module)은 2D DCT 아키텍처를 위해 사용된다.

상기 HEVC를 위해 가장 크게 지원되는 DCT 사이즈는 32×32이므로, 2D DCT 아키텍처는 32 포인트 1D 변환 모듈을 사용한다. 32 포인트 1D 변환 모듈은 더 낮은 사이즈의 입력을 위해 각 모듈로부터 입력들과 출력들을 주거나 읽을 수 있는 위치의 변경을 통해 1D 변환을 수행할 수 있다. 1D DCT 블록은 HM 11 소프트웨어구현을 통해 처리속도를 높이고 하드웨어 비용을 낮추기 위해 부분적으로 버터플라이 구조로 설계된다. 상기 아키텍처는 시프트 가산기를 가지는 모든 승수를 대체하여 최적화된다. 여러 곱셈 연산을 거쳐 발생하는 공통의 시프트 연산들을 탐지하고 공유하는 MCM(Multiple Constant Multiplication)을 위한 알고리즘이 게이트수를 더 최적화하기 위해 사용된다. 여기서, 본 발명은 전치 메모리(transpose memory)를 통한 병렬 처리는 Y와 병행하여 1D 변환된 U 또는 V의 계수를 요구한다.

따라서, 도 3에 회색으로 표시된 바와 같이 행과 열 각각 하나씩 2개의 추가적인 1D 변환 모듈(transform module)이 필요하다. U 및 V 잔차 행렬들(residual matrices)은 8×8, 병렬처리를 수행할 수 있는 가장 큰 TU는 16×16이기 때문에, 이러한 모듈들을 위한 차수는 8×1이다.

이때, 본 발명에서 제안된 하드웨어의 운영을 위해서는 2가지 중요한 제어 로직이 요구된다. 첫번째는 사이즈 제어로서, 1D 변환 모듈(transform module)들이 연산할 수 있는지를 결정하고 전치 메모리(transpose memory)에서의 적절한 위치로 출력 하도록 지시한다. 두번째는 시프트 제어로서, 전치 메모리(transpose memory)에게 수평 또는 수직 방향으로 이동할지 여부에 관하여 알려준다.

이상의 구조에 따른 본 발명에 따른 아키텍쳐는 Verilog로 구현되고, TSMC의 65 나노 기술로 합성된다. 4개의 1차원 변환모듈을 위해 요구되는 게이트의 수는 132K이고, 메모리 시프트를 위한 멀티플렉서와 더불어 전이 메모리(transpose memory)를 위한 게이트의 수는 198K이다. 총 게이트 수는 330K로서, 병렬처리를 위해 8×1 1D 변환 모듈(transform modules)을 위한 추가적인 하드웨어에 의해 총 게이트 수의 3.6%인 12K 게이트가 기여된다.

본 발명에 따른 아키텍쳐에서 2개의 8×8 U 및 V 잔차 행렬이 따르는 16×16 Y 잔차 행렬로 구성되는 하나의 16×16 TU를 처리하기 위한 수행시간은 32 사이클이다. 만약 여러개의 16×16 TU가 풀리 파이프라인 방식(fully pipelined manner)에 의해 처리된다면, 각각의 16×16 TU를 위한 수행시간은 16사이클 만큼 줄어든다. 반면에 Y, U 및 V 잔차 행렬이 본 발명에 따른 병렬 처리 구조에 의하지 않고 풀리 파이프라인 방식(fully pipelined manner)에서 연속적으로 처리된다면 32 사이클이 요구된다. RQT=1, 최소 CU=8 및 NSQT=0의 구조를 갖는 최대 CU 사이즈=64를 위해, 본 발명에 따른 아키텍처에서는 모든 변환을 위한 처리시간은 1224인 반면에, 통상의 시리얼 수행의 경우 요구되는 처리 시간은 2204 사이클이다. 따라서 본 발명에 의하면 처리 속도는 44.46 %만큼 향상된다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형 가능한 것으로, 본 발명의 보호범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 부호화기
200: 복호화기

Claims

HEVC의 luma component Y, chrominance component U와 V로 이루어지는 TU(Transform Unit)를 위한 Y, U 와 V 잔차 블록(residual block)들을 전치 메모리(transpose memory)를 이용해 수행하는 DCT 아키텍처에 있어서,
상기 전치 메모리(transpose memory)는 16×1 사이즈의 TU를 위해 1D 변환된 Y, U 및 V 잔차를 제1 색상으로 저장하고, 8×8 TU의 Y, U 및 V 잔차를 제2 색상으로 저장하는 것을 특징으로 하는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처.
제 1항에 있어서,
상기 제1색상은 밝은 회색 컬러이고, 상기 제2색상은 어두운 회색 컬러인 것을 특징으로 하는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처.
제 1항에 있어서,
상기 DCT 아키텍처는 2D DCT 아키텍처이고, 상기 2D DCT 아키텍쳐에 사용되는 전치 메모리(transpose memory)는 32×32 행렬인 것을 특징으로 하는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처.
제 1항에 있어서,
상기 Y, U 및 V 잔차 블록(residual block)은 전치 메모리(transpose memory)를 통해 병렬처리되는 것을 특징으로 하는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처.
제 1항에 있어서,
상기 DCT 아키텍처는 32 포인트 1D 변환 모듈을 사용하는 2D DCT 아키텍처인 것을 특징으로 하는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처.
제 5항에 있어서,
상기 32 포인트 1D 변환 모듈은 더 낮은 사이즈의 입력을 위해 각 모듈로부터 입력들과 출력들을 주거나 읽을 수 있는 위치의 변경을 통해 1D 변환을 수행하는 것을 특징으로 하는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처.
제 5항에 있어서,
상기 2D DCT 아키텍처는 1D 행 DCT 모듈(1D row DCT module)과 1D 열 DCT 모듈(1D column DCT module)이 사용되며,
1D DCT 블록은 부분적으로 버터플라이 구조로 설계되는 것을 특징으로 하는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처.
제 5항에 있어서,
상기 2D DCT 아키텍처는 여러 곱셈 연산을 거쳐 발생하는 공통의 시프트 연산들을 탐지하고 공유하는 MCM(Multiple Constant Multiplication)을 위한 알고리즘이 게이트수를 더 최적화하기 위해 사용되는 것을 특징으로 하는 에이치이브이씨에서 Y, U 및 V 변환의 병렬 처리를 위한 재사용 디씨티 아키텍처.