KR20140129607A

KR20140129607A - 동영상 처리 방법 및 장치

Info

Publication number: KR20140129607A
Application number: KR20130048111A
Authority: KR
Inventors: 정태영; 박동진; 김대연
Original assignee: 주식회사 칩스앤미디어; 인텔렉추얼디스커버리 주식회사
Priority date: 2013-04-30
Filing date: 2013-04-30
Publication date: 2014-11-07
Also published as: US20140321529A1

Abstract

동영상을 처리하는 장치가 개시된다. 본 동영상 처리 장치는, 호스트와 통신하며, 호스트로부터 입력되는 동영상 데이터로부터 파라미터 정보 또는 슬라이스 헤더 정보를 파싱하는 영상 중앙 처리 유닛 및 영상 중앙 처리 유닛의 제어를 받아 파싱된 정보에 따라 동영상을 처리하는 복수의 영상 처리부들을 포함하고, 영상 중앙 처리 유닛은, 복수의 영상 처리부들이 각각 처리해야할 픽셀(pixel)의 수를 고려하여 복수의 영상 처리부들 각각에 할당할 동영상 비트스트림의 시작 위치를 결정한다.

Description

동영상 처리 방법 및 장치{Method and apparatus for processing moving image}

본 발명은 동영상 처리 방법 및 장치에 관한 것으로, 더욱 상세하게는 복수의 처리 유닛들을 이용하여 동영상을 스케일러블(scalable)하게 처리하는 구성에 관한 것이다.

UHD에 대한 니즈가 발생하면서, 저장매체의 크기 및 전달매체의 대역폭을 현재 동영상 압축 기술로는 수용하기 어려움에 따라, UHD 동영상 압축을 위한 새로운 압축 표준 기술이 필요하고 되었고, 이에 따라, HEVC가 2013년1월 표준화 완료되었다.

그러나, HEVC는 internet 및 3G, LTE 등의 망을 통해 서비스되는 동영상 스트림을 위해서도 쓰일 수 있으며, 이때는 UHD 뿐만 아니라 FHD 또는 HD급도 HEVC로 압축될 수 있다.

UHD TV 같은 경우도 단기적으로는 4K 30fps가 주를 이룰 것으로 예상하나, 4K 60fps/120fps, 8K 30fps/60fps/… 등으로 계속 초당 처리해야할 화소수가 커질 것으로 예상된다.

이와 같은 응용에 따라 다양한 해상도, 프레임율 등에 cost-effective하게 대응하기 위해서는, 응용에서 요구되는 성능, 기능에 따라 쉽게 확장 가능한 동영상 복호화 장치를 가지고 있어야 한다.

본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은 Multi V-core각각에 할당하는 pixel의 개수가 가능한 균등하도록 entry point를 할당하는 V-CPU를 구비한 동영상 처리 방법 및 장치를 제공함에 있다.

상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 동영상을 처리하는 장치는, 호스트와 통신하며, 상기 호스트로부터 입력되는 동영상 데이터로부터 파라미터 정보 또는 슬라이스 헤더 정보를 파싱하는 영상 중앙 처리 유닛 및 상기 영상 중앙 처리 유닛의 제어를 받아 상기 파싱된 정보에 따라 동영상을 처리하는 복수의 영상 처리부들을 포함하고, 상기 영상 중앙 처리 유닛은, 상기 복수의 영상 처리부들이 각각 처리해야할 픽셀(pixel)의 수를 고려하여 상기 복수의 영상 처리부들 각각에 할당할 동영상 비트스트림의 시작 위치를 결정한다.

한편, 상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 영상 중앙 처리 유닛 및 복수의 영상 처리부들을 구비한 동영상 처리 장치의 동영상을 처리하는 방법은, 상기 영상 중앙 처리 유닛이 호스트와 통신하며, 상기 호스트로부터 입력되는 동영상 데이터로부터 파라미터 정보 또는 슬라이스 헤더 정보를 파싱하는 단계, 상기 영상 중앙 처리 유닛이, 상기 복수의 영상 처리부들이 각각 처리해야할 픽셀(pixel)의 수를 고려하여 상기 복수의 영상 처리부들 각각에 할당할 동영상 비트스트림의 시작 위치를 결정하는 단계 및 상기 복수의 영상 처리부들이, 상기 영상 중앙 처리 유닛의 제어를 받아 상기 파싱된 정보에 따라 동영상을 처리하는 단계를 포함한다

한편, 상기 동영상 처리 방법은 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

본 발명의 다양한 실시 예에 따르면, UHD와 같이 초당 처리해야할 화소수(4K 60fps/120fps, 8K 30fps/60fps/… 등)가 큰 경우, 이를 효과적으로 처리할 수 있는 동영상 처리 장치 및 방법을 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 동영상 부호화 장치의 구성을 나타내는 블록도이다.
도 2는 영상을 블록단위로 분할하여 처리하는 방법에 대한 일예를 설명하기 위한 도면이다.
도 3은 부호화 장치에서 인터 예측을 수행하는 구성에 대한 일실시예를 나타내는 블록도이다.
도 4는 본 발명의 일실시예에 따른 동영상 복호화 장치의 구성을 나타내는 블록도이다.
도 5는 복호화 장치에서 인터 예측을 수행하는 구성에 대한 일실시예를 나타내는 블록도이다.
도 6 및 도 7은 시퀀스 파라미터 셋(SPS, Sequence Parameter Set)의 구성에 대한 일예를 나타내는 도면이다.
도 8 및 도 9는 픽쳐 파라미터 셋(PPS, Picture Parameter Set)의 구성에 대한 일예를 나타내는 도면이다.
도 10 내지 도 12는 슬라이스 헤더(SH, Slice Header)의 구성에 대한 일예를 나타내는 도면이다.
도 13은 본 발명의 본 발명의 일 실시 예에 따른 동영상 복호화 장치의 계층 구조(layer structure)이다.
도 14는 본 발명의 일 실시 예에 따른 VPU의 동영상 복호화 동작을 나타내는 타이밍도이다.
도 15는 본 발명의 일 실시 예에 따른 V-CPU의 상세 동작을 나타내는 도면이다.
도 16은 본 발명의 일 실시 예에 따른 V-CPU에서 수행되는 Multi V-Cores의 데이터 병렬 처리를 위한 Multi V-Cores의 동기화를 제어 방안을 설명하는 도면이다.
도 17 내지 18은 본 발명의 일 실시 예에 따른 V-CPU에서 수행되는 데이터 병렬 처리에 사용할 V-core 개수 판단하는 방법을 설명하는 도면이다.
도 19 내지 20은 본 발명의 일 실시 예에 따른 V-CPU에서 수행되는 엔트리 포인트 써치 방안을 설명하는 도면이다.
도 21은 본 발명의 일 실시 예에 따른 V-CPU에서 수행되는 Multi V-core각각에 할당하는 pixel의 개수가 가능한 균등하도록 entry point를 할당하는 방안을 설명하는 도면이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시 예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부재가 다른 부재 “상에” 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 본원 명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본원의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본원 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

본원 명세서 전체에서, 마쿠시 형식의 표현에 포함된 “이들의 조합”의 용어는 마쿠시 형식의 표현에 기재된 구성 요소들로 이루어진 군에서 선택되는 하나 이상의 혼합 또는 조합을 의미하는 것으로서, 상기 구성 요소들로 이루어진 군에서 선택되는 하나 이상을 포함하는 것을 의미한다.

실제 영상과 그것의 깊이 정보 맵을 부호화하는 방법의 일예로, 현재까지 개발된 비디오 부호화 표준 중에서 최고의 부호화 효율을 가지는 MPEG(Moving Picture Experts Group)과 VCEG(Video Coding Experts Group)에서 공동으로 표준화를 진행 중인 HEVC(High Efficiency Video Coding)를 이용하여 부호화를 수행할 수 있으나, 이에 한정되지는 아니한다.

통상, 부호화 장치는 인코딩 과정과 디코딩 과정을 포함하고, 복호화 장치는 디코딩 과정을 구비한다. 복호화 장치의 디코딩 과정은 부호화 장치의 디코딩 과정과 동일하다. 따라서, 이하에서는 부호화 장치를 위주로 설명하기로 한다.은 본 발명의 일실시예에 따른 동영상 부호화 장치의 구성을 블록도로 도시한 것이다.

도 1을 참조하면, 본 발명에 따른 동영상 부호화 장치(100)는 픽쳐 분할부(110), 변환부(120), 양자화부(130), 스캐닝부(131), 엔트로피 부호화부(140), 인트라 예측부(150), 인터 예측부(160), 역양자화부(135), 역변환부(125), 후처리부(170), 픽쳐 저장부(180), 감산부(190) 및 가산부(195)를 포함한다.

픽쳐 분할부(110)는 입력되는 비디오 신호를 분석하여 픽쳐를 가장 큰 코딩 유닛(LCU:Largest Coding Unit)마다 소정 크기의 코딩 유닛으로 분할하여 예측 모드를 결정하고, 상기 코딩 유닛별로 예측 유닛의 크기를 결정한다.

그리고, 픽쳐 분할부(110)는 부호화할 예측 유닛을 예측 모드(또는 예측 방법)에 따라 인트라 예측부(150) 또는 인터 예측부(160)로 보낸다. 또한, 픽쳐 분할부(110)는 부호화할 예측 유닛을 감산부(190)로 보낸다.

픽쳐는 복수의 슬라이스로 구성되고, 슬라이스는 복수개의 최대 부호화 단위(Largest coding unit: LCU)로 구성될 수 있다.

상기 LCU는 복수개의 부호화 단위(CU)로 분할될 수 있고, 부호기는 분할여부를 나타내는 정보(flag)를 비트스트림에 추가할 수 있다. 복호기는 LCU의 위치를 어드레스(LcuAddr)를 이용하여 인식할 수 있다.

분할이 허용되지 않는 경우의 부호화 단위(CU)는 예측 단위(Prediction unit: PU)로 간주되고, 복호기는 PU의 위치를 PU인덱스를 이용하여 인식할 수 있다.

예측 단위(PU)는 복수개의 파티션으로 나뉠 수 있다. 또한 예측 단위(PU)는 복수개의 변환 단위(Transform unit: TU)로 구성될 수 있다.

이 경우, 픽쳐 분할부(110)는 결정된 부호화 모드에 따른 소정 크기의 블록 단위(예를 들면, PU 단위 또는 TU 단위)로 영상 데이터를 감산부(190)로 보낼 수 있다.

도 2를 참조하면, 동영상 부호화 단위로 CTU (Coding Tree Unit)을 사용하며, 이 때 CTU는 다양한 정사각형 모양으로 정의된다. CTU는 코딩단위 CU(Coding Unit)를 포함한다.

코딩단위(CU)는 쿼드트리(Quad Tree)의 모습을 하고 있으며, 크기가 64×64인 최대 코딩단위 LCU(Largest Coding Unit)일 때 깊이(Depth)를 0으로 하여 깊이가 3이 될 때까지, 즉 8×8크기의 코딩단위(CU)까지 재귀적(Recursive)으로 최적의 예측단위를 찾아 부호화를 수행한다.

예측을 수행하는 예측단위는 PU(Prediction Unit)로 정의되며, 각 코딩단위(CU)는 다수개의 블록으로 분할된 단위의 예측이 수행되며, 정사각형과 직사각형의 형태로 나뉘어 예측을 수행한다.

변환부(120)는 입력된 예측 유닛의 원본 블록과 인트라 예측부(150) 또는 인터 예측부(160)에서 생성된 예측 블록의 잔차신호인 잔차 블록을 변환한다. 상기 잔차 블록은 코딩 유닛 또는 예측 유닛으로 구성된다. 코딩 유닛 또는 예측 유닛으로 구성된 잔차 블록은 최적의 변환 단위로 분할되어 변환된다. 예측 모드(intra or inter)에 따라 서로 다른 변환 매트릭스가 결정될 수 있다. 또한, 인트라 예측의 잔차 신호는 인트라 예측 모드에 따라 방향성을 가지므로 인트라 예측 모드에 따라 적응적으로 변환 매트릭스가 결정될 수 있다.

변환 단위는 2개(수평, 수직)의 1차원 변환 매트릭스에 의해 변환될 수 있다. 예를 들어, 인터 예측의 경우에는 미리 결정된 1개의 변환 매트릭스가 결정된다.

반면에, 인트라 예측의 경우, 인트라 예측 모드가 수평인 경우에는 잔차 블록이 수직방향으로의 방향성을 가질 확률이 높아지므로, 수직방향으로는 DCT 기반의 정수 매트릭스를 적용하고, 수평방향으로는 DST 기반 또는 KLT 기반의 정수 매트릭스를 적용한다. 인트라 예측 모드가 수직인 경우에는 수직방향으로는 DST 기반 또는 KLT 기반의 정수 매트릭스를, 수평 방향으로는 DCT 기반의 정수 매트릭스를 적용한다.

DC 모드의 경우에는 양방향 모두 DCT 기반 정수 매트릭스를 적용한다. 또한, 인트라 예측의 경우, 변환 단위의 크기에 의존하여 변환 매트릭스가 적응적으로 결정될 수도 있다.

양자화부(130)는 상기 변환 매트릭스에 의해 변환된 잔차 블록의 계수들을 양자화하기 위한 양자화 스텝 사이즈를 결정한다. 양자화 스텝 사이즈는 미리 정해진 크기 이상의 부호화 단위(이하, 양자화 유닛이라 함)별로 결정된다.

상기 미리 정해진 크기는 8x8 또는 16x16일 수 있다. 그리고, 결정된 양자화 스텝 사이즈 및 예측 모드에 따라 결정되는 양자화 매트릭스를 이용하여 상기 변환 블록의 계수들을 양자화한다.

양자화부(130)는 현재 양자화 유닛의 양자화 스텝 사이즈 예측자로서 현재 양자화 유닛에 인접한 양자화 유닛의 양자화 스텝 사이즈를 이용한다.

양자화부(130)는 현재 양자화 유닛의 좌측 양자화 유닛, 상측 양자화 유닛, 좌상측 양자화 유닛 순서로 검색하여 1개 또는 2개의 유효한 양자화 스텝 사이즈를 이용하여 현재 양자화 유닛의 양자화 스텝 사이즈 예측자를 생성할 수 있다.

예를 들어, 상기 순서로 검색된 유효한 첫번째 양자화 스텝 사이즈를 양자화 스텝 사이즈 예측자로 결정할 수 있다. 또한, 상기 순서로 검색된 유효한 2개의 양자화 스텝 사이즈의 평균값을 양자화 스텝 사이즈 예측자로 결정할 수도 있고, 1개만이 유효한 경우에는 이를 양자화 스텝 사이즈 예측자로 결정할 수 있다.

상기 양자화 스텝 사이즈 예측자가 결정되면, 현재 부호화 단위의 양자화 스텝 사이즈와 상기 양자화 스텝 사이즈 예측자 사이의 차분값을 엔트로피 부호화부(140)로 전송한다.

한편, 현재 코딩 유닛의 좌측 코딩 유닛, 상측 코딩 유닛, 좌상측 코딩 유닛 모두가 존재하지 않을 가능성이 있다. 반면에 최대 코딩 유닛 내의 부호화 순서 상으로 이전에 존재하는 코딩 유닛이 존재할 수 있다.

따라서, 현재 코딩 유닛에 인접한 양자화 유닛들과 상기 최대 코딩 유닛 내에서는 부호화 순서상 바로 이전의 양자화 유닛의 양자화 스텝 사이즈가 후보자가 될 수 있다.

이 경우, 1) 현재 코딩 유닛의 좌측 양자화 유닛, 2) 현재 코딩 유닛의 상측 양자화 유닛, 3) 현재 코딩 유닛의 좌상측 양자화 유닛, 4) 부호화 순서상 바로 이전의 양자화 유닛 순서로 우선순위를 둘 수 있다. 상기 순서는 바뀔 수 있고, 상기 좌상측 양자화 유닛은 생략될 수도 있다.

상기 양자화된 변환 블록은 역양자화부(135)와 스캐닝부(131)로 제공된다.

스캐닝부(131)는 양자화된 변환 블록의 계수들을 스캐닝하여 1차원의 양자화 계수들로 변환한다. 양자화 후의 변환 블록의 계수 분포가 인트라 예측 모드에 의존적일 수 있으므로, 스캐닝 방식은 인트라 예측 모드에 따라 결정된다.

또한, 계수 스캐닝 방식은 변환 단위의 크기에 따라 달리 결정될 수도 있다. 상기 스캔 패턴은 방향성 인트라 예측 모드에 따라 달라질 수 있다. 양자화 계수들의 스캔순서는 역방향으로 스캔한다.

상기 양자화된 계수들이 복수개의 서브셋으로 분할된 경우에는 각각의 서브셋 내의 양자화 계수들에 동일한 스캔패턴을 적용한다. 서브셋 간의 스캔패턴은 지그재그 스캔 또는 대각선 스캔을 적용한다. 스캔 패턴은 DC를 포함하는 메인 서브셋으로부터 순방향으로 잔여 서브셋들로 스캔하는 것이 바람직하나, 그 역방향도 가능하다.

또한, 서브셋 내의 양자화된 계수들의 스캔패턴과 동일하게 서브셋 간의 스캔패턴을 설정할 수도 있다. 이 경우, 서브셋 간의 스캔패턴이 인트라 예측 모드에 따라 결정된다. 한편, 부호기는 상기 변환 유닛내의 0이 아닌 마지막 양자화 계수의 위치를 나타낼 수 있는 정보를 복호기로 전송한다.

각 서브셋 내의 0이 아닌 마지막 양자화 계수의 위치를 나타낼 수 있는 정보도 복호기로 전송할 수 있다.

역양자화(135)는 상기 양자화된 양자화 계수를 역양자화한다. 역변환부(125)는 역양자화된 변환 계수를 공간 영역의 잔차 블록으로 복원한다. 가산기는 상기 역변환부에 의해 복원된 잔차블록과 인트라 예측부(150) 또는 인터 예측부(160)로부터의 수신된 예측 블록을 합쳐서 복원 블록을 생성한다.

후처리부(170)는 복원된 픽쳐에 발생하는 블록킹 효과의 제거하기 위한 디블록킹 필터링 과정, 화소 단위로 원본 영상과의 차이값을 보완하기 위한 적응적 오프셋 적용 과정 및 코딩 유닛으로 원본 영상과의 차이값을 보완하기 위한 적응적 루프 필터링 과정을 수행한다.

디블록킹 필터링 과정은 미리 정해진 크기 이상의 크기를 갖는 예측 유닛 및 변환 단위의 경계에 적용하는 것이 바람직하다. 상기 크기는 8x8일 수 있다. 상기 디블록킹 필터링 과정은 필터링할 경계(boundary)를 결정하는 단계, 상기 경계에 적용할 경계 필터링 강도(bounary filtering strength)를 결정하는 단계, 디블록킹 필터의 적용 여부를 결정하는 단계, 상기 디블록킹 필터를 적용할 것으로 결정된 경우, 상기 경계에 적용할 필터를 선택하는 단계를 포함한다.

상기 디블록킹 필터의 적용 여부는 i) 상기 경계 필터링 강도가 0보다 큰지 여부 및 ii) 상기 필터링할 경계에 인접한 2개의 블록(P 블록, Q블록) 경계 부분에서의 화소값들이 변화 정도를 나타내는 값이 양자화 파라미터에 의해 결정되는 제1 기준값보다 작은지 여부에 의해 결정된다.

상기 필터는 적어도 2개 이상인 것이 바람직하다. 블록 경계에 위치한 2개의 화소들간의 차이값의 절대값이 제2 기준값보다 크거나 같은 경우에는 상대적으로 약한 필터링을 수행하는 필터를 선택한다.

상기 제2 기준값은 상기 양자화 파라미터 및 상기 경계 필터링 강도에 의해 결정된다.

적응적 오프셋 적용 과정은 디블록킹 필터가 적용된 영상내의 화소와 원본 화소간의 차이값(distortion)을 감소시키기 위한 것이다. 픽쳐 또는 슬라이스 단위로 상기 적응적 오프셋 적용 과정을 수행할지 여부를 결정할 수 있다.

픽쳐 또는 슬라이스는 복수개의 오프셋 영역들로 분할될 수 있고, 각 오프셋 영역별로 오프셋 타입이 결정될 수 있다. 오프셋 타입은 미리 정해진 개수(예를 들어, 4개)의 에지 오프셋 타입과 2개의 밴드 오프셋 타입을 포함할 수 있다.

오프셋 타입이 에지 오프셋 타입일 경우에는 각 화소가 속하는 에지 타입을 결정하여, 이에 대응하는 오프셋을 적용한다. 상기 에지 타입은 현재 화소와 인접하는 2개의 화소값의 분포를 기준으로 결정한다.

적응적 루프 필터링 과정은 디블록킹 필터링 과정 또는 적응적 오프셋 적용 과정을 거친 복원된 영상과 원본 영상을 비교한 값을 기초로 필터링을 수행할 수 있다. 적응적 루프 필터링은 상기 결정된 ALF는 4x4 크기 또는 8x8 크기의 블록에 포함된 화소 전체에 적용될 수 있다.

적응적 루프 필터의 적용 여부는 코딩 유닛별로 결정될 수 있다. 각 코딩 유닛에 따라 적용될 루프 필터의 크기 및 계수는 달라질 수 있다. 코딩 유닛별 상기 적응적 루프 필터의 적용 여부를 나타내는 정보는 각 슬라이스 헤더에 포함될 수 있다.

색차 신호의 경우에는, 픽쳐 단위로 적응적 루프 필터의 적용 여부를 결정할 수 있다. 루프 필터의 형태도 휘도와 달리 직사각형 형태를 가질 수 있다.

적응적 루프 필터링은 슬라이스별로 적용 여부를 결정할 수 있다. 따라서, 현재 슬라이스에 적응적 루프 필터링이 적용되는지 여부를 나타내는 정보는 슬라이스 헤더 또는 픽쳐 헤더에 포함된다.

현재 슬라이스에 적응적 루프 필터링이 적용됨을 나타내면, 슬라이스 헤더 또는 픽쳐 헤더는 추가적으로 적응적 루프 필터링 과정에 사용되는 휘도 성분의 수평 및/또는 수직 방향의 필터 길이를 나타내는 정보를 포함한다.

슬라이스 헤더 또는 픽쳐 헤더는 필터 세트의 수를 나타내는 정보를 포함할 수 있다. 이때 필터 세트의 수가 2 이상이면, 필터 계수들이 예측 방법을 사용하여 부호화될 수 있다. 따라서, 슬라이스 헤더 또는 픽쳐 헤더는 필터 계수들이 예측 방법으로 부호화되는지 여부를 나타내는 정보를 포함할 수 있으며, 예측 방법이 사용되는 경우에는 예측된 필터 계수를 포함한다.

한편, 휘도 뿐만 아니라, 색차 성분들도 적응적으로 필터링될 수 있다. 따라서, 색차 성분 각각이 필터링되는지 여부를 나타내는 정보를 슬라이스 헤더 또는 픽쳐 헤더가 포함할 수 있다. 이 경우, 비트수를 줄이기 위해 Cr과 Cb에 대한 필터링 여부를 나타내는 정보를 조인트 코딩(즉, 다중화 코딩)할 수 있다.

이때, 색차 성분들의 경우에는 복잡도 감소를 위해 Cr과 Cb를 모두 필터링하지 않는 경우가 가장 빈번할 가능성이 높으므로, Cr과 Cb를 모두 필터링하지 않는 경우에 가장 작은 인덱스를 할당하여 엔트로피 부호화를 수행한다.

그리고, Cr 및 Cb를 모두 필터링하는 경우에 가장 큰 인덱스를 할당하여 엔트로피 부호화를 수행한다.

픽쳐 저장부(180)는 후처리된 영상 데이터를 후처리부(170)로부터 입력받아 픽쳐(picture) 단위로 영상을 복원하여 저장한다. 픽쳐는 프레임 단위의 영상이거나 필드 단위의 영상일 수 있다. 픽쳐 저장부(180)는 다수의 픽쳐를 저장할 수 있는 버퍼(도시되지 않음)를 구비한다.

인터 예측부(160)는 상기 픽쳐 저장부(180)에 저장된 적어도 하나 이상의 참조 픽쳐를 이용하여 움직임 추정을 수행하고, 참조 픽쳐를 나타내는 참조 픽쳐 인덱스 및 움직임 벡터를 결정한다.

그리고, 결정된 참조 픽쳐 인덱스 및 움직임 벡터에 따라, 픽쳐 저장부(180)에 저장된 다수의 참조 픽쳐들 중 움직임 추정에 이용된 참조 픽쳐로부터, 부호화하고자 하는 예측 유닛에 대응하는 예측 블록을 추출하여 출력한다.

인트라 예측부(150)는 현재 예측 유닛이 포함되는 픽처 내부의 재구성된 화소값을 이용하여 인트라 예측 부호화를 수행한다.

인트라 예측부(150)는 예측 부호화할 현재 예측 유닛을 입력받아 현재 블록의 크기에 따라 미리 설정된 개수의 인트라 예측 모드 중에 하나를 선택하여 인트라 예측을 수행한다.

인트라 예측부(150)는 인트라 예측 블록을 생성하기 위해 참조 화소를 적응적으로 필터링한다. 참조 화소가 이용 가능하지 않은 경우에는 이용 가능한 참조 화소들을 이용하여 참조 화소들을 생성할 수 있다.

엔트로피 부호화부(140)는 양자화부(130)에 의해 양자화된 양자화 계수, 인트라 예측부(150)로부터 수신된 인트라 예측 정보, 인터 예측부(160)로부터 수신된 움직임 정보 등을 엔트로피 부호화한다.

도 3은 부호화 장치에서 인터 예측을 수행하는 구성에 대한 일실시예를 블록도로 도시한 것으로, 도시된 인터 예측 부호화 장치는 움직임 정보 결정부(161), 움직임 정보 부호화 모드 결정부(162), 움직임 정보 부호화부(163), 예측 블록 생성부(164), 잔차 블록 생성부(165), 잔차 블록 부호화부(166) 및 멀티플렉서(167)를 포함하여 구성될 수 있다.

도 3을 참조하면, 움직임 정보 결정부(161)는 현재 블록의 움직임 정보를 결정한다. 움직임 정보는 참조 픽쳐 인덱스와 움직임 벡터를 포함한다. 참조 픽쳐 인덱스는 이전에 부호화되어 복원된 픽쳐 중 어느 하나를 나타낸다.

현재 블록이 단방향 인터 예측 부호화되는 경우에는 리스트 0(L0)에 속하는 참조 픽쳐들 중의 어느 하나를 나타낸다. 반면에, 현재 블록이 양방향 예측 부호화되는 경우에는 리스트 0(L0)의 참조 픽쳐들 중 하나를 나타내는 참조픽쳐 인덱스와 리스트 1(L1)의 참조 픽쳐들 중의 하나를 나타내는 참조픽쳐 인덱스를 포함할 수 있다.

또한, 현재 블록이 양방향 예측 부호화되는 경우에는 리스트 0과 리스트 1을 결합하여 생성된 복합 리스트(LC)의 참조 픽쳐들 중의 1개 또는 2개의 픽쳐를 나타내는 인덱스를 포함할 수 있다.

움직임 벡터는 각각의 참조픽쳐 인덱스가 나타내는 픽쳐 내의 예측 블록의 위치를 나타낸다. 움직임 벡터는 화소단위(정수단위)일수도 있으나, 서브화소단위일 수도 있다.

예를 들어, 1/2, 1/4, 1/8 또는 1/16 화소의 해상도를 가질 수 있다. 움직임 벡터가 정수단위가 아닐 경우에는 예측 블록은 정수 단위의 화소들로부터 생성된다.

움직임 정보 부호화 모드 결정부(162)는 현재 블록의 움직임 정보를 스킵 모드로 부호화할지, 머지 모드로 부호화할지, AMVP 모드로 부호화할지를 결정한다.

스킵 모드는 현재 블록의 움직임 정보와 동일한 움직임 정보를 갖는 스킵 후보자가 존재하고, 잔차신호가 0인 경우에 적용된다. 또한, 스킵 모드는 현재 블록이 코딩 유닛과 사이즈가 같을 때 적용된다. 현재 블록은 예측 유닛으로 볼 수 있다.

머지 모드는 현재 블록의 움직임 정보와 동일한 움직임 정보를 갖는 머지 후보자가 존재할 때 적용된다. 머지 모드는 현재 블록이 코딩 유닛과 사이즈가 다르거나, 사이즈가 같을 경우에는 잔차 신호가 존재하는 경우에 적용된다. 머지 후보자와 스킵 후보자는 동일할 수 있다.

AMVP 모드는 스킵 모드 및 머지 모드가 적용되지 않을 때 적용된다. 현재 블록의 움직임 벡터와 가장 유사한 움직임 벡터를 갖는 AMVP 후보자를 AMVP 예측자로 선택한다.

움직임 정보 부호화부(163)는 움직임 정보 부호화 모드 결정부(162)에 의해 결정된 방식에 따라 움직임 정보를 부호화한다. 움직임 정보 부호화 모드가 스킵 모드 또는 머지 모드일 경우에는 머지 움직임 벡터 부호화 과정을 수행한다. 움직임 정보 부호화 모드가 AMVP일 경우에는 AMVP 부호화 과정을 수행한다.

예측 블록 생성부(164)는 현재 블록의 움직임 정보를 이용하여 예측 블록을 생성한다. 움직임 벡터가 정수 단위일 경우에는, 참조픽쳐 인덱스가 나타내는 픽쳐 내의 움직임 벡터가 나타내는 위치에 대응하는 블록을 복사하여 현재 블록의 예측 블록을 생성한다.

그러나, 움직임 벡터가 정수 단위가 아닐 경우에는, 참조픽쳐 인덱스가 나타내는 픽쳐내의 정수 단위 화소들로 부터 예측 블록의 화소들을 생성한다.

이 경우, 휘도 화소의 경우에는 8탭의 보간 필터를 사용하여 예측 화소를 생성할 수 있다. 색차 화소의 경우에는 4탭 보간 필터를 사용하여 예측 화소를 생성할 수 있다.

잔차 블록 생성부(165)는 현재 블록과 현재 블록의 예측 블록을 이용하여 잔차 블록을 생성한다. 현재 블록의 크기가 2Nx2N인 경우에는 현재 블록과 현재 블록에 대응하는 2Nx2N 크기의 예측 블록을 이용하여 잔차 블록을 생성한다.

그러나, 예측에 이용되는 현재 블록의 크기가 2NxN 또는 Nx2N인 경우에는 2Nx2N을 구성하는 2개의 2NxN 블록 각각에 대한 예측 블록을 구한 후, 상기 2개의 2NxN 예측 블록을 이용하여 2Nx2N 크기의 최종 예측 블록을 생성할 수 있다.

그리고, 상기 2Nx2N 크기의 예측 블록을 이용하여 2Nx2N 의 잔차 블록을 생성할 수도 있다. 2NxN 크기의 2개의 예측블록들의 경계부분의 불연속성을 해소하기 위해 경계 부분의 픽셀들을 오버랩 스무딩할 수 있다.

잔차 블록 부호화부(166)는 생성된 잔차 블록을 하나 이상의 변환 유닛으로 나눈다. 그리고, 각 변환 유닛을 변환 부호화, 양자화 및 엔트로피 부호화된다. 이때, 변환 유닛의 크기는 잔차 블록의 크기에 따라 쿼드트리 방식으로 결정될 수 있다.

잔차 블록 부호화부(166)는 인터 예측 방법에 의해 생성된 잔차 블록을 정수기반 변환 매트릭스를 이용하여 변환한다. 상기 변환 매트릭스는 정수기반 DCT 매트릭스이다.

잔차 블록 부호화부(166)는 상기 변환 매트릭스에 의해 변환된 잔차 블록의 계수들을 양자화하기 위해 양자화 매트릭스를 이용한다. 상기 양자화 매트릭스는 양자화 파라미터에 의해 결정된다.

상기 양자화 파라미터는 미리 정해진 크기 이상의 코딩 유닛별로 결정된다. 상기 미리 정해진 크기는 8x8 또는 16x16일 수 있다. 따라서, 현재 코딩 유닛이 상기 미리 정해진 크기보다 작은 경우에는 상기 미리 정해진 크기 내의 복수개의 코딩 유닛 중 부호화 순서상 첫번째 코딩 유닛의 양자화 파라미터만을 부호화하고, 나머지 코딩 유닛의 양자화 파라미터는 상기 파라미터와 동일하므로 부호화할 필요가 없다.

그리고, 결정된 양자화 파라미터 및 예측 모드에 따라 결정되는 양자화 매트릭스를 이용하여 상기 변환 블록의 계수들을 양자화한다.

상기 미리 정해진 크기 이상의 코딩 유닛별로 결정되는 양자화 파라미터는 현재 코딩 유닛에 인접한 코딩 유닛의 양자화 파라미터를 이용하여 예측 부호화된다. 현재 코딩 유닛의 좌측 코딩 유닛, 상측 코딩 유닛 순서로 검색하여 유효한 1개 또는 2개의 유효한 양자화 파라미터를 이용하여 현재 코딩 유닛의 양자화 파라미터 예측자를 생성할 수 있다.

예를 들어, 상기 순서로 검색된 유효한 첫번째 양자화 파라미터를 양자화 파라미터 예측자로 결정할 수 있다. 또한, 좌측 코딩 유닛, 부호화 순서상 바로 이전의 코딩 유닛 순으로 검색하여 유효한 첫번째 양자화 파라미터를 양자화 파라미터 예측자로 결정할 수 있다.

양자화된 변환 블록의 계수들은 스캐닝되어 1차원의 양자화 계수들로 변환한다. 스캐닝 방식은 엔트로피 부호화 모드에 따라 달리 설정될 수 있다. 예를 들어, CABAC으로 부호화될 경우에는 인터 예측 부호화된 양자화 계수들은 미리 정해진 하나의 방식(지그재그, 또는 대각선 방향으로의 래스터 스캔)으로 스캐닝될 수 있다. 반면에 CAVLC으로 부호화될 경우에는 상기 방식과 다른 방식으로 스캐닝될 수 있다.

예를 들어, 스캐닝 방식이 인터의 경우에는 지그재그, 인트라의 경우에는 인트라 예측 모드에 따라 결정될 수 있다. 또한, 계수 스캐닝 방식은 변환 단위의 크기에 따라 달리 결정될 수도 있다.

상기 스캔 패턴은 방향성 인트라 예측 모드에 따라 달라질 수 있다. 양자화 계수들의 스캔순서는 역방향으로 스캔한다.

멀티플렉서(167)는 상기 움직임 정보 부호화부(163)에 의해 부호화된 움직임 정보들과 상기 잔차 블록 부호화부에 의해 부호화된 잔차 신호들을 다중화한다. 상기 움직임 정보는 부호화 모드에 따라 달라질 수 있다.

즉, 스킵 또는 머지일 경우에는 예측자를 나타내는 인덱스만을 포함한다. 그러나, AMVP일 경우에는 현재 블록의 참조 픽쳐 인덱스, 차분 움직임 벡터 및 AMVP 인덱스를 포함한다.

이하, 인트라 예측부(150)의 동작에 대한 일실시예를 상세히 설명하기로 한다.

먼저, 픽쳐 분할부(110)에 의해 예측 모드 정보 및 예측 블록의 크기를 수신하며, 예측 모드 정보는 인트라 모드를 나타낸다. 예측 블록의 크기는 64x64, 32x32, 16x16, 8x8, 4x4등의 정방형일 수 있으나, 이에 한정하지 않는다. 즉, 상기 예측 블록의 크기가 정방형이 아닌 비정방형일 수도 있다.

다음으로, 예측 블록의 인트라 예측 모드를 결정하기 위해 참조 화소를 픽쳐 저장부(180)로부터 읽어 들인다.

상기 이용 가능하지 않은 참조화소가 존재하는지 여부를 검토하여 참조 화소 생성 여부를 판단한다. 상기 참조 화소들은 현재 블록의 인트라 예측 모드를 결정하는데 사용된다.

현재 블록이 현재 픽쳐의 상측 경계에 위치하는 경우에는 현재 블록의 상측에 인접한 화소들이 정의되지 않는다. 또한, 현재 블록이 현재 픽쳐의 좌측 경계에 위치하는 경우에는 현재 블록의 좌측에 인접한 화소들이 정의되지 않는다.

이러한 화소들은 이용 가능한 화소들이 아닌 것으로 판단한다. 또한, 현재 블록이 슬라이스 경계에 위치하여 슬라이스의 상측 또는 좌측에 인접하는 화소들이 먼저 부호화되어 복원되는 화소들이 아닌 경우에도 이용 가능한 화소들이 아닌 것으로 판단한다.

상기와 같이 현재 블록의 좌측 또는 상측에 인접한 화소들이 존재하지 않거나, 미리 부호화되어 복원된 화소들이 존재하지 않는 경우에는 이용 가능한 화소들만을 이용하여 현재 블록의 인트라 예측 모드를 결정할 수도 있다.

그러나, 현재 블록의 이용 가능한 참조화소들을 이용하여 이용 가능하지 않은 위치의 참조화소들을 생성할 수도 있다. 예를 들어, 상측 블록의 화소들이 이용 가능하지 않은 경우에는 좌측 화소들의 일부 또는 전부를 이용하여 상측 화소들을 생성할 수 있고, 그 역으로도 가능하다.

즉, 이용 가능하지 않은 위치의 참조화소로부터 미리 정해진 방향으로 가장 가까운 위치의 이용 가능한 참조화소를 복사하여 참조화소로 생성할 수 있다. 미리 정해진 방향에 이용 가능한 참조화소가 존재하지 않는 경우에는 반대 방향의 가장 가까운 위치의 이용 가능한 참조화소를 복사하여 참조화소로 생성할 수 있다.

한편, 현재 블록의 상측 또는 좌측 화소들이 존재하는 경우에도 상기 화소들이 속하는 블록의 부호화 모드에 따라 이용 가능하지 않은 참조 화소로 결정될 수 있다.

예를 들어, 현재 블록의 상측에 인접한 참조 화소가 속하는 블록이 인터 부호화되어 복원된 블록일 경우에는 상기 화소들을 이용 가능하지 않은 화소들로 판단할 수 있다.

이 경우에는 현재 블록에 인접한 블록이 인트라 부호화되어 복원된 블록에 속하는 화소들을 이용하여 이용 가능한 참조 화소들을 생성할 수 있다. 이 경우에는 부호기에서 부호화 모드에 따라 이용 가능한 참조 화소를 판단한다는 정보를 복호기로 전송해야 한다.

다음으로, 상기 참조 화소들을 이용하여 현재 블록의 인트라 예측 모드를 결정한다. 현재 블록에 허용 가능한 인트라 예측 모드의 수는 블록의 크기에 따라 달라질 수 있다. 예를 들어, 현재 블록의 크기가 8x8, 16x16, 32x32인 경우에는 34개의 인트라 예측 모드가 존재할 수 있고, 현재 블록의 크기가 4x4인 경우에는 17개의 인트라 예측 모드가 존재할 수 있다.

상기 34개 또는 17개의 인트라 예측 모드는 적어도 하나 이상의 비방향성 모드(non-directional mode)와 복수개의 방향성 모드들(directional modes)로 구성될 수 있다.

하나 이상의 비방향성 모드는 DC 모드 및/또는 플래너(planar) 모드일수 있다. DC 모드 및 플래너모드가 비방향성 모드로 포함되는 경우에는, 현재 블록의 크기에 관계없이 35개의 인트라 예측 모드가 존재할 수도 있다.

이 때에는 2개의 비방향성 모드(DC 모드 및 플래너 모드)와 33개의 방향성 모드를 포함할 수 있다.

플래너 모드는 현재 블록의 우하측(bottom-right)에 위치하는 적어도 하나의 화소값(또는 상기 화소값의 예측값, 이하 제1 참조값이라 함)과 참조화소들을 이용하여 현재 블록의 예측 블록을 생성한다.

상기한 바와 같이, 본 발명의 일실시예에 따른 동영상 복호화 장치의 구성은 도 1 내지 도 3을 참조하여 설명한 동영상 부호화 장치의 구성으로부터 도출될 수 있으며, 예를 들어 도 1을 참조하여 설명한 바와 같은 부호화 과정의 역과정을 수행함으로써 영상을 복호화할 수 있다.

도 4는 본 발명의 일실시예에 따른 동영상 복호화 장치의 구성을 블록도로 도시한 것이다.

도 4를 참조하면, 본 발명에 따른 동영상 복호화 장치는, 엔트로피 복호화부(210), 역양자화/역변환부(220), 가산기(270), 디블록킹 필터(250), 픽쳐 저장부(260), 인트라 예측부(230), 움직임 보상 예측부(240) 및 인트라/인터전환 스위치(280)를 구비한다.

엔트로피 복호화부(210)는, 동영상 부호화 장치로부터 전송되는 부호화 비트 스트림을 복호하여, 인트라 예측 모드 인덱스, 움직임 정보, 양자화 계수 시퀀스 등으로 분리한다. 엔트로피 복호화부(210)는 복호된 움직임 정보를 움직임 보상 예측부(240)에 공급한다.

엔트로피 복호화부(210)는 상기 인트라 예측 모드 인덱스를 상기 인트라 예측부(230), 역양자화/역변환부(220)로 공급한다. 또한, 상기 엔트로피 복호화부(210)는 상기 역양자화 계수 시퀀스를 역양자화/역변환부(220)로 공급한다.

역양자화/역변환부(220)는 상기 양자화 계수 시퀀스를 2차원 배열의 역양자화 계수로 변환한다. 상기 변환을 위해 복수개의 스캐닝 패턴 중에 하나를 선택한다. 현재 블록의 예측모드(즉, 인트라 예측 및 인터 예측 중의 어느 하나)와 인트라 예측 모드 중 적어도 하나에 기초하여 복수개의 스캐닝 패턴 중 하나를 선택한다.

상기 인트라 예측 모드는 인트라 예측부 또는 엔트로피 복호화부로부터 수신한다.

역양자화/역변환부(220)는 상기 2차원 배열의 역양자화 계수에 복수개의 양자화 매트릭스 중 선택된 양자화 매트릭스를 이용하여 양자화 계수를 복원한다. 복원하고자 하는 현재 블록의 크기에 따라 서로 다른 양자화 매트릭스가 적용되며, 동일 크기의 블록에 대해서도 상기 현재 블록의 예측 모드 및 인트라 예측 모드 중 적어도 하나에 기초하여 양자화 매트릭스를 선택한다.

그리고, 상기 복원된 양자화 계수를 역변환하여 잔차 블록을 복원한다.

가산기(270)는 역양자화/역변환부(220)에 의해 복원된 잔차 블록과 인트라 예측부(230) 또는 움직임 보상 예측부(240)에 의해 생성되는 예측 블록을 가산함으로써, 영상 블록을 복원한다.

디블록킹 필터(250)는 가산기(270)에 의해 생성된 복원 영상에 디블록킹 필터 처리를 실행한다. 이에 따라, 양자화 과정에 따른 영상 손실에 기인하는 디블록킹 아티펙트를 줄일 수 있다.

픽쳐 저장부(260)는 디블록킹 필터(250)에 의해 디블록킹 필터 처리가 실행된 로컬 복호 영상을 유지하는 프레임 메모리이다.

인트라 예측부(230)는 엔트로피 복호화부(210)로부터 수신된 인트라 예측 모드 인덱스에 기초하여 현재 블록의 인트라 예측 모드를 복원한다. 그리고, 복원된 인트라 예측 모드에 따라 예측 블록을 생성한다.

움직임 보상 예측부(240)는 움직임 벡터 정보에 기초하여 픽쳐 저장부(260)에 저장된 픽쳐로부터 현재 블록에 대한 예측 블록을 생성한다. 소수 정밀도의 움직임 보상이 적용될 경우에는 선택된 보간 필터를 적용하여 예측 블록을 생성한다.

인트라/인터 전환 스위치(280)는 부호화 모드에 기초하여 인트라 예측부(230)와 움직임 보상 예측부(240)의 어느 하나에서 생성된 예측 블록을 가산기(270)에 제공한다.

도 5는 복호화 장치에서 인터 예측을 수행하는 구성에 대한 일실시예를 블록도로 도시한 것으로, 인터 예측 복호화 장치는 디멀티플렉서(241), 움직임 정보 부호화 모드 판단부(242), 머지 모드 움직임 정보 복호화부(243), AMVP 모드 움직임 정보 복호화부(244), 예측블록 생성부(245), 잔차 블록 복호화부(246) 및 복원블록 생성부(247)를 포함한다.

도 5를 참조하면, 디멀티플렉서(241)는 수신된 비트스트림으로부터 현재 부호화된 움직임 정보와 부호화된 잔차 신호들을 역다중화한다. 디멀티플렉서(241)는 상기 역다중화된 움직임 정보를 움직임 정보 부호화 모드 판단부(242)로 전송하고, 역다중화된 잔차신호를 잔차블록 복호화부(246)로 전송한다.

움직임 정보 부호화 모드 판단부(242)는 현재 블록의 움직임 정보 부호화 모드를 판단한다. 움직임 정보 부호화 모드 판단부(242)는 수신된 비트스트림의 skip_flag가 1의 값을 갖는 경우에는 현재 블록의 움직임 정보 부호화 모드가 스킵 부호화 모드로 부호화된 것으로 판단한다.

움직임 정보 부호화 모드 판단부(242)는 수신된 비트스트림의 skip_flag가 0의 값을 갖고, 디멀티블렉서(241)로부터 수신된 움직임 정보가 머지 인덱스만을 갖는 현재 블록의 움직임 정보 부호화 모드가 머지 모드로 부호화된 것으로 판단한다.

움직임 정보 부호화 모드 판단부(242)는 수신된 비트스트림의 skip_flag가 0의 값을 갖고, 디멀티블렉서(241)로부터 수신된 움직임 정보가 참조 픽쳐 인덱스와 차분 움직임 벡터와 AMVP인덱스를 갖는 경우에는 현재 블록의 움직임 정보 부호화 모드가 AMVP 모드로 부호화된 것으로 판단한다.

머지 모드 움직임 정보 복호화부(243)는 움직임 정보 부호화 모드 판단부(242)가 현재 블록의 움직임 정보 부호화 모드를 스킵 또는 머지 모드로 판단한 경우에 활성화된다.

AMVP 모드 움직임 정보 복호화부(244)는 움직임 정보 부호화 모드 판단부(242)가 현재 블록의 움직임 정보 부호화 모드를 AMVP 모드로 판단한 경우에 활성화된다.

예측블록 생성부(245)는 상기 머지 모드 움직임 정보 복호화부(243) 또는 AMVP 모드 움직임 정보 복호화부(244)에 의해 복원된 움직임 정보를 이용하여 현재 블록의 예측 블록을 생성한다.

움직임 벡터가 정수 단위일 경우에는, 참조픽쳐 인덱스가 나타내는 픽쳐 내의 움직임 벡터가 나타내는 위치에 대응하는 블록을 복사하여 현재 블록의 예측 블록을 생성한다.

그러나, 움직임 벡터가 정수 단위가 아닐 경우에는, 참조픽쳐 인덱스가 나타내는 픽쳐내의 정수 단위 화소들로부터 예측 블록의 화소들을 생성한다. 이 경우, 휘도 화소의 경우에는 8탭의 보간 필터를 사용하여 예측 화소를 생성할 수 있다. 색차 화소의 경우에는 4탭 보간 필터를 사용하여 예측 화소를 생성할 수 있다.

잔차 블록 복호화부(246)는 잔차신호를 엔트로피 복호화한다. 그리고, 엔트로피 복호화된 계수들을 역스캐닝하여 2차원의 양자화된 계수 블록을 생성한다. 역스캐닝 방식은 엔트로피 복호화 방식에 따라 달라질 수 있다.

즉, CABAC 기반으로 복호화된 경우와 CAVLC 기반으로 복호화된 경우의 인터 예측 잔차신호의 역스캐닝 방식이 달라질 수 있다. 예를 들어, CABAC 기반으로 복호화된 경우에는 대각선 방향의 래스터 역스캔 방식으로, CAVLC 기반으로 복호화된 경우에는 지그재그 역스캔 방식이 적용될 수 있다.

또한, 예측 블록의 크기에 따라 역스캐닝 방식이 달리 결정될 수도 있다.

잔차블록 복호화부(246)는 생성된 계수블록을 역양자화 매트릭스를 이용하여 역양자화한다. 상기 양자화 매트릭스를 유도하기 위해 양자화 파리미터를 복원한다. 양자화 스텝 사이즈는 미리 정해진 크기 이상의 코딩 유닛별로 복원된다.

상기 미리 정해진 크기는 8x8 또는 16x16일 수 있다. 따라서, 현재 코딩 유닛이 상기 미리 정해진 크기보다 작은 경우에는 상기 미리 정해진 크기 내의 복수개의 코딩 유닛 중 부호화 순서상 첫번째 코딩 유닛의 양자화 파라미터만을 복원하고, 나머지 코딩 유닛의 양자화 파라미터는 상기 파라미터와 동일하므로 부호화할 필요가 없다.

상기 미리 정해진 크기 이상의 코딩 유닛별로 결정된 양자화 파라미터를 복원하기 위해 현재 코딩 유닛에 인접한 코딩 유닛의 양자화 파라미터를 이용한다. 현재 코딩 유닛의 좌측 코딩 유닛, 상측 코딩 유닛 순서로 검색하여 유효한 첫번째 양자화 파라미터를 현재 코딩 유닛의 양자화 파라미터 예측자로 결정할 수 있다.

또한, 좌측 코딩 유닛, 부호화 순서상 바로 이전의 코딩 유닛 순으로 검색하여 유효한 첫번째 양자화 파라미터를 양자화 파라미터 예측자로 결정할 수 있다. 상기 결정된 양자화 파라미터 예측자와 차분 양자화 파라미터를 이용하여 현재 예측 유닛의 양자화 파라미터를 복원한다.

잔차블록 복호화부(260)는 상기 역양자화된 계수 블록을 역변환하여 잔차블록을 복원한다.

복원블록 생성부(270)는 상기 예측블록 생성부(250)에 의해 생성된 예측블록과 상기 잔차블록 복호화부(260)에 의하여 생성된 잔차블록을 더하여 복원블록을 생성한다.

이하, 상기 도 3를 참조하여, 현재 블록을 인트라 예측을 통해 복원하는 과정을 설명한다.

먼저, 수신된 비트스트림으로부터 현재 블록의 인트라 예측 모드를 복호한다. 이를 위해, 엔트로피 복호화부(210)는 복수개의 인트라 예측 모드 테이블 중 하나를 참조하여 현재 블록의 제1 인트라 예측 모드 인덱스를 복원한다.

상기 복수개의 인트라 예측 모드 테이블은 부호기와 복호기가 공유하는 테이블로서, 현재 블록에 인접한 복수개의 블록들의 인트라 예측 모드의 분포에 따라 선택된 어느 하나의 테이블이 적용될 수 있다.

일예로써, 현재 블록의 좌측 블록의 인트라 예측 모드와 현재 블록의 상측 블록의 인트라 예측 모드가 동일하면 제1 인트라 예측 모드 테이블을 적용하여 현재 블록의 제 1 인트라 예측 모드 인덱스를 복원하고, 동일하지 않으면 제2 인트라 예측 모드 테이블을 적용하여 현재 블록의 제 1 인트라 예측 모드 인덱스를 복원할 수 있다.

또 다른 예로써, 현재 블록의 상측 블록과 좌측 블록의 인트라 예측 모드가 모두 방향성 예측 모드(directional intra prediction mode)일 경우에는, 상기 상측 블록의 인트라 예측 모드의 방향과 상기 좌측 블록의 인트라 예측 모드의 방향이 소정 각도 이내이면, 제 1 인트라 예측 모드 테이블을 적용하여 현재 블록의 제 1 인트라 예측 모드 인덱스를 복원하고, 소정 각도를 벗어나면 제2 인트라 예측 모드 테이블을 적용하여 현재 블록의 제 1 인트라 예측 모드 인덱스를 복원할 수도 있다.

엔트로피 복호화부(210)는 복원된 현재 블록의 제1 인트라 예측 모드 인덱스를 인트라 예측부(230)로 전송한다.

상기 제1 인트라 예측 모드를 인덱스를 수신한 인트라 예측부(230)는 상기 상기 인덱스가 최소값을 가질 경우(즉, 0)에는 현재 블록의 최대가능모드를 현재 블록의 인트라 예측 모드로 결정한다.

그러나, 상기 인덱스가 0 이외의 값을 가질 경우에는 현재 블록의 최대가능모드가 나타내는 인덱스와 상기 제1 인트라 예측 모드 인덱스를 비교한다. 비교 결과, 상기 제1 인트라 예측 모드 인덱스가 상기 현재 블록의 최대가능모드가 나타내는 인덱스보다 작지 않으면, 상기 제 1 인트라 예측 모드 인덱스에 1을 더한 제2 인트라 예측 모드 인덱스에 대응하는 인트라 예측 모드를 현재 블록의 인트라 예측 모드로 결정하고, 그렇지 않으면 상기 제 1 인트라 예측 모드 인덱스에 대응하는 인트라 예측 모드를 현재 블록의 인트라 예측 모드를 결정한다.

현재 블록에 허용 가능한 인트라 예측 모드는 적어도 하나 이상의 비방향성 모드(non-directional mode)와 복수 개의 방향성 모드들(directional modes)로 구성될 수 있다.

하나 이상의 비방향성 모드는 DC 모드 및/또는 플래너(planar) 모드일수 있다. 또한, DC 모드와 플래너 모드 중 어느 하나가 적응적으로 상기 허용 가능한 인트라 예측 모드 셋에 포함될 수 있다.

이를 위해, 픽쳐 헤더 또는 슬라이스 헤더에 상기 허용 가능한 인트라 예측 모드 셋에 포함되는 비방향성 모드를 특정하는 정보가 포함될 수 있다.

다음으로, 인트라 예측부(230)는 인트라 예측 블록을 생성하기 위해, 참조 화소들을 픽쳐 저장부(260)로터 읽어들이고, 이용 가능하지 않은 참조 화소가 존재하는지 여부를 판단한다.

상기 판단은 현재 블록의 복호된 인트라 예측 모드를 적용하여 인트라 예측 블록을 생성하는데 이용되는 참조 화소들의 존재 여부에 따라 행해질 수도 있다.

다음으로, 인트라 예측부(230)는 참조 화소를 생성할 필요가 있을 경우에는 미리 복원된 이용 가능한 참조 화소들을 이용하여 이용 가능하지 않은 위치의 참조화소들을 생성한다.

이용 가능하지 않은 참조 화소에 대한 정의 및 참조 화소의 생성 방법은 도 1에 따른 인트라 예측부(150)에서의 동작과 동일하다. 다만, 현재 블록의 복호된 인트라 예측 모드에 따라 인트라 예측 블록을 생성하는데 이용되는 참조 화소만들을 선택적으로 복원할 수도 있다.

다음으로, 인트라 예측부(230)는 예측 블록을 생성하기 위하여, 참조 화소들에 필터를 적용할지 여부를 판단한다. 즉, 인트라 예측부(230)는 현재 블록의 인트라 예측 블록을 생성하기 위하여 참조 화소들에 대해 필터링을 적용할지 여부를 상기 복호된 인트라 예측 모드 및 현재 예측 블록의 크기에 기초하여 결정한다.

블록킹 아티펙트의 문제는 블록의 크기가 커질수록 커지므로, 블록의 크기가 커질수록 참조화소를 필터링하는 예측모드의 수를 증가시킬 수 있다. 그러나, 블록이 소정 크기보다 커지는 경우에는 평탄한 영역으로 볼 수 있으므로 복잡도 감소를 위해 참조화소를 필터링하지 않을 수 있다.

상기 참조 화소에 필터 적용이 필요하다고 판단된 경우에는 필터를 이용하여 상기 참조 화소들을 필터링한다.

상기한 참조 화소들 간의 단차의 차이 정도에 따라 적어도 2개 이상의 필터를 적응적으로 적용할 수도 있다. 상기 필터의 필터계수는 대칭적인 것이 바람직하다.

또한, 상기한 2개 이상의 필터가 현재 블록의 크기에 따라 적응적으로 적용될 수도 있다. 즉, 필터를 적용할 경우, 크기가 작은 블록에 대해서는 대역폭이 좁은 필터를, 크기가 큰 블록들에 대해서는 대역폭이 넓은 필터를 적용할 수도 있다.

DC 모드의 경우에는 참조 화소들의 평균값으로 예측 블록이 생성되므로, 필터를 적용할 필요가 없다. 즉, 필터를 적용할 경우 불필요한 연산량만이 많아지게 된다.

또한, 영상이 수직 방향으로 연관성(correlation)이 있는 수직 모드에서는 참조화소에 필터를 적용할 필요가 없다. 영상이 수평 방향으로 연관성이 있는 수평 모드에서도 참조화소에 필터를 적용할 필요가 없다.

이와 같이, 필터링의 적용 여부는 현재 블록의 인트라 예측 모드와도 연관성이 있으므로, 현재 블록의 인트라 예측 모드 및 예측 블록의 크기에 기초하여 참조화소를 적응적으로 필터링할 수 있다.

다음으로, 상기 복원된 인트라 예측 모드에 따라, 상기 참조 화소 또는 상기 필터링된 참조 화소들을 이용하여 예측 블록을 생성한다. 상기 예측 블록의 생성은 부호기에서의 동작과 동일하므로 생략한다. 플래너 모드의 경우에도 부호기에서의 동작과 동일하므로 생략한다.

다음으로, 상기 생성된 예측 블록을 필터링할지 여부를 판단한다. 상기 필터링 여부의 판단은 슬라이스 헤더 또는 부호화 유닛 헤더에 포함된 정보를 이용할 수 있다. 또한, 현재 블록의 인트라 예측 모드에 따라 결정될 수도 있다.

상기 생성된 예측 블록을 필터링할 것으로 판단할 경우, 생성된 예측 블록을 필터링한다. 구체적으로, 현재 블록에 인접한 이용 가능한 참조 화소들을 이용하여 생성된 예측 블록의 특정 위치의 화소를 필터링하여 새로운 화소를 생성한다.

이는 예측 블록 생성시에 함께 적용될 수도 있다. 예를 들어, DC 모드에서는 예측 화소들 중 참조화소들과 접하는 예측 화소는 상기 예측 화소와 접하는 참조화소를 이용하여 필터링한다.

따라서, 예측 화소의 위치에 따라 1개 또는 2개의 참조화소를 이용하여 예측 화소를 필터링한다. DC 모드에서의 예측화소의 필터링은 모든 크기의 예측 블록에 적용할 수 있다. 수직 모드에서는 예측 블록의 예측 화소들 중 좌측 참조 화소와 접하는 예측화소들은 상기 예측블록을 생성하는데 이용되는 상측화소 이외의 참조화소들을 이용하여 변경될 수 있다.

마찬가지로, 수평 모드에서는 생성된 예측 화소들 중 상측 참조화소와 접하는 예측화소들은 상기 예측블록을 생성하는데 이용되는 좌측화소 이외의 참조화소들을 이용하여 변경될 수 있다.

이와 같은 방식으로 복원된 현재 블록의 예측 블록과 복호화한 현재 블록의 잔차 블록을 이용하여 현재 블록이 복원된다.

본 발명의 일실시예에 따른 동영상 비트스트림은 하나의 픽처에서의 부호화된 데이터를 저장하는데 사용되는 단위로서, PS(parameter sets)와 슬라이스 데이터를 포함할 수 있다.

PS(parameter sets)는, 각 픽처의 헤드에 상당하는 데이터인 픽처 파라미터 세트(이하 간단히 PPS라 한다)와 시퀀스 파라미터 세트(이하 간단히 SPS라 한다)로 분할된다. 상기 PPS와 SPS는 각 부호화를 초기화하는데 필요한 초기화 정보를 포함할 수 있다.

SPS는 램덤 액세스 유닛(RAU)으로 부호화된 모든 픽처를 복호화하기 위한 공통 참조 정보로서, 프로파일, 참조용으로 사용 가능한 픽처의 최대 수 및 픽처 크기 등을 포함하며, 도 6 및 도 7에 도시된 바와 같이 구성될 수 있다.

PPS는, 랜덤 액세스 유닛(RAU)으로 부호화된 각 픽처에 대해, 픽처를 복호화하기 위한 참조 정보로서 가변 길이 부호화 방법의 종류, 양자화 단계의 초기값 및 다수의 참조 픽처들을 포함하며, 도 8 및 도 9에 도시된 바와 같이 구성될 수 있다.

한편, 슬라이스 헤더(SH)는 슬라이스 단위의 코딩시 해당 슬라이스에 대한 정보를 포함하며, 도 10 내지 도 12에 도시된 바와 같이 구성될 수 있다.

이하 상기한 바와 같은 동영상 부호화 및 복호화 처리를 복수의 처리 유닛들을 이용하여 스케일러블하게 처리하는 구성에 대해 상세히 설명하기로 한다.

본 발명의 일 실시 예에 따른 동영상을 처리하는 장치는, 호스트와 통신하며, 상기 호스트로부터 입력되는 동영상 데이터로부터 파라미터 정보 또는 슬라이스 헤더 정보를 파싱하는 영상 중앙 처리 유닛 및 상기 영상 중앙 처리 유닛의 제어를 받아 상기 파싱된 정보에 따라 동영상을 처리하는 복수의 영상 처리부들을 포함하고, 상기 영상 중앙 처리 유닛은, 상기 복수의 영상 처리부들이 각각 처리해야할 픽셀(pixel)의 수를 고려하여 상기 복수의 영상 처리부들 각각에 할당할 동영상 비트스트림의 시작 위치를 결정한다.

그리고, 상기 영상 중앙 처리 유닛은, 상기 파싱된 파라미터 정보 중 시퀀스 파라미터 셋(SPS, Sequence Parameter Set)에 포함된 레벨(level) 정보를 이용하여 상기 동영상 처리에 사용할 복수의 영상 처리부들을 결정할 수 있다.

또한, 상기 영상 중앙 처리 유닛은, 상기 결정된 복수의 영상 처리부들이 각각 처리해야할 픽셀(pixel)의 수가 가능한 균등하도록 상기 복수의 영상 처리부들 각각에 할당할 동영상 비트스트림의 시작 위치를 결정할 수 있다.

그리고, 상기 복수의 영상 처리부들은 각각, 상기 영상 중앙 처리 유닛과 통신하여 상기 동영상 데이터에 대해 엔트로피 코딩을 수행하는 제1 처리 유닛 및 상기 엔트로피 코딩이 수행된 동영상 데이터를 부호화 단위로 처리하는 제2 처리 유닛을 포함할 수 있다.

본 발명의 일 실시 예에 따른 영상 중앙 처리 유닛 및 복수의 영상 처리부들을 구비한 동영상 처리 장치의 동영상을 처리하는 방법은, 상기 영상 중앙 처리 유닛이 호스트와 통신하며, 상기 호스트로부터 입력되는 동영상 데이터로부터 파라미터 정보 또는 슬라이스 헤더 정보를 파싱하는 단계, 상기 영상 중앙 처리 유닛이, 상기 복수의 영상 처리부들이 각각 처리해야할 픽셀(pixel)의 수를 고려하여 상기 복수의 영상 처리부들 각각에 할당할 동영상 비트스트림의 시작 위치를 결정하는 단계 및 상기 복수의 영상 처리부들이, 상기 영상 중앙 처리 유닛의 제어를 받아 상기 파싱된 정보에 따라 동영상을 처리하는 단계를 포함한다

그리고, 상기 영상 중앙 처리 유닛이, 상기 파싱된 파라미터 정보 중 시퀀스 파라미터 셋(SPS, Sequence Parameter Set)에 포함된 레벨(level) 정보를 이용하여 상기 동영상 처리에 사용할 복수의 영상 처리부들을 결정하는 단계를 더 포함할 수 있다.

또한, 동영상 비트스트림의 시작 위치를 결정하는 단계는, 상기 영상 중앙 처리 유닛이, 상기 결정된 복수의 영상 처리부들이 각각 처리해야할 픽셀(pixel)의 수가 가능한 균등하도록 상기 복수의 영상 처리부들 각각에 할당할 동영상 비트스트림의 시작 위치를 결정하는 단계일 수 있다.

그리고, 상기 복수의 영상 처리부들은 각각, 제1 처리 유닛 및 제2 처리 유닛을 포함하고, 상기 제1 처리 유닛이 상기 영상 중앙 처리 유닛과 통신하여 상기 동영상 데이터에 대해 엔트로피 코딩을 수행하는 단계 및 상기 제2 처리 유닛이, 상기 엔트로피 코딩이 수행된 동영상 데이터를 부호화 단위로 처리하는 단계를 포함할 수 있다.

여기서, 동영상을 처리하는 장치는 후술할 VPU(300)를, 영상 중앙 처리 유닛은 후술할 V-CPU(310)를, 영상 처리부는 후술할 V-CORE(320)를 지칭할 수 있다. 또한, 제1 영상 처리부는 후술할 BPU(321), 제2 영상 처리부는 후술할 VCE(322)를 지칭할 수 있다.

한편, 여기서, 동영상 처리 장치는 동영상 부호화 장치 및 동영상 복호화 장치를 모두 포함할 수 있다. 동영상 복호화 장치와 동영상 부호화 장치는, 도 1 내지 4에서 상술한 바와 같이, 서로 역과정을 수행하는 장치로 구현될 수 있는 바, 이하에서는 설명의 편의를 위하여 동영상 복호화 장치의 경우를 예로 설명하기로 한다. 다만, 이에 한정되는 것은 아니고, 동영상 처리 장치는, 후술할 동영상 복호화 장치의 역과정을 수행하는 동영상 부호화 장치로 구현될 수도 있다.

도 13은 본 발명의 본 발명의 일 실시 예에 따른 동영상 복호화 장치의 계층 구조(layer structure)를 나타내는 도면이다. 도 13을 참조하면, 동영상 복호화 장치는 동영상 복호화 기능을 수행하는 VPU(Video Processing Unit)(300)를 포함할 수 있고, VPU(300)는 V-CPU(310), BPU(321), VCE(322)을 포함할 수 있다. 여기서 BPU(321), VCE(322)는 결합하여 V-Core(320)를 형성할 수 있다.

여기서, 본 발명의 일 실시 예에 따른 VPU(300)는, 바람직하게는, 한 개의 V-CPU(310) 및 복수의 V-Core(320)(이하, Multi V-Core)를 포함할 수 있다. 다만, 이에 한정되는 것은 아니고, VPU(300)의 구현 형태에 따라서 그 개수는 다양할 수 있다.

V-CPU(310)는 VPU(300)의 전반적인 동작을 제어한다. 특히 V-CPU(310)는 수신된 동영상 비트스트림에서 VPS(Video Parameter Set), SPS, PPS, SH를 파싱할 수 있다. 그리고, V-CPU(310)는 파싱된 정보를 기초로 VPU(300)의 전반적인 동작을 제어할 수 있다.

일 예로, V-CPU(310)는 파싱된 정보를 기초로 데이터 병렬 처리에 사용할 V-core(320)의 개수를 판단할 수 있다. 그리고, 판단 결과, 데이터 병렬 처리에 복수의 V-core(320)가 필요하다고 판단되면, V-CPU(310)는 Multi V-core(320) 중 각각의 V-core(320)가 처리할 영역을 결정할 수 있다.

또한, V-CPU(310)는 각각의 V-core(320)에 할당할 영역에 대한 비트스트림의 시작위치(entry points)를 결정할 수 있다.

또한, V-CPU(310)는 Multi V-core(320)를 이용한 복호화에 따라 발생된 한 픽쳐 내의 경계 영역을 Multi V-core(320)에 할당할 수 있다.

여기서 V-CPU(310)는 API(Application Programing Interface)와 픽쳐 단위로 통신하며, V-Core(320)와 슬라이스/타일 단위로 통신할 수 있다.

V-Core(320)는 V-CPU(310)의 제어하에 복화화 처리, 경계 처리를 수행한다. 일 예로, V-Core(320)는 V-CPU(310)의 제어하에 할당된 영역을 복호화 처리할 수 있다. 또한, V-Core(320)는 V-CPU(310)의 제어하에 할당된 경계 영역에 대한 경계 처리(boundary processing)할 수 있다.

여기서 V-Core(320)는 BPU(321) 및 VCE(322)를 포함할 수 있다.

BPU(321)는 할당된 영역(슬라이스 또는 타일)의 데이터를 엔트로피 디코딩한다. 즉, BPU(321)는 상술한 엔트로피복호화부(210)의 기능을 수행할 수 있고, 또한, BPU(321)는 CTU(Coding Tree Unit)/CU(Coding Unit)/PU(Prediction Unit)/TU(Transform Unit) 레벨 파라미터 도출할 수 있다. 그리고, VCE(322)를 제어할 수 있다.

여기서 BPU(321)는 V-CPU(310)와 슬라이스 또는 타일 단위로 통신하고, CTU 단위로 VCE(322)와 통신할 수 있다.

VCE(322)는 BPU(321)의 도출된 파라미터를 제공받아, TQ(Transform/Quantization), Intra-prediction, Inter-prediction, LF(Loop Filtering), Memory compression을 수행할 수 있다. 즉, VCE(322)는 상술한 역양자화/역변화부(220), 디블록킹 필터(250), 인트라 예측부(230), 움직임 보상 예측부(240)의 기능을 수행할 수 있다.

여기서 VCE(322)는 할당된 영역에 대해서 CTU-based pipelining으로 데이터 처리할 수 있다.

도 14는 본 발명의 일 실시 예에 따른 VPU의 동영상 복호화 동작을 나타내는 타이밍도이다. 도 14를 참조하면, 상술한 바와 같이, V-Cpu(310)는 각각의 픽쳐(프레임)의 영역에 대해 multi V-Core(320) 각각에 할당하고, multi V-Core(320)는 복호화 처리(core processing) 및 경계 처리(boundary processing)를 할 수 있다.

이하에서는, 상술한 V-CPU(310)의 상세 동작을 구체적으로 설명하기로 한다.

구체적으로 V-CPU(310)는 Host Processor와 인터페이스 동작을 수행할 수 있다.

또한, V-CPU(310)는 수신된 동영상 비트 스트림에서 VPS(Video Parameter Set)/SPS(Sequence Parameter Set)/PPS(Picture Parameter Set)/SH(Slice Header)를 파싱할 수 있다.

또한, V-CPU(310)는 파싱된 정보를 이용하여 V-Core(320)에서 슬라이스/타일 복호화에 필요한 정보를 전달할 수 있다. 여기서 필요한 정보는, 'Picture parameter data structure' 및 'Slice control data structure'를 포함할 수 있다.

'Picture parameter data structure'는 다음과 같은 정보들을 포함할 수 있다.

일 예로, Sequence/picture header에 포함된 정보들(예: picture size, scaling list, CTU, min/max CU size, min/max TU size 등), Frame decoding 시 필요한 buffer들의 위치(주소) 등을 포함할 수 있다.

이러한, Picture parameter data structure는 한 개의 픽쳐를 복호화하는 동안 1회 설정될 수 있다.

Slice control data structure는 다음과 같은 정보들을 포함할 수 있다.

일 예로, Slice header에 포함된 정보들(예: slice type, slice/tile 영역 정보, reference picture list, weighted prediction parameter등)을 포함할 수 있다.

이러한, Slice control data structure는 slice가 바뀔 때 설정될 수 있다. V-Core(320)의 inter-processor communication registers 또는 slice parameter buffer at external memory는 N개의 slice control data structure를 저장할 수 있으며, full이 아닌 상태라면 현재 복호화 수행 중인 slice에 해당하는 data structure가 아니라도 미리 저장할 수 있다. 여기서 N은 단위 처리 시, V-Core(320)에서 V-CPU(310)로 처리 완료를 알리는 시점을 VCE(322)의 pipe가 완전히 flush된 이후로 할 거냐(N=1), 아니면 현재 처리 중인 segment와 다음segment간에 pipelining이 유지되도록(N > 1) 할 것이냐에 따라 결정될 수 있다.

여기서 V-CPU(310)에서 V-Core(320)에 전달된 정보는, V-Core(320)의 inter-processor communication registers를 통해 전달될 수 있다. inter-processor communication registers는 고정크기의 register array(file)로 구현될 수 있고, 또는 external memory로 구현될 수 있다. 만약, external memory로 구현되는 경우, V-CPU(310)가 external memory에 저장하고, BPU(321)가 external memory에서 읽어가는 구조로 동작할 수 있다.

한편, V-Core(320)가 저장할 수 있는 slice control data structure의 개수가 1 (또는 any number)개 이어도 segment와 segment간 V-Core(320)가 장시간의 유휴(idle)상태에 있는 것을 방지하기 위해서 V-CPU(310)는 도 15와 같이, SH 복호화 및 parameter generation 등을 계속 수행할 수 있어야 한다.

한편, 하나의 슬라이스에 여러 개의 타일이 포함되어 있고, multi V-Cores(320)에 의해 병렬 처리되는 경우, V-CPU(310)는 동일한 slice control data structure를 multi V-Core(320)에 전송할 수 있다.

또한, V-CPU(310)는 Multi V-Cores(320)의 데이터 병렬 처리를 위하여 Multi V-Cores(320)의 동기화를 제어할 수 있다.

또한, V-CPU(310)는 V-Core(320)에서 exception 발생 시 이를 처리할 수 있다. 일 예로, V-CPU(310)에서 parameter set 복호화시 오류 검출 시, V-Core(320)의 BPU(321)에서 slice data 복호화 시 오류 검출 시, 프레임 복호화 중 지정된 복호화 시간을 초과하는 경우(예: VPU(300) 내부의 알 수 없는 오류 및 시스템 버스의 장애로 인해 V-CPU(310)의 peripheral 및 V-Core(320)가 stall되어 있는 경우) 이를 해결하기 위한 대응을 수행할 수 있다.

또한, V-CPU(310)는 VPU(300)의 프레임 복호화 완료시, API에 완료 보고를 할 수 있다.

또한, V-CPU(310)는 파싱된 정보를 기초로 데이터 병렬 처리에 사용할 V-core(320)의 개수를 판단할 수 있다. 그리고, 판단 결과, 데이터 병렬 처리에 복수의 V-core(320)가 필요하다고 판단되면, V-CPU(310)는 Multi V-core(320) 중 각각의 V-core(320)가 처리할 영역을 결정할 수 있다.

이하에서는, 상술한 BPU(321)의 상세 동작을 구체적으로 설명하기로 한다.

BPU(321)는 할당된 영역(슬라이스 또는 타일)의 데이터를 엔트로피 디코딩할 수 있다. V-CPU(310)에 의하여 SH(Slice Header)디코딩되었고, picture parameter data structure와 slice control data structure에 의해 필요한 정보를 모두 받았으므로, BPU(321)에서는 SH를 디코딩하지 않는다.

또한, BPU(321)는 CTU(Coding Tree Unit)/CU(Coding Unit)/PU(Prediction Unit)/TU(Transform Unit) 레벨 파라미터 도출할 수 있다.

또한, BPU(321)는 도출된 파라미터를 VCE(322)에 전송할 수 있다.

여기서, 각 블록에 공통적으로 사용되는 정보들(picture size, segment offset/size,…)과 DMAC에 source/destination address 등을 제외한 복호화 처리에 필요한 CTU/CU/PU/TU parameters 및 coefficient, reference pixel data들은 BPU(321)와 VCE(322)가 FIFO를 통해 전달할 수 있다. 다만, segment level의 parameter들은 FIFO가 아닌 VCE(322)의 internal register에 세팅될 수 있다.

또한, BPU(321)는 VCE(322)를 제어하는 VCE controller의 기능을 수행할 수 있다. VCE controller는 BPU(321)가 register 세팅으로 제어할 수 있는 picture_init, segment_init signal, software reset을 출력하며, VCE(322)의 각 서브블럭들은 이 signal들을 제어에 사용할 수 있다.

BPU(321)가 VCE controller에 상기 언급된 picture/segment-level parameter들을 세팅한 후 segment run을 명령(by register setting)하게 되면, 설정된 segment의 디코딩을 완료할 때 까지는 BPU(321)와의 communication 없이 CU parameter FIFO의 fullness 와 각 섭블럭들의 상태 정보를 참조하여 디코딩 과정을 제어할 수 있다.

또한, BPU(321)에서 exception 발생 시 처리할 수 있다.

또한, 슬라이스/타일 세그먼트 처리 완료 시 V-CPU(310)에 보고할 수 있다.

VCE(322)는 BPU(321)의 도출된 파라미터를 제공받아, TQ(Transform/Quantization), Intra-prediction, Inter-prediction, LF(Loop Filtering), Memory compression을 수행할 수 있다.

상술한, 본 발명의 다양한 실시 예에 따르면, 헤더 파싱과 데이터 처리 프로세스를 분리하고, 분리된 데이터 처리 프로세스를 파이프라이닝시켜, Multi V-core에 대한 작업 분배 및 동기화등을 수행할 수 있는 V-CPU를 제공할 수 있다.

이하에서는, 도 16을 참조하여 V-CPU(310)에서 수행되는 Multi V-Cores(320) 의 데이터 병렬 처리를 위한 Multi V-Cores(320)의 동기화를 제어 방안을 구체적으로 설명하기로 한다.

도 16을 참조하면, V-CPU(310)는 데이터 병렬 처리를 위하여 사용하기로 결정된 Multi V-Cores(320) 각각에 디코딩 명령 신호를 전송할 수 있다. 이에 따라, 각각의 V-CORE(320)는 디코딩을 수행하고, 디코딩이 완료되면, 각각의 V-CORE(320)는 V-CPU(310)에 디코딩 완료 신호를 전송할 수 있다.

만약, 디코딩 명령 신호가 전송된 모든 V-Core(320)로부터 디코딩 완료 신호를 받으면 V-CPU(310)는 Multi V-Cores(320) 각각에 후처리 명령(일 예로, 경계 처리)을 전송할 수 있다. 이에 따라, 각각의 V-CORE(320)는 후처리를 수행하고, 후처리가 완료되면, 각각의 V-CORE(320)는 V-CPU(310)에 후처리 완료 신호를 전송할 수 있다.

만약, 후처리 명령 신호가 전송된 모든 V-Core로부터 후처리 완료 신호를 받으면 V-CPU(310)는 사용하기로 결정된 Multi V-Cores(320) 각각에 디코딩 명령 신호를 전송할 수 있다. 이에 따라, V-CPU(310)는 데이터 병렬 처리를 위한 Multi V-Cores(320)의 동기화를 제어할 수 있다.

이하에서는, 도 17 내지 18을 참조하여 V-CPU(310)에서 수행되는 데이터 병렬 처리에 사용할 V-core 개수 판단하는 방법을 구체적으로 설명하기로 한다.

구체적으로 V-CPU(310)는 SPS(Sequence Parameter Set)를 파싱하여, 파싱된 SPS(Sequence Parameter Set)에 포함된 레벨(level) 정보를 검출할 수 있다. 그리고, 검출된 레벨 정보를 V-CORE(320)가 처리가능한 레벨 정보와 비교하여 실시간 복호화를 위해 사용할 V-core 개수 판단할 수 있다.

여기서, V-CPU(310)는 도 17에 도시된, V-CORE(320)가 처리가능한 레벨(level) 정보를 이용할 수 있다.

일 예로, V-core(320) 하나가 level5.0을 디코딩할 수 있는데, 비트스트림의 level정보가 5.0이면, V-CPU(310)는 1개의 V-core(320)가 필요하다고 판단할 수 있다. 그리고, V-CPU(310)는 사용할 1 개의 V-core(320)를 결정할 수 있다.

또는, V-core(320) 하나가 level5.0을 디코딩할 수 있는데, 비트스트림의 level정보가 5.1이면, V-CPU(310)는 2개의 V-core(320)가 필요하다고 판단할 수 있다.

만약, 2개 이상의 V-core(320)가 필요하다고 판단되었을 경우, V-CPU(310)는 각 Frame이 다음 3가지 중에 어떤 경우인지를 PPS(Picture Parameter Set)의 tile정보와 Slice Header(SH)를 parsing하여 판별할 수 있다.

CASE1) 1tile, 1 slice

CASE2) Multiple tile

CASE3) 1tile, multiple slice

만약, 비트스트림이 1tile, 1slice(CASE1)이면 병렬처리가 불가능하므로 하나의 V-CORE(320)만을 사용할 수 있다. 이 경우, V-CPU(310)는 사용할 1 개의 V-core(320)를 결정할 수 있다.

만약, 비트스트림이 Multiple tile이면(CASE2) 각각의 V-core(320)가 가능한 동일한 pixel수를 병렬처리하도록 하기 위한 V-CORE(320) 개수를 판단할 수 있다. 이 경우, V-CPU(310)는 판단된 개수로 사용할 V-core(320)를 결정할 수 있다. 그리고, V-CPU(310)는 각각의 V-core(320)가 가능한 동일한 pixel수를 병렬처리하도록 결정된 V-core(320)에 처리할 영역을 할당할 수 있다.

만약, 비트스트림이 1tile, multiple slice이면(CASE3) 각각의 V-core(320)가 가능한 동일한 pixel수를 병렬처리하도록 하기 위한 V-CORE(320) 개수를 판단할 수 있다. 이 경우, V-CPU(310)는 판단된 개수로 사용할 V-core(320)를 결정할 수 있다. 그리고, V-CPU(310)는 각각의 V-core(320)가 가능한 동일한 pixel수를 병렬처리하도록 결정된 V-core(320)에 처리할 영역을 할당할 수 있다.

한편, 사용이 결정되지 않은 V-core(320)의 POWER는 차단될 수 있다.

이하에서는, 도 19 내지 20을 참조하여 V-CPU(310)에서 수행되는 엔트리 포인트 써치 방안을 구체적으로 설명하기로 한다.

system이 엔트리 포인트 위치를 알려준다면, V-CPU(310)는 slice header(SH)를 파싱하기 위하여 reverse seek하여 start code를 찾을 수 있다.

그리고, 찾은 slice가 dependent slice이면 V-CPU(310)는 normal slice를 찾을 때까지 계속 reverse seek할 수 있다.

만약, system이 NAL unit의 위치를 알려준다면, NAL unit이 dependent slice가 아니어야 한다.

picture level에는 엔트리 포인트 정보가 없기 때문에, V-CPU(310)는 픽쳐 단위로 픽쳐 내의 모든 slice header를 파싱하여 엔트리 포인트를 찾을 수 있다. 여기서 엔트리 포인트 정보는 slice header의 마지막에 있으므로, V-CPU(310) 엔트리 포인트 정보를 알아내기 위해서는 slice header의 모든 syntax를 파싱할 수 있다.

이 경우, 픽쳐 단위로 픽쳐 내의 모든 slice header를 parsing해야 하므로 엔트리 포인트 찾는 경우, V-CPU(310)는 모든 slice header를 V-CPU(310) 메모리에 저장해둘 수 있다. 이에 따라, 나중에 V-core(320)가 동작하는 경우, 다시 slice header를 파싱하지 않을 수 있다. 일 예로, 픽쳐의 모든 slice header를 저장해 둘 경우의 memory size : 대략 300bytes/slice * 600 (MaxSlicesPerPicture of 6.2(max level)) = 180KB일 수 있다.

즉, 싱글 코어의 경우, 한 개의 V-CORE를 이용하여 순차적으로 복호화하면 되므로, 미리 엔트리 포인트를 써치할 필요가 없다.

다만, 멀티 코어의 경우, 복수의 V-CORE를 이용하여 복호화해야하므로, 복수의 V-CORE에서의 병렬로 복호화를 위해서는 엔트리 포인트를 미리 다 써치해놓을 필요가 있다.

이에 따라, 본 발명의 일 실시 예에 따르면, Multi V-CORE를 이용한 복호화를 수행하기 위하여 V-CPU가 엔트리 포인트를 미리 써치할 수 있다.

한편, 도 19 내지 20은, system layer에서 엔트리 포인트를 알려주지 않는 경우, 엔트리 포인트를 써치하는 일 예이다. 도 19를 참조하여, 픽쳐 내의 슬라이스가 모두 사각형 형상인 경우(1st subset of slice segment), 픽쳐 내의 슬라이스 중 적어도 하나의 슬라이스가 사각형 형상이 아닌 경우(Not 1st subset of slice segment)에, 사각형 형상이 아닌 슬라이스 내의 타일의 엔트리 포인트를 써치하는 방안(Look for tileID=2)을 예로 설명하기로 한다.

<픽쳐 내의 슬라이스가 모두 사각형 형상인 경우(1st subset of slice segment)>

이 경우, 도 20에 기재된 알고리즘에 적용하면, tileID=2에서 엔트리 포인트 오프셋(entry point offset)은 0인 바, tileID=2에 대한 엔트리 포인트를 써치할 수 있다.

<픽쳐 내의 슬라이스 중 적어도 하나의 슬라이스가 사각형 형상이 아닌 경우(Not 1st subset of slice segment)>

이 경우, 도 20에 기재된 알고리즘에 적용하면, tileID=2에서 엔트리 포인트 오프셋(entry point offset)은 entry point offset=sum of entry point offset[i]인 바, tileID=2에 대한 엔트리 포인트를 써치할 수 있다.

이하에서는, 도 21을 참조하여 V-CPU(310)에서 수행되는 Multi V-core(320)각각에 할당하는 pixel의 개수가 가능한 균등하도록 entry point를 할당하는 방안에 대해서 구체적으로 설명하기로 한다.

상술한 도 17 내지 18과 같이, V-CPU(310)는 병렬 처리에 사용할 V-core(320) 개수가 2개 이상이라고 판단하여 사용할 V-core(320)를 결정할 수 있다. 이 경우, V-CPU(310)는 사용하기로 결정된 V-core(320) 각각에 할당하는 pixel의 개수가 가능한 균등하도록, 상술한 도 19 내지 20에 의하여 써치된 엔트리 포인트를 할당할 수 있다.

먼저, Multi V-core(320) 각각에 할당하는 영역을 결정하는 방안은 도 21과 같은 알고리즘에 의하여 수행될 수 있다.

도 21에서, ctb_num_in_pic는 picture내 CTB 개수, ctb_num_in_segment[]는 각 타일 혹은 슬라이스내 CTB 개수를 의미할 수 있다. 이에 따라 각 V-core(320)에 할당 영역을 결정(core_start_addr[core_id] 결정)할 수 있다.

그리고, V-CPU(310)는 Slice header의 slice_ddress와 Slice header의 entry point정보를 이용하여 각각의 V-Core에 할당하는 pixel의 개수가 가능한 균등하도록 entry point를 각각의 V-Core(320)에 적절히 할당할 수 있다.

상술한 본 발명에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해 되어서는 안될 것이다.

Claims

동영상을 처리하는 장치에 있어서,
호스트와 통신하며, 상기 호스트로부터 입력되는 동영상 데이터로부터 파라미터 정보 또는 슬라이스 헤더 정보를 파싱하는 영상 중앙 처리 유닛; 및
상기 영상 중앙 처리 유닛의 제어를 받아 상기 파싱된 정보에 따라 동영상을 처리하는 복수의 영상 처리부들을 포함하고,
상기 영상 중앙 처리 유닛은,
상기 복수의 영상 처리부들이 각각 처리해야할 픽셀(pixel)의 수를 고려하여 상기 복수의 영상 처리부들 각각에 할당할 동영상 비트스트림의 시작 위치를 결정하는 동영상 처리 장치.
제1항에 있어서,
상기 영상 중앙 처리 유닛은,
상기 파싱된 파라미터 정보 중 시퀀스 파라미터 셋(SPS, Sequence Parameter Set)에 포함된 레벨(level) 정보를 이용하여 상기 동영상 처리에 사용할 복수의 영상 처리부들의 개수를 결정하는 것을 특징으로 하는 동영상 처리 장치.
제2항에 있어서,
상기 레벨 정보는,
상기 동영상 데이터의 샘플 레이트(sample rate) 및 비트 레이트(bit rate) 중 적어도 하나를 포함하는 동영상 처리 장치.
제2항에 있어서,
상기 영상 중앙 처리 유닛은,
상기 결정된 복수의 영상 처리부들이 각각 처리해야할 픽셀 수의 차이가 최소화되도록 상기 복수의 영상 처리부들 각각에 할당할 동영상 비트스트림의 시작 위치를 결정하는 동영상 처리 장치.
제1항에 있어서,
상기 복수의 영상 처리부들은 각각,
상기 영상 중앙 처리 유닛과 통신하여 상기 동영상 데이터에 대해 엔트로피 코딩을 수행하는 제1 처리 유닛; 및
상기 엔트로피 코딩이 수행된 동영상 데이터를 부호화 단위로 처리하는 제2 처리 유닛을 포함하는 동영상 처리 장치.
영상 중앙 처리 유닛 및 상기 영상 중앙 처리 유닛의 제어를 받아 동영상을 처리하는 복수의 영상 처리부들을 구비한 동영상 처리 장치에서, 상기 영상 중앙 처리 유닛이 동영상을 처리하는 방법에 있어서,
상기 영상 중앙 처리 유닛이 호스트와 통신하며, 상기 호스트로부터 입력되는 동영상 데이터로부터 파라미터 정보 또는 슬라이스 헤더 정보를 파싱하는 단계;
상기 영상 중앙 처리 유닛이, 상기 복수의 영상 처리부들이 각각 처리해야할 픽셀(pixel)의 수를 고려하여 상기 복수의 영상 처리부들 각각에 할당할 동영상 비트스트림의 시작 위치를 결정하는 단계;를 포함하는 동영상 처리 방법.
제6항에 있어서,
상기 파싱된 파라미터 정보 중 시퀀스 파라미터 셋(SPS, Sequence Parameter Set)에 포함된 레벨(level) 정보를 이용하여 상기 동영상 처리에 사용할 복수의 영상 처리부들을 결정하는 단계;를 더 포함하는 것을 특징으로 하는 동영상 처리 방법.
제7항에 있어서,
상기 레벨 정보는,
상기 동영상 데이터의 샘플 레이트(sample rate) 및 비트 레이트(bit rate) 중 적어도 하나를 포함하는 동영상 처리 방법.
제7항에 있어서,
상기 시작 위치 결정 단계는,
상기 결정된 복수의 영상 처리부들이 각각 처리해야할 픽셀 수의 차이가 최소화되도록 상기 복수의 영상 처리부들 각각에 할당할 동영상 비트스트림의 시작 위치를 결정하는 것을 특징으로 하는 동영상 처리 방법.
제6항에 있어서,
상기 복수의 영상 처리부들은 각각, 제1 처리 유닛 및 제2 처리 유닛을 포함하고,
상기 제1 처리 유닛이 상기 영상 중앙 처리 유닛과 통신하여 상기 동영상 데이터에 대해 엔트로피 코딩을 수행하고, 상기 제2 처리 유닛이 상기 엔트로피 코딩이 수행된 동영상 데이터를 부호화 단위로 처리하도록 제어하는 단계;를 더 포함하는 것을 특징으로 하는 동영상 처리 방법.