KR101781300B1

KR101781300B1 - 시간 상관도에 기반한 고속 영상 부호화 방법

Info

Publication number: KR101781300B1
Application number: KR1020160109037A
Authority: KR
Inventors: 장의선; 이승호; 박상효; 허해연
Original assignee: 한양대학교 산학협력단
Priority date: 2015-09-01
Filing date: 2016-08-26
Publication date: 2017-09-22
Also published as: KR20170027288A

Abstract

시간 상관도에 기반한 고속 영상 부호화 방법이 개시된다. 화면 내 예측을 이용한 영상 부호화 방법은, 분할할 부호화 유닛(Coding Unit)을 선정하는 단계, 시간 상관도에 기반하여 상기 부호화 유닛(Coding Unit)에 대한 조기 분할(Early split) 여부를 결정하는 단계 및 조기 분할하는 것으로 결정되면, 상기 부호화 유닛에 대한 율-왜곡 비용(Rate-Distortion Cost)의 산출 없이 하부 부호화 유닛들로 분할하고, 상기 하부 부호화 유닛들을 상기 부호화 유닛으로 설정하여 상기 하부 부호화 유닛들 각각에 대하여, 상기 조기 분할 여부를 결정하는 단계를 새롭게 수행하는 단계를 포함한다. 따라서, 비효율적인 부호화 연산을 생략함으로써, 인코딩의 복잡도를 완화시키고 인코딩 속도를 향상시킬 수 있다.

Description

시간 상관도에 기반한 고속 영상 부호화 방법{FAST VIDEO ENCODING METHOD BASED ON TEMPORAL CORRELATION}

본 발명은 비디오 압축 기술에 관한 것으로, 더욱 상세하게는 시간 상관도에 기반하여 분할 형태 또는 예측 모드를 빠르게 결정함으로써, 고속으로 영상을 부호화하는 방법에 관한 것이다.

디지털 신호 처리 기반 정보 통신 분야의 발전을 바탕으로 멀티미디어 기술과 네트워크 기술의 발전과 함께 멀티미디어 시대가 도래하였다. 최근에는 스마트폰, 패블릿, PC 등의 휴대용 멀티미어 장치가 보급됨에 따라 손쉽게 동영상을 취득하여 저장하거나 이를 소셜 네트워크 서비스(SNS: Social Network Service)를 통해 공유하고 있다.

이러한 동영상은 압축 없이 그대로 전송 및 공유한다면, 방대한 데이터를 전송해야 하고, 이것은 통신 속도의 제약 및 하드웨어의 제한 때문에 상당한 불편을 가져온다. 예를 들어, 동영상을 Full-HD(High Definition) 해상도로 2시간 30분 재생한다면, 약 2.29 Tbyte(Tera byte)가 필요하고 초당 5Mbit(Mega bit) 의 속도로 네트워크에서 전송한다면 전체 데이터의 전송에는 약 5일 6시간이 걸린다. 이 때문에 동영상 압축 기술은 필수적인 기술로 인식되고 있다.

한편, 대표적인 비디오 압축 기술의 표준으로서, H.263, MPEG4, AVC/H.264 를 거쳐 HEVC(High Efficiency Video Coding)가 소개되었다. 이러한 비디오 압축 표준 기술은 화면 내 또는 화면 간 예측을 통하여 예측 블록을 생성함으로써 시간적, 공간적 중복성을 제거하는 방식으로 압축율을 향상시키고 있으나, 그로 인하여 인코더가 장작된 장치들의 계산 복잡도가 크게 증가한다. 예를 들어, AVC/H.264는 4X4 블록 예측을 위해 9 방향을 가지고, 16X16 블록 예측을 위한 4 방향을 가짐으로써 화면 내 예측 부호화에 대해 상당한 인코딩 복잡도를 가진다.

특히, 화면 내 예측 부호화의 복잡도는 차세대 비디오 코덱 표준인 HEVC(High Efficiency Video Coding)에서 다양한 CU(Coding Unit) 사이즈, TU(Transform Unit) 사이즈 및 PU(Prediction Unit) 모드들을 가지도록 약 4배 더 많은 방향을 채택함으로써 더욱 더 증가된다. HEVC의 화면 내 예측 부호화는 이전 기술들에 비해 3배 더 복잡한 것으로 알려져 있다.

이와 같이, HEVC에서 화면 내 예측 부호화의 복잡도는 CU, TU, PU의 크기를 결정하기 위한 연산들로 인해 증가된다는 점에서, 인코더 복잡도를 완화시키기 위해 비효율적인 유닛 사이즈를 생략하거나 예측 방향의 수를 감소시키는 노력이 시도되고 있다.

이 중, 초기 사이즈 결정 방법들은 일반적으로 텍스처(texture) 복잡도와 같은 공간 정보 또는 공간 상관된 유닛들의 RD 비용(Rate-Distortion Cost)을 활용하였다.

다만, 비디오는 다수의 프레임으로 분할되고, 유닛 간의 유사도는 프레임 간의 공간 상관도 보다 시간 상관도에서 더욱 강력하게 나타난다는 점에서, 특히 화면 내 예측 부호화에서 다양한 유닛 사이즈 결정에 따른 복잡성을 감소시키기 위해서는 시간 상관도를 활용하는 기술이 요구된다.

본 발명의 제 1 목적은, 부호화할 부호화 유닛에 대한 조기 분할 및 조기 분할 종료 방법을 제공하는 것이다.

또한, 본 발명의 제 2 목적은 부호화할 부호화 유닛에 속한 변환 유닛에 대한 조기 분할 및 조기 분할 종료 방법을 제공하는 것이다.

또한, 본 발명의 제 3 목적은 러프 모드 결정(Rough Mode Decision, RMD)에서 예측 유닛에 대한 화면 내 예측 모드를 감소 및 대체하는 방법을 제공하는 것이다.

상기 목적을 달성하기 위한 본 발명의 화면 내 예측을 이용한 영상 부호화 방법은, 분할할 부호화 유닛(Coding Unit)을 선정하는 단계, 시간 상관도에 기반하여 부호화 유닛(Coding Unit)에 대한 조기 분할(Early split) 여부를 결정하는 단계 및 조기 분할하는 것으로 결정되면, 부호화 유닛에 대한 율-왜곡 비용(Rate-Distortion Cost)의 산출 없이 하부 부호화 유닛들로 분할하고, 하부 부호화 유닛들을 부호화 유닛으로 설정하여 하부 부호화 유닛들 각각에 대하여, 조기 분할 여부를 결정하는 단계를 새롭게 수행하는 단계를 포함한다.

여기서, 조기 분할 여부를 결정하는 단계는, 부호화 유닛이 속한 프레임보다 시간상으로 이전에 있는 프레임내에 속하고, 부호화 유닛과 동일한 위치에 있는 연동위치 부호화 유닛(Co-located Coding Unit, Co-located CU)을 이용하여 결정할 수 있다.

여기서, 조기 분할 여부를 결정하는 단계는, 연동위치 부호화 유닛(Co-located CU)내에 포함된 4×4픽셀(Pixel) 예측 유닛(Prediction Unit, PU)의 개수가 미리 설정된 임계값(Threshold)보다 크면 조기 분할하는 것으로 결정할 수 있다.

여기서, 임계값은, 부호화 유닛의 크기가 64×64픽셀(Pixel)이면 8, 부호화 유닛의 크기가 32×32픽셀이면 4, 부호화 유닛의 크기가 16×16픽셀이면 1일 수 있다.

여기서, 조기 분할 여부를 결정하는 단계에서 조기 분할하지 않는 것으로 결정되는 경우, 부호화 유닛에 대하여 각각의 화면 내 예측 모드에 대한 화면 내 예측을 수행하여 율-왜곡 비용을 각각 산출하는 단계 및 산출된 율-왜곡 비용 중에서 가장 작은 율-왜곡 비용을 부호화 유닛에 대한 율-왜곡 비용으로 결정하는 단계를 더 포함할 수 있다.

여기서, 부호화 유닛에 대한 율-왜곡 비용으로 결정하는 단계 이후에, 부호화 유닛의 크기가 미리 정해진 최소 크기와 같은지 여부를 확인하는 단계 및 부호화 유닛의 크기가 미리 정해진 최소 크기보다 크면, 연동위치 부호화 유닛을 이용하여 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계를 더 포함할 수 있다.

여기서, 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계는, 부호화 유닛에 포함된 예측 유닛(Prediction Unit)의 크기가 32×32 픽셀(Pixel)이고, 연동위치 부호화 유닛에 포함된 최소 예측 유닛(PU)의 크기가 16×16픽셀보다 크거나 같으면, 부호화 유닛의 크기가 미리 설정된 최소 크기보다 크더라도 분할을 조기에 종료할 수 있다.

여기서, 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계는, 부호화 유닛의 위치가 부호화 유닛이 속한 프레임의 경계로부터 적어도 32 픽셀(Pixel)이상 떨어진 경우에 적용할 수 있다.

여기서, 미리 정해진 최소 크기와 같은지 여부를 확인하는 단계에서 부호화 유닛의 크기가 미리 정해진 최소 크기로 확인되거나, 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계에서 부호화 유닛의 분할을 조기에 종료하는 것으로 결정하는 경우, 결정된 율-왜곡 비용의 합이 최소화되도록, 부호화 유닛을 선정하는 단계에서 최초로 선정되었던 부호화 유닛의 분할 구조를 결정하는 단계를 더 포함할 수 있다.

상기 다른 목적을 달성하기 위한 본 발명의 화면 내 예측을 이용한 영상 부호화 방법은, 부호화 유닛(Coding Unit, CU)에 속하고 분할할 변환 유닛(Transform Unit, TU)을 선정하는 단계, 시간 상관도에 기반하여 변환 유닛에 대한 조기 분할(Early split) 여부를 결정하는 단계 및 조기 분할하는 것으로 결정되면, 변환 유닛에 대한 율-왜곡 비용(Rate-Distortion Cost)의 산출 없이 변환 유닛을 하부 변환 유닛들로 분할하고, 하부 변환 유닛들을 변환 유닛으로 설정하여 하부 변환 유닛들 각각에 대하여, 조기 분할 여부를 결정하는 단계를 새롭게 수행하는 단계를 포함한다.

여기서, 조기 분할 여부를 결정하는 단계는, 부호화 유닛이 속하는 프레임보다 시간상으로 이전에 있는 프레임내에 속하고, 부호화 유닛과 동일한 위치에 있는 연동위치 부호화 유닛(Co-located Coding Unit, Co-located CU)을 이용하여 결정할 수 있다.

여기서, 조기 분할 여부를 결정하는 단계는, 연동위치 부호화 유닛에 미리 설정된 크기의 변환 유닛이 속하면, 조기 분할 하는 것으로 결정할 수 있다.

여기서, 미리 설정된 크기는, 변환 유닛의 크기가 32×32픽셀(Pixel)일때, 8×8픽셀일 수 있다.

여기서, 미리 설정된 크기는, 변환 유닛의 크기가 16×16픽셀(Pixel)일때, 4×4픽셀일 수 있다.

여기서, 조기 분할 여부를 결정하는 단계에서 조기 분할하지 않는 것으로 결정되는 경우, 변환 유닛에 대하여 미리 결정된 화면 내 예측 모드에 따라 화면 내 예측을 수행하고 율-왜곡 비용을 산출하는 단계를 더 포함할 수 있다.

여기서, 율-왜곡 비용을 산출하는 단계 이후에, 변환 유닛의 크기가 미리 설정된 최소 크기인지 확인하는 단계 및 변환 유닛의 크기가 미리 설정된 최소 크기보다 크면, 연동위치 부호화 유닛을 이용하여, 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계를 더 포함할 수 있다.

여기서, 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계는, 변환 유닛의 크기가 32×32픽셀(Pixel)이고, 연동위치 부호화 유닛에 속한 최대 크기의 변환 유닛이 32×32픽셀인 경우 조기에 종료하는 것으로 결정할 수 있다.

여기서, 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계는, 변환 유닛의 크기가 16×16픽셀(Pixel)이고, 연동위치 부호화 유닛에 속한 최대 크기의 변환 유닛이 16×16픽셀인 경우 조기에 종료하는 것으로 결정할 수 있다.

여기서, 미리 정해진 최소 크기와 같은지 여부를 확인하는 단계에서 변환 유닛의 크기가 미리 정해진 최소 크기로 확인되거나, 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계에서 변환 유닛의 분할을 조기에 종료하는 것으로 결정하는 경우, 변환 유닛을 선정하는 단계에서 최초로 선정되었던 변환 유닛에 대하여, 산출된 율-왜곡 비용의 합이 최소화되도록 변환 유닛의 분할 구조를 결정하는 단계를 더 포함할 수 있다.

상기 다른 목적을 달성하기 위한 본 발명의 시간 상관도에 기반한 영상 부호화 방법은, 부호화할 부호화 유닛(Coding Unit)에 속하는 예측 유닛(Prediction Unit, PU)에 대하여, 러프 모드 결정(Rough Mode Decision, RMD)을 수행하여 예측 유닛에 대하여 미리 설정된 개수의 제 1 예측 모드 후보군을 선정하는 단계, 제 1 예측 모드 후보에, 최적 가능 모드(Most Probable Mode, MPM)를 추가하여 제 2 예측 모드 후보군을 선정하는 단계 및 예측 유닛에 대하여, 제 2 예측 모드 후보군에 포함된 각각의 예측 모드에 따라 화면 내 예측을 수행하여 예측 유닛에 대한 화면 내 예측 모드를 결정하는 단계를 포함한다.

여기서, 제 1 예측 모드 후보군은, 부호화 유닛이 속한 프레임보다 시간상으로 이전에 있는 프레임에 속하고 부호화 유닛과 동일한 위치에 있는 연동위치 부호화 유닛(Co-located Coding Unit)을 이용하여 얻은 예측 모드를 포함하여 구성될 수 있다.

여기서, 연동위치 부호화 유닛을 이용하여 얻은 예측 모드는, 연동위치 부호화 유닛에 속한 예측 유닛이 부호화된 화면 내 예측 모드일 수 있다.

상술한 바와 같은 본 발명의 실시예에 따른 시간 상관도 기반의 영상 부호화 방법을 이용하면, 비효율적인 부호화 연산을 생략함으로써, 인코딩의 복잡도를 완화시키고 인코딩 속도를 향상시킬 수 있다.

또한, 시간 상관도에 기반하므로, 압축 성능의 저하를 최소화할 수 있다.

따라서, 고화질(HD) 또는 초고화질 콘텐츠를 위한 방송 시스템 또는 상기 콘텐츠를 재생하기 위한 TV 시스템, 휴대용 영상 장치, 사진 또는 셋톱 박스 관련 제품, 게임 관련 제품 등 동영상 압축 기술이 요구되는 다양한 기술 분야에 적용하여 인코딩 속도를 향상시킬 수 있다.

도 1은 본 발명의 실시예에 따른 영상 부호화 및 복호화 시스템에 대한 개념도이다.
도 2는 본 발명의 일실시예에 따른 영상 부호화 장치에 대한 블록도이다.
도 3은 본 발명의 일실시예에 따른 부호화 유닛에 대한 최적의 분할 형태를 결정하고 이를 기초로 영상 부호화를 수행하는 방법에 대한 흐름도이다.
도 4는 본 발명의 일실시예에 따른 부호화 유닛에 대한 조기 분할을 결정하는 과정을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일실시예에 따른 부호화 유닛에 대한 조기 분할을 종료하는 과정을 설명하기 위한 흐름도이다.
도 6은 본 발명의 일실시예에 따른, 분할을 조기 종료시에 적용될 수 있는 부호화 유닛의 위치를 설명하기 위한 예시도이다.
도 7은 본 발명의 일실시예에 따른 시간 상관도에 기반한 영상 부호화 방법에 대한 흐름도이다.
도 8은 본 발명의 일실시예에 따른 변환 유닛에 대한 조기 분할을 결정하는 과정을 설명하기 위한 흐름도이다.
도 9는 본 발명의 일실시예에 따른 변환 유닛에 대한 조기 분할을 종료하는 과정을 설명하기 위한 흐름도이다.
도 10은 본 발명의 일실시예에 따른 예측 모드 결정을 통한 부호화 과정을 설명하기 위한 흐름도이다.
도 11은 HEVC의 현재 예측 유닛에 대한 최적 가능 모드(MPM) 결정에 관한 흐름도이다.
도 12은 본 발명의 일실시예에 따른 예측 모드 후보군을 구성하는 방법에 대한 예시도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

통상적으로 동영상은 일련의 픽쳐(Picture)로 구성될 수 있으며, 픽쳐(picture)라는 용어는 영상(image) 또는 프레임(frame)과 동등한 의미를 갖는 다른 용어로 대치되어 사용될 수 있다.

또한, 각 픽쳐(또는 프레임)는 소정의 영역으로 분할될 수 있다. 여기서, 분할된 영역은 블록(Block) 또는 매크로 블록(Macro Block)으로 지칭될 수 있으나, 부호화 트리 유닛(Coding Tree Unit, CTU), 부호화 유닛(Coding Unit, CU), 예측 유닛(Prediction Unit, PU), 변환 유닛(Transform Unit, TU)과 같이 다양한 크기 또는 용어로 지칭될 수 있다.

여기서, 부호화 유닛은 화면 내 예측 또는 화면 간 예측을 수행하는 기본 단위를 의미할 수 있고, 예측 유닛은 예측의 기본 단위로서 각각의 예측 유닛이 서로 다른 예측 블록을 생성할 수 있으며 하나의 예측 유닛 내에서는 모두 동일한 예측 모드를 가질 수 있다. 변환 유닛은 원 영상 블록과 예측 유닛에서 생성된 예측 블록과의 차분값으로 생성된 잔차 블록을 변환하는 기본 단위일 수 있다.

또한, 상기 분할된 영역은 다시 수개의 픽셀(Pixel) 또는 화소로 구성될 수 있다. 예를 들면, 부호화 트리 유닛은 픽셀 단위로 64×64, 32×32, 16×16 중 하나의 크기를 가질 수 있다.

부호화 트리 유닛에서 다시 쿼드 트리(Quad-tree) 형태로 분할될 수 있는데, 이때 분할된 블록을 부호화 유닛(Coding Unit)으로 지칭될 수 있으며, 이러한 분할은 재귀적으로 이루어질 수 있고, 모든 부호화 유닛이 동일한 형태로 분할될 필요는 없다. 다만, 부호화 유닛은 최대 크기 및 최소 크기에 제한이 있을 수 있는데, 이를 각각 최대 부호화 유닛(Largest Coding Unit, LCU) 및 최소 부호화 유닛(Smallest Coding Unit, SCU)으로 지칭할 수 있고, 최대 부호화 유닛으로부터 분할된 횟수 또는 정도를 표현하는 지표로 깊이 또는 심도(depth)를 사용할 수 있다. 예를 들어, 최대 부호화 유닛(LCU)의 크기를 가진다면 깊이는 0으로 표현할 수 있고, 쿼드 트리로 분할됨에 따라 깊이가 증가할 수 있으며, 최소 크기까지 분할되었다면 그때의 깊이를 최대 깊이(Max depth)로 표현할 수 있다.

여기서, 각각의 부호화 유닛(CU)에서 다시 예측 유닛(PU)으로 분할될 수 있는데, 이때 예측 유닛은 쿼드-트리 형태로 분할되지 않고 비대칭구조로 분할될 수 있으며, 부호화 유닛에서 한번만 분할될 수 있다. 또한 화면 간 예측 및 화면 내 예측에 따라 미리 설정된 형태를 가질 수 있다. 예를 들어, 화면 내 예측에서는 2N×2N 또는 N×N의 크기를 가질 수 있다.

또한, 각각의 부호화 유닛(CU)에서 다시 변환 유닛(TU)으로 분할될 수 있는데, 이때 변환 유닛은 쿼드 트리 구조를 바탕으로 재귀적으로 분할될 수 있고 부호화 유닛과 마찬가지로 최대 및 최소 크기를 가질 수 있으며 그에 따른 깊이(depth)로 표현될 수 있다.

상기의 부호화 유닛에서 예측 유닛 또는 변환 유닛으로의 분할은 독립적으로 이루어질 수 있으나, 제약이 있을 수 있다. 예를 들어, 부호화 유닛의 부호화 모드가 화면 내 예측인 경우에는 해당 부호화 유닛으로부터 분할된 변환 유닛이 해당 부호화 유닛으로부터 분할된 예측 유닛의 크기보다 크지 않을 수 있다.

각 유닛(Unit)은 하나의 휘도 블록과 두 개의 색차 블록으로 구성될 수 있으며, 이는 컬러 포맷에 따라 달리 구성될 수 있다. 또한, 컬러 포맷에 따라 휘도 블록과 색차 블록의 크기가 결정될 수 있다. 예를 들어, 4:2:0인 경우 색차 블록의 크기는 휘도 블록의 가로, 세로가 1/2인 길이를 가질 수 있다.

상기의 유닛 또는 블록 단위에 대해서는 기존의 HEVC 또는 H.264/AVC 등의 용어를 참조할 수 있다. 본 발명에서는 블록과 상기 용어들이 혼용하여 사용될 수 있으며, 표준 기술에 따라 달리 이해될 수 있고, 그러한 표준 기술에 따른 부호화 및 복호화 과정에 따라 상응하는 용어 또는 단위로 이해되어야 한다.

또한, 현재 블록 또는 현재 화소를 부호화하거나 복호화하는데 참조되는 픽쳐, 블록 또는 화소를 참조 픽쳐(Reference Picture), 참조 블록(Reference Block) 또는 참조 화소(Reference Pixel)라고 지칭할 수 있다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 실시예에 따른 영상 부호화 및 복호화 시스템에 대한 개념도이다.

도 1을 참조하면, 영상 부호화 장치(12) 및 복호화 장치(11)는 개인용 컴퓨터(PC:Personal Computer), 노트북 컴퓨터, 개인 휴대 단말기(PDA: Personal Digital Assistant), 휴대형 멀티미디어 플레이어(PMP: Portable Multimedia Player), 플레이스테이션 포터블(PSP: PlayStation Portable), 무선 통신 단말기(Wireless Communication Terminal), 스마트폰(Smart Phone), TV 등과 같은 사용자 단말기이거나 응용 서버와 서비스 서버 등 서버 단말기일 수 있으며, 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신 장치, 영상을 부호화하거나 복호화하거나 부호화 또는 복호화를 위해 인터 또는 인트라 예측하기 위한 각종 프로그램과 데이터를 저장하기 위한 메모리(memory, 18), 프로그램을 실행하여 연산 및 제어하기 위한 프로세서(processor, 14) 등을 구비하는 다양한 장치를 포함할 수 있다. 또한, 영상 부호화 장치(12)에 의해 비트스트림으로 부호화된 영상은 실시간 또는 비실시간으로 인터넷, 근거리 무선 통신망, 무선랜망, 와이브로망, 이동통신망 등의 유무선 통신망(Network) 등을 통하거나 케이블, 범용 직렬 버스(USB: Universal Serial Bus) 등과 같은 다양한 통신 인터페이스를 통해 영상 복호화 장치로 전송되어 영상 복호화 장치에서 복호화되어 영상으로 복원되고 재생될 수 있다. 또한, 영상 부호화 장치에 의해 비트스트림으로 부호화된 영상은 컴퓨터 판독 가능한 기록 매체를 통하여 부호화 장치에서 복호화 장치로 전달될 수 있다.

도 2는 본 발명의 일실시예에 따른 영상 부호화 장치에 대한 블록도이다.

본 실시예에 따른 영상 부호화 장치(20)는, 도 2에 나타낸 바와 같이, 예측부(200), 감산부(205), 변환부(210), 양자화부(215), 역양자화부(220), 역변환부(225), 가산부(230), 필터부(235), 복호화 픽쳐 버퍼(240) 및 엔트로피 부호화부(245)를 포함할 수 있다.

예측부(200)는 부호화할 블록에 대하여, 화면 내 예측 또는 화면 간 예측을 통하여 예측 블록을 결정할 수 있다. 여기서, 예측 블록은 픽셀 차이의 관점에서, 부호화할 블록과 가깝게 일치하는 것으로 이해되는 블록이며, SAD(sum of absolute difference), SSD(sum of square difference) 를 포함하는 다양한 방법으로 결정될 수 있다. 또한, 이때 영상 슬라이스의 블록들을 복호화시에 필요한 각종 정보를 지시하는 구문(syntax)들을 생성할 수 있다.

감산부(205)는 부호화할 현재 블록의 픽셀 값으로부터 예측 블록의 픽셀 값들을 감산하여 픽셀 차이 값들을 도출함으로써, 잔여(residue) 영상 블록을 생성할 수 있다.

변환부(210)는 하마다드 변환, 이산 코사인 변환 등과 같은 공간 영역의 신호를 주파수 영역의 신호로 변환하는 다양한 방법을 이용하여, 감산부(205)로부터 받은 잔여 영상 블록을 잔여 변환 계수 값들을 포함하는 영상 블록을 생성할 수 있다. 즉, 잔여 영상 블록을 픽셀 값 신호에서 주파수 영역 신호로 변환할 수 있다.

양자화부(215)는 비트레이트를 감소시키기 위해 변환부(210)에서 변환된 변환 계수들을 양자화할 수 있다. 양자화를 통해 그 계수들의 일부 또는 모두와 연관되는 비트 심도 또는 비트량을 감소시킬 수 있다. 양자화 정도에 따른 양자화 에러는 양자화 파라미터(Quantization Parameter, QP)를 조정하여 변경될 수 있다.

양자화 기법에는 데드존 균일 경계 양자화(DZUTQ: Dead Zone Uniform Threshold Quantization), 양자화 가중치 매트릭스(Quantization weighted matrix) 또는 이를 개량한 기법을 사용할 수 있으며, 이러한 기법에 대한 구체적 설명은 본 발명의 기술분야에서 통상의 기술자가 용이하게 이해할 수 있으므로 생략한다.

엔트로피 부호화부(245)는 양자화부(215)를 통해 양자화된 변환 계수들을 부호화할 수 있다. 예를 들어, 컨텐스트 적응 가변 길이 코딩(CAVLC), 컨텍스트 적응 2진 산술 코딩(CABAC), 구문 기반 컨텍스트 적응 2진 산술 코딩(SBAC), 확률 간격 파티셔닝 엔트로피(PIPE) 코딩 등의 기법을 수행할 수 있다.

또한, 엔트로피 부호화부(245)는 양자화 계수를 부호화한 비트열을 복호화하는데 필요한 다양한 정보들을 부호화할 수 있다.

역양자화부(220) 및 역변환부(225)는 역양자화 및 역변환을 각각 적용하여 픽셀 신호로 잔여 블록을 재구성할 수 있다. 재구성된 잔여 블록은 가산부(230)에서 예측 블록과 가산되어 복원된 영상 블록이 생성될 수 있고, 복호화 픽쳐 버퍼(240)에 저장되어 참조 블록으로서 사용될 수 있다.

필터부(235)는 상기 복원된 영상 블록에 대하여, 필요에 따라 블로킹(blocking) 현상을 제거하기 위하여 디블로킹 필터를 적용할 수도 있고, 상기 비디오 품질을 향상시키기 위해 추가적인 루프 필터가 적용되어 필터링할 수 있다.

한편, 영상의 부호화 또는 복호화에 있어서, 최적의 부호화를 위해서는 각각의 부호화 유닛 및 변환 유닛에 대해 최적의 분할 형태를 결정해야 한다. 예를 들어, 부호화 유닛이 쿼드 트리 구조로 재귀적 분할됨을 전제로 설명하면, 최대 크기를 갖는 하나의 부호화 유닛이 4, 16, 64개의 하부 부호화 유닛으로 순차적으로 분할되므로 각각의 분할시마다 4, 16, 64 번 계산하여 최적의 분할 구조를 찾아야 한다.

또한, 부호화 유닛의 분할 구조를 결정하기 위해서는 다시 각각의 부호화 유닛으로부터 분할되는 변환 유닛의 분할 구조를 찾는 과정 또한 수반되어야 하기 때문에, 계산 복잡도가 매우 증가할 수 있다.

따라서, 부호화 유닛 또는 변환 유닛에 대한 분할 구조를 결정하는데 있어서, 최적의 분할 구조인지 계산하는 과정을 생략할 수 있거나, 하위 크기를 갖는(깊이가 깊은) 부호화 유닛 또는 변환 유닛에 대한 분할을 생략할 수 있다면, 계산 복잡도를 감소시킬 수 있다.

이하에서는 최적의 분할 구조인지 계산하는 과정을 생략하고 조기에 분할하거나, 작은 크기를 갖는(깊이가 깊은) 유닛에 대한 분할 및 최적 분할 구조 판단에 관한 계산을 생략하고 조기에 종료하는 방법을 설명한다.

도 3은 본 발명의 일실시예에 따른 부호화 유닛에 대한 최적의 분할 구조를 결정하고 이를 기초로 영상 부호화를 수행하는 방법에 대한 흐름도이다. 도 4는 본 발명의 일실시예에 따른 부호화 유닛에 대한 조기 분할을 결정하는 과정을 설명하기 위한 흐름도이다. 도 5는 본 발명의 일실시예에 따른 부호화 유닛에 대한 조기 분할을 종료하는 과정을 설명하기 위한 흐름도이다.

도 3을 참조하면, 화면 내 예측을 이용한 영상 부호화 방법은, 분할할 부호화 유닛(Coding Unit)을 선정하는 단계(S300), 시간 상관도에 기반하여 부호화 유닛(Coding Unit)에 대한 조기 분할(Early split) 여부를 결정하는 단계(S305) 및 조기 분할하는 것으로 결정되면, 부호화 유닛에 대한 율-왜곡 비용(Rate-Distortion Cost)의 산출 없이 하부 부호화 유닛들로 분할(S310)하고, 하부 부호화 유닛들을 부호화 유닛으로 설정하여 하부 부호화 유닛들 각각에 대하여, 조기 분할 여부를 결정하는 단계를 새롭게 수행하는 단계를 포함할 수 있다.

여기서 분할할 부호화 유닛은 가장 큰 크기를 갖는 부호화 유닛 즉 부호화 트리 유닛(Coding Tree Unit, CTU)의 블록 크기가 선정될 수 있고, 분할이 이루어지면 쿼드 트리의 구조상 점차 깊은 깊이(depth)를 갖는 부호화 유닛이 재귀적으로 선정될 수 있다.

여기서, 조기 분할 여부를 결정하는 단계(S305)는, 부호화 유닛이 속한 프레임보다 시간상으로 이전에 있는 프레임내에 속하고, 부호화 유닛과 동일한 위치에 있는 연동위치 부호화 유닛(Co-located Coding Unit, Co-located CU)을 이용하여 결정할 수 있다. 연동위치 부호화 유닛은 현재 부호화 유닛보다 먼저 부호화되어 분할 구조가 결정되어 있을 수 있는데, 현재 부호화 유닛과 시간적 상관도가 매우 높기 때문에 그에 따른 분할 구조 또한 유사하다는 특성으로 인하여, 연동위치 부호화 유닛을 이용할 수 있다.

도 4를 참조하면, 조기 분할 여부를 결정하는 단계(S305)는, 연동위치 부호화 유닛(Co-located CU)내에 포함된 4×4픽셀 예측 유닛(Prediction Unit, PU)의 개수를 계산(S400)하여 계산된 4×4픽셀 예측 유닛의 개수가 미리 설정된 임계값(Threshold)보다 크면(S405) 조기 분할하는 것으로 결정(S410)할 수 있다.

표 1은 조기 분할 여부를 결정하는데 활용되는 임계값을 설정하기 위한 것이다.

현재 부호화 유닛 크기(Current CU Size)	연동위치 부호화 유닛(Co-located CU)에 포함된 4×4 예측 유닛의 개수
64×64	8
32×32	4
16×16	1

표 1을 참조하면, 임계값은 부호화 유닛의 크기가 64×64픽셀(Pixel)이면 8, 상기 부호화 유닛의 크기가 32×32픽셀이면 4, 상기 부호화 유닛의 크기가 16×16픽셀이면 1로 설정할 수 있다. 다만 이 값은 예시적인 것이고, 부호화 복잡도와 왜곡 정도, 압축율을 고려하여 다양하게 설정할 수 있다.

여기서, 조기 분할 여부를 결정하는 단계(S305)에서 조기 분할하지 않는 것으로 결정되는 경우, 부호화 유닛에 대하여 각각의 화면 내 예측 모드에 대한 화면 내 예측을 수행하여 율-왜곡 비용을 각각 산출하는 단계(S315) 및 산출된 율-왜곡 비용 중에서 가장 작은 율-왜곡 비용을 부호화 유닛에 대한 율-왜곡 비용으로 결정하는 단계(S320)를 더 포함할 수 있다.

여기서, 각각의 화면 내 예측 모드는 2N×2N 화면 내 예측 모드들일 수 있고, 또한, 현재 분할할 부호화 유닛이 미리 설정된 최대 깊이(최소 크기)인 경우라면, 추가적으로 N×N 화면 내 예측 모드를 의미할 수 있다. 구체적인 화면 내 예측 모드의 종류는 HEVC 를 기준으로 하면, 33가지의 방향성 예측 모드와 2가지의 무방향성 예측 모드를 포함하여 총 35가지가 존재할 수 있다. 예를 들어, 무방향성 예측 모드로 Planar(평면), DC(평균)가 있을 수 있고, 방향성 예측 모드로는 vertical(수직), horizontal(수평)을 포함하여 각각의 방향을 갖는 33가지가 있을 수 있다. 각 모드에 대한 구체적인 예측 방법은 본 발명이 속한 기술분야에서 통상의 기술자가 용이하게 이해할 수 있으므로 자세한 설명은 생략한다.

여기서, 율-왜곡 비용(J_RD)은, 다음의 수학식 1과 같이 정의할 수 있다.

여기서, D는 왜곡율(Distortion)을 의미할 수 있는데, 이에 대한 연산은 다음과 같을 수 있다. 먼저, 부호화할 부호화 유닛에 대하여 부호화 유닛에 속한 예측 유닛에 대해 예측 모드를 선정하고, 선정된 예측 모드를 기초로, 부호화 유닛에 속하는 변환 유닛들에 대해서 화면 내 예측을 수행하며, 화면 내 예측을 통해 생성된 잔차 블록을 변환 및 양자화한 뒤, 다시 역양자화 및 역변환을 거쳐 복원 블록을 얻을 수 있다. 얻어진 복원 블록과 부호화할 부호화 유닛과의 차이를 계산하여 왜곡율 D를 구할 수 있다.

R은 압축율(Compression Rate)로서 상기 화면 내 예측을 통해 생성된 잔차 블록에 대해 변환 및 양자화를 거쳐 생성된 비트스트림으로부터 결정할 수 있다.

여기서 λ는 라그랑지안 상수로서 예를 들면 다음과 같이 정의할 수 있다.

여기서, QP는 양자화 파라미터(Quantization Parameter)를 의미할 수 있다.

다만, 상기 수학식 1 내지 2는 예식적인 것이고 이외에도 다양한 방법으로 설정할 수 있다.

한편, 상기의 수학식 1을 통하여 율-왜곡 비율을 계산하는 과정은 모든 화면 내 예측 모드에 대하여 각각 수행할 수 있고 이 경우 매우 큰 복잡도를 갖는다.

따라서, 화면 내 예측 모드를 일부 선정하고 선정된 화면 내 예측 모드에 대해서만 상기 수학식 1을 연산할 수도 있다. 또한, 왜곡율 결정시, 부호화 유닛을 복원하지 않고, 부호화 유닛에 대한 화면 내 예측을 수행하여 생성된 예측 블록과 원본 블록과의 차분값을 하다마드 변환하여 결정(SATD, Sum of Absoltue Transformed Difference)할 수도 있다.

율-왜곡 비용에 대해서는 기존의 복잡도 감소를 위하여 다양한 연구와 제안이 있기 때문에 상기의 식을 바탕으로 다양한 변형이 있을 수 있고, 이러한 변형된 율-왜곡 비용 계산에 대해서도 본 발명의 조기 분할 및 조기 분할 종료가 적용될 수 있는 것으로 이해되어야 한다.

여기서, 부호화 유닛에 대한 율-왜곡 비용으로 결정하는 단계 이후에, 부호화 유닛의 크기가 미리 정해진 최소 크기와 같은지 여부를 확인하는 단계(S325) 및 부호화 유닛의 크기가 미리 정해진 최소 크기보다 크면, 연동위치 부호화 유닛을 이용하여 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계(S330)를 더 포함할 수 있다.

도 5를 참조하면, 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계(S330)는, 부호화 유닛에 포함된 예측 유닛(Prediction Unit)의 크기가 32×32 픽셀(Pixel)이고(S500), 연동위치 부호화 유닛에 포함된 최소 예측 유닛(PU)의 크기가 16×16픽셀보다 크거나 같으면(S505), 부호화 유닛의 크기가 미리 설정된 최소 크기보다 크더라도 분할을 조기에 종료할 수 있다.

이와 같이 분할을 조기에 종료함으로써, 그보다 블록 크기가 작은 부호화 유닛에 대한 분할 및 율-왜곡 비용의 연산을 생략할 수 있기 때문에 빠르게 분할 형태를 결정할 수 있다.

도 6은 본 발명의 일실시예에 따른 분할을 조기 종료시에 적용될 수 있는 부호화 유닛의 위치를 설명하기 위한 예시도이다.

도 6을 참조하면, 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계(S330)는, 부호화 유닛의 위치가 부호화 유닛이 속한 프레임의 경계로부터 적어도 32 픽셀(Pixel)이상 떨어진 경우에 적용할 수도 있다.

여기서, 미리 정해진 최소 크기와 같은지 여부를 확인하는 단계(S325)에서 부호화 유닛의 크기가 미리 정해진 최소 크기로 확인되거나, 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계(S330)에서 부호화 유닛의 분할을 조기에 종료하는 것으로 결정하는 경우, 결정된 율-왜곡 비용의 합이 최소화되도록, 부호화 유닛을 선정하는 단계(S300)에서 최초로 선정되었던 부호화 유닛의 분할 구조를 결정하는 단계(S335)를 더 포함할 수 있다.

여기서, 결정된 율-왜곡 비용의 합이 최소화된다는 의미는 예를 들면 다음과 같이 설명할 수 있다.

여기서, RDcost_CU(d-1)는 d-1의 깊이(depth)를 갖는 부호화 유닛에 대해 결정된 율-왜곡 비용이고, RDcost_CU(d,i)는 상기 RDcost_CU(d-1)에 대응되는 부호화 유닛이 분할된 하부 부호화 유닛들로서, 쿼드 트리로 분할되는 경우 4개의 하부 부호화 유닛으로 분할되므로 각각을 i=0 부터 3까지 지칭한 것이다.

따라서, 각 부호화 유닛의 분할 전 율-왜곡 비용과 분할 후 율-왜곡 비용의 총합을 서로 비교하여 더 작은 비용을 갖는 부호화 유닛을 더 최적의 부호화 유닛 분할 구조로 판단할 수 있고, 이러한 비교를 통해 율-왜곡 비용이 최소화되는 분할 구조를 결정할 수 있다.

또한, 여기서, 부호화 유닛의 크기가 미리 정해진 최소 크기가 아닌 것으로 확인되고, 부호화 유닛의 분할을 조기에 종료하지 않는 것으로 결정하는 경우에는 다시 부호화 유닛을 하부 부호화 유닛들로 분할하여, 하부 부호화 유닛들을 분할할 부호화 유닛을 선정하는 단계의 변환 유닛으로 선정하여 조기 분할여부를 결정하는 단계가 재수행될 수 있다.

도 7은 본 발명의 일실시예에 따른 시간 상관도에 기반한 영상 부호화 방법에 대한 흐름도이다. 도 8은 본 발명의 일실시예에 따른 변환 유닛에 대한 조기 분할을 결정하는 과정을 설명하기 위한 흐름도이다. 도 9는 본 발명의 일실시예에 따른 변환 유닛에 대한 조기 분할을 종료하는 과정을 설명하기 위한 흐름도이다.

도 7을 참조하면, 화면 내 예측을 이용한 영상 부호화 방법은, 부호화 유닛(Coding Unit, CU)에 속하고 분할할 변환 유닛(Transform Unit, TU)을 선정하는 단계(S700), 시간 상관도에 기반하여 변환 유닛에 대한 조기 분할(Early split) 여부를 결정하는 단계(S705) 및 조기 분할하는 것으로 결정되면, 변환 유닛을 하부 변환 유닛들로 분할하고(S710), 하부 변환 유닛들을 변환 유닛으로 설정하여 하부 변환 유닛들 각각에 대하여, 조기 분할 여부를 결정하는 단계를 새롭게 수행하는 단계를 포함할 수 있다.

여기서, 조기 분할 여부를 결정하는 단계(S705)는, 부호화 유닛이 속하는 프레임보다 시간상으로 이전에 있는 프레임내에 속하고, 부호화 유닛과 동일한 위치에 있는 연동위치 부호화 유닛(Co-located Coding Unit, Co-located CU)을 이용하여 결정할 수 있다.

도 7 및 도 8을 참조하면, 조기 분할 여부를 결정하는 단계(S705)는, 연동위치 부호화 유닛에 미리 설정된 크기의 변환 유닛이 속하면, 조기 분할 하는 것으로 결정할 수 있다.

여기서, 미리 설정된 크기는, 변환 유닛의 크기가 32×32픽셀(Pixel)일때(S800), 8×8픽셀일 수 있고(S805), 또는 변환 유닛의 크기가 16×16픽셀(Pixel)일때(S810), 4×4픽셀(S815)일 수 있다.

여기서, 조기 분할 여부를 결정하는 단계(S&05)에서 조기 분할하지 않는 것으로 결정되는 경우, 변환 유닛에 대하여 미리 결정된 화면 내 예측 모드에 따라 화면 내 예측을 수행하고 율-왜곡 비용을 산출하는 단계(S715)를 더 포함할 수 있다.

여기서, 미리 결정된 화면 내 예측 모드는 앞에서 설명한 35가지의 모든 HEVC 표준에 따른 화면 내 예측 모드 중 하나로 결정될 수 있다. 또한, 율-왜곡 비용에 대해서는 앞에서 설명한 수학식 1 내지 2에 대한 설명을 참조할 수 있으며 동일한 방법이 적용될 수 있다.

여기서, 율-왜곡 비용을 산출하는 단계(S715) 이후에, 변환 유닛의 크기가 미리 설정된 최소 크기인지 확인하는 단계(S720) 및 변환 유닛의 크기가 미리 설정된 최소 크기보다 크면, 연동위치 부호화 유닛을 이용하여, 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계(S725)를 더 포함할 수 있다. 미리 설정된 최소 크기는 부호화할 영상의 해상도, 영상의 종류 및 부호화 복잡도 중 적어도 하나를 고려하여 미리 설정될 수 있다.

도 9를 참조하면, 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계(S725)는, 변환 유닛의 크기가 32×32픽셀(Pixel)이고(S900), 연동위치 부호화 유닛에 속한 최대 크기의 변환 유닛이 32×32픽셀인 경우(S905) 조기에 종료하는 것으로 결정할 수 있다.

또한, 도 9를 참조하면, 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계(S725)는, 변환 유닛의 크기가 16×16픽셀(Pixel)이고(S910), 연동위치 부호화 유닛에 속한 최대 크기의 변환 유닛이 16×16픽셀인 경우(S915) 조기에 종료하는 것으로 결정할 수 있다.

이처럼 미리 설정된 최소 크기가 아니더라도 분할을 조기에 종료함으로써 현재 변환 유닛보다 더 작은 변환 유닛에 대한 율-왜곡 비용의 연산을 생략할 수 있어 더 빠르게 부호화할 수 있다.

여기서, 미리 정해진 최소 크기와 같은지 여부를 확인하는 단계(S720)에서 변환 유닛의 크기가 미리 정해진 최소 크기로 확인되거나, 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계(S725)에서 변환 유닛의 분할을 조기에 종료하는 것으로 결정하는 경우, 변환 유닛을 선정하는 단계에서 최초로 선정되었던 변환 유닛에 대하여, 산출된 율-왜곡 비용의 합이 최소화되도록 변환 유닛의 분할 구조를 결정하는 단계(S730)를 더 포함할 수 있다.

여기서, 산출된 율-왜곡 비용의 합이 최소화 된다는 의미는 변환 유닛의 분할 전과 분할 후의 산출된 율-왜곡 비용의 합을 서로 비교하여 더 작은 분할 구조를 선정한다는 의미로서, 이러한 비교 과정에서 가장 최소가 되는 분할 구조를 변환 유닛의 분할 구조로 결정할 수 있다.

또한, 여기서, 변환 유닛의 크기가 미리 정해진 최소 크기가 아닌 것으로 확인되고, 변환 유닛의 분할을 조기에 종료하지 않는 것으로 결정하는 경우에는 다시 변환 유닛을 하부 변환 유닛들로 분할하여, 하부 변환 유닛들을 분할할 변환 유닛으로 선정하는 단계의 변환 유닛으로 선정하여 조기 분할여부를 결정하는 단계가 재수행될 수 있다.

한편, 하나의 예측 유닛(PU)에 대하여 최적의 예측 모드를 결정하려면, 참조 샘플을 패딩(reference sample padding)하여 참조 화소를 구성하고 모드에 따라 참조 화소에 대한 필터링(mode dependent intra smoothing, MDIS)을 적용하며, 이를 통해 얻어진 참조 화소를 바탕으로 각각의 예측 모드에 대한 화면 내 예측을 수행하여 최적의 모드를 결정할 수 있다. 그러나, 이와 같은 방법은 앞에서 설명한 바와 같이 HEVC에서 최대 35가지에 이르는 모든 화면 내 예측 모드에 대하여 예측을 수행해서 예측 블록을 생성해야 하고 각각의 변환 유닛(TU)의 형태를 모두 고려해야 하기 때문에 매우 큰 복잡도를 갖는다.

따라서, 다양한 고속 결정 방법이 제시되고 있는데, 이중 하나가 러프 모드 결정(Rough Mode Decision, RMD) 방법이다. 이하에서는 러프 모드 결정 방법을 보완하여 예측 모드를 결정하는 방법을 설명한다.

도 10은 본 발명의 일실시예에 따른 예측 모드 결정을 통한 부호화 과정을 설명하기 위한 흐름도이다.

도 10을 참조하면, 본 발명의 일실시예에 따른 시간 연관도에 기반한 영상 부호화 방법은, 부호화할 부호화 유닛(Coding Unit)에 속하는 예측 유닛(Prediction Unit, PU)에 대하여, 러프 모드 결정(Rough Mode Decision, RMD)을 수행하여 예측 유닛에 대하여 미리 설정된 개수의 제 1 예측 모드 후보군을 선정하는 단계(S102), 제 1 예측 모드 후보군에, 최적 가능 모드(Most Probable Mode, MPM)를 추가하여 제 2 예측 모드 후보군을 선정하는 단계(S104), 예측 유닛에 대하여, 제 2 예측 모드 후보군에 포함된 각각의 예측 모드에 따라 화면 내 예측을 수행하여 예측 유닛에 대한 화면 내 예측 모드를 결정하는 단계(S106)를 포함할 수 있다.

구체적으로 설명하면, 제 1 예측 모드 후보군을 선정하는 단계(S102)는, 참조 샘플 패딩(Reference Sample Padding)을 수행하는 단계를 통하여 참조 화소를 구성하고, 이 다음에는 각 모드 별로, 참조 샘플 필터링(Mode Dependent Intra Smoothing, MDIS)을 수행하는 단계, 참조 샘플을 이용하여 예측 유닛에 대한 화면 내 예측을 수행하는 단계를 수행할 수 있고, 상기 과정을 거친 후, 미리 설정된 개수의 제 1 예측 모드 후보군을 선정하는 단계를 수행할 수 있다.

참조 샘플 패딩은 참조 화소를 구성하는 과정이고, 참조 샘플 필터링은 참조 화소에 대하여 모드 별로 필터링을 수행하는 과정이다. 이에 대한 보다 더 구체적인 설명은 본 발명이 속한 기술분야의 통상의 기술자가 용이하게 이해할 수 있으므로 생략한다.

이때, 참조 샘플을 이용하여 예측 유닛에 대한 화면 내 예측을 수행하는 단계는 각각의 화면 내 예측 모드에 대하여 간소화된 율-왜곡 비용(RD-Cost, Rate-Distortion Cost) 만을 측정하여 간소화된 율-왜곡 비용이 작은 순서로 미리 설정된 개수의 제 1 예측 모드 후보군을 선정할 수 있다.

여기서, 간소화된 율-왜곡 비용은 다음과 같이 정의할 수 있다.

여기서, λ_pred 는 라그랑지안 상수로서 미리 정의된 값을 사용할 수 있다.

여기서, B_pred 는 예측 모드 부호화에 쓰이는 비트를 예측한 값(또는 부호화된 비트스트림의 길이)일 수 있다.

여기서, SATD(Sum of Absolute Transformed Difference)는 부호화할 예측 유닛과, 예측 유닛에 대한 화면 내 예측을 수행한 결과인 예측 블록간의 차분값(SAD, Sum of Absolute Difference)을 하다마드 변환(Hadamard Transform)한 결과를 의미할 수 있는데 다음 식과 같이 정의할 수 있다.

여기서, T(i, j)는 각 블록 내의 화소값을 의미할 수 있고, Diff()는 원본 블록과 예측 블록 간의 차분을 의미할 수 있다.

표 2는 러프 모드 결정을 수행함에 따라 미리 설정된 예측 모드 후보 개수를 설명하기 위한 것이다.

예측 유닛의 크기	RMD 후보 개수
64×64	3
32×32	3
16×16	3
8×8	8
4×4	8

표 2에 따르면, 예측 모드 후보의 개수는 예측 유닛의 크기에 따라 RMD 후보의 개수를 미리 설정할 수 있다. 다만, 이것은 예시적인 것이고 이와 달리 설정하는 것을 배제하는 것은 아니다.

여기서, 최적 가능 모드(Most Probable Mode, MPM)는 현재 예측 유닛이 부호화할 가능성이 높은 화면 내 예측 모드의 집합으로서, 현재 예측 유닛의 좌측과 상단 각각에 위치한 예측 유닛의 화면 내 예측 모드를 참조하여 구성할 수 있다.

이하에서 HEVC의 최적 가능 모드 선정 방법에 대하여 도면을 참조하여 설명한다.

도 11은 HEVC의 현재 예측 유닛에 대한 최적 가능 모드(MPM) 결정에 관한 흐름도이다.

도 11을 참조하면, HEVC에서는 현재 예측 유닛에 대하여 부호화될 가능성이 가장 높은 3개의 화면 내 예측 모드를 선정하여 최적 가능 모드(MPM)를 구성하는데, 현재 예측 유닛을 기준으로 좌측에 있는 예측 유닛의 화면 내 예측 모드(Left_PU_MPM)와 상단에 있는 예측 유닛의 화면 내 예측 모드(Above_PU_MPM)가 동일하지 않다면, 좌측과 상단의 화면 내 예측 모드를 최적 가능 모드로 선정(각각 MPM[0], MPM[1]로 선정)하고 나머지 하나(MPM[2])는 Intra_Planar(평면), Intra_DC(평균), Intra_vertical(수직) 중 하나로 선정할 수 있다.

현재 예측 유닛의 좌측과 상단의 화면 내 예측 모드가 동일하다면, 좌측에 있는 화면 내 예측 모드(Left_PU_MPM)가 2(Mode 2)보다 작은 경우, Intra_Planar(평면), Intra_DC(평균), Intra_vertical(수직)을 각각 선정(순서대로 MPM[0], MPM[1], MPM[2])할 수 있다.

이와 달리, 좌측에 있는 화면 내 예측 모드(Left_PU_MPM)가 2보다 작지 않은 경우, 좌측에 있는 화면 내 예측 모드(Left_PU_MPM)와, 좌측의 화면 내 예측 모드 번호보다 1 작은 예측 모드(Left_PU_MPM-1), 좌측의 화면 내 예측 모드보다 1 큰 예측 모드(Left_PU_MPM+1)를 각각 선정할 수 있다.

다시 도 10을 참조하면, 예측 유닛에 대한 예측 모드를 결정하는 단계(S106)는, 제 2 예측 모드 후보군에 대하여 모드 별로, 화면 내 예측을 수행함으로써 제 2 예측 모드 후보군에 포함된 예측 모드 중에서 최적의 모드를 결정할 수 있다.

여기서, 화면 내 예측을 수행한다는 의미는 예측 유닛이 아니라 변환 유닛 단위로 수행될 수 있고, 또한, 변환 유닛의 깊이를 반드시 최대까지 수행하는 것이 아니라, 0 또는 1로 제한하여 수행할 수 있다. 또한, 최적의 모드를 결정하는 방법은, 앞에서 설명한 수학식 1 내지 2에 따른 율-왜곡 비용(J_RD)을 연산하여 수행할 수 있는데, 제 2 예측 모드 후보군에 포함된 각각의 화면 내 예측 모드에 대하여 화면 내 예측에 따른 율-왜곡 비용(J_RD)을 평가하여 가장 작은 값을 갖는 예측 모드를 최적의 모드로 선정할 수 있다.

수학식 1 내지 2의 방법은 앞에서 수학식 4 내지 5의 SATD를 이용하는 방법과는 달리, 역양자화, 역변환을 거쳐 복원한 블록과 원본 영상과의 차이를 이용하기 때문에 그 차이값의 합을 SSE(Sum of Squared Error)라고 지칭할 수도 있으며, 재구성된 샘플을 얻어 원본과의 오차를 비교적 정확하게 예측함으로써 최적의 예측 모드를 결정할 수 있다.

본 발명의 일실시예에서는 상기의 최적의 화면 내 예측 모드를 결정하는 과정에 있어서, 러프 모드 결정 과정에서 얻는 제 1 예측 모드 후보군을 줄이고 이전 프레임에 위치한 연관위치 부호화 유닛(Co-located Coding Unit)을 이용하여 예측 모드를 추가함으로써 화면 내 예측을 수행할 예측 모드의 갯수를 줄일 수 있다.

즉, 제 1 예측 모드 후보군은, 부호화 유닛이 속한 프레임보다 시간상으로 이전에 있는 프레임에 속하고 부호화 유닛과 동일한 위치에 있는 연동위치 부호화 유닛(Co-located Coding Unit)을 이용하여 얻은 화면 내 예측 모드를 추가하여 구성될 수 있다.

더 구체적으로 설명하면, 연동위치 부호화 유닛을 이용하여 얻은 예측 모드는, 연동위치 부호화 유닛에 속한 예측 유닛이 부호화된 화면 내 예측 모드일 수 있다.

이하에서 예를 들어 예측 모드 후보군을 구성하는 방법을 설명한다.

도 12은 본 발명의 일실시예에 따른 예측 모드 후보군을 구성하는 방법에 대한 예시도이다.

도 12를 참조하면, 러프 모드 결정(RMD)을 통하여 예측 모드 후보군을 구성하면 미리 설정된 개수의 예측 모드(예를 들면, 4×4 PU에 대해서는 8개, 8×8 PU에 대해서는 8개, 16×16 PU에 대해서 3개, 32×32 PU에 대해서 3개, 64×64 PU에 대해서 3개)와 각 예측 유닛(PU)에 대한 최적 가능 모드(MPM)를 포함하여 구성(111)될 수 있다.

이때, 일부 예측 유닛(4×4 PU, 8×8 PU)에 대해서는 기존의 예측 모드에 대하여 미리 설정된 개수를 줄이고, 후보군에서 연동위치 부호화 유닛에 속한 예측 유닛이 부호화된 화면 내 예측 모드를 대신 추가하여 예측 모드 후보군을 구성할 수 있다.

즉, 4×4 PU에 대하여 8개가 아닌 6개로 설정하고, 8×8 PU에 대해서도 8개가 아닌 6개로 설정하고, 여기에 각각의 예측 유닛(PU)에 대한 최적 가능 모드(MPM)를 더하며, 연동위치 부호화 유닛에 속한 예측 유닛이 부호화된 화면 내 예측 모드를 더하여 구성(112)할 수 있다.

이것은 예시적인 것으로서, 반드시 이에 따라야하는 것이 아니고, 유연하게 미리 설정된 개수를 조절하고 연동위치 부호화 유닛을 이용하여 예측 모드를 추가할 수 있다.

표 3은 본 발명의 실시예에 따른 실험 환경을 나타낸 것이다.

실험 환경에서는 Class A부터 Class E까지의 해상도에 따라 Traffic, Kimono 등 다양한 영상을 사용하였다. 또한, Class A에 속한 영상은 5초간, 나머지 다른 영상은 10초간 지속되는 영상 프레임을 사용하였으며, 양자화 파라미터(Quantization Parameter)로는 22, 27, 32, 37이 사용되었다. 또한, 이때 사용된 테스트 모델(Test Model)로는 HEVC reference model(HM) 10.0을 사용하였고 부호화 모드는 화면 내 예측만을 사용(All intra main)하는 조건에서 실험을 진행하였다.

표 4는 본 발명의 실시예에 따른 실험 결과를 나타낸 것이다.

즉, MPEG-H HEVC test model 10.0과 비교하여 본 발명의 실시예에 따른 방법을 모두 적용하였을 때와의 차이를 나타낸 값으로서, 인코딩 시간 감소(t)를 약 32%를 이루었고, 이에 비하여 비트 레이트(bitrate, BD-rate)에서는 0.2%의 손실을 보였다.

이상에서, 각 부호화 유닛 및 변환 유닛의 분할 형태를 결정하고 이를 이용한 부호화 방법을 설명하였고, 최적의 부호화 모드를 결정하는 방법을 설명하였다. 이때, 각각의 과정은 모두 독립하여 수행되는 것뿐만 아니라, 서로 병합하여 수행될 수 있다.

예를 들면, 부호화 유닛의 분할 형태를 결정하기 위하여 율-왜곡 비용을 산출하여야 하는데, 이러한 연산의 전제로서 변환 유닛의 분할이 수행되어야 할 수 있고, 따라서, 부호화 유닛의 분할 내에서 변환 유닛의 분할이 수행될 수 있다.

또한, 부호화 유닛의 분할 또는 변환 유닛의 분할 과정에서 수행되는 율-왜곡 비용을 계산하기 위해서는 화면 내 예측을 이용한 예측 블록을 생성하는 과정이 필요하고 화면 내 예측시 적용할 예측 모드를 선택해야 할 수 있는데, 모든 예측 모드를 적용하는 것뿐만 아니라, 도 10 내지 도 12에서 설명한 과정의 전부 또는 일부를 적용하여 선정된 예측 모드에 대해서만 적용할 수도 있다.

본 발명에 따르면, 그동안의 이미지와 비디오, 오디오 등 많은 멀티미디어 압축 및 복원 기술에서 요구되어 왔던 빠른 영상 처리를 할 수 있다. 이는 많은 데이터를 실시간으로 압축 및 복원 처리가 요구되는 현대기술에 적합할 수 있다. 또한, 본 기술로 인해 줄어드는 복호화 복잡도는 에너지 소모량을 적게 만들 것으로 기대된다. 이는 멀티미디어 압축 및 복원이 필요한 휴대용 장치에 휴대성을 증가시켜, 오랜 기간의 휴대장치 사용을 원하는 소비자들의 요구를 충족시켜 줄 수 있다.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

화면 내 예측을 이용한 영상 부호화 방법에 있어서,
분할할 부호화 유닛(Coding Unit)을 선정하는 단계;
시간 상관도에 기반하여 상기 부호화 유닛(Coding Unit)에 대한 조기 분할(Early split) 여부를 결정하는 단계; 및
조기 분할하는 것으로 결정되면, 상기 부호화 유닛에 대한 율-왜곡 비용(Rate-Distortion Cost)의 산출 없이 하부 부호화 유닛들로 분할하고, 상기 하부 부호화 유닛들을 상기 부호화 유닛으로 설정하여 상기 하부 부호화 유닛들 각각에 대하여, 상기 조기 분할 여부를 결정하는 단계를 새롭게 수행하는 단계를 포함하고,
상기 조기 분할 여부를 결정하는 단계는,
상기 부호화 유닛이 속한 프레임보다 시간상으로 이전에 있는 프레임 내에 속하고, 상기 부호화 유닛과 동일한 위치에 있는 연동위치 부호화 유닛(Co-located Coding Unit, Co-located CU)에 포함된 예측 유닛의 개수를 기초로 결정하는 영상 부호화 방법.
삭제
청구항 1에 있어서,
상기 조기 분할 여부를 결정하는 단계는,
상기 연동위치 부호화 유닛(Co-located CU)내에 포함된 4×4픽셀(Pixel) 예측 유닛(Prediction Unit, PU)의 개수가 미리 설정된 임계값(Threshold)보다 크면 조기 분할하는 것으로 결정하는 것을 특징으로 하는, 영상 부호화 방법.
청구항 3에 있어서,
상기 임계값은,
상기 부호화 유닛의 크기가 64×64픽셀(Pixel)이면 8, 상기 부호화 유닛의 크기가 32×32픽셀이면 4, 상기 부호화 유닛의 크기가 16×16픽셀이면 1인 것을 특징으로 하는, 영상 부호화 방법.
청구항 1에 있어서,
상기 조기 분할 여부를 결정하는 단계에서 조기 분할하지 않는 것으로 결정되는 경우,
상기 부호화 유닛에 대하여 각각의 화면 내 예측 모드에 대한 화면 내 예측을 수행하여 상기 율-왜곡 비용을 각각 산출하는 단계; 및
상기 산출된 율-왜곡 비용 중에서 가장 작은 율-왜곡 비용을 상기 부호화 유닛에 대한 율-왜곡 비용으로 결정하는 단계를 더 포함하는 것을 특징으로 하는, 영상 부호화 방법.
청구항 5에 있어서,
상기 부호화 유닛에 대한 율-왜곡 비용으로 결정하는 단계 이후에,
상기 부호화 유닛의 크기가 미리 정해진 최소 크기와 같은지 여부를 확인하는 단계; 및
상기 부호화 유닛의 크기가 미리 정해진 최소 크기보다 크면, 상기 연동위치 부호화 유닛을 이용하여 상기 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계를 더 포함하는 것을 특징으로 하는 영상 부호화 방법.
청구항 6에 있어서,
상기 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계는,
상기 부호화 유닛에 포함된 예측 유닛(Prediction Unit)의 크기가 32×32 픽셀(Pixel)이고, 상기 연동위치 부호화 유닛에 포함된 최소 예측 유닛(PU)의 크기가 16×16픽셀보다 크거나 같으면, 상기 부호화 유닛의 크기가 미리 설정된 최소 크기보다 크더라도 분할을 조기에 종료하는 것을 특징으로 하는, 영상 부호화 방법.
청구항 6에 있어서,
상기 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계는,
상기 부호화 유닛의 위치가 상기 부호화 유닛이 속한 프레임의 경계로부터 적어도 32 픽셀(Pixel)이상 떨어진 경우에 적용하는 것을 특징으로 하는, 영상 부호화 방법.
청구항 6에 있어서,
상기 미리 정해진 최소 크기와 같은지 여부를 확인하는 단계에서 상기 부호화 유닛의 크기가 미리 정해진 최소 크기로 확인되거나, 상기 부호화 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계에서 상기 부호화 유닛의 분할을 조기에 종료하는 것으로 결정하는 경우,
상기 결정된 율-왜곡 비용의 합이 최소화되도록, 상기 부호화 유닛을 선정하는 단계에서 최초로 선정되었던 부호화 유닛의 분할 구조를 결정하는 단계를 더 포함하는 것을 특징으로 하는, 영상 부호화 방법.
화면 내 예측을 이용한 영상 부호화 방법에 있어서,
부호화 유닛(Coding Unit, CU)에 속하고 분할할 변환 유닛(Transform Unit, TU)을 선정하는 단계;
시간 상관도에 기반하여 상기 변환 유닛에 대한 조기 분할(Early split) 여부를 결정하는 단계; 및
조기 분할하는 것으로 결정되면, 상기 변환 유닛에 대한 율-왜곡 비용(Rate-Distortion Cost)의 산출 없이 상기 변환 유닛을 하부 변환 유닛들로 분할하고, 상기 하부 변환 유닛들을 상기 변환 유닛으로 설정하여 상기 하부 변환 유닛들 각각에 대하여, 상기 조기 분할 여부를 결정하는 단계를 새롭게 수행하는 단계를 포함하고,
상기 조기 분할 여부를 결정하는 단계는,
상기 부호화 유닛이 속하는 프레임보다 시간상으로 이전에 있는 프레임내에 속하고, 상기 부호화 유닛과 동일한 위치에 있는 연동위치 부호화 유닛(Co-located Coding Unit, Co-located CU)에 포함된 변환 유닛에 기초하여 결정하는, 영상 부호화 방법.
삭제
청구항 10에 있어서,
상기 조기 분할 여부를 결정하는 단계는,
상기 연동위치 부호화 유닛에 미리 설정된 크기의 변환 유닛이 속하면, 조기 분할 하는 것으로 결정하는 것을 특징으로 하는, 영상 부호화 방법.
청구항 12에 있어서,
상기 미리 설정된 크기는, 상기 변환 유닛의 크기가 32×32픽셀(Pixel)일때, 8×8픽셀인 것을 특징으로 하는, 영상 부호화 방법.
청구항 12에 있어서,
상기 미리 설정된 크기는, 상기 변환 유닛의 크기가 16×16픽셀(Pixel)일때, 4×4픽셀인 것을 특징으로 하는, 영상 부호화 방법.
청구항 10에 있어서,
상기 조기 분할 여부를 결정하는 단계에서 조기 분할하지 않는 것으로 결정되는 경우,
상기 변환 유닛에 대하여 미리 결정된 화면 내 예측 모드에 따라 화면 내 예측을 수행하고 상기 율-왜곡 비용을 산출하는 단계를 더 포함하는 것을 특징으로 하는, 영상 부호화 방법.
청구항 15에 있어서,
상기 율-왜곡 비용을 산출하는 단계 이후에,
상기 변환 유닛의 크기가 미리 설정된 최소 크기인지 확인하는 단계; 및
상기 변환 유닛의 크기가 미리 설정된 최소 크기보다 크면, 상기 연동위치 부호화 유닛을 이용하여, 상기 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계를 더 포함하는 것을 특징으로 하는, 영상 부호화 방법.
청구항 16에 있어서,
상기 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계는,
상기 변환 유닛의 크기가 32×32픽셀(Pixel)이고, 상기 연동위치 부호화 유닛에 속한 최대 크기의 변환 유닛이 32×32픽셀인 경우 조기에 종료하는 것으로 결정하는 것을 특징으로 하는, 영상 부호화 방법.
청구항 16에 있어서,
상기 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계는,
상기 변환 유닛의 크기가 16×16픽셀(Pixel)이고, 상기 연동위치 부호화 유닛에 속한 최대 크기의 변환 유닛이 16×16픽셀인 경우 조기에 종료하는 것으로 결정하는 것을 특징으로 하는, 영상 부호화 방법.
청구항 16에 있어서,
상기 변환 유닛의 크기가 미리 설정된 최소 크기인지 확인하는 단계에서 상기 변환 유닛의 크기가 미리 정해진 최소 크기로 확인되거나, 상기 변환 유닛의 분할을 조기에 종료할지 여부를 결정하는 단계에서 상기 변환 유닛의 분할을 조기에 종료하는 것으로 결정하는 경우,
상기 변환 유닛을 선정하는 단계에서 최초로 선정되었던 변환 유닛에 대하여, 상기 산출된 율-왜곡 비용의 합이 최소화되도록 변환 유닛의 분할 구조를 결정하는 단계를 더 포함하는 것을 특징으로 하는, 영상 부호화 방법.
시간 상관도에 기반한 영상 부호화 방법에 있어서,
부호화할 부호화 유닛(Coding Unit)에 속하는 예측 유닛(Prediction Unit, PU)에 대하여, 러프 모드 결정(Rough Mode Decision, RMD)을 수행하여 상기 예측 유닛에 대하여 미리 설정된 개수의 제 1 예측 모드 후보군을 선정하는 단계;
상기 제 1 예측 모드 후보에, 최적 가능 모드(Most Probable Mode, MPM)를 추가하여 제 2 예측 모드 후보군을 선정하는 단계; 및
상기 예측 유닛에 대하여, 상기 제 2 예측 모드 후보군에 포함된 각각의 예측 모드에 따라 화면 내 예측을 수행하여 상기 예측 유닛에 대한 화면 내 예측 모드를 결정하는 단계를 포함하고,
상기 제 1 예측 모드 후보군은, 상기 부호화 유닛이 속한 프레임보다 시간상으로 이전에 있는 프레임에 속하고 상기 부호화 유닛과 동일한 위치에 있는 연동위치 부호화 유닛(Co-located Coding Unit)을 이용하여 얻은 예측 모드를 포함하는 것을 특징으로 하는, 영상 부호화 방법.
청구항 20에 있어서,
상기 연동위치 부호화 유닛을 이용하여 얻은 예측 모드는, 상기 연동위치 부호화 유닛에 속한 예측 유닛이 부호화된 화면 내 예측 모드인 것을 특징으로 하는, 영상 부호화 방법.