KR20200016885A - 영상을 부호화 또는 복호화하는 방법 및 장치 - Google Patents

영상을 부호화 또는 복호화하는 방법 및 장치 Download PDF

Info

Publication number
KR20200016885A
KR20200016885A KR1020197038236A KR20197038236A KR20200016885A KR 20200016885 A KR20200016885 A KR 20200016885A KR 1020197038236 A KR1020197038236 A KR 1020197038236A KR 20197038236 A KR20197038236 A KR 20197038236A KR 20200016885 A KR20200016885 A KR 20200016885A
Authority
KR
South Korea
Prior art keywords
coding unit
information
image
dnn
filter model
Prior art date
Application number
KR1020197038236A
Other languages
English (en)
Other versions
KR102553147B1 (ko
Inventor
박영오
김재환
이종석
전선영
박정훈
최광표
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20200016885A publication Critical patent/KR20200016885A/ko
Application granted granted Critical
Publication of KR102553147B1 publication Critical patent/KR102553147B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/65Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

학습된 DNN 필터 모델을 이용한 인루프 필터링 기술이 개시된다. 개시된 일 실시예에 따른 영상 복호화 방법은, 부호화된 영상의 비트스트림을 수신하는 단계, 상기 부호화된 영상을 복원한 복원 데이터를 생성하는 단계, 상기 비트스트림으로부터 상기 부호화된 영상의 컨텐츠 타입에 관한 정보를 획득하는 단계, 상기 컨텐츠 타입에 관한 정보에 기초하여, 하나 이상의 컴퓨터를 이용하여 인루프 필터링을 수행하도록 학습된 DNN(Deep Neural Network) 필터 모델을 결정하는 단계, 및 상기 복원 데이터를 상기 결정된 DNN 필터 모델에 적용하여 인루프 필터링을 수행하는 단계를 포함한다.

Description

영상을 부호화 또는 복호화하는 방법 및 장치
본 개시는 기계 학습 알고리즘을 활용하는 인공지능(AI)을 이용하여 영상을 처리하는 방법과 관련된다. 구체적으로, 본 개시는 영상의 부호화 및 복호화 과정에서 딥 뉴럴 네트워크(DNN)를 이용한 인루프 필터링 기술에 관한 것이다.
인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하며, 사용할수록 인식률이 향상되는 시스템이다
인공지능 기술은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(딥러닝) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다.
요소기술들은, 예로, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다.
특히, 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다.
다양한 실시예들에 따라 영상을 부호화/복호화하는 방법 및 장치를 제공한다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.
상기 기술적 과제를 해결하기 위한 일 실시예에 따른 영상 복호화 방법은, 부호화된 영상의 비트스트림을 수신하는 단계; 상기 부호화된 영상을 복원한 복원 데이터를 생성하는 단계; 상기 비트스트림으로부터 상기 부호화된 영상의 컨텐츠 타입에 관한 정보를 획득하는 단계; 상기 컨텐츠 타입에 관한 정보에 기초하여, 하나 이상의 컴퓨터를 이용하여 인루프 필터링을 수행하도록 학습된 DNN(Deep Neural Network) 필터 모델을 결정하는 단계; 및 상기 복원 데이터를 상기 결정된 DNN 필터 모델에 적용하여 인루프 필터링을 수행하는 단계를 포함한다.
또한, 일 실시예에 따른 영상 복호화 방법에서, 상기 인루프 필터링은 디블록킹 필터링(Deblocking Filtering), 샘플 적응적 오프셋(Sample Adaptive Offset) 및 적응적 루프 필터링(Adaptive Loop Filtering) 중 적어도 하나의 동작을 포함할 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에서, 상기 컨텐츠 타입에 관한 정보는, 상기 부호화된 영상의 픽셀 복잡도 및 움직임 정도를 나타내는 정보일 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에서, 상기 DNN 필터 모델은, 상기 DNN 필터 모델을 구성하는 복수의 네트워크 노드들 간의 연결 관계 및 상기 복수의 네트워크 노드들 각각의 가중치에 기반한 연산에 따라 상기 복원 데이터의 양자화 에러를 보상하도록 학습된 네트워크 모델일 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에서, 상기 DNN 필터 모델을 결정하는 단계는, 상기 컨텐츠 타입에 관한 정보에 기초하여, 복수의 DNN 필터 모델 후보 중에서 상기 부호화된 영상의 컨텐츠 타입에 대응하는 상기 DNN 필터 모델을 결정하는 단계를 포함할 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에서, 상기 복수의 DNN 필터 모델 후보의 각각은, 미리 설정된 컨텐츠 타입에 대해 인루프 필터링을 수행하도록 학습된 것일 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에서, 상기 DNN 필터 모델을 결정하는 단계는, 상기 복수의 DNN 필터 모델 후보 중에서 상기 부호화된 영상의 압축 강도에 대응하는 상기 DNN 필터 모델을 결정하는 단계를 더 포함할 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에서, 상기 인루프 필터링을 수행하는 단계는, 상기 복원 데이터 및 복원 픽처 버퍼에 저장된 하나 이상의 참조 영상을 상기 결정된 DNN 필터 모델에 적용하여 인루프 필터링을 수행하는 단계를 포함할 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에서, 상기 인루프 필터링은 CNN(Convolutional Neural Network) 학습 모델에 기반하여 수행될 수 있다.
일 실시예에 따른 영상 복호화 장치는, 부호화된 영상의 비트스트림을 수신하는 수신부; 및 상기 부호화된 영상을 복원한 복원 데이터를 생성하고, 상기 비트스트림으로부터 상기 부호화된 영상의 컨텐츠 타입에 관한 정보를 획득하고, 상기 컨텐츠 타입에 관한 정보에 기초하여, 하나 이상의 컴퓨터를 이용하여 인루프 필터링을 수행하도록 학습된 DNN(Deep Neural Network) 필터 모델을 결정하고, 상기 복원 데이터를 상기 결정된 DNN 필터 모델에 적용하여 인루프 필터링을 수행하는 복호화부를 포함한다.
일 실시예에 따른 영상 부호화 방법은, 입력 영상의 컨텐츠 타입을 판별하는 단계; 상기 컨텐츠 타입에 기초하여, 하나 이상의 컴퓨터를 이용하여 인루프 필터링을 수행하도록 학습된 DNN(Deep Neural Network) 필터 모델을 결정하는 단계; 부호화된 레지듀얼 데이터로부터 복원된 상기 입력 영상의 복원 데이터를, 상기 결정된 DNN 필터 모델에 적용하여 인루프 필터링된 데이터를 생성하는 단계; 상기 인루프 필터링된 데이터에 기초하여 상기 입력 영상을 예측한 예측 데이터를 생성하고, 상기 입력 영상 및 상기 예측 데이터를 이용하여 레지듀얼 데이터를 생성하는 단계; 상기 컨텐츠 타입에 관한 정보 및 상기 레지듀얼 데이터를 부호화한 비트스트림을 생성하는 단계; 및 상기 비트스트림을 전송하는 단계를 포함한다.
또한, 일 실시예에 따른 영상 부호화 방법에서, 상기 인루프 필터링은 디블록킹 필터링(Deblocking Filtering), 샘플 적응적 오프셋(Sample Adaptive Offset) 및 적응적 루프 필터링(Adaptive Loop Filtering) 중 적어도 하나의 동작을 포함할 수 있다.
또한, 일 실시예에 따른 영상 부호화 방법에서, 상기 컨텐츠 타입에 관한 정보는, 상기 입력 영상의 픽셀 복잡도 및 움직임 정도를 나타내는 정보일 수 있다.
또한, 일 실시예에 따른 영상 부호화 방법에서, 상기 DNN 필터 모델은, 상기 DNN 필터 모델을 구성하는 복수의 네트워크 노드들 간의 연결 관계 및 상기 복수의 네트워크 노드들 각각의 가중치에 기반한 연산에 따라 상기 복원된 데이터의 양자화 에러를 보상하도록 학습된 네트워크 모델일 수 있다.
또한, 일 실시예에 따른 영상 부호화 방법에서, 상기 DNN 필터 모델을 결정하는 단계는, 상기 컨텐츠 타입에 관한 정보에 기초하여, 복수의 DNN 필터 모델 후보 중에서 상기 부호화된 영상의 컨텐츠 타입에 대응하는 상기 DNN 필터 모델을 결정하는 단계를 포함할 수 있다.
학습된 DNN에 기반한 인루프 필터링을 수행함으로써, 부호화 및 복호화 성능이 향상될 수 있다.
도 1은 일 실시예에 따른 영상 부호화 장치(100)의 상세한 블록도를 도시한다.
도 2는 일 실시예에 따른 영상 복호화 장치(200)의 상세한 블록도를 도시한다.
도 3은 인루프 필터링부의 예시적인 블록 구성도를 나타낸 도면이다.
도 4는 일 실시예에 따른 인루프 필터링부의 블록 구성도를 나타낸 도면이다.
도 5는 DNN의 구조를 나타내는 도면이다.
도 6a 내지 6f는 다양한 CNN의 구조를 나타내는 도면이다.
도 7은 일 실시예에 따른 DNN 필터 모델 후보들을 나타내는 도면이다.
도 8은 일 실시예에 따라 하나 이상의 참조 영상을 이용하여 DNN 필터 모델에 기반한 인루프 필터링을 수행하는 방법을 나타내는 도면이다.
도 9는 일 실시예에 영상 부호화 장치(900)의 개략적인 블록도를 도시한다.
도 10은 일 실시예에 따른 영상 복호화 장치(1000)의 개략적인 블록도를 도시한다.
도 11은 일 실시예에 따른 DNN 필터 모델에 기반한 인루프 필터링 과정을 포함하는 영상 부호화 방법을 나타낸 플로우 차트이다.
도 12는 일 실시예에 따른 DNN 필터 모델에 기반한 인루프 필터링 과정을 포함하는 영상 복호화 방법을 나타낸 플로우 차트이다.
도 13은 일 실시예에 따라 현재 부호화 단위가 분할되어 적어도 하나의 부호화 단위가 결정되는 과정을 도시한다.
도 14는 일 실시예에 따라 비-정사각형의 형태인 부호화 단위가 분할되어 적어도 하나의 부호화 단위가 결정되는 과정을 도시한다.
도 15는 일 실시예에 따라 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 부호화 단위가 분할되는 과정을 도시한다.
도 16은 일 실시예에 따라 홀수개의 부호화 단위들 중 소정의 부호화 단위가 결정되는 방법을 도시한다.
도 17은 일 실시예에 따라 현재 부호화 단위가 분할되어 복수개의 부호화 단위들이 결정되는 경우, 복수개의 부호화 단위들이 처리되는 순서를 도시한다.
도 18은 일 실시예에 따라 소정의 순서로 부호화 단위가 처리될 수 없는 경우, 현재 부호화 단위가 홀수개의 부호화 단위로 분할되는 것으로 결정되는 과정을 도시한다.
도 19는 일 실시예에 따라 제1 부호화 단위가 분할되어 적어도 하나의 부호화 단위가 결정되는 과정을 도시한다.
도 20는 일 실시예에 따라 제1 부호화 단위가 분할되어 결정된 비-정사각형 형태의 제2 부호화 단위가 소정의 조건을 만족하는 경우, 제2 부호화 단위가 분할될 수 있는 형태가 제한되는 것을 도시한다.
도 21은 일 실시예에 따라 분할 형태 정보가 4개의 정사각형 형태의 부호화 단위로 분할하는 것을 나타낼 수 없는 경우, 정사각형 형태의 부호화 단위가 분할되는 과정을 도시한다.
도 22는 일 실시예에 따라 복수개의 부호화 단위들 간의 처리 순서가 부호화 단위의 분할 과정에 따라 달라질 수 있음을 도시한 것이다.
도 23은 일 실시예에 따라 부호화 단위가 재귀적으로 분할되어 복수개의 부호화 단위가 결정되는 경우, 부호화 단위의 형태 및 크기가 변함에 따라 부호화 단위의 심도가 결정되는 과정을 도시한다.
도 24는 일 실시예에 따라 부호화 단위들의 형태 및 크기에 따라 결정될 수 있는 심도 및 부호화 단위 구분을 위한 인덱스(part index, 이하 PID)를 도시한다.
도 25는 일 실시예에 따라 픽처에 포함되는 복수개의 소정의 데이터 단위에 따라 복수개의 부호화 단위들이 결정된 것을 도시한다.
도 26은 일 실시예에 따라 픽처에 포함되는 기준 부호화 단위의 결정 순서를 결정하는 기준이 되는 프로세싱 블록을 도시한다.
명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
아래에서는 첨부한 도면을 참고하여 일 실시예의 실시예에 대하여 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 일 실시예는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 일 실시예를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.
일 실시예에서 사용되는 용어는 일 실시예에서의 기능을 고려하면서 가능한 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 일 실시예에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 일 실시예의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 개시는, 기계 학습 알고리즘을 활용하는 인공지능(AI)을 이용하여 영상을 처리하는 방법과 관련된다. 구체적으로, 영상의 부호화 및 복호화 과정에서 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 이용하여 인루프 필터링을 수행하는 것과 관련된다.
이하, 도 1 내지 도 2를 참조하여 영상의 부호화 및 복호화와 관련된 전체적인 동작이 후술된다. 도 3 내지 도 12를 참조하여 인공지능을 적용한 인루프 필터링 방법이 후술된다. 도 13 내지 도 26을 참조하여 일 실시예에 따른 영상의 데이터 단위를 결정하는 방법이 후술된다.
도 1은 일 실시예에 따른 영상 부호화 장치(100)의 상세한 블록도를 도시한다.
일 실시예에 따른 영상 부호화 장치(100)는, 블록 결정부(110), 인터 예측부(115), 인트라 예측부(120), 복원 픽처 버퍼(125), 변환부(130), 양자화부(135), 역양자화부(140), 역변환부(145), 인루프 필터링부(150) 및 엔트로피 부호화부(155)를 포함한다.
일 실시예에 따른 블록 결정부(110)는 영상을 부호화하기 위한 블록의 최대 크기에 따라, 현재 영상의 데이터를 최대 부호화 단위로 분할할 수 있다. 각각의 최대 부호화 단위는 블록 형태 및 분할 형태별로 분할되는 블록(즉, 부호화 단위)들을 포함할 수 있다. 일 실시예에 따른 최대 부호화 단위는 최대 부호화 단위에 포함된 공간 영역(spatial domain)의 영상 데이터가 블록 형태 및 분할 형태에 따라 계층적으로 분류될 수 있다. 부호화 단위의 블록 형태는 정사각형 또는 직사각형일 수 있으며, 임의의 기하학적 형태일 수 있으므로, 일정한 크기의 데이터 단위로 제한되는 것은 아니다.
부호화되는 픽처의 크기가 커짐에 따라, 더 큰 단위로 영상을 부호화하면 더 높은 영상 압축률로 영상을 부호화할 수 있다. 그러나, 부호화 단위를 크게 하고, 그 크기를 고정시켜버리면, 계속해서 변하는 영상의 특성을 반영하여 효율적으로 영상을 부호화할 수 없다.
예를 들어, 바다 또는 하늘에 대한 평탄한 영역을 부호화할 때에는 부호화 단위를 크게 할수록 압축률이 향상될 수 있으나, 사람들 또는 빌딩에 대한 복잡한 영역을 부호화할 때에는 부호화 단위를 작게 할수록 압축률이 향상된다.
이를 위해 일 실시예에 따른 블록 결정부(110)는 픽처 또는 슬라이스마다 상이한 크기의 최대 부호화 단위를 설정하고, 최대 부호화 단위로부터 분할되는 하나 이상의 부호화 단위의 블록 형태 및 분할 형태를 설정한다. 블록 형태 및 분할 형태에 따라 최대 부호화 단위에 포함된 부호화 단위의 크기를 가변적으로 설정할 수 있게 된다.
하나 이상의 부호화 단위의 블록 형태 및 분할 형태는 R-D 코스트(Rate-Distortion Cost) 계산에 기초해 결정될 수 있다. 블록 형태 및 분할 형태는 픽처 또는 슬라이스마다 상이하게 결정되거나, 각각의 최대 부호화 단위마다 상이하게 결정될 수도 있다. 결정된 블록 형태 및 분할 형태는 부호화 단위별 영상 데이터와 함께 블록 결정부(110)로부터 출력된다.
일 실시예에 따라, 최대 부호화 단위로부터 분할되는 부호화 단위는 블록 형태 및 분할 형태로 특징지어질 수 있다. 블록 형태 및 분할 형태로 부호화 단위를 결정하는 구체적인 방식에 대해서는 도 13 내지 도 26을 통해 보다 상세히 후술하기로 한다.
일 실시예에 따라, 최대 부호화 단위에 포함된 부호화 단위들은 상이한 크기의 처리 단위에 기초해 예측 또는 변환(예를 들어, 픽셀 도메인의 값들을 주파수 도메인의 값들로 변환)될 수 있다. 다시 말해, 영상 부호화 장치(100)는 영상 부호화를 위한 복수의 처리 단계들을 다양한 크기 및 다양한 형태의 처리 단위에 기초해 수행할 수 있다. 영상 데이터의 부호화를 위해서는 예측, 변환, 엔트로피 부호화 등의 처리 단계를 거치는데, 모든 단계에 걸쳐서 동일한 크기의 처리 단위가 이용될 수도 있으며, 단계별로 상이한 크기의 처리 단위를 이용할 수 있다.
일 실시예에 따라, 부호화 단위의 예측 모드는 인트라 모드, 인터 모드 및 스킵 모드 중 적어도 하나일 수 있으며, 특정 예측 모드는 특정 크기 또는 형태의 부호화 단위에 대해서만 수행될 수 있다. 일 실시예에 따라, 각각의 부호화 단위에 대해 예측을 수행하여 부호화 오차가 가장 작은 예측 모드가 선택될 수 있다.
또한, 영상 부호화 장치(100)는 부호화 단위와 다른 크기의 처리 단위에 기초해 영상 데이터를 변환할 수 있다. 부호화 단위의 변환을 위해서 부호화 단위보다 작거나 같은 크기의 데이터 단위를 기반으로 변환이 수행될 수 있다.
일 실시예에 따라 영상 부호화 장치(100)는 부호화 단위의 부호화 오차를 라그랑지 곱(Lagrangian Multiplier) 기반의 율-왜곡 최적화 기법(Rate-Distortion Optimization)을 이용하여 측정할 수 있다.
일 실시예에 따라, 부호화 단위의 예측 모드는 인트라 모드, 인터 모드 및 스킵 모드 중 적어도 하나일 수 있으며, 특정 예측 모드는 특정 크기 또는 형태의 부호화 단위에 대해서만 수행될 수 있다. 일 실시예에 따라, 각각의 부호화 단위에 대해 예측을 수행하여 부호화 오차가 가장 작은 예측 모드가 선택될 수 있다.
인트라 예측부(120)는 입력 영상(105) 중 인트라 모드의 블록에 대해 인트라 예측을 수행하고, 인터 예측부(115)는 인터 모드의 블록에 대해 입력 영상(105) 및 복원 픽처 버퍼(125)에서 획득된 참조 픽처를 이용하여 인터 예측을 수행한다. 인트라 예측 또는 인터 예측을 수행할지 여부는 블록 단위 별로 결정될 수 있다. 영상 부호화 장치(100)는 예측 관련 정보(예를 들어, 부호화 단위 별 예측 모드)를 부호화할 수 있다.
입력 영상(105)의 블록에 대한 데이터와, 인트라 예측부(120) 또는 인터 예측부(115)로부터 출력된 각 블록에 대한 예측 데이터의 차이를 계산함으로써 레지듀얼 데이터가 생성된다. 레지듀얼 데이터는 변환부(130) 및 양자화부(135)를 거쳐 블록 별로 양자화된 변환 계수로 출력된다. 양자화된 변환 계수는 역양자화부(140), 역변환부(145)를 통해 공간 영역의 레지듀얼 데이터로 복원된다. 복원된 공간 영역의 레지듀얼 데이터는 인트라 예측부(120) 또는 인터 예측부(115)로부터 출력된 각 블록에 대한 예측 데이터와 더해짐으로써 입력 영상(105)의 블록에 대한 공간 영역의 데이터로 복원된다. 복원된 공간 영역의 데이터는 인루프 필터링부(150)를 거쳐 복원 영상으로 생성된다.
후술하겠지만, 일 실시예에 따른 인루프 필터링부(150)는 DNN 필터 모델에 기반한 인루프 필터링을 수행할 수 있다. 일 실시예에 따른 DNN 필터 모델에 기반한 인루프 필터링 동작은 디블록킹 필터링(Deblocking Filtering; DF), 샘플 적응적 오프셋(Sample Adaptive Offset; SAO) 및 적응적 루프 필터링(Adaptive Loop Filtering; ALF) 중 적어도 하나의 동작을 포함할 수 있다. 일 실시예에 따른 DNN 필터 모델에 기반한 인루프 필터링은 픽셀 또는 블록(예를 들어, 최대 부호화 단위 또는 부호화 단위) 단위로 수행될 수 있다.
생성된 복원 영상은 복원 픽처 버퍼(125)에 저장된다. 복원 픽처 버퍼(125)에 저장된 복원 픽처들은 다른 영상의 인터 예측을 위한 참조 픽처로 이용될 수 있다. 변환부(130) 및 양자화부(135)에서 양자화된 변환 계수는 엔트로피 부호화부(155)를 거쳐 비트스트림(160)으로 출력될 수 있다.
영상 부호화 장치(100)로부터 출력되는 비트스트림(160)에는 레지듀얼 데이터의 부호화 결과가 포함될 수 있다. 또한, 비트스트림(160)에는 블록 형태, 분할 형태, 변환 단위의 크기 정보 등을 나타내는 정보의 부호화 결과가 포함될 수도 있다.
도 2는 일 실시예에 따른 영상 복호화 장치(200)의 상세한 블록도를 도시한다.
일 실시예에 따른 영상 복호화 장치(200)는, 영상을 복호화하기 위한 동작들을 수행한다. 일 실시예에 따른 영상 복호화 장치(200)는 수신부(210), 블록 결정부(215), 엔트로피 복호화부(220), 역 양자화부(225), 역변환부(230), 인터 예측부(235), 인트라 예측부(240), 복원 픽처 버퍼(245) 및 인루프 필터링부(250)를 포함한다.
도 2의 수신부(210)는 부호화된 영상의 비트스트림(205)을 수신한다.
일 실시예에 따른 블록 결정부(215)는 영상을 복호화하기 위한 블록의 최대 크기에 따라, 현재 픽처의 영상 데이터를 최대 부호화 단위로 분할할 수 있다. 각각의 최대 부호화 단위는 블록 형태 및 분할 형태별로 분할되는 블록(즉, 부호화 단위)들을 포함할 수 있다. 일 실시예에 따른 블록 결정부(215)는 비트스트림(205)으로부터 분할 정보를 획득하여 공간 영역의 영상 데이터를 블록 형태 및 분할 형태에 따라 계층적으로 분할할 수 있다. 한편, 복호화에 이용되는 블록들이 일정한 형태 및 크기를 가질 경우, 블록 결정부(215)는 분할 정보를 이용하지 않고 영상 데이터를 분할할 수 있다. 일 실시예에 따른 블록 결정부(215)는 도 1의 블록 결정부(110)에 대응할 수 있다.
엔트로피 복호화부(220)는 비트스트림(205)으로부터 복호화 대상인 부호화된 영상 데이터 및 복호화를 위해 필요한 부호화 정보를 획득한다. 부호화된 영상 데이터는 양자화된 변환계수로서, 역양자화부(225) 및 역변환부(230)는 양자화된 변환 계수로부터 레지듀얼 데이터를 복원한다.
인트라 예측부(240)는 인트라 모드의 블록에 대해 인트라 예측을 수행한다. 인터 예측부(235)는 인터 모드의 블록에 대해 복원 픽처 버퍼(245)에서 획득된 참조 픽처를 이용하여 인터 예측을 수행한다. 인트라 예측 또는 인터 예측을 수행할지 여부는 블록 단위 별로 결정될 수 있다. 영상 복호화 장치(200)는 예측 관련 정보(예를 들어, 부호화 단위 별 예측 모드)를 비트스트림(205)으로부터 획득할 수 있다.
인트라 예측부(240) 또는 인터 예측부(235)를 거친 각 블록에 대한 예측 데이터와 레지듀얼 데이터가 더해짐으로써 블록에 대한 공간 영역의 데이터가 복원되고, 복원된 공간 영역의 데이터는 인루프 필터링부(250)를 거쳐 복원 영상으로 출력될 수 있다.
후술하겠지만, 일 실시예에 따른 인루프 필터링부(150)는 DNN 필터 모델에 기반한 인루프 필터링을 수행할 수 있다. 일 실시예에 따른 DNN 필터 모델에 기반한 인루프 필터링 동작은 디블록킹 필터링, SAO 및 ALF 중 적어도 하나의 동작을 포함할 수 있다. 일 실시예에 따른 DNN 필터 모델에 기반한 인루프 필터링은 픽셀 또는 블록(예를 들어, 최대 부호화 단위 또는 부호화 단위) 단위로 수행될 수 있다.
블록 단위의 영상 압축 기술은 양자화 에러로 인하여 복원 영상에 화질 열화가 발생하는 문제가 있다. 이를 해결하기 위하여 다양한 영상 압축 표준 기술들은 인루프 필터를 사용한다.
예를 들어, H.264/AVC 압축 표준에서의 인루프 필터링 기법은 블록화 현상(blocking artifact)을 제거하기 위한 디블록킹 필터링을 포함한다.
예를 들어, HEVC 표준에서의 인루프 필터링 기법은 디블록킹 필터링 뿐 아니라 양자화 등의 손실 압축에 의해 발생하는 정보의 손실을 보상하기 위한 SAO 를 추가로 포함한다. SAO는 복원 영상의 링잉(ringing) 현상을 제거하기 위한 기법이다. SAO는 화소(sample) 단위로 처리되며 통계적 분석을 통해 RDO(rate distortion optimization)를 수행하여 최적의 오프셋을 구하여 복원 화소에 보간을 수행하는 기술이다. HEVC 표준에서는 복원 영상에 대하여 먼저 디블록킹 필터링을 적용하고, 디블록킹 필터링이 완료된 복원 영상에 대하여 SAO를 수행한다. SAO 과정에서 에지 오프셋/밴드 오프셋을 복원 영상에 더해줌으로써 복원 영상과 원본 영상 간의 에러를 최소화할 수 있다.
예를 들어, 인루프 필터링 기법은 ALF를 포함할 수도 있다. ALF는 복원 영상에 위너 필터(Wiener filter)를 적용함으로써 원본 영상과 필터링된 복원 영상과의 오차를 줄일 수 있다.
상술한 인루프 필터링 기술은 주관적 화질을 향상시킬 뿐만 아니라 화면 간 예측 과정에서 참조 영상으로 사용되어 부호화 효율도 향상시킬 수 있다.
도 3은 인루프 필터링부의 예시적인 블록 구성도를 나타낸 도면이다.
도 3을 참조하면, 인루프 필터링부(300)는 디블록킹 필터링부(310), 샘플 적응적 오프셋부(320) 및 적응적 루프 필터링부(330)를 포함할 수 있다.
인루프 필터링부(300)는 HE(High Efficiency) 조건인 경우 디블록킹 필터링, SAO 및 ALF의 순서로 복원 영상에 대한 필터링을 수행하지만, LC(Low Complexity) 조건인 경우에는 ALF가 제외되어 디블록킹 필터링 및 SAO 순서로 필터링을 수행할 수 있다.
디블록킹 필터링부(310)는 블록(예를 들어, 부호화 단위, 예측 단위 또는 변환 단위)들 중 소정 크기 이상의 데이터 단위가 갖는 경계에 기초하여 필터링 경계를 결정할 수 있다. 예를 들어, 디블록킹 필터링부(310)는 32x32 이상의 크기를 갖는 블록들의 경계만을 디블록킹 필터링이 수행될 필터링 경계로 결정하거나, 16x16 이상의 크기를 갖는 블록들의 경계만을 디블록킹 필터링이 수행될 필터링 경계로 결정하거나, 8x8 이상의 크기를 갖는 블록들의 경계만을 디블록킹 필터링이 수행될 필터링 경계로 결정할 수 있다. 한편, 디블록킹 필터링부(310)는 소정 크기 이상의 데이터 단위가 갖는 경계라도 프레임 경계에 해당하는 경우에는 해당 경계를 필터링 경계로 결정하지 않는다. 즉, 픽처의 가장자리에 해당하는 최외곽의 경계에 대해서는 디블록킹 필터링이 수행되지 않는다.
디블록킹 필터링부(310)는 필터링 경계를 기준으로 인접한 픽셀들이 속하는 블록의 예측 모드 및 필터링 경계에 인접한 픽셀들의 변환 계수값들에 기초하여 필터링 경계에서의 필터링 강도를 결정한다.
디블록킹 필터링부(310)는 필터링 경계를 기준으로 인접한 픽셀들이 속하는 블록의 예측 모드가 인트라 모드인지 인터 모드인지 여부 및 필터링 경계에 인접한 픽셀의 변환 계수값들이 0이 아닌 값을 갖는지 여부에 따라 필터링 강도를 결정한다. 필터링 강도를 BS(Boundary Strength)라 할 때, BS는 0, 1, 2의 3단계로 구분될 수 있다. BS의 크기는 필터링 강도에 비례한다. 즉, BS=2인 경우가 가장 강한 디블록킹 필터링 강도를 의미하며, BS=0인 경우는 가장 약한 디블록킹 필터링 강도를 의미한다. BS=0인 경우는 디블록킹 필터링이 수행되지 않을 수 있다.
디블록킹 필터링부(310)는 결정된 필터링 강도 및 필터링 경계를 기준으로 인접한 소정 개수의 픽셀들의 픽셀 값 사이의 절대값 차이와 소정의 임계값의 비교 결과에 기초하여 필터링 경계에 대한 디블록킹 필터링 수행 여부를 결정할 수 있다. 구체적으로, 디블록킹 필터링부(310)는 필터링 경계와 인접하면서 필터링 경계를 기준으로 분리된 픽셀들의 픽셀 값 차이의 절대값 및 필터링 경계를 기준으로 동일 측면에 인접하여 위치한 픽셀들의 픽셀 값 차이의 절대값이 픽셀들이 속한 변환 단위의 양자화 파라미터에 따라 결정된 소정 임계값보다 작으면서, 필터링 강도가 가장 약한 필터링 강도가 아닌 경우에만 디블록킹 필터링을 수행하는 것으로 결정한다. 여기서, 임계값은 필터링 경계에 인접한 블록의 양자화시에 이용된 양자화 파라미터 QP(Quantization Parameter)에 기초하여 미리 정해진 값일 수 있다.
디블록킹 필터링이 수행되기로 결정된 경계에 대해서, 디블록킹 필터링부(310)는 필터링 강도 및 필터링 경계와 인접하면서 필터링 경계를 기준으로 분리된 픽셀들의 픽셀 값 차이의 절대값과 필터링 경계를 기준으로 동일 측면에 인접하여 위치한 픽셀들 픽셀 값의 차이의 절대값에 기초하여, 필터링 경계에 인접하여 필터링되는 픽셀들의 개수 및 필터 탭 계수를 결정한다. 또한, 디블록킹 필터링부(310)는 필터 탭 계수에 기초한 가중합을 통해 필터링되는 픽셀들의 픽셀 값을 변경함으로써 필터링을 수행한다.
디블록킹 필터링부(310)는 비트스트림으로부터 획득된 디블록킹 필터링에 대한 정보를 이용하여 디블록킹 필터링을 수행할 수 있다. 디블록킹 필터링에 대한 정보는, 트리 구조에 따른 데이터 단위가 갖는 경계들 중 디블록킹 필터링이 수행되는 데이터 단위를 결정하기 위한 데이터 단위 크기와 같은 필터링 경계 결정 정보를 포함할 수 있다.
이 같은 디블록킹 필터링에 대한 정보는 시퀀스 파라미터 세트(sequence parameter set), 픽쳐 파라미터 세트(picture parameter set), 비디오 파라미터 세트(video parameter set), 슬라이스 헤더(slice header), 슬라이스 세그먼트 헤더(slice segment header) 등을 통해 시그널링될 수 있다. 다만, 후술되는 일 실시예에 따른 인루프 필터링부(150, 250)는 디블록킹 필터링에 대한 정보의 시그널링 없이도 DNN 필터 모델에 기반한 인루프 필터링을 수행할 수 있다.
샘플 적응적 오프셋부(320)는 디블록킹 필터링된 복원 영상을 입력 받아, 영상 내의 각 블록(예를 들어, 최대 부호화 단위 또는 부호화 단위) 별로 원본 픽셀과 복원 픽셀 간의 오차를 최소화하기 위한 SAO를 적용한다. 이 때, 샘플 적응적 오프셋부(320)는 현재 블록의 픽셀 값 분류 방식에 따라 SAO 타입을 결정할 수 있다. SAO 타입은, 에지 타입 또는 밴드 타입으로 결정될 수 있다. 현재 블록의 픽셀 값 분류 방식에 따라, 현재 블록을 에지 타입에 따라 픽셀들을 분류할지, 아니면 밴드 형태에 따라 픽셀들을 분류하는 것이 적합한지 결정될 수 있다.
SAO 타입이 에지 타입인 경우, 현재 블록의 복원 픽셀들이 이웃 픽셀들과 형성하는 에지의 방향 및 모양에 따라, 복원 픽셀들과 원본 픽셀들 간의 오프셋이 결정될 수 있다.
SAO 타입이 밴드 타입인 경우, 현재 블록의 복원 픽셀들의 픽셀 값의 총 범위를 분할한 다수의 밴드들 중에서, 각 밴드들에 속하는 복원 픽셀들과 원본 픽셀들 간의 오프셋이 결정될 수 있다. 경우에 따라 밴드들은, 픽셀 값의 총 범위를 균등한 간격으로 분할하거나, 비균등한 간격으로 분할할 수도 있다.
샘플 적응적 오프셋부(320)는, 현재 블록의 픽셀 값들의 공간적 특성에 기초하여, 에지 타입 또는 밴드 타입인지를 나타내는 SAO 타입을 결정할 수 있다.
샘플 적응적 오프셋부(320)는, 현재 블록의 SAO 타입에 따라 복원 픽셀들마다 SAO 클래스를 결정할 수 있다. SAO 클래스는 에지 클래스 또는 밴드 클래스로 결정될 수 있다.
에지 타입의 경우, 에지 클래스는 복원 픽셀이 이웃 픽셀들과 형성하는 에지의 방향을 나타낼 수 있다. 에지 클래스는 0˚, 90˚, 45˚, 또는 135˚의 에지 방향을 나타낼 수 있다.
샘플 적응적 오프셋부(320)는 SAO 타입이 에지 타입인 경우, 현재 블록의 복원 픽셀들마다 에지 클래스를 결정할 수 있다.
밴드 타입의 경우, 밴드 클래스는 현재 블록의 픽셀 값의 총 범위가 소정 개수의 연속되는 픽셀 값 구간들로 분할될 때, 각 픽셀 값 구간을 밴드라 지칭하고, 복원 픽셀의 픽셀 값들이 속하는 밴드를 나타내는 밴드 위치를 나타낼 수 있다.
예를 들어, 픽셀 값이 8비트인 샘플인 경우에 픽셀 값의 총범위는 0 내지 255이며, 픽셀 값은 총 32개의 밴드들로 분할될 수 있다. 이 경우 총 32개의 밴드들 중에서 복원 픽셀들의 픽셀 값들이 속하는 소정 개수의 밴드들이 결정될 수 있다. 밴드 클래스는, 연속하는 소정 개수의 밴드들의 시작 위치(좌측 시작 지점)를 나타내고, 가장 앞서는 밴드의 위치는 0 내지 31의 밴드 인덱스로 표현될 수도 있다.
에지 타입의 경우, 현재 블록의 복원 픽셀들은 이웃 픽셀들과 형성하는 에지 형태에 따라 소정 개수의 카테고리들로 분류될 수 있다. 예를 들어, 오목 에지(concave)의 국부 최저점(local valley), 오목 에지의 곡선 코너(corner), 볼록 에지(convex)의 곡선 코너, 볼록 에지의 국부 최고점(local peak)의 4가지 에지 형태에 따라, 복원 픽셀들이 4개의 카테고리들로 분류될 수 있다. 현재 블록의 복원 픽셀들마다 어느 형태의 에지를 형성하느냐에 따라 4개의 카테고리들 중에 하나의 카테고리에 속한다고 결정될 수 있다.
밴드 타입의 경우, 현재 블록의 복원 픽셀들의 픽셀 값이 속하는 밴드위치에 따라 소정 개수의 카테고리들로 분류될 수 있다. 예를 들어, 밴드 클래스가 나타내는 시작 위치, 즉 가장 좌측 밴드의 시작 지점으로부터 연속하는 4개의 밴드들의 밴드 인덱스에 따라, 복원픽셀들이 4개의 카테고리들로 분류될 수 있다. 현재 블록의 복원 픽셀들마다, 4개의 밴드들 중에 어느 밴드에 속하느냐에 따라 4개의 카테고리들 중에 하나의 카테고리에 속한다고 결정될 수 있다.
샘플 적응적 오프셋부(320)는 현재 블록의 복원 픽셀들마다 카테고리를 결정할 수 있다. 샘플 적응적 오프셋부(320)는, 현재 블록에서 동일한 카테고리에 속하는 복원 픽셀들에 대해, 복원 픽셀과 원본 픽셀들 간의 차이 값들을 이용하여 오프셋 값을 결정할 수 있다. 각 카테고리마다, 복원 픽셀들과 원본 픽셀들 간의 차이 값들의 평균, 즉 복원 픽셀들의 평균 오차를, 현재 카테고리에 대응되는 오프셋 값으로 결정할 수 있다. 샘플 적응적 오프셋부(320)는, 카테고리들마다 오프셋 값을 결정하고, 현재 블록을 위한 오프셋 값으로서, 모든 카테고리의 오프셋 값들을 결정할 수 있다.
예를 들어, 현재 블록의 SAO 타입이 에지 타입이고 에지 형태에 따라 복원 픽셀들이 4개의 카테고리로 분류되거나, 또는 현재 블록의 SAO 타입이 밴드 타입이고 연속하는 4개의 밴드들의 인덱스에 따라 복원 픽셀들이 4개의 카테고리로 분류되는 경우에, 샘플 적응적 오프셋부(320)는 4개의 카테고리마다 속하는 복원 픽셀들과 원본 픽셀들 간의 평균 오차를 결정하므로 4개의 오프셋 값들을 결정할 수 있다.
오프셋 값들은 각각 미리 설정된 최소값보다 크거나 같고, 미리 설정된 최대값보다 작거나 같을 수 있다.
샘플 적응적 오프셋부(320)는 결정된 현재 블록의 SAO 타입, SAO 클래스 및 오프셋 값을 포함하는 SAO 파라미터를 시그널링할 수 있다. SAO 타입에는 오프(Off) 타입, 에지(Edge) 타입, 밴드(Band) 타입이 포함될 수 있다.
SAO 타입이 오프 타입인 경우, 현재 블록에 대해 SAO 가 적용되지 않음을 나타낼 수 있다. 이 경우, 현재 블록의 나머지 SAO 파라미터도 더 이상 시그널링될 필요가 없다.
SAO 타입이 에지 타입인 경우, SAO 파라미터는 에지 클래스들 중에서 각 에지 클래스마다 대응되는 오프셋 값들을 포함할 수 있다. 또한 SAO 타입이 밴드 타입인 경우, SAO 파라미터는 밴드들 중에서 각 밴드마다 대응되는 오프셋 값들을 포함할 수 있다.
상술한 SAO 파라미터는 시퀀스 파라미터 세트, 픽쳐 파라미터 세트, 비디오 파라미터 세트, 슬라이스 헤더, 슬라이스 세그먼트 헤더 등을 통해 시그널링될 수 있다. 예를 들어, SAO 파라미터 중 SAO 수행 여부를 나타내는 플래그는 시퀀스 파라미터 세트를 통해 시그널링되고, SAO 타입, 머지 플래그, SAO 클래스, 오프셋 값 등을 나타내는 정보는 샘플 적응적 오프셋 신택스를 통해 시그널링될 수 있다. 다만, 후술되는 일 실시예에 따른 인루프 필터링부(150, 250)는 SAO 파라미터의 시그널링 없이도 DNN 필터 모델에 기반한 인루프 필터링을 수행할 수 있다.
적응적 루프 필터링부(330)는 영상을 블록 단위로 나누어 각각의 블록에 대해 적응적 루프 필터링을 적용할 것인지 여부에 대한 정보 및 필터 계수에 대한 정보를 포함하는 적응적 루프 필터링에 대한 정보를 시그널링한다. 적응적 루프 필터링부(330)는 위너 필터(Wiener filter)를 기반으로 동작하며, 원본 영상과 복원 영상과의 오차를 최소화시키는 최적의 계수를 계산하여 최적 필터링을 수행한다.
필터 계수 정보는, 각각의 필터(예를 들어, 1차원 필터)에 대한 필터 계수에 대한 정보를 포함하며, 각 필터의 필터 계수의 정보는, 연속적인 필터 계수들 간의 차이 값에 관한 정보를 포함할 수 있다. 즉, 각각의 필터의 필터 계수의 잔차 성분이 부호화되어 시그널링될 수 있다.
적응적 루프 필터링에 대한 정보는 각 필터의 종류, 개수, 크기, 양자화 비트, 계수, 필터링 방향, 필터링 수행 여부 및 러닝 필터링 수행 여부 등을 포함할 수 있다. 필터 세트에 관한 정보는 픽처, 슬라이스, 시퀀스 등의 데이터 단위로 설정되어 있을 수 있다.
한편, 필터의 종류가 위너 필터인 경우, 필터 계수가 필터들간의 상호 상관 매트릭스에 의해 결정될 수 있으므로, 필터 계수 정보는 개별적인 계수 대신에 상호 상관 매트릭스에 관한 정보를 포함할 수 있다.
각 필터의 필터링 방향은, 소정 각도의 일직선 상에 위치한 픽셀들에 대한 필터링 방향으로 결정될 수 있다. 예를 들어, 수직(±90°), 수평(0°, 180°), 대각선(±45°, ±135°) 등 ±0~180°의 소정 각도의 필터링 방향에 따른 필터링이 수행될 수 있다.
적응적 루프 필터링부(330)는, 각각의 필터의 필터링 방향을 영상 데이터 중 로컬 영상 특성에 적응적이게 결정할 수 있다. 예를 들어, 적응적 루프 필터링부(330)는 영상 데이터 중 로컬 영상의 에지를 검출하여, 검출된 에지의 방향에 따른 필터링 방향을 따라 필터링이 수행되도록 필터를 결정할 수 있다.
적응적 루프 필터링부(330)는 이전 픽셀의 필터링의 결과가 현재 픽셀의 필터링에 영향을 주는 러닝 필터링(running filtering) 방식인지 여부도 결정할 수 있다. 러닝 필터링 방식에 따르는 필터링에 의하면, 이전 픽셀의 필터링 결과가 갱신되고, 이전 픽셀의 필터링된 데이터를 통해 현재 픽셀의 필터링이 수행될 수 있다.
적응적 루프 필터링에 대한 정보는 시퀀스 파라미터 세트, 픽쳐 파라미터 세트, 비디오 파라미터 세트, 슬라이스 헤더, 슬라이스 세그먼트 헤더 등을 통해 시그널링될 수 있다. 다만, 후술되는 일 실시예에 따른 인루프 필터링부(150, 250)는 적응적 루프 필터링에 대한 정보의 시그널링 없이도 DNN 필터 모델에 기반한 인루프 필터링을 수행할 수 있다.
한편, 샘플 적응적 오프셋부(320)는 원본 영상과 복원 영상 간의 오류를 직접 계산하여 보상한다는 개념에 있어서는 적응적 루프 필터링부(330)와 유사할 수 있으나, LC(Low Complexity) 조건에서는 적응적 루프 필터링부(330)가 사용되지 않으므로 샘플 적응적 오프셋부(320)는 적응적 루프 필터링부(330)의 역할을 대체하는 간략화된 기술로서 이해될 수도 있다.
도 4는 일 실시예에 따른 인루프 필터링부의 블록 구성도를 나타낸 도면이다.
도 4를 참조하면, DNN 필터 모델(400)이 도시된다. 일 실시예에 따른 DNN 필터 모델(400)은 복원 영상을 입력받아 필터링된 복원 영상을 출력한다. 일 실시예에 따른 DNN 필터 모델(400)은 도 1의 인루프 필터링부(150) 또는 도 2의 인루프 필터링부(250)에 대응할 수 있다.
일 실시예에 따른 DNN 필터 모델(400)은 DNN에 기반한 인루프 필터링을 수행한다. DNN 필터 모델(400)은, DNN 필터 모델(400)을 구성하는 복수의 네트워크 노드들 간의 연결 관계 및 복수의 네트워크 노드들 각각의 가중치에 기반한 연산에 따라 복원 영상의 양자화 에러를 보상하도록 학습된 네트워크 모델이다.
즉, DNN 필터 모델(400)은 일종의 학습 모델로서, 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있다. 예를 들어, DNN 필터 모델(400)은 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고 받는 시냅틱(synaptic) 활동을 모의하도록 각각 연결 관계를 형성할 수 있다.
DNN 필터 모델(400)은, 일 예로, 인공 지능 신경망 모델, 또는 신경망 모델에서 발전한 딥 러닝 네트워크 모델을 포함할 수 있다.이하에서는, 뉴럴 네트워크(Neural Network)의 아키텍처에 관해 간략히 설명하기로 한다.
뉴럴 네트워크는 생물학적 뇌를 모델링한 컴퓨터 과학적 아키텍쳐(Computational Architecture)를 참조한다. 뉴럴 네트워크는 연결선으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 인식 모델이다. 노드(node)로서 지칭되는 인공 뉴런들은 서로 연결되어 있고, 입력 데이터를 처리하기 위하여 집합적으로 동작한다.
뉴럴 네트워크는 입력 레이어(input layer), 히든 레이어(hidden layer), 출력 레이어(output layer)를 포함할 수 있다. 입력 레이어는 학습을 수행하기 위한 입력을 수신하여 히든 레이어에 전달할 수 있고, 출력 레이어는 히든 레이어의 노드들로부터 수신한 신호에 기초하여 뉴럴 네트워크의 출력을 생성할 수 있다. 히든 레이어는 입력 레이어와 출력 레이어 사이에 위치하고, 입력 레이어를 통해 전달된 학습 데이터를 예측하기 쉬운 값으로 변화시킬 수 있다. 입력 레이어와 히든 레이어에 포함된 노드들은 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있다. 또한, 히든 레이어와 출력 레이어에 포함된 노드들도 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있다. 입력 레이어, 히든 레이어 및 출력 레이어는 복수 개의 노드들을 포함할 수 있다.
뉴럴 네트워크는 복수 개의 히든 레이어를 포함할 수 있다. 복수 개의 히든 레이어를 포함하는 뉴럴 네트워크를 딥 뉴럴 네트워크(Deep Neural Network; DNN)라고 하고, DNN을 학습시키는 것을 딥 러닝(Deep Learning)이라고 한다. 히든 레이어에 포함된 노드는 히든 노드(hidden node)라고 한다.
DNN은 복수의 히든 레이어를 포함하는 다층 퍼셉트론(multilayer perceptrons) 구조를 갖는다. 퍼셉트론이란 각 뉴런의 수학적 모델 y=Wx+b 을 일컫는 용어로서, 이러한 다층 퍼셉트론은 역전파 알고리즘(backpropagation algorithm)을 통한 학습을 통해 예측의 정확도를 높일 수 있다. DNN이 역전파 알고리즘을 통해 학습을 하는 방법은 입력 레이어에서 시작하여 출력 레이어를 통해 y 값을 얻었을 때 라벨 값(예를 들어, 정답을 나타내는 데이터 또는 원 데이터와의 오차가 가장 적은 데이터)과 비교하여 오답일 경우 다시 출력 레이어에서 입력 레이어 방향으로 값을 전달하며 계산된 코스트에 따라 각 W와 b 값을 업데이트 하는 방식이다. DNN 구조에 대한 상세한 설명은 도 5를 통해 후술하기로 한다.
이처럼, DNN에 특정 입/출력 데이터 셋을 제공하여 학습을 시키면, 제공된 입/출력 데이터 셋의 데이터 패턴을 고차원으로 학습하여 원본 데이터에 가장 유사한 필터링된 영상을 추론하는 모델을 생성하게 된다.
일 실시예에 따른 인루프 필터링부(150, 250)의 입력 데이터 셋은 부호화된 영상을 복원한 복원 데이터일 수 있다.
일 실시예에 따른 인루프 필터링부(150, 250)의 출력 데이터 셋은 원본 데이터와 필터링된 복원 데이터 사이의 오차(예를 들어, 양자화 등의 손실 압축에 의해 발생하는 에러)를 최소화한 데이터일 수 있다. 이 때, 출력 데이터 셋은 도 3을 참조하여 설명한 디블록킹 필터링, SAO 및 ALF 중 적어도 하나의 필터링 방식을 이용함으로써 제공받을 수 있다. 한편, 원본 데이터와 필터링된 복원 데이터 사이의 오차는 R-D 코스트에 기초하여 측정될 수 있다.
이처럼, 원본 데이터와 필터링된 복원 데이터 사이의 오차를 최소화한 데이터를 생성하도록 학습된 DNN 필터 모델에 기반하여 인루프 필터링을 수행할 경우, 도 3을 통해 전술한 디블록킹 필터링에 대한 정보, SAO 파라미터 및 적응적 루프 필터링에 대한 정보의 시그널링이 불필요하다. 학습된 DNN 필터 모델은 입력 패턴을 분석하여 그 특징을 찾아내어 최적의 필터링을 수행할 수 있는 일반화 능력을 갖기 때문이다. 일 실시예에 따른 DNN 필터 모델에 기반한 인루프 필터링은, 인루프 필터링된 복원 데이터와 원(original) 데이터 사이의 오차를 최소화하도록 학습된 DNN을 이용한다.
일 실시예에 따른 DNN 필터 모델(400)은 필터 정보를 시그널링할 수 있다. 예를 들어, 영상 복호화 장치(200)는 영상 부호화 장치(100)로부터 획득한 필터 정보에 기초하여 필터링을 수행하고자 하는 영상에 적합한 DNN 필터 모델을 선택하여 이를 적용할 수 있다.
일 실시예에 따른 필터 정보는 부호화된 영상의 에러 특성에 관한 정보를 포함할 수 있다. 또한, 에러 특성에 관한 정보는 영상의 컨텐츠 타입 및 양자화 파라미터에 대한 정보 중 적어도 하나를 포함할 수 있다. 일 실시예에 따른 컨텐츠 타입은 소정 기준에 따라 분류된 카테고리를 나타낼 수 있다. 예를 들어, 컨텐츠 타입은 영상의 에러 특성에 따라, 컴퓨터 그래픽, 일반 영상, 모션 블러, 텍스쳐 등을 포함할 수 있다. 일 실시예에 따른 컨텐츠 타입은, 영상의 픽셀 복잡도 및 움직임 정도 중 적어도 하나의 지표에 기초하여 영상 부호화 장치(100)에 의해 결정될 수 있다.
일 실시예에 따른 DNN 필터 모델(400)은 필터 정보를 이용하여 DNN 필터 모델 후보들 중 하나의 DNN 필터 모델을 결정할 수 있다. 이 때, DNN 필터 모델 후보는 컨텐츠 타입 별 및/또는 압축 강도(또는, 양자화 파라미터) 별로 미리 설정되어 있을 수 있다. 예를 들어, 컨텐츠 타입 별 및/또는 압축 강도 별 DNN 필터 모델 후보는 정해진 규칙에 의해 영상 복호화 장치(200)에 미리 설정되어 있을 수 있다.
DNN 필터 모델 후보들 및 DNN 필터 모델의 결정에 관해서는 도 7을 통해 상세히 후술하기로 한다.
한편, DNN 필터 모델(400)은, 소프트웨어 모듈로 구현될 수도 있다. 소프트웨어 모듈(예를 들어, 명령어(instruction)를 포함하는 프로그램 모듈)로 구현되는 경우, DNN 필터 모델(400)은 컴퓨터로 읽을 수 있는 판독 가능한 기록매체에 저장될 수 있다.
또한, DNN 필터 모델(400)은 하드웨어 칩 형태로 집적되어 전술한 영상 부호화 장치(100) 또는 영상 복호화 장치(200)의 일부가 될 수도 있다. 예를 들어, DNN 필터 모델(400)은 인공 지능을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 제작될 수도 있다.
또한, DNN 필터 모델(400)은 다운로드 가능한 소프트웨어 형태로 제공될 수도 있다. 컴퓨터 프로그램 제품은 영상 부호화 장치(100) 또는 영상 복호화 장치(200)의 제조사 또는 전자 마켓을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사 또는 전자 마켓의 서버, 또는 중계 서버의 저장매체가 될 수 있다.
도 5는 DNN의 구조를 나타내는 도면이다.
도 5를 참조하면, 복원 데이터(510), DNN(520) 및 인루프 필터링된 복원 데이터(530)가 도시된다.
복원 데이터(510)는 학습 데이터로서 DNN(520)의 입력 레이어로 입력될 수 있다. DNN(520)의 입력 레이어를 통해 전달된 데이터는 히든 레이어에서 예측하기 쉬운 값으로 변화될 수 있다. 히든 레이어는, 입력 레이어와 출력 레이어 사이에서 연결 가중치를 갖는 연결선을 통해 연결된다. DNN(520)의 출력 레이어는 히든 레이어의 노드들로부터 수신한 신호에 기초하여 출력, 즉, 인루프 필터링된 복원 데이터(530)를 생성할 수 있다. 입력 레이어, 히든 레이어 및 출력 레이어는 복수 개의 노드들을 포함하는데, DNN(520)은 이 같은 복수 개의 노드들 사이의 알고리즘을 통해 복원 데이터(510)와 인루프 필터링된 복원 데이터(530) 사이의 사상(mapping)을 생성해낼 수 있다. DNN(520)에 대해서 원본 데이터와의 오차가 가장 적은 인루프 필터링된 복원 데이터(530)를 출력하도록 학습시킬 경우, DNN(520)은 학습에 이용되지 않았던 입력 패턴에 대해 비교적 올바른 출력을 생성할 수 있는 일반화 능력을 가지게 된다.
일 실시예에 따른 DNN(520)은 컨볼루션 풀링 레이어, 히든 레이어 및 완전 연결 레이어를 포함하는 레이어들의 세트로 구현될 수 있다. 예를 들어, DNN(520)의 전체적인 구조는 컨볼루션 풀링 레이어에 히든 레이어가 이어지고, 히든 레이어에 완전 연결 레이어가 이어지는 형태로 이루어질 수 있다.
일 실시예에 따라, DNN(520)은 콘볼루션 레이어(Convolution Layer)를 포함하는 CNN과 같은 형태의 네트워크로 구현될 수 있다.
CNN은 영상분석에 적합한 구조로서, 주어진 영상 데이터들로부터 가장 분별력(Discriminative Power)이 큰 특징을 스스로 학습하는 특징 추출 레이어(feature extraction Layer)와 추출된 특징을 기반으로 가장 높은 예측 성능을 내도록 예측 모델을 학습하는 예측 레이어(prediction layer)가 통합된 구조로 구성될 수 있다.
특징 추출 레이어는 영상의 각 영역에 대해 복수의 필터를 적용하여 특징 맵(feature map)를 만들어 내는 콘볼루션 레이어(Convolution Layer)와 특징 맵을 공간적으로 통합함으로써 위치나 회전의 변화에 불변하는 특징을 추출할 수 있도록 하는 통합 레이어(Pooling Layer)를 번갈아 수 차례 반복하는 구조로 형성될 수 있다. 이를 통해, 점, 선, 면 등의 낮은 수준의 특징에서부터 복잡하고 의미 있는 높은 수준의 특징까지 다양한 수준의 특징을 추출해낼 수 있다.
콘볼루션 레이어는 입력 영상의 각 패치에 대하여 필터와 국지 수용장(Local Receptive Field)의 내적에 비선형 활성 함수(Activation Function)을 취함으로서 특징 맵을 구하게 되는데, 다른 네트워크 구조와 비교하여, CNN은 희소한 연결성 (Sparse Connectivity)과 공유된 가중치(Shared Weights)를 가진 필터를 사용하는 특징이 있다. 이러한 연결구조는 학습할 모수의 개수를 줄여주고, 역전파 알고리즘을 통한 학습을 효율적으로 만들어 결과적으로 예측 성능을 향상시킨다.
통합 레이어(Pooling Layer) 또는 서브-샘플링 레이어(Sub-sampling Layer)는 이전 콘볼루션 레이어에서 구해진 특징 맵의 지역 정보를 활용하여 새로운 특징 맵을 생성한다. 일반적으로 통합 레이어에 의해 새로 생성된 특징 맵은 원래의 특징 맵보다 작은 크기로 줄어드는데, 대표적인 통합 방법으로는 특징 맵 내 해당 영역의 최대값을 선택하는 최대 통합(Max Pooling)과 특징 맵 내 해당 영역의 평균값을 구하는 평균 통합(Average Pooling) 등이 있다. 통합 레이어의 특징 맵은 일반적으로 이전 레이어의 특징 맵보다 입력 영상에 존재하는 임의의 구조나 패턴의 위치에 영향을 적게 받을 수 있다. 즉, 통합 레이어는 입력 영상 혹은 이전 특징 맵에서의 노이즈나 왜곡과 같은 지역적 변화에 보다 강인한 특징을 추출할 수 있게 되고, 이러한 특징은 분류 성능에 중요한 역할을 할 수 있다. 또 다른 통합 레이어의 역할은, 깊은 구조상에서 상위의 학습 층으로 올라갈수록 더 넓은 영역의 특징을 반영할 수 있게 하는 것으로서, 특징 추출 레이어가 쌓이면서, 하위 레이어에서는 지역적인 특징을 반영하고 상위 레이어로 올라 갈수록 보다 추상적인 전체 영상의 특징을 반영하는 특징 맵을 생성할 수 있다.
이와 같이, 콘볼루션 레이어와 통합 레이어의 반복을 통해 최종적으로 추출된 특징은 다중 신경망(MLP: Multi-layer Perception)이나 서포트 벡터 머신(SVM: Support Vector Machine)과 같은 분류 모델이 완전 연결 레이어(Fully connected Layer)의 형태로 결합되어 분류 모델 학습 및 예측에 사용될 수 있다.
한편, DNN은 다양한 네트워크 형태로 구현될 수 있다. 다양한 종류의 DNN을 예로 들면, 컨볼루션 뉴럴 네트워크(Convolutional Neural Network; CNN), 회귀 뉴럴 네트워크(Recurrent Neural Network; RNN), 딥 빌리프 네트워크(Deep Belief Network; DBN), 제한된 볼츠만 기계(Restricted Boltzman Machine; RBM) 방식 등이 있으나, 이에 제한되지 않는다.
도 6a 내지 6f는 다양한 CNN의 구조를 나타내는 도면이다.
도 6a를 참조하면, 일 실시예에 따른 기본 CNN의 구조가 도시된다.
도 6a를 참조하면, CNN(620)의 입력 레이어를 통해 입력 데이터(610)가 입력되고 CNN(620)의 출력 레이어를 통해 출력 데이터(630)가 출력된다.
일 실시예에 따른 입력 데이터(610)는 복원 데이터이고, 출력 데이터(630)는 인루프 필터링된 복원 데이터일 수 있다.
CNN(620)의 입력 레이어와 출력 레이어 사이에는 다수의 히든 레이어가 포함될 수 있다. 히든 레이어를 이루는 각 레이어는 컨볼루션 레이어 및 서브 샘플링 레이어를 포함할 수 있다. 컨볼루션 레이어는 컨볼루션 필터를 이용하여 각 레이어에 입력된 영상 데이터에 컨볼루션 연산을 수행하고, 특징 맵을 생성한다. 이때, 특징 맵은 입력 데이터(610)의 다양한 특징이 표현된 영상 데이터를 의미한다. 서브 샘플링 레이어는 샘플링 또는 풀링(pooling)을 통해 특징 맵의 크기를 감소시킨다. CNN(620)의 출력 레이어는 특징 맵에 표현된 다양한 특징을 조합하여 영상 데이터의 클래스(class)를 분류한다. 이때, 출력 레이어는 완전 연결 레이어로 구성될 수 있다.
일 실시예에 따른 CNN의 구조(예컨대, 히든 레이어의 수, 각 레이어에서의 필터의 수와 크기 등)는 미리 결정되며, 각 레이어에서의 필터(특히, 컨볼루션 필터)의 가중치 매트릭스(weight matrix)는 이미 어느 클래스에 속할지 정답이 알려진 데이터들을 이용하여 적절한 값으로 산정된다. 이와 같이 이미 정답이 알려진 데이터들은 '학습 데이터'로서 사용된다. 이 때, 필터의 가중치 매트릭스를 결정하는 과정은 곧 '학습'을 의미한다.
예를 들어, CNN(620)의 구조에서, 각 레이어 당 필터의 개수는 64개일 수 있으며, 각 필터의 크기는 3x3일 수 있다. 또한, 예를 들어, CNN(620)의 구조에서 총 레이어의 개수는 10개로 이루어질 수 있다. 그러나, 상술한 실시예는 단지 예시를 위한 것에 불과하며, 히든 레이어의 수, 각 레이어에서의 필터의 수와 크기 등은 다양한 형태에 따라 변경 실시될 수 있다.
도 6b를 참조하면, 다른 실시예에 따른 CNN의 구조가 도시된다.
도 6b의 CNN(640)은 복수개의 평행(parallel)한 레이어들로 구성된 네트워크일 수 있다. 즉, 복수개의 컨볼루션 레이어와 풀링 레이어가 나란히 배열될 수 있다. CNN(640)에서 이전 레이어로부터 출력된 결과는 분리된 복수개의 평행 레이어들에 입력될 수 있다. 분리된 복수개의 평행 레이어들은 각각 상이한 필터를 적용할 수 있다. 예를 들어, 분리된 복수개의 평행 레이어들은 1x1 컨볼루션으로 차원을 줄인 후 3x3, 5x5 등의 컨볼루션을 적용할 수 있다. 다른 레이어에서는 3x3 맥스 풀링을 수행한 후 컨볼루션을 적용할 수도 있다. 1x1 컨볼루션만을 적용하는 레이어는 초기 정보를 유지하는 아이덴티티 루프로서의 기능을 할 수 있다. 컨볼루션을 수행한 복수개의 평행 레이어들은 최종적으로 병합(concatenation)되어 현재 레이어의 계산 결과로서 출력될 수 있다. CNN(640)에 따르면 레이어가 항상 순차적으로 스택(stack)될 필요가 없다. CNN(640)의 구조는 비순차적으로 최적화된 구조의 네트워크가 순차적인 구조의 네트워크보다 오류가 적을 수 있다는 점에 기반한다.
도 6c를 참조하면, 다른 실시예에 따른 CNN의 구조가 도시된다.
도 6c의 CNN(650)은 스킵 레이어(skip layer)의 개념을 사용한 네트워크이다. CNN(650)은 과거 레이어의 입력이 현재 레이어의 출력과 더해지는 구조를 갖는다. CNN(650)에서 과거 레이어와 현재 레이어의 출력이 더해진 결과는 다음 레이어의 입력이 될 수 있다. 일반적인 CNN 구조에서는 다수의 레이어에서 컨볼루션과 풀링 과정을 거치면서 결과값의 크기가 지나치게 작아질 수 있다. 이 경우, 결과값의 정교한(detail) 정보가 사라질 수 있다. CNN(650)은 컨볼루션과 풀링 과정에서 과거의 결과를 재활용함으로써 정교한 부분을 보강할 수 있는 효과가 있다.
도 6d를 참조하면, 다른 실시예에 따른 CNN의 구조가 도시된다.
도 6d의 CNN(660)은 도 6c의 CNN(650)과 마찬가지로 스킵 레이어의 개념을 사용한 네트워크이다. 다만, CNN(660)은 과거의 결과가 임의 위치의 레이어의 입력으로 더해질 수 있다는 점에서 CNN(650)에 비해 레이어들 사이의 관계가 조밀(dense)한 특징을 갖는다. 더 나아가, CNN(660)은 과거 레이어가 컨볼루션 연산을 통해 계산한 결과를 임의 위치의 레이어의 입력 자체로 사용할 수도 있다.
도 6e를 참조하면, 다른 실시예에 따른 CNN의 구조가 도시된다.
도 6e의 CNN(670)은 다층 해상도(multi-resolution)의 피라미드(pyramid) 구조를 사용한 네트워크이다. CNN(670)은 직전의 컨볼루션 레이어의 결과를 여러 단계의 피라미드로 나눌 수 있다. 예를 들어, 1단계에서는 해상도가 스케일링되지 않고, 2단계에는 해상도가 1/2 x 1/2로 스케일링되고, 3단계에서는 해상도가 1/4 x 1/4로 스케일링될 수 있다. 이렇게 얻어진 여러 단계의 결과는 병합(concatenation)되어 완전 연결 레이어(fully connected layer)의 입력으로 사용될 수 있다. 컨볼루션 레이어는 영상의 크기에 영향을 받지 않지만, 완전 연결 레이어(fully connected layer)는 입력 영상의 크기에 제한을 받기 때문에 일반적인 네트워크에서는 입력 영상의 크기가 고정이 될 수 밖에 없었다. 그러나, CNN(670)과 같이 여러 단계의 피라미드 레벨에서 출력되는 특징들을 완전 연결 레이어의 입력으로 사용하고, 피라미드의 출력을 영상의 크기에 관계 없이 사전에 미리 정하면 더 이상 영상의 크기에 제한을 받지 않을 수 있다.
도 6f를 참조하면, 다른 실시예에 따른 CNN의 구조가 도시된다.
도 6f의 CNN(680)은 비선형 함수(ReLu) 이전 또는 이후에 배치 정규화(batch normalization)을 수행하는 구조를 갖는 네트워크이다. 배치 정규화 레이어는 히든 레이어의 앞 단에 위치하며 입력들의 분포를 조절하는 역할을 한다. 또한, 배치 정규화 레이어는 네트워크 내에 흡수된 레이어이므로 역전파(back-propagation)를 통해 관련 변수(스케일, 시프트)를 최적화할 수 있다. 입력의 분포를 개선하는 방식은 각 레이어로 입력되는 데이터에 대하여 평균을 0, 분산을 1로 정규화를 하고, 스케일 변수(γ)를 곱하고, 시프트 변수(β)만큼 더해주는 방식일 수 있다. 이 때, 스케일과 시프트 변수는 학습을 통해 결정될 수 있다. CNN(680)은 컨볼루션 결과를 정규화함으로써 그래디언트 배니싱(gradient vanishing) 또는 그래디언트 익스플로딩(gradient exploding)과 같은 문제점을 방지할 수 있다. 또한, 배치 정규화를 통해 학습 시간이 단축될 수 있으며, 학습의 정확도 개선될 수 있다.
개시된 실시예에서는, 도 6a 내지 6f를 통해 상술한 다양한 구조의 CNN이 적용될 수 있음은 물론이며, 이들의 가능한 조합들 또는 기 공지된 학습 네트워크와의 조합도 적용될 수 있다. 따라서, 상술한 다양한 구조의 CNN은 단지 설명의 편의를 위한 예시에 불과하며, 본 실시예에서는 다양한 방식의 변경된 구조를 갖는 CNN이 사용될 수 있음에 유의하여야 한다.
도 4를 통해 전술한 바와 같이, DNN 필터 모델(400)의 DNN은 영상의 컨텐츠 타입 및 양자화 파라미터 별로 학습될 수 있다. 이하에서는, 컨텐츠 타입 및 양자화 파라미터 별로 학습된 DNN을 활용하는 방법에 대해 설명하기로 한다.
도 7은 일 실시예에 따른 DNN 필터 모델 후보들을 나타내는 도면이다.
도 7을 참조하면, DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736)이 도시된다.
일 실시예에 따른 DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736)은 컨텐츠 타입(710, 720, 730) 별로 분류될 수 있다. 예를 들어, DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736)의 각각은, 미리 설정된 컨텐츠 타입에 대해 인루프 필터링을 수행하도록 학습된 것일 수 있다. 인루프 필터링의 종류, 필터링의 강도 등은 영상의 에러 특성에 따라 달라질 수 있다. 이 때, 영상의 에러 특성은 해당 영상의 컨텐츠가 어떤 타입(예를 들어, 컴퓨터 그래픽, 일반영상, 모션블러, 텍스쳐 등)인지 여부에 따라 상이할 수 있다. 부호화에 따른 압축률 및 주관적 화질 열화의 정도는 컨텐츠 타입(710, 720, 730)에 따라 상이할 수 있기 때문이다.
일반적으로, 컨텐츠 타입이 컴퓨터 그래픽, 일반 영상, 모션블러, 텍스쳐인 경우의 순으로 압축이 어려울 수 있다. 따라서, 컴퓨터 그래픽을 처리하기 위한 DNN 필터 모델의 네트워크 구조가 가장 단순하고, 텍스쳐를 처리하기 위한 DNN 필터 모델의 네트워크 구조가 가장 복잡할 수 있다. DNN 필터 모델의 네트워크 구조가 복잡해진다는 것은 네트워크를 구성하는 레이어의 깊이가 더 깊어지거나, 각 레이어마다 적용되는 마스크(mask)의 개수(즉, 채널)가 더 많아질 수 있음을 의미한다.
구체적으로, 부호화단에서는 영상의 컨텐츠 타입(710, 720, 730)에 따라 압축 강도 또는 양자화 파라미터 QP 값을 결정할 수 있다. 압축 강도 또는 QP 값을 크게 하면 발생되는 비트량이 낮아지지만 화질이 저하된다. 특히, 압축된 영상을 전송하는 경우에는 채널에서 전송 가능한 초당 비트량을 고려하여 압축 강도 또는 QP 값이 결정될 수 있다. 예를 들어, 전송 채널에서 지원 가능한 초당 비트양이 낮은 경우에는 상대적으로 높은 압축 강도 또는 QP 값을 사용하여 압축률을 높여야 한다.
또한, 인간의 시각 특성(human visual system)을 고려한 화질의 관점에서 PSNR과 같은 객관적 화질은 정확하다고 할 수 없기 때문에 컨텐츠 타입(710, 720, 730)에 따라 인간이 느끼는 화질이 상이할 수 있다. 실제로 인간의 눈은 다양한 특성을 갖고 있기 때문에 단순히 신호적인 관점에서의 에러량을 통해 측정된 화질과 실제로 느끼는 주관적인 화질은 다르다. 주관적 화질 관점에서 최적 QP 값을 결정하기 위한 율-왜곡 최적화 모델은 기준 화소의 주변 밝기에 대한 명도 대비를 모델링할 수 있다. 예를 들어, 동일한 압축 강도 또는 QP 값을 통해 영상을 압축하더라도, 해당 영상의 컨텐츠 타입(710, 720, 730)이 텍스쳐인 경우가 컴퓨터 그래픽인 경우보다 주관적 화질 열화의 정도가 클 수 있다.
개시된 실시예들은 컨텐츠 타입(710, 720, 730)에 따라 영상의 에러 특성이 상이할 수 있다는 점에 착안한다. 개시된 실시예들은, 컨텐츠 타입(710, 720, 730)에 따라 상이한 특성을 갖는 에러를 효과적으로 보상하기 위해 영상이 어떤 컨텐츠 타입(710, 720, 730)에 속하는지 여부를 나타내는 필터 정보를 이용할 수 있다.
일 실시예에 따른 인루프 필터링부(150, 250)는 다양한 컨텐츠 타입(710, 720, 730) 별로 미리 학습된 DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736)을 준비해둘 수 있다. 예를 들어, DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736)은 미리 설정되어 영상 부호화 장치(100) 또는 영상 복호화 장치(200) 내에 저장되어 있을 수 있다. 일 실시예에 따른 인루프 필터링부(150, 250)는, 준비된 DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736) 중에서 현재 영상의 컨텐츠 타입(710, 720, 730)에 적합한 DNN 필터 모델을 선택하고, 선택된 DNN 필터 모델을 이용하여 인루프 필터링을 수행할 수 있다. 일 실시예에 따른 DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736)은 컨텐츠 타입(710, 720, 730) 별로, 인루프 필터링된 복원 데이터 및 원 데이터 사이의 오차를 최소화하도록 학습된 구조를 가질 수 있다.
일 실시예에 따른 인루프 필터링부(150, 250)는 컨텐츠 타입(710, 720, 730)에 대한 정보를 포함하는 필터 정보를 시그널링할 수 있다. 인루프 필터링부(150, 250)는 컨텐츠 타입(710, 720, 730) 별로 미리 설정된 컨텐츠 타입(710, 720, 730) 별 DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736) 중에서 필터 정보가 나타내는 컨텐츠 타입(710, 720, 730)에 대응하는 DNN 필터 세트를 결정할 수 있다.
예를 들어, 컨텐츠 타입(710)의 경우, 인루프 필터링부(150, 250)는 DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736) 중에서 DNN 필터 모델(712, 714, 716)을 선택할 수 있다. 한편, 인루프 필터링부(150, 250)는 DNN 필터 모델(712, 714, 716) 중에서 QP 값에 따라, 낮은 QP 값에 적용되는 DNN 필터 세트(712), 중간 QP 값에 적용되는 DNN 필터 세트(714) 또는 높은 QP 값에 적용되는 DNN 필터 모델(716) 중 하나를 선택할 수 있다. DNN 필터 모델을 QP 값 별로 분류하는 실시예에 대해 이하 설명하기로 한다.
일 실시예에 따른 인루프 필터링부(150, 250)는, QP 값에 따라 영상의 에러 특성이 상이할 수 있다는 점을 고려한다.
인루프 필터링의 종류, 필터링의 강도 등은 해당 영상을 압축하는데 사용한 QP 값에 따라 상이할 수 있다. 따라서, 일 실시예에 따른 DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736)은 QP 값에 따라 분류될 수도 있다. 일 실시예에 따른 인루프 필터링부(150, 250)는 DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736) 중에서 현재 영상의 QP 값에 적합한 DNN 필터 모델을 선택하고, 선택된 DNN 필터 모델을 이용하여 인루프 필터링을 수행할 수 있다.
일 실시예에 따른 필터 정보는 컨텐츠 타입(710, 720, 730)에 대한 정보 외에도 QP 값을 나타내는 정보도 포함할 수 있다. 인루프 필터링부(150, 250)는 양자화 파라미터 별로 미리 설정된 양자화 파라미터 별 DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736) 중에서 필터 정보가 나타내는 양자화 파라미터에 대응하는 DNN 필터 모델을 결정할 수 있다. 일 실시예에 따른 DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736)은 양자화 파라미터 별로, 인루프 필터링된 복원 데이터 및 원 데이터 사이의 오차를 최소화하도록 학습된 구조를 가질 수 있다.
예를 들어, 낮은 QP 값의 경우, 인루프 필터링부(150, 250)는 DNN 필터 모델 후보들(712, 714, 716, 722, 724, 726, 732, 734, 736) 중에서 DNN 필터 모델(712, 722, 732)을 선택할 수 있다. 이 때, 만약 필터 정보가 컨텐츠 타입(710)을 나타내는 경우라면, 인루프 필터링부(150, 250)는 DNN 필터 모델(712, 722, 732) 중에서 DNN 필터 모델(712)을 선택하고, 선택된 DNN 필터 모델(712)을 이용하여 인루프 필터링을 수행할 수 있다.
일 실시예에 따른 필터 정보는 영상 부호화 장치(100)로부터 결정될 수 있다. 일 실시예에 따른 영상 부호화 장치(100)는 입력 영상의 특성을 판별하여 컨텐츠 타입(710, 720, 730) 및 양자화 파라미터를 결정할 수 있다. 일 실시예에 따른 영상 부호화 장치(100)는 컨텐츠 타입(710, 720, 730)에 대한 정보 및 양자화 파라미터에 대한 정보를 포함하는 필터 정보를 부호화한 비트스트림을 생성할 수 있다.
일 실시예에 따른 영상 복호화 장치(200)는 비트스트림으로부터 필터 정보를 획득할 수 있다. 일 실시예에 따른 영상 복호화 장치(200)는, 필터 정보에 포함된 컨텐츠 타입(710, 720, 730)에 대한 정보 및 양자화 파라미터에 대한 정보에 기초하여 인루프 필터링에 적용할 DNN 필터 모델을 결정할 수 있다.
일 실시예에 따른 필터 정보는 시퀀스 파라미터 세트(sequence parameter set), 픽쳐 파라미터 세트(picture parameter set), 비디오 파라미터 세트(video parameter set), 슬라이스 헤더(slice header), 슬라이스 세그먼트 헤더(slice segment header) 등에 포함되어 시그널링될 수 있다.
도 8은 일 실시예에 따라 하나 이상의 참조 영상을 이용하여 DNN 필터 모델에 기반한 인루프 필터링을 수행하는 방법을 나타내는 도면이다.
도 8을 참조하면, 복원 픽처 버퍼(810)와 DNN 필터 모델(820)이 도시된다.
일 실시예에 따른 DNN 필터 모델(820)은 인루프 필터링부(150, 250)에 대응하는 것일 수 있다. 일 실시예에 따른 복원 픽처 버퍼(810)에는 현재 영상 이전에 복원된 영상(예를 들어, 과거 시점의 영상 또는 미래 시점의 영상)들이 화면 간 예측의 참조로 이용되기 위해 저장되어 있을 수 있다.
일 실시예에 따르면, DNN 필터 모델(820)은 복원 픽처 버퍼(810)에 저장된 하나 이상의 참조 영상을 활용하여 현재 프레임의 예측 정확도를 향상시킬 수 있다. 일 실시예에 따른 DNN 필터 모델(820)의 입력으로는 복원 픽처 버퍼(810)에 저장된 하나 이상의 참조 영상이 입력될 수 있다. 일 실시예에 DNN 필터 모델(820)은 복원 데이터의 인루프 필터링을 위해 참조되는 하나 이상의 참조 영상을 결정하고, 하나 이상의 참조 영상을 참조하여 복원 데이터의 에러를 보상할 수 있다.
일 실시예에 따른 DNN 필터 모델(820)은 인루프 필터링된 복원 데이터 및 원 데이터 사이의 오차를 최소화하도록 학습된 구조를 가질 수 있다. 학습된 DNN 필터 모델(820)은 입력된 하나 이상의 참조 영상의 패턴을 분석하여 그 특징을 찾아내어 이용함으로써 현재 영상의 복원된 데이터를 최적으로 필터링할 수 있는 일반화 능력을 갖는다. 따라서, 일 실시예에 따른 DNN 필터 모델(820)은 참조 영상을 통해 현재 영상을 예측하기 위한 예측 정보(예를 들어, 움직임 벡터, 예측 방향, 참조 픽처 인덱스 등과 같은)의 시그널링을 필요로 하지 않는다.
일 실시예에 따른 DNN 필터 모델(820)의 네트워크 구조는 컨볼루션 풀링 레이어, 히든 레이어 및 완전 연결 레이어를 포함하는 레이어들의 세트로 구현될 수 있다. 예를 들어, 네트워크의 전체적인 구조는 컨볼루션 풀링 레이어에 히든 레이어가 이어지고, 히든 레이어에 완전 연결 레이어가 이어지는 형태로 이루어질 수 있다.
일 실시예에 따른 DNN 필터 모델(820)의 네트워크 구조는 도 5를 통해 전술한 바와 같으므로, DNN의 자세한 구조에 대한 설명은 생략하도록 한다.
도 9는 일 실시예에 영상 부호화 장치(900)의 개략적인 블록도를 도시한다.
일 실시예에 따른 영상 부호화 장치(900)는 도 1의 영상 부호화 장치(100)에 대응할 수 있다.
도 9를 참조하면, 영상 부호화 장치(900)는 부호화부(910) 및 전송부(920)를 포함한다.
일 실시예에 따른 부호화부(910)는 부호화 단위의 최대 크기에 따라, 현재 픽처의 영상 데이터를 최대 부호화 단위로 분할할 수 있다. 각각의 최대 부호화 단위는 블록 형태 및 분할 형태별로 분할되는 블록(즉, 부호화 단위)들을 포함할 수 있다. 일 실시예에 따른 최대 부호화 단위는 최대 부호화 단위에 포함된 공간 영역(spatial domain)의 영상 데이터가 블록 형태 및 분할 형태에 따라 계층적으로 분류될 수 있다. 부호화 단위의 블록 형태는 정사각형 또는 직사각형일 수 있으며, 임의의 기하학적 형태일 수 있으므로, 일정한 크기의 데이터 단위로 제한되는 것은 아니다. 하나 이상의 블록의 블록 형태 및 분할 형태는 R-D 코스트 계산에 기초해 결정될 수 있다.
일 실시예에 따른 부호화부(910)는 입력 영상의 특성을 판별하여 컨텐츠 타입 및 양자화 파라미터를 결정할 수 있다. 일 실시예에 따른 부호화부(910)는 컨텐츠 타입에 대한 정보 및 양자화 파라미터에 대한 정보를 포함하는 필터 정보를 부호화한 비트스트림을 생성할 수 있다.
일 실시예에 따른 부호화부(910)는 인루프 필터링된 복원 데이터에 기초하여 입력 영상에 대한 예측을 수행하여 예측 데이터를 생성할 수 있다. 일 실시예에 따른 부호화부(910)는 입력 영상의 데이터 및 예측 데이터를 이용하여 레지듀얼 데이터를 생성할 수 있다. 일 실시예에 따른 부호화부(910)는 레지듀얼 데이터를 변환 및 양자화하여 양자화된 변환 계수를 생성할 수 있다. 이 때, 양자화된 변환 계수는 블록 별로 생성된 것일 수 있다. 일 실시예에 따른 부호화부(910)는 양자화된 변환 계수를 엔트로피 부호화한 비트스트림을 출력할 수 있다.
일 실시예에 따라, 인루프 필터링된 복원 데이터는 부호화된 레지듀얼 데이터로부터 복원된 복원 데이터에 대해 DNN 필터 모델에 기반한 인루프 필터링이 수행됨으로써 생성된 것일 수 있다. 일 실시예에 따른 DNN 필터 모델에 기반한 인루프 필터링의 구체적인 과정에 대해서는 도 4 내지 도 8을 통해 전술하였으므로, 자세한 설명은 생략하기로 한다.
일 실시예에 따른 전송부(920)는, 부호화부(910)에서 출력된 비트스트림을 영상 복호화 장치(200)로 전송한다.
도 10은 일 실시예에 따른 영상 복호화 장치(1000)의 개략적인 블록도를 도시한다.
일 실시예에 따른 영상 복호화 장치(1000)는 도 2의 영상 복호화 장치(200)에 대응할 수 있다.
도 10을 참조하면, 영상 복호화 장치(1000)는 수신부(1010) 및 복호화부(1020)를 포함한다.
일 실시예에 따른 수신부(1010)는 부호화된 비트스트림을 수신한다.
부호화된 비트스트림은 다수의 NAL(Network Abstraction Layer) 단위들로 구성된다. NAL 단위는 부호화된 슬라이스와 같은 부호화된 샘플 데이터 뿐만 아니라, 파라미터 세트 데이터, 슬라이스 헤더 데이터 또는 보충 향상 정보 데이터(supplemental enhancement information data)와 같은 하이 레벨 신택스 메타데이터를 포함할 수 있다.
파라미터 세트는, 다수의 비트스트림 레이어에 적용될 수도 있는 필수 신택스 엘리먼트(예를 들면, 비디오 파라미터 세트(VPS)), 하나의 레이어 내의 부호화된 비디오 시퀀스에 적용될 수도 있는 필수 신택스 엘리먼트(예를 들면, 시퀀스 파라미터 세트(SPS)), 또는 하나의 부호화된 비디오 시퀀스 내의 다수의 픽쳐에 적용될 수도 있는 필수 신택스 엘리먼트(예를 들면, 픽쳐 파라미터 세트(PPS))를 포함하는 하이 레벨 신택스 구조일 수 있다. 파라미터 세트는 비트스트림의 부호화된 픽처와 함께 전송되거나, 신뢰 가능한 채널, 하드 코딩, 대역외 송신 등을 포함하는 다른 수단을 통해 송신될 수 있다.
슬라이스 헤더는 슬라이스 또는 픽처 타입들에 대한 픽처 관련 정보를 포함하는 하이 레벨 신택스 구조일 수 있다.
SEI 메시지는, 복호화 프로세스를 위해 필수적이지 않을 수도 있지만, 픽처 출력 타이밍, 디스플레이, 손실 검출 및 은닉과 같은 다양한 다른 목적들을 위하여 이용될 수 있는 정보를 반송할 수 있다.
일 실시예에 따라, 부호화된 비트스트림에 포함되는 파라미터 세트에는 DNN에 기반한 인루프 필터링의 수행을 위한 부가 정보가 포함될 수 있다. 일 실시예에 따른 부가 정보는 DNN 필터 모델의 구조에 대한 정보(예를 들어, 필터 세트, 노드 개수에 대한 정보 등), 복원 데이터에 대한 필터 정보(예를 들어, 부호화된 영상의 에러 특성에 관한 정보, 부호화된 영상의 컨텐츠 타입, 양자화 파라미터에 대한 정보 등) 등을 포함할 수 있다. 예를 들어, 부가 정보는 비트스트림 내의 비디오 파라미터 세트, 시퀀스 파라미터 세트, 픽쳐 파라미터 세트 등을 통해 시그널링될 수 있다.일 실시예에 따른 복호화부(1020)는 비트스트림으로부터 분할 정보를 획득하여 공간 영역의 영상 데이터를 블록 형태 및 분할 형태에 따라 계층적으로 분할할 수 있다. 한편, 복호화에 이용되는 블록들이 일정한 형태 및 크기를 가질 경우, 복호화부(1020)는 분할 정보를 이용하지 않고 영상 데이터를 분할할 수 있다.
일 실시예에 따라, 복호화부(1020)는 비트스트림을 엔트로피 복호화하여 획득한 양자화된 변환계수를 역양자화 및 역변환하여 각 블록의 레지듀얼 데이터를 획득한다. 그 후, 복호화부(1020)는 각 블록의 레지듀얼 데이터와 예측부(1530)에서 생성된 각 블록의 예측 데이터를 이용하여 영상을 복원한다.
일 실시예에 따라, 복호화부(1020)는 영상을 복원함으로써 생성한 복원 데이터에 대해 인루프 필터링을 수행한다. 이 때, 복호화부(1020)가 수행하는 인루프 필터링 동작은 DNN 필터 모델에 기반한 것일 수 있다.
일 실시예에 따라, 복호화부(1020)는 비트스트림으로부터 복원 데이터에 대한 필터 정보를 획득할 수 있다. 복호화부(1020)는 필터 정보에 기초하여, 미리 설정된 인루프 필터링에 대한 DNN 필터 모델 후보들 중 복원 데이터의 에러를 보상하기 위한 DNN 필터 모델을 선택한다. 복호화부(1020)는 선택한 DNN 필터 모델을 이용하여 복원 데이터에 대하여 DNN 필터 모델에 기반한 인루프 필터링을 수행할 수 있다.
한편, 복원 데이터에 대한 필터 정보는 비트스트림을 통해 전달될 수도 있으나, 영상 부호화 장치(100)와 영상 복호화 장치(200) 간에 미리 공유될 수도 있다. 또한, 복원 데이터에 대한 필터 정보는 통신이 가능한 별도 서버를 통해 공유될 수도 있다.
일 실시예에 따라, 복호화부(1020)는 원본 데이터와 필터링된 복원 데이터 사이의 오차를 최소화한 데이터를 생성하도록 학습된 DNN에 기반하여 인루프 필터링을 수행할 수 있다. 이 경우, 도 3을 통해 전술한 디블록킹 필터링에 대한 정보, SAO 파라미터 및 적응적 루프 필터링에 대한 정보의 시그널링이 불필요하다. 학습된 DNN 필터 모델은 입력 패턴을 분석하여 그 특징을 찾아내어 최적의 필터링을 수행할 수 있는 일반화 능력을 갖기 때문이다. 일 실시예에 따른 DNN 필터 모델에 기반한 인루프 필터링의 구체적인 과정에 대해서는 도 4 내지 도 8을 통해 전술하였으므로, 자세한 설명은 생략하기로 한다.
도 11은 일 실시예에 따른 DNN 필터 모델에 기반한 인루프 필터링 과정을 포함하는 영상 부호화 방법을 나타낸 플로우 차트이다.
단계 S1110에서, 영상 부호화 장치(100)는 입력 영상의 컨텐츠 타입을 판별한다.
단계 S1120에서, 영상 부호화 장치(100)는 컨텐츠 타입에 기초하여, 하나 이상의 컴퓨터를 이용하여 인루프 필터링을 수행하도록 학습된 DNN 필터 모델을 결정한다.
단계 S1130에서, 영상 부호화 장치(100)는 부호화된 레지듀얼 데이터로부터 복원된 입력 영상의 복원 데이터를, 결정된 DNN 필터 모델에 적용하여 인루프 필터링된 데이터를 생성한다.
단계 S1140에서, 영상 부호화 장치(100)는 인루프 필터링된 데이터에 기초하여 입력 영상을 예측한 예측 데이터를 생성하고, 입력 영상 및 예측 데이터를 이용하여 레지듀얼 데이터를 생성한다.
단계 S1150에서, 영상 부호화 장치(100)는 컨텐츠 타입에 관한 정보 및 레지듀얼 데이터를 부호화한 비트스트림을 생성한다.
단계 S1160에서 생성된 비트스트림을 전송한다.
도 12는 일 실시예에 따른 DNN 필터 모델에 기반한 인루프 필터링 과정을 포함하는 영상 복호화 방법을 나타낸 플로우 차트이다.
단계 S1210에서, 영상 복호화 장치(200)는 부호화된 영상의 비트스트림을 수신한다.
단계 S1220에서, 영상 복호화 장치(200)는 부호화된 영상을 복원한 복원 데이터를 생성한다.
단계 S1230에서, 영상 복호화 장치(200)는 비트스트림으로부터 부호화된 영상의 컨텐츠 타입에 관한 정보를 획득한다.
단계 S1240에서, 영상 복호화 장치(200)는 컨텐츠 타입에 관한 정보에 기초하여, 하나 이상의 컴퓨터를 이용하여 인루프 필터링을 수행하도록 학습된 DNN 필터 모델을 결정한다.
단계 S1250에서, 영상 복호화 장치(200)는 복원 데이터를 결정된 DNN 필터 모델에 적용하여 인루프 필터링을 수행한다.
이하, 도 13 내지 도 26을 참조하여 일 실시예에 따른 영상의 데이터 단위를 결정하는 방법이 상술된다. 도 13 내지 도 26에서 설명되는 부호화 단위에 대한 분할 방법은 변환의 기초가 되는 변환 단위의 분할 방법에도 동일하게 적용될 수 있다.
도 13은 일 실시예에 따라 영상 복호화 장치(200)가 현재 부호화 단위를 분할하여 적어도 하나의 부호화 단위를 결정하는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보를 이용하여 부호화 단위의 형태를 결정할 수 있고, 분할 형태 정보를 이용하여 부호화 단위가 어떤 형태로 분할되는지를 결정할 수 있다. 즉, 영상 복호화 장치(200)가 이용하는 블록 형태 정보가 어떤 블록 형태를 나타내는지에 따라 분할 형태 정보가 나타내는 부호화 단위의 분할 방법이 결정될 수 있다.
일 실시예에 따라, 영상 복호화 장치(200)는 현재 부호화 단위가 정사각형 형태임을 나타내는 블록 형태 정보를 이용할 수 있다. 예를 들어 영상 복호화 장치(200)는 분할 형태 정보에 따라 정사각형의 부호화 단위를 분할하지 않을지, 수직으로 분할할지, 수평으로 분할할지, 4개의 부호화 단위로 분할할지 등을 결정할 수 있다. 도 13을 참조하면, 현재 부호화 단위(1300)의 블록 형태 정보가 정사각형의 형태를 나타내는 경우, 영상 복호화 장치(200)는 분할되지 않음을 나타내는 분할 형태 정보에 따라 현재 부호화 단위(1300)와 동일한 크기를 가지는 부호화 단위(1310a)를 분할하지 않거나, 소정의 분할방법을 나타내는 분할 형태 정보에 기초하여 분할된 부호화 단위(1310b, 1310c, 1310d 등)를 결정할 수 있다.
도 13을 참조하면 영상 복호화 장치(200)는 일 실시예에 따라 수직방향으로 분할됨을 나타내는 분할 형태 정보에 기초하여 현재 부호화 단위(1300)를 수직방향으로 분할한 두 개의 부호화 단위(1310b)를 결정할 수 있다. 영상 복호화 장치(200)는 수평방향으로 분할됨을 나타내는 분할 형태 정보에 기초하여 현재 부호화 단위(1300)를 수평방향으로 분할한 두 개의 부호화 단위(1310c)를 결정할 수 있다. 영상 복호화 장치(200)는 수직방향 및 수평방향으로 분할됨을 나타내는 분할 형태 정보에 기초하여 현재 부호화 단위(1300)를 수직방향 및 수평방향으로 분할한 네 개의 부호화 단위(1310d)를 결정할 수 있다. 다만 정사각형의 부호화 단위가 분할될 수 있는 분할 형태는 상술한 형태로 한정하여 해석되어서는 안되고, 분할 형태 정보가 나타낼 수 있는 다양한 형태가 포함될 수 있다. 정사각형의 부호화 단위가 분할되는 소정의 분할 형태들은 이하에서 다양한 실시예를 통해 구체적으로 설명하도록 한다.
도 14는 일 실시예에 따라 영상 복호화 장치(200)가 비-정사각형의 형태인 부호화 단위를 분할하여 적어도 하나의 부호화 단위를 결정하는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위가 비-정사각형 형태임을 나타내는 블록 형태 정보를 이용할 수 있다. 영상 복호화 장치(200)는 분할 형태 정보에 따라 비-정사각형의 현재 부호화 단위를 분할하지 않을지 소정의 방법으로 분할할지 여부를 결정할 수 있다. 도 14를 참조하면, 현재 부호화 단위(1400 또는 1450)의 블록 형태 정보가 비-정사각형의 형태를 나타내는 경우, 영상 복호화 장치(200)는 분할되지 않음을 나타내는 분할 형태 정보에 따라 현재 부호화 단위(1400 또는 1450)와 동일한 크기를 가지는 부호화 단위(1410 또는 1460)를 분할하지 않거나, 소정의 분할방법을 나타내는 분할 형태 정보에 따라 기초하여 분할된 부호화 단위(1420a, 1420b, 1430a, 1430b, 1430c, 1470a, 1470b, 1480a, 1480b, 1480c)를 결정할 수 있다. 비-정사각형의 부호화 단위가 분할되는 소정의 분할 방법은 이하에서 다양한 실시예를 통해 구체적으로 설명하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 분할 형태 정보를 이용하여 부호화 단위가 분할되는 형태를 결정할 수 있고, 이 경우 분할 형태 정보는 부호화 단위가 분할되어 생성되는 적어도 하나의 부호화 단위의 개수를 나타낼 수 있다. 도 14를 참조하면 분할 형태 정보가 두 개의 부호화 단위로 현재 부호화 단위(1400 또는 1450)가 분할되는 것을 나타내는 경우, 영상 복호화 장치(200)는 분할 형태 정보에 기초하여 현재 부호화 단위(1400 또는 1450)를 분할하여 현재 부호화 단위에 포함되는 두 개의 부호화 단위(1420a, 11720b, 또는 1470a, 1470b)를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)가 분할 형태 정보에 기초하여 비-정사각형의 형태의 현재 부호화 단위(1400 또는 1450)를 분할하는 경우, 비-정사각형의 현재 부호화 단위(1400 또는 1450)의 긴 변의 위치를 고려하여 현재 부호화 단위를 분할할 수 있다. 예를 들면, 영상 복호화 장치(200)는 현재 부호화 단위(1400 또는 1450)의 형태를 고려하여 현재 부호화 단위(1400 또는 1450)의 긴 변을 분할하는 방향으로 현재 부호화 단위(1400 또는 1450)를 분할하여 복수개의 부호화 단위를 결정할 수 있다.
일 실시예에 따라, 분할 형태 정보가 홀수개의 블록으로 부호화 단위를 분할하는 것을 나타내는 경우, 영상 복호화 장치(200)는 현재 부호화 단위(1400 또는 1450)에 포함되는 홀수개의 부호화 단위를 결정할 수 있다. 예를 들면, 분할 형태 정보가 3개의 부호화 단위로 현재 부호화 단위(1400 또는 1450)를 분할하는 것을 나타내는 경우, 영상 복호화 장치(200)는 현재 부호화 단위(1400 또는 1450)를 3개의 부호화 단위(1430a, 1430b, 1430c, 1480a, 1480b, 1480c)로 분할할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위(1400 또는 1450)에 포함되는 홀수개의 부호화 단위를 결정할 수 있으며, 결정된 부호화 단위들의 크기 모두가 동일하지는 않을 수 있다. 예를 들면, 결정된 홀수개의 부호화 단위(1430a, 1430b, 1430c, 1480a, 1480b, 1480c) 중 소정의 부호화 단위(1430b 또는 1480b)의 크기는 다른 부호화 단위(1430a, 1430c, 1480a, 1480c)들과는 다른 크기를 가질 수도 있다. 즉, 현재 부호화 단위(1400 또는 1450)가 분할되어 결정될 수 있는 부호화 단위는 복수의 종류의 크기를 가질 수 있고, 경우에 따라서는 홀수개의 부호화 단위(1430a, 1430b, 1430c, 1480a, 1480b, 1480c)가 각각 서로 다른 크기를 가질 수도 있다.
일 실시예에 따라 분할 형태 정보가 홀수개의 블록으로 부호화 단위가 분할되는 것을 나타내는 경우, 영상 복호화 장치(200)는 현재 부호화 단위(1400 또는 1450)에 포함되는 홀수개의 부호화 단위를 결정할 수 있고, 나아가 영상 복호화 장치(200)는 분할하여 생성되는 홀수개의 부호화 단위들 중 적어도 하나의 부호화 단위에 대하여 소정의 제한을 둘 수 있다. 도 14를 참조하면 영상 복호화 장치(200)는 현재 부호화 단위(1400 또는 1450)가 분할되어 생성된 3개의 부호화 단위(1430a, 1430b, 1430c, 1480a, 1480b, 1480c)들 중 중앙에 위치하는 부호화 단위(1430b, 1480b)에 대한 복호화 과정을 다른 부호화 단위(1430a, 1430c, 1480a, 1480c)와 다르게 할 수 있다. 예를 들면, 영상 복호화 장치(200)는 중앙에 위치하는 부호화 단위(1430b, 1480b)에 대하여는 다른 부호화 단위(1430a, 1430c, 1480a, 1480c)와 달리 더 이상 분할되지 않도록 제한하거나, 소정의 횟수만큼만 분할되도록 제한할 수 있다.
도 15는 일 실시예에 따라 영상 복호화 장치(200)가 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 부호화 단위를 분할하는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 정사각형 형태의 제1 부호화 단위(1500)를 부호화 단위들로 분할하거나 분할하지 않는 것으로 결정할 수 있다. 일 실시예에 따라 분할 형태 정보가 수평 방향으로 제1 부호화 단위(1500)를 분할하는 것을 나타내는 경우, 영상 복호화 장치(200)는 제1 부호화 단위(1500)를 수평 방향으로 분할하여 제2 부호화 단위(1510)를 결정할 수 있다. 일 실시예에 따라 이용되는 제1 부호화 단위, 제2 부호화 단위, 제3 부호화 단위는 부호화 단위 간의 분할 전후 관계를 이해하기 위해 이용된 용어이다. 예를 들면, 제1 부호화 단위를 분할하면 제2 부호화 단위가 결정될 수 있고, 제2 부호화 단위가 분할되면 제3 부호화 단위가 결정될 수 있다. 이하에서는 이용되는 제1 부호화 단위, 제2 부호화 단위 및 제3 부호화 단위의 관계는 상술한 특징에 따르는 것으로 이해될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 결정된 제2 부호화 단위(1510)를 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 부호화 단위들로 분할하거나 분할하지 않는 것으로 결정할 수 있다. 도 15를 참조하면 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(1500)를 분할하여 결정된 비-정사각형의 형태의 제2 부호화 단위(1510)를 적어도 하나의 제3 부호화 단위(1520a, 1520b, 1520c, 1520d 등)로 분할하거나 제2 부호화 단위(1510)를 분할하지 않을 수 있다. 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 획득할 수 있고 영상 복호화 장치(200)는 획득한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(1500)를 분할하여 다양한 형태의 복수개의 제2 부호화 단위(예를 들면, 1510)를 분할할 수 있으며, 제2 부호화 단위(1510)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(1500)가 분할된 방식에 따라 분할될 수 있다. 일 실시예에 따라, 제1 부호화 단위(1500)가 제1 부호화 단위(1500)에 대한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제2 부호화 단위(1510)로 분할된 경우, 제2 부호화 단위(1510) 역시 제2 부호화 단위(1510)에 대한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제3 부호화 단위(예를 들면, 1520a, 1520b, 1520c, 1520d 등)으로 분할될 수 있다. 즉, 부호화 단위는 부호화 단위 각각에 관련된 분할 형태 정보 및 블록 형태 정보 중 적어도 하나에 기초하여 재귀적으로 분할될 수 있다. 따라서 비-정사각형 형태의 부호화 단위에서 정사각형의 부호화 단위가 결정될 수 있고, 이러한 정사각형 형태의 부호화 단위가 재귀적으로 분할되어 비-정사각형 형태의 부호화 단위가 결정될 수도 있다. 도 15을 참조하면, 비-정사각형 형태의 제2 부호화 단위(1510)가 분할되어 결정되는 홀수개의 제3 부호화 단위(1520b, 1520c, 1520d) 중 소정의 부호화 단위(예를 들면, 가운데에 위치하는 부호화 단위 또는 정사각형 형태의 부호화 단위)는 재귀적으로 분할될 수 있다. 일 실시예에 따라 홀수개의 제3 부호화 단위(1520b, 1520c, 1520d) 중 하나인 정사각형 형태의 제3 부호화 단위(1520c)는 수평 방향으로 분할되어 복수개의 제4 부호화 단위로 분할될 수 있다.
부호화 단위의 재귀적 분할에 이용될 수 있는 방법에 대하여는 다양한 실시예를 통해 후술하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제3 부호화 단위(1520a, 1520b, 1520c, 1520d 등) 각각을 부호화 단위들로 분할하거나 제2 부호화 단위(1510)를 분할하지 않는 것으로 결정할 수 있다. 영상 복호화 장치(200)는 일 실시예에 따라 비-정사각형 형태의 제2 부호화 단위(1510)를 홀수개의 제3 부호화 단위(1520b, 1520c, 1520d)로 분할할 수 있다. 영상 복호화 장치(200)는 홀수개의 제3 부호화 단위(1520b, 1520c, 1520d) 중 소정의 제3 부호화 단위에 대하여 소정의 제한을 둘 수 있다. 예를 들면 영상 복호화 장치(200)는 홀수개의 제3 부호화 단위(1520b, 1520c, 1520d) 중 가운데에 위치하는 부호화 단위(1520c)에 대하여는 더 이상 분할되지 않는 것으로 제한하거나 또는 설정 가능한 횟수로 분할되어야 하는 것으로 제한할 수 있다. 도 15를 참조하면, 영상 복호화 장치(200)는 비-정사각형 형태의 제2 부호화 단위(1510)에 포함되는 홀수개의 제3 부호화 단위(1520b, 1520c, 1520d)들 중 가운데에 위치하는 부호화 단위(1520c)는 더 이상 분할되지 않거나, 소정의 분할 형태로 분할(예를 들면 4개의 부호화 단위로만 분할하거나 제2 부호화 단위(1510)가 분할된 형태에 대응하는 형태로 분할)되는 것으로 제한하거나, 소정의 횟수로만 분할(예를 들면 n회만 분할, n>0)하는 것으로 제한할 수 있다. 다만 가운데에 위치한 부호화 단위(1520c)에 대한 상기 제한은 단순한 실시예들에 불과하므로 상술한 실시예들로 제한되어 해석되어서는 안되고, 가운데에 위치한 부호화 단위(1520c)가 다른 부호화 단위(1520b, 1520d)와 다르게 복호화 될 수 있는 다양한 제한들을 포함하는 것으로 해석되어야 한다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위를 분할하기 위해 이용되는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 현재 부호화 단위 내의 소정의 위치에서 획득할 수 있다.
도 16은 일 실시예에 따라 영상 복호화 장치(200)가 홀수개의 부호화 단위들 중 소정의 부호화 단위를 결정하기 위한 방법을 도시한다. 도 16을 참조하면, 현재 부호화 단위(1600)의 블록 형태 정보 및 분할 형태 정보 중 적어도 하나는 현재 부호화 단위(1600)에 포함되는 복수개의 샘플 중 소정 위치의 샘플(예를 들면, 가운데에 위치하는 샘플(1640))에서 획득될 수 있다. 다만 이러한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나가 획득될 수 있는 현재 부호화 단위(1600) 내의 소정 위치가 도 16에서 도시하는 가운데 위치로 한정하여 해석되어서는 안되고, 소정 위치에는 현재 부호화 단위(1600)내에 포함될 수 있는 다양한 위치(예를 들면, 최상단, 최하단, 좌측, 우측, 좌측상단, 좌측하단, 우측상단 또는 우측하단 등)가 포함될 수 있는 것으로 해석되어야 한다. 영상 복호화 장치(200)는 소정 위치로부터 획득되는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 획득하여 현재 부호화 단위를 다양한 형태 및 크기의 부호화 단위들로 분할하거나 분할하지 않는 것으로 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위가 소정의 개수의 부호화 단위들로 분할된 경우 그 중 하나의 부호화 단위를 선택할 수 있다. 복수개의 부호화 단위들 중 하나를 선택하기 위한 방법은 다양할 수 있으며, 이러한 방법들에 대한 설명은 이하의 다양한 실시예를 통해 후술하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위를 복수개의 부호화 단위들로 분할하고, 소정 위치의 부호화 단위를 결정할 수 있다.
도 16은 일 실시예에 따라 영상 복호화 장치(200)가 홀수개의 부호화 단위들 중 소정 위치의 부호화 단위를 결정하기 위한 방법을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 홀수개의 부호화 단위들 중 가운데에 위치하는 부호화 단위를 결정하기 위하여 홀수개의 부호화 단위들 각각의 위치를 나타내는 정보를 이용할 수 있다. 도 16을 참조하면, 영상 복호화 장치(200)는 현재 부호화 단위(1600)를 분할하여 홀수개의 부호화 단위들(1620a, 1620b, 1620c)을 결정할 수 있다. 영상 복호화 장치(200)는 홀수개의 부호화 단위들(1620a, 1620b, 1620c)의 위치에 대한 정보를 이용하여 가운데 부호화 단위(1620b)를 결정할 수 있다. 예를 들면 영상 복호화 장치(200)는 부호화 단위들(1620a, 1620b, 1620c)에 포함되는 소정의 샘플의 위치를 나타내는 정보에 기초하여 부호화 단위들(1620a, 1620b, 1620c)의 위치를 결정함으로써 가운데에 위치하는 부호화 단위(1620b)를 결정할 수 있다. 구체적으로, 영상 복호화 장치(200)는 부호화 단위들(1620a, 1620b, 1620c)의 좌측 상단의 샘플(1630a, 1630b, 1630c)의 위치를 나타내는 정보에 기초하여 부호화 단위(1620a, 1620b, 1620c)의 위치를 결정함으로써 가운데에 위치하는 부호화 단위(1620b)를 결정할 수 있다.
일 실시예에 따라 부호화 단위(1620a, 1620b, 1620c)에 각각 포함되는 좌측 상단의 샘플(1630a, 1630b, 1630c)의 위치를 나타내는 정보는 부호화 단위(1620a, 1620b, 1620c)의 픽쳐 내에서의 위치 또는 좌표에 대한 정보를 포함할 수 있다. 일 실시예에 따라 부호화 단위(1620a, 1620b, 1620c)에 각각 포함되는 좌측 상단의 샘플(1630a, 1630b, 1630c)의 위치를 나타내는 정보는 현재 부호화 단위(1600)에 포함되는 부호화단위(1620a, 1620b, 1620c)들의 너비 또는 높이를 나타내는 정보를 포함할 수 있고, 이러한 너비 또는 높이는 부호화 단위(1620a, 1620b, 1620c)의 픽쳐 내에서의 좌표 간의 차이를 나타내는 정보에 해당할 수 있다. 즉, 영상 복호화 장치(200)는 부호화 단위(1620a, 1620b, 1620c)의 픽쳐 내에서의 위치 또는 좌표에 대한 정보를 직접이용하거나 좌표간의 차이값에 대응하는 부호화 단위의 너비 또는 높이에 대한 정보를 이용함으로써 가운데에 위치하는 부호화 단위(1620b)를 결정할 수 있다.
일 실시예에 따라, 상단 부호화 단위(1620a)의 좌측 상단의 샘플(1630a)의 위치를 나타내는 정보는 (xa, ya) 좌표를 나타낼 수 있고, 가운데 부호화 단위(1620b)의 좌측 상단의 샘플(1630b)의 위치를 나타내는 정보는 (xb, yb) 좌표를 나타낼 수 있고, 하단 부호화 단위(1620c)의 좌측 상단의 샘플(1630c)의 위치를 나타내는 정보는 (xc, yc) 좌표를 나타낼 수 있다. 영상 복호화 장치(200)는 부호화 단위(1620a, 1620b, 1620c)에 각각 포함되는 좌측 상단의 샘플(1630a, 1630b, 1630c)의 좌표를 이용하여 가운데 부호화 단위(1620b)를 결정할 수 있다. 예를 들면, 좌측 상단의 샘플(1630a, 1630b, 1630c)의 좌표를 오름차순 또는 내림차순으로 정렬하였을 때, 가운데에 위치하는 샘플(1630b)의 좌표인 (xb, yb)를 포함하는 부호화 단위(1620b)를 현재 부호화 단위(1600)가 분할되어 결정된 부호화 단위(1620a, 1620b, 1620c) 중 가운데에 위치하는 부호화 단위로 결정할 수 있다. 다만 좌측 상단의 샘플(1630a, 1630b, 1630c)의 위치를 나타내는 좌표는 픽쳐 내에서의 절대적인 위치를 나타내는 좌표를 나타낼 수 있고, 나아가 상단 부호화 단위(1620a)의 좌측 상단의 샘플(1630a)의 위치를 기준으로, 가운데 부호화 단위(1620b)의 좌측 상단의 샘플(1630b)의 상대적 위치를 나타내는 정보인 (dxb, dyb)좌표, 하단 부호화 단위(1620c)의 좌측 상단의 샘플(1630c)의 상대적 위치를 나타내는 정보인 (dxc, dyc)좌표를 이용할 수도 있다. 또한 부호화 단위에 포함되는 샘플의 위치를 나타내는 정보로서 해당 샘플의 좌표를 이용함으로써 소정 위치의 부호화 단위를 결정하는 방법이 상술한 방법으로 한정하여 해석되어서는 안되고, 샘플의 좌표를 이용할 수 있는 다양한 산술적 방법으로 해석되어야 한다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위(1600)를 복수개의 부호화 단위(1620a, 1620b, 1620c)로 분할할 수 있고, 부호화 단위(1620a, 1620b, 1620c)들 중 소정의 기준에 따라 부호화 단위를 선택할 수 있다. 예를 들면, 영상 복호화 장치(200)는 부호화 단위(1620a, 1620b, 1620c) 중 크기가 다른 부호화 단위(1620b)를 선택할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 상단 부호화 단위(1620a)의 좌측 상단의 샘플(1630a)의 위치를 나타내는 정보인 (xa, ya) 좌표, 가운데 부호화 단위(1620b)의 좌측 상단의 샘플(1630b)의 위치를 나타내는 정보인 (xb, yb) 좌표, 하단 부호화 단위(1620c)의 좌측 상단의 샘플(1630c)의 위치를 나타내는 정보인 (xc, yc) 좌표를 이용하여 부호화 단위(1620a, 1620b, 1620c) 각각의 너비 또는 높이를 결정할 수 있다. 영상 복호화 장치(200)는 부호화 단위(1620a, 1620b, 1620c)의 위치를 나타내는 좌표인 (xa, ya), (xb, yb), (xc, yc)를 이용하여 부호화 단위(1620a, 1620b, 1620c) 각각의 크기를 결정할 수 있다.
일 실시예에 따라, 영상 복호화 장치(200)는 상단 부호화 단위(1620a)의 너비를 xb-xa로 결정할 수 있고 높이를 yb-ya로 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 가운데 부호화 단위(1620b)의 너비를 xc-xb로 결정할 수 있고 높이를 yc-yb로 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 하단 부호화 단위의 너비 또는 높이는 현재 부호화 단위의 너비 또는 높이와 상단 부호화 단위(1620a) 및 가운데 부호화 단위(1620b)의 너비 및 높이를 이용하여 결정할 수 있다. 영상 복호화 장치(200)는 결정된 부호화 단위(1620a, 1620b, 1620c)의 너비 및 높이에 기초하여 다른 부호화 단위와 다른 크기를 갖는 부호화 단위를 결정할 수 있다. 도 16을 참조하면, 영상 복호화 장치(200)는 상단 부호화 단위(1620a) 및 하단 부호화 단위(1620c)의 크기와 다른 크기를 가지는 가운데 부호화 단위(1620b)를 소정 위치의 부호화 단위로 결정할 수 있다. 다만 상술한 영상 복호화 장치(200)가 다른 부호화 단위와 다른 크기를 갖는 부호화 단위를 결정하는 과정은 샘플 좌표에 기초하여 결정되는 부호화 단위의 크기를 이용하여 소정 위치의 부호화 단위를 결정하는 일 실시예에 불과하므로, 소정의 샘플 좌표에 따라 결정되는 부호화 단위의 크기를 비교하여 소정 위치의 부호화 단위를 결정하는 다양한 과정이 이용될 수 있다.
다만 부호화 단위의 위치를 결정하기 위하여 고려하는 샘플의 위치는 상술한 좌측 상단으로 한정하여 해석되어서는 안되고 부호화 단위에 포함되는 임의의 샘플의 위치에 대한 정보가 이용될 수 있는 것으로 해석될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위의 형태를 고려하여, 현재 부호화 단위가 분할되어 결정되는 홀수개의 부호화 단위들 중 소정 위치의 부호화 단위를 선택할 수 있다. 예를 들면, 현재 부호화 단위가 너비가 높이보다 긴 비-정사각형 형태라면 영상 복호화 장치(200)는 수평 방향에 따라 소정 위치의 부호화 단위를 결정할 수 있다. 즉, 영상 복호화 장치(200)는 수평 방향으로 위치를 달리 하는 부호화 단위들 중 하나를 결정하여 해당 부호화 단위에 대한 제한을 둘 수 있다. 현재 부호화 단위가 높이가 너비보다 긴 비-정사각형 형태라면 영상 복호화 장치(200)는 수직 방향에 따라 소정 위치의 부호화 단위를 결정할 수 있다. 즉, 영상 복호화 장치(200)는 수직 방향으로 위치를 달리 하는 부호화 단위들 중 하나를 결정하여 해당 부호화 단위에 대한 제한을 둘 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 짝수개의 부호화 단위들 중 소정 위치의 부호화 단위를 결정하기 위하여 짝수개의 부호화 단위들 각각의 위치를 나타내는 정보를 이용할 수 있다. 영상 복호화 장치(200)는 현재 부호화 단위를 분할하여 짝수개의 부호화 단위들을 결정할 수 있고 짝수개의 부호화 단위들의 위치에 대한 정보를 이용하여 소정 위치의 부호화 단위를 결정할 수 있다. 이에 대한 구체적인 과정은 도 16에서 상술한 홀수개의 부호화 단위들 중 소정 위치(예를 들면, 가운데 위치)의 부호화 단위를 결정하는 과정에 대응하는 과정일 수 있으므로 생략하도록 한다.
일 실시예에 따라, 비-정사각형 형태의 현재 부호화 단위를 복수개의 부호화 단위로 분할한 경우, 복수개의 부호화 단위들 중 소정 위치의 부호화 단위를 결정하기 위하여 분할 과정에서 소정 위치의 부호화 단위에 대한 소정의 정보를 이용할 수 있다. 예를 들면 영상 복호화 장치(200)는 현재 부호화 단위가 복수개로 분할된 부호화 단위들 중 가운데에 위치하는 부호화 단위를 결정하기 위하여 분할 과정에서 가운데 부호화 단위에 포함된 샘플에 저장된 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 이용할 수 있다.
도 16을 참조하면 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 현재 부호화 단위(1600)를 복수개의 부호화 단위들(1620a, 1620b, 1620c)로 분할할 수 있으며, 복수개의 부호화 단위들(1620a, 1620b, 1620c) 중 가운데에 위치하는 부호화 단위(1620b)를 결정할 수 있다. 나아가 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나가 획득되는 위치를 고려하여, 가운데에 위치하는 부호화 단위(1620b)를 결정할 수 있다. 즉, 현재 부호화 단위(1600)의 블록 형태 정보 및 분할 형태 정보 중 적어도 하나는 현재 부호화 단위(1600)의 가운데에 위치하는 샘플(1640)에서 획득될 수 있으며, 상기 블록 형태 정보 및 상기 분할 형태 정보 중 적어도 하나에 기초하여 현재 부호화 단위(1600)가 복수개의 부호화 단위들(1620a, 1620b, 1620c)로 분할된 경우 상기 샘플(1640)을 포함하는 부호화 단위(1620b)를 가운데에 위치하는 부호화 단위로 결정할 수 있다. 다만 가운데에 위치하는 부호화 단위로 결정하기 위해 이용되는 정보가 블록 형태 정보 및 분할 형태 정보 중 적어도 하나로 한정하여 해석되어서는 안되고, 다양한 종류의 정보가 가운데에 위치하는 부호화 단위를 결정하는 과정에서 이용될 수 있다.
일 실시예에 따라 소정 위치의 부호화 단위를 식별하기 위한 소정의 정보는, 결정하려는 부호화 단위에 포함되는 소정의 샘플에서 획득될 수 있다. 도 16을 참조하면, 영상 복호화 장치(200)는 현재 부호화 단위(1600)가 분할되어 결정된 복수개의 부호화 단위들(1620a, 1620b, 1620c) 중 소정 위치의 부호화 단위(예를 들면, 복수개로 분할된 부호화 단위 중 가운데에 위치하는 부호화 단위)를 결정하기 위하여 현재 부호화 단위(1600) 내의 소정 위치의 샘플(예를 들면, 현재 부호화 단위(1600)의 가운데에 위치하는 샘플)에서 획득되는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 이용할 수 있다. 즉, 영상 복호화 장치(200)는 현재 부호화 단위(1600)의 블록 블록 형태를 고려하여 상기 소정 위치의 샘플을 결정할 수 있고, 영상 복호화 장치(200)는 현재 부호화 단위(1600)가 분할되어 결정되는 복수개의 부호화 단위(1620a, 1620b, 1620c)들 중, 소정의 정보(예를 들면, 블록 형태 정보 및 분할 형태 정보 중 적어도 하나)가 획득될 수 있는 샘플이 포함된 부호화 단위(1620b)를 결정하여 소정의 제한을 둘 수 있다. 도 16을 참조하면 일 실시예에 따라 영상 복호화 장치(200)는 소정의 정보가 획득될 수 있는 샘플로서 현재 부호화 단위(1600)의 가운데에 위치하는 샘플(1640)을 결정할 수 있고, 영상 복호화 장치(200)는 이러한 샘플(1640)이 포함되는 부호화 단위(1620b)를 복호화 과정에서의 소정의 제한을 둘 수 있다. 다만 소정의 정보가 획득될 수 있는 샘플의 위치는 상술한 위치로 한정하여 해석되어서는 안되고, 제한을 두기 위해 결정하려는 부호화 단위(1620b)에 포함되는 임의의 위치의 샘플들로 해석될 수 있다.
일 실시예에 따라 소정의 정보가 획득될 수 있는 샘플의 위치는 현재 부호화 단위(1600)의 형태에 따라 결정될 수 있다. 일 실시예에 따라 블록 형태 정보는 현재 부호화 단위의 형태가 정사각형인지 또는 비-정사각형인지 여부를 결정할 수 있고, 형태에 따라 소정의 정보가 획득될 수 있는 샘플의 위치를 결정할 수 있다. 예를 들면, 영상 복호화 장치(200)는 현재 부호화 단위의 너비에 대한 정보 및 높이에 대한 정보 중 적어도 하나를 이용하여 현재 부호화 단위의 너비 및 높이 중 적어도 하나를 반으로 분할하는 경계 상에 위치하는 샘플을 소정의 정보가 획득될 수 있는 샘플로 결정할 수 있다. 또다른 예를 들면, 영상 복호화 장치(200)는 현재 부호화 단위에 관련된 블록 형태 정보가 비-정사각형 형태임을 나타내는 경우, 현재 부호화 단위의 긴 변을 반으로 분할하는 경계에 인접하는 샘플 중 하나를 소정의 정보가 획득될 수 있는 샘플로 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위를 복수개의 부호화 단위로 분할한 경우, 복수개의 부호화 단위들 중 소정 위치의 부호화 단위를 결정하기 위하여, 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 이용할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 부호화 단위에 포함된 소정 위치의 샘플에서 획득할 수 있고, 영상 복호화 장치(200)는 현재 부호화 단위가 분할되어 생성된 복수개의 부호화 단위들을 복수개의 부호화 단위 각각에 포함된 소정 위치의 샘플로부터 획득되는 분할 형태 정보 및 블록 형태 정보 중 적어도 하나를 이용하여 분할할 수 있다. 즉, 부호화 단위는 부호화 단위 각각에 포함된 소정 위치의 샘플에서 획득되는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 이용하여 재귀적으로 분할될 수 있다. 부호화 단위의 재귀적 분할 과정에 대하여는 도 15를 통해 상술하였으므로 자세한 설명은 생략하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위를 분할하여 적어도 하나의 부호화 단위를 결정할 수 있고, 이러한 적어도 하나의 부호화 단위가 복호화되는 순서를 소정의 블록(예를 들면, 현재 부호화 단위)에 따라 결정할 수 있다.
도 17은 일 실시예에 따라 영상 복호화 장치(200)가 현재 부호화 단위를 분할하여 복수개의 부호화 단위들을 결정하는 경우, 복수개의 부호화 단위들이 처리되는 순서를 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보에 따라 제1 부호화 단위(1700)를 수직 방향으로 분할하여 제2 부호화 단위(1710a, 1710b)를 결정하거나 제1 부호화 단위(1700)를 수평 방향으로 분할하여 제2 부호화 단위(1730a, 1730b)를 결정하거나 제1 부호화 단위(1700)를 수직 방향 및 수평 방향으로 분할하여 제2 부호화 단위(1750a, 1750b, 1750c, 1750d)를 결정할 수 있다.
도 17을 참조하면, 영상 복호화 장치(200)는 제1 부호화 단위(1700)를 수직 방향으로 분할하여 결정된 제2 부호화 단위(1710a, 1710b)를 수평 방향(1710c)으로 처리되도록 순서를 결정할 수 있다. 영상 복호화 장치(200)는 제1 부호화 단위(1700)를 수평 방향으로 분할하여 결정된 제2 부호화 단위(1730a, 1730b)의 처리 순서를 수직 방향(1730c)으로 결정할 수 있다. 영상 복호화 장치(200)는 제1 부호화 단위(1700)를 수직 방향 및 수평 방향으로 분할하여 결정된 제2 부호화 단위(1750a, 1750b, 1750c, 1750d)를 하나의 행에 위치하는 부호화 단위들이 처리된 후 다음 행에 위치하는 부호화 단위들이 처리되는 소정의 순서(예를 들면, 래스터 스캔 순서((raster scan order) 또는 z 스캔 순서(z scan order)(1750e) 등)에 따라 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 부호화 단위들을 재귀적으로 분할할 수 있다. 도 17을 참조하면, 영상 복호화 장치(200)는 제1 부호화 단위(1700)를 분할하여 복수개의 부호화 단위들(1710a, 1710b, 1730a, 1730b, 1750a, 1750b, 1750c, 1750d)을 결정할 수 있고, 결정된 복수개의 부호화 단위들(1710a, 1710b, 1730a, 1730b, 1750a, 1750b, 1750c, 1750d) 각각을 재귀적으로 분할할 수 있다. 복수개의 부호화 단위들(1710a, 1710b, 1730a, 1730b, 1750a, 1750b, 1750c, 1750d)을 분할하는 방법은 제1 부호화 단위(1700)를 분할하는 방법에 대응하는 방법이 될 수 있다. 이에 따라 복수개의 부호화 단위들(1710a, 1710b, 1730a, 1730b, 1750a, 1750b, 1750c, 1750d)은 각각 독립적으로 복수개의 부호화 단위들로 분할될 수 있다. 도 17를 참조하면 영상 복호화 장치(200)는 제1 부호화 단위(1700)를 수직 방향으로 분할하여 제2 부호화 단위(1710a, 1710b)를 결정할 수 있고, 나아가 제2 부호화 단위(1710a, 1710b) 각각을 독립적으로 분할하거나 분할하지 않는 것으로 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 좌측의 제2 부호화 단위(1710a)를 수평 방향으로 분할하여 제3 부호화 단위(1720a, 1720b)로 분할할 수 있고, 우측의 제2 부호화 단위(1710b)는 분할하지 않을 수 있다.
일 실시예에 따라 부호화 단위들의 처리 순서는 부호화 단위의 분할 과정에 기초하여 결정될 수 있다. 다시 말해, 분할된 부호화 단위들의 처리 순서는 분할되기 직전의 부호화 단위들의 처리 순서에 기초하여 결정될 수 있다. 영상 복호화 장치(200)는 좌측의 제2 부호화 단위(1710a)가 분할되어 결정된 제3 부호화 단위(1720a, 1720b)가 처리되는 순서를 우측의 제2 부호화 단위(1710b)와 독립적으로 결정할 수 있다. 좌측의 제2 부호화 단위(1710a)가 수평 방향으로 분할되어 제3 부호화 단위(1720a, 1720b)가 결정되었으므로 제3 부호화 단위(1720a, 1720b)는 수직 방향(1720c)으로 처리될 수 있다. 또한 좌측의 제2 부호화 단위(1710a) 및 우측의 제2 부호화 단위(1710b)가 처리되는 순서는 수평 방향(1710c)에 해당하므로, 좌측의 제2 부호화 단위(1710a)에 포함되는 제3 부호화 단위(1720a, 1720b)가 수직 방향(1720c)으로 처리된 후에 우측 부호화 단위(1710b)가 처리될 수 있다. 상술한 내용은 부호화 단위들이 각각 분할 전의 부호화 단위에 따라 처리 순서가 결정되는 과정을 설명하기 위한 것이므로, 상술한 실시예에 한정하여 해석되어서는 안되고, 다양한 형태로 분할되어 결정되는 부호화 단위들이 소정의 순서에 따라 독립적으로 처리될 수 있는 다양한 방법으로 이용되는 것으로 해석되어야 한다.
도 18은 일 실시예에 따라 영상 복호화 장치(200)가 소정의 순서로 부호화 단위가 처리될 수 없는 경우, 현재 부호화 단위가 홀수개의 부호화 단위로 분할되는 것임을 결정하는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 획득된 블록 형태 정보 및 분할 형태 정보에 기초하여 현재 부호화 단위가 홀수개의 부호화 단위들로 분할되는 것을 결정할 수 있다. 도 18을 참조하면 정사각형 형태의 제1 부호화 단위(1800)가 비-정사각형 형태의 제2 부호화 단위(1810a, 1810b)로 분할될 수 있고, 제2 부호화 단위(1810a, 1810b)는 각각 독립적으로 제3 부호화 단위(1820a, 1820b, 1820c, 1820d, 1820e)로 분할될 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 제2 부호화 단위 중 좌측 부호화 단위(1810a)는 수평 방향으로 분할하여 복수개의 제3 부호화 단위(1820a, 1820b)를 결정할 수 있고, 우측 부호화 단위(1810b)는 홀수개의 제3 부호화 단위(1820c, 1820d, 1820e)로 분할할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 제3 부호화 단위들(1820a, 1820b, 1820c, 1820d, 1820e)이 소정의 순서로 처리될 수 있는지 여부를 판단하여 홀수개로 분할된 부호화 단위가 존재하는지를 결정할 수 있다. 도 18를 참조하면, 영상 복호화 장치(200)는 제1 부호화 단위(1800)를 재귀적으로 분할하여 제3 부호화 단위(1820a, 1820b, 1820c, 1820d, 1820e)를 결정할 수 있다. 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여, 제1 부호화 단위(1800), 제2 부호화 단위(1810a, 1810b) 또는 제3 부호화 단위(1820a, 1820b, 1820c, 1820d, 1820e)가 분할되는 형태 중 홀수개의 부호화 단위로 분할되는지 여부를 결정할 수 있다. 예를 들면, 제2 부호화 단위(1810a, 1810b) 중 우측에 위치하는 부호화 단위가 홀수개의 제3 부호화 단위(1820c, 1820d, 1820e)로 분할될 수 있다. 제1 부호화 단위(1800)에 포함되는 복수개의 부호화 단위들이 처리되는 순서는 소정의 순서(예를 들면, z-스캔 순서(z-scan order)(1830))가 될 수 있고, 영상 복호화 장치(200)는 우측 제2 부호화 단위(1810b)가 홀수개로 분할되어 결정된 제3 부호화 단위(1820c, 1820d, 1820e)가 상기 소정의 순서에 따라 처리될 수 있는 조건을 만족하는지를 판단할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 제1 부호화 단위(1800)에 포함되는 제3 부호화 단위(1820a, 1820b, 1820c, 1820d, 1820e)가 소정의 순서에 따라 처리될 수 있는 조건을 만족하는지를 결정할 수 있으며, 상기 조건은 제3 부호화 단위(1820a, 1820b, 1820c, 1820d, 1820e)의 경계에 따라 제2 부호화 단위(1810a, 1810b)의 너비 및 높이 중 적어도 하나를 반으로 분할되는지 여부와 관련된다. 예를 들면 비-정사각형 형태의 좌측 제2 부호화 단위(1810a)의 높이를 반으로 분할하여 결정되는 제3 부호화 단위(1820a, 1820b)는 조건을 만족하지만, 우측 제2 부호화 단위(1810b)를 3개의 부호화 단위로 분할하여 결정되는 제3 부호화 단위(1820c, 1820d, 1820e)들의 경계가 우측 제2 부호화 단위(1810b)의 너비 또는 높이를 반으로 분할하지 못하므로 제3 부호화 단위(1820c, 1820d, 1820e)는 조건을 만족하지 못하는 것으로 결정될 수 있고, 영상 복호화 장치(200)는 이러한 조건 불만족의 경우 스캔 순서의 단절(disconnection)로 판단하고, 판단 결과에 기초하여 우측 제2 부호화 단위(1810b)는 홀수개의 부호화 단위로 분할되는 것으로 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 홀수개의 부호화 단위로 분할되는 경우 분할된 부호화 단위들 중 소정 위치의 부호화 단위에 대하여 소정의 제한을 둘 수 있으며, 이러한 제한 내용 또는 소정 위치 등에 대하여는 다양한 실시예를 통해 상술하였으므로 자세한 설명은 생략하도록 한다.
도 19는 일 실시예에 따라 영상 복호화 장치(200)가 제1 부호화 단위(1900)를 분할하여 적어도 하나의 부호화 단위를 결정하는 과정을 도시한다. 일 실시예에 따라 영상 복호화 장치(200)는 수신부(210)를 통해 획득한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(1900)를 분할할 수 있다. 정사각형 형태의 제1 부호화 단위(1900)는 4개의 정사각형 형태를 가지는 부호화 단위로 분할되거나 또는 비-정사각형 형태의 복수개의 부호화 단위로 분할할 수 있다. 예를 들면 도 19을 참조하면, 블록 형태 정보가 제1 부호화 단위(1900)는 정사각형임을 나타내고 분할 형태 정보가 비-정사각형의 부호화 단위로 분할됨을 나타내는 경우 영상 복호화 장치(200)는 제1 부호화 단위(1900)를 복수개의 비-정사각형의 부호화 단위들로 분할할 수 있다. 구체적으로, 분할 형태 정보가 제1 부호화 단위(1900)를 수평 방향 또는 수직 방향으로 분할하여 홀수개의 부호화 단위를 결정하는 것을 나타내는 경우, 영상 복호화 장치(200)는 정사각형 형태의 제1 부호화 단위(1900)을 홀수개의 부호화 단위들로서 수직 방향으로 분할되어 결정된 제2 부호화 단위(1910a, 1910b, 1910c) 또는 수평 방향으로 분할되어 결정된 제2 부호화 단위(1920a, 1920b, 1920c)로 분할할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 제1 부호화 단위(1900)에 포함되는 제2 부호화 단위(1910a, 1910b, 1910c, 1920a, 1920b, 1920c)가 소정의 순서에 따라 처리될 수 있는 조건을 만족하는지를 결정할 수 있으며, 상기 조건은 제2 부호화 단위(1910a, 1910b, 1910c, 1920a, 1920b, 1920c)의 경계에 따라 제1 부호화 단위(1900)의 너비 및 높이 중 적어도 하나를 반으로 분할되는지 여부와 관련된다. 도 19를 참조하면 정사각형 형태의 제1 부호화 단위(1900)를 수직 방향으로 분할하여 결정되는 제2 부호화 단위(1910a, 1910b, 1910c)들의 경계가 제1 부호화 단위(1900)의 너비를 반으로 분할하지 못하므로 제1 부호화 단위(1900)는 소정의 순서에 따라 처리될 수 있는 조건을 만족하지 못하는 것으로 결정될 수 있다. 또한 정사각형 형태의 제1 부호화 단위(1900)를 수평 방향으로 분할하여 결정되는 제2 부호화 단위(1920a, 1920b, 1920c)들의 경계가 제1 부호화 단위(1900)의 너비를 반으로 분할하지 못하므로 제1 부호화 단위(1900)는 소정의 순서에 따라 처리될 수 있는 조건을 만족하지 못하는 것으로 결정될 수 있다. 영상 복호화 장치(200)는 이러한 조건 불만족의 경우 스캔 순서의 단절(disconnection)로 판단하고, 판단 결과에 기초하여 제1 부호화 단위(1900)는 홀수개의 부호화 단위로 분할되는 것으로 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 홀수개의 부호화 단위로 분할되는 경우 분할된 부호화 단위들 중 소정 위치의 부호화 단위에 대하여 소정의 제한을 둘 수 있으며, 이러한 제한 내용 또는 소정 위치 등에 대하여는 다양한 실시예를 통해 상술하였으므로 자세한 설명은 생략하도록 한다.
일 실시예에 따라, 영상 복호화 장치(200)는 제1 부호화 단위를 분할하여 다양한 형태의 부호화 단위들을 결정할 수 있다.
도 19를 참조하면, 영상 복호화 장치(200)는 정사각형 형태의 제1 부호화 단위(1900), 비-정사각형 형태의 제1 부호화 단위(1930 또는 1950)를 다양한 형태의 부호화 단위들로 분할할 수 있다.
도 20은 일 실시예에 따라 영상 복호화 장치(200)가 제1 부호화 단위(2000)가 분할되어 결정된 비-정사각형 형태의 제2 부호화 단위가 소정의 조건을 만족하는 경우 제2 부호화 단위가 분할될 수 있는 형태가 제한되는 것을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 수신부(210)를 통해 획득한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 정사각형 형태의 제1 부호화 단위(2000)를 비-정사각형 형태의 제2 부호화 단위(2010a, 2010b, 2020a, 2020b)로 분할하는 것으로 결정할 수 있다. 제2 부호화 단위(2010a, 2010b, 2020a, 2020b)는 독립적으로 분할될 수 있다. 이에 따라 영상 복호화 장치(200)는 제2 부호화 단위(2010a, 2010b, 2020a, 2020b) 각각에 관련된 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 복수개의 부호화 단위로 분할하거나 분할하지 않는 것을 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 수직 방향으로 제1 부호화 단위(2000)가 분할되어 결정된 비-정사각형 형태의 좌측 제2 부호화 단위(2010a)를 수평 방향으로 분할하여 제3 부호화 단위(2012a, 2012b)를 결정할 수 있다. 다만 영상 복호화 장치(200)는 좌측 제2 부호화 단위(2010a)를 수평 방향으로 분할한 경우, 우측 제2 부호화 단위(2010b)는 좌측 제2 부호화 단위(2010a)가 분할된 방향과 동일하게 수평 방향으로 분할될 수 없도록 제한할 수 있다. 만일 우측 제2 부호화 단위(2010b)가 동일한 방향으로 분할되어 제3 부호화 단위(2014a, 2014b)가 결정된 경우, 좌측 제2 부호화 단위(2010a) 및 우측 제2 부호화 단위(2010b)가 수평 방향으로 각각 독립적으로 분할됨으로써 제3 부호화 단위(2012a, 2012b, 2014a, 2014b)가 결정될 수 있다. 하지만 이는 영상 복호화 장치(200)가 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(2000)를 4개의 정사각형 형태의 제2 부호화 단위(2030a, 2030b, 2030c, 2030d)로 분할한 것과 동일한 결과이며 이는 영상 복호화 측면에서 비효율적일 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 수평 방향으로 제1 부호화 단위(11600)가 분할되어 결정된 비-정사각형 형태의 제2 부호화 단위(2020a 또는 2020b)를 수직 방향으로 분할하여 제3 부호화 단위(2022a, 2022b, 2024a, 2024b)를 결정할 수 있다. 다만 영상 복호화 장치(200)는 제2 부호화 단위 중 하나(예를 들면 상단 제2 부호화 단위(2020a))를 수직 방향으로 분할한 경우, 상술한 이유에 따라 다른 제2 부호화 단위(예를 들면 하단 부호화 단위(2020b))는 상단 제2 부호화 단위(2020a)가 분할된 방향과 동일하게 수직 방향으로 분할될 수 없도록 제한할 수 있다.
도 21은 일 실시예에 따라 분할 형태 정보가 4개의 정사각형 형태의 부호화 단위로 분할하는 것을 나타낼 수 없는 경우, 영상 복호화 장치(200)가 정사각형 형태의 부호화 단위를 분할하는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(2100)를 분할하여 제2 부호화 단위(2110a, 2110b, 2120a, 2120b 등)를 결정할 수 있다. 분할 형태 정보에는 부호화 단위가 분할될 수 있는 다양한 형태에 대한 정보가 포함될 수 있으나, 다양한 형태에 대한 정보에는 정사각형 형태의 4개의 부호화 단위로 분할하기 위한 정보가 포함될 수 없는 경우가 있다. 이러한 분할 형태 정보에 따르면, 영상 복호화 장치(200)는 정사각형 형태의 제1 부호화 단위(2100)를 4개의 정사각형 형태의 제2 부호화 단위(2130a, 2130b, 2130c, 2130d)로 분할하지 못한다. 분할 형태 정보에 기초하여 영상 복호화 장치(200)는 비-정사각형 형태의 제2 부호화 단위(2110a, 2110b, 2120a, 2120b 등)를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 비-정사각형 형태의 제2 부호화 단위(2110a, 2110b, 2120a, 2120b 등)를 각각 독립적으로 분할할 수 있다. 재귀적인 방법을 통해 제2 부호화 단위(2110a, 2110b, 2120a, 2120b 등) 각각이 소정의 순서대로 분할될 수 있으며, 이는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(2100)가 분할되는 방법에 대응하는 분할 방법일 수 있다.
예를 들면 영상 복호화 장치(200)는 좌측 제2 부호화 단위(2110a)가 수평 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2112a, 2112b)를 결정할 수 있고, 우측 제2 부호화 단위(2110b)가 수평 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2114a, 2114b)를 결정할 수 있다. 나아가 영상 복호화 장치(200)는 좌측 제2 부호화 단위(2110a) 및 우측 제2 부호화 단위(2110b) 모두 수평 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2116a, 2116b, 2116c, 2116d)를 결정할 수도 있다. 이러한 경우 제1 부호화 단위(2100)가 4개의 정사각형 형태의 제2 부호화 단위(2130a, 2130b, 2130c, 2130d)로 분할된 것과 동일한 형태로 부호화 단위가 결정될 수 있다.
또 다른 예를 들면 영상 복호화 장치(200)는 상단 제2 부호화 단위(2120a)가 수직 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2122a, 2122b)를 결정할 수 있고, 하단 제2 부호화 단위(2120b)가 수직 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2124a, 2124b)를 결정할 수 있다. 나아가 영상 복호화 장치(200)는 상단 제2 부호화 단위(2120a) 및 하단 제2 부호화 단위(2120b) 모두 수직 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2122a, 2122b, 2124a, 2124b)를 결정할 수도 있다. 이러한 경우 제1 부호화 단위(2100)가 4개의 정사각형 형태의 제2 부호화 단위(2130a, 2130b, 2130c, 2130d)로 분할된 것과 동일한 형태로 부호화 단위가 결정될 수 있다.
도 22는 일 실시예에 따라 복수개의 부호화 단위들 간의 처리 순서가 부호화 단위의 분할 과정에 따라 달라질 수 있음을 도시한 것이다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보에 기초하여 제1 부호화 단위(2200)를 분할할 수 있다. 블록 형태 정보가 정사각형 형태를 나타내고, 분할 형태 정보가 제1 부호화 단위(2200)가 수평 방향 및 수직 방향 중 적어도 하나의 방향으로 분할됨을 나타내는 경우, 영상 복호화 장치(200)는 제1 부호화 단위(2200)를 분할하여 제2 부호화 단위(예를 들면, 2210a, 2210b, 2220a, 2220b 등)를 결정할 수 있다. 도 22를 참조하면 제1 부호화 단위(2200)가 수평 방향 또는 수직 방향만으로 분할되어 결정된 비-정사각형 형태의 제2 부호화 단위(2210a, 2210b, 2220a, 2220b)는 각각에 대한 블록 형태 정보 및 분할 형태 정보에 기초하여 독립적으로 분할될 수 있다. 예를 들면 영상 복호화 장치(200)는 제1 부호화 단위(2200)가 수직 방향으로 분할되어 생성된 제2 부호화 단위(2210a, 2210b)를 수평 방향으로 각각 분할하여 제3 부호화 단위(2216a, 2216b, 2216c, 2216d)를 결정할 수 있고, 제1 부호화 단위(2200)가 수평 방향으로 분할되어 생성된 제2 부호화 단위(2220a, 2220b)를 수평 방향으로 각각 분할하여 제3 부호화 단위(2226a, 2226b, 2226c, 2226d)를 결정할 수 있다. 이러한 제2 부호화 단위(2210a, 2210b, 2220a, 2220b)의 분할 과정은 도 20과 관련하여 상술하였으므로 자세한 설명은 생략하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 소정의 순서에 따라 부호화 단위를 처리할 수 있다. 소정의 순서에 따른 부호화 단위의 처리에 대한 특징은 도 17과 관련하여 상술하였으므로 자세한 설명은 생략하도록 한다. 도 22을 참조하면 영상 복호화 장치(200)는 정사각형 형태의 제1 부호화 단위(2200)를 분할하여 4개의 정사각형 형태의 제3 부호화 단위(2216a, 2216b, 2216c, 2216d, 2226a, 2226b, 2226c, 2226d)를 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 제1 부호화 단위(2200)가 분할되는 형태에 따라 제3 부호화 단위(2216a, 2216b, 2216c, 2216d, 2226a, 2226b, 2226c, 2226d)의 처리 순서를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 수직 방향으로 분할되어 생성된 제2 부호화 단위(2210a, 2210b)를 수평 방향으로 각각 분할하여 제3 부호화 단위(2216a, 2216b, 2216c, 2216d)를 결정할 수 있고, 영상 복호화 장치(200)는 좌측 제2 부호화 단위(2210a)에 포함되는 제3 부호화 단위(2216a, 2216b)를 수직 방향으로 먼저 처리한 후, 우측 제2 부호화 단위(2210b)에 포함되는 제3 부호화 단위(2216c, 2216d)를 수직 방향으로 처리하는 순서(2217)에 따라 제3 부호화 단위(2216a, 2216b, 2216c, 2216d)를 처리할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 수평 방향으로 분할되어 생성된 제2 부호화 단위(2220a, 2220b)를 수직 방향으로 각각 분할하여 제3 부호화 단위(2226a, 2226b, 2226c, 2226d)를 결정할 수 있고, 영상 복호화 장치(200)는 상단 제2 부호화 단위(2220a)에 포함되는 제3 부호화 단위(2226a, 2226b)를 수평 방향으로 먼저 처리한 후, 하단 제2 부호화 단위(2220b)에 포함되는 제3 부호화 단위(2226c, 2226d)를 수평 방향으로 처리하는 순서(2227)에 따라 제3 부호화 단위(2226a, 2226b, 2226c, 2226d)를 처리할 수 있다.
도 22를 참조하면, 제2 부호화 단위(2210a, 2210b, 2220a, 2220b)가 각각 분할되어 정사각형 형태의 제3 부호화 단위(2216a, 2216b, 2216c, 2216d, 2226a, 2226b, 2226c, 2226d)가 결정될 수 있다. 수직 방향으로 분할되어 결정된 제2 부호화 단위(2210a, 2210b) 및 수평 방향으로 분할되어 결정된 제2 부호화 단위(2220a, 2220b)는 서로 다른 형태로 분할된 것이지만, 이후에 결정되는 제3 부호화 단위(2216a, 2216b, 2216c, 2216d, 2226a, 2226b, 2226c, 2226d)에 따르면 결국 동일한 형태의 부호화 단위들로 제1 부호화 단위(2200)가 분할된 결과가 된다. 이에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 상이한 과정을 통해 재귀적으로 부호화 단위를 분할함으로써 결과적으로 동일한 형태의 부호화 단위들을 결정하더라도, 동일한 형태로 결정된 복수개의 부호화 단위들을 서로 다른 순서로 처리할 수 있다.
도 23은 일 실시예에 따라 부호화 단위가 재귀적으로 분할되어 복수개의 부호화 단위가 결정되는 경우, 부호화 단위의 형태 및 크기가 변함에 따라 부호화 단위의 심도가 결정되는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 부호화 단위의 심도를 소정의 기준에 따라 결정할 수 있다. 예를 들면 소정의 기준은 부호화 단위의 긴 변의 길이가 될 수 있다. 영상 복호화 장치(200)는 현재 부호화 단위의 긴 변의 길이가 분할되기 전의 부호화 단위의 긴 변의 길이보다 2n (n>0) 배로 분할된 경우, 현재 부호화 단위의 심도는 분할되기 전의 부호화 단위의 심도보다 n만큼 심도가 증가된 것으로 결정할 수 있다. 이하에서는 심도가 증가된 부호화 단위를 하위 심도의 부호화 단위로 표현하도록 한다.
도 23을 참조하면, 일 실시예에 따라 정사각형 형태임을 나타내는 블록 형태 정보(예를 들면 블록 형태 정보는 ′0: SQUARE′를 나타낼 수 있음)에 기초하여 영상 복호화 장치(200)는 정사각형 형태인 제1 부호화 단위(2300)를 분할하여 하위 심도의 제2 부호화 단위(2302), 제3 부호화 단위(2304) 등을 결정할 수 있다. 정사각형 형태의 제1 부호화 단위(2300)의 크기를 2Nx2N이라고 한다면, 제1 부호화 단위(2300)의 너비 및 높이를 1/21배로 분할하여 결정된 제2 부호화 단위(2302)는 NxN의 크기를 가질 수 있다. 나아가 제2 부호화 단위(2302)의 너비 및 높이를 1/2크기로 분할하여 결정된 제3 부호화 단위(2304)는 N/2xN/2의 크기를 가질 수 있다. 이 경우 제3 부호화 단위(2304)의 너비 및 높이는 제1 부호화 단위(2300)의 1/22배에 해당한다. 제1 부호화 단위(2300)의 심도가 D인 경우 제1 부호화 단위(2300)의 너비 및 높이의 1/21배인 제2 부호화 단위(2302)의 심도는 D+1일 수 있고, 제1 부호화 단위(2300)의 너비 및 높이의 1/22배인 제3 부호화 단위(2304)의 심도는 D+2일 수 있다.
일 실시예에 따라 비-정사각형 형태를 나타내는 블록 형태 정보(예를 들면 블록 형태 정보는, 높이가 너비보다 긴 비-정사각형임을 나타내는 ′1: NS_VER′ 또는 너비가 높이보다 긴 비-정사각형임을 나타내는 ′2: NS_HOR′를 나타낼 수 있음)에 기초하여, 영상 복호화 장치(200)는 비-정사각형 형태인 제1 부호화 단위(2310 또는 2320)를 분할하여 하위 심도의 제2 부호화 단위(2312 또는 2322), 제3 부호화 단위(2314 또는 2324) 등을 결정할 수 있다.
영상 복호화 장치(200)는 Nx2N 크기의 제1 부호화 단위(2310)의 너비 및 높이 중 적어도 하나를 분할하여 제2 부호화 단위(예를 들면, 2302, 2312, 2322 등)를 결정할 수 있다. 즉, 영상 복호화 장치(200)는 제1 부호화 단위(2310)를 수평 방향으로 분할하여 NxN 크기의 제2 부호화 단위(2302) 또는 NxN/2 크기의 제2 부호화 단위(2322)를 결정할 수 있고, 수평 방향 및 수직 방향으로 분할하여 N/2xN 크기의 제2 부호화 단위(2312)를 결정할 수도 있다.
일 실시예에 따라 영상 복호화 장치(200)는 2NxN 크기의 제1 부호화 단위(2320) 의 너비 및 높이 중 적어도 하나를 분할하여 제2 부호화 단위(예를 들면, 2302, 2312, 2322 등)를 결정할 수도 있다. 즉, 영상 복호화 장치(200)는 제1 부호화 단위(2320)를 수직 방향으로 분할하여 NxN 크기의 제2 부호화 단위(2302) 또는 N/2xN 크기의 제2 부호화 단위(2312)를 결정할 수 있고, 수평 방향 및 수직 방향으로 분할하여 NxN/2 크기의 제2 부호화 단위(2322)를 결정할 수도 있다.
일 실시예에 따라 영상 복호화 장치(200)는 NxN 크기의 제2 부호화 단위(2302) 의 너비 및 높이 중 적어도 하나를 분할하여 제3 부호화 단위(예를 들면, 2304, 2314, 2324 등)를 결정할 수도 있다. 즉, 영상 복호화 장치(200)는 제2 부호화 단위(2302)를 수직 방향 및 수평 방향으로 분할하여 N/2xN/2 크기의 제3 부호화 단위(2304)를 결정하거나 N/22xN/2 크기의 제3 부호화 단위(2314)를 결정하거나 N/2xN/22 크기의 제3 부호화 단위(2324)를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 N/2xN 크기의 제2 부호화 단위(2312)의 너비 및 높이 중 적어도 하나를 분할하여 제3 부호화 단위(예를 들면, 2304, 2314, 2324 등)를 결정할 수도 있다. 즉, 영상 복호화 장치(200)는 제2 부호화 단위(2312)를 수평 방향으로 분할하여 N/2xN/2 크기의 제3 부호화 단위(2304) 또는 N/2xN/22 크기의 제3 부호화 단위(2324)를 결정하거나 수직 방향 및 수평 방향으로 분할하여 N/22xN/2 크기의 제3 부호화 단위(2314)를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 NxN/2 크기의 제2 부호화 단위(2314)의 너비 및 높이 중 적어도 하나를 분할하여 제3 부호화 단위(예를 들면, 2304, 2314, 2324 등)를 결정할 수도 있다. 즉, 영상 복호화 장치(200)는 제2 부호화 단위(2312)를 수직 방향으로 분할하여 N/2xN/2 크기의 제3 부호화 단위(2304) 또는 N/22xN/2 크기의 제3 부호화 단위(2314)를 결정하거나 수직 방향 및 수평 방향으로 분할하여 N/2xN/22크기의 제3 부호화 단위(2324)를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 정사각형 형태의 부호화 단위(예를 들면, 2300, 2302, 2304)를 수평 방향 또는 수직 방향으로 분할할 수 있다. 예를 들면, 2Nx2N 크기의 제1 부호화 단위(2300)를 수직 방향으로 분할하여 Nx2N 크기의 제1 부호화 단위(2310)를 결정하거나 수평 방향으로 분할하여 2NxN 크기의 제1 부호화 단위(2320)를 결정할 수 있다. 일 실시예에 따라 심도가 부호화 단위의 가장 긴 변의 길이에 기초하여 결정되는 경우, 2Nx2N 크기의 제1 부호화 단위(2300, 2302 또는 2304)가 수평 방향 또는 수직 방향으로 분할되어 결정되는 부호화 단위의 심도는 제1 부호화 단위(2300, 2302 또는 2304)의 심도와 동일할 수 있다.
일 실시예에 따라 제3 부호화 단위(2314 또는 2324)의 너비 및 높이는 제1 부호화 단위(2310 또는 2320)의 1/22배에 해당할 수 있다. 제1 부호화 단위(2310 또는 2320)의 심도가 D인 경우 제1 부호화 단위(2310 또는 2320)의 너비 및 높이의 1/2배인 제2 부호화 단위(2312 또는 2314)의 심도는 D+1일 수 있고, 제1 부호화 단위(2310 또는 2320)의 너비 및 높이의 1/22배인 제3 부호화 단위(2314 또는 2324)의 심도는 D+2일 수 있다.
도 24는 일 실시예에 따라 부호화 단위들의 형태 및 크기에 따라 결정될 수 있는 심도 및 부호화 단위 구분을 위한 인덱스(part index, 이하 PID)를 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 정사각형 형태의 제1 부호화 단위(2400)를 분할하여 다양한 형태의 제2 부호화 단위를 결정할 수 있다. 도 24를 참조하면, 영상 복호화 장치(200)는 분할 형태 정보에 따라 제1 부호화 단위(2400)를 수직 방향 및 수평 방향 중 적어도 하나의 방향으로 분할하여 제2 부호화 단위(2402a, 2402b, 2404a, 2404b, 2406a, 2406b, 2406c, 2406d)를 결정할 수 있다. 즉, 영상 복호화 장치(200)는 제1 부호화 단위(2400)에 대한 분할 형태 정보에 기초하여 제2 부호화 단위(2402a, 2402b, 2404a, 2404b, 2406a, 2406b, 2406c, 2406d)를 결정할 수 있다.
일 실시예에 따라 정사각형 형태의 제1 부호화 단위(2400)에 대한 분할 형태 정보에 따라 결정되는 제2 부호화 단위(2402a, 2402b, 2404a, 2404b, 2406a, 2406b, 2406c, 2406d)는 긴 변의 길이에 기초하여 심도가 결정될 수 있다. 예를 들면, 정사각형 형태의 제1 부호화 단위(2400)의 한 변의 길이와 비-정사각형 형태의 제2 부호화 단위(2402a, 2402b, 2404a, 2404b)의 긴 변의 길이가 동일하므로, 제1 부호화 단위(2400)와 비-정사각형 형태의 제2 부호화 단위(2402a, 2402b, 2404a, 2404b)의 심도는 D로 동일하다고 볼 수 있다. 이에 반해 영상 복호화 장치(200)가 분할 형태 정보에 기초하여 제1 부호화 단위(2400)를 4개의 정사각형 형태의 제2 부호화 단위(2406a, 2406b, 2406c, 2406d)로 분할한 경우, 정사각형 형태의 제2 부호화 단위(2406a, 2406b, 2406c, 2406d)의 한 변의 길이는 제1 부호화 단위(2400)의 한 변의 길이의 1/2배 이므로, 제2 부호화 단위(2406a, 2406b, 2406c, 2406d)의 심도는 제1 부호화 단위(2400)의 심도인 D보다 한 심도 하위인 D+1의 심도일 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 높이가 너비보다 긴 형태의 제1 부호화 단위(2410)를 분할 형태 정보에 따라 수평 방향으로 분할하여 복수개의 제2 부호화 단위(2412a, 2412b, 2414a, 2414b, 2414c)로 분할할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 너비가 높이보다 긴 형태의 제1 부호화 단위(2420)를 분할 형태 정보에 따라 수직 방향으로 분할하여 복수개의 제2 부호화 단위(2422a, 2422b, 2424a, 2424b, 2424c)로 분할할 수 있다.
일 실시예에 따라 비-정사각형 형태의 제1 부호화 단위(2410 또는 2420)에 대한 분할 형태 정보에 따라 결정되는 제2 부호화 단위(2412a, 2412b, 2414a, 2414b, 2116a, 2116b, 2116c, 2116d)는 긴 변의 길이에 기초하여 심도가 결정될 수 있다. 예를 들면, 정사각형 형태의 제2 부호화 단위(2412a, 2412b)의 한 변의 길이는 높이가 너비보다 긴 비-정사각형 형태의 제1 부호화 단위(2410)의 한 변의 길이의 1/2배이므로, 정사각형 형태의 제2 부호화 단위(2402a, 2402b, 2404a, 2404b)의 심도는 비-정사각형 형태의 제1 부호화 단위(2410)의 심도 D보다 한 심도 하위의 심도인 D+1이다.
나아가 영상 복호화 장치(200)가 분할 형태 정보에 기초하여 비-정사각형 형태의 제1 부호화 단위(2410)를 홀수개의 제2 부호화 단위(2414a, 2414b, 2414c)로 분할할 수 있다. 홀수개의 제2 부호화 단위(2414a, 2414b, 2414c)는 비-정사각형 형태의 제2 부호화 단위(2414a, 2414c) 및 정사각형 형태의 제2 부호화 단위(2414b)를 포함할 수 있다. 이 경우 비-정사각형 형태의 제2 부호화 단위(2414a, 2414c)의 긴 변의 길이 및 정사각형 형태의 제2 부호화 단위(2414b)의 한 변의 길이는 제1 부호화 단위(2410)의 한 변의 길이의 1/2배 이므로, 제2 부호화 단위(2414a, 2414b, 2414c)의 심도는 제1 부호화 단위(2410)의 심도인 D보다 한 심도 하위인 D+1의 심도일 수 있다. 영상 복호화 장치(200)는 제1 부호화 단위(2410)와 관련된 부호화 단위들의 심도를 결정하는 상기 방식에 대응하는 방식으로, 너비가 높이보다 긴 비-정사각형 형태의 제1 부호화 단위(2420)와 관련된 부호화 단위들의 심도를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 분할된 부호화 단위들의 구분을 위한 인덱스(PID)를 결정함에 있어서, 홀수개로 분할된 부호화 단위들이 서로 동일한 크기가 아닌 경우, 부호화 단위들 간의 크기 비율에 기초하여 인덱스를 결정할 수 있다. 도 24를 참조하면, 홀수개로 분할된 부호화 단위들(2414a, 2414b, 2414c) 중 가운데에 위치하는 부호화 단위(2414b)는 다른 부호화 단위들(2414a, 2414c)와 너비는 동일하지만 높이가 다른 부호화 단위들(2414a, 2414c)의 높이의 두 배일 수 있다. 즉, 이 경우 가운데에 위치하는 부호화 단위(2414b)는 다른 부호화 단위들(2414a, 2414c)의 두 개를 포함할 수 있다. 따라서, 스캔 순서에 따라 가운데에 위치하는 부호화 단위(2414b)의 인덱스(PID)가 1이라면 그 다음 순서에 위치하는 부호화 단위(2414c)는 인덱스가 2가 증가한 3일수 있다. 즉 인덱스의 값의 불연속성이 존재할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 이러한 분할된 부호화 단위들 간의 구분을 위한 인덱스의 불연속성의 존재 여부에 기초하여 홀수개로 분할된 부호화 단위들이 서로 동일한 크기가 아닌지 여부를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위로부터 분할되어 결정된 복수개의 부호화 단위들을 구분하기 위한 인덱스의 값에 기초하여 특정 분할 형태로 분할된 것인지를 결정할 수 있다. 도 24를 참조하면 영상 복호화 장치(200)는 높이가 너비보다 긴 직사각형 형태의 제1 부호화 단위(2410)를 분할하여 짝수개의 부호화 단위(2412a, 2412b)를 결정하거나 홀수개의 부호화 단위(2414a, 2414b, 2414c)를 결정할 수 있다. 영상 복호화 장치(200)는 복수개의 부호화 단위 각각을 구분하기 위하여 각 부호화 단위를 나타내는 인덱스(PID)를 이용할 수 있다. 일 실시예에 따라 PID는 각각의 부호화 단위의 소정 위치의 샘플(예를 들면, 좌측 상단 샘플)에서 획득될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 부호화 단위의 구분을 위한 인덱스를 이용하여 분할되어 결정된 부호화 단위들 중 소정 위치의 부호화 단위를 결정할 수 있다. 일 실시예에 따라 높이가 너비보다 긴 직사각형 형태의 제1 부호화 단위(2410)에 대한 분할 형태 정보가 3개의 부호화 단위로 분할됨을 나타내는 경우 영상 복호화 장치(200)는 제1 부호화 단위(2410)를 3개의 부호화 단위(2414a, 2414b, 2414c)로 분할할 수 있다. 영상 복호화 장치(200)는 3개의 부호화 단위(2414a, 2414b, 2414c) 각각에 대한 인덱스를 할당할 수 있다. 영상 복호화 장치(200)는 홀수개로 분할된 부호화 단위 중 가운데 부호화 단위를 결정하기 위하여 각 부호화 단위에 대한 인덱스를 비교할 수 있다. 영상 복호화 장치(200)는 부호화 단위들의 인덱스에 기초하여 인덱스들 중 가운데 값에 해당하는 인덱스를 갖는 부호화 단위(2414b)를, 제1 부호화 단위(2410)가 분할되어 결정된 부호화 단위 중 가운데 위치의 부호화 단위로서 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 분할된 부호화 단위들의 구분을 위한 인덱스를 결정함에 있어서, 부호화 단위들이 서로 동일한 크기가 아닌 경우, 부호화 단위들 간의 크기 비율에 기초하여 인덱스를 결정할 수 있다. 도 24를 참조하면, 제1 부호화 단위(2410)가 분할되어 생성된 부호화 단위(2414b)는 다른 부호화 단위들(2414a, 2414c)와 너비는 동일하지만 높이가 다른 부호화 단위들(2414a, 2414c)의 높이의 두 배일 수 있다. 이 경우 가운데에 위치하는 부호화 단위(2414b)의 인덱스(PID)가 1이라면 그 다음 순서에 위치하는 부호화 단위(2414c)는 인덱스가 2가 증가한 3일수 있다. 이러한 경우처럼 균일하게 인덱스가 증가하다가 증가폭이 달라지는 경우, 영상 복호화 장치(200)는 다른 부호화 단위들과 다른 크기를 가지는 부호화 단위를 포함하는 복수개의 부호화 단위로 분할된 것으로 결정할 수 있다. 일 실시예에 따라 분할 형태 정보가 홀수개의 부호화 단위로 분할됨을 나타내는 경우, 영상 복호화 장치(200)는 홀수개의 부호화 단위 중 소정 위치의 부호화 단위(예를 들면 가운데 부호화 단위)가 다른 부호화 단위와 크기가 다른 형태로 현재 부호화 단위를 분할할 수 있다. 이 경우 영상 복호화 장치(200)는 부호화 단위에 대한 인덱스(PID)를 이용하여 다른 크기를 가지는 가운데 부호화 단위를 결정할 수 있다. 다만 상술한 인덱스, 결정하고자 하는 소정 위치의 부호화 단위의 크기 또는 위치는 일 실시예를 설명하기 위해 특정한 것이므로 이에 한정하여 해석되어서는 안되며, 다양한 인덱스, 부호화 단위의 위치 및 크기가 이용될 수 있는 것으로 해석되어야 한다.
일 실시예에 따라 영상 복호화 장치(200)는 부호화 단위의 재귀적인 분할이 시작되는 소정의 데이터 단위를 이용할 수 있다.
도 25는 일 실시예에 따라 픽쳐에 포함되는 복수개의 소정의 데이터 단위에 따라 복수개의 부호화 단위들이 결정된 것을 도시한다.
일 실시예에 따라 소정의 데이터 단위는 부호화 단위가 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 이용하여 재귀적으로 분할되기 시작하는 데이터 단위로 정의될 수 있다. 즉, 현재 픽쳐를 분할하는 복수개의 부호화 단위들이 결정되는 과정에서 이용되는 최상위 심도의 부호화 단위에 해당할 수 있다. 이하에서는 설명 상 편의를 위해 이러한 소정의 데이터 단위를 기준 데이터 단위라고 지칭하도록 한다.
일 실시예에 따라 기준 데이터 단위는 소정의 크기 및 형태를 나타낼 수 있다. 일 실시예에 따라, 기준 부호화 단위는 MxN의 샘플들을 포함할 수 있다. 여기서 M 및 N은 서로 동일할 수도 있으며, 2의 승수로 표현되는 정수일 수 있다. 즉, 기준 데이터 단위는 정사각형 또는 비-정사각형의 형태를 나타낼 수 있으며, 이후에 정수개의 부호화 단위로 분할될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 픽쳐를 복수개의 기준 데이터 단위로 분할할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 현재 픽쳐를 분할하는 복수개의 기준 데이터 단위를 각각의 기준 데이터 단위에 대한 분할 정보를 이용하여 분할할 수 있다. 이러한 기준 데이터 단위의 분할 과정은 쿼드 트리(quad-tree)구조를 이용한 분할 과정에 대응될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 픽쳐에 포함되는 기준 데이터 단위가 가질 수 있는 최소 크기를 미리 결정할 수 있다. 이에 따라, 영상 복호화 장치(200)는 최소 크기 이상의 크기를 갖는 다양한 크기의 기준 데이터 단위를 결정할 수 있고, 결정된 기준 데이터 단위를 기준으로 블록 형태 정보 및 분할 형태 정보를 이용하여 적어도 하나의 부호화 단위를 결정할 수 있다.
도 25를 참조하면, 영상 복호화 장치(200)는 정사각형 형태의 기준 부호화 단위(2500)를 이용할 수 있고, 또는 비-정사각형 형태의 기준 부호화 단위(2502)를 이용할 수도 있다. 일 실시예에 따라 기준 부호화 단위의 형태 및 크기는 적어도 하나의 기준 부호화 단위를 포함할 수 있는 다양한 데이터 단위(예를 들면, 시퀀스(sequence), 픽쳐(picture), 슬라이스(slice), 슬라이스 세그먼트(slice segment), 최대부호화단위 등)에 따라 결정될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)의 수신부(210)는 기준 부호화 단위의 형태에 대한 정보 및 기준 부호화 단위의 크기에 대한 정보 중 적어도 하나를 상기 다양한 데이터 단위마다 비트스트림으로부터 획득할 수 있다. 정사각형 형태의 기준 부호화 단위(2500)에 포함되는 적어도 하나의 부호화 단위가 결정되는 과정은 도 13의 현재 부호화 단위가 분할되는 과정을 통해 상술하였고, 비-정사각형 형태의 기준 부호화 단위(2500)에 포함되는 적어도 하나의 부호화 단위가 결정되는 과정은 도 14의 현재 부호화 단위(1400 또는 1450)가 분할되는 과정을 통해 상술하였으므로 자세한 설명은 생략하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 소정의 조건에 기초하여 미리 결정되는 일부 데이터 단위에 따라 기준 부호화 단위의 크기 및 형태를 결정하기 위하여, 기준 부호화 단위의 크기 및 형태를 식별하기 위한 인덱스를 이용할 수 있다. 즉, 수신부(210)는 비트스트림으로부터 상기 다양한 데이터 단위(예를 들면, 시퀀스, 픽쳐, 슬라이스, 슬라이스 세그먼트, 최대부호화단위 등) 중 소정의 조건(예를 들면 슬라이스 이하의 크기를 갖는 데이터 단위)을 만족하는 데이터 단위로서 슬라이스, 슬라이스 세그먼트, 최대부호화 단위 등 마다, 기준 부호화 단위의 크기 및 형태의 식별을 위한 인덱스만을 획득할 수 있다. 영상 복호화 장치(200)는 인덱스를 이용함으로써 상기 소정의 조건을 만족하는 데이터 단위마다 기준 데이터 단위의 크기 및 형태를 결정할 수 있다. 기준 부호화 단위의 형태에 대한 정보 및 기준 부호화 단위의 크기에 대한 정보를 상대적으로 작은 크기의 데이터 단위마다 비트스트림으로부터 획득하여 이용하는 경우, 비트스트림의 이용 효율이 좋지 않을 수 있으므로, 기준 부호화 단위의 형태에 대한 정보 및 기준 부호화 단위의 크기에 대한 정보를 직접 획득하는 대신 상기 인덱스만을 획득하여 이용할 수 있다. 이 경우 기준 부호화 단위의 크기 및 형태를 나타내는 인덱스에 대응하는 기준 부호화 단위의 크기 및 형태 중 적어도 하나는 미리 결정되어 있을 수 있다. 즉, 영상 복호화 장치(200)는 미리 결정된 기준 부호화 단위의 크기 및 형태 중 적어도 하나를 인덱스에 따라 선택함으로써, 인덱스 획득의 기준이 되는 데이터 단위에 포함되는 기준 부호화 단위의 크기 및 형태 중 적어도 하나를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 하나의 최대 부호화 단위에 포함하는 적어도 하나의 기준 부호화 단위를 이용할 수 있다. 즉, 영상을 분할하는 최대 부호화 단위에는 적어도 하나의 기준 부호화 단위가 포함될 수 있고, 각각의 기준 부호화 단위의 재귀적인 분할 과정을 통해 부호화 단위가 결정될 수 있다. 일 실시예에 따라 최대 부호화 단위의 너비 및 높이 중 적어도 하나는 기준 부호화 단위의 너비 및 높이 중 적어도 하나의 정수배에 해당할 수 있다. 일 실시예에 따라 기준 부호화 단위의 크기는 최대부호화단위를 쿼드 트리 구조에 따라 n번 분할한 크기일 수 있다. 즉, 영상 복호화 장치(200)는 최대부호화단위를 쿼드 트리 구조에 따라 n 번 분할하여 기준 부호화 단위를 결정할 수 있고, 다양한 실시예들에 따라 기준 부호화 단위를 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 분할할 수 있다.
도 26은 일 실시예에 따라 픽쳐(2600)에 포함되는 기준 부호화 단위의 결정 순서를 결정하는 기준이 되는 프로세싱 블록을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 픽쳐를 분할하는 적어도 하나의 프로세싱 블록을 결정할 수 있다. 프로세싱 블록이란, 영상을 분할하는 적어도 하나의 기준 부호화 단위를 포함하는 데이터 단위로서, 프로세싱 블록에 포함되는 적어도 하나의 기준 부호화 단위는 특정 순서대로 결정될 수 있다. 즉, 각각의 프로세싱 블록에서 결정되는 적어도 하나의 기준 부호화 단위의 결정 순서는 기준 부호화 단위가 결정될 수 있는 다양한 순서의 종류 중 하나에 해당할 수 있으며, 각각의 프로세싱 블록에서 결정되는 기준 부호화 단위 결정 순서는 프로세싱 블록마다 상이할 수 있다. 프로세싱 블록마다 결정되는 기준 부호화 단위의 결정 순서는 래스터 스캔(raster scan), Z 스캔(Z-scan), N 스캔(N-scan), 우상향 대각 스캔(up-right diagonal scan), 수평적 스캔(horizontal scan), 수직적 스캔(vertical scan) 등 다양한 순서 중 하나일 수 있으나, 결정될 수 있는 순서는 상기 스캔 순서들에 한정하여 해석되어서는 안 된다.
일 실시예에 따라 영상 복호화 장치(200)는 프로세싱 블록의 크기에 대한 정보를 획득하여 영상에 포함되는 적어도 하나의 프로세싱 블록의 크기를 결정할 수 있다. 영상 복호화 장치(200)는 프로세싱 블록의 크기에 대한 정보를 비트스트림으로부터 획득하여 영상에 포함되는 적어도 하나의 프로세싱 블록의 크기를 결정할 수 있다. 이러한 프로세싱 블록의 크기는 프로세싱 블록의 크기에 대한 정보가 나타내는 데이터 단위의 소정의 크기일 수 있다.
일 실시예에 따라 영상 복호화 장치(200)의 수신부(210)는 비트스트림으로부터 프로세싱 블록의 크기에 대한 정보를 특정의 데이터 단위마다 획득할 수 있다. 예를 들면 프로세싱 블록의 크기에 대한 정보는 영상, 시퀀스, 픽쳐, 슬라이스, 슬라이스 세그먼트 등의 데이터 단위로 비트스트림으로부터 획득될 수 있다. 즉 수신부(210)는 상기 여러 데이터 단위마다 비트스트림으로부터 프로세싱 블록의 크기에 대한 정보를 획득할 수 있고 영상 복호화 장치(200)는 획득된 프로세싱 블록의 크기에 대한 정보를 이용하여 픽쳐를 분할하는 적어도 하나의 프로세싱 블록의 크기를 결정할 수 있으며, 이러한 프로세싱 블록의 크기는 기준 부호화 단위의 정수배의 크기일 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 픽쳐(2600)에 포함되는 프로세싱 블록(2602, 2612)의 크기를 결정할 수 있다. 예를 들면, 영상 복호화 장치(200)는 비트스트림으로부터 획득된 프로세싱 블록의 크기에 대한 정보에 기초하여 프로세싱 블록의 크기를 결정할 수 있다. 도 26을 참조하면, 영상 복호화 장치(200)는 일 실시예에 따라 프로세싱 블록(2602, 2612)의 가로크기를 기준 부호화 단위 가로크기의 4배, 세로크기를 기준 부호화 단위의 세로크기의 4배로 결정할 수 있다. 영상 복호화 장치(200)는 적어도 하나의 프로세싱 블록 내에서 적어도 하나의 기준 부호화 단위가 결정되는 순서를 결정할 수 있다.
일 실시예에 따라, 영상 복호화 장치(200)는 프로세싱 블록의 크기에 기초하여 픽쳐(2600)에 포함되는 각각의 프로세싱 블록(2602, 2612)을 결정할 수 있고, 프로세싱 블록(2602, 2612)에 포함되는 적어도 하나의 기준 부호화 단위의 결정 순서를 결정할 수 있다. 일 실시예에 따라 기준 부호화 단위의 결정은 기준 부호화 단위의 크기의 결정을 포함할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 비트스트림으로부터 적어도 하나의 프로세싱 블록에 포함되는 적어도 하나의 기준 부호화 단위의 결정 순서에 대한 정보를 획득할 수 있고, 획득한 결정 순서에 대한 정보에 기초하여 적어도 하나의 기준 부호화 단위가 결정되는 순서를 결정할 수 있다. 결정 순서에 대한 정보는 프로세싱 블록 내에서 기준 부호화 단위들이 결정되는 순서 또는 방향으로 정의될 수 있다. 즉, 기준 부호화 단위들이 결정되는 순서는 각각의 프로세싱 블록마다 독립적으로 결정될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 특정 데이터 단위마다 기준 부호화 단위의 결정 순서에 대한 정보를 비트스트림으로부터 획득할 수 있다. 예를 들면, 수신부(210)는 기준 부호화 단위의 결정 순서에 대한 정보를 영상, 시퀀스, 픽쳐, 슬라이스, 슬라이스 세그먼트, 프로세싱 블록 등의 데이터 단위로마다 비트스트림으로부터 획득할 수 있다. 기준 부호화 단위의 결정 순서에 대한 정보는 프로세싱 블록 내에서의 기준 부호화 단위 결정 순서를 나타내므로, 결정 순서에 대한 정보는 정수개의 프로세싱 블록을 포함하는 특정 데이터 단위 마다 획득될 수 있다.
영상 복호화 장치(200)는 일 실시예에 따라 결정된 순서에 기초하여 적어도 하나의 기준 부호화 단위를 결정할 수 있다.
일 실시예에 따라 수신부(210)는 비트스트림으로부터 프로세싱 블록(2602, 2612)과 관련된 정보로서, 기준 부호화 단위 결정 순서에 대한 정보를 획득할 수 있고, 영상 복호화 장치(200)는 상기 프로세싱 블록(2602, 2612)에 포함된 적어도 하나의 기준 부호화 단위를 결정하는 순서를 결정하고 부호화 단위의 결정 순서에 따라 픽쳐(2600)에 포함되는 적어도 하나의 기준 부호화 단위를 결정할 수 있다. 도 26을 참조하면, 영상 복호화 장치(200)는 각각의 프로세싱 블록(2602, 2612)과 관련된 적어도 하나의 기준 부호화 단위의 결정 순서(2604, 2614)를 결정할 수 있다. 예를 들면, 기준 부호화 단위의 결정 순서에 대한 정보가 프로세싱 블록마다 획득되는 경우, 각각의 프로세싱 블록(2602, 2612)과 관련된 기준 부호화 단위 결정 순서는 프로세싱 블록마다 상이할 수 있다. 프로세싱 블록(2602)과 관련된 기준 부호화 단위 결정 순서(2604)가 래스터 스캔(raster scan)순서인 경우, 프로세싱 블록(2602)에 포함되는 기준 부호화 단위는 래스터 스캔 순서에 따라 결정될 수 있다. 이에 반해 다른 프로세싱 블록(2612)과 관련된 기준 부호화 단위 결정 순서(2614)가 래스터 스캔 순서의 역순인 경우, 프로세싱 블록(2612)에 포함되는 기준 부호화 단위는 래스터 스캔 순서의 역순에 따라 결정될 수 있다.
영상 복호화 장치(200)는 일 실시예에 따라, 결정된 적어도 하나의 기준 부호화 단위를 복호화할 수 있다. 영상 복호화 장치(200)는 상술한 실시예를 통해 결정된 기준 부호화 단위에 기초하여 영상을 복호화 할 수 있다. 기준 부호화 단위를 복호화 하는 방법은 영상을 복호화 하는 다양한 방법들을 포함할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위의 형태를 나타내는 블록 형태 정보 또는 현재 부호화 단위를 분할하는 방법을 나타내는 분할 형태 정보를 비트스트림으로부터 획득하여 이용할 수 있다. 블록 형태 정보 또는 분할 형태 정보는 다양한 데이터 단위와 관련된 비트스트림에 포함될 수 있다. 예를 들면, 영상 복호화 장치(200)는 시퀀스 파라미터 세트(sequence parameter set), 픽쳐 파라미터 세트(picture parameter set), 비디오 파라미터 세트(video parameter set), 슬라이스 헤더(slice header), 슬라이스 세그먼트 헤더(slice segment header)에 포함된 블록 형태 정보 또는 분할 형태 정보를 이용할 수 있다. 나아가, 영상 복호화 장치(200)는 최대 부호화 단위, 기준 부호화 단위, 프로세싱 블록마다 비트스트림으로부터 블록 형태 정보 또는 분할 형태 정보에 대응하는 신택스를 비트스트림으로부터 획득하여 이용할 수 있다.
이제까지 다양한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

Claims (15)

  1. 부호화된 영상의 비트스트림을 수신하는 단계;
    상기 부호화된 영상을 복원한 복원 데이터를 생성하는 단계;
    상기 비트스트림으로부터 상기 부호화된 영상의 컨텐츠 타입에 관한 정보를 획득하는 단계;
    상기 컨텐츠 타입에 관한 정보에 기초하여, 하나 이상의 컴퓨터를 이용하여 인루프 필터링을 수행하도록 학습된 DNN(Deep Neural Network) 필터 모델을 결정하는 단계; 및
    상기 복원 데이터를 상기 결정된 DNN 필터 모델에 적용하여 인루프 필터링을 수행하는 단계를 포함하는, 영상 복호화 방법.
  2. 제 1 항에 있어서,
    상기 인루프 필터링은 디블록킹 필터링(Deblocking Filtering), 샘플 적응적 오프셋(Sample Adaptive Offset) 및 적응적 루프 필터링(Adaptive Loop Filtering) 중 적어도 하나의 동작을 포함하는, 영상 복호화 방법.
  3. 제 1 항에 있어서,
    상기 컨텐츠 타입에 관한 정보는, 상기 부호화된 영상의 픽셀 복잡도 및 움직임 정도를 나타내는 정보인, 영상 복호화 방법.
  4. 제 1 항에 있어서,
    상기 DNN 필터 모델은, 상기 DNN 필터 모델을 구성하는 복수의 네트워크 노드들 간의 연결 관계 및 상기 복수의 네트워크 노드들 각각의 가중치에 기반한 연산에 따라 상기 복원 데이터의 양자화 에러를 보상하도록 학습된 네트워크 모델인, 영상 복호화 방법.
  5. 제 1 항에 있어서,
    상기 DNN 필터 모델을 결정하는 단계는,
    상기 컨텐츠 타입에 관한 정보에 기초하여, 복수의 DNN 필터 모델 후보 중에서 상기 부호화된 영상의 컨텐츠 타입에 대응하는 상기 DNN 필터 모델을 결정하는 단계를 포함하는, 영상 복호화 방법.
  6. 제 5 항에 있어서,
    상기 복수의 DNN 필터 모델 후보의 각각은, 미리 설정된 컨텐츠 타입에 대해 인루프 필터링을 수행하도록 학습된 것인, 영상 복호화 방법.
  7. 제 5 항에 있어서,
    상기 DNN 필터 모델을 결정하는 단계는,
    상기 복수의 DNN 필터 모델 후보 중에서 상기 부호화된 영상의 압축 강도에 대응하는 상기 DNN 필터 모델을 결정하는 단계를 더 포함하는, 영상 복호화 방법.
  8. 제 1 항에 있어서,
    상기 인루프 필터링을 수행하는 단계는,
    상기 복원 데이터 및 복원 픽처 버퍼에 저장된 하나 이상의 참조 영상을 상기 결정된 DNN 필터 모델에 적용하여 인루프 필터링을 수행하는 단계를 포함하는, 영상 복호화 방법.
  9. 제 1 항에 있어서,
    상기 인루프 필터링은 CNN(Convolutional Neural Network) 학습 모델에 기반하여 수행되는, 영상 복호화 방법.
  10. 부호화된 영상의 비트스트림을 수신하는 수신부; 및
    상기 부호화된 영상을 복원한 복원 데이터를 생성하고, 상기 비트스트림으로부터 상기 부호화된 영상의 컨텐츠 타입에 관한 정보를 획득하고, 상기 컨텐츠 타입에 관한 정보에 기초하여, 하나 이상의 컴퓨터를 이용하여 인루프 필터링을 수행하도록 학습된 DNN(Deep Neural Network) 필터 모델을 결정하고, 상기 복원 데이터를 상기 결정된 DNN 필터 모델에 적용하여 인루프 필터링을 수행하는 복호화부를 포함하는, 영상 복호화 장치.
  11. 입력 영상의 컨텐츠 타입을 판별하는 단계;
    상기 컨텐츠 타입에 기초하여, 하나 이상의 컴퓨터를 이용하여 인루프 필터링을 수행하도록 학습된 DNN(Deep Neural Network) 필터 모델을 결정하는 단계;
    부호화된 레지듀얼 데이터로부터 복원된 상기 입력 영상의 복원 데이터를, 상기 결정된 DNN 필터 모델에 적용하여 인루프 필터링된 데이터를 생성하는 단계;
    상기 인루프 필터링된 데이터에 기초하여 상기 입력 영상을 예측한 예측 데이터를 생성하고, 상기 입력 영상 및 상기 예측 데이터를 이용하여 레지듀얼 데이터를 생성하는 단계;
    상기 컨텐츠 타입에 관한 정보 및 상기 레지듀얼 데이터를 부호화한 비트스트림을 생성하는 단계; 및
    상기 비트스트림을 전송하는 단계를 포함하는, 영상 부호화 방법.
  12. 제 11 항에 있어서,
    상기 인루프 필터링은 디블록킹 필터링(Deblocking Filtering), 샘플 적응적 오프셋(Sample Adaptive Offset) 및 적응적 루프 필터링(Adaptive Loop Filtering) 중 적어도 하나의 동작을 포함하는, 영상 복호화 방법.
  13. 제 11 항에 있어서,
    상기 컨텐츠 타입에 관한 정보는, 상기 입력 영상의 픽셀 복잡도 및 움직임 정도를 나타내는 정보인, 영상 부호화 방법.
  14. 제 11 항에 있어서,
    상기 DNN 필터 모델은, 상기 DNN 필터 모델을 구성하는 복수의 네트워크 노드들 간의 연결 관계 및 상기 복수의 네트워크 노드들 각각의 가중치에 기반한 연산에 따라 상기 복원된 데이터의 양자화 에러를 보상하도록 학습된 네트워크 모델인, 영상 부호화 방법.
  15. 제 11 항에 있어서,
    상기 DNN 필터 모델을 결정하는 단계는,
    상기 컨텐츠 타입에 관한 정보에 기초하여, 복수의 DNN 필터 모델 후보 중에서 상기 부호화된 영상의 컨텐츠 타입에 대응하는 상기 DNN 필터 모델을 결정하는 단계를 포함하는, 영상 부호화 방법.
KR1020197038236A 2017-07-06 2018-02-06 영상을 부호화 또는 복호화하는 방법 및 장치 KR102553147B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KRPCT/KR2017/007263 2017-07-06
PCT/KR2017/007263 WO2019009448A1 (ko) 2017-07-06 2017-07-06 영상을 부호화 또는 복호화하는 방법 및 장치
PCT/KR2018/001539 WO2019009488A1 (ko) 2017-07-06 2018-02-06 영상을 부호화 또는 복호화하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200016885A true KR20200016885A (ko) 2020-02-17
KR102553147B1 KR102553147B1 (ko) 2023-07-07

Family

ID=64950160

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197038236A KR102553147B1 (ko) 2017-07-06 2018-02-06 영상을 부호화 또는 복호화하는 방법 및 장치

Country Status (5)

Country Link
US (1) US11218695B2 (ko)
EP (1) EP3621304A4 (ko)
KR (1) KR102553147B1 (ko)
CN (1) CN111052740B (ko)
WO (2) WO2019009448A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023014065A1 (ko) * 2021-08-06 2023-02-09 삼성전자 주식회사 영상에 대한 ai 기반 필터링을 위한 장치 및 방법
WO2023014031A1 (ko) * 2021-08-06 2023-02-09 삼성전자 주식회사 신경망 기반 디블로킹 필터링을 이용하는 영상 처리 방법 및 장치
WO2024029873A1 (ko) * 2022-08-04 2024-02-08 삼성전자 주식회사 크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US11037330B2 (en) * 2017-04-08 2021-06-15 Intel Corporation Low rank matrix compression
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
CN116170590A (zh) * 2017-08-10 2023-05-26 夏普株式会社 图像滤波装置、图像解码装置以及图像编码装置
EP3451293A1 (en) * 2017-08-28 2019-03-06 Thomson Licensing Method and apparatus for filtering with multi-branch deep learning
CN111133756B (zh) * 2017-10-12 2022-04-19 联发科技股份有限公司 用于视频编码的神经网络方法和装置
WO2019182159A1 (ja) * 2018-03-23 2019-09-26 シャープ株式会社 画像フィルタ装置、画像復号装置、及び画像符号化装置
US20190351914A1 (en) * 2018-05-15 2019-11-21 Pony.ai, Inc. System and method for identifying suspicious points in driving records and improving driving
US10863206B2 (en) * 2018-11-08 2020-12-08 Alibaba Group Holding Limited Content-weighted deep residual learning for video in-loop filtering
US10999606B2 (en) * 2019-01-08 2021-05-04 Intel Corporation Method and system of neural network loop filtering for video coding
US11265580B2 (en) * 2019-03-22 2022-03-01 Tencent America LLC Supplemental enhancement information messages for neural network based video post processing
US20220224907A1 (en) * 2019-05-10 2022-07-14 Nippon Telegraph And Telephone Corporation Encoding apparatus, encoding method, and program
US10785681B1 (en) * 2019-05-31 2020-09-22 Huawei Technologies Co., Ltd. Methods and apparatuses for feature-driven machine-to-machine communications
US11443057B2 (en) * 2019-10-24 2022-09-13 At&T Intellectual Property I, L.P. Encoding and concealing information using deep learning
CN110991201B (zh) * 2019-11-25 2023-04-18 浙江大华技术股份有限公司 条码检测方法及相关装置
JP7479137B2 (ja) * 2019-12-03 2024-05-08 キヤノン株式会社 信号処理装置および信号処理方法、システム並びにプログラム
CN113727106B (zh) 2020-05-25 2024-03-26 腾讯科技(深圳)有限公司 视频编码、解码方法、装置、电子设备及存储介质
CN113727103B (zh) * 2020-05-25 2022-08-12 腾讯科技(深圳)有限公司 视频编码、解码方法、装置、电子设备及存储介质
US11140393B1 (en) * 2020-06-10 2021-10-05 Novatek Microelectronics Corp. Display device, encoder with adaptive quantization parameter and image processing method
CN113784146A (zh) * 2020-06-10 2021-12-10 华为技术有限公司 环路滤波方法和装置
CN111711824B (zh) * 2020-06-29 2021-07-02 腾讯科技(深圳)有限公司 视频编解码中的环路滤波方法、装置、设备及存储介质
CN114066914A (zh) * 2020-07-30 2022-02-18 华为技术有限公司 一种图像处理方法以及相关设备
CN112468826B (zh) * 2020-10-15 2021-09-24 山东大学 一种基于多层gan的vvc环路滤波方法及系统
TWI806199B (zh) * 2020-10-20 2023-06-21 大陸商華為技術有限公司 特徵圖資訊的指示方法,設備以及電腦程式
US11716469B2 (en) * 2020-12-10 2023-08-01 Lemon Inc. Model selection in neural network-based in-loop filter for video coding
US11599360B2 (en) * 2020-12-14 2023-03-07 Cognitive Science & Solutions, Inc. AI synaptic coprocessor
US20220201295A1 (en) * 2020-12-21 2022-06-23 Electronics And Telecommunications Research Institute Method, apparatus and storage medium for image encoding/decoding using prediction
WO2022139617A1 (en) * 2020-12-24 2022-06-30 Huawei Technologies Co., Ltd. Encoding with signaling of feature map data
CN112750094B (zh) * 2020-12-30 2022-12-09 合肥工业大学 一种视频处理方法及系统
US20220222505A1 (en) * 2021-01-11 2022-07-14 Tencent America LLC Multi-task neural network by micro-structured parameter sharing for multi-quality loop filter
US11490085B2 (en) * 2021-01-14 2022-11-01 Tencent America LLC Model sharing by masked neural network for loop filter with quality inputs
EP4083874A4 (en) 2021-03-04 2023-03-22 Samsung Electronics Co., Ltd. IMAGE PROCESSING DEVICE AND METHOD OF OPERATION
EP4300963A4 (en) * 2021-03-30 2024-05-08 Panasonic Intellectual Property Corporation of America IMAGE ENCODING METHOD, IMAGE DECODING METHOD, IMAGE PROCESSING METHOD, IMAGE ENCODING DEVICE, AND IMAGE DECODING DEVICE
US20220337824A1 (en) * 2021-04-07 2022-10-20 Beijing Dajia Internet Information Technology Co., Ltd. System and method for applying neural network based sample adaptive offset for video coding
US11647216B2 (en) * 2021-04-12 2023-05-09 Tencent America LLC Techniques for signaling neural network topology, parameters, and processing information in video stream
US11917162B2 (en) * 2021-04-30 2024-02-27 Tencent America LLC Content-adaptive online training with feature substitution in neural image compression
KR20220157147A (ko) * 2021-05-20 2022-11-29 삼성전자주식회사 이미지를 처리하기 위한 방법 및 장치
CN113422966B (zh) * 2021-05-27 2024-05-24 绍兴市北大信息技术科创中心 一种多模型cnn环路滤波方法
WO2023000182A1 (zh) * 2021-07-20 2023-01-26 Oppo广东移动通信有限公司 图像编解码及处理方法、装置及设备
JP2024527952A (ja) * 2021-08-06 2024-07-26 三星電子株式会社 映像に対するai基盤フィルタリングのための装置及びその方法
EP4354874A4 (en) * 2021-08-06 2024-09-25 Samsung Electronics Co Ltd IMAGE PROCESSING METHOD AND APPARATUS WITH NEURAL NETWORK BASED DEBLOCKING FILTERING
US20230104702A1 (en) * 2021-10-01 2023-04-06 Disney Enterprises, Inc. Transformer-based shape models
EP4413729A1 (en) * 2021-10-08 2024-08-14 Telefonaktiebolaget LM Ericsson (publ) Combining deblock filtering and another filtering for video encoding and/or decoding
CN114173130B (zh) * 2021-12-03 2023-02-10 电子科技大学 一种适用于低码率条件的深度神经网络的环路滤波方法
WO2024008814A1 (en) * 2022-07-05 2024-01-11 Telefonaktiebolaget Lm Ericsson (Publ) Filtering for video encoding and decoding
CN117412040A (zh) * 2022-07-06 2024-01-16 维沃移动通信有限公司 环路滤波方法、装置及设备
WO2024107021A1 (ko) * 2022-11-17 2024-05-23 한국전자통신연구원 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장하는 기록 매체
CN116702876B (zh) * 2023-04-27 2024-04-12 贵州大学 一种基于预处理的图像对抗防御方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090034622A1 (en) * 2007-08-01 2009-02-05 Her Majesty The Queen In Right Of Canada Represented By The Minister Of Industry Learning Filters For Enhancing The Quality Of Block Coded Still And Video Images
WO2017036370A1 (en) * 2015-09-03 2017-03-09 Mediatek Inc. Method and apparatus of neural network based processing in video coding

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101070981B1 (ko) 2009-11-05 2011-10-06 홍익대학교 산학협력단 경계선 성분 분류 기반 신경회로망 모델을 이용한 영상 화질 개선방법
JP6029984B2 (ja) 2010-03-09 2016-11-24 トムソン ライセンシングThomson Licensing 分類ベースのループ・フィルタのための方法と装置
CN110087091B (zh) * 2012-08-06 2021-11-12 Vid拓展公司 多层视频编码中用于空间层的采样栅格信息
US9870598B2 (en) * 2013-04-26 2018-01-16 Nvidia Corporation Low complexity adaptive filtering for mobile captures
KR102276854B1 (ko) * 2014-07-31 2021-07-13 삼성전자주식회사 인루프 필터 파라미터 예측을 사용하는 비디오 부호화 방법 및 그 장치, 비디오 복호화 방법 및 그 장치
JP6594966B2 (ja) * 2014-10-01 2019-10-23 エルジー エレクトロニクス インコーポレイティド 向上した予測フィルタを用いてビデオ信号をエンコーディング、デコーディングする方法及び装置
US11221990B2 (en) 2015-04-03 2022-01-11 The Mitre Corporation Ultra-high compression of images based on deep learning
US9501724B1 (en) 2015-06-09 2016-11-22 Adobe Systems Incorporated Font recognition and font similarity learning using a deep neural network
WO2016199330A1 (ja) * 2015-06-12 2016-12-15 パナソニックIpマネジメント株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
US9734567B2 (en) * 2015-06-24 2017-08-15 Samsung Electronics Co., Ltd. Label-free non-reference image quality assessment via deep neural network
KR102309910B1 (ko) * 2015-11-19 2021-10-08 한국전자기술연구원 비디오 부호화기의 최적 모드 결정 장치 및 최적 모드 결정을 이용한 비디오 부호화 방법
US10382770B2 (en) * 2017-02-06 2019-08-13 Google Llc Multi-level machine learning-based early termination in partition search for video encoding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090034622A1 (en) * 2007-08-01 2009-02-05 Her Majesty The Queen In Right Of Canada Represented By The Minister Of Industry Learning Filters For Enhancing The Quality Of Block Coded Still And Video Images
WO2017036370A1 (en) * 2015-09-03 2017-03-09 Mediatek Inc. Method and apparatus of neural network based processing in video coding

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023014065A1 (ko) * 2021-08-06 2023-02-09 삼성전자 주식회사 영상에 대한 ai 기반 필터링을 위한 장치 및 방법
WO2023014031A1 (ko) * 2021-08-06 2023-02-09 삼성전자 주식회사 신경망 기반 디블로킹 필터링을 이용하는 영상 처리 방법 및 장치
WO2024029873A1 (ko) * 2022-08-04 2024-02-08 삼성전자 주식회사 크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법

Also Published As

Publication number Publication date
WO2019009488A1 (ko) 2019-01-10
CN111052740B (zh) 2024-04-09
CN111052740A (zh) 2020-04-21
EP3621304A1 (en) 2020-03-11
US11218695B2 (en) 2022-01-04
WO2019009448A1 (ko) 2019-01-10
US20200120340A1 (en) 2020-04-16
KR102553147B1 (ko) 2023-07-07
EP3621304A4 (en) 2020-03-11

Similar Documents

Publication Publication Date Title
KR102553147B1 (ko) 영상을 부호화 또는 복호화하는 방법 및 장치
US11197013B2 (en) Method and device for encoding or decoding image
KR102594362B1 (ko) 영상을 부호화/복호화 하는 방법 및 그 장치
US11272188B2 (en) Compression for deep neural network
CN111868751B (zh) 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数
CN110059796B (zh) 卷积神经网络的生成方法及装置
CN113766228B (zh) 点云压缩方法、编码器、解码器及存储介质
CN110494892B (zh) 用于处理多通道特征图图像的方法和装置
KR20200009118A (ko) 영상을 부호화/복호화 하는 방법 및 그 장치
US20230336759A1 (en) Decoding with signaling of segmentation information
US20230353764A1 (en) Method and apparatus for decoding with signaling of feature map data
WO2022139617A1 (en) Encoding with signaling of feature map data
CN118786462A (zh) 使用通道间关联信息进行基于空间频率变换的图像修改
KR20240081971A (ko) 뉴럴 코덱 및 뉴럴 코덱의 학습 방법
Ferreira Compressed Domain Face Recognition Assessment
CN118803233A (zh) 一种解码、编码方法、装置及其设备
CN106023272B (zh) 基于新的学习函数的三维自组织映射图像编码方法
CN118119951A (zh) 用于联合优化训练和编码器侧下采样的系统和方法
CN117255205A (zh) 视频编解码方法及相应的设备
CN118972602A (zh) 一种解码、编码方法、装置及其设备
CN118972601A (zh) 一种解码、编码方法、装置及其设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant