KR102651878B1 - 영상을 부호화 또는 복호화하는 방법 및 장치 - Google Patents

영상을 부호화 또는 복호화하는 방법 및 장치 Download PDF

Info

Publication number
KR102651878B1
KR102651878B1 KR1020207000379A KR20207000379A KR102651878B1 KR 102651878 B1 KR102651878 B1 KR 102651878B1 KR 1020207000379 A KR1020207000379 A KR 1020207000379A KR 20207000379 A KR20207000379 A KR 20207000379A KR 102651878 B1 KR102651878 B1 KR 102651878B1
Authority
KR
South Korea
Prior art keywords
coding unit
data
learning model
current block
prediction
Prior art date
Application number
KR1020207000379A
Other languages
English (en)
Other versions
KR20200016943A (ko
Inventor
이종석
김재환
박영오
박정훈
전선영
최광표
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/KR2017/007270 external-priority patent/WO2019009452A1/ko
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20200016943A publication Critical patent/KR20200016943A/ko
Application granted granted Critical
Publication of KR102651878B1 publication Critical patent/KR102651878B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Discrete Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

DNN을 이용한 예측 영상 생성 기술이 개시된다. 개시된 일 실시예에 따른 영상 복호화 방법은, 부호화된 영상의 비트스트림을 수신하는 단계, 상기 부호화된 영상으로부터 분할된 하나 이상의 블록을 결정하는 단계, 상기 하나 이상의 블록 중 현재 블록에 대해 DNN(Deep Neural Network)에 기반한 예측을 수행하여 예측 데이터를 생성하는 단계, 상기 비트스트림으로부터 상기 현재 블록의 레지듀얼 데이터를 추출하는 단계; 및 상기 예측 데이터와 상기 레지듀얼 데이터를 이용하여 상기 현재 블록을 복원하는 단계를 포함한다.

Description

영상을 부호화 또는 복호화하는 방법 및 장치
본 개시는 기계 학습 알고리즘을 활용하는 인공지능(AI)을 이용하여 영상을 처리하는 방법과 관련된다. 구체적으로, 본 개시는 영상의 부호화 및 복호화 과정에서 딥 뉴럴 네트워크(DNN)를 이용하여 예측 영상을 생성하는 기술에 관한 것이다.
인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하며, 사용할수록 인식률이 향상되는 시스템이다
인공지능 기술은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(딥러닝) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다.
요소기술들은, 예로, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다.
특히, 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다.
다양한 실시예들에 따라 영상을 부호화/복호화하는 방법 및 장치를 제공한다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.
상기 기술적 과제를 해결하기 위한 일 실시예에 따른 영상 복호화 방법은, 부호화된 영상의 비트스트림을 수신하는 단계; 상기 부호화된 영상으로부터 분할된 하나 이상의 블록을 결정하는 단계; 상기 하나 이상의 블록 중 현재 블록을 예측하기 위한 주변 블록들(neighboring blocks)을 결정하는 단계; 하나 이상의 컴퓨터를 이용하여 영상의 블록을 예측하도록 설정된 DNN(Deep Neural Network) 학습 모델에 상기 주변 블록들을 적용하여, 상기 현재 블록의 예측 데이터를 생성하는 단계; 상기 비트스트림으로부터 상기 현재 블록의 레지듀얼 데이터를 추출하는 단계; 및 상기 예측 데이터와 상기 레지듀얼 데이터를 이용하여 상기 현재 블록을 복원하는 단계를 포함한다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 DNN 학습 모델은, 상기 DNN 학습 모델을 구성하는 복수의 네트워크 노드들 간의 연결 관계 및 상기 복수의 네트워크 노드들 각각의 가중치에 기반한 연산에 따라 상기 현재 블록의 원(original) 데이터를 예측하도록 학습된 네트워크 모델일 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 예측 데이터를 생성하는 단계는, 상기 주변 블록들을 제 1 DNN 학습 모델에 적용하여 제 1 예측을 수행함으로써 상기 현재 블록의 제 1 예측 데이터를 생성하는 단계; 상기 주변 블록들 및 상기 제 1 예측 데이터를 제 2 DNN 학습 모델에 적용하여 제 2 예측을 수행함으로써 상기 현재 블록의 제 2 예측 데이터를 생성하는 단계; 및 상기 제 1 예측 데이터 및 상기 제 2 예측 데이터를 이용하여 상기 예측 데이터를 생성하는 단계를 포함할 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 제 1 예측 데이터는 상기 현재 블록의 원 데이터를 예측한 데이터이고, 상기 제 2 예측 데이터는 상기 현재 블록의 원 데이터에서 상기 제 1 예측 데이터를 뺀 값을 예측한 데이터일 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 제 1 DNN 학습 모델은 RNN(Recurrent Neural Network) 학습 모델이고, 상기 제 2 DNN 학습 모델은 CNN(Convolutional Neural Network) 학습 모델일 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 제 1 예측 데이터를 생성하는 단계는, 상기 주변 블록들의 시퀀스를 시간 스텝(time step) 별로 소정 방향에 따라 상기 RNN 학습 모델에 입력하는 단계를 포함할 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 주변 블록들을 결정하는 단계는, 상기 현재 블록 이전에 복원된 블록들 중 상기 현재 블록에 인접한 인접 블록들(adjacent blocks)을 결정하는 단계; 및 상기 현재 블록으로부터 상기 인접 블록들을 향하는 각 방향에 위치한 블록을 상기 주변 블록들로서 결정하는 단계를 포함할 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 입력하는 단계는, 상기 현재 블록의 좌측 방향에 위치한 블록을 기준으로 시계 방향의 순서로 상기 각 방향에 위치한 블록을 상기 RNN 학습 모델에 입력하는 단계를 포함할 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 각 방향에 위치한 블록이 복수 개일 경우, 동일한 방향에 위치한 블록들 사이의 입력 순서는 상기 현재 블록에서 먼 위치의 블록으로부터 가까운 위치의 블록의 순서일 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 입력하는 단계는, 상기 주변 블록들을 Z 스캔의 순서로 상기 RNN 학습 모델에 입력하는 단계를 포함할 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 제 2 예측 데이터를 생성하는 단계는, 상기 CNN 학습 모델의 컨볼루션 레이어(convolutional layer)에 상기 제 1 예측 데이터 및 상기 현재 블록에 인접한 주변 복원 데이터를 입력하여, 복수의 필터를 이용한 컨볼루션 동작을 수행하는 단계를 포함할 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 예측 데이터를 생성하는 단계는, 상기 현재 블록이 참조하는 하나 이상의 참조 픽처 및 하나 이상의 참조 블록 위치를 결정하는 단계; 및 상기 하나 이상의 참조 픽처 및 상기 하나 이상의 참조 블록 위치를 상기 DNN 학습 모델에 입력하여 상기 예측 데이터를 생성하는 단계를 포함할 수 있다.
또한, 일 실시예에 따른 영상 복호화 방법에 있어서, 상기 DNN 학습 모델의 구조에 대한 정보는 상기 비트스트림의 비디오 파라미터 세트, 시퀀스 파라미터 세트 및 픽처 파라미터 세트 중 적어도 하나로부터 획득될 수 있다.
일 실시예에 따른 영상 복호화 장치는, 부호화된 영상의 비트스트림을 수신하는 수신부; 상기 부호화된 영상으로부터 분할된 하나 이상의 블록을 결정하는 블록 결정부; 상기 하나 이상의 블록 중 현재 블록을 예측하기 위한 주변 블록들(neighboring blocks)을 결정하고, 하나 이상의 컴퓨터를 이용하여 영상의 블록을 예측하도록 설정된 DNN(Deep Neural Network) 학습 모델에 상기 주변 블록들을 적용하여, 상기 현재 블록의 예측 데이터를 생성하는 예측부; 및 상기 비트스트림으로부터 상기 현재 블록의 레지듀얼 데이터를 추출하고, 상기 예측 데이터와 상기 레지듀얼 데이터를 이용하여 상기 현재 블록을 복원하는 복원부를 포함한다.
일 실시예에 따른 영상 부호화 방법은, 영상을 분할하는 하나 이상의 블록을 결정하는 단계; 상기 하나 이상의 블록 중 현재 블록을 예측하기 위한 주변 블록들(neighboring blocks)을 결정하는 단계; 하나 이상의 컴퓨터를 이용하여 영상의 블록을 예측하도록 설정된 DNN(Deep Neural Network) 학습 모델에 상기 주변 블록들을 적용하여, 상기 현재 블록의 예측 데이터를 생성하는 단계; 상기 현재 블록에 대응하는 원(original) 데이터와 상기 예측 데이터를 이용하여 상기 현재 블록의 레지듀얼 데이터를 생성하는 단계; 및 상기 레지듀얼 데이터를 부호화한 비트스트림을 생성하는 단계를 포함한다.
학습된 DNN에 기반한 예측을 수행함으로써, 예측 정보의 시그널링을 생략할 수 있으며, 부호화 및 복호화 효율을 높일 수 있다.
도 1은 일 실시예에 따른 영상 부호화 장치(100)의 상세한 블록도를 도시한다.
도 2는 일 실시예에 따른 영상 복호화 장치(200)의 상세한 블록도를 도시한다.
도 3은 인트라 예측 정보의 일 예를 나타낸 도면이다.
도 4는 인터 예측 정보의 일 예를 나타낸 도면이다.
도 5는 일 실시예에 따른 DNN 학습 모델에 기반한 예측 과정을 개념적으로 나타낸 도면이다.
도 6은 일 실시예에 따른 DNN 학습 모델 기반 인트라 예측 과정을 나타낸 도면이다.
도 7은 DNN 학습 모델의 일 예인 RNN 학습 모델을 나타내는 도면이다.
도 8a 내지 8c는 다양한 RNN의 구조를 나타내는 도면이다.
도 9a는 제 1 예측 데이터를 생성하기 위한 RNN 입력 데이터의 일 예를 나타내는 도면이다.
도 9b는 제 1 예측 데이터를 생성하기 위한 RNN 입력 데이터의 다른 예를 나타내는 도면이다.
도 9c는 제 1 예측 데이터를 생성하기 위한 RNN 입력 데이터의 또 다른 일 예를 나타내는 도면이다.
도 10a 내지 10f는 다양한 CNN의 구조를 나타내는 도면이다.
도 11은 제 2 예측 데이터를 생성하기 위한 CNN 입력 데이터의 일 예를 나타내는 도면이다.
도 12는 일 실시예에 따른 DNN 학습 모델 기반 인터 예측 과정을 나타낸 도면이다.
도 13은 일 실시예에 따른 비트스트림의 구조를 나타낸 도면이다.
도 14는 일 실시예에 따른 영상 부호화 장치(1400)의 개략적인 블록도를 도시한다.
도 15는 일 실시예에 따른 영상 복호화 장치(1500)의 개략적인 블록도를 도시한다.
도 16은 일 실시예에 따른 영상 부호화 방법을 나타낸 플로우 차트이다.
도 17은 일 실시예에 따른 영상 복호화 방법을 나타낸 플로우 차트이다.
도 18은 일 실시예에 따라 현재 부호화 단위가 분할되어 적어도 하나의 부호화 단위가 결정되는 과정을 도시한다.
도 19는 일 실시예에 따라 비-정사각형의 형태인 부호화 단위가 분할되어 적어도 하나의 부호화 단위가 결정되는 과정을 도시한다.
도 20은 일 실시예에 따라 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 부호화 단위가 분할되는 과정을 도시한다.
도 21은 일 실시예에 따라 홀수개의 부호화 단위들 중 소정의 부호화 단위가 결정되는 방법을 도시한다.
도 22는 일 실시예에 따라 현재 부호화 단위가 분할되어 복수개의 부호화 단위들이 결정되는 경우, 복수개의 부호화 단위들이 처리되는 순서를 도시한다.
도 23은 일 실시예에 따라 소정의 순서로 부호화 단위가 처리될 수 없는 경우, 현재 부호화 단위가 홀수개의 부호화 단위로 분할되는 것으로 결정되는 과정을 도시한다.
도 24는 일 실시예에 따라 제1 부호화 단위가 분할되어 적어도 하나의 부호화 단위가 결정되는 과정을 도시한다.
도 25는 일 실시예에 따라 제1 부호화 단위가 분할되어 결정된 비-정사각형 형태의 제2 부호화 단위가 소정의 조건을 만족하는 경우, 제2 부호화 단위가 분할될 수 있는 형태가 제한되는 것을 도시한다.
도 26은 일 실시예에 따라 분할 형태 정보가 4개의 정사각형 형태의 부호화 단위로 분할하는 것을 나타낼 수 없는 경우, 정사각형 형태의 부호화 단위가 분할되는 과정을 도시한다.
도 27은 일 실시예에 따라 복수개의 부호화 단위들 간의 처리 순서가 부호화 단위의 분할 과정에 따라 달라질 수 있음을 도시한 것이다.
도 28은 일 실시예에 따라 부호화 단위가 재귀적으로 분할되어 복수개의 부호화 단위가 결정되는 경우, 부호화 단위의 형태 및 크기가 변함에 따라 부호화 단위의 심도가 결정되는 과정을 도시한다.
도 29는 일 실시예에 따라 부호화 단위들의 형태 및 크기에 따라 결정될 수 있는 심도 및 부호화 단위 구분을 위한 인덱스(part index, 이하 PID)를 도시한다.
도 30은 일 실시예에 따라 픽처에 포함되는 복수개의 소정의 데이터 단위에 따라 복수개의 부호화 단위들이 결정된 것을 도시한다.
도 31은 일 실시예에 따라 픽처에 포함되는 기준 부호화 단위의 결정 순서를 결정하는 기준이 되는 프로세싱 블록을 도시한다.
명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
아래에서는 첨부한 도면을 참고하여 일 실시예의 실시예에 대하여 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 일 실시예는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 일 실시예를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.
일 실시예에서 사용되는 용어는 일 실시예에서의 기능을 고려하면서 가능한 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 일 실시예에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 일 실시예의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 개시는, 기계 학습 알고리즘을 활용하는 인공지능(AI)을 이용하여 영상을 처리하는 방법과 관련된다. 구체적으로, 영상의 부호화 및 복호화 과정에서 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 이용하여 인트라 예측 또는 인터 예측을 수행하는 것과 관련된다.
이하, 도 1 내지 도 2를 참조하여 영상의 부호화 및 복호화와 관련된 전체적인 동작이 후술된다. 도 3 내지 도 4를 참조하여 인트라 예측 및 인터 예측 방법이 후술된다. 도 5 내지 도 17을 참조하여 인공지능을 적용한 예측 영상의 생성 방법이 후술된다. 도 18 내지 도 31을 참조하여 일 실시예에 따른 영상의 데이터 단위를 결정하는 방법이 후술된다.
도 1은 일 실시예에 따른 영상 부호화 장치(100)의 상세한 블록도를 도시한다.
일 실시예에 따른 영상 부호화 장치(100)는, 블록 결정부(110), 인터 예측부(115), 인트라 예측부(120), 복원 픽처 버퍼(125), 변환부(130), 양자화부(135), 역양자화부(140), 역변환부(145), 인루프 필터링부(150) 및 엔트로피 부호화부(155)를 포함한다.
일 실시예에 따른 블록 결정부(110)는 영상을 부호화하기 위한 블록의 최대 크기에 따라, 현재 영상의 데이터를 최대 부호화 단위로 분할할 수 있다. 각각의 최대 부호화 단위는 블록 형태 및 분할 형태별로 분할되는 블록(즉, 부호화 단위)들을 포함할 수 있다. 일 실시예에 따른 최대 부호화 단위는 최대 부호화 단위에 포함된 공간 영역(spatial domain)의 영상 데이터가 블록 형태 및 분할 형태에 따라 계층적으로 분류될 수 있다. 부호화 단위의 블록 형태는 정사각형 또는 직사각형일 수 있으며, 임의의 기하학적 형태일 수 있으므로, 일정한 크기의 데이터 단위로 제한되는 것은 아니다.
부호화되는 픽처의 크기가 커짐에 따라, 더 큰 단위로 영상을 부호화하면 더 높은 영상 압축률로 영상을 부호화할 수 있다. 그러나, 부호화 단위를 크게 하고, 그 크기를 고정시켜버리면, 계속해서 변하는 영상의 특성을 반영하여 효율적으로 영상을 부호화할 수 없다.
예를 들어, 바다 또는 하늘에 대한 평탄한 영역을 부호화할 때에는 부호화 단위를 크게 할수록 압축률이 향상될 수 있으나, 사람들 또는 빌딩에 대한 복잡한 영역을 부호화할 때에는 부호화 단위를 작게 할수록 압축률이 향상된다.
이를 위해 일 실시예에 따른 블록 결정부(110)는 픽처 또는 슬라이스마다 상이한 크기의 최대 부호화 단위를 설정하고, 최대 부호화 단위로부터 분할되는 하나 이상의 부호화 단위의 블록 형태 및 분할 형태를 설정한다. 블록 형태 및 분할 형태에 따라 최대 부호화 단위에 포함된 부호화 단위의 크기를 가변적으로 설정할 수 있게 된다.
하나 이상의 부호화 단위의 블록 형태 및 분할 형태는 R-D 코스트(Rate-Distortion Cost) 계산에 기초해 결정될 수 있다. 블록 형태 및 분할 형태는 픽처 또는 슬라이스마다 상이하게 결정되거나, 각각의 최대 부호화 단위마다 상이하게 결정될 수도 있다. 결정된 블록 형태 및 분할 형태는 부호화 단위별 영상 데이터와 함께 블록 결정부(110)로부터 출력된다.
일 실시예에 따라, 최대 부호화 단위로부터 분할되는 부호화 단위는 블록 형태 및 분할 형태로 특징지어질 수 있다. 블록 형태 및 분할 형태로 부호화 단위를 결정하는 구체적인 방식에 대해서는 도 18 내지 도 31을 통해 보다 상세히 후술하기로 한다.
일 실시예에 따라, 최대 부호화 단위에 포함된 부호화 단위들은 상이한 크기의 처리 단위에 기초해 예측 또는 변환(예를 들어, 픽셀 도메인의 값들을 주파수 도메인의 값들로 변환)될 수 있다. 다시 말해, 영상 부호화 장치(100)는 영상 부호화를 위한 복수의 처리 단계들을 다양한 크기 및 다양한 형태의 처리 단위에 기초해 수행할 수 있다. 영상 데이터의 부호화를 위해서는 예측, 변환, 엔트로피 부호화 등의 처리 단계를 거치는데, 모든 단계에 걸쳐서 동일한 크기의 처리 단위가 이용될 수도 있으며, 단계별로 상이한 크기의 처리 단위를 이용할 수 있다.
일 실시예에 따라, 부호화 단위의 예측 모드는 인트라 모드, 인터 모드 및 스킵 모드 중 적어도 하나일 수 있으며, 특정 예측 모드는 특정 크기 또는 형태의 부호화 단위에 대해서만 수행될 수 있다. 일 실시예에 따라, 각각의 부호화 단위에 대해 예측을 수행하여 부호화 오차가 가장 작은 예측 모드가 선택될 수 있다.
또한, 영상 부호화 장치(100)는 부호화 단위와 다른 크기의 처리 단위에 기초해 영상 데이터를 변환할 수 있다. 부호화 단위의 변환을 위해서 부호화 단위보다 작거나 같은 크기의 데이터 단위를 기반으로 변환이 수행될 수 있다.
일 실시예에 따라 영상 부호화 장치(100)는 부호화 단위의 부호화 오차를 라그랑지 곱(Lagrangian Multiplier) 기반의 율-왜곡 최적화 기법(Rate-Distortion Optimization)을 이용하여 측정할 수 있다.
인트라 예측부(120)는 입력 영상(105) 중 인트라 모드의 블록에 대해 인트라 예측을 수행하고, 인터 예측부(115)는 인터 모드의 블록에 대해 입력 영상(105) 및 복원 픽처 버퍼(125)에서 획득된 참조 픽처를 이용하여 인터 예측을 수행한다. 인트라 예측 또는 인터 예측을 수행할지 여부는 블록 단위 별로 결정될 수 있다. 영상 부호화 장치(100)는 인트라 예측 또는 인터 예측을 수행할지 여부에 대한 정보를 부호화할 수 있다.
후술하겠지만, 일 실시예에 따른 인트라 예측부(120)는 DNN 학습 모델에 기반한 인트라 예측을 수행할 수 있으며, 인터 예측부(115)는 DNN 학습 모델에 기반한 인터 예측을 수행할 수 있다.
입력 영상(105)의 블록에 대한 데이터와, 인트라 예측부(120) 또는 인터 예측부(115)로부터 출력된 각 블록에 대한 예측 데이터의 차이를 계산함으로써 레지듀얼 데이터가 생성된다. 레지듀얼 데이터는 변환부(130) 및 양자화부(135)를 거쳐 블록 별로 양자화된 변환 계수로 출력된다. 양자화된 변환 계수는 역양자화부(140), 역변환부(145)를 통해 공간 영역의 레지듀얼 데이터로 복원된다. 복원된 공간 영역의 레지듀얼 데이터는 인트라 예측부(120) 또는 인터 예측부(115)로부터 출력된 각 블록에 대한 예측 데이터와 더해짐으로써 입력 영상(105)의 블록에 대한 공간 영역의 데이터로 복원된다. 복원된 공간 영역의 데이터는 인루프 필터링부(150)를 거쳐 복원 영상으로 생성된다. 인루프 필터링부(150)는 디블록킹(deblocking)만을 수행할 수도 있으며, 디블록킹 이후 SAO(sample adaptive offset) 필터링을 수행할 수도 있다. 생성된 복원 영상은 복원 픽처 버퍼(125)에 저장된다. 복원 픽처 버퍼(125)에 저장된 복원 픽처들은 다른 영상의 인터 예측을 위한 참조 픽처로 이용될 수 있다. 변환부(130) 및 양자화부(135)에서 양자화된 변환 계수는 엔트로피 부호화부(155)를 거쳐 비트스트림(160)으로 출력될 수 있다.
영상 부호화 장치(100)로부터 출력되는 비트스트림(160)에는 레지듀얼 데이터의 부호화 결과가 포함될 수 있다. 또한, 비트스트림(160)에는 블록 형태, 분할 형태, 변환 단위의 크기 정보 등을 나타내는 정보의 부호화 결과가 포함될 수도 있다.
도 2는 일 실시예에 따른 영상 복호화 장치(200)의 상세한 블록도를 도시한다.
일 실시예에 따른 영상 복호화 장치(200)는, 영상을 복호화하기 위한 동작들을 수행한다. 일 실시예에 따른 영상 복호화 장치(200)는 수신부(210), 블록 결정부(215), 엔트로피 복호화부(220), 역 양자화부(225), 역변환부(230), 인터 예측부(235), 인트라 예측부(240), 복원 픽처 버퍼(245) 및 인루프 필터링부(250)를 포함한다.
도 2의 수신부(210)는 부호화된 영상의 비트스트림(205)을 수신한다.
일 실시예에 따른 블록 결정부(215)는 영상을 복호화하기 위한 블록의 최대 크기에 따라, 현재 픽처의 영상 데이터를 최대 부호화 단위로 분할할 수 있다. 각각의 최대 부호화 단위는 블록 형태 및 분할 형태별로 분할되는 블록(즉, 부호화 단위)들을 포함할 수 있다. 일 실시예에 따른 블록 결정부(215)는 비트스트림(205)으로부터 분할 정보를 획득하여 공간 영역의 영상 데이터를 블록 형태 및 분할 형태에 따라 계층적으로 분할할 수 있다. 한편, 복호화에 이용되는 블록들이 일정한 형태 및 크기를 가질 경우, 블록 결정부(215)는 분할 정보를 이용하지 않고 영상 데이터를 분할할 수 있다. 일 실시예에 따른 블록 결정부(215)는 도 1의 블록 결정부(110)에 대응할 수 있다.
엔트로피 복호화부(220)는 비트스트림(205)으로부터 복호화 대상인 부호화된 영상 데이터 및 복호화를 위해 필요한 부호화 정보를 획득한다. 부호화된 영상 데이터는 양자화된 변환계수로서, 역양자화부(225) 및 역변환부(230)는 양자화된 변환 계수로부터 레지듀얼 데이터를 복원한다.
인트라 예측부(240)는 인트라 모드의 블록에 대해 인트라 예측을 수행한다. 인터 예측부(235)는 인터 모드의 블록에 대해 복원 픽처 버퍼(245)에서 획득된 참조 픽처를 이용하여 인터 예측을 수행한다. 인트라 예측 또는 인터 예측을 수행할지 여부는 블록 단위 별로 결정될 수 있다. 영상 복호화 장치(200)는 인트라 예측 또는 인터 예측을 수행할지 여부에 대한 정보를 비트스트림(205)으로부터 획득할 수 있다.
후술하겠지만, 일 실시예에 따른 인트라 예측부(240)는 DNN 학습 모델에 기반한 인트라 예측을 수행할 수 있으며, 인터 예측부(235)는 DNN 학습 모델에 기반한 인터 예측을 수행할 수 있다.
인트라 예측부(240) 또는 인터 예측부(235)를 거친 각 블록에 대한 예측 데이터와 레지듀얼 데이터가 더해짐으로써 블록에 대한 공간 영역의 데이터가 복원되고, 복원된 공간 영역의 데이터는 인루프 필터링부(250)를 거쳐 복원 영상으로 출력될 수 있다. 인루프 필터링부(250)는 디블록킹만을 수행할 수도 있으며, 디블록킹 이후 SAO 필터링을 수행할 수도 있다.
언급된 바와 같이, 본 개시는 인트라 예측 또는 인터 예측을 수행함에 있어서 DNN 학습 모델을 적용하는 기술을 포함한다. 예측 동작을 기술하기에 앞서, DNN을 간략히 설명하기로 한다.
뉴럴 네트워크(Neural Network)는 생물학적 뇌를 모델링한 컴퓨터 과학적 아키텍쳐(Computational Architecture)를 참조한다. 뉴럴 네트워크는 연결선으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 인식 모델이다. 노드(node)로서 지칭되는 인공 뉴런들은 서로 연결되어 있고, 입력 데이터를 처리하기 위하여 집합적으로 동작한다.
뉴럴 네트워크는 입력 레이어(input layer), 히든 레이어(hidden layer), 출력 레이어(output layer)를 포함할 수 있다. 입력 레이어는 학습을 수행하기 위한 입력을 수신하여 히든 레이어에 전달할 수 있고, 출력 레이어는 히든 레이어의 노드들로부터 수신한 신호에 기초하여 뉴럴 네트워크의 출력을 생성할 수 있다. 히든 레이어는 입력 레이어와 출력 레이어 사이에 위치하고, 입력 레이어를 통해 전달된 학습 데이터를 예측하기 쉬운 값으로 변화시킬 수 있다. 입력 레이어와 히든 레이어에 포함된 노드들은 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있다. 또한, 히든 레이어와 출력 레이어에 포함된 노드들도 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있다. 입력 레이어, 히든 레이어 및 출력 레이어는 복수 개의 노드들을 포함할 수 있다.
뉴럴 네트워크는 복수 개의 히든 레이어를 포함할 수 있다. 복수 개의 히든 레이어를 포함하는 뉴럴 네트워크를 딥 뉴럴 네트워크(Deep Neural Network; DNN)라고 하고, DNN을 학습시키는 것을 딥 러닝(Deep Learning)이라고 한다. 히든 레이어에 포함된 노드는 히든 노드(hidden node)라고 한다.
DNN은 복수의 히든 레이어를 포함하는 다층 퍼셉트론(multilayer perceptrons) 구조를 갖는다. 퍼셉트론이란 각 뉴런의 수학적 모델 y=Wx+b 을 일컫는 용어로서, 이러한 다층 퍼셉트론은 역전파 알고리즘(backpropagation algorithm)을 통한 학습을 통해 예측의 정확도를 높일 수 있다. DNN이 역전파 알고리즘을 통해 학습을 하는 방법은 입력 레이어에서 시작하여 출력 레이어를 통해 y 값을 얻었을 때 기준 라벨 값(예를 들어, 정답을 나타내는 데이터 또는 원 데이터와의 오차가 가장 적은 데이터)과 비교하여 오답일 경우 다시 출력 레이어에서 입력 레이어 방향으로 값을 전달하며 계산된 코스트에 따라 각 W와 b 값을 업데이트 하는 방식이다.
이와 같은 DNN에 특정 입/출력 데이터 셋을 제공하여 학습을 시키면, 제공된 입/출력 데이터 셋의 데이터 패턴을 고차원으로 학습하여 원본 데이터에 가장 유사한 예측 영상을 추론하는 모델을 생성하게 된다. 일 실시예에 따른 인트라 예측부(120, 240)의 경우, 입력 데이터 셋은 인트라 예측에 이용되는 현재 블록의 주변 복원 데이터이며, 출력 데이터 셋은 원본 데이터와의 오차를 최소화한 현재 블록의 예측 데이터일 수 있다. 일 실시예에 따른 인터 예측부(115, 235)의 경우, 입력 데이터 셋은 현재 블록이 참조하는 과거 및/또는 미래 복원 영상의 데이터이며, 출력 데이터 셋은 원본 데이터와의 오차를 최소화한 현재 블록의 예측 데이터일 수 있다. 한편, 원본 데이터와 예측 데이터와의 오차는 R-D 코스트에 기초하여 측정될 수 있다.
이처럼, 원본 데이터와의 오차를 최소화한 예측 블록을 생성하도록 학습된 DNN을 이용하여 예측을 수행할 경우, 영상 부호화 장치(100)로부터 영상 복호화 장치(200)로 별도의 예측 정보(예를 들어, 예측 모드, 참조 픽처 인덱스 등)가 전송될 필요가 없다. 또한, 영상 복호화 장치(200)는 영상 부호화 장치(100)와 동일한 구조의 DNN을 사용함으로써 예측 정보를 이용하지 않고도 예측 블록을 생성할 수 있다. 일 실시예에 따라, DNN의 네트워크 구조에 대한 정보가 영상 부호화 장치(100)로부터 영상 복호화 장치(200)로 전송될 수도 있다.
다만, 일 실시예에 따른 DNN은 상기와 같은 구조에 한정되지 아니하고, 다양한 구조의 네트워크로 형성될 수 있다.
다양한 종류의 DNN을 예로 들면, 컨볼루션 뉴럴 네트워크(Convolutional Neural Network; CNN), 회귀 뉴럴 네트워크(Recurrent Neural Network; RNN), 딥 빌리프 네트워크(Deep Belief Network; DBN), 제한된 볼츠만 기계(Restricted Boltzman Machine; RBM) 방식 등이 있으나, 이에 제한되지 않으며, 적어도 하나의 네트워크의 조합을 포함할 수 있다.
전술한 바와 같이, DNN 학습 모델에 기반한 예측은 예측 정보의 시그널링을 필요로 하지 않는다. 이하에서는, 도 3 내지 도 4를 통해 예측 정보에 대해 설명하기로 한다.
도 3은 인트라 예측 정보의 일 예를 도시한다.
인트라 예측은 공간적 참조만을 허용하는 예측 기술로, 예측하고자 하는 블록에 인접한 블록의 픽셀을 이용하여 현재 블록을 예측하는 것을 말한다. 인트라 예측에서 사용되는 정보는 도 3에 도시된 바와 같은 다양한 예측 모드를 포함할 수 있다.
인트라 예측 모드를 크게 분류하면 비방향성 모드(Planar 모드 및 DC 모드)와 방향성 모드(Angular 모드)로 나눌 수 있는데, 방향성 모드는 모드별로 상이한 방향성을 가지고 있다. 비방향성 모드 중 DC 모드는 예측 샘플들을 현재 블록의 주변 참조 샘플들의 평균값으로 채워 넣는 방식을 나타낼 수 있다. 방향성 모드는 참조 샘플들로부터 예측 샘플을 계산할 때, 방향성을 고려하여 예측 샘플을 획득하는 방식을 나타낼 수 있다.
도 3을 참조하여 예를 들면, 인트라 예측 모드에는 수직(Vertical) 모드, 수평(Horizontal) 모드, DC(Direct Current) 모드, 대각선 왼쪽(Diagonal Down-left) 모드, 대각선 오른쪽(Diagonal Down-right) 모드, 수직 오른쪽(Vertical right) 모드, 수직 왼쪽(Vertical left) 모드, 수평 위쪽(Horizontal-up) 모드 및 수평 아래쪽(Horizontal-down) 모드 등이 존재할 수 있다. 이와 같이 소정 방향으로 주변 픽셀의 값을 확장하는 인트라 예측을 통해 생성된 예측 블록은 예측 모드에 따라서 일정한 방향성을 가질 수 있다.
이처럼, 통상적인 인트라 예측 동작에서는 예측 모드와 같은 예측 정보가 시그널링되며, 시그널링된 예측 정보는 예측 블록 생성을 위해 이용된다.
그러나, 일 실시예에 따른 DNN 학습 모델에 기반한 인트라 예측은 예측 정보의 시그널링을 필요로 하지 않는다. 학습된 DNN 모델은 입력 패턴을 분석하여 그 특징을 찾아내어 올바른 예측 영상을 생성할 수 있는 일반화 능력을 갖기 때문이다. 일 실시예에 따른 DNN 학습 모델에 기반한 인트라 예측은, 예측 블록의 데이터와 원(original) 영상의 데이터 사이의 오차가 가장 적어지도록 학습된 DNN 모델을 이용한다.
DNN 학습 모델에 기반한 인트라 예측 방법에 관한 구체적인 설명은 도 6 내지 도 11을 통해 후술하기로 한다.
도 4는 인터 예측 정보의 일 예를 나타낸 도면이다.
인터 예측은 한 픽처 내에서 인접하는 픽셀 간에 높은 상관성이 존재한다는 점을 바탕으로 한다. 이와 유사하게, 비디오를 구성하는 각 픽처들은 시간적으로도 서로 높은 상관성을 갖고 있다. 따라서, 현재 픽처 내의 블록에 대한 예측 값을 이전 시간에 이미 복원된 픽처로부터 생성할 수 있다. 이처럼 이전 시간에 복원된 픽처로부터 예측 블록을 생성하는 기술을 인터 예측이라고 한다.
예를 들어, 1초 동안에 30장의 픽처로 구성되는 영상의 경우, 하나의 픽처와 이웃한 픽처 간에는 픽처 간의 영상의 차이가 작기 때문에 인간의 눈으로 그 차이를 구분하기가 매우 어렵다. 그로 인해, 영상이 1초 동안에 30장의 픽처로 출력되면, 인간은 각 픽처가 연속적인 것으로 인식한다. 인터 예측은, 이전 픽처와 현재 픽처의 영상이 유사할 경우, 이전 픽처를 구성하고 있는 이미 알고 있는 영상의 화소 값으로부터 현재 픽처의 미지의 화소값을 예측할 수 있다는 점에 착안한다. 이러한 인터 예측은 움직임 예측(Motion Prediction) 기술을 기반으로 이루어진다. 움직임 예측은 시간 축을 기준으로 이전 픽처를 참조하거나 이전 픽처와 미래 픽처를 모두 참조하는 방식으로 수행된다. 현재 픽처를 부호화하거나 복호화하는데 참조되는 픽처를 참조 픽처(Reference Picture)라고 한다.
도 4를 참조하면, 영상은 일련의 정지 영상(Still Image)으로 구성된다. 이 정지 영상들은 픽처 그룹(GOP: Group of Picture) 단위로 구분된다. 각 정지 영상을 픽처 또는 프레임(Frame)이라 한다. 하나의 픽처 그룹에는 I 픽처(410), P 픽처(420), B 픽처(430)가 포함된다. I 픽처(410)는 참조 픽처를 사용하지 않고 자체적으로 부호화되는 픽처이며, P 픽처(420)와 B 픽처(430)는 참조 픽처를 사용하여 움직임 추정(Motion Estimation) 및 움직임 보상(Motion Compensation)을 수행하여 부호화되는 픽처이다. 특히, B 픽처(430)는 과거의 픽처와 미래의 픽처를 각각 순방향 및 역방향 즉, 양방향으로 예측하여 부호화되는 픽처이다.
도 4를 참조할 때, P 픽처(420)를 부호화하기 위한 움직임 추정과 움직임 보상은 I 픽처(410)를 참조 픽처로서 이용한다. B 픽처(430)를 부호화하기 위한 움직임 추정 및 움직임 보상은 I 픽처(410)와 P 픽처(420)를 참조 픽처로서 이용한다. 이와 같이, 인터 예측에서는 하나의 참조 픽처만 사용하는 것이 아니라 다중 픽처를 사용하여 움직임을 추정하고 보상할 수 있다.
즉, 인터 예측 과정은 움직임 추정을 통해 참조 픽처들로부터 최적의 예측 블록을 찾고, 움직임 보상 과정을 통해 예측 블록을 생성하는 과정이다. 인터 예측을 통해 예측 블록이 생성되면, 생성된 예측 블록과 원본 블록과의 차이 값인 레지듀얼 신호가 변환, 양자화 및 엔트로피 부호화된다. 이 때, 통상적인 인터 예측 기술에서는 레지듀얼 신호와 함께 움직임 벡터, 예측 방향, 참조 픽처 인덱스 등과 같은 예측 정보가 시그널링된다. 다시 말해, 통상적인 인터 예측 동작에서는 예측 정보가 시그널링되며, 시그널링된 예측 정보는 예측 블록 생성에 이용된다.
그러나, 일 실시예에 따른 DNN 학습 모델에 기반한 인터 예측은 예측 정보의 시그널링을 필요로 하지 않는다. 학습된 DNN 모델은 입력 패턴을 분석하여 그 특징을 찾아내어 올바른 예측 영상을 생성할 수 있는 일반화 능력을 갖기 때문이다. 일 실시예에 따른 DNN 학습 모델에 기반한 인터 예측은, 예측 블록의 데이터와 원(original) 영상의 데이터 사이의 오차가 가장 적어지도록 학습된 DNN 모델을 이용한다.
DNN 학습 모델에 기반한 인터 예측 방법에 관한 구체적인 설명은 도 12를 통해 후술하기로 한다.
도 5는 일 실시예에 따른 DNN 학습 모델에 기반한 예측 과정을 개념적으로 나타낸 도면이다.
도 5를 참조하면, 입력 영상(510), DNN 학습 모델(520) 및 예측 영상(530)이 도시된다. DNN 학습 모델(520)은, DNN 학습 모델(520)을 구성하는 복수의 네트워크 노드들 간의 연결 관계 및 복수의 네트워크 노드들 각각의 가중치에 기반한 연산에 따라 현재 블록의 원 데이터를 예측하도록 학습된 네트워크 모델이다.
DNN 학습 모델(520)은, 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있다. 예를 들어, DNN 학습 모델(520)은 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고 받는 시냅틱(synaptic) 활동을 모의하도록 각각 연결 관계를 형성할 수 있다.
DNN 학습 모델(520)은, 일 예로, 인공 지능 신경망 모델, 또는 신경망 모델에서 발전한 딥 러닝 네트워크 모델을 포함할 수 있다.
예측을 수행하고자 하는 영역을 현재 블록(515)이라고 할 때, 입력 영상(510)은 현재 블록(515) 이전에 복원된 영상 데이터일 수 있다. 도 5의 입력 영상(510)은 현재 블록(515)와 같은 픽처 내에 존재하는 것으로 도시되었지만, 입력 영상(510)은 현재 블록(515)이 속한 픽처와 다른 프레임일 수도 있다. 예를 들어, 인트라 예측 시에는 현재 블록(515)과 동일 픽처에 속하는 복원된 데이터가 입력 영상(510)으로서 이용되며, 인터 예측 시에는 이전 시간에 복원된 픽처가 입력 영상(510)으로서 이용된다.
입력 영상(510)은 학습 데이터로서 DNN 학습 모델(520)의 입력 레이어로 입력될 수 있다. DNN 학습 모델(520)의 입력 레이어를 통해 전달된 데이터는 히든 레이어에서 예측하기 쉬운 값으로 변화될 수 있다. 히든 레이어는, 입력 레이어와 출력 레이어 사이에서 연결 가중치를 갖는 연결선을 통해 연결된다. DNN 학습 모델(520)의 출력 레이어는 히든 레이어의 노드들로부터 수신한 신호에 기초하여 출력, 즉, 예측 영상(530)을 생성할 수 있다. 입력 레이어, 히든 레이어 및 출력 레이어는 복수 개의 노드들을 포함하는데, DNN 학습 모델(520)은 이 같은 복수 개의 노드들 사이의 알고리즘을 통해 입력 영상(510)과 예측 영상(530) 사이의 사상(mapping)을 생성해낼 수 있다. DNN 학습 모델(520)에 대해서 입력 영상(510)과의 오차가 가장 적은 예측 영상(530)을 출력하도록 학습시킬 경우, DNN 학습 모델(520)은 학습에 이용되지 않았던 입력 패턴에 대해 비교적 올바른 출력을 생성할 수 있는 일반화 능력을 가지게 된다.
일 실시예에 따른 DNN 학습 모델(520)은 컨볼루션 풀링 레이어, 히든 레이어 및 완전 연결 레이어를 포함하는 레이어들의 세트로 구현될 수 있다. 예를 들어, DNN 학습 모델(520)의 전체적인 구조는 컨볼루션 풀링 레이어에 히든 레이어가 이어지고, 히든 레이어에 완전 연결 레이어가 이어지는 형태로 이루어질 수 있다.
또한, 일 실시예에 따른 DNN 학습 모델(520)은 CNN의 형태로 구현될 수 있다.
일 실시예에 따른 CNN은, 영상분석에 적합한 구조로서, 주어진 영상 데이터들로부터 가장 분별력(Discriminative Power)이 큰 특징을 스스로 학습하는 특징 추출 레이어(feature extraction Layer)와 추출된 특징을 기반으로 가장 높은 예측 성능을 내도록 예측 모델을 학습하는 예측 레이어(prediction layer)가 통합된 구조로 구성될 수 있다.
특징 추출 레이어는 영상의 각 영역에 대해 복수의 필터를 적용하여 특징 맵(feature map)를 만들어 내는 콘볼루션 레이어(Convolution Layer)와 특징 맵을 공간적으로 통합함으로써 위치나 회전의 변화에 불변하는 특징을 추출할 수 있도록 하는 통합 레이어(Pooling Layer)를 번갈아 수 차례 반복하는 구조로 형성될 수 있다. 이를 통해, 점, 선, 면 등의 낮은 수준의 특징에서부터 복잡하고 의미 있는 높은 수준의 특징까지 다양한 수준의 특징을 추출해낼 수 있다.
콘볼루션 레이어는 입력 영상의 각 패치에 대하여 필터와 국지 수용장(Local Receptive Field)의 내적에 비선형 활성 함수(Activation Function)을 취함으로서 특징 맵을 구하게 되는데, 다른 네트워크 구조와 비교하여, CNN은 희소한 연결성 (Sparse Connectivity)과 공유된 가중치(Shared Weights)를 가진 필터를 사용하는 특징이 있다. 이러한 연결구조는 학습할 모수의 개수를 줄여주고, 역전파 알고리즘을 통한 학습을 효율적으로 만들어 결과적으로 예측 성능을 향상시킨다.
통합 레이어(Pooling Layer) 또는 서브-샘플링 레이어(Sub-sampling Layer)는 이전 콘볼루션 레이어에서 구해진 특징 맵의 지역 정보를 활용하여 새로운 특징 맵을 생성한다. 일반적으로 통합 레이어에 의해 새로 생성된 특징 맵은 원래의 특징 맵보다 작은 크기로 줄어드는데, 대표적인 통합 방법으로는 특징 맵 내 해당 영역의 최대값을 선택하는 최대 통합(Max Pooling)과 특징 맵 내 해당 영역의 평균값을 구하는 평균 통합(Average Pooling) 등이 있다. 통합 레이어의 특징 맵은 일반적으로 이전 레이어의 특징 맵보다 입력 영상에 존재하는 임의의 구조나 패턴의 위치에 영향을 적게 받을 수 있다. 즉, 통합 레이어는 입력 영상 혹은 이전 특징 맵에서의 노이즈나 왜곡과 같은 지역적 변화에 보다 강인한 특징을 추출할 수 있게 되고, 이러한 특징은 분류 성능에 중요한 역할을 할 수 있다. 또 다른 통합 레이어의 역할은, 깊은 구조상에서 상위의 학습 층으로 올라갈수록 더 넓은 영역의 특징을 반영할 수 있게 하는 것으로서, 특징 추출 레이어가 쌓이면서, 하위 레이어에서는 지역적인 특징을 반영하고 상위 레이어로 올라 갈수록 보다 추상적인 전체 영상의 특징을 반영하는 특징 맵을 생성할 수 있다.
이와 같이, 콘볼루션 레이어와 통합 레이어의 반복을 통해 최종적으로 추출된 특징은 다중 신경망(MLP: Multi-layer Perception)이나 서포트 벡터 머신(SVM: Support Vector Machine)과 같은 분류 모델이 완전 연결 레이어(Fully connected Layer)의 형태로 결합되어 분류 모델 학습 및 예측에 사용될 수 있다. 다양한 CNN 학습 모델의 구조에 대해서는 도 10a 내지 10f를 통해 설명하기로 한다.
또한, 일 실시예에 따른 DNN 학습 모델(520)은 RNN 의 형태로도 구현될 수 있다.
일 실시예에 따라, DNN 학습 모델(520)의 구조에서 이전 시간 구간에서의 히든 노드의 출력은 현재 시간 구간에서의 히든 노드들에 연결될 수 있다. 그리고, 현재 시간 구간에서의 히든 노드의 출력은 다음 시간 구간에서의 히든 노드들에 연결될 수 있다. 이와 같이, 서로 다른 시간 구간에서 히든 노드들 간에 재귀적(recurrent)인 연결이 있는 신경망을 회귀 뉴럴 네트워크(Recurrent Neural Network; RNN)라고 한다. 일 실시예에 따른 RNN은, 순차적 데이터(sequential data)를 인식할 수 있다. 순차적 데이터는 음성 데이터, 영상 데이터, 생체 데이터, 필적 데이터(handwriting data) 등과 같이 시간성 내지 순서를 가지는 데이터이다. 예를 들어, RNN의 인식 모델은 입력된 영상 데이터가 어떠한 패턴에 따라 변화하는지를 인식할 수 있다.
RNN 학습 모델에 특정 기간 동안의 입/출력 데이터 셋을 제공하여 학습을 시키면, 해당 기간 동안의 데이터 패턴을 고차원으로 학습하여 원본 데이터에 가장 유사한 예측 영상(530)을 추론하는 모델을 생성하게 된다. 다양한 RNN 학습 모델의 구조에 대해서는 도 8a 내지 8c를 통해 설명하기로 한다.
일 실시예에 따른 DNN 학습 모델(520)은 상술한 CNN 학습 모델과 RNN 학습 모델의 조합을 통해 구현될 수도 있다.
한편, DNN 학습 모델(520)은, 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(예를 들어, 명령어(instruction)를 포함하는 프로그램 모듈)로 구현되는 경우, DNN 학습 모델(520)은 컴퓨터로 읽을 수 있는 판독 가능한 기록매체에 저장될 수 있다.
또한, DNN 학습 모델(520)은 하드웨어 칩 형태로 집적되어 전술한 영상 부호화 장치(100) 또는 영상 복호화 장치(200)의 일부가 될 수도 있다. 예를 들어, DNN 학습 모델(520)은 인공 지능을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 제작될 수도 있다.
또한, DNN 학습 모델(520)은 다운로드 가능한 소프트웨어 형태로 제공될 수도 있다. 컴퓨터 프로그램 제품은 영상 부호화 장치(100) 또는 영상 복호화 장치(200)의 제조사 또는 전자 마켓을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사 또는 전자 마켓의 서버, 또는 중계 서버의 저장매체가 될 수 있다.
도 6은 일 실시예에 따른 DNN 학습 모델 기반 인트라 예측 과정을 나타낸 도면이다.
일 실시예에 따른 DNN 학습 모델 기반 인트라 예측은, 영상 부호화 장치(100)의 인트라 예측부(120) 또는 영상 복호화 장치(200)의 인트라 예측부(240)에서 수행될 수 있다.
일 실시예에 따른 인트라 예측부(120, 240)는 예측을 수행하고자 하는 현재 블록(610)에 대해 DNN 학습 모델에 기반한 예측을 수행하여 예측 데이터를 생성할 수 있다. 이 때, DNN 학습 모델에 기반한 예측은 제 1 예측 및 제 2 예측 과정을 포함할 수 있다. DNN 학습 모델에 기반한 예측을 수행하여 생성한 예측 데이터는 제 1 예측 및 제 2 예측에 의해 생성된 최종 예측 데이터(660)를 의미할 수 있다. 제 1 예측은 RNN 학습 모델에 기반할 수 있으며, 제 2 예측은 CNN 학습 모델에 기반할 수 있다. 따라서, 일 실시예에 따른 DNN 학습 모델에 기반한 예측은 RNN 학습 모델에 기반한 제 1 예측(620) 및 CNN 학습 모델에 기반한 제 2 예측(630)을 포함할 수 있다.
도 6을 참조하면, 일 실시예에 따른 인트라 예측부(120, 240)는 예측을 수행하고자 하는 현재 블록(610)에 대해 RNN 학습 모델에 기반한 제 1 예측(620)을 수행하여 제 1 예측 데이터(640)를 생성할 수 있다. 이 때, RNN 학습 모델은 RNN 학습 모델의 출력으로 생성되는 제 1 예측 데이터(640)가 현재 블록(610)의 원(original) 데이터와 같아지도록 학습된 네트워크일 수 있다. 즉, 학습된 RNN 모델을 이용함으로써 현재 블록(610)의 원 데이터와의 오차가 가장 적은 제 1 예측 데이터(640)가 생성될 수 있다. RNN 학습 모델의 구체적인 구조에 대해서는 후술하기로 한다.
일 실시예에 따른 RNN 학습 모델에 기반한 제 1 예측(620)은 현재 블록(610)에 인접한 주변 블록들(612, 614, 616, 618)을 입력으로 사용할 수 있다. 주변 블록들(612, 614, 616, 618)은 현재 블록(610) 이전에 복원된 블록일 수 있다. 도 6에 도시된 주변 블록들(612, 614, 616, 618)은 현재 블록(610)의 좌상측, 상측, 우상측 및 좌측에 위치한 것으로 도시되었지만, 픽처 내의 블록 복원 순서에 따라 그 위치는 상이해질 수도 있다. 예를 들어, 주변 블록들은 현재 블록(610)으로부터 인접 블록들을 향하는 각 방향에 위치한 블록들일 수도 있다.
한편, 인트라 예측 시 주변 블록들(612, 614, 616, 618)을 이용하여 예측을 수행하는 것은, 주변 블록들(612, 614, 616, 618)이 현재 블록(610)에 대해 연속성 내지는 방향성을 갖기 때문이다. 이와 같이, 연속적인 입력 패턴을 통해 상관관계를 추론하는 작업을 수행하기 위해서는, 이전 정보를 현재 작업으로 연결하는 것을 가능하게 하는 RNN을 이용함이 바람직할 수 있다. 이를테면, 주변 블록들(612, 614, 616, 618) 간의 RNN 학습 모델 입력 순서는 현재 블록(610)을 예측하는데 영향을 미칠 수도 있다.
이하에서는, RNN 학습 모델에 기반한 제 1 예측(620)을 위해 RNN 학습 모델에 입력되는 데이터를 "제 1 입력 데이터"라고 부르기로 한다. 일 실시예에 따른 RNN 학습 모델은, 순차적 데이터를 인식할 수 있다. "제 1 입력 데이터"를 RNN 학습 모델에 입력하는 순서에 관해서는 도 9a 내지 도 9c를 통해 상세히 설명하기로 한다.
일 실시예에 따른 인트라 예측부(120, 240)는 생성된 제 1 예측 데이터(640)에 대해 CNN 학습 모델에 기반한 제 2 예측(630)을 수행하여 제 2 예측 데이터(650)를 생성할 수 있다. 이 때, CNN 학습 모델은 CNN 학습 모델의 출력으로 생성되는 제 2 예측 데이터(650)가 현재 블록(610)의 원(original) 데이터에서 제 1 예측 데이터(640)를 뺀 값과 같아지도록 학습된 네트워크일 수 있다. 이처럼, 학습된 CNN 학습 모델을 이용함으로써 현재 블록(610)의 원 데이터에서 제 1 예측 데이터(640)를 뺀 값과의 오차가 가장 적은 제 2 예측 데이터(650)가 생성될 수 있다. 다시 말해, CNN 학습 모델에 기반한 제 2 예측(630) 과정은 현재 블록(610)의 원 데이터에서 제 1 예측 데이터(640)를 뺀 값을 예측하기 위한 과정으로 이해할 수 있다. CNN 학습 모델의 구체적인 구조에 대해서는 후술하기로 한다.
일 실시예에 따른 CNN 학습 모델에 기반한 제 2 예측(630)은 현재 블록(610)과 주변 블록들(612, 614, 616, 618)을 포함하는 영역의 데이터를 입력으로 사용할 수 있다. 현재 블록(610)과 주변 블록들(612, 614, 616, 618)을 포함하는 영역의 데이터는 현재 블록(610)에 대응하는 제 1 예측 데이터(640)와 주변 블록들(612, 614, 616, 618)에 대응하는 복원 데이터로 이루어질 수 있다. 이하에서는, CNN 학습 모델에 기반한 제 2 예측(630)을 위해 CNN 학습 모델에 입력되는 데이터를 "제 2 입력 데이터"라고 부르기로 한다.
"제 2 입력 데이터"에 대해서는 도 11을 통해 상세히 설명하기로 한다.
일 실시예에 따른 인트라 예측부(120, 240)는 제 1 예측 데이터(640)와 제 2 예측 데이터(650)를 합하여 현재 블록(610)에 대한 최종 예측 데이터(660)를 생성할 수 있다.
일 실시예에 따른 영상 부호화 장치(100)는 현재 블록(610)의 원 데이터와 최종 예측 데이터(660)와의 차이를 계산함으로써 레지듀얼 데이터를 생성하며, 생성된 레지듀얼 데이터를 부호화한 비트스트림을 생성하여 영상 복호화 장치(200)로 전달할 수 있다. 일 실시예에 따른 영상 부호화 장치(100)는 별도의 예측 정보(예를 들어, 예측 모드 정보)를 부호화하지 않는다.
일 실시예에 따른 영상 복호화 장치(200)는 비트스트림으로부터 획득한 레지듀얼 데이터를 최종 예측 데이터(660)와 더함으로써 현재 블록(610)의 데이터를 복원할 수 있다. 이 때, 영상 복호화 장치(200)는 비트스트림으로부터 별도의 예측 정보를 획득하지 않고도 최종 예측 데이터(660)를 생성할 수 있다.
도 7은 DNN 학습 모델의 일 예인 RNN 학습 모델을 나타내는 도면이다.
RNN은 서로 다른 시간 구간에서 히든 노드들 간의 연결이 존재하는 네트워크로서, 감독 학습(supervised learning)을 통해 네트워크를 학습시킬 수 있다. 감독 학습이란 학습 데이터와 그에 대응하는 출력 데이터를 함께 신경망에 입력하고, 학습 데이터에 대응하는 출력 데이터가 출력되도록 연결선들의 연결 가중치를 업데이트하는 방법이다. 예를 들어, RNN은 델타 규칙(delta rule)과 오류 역전파 학습(backpropagation learning) 등을 통해 뉴런들 사이의 연결 가중치를 업데이트할 수 있다.
오류 역전파 학습은, 주어진 학습 데이터에 대해 전방 계산(forward computation)으로 오류를 추정한 후, 출력 레이어에서 시작하여 히든 레이어와 입력 레이어 방향으로 역으로 전진하여 추정한 오류를 전파하고, 오류를 줄이는 방향으로 연결 가중치를 업데이트하는 방법이다. 뉴럴 네트워크의 처리는 입력 레이어, 히든 레이어 및 출력 레이어의 방향으로 진행되지만, 오류 역전파 학습에서 연결 가중치의 업데이트 방향은 출력 레이어, 히든 레이어 및 입력 레이어의 방향으로 진행될 수 있다.
RNN 학습 모델(700)은 현재 설정된 연결 가중치들이 얼마나 최적에 가까운지를 측정하기 위한 목적 함수(objective function)를 정의하고, 목적 함수의 결과에 기초하여 연결 가중치들을 계속 변경하고, 학습을 반복적으로 수행할 수 있다. 예를 들어, 목적 함수는 RNN 학습 모델(700)이 학습 데이터에 기초하여 실제 출력한 출력 값과 출력되기로 원하는 기대 값 간의 오류를 계산하기 위한 오류 함수일 수 있다. RNN 학습 모델(700)은 오류 함수의 값을 줄이는 방향으로 연결 가중치들을 업데이트할 수 있다.
일 실시예에 따른 인트라 예측부(120, 240)는 현재 블록(610)에 대해 RNN 학습 모델(700)에 기반한 제 1 예측을 수행할 수 있다. 이 때, RNN 학습 모델(700)은 RNN 네트워크(720)를 포함하며, RNN 네트워크(720)는 LSTM(long short-term memory) 네트워크, GRU(gated recurrent unit)를 포함하는 구조일 수 있다. LSTM은 장기 의존성(long-term dependency) 학습을 할 수 있는 RNN의 한 종류이다. LSTM 네트워크를 포함하지 않는 RNN은 이전 정보를 현재 작업으로 연결할 수 있으나, 시간적으로 멀리 떨어진 이전 작업의 정보를 현재 작업으로 연결시키기는 어렵다는 단점이 있다. LSTM은 이러한 장기 의존성 문제를 피하도록 설계된 구조이다. LSTM의 자세한 구조에 대해서는 도 8b를 통해 후술하기로 한다. GRU는 LSTM의 변형된 구조로서, 자세한 구조에 대해서는 도 8c를 통해 후술하기로 한다.
도 7을 참조하면, RNN 학습 모델(700)은 RNN 네트워크(720) 및 완전 연결 네트워크(730)를 포함할 수 있다.
RNN 학습 모델(700) 내의 RNN 네트워크(720)는 입력 데이터(710)로부터 특징 값을 검출할 수 있다. 예를 들어, RNN 네트워크(720)는 입력 데이터(710)에서 시간에 따라 변화하는 상대적 변화량을 특징 값으로 추출할 수 있다. RNN 네트워크(720)는 입력 데이터(710)로부터 충분히 많은 특징 값들을 획득하고, 획득된 특징 값들을 이용하여 네트워크를 학습시킬 수 있다. 여기서, 입력 데이터(710)는 제 1 입력 데이터일 수 있다.
일 실시예에 따른 RNN 네트워크(720)는 특정 방향으로 변화하는 블록의 변화 추세를 학습할 수 있다. 이를 위해, 현재 블록의 주변 블록들은 변화하는 순서에 따라 RNN 네트워크(720)에 입력될 수 있다. 이 때, RNN 네트워크(720)에 입력되는 블록들은 동일 시간 프레임 내의 블록들이다.
일 실시예에 따라, 입력 데이터(710)는 RNN 네트워크(720)에 순서대로 입력될 수 있다. 일 실시예에 따라, 현재 블록에 인접한 주변 블록들은 변화 추세에 대응하는 입력 순서로 RNN 네트워크(720)에 입력될 수 있다. 예를 들어, 주변 블록들은 시간 스텝(time step) 또는 시간 스탬프(time stamp) 별로 각각의 RNN 네트워크(720)에 입력되어 학습될 수 있다. 예를 들어, 각각의 주변 블록들이 소정 방향에 기초하여 '0'번 입력 데이터(710), '1'번 입력 데이터(710), '2'번 입력 데이터(710) 등과 같은 순서로 RNN 네트워크(720)에 입력될 수 있다.
연속되는 시간 구간에서, RNN 학습 모델(700)의 RNN 네트워크(720)에서 출력된 출력 값은 다음 시간 스텝에서의 RNN 네트워크(720)에 입력될 수 있다. 예를 들어, '0'번 입력 데이터(710)를 처리한 RNN 네트워크(720)의 출력 값 "s1"은 '1'번 입력 데이터(710)를 처리하는 RNN 네트워크(720)에 입력될 수 있다. 또한, '1'번 입력 데이터(710)를 처리한 RNN 네트워크(720)의 출력 값 "s2"는 '2'번 입력 데이터(710)를 처리하는 RNN 네트워크(720)에 입력될 수 있다.
도 7을 참조하여 예를 들면, '1'번 입력 데이터(710)에 대한 학습을 수행하는 RNN 네트워크(720)가 현재 시간 스텝(T)에서의 학습 패턴을 나타낸다면, '0'번 입력 데이터(710)에 대한 학습을 수행하는 RNN 네트워크(720)는 이전 시간 스텝(T-1)에서의 학습 패턴을 나타내며, '2'번 입력 데이터(710)에 대한 학습을 수행하는 RNN 네트워크(720)는 다음 시간 스텝(T+1)에서의 학습 패턴을 나타낸다. 이처럼, RNN 네트워크(720)는 이전 시간 스텝, 현재 시간 스텝, 및 다음 시간 스텝 모두에 대한 구조를 학습에 이용한다. RNN 네트워크(720)에서 현재 단계의 정보는 다음 단계에 전달되어 출력 값에 영향을 줄 수 있다.
완전 연결 네트워크(730)는 순차적 데이터에 대한 RNN 네트워크(720)의 학습 결과를 분류하여, 출력 데이터(740)를 RNN 학습 모델(700)의 출력 레이어로부터 출력시킬 수 있다. 일 실시예에 따른 출력 데이터(740)는 제 1 예측 데이터일 수 있다.
RNN 네트워크(720)의 학습 과정은, 각 시간 스텝에서 생성되는 출력 값과 원하는 기대 값을 비교하고, 출력 값과 기대 값 간의 차이를 줄여나가는 방향으로 노드들의 연결 가중치를 조절하는 과정을 포함할 수 있다. 예를 들어, RNN 네트워크(720)에 입력된 입력 데이터(710)는 RNN 네트워크(720) 및 완전 연결 네트워크(730)의 연결 가중치와 곱해지고 더해질 수 있다. 이 때, 생성되는 RNN 학습 모델(700)의 출력 데이터(740)와 기대하는 출력 데이터 간에 서로 차이가 발생할 수 있고, RNN 학습 모델은 해당 차이를 최소화하는 방향으로 노드들의 연결 가중치를 업데이트할 수 있다.
도 8a 내지 8c는 다양한 RNN의 구조를 나타내는 도면이다.
도 8a를 참조하면, 단일 레이어를 포함하는 RNN(810)의 기본 구조가 도시된다.
RNN(810)에서 출력되는 결과는 셀에 저장된 이전 스테이트(state)와 셀의 입력(Xt)에 기초하여 결정된다. 피드-포워드(feed-forward) 뉴럴 네트워크는 역전파(back-propagation)를 통해서 학습되는데 반해, RNN(810)의 경우에는 시간 스텝에 걸쳐 학습시키는 BPTT(Back-Propagation Through Time) 방식을 통해 학습될 수 있다. BPTT 방식을 통해 학습하는 이유는, RNN(810)의 셀에서 출력되는 그래디언트(gradient)는 현재 시간 스텝에만 의존하는 것이 아니라 이전 시간 스텝들에도 의존하기 때문이다. 예를 들어, t=4 에서의 그래디언트를 계산하기 위해서는 시간 스텝 3개 이전부터의 그래디언트를 모두 고려해야 한다. 이처럼, RNN(810)을 사용하여 장시간의 데이터 의존도가 존재하는 학습을 수행할 경우, 현재 스테이트가 이전의 많은 스테이트들과 연관될 수 있다. 따라서, RNN(810)이 BPTT를 통한 연산을 수행할 때, 체인 룰(chain rule)에 의한 연결의 길이가 매우 길어지게 되고, 이로 인해 배니싱 그래디언트(vanishing gradient)의 문제가 발생할 수 있다. 이와 같이 장시간에 걸쳐 의존도가 높은 학습을 수행하는 경우에 있어서는 LSTM 또는 GRU 를 포함하는 RNN 구조가 효율적일 수 있다.
도 8b를 참조하면, LSTM(820)의 구조가 도시된다.
LSTM(820)은 셀 스테이트(cell state)와 히든 레이어가 별도로 존재한다. 셀 스테이트는 주로 정보의 기억을 담당하며 장기간의 메모리 역할을 수행한다. LSTM(820)은 연결의 강도를 조절하는 3개의 게이트(gate)를 포함한다. 3개의 게이트는 포겟 게이트(forget gate; 822), 입력 게이트(824) 및 출력 게이트(826)로 구성된다. 포겟 게이트(822)에서는 셀 상에서 크게 중요하지 않은 정보를 삭제할 수 있다. 그리고, 히든 레이어(tanh)는 입력 게이트(824)를 통해 중요한 정보만을 셀에 업데이트할 수 있다. 도 8b를 참조하면, LSTM(820)은 게이트의 조절을 통해 이전 셀의 스테이트 정보가 현재 셀의 스테이트로 끼치는 영향을 조절할 수 있다. 또한, LSTM(820)은 현재 입력과 연관된 정보를 추가할 수도 있으며, 출력에 끼치는 영향의 수준을 정할 수도 있다.
도 8c을 참조하면, GRU(830)의 구조가 도시된다.
GRU(830)는 정보를 저장하는 셀 스테이트(cell state)의 선택적인 갱신으로 RNN 학습 모델의 장기 의존성을 회피하는 딥 러닝 구조이다.
GRU(830)의 셀 스테이트는 게이트(gate)라 불리는 구조를 통해 더해지거나 지워질 수 있다. 각 셀은 라이트(write), 리드(read) 및 킵(keep) 동작을 수행하는 3개의 게이트로 구성될 수 있으며, 각 게이트는 '0' 과 '1' 사이의 값을 가질 수 있다. 각 게이트의 값은 셀의 정보를 저장할지, 불러올지 또는 유지할지 여부를 결정하기 위한 기초가 된다. 이처럼, 각 셀의 게이트는 선택적으로 정보를 전달할 수 있다. 선택적 정보 전달의 과정은 시그모이드(sigmoid) 레이어, tanh 레이어 및 점방식 곱셈 연산(pointwise multiplication operation)으로 구성될 수 있다. 한편, 각 게이트의 '0' 과 '1' 사이의 값은 뉴럴 네트워크의 가중치들과 마찬가지의 원리로 학습될 수 있다.
GRU(830)의 각 모듈 내에는 다수의 상호작용하는 레이어가 포함된다. GRU(830)는 시간 스텝 별로, 현재 셀 입력 및 현재 셀 스테이트(current cell state)에 대해 복수의 게이트를 적용하여 신규 셀 스테이트(new cell state) 및 신규 셀 출력을 생성할 수 있다.
GRU(830)의 첫 번째 시그모이드 레이어는 ht-1과 xt를 입력받고 rt를 출력시킨다. 첫 번째 시그모이드 레이어의 출력 값에 따라서 ht-1, 즉 전단계의 셀 스테이트가 유지될지 또는 유지되지 않을지 결정된다. 시그모이드 레이어에서 출력되는 '1'의 값은 "완전 유지함"을 의미하고 '0'의 값은 "완전 제거함"을 의미한다. 첫 번째 시그모이드 레이어의 함수는 수학식 1과 같다.
Figure 112020001262917-pct00001
GRU(830)의 두 번째 시그모이드 레이어는 수학식 2에 의해 ht-1과 xt를 입력받고 zt를 출력시킨다. 두 번째 시그모이드 레이어를 통해 어떤 값들을 갱신할지 여부가 결정될 수 있다.
Figure 112020001262917-pct00002
GRU(830)의 tanh 레이어는 셀 스테이트에 더해질 수 있는 새로운 후보 값들의 벡터를 생성한다. 셀 스테이트를 갱신할 값을 생성하기 위하여, 두 번째 시그모이드 레이어의 출력 값과 tanh 레이어의 출력 값이 합해질 수 있다. tanh 레이어의 함수는 수학식 3과 같다.
Figure 112020001262917-pct00003
마지막으로, GRU(830)는 전 단계의 셀 스테이트 ht-1를 수학식 4를 이용하여 갱신할 수 있다. 갱신된 신규 셀 스테이트는 ht로써 표현된다.
Figure 112020001262917-pct00004
수학식 4에 의해 도출된 신규 셀 스테이트는, 네트워크 학습 시 해당 셀에 입력된 데이터를 이용할지 여부를 결정하는 기초가 될 수 있다. 이처럼, GRU(830)는 정보를 저장하는 셀 스테이트의 선택적인 갱신으로 RNN의 장기 의존성 문제를 회피할 수 있다.
한편, 일 실시예에 따른 RNN 네트워크는 상기에서 예시한 구조에 한정되는 것은 아니며, 다양한 형태로 변형된 구조를 가질 수 있다.
전술한 바와 같이, RNN 학습 모델(700)은 순차적 데이터를 인식하는데 활용될 수 있다. 즉, RNN 학습 모델(700)의 인식 모델은 순차적 데이터가 입력되면 순차적 데이터로부터 특징 값을 추출하고, 추출된 특징 값을 분류하여 인식 결과를 출력할 수 있다. 일 실시예에 따른 RNN 학습 모델(700)의 순차적 데이터 입력 방법에 대해 이하에서 설명하기로 한다.
도 9a는 제 1 예측 데이터를 생성하기 위한 RNN 입력 데이터의 일 예를 나타내는 도면이다.
인트라 예측은 일정한 방향성을 갖는 주변 블록의 패턴에 의존하여 현재 블록을 예측하는 과정이므로, RNN의 학습을 위한 입력 데이터 또한 일정한 방향에 따라 순차적으로 입력되는 것이 바람직할 수 있다.
도 9a를 참조하면, 예측을 수행하고자 하는 현재 블록(910) 및 주변 블록들(블록 '0' 내지 블록 '11')이 도시된다. 일 실시예에 따른 인트라 예측부(120, 240)는 제 1 예측을 수행하기 위해 현재 블록(910)에 인접한 주변 블록들을 제 1 입력 데이터로서 RNN 학습 모델의 입력으로 사용할 수 있다. 제 1 입력 데이터는 현재 블록(910) 이전에 복원된 데이터이며, 제 1 입력 데이터가 분포하는 위치는 도 9a에 도시된 위치에 한정되지 않는다.
일 실시예에 따르면, 인트라 예측부(120, 240)는 현재 블록(910)을 기준으로 하나 이상의 입력 각도(912, 914, 916, 918)를 결정할 수 있다. 이 때, 하나 이상의 입력 각도(912, 914, 916, 918)는 미리 설정된 것일 수 있다. 다른 실시예에 따라, 하나 이상의 입력 각도(912, 914, 916, 918)는 영상 부호화 장치(100)로부터 영상 복호화 장치(200)로 시그널링되는 정보에 의해 결정될 수도 있다.
일 실시예에 따라, 인트라 예측부(120, 240)는 각 입력 각도(912, 914, 916, 918)를 따라 위치한 입력 각도 별 주변 블록(블록 '0' 내지 블록 '11')을 결정할 수 있다. 입력 각도 별 주변 블록은 제 1 예측 데이터를 생성하기 위한 제 1 입력 데이터에 대응할 수 있다.
일 실시예에 따라, 인트라 예측부(120, 240)는 입력 각도 별 주변 블록(블록 '0' 내지 블록 '11')을 시계 방향의 순서로 RNN 네트워크의 각 셀에 입력할 수 있다. 예를 들어, 각 입력 각도에 놓인 주변 블록들은 시간 스텝에 따라 입력 각도(912), 입력 각도(914), 입력 각도(916) 및 입력 각도(918)의 순서로 RNN 네트워크의 각 셀에 입력될 수 있다. 다만, 입력 각도 별 주변 블록이 입력되는 순서는 반드시 시계 방향의 순서일 필요는 없으며, 반시계 방향 순서 또는 기타 소정 방향 순서에 따를 수 있다.
만일, 입력 각도 별 주변 블록이 복수 개일 경우, 동일한 입력 각도에 위치한 주변 블록들 사이의 입력 순서는 현재 블록에서 먼 위치로부터 가까운 위치의 순서일 수 있다. 예를 들어, 도 9a를 참조하면, 입력 각도(912)에 위치한 주변 블록들(블록 '0' 내지 블록 '2') 사이에서의 입력 순서는 블록 '0', 블록 '1' 및 블록 '2' 순일 수 있다. 다만, 동일한 입력 각도에 위치한 주변 블록들 사이의 입력 순서는 상술한 바에 한정되지 않는다. 예를 들어, 동일한 입력 각도에 위치한 주변 블록들 사이의 입력 순서는 현재 블록에서 가까운 위치로부터 먼 위치의 순서일 수도 있다.
일 실시예에 따른 인트라 예측부(120, 240)가 RNN 학습 모델에 입력하는 주변 블록들의 입력 순서는 미리 설정되어 있을 수 있다. 또한, 다른 실시예에 따르면 주변 블록들의 입력 순서는 영상 부호화 장치(100)로부터 영상 복호화 장치(200)로 시그널링되는 정보에 의해 결정될 수도 있다.구체적인 예를 들면, 제 1 입력 데이터는 이하에 개시된 순서에 따라 RNN 학습 모델에 입력될 수 있다. 그러나, 하기 실시예는 단지 예시를 위한 것일 뿐, 제 1 입력 데이터의 입력 순서는 다양하게 변형될 수 있다.
일 실시예에 따르면, 먼저 인트라 예측부(120, 240)는 현재 블록(910)의 좌측 방향에 위치한 좌측 주변 블록들(블록 '0' 내지 블록 '2') 중 현재 블록(910)에서 먼 위치로부터 가까운 위치의 순서로 좌측 주변 블록들의 각각을 RNN 학습 모델의 RNN 네트워크의 각 셀에 입력할 수 있다.
다음으로, 인트라 예측부(120, 240)는 현재 블록(910)의 좌상측 방향에 위치한 좌상측 주변 블록들(블록 '3' 내지 블록 '5') 중 현재 블록(910)에서 먼 위치로부터 가까운 위치의 순서로 좌상측 주변 블록들의 각각을 RNN 학습 모델의 RNN 네트워크의 각 셀에 입력할 수 있다.
다음으로, 인트라 예측부(120, 240)는 현재 블록(910)의 상측 방향에 위치한 상측 주변 블록들(블록 '6' 내지 블록 '8') 중 현재 블록(910)에서 먼 위치로부터 가까운 위치의 순서로 상측 주변 블록들의 각각을 RNN 학습 모델의 RNN 네트워크의 각 셀에 입력할 수 있다.
다음으로, 인트라 예측부(120, 240)는 현재 블록(910)의 우상측 방향에 위치한 우상측 주변 블록들(블록 '9' 내지 블록 '11') 중 현재 블록(910)에서 먼 위치로부터 가까운 위치의 순서로 우상측 주변 블록들의 각각을 RNN 학습 모델의 RNN 네트워크의 각 셀에 입력할 수 있다.
도 9b는 제 1 예측 데이터를 생성하기 위한 RNN 입력 데이터의 다른 예를 나타내는 도면이다.
일 실시예에 따라, 인트라 예측부(120, 240)는 입력 각도 별 주변 블록을 시계 방향의 순서로 RNN 네트워크의 각 셀에 입력할 수 있다. 예를 들어, 각 입력 각도에 놓인 주변 블록들은 시간 스텝에 따라 입력 각도(922), 입력 각도(924), 입력 각도(926), 입력 각도(928), 입력 각도(930), 입력 각도(932) 및 입력 각도(934)의 순서로 RNN 네트워크의 각 셀에 입력될 수 있다. 만일, 입력 각도 별 주변 블록이 복수 개일 경우, 동일한 입력 각도에 위치한 주변 블록들 사이의 입력 순서는 현재 블록에서 먼 위치로부터 가까운 위치의 순서일 수 있다. 예를 들어, 도 9b를 참조하면, 입력 각도(926)에 위치한 주변 블록들(블록 '3' 내지 블록 '5') 사이에서의 입력 순서는 블록 '3', 블록 '4' 및 블록 '5' 순일 수 있다. 다만, 상술한 입력 순서는 단지 예시적인 것일 뿐이며, 동일한 입력 각도에 위치한 주변 블록들은 다양한 입력 순서에 기초하여 RNN 네트워크에 입력될 수 있다.
도 9c는 제 1 예측 데이터를 생성하기 위한 RNN 입력 데이터의 또 다른 예를 나타내는 도면이다.
도 9c를 참조하면, 예측을 수행하고자 하는 현재 블록(930) 및 주변 블록들(블록 '0' 내지 블록 '5')이 도시된다. 일 실시예에 따른 인트라 예측부(120, 240)는 제 1 예측을 수행하기 위해 현재 블록(930)에 인접한 주변 블록들을 제 1 입력 데이터로서 RNN의 입력으로 사용할 수 있다. 제 1 입력 데이터는 현재 블록(930) 이전에 복원된 데이터이다.
일 실시예에 따른 인트라 예측부(120, 240)는 주변 블록들을 Z 스캔의 순서로 RNN 네트워크의 각 셀에 입력할 수 있다.
예를 들어, 인트라 예측부(120, 240)는 현재 블록(1010)의 좌상측 위치로부터 현재 블록(1010)의 우상측 위치 및 현재 블록(1010)의 좌측 위치의 순서(즉, 블록 '0' 내지 블록 '5'의 순서)로 주변 블록들의 각각을 RNN 학습 모델의 RNN 네트워크의 각 셀에 입력할 수 있다.
다만, 상술한 주변 블록들의 입력 순서는 단지 예시적인 것이며, 주변 블록들은 다양한 스캔(예를 들어, 래스터 스캔(raster scan), N 스캔(N-scan), 우상향 대각 스캔(up-right diagonal scan), 수평적 스캔(horizontal scan), 수직적 스캔(vertical scan) 등) 순서로 RNN 네트워크의 각 셀에 입력될 수 있다.
도10a 내지 10f는 다양한 CNN의 구조를 나타내는 도면이다.
도 10a를 참조하면, 일 실시예에 따른 기본 CNN 학습 모델의 구조가 도시된다.
도 10a를 참조하면, CNN 학습 모델(1020)의 입력 레이어를 통해 입력 데이터(1010)가 입력되고 CNN 학습 모델(1020)의 출력 레이어를 통해 출력 데이터(1030)가 출력된다.
CNN 학습 모델(1020)의 입력 레이어와 출력 레이어 사이에는 다수의 히든 레이어가 포함될 수 있다. 히든 레이어를 이루는 각 레이어는 컨볼루션 레이어 및 서브 샘플링 레이어를 포함할 수 있다. 컨볼루션 레이어는 컨볼루션 필터를 이용하여 각 레이어에 입력된 영상 데이터에 컨볼루션 연산을 수행하고, 특징 맵을 생성한다. 이때, 특징 맵은 입력 데이터(1010)의 다양한 특징이 표현된 영상 데이터를 의미한다. 서브 샘플링 레이어는 샘플링 또는 풀링(pooling)을 통해 특징 맵의 크기를 감소시킨다. CNN 학습 모델(1020)의 출력 레이어는 특징 맵에 표현된 다양한 특징을 조합하여 영상 데이터의 클래스(class)를 분류한다. 이때, 출력 레이어는 완전 연결 레이어로 구성될 수 있다.
일 실시예에 따른 CNN 학습 모델의 구조(예컨대, 히든 레이어의 수, 각 레이어에서의 필터의 수와 크기 등)는 미리 결정되며, 각 레이어에서의 필터(특히, 컨볼루션 필터)의 가중치 매트릭스(weight matrix)는 이미 어느 클래스에 속할지 정답이 알려진 데이터들을 이용하여 적절한 값으로 산정된다. 이와 같이 이미 정답이 알려진 데이터들은 '학습 데이터'로서 사용된다. 이 때, 필터의 가중치 매트릭스를 결정하는 과정은 곧 '학습'을 의미한다.
예를 들어, CNN 학습 모델(1020)의 구조에서, 각 레이어 당 필터의 개수는 64개일 수 있으며, 각 필터의 크기는 3x3일 수 있다. 또한, 예를 들어, CNN 학습 모델(1020)의 구조에서 총 레이어의 개수는 10개로 이루어질 수 있다. 그러나, 상술한 실시예는 단지 예시를 위한 것에 불과하며, 히든 레이어의 수, 각 레이어에서의 필터의 수와 크기 등은 다양한 형태에 따라 변경 실시될 수 있다.
도 6을 통해 전술한 바와 같이, 일 실시예에 따른 인트라 예측부(120, 240)는 RNN 학습 모델 기반의 제 1 예측을 통해 생성된 제 1 예측 데이터에 대해 CNN 학습 모델(1020)에 기반한 제 2 예측을 수행하여 제 2 예측 데이터(즉, 출력 데이터(1030))를 생성할 수 있다. 일 실시예에 따른 CNN 학습 모델(1020)은 출력 데이터(1030)인 제 2 예측 데이터가 현재 블록의 원 데이터에서 제 1 예측 데이터를 뺀 값과 같아지도록 학습된 네트워크일 수 있다.
이 때, CNN 학습 모델(1020)의 입력 데이터(1010)는 제 1 예측 데이터 및 현재 블록에 인접한 주변 복원 데이터일 수 있으며, 출력 데이터(1030)는 현재 블록의 원 데이터에서 제 1 예측 데이터를 뺀 값과의 오차를 최소화한 현재 블록의 예측 데이터일 수 있다. 한편, 오차는 R-D 코스트에 기초하여 측정될 수 있다.
도 10b를 참조하면, 다른 실시예에 따른 CNN 학습 모델의 구조가 도시된다.
도 10b의 CNN 학습 모델(1040)은 복수개의 평행(parallel)한 레이어들로 구성된 네트워크일 수 있다. 즉, 복수개의 컨볼루션 레이어와 풀링 레이어가 나란히 배열될 수 있다. CNN 학습 모델(1040)에서 이전 레이어로부터 출력된 결과는 분리된 복수개의 평행 레이어들에 입력될 수 있다. 분리된 복수개의 평행 레이어들은 각각 상이한 필터를 적용할 수 있다. 예를 들어, 분리된 복수개의 평행 레이어들은 1x1 컨볼루션으로 차원을 줄인 후 3x3, 5x5 등의 컨볼루션을 적용할 수 있다. 다른 레이어에서는 3x3 맥스 풀링을 수행한 후 컨볼루션을 적용할 수도 있다. 1x1 컨볼루션만을 적용하는 레이어는 초기 정보를 유지하는 아이덴티티 루프로서의 기능을 할 수 있다. 컨볼루션을 수행한 복수개의 평행 레이어들은 최종적으로 병합(concatenation)되어 현재 레이어의 계산 결과로서 출력될 수 있다. CNN 학습 모델(1040)에 따르면 CNN의 레이어가 항상 순차적으로 스택(stack)될 필요가 없다. CNN 학습 모델(1040)의 구조는 비순차적으로 최적화된 구조의 네트워크가 순차적인 구조의 네트워크보다 오류가 적을 수 있다는 점에 기반한다.
도 10c를 참조하면, 다른 실시예에 따른 CNN 학습 모델의 구조가 도시된다.
도 10c의 CNN 학습 모델(1050)은 스킵 레이어(skip layer)의 개념을 사용한 네트워크 모델이다. CNN 학습 모델(1050)은 과거 레이어의 입력이 현재 레이어의 출력과 더해지는 구조를 갖는다. CNN 학습 모델(1050)에서 과거 레이어와 현재 레이어의 출력이 더해진 결과는 다음 레이어의 입력이 될 수 있다. 일반적인 CNN 구조에서는 다수의 레이어에서 컨볼루션과 풀링 과정을 거치면서 결과값의 크기가 지나치게 작아질 수 있다. 이 경우, 결과값의 정교한(detail) 정보가 사라질 수 있다. CNN 학습 모델(1050)은 컨볼루션과 풀링 과정에서 과거의 결과를 재활용함으로써 정교한 부분을 보강할 수 있는 효과가 있다.
도 10d를 참조하면, 다른 실시예에 따른 CNN 학습 모델의 구조가 도시된다.
도 10d의 CNN 학습 모델(1060)은 도 10c의 CNN 학습 모델(1050)과 마찬가지로 스킵 레이어의 개념을 사용한 네트워크 모델이다. 다만, CNN 학습 모델(1060)은 과거의 결과가 임의 위치의 레이어의 입력으로 더해질 수 있다는 점에서 CNN 학습 모델(1050)에 비해 레이어들 사이의 관계가 조밀(dense)한 특징을 갖는다. 더 나아가, CNN 학습 모델(1060)은 과거 레이어가 컨볼루션 연산을 통해 계산한 결과를 임의 위치의 레이어의 입력 자체로 사용할 수도 있다.
도 10e를 참조하면, 다른 실시예에 따른 CNN 학습 모델의 구조가 도시된다.
도 10e의 CNN 학습 모델(1070)은 다층 해상도(multi-resolution)의 피라미드(pyramid) 구조를 사용한 네트워크 모델이다. CNN 학습 모델(1070)은 직전의 컨볼루션 레이어의 결과를 여러 단계의 피라미드로 나눌 수 있다. 예를 들어, 1단계에서는 해상도가 스케일링되지 않고, 2단계에는 해상도가 1/2 x 1/2로 스케일링되고, 3단계에서는 해상도가 1/4 x 1/4로 스케일링될 수 있다. 이렇게 얻어진 여러 단계의 결과는 병합(concatenation)되어 완전 연결 레이어(fully connected layer)의 입력으로 사용될 수 있다. 컨볼루션 레이어는 영상의 크기에 영향을 받지 않지만, 완전 연결 레이어(fully connected layer)는 입력 영상의 크기에 제한을 받기 때문에 일반적인 네트워크에서는 입력 영상의 크기가 고정이 될 수 밖에 없었다. 그러나, CNN 학습 모델(1070)과 같이 여러 단계의 피라미드 레벨에서 출력되는 특징들을 완전 연결 레이어의 입력으로 사용하고, 피라미드의 출력을 영상의 크기에 관계 없이 사전에 미리 정하면 더 이상 영상의 크기에 제한을 받지 않을 수 있다.
도 10f를 참조하면, 다른 실시예에 따른 CNN 학습 모델의 구조가 도시된다.
도 10f의 CNN 학습 모델(1080)은 비선형 함수(ReLu) 이전 또는 이후에 배치 정규화(batch normalization)을 수행하는 구조를 갖는 네트워크 모델이다. 배치 정규화 레이어는 히든 레이어의 앞 단에 위치하며 입력들의 분포를 조절하는 역할을 한다. 또한, 배치 정규화 레이어는 네트워크 내에 흡수된 레이어이므로 역전파(back-propagation)을 통해 관련 변수(스케일, 시프트)를 최적화할 수 있다. 입력의 분포를 개선하는 방식은 각 레이어로 입력되는 데이터에 대하여 평균을 0, 분산을 1로 정규화를 하고, 스케일 변수(γ)를 곱하고, 시프트 변수(β)만큼 더해주는 방식일 수 있다. 이 때, 스케일과 시프트 변수는 학습을 통해 결정될 수 있다. CNN 학습 모델(1080)은 컨볼루션 결과를 정규화함으로써 그래디언트 배니싱(gradient vanishing) 또는 그래디언트 익스플로딩(gradient exploding)과 같은 문제점을 방지할 수 있다. 또한, 배치 정규화를 통해 학습 시간이 단축될 수 있으며, 학습의 정확도 개선될 수 있다.
개시된 실시예에서는, 도 10a 내지 10f를 통해 상술한 다양한 구조의 CNN 학습 모델이 적용될 수 있음은 물론이며, 이들의 가능한 조합들 또는 기 공지된 학습 모델과의 조합으로도 적용될 수 있다. 따라서, 상술한 다양한 구조의 CNN 학습 모델은 단지 설명의 편의를 위한 예시에 불과하며, 본 실시예에서는 다양한 방식의 변경된 구조를 갖는 CNN 학습 모델이 사용될 수 있음에 유의하여야 한다.
도 11은 제 2 예측 데이터를 생성하기 위한 CNN 입력 데이터의 일 예를 나타내는 도면이다.
일 실시예에 따른 CNN 입력 데이터(1100)는 제 2 입력 데이터이다. CNN 입력 데이터(1100)는 도 10a의 입력 데이터(1010)와도 대응된다.
도 11을 참조하면, 일 실시예에 따른 CNN 입력 데이터(1100)는 제 1 예측 데이터(1110) 및 주변 복원 데이터(1120, 1130, 1140)를 포함할 수 있다. 그러나, 상기 실시예는 단지 예시를 위한 것일 뿐, CNN 입력 데이터(1100)는 다양한 형태로 변형될 수 있다.
일 실시예에 따른 인트라 예측부(120, 240)는 도 7의 RNN 학습 모델에 기반한 제 1 예측 동작을 통해 출력된 제 1 예측 데이터와 도 11의 CNN 학습 모델에 기반한 제 2 예측 동작을 통해 출력된 제 2 예측 데이터를 합하여 현재 블록에 대한 최종 예측 데이터를 생성할 수 있다.
일 실시예에 따른 영상 부호화 장치(100)는 현재 블록의 원 데이터와 최종 예측 데이터와의 차이를 계산함으로써 레지듀얼 데이터를 생성하며, 생성된 레지듀얼 데이터를 부호화한 비트스트림을 생성하여 영상 복호화 장치(200)로 전달할 수 있다. 일 실시예에 따른 영상 부호화 장치(100)는 별도의 예측 정보(예를 들어, 예측 모드 정보)를 부호화하지 않는다. 일 실시예에 따라 학습된 DNN(즉, RNN 및 CNN) 모델은 입력 패턴을 분석하여 그 특징을 찾아내어 올바른 예측 영상을 생성할 수 있는 일반화 능력을 갖기 때문이다.
일 실시예에 따른 영상 복호화 장치(200)는 비트스트림으로부터 획득한 레지듀얼 데이터를 최종 예측 데이터와 더함으로써 현재 블록의 데이터를 복원할 수 있다. 이 때, 영상 복호화 장치(200)는 비트스트림으로부터 별도의 예측 정보를 획득하지 않고도 최종 예측 데이터를 생성할 수 있다.
도 12는 일 실시예에 따른 DNN 학습 모델 기반 인터 예측 과정을 나타낸 도면이다.
인터 예측 과정은 움직임 추정을 통해 참조 픽처들로부터 최적의 예측 블록을 찾고, 움직임 보상 과정을 통해 예측 블록을 생성하는 과정이다. 영상은 일련의 정지 영상으로 구성되고, 정지 영상들은 픽처 그룹 단위로 구분된다. 하나의 픽처 그룹에는 I 픽처, P 픽처 및 B 픽처가 포함된다. 이 중에서 P 픽처와 B 픽처는 참조 픽처를 사용하여 움직임 추정 및 움직임 보상을 수행하여 부호화되는 픽처이다.
일 실시예에 따른 DNN 학습 모델 기반 인터 예측은, 영상 부호화 장치(100)의 인터 예측부(115) 또는 영상 복호화 장치(200)의 인터 예측부(235)에서 수행될 수 있다. 일 실시예에 따른 DNN 학습 모델 기반 인터 예측은 RNN 학습 모델, CNN 학습 모델 등을 기반으로 할 수 있다
도 12를 참조하면, 현재 픽처(1210)를 예측하기 위해 DNN 학습 모델(1240)에 복원 픽처(1220, 1230)가 입력되는 과정이 도시된다. 이 때, 현재 픽처(1210)는 P 픽처 또는 B 픽처일 수 있다. 현재 픽처(1210)가 시점 t에 해당하는 픽처일 경우, 인터 예측에 이용되는 복원 픽처(1220)는 시점 t를 기준으로 과거 시점(예를 들어, t-1, t-2)에 해당하는 복원 픽처일 수 있으며, 복원 픽처(1230)는 시점 t를 기준으로 미래 시점(예를 들어, t+1, t+2)에 해당하는 복원 픽처일 수 있다. 또한, 일 실시예에 따른 DNN 학습 모델(1240)은 예측 데이터(1250)를 생성하기 위해, 현재 픽처의 타입과 같은 입력 영상의 특성에 대한 정보들을 이용할 수도 있다.
일 실시예에 따른 인터 예측부(115, 235)는 예측을 수행하고자 하는 현재 픽처(1210) 내의 현재 블록(610)에 대해 DNN 학습 모델에 기반한 인터 예측을 수행하여 예측 데이터(1250)를 생성할 수 있다. 이 때, DNN 학습 모델(1240)은 출력으로 생성되는 예측 데이터(640)가 현재 픽처(1210) 내의 현재 블록의 원 데이터와 같아지도록 학습된 네트워크일 수 있다. 즉, 학습된 DNN 모델을 이용함으로써 현재 블록의 원 데이터와의 오차가 가장 적은 예측 데이터(1250)가 생성될 수 있다. DNN 학습 모델(1240)은 입력 패턴을 분석하여 그 특징을 찾아내어 올바른 참조 픽처 및 참조 블록 위치를 결정할 수 있는 일반화 능력을 갖는다. 따라서, 일 실시예에 따른 DNN 학습 모델에 기반한 인터 예측은 움직임 벡터, 예측 방향, 참조 픽처 인덱스 등과 같은 예측 정보의 시그널링을 필요로 하지 않는다.
일 실시예에 따른 DNN 학습 모델(1240)은 컨볼루션 풀링 레이어, 히든 레이어 및 완전 연결 레이어를 포함하는 레이어들의 세트로 구현될 수 있다. 예를 들어, DNN 학습 모델(1240)의 전체적인 구조는 컨볼루션 풀링 레이어에 히든 레이어가 이어지고, 히든 레이어에 완전 연결 레이어가 이어지는 형태로 이루어질 수 있다.
일 실시예에 따른 DNN 학습 모델(1240)의 구조는 도 5를 통해 전술한 바와 같으므로, DNN 학습 모델(1240)의 자세한 구조에 대한 설명은 생략하도록 한다.
일 실시예에 따른 영상 부호화 장치(100)는 현재 픽처(1210) 내 현재 블록의 원 데이터와 예측 데이터(1250)와의 차이를 계산함으로써 레지듀얼 데이터를 생성하며, 생성된 레지듀얼 데이터를 부호화한 비트스트림을 생성하여 영상 복호화 장치(200)로 전달할 수 있다. 일 실시예에 따른 영상 부호화 장치(100)는 별도의 예측 정보(예를 들어, 움직임 벡터, 예측 방향, 참조 픽처 인덱스 등)를 부호화하지 않는다.
일 실시예에 따른 영상 복호화 장치(200)는 비트스트림으로부터 획득한 레지듀얼 데이터를 예측 데이터(1250)와 더함으로써 현재 픽처(1210) 내 현재 블록의 데이터를 복원할 수 있다. 이 때, 영상 복호화 장치(200)는 비트스트림으로부터 별도의 예측 정보를 획득하지 않고도 예측 데이터(1250)를 생성할 수 있다.
도 13은 일 실시예에 따른 비트스트림의 구조를 나타낸 도면이다.
부호화된 비트스트림(1300)은 다수의 NAL(Network Abstraction Layer) 단위들로 구성된다. NAL 단위는 부호화된 슬라이스(1340)와 같은 부호화된 샘플 데이터 뿐만 아니라, 파라미터 세트 데이터, 슬라이스 헤더 데이터(미도시) 또는 보충 향상 정보 데이터(supplemental enhancement information data; 미도시)와 같은 하이 레벨 신택스 메타데이터를 포함할 수 있다.
파라미터 세트는, 다수의 비트스트림 레이어에 적용될 수도 있는 필수 신택스 엘리먼트(예를 들면, 비디오 파라미터 세트(VPS; 1310)), 하나의 레이어 내의 부호화된 비디오 시퀀스에 적용될 수도 있는 필수 신택스 엘리먼트(예를 들면, 시퀀스 파라미터 세트(SPS; 1320)), 또는 하나의 부호화된 비디오 시퀀스 내의 다수의 픽쳐에 적용될 수도 있는 필수 신택스 엘리먼트(예를 들면, 픽쳐 파라미터 세트(PPS; 1330))를 포함하는 하이 레벨 신택스 구조일 수 있다. 파라미터 세트는 비트스트림의 부호화된 픽처와 함께 전송되거나, 신뢰 가능한 채널, 하드 코딩, 대역외 송신 등을 포함하는 다른 수단을 통해 송신될 수 있다.
슬라이스 헤더는 슬라이스 또는 픽처 타입들에 대한 픽처 관련 정보를 포함하는 하이 레벨 신택스 구조일 수 있다.
SEI 메시지는, 복호화 프로세스를 위해 필수적이지 않을 수도 있지만, 픽처 출력 타이밍, 디스플레이, 손실 검출 및 은닉과 같은 다양한 다른 목적들을 위하여 이용될 수 있는 정보를 반송할 수 있다.
일 실시예에 따라, 비트스트림(1300)에 포함되는 파라미터 세트에는 DNN 학습 모델에 기반한 예측의 수행을 위한 부가 정보가 포함될 수 있다. 일 실시예에 따른 부가 정보는 DNN 학습 모델의 구조에 대한 정보(예를 들어, 필터 세트, 노드 개수에 대한 정보 등) 및 DNN 학습 모델이 적용되는 블록에 대한 정보(예를 들어, 예측 블록 지표 등)를 포함할 수 있다. 또한, 부가 정보는 입력 데이터를 RNN 학습 모델에 입력하는 순서를 결정하기 위한 입력 각도 및/또는 입력 순서에 대한 정보를 포함할 수도 있다.
예를 들어, 부가 정보는 비트스트림(1300) 내의 비디오 파라미터 세트(1310), 시퀀스 파라미터 세트(1320), 픽쳐 파라미터 세트(1330) 등을 통해 시그널링될 수 있다.
한편, 상기와 같은 부가 정보는 비트스트림을 통해 전달될 수도 있으나, 영상 부호화 장치(100)와 영상 복호화 장치(200) 간에 미리 공유될 수도 있다. 또한, 부가 정보는 통신이 가능한 별도 서버를 통해 공유될 수도 있다.
도 14는 일 실시예에 따른 영상 부호화 장치(1400)의 개략적인 블록도를 도시한다.
일 실시예에 따른 영상 부호화 장치(1400)는 도 1의 영상 부호화 장치(100)에 대응할 수 있다.
도 14를 참조하면, 영상 부호화 장치(1400)는 블록 결정부(1410), 예측부(1420), 압축부(1430) 및 전송부(1440)를 포함한다. 도 14의 블록 결정부(1410)는 도 1의 블록 결정부(110)에 대응할 수 있다. 도 14의 예측부(1420)는 도 1의 인트라 예측부(120) 또는 인터 예측부(115)에 대응할 수 있다. 도 14의 압축부(1430)는 도 1의 변환부(130), 양자화부(135) 및 엔트로피 부호화부(155)에 대응할 수 있다.
일 실시예에 따른 블록 결정부(1410)는 부호화 단위의 최대 크기에 따라, 현재 픽처의 영상 데이터를 최대 부호화 단위로 분할할 수 있다. 각각의 최대 부호화 단위는 블록 형태 및 분할 형태별로 분할되는 블록(즉, 부호화 단위)들을 포함할 수 있다. 일 실시예에 따른 최대 부호화 단위는 최대 부호화 단위에 포함된 공간 영역(spatial domain)의 영상 데이터가 블록 형태 및 분할 형태에 따라 계층적으로 분류될 수 있다. 부호화 단위의 블록 형태는 정사각형 또는 직사각형일 수 있으며, 임의의 기하학적 형태일 수 있으므로, 일정한 크기의 데이터 단위로 제한되는 것은 아니다. 하나 이상의 블록의 블록 형태 및 분할 형태는 R-D 코스트 계산에 기초해 결정될 수 있다.
일 실시예에 따라, 예측부(1420)는 블록 결정부(1410)에서 결정된 블록들 중에서 현재 블록에 대해 DNN 학습 모델에 기반한 예측을 수행한다.
인트라 예측의 경우, 예측부(1420)는 현재 블록에 대해 DNN 학습 모델에 기반한 제 1 예측을 수행하여 제 1 예측 데이터를 생성하고, 제 1 예측 데이터에 대해 DNN 학습 모델에 기반한 제 2 예측을 수행하여 제 2 예측 데이터를 생성하고, 제 1 예측 데이터 및 상기 제 2 예측 데이터를 이용하여 현재 블록에 대한 최종 예측 데이터를 생성할 수 있다. 여기서, 제 1 예측은 RNN 학습 모델을 기반으로 할 수 있으며, 제 2 예측은 CNN 학습 모델을 기반으로 할 수 있다. 일 실시예에 따른 인트라 예측의 구체적인 과정에 대해서는 도 6 내지 도 12를 통해 전술하였으므로, 자세한 설명은 생략하기로 한다.
인터 예측의 경우, 예측부(1420)는 하나 이상의 블록 중 현재 블록에 대해 DNN 학습 모델에 기반한 인터 예측을 수행하여 하나 이상의 참조 픽처 및 하나 이상의 참조 블록 위치를 결정하고, 하나 이상의 참조 픽처 및 하나 이상의 참조 블록 위치를 이용하여 현재 블록에 대한 예측 데이터를 생성할 수 있다. 일 실시예에 따른 인터 예측의 구체적인 과정에 대해서는 도 13을 통해 전술하였으므로, 자세한 설명은 생략하기로 한다.
일 실시에에 따른 압축부(1430)는 각 블록의 원 데이터와, 예측부(1420)으로부터 출력된 각 블록에 대한 예측 데이터의 차이를 계산함으로써 레지듀얼 데이터를 생성한다. 압축부(1430)는 레지듀얼 데이터를 변환 및 양자화하여 블록 별로 양자화된 변환 계수를 생성한다. 압축부(1430)는 양자화된 변환 계수를 엔트로피 부호화한 비트스트림을 출력한다. 부호화된 비트스트림에는 레지듀얼 데이터의 부호화 결과가 포함될 수 있다. 또한, 비트스트림에는 블록 형태, 분할 형태, 변환 단위의 크기 정보 등을 나타내는 정보의 부호화 결과가 포함될 수도 있다.
일 실시예에 따른 전송부(1440)는, 압축부(1430)에서 출력된 비트스트림을 영상 복호화 장치로 전송한다.
도 15는 일 실시예에 따른 영상 복호화 장치(1500)의 개략적인 블록도를 도시한다.
일 실시예에 따른 영상 복호화 장치(1500)는 도 2의 영상 복호화 장치(200)에 대응할 수 있다.
도 15를 참조하면, 영상 복호화 장치(1500)는 수신부(1510), 블록 결정부(1520), 예측부(1530) 및 복원부(1540)를 포함한다. 도 15의 수신부(1510)는 도 2의 수신부(210)에 대응할 수 있다. 도 15의 블록 결정부(1520)는 도 2의 블록 결정부(215)에 대응할 수 있다. 도 15의 예측부(1530)는 도 2의 인트라 예측부(240) 또는 인터 예측부(235)에 대응할 수 있다. 도 15의 복원부(1540)는 도 2의 엔트로피 복호화부(220), 역양자화부(225) 및 역변환부(230)에 대응할 수 있다.
일 실시예에 따른 수신부(1510)는 부호화된 비트스트림을 수신한다.
일 실시예에 따른 블록 결정부(1520)는 비트스트림으로부터 분할 정보를 획득하여 공간 영역의 영상 데이터를 블록 형태 및 분할 형태에 따라 계층적으로 분할할 수 있다. 한편, 복호화에 이용되는 블록들이 일정한 형태 및 크기를 가질 경우, 블록 결정부(1520)는 분할 정보를 이용하지 않고 영상 데이터를 분할할 수 있다.
일 실시예에 따라, 예측부(1530)는 블록 결정부(1520)에서 결정된 블록들 중에서 현재 블록에 대해 DNN 학습 모델에 기반한 예측을 수행한다. 한편, DNN 학습 모델의 구조에 대한 정보는 부가 정보의 형태로서 비트스트림으로부터 획득될 수도 있다.
인트라 예측의 경우, 예측부(1530)는 현재 블록에 대해 DNN 학습 모델에 기반한 제 1 예측을 수행하여 제 1 예측 데이터를 생성하고, 제 1 예측 데이터에 대해 DNN 학습 모델에 기반한 제 2 예측을 수행하여 제 2 예측 데이터를 생성하고, 제 1 예측 데이터 및 상기 제 2 예측 데이터를 이용하여 현재 블록에 대한 최종 예측 데이터를 생성할 수 있다. 여기서, 제 1 예측은 RNN 학습 모델을 기반으로 할 수 있으며, 제 2 예측은 CNN 학습 모델을 기반으로 할 수 있다. 일 실시예에 따른 인트라 예측의 구체적인 과정에 대해서는 도 6 내지 도 11을 통해 전술하였으므로, 자세한 설명은 생략하기로 한다.
인터 예측의 경우, 예측부(1530)는 하나 이상의 블록 중 현재 블록에 대해 DNN 학습 모델에 기반한 인터 예측을 수행하여 하나 이상의 참조 픽처 및 하나 이상의 참조 블록 위치를 결정하고, 하나 이상의 참조 픽처 및 하나 이상의 참조 블록 위치를 이용하여 현재 블록에 대한 예측 데이터를 생성할 수 있다. 일 실시예에 따른 인터 예측의 구체적인 과정에 대해서는 도 12를 통해 전술하였으므로, 자세한 설명은 생략하기로 한다.
일 실시에에 따른 복원부(1540)는 비트스트림을 엔트로피 복호화하여 획득한 양자화된 변환계수를 역양자화 및 역변환하여 각 블록의 레지듀얼 데이터를 획득한다. 그 후, 복원부(1540)는 각 블록의 레지듀얼 데이터와 예측부(1530)에서 생성된 각 블록의 예측 데이터를 이용하여 영상을 복원한다.
도 16은 일 실시예에 따른 영상 부호화 방법을 나타낸 플로우 차트이다.
단계 S1610에서, 영상 부호화 장치(100)는 영상을 분할하는 하나 이상의 블록을 결정한다.
단계 S1620에서, 영상 부호화 장치(100)는 하나 이상의 블록 중 현재 블록을 예측하기 위한 주변 블록들을 결정한다.
단계 S1630에서, 영상 부호화 장치(100)는 주변 블록들을, 하나 이상의 컴퓨터를 이용하여 영상의 블록을 예측하도록 설정된 DNN 학습 모델에 적용하여, 현재 블록의 예측 데이터를 생성한다.
단계 S1640에서, 영상 부호화 장치(100)는 현재 블록에 대응하는 원 데이터와 예측 데이터를 이용하여 현재 블록의 레지듀얼 데이터를 생성한다.
단계 S1650에서, 영상 부호화 장치(100)는 레지듀얼 데이터를 부호화한 비트스트림을 생성한다.
도 17은 일 실시예에 따른 영상 복호화 방법을 나타낸 플로우 차트이다.
단계 S1710에서, 영상 복호화 장치(200)는 부호화된 영상의 비트스트림을 수신한다.
단계 S1720에서, 영상 복호화 장치(200)는 부호화된 영상으로부터 분할된 하나 이상의 블록을 결정한다.
단계 S1730에서, 영상 복호화 장치(200)는 하나 이상의 블록 중 현재 블록을 예측하기 위한 주변 블록들을 결정한다.
단계 S1740에서, 영상 복호화 장치(200)는 주변 블록들을, 하나 이상의 컴퓨터를 이용하여 영상의 블록을 예측하도록 설정된 DNN 학습 모델에 적용하여, 현재 블록의 예측 데이터를 생성한다.
단계 S1750에서, 영상 복호화 장치(200)는 비트스트림으로부터 현재 블록의 레지듀얼 데이터를 추출한다.
단계 S1760에서, 영상 복호화 장치(200)는 예측 데이터와 레지듀얼 데이터를 이용하여 현재 블록을 복원한다.
이하, 도 18 내지 도 31을 참조하여 일 실시예에 따른 영상의 데이터 단위를 결정하는 방법이 상술된다. 도 18 내지 도 31에서 설명되는 부호화 단위에 대한 분할 방법은 변환의 기초가 되는 변환 단위의 분할 방법에도 동일하게 적용될 수 있다.
도 18은 일 실시예에 따라 영상 복호화 장치(200)가 현재 부호화 단위를 분할하여 적어도 하나의 부호화 단위를 결정하는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보를 이용하여 부호화 단위의 형태를 결정할 수 있고, 분할 형태 정보를 이용하여 부호화 단위가 어떤 형태로 분할되는지를 결정할 수 있다. 즉, 영상 복호화 장치(200)가 이용하는 블록 형태 정보가 어떤 블록 형태를 나타내는지에 따라 분할 형태 정보가 나타내는 부호화 단위의 분할 방법이 결정될 수 있다.
일 실시예에 따라, 영상 복호화 장치(200)는 현재 부호화 단위가 정사각형 형태임을 나타내는 블록 형태 정보를 이용할 수 있다. 예를 들어 영상 복호화 장치(200)는 분할 형태 정보에 따라 정사각형의 부호화 단위를 분할하지 않을지, 수직으로 분할할지, 수평으로 분할할지, 4개의 부호화 단위로 분할할지 등을 결정할 수 있다. 도 18을 참조하면, 현재 부호화 단위(1800)의 블록 형태 정보가 정사각형의 형태를 나타내는 경우, 영상 복호화 장치(200)는 분할되지 않음을 나타내는 분할 형태 정보에 따라 현재 부호화 단위(1800)와 동일한 크기를 가지는 부호화 단위(1810a)를 분할하지 않거나, 소정의 분할방법을 나타내는 분할 형태 정보에 기초하여 분할된 부호화 단위(1810b, 1810c, 1810d 등)를 결정할 수 있다.
도 18을 참조하면 영상 복호화 장치(200)는 일 실시예에 따라 수직방향으로 분할됨을 나타내는 분할 형태 정보에 기초하여 현재 부호화 단위(1800)를 수직방향으로 분할한 두 개의 부호화 단위(1810b)를 결정할 수 있다. 영상 복호화 장치(200)는 수평방향으로 분할됨을 나타내는 분할 형태 정보에 기초하여 현재 부호화 단위(1800)를 수평방향으로 분할한 두 개의 부호화 단위(1810c)를 결정할 수 있다. 영상 복호화 장치(200)는 수직방향 및 수평방향으로 분할됨을 나타내는 분할 형태 정보에 기초하여 현재 부호화 단위(1800)를 수직방향 및 수평방향으로 분할한 네 개의 부호화 단위(1810d)를 결정할 수 있다. 다만 정사각형의 부호화 단위가 분할될 수 있는 분할 형태는 상술한 형태로 한정하여 해석되어서는 안되고, 분할 형태 정보가 나타낼 수 있는 다양한 형태가 포함될 수 있다. 정사각형의 부호화 단위가 분할되는 소정의 분할 형태들은 이하에서 다양한 실시예를 통해 구체적으로 설명하도록 한다.
도 19는 일 실시예에 따라 영상 복호화 장치(200)가 비-정사각형의 형태인 부호화 단위를 분할하여 적어도 하나의 부호화 단위를 결정하는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위가 비-정사각형 형태임을 나타내는 블록 형태 정보를 이용할 수 있다. 영상 복호화 장치(200)는 분할 형태 정보에 따라 비-정사각형의 현재 부호화 단위를 분할하지 않을지 소정의 방법으로 분할할지 여부를 결정할 수 있다. 도 19를 참조하면, 현재 부호화 단위(1900 또는 1950)의 블록 형태 정보가 비-정사각형의 형태를 나타내는 경우, 영상 복호화 장치(200)는 분할되지 않음을 나타내는 분할 형태 정보에 따라 현재 부호화 단위(1900 또는 1950)와 동일한 크기를 가지는 부호화 단위(1910 또는 1960)를 분할하지 않거나, 소정의 분할방법을 나타내는 분할 형태 정보에 따라 기초하여 분할된 부호화 단위(1920a, 1920b, 1930a, 1930b, 1930c, 1970a, 1970b, 1980a, 1980b, 1980c)를 결정할 수 있다. 비-정사각형의 부호화 단위가 분할되는 소정의 분할 방법은 이하에서 다양한 실시예를 통해 구체적으로 설명하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 분할 형태 정보를 이용하여 부호화 단위가 분할되는 형태를 결정할 수 있고, 이 경우 분할 형태 정보는 부호화 단위가 분할되어 생성되는 적어도 하나의 부호화 단위의 개수를 나타낼 수 있다. 도 19를 참조하면 분할 형태 정보가 두 개의 부호화 단위로 현재 부호화 단위(1900 또는 1950)가 분할되는 것을 나타내는 경우, 영상 복호화 장치(200)는 분할 형태 정보에 기초하여 현재 부호화 단위(1900 또는 1950)를 분할하여 현재 부호화 단위에 포함되는 두 개의 부호화 단위(1920a, 12220b, 또는 1970a, 1970b)를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)가 분할 형태 정보에 기초하여 비-정사각형의 형태의 현재 부호화 단위(1900 또는 1950)를 분할하는 경우, 비-정사각형의 현재 부호화 단위(1900 또는 1950)의 긴 변의 위치를 고려하여 현재 부호화 단위를 분할할 수 있다. 예를 들면, 영상 복호화 장치(200)는 현재 부호화 단위(1900 또는 1950)의 형태를 고려하여 현재 부호화 단위(1900 또는 1950)의 긴 변을 분할하는 방향으로 현재 부호화 단위(1900 또는 1950)를 분할하여 복수개의 부호화 단위를 결정할 수 있다.
일 실시예에 따라, 분할 형태 정보가 홀수개의 블록으로 부호화 단위를 분할하는 것을 나타내는 경우, 영상 복호화 장치(200)는 현재 부호화 단위(1900 또는 1950)에 포함되는 홀수개의 부호화 단위를 결정할 수 있다. 예를 들면, 분할 형태 정보가 3개의 부호화 단위로 현재 부호화 단위(1900 또는 1950)를 분할하는 것을 나타내는 경우, 영상 복호화 장치(200)는 현재 부호화 단위(1900 또는 1950)를 3개의 부호화 단위(1930a, 1930b, 1930c, 1980a, 1980b, 1980c)로 분할할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위(1900 또는 1950)에 포함되는 홀수개의 부호화 단위를 결정할 수 있으며, 결정된 부호화 단위들의 크기 모두가 동일하지는 않을 수 있다. 예를 들면, 결정된 홀수개의 부호화 단위(1930a, 1930b, 1930c, 1980a, 1980b, 1980c) 중 소정의 부호화 단위(1930b 또는 1980b)의 크기는 다른 부호화 단위(1930a, 1930c, 1980a, 1980c)들과는 다른 크기를 가질 수도 있다. 즉, 현재 부호화 단위(1900 또는 1950)가 분할되어 결정될 수 있는 부호화 단위는 복수의 종류의 크기를 가질 수 있고, 경우에 따라서는 홀수개의 부호화 단위(1930a, 1930b, 1930c, 1980a, 1980b, 1980c)가 각각 서로 다른 크기를 가질 수도 있다.
일 실시예에 따라 분할 형태 정보가 홀수개의 블록으로 부호화 단위가 분할되는 것을 나타내는 경우, 영상 복호화 장치(200)는 현재 부호화 단위(1900 또는 1950)에 포함되는 홀수개의 부호화 단위를 결정할 수 있고, 나아가 영상 복호화 장치(200)는 분할하여 생성되는 홀수개의 부호화 단위들 중 적어도 하나의 부호화 단위에 대하여 소정의 제한을 둘 수 있다. 도 19를 참조하면 영상 복호화 장치(200)는 현재 부호화 단위(1900 또는 1950)가 분할되어 생성된 3개의 부호화 단위(1930a, 1930b, 1930c, 1980a, 1980b, 1980c)들 중 중앙에 위치하는 부호화 단위(1930b, 1980b)에 대한 복호화 과정을 다른 부호화 단위(1930a, 1930c, 1980a, 1980c)와 다르게 할 수 있다. 예를 들면, 영상 복호화 장치(200)는 중앙에 위치하는 부호화 단위(1930b, 1980b)에 대하여는 다른 부호화 단위(1930a, 1930c, 1980a, 1980c)와 달리 더 이상 분할되지 않도록 제한하거나, 소정의 횟수만큼만 분할되도록 제한할 수 있다.
도 20은 일 실시예에 따라 영상 복호화 장치(200)가 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 부호화 단위를 분할하는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 정사각형 형태의 제1 부호화 단위(2000)를 부호화 단위들로 분할하거나 분할하지 않는 것으로 결정할 수 있다. 일 실시예에 따라 분할 형태 정보가 수평 방향으로 제1 부호화 단위(2000)를 분할하는 것을 나타내는 경우, 영상 복호화 장치(200)는 제1 부호화 단위(2000)를 수평 방향으로 분할하여 제2 부호화 단위(2010)를 결정할 수 있다. 일 실시예에 따라 이용되는 제1 부호화 단위, 제2 부호화 단위, 제3 부호화 단위는 부호화 단위 간의 분할 전후 관계를 이해하기 위해 이용된 용어이다. 예를 들면, 제1 부호화 단위를 분할하면 제2 부호화 단위가 결정될 수 있고, 제2 부호화 단위가 분할되면 제3 부호화 단위가 결정될 수 있다. 이하에서는 이용되는 제1 부호화 단위, 제2 부호화 단위 및 제3 부호화 단위의 관계는 상술한 특징에 따르는 것으로 이해될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 결정된 제2 부호화 단위(2010)를 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 부호화 단위들로 분할하거나 분할하지 않는 것으로 결정할 수 있다. 도 20를 참조하면 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(2000)를 분할하여 결정된 비-정사각형의 형태의 제2 부호화 단위(2010)를 적어도 하나의 제3 부호화 단위(2020a, 2020b, 2020c, 2020d 등)로 분할하거나 제2 부호화 단위(2010)를 분할하지 않을 수 있다. 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 획득할 수 있고 영상 복호화 장치(200)는 획득한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(2000)를 분할하여 다양한 형태의 복수개의 제2 부호화 단위(예를 들면, 2010)를 분할할 수 있으며, 제2 부호화 단위(2010)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(2000)가 분할된 방식에 따라 분할될 수 있다. 일 실시예에 따라, 제1 부호화 단위(2000)가 제1 부호화 단위(2000)에 대한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제2 부호화 단위(2010)로 분할된 경우, 제2 부호화 단위(2010) 역시 제2 부호화 단위(2010)에 대한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제3 부호화 단위(예를 들면, 2020a, 2020b, 2020c, 2020d 등)으로 분할될 수 있다. 즉, 부호화 단위는 부호화 단위 각각에 관련된 분할 형태 정보 및 블록 형태 정보 중 적어도 하나에 기초하여 재귀적으로 분할될 수 있다. 따라서 비-정사각형 형태의 부호화 단위에서 정사각형의 부호화 단위가 결정될 수 있고, 이러한 정사각형 형태의 부호화 단위가 재귀적으로 분할되어 비-정사각형 형태의 부호화 단위가 결정될 수도 있다. 도 20을 참조하면, 비-정사각형 형태의 제2 부호화 단위(2010)가 분할되어 결정되는 홀수개의 제3 부호화 단위(2020b, 2020c, 2020d) 중 소정의 부호화 단위(예를 들면, 가운데에 위치하는 부호화 단위 또는 정사각형 형태의 부호화 단위)는 재귀적으로 분할될 수 있다. 일 실시예에 따라 홀수개의 제3 부호화 단위(2020b, 2020c, 2020d) 중 하나인 정사각형 형태의 제3 부호화 단위(2020c)는 수평 방향으로 분할되어 복수개의 제4 부호화 단위로 분할될 수 있다.
부호화 단위의 재귀적 분할에 이용될 수 있는 방법에 대하여는 다양한 실시예를 통해 후술하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제3 부호화 단위(2020a, 2020b, 2020c, 2020d 등) 각각을 부호화 단위들로 분할하거나 제2 부호화 단위(2010)를 분할하지 않는 것으로 결정할 수 있다. 영상 복호화 장치(200)는 일 실시예에 따라 비-정사각형 형태의 제2 부호화 단위(2010)를 홀수개의 제3 부호화 단위(2020b, 2020c, 2020d)로 분할할 수 있다. 영상 복호화 장치(200)는 홀수개의 제3 부호화 단위(2020b, 2020c, 2020d) 중 소정의 제3 부호화 단위에 대하여 소정의 제한을 둘 수 있다. 예를 들면 영상 복호화 장치(200)는 홀수개의 제3 부호화 단위(2020b, 2020c, 2020d) 중 가운데에 위치하는 부호화 단위(2020c)에 대하여는 더 이상 분할되지 않는 것으로 제한하거나 또는 설정 가능한 횟수로 분할되어야 하는 것으로 제한할 수 있다. 도 20를 참조하면, 영상 복호화 장치(200)는 비-정사각형 형태의 제2 부호화 단위(2010)에 포함되는 홀수개의 제3 부호화 단위(2020b, 2020c, 2020d)들 중 가운데에 위치하는 부호화 단위(2020c)는 더 이상 분할되지 않거나, 소정의 분할 형태로 분할(예를 들면 4개의 부호화 단위로만 분할하거나 제2 부호화 단위(2010)가 분할된 형태에 대응하는 형태로 분할)되는 것으로 제한하거나, 소정의 횟수로만 분할(예를 들면 n회만 분할, n>0)하는 것으로 제한할 수 있다. 다만 가운데에 위치한 부호화 단위(2020c)에 대한 상기 제한은 단순한 실시예들에 불과하므로 상술한 실시예들로 제한되어 해석되어서는 안되고, 가운데에 위치한 부호화 단위(2020c)가 다른 부호화 단위(2020b, 2020d)와 다르게 복호화 될 수 있는 다양한 제한들을 포함하는 것으로 해석되어야 한다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위를 분할하기 위해 이용되는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 현재 부호화 단위 내의 소정의 위치에서 획득할 수 있다.
도 21은 일 실시예에 따라 영상 복호화 장치(200)가 홀수개의 부호화 단위들 중 소정의 부호화 단위를 결정하기 위한 방법을 도시한다. 도 21을 참조하면, 현재 부호화 단위(2100)의 블록 형태 정보 및 분할 형태 정보 중 적어도 하나는 현재 부호화 단위(2100)에 포함되는 복수개의 샘플 중 소정 위치의 샘플(예를 들면, 가운데에 위치하는 샘플(2140))에서 획득될 수 있다. 다만 이러한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나가 획득될 수 있는 현재 부호화 단위(2100) 내의 소정 위치가 도 21에서 도시하는 가운데 위치로 한정하여 해석되어서는 안되고, 소정 위치에는 현재 부호화 단위(2100)내에 포함될 수 있는 다양한 위치(예를 들면, 최상단, 최하단, 좌측, 우측, 좌측상단, 좌측하단, 우측상단 또는 우측하단 등)가 포함될 수 있는 것으로 해석되어야 한다. 영상 복호화 장치(200)는 소정 위치로부터 획득되는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 획득하여 현재 부호화 단위를 다양한 형태 및 크기의 부호화 단위들로 분할하거나 분할하지 않는 것으로 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위가 소정의 개수의 부호화 단위들로 분할된 경우 그 중 하나의 부호화 단위를 선택할 수 있다. 복수개의 부호화 단위들 중 하나를 선택하기 위한 방법은 다양할 수 있으며, 이러한 방법들에 대한 설명은 이하의 다양한 실시예를 통해 후술하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위를 복수개의 부호화 단위들로 분할하고, 소정 위치의 부호화 단위를 결정할 수 있다.
도 21은 일 실시예에 따라 영상 복호화 장치(200)가 홀수개의 부호화 단위들 중 소정 위치의 부호화 단위를 결정하기 위한 방법을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 홀수개의 부호화 단위들 중 가운데에 위치하는 부호화 단위를 결정하기 위하여 홀수개의 부호화 단위들 각각의 위치를 나타내는 정보를 이용할 수 있다. 도 21을 참조하면, 영상 복호화 장치(200)는 현재 부호화 단위(2100)를 분할하여 홀수개의 부호화 단위들(2120a, 2120b, 2120c)을 결정할 수 있다. 영상 복호화 장치(200)는 홀수개의 부호화 단위들(2120a, 2120b, 2120c)의 위치에 대한 정보를 이용하여 가운데 부호화 단위(2120b)를 결정할 수 있다. 예를 들면 영상 복호화 장치(200)는 부호화 단위들(2120a, 2120b, 2120c)에 포함되는 소정의 샘플의 위치를 나타내는 정보에 기초하여 부호화 단위들(2120a, 2120b, 2120c)의 위치를 결정함으로써 가운데에 위치하는 부호화 단위(2120b)를 결정할 수 있다. 구체적으로, 영상 복호화 장치(200)는 부호화 단위들(2120a, 2120b, 2120c)의 좌측 상단의 샘플(2130a, 2130b, 2130c)의 위치를 나타내는 정보에 기초하여 부호화 단위(2120a, 2120b, 2120c)의 위치를 결정함으로써 가운데에 위치하는 부호화 단위(2120b)를 결정할 수 있다.
일 실시예에 따라 부호화 단위(2120a, 2120b, 2120c)에 각각 포함되는 좌측 상단의 샘플(2130a, 2130b, 2130c)의 위치를 나타내는 정보는 부호화 단위(2120a, 2120b, 2120c)의 픽처 내에서의 위치 또는 좌표에 대한 정보를 포함할 수 있다. 일 실시예에 따라 부호화 단위(2120a, 2120b, 2120c)에 각각 포함되는 좌측 상단의 샘플(2130a, 2130b, 2130c)의 위치를 나타내는 정보는 현재 부호화 단위(2100)에 포함되는 부호화단위(2120a, 2120b, 2120c)들의 너비 또는 높이를 나타내는 정보를 포함할 수 있고, 이러한 너비 또는 높이는 부호화 단위(2120a, 2120b, 2120c)의 픽처 내에서의 좌표 간의 차이를 나타내는 정보에 해당할 수 있다. 즉, 영상 복호화 장치(200)는 부호화 단위(2120a, 2120b, 2120c)의 픽처 내에서의 위치 또는 좌표에 대한 정보를 직접이용하거나 좌표간의 차이값에 대응하는 부호화 단위의 너비 또는 높이에 대한 정보를 이용함으로써 가운데에 위치하는 부호화 단위(2120b)를 결정할 수 있다.
일 실시예에 따라, 상단 부호화 단위(2120a)의 좌측 상단의 샘플(2130a)의 위치를 나타내는 정보는 (xa, ya) 좌표를 나타낼 수 있고, 가운데 부호화 단위(2120b)의 좌측 상단의 샘플(2130b)의 위치를 나타내는 정보는 (xb, yb) 좌표를 나타낼 수 있고, 하단 부호화 단위(2120c)의 좌측 상단의 샘플(2130c)의 위치를 나타내는 정보는 (xc, yc) 좌표를 나타낼 수 있다. 영상 복호화 장치(200)는 부호화 단위(2120a, 2120b, 2120c)에 각각 포함되는 좌측 상단의 샘플(2130a, 2130b, 2130c)의 좌표를 이용하여 가운데 부호화 단위(2120b)를 결정할 수 있다. 예를 들면, 좌측 상단의 샘플(2130a, 2130b, 2130c)의 좌표를 오름차순 또는 내림차순으로 정렬하였을 때, 가운데에 위치하는 샘플(2130b)의 좌표인 (xb, yb)를 포함하는 부호화 단위(2120b)를 현재 부호화 단위(2100)가 분할되어 결정된 부호화 단위(2120a, 2120b, 2120c) 중 가운데에 위치하는 부호화 단위로 결정할 수 있다. 다만 좌측 상단의 샘플(2130a, 2130b, 2130c)의 위치를 나타내는 좌표는 픽처 내에서의 절대적인 위치를 나타내는 좌표를 나타낼 수 있고, 나아가 상단 부호화 단위(2120a)의 좌측 상단의 샘플(2130a)의 위치를 기준으로, 가운데 부호화 단위(2120b)의 좌측 상단의 샘플(2130b)의 상대적 위치를 나타내는 정보인 (dxb, dyb)좌표, 하단 부호화 단위(2120c)의 좌측 상단의 샘플(2130c)의 상대적 위치를 나타내는 정보인 (dxc, dyc)좌표를 이용할 수도 있다. 또한 부호화 단위에 포함되는 샘플의 위치를 나타내는 정보로서 해당 샘플의 좌표를 이용함으로써 소정 위치의 부호화 단위를 결정하는 방법이 상술한 방법으로 한정하여 해석되어서는 안되고, 샘플의 좌표를 이용할 수 있는 다양한 산술적 방법으로 해석되어야 한다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위(2100)를 복수개의 부호화 단위(2120a, 2120b, 2120c)로 분할할 수 있고, 부호화 단위(2120a, 2120b, 2120c)들 중 소정의 기준에 따라 부호화 단위를 선택할 수 있다. 예를 들면, 영상 복호화 장치(200)는 부호화 단위(2120a, 2120b, 2120c) 중 크기가 다른 부호화 단위(2120b)를 선택할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 상단 부호화 단위(2120a)의 좌측 상단의 샘플(2130a)의 위치를 나타내는 정보인 (xa, ya) 좌표, 가운데 부호화 단위(2120b)의 좌측 상단의 샘플(2130b)의 위치를 나타내는 정보인 (xb, yb) 좌표, 하단 부호화 단위(2120c)의 좌측 상단의 샘플(2130c)의 위치를 나타내는 정보인 (xc, yc) 좌표를 이용하여 부호화 단위(2120a, 2120b, 2120c) 각각의 너비 또는 높이를 결정할 수 있다. 영상 복호화 장치(200)는 부호화 단위(2120a, 2120b, 2120c)의 위치를 나타내는 좌표인 (xa, ya), (xb, yb), (xc, yc)를 이용하여 부호화 단위(2120a, 2120b, 2120c) 각각의 크기를 결정할 수 있다.
일 실시예에 따라, 영상 복호화 장치(200)는 상단 부호화 단위(2120a)의 너비를 xb-xa로 결정할 수 있고 높이를 yb-ya로 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 가운데 부호화 단위(2120b)의 너비를 xc-xb로 결정할 수 있고 높이를 yc-yb로 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 하단 부호화 단위의 너비 또는 높이는 현재 부호화 단위의 너비 또는 높이와 상단 부호화 단위(2120a) 및 가운데 부호화 단위(2120b)의 너비 및 높이를 이용하여 결정할 수 있다. 영상 복호화 장치(200)는 결정된 부호화 단위(2120a, 2120b, 2120c)의 너비 및 높이에 기초하여 다른 부호화 단위와 다른 크기를 갖는 부호화 단위를 결정할 수 있다. 도 21을 참조하면, 영상 복호화 장치(200)는 상단 부호화 단위(2120a) 및 하단 부호화 단위(2120c)의 크기와 다른 크기를 가지는 가운데 부호화 단위(2120b)를 소정 위치의 부호화 단위로 결정할 수 있다. 다만 상술한 영상 복호화 장치(200)가 다른 부호화 단위와 다른 크기를 갖는 부호화 단위를 결정하는 과정은 샘플 좌표에 기초하여 결정되는 부호화 단위의 크기를 이용하여 소정 위치의 부호화 단위를 결정하는 일 실시예에 불과하므로, 소정의 샘플 좌표에 따라 결정되는 부호화 단위의 크기를 비교하여 소정 위치의 부호화 단위를 결정하는 다양한 과정이 이용될 수 있다.
다만 부호화 단위의 위치를 결정하기 위하여 고려하는 샘플의 위치는 상술한 좌측 상단으로 한정하여 해석되어서는 안되고 부호화 단위에 포함되는 임의의 샘플의 위치에 대한 정보가 이용될 수 있는 것으로 해석될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위의 형태를 고려하여, 현재 부호화 단위가 분할되어 결정되는 홀수개의 부호화 단위들 중 소정 위치의 부호화 단위를 선택할 수 있다. 예를 들면, 현재 부호화 단위가 너비가 높이보다 긴 비-정사각형 형태라면 영상 복호화 장치(200)는 수평 방향에 따라 소정 위치의 부호화 단위를 결정할 수 있다. 즉, 영상 복호화 장치(200)는 수평 방향으로 위치를 달리 하는 부호화 단위들 중 하나를 결정하여 해당 부호화 단위에 대한 제한을 둘 수 있다. 현재 부호화 단위가 높이가 너비보다 긴 비-정사각형 형태라면 영상 복호화 장치(200)는 수직 방향에 따라 소정 위치의 부호화 단위를 결정할 수 있다. 즉, 영상 복호화 장치(200)는 수직 방향으로 위치를 달리 하는 부호화 단위들 중 하나를 결정하여 해당 부호화 단위에 대한 제한을 둘 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 짝수개의 부호화 단위들 중 소정 위치의 부호화 단위를 결정하기 위하여 짝수개의 부호화 단위들 각각의 위치를 나타내는 정보를 이용할 수 있다. 영상 복호화 장치(200)는 현재 부호화 단위를 분할하여 짝수개의 부호화 단위들을 결정할 수 있고 짝수개의 부호화 단위들의 위치에 대한 정보를 이용하여 소정 위치의 부호화 단위를 결정할 수 있다. 이에 대한 구체적인 과정은 도 21에서 상술한 홀수개의 부호화 단위들 중 소정 위치(예를 들면, 가운데 위치)의 부호화 단위를 결정하는 과정에 대응하는 과정일 수 있으므로 생략하도록 한다.
일 실시예에 따라, 비-정사각형 형태의 현재 부호화 단위를 복수개의 부호화 단위로 분할한 경우, 복수개의 부호화 단위들 중 소정 위치의 부호화 단위를 결정하기 위하여 분할 과정에서 소정 위치의 부호화 단위에 대한 소정의 정보를 이용할 수 있다. 예를 들면 영상 복호화 장치(200)는 현재 부호화 단위가 복수개로 분할된 부호화 단위들 중 가운데에 위치하는 부호화 단위를 결정하기 위하여 분할 과정에서 가운데 부호화 단위에 포함된 샘플에 저장된 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 이용할 수 있다.
도 21을 참조하면 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 현재 부호화 단위(2100)를 복수개의 부호화 단위들(2120a, 2120b, 2120c)로 분할할 수 있으며, 복수개의 부호화 단위들(2120a, 2120b, 2120c) 중 가운데에 위치하는 부호화 단위(2120b)를 결정할 수 있다. 나아가 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나가 획득되는 위치를 고려하여, 가운데에 위치하는 부호화 단위(2120b)를 결정할 수 있다. 즉, 현재 부호화 단위(2100)의 블록 형태 정보 및 분할 형태 정보 중 적어도 하나는 현재 부호화 단위(2100)의 가운데에 위치하는 샘플(2140)에서 획득될 수 있으며, 상기 블록 형태 정보 및 상기 분할 형태 정보 중 적어도 하나에 기초하여 현재 부호화 단위(2100)가 복수개의 부호화 단위들(2120a, 2120b, 2120c)로 분할된 경우 상기 샘플(2140)을 포함하는 부호화 단위(2120b)를 가운데에 위치하는 부호화 단위로 결정할 수 있다. 다만 가운데에 위치하는 부호화 단위로 결정하기 위해 이용되는 정보가 블록 형태 정보 및 분할 형태 정보 중 적어도 하나로 한정하여 해석되어서는 안되고, 다양한 종류의 정보가 가운데에 위치하는 부호화 단위를 결정하는 과정에서 이용될 수 있다.
일 실시예에 따라 소정 위치의 부호화 단위를 식별하기 위한 소정의 정보는, 결정하려는 부호화 단위에 포함되는 소정의 샘플에서 획득될 수 있다. 도 21을 참조하면, 영상 복호화 장치(200)는 현재 부호화 단위(2100)가 분할되어 결정된 복수개의 부호화 단위들(2120a, 2120b, 2120c) 중 소정 위치의 부호화 단위(예를 들면, 복수개로 분할된 부호화 단위 중 가운데에 위치하는 부호화 단위)를 결정하기 위하여 현재 부호화 단위(2100) 내의 소정 위치의 샘플(예를 들면, 현재 부호화 단위(2100)의 가운데에 위치하는 샘플)에서 획득되는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 이용할 수 있다. 즉, 영상 복호화 장치(200)는 현재 부호화 단위(2100)의 블록 블록 형태를 고려하여 상기 소정 위치의 샘플을 결정할 수 있고, 영상 복호화 장치(200)는 현재 부호화 단위(2100)가 분할되어 결정되는 복수개의 부호화 단위(2120a, 2120b, 2120c)들 중, 소정의 정보(예를 들면, 블록 형태 정보 및 분할 형태 정보 중 적어도 하나)가 획득될 수 있는 샘플이 포함된 부호화 단위(2120b)를 결정하여 소정의 제한을 둘 수 있다. 도 21을 참조하면 일 실시예에 따라 영상 복호화 장치(200)는 소정의 정보가 획득될 수 있는 샘플로서 현재 부호화 단위(2100)의 가운데에 위치하는 샘플(2140)을 결정할 수 있고, 영상 복호화 장치(200)는 이러한 샘플(2140)이 포함되는 부호화 단위(2120b)를 복호화 과정에서의 소정의 제한을 둘 수 있다. 다만 소정의 정보가 획득될 수 있는 샘플의 위치는 상술한 위치로 한정하여 해석되어서는 안되고, 제한을 두기 위해 결정하려는 부호화 단위(2120b)에 포함되는 임의의 위치의 샘플들로 해석될 수 있다.
일 실시예에 따라 소정의 정보가 획득될 수 있는 샘플의 위치는 현재 부호화 단위(2100)의 형태에 따라 결정될 수 있다. 일 실시예에 따라 블록 형태 정보는 현재 부호화 단위의 형태가 정사각형인지 또는 비-정사각형인지 여부를 결정할 수 있고, 형태에 따라 소정의 정보가 획득될 수 있는 샘플의 위치를 결정할 수 있다. 예를 들면, 영상 복호화 장치(200)는 현재 부호화 단위의 너비에 대한 정보 및 높이에 대한 정보 중 적어도 하나를 이용하여 현재 부호화 단위의 너비 및 높이 중 적어도 하나를 반으로 분할하는 경계 상에 위치하는 샘플을 소정의 정보가 획득될 수 있는 샘플로 결정할 수 있다. 또다른 예를 들면, 영상 복호화 장치(200)는 현재 부호화 단위에 관련된 블록 형태 정보가 비-정사각형 형태임을 나타내는 경우, 현재 부호화 단위의 긴 변을 반으로 분할하는 경계에 인접하는 샘플 중 하나를 소정의 정보가 획득될 수 있는 샘플로 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위를 복수개의 부호화 단위로 분할한 경우, 복수개의 부호화 단위들 중 소정 위치의 부호화 단위를 결정하기 위하여, 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 이용할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 부호화 단위에 포함된 소정 위치의 샘플에서 획득할 수 있고, 영상 복호화 장치(200)는 현재 부호화 단위가 분할되어 생성된 복수개의 부호화 단위들을 복수개의 부호화 단위 각각에 포함된 소정 위치의 샘플로부터 획득되는 분할 형태 정보 및 블록 형태 정보 중 적어도 하나를 이용하여 분할할 수 있다. 즉, 부호화 단위는 부호화 단위 각각에 포함된 소정 위치의 샘플에서 획득되는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 이용하여 재귀적으로 분할될 수 있다. 부호화 단위의 재귀적 분할 과정에 대하여는 도 20를 통해 상술하였으므로 자세한 설명은 생략하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위를 분할하여 적어도 하나의 부호화 단위를 결정할 수 있고, 이러한 적어도 하나의 부호화 단위가 복호화되는 순서를 소정의 블록(예를 들면, 현재 부호화 단위)에 따라 결정할 수 있다.
도 22는 일 실시예에 따라 영상 복호화 장치(200)가 현재 부호화 단위를 분할하여 복수개의 부호화 단위들을 결정하는 경우, 복수개의 부호화 단위들이 처리되는 순서를 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보에 따라 제1 부호화 단위(2200)를 수직 방향으로 분할하여 제2 부호화 단위(2210a, 2210b)를 결정하거나 제1 부호화 단위(2200)를 수평 방향으로 분할하여 제2 부호화 단위(2230a, 2230b)를 결정하거나 제1 부호화 단위(2200)를 수직 방향 및 수평 방향으로 분할하여 제2 부호화 단위(2250a, 2250b, 2250c, 2250d)를 결정할 수 있다.
도 22를 참조하면, 영상 복호화 장치(200)는 제1 부호화 단위(2200)를 수직 방향으로 분할하여 결정된 제2 부호화 단위(2210a, 2210b)를 수평 방향(2210c)으로 처리되도록 순서를 결정할 수 있다. 영상 복호화 장치(200)는 제1 부호화 단위(2200)를 수평 방향으로 분할하여 결정된 제2 부호화 단위(2230a, 2230b)의 처리 순서를 수직 방향(2230c)으로 결정할 수 있다. 영상 복호화 장치(200)는 제1 부호화 단위(2200)를 수직 방향 및 수평 방향으로 분할하여 결정된 제2 부호화 단위(2250a, 2250b, 2250c, 2250d)를 하나의 행에 위치하는 부호화 단위들이 처리된 후 다음 행에 위치하는 부호화 단위들이 처리되는 소정의 순서(예를 들면, 래스터 스캔 순서((raster scan order) 또는 z 스캔 순서(z scan order)(2250e) 등)에 따라 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 부호화 단위들을 재귀적으로 분할할 수 있다. 도 22을 참조하면, 영상 복호화 장치(200)는 제1 부호화 단위(2200)를 분할하여 복수개의 부호화 단위들(2210a, 2210b, 2230a, 2230b, 2250a, 2250b, 2250c, 2250d)을 결정할 수 있고, 결정된 복수개의 부호화 단위들(2210a, 2210b, 2230a, 2230b, 2250a, 2250b, 2250c, 2250d) 각각을 재귀적으로 분할할 수 있다. 복수개의 부호화 단위들(2210a, 2210b, 2230a, 2230b, 2250a, 2250b, 2250c, 2250d)을 분할하는 방법은 제1 부호화 단위(2200)를 분할하는 방법에 대응하는 방법이 될 수 있다. 이에 따라 복수개의 부호화 단위들(2210a, 2210b, 2230a, 2230b, 2250a, 2250b, 2250c, 2250d)은 각각 독립적으로 복수개의 부호화 단위들로 분할될 수 있다. 도 22를 참조하면 영상 복호화 장치(200)는 제1 부호화 단위(2200)를 수직 방향으로 분할하여 제2 부호화 단위(2210a, 2210b)를 결정할 수 있고, 나아가 제2 부호화 단위(2210a, 2210b) 각각을 독립적으로 분할하거나 분할하지 않는 것으로 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 좌측의 제2 부호화 단위(2210a)를 수평 방향으로 분할하여 제3 부호화 단위(2220a, 2220b)로 분할할 수 있고, 우측의 제2 부호화 단위(2210b)는 분할하지 않을 수 있다.
일 실시예에 따라 부호화 단위들의 처리 순서는 부호화 단위의 분할 과정에 기초하여 결정될 수 있다. 다시 말해, 분할된 부호화 단위들의 처리 순서는 분할되기 직전의 부호화 단위들의 처리 순서에 기초하여 결정될 수 있다. 영상 복호화 장치(200)는 좌측의 제2 부호화 단위(2210a)가 분할되어 결정된 제3 부호화 단위(2220a, 2220b)가 처리되는 순서를 우측의 제2 부호화 단위(2210b)와 독립적으로 결정할 수 있다. 좌측의 제2 부호화 단위(2210a)가 수평 방향으로 분할되어 제3 부호화 단위(2220a, 2220b)가 결정되었으므로 제3 부호화 단위(2220a, 2220b)는 수직 방향(2220c)으로 처리될 수 있다. 또한 좌측의 제2 부호화 단위(2210a) 및 우측의 제2 부호화 단위(2210b)가 처리되는 순서는 수평 방향(2210c)에 해당하므로, 좌측의 제2 부호화 단위(2210a)에 포함되는 제3 부호화 단위(2220a, 2220b)가 수직 방향(2220c)으로 처리된 후에 우측 부호화 단위(2210b)가 처리될 수 있다. 상술한 내용은 부호화 단위들이 각각 분할 전의 부호화 단위에 따라 처리 순서가 결정되는 과정을 설명하기 위한 것이므로, 상술한 실시예에 한정하여 해석되어서는 안되고, 다양한 형태로 분할되어 결정되는 부호화 단위들이 소정의 순서에 따라 독립적으로 처리될 수 있는 다양한 방법으로 이용되는 것으로 해석되어야 한다.
도 23은 일 실시예에 따라 영상 복호화 장치(200)가 소정의 순서로 부호화 단위가 처리될 수 없는 경우, 현재 부호화 단위가 홀수개의 부호화 단위로 분할되는 것임을 결정하는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 획득된 블록 형태 정보 및 분할 형태 정보에 기초하여 현재 부호화 단위가 홀수개의 부호화 단위들로 분할되는 것을 결정할 수 있다. 도 23을 참조하면 정사각형 형태의 제1 부호화 단위(2300)가 비-정사각형 형태의 제2 부호화 단위(2310a, 2310b)로 분할될 수 있고, 제2 부호화 단위(2310a, 2310b)는 각각 독립적으로 제3 부호화 단위(2320a, 2320b, 2320c, 2320d, 2320e)로 분할될 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 제2 부호화 단위 중 좌측 부호화 단위(2310a)는 수평 방향으로 분할하여 복수개의 제3 부호화 단위(2320a, 2320b)를 결정할 수 있고, 우측 부호화 단위(2310b)는 홀수개의 제3 부호화 단위(2320c, 2320d, 2320e)로 분할할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 제3 부호화 단위들(2320a, 2320b, 2320c, 2320d, 2320e)이 소정의 순서로 처리될 수 있는지 여부를 판단하여 홀수개로 분할된 부호화 단위가 존재하는지를 결정할 수 있다. 도 23를 참조하면, 영상 복호화 장치(200)는 제1 부호화 단위(2300)를 재귀적으로 분할하여 제3 부호화 단위(2320a, 2320b, 2320c, 2320d, 2320e)를 결정할 수 있다. 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여, 제1 부호화 단위(2300), 제2 부호화 단위(2310a, 2310b) 또는 제3 부호화 단위(2320a, 2320b, 2320c, 2320d, 2320e)가 분할되는 형태 중 홀수개의 부호화 단위로 분할되는지 여부를 결정할 수 있다. 예를 들면, 제2 부호화 단위(2310a, 2310b) 중 우측에 위치하는 부호화 단위가 홀수개의 제3 부호화 단위(2320c, 2320d, 2320e)로 분할될 수 있다. 제1 부호화 단위(2300)에 포함되는 복수개의 부호화 단위들이 처리되는 순서는 소정의 순서(예를 들면, z-스캔 순서(z-scan order)(2330))가 될 수 있고, 영상 복호화 장치(200)는 우측 제2 부호화 단위(2310b)가 홀수개로 분할되어 결정된 제3 부호화 단위(2320c, 2320d, 2320e)가 상기 소정의 순서에 따라 처리될 수 있는 조건을 만족하는지를 판단할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 제1 부호화 단위(2300)에 포함되는 제3 부호화 단위(2320a, 2320b, 2320c, 2320d, 2320e)가 소정의 순서에 따라 처리될 수 있는 조건을 만족하는지를 결정할 수 있으며, 상기 조건은 제3 부호화 단위(2320a, 2320b, 2320c, 2320d, 2320e)의 경계에 따라 제2 부호화 단위(2310a, 2310b)의 너비 및 높이 중 적어도 하나를 반으로 분할되는지 여부와 관련된다. 예를 들면 비-정사각형 형태의 좌측 제2 부호화 단위(2310a)의 높이를 반으로 분할하여 결정되는 제3 부호화 단위(2320a, 2320b)는 조건을 만족하지만, 우측 제2 부호화 단위(2310b)를 3개의 부호화 단위로 분할하여 결정되는 제3 부호화 단위(2320c, 2320d, 2320e)들의 경계가 우측 제2 부호화 단위(2310b)의 너비 또는 높이를 반으로 분할하지 못하므로 제3 부호화 단위(2320c, 2320d, 2320e)는 조건을 만족하지 못하는 것으로 결정될 수 있고, 영상 복호화 장치(200)는 이러한 조건 불만족의 경우 스캔 순서의 단절(disconnection)로 판단하고, 판단 결과에 기초하여 우측 제2 부호화 단위(2310b)는 홀수개의 부호화 단위로 분할되는 것으로 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 홀수개의 부호화 단위로 분할되는 경우 분할된 부호화 단위들 중 소정 위치의 부호화 단위에 대하여 소정의 제한을 둘 수 있으며, 이러한 제한 내용 또는 소정 위치 등에 대하여는 다양한 실시예를 통해 상술하였으므로 자세한 설명은 생략하도록 한다.
도 24는 일 실시예에 따라 영상 복호화 장치(200)가 제1 부호화 단위(2400)를 분할하여 적어도 하나의 부호화 단위를 결정하는 과정을 도시한다. 일 실시예에 따라 영상 복호화 장치(200)는 수신부(210)를 통해 획득한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(2400)를 분할할 수 있다. 정사각형 형태의 제1 부호화 단위(2400)는 4개의 정사각형 형태를 가지는 부호화 단위로 분할되거나 또는 비-정사각형 형태의 복수개의 부호화 단위로 분할할 수 있다. 예를 들면 도 24을 참조하면, 블록 형태 정보가 제1 부호화 단위(2400)는 정사각형임을 나타내고 분할 형태 정보가 비-정사각형의 부호화 단위로 분할됨을 나타내는 경우 영상 복호화 장치(200)는 제1 부호화 단위(2400)를 복수개의 비-정사각형의 부호화 단위들로 분할할 수 있다. 구체적으로, 분할 형태 정보가 제1 부호화 단위(2400)를 수평 방향 또는 수직 방향으로 분할하여 홀수개의 부호화 단위를 결정하는 것을 나타내는 경우, 영상 복호화 장치(200)는 정사각형 형태의 제1 부호화 단위(2400)을 홀수개의 부호화 단위들로서 수직 방향으로 분할되어 결정된 제2 부호화 단위(2410a, 2410b, 2410c) 또는 수평 방향으로 분할되어 결정된 제2 부호화 단위(2420a, 2420b, 2420c)로 분할할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 제1 부호화 단위(2400)에 포함되는 제2 부호화 단위(2410a, 2410b, 2410c, 2420a, 2420b, 2420c)가 소정의 순서에 따라 처리될 수 있는 조건을 만족하는지를 결정할 수 있으며, 상기 조건은 제2 부호화 단위(2410a, 2410b, 2410c, 2420a, 2420b, 2420c)의 경계에 따라 제1 부호화 단위(2400)의 너비 및 높이 중 적어도 하나를 반으로 분할되는지 여부와 관련된다. 도 24를 참조하면 정사각형 형태의 제1 부호화 단위(2400)를 수직 방향으로 분할하여 결정되는 제2 부호화 단위(2410a, 2410b, 2410c)들의 경계가 제1 부호화 단위(2400)의 너비를 반으로 분할하지 못하므로 제1 부호화 단위(2400)는 소정의 순서에 따라 처리될 수 있는 조건을 만족하지 못하는 것으로 결정될 수 있다. 또한 정사각형 형태의 제1 부호화 단위(2400)를 수평 방향으로 분할하여 결정되는 제2 부호화 단위(2420a, 2420b, 2420c)들의 경계가 제1 부호화 단위(2400)의 너비를 반으로 분할하지 못하므로 제1 부호화 단위(2400)는 소정의 순서에 따라 처리될 수 있는 조건을 만족하지 못하는 것으로 결정될 수 있다. 영상 복호화 장치(200)는 이러한 조건 불만족의 경우 스캔 순서의 단절(disconnection)로 판단하고, 판단 결과에 기초하여 제1 부호화 단위(2400)는 홀수개의 부호화 단위로 분할되는 것으로 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 홀수개의 부호화 단위로 분할되는 경우 분할된 부호화 단위들 중 소정 위치의 부호화 단위에 대하여 소정의 제한을 둘 수 있으며, 이러한 제한 내용 또는 소정 위치 등에 대하여는 다양한 실시예를 통해 상술하였으므로 자세한 설명은 생략하도록 한다.
일 실시예에 따라, 영상 복호화 장치(200)는 제1 부호화 단위를 분할하여 다양한 형태의 부호화 단위들을 결정할 수 있다.
도 24를 참조하면, 영상 복호화 장치(200)는 정사각형 형태의 제1 부호화 단위(2400), 비-정사각형 형태의 제1 부호화 단위(2430 또는 2450)를 다양한 형태의 부호화 단위들로 분할할 수 있다.
도 25는 일 실시예에 따라 영상 복호화 장치(200)가 제1 부호화 단위(2500)가 분할되어 결정된 비-정사각형 형태의 제2 부호화 단위가 소정의 조건을 만족하는 경우 제2 부호화 단위가 분할될 수 있는 형태가 제한되는 것을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 수신부(210)를 통해 획득한 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 정사각형 형태의 제1 부호화 단위(2500)를 비-정사각형 형태의 제2 부호화 단위(2510a, 2510b, 2520a, 2520b)로 분할하는 것으로 결정할 수 있다. 제2 부호화 단위(2510a, 2510b, 2520a, 2520b)는 독립적으로 분할될 수 있다. 이에 따라 영상 복호화 장치(200)는 제2 부호화 단위(2510a, 2510b, 2520a, 2520b) 각각에 관련된 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 복수개의 부호화 단위로 분할하거나 분할하지 않는 것을 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 수직 방향으로 제1 부호화 단위(2500)가 분할되어 결정된 비-정사각형 형태의 좌측 제2 부호화 단위(2510a)를 수평 방향으로 분할하여 제3 부호화 단위(2512a, 2512b)를 결정할 수 있다. 다만 영상 복호화 장치(200)는 좌측 제2 부호화 단위(2510a)를 수평 방향으로 분할한 경우, 우측 제2 부호화 단위(2510b)는 좌측 제2 부호화 단위(2510a)가 분할된 방향과 동일하게 수평 방향으로 분할될 수 없도록 제한할 수 있다. 만일 우측 제2 부호화 단위(2510b)가 동일한 방향으로 분할되어 제3 부호화 단위(2514a, 2514b)가 결정된 경우, 좌측 제2 부호화 단위(2510a) 및 우측 제2 부호화 단위(2510b)가 수평 방향으로 각각 독립적으로 분할됨으로써 제3 부호화 단위(2512a, 2512b, 2514a, 2514b)가 결정될 수 있다. 하지만 이는 영상 복호화 장치(200)가 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(2500)를 4개의 정사각형 형태의 제2 부호화 단위(2530a, 2530b, 2530c, 2530d)로 분할한 것과 동일한 결과이며 이는 영상 복호화 측면에서 비효율적일 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 수평 방향으로 제1 부호화 단위(12100)가 분할되어 결정된 비-정사각형 형태의 제2 부호화 단위(2520a 또는 2520b)를 수직 방향으로 분할하여 제3 부호화 단위(2522a, 2522b, 2524a, 2524b)를 결정할 수 있다. 다만 영상 복호화 장치(200)는 제2 부호화 단위 중 하나(예를 들면 상단 제2 부호화 단위(2520a))를 수직 방향으로 분할한 경우, 상술한 이유에 따라 다른 제2 부호화 단위(예를 들면 하단 부호화 단위(2520b))는 상단 제2 부호화 단위(2520a)가 분할된 방향과 동일하게 수직 방향으로 분할될 수 없도록 제한할 수 있다.
도 26은 일 실시예에 따라 분할 형태 정보가 4개의 정사각형 형태의 부호화 단위로 분할하는 것을 나타낼 수 없는 경우, 영상 복호화 장치(200)가 정사각형 형태의 부호화 단위를 분할하는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(2600)를 분할하여 제2 부호화 단위(2610a, 2610b, 2620a, 2620b 등)를 결정할 수 있다. 분할 형태 정보에는 부호화 단위가 분할될 수 있는 다양한 형태에 대한 정보가 포함될 수 있으나, 다양한 형태에 대한 정보에는 정사각형 형태의 4개의 부호화 단위로 분할하기 위한 정보가 포함될 수 없는 경우가 있다. 이러한 분할 형태 정보에 따르면, 영상 복호화 장치(200)는 정사각형 형태의 제1 부호화 단위(2600)를 4개의 정사각형 형태의 제2 부호화 단위(2630a, 2630b, 2630c, 2630d)로 분할하지 못한다. 분할 형태 정보에 기초하여 영상 복호화 장치(200)는 비-정사각형 형태의 제2 부호화 단위(2610a, 2610b, 2620a, 2620b 등)를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 비-정사각형 형태의 제2 부호화 단위(2610a, 2610b, 2620a, 2620b 등)를 각각 독립적으로 분할할 수 있다. 재귀적인 방법을 통해 제2 부호화 단위(2610a, 2610b, 2620a, 2620b 등) 각각이 소정의 순서대로 분할될 수 있으며, 이는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 제1 부호화 단위(2600)가 분할되는 방법에 대응하는 분할 방법일 수 있다.
예를 들면 영상 복호화 장치(200)는 좌측 제2 부호화 단위(2610a)가 수평 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2612a, 2612b)를 결정할 수 있고, 우측 제2 부호화 단위(2610b)가 수평 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2614a, 2614b)를 결정할 수 있다. 나아가 영상 복호화 장치(200)는 좌측 제2 부호화 단위(2610a) 및 우측 제2 부호화 단위(2610b) 모두 수평 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2616a, 2616b, 2616c, 2616d)를 결정할 수도 있다. 이러한 경우 제1 부호화 단위(2600)가 4개의 정사각형 형태의 제2 부호화 단위(2630a, 2630b, 2630c, 2630d)로 분할된 것과 동일한 형태로 부호화 단위가 결정될 수 있다.
또 다른 예를 들면 영상 복호화 장치(200)는 상단 제2 부호화 단위(2620a)가 수직 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2622a, 2622b)를 결정할 수 있고, 하단 제2 부호화 단위(2620b)가 수직 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2624a, 2624b)를 결정할 수 있다. 나아가 영상 복호화 장치(200)는 상단 제2 부호화 단위(2620a) 및 하단 제2 부호화 단위(2620b) 모두 수직 방향으로 분할되어 정사각형 형태의 제3 부호화 단위(2622a, 2622b, 2624a, 2624b)를 결정할 수도 있다. 이러한 경우 제1 부호화 단위(2600)가 4개의 정사각형 형태의 제2 부호화 단위(2630a, 2630b, 2630c, 2630d)로 분할된 것과 동일한 형태로 부호화 단위가 결정될 수 있다.
도 27은 일 실시예에 따라 복수개의 부호화 단위들 간의 처리 순서가 부호화 단위의 분할 과정에 따라 달라질 수 있음을 도시한 것이다.
일 실시예에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보에 기초하여 제1 부호화 단위(2700)를 분할할 수 있다. 블록 형태 정보가 정사각형 형태를 나타내고, 분할 형태 정보가 제1 부호화 단위(2700)가 수평 방향 및 수직 방향 중 적어도 하나의 방향으로 분할됨을 나타내는 경우, 영상 복호화 장치(200)는 제1 부호화 단위(2700)를 분할하여 제2 부호화 단위(예를 들면, 2710a, 2710b, 2720a, 2720b 등)를 결정할 수 있다. 도 27을 참조하면 제1 부호화 단위2700)가 수평 방향 또는 수직 방향만으로 분할되어 결정된 비-정사각형 형태의 제2 부호화 단위(2710a, 2710b, 2720a, 2720b)는 각각에 대한 블록 형태 정보 및 분할 형태 정보에 기초하여 독립적으로 분할될 수 있다. 예를 들면 영상 복호화 장치(200)는 제1 부호화 단위(2700)가 수직 방향으로 분할되어 생성된 제2 부호화 단위(2710a, 2710b)를 수평 방향으로 각각 분할하여 제3 부호화 단위(2716a, 2716b, 2716c, 2716d)를 결정할 수 있고, 제1 부호화 단위(2700)가 수평 방향으로 분할되어 생성된 제2 부호화 단위(2720a, 2720b)를 수평 방향으로 각각 분할하여 제3 부호화 단위(2726a, 2726b, 2726c, 2726d)를 결정할 수 있다. 이러한 제2 부호화 단위(2710a, 2710b, 2720a, 2720b)의 분할 과정은 도 25과 관련하여 상술하였으므로 자세한 설명은 생략하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 소정의 순서에 따라 부호화 단위를 처리할 수 있다. 소정의 순서에 따른 부호화 단위의 처리에 대한 특징은 도 22과 관련하여 상술하였으므로 자세한 설명은 생략하도록 한다. 도 27을 참조하면 영상 복호화 장치(200)는 정사각형 형태의 제1 부호화 단위(2700)를 분할하여 4개의 정사각형 형태의 제3 부호화 단위(2716a, 2716b, 2716c, 2716d, 2726a, 2726b, 2726c, 2726d)를 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 제1 부호화 단위(2700)가 분할되는 형태에 따라 제3 부호화 단위(2716a, 2716b, 2716c, 2716d, 2726a, 2726b, 2726c, 2726d)의 처리 순서를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 수직 방향으로 분할되어 생성된 제2 부호화 단위(2710a, 2710b)를 수평 방향으로 각각 분할하여 제3 부호화 단위(2716a, 2716b, 2716c, 2716d)를 결정할 수 있고, 영상 복호화 장치(200)는 좌측 제2 부호화 단위(2710a)에 포함되는 제3 부호화 단위(2716a, 2716b)를 수직 방향으로 먼저 처리한 후, 우측 제2 부호화 단위(2710b)에 포함되는 제3 부호화 단위(2716c, 2716d)를 수직 방향으로 처리하는 순서(2717)에 따라 제3 부호화 단위(2716a, 2716b, 2716c, 2716d)를 처리할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 수평 방향으로 분할되어 생성된 제2 부호화 단위(2720a, 2720b)를 수직 방향으로 각각 분할하여 제3 부호화 단위(2726a, 2726b, 2726c, 2726d)를 결정할 수 있고, 영상 복호화 장치(200)는 상단 제2 부호화 단위(2720a)에 포함되는 제3 부호화 단위(2726a, 2726b)를 수평 방향으로 먼저 처리한 후, 하단 제2 부호화 단위(2720b)에 포함되는 제3 부호화 단위(2726c, 2726d)를 수평 방향으로 처리하는 순서(2727)에 따라 제3 부호화 단위(2726a, 2726b, 2726c, 2726d)를 처리할 수 있다.
도 27을 참조하면, 제2 부호화 단위(2710a, 2710b, 2720a, 2720b)가 각각 분할되어 정사각형 형태의 제3 부호화 단위(2716a, 2716b, 2716c, 2716d, 2726a, 2726b, 2726c, 2726d)가 결정될 수 있다. 수직 방향으로 분할되어 결정된 제2 부호화 단위(2710a, 2710b) 및 수평 방향으로 분할되어 결정된 제2 부호화 단위(2720a, 2720b)는 서로 다른 형태로 분할된 것이지만, 이후에 결정되는 제3 부호화 단위(2716a, 2716b, 2716c, 2716d, 2726a, 2726b, 2726c, 2726d)에 따르면 결국 동일한 형태의 부호화 단위들로 제1 부호화 단위(2700)가 분할된 결과가 된다. 이에 따라 영상 복호화 장치(200)는 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 상이한 과정을 통해 재귀적으로 부호화 단위를 분할함으로써 결과적으로 동일한 형태의 부호화 단위들을 결정하더라도, 동일한 형태로 결정된 복수개의 부호화 단위들을 서로 다른 순서로 처리할 수 있다.
도 28은 일 실시예에 따라 부호화 단위가 재귀적으로 분할되어 복수개의 부호화 단위가 결정되는 경우, 부호화 단위의 형태 및 크기가 변함에 따라 부호화 단위의 심도가 결정되는 과정을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 부호화 단위의 심도를 소정의 기준에 따라 결정할 수 있다. 예를 들면 소정의 기준은 부호화 단위의 긴 변의 길이가 될 수 있다. 영상 복호화 장치(200)는 현재 부호화 단위의 긴 변의 길이가 분할되기 전의 부호화 단위의 긴 변의 길이보다 2n (n>0) 배로 분할된 경우, 현재 부호화 단위의 심도는 분할되기 전의 부호화 단위의 심도보다 n만큼 심도가 증가된 것으로 결정할 수 있다. 이하에서는 심도가 증가된 부호화 단위를 하위 심도의 부호화 단위로 표현하도록 한다.
도 28을 참조하면, 일 실시예에 따라 정사각형 형태임을 나타내는 블록 형태 정보(예를 들면 블록 형태 정보는 ′0: SQUARE′를 나타낼 수 있음)에 기초하여 영상 복호화 장치(200)는 정사각형 형태인 제1 부호화 단위(2800)를 분할하여 하위 심도의 제2 부호화 단위(2802), 제3 부호화 단위(2804) 등을 결정할 수 있다. 정사각형 형태의 제1 부호화 단위(2800)의 크기를 2Nx2N이라고 한다면, 제1 부호화 단위(2800)의 너비 및 높이를 1/21배로 분할하여 결정된 제2 부호화 단위(2802)는 NxN의 크기를 가질 수 있다. 나아가 제2 부호화 단위(2802)의 너비 및 높이를 1/2크기로 분할하여 결정된 제3 부호화 단위(2804)는 N/2xN/2의 크기를 가질 수 있다. 이 경우 제3 부호화 단위(2804)의 너비 및 높이는 제1 부호화 단위(2800)의 1/22배에 해당한다. 제1 부호화 단위(2800)의 심도가 D인 경우 제1 부호화 단위(2800)의 너비 및 높이의 1/21배인 제2 부호화 단위(2802)의 심도는 D+1일 수 있고, 제1 부호화 단위(2800)의 너비 및 높이의 1/22배인 제3 부호화 단위(2804)의 심도는 D+2일 수 있다.
일 실시예에 따라 비-정사각형 형태를 나타내는 블록 형태 정보(예를 들면 블록 형태 정보는, 높이가 너비보다 긴 비-정사각형임을 나타내는 ′1: NS_VER′ 또는 너비가 높이보다 긴 비-정사각형임을 나타내는 ′2: NS_HOR′를 나타낼 수 있음)에 기초하여, 영상 복호화 장치(200)는 비-정사각형 형태인 제1 부호화 단위(2810 또는 2820)를 분할하여 하위 심도의 제2 부호화 단위(2812 또는 2822), 제3 부호화 단위(2814 또는 2824) 등을 결정할 수 있다.
영상 복호화 장치(200)는 Nx2N 크기의 제1 부호화 단위(2810)의 너비 및 높이 중 적어도 하나를 분할하여 제2 부호화 단위(예를 들면, 2802, 2812, 2822 등)를 결정할 수 있다. 즉, 영상 복호화 장치(200)는 제1 부호화 단위(2810)를 수평 방향으로 분할하여 NxN 크기의 제2 부호화 단위(2802) 또는 NxN/2 크기의 제2 부호화 단위(2822)를 결정할 수 있고, 수평 방향 및 수직 방향으로 분할하여 N/2xN 크기의 제2 부호화 단위(2812)를 결정할 수도 있다.
일 실시예에 따라 영상 복호화 장치(200)는 2NxN 크기의 제1 부호화 단위(2820) 의 너비 및 높이 중 적어도 하나를 분할하여 제2 부호화 단위(예를 들면, 2802, 2812, 2822 등)를 결정할 수도 있다. 즉, 영상 복호화 장치(200)는 제1 부호화 단위(2820)를 수직 방향으로 분할하여 NxN 크기의 제2 부호화 단위(2802) 또는 N/2xN 크기의 제2 부호화 단위(2812)를 결정할 수 있고, 수평 방향 및 수직 방향으로 분할하여 NxN/2 크기의 제2 부호화 단위(2822)를 결정할 수도 있다.
일 실시예에 따라 영상 복호화 장치(200)는 NxN 크기의 제2 부호화 단위(2802) 의 너비 및 높이 중 적어도 하나를 분할하여 제3 부호화 단위(예를 들면, 2804, 2814, 2824 등)를 결정할 수도 있다. 즉, 영상 복호화 장치(200)는 제2 부호화 단위(2802)를 수직 방향 및 수평 방향으로 분할하여 N/2xN/2 크기의 제3 부호화 단위(2804)를 결정하거나 N/22xN/2 크기의 제3 부호화 단위(2814)를 결정하거나 N/2xN/22 크기의 제3 부호화 단위(2824)를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 N/2xN 크기의 제2 부호화 단위(2812)의 너비 및 높이 중 적어도 하나를 분할하여 제3 부호화 단위(예를 들면, 2804, 2814, 2824 등)를 결정할 수도 있다. 즉, 영상 복호화 장치(200)는 제2 부호화 단위(2812)를 수평 방향으로 분할하여 N/2xN/2 크기의 제3 부호화 단위(2804) 또는 N/2xN/22 크기의 제3 부호화 단위(2824)를 결정하거나 수직 방향 및 수평 방향으로 분할하여 N/22xN/2 크기의 제3 부호화 단위(2814)를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 NxN/2 크기의 제2 부호화 단위(2814)의 너비 및 높이 중 적어도 하나를 분할하여 제3 부호화 단위(예를 들면, 2804, 2814, 2824 등)를 결정할 수도 있다. 즉, 영상 복호화 장치(200)는 제2 부호화 단위(2812)를 수직 방향으로 분할하여 N/2xN/2 크기의 제3 부호화 단위(2804) 또는 N/22xN/2 크기의 제3 부호화 단위(2814)를 결정하거나 수직 방향 및 수평 방향으로 분할하여 N/2xN/22크기의 제3 부호화 단위(2824)를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 정사각형 형태의 부호화 단위(예를 들면, 2800, 2802, 2804)를 수평 방향 또는 수직 방향으로 분할할 수 있다. 예를 들면, 2Nx2N 크기의 제1 부호화 단위(2800)를 수직 방향으로 분할하여 Nx2N 크기의 제1 부호화 단위(2810)를 결정하거나 수평 방향으로 분할하여 2NxN 크기의 제1 부호화 단위(2820)를 결정할 수 있다. 일 실시예에 따라 심도가 부호화 단위의 가장 긴 변의 길이에 기초하여 결정되는 경우, 2Nx2N 크기의 제1 부호화 단위(2800, 2802 또는 2804)가 수평 방향 또는 수직 방향으로 분할되어 결정되는 부호화 단위의 심도는 제1 부호화 단위(2800, 2802 또는 2804)의 심도와 동일할 수 있다.
일 실시예에 따라 제3 부호화 단위(2814 또는 2824)의 너비 및 높이는 제1 부호화 단위(2810 또는 2820)의 1/22배에 해당할 수 있다. 제1 부호화 단위(2810 또는 2820)의 심도가 D인 경우 제1 부호화 단위(2810 또는 2820)의 너비 및 높이의 1/2배인 제2 부호화 단위(2812 또는 2814)의 심도는 D+1일 수 있고, 제1 부호화 단위(2810 또는 2820)의 너비 및 높이의 1/22배인 제3 부호화 단위(2814 또는 2824)의 심도는 D+2일 수 있다.
도 29는 일 실시예에 따라 부호화 단위들의 형태 및 크기에 따라 결정될 수 있는 심도 및 부호화 단위 구분을 위한 인덱스(part index, 이하 PID)를 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 정사각형 형태의 제1 부호화 단위(2900)를 분할하여 다양한 형태의 제2 부호화 단위를 결정할 수 있다. 도 29를 참조하면, 영상 복호화 장치(200)는 분할 형태 정보에 따라 제1 부호화 단위(2900)를 수직 방향 및 수평 방향 중 적어도 하나의 방향으로 분할하여 제2 부호화 단위(2902a, 2902b, 2904a, 2904b, 2906a, 2906b, 2906c, 2906d)를 결정할 수 있다. 즉, 영상 복호화 장치(200)는 제1 부호화 단위(2900)에 대한 분할 형태 정보에 기초하여 제2 부호화 단위(2902a, 2902b, 2904a, 2904b, 2906a, 2906b, 2906c, 2906d)를 결정할 수 있다.
일 실시예에 따라 정사각형 형태의 제1 부호화 단위(2900)에 대한 분할 형태 정보에 따라 결정되는 제2 부호화 단위(2902a, 2902b, 2904a, 2904b, 2906a, 2906b, 2906c, 2906d)는 긴 변의 길이에 기초하여 심도가 결정될 수 있다. 예를 들면, 정사각형 형태의 제1 부호화 단위(2900)의 한 변의 길이와 비-정사각형 형태의 제2 부호화 단위(2902a, 2902b, 2904a, 2904b)의 긴 변의 길이가 동일하므로, 제1 부호화 단위(2900)와 비-정사각형 형태의 제2 부호화 단위(2902a, 2902b, 2904a, 2904b)의 심도는 D로 동일하다고 볼 수 있다. 이에 반해 영상 복호화 장치(200)가 분할 형태 정보에 기초하여 제1 부호화 단위(2900)를 4개의 정사각형 형태의 제2 부호화 단위(2906a, 2906b, 2906c, 2906d)로 분할한 경우, 정사각형 형태의 제2 부호화 단위(2906a, 2906b, 2906c, 2906d)의 한 변의 길이는 제1 부호화 단위(2900)의 한 변의 길이의 1/2배 이므로, 제2 부호화 단위(2906a, 2906b, 2906c, 2906d)의 심도는 제1 부호화 단위(2900)의 심도인 D보다 한 심도 하위인 D+1의 심도일 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 높이가 너비보다 긴 형태의 제1 부호화 단위(2910)를 분할 형태 정보에 따라 수평 방향으로 분할하여 복수개의 제2 부호화 단위(2912a, 2912b, 2914a, 2914b, 2914c)로 분할할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 너비가 높이보다 긴 형태의 제1 부호화 단위(2920)를 분할 형태 정보에 따라 수직 방향으로 분할하여 복수개의 제2 부호화 단위(2922a, 2922b, 2924a, 2924b, 2924c)로 분할할 수 있다.
일 실시예에 따라 비-정사각형 형태의 제1 부호화 단위(2910 또는 2920)에 대한 분할 형태 정보에 따라 결정되는 제2 부호화 단위(2912a, 2912b, 2914a, 2914b, 2116a, 2116b, 2116c, 2116d)는 긴 변의 길이에 기초하여 심도가 결정될 수 있다. 예를 들면, 정사각형 형태의 제2 부호화 단위(2912a, 2912b)의 한 변의 길이는 높이가 너비보다 긴 비-정사각형 형태의 제1 부호화 단위(2910)의 한 변의 길이의 1/2배이므로, 정사각형 형태의 제2 부호화 단위(2902a, 2902b, 2904a, 2904b)의 심도는 비-정사각형 형태의 제1 부호화 단위(2910)의 심도 D보다 한 심도 하위의 심도인 D+1이다.
나아가 영상 복호화 장치(200)가 분할 형태 정보에 기초하여 비-정사각형 형태의 제1 부호화 단위(2910)를 홀수개의 제2 부호화 단위(2914a, 2914b, 2914c)로 분할할 수 있다. 홀수개의 제2 부호화 단위(2914a, 2914b, 2914c)는 비-정사각형 형태의 제2 부호화 단위(2914a, 2914c) 및 정사각형 형태의 제2 부호화 단위(2914b)를 포함할 수 있다. 이 경우 비-정사각형 형태의 제2 부호화 단위(2914a, 2914c)의 긴 변의 길이 및 정사각형 형태의 제2 부호화 단위(2914b)의 한 변의 길이는 제1 부호화 단위(2910)의 한 변의 길이의 1/2배 이므로, 제2 부호화 단위(2914a, 2914b, 2914c)의 심도는 제1 부호화 단위(2910)의 심도인 D보다 한 심도 하위인 D+1의 심도일 수 있다. 영상 복호화 장치(200)는 제1 부호화 단위(2910)와 관련된 부호화 단위들의 심도를 결정하는 상기 방식에 대응하는 방식으로, 너비가 높이보다 긴 비-정사각형 형태의 제1 부호화 단위(2920)와 관련된 부호화 단위들의 심도를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 분할된 부호화 단위들의 구분을 위한 인덱스(PID)를 결정함에 있어서, 홀수개로 분할된 부호화 단위들이 서로 동일한 크기가 아닌 경우, 부호화 단위들 간의 크기 비율에 기초하여 인덱스를 결정할 수 있다. 도 29를 참조하면, 홀수개로 분할된 부호화 단위들(2914a, 2914b, 2914c) 중 가운데에 위치하는 부호화 단위(2914b)는 다른 부호화 단위들(2914a, 2914c)와 너비는 동일하지만 높이가 다른 부호화 단위들(2914a, 2914c)의 높이의 두 배일 수 있다. 즉, 이 경우 가운데에 위치하는 부호화 단위(2914b)는 다른 부호화 단위들(2914a, 2914c)의 두 개를 포함할 수 있다. 따라서, 스캔 순서에 따라 가운데에 위치하는 부호화 단위(2914b)의 인덱스(PID)가 1이라면 그 다음 순서에 위치하는 부호화 단위(2914c)는 인덱스가 2가 증가한 3일수 있다. 즉 인덱스의 값의 불연속성이 존재할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 이러한 분할된 부호화 단위들 간의 구분을 위한 인덱스의 불연속성의 존재 여부에 기초하여 홀수개로 분할된 부호화 단위들이 서로 동일한 크기가 아닌지 여부를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위로부터 분할되어 결정된 복수개의 부호화 단위들을 구분하기 위한 인덱스의 값에 기초하여 특정 분할 형태로 분할된 것인지를 결정할 수 있다. 도 29를 참조하면 영상 복호화 장치(200)는 높이가 너비보다 긴 직사각형 형태의 제1 부호화 단위(2910)를 분할하여 짝수개의 부호화 단위(2912a, 2912b)를 결정하거나 홀수개의 부호화 단위(2914a, 2914b, 2914c)를 결정할 수 있다. 영상 복호화 장치(200)는 복수개의 부호화 단위 각각을 구분하기 위하여 각 부호화 단위를 나타내는 인덱스(PID)를 이용할 수 있다. 일 실시예에 따라 PID는 각각의 부호화 단위의 소정 위치의 샘플(예를 들면, 좌측 상단 샘플)에서 획득될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 부호화 단위의 구분을 위한 인덱스를 이용하여 분할되어 결정된 부호화 단위들 중 소정 위치의 부호화 단위를 결정할 수 있다. 일 실시예에 따라 높이가 너비보다 긴 직사각형 형태의 제1 부호화 단위(2910)에 대한 분할 형태 정보가 3개의 부호화 단위로 분할됨을 나타내는 경우 영상 복호화 장치(200)는 제1 부호화 단위(2910)를 3개의 부호화 단위(2914a, 2914b, 2914c)로 분할할 수 있다. 영상 복호화 장치(200)는 3개의 부호화 단위(2914a, 2914b, 2914c) 각각에 대한 인덱스를 할당할 수 있다. 영상 복호화 장치(200)는 홀수개로 분할된 부호화 단위 중 가운데 부호화 단위를 결정하기 위하여 각 부호화 단위에 대한 인덱스를 비교할 수 있다. 영상 복호화 장치(200)는 부호화 단위들의 인덱스에 기초하여 인덱스들 중 가운데 값에 해당하는 인덱스를 갖는 부호화 단위(2914b)를, 제1 부호화 단위(2910)가 분할되어 결정된 부호화 단위 중 가운데 위치의 부호화 단위로서 결정할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 분할된 부호화 단위들의 구분을 위한 인덱스를 결정함에 있어서, 부호화 단위들이 서로 동일한 크기가 아닌 경우, 부호화 단위들 간의 크기 비율에 기초하여 인덱스를 결정할 수 있다. 도 29를 참조하면, 제1 부호화 단위(2910)가 분할되어 생성된 부호화 단위(2914b)는 다른 부호화 단위들(2914a, 2914c)와 너비는 동일하지만 높이가 다른 부호화 단위들(2914a, 2914c)의 높이의 두 배일 수 있다. 이 경우 가운데에 위치하는 부호화 단위(2914b)의 인덱스(PID)가 1이라면 그 다음 순서에 위치하는 부호화 단위(2914c)는 인덱스가 2가 증가한 3일수 있다. 이러한 경우처럼 균일하게 인덱스가 증가하다가 증가폭이 달라지는 경우, 영상 복호화 장치(200)는 다른 부호화 단위들과 다른 크기를 가지는 부호화 단위를 포함하는 복수개의 부호화 단위로 분할된 것으로 결정할 수 있다. 일 실시예에 따라 분할 형태 정보가 홀수개의 부호화 단위로 분할됨을 나타내는 경우, 영상 복호화 장치(200)는 홀수개의 부호화 단위 중 소정 위치의 부호화 단위(예를 들면 가운데 부호화 단위)가 다른 부호화 단위와 크기가 다른 형태로 현재 부호화 단위를 분할할 수 있다. 이 경우 영상 복호화 장치(200)는 부호화 단위에 대한 인덱스(PID)를 이용하여 다른 크기를 가지는 가운데 부호화 단위를 결정할 수 있다. 다만 상술한 인덱스, 결정하고자 하는 소정 위치의 부호화 단위의 크기 또는 위치는 일 실시예를 설명하기 위해 특정한 것이므로 이에 한정하여 해석되어서는 안되며, 다양한 인덱스, 부호화 단위의 위치 및 크기가 이용될 수 있는 것으로 해석되어야 한다.
일 실시예에 따라 영상 복호화 장치(200)는 부호화 단위의 재귀적인 분할이 시작되는 소정의 데이터 단위를 이용할 수 있다.
도 30은 일 실시예에 따라 픽처에 포함되는 복수개의 소정의 데이터 단위에 따라 복수개의 부호화 단위들이 결정된 것을 도시한다.
일 실시예에 따라 소정의 데이터 단위는 부호화 단위가 블록 형태 정보 및 분할 형태 정보 중 적어도 하나를 이용하여 재귀적으로 분할되기 시작하는 데이터 단위로 정의될 수 있다. 즉, 현재 픽처를 분할하는 복수개의 부호화 단위들이 결정되는 과정에서 이용되는 최상위 심도의 부호화 단위에 해당할 수 있다. 이하에서는 설명 상 편의를 위해 이러한 소정의 데이터 단위를 기준 데이터 단위라고 지칭하도록 한다.
일 실시예에 따라 기준 데이터 단위는 소정의 크기 및 형태를 나타낼 수 있다. 일 실시예에 따라, 기준 부호화 단위는 MxN의 샘플들을 포함할 수 있다. 여기서 M 및 N은 서로 동일할 수도 있으며, 2의 승수로 표현되는 정수일 수 있다. 즉, 기준 데이터 단위는 정사각형 또는 비-정사각형의 형태를 나타낼 수 있으며, 이후에 정수개의 부호화 단위로 분할될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 픽처를 복수개의 기준 데이터 단위로 분할할 수 있다. 일 실시예에 따라 영상 복호화 장치(200)는 현재 픽처를 분할하는 복수개의 기준 데이터 단위를 각각의 기준 데이터 단위에 대한 분할 정보를 이용하여 분할할 수 있다. 이러한 기준 데이터 단위의 분할 과정은 쿼드 트리(quad-tree)구조를 이용한 분할 과정에 대응될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 픽처에 포함되는 기준 데이터 단위가 가질 수 있는 최소 크기를 미리 결정할 수 있다. 이에 따라, 영상 복호화 장치(200)는 최소 크기 이상의 크기를 갖는 다양한 크기의 기준 데이터 단위를 결정할 수 있고, 결정된 기준 데이터 단위를 기준으로 블록 형태 정보 및 분할 형태 정보를 이용하여 적어도 하나의 부호화 단위를 결정할 수 있다.
도 30을 참조하면, 영상 복호화 장치(200)는 정사각형 형태의 기준 부호화 단위(3000)를 이용할 수 있고, 또는 비-정사각형 형태의 기준 부호화 단위(3002)를 이용할 수도 있다. 일 실시예에 따라 기준 부호화 단위의 형태 및 크기는 적어도 하나의 기준 부호화 단위를 포함할 수 있는 다양한 데이터 단위(예를 들면, 시퀀스(sequence), 픽처(picture), 슬라이스(slice), 슬라이스 세그먼트(slice segment), 최대부호화단위 등)에 따라 결정될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)의 수신부(210)는 기준 부호화 단위의 형태에 대한 정보 및 기준 부호화 단위의 크기에 대한 정보 중 적어도 하나를 상기 다양한 데이터 단위마다 비트스트림으로부터 획득할 수 있다. 정사각형 형태의 기준 부호화 단위(3000)에 포함되는 적어도 하나의 부호화 단위가 결정되는 과정은 도 18의 현재 부호화 단위가 분할되는 과정을 통해 상술하였고, 비-정사각형 형태의 기준 부호화 단위(3000)에 포함되는 적어도 하나의 부호화 단위가 결정되는 과정은 도 19의 현재 부호화 단위(1900 또는 1950)가 분할되는 과정을 통해 상술하였으므로 자세한 설명은 생략하도록 한다.
일 실시예에 따라 영상 복호화 장치(200)는 소정의 조건에 기초하여 미리 결정되는 일부 데이터 단위에 따라 기준 부호화 단위의 크기 및 형태를 결정하기 위하여, 기준 부호화 단위의 크기 및 형태를 식별하기 위한 인덱스를 이용할 수 있다. 즉, 수신부(210)는 비트스트림으로부터 상기 다양한 데이터 단위(예를 들면, 시퀀스, 픽처, 슬라이스, 슬라이스 세그먼트, 최대부호화단위 등) 중 소정의 조건(예를 들면 슬라이스 이하의 크기를 갖는 데이터 단위)을 만족하는 데이터 단위로서 슬라이스, 슬라이스 세그먼트, 최대부호화 단위 등 마다, 기준 부호화 단위의 크기 및 형태의 식별을 위한 인덱스만을 획득할 수 있다. 영상 복호화 장치(200)는 인덱스를 이용함으로써 상기 소정의 조건을 만족하는 데이터 단위마다 기준 데이터 단위의 크기 및 형태를 결정할 수 있다. 기준 부호화 단위의 형태에 대한 정보 및 기준 부호화 단위의 크기에 대한 정보를 상대적으로 작은 크기의 데이터 단위마다 비트스트림으로부터 획득하여 이용하는 경우, 비트스트림의 이용 효율이 좋지 않을 수 있으므로, 기준 부호화 단위의 형태에 대한 정보 및 기준 부호화 단위의 크기에 대한 정보를 직접 획득하는 대신 상기 인덱스만을 획득하여 이용할 수 있다. 이 경우 기준 부호화 단위의 크기 및 형태를 나타내는 인덱스에 대응하는 기준 부호화 단위의 크기 및 형태 중 적어도 하나는 미리 결정되어 있을 수 있다. 즉, 영상 복호화 장치(200)는 미리 결정된 기준 부호화 단위의 크기 및 형태 중 적어도 하나를 인덱스에 따라 선택함으로써, 인덱스 획득의 기준이 되는 데이터 단위에 포함되는 기준 부호화 단위의 크기 및 형태 중 적어도 하나를 결정할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 하나의 최대 부호화 단위에 포함하는 적어도 하나의 기준 부호화 단위를 이용할 수 있다. 즉, 영상을 분할하는 최대 부호화 단위에는 적어도 하나의 기준 부호화 단위가 포함될 수 있고, 각각의 기준 부호화 단위의 재귀적인 분할 과정을 통해 부호화 단위가 결정될 수 있다. 일 실시예에 따라 최대 부호화 단위의 너비 및 높이 중 적어도 하나는 기준 부호화 단위의 너비 및 높이 중 적어도 하나의 정수배에 해당할 수 있다. 일 실시예에 따라 기준 부호화 단위의 크기는 최대부호화단위를 쿼드 트리 구조에 따라 n번 분할한 크기일 수 있다. 즉, 영상 복호화 장치(200)는 최대부호화단위를 쿼드 트리 구조에 따라 n 번 분할하여 기준 부호화 단위를 결정할 수 있고, 다양한 실시예들에 따라 기준 부호화 단위를 블록 형태 정보 및 분할 형태 정보 중 적어도 하나에 기초하여 분할할 수 있다.
도 31은 일 실시예에 따라 픽처(3100)에 포함되는 기준 부호화 단위의 결정 순서를 결정하는 기준이 되는 프로세싱 블록을 도시한다.
일 실시예에 따라 영상 복호화 장치(200)는 픽처를 분할하는 적어도 하나의 프로세싱 블록을 결정할 수 있다. 프로세싱 블록이란, 영상을 분할하는 적어도 하나의 기준 부호화 단위를 포함하는 데이터 단위로서, 프로세싱 블록에 포함되는 적어도 하나의 기준 부호화 단위는 특정 순서대로 결정될 수 있다. 즉, 각각의 프로세싱 블록에서 결정되는 적어도 하나의 기준 부호화 단위의 결정 순서는 기준 부호화 단위가 결정될 수 있는 다양한 순서의 종류 중 하나에 해당할 수 있으며, 각각의 프로세싱 블록에서 결정되는 기준 부호화 단위 결정 순서는 프로세싱 블록마다 상이할 수 있다. 프로세싱 블록마다 결정되는 기준 부호화 단위의 결정 순서는 래스터 스캔(raster scan), Z 스캔(Z-scan), N 스캔(N-scan), 우상향 대각 스캔(up-right diagonal scan), 수평적 스캔(horizontal scan), 수직적 스캔(vertical scan) 등 다양한 순서 중 하나일 수 있으나, 결정될 수 있는 순서는 상기 스캔 순서들에 한정하여 해석되어서는 안 된다.
일 실시예에 따라 영상 복호화 장치(200)는 프로세싱 블록의 크기에 대한 정보를 획득하여 영상에 포함되는 적어도 하나의 프로세싱 블록의 크기를 결정할 수 있다. 영상 복호화 장치(200)는 프로세싱 블록의 크기에 대한 정보를 비트스트림으로부터 획득하여 영상에 포함되는 적어도 하나의 프로세싱 블록의 크기를 결정할 수 있다. 이러한 프로세싱 블록의 크기는 프로세싱 블록의 크기에 대한 정보가 나타내는 데이터 단위의 소정의 크기일 수 있다.
일 실시예에 따라 영상 복호화 장치(200)의 수신부(210)는 비트스트림으로부터 프로세싱 블록의 크기에 대한 정보를 특정의 데이터 단위마다 획득할 수 있다. 예를 들면 프로세싱 블록의 크기에 대한 정보는 영상, 시퀀스, 픽처, 슬라이스, 슬라이스 세그먼트 등의 데이터 단위로 비트스트림으로부터 획득될 수 있다. 즉 수신부(210)는 상기 여러 데이터 단위마다 비트스트림으로부터 프로세싱 블록의 크기에 대한 정보를 획득할 수 있고 영상 복호화 장치(200)는 획득된 프로세싱 블록의 크기에 대한 정보를 이용하여 픽처를 분할하는 적어도 하나의 프로세싱 블록의 크기를 결정할 수 있으며, 이러한 프로세싱 블록의 크기는 기준 부호화 단위의 정수배의 크기일 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 픽처(3100)에 포함되는 프로세싱 블록(3102, 3112)의 크기를 결정할 수 있다. 예를 들면, 영상 복호화 장치(200)는 비트스트림으로부터 획득된 프로세싱 블록의 크기에 대한 정보에 기초하여 프로세싱 블록의 크기를 결정할 수 있다. 도 31을 참조하면, 영상 복호화 장치(200)는 일 실시예에 따라 프로세싱 블록(3102, 3112)의 가로크기를 기준 부호화 단위 가로크기의 4배, 세로크기를 기준 부호화 단위의 세로크기의 4배로 결정할 수 있다. 영상 복호화 장치(200)는 적어도 하나의 프로세싱 블록 내에서 적어도 하나의 기준 부호화 단위가 결정되는 순서를 결정할 수 있다.
일 실시예에 따라, 영상 복호화 장치(200)는 프로세싱 블록의 크기에 기초하여 픽처(3100)에 포함되는 각각의 프로세싱 블록(3102, 3112)을 결정할 수 있고, 프로세싱 블록(3102, 3112)에 포함되는 적어도 하나의 기준 부호화 단위의 결정 순서를 결정할 수 있다. 일 실시예에 따라 기준 부호화 단위의 결정은 기준 부호화 단위의 크기의 결정을 포함할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 비트스트림으로부터 적어도 하나의 프로세싱 블록에 포함되는 적어도 하나의 기준 부호화 단위의 결정 순서에 대한 정보를 획득할 수 있고, 획득한 결정 순서에 대한 정보에 기초하여 적어도 하나의 기준 부호화 단위가 결정되는 순서를 결정할 수 있다. 결정 순서에 대한 정보는 프로세싱 블록 내에서 기준 부호화 단위들이 결정되는 순서 또는 방향으로 정의될 수 있다. 즉, 기준 부호화 단위들이 결정되는 순서는 각각의 프로세싱 블록마다 독립적으로 결정될 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 특정 데이터 단위마다 기준 부호화 단위의 결정 순서에 대한 정보를 비트스트림으로부터 획득할 수 있다. 예를 들면, 수신부(210)는 기준 부호화 단위의 결정 순서에 대한 정보를 영상, 시퀀스, 픽처, 슬라이스, 슬라이스 세그먼트, 프로세싱 블록 등의 데이터 단위로마다 비트스트림으로부터 획득할 수 있다. 기준 부호화 단위의 결정 순서에 대한 정보는 프로세싱 블록 내에서의 기준 부호화 단위 결정 순서를 나타내므로, 결정 순서에 대한 정보는 정수개의 프로세싱 블록을 포함하는 특정 데이터 단위 마다 획득될 수 있다.
영상 복호화 장치(200)는 일 실시예에 따라 결정된 순서에 기초하여 적어도 하나의 기준 부호화 단위를 결정할 수 있다.
일 실시예에 따라 수신부(210)는 비트스트림으로부터 프로세싱 블록(3102, 3112)과 관련된 정보로서, 기준 부호화 단위 결정 순서에 대한 정보를 획득할 수 있고, 영상 복호화 장치(200)는 상기 프로세싱 블록(3102, 3112)에 포함된 적어도 하나의 기준 부호화 단위를 결정하는 순서를 결정하고 부호화 단위의 결정 순서에 따라 픽처(3100)에 포함되는 적어도 하나의 기준 부호화 단위를 결정할 수 있다. 도 31을 참조하면, 영상 복호화 장치(200)는 각각의 프로세싱 블록(3102, 3112)과 관련된 적어도 하나의 기준 부호화 단위의 결정 순서(3104, 3114)를 결정할 수 있다. 예를 들면, 기준 부호화 단위의 결정 순서에 대한 정보가 프로세싱 블록마다 획득되는 경우, 각각의 프로세싱 블록(3102, 3112)과 관련된 기준 부호화 단위 결정 순서는 프로세싱 블록마다 상이할 수 있다. 프로세싱 블록(3102)과 관련된 기준 부호화 단위 결정 순서(3104)가 래스터 스캔(raster scan)순서인 경우, 프로세싱 블록(3102)에 포함되는 기준 부호화 단위는 래스터 스캔 순서에 따라 결정될 수 있다. 이에 반해 다른 프로세싱 블록(3112)과 관련된 기준 부호화 단위 결정 순서(3114)가 래스터 스캔 순서의 역순인 경우, 프로세싱 블록(3112)에 포함되는 기준 부호화 단위는 래스터 스캔 순서의 역순에 따라 결정될 수 있다.
영상 복호화 장치(200)는 일 실시예에 따라, 결정된 적어도 하나의 기준 부호화 단위를 복호화할 수 있다. 영상 복호화 장치(200)는 상술한 실시예를 통해 결정된 기준 부호화 단위에 기초하여 영상을 복호화 할 수 있다. 기준 부호화 단위를 복호화 하는 방법은 영상을 복호화 하는 다양한 방법들을 포함할 수 있다.
일 실시예에 따라 영상 복호화 장치(200)는 현재 부호화 단위의 형태를 나타내는 블록 형태 정보 또는 현재 부호화 단위를 분할하는 방법을 나타내는 분할 형태 정보를 비트스트림으로부터 획득하여 이용할 수 있다. 블록 형태 정보 또는 분할 형태 정보는 다양한 데이터 단위와 관련된 비트스트림에 포함될 수 있다. 예를 들면, 영상 복호화 장치(200)는 시퀀스 파라미터 세트(sequence parameter set), 픽처 파라미터 세트(picture parameter set), 비디오 파라미터 세트(video parameter set), 슬라이스 헤더(slice header), 슬라이스 세그먼트 헤더(slice segment header)에 포함된 블록 형태 정보 또는 분할 형태 정보를 이용할 수 있다. 나아가, 영상 복호화 장치(200)는 최대 부호화 단위, 기준 부호화 단위, 프로세싱 블록마다 비트스트림으로부터 블록 형태 정보 또는 분할 형태 정보에 대응하는 신택스를 비트스트림으로부터 획득하여 이용할 수 있다.
이제까지 다양한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

Claims (15)

  1. 부호화된 영상의 비트스트림을 수신하는 단계;
    상기 부호화된 영상으로부터 분할된 하나 이상의 블록을 결정하는 단계;
    상기 하나 이상의 블록 중 현재 블록을 예측하기 위한 주변 블록들(neighboring blocks)을 결정하는 단계;
    제1 DNN(Deep Neural Network) 학습 모델과 제2 DNN 학습 모델을 통해 연속적으로 상기 주변 블록들을 처리하여 획득된 상기 현재 블록의 제1 중간 예측 데이터와, 상기 제1 DNN 학습 모델을 통해 상기 주변 블록들을 처리하여 획득된 상기 현재 블록의 제2 중간 예측 데이터에 기초하여 상기 현재 블록의 최종 예측 데이터를 생성하는 단계;
    상기 비트스트림으로부터 상기 현재 블록의 레지듀얼 데이터를 추출하는 단계; 및
    상기 최종 예측 데이터와 상기 레지듀얼 데이터를 이용하여 상기 현재 블록을 복원하는 단계를 포함하고,
    상기 제1 DNN 학습 모델은 상기 제2 DNN 학습 모델의 뉴럴 네트워크 구조와 다른 뉴럴 네트워크 구조인, 영상 복호화 방법.
  2. 제 1 항에 있어서,
    상기 제1 DNN 학습 모델은, 상기 DNN 학습 모델을 구성하는 복수의 네트워크 노드들 간의 연결 관계 및 상기 복수의 네트워크 노드들 각각의 가중치에 기반한 연산에 따라 상기 현재 블록의 원(original) 데이터를 예측하도록 학습된 네트워크 모델인, 영상 복호화 방법.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 제2 중간 예측 데이터는 상기 현재 블록의 원 데이터를 예측한 데이터이고,
    상기 제1 중간 예측 데이터는 상기 현재 블록의 원 데이터에서 상기 제2 중간 예측 데이터를 뺀 값을 예측한 데이터인, 영상 복호화 방법.
  5. 제 1 항에 있어서,
    상기 제1 DNN 학습 모델은 RNN(Recurrent Neural Network) 학습 모델이고, 상기 제2 DNN 학습 모델은 CNN(Convolutional Neural Network) 학습 모델인, 영상 복호화 방법.
  6. 제 5 항에 있어서,
    상기 제2 중간 예측 데이터를 생성하는 단계는,
    상기 주변 블록들의 시퀀스를 시간 스텝(time step) 별로 소정 방향에 따라 상기 RNN 학습 모델에 입력하는 단계를 포함하는, 영상 복호화 방법.
  7. 제 5 항에 있어서,
    상기 주변 블록들을 결정하는 단계는,
    상기 현재 블록 이전에 복원된 블록들 중 상기 현재 블록에 인접한 인접 블록들(adjacent blocks)을 결정하는 단계; 및
    상기 현재 블록으로부터 상기 인접 블록들을 향하는 각 방향에 위치한 블록을 상기 주변 블록들로서 결정하는 단계를 포함하는, 영상 복호화 방법.
  8. 제 6 항에 있어서,
    상기 입력하는 단계는,
    상기 현재 블록의 좌측 방향에 위치한 블록을 기준으로 시계 방향의 순서로 상기 각 방향에 위치한 블록을 상기 RNN 학습 모델에 입력하는 단계를 포함하는, 영상 복호화 방법.
  9. 제 8 항에 있어서,
    상기 각 방향에 위치한 블록이 복수 개일 경우, 동일한 방향에 위치한 블록들 사이의 입력 순서는 상기 현재 블록에서 먼 위치의 블록으로부터 가까운 위치의 블록의 순서인, 영상 복호화 방법.
  10. 제 6 항에 있어서,
    상기 입력하는 단계는,
    상기 주변 블록들을 Z 스캔의 순서로 상기 RNN 학습 모델에 입력하는 단계를 포함하는, 영상 복호화 방법.
  11. 제 5 항에 있어서,
    상기 제1 중간 예측 데이터를 생성하는 단계는,
    상기 CNN 학습 모델의 컨볼루션 레이어(convolutional layer)에 상기 제2 중간 예측 데이터 및 상기 현재 블록에 인접한 주변 복원 데이터를 입력하여, 복수의 필터를 이용한 컨볼루션 동작을 수행하는 단계를 포함하는, 영상 복호화 방법.
  12. 제 1 항에 있어서,
    상기 제2 중간 예측 데이터를 생성하는 단계는,
    상기 현재 블록이 참조하는 하나 이상의 참조 픽처 및 하나 이상의 참조 블록 위치를 결정하는 단계; 및
    상기 하나 이상의 참조 픽처 및 상기 하나 이상의 참조 블록 위치를 상기 제1 DNN 학습 모델에 입력하여 상기 제2 중간 예측 데이터를 생성하는 단계를 포함하는, 영상 복호화 방법.
  13. 제 1 항에 있어서,
    상기 제1 DNN 학습 모델의 상기 뉴럴 네트워크 구조에 대한 정보는 상기 비트스트림의 비디오 파라미터 세트, 시퀀스 파라미터 세트 및 픽처 파라미터 세트 중 적어도 하나로부터 획득되는, 영상 복호화 방법.
  14. 부호화된 영상의 비트스트림을 수신하는 수신부;
    상기 부호화된 영상으로부터 분할된 하나 이상의 블록을 결정하는 블록 결정부;상기 하나 이상의 블록 중 현재 블록을 예측하기 위한 주변 블록들(neighboring blocks)을 결정하고, 제1 DNN(Deep Neural Network) 학습 모델과 제2 DNN 학습 모델을 통해 연속적으로 상기 주변 블록들을 처리하여 획득된 상기 현재 블록의 제1 중간 예측 데이터와, 상기 제1 DNN 학습 모델을 통해 상기 주변 블록들을 처리하여 획득된 상기 현재 블록의 제2 중간 예측 데이터에 기초하여 상기 현재 블록의 최종 예측 데이터를 생성하는 예측부; 및
    상기 비트스트림으로부터 상기 현재 블록의 레지듀얼 데이터를 추출하고, 상기 최종 예측 데이터와 상기 레지듀얼 데이터를 이용하여 상기 현재 블록을 복원하는 복원부를 포함하고,
    상기 제1 DNN 학습 모델은 상기 제2 DNN 학습 모델의 뉴럴 네트워크 구조와 다른 뉴럴 네트워크 구조인, 영상 복호화 장치.
  15. 영상을 분할하는 하나 이상의 블록을 결정하는 단계;
    상기 하나 이상의 블록 중 현재 블록을 예측하기 위한 주변 블록들(neighboring blocks)을 결정하는 단계;
    제1 DNN(Deep Neural Network) 학습 모델과 제2 DNN 학습 모델을 통해 연속적으로 상기 주변 블록들을 처리하여 획득된 상기 현재 블록의 제1 중간 예측 데이터와, 상기 제1 DNN 학습 모델을 통해 상기 주변 블록들을 처리하여 획득된 상기 현재 블록의 제2 중간 예측 데이터에 기초하여 상기 현재 블록의 최종 예측 데이터를 생성하는 단계;
    상기 현재 블록에 대응하는 원(original) 데이터와 상기 최종 예측 데이터를 이용하여 상기 현재 블록의 레지듀얼 데이터를 생성하는 단계; 및
    상기 레지듀얼 데이터를 부호화한 비트스트림을 생성하는 단계를 포함하고, 상기 제1 DNN 학습 모델은 상기 제2 DNN 학습 모델의 뉴럴 네트워크 구조와 다른 뉴럴 네트워크 구조인, 영상 부호화 방법.
KR1020207000379A 2017-07-06 2018-02-06 영상을 부호화 또는 복호화하는 방법 및 장치 KR102651878B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR1020170086136 2017-07-06
PCT/KR2017/007270 WO2019009452A1 (ko) 2017-07-06 2017-07-06 영상을 부호화 또는 복호화하는 방법 및 장치
KR20170086136 2017-07-06
KRPCT/KR2017/007270 2017-07-06
PCT/KR2018/001552 WO2019009491A1 (ko) 2017-07-06 2018-02-06 영상을 부호화 또는 복호화하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200016943A KR20200016943A (ko) 2020-02-17
KR102651878B1 true KR102651878B1 (ko) 2024-03-28

Family

ID=64951060

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207000379A KR102651878B1 (ko) 2017-07-06 2018-02-06 영상을 부호화 또는 복호화하는 방법 및 장치

Country Status (4)

Country Link
US (1) US11197013B2 (ko)
KR (1) KR102651878B1 (ko)
CN (1) CN110892723B (ko)
WO (1) WO2019009491A1 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018222896A1 (en) 2017-05-31 2018-12-06 Intel Corporation Gradient-based training engine for quaternion-based machine-learning systems
CN117768643A (zh) * 2017-10-13 2024-03-26 弗劳恩霍夫应用研究促进协会 用于逐块图片编码的帧内预测模式概念
CN110475129B (zh) 2018-03-05 2021-05-28 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
US11240492B2 (en) * 2019-01-22 2022-02-01 Apple Inc. Neural network based residual coding and prediction for predictive coding
CN113711594A (zh) * 2019-02-15 2021-11-26 诺基亚技术有限公司 用于视频编码和解码的装置、方法和计算机程序
KR102287942B1 (ko) 2020-02-24 2021-08-09 삼성전자주식회사 전처리를 이용한 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
US11689713B2 (en) * 2020-07-15 2023-06-27 Tencent America LLC Predicted frame generation by deformable convolution for video coding
KR102191722B1 (ko) * 2020-07-15 2020-12-16 세종대학교산학협력단 딥러닝 모델의 취약점 판단 장치 및 방법
US20220201295A1 (en) * 2020-12-21 2022-06-23 Electronics And Telecommunications Research Institute Method, apparatus and storage medium for image encoding/decoding using prediction
WO2022227062A1 (zh) * 2021-04-30 2022-11-03 Oppo广东移动通信有限公司 编解码方法、码流、编码器、解码器以及存储介质
US20220405979A1 (en) * 2021-06-16 2022-12-22 Tencent America LLC Content-adaptive online training method and apparatus for deblocking in block-wise image compression
WO2023060056A2 (en) * 2021-10-08 2023-04-13 Objectvideo Labs, Llc Spatial motion attention for intelligent video analytics
WO2023080464A1 (ko) * 2021-11-05 2023-05-11 삼성전자 주식회사 Ai 기반 필터링을 위한 영상 처리 방법 및 장치
CN118176730A (zh) * 2021-11-10 2024-06-11 Oppo广东移动通信有限公司 解码方法、编码方法、解码器、编码器和编解码系统
KR102641702B1 (ko) * 2022-05-12 2024-02-28 주식회사 엘지유플러스 자율 주행 시스템 및 자율 주행 시스템의 영상 처리 장치 및 방법
KR20230166617A (ko) 2022-05-31 2023-12-07 동의대학교 산학협력단 영상의 압축 영역에서 딥러닝 행동 인식 방법 및 이를 위한 장치
KR20230170597A (ko) * 2022-06-09 2023-12-19 한국전자통신연구원 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장하는 기록 매체

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110070A1 (en) * 2007-10-30 2009-04-30 Masashi Takahashi Image encoding device and encoding method, and image decoding device and decoding method

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
KR101373814B1 (ko) 2010-07-31 2014-03-18 엠앤케이홀딩스 주식회사 예측 블록 생성 장치
KR101263090B1 (ko) 2010-11-08 2013-05-09 성균관대학교산학협력단 다단계 예측을 이용한 영상 부/복호화 방법 및 이러한 방법을 사용하는 부/복호화 장치
WO2012134046A2 (ko) * 2011-04-01 2012-10-04 주식회사 아이벡스피티홀딩스 동영상의 부호화 방법
EP2705668A1 (en) 2011-07-12 2014-03-12 Huawei Technologies Co., Ltd Pixel-based intra prediction for coding in hevc
EP2806649A1 (en) * 2012-01-18 2014-11-26 Electronics and Telecommunications Research Institute Method and device for encoding and decoding image
US9615104B2 (en) 2014-06-13 2017-04-04 Intel Corporation Spatial variant dependency pattern method for GPU based intra prediction in HEVC
US10034005B2 (en) 2015-06-05 2018-07-24 Sony Corporation Banding prediction for video encoding
KR102124714B1 (ko) 2015-09-03 2020-06-19 미디어텍 인크. 비디오 코딩에서의 신경망 기반 프로세싱의 방법 및 장치
KR102309910B1 (ko) * 2015-11-19 2021-10-08 한국전자기술연구원 비디오 부호화기의 최적 모드 결정 장치 및 최적 모드 결정을 이용한 비디오 부호화 방법
US11601644B2 (en) * 2018-12-11 2023-03-07 Google Llc Image and video coding using machine learning prediction coding models
US10999606B2 (en) * 2019-01-08 2021-05-04 Intel Corporation Method and system of neural network loop filtering for video coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110070A1 (en) * 2007-10-30 2009-04-30 Masashi Takahashi Image encoding device and encoding method, and image decoding device and decoding method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jiang Wang, et. al., "CNN-RNN: A Unified Framework for Multi-label Image Classification", 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.06.27.*

Also Published As

Publication number Publication date
CN110892723A (zh) 2020-03-17
US11197013B2 (en) 2021-12-07
KR20200016943A (ko) 2020-02-17
CN110892723B (zh) 2024-04-12
US20210160522A1 (en) 2021-05-27
WO2019009491A1 (ko) 2019-01-10

Similar Documents

Publication Publication Date Title
KR102651878B1 (ko) 영상을 부호화 또는 복호화하는 방법 및 장치
KR102553147B1 (ko) 영상을 부호화 또는 복호화하는 방법 및 장치
KR102332490B1 (ko) 심층 신경망용 압축 방법, 칩, 전자 장치 및 매체
US11729406B2 (en) Video compression using deep generative models
CN113574882B (zh) 使用深度生成性模型的视频压缩
EP3821373B1 (en) Video processing
KR20180131073A (ko) 다채널 특징맵 영상을 처리하는 방법 및 장치
EP3934254A1 (en) Encoding and decoding of extracted features for use with machines
US11689713B2 (en) Predicted frame generation by deformable convolution for video coding
WO2018212946A1 (en) Sigma-delta position derivative networks
WO2021205065A1 (en) Training a data coding system comprising a feature extractor neural network
US20230336759A1 (en) Decoding with signaling of segmentation information
WO2022139617A1 (en) Encoding with signaling of feature map data
WO2021205066A1 (en) Training a data coding system for use with machines
CN114096987A (zh) 视频处理方法及装置
EP4211899A1 (en) Decoding with signaling of feature map data
US20240187573A1 (en) Method and apparatus with neural codec
KR20240110567A (ko) 제어 가능한 공간 비트 할당을 통한 신경 이미지 압축
CN117676162A (zh) 用于视频处理的装置和方法
CN117222997A (zh) 压缩域多速率计算机视觉任务神经网络
WO2023192096A1 (en) Online training-based encoder tuning with multi model selection in neural image compression
WO2023183455A1 (en) Online training-based encoder tuning in neural image compression

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right