KR20190116067A - Method and apparatus for inter predection using reference frame generabed based on deep-learning - Google Patents
Method and apparatus for inter predection using reference frame generabed based on deep-learningInfo
- Publication number
- KR20190116067A KR20190116067A KR1020190036606A KR20190036606A KR20190116067A KR 20190116067 A KR20190116067 A KR 20190116067A KR 1020190036606 A KR1020190036606 A KR 1020190036606A KR 20190036606 A KR20190036606 A KR 20190036606A KR 20190116067 A KR20190116067 A KR 20190116067A
- Authority
- KR
- South Korea
- Prior art keywords
- block
- reference frame
- motion vector
- prediction
- frame
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 203
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 230000033001 locomotion Effects 0.000 claims description 633
- 239000013598 vector Substances 0.000 claims description 497
- 230000002123 temporal effect Effects 0.000 claims description 113
- 238000013139 quantization Methods 0.000 claims description 74
- 239000000872 buffer Substances 0.000 claims description 27
- 230000003044 adaptive effect Effects 0.000 claims description 19
- 238000013213 extrapolation Methods 0.000 claims description 18
- 230000002441 reversible effect Effects 0.000 claims description 12
- 230000003287 optical effect Effects 0.000 claims description 11
- 230000006403 short-term memory Effects 0.000 claims description 5
- 230000002068 genetic effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 53
- 239000013074 reference sample Substances 0.000 description 47
- 239000000523 sample Substances 0.000 description 37
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 31
- 230000009466 transformation Effects 0.000 description 27
- 238000011176 pooling Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 24
- 238000001914 filtration Methods 0.000 description 24
- 238000003860 storage Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 20
- 238000000638 solvent extraction Methods 0.000 description 19
- 230000002457 bidirectional effect Effects 0.000 description 18
- 238000005192 partition Methods 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 15
- 230000015654 memory Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 241000023320 Luma <angiosperm> Species 0.000 description 8
- 238000009795 derivation Methods 0.000 description 8
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000011664 signaling Effects 0.000 description 6
- 238000011426 transformation method Methods 0.000 description 6
- 230000001131 transforming effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 101150089388 dct-5 gene Proteins 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
아래의 실시예들은 비디오의 복호화 방법, 복호화 장치, 부호화 방법 및 부호화 장치에 관한 것으로서, 딥 러닝에 기반하여 생성된 참조 프레임을 이용하여 인터 예측을 수행하는 복호화 방법, 복호화 장치, 부호화 방법 및 부호화 장치에 관한 것이다.The following embodiments are related to a video decoding method, a decoding device, an encoding method, and an encoding device. The decoding method for performing inter prediction using a reference frame generated based on deep learning, a decoding device, an encoding method, and an encoding device. It is about.
정보 통신 산업의 지속적인 발달을 통해 HD(High Definition) 해상도를 가지는 방송 서비스가 세계적으로 확산되었다. 이러한 확산을 통해, 많은 사용자들이 고해상도이며 고화질인 영상(image) 및/또는 비디오(video)에 익숙해지게 되었다.Through the continuous development of the information and telecommunications industry, broadcasting services having high definition (HD) resolution have spread worldwide. This proliferation has resulted in many users becoming accustomed to high resolution, high quality images and / or video.
높은 화질에 대한 사용자들의 수요를 만족시키기 위하여, 많은 기관들이 차세대 영상 기기에 대한 개발에 박차를 가하고 있다. 에이치디티브이(High Definition TV; HDTV) 및 풀에이치디(Full HD; FHD) TV뿐만 아니라, FHD TV에 비해 4배 이상의 해상도를 갖는 울트라에이치디(Ultra High Definition; UHD) TV에 대한 사용자들의 관심이 증대하였고, 이러한 관심의 증대에 따라, 더 높은 해상도 및 화질을 갖는 영상에 대한 영상 부호화(encoding)/복호화(decoding) 기술이 요구된다.In order to satisfy users' demand for high image quality, many organizations are spurring the development of next generation video devices. Users are interested in Ultra High Definition (UHD) TVs, which have four times the resolution of FHD TVs, as well as High Definition TV (HDTV) and Full HD (FHD) TVs. This has increased, and as the interest increases, an image encoding / decoding technique for an image having higher resolution and image quality is required.
영상 부호화(encoding)/복호화(decoding) 장치 및 방법은 고해상도 및 고화질의 영상에 대한 부호화/복호화를 수행하기 위해, 인터(inter) 예측(prediction) 기술, 인트라(intra) 예측 기술 및 엔트로피 부호화 기술 등을 사용할 수 있다. 인터 예측 기술은 시간적으로(temporally) 이전의 픽처 및/또는 시간적으로 이후의 픽처를 이용하여 대상 픽처에 포함된 픽셀의 값을 예측하는 기술일 수 있다. 인트라 예측 기술은 대상 픽처 내의 픽셀의 정보를 이용하여 대상 픽처에 포함된 픽셀의 값을 예측하는 기술일 수 있다. 엔트로피 부호화 기술은 출현 빈도가 높은 심볼에는 짧은 코드(code)를 할당하고, 출현 빈도가 낮은 심볼에는 긴 코드를 할당하는 기술일 수 있다.An image encoding / decoding apparatus and method include an inter prediction technique, an intra prediction technique, an entropy encoding technique, etc. in order to perform encoding / decoding of high resolution and high quality images. Can be used. The inter prediction technique may be a technique of predicting a value of a pixel included in a target picture by using a previous picture temporally and / or a later picture temporally. An intra prediction technique may be a technique of predicting a value of a pixel included in a target picture by using information of a pixel in the target picture. The entropy encoding technique may be a technique of allocating a short code to a symbol having a high appearance frequency and a long code to a symbol having a low appearance frequency.
보다 정확한 예측을 위해 다양한 인터 예측 기술들 및 인트라 예측 기술들이 개발되고 있다.Various inter prediction techniques and intra prediction techniques have been developed for more accurate prediction.
일 실시예는 가상 참조 프레임에 기반하여 대상 블록에 대한 인터 예측을 수행하는 부호화 장치, 부호화 방법, 복호화 장치 및 복호화 방법을 제공할 수 있다.An embodiment may provide an encoding apparatus, an encoding method, a decoding apparatus, and a decoding method that perform inter prediction on a target block based on a virtual reference frame.
일 실시예는 딥 러닝 네트워크 구조에 기반하여 가상 참조 프레임을 생성하는 부호화 장치, 부호화 방법, 복호화 장치 및 복호화 방법을 제공할 수 있다.An embodiment may provide an encoding device, an encoding method, a decoding device, and a decoding method for generating a virtual reference frame based on a deep learning network structure.
일 실시예는 선택된 참조 프레임을 사용하는 비디오 보간 및/또는 비디오 보외에 기반하여 가상 참조 프레임을 생성하는 부호화 장치, 부호화 방법, 복호화 장치 및 복호화 방법을 제공할 수 있다.An embodiment can provide an encoding device, an encoding method, a decoding device, and a decoding method for generating a virtual reference frame based on video interpolation and / or video interpolation using a selected reference frame.
일 측에 있어서, 참조 프레임을 선택하는 단계; 상기 선택된 참조 프레임에 기반하여 가상 참조 프레임을 생성하는 단계; 및 상기 가상 참조 프레임에 기반하여 인터 예측을 수행하는 단계를 포함하는, 복호화 방법이 제공된다.In one side, selecting a reference frame; Generating a virtual reference frame based on the selected reference frame; And performing inter prediction based on the virtual reference frame.
상기 선택된 참조 프레임은 복수일 수 있다.The selected reference frame may be plural.
상기 가상 참조 프레임은 딥 러닝 네트워크 구조에 기반하여 생성될 수 있다.The virtual reference frame may be generated based on a deep learning network structure.
상기 가상 참조 프레임은 생성적 적대 네트워크(Generative Adversarial Network; GAN) 구조를 사용하여 생성될 수 있다.The virtual reference frame may be generated using a generative adversarial network (GAN) structure.
상기 가상 참조 프레임은 적응적 콘볼루션 네트워크(Adaptive Convolution Network; ACN)를 사용하여 생성될 수 있다.The virtual reference frame may be generated using an Adaptive Convolution Network (ACN).
상기 가상 참조 프레임은 네트워크 구조들에 의해 예측된 프레임들을 사용하는 보간을 통해 생성될 수 있다.The virtual reference frame may be generated through interpolation using frames predicted by network structures.
상기 가상 참조 프레임은 상기 선택된 참조 프레임을 사용하는 비디오 보간에 기반하여 생성될 수 있다.The virtual reference frame may be generated based on video interpolation using the selected reference frame.
상기 비디오 보간을 위해 옵티컬 플로우, ACN 또는 롱 쇼트 텀 메모리(Long Short Term Memory; LSTM)에 의한 비디오 예측이 사용될 수 있다.Video prediction by optical flow, ACN or Long Short Term Memory (LSTM) may be used for the video interpolation.
상기 가상 참조 프레임은 상기 선택된 참조 프레임을 사용하는 비디오 보외에 기반하여 생성될 수 있다.The virtual reference frame may be generated based on video extrapolation using the selected reference frame.
상기 복호화 방법은 상기 가상 참조 프레임에 기반하여 참조 픽처 리스트를 구성하는 단계를 더 포함할 수 있다.The decoding method may further include constructing a reference picture list based on the virtual reference frame.
복호화된 픽처 버퍼(Decoded Picture Buffer; DPB) 내의 참조 프레임들 중 특정된 참조 프레임이 상기 가상 참조 프레임으로 대체될 수 있다.A reference frame specified among reference frames in a decoded picture buffer (DPB) may be replaced with the virtual reference frame.
상기 인터 예측의 인터 예측 모드는 향상된 움직임 벡터 예측(advanced motion vector prediction; AMVP) 모드인, 복호화 방법.And the inter prediction mode of the inter prediction is an advanced motion vector prediction (AMVP) mode.
상기 인터 예측의 인터 예측 모드는 머지 모드 또는 스킵 모드일 수 있다.The inter prediction mode of the inter prediction may be a merge mode or a skip mode.
상기 선택된 참조 프레임은 참조 픽처 리스트에 포함된 참조 프레임들 중 역방향 또는 순방향으로 대상 프레임으로부터의 거리가 가장 가까운 참조 프레임일 수 있다.The selected reference frame may be a reference frame closest to the distance from the target frame in the reverse or forward direction among the reference frames included in the reference picture list.
양방향에서 하나씩의 참조 프레임이 선택되는 경우, 제1 차이 및 제2 차이는 동일할 수 있다.When one reference frame is selected in both directions, the first difference and the second difference may be the same.
상기 제1 차이는 역방향의 상기 선택된 참조 프레임의 픽처 오더 카운트(picture order count; POC) 및 대상 프레임의 POC 간의 차이일 수 있다.The first difference may be a difference between a picture order count (POC) of the selected reference frame in the reverse direction and a POC of the target frame.
상기 제2 차이는 상기 대상 프레임의 POC 및 순방향의 상기 선택된 참조 프레임의 POC 간의 차이일 수 있다.The second difference may be a difference between the POC of the target frame and the POC of the selected reference frame in the forward direction.
상기 선택된 참조 프레임은 복호화된 픽처 버퍼(Decoded Picture Buffer; DPB) 내의 참조 프레임들 중 가장 작은 양자화 파라미터(Quantization Parameter; QP)로 압축된 참조 프레임일 수 있다.The selected reference frame may be a reference frame compressed with the smallest quantization parameter (QP) among the reference frames in the decoded picture buffer (DPB).
상기 가상 참조 프레임의 생성을 위해 생성되는 상기 선택된 참조 프레임을 나타내는 참조 프레임 특정 정보가 특정된 단위에 대해 시그널링될 수 있다.Reference frame specific information indicating the selected reference frame generated for generation of the virtual reference frame may be signaled for the specified unit.
상기 참조 프레임은 상기 참조 프레임의 시간적 식별자에 기반하여 선택될 수 있다.The reference frame may be selected based on a temporal identifier of the reference frame.
다른 일 측에 있어서, 참조 프레임을 선택하는 단계; 상기 선택된 참조 프레임에 기반하여 가상 참조 프레임을 생성하는 단계; 및 상기 가상 참조 프레임에 기반하여 인터 예측을 수행하는 단계를 포함하는, 부호화 방법이 제공된다.In another aspect, the method comprising: selecting a reference frame; Generating a virtual reference frame based on the selected reference frame; And performing inter prediction based on the virtual reference frame.
또 다른 일 측에 있어서, 참조 프레임을 선택하는 단계; 상기 선택된 참조 프레임에 기반하여 가상 참조 프레임을 생성하는 단계; 및 상기 가상 참조 프레임에 기반하여 인터 예측을 수행하는 단계를 포함하는, 인터 예측 방법이 제공된다.In another aspect, the method comprising: selecting a reference frame; Generating a virtual reference frame based on the selected reference frame; And performing inter prediction based on the virtual reference frame.
가상 참조 프레임에 기반하여 대상 블록에 대한 인터 예측을 수행하는 부호화 장치, 부호화 방법, 복호화 장치 및 복호화 방법이 제공된다.Provided are an encoding device, an encoding method, a decoding device, and a decoding method for performing inter prediction on a target block based on a virtual reference frame.
딥 러닝 네트워크 구조에 기반하여 가상 참조 프레임을 생성하는 부호화 장치, 부호화 방법, 복호화 장치 및 복호화 방법이 제공된다.Provided are an encoding apparatus, an encoding method, a decoding apparatus, and a decoding method for generating a virtual reference frame based on a deep learning network structure.
선택된 참조 프레임을 사용하는 비디오 보간 및/또는 비디오 보외에 기반하여 가상 참조 프레임을 생성하는 부호화 장치, 부호화 방법, 복호화 장치 및 복호화 방법이 제공된다.Provided are an encoding apparatus, an encoding method, a decoding apparatus, and a decoding method for generating a virtual reference frame based on video interpolation and / or video interpolation using a selected reference frame.
도 1은 본 발명이 적용되는 부호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.
도 2는 본 발명이 적용되는 복호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.
도 3은 영상을 부호화 및 복호화할 때의 영상의 분할 구조를 개략적으로 나타내는 도면이다.
도 4는 코딩 유닛(CU)이 포함할 수 있는 예측 유닛(PU)의 형태를 도시한 도면이다.
도 5는 코딩 유닛(CU)에 포함될 수 있는 변환 유닛(TU)의 형태를 도시한 도면이다.
도 6은 일 예에 따른 블록의 분할을 나타낸다.
도 7은 인트라 예측 과정의 실시예를 설명하기 위한 도면이다.
도 8은 인트라 예측 과정에서 사용되는 참조 샘플의 위치를 설명하기 위한 도면이다.
도 9는 인터 예측 과정의 실시예를 설명하기 위한 도면이다.
도 10은 일 예에 따른 공간적 후보들을 나타낸다.
도 11은 일 예에 따른 공간적 후보들의 움직임 정보들의 머지 리스트로의 추가 순서를 나타낸다.
도 12은 일 예에 따른 변환 및 양자화의 과정을 설명한다.
도 13은 일 예에 따른 대각선 스캐닝을 나타낸다.
도 14는 일 예에 따른 수평 스캐닝을 나타낸다.
도 15는 일 예에 따른 수직 스캐닝을 나타낸다.
도 16은 일 실시예에 따른 부호화 장치의 구조도이다.
도 17은 일 실시예에 따른 복호화 장치의 구조도이다.
도 18은 일 예에 따른 콘볼루션 레이어의 연산을 나타낸다.
도 19는 일 예에 따른 풀링 레이어의 연산을 나타낸다.
도 20은 일 예에 따른 디콘볼루션 레이어의 연산을 나타낸다.
도 21은 일 예에 따른 언-풀링 레이어의 연산을 나타낸다.
도 22는 일 예에 따른 렐루 레이어의 연산을 나타낸다.
도 23은 일 예에 따른 자동 부호기를 나타낸다.
도 24는 일 예에 따른 콘볼루션 부호기 및 콘볼루션 복호기를 나타낸다.
도 25은 일 예에 따른 GAN의 생성기의 구성을 나타낸다.
도 26은 일 예에 따른 GAN의 판별기의 구성을 나타낸다.
도 27은 일 예에 따른 RNN의 구조를 나타낸다.
도 28은 일 예에 따른 콘볼루션 LSTM 신경망의 구조를 나타낸다.
도 29는 일 예에 따른 ACN의 구조를 나타낸다.
도 30은 일 예에 따른 적응적 분리가능한 콘볼루션의 구조를 나타낸다.
도 31은 일 실시예에 따른 생성-부호화 및 생성-복호화의 흐름도이다.
도 32는 일 실시예에 따른 인터 예측 방법의 흐름도이다.
도 33은 일 예에 따른 계층적 B 프레임의 구조를 나타낸다.
도 34는 생성-부호화 및 생성-복호화의 과정을 통한 보간을 사용하는 참조 프레임의 생성을 나타낸다.
도 35는 일 예에 따른 비디오의 보간을 이용하는 참조 프레임의 생성과, 참조 프레임을 사용하는 비디오의 부호화 및 복호화의 과정을 도시한다.
도 36은 일 예에 따른 비디오의 보외를 이용하는 참조 프레임의 생성과, 참조 프레임을 사용하는 비디오의 부호화 및 복호화의 과정을 도시한다.
도 37은 일 예에 따른 양방향 예측이 사용되는 경우에서의 가상 참조 프레임의 참조 픽처 리스트의 구성을 도시한다.
도 38은 일 예에 따른 AMVP 모드에서의 움직임 벡터 후보를 탐색하는 방법의 흐름도이다.
도 39는 일 예에 따른 AMVP 모드에서의 움직임 벡터 후보들을 탐색하는 방법의 흐름도이다.
도 40은 일 예에 따른 AMVP 모드에서의 움직임 벡터 후보들을 탐색하는 다른 방법의 흐름도이다.
도 41은 일 예에 따른 머지 모드 및 스킵 모드에서 시간적 움직임 벡터 후보의 참조 프레임 인덱스에 따라서 시간적 움직임 벡터 후보를 탐색하는 방법의 흐름도이다.
도 42는 일 실시예에 따른 시간적 움직임 벡터 후보가 가상 참조 프레임을 참조하는 경우 시간적 이웃 블록의 움직임 벡터를 움직임 벡터 후보로서 고려하지 않은 움직임 벡터에 대한 탐색 방법의 흐름도이다.
도 43은 일 실시예에 따른 대상 블록의 예측 방법 및 비트스트림 생성 방법의 흐름도이다.
도 44는 일 실시예에 따른 비트스트림을 사용하는 대상 블록의 예측 방법의 흐름도이다.1 is a block diagram illustrating a configuration of an encoding apparatus according to an embodiment of the present invention.
2 is a block diagram illustrating a configuration of a decoding apparatus according to an embodiment of the present invention.
3 is a diagram schematically illustrating a division structure of an image when encoding and decoding an image.
4 is a diagram illustrating a form of a prediction unit PU that a coding unit CU may include.
FIG. 5 is a diagram illustrating a form of a transform unit (TU) that may be included in a coding unit (CU).
6 illustrates partitioning of a block according to an example.
7 is a diagram for explaining an embodiment of an intra prediction process.
8 is a diagram for describing a position of a reference sample used in an intra prediction process.
9 is a diagram for explaining an embodiment of an inter prediction process.
10 illustrates spatial candidates according to an example.
11 illustrates an addition order of spatial information of motion candidates to a merge list according to an example.
12 illustrates a process of transform and quantization according to an example.
13 illustrates diagonal scanning according to an example.
14 illustrates horizontal scanning according to an example.
15 illustrates vertical scanning according to an example.
16 is a structural diagram of an encoding apparatus according to an embodiment.
17 is a structural diagram of a decoding apparatus according to an embodiment.
18 illustrates an operation of a convolutional layer according to an example.
19 illustrates an operation of a pulling layer according to an example.
20 illustrates an operation of a deconvolution layer according to an example.
21 illustrates an operation of an unpooling layer according to an example.
22 illustrates an operation of a lelu layer according to an example.
23 shows an automatic encoder according to an example.
24 illustrates a convolution encoder and a convolution decoder according to an example.
25 illustrates a configuration of a generator of a GAN according to an example.
26 illustrates a configuration of a discriminator of a GAN according to an example.
27 shows a structure of an RNN according to an example.
28 illustrates a structure of a convolutional LSTM neural network according to an example.
29 shows a structure of an ACN according to an example.
30 illustrates a structure of an adaptive separable convolution according to an example.
31 is a flow diagram of generation-encoding and generation-decoding according to one embodiment.
32 is a flowchart of an inter prediction method, according to an exemplary embodiment.
33 illustrates a structure of a hierarchical B frame according to an example.
34 shows generation of a reference frame using interpolation through a process of generation-coding and generation-decoding.
35 is a diagram illustrating a process of generating a reference frame using interpolation of a video and encoding and decoding a video using a reference frame according to an example.
36 illustrates a process of generating a reference frame using extrapolation of a video and encoding and decoding a video using a reference frame, according to an example.
37 illustrates a configuration of a reference picture list of a virtual reference frame when bidirectional prediction is used according to an example.
38 is a flowchart of a method of searching for a motion vector candidate in AMVP mode according to an example.
39 is a flowchart of a method of searching for motion vector candidates in an AMVP mode according to an example.
40 is a flowchart of another method of searching for motion vector candidates in an AMVP mode according to an example.
41 is a flowchart of a method of searching for a temporal motion vector candidate according to a reference frame index of a temporal motion vector candidate in a merge mode and a skip mode according to an example.
42 is a flowchart of a method for searching for a motion vector that does not consider a motion vector of a temporal neighboring block as a motion vector candidate when the temporal motion vector candidate refers to a virtual reference frame according to an embodiment.
43 is a flowchart of a method of predicting a target block and a method of generating a bitstream, according to an embodiment.
44 is a flowchart of a method of predicting a target block using a bitstream, according to an embodiment.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.As the invention allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description. However, this is not intended to limit the present invention to specific embodiments, it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention.
후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들면, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.DETAILED DESCRIPTION For the following detailed description of exemplary embodiments, reference is made to the accompanying drawings that show, by way of illustration, specific embodiments. These embodiments are described in sufficient detail to enable those skilled in the art to practice the embodiments. It should be understood that the various embodiments are different but need not be mutually exclusive. For example, certain shapes, structures, and characteristics described herein may be embodied in other embodiments without departing from the spirit and scope of the invention in connection with one embodiment. In addition, it is to be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the embodiments. The following detailed description, therefore, is not to be taken in a limiting sense, and the scope of the exemplary embodiments, if properly described, is defined only by the appended claims, along with the full scope of equivalents to which such claims are entitled.
도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.Like reference numerals in the drawings refer to the same or similar functions throughout the several aspects. Shape and size of the elements in the drawings may be exaggerated for clarity.
본 발명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들면, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.In the present invention, terms such as first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component. The term and / or includes a combination of a plurality of related items or any item of a plurality of related items.
어떤 구성요소(component)가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기의 2개의 구성요소들이 서로 간에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 상기의 2개의 구성요소들의 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 어떤 구성요소(component)가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기의 2개의 구성요소들의 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When a component is said to be "connected" or "connected" to another component, the above two components may be directly connected to or connected to each other, It is to be understood that other components may exist in the middle of the two components. When a component is referred to as being "directly connected" or "directly connected" to another component, it should be understood that no other component exists between the two components.
본 발명의 실시예에 나타나는 구성요소들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성요소들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성요소는 설명의 편의상 각각의 구성요소로 나열하여 포함한 것으로 각 구성요소 중 적어도 두 개의 구성요소가 합쳐져 하나의 구성요소로 이루어지거나, 하나의 구성요소가 복수 개의 구성요소로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성요소의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.The components shown in the embodiments of the present invention are independently shown to represent different characteristic functions, and do not mean that each component is composed of separate hardware or one software unit. In other words, each component is listed as each component for convenience of description, and at least two of each component is combined into one component, or one component is divided into a plurality of components to provide a function. Combined and separate embodiments of each of these components, which can be carried out, are also included within the scope of the present invention without departing from the spirit of the invention.
또한, 예시적 실시예들에서 특정 구성을 "포함"한다고 기술하는 내용은 상기의 특정 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 예시적 실시예들의 실시 또는 예시적 실시예들의 기술적 사상의 범위에 포함될 수 있음을 의미한다.In addition, the description "including" a specific configuration in the exemplary embodiments does not exclude a configuration other than the specific configuration described above, the additional configuration is the implementation of the exemplary embodiments or the technical spirit of the exemplary embodiments. It can be included in the range.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 본 발명에서 특정 구성을 "포함"한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성 또한 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.The terminology used herein is for the purpose of describing particular example embodiments only and is not intended to be limiting of the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present invention, the terms "comprise" or "having" and the like are intended to indicate that there exists a feature, number, step, operation, component, part, or combination thereof described on the specification, and one or more other features. It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, components, or a combination thereof. In other words, the description "include" a specific configuration in the present invention does not exclude a configuration other than the configuration, it means that additional configuration may be included in the scope of the technical spirit of the present invention or the present invention.
이하에서는, 기술분야에서 통상의 지식을 가진 자가 실시예들을 용이하게 실시할 수 있도록 하기 위하여, 첨부된 도면을 참조하여 실시 형태에 대하여 구체적으로 설명한다. 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 도면 상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고, 동일한 구성요소에 대한 중복된 설명은 생략한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily implement the embodiments. In describing the embodiments, when it is determined that the detailed description of the related well-known configuration or function may obscure the subject matter of the present specification, the detailed description thereof will be omitted. In addition, the same reference numerals are used for the same components in the drawings, and duplicate descriptions of the same components are omitted.
이하에서, 영상은 비디오(video)을 구성하는 하나의 픽처(picture)를 의미할 수 있으며, 비디오 자체를 나타낼 수도 있다. 예를 들면, "영상의 부호화 및/또는 복호화"는 "비디오의 부호화 및/또는 복호화"를 의미할 수 있으며, "비디오를 구성하는 영상들 중 하나의 영상의 부호화 및/또는 복호화"를 의미할 수도 있다.In the following description, an image may mean one picture constituting a video and may represent a video itself. For example, "encoding and / or decoding of an image" may mean "encoding and / or decoding of a video" and may mean "encoding and / or decoding of one of images constituting the video." It may be.
이하에서, 용어들 "비디오(video)" 및 "동영상(motion picture)"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.Hereinafter, the terms "video" and "motion picture" may be used interchangeably and may be used interchangeably.
이하에서, 대상 영상은 부호화의 대상인 부호화 대상 영상 및/또는 복호화의 대상인 복호화 대상 영상일 수 있다. 또한, 대상 영상은 부호화 장치로 입력된 입력 영상일 수 있고, 복호화 장치로 입력된 입력 영상일 수 있다.Hereinafter, the target image may be an encoding target image that is a target of encoding and / or a decoding target image that is a target of decoding. The target image may be an input image input to the encoding apparatus or may be an input image input to the decoding apparatus.
이하에서, 용어들 "영상", "픽처", "프레임(frame)" 및 "스크린(screen)"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.Hereinafter, the terms "image", "picture", "frame" and "screen" may be used in the same sense and may be used interchangeably.
이하에서, 대상 블록은 부호화의 대상인 부호화 대상 블록 및/또는 복호화의 대상인 복호화 대상 블록일 수 있다. 또한, 대상 블록은 현재 부호화 및/또는 복호화의 대상인 현재 블록일 수 있다. 예를 들면, 용어들 "대상 블록" 및 "현재 블록"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.Hereinafter, the target block may be an encoding target block that is a target of encoding and / or a decoding target block that is a target of decoding. In addition, the target block may be a current block that is a target of current encoding and / or decoding. For example, the terms "target block" and "current block" may be used interchangeably and may be used interchangeably.
이하에서, 용어들 "블록" 및 "유닛"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다. 또는 "블록"은 특정한 유닛을 나타낼 수 있다.In the following, the terms “block” and “unit” may be used interchangeably and may be used interchangeably. Or “block” may indicate a particular unit.
이하에서, 용어들 "영역(region)" 및 "세그먼트(segment)"는 서로 교체되어 사용될 수 있다.In the following, the terms “region” and “segment” may be used interchangeably.
이하에서, 특정한 신호는 특정한 블록을 나타내는 신호일 수 있다. 예를 들면, 원(original) 신호는 대상 블록을 나타내는 신호일 수 있다. 예측(prediction) 신호는 예측 블록을 나타내는 신호일 수 있다. 잔차(residual) 신호는 잔차 블록을 나타내는 신호일 수 있다. In the following, the specific signal may be a signal representing a specific block. For example, the original signal may be a signal representing a target block. The prediction signal may be a signal representing a prediction block. The residual signal may be a signal representing a residual block.
실시예들에서, 특정된 정보, 데이터, 플래그(flag) 및 요소(element), 속성(attribute) 등의 각각은 값을 가질 수 있다. 정보, 데이터, 플래그(flag) 및 요소(element), 속성(attribute) 등의 값 "0"은 논리 거짓(logical false) 또는 제1 기정의된(predefined) 값을 나타낼 수 있다. 말하자면, 값 "0", 거짓, 논리 거짓 및 제1 기정의된 값은 서로 대체되어 사용될 수 있다. 정보, 데이터, 플래그(flag) 및 요소(element), 속성(attribute) 등의 값 "1"은 논리 참(logical true) 또는 제2 기정의된(predefined) 값을 나타낼 수 있다. 말하자면, 값 "1", 참, 논리 참 및 제2 기정의된 값은 서로 대체되어 사용될 수 있다.In embodiments, each of the specified information, data, flags and elements, attributes, etc. may have a value. The value "0" of information, data, flags and elements, attributes, etc. may represent a logical false or first predefined value. In other words, the value "0", false, logical false and the first predefined value can be used interchangeably. The value "1" of information, data, flags and elements, attributes, etc. may represent logical true or second predefined values. In other words, the value "1", true, logical true and the second predefined value can be used interchangeably.
행, 열 또는 인덱스(index)를 나타내기 위해 i 또는 j 등의 변수가 사용될 때, i의 값은 0 이상의 정수일 수 있으며, 1 이상의 정수일 수도 있다. 말하자면, 실시예들에서 행, 열 및 인덱스 등은 0에서부터 카운트될 수 있으며, 1에서부터 카운트될 수 있다.When a variable such as i or j is used to indicate a row, column, or index, the value of i may be an integer of 0 or more and may be an integer of 1 or more. In other words, in embodiments, rows, columns, indexes, etc. may be counted from zero and counted from one.
아래에서는, 실시예들에서 사용되는 용어가 설명된다.In the following, terms used in the embodiments are described.
부호화기(encoder): 부호화(encoding)를 수행하는 장치를 의미한다.Encoder: Refers to a device that performs encoding.
복호화기(decoder): 복호화(decoding)를 수행하는 장치를 의미한다.Decoder: Refers to an apparatus for performing decoding.
유닛(unit): 유닛은 영상의 부호화 및 복호화의 단위를 나타낼 수 있다. 용어들 "유닛" 및 "블록(block)"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.Unit: A unit may represent a unit of encoding and decoding of an image. The terms "unit" and "block" may be used interchangeably and may be used interchangeably.
- 유닛은 샘플의 MxN 배열일 수 있다. M 및 N은 각각 양의 정수일 수 있다. 유닛은 흔히 2차원의 샘플들의 배열을 의미할 수 있다.The unit may be an M × N array of samples. M and N may each be a positive integer. A unit can often mean an array of two-dimensional samples.
- 영상의 부호화 및 복호화에 있어서, 유닛은 하나의 영상의 분할에 의해 생성된 영역일 수 있다. 말하자면, 유닛은 하나의 영상 내의 특정된 영역일 수 있다. 하나의 영상은 복수의 유닛들로 분할될 수 있다. 또는, 유닛은 하나의 영상을 세분화된 부분들로 분할하고, 분할된 부분에 대한 부호화 또는 복호화가 수행될 때, 상기의 분할된 부분을 의미할 수 있다.In encoding and decoding of an image, a unit may be an area generated by division of one image. In other words, the unit may be a specified area within one image. One image may be divided into a plurality of units. Alternatively, the unit may mean the divided portion when an image is divided into subdivided portions, and encoding or decoding is performed on the divided portion.
- 영상의 부호화 및 복호화에 있어서, 유닛의 종류에 따라서 유닛에 대한 기정의된 처리가 수행될 수 있다.In encoding and decoding of an image, predefined processing for a unit may be performed according to the type of the unit.
- 기능에 따라서, 유닛의 타입은 매크로 유닛(Macro Unit), 코딩 유닛(Coding Unit; CU), 예측 유닛(Prediction Unit; PU), 잔차 유닛(Residual Unit) 및 변환 유닛(Transform Unit; TU) 등으로 분류될 수 있다. 또는, 기능에 따라서, 유닛은 블록, 매크로블록(Macroblock), 코딩 트리 유닛(Coding Tree Unit), 코딩 트리 블록(Coding Tree Block), 코딩 유닛(Coding Unit), 부호화 블록(Coding Block), 예측 유닛(Prediction Unit), 예측 블록(Prediction Block), 잔차 유닛(Residual Unit), 잔차 블록(Residual Block), 변환 유닛(Transform Unit) 및 변환 블록(Transform Block) 등을 의미할 수 있다.Depending on the function, the type of unit may be a macro unit, a coding unit (CU), a prediction unit (PU), a residual unit, a transform unit (TU), or the like. Can be classified as. Alternatively, depending on the function, the unit may be a block, a macroblock, a coding tree unit, a coding tree block, a coding unit, a coding block, a prediction unit. It may mean a (Prediction Unit), a prediction block, a residual unit, a residual block, a transform unit, a transform block, and the like.
- 유닛은, 블록과 구분하여 지칭하기 위해, 루마(luma) 성분 블록 및 이에 대응하는 크로마(chroma) 성분 블록, 그리고 각 블록에 대한 구문 요소(syntax element)를 포함하는 정보를 의미할 수 있다.A unit may refer to information including a luma component block, a corresponding chroma component block, and a syntax element for each block, to refer to the block separately.
- 유닛의 크기 및 형태는 다양할 수 있다. 또한, 유닛은 다양한 크기 및 다양한 형태를 가질 수 있다. 특히 유닛의 형태는 정사각형뿐만 아니라 직사각형, 사다리꼴, 삼각형 및 오각형 등 2차원으로 표현될 수 있는 기하학적 도형을 포함할 수 있다.The size and shape of the unit may vary. In addition, the unit may have various sizes and various shapes. In particular, the shape of the unit may include not only square but also geometric figures that can be expressed in two dimensions such as rectangles, trapezoids, triangles, and pentagons.
- 또한, 유닛 정보는 유닛의 타입, 유닛의 크기, 유닛의 깊이, 유닛의 부호화 순서 및 유닛의 복호화 순서 등 중 적어도 하나 이상을 포함할 수 있다. 예를 들면, 유닛의 타입은 CU, PU, 잔차 유닛 및 TU 등 중 하나를 가리킬 수 있다.In addition, the unit information may include at least one of a type of a unit, a size of a unit, a depth of a unit, a coding order of a unit, a decoding order of a unit, and the like. For example, the type of unit may refer to one of a CU, a PU, a residual unit, a TU, and the like.
- 하나의 유닛은 유닛에 비해 더 작은 크기를 갖는 하위 유닛으로 더 분할될 수 있다.One unit can be further divided into sub-units having a smaller size than the unit.
깊이(depth): 깊이는 유닛의 분할된 정도를 의미할 수 있다. 또한, 유닛 깊이는 유닛을 트리 구조로 표현했을 때 유닛이 존재하는 레벨을 나타낼 수 있다.Depth: Depth may refer to the degree of division of a unit. In addition, the unit depth may indicate the level at which the unit exists when the unit is represented in a tree structure.
- 유닛 분할 정보는 유닛의 깊이에 관한 깊이를 포함할 수 있다. 깊이는 유닛이 분할되는 회수 및/또는 정도를 나타낼 수 있다.The unit division information may comprise a depth regarding the depth of the unit. Depth may indicate the number and / or degree of unit division.
- 트리 구조에서, 루트 노드(root node)의 깊이가 가장 얕고, 리프 노드(leaf node)의 깊이가 가장 깊다고 볼 수 있다.In the tree structure, the root node has the shallowest depth and the leaf node has the deepest depth.
- 하나의 유닛은 트리 구조(tree structure)에 기반하여 깊이 정보(depth)를 가지면서 계층적으로(hierarchically) 복수의 하위 유닛들로 분할될 수 있다. 말하자면, 유닛 및 상기의 유닛의 분할에 의해 생성된 하위 유닛은 노드 및 상기의 노드의 자식 노드에 각각 대응할 수 있다. 각각의 분할된 하위 유닛은 깊이를 가질 수 있다. 깊이는 유닛이 분할된 회수 및/또는 정도를 나타내므로, 하위 유닛의 분할 정보는 하위 유닛의 크기에 관한 정보를 포함할 수도 있다.One unit may be divided into a plurality of sub-units hierarchically with depth information based on a tree structure. In other words, the unit and the lower unit generated by the division of the unit may correspond to the node and the child node of the node, respectively. Each divided subunit may have a depth. Since the depth indicates the number and / or degree of division of the unit, the division information of the lower unit may include information about the size of the lower unit.
- 트리 구조에서, 가장 상위 노드는 분할되지 않은 최초의 유닛에 대응할 수 있다. 가장 상위 노드는 루트 노드로 칭해질 수 있다. 또한, 가장 상위 노드는 최소의 깊이 값을 가질 수 있다. 이 때, 가장 상위 노드는 레벨 0의 깊이를 가질 수 있다. In the tree structure, the highest node may correspond to the first unit that is not split. The highest node may be called the root node. In addition, the highest node may have a minimum depth value. At this time, the highest node may have a depth of level 0.
- 레벨 1의 깊이를 갖는 노드는 최초의 유닛이 한 번 분할됨에 따라 생성된 유닛을 나타낼 수 있다. 레벨 2의 깊이를 갖는 노드는 최초의 유닛이 두 번 분할됨에 따라 생성된 유닛을 나타낼 수 있다.A node with a depth of level 1 may represent a unit created as the first unit is divided once. A node with a depth of level 2 may represent a unit created as the first unit is split twice.
- 레벨 n의 깊이를 갖는 노드는 최초의 유닛이 n번 분할됨에 따라 생성된 유닛을 나타낼 수 있다.A node with a depth of level n may represent a unit generated as the first unit is divided n times.
- 리프 노드는 가장 하위의 노드일 수 있으며, 더 분할될 수 없는 노드일 수 있다. 리프 노드의 깊이는 최대 레벨일 수 있다. 예를 들면, 최대 레벨의 기정의된 값은 3일 수 있다.The leaf node may be the lowest node or may be a node that cannot be further divided. The depth of the leaf node may be at the maximum level. For example, the predefined value of the maximum level may be three.
- QT 깊이는 쿼드 분할에 대한 깊이를 나타낼 수 있다. BT 깊이는 이진 분할에 대한 깊이를 나타낼 수 있다. TT 깊이는 삼진 분할에 대한 깊이를 나타낼 수 있다.QT depth may indicate depth for quad division. The BT depth may represent the depth for binary division. The TT depth may represent the depth for the ternary split.
샘플(sample): 샘플은 블록을 구성하는 기반(base) 단위일 수 있다. 샘플은 비트 깊이(bit depth; Bd)에 따라서 0부터 2Bd-1까지의 값들로서 표현될 수 있다.Sample: A sample may be a base unit constituting a block. The sample may be represented as values from 0 to 2 Bd- 1 depending on the bit depth Bd.
- 샘플은 픽셀 또는 픽셀 값일 수 있다.The sample may be a pixel or pixel value.
- 이하에서, 용어들 "픽셀", "화소" 및 "샘플"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.In the following, the terms "pixel", "pixel" and "sample" may be used in the same sense and may be used interchangeably.
코딩 트리 유닛(Coding Tree Unit; CTU): CTU는 하나의 루마 성분(Y) 코딩 트리 블록과, 상기의 루마 성분 코딩 트리 블록에 관련된 두 크로마 성분(Cb, Cr) 코딩 트리 블록들로 구성될 수 있다. 또한, CTU는 상기의 블록들과 상기의 블록들의 각 블록에 대한 구문 요소를 포함한 것을 의미할 수도 있다. Coding Tree Unit (CTU): A CTU may consist of one luma component (Y) coding tree block and two chroma component (Cb, Cr) coding tree blocks associated with the luma component coding tree block. have. In addition, the CTU may mean that the block and the syntax element for each block of the blocks.
- 각 코딩 트리 유닛은 코딩 유닛, 예측 유닛 및 변환 유닛 등의 하위 유닛을 구성하기 위하여 쿼드 트리(Quad Tree: QT), 이진 트리(Binary Tree; BT) 및 삼진 트리(Ternary Tree; TT) 등과 같은 하나 이상의 분할 방식을 이용하여 분할될 수 있다. 또한, 각 코딩 트리 유닛은 하나 이상의 분할 방식들을 사용하는 복수 트리(MultiType Tree; MTT)을 이용하여 분할될 수 있다.Each coding tree unit is a quad tree (QT), a binary tree (BT), a ternary tree (TT), etc. to form sub-units such as a coding unit, a prediction unit and a transform unit. It may be partitioned using one or more partitioning schemes. In addition, each coding tree unit may be partitioned using a MultiType Tree (MTT) using one or more partitioning schemes.
- CTU는 입력 영상의 분할에서와 같이, 영상의 복호화 및 부호화 과정에서의 처리 단위인 픽셀 블록을 지칭하기 위한 용어로서 사용될 수 있다.-CTU can be used as a term for referring to a pixel block which is a processing unit in a decoding and encoding process of an image, as in the division of an input image.
코딩 트리 블록(Coding Tree Block; CTB): 코딩 트리 블록은 Y 코딩 트리 블록, Cb 코딩 트리 블록, Cr 코딩 트리 블록 중 어느 하나를 지칭하기 위한 용어로 사용될 수 있다.Coding Tree Block (CTB): A coding tree block may be used as a term for referring to any one of a Y coding tree block, a Cb coding tree block, and a Cr coding tree block.
이웃 블록(neighbor block): 이웃 블록은 대상 블록에 인접한 블록을 의미할 수 있다. 이웃 블록은 복원된 이웃 블록을 의미할 수도 있다.Neighbor block: The neighbor block may mean a block adjacent to the target block. The neighboring block may mean a restored neighboring block.
- 이하에서, 용어들 "이웃 블록" 및 "인접 블록(adjacent block)"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.In the following, the terms “neighbor block” and “adjacent block” may be used in the same sense and may be used interchangeably.
공간적 이웃 블록(spatial neighbor block): 공간적 이웃 블록은 대상 블록에 공간적으로 인접한 블록일 수 있다. 이웃 블록은 공간적 이웃 블록을 포함할 수 있다.Spatial neighbor block: The spatial neighbor block may be a block spatially adjacent to the target block. The neighboring block may include spatial neighboring blocks.
- 대상 블록 및 공간적 이웃 블록은 대상 픽처 내에 포함될 수 있다.The target block and the spatial neighboring blocks can be included in the target picture.
- 공간적 이웃 블록은 대상 블록에 경계가 맞닿은 블록 또는 대상 블록으로부터 소정의 거리 내에 위치한 블록을 의미할 수 있다.The spatial neighboring block may mean a block in which a boundary of the target block abuts or a block located within a predetermined distance from the target block.
- 공간적 이웃 블록은 대상 블록의 꼭지점에 인접한 블록을 의미할 수 있다. 여기에서, 대상 블록의 꼭지점에 인접한 블록이란, 대상 블록에 가로로 인접한 이웃 블록에 세로로 인접한 블록 또는 대상 블록에 세로로 인접한 이웃 블록에 가로로 인접한 블록일 수 있다.The spatial neighboring block may mean a block adjacent to a vertex of the target block. The block adjacent to the vertex of the target block may be a block vertically adjacent to a neighboring block horizontally adjacent to the target block or a block horizontally adjacent to a neighboring block vertically adjacent to the target block.
시간적 이웃 블록(temporal neighbor block): 시간적 이웃 블록은 대상 블록에 시간적으로 인접한 블록일 수 있다. 이웃 블록은 시간적 이웃 블록을 포함할 수 있다.Temporal neighbor block: The temporal neighbor block may be a block temporally adjacent to the target block. The neighboring block may include a temporal neighboring block.
- 시간적 이웃 블록은 콜 블록(co-located block; col block)을 포함할 수 있다.The temporal neighboring block may comprise a co-located block (col block).
- 콜 블록은 이미 복원된 콜 픽처(co-located picture; col picture) 내의 블록일 수 있다. 콜 블록의 콜 픽처 내에서의 위치는 대상 블록의 대상 픽처 내의 위치에 대응할 수 있다. 또는, 콜 블록의 콜 픽처 내에서의 위치는 대상 블록의 대상 픽처 내의 위치와 동일할 수 있다. 콜 픽처는 참조 픽처 리스트에 포함된 픽처일 수 있다.The call block may be a block in a co-located picture (col picture). The position in the call picture of the call block may correspond to the position in the target picture of the target block. Alternatively, the position in the call picture of the call block may be the same as the position in the target picture of the target block. The call picture may be a picture included in the reference picture list.
- 시간적 이웃 블록은 대상 블록의 공간적 이웃 블록에 시간적으로 인접한 블록일 수 있다.The temporal neighboring block may be a block temporally adjacent to the spatial neighboring block of the target block.
예측 유닛(prediction unit): 인터 예측, 인트라 예측, 인터 보상(compensation), 인트라 보상 및 움직임 보상 등의 예측에 대한 기반 단위를 의미할 수 있다.Prediction unit: This may mean a base unit for prediction such as inter prediction, intra prediction, inter compensation, intra compensation, and motion compensation.
- 하나의 예측 유닛은 더 작은 크기를 갖는 복수의 파티션(partition)들 또는 하위 예측 유닛들로 분할될 수도 있다. 복수의 파티션들 또한 예측 또는 보상의 수행에 있어서의 기반 단위일 수 있다. 예측 유닛의 분할에 의해 생성된 파티션 또한 예측 유닛일 수 있다.One prediction unit may be divided into a plurality of partitions or lower prediction units having a smaller size. The plurality of partitions may also be the base unit in performing prediction or compensation. The partition generated by the partitioning of the prediction unit may also be the prediction unit.
예측 유닛 파티션(prediction unit partition): 예측 유닛 파티션은 예측 유닛이 분할된 형태를 의미할 수 있다.Prediction unit partition: A prediction unit partition may mean a form in which a prediction unit is divided.
재구축된 이웃 유닛(reconstructed neighboring unit): 재구축된 이웃 유닛은 대상 유닛의 이웃에 이미 복호화되어 재구축된 유닛일 수 있다.Reconstructed neighboring unit: The reconstructed neighboring unit may be a unit that is already decoded and reconstructed in the neighbor of the target unit.
- 재구축된 이웃 유닛은 대상 유닛에 대한 공간적(spatial) 인접 유닛 또는 시간적(temporal) 인접 유닛일 수 있다.The reconstructed neighboring unit may be a spatial neighboring unit or a temporal neighboring unit to the target unit.
- 재구축된 공간적 이웃 유닛은 대상 픽처 내의 유닛이면서 부호화 및/또는 복호화를 통해 이미 재구축된 유닛일 수 있다.The reconstructed spatial neighboring unit may be a unit in the target picture and already reconstructed through encoding and / or decoding.
- 재구축된 시간적 이웃 유닛은 참조 영상 내의 유닛이면서 부호화 및/또는 복호화를 통해 이미 재구축된 유닛일 수 있다. 재구축된 시간적 이웃 유닛의 참조 영상 내에서의 위치는 대상 유닛의 대상 픽처 내에서의 위치와 같거나, 대상 유닛의 대상 픽처 내에서의 위치에 대응할 수 있다.The reconstructed temporal neighboring unit may be a unit in the reference picture and a unit already reconstructed through encoding and / or decoding. The position in the reference image of the reconstructed temporal neighboring unit may be the same as the position in the target picture of the target unit or may correspond to the position in the target picture of the target unit.
파라미터 세트(parameter set): 파라미터 세트는 비트스트림 내의 구조(structure) 중 헤더(header) 정보에 해당할 수 있다. 예를 들면, 파라미터 세트는 비디오 파라미터 세트(Video Parameter Set; VPS), 시퀀스 파라미터 세트(Sequence Parameter Set: SPS), 픽처 파라미터 세트(Picture Parameter Set; PPS) 및 적응 파라미터 세트(Adaptation Parameter Set; APS) 등을 포함할 수 있다.Parameter set: The parameter set may correspond to header information among structures in the bitstream. For example, the parameter set may be a video parameter set (VPS), a sequence parameter set (SPS), a picture parameter set (PPS) and an adaptation parameter set (APS). And the like.
또한, 파라미터 세트는 슬라이스(slice) 헤더 정보 및 타일 헤더 정보를 포함할 수 있다.In addition, the parameter set may include slice header information and tile header information.
율-왜곡 최적화(rate-distortion optimization): 부호화 장치는 코딩 유닛의 크기, 예측 모드, 예측 유닛의 크기, 움직임 정보 및, 변환 유닛의 크기 등의 조합을 이용해서 높은 부호화 효율을 제공하기 위해 율-왜곡 최적화를 사용할 수 있다.Rate-distortion optimization: The encoding apparatus uses a combination of the size of the coding unit, the prediction mode, the size of the prediction unit, the motion information, and the size of the transform unit to provide high coding efficiency. Distortion optimization can be used.
- 율-왜곡 최적화 방식은 상기의 조합들 중에서 최적의 조합을 선택하기 위해 각 조합의 율-왜곡 비용(rate-distortion cost)을 계산할 수 있다. 율-왜곡 비용은 아래의 수식 1을 이용하여 계산될 수 있다. 일반적으로 상기 율-왜곡 비용이 최소가 되는 조합이 율-왜곡 최적화 방식에 있어서의 최적의 조합으로 선택될 수 있다.The rate-distortion optimization method can calculate the rate-distortion cost of each combination in order to select the optimal combination among the above combinations. Rate-distortion cost can be calculated using Equation 1 below. In general, a combination in which the rate-distortion cost is minimized may be selected as an optimal combination in the rate-distortion optimization scheme.
[수식 1][Equation 1]
- D는 왜곡을 나타낼 수 있다. D는 변환 유닛 내에서 원래의 변환 계수들 및 재구축된 변환 계수들 간의 차이 값들의 제곱들의 평균(mean square error)일 수 있다.D may represent distortion. D may be the mean square error of the squares of difference values between the original transform coefficients and the reconstructed transform coefficients in the transform unit.
- R은 율을 나타낼 수 있다. R은 관련된 문맥 정보를 이용한 비트 율을 나타낼 수 있다.-R can represent the rate R may indicate a bit rate using the associated context information.
- λ는 라그랑지안 승수(Lagrangian multiplier)를 나타낼 수 있다. R은 예측 모드, 움직임 정보 및 코드된 블록 플래그(coded block flag) 등과 같은 코딩 파라미터 정보뿐만 아니라, 변환 계수의 부호화에 의해 발생하는 비트도 포함할 수 있다.λ may represent the Lagrangian multiplier. R may include not only coding parameter information such as prediction mode, motion information, coded block flag, etc., but also bits generated by encoding of transform coefficients.
- 부호화 장치는 정확한 D 및 R을 계산하기 위해 인터 예측, 인트라 예측, 변환, 양자화, 엔트로피 부호화, 역양자화 및/또는 역변환 등의 과정들을 수행할 수 있다. 이러한 과정들은 부호화 장치에서의 복잡도를 크게 증가시킬 수 있다.The encoding apparatus may perform processes such as inter prediction, intra prediction, transformation, quantization, entropy encoding, inverse quantization, and / or inverse transformation to calculate accurate D and R. These processes can greatly increase the complexity in the encoding apparatus.
비트스트림(bitstream): 비트스트림은 부호화된 영상 정보를 포함하는 비트의 열을 의미할 수 있다.Bitstream: A bitstream may mean a string of bits including encoded image information.
파라미터 세트(parameter set): 파라미터 세트는 비트스트림 내의 구조(structure) 중 헤더(header) 정보에 해당할 수 있다.Parameter set: The parameter set may correspond to header information among structures in the bitstream.
- 파라미터 세트는 비디오 파라미터 세트(video parameter set), 시퀀스 파라미터 세트(sequence parameter set), 픽처 파라미터 세트(picture parameter set) 및 적응 파라미터 세트(adaptation parameter set) 중 적어도 하나를 포함할 수 있다. 또한, 파라미터 세트는 슬라이스(slice) 헤더의 정보 및 타일(tile) 헤더의 정보를 포함할 수도 있다.The parameter set may comprise at least one of a video parameter set, a sequence parameter set, a picture parameter set and an adaptation parameter set. In addition, the parameter set may include information of a slice header and information of a tile header.
파싱(parsing): 파싱은 비트스트림을 엔트로피 복호화하여 구문 요소(syntax element)의 값을 결정하는 것을 의미할 수 있다. 또는, 파싱은 엔트로피 복호화 자체를 의미할 수 있다.Parsing: Parsing may mean entropy decoding a bitstream to determine a value of a syntax element. Alternatively, parsing may refer to entropy decoding itself.
심볼(symbol): 부호화 대상 유닛 및/또는 복호화 대상 유닛의 구문 요소, 코딩 파라미터(coding parameter) 및 변환 계수(transform coefficient) 등 중 적어도 하나를 의미할 수 있다. 또한, 심볼은 엔트로피 부호화의 대상 또는 엔트로피 복호화의 결과를 의미할 수 있다.A symbol: may mean at least one of syntax elements, coding parameters, transform coefficients, etc. of the encoding target unit and / or decoding target unit. In addition, the symbol may mean an object of entropy encoding or a result of entropy decoding.
참조 픽처(reference picture): 참조 픽처는 인터 예측 또는 움직임 보상을 위하여 유닛이 참조하는 영상을 의미할 수 있다. 또는, 참조 픽처는 인터 예측 또는 움직임 보상을 위해 대상 유닛이 참조하는 참조 유닛을 포함하는 영상일 수 있다.Reference picture: The reference picture may mean an image referenced by a unit for inter prediction or motion compensation. Alternatively, the reference picture may be an image including a reference unit referenced by the target unit for inter prediction or motion compensation.
이하, 용어 "참조 픽처" 및 "참조 영상"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.Hereinafter, the terms "reference picture" and "reference picture" may be used in the same sense and may be used interchangeably.
참조 픽처 리스트(reference picture list): 참조 픽처 리스트는 인터 예측 또는 움직임 보상에 사용되는 하나 이상의 참조 영상들을 포함하는 리스트일 수 있다.Reference picture list: The reference picture list may be a list including one or more reference pictures used for inter prediction or motion compensation.
- 참조 픽처 리스트의 종류는 리스트 조합(List Combined; LC), 리스트 0(List 0; L0), 리스트 1(List 1; L1), 리스트 2(List 2; L2) 및 리스트 3(List 3; L3) 등이 있을 수 있다.The types of reference picture lists are List Combined (LC), List 0 (List 0; L0), List 1 (List 1; L1), List 2 (List 2; L2), and List 3 (List 3; L3). ) And the like.
- 인터 예측에는 하나 이상의 참조 픽처 리스트들이 사용될 수 있다.One or more reference picture lists may be used for inter prediction.
인터 예측 지시자(inter prediction indicator): 인터 예측 지시자는 대상 유닛에 대한 인터 예측의 방향을 가리킬 수 있다. 인터 예측은 단방향 예측 및 양방향 예측 등 중 하나일 수 있다. 또는, 인터 예측 지시자는 대상 유닛의 예측 유닛을 생성할 때 사용되는 참조 영상의 개수를 나타낼 수 있다. 또는, 인터 예측 지시자는 대상 유닛에 대한 인터 예측 혹은 움직임 보상을 위해 사용되는 예측 블록의 개수를 의미할 수 있다.Inter prediction indicator: The inter prediction indicator may indicate the direction of inter prediction for the target unit. The inter prediction may be one of unidirectional prediction and bidirectional prediction. Alternatively, the inter prediction indicator may indicate the number of reference pictures used when generating the prediction unit of the target unit. Alternatively, the inter prediction indicator may mean the number of prediction blocks used for inter prediction or motion compensation for the target unit.
참조 픽처 인덱스(reference picture index): 참조 픽처 인덱스는 참조 픽처 리스트에서 특정 참조 영상을 지시하는 인덱스일 수 있다.Reference picture index: The reference picture index may be an index indicating a specific reference picture in the reference picture list.
픽처 오더 카운트(picture order count; POC): 픽처의 POC는 픽처의 디스플레이 순서를 나타낼 수 있다.Picture order count (POC): The POC of a picture may indicate the display order of the picture.
움직임 벡터(Motion Vector; MV): 움직임 벡터는 인터 예측 또는 움직임 보상에서 사용되는 2차원의 벡터일 수 있다. 움직임 벡터는 대상 영상 및 참조 영상 간의 오프셋을 의미할 수 있다.Motion Vector (MV): The motion vector may be a two-dimensional vector used in inter prediction or motion compensation. The motion vector may mean an offset between the target image and the reference image.
- 예를 들면, MV는 (mvx, mvy)와 같은 형태로 표현될 수 있다. mvx는 수평(horizontal) 성분을 나타낼 수 있고, mvy 는 수직(vertical) 성분을 나타낼 수 있다.For example, MV can be expressed in the form (mv x , mv y ). mv x may represent a horizontal component and mv y may represent a vertical component.
탐색 영역(search range): 탐색 영역은 인터 예측 중 MV에 대한 탐색이 이루어지는 2차원의 영역일 수 있다. 예를 들면, 탐색 영역의 크기는 MxN일 수 있다. M 및 N은 각각 양의 정수일 수 있다.Search range: The search range may be a two-dimensional area in which a search for MV is performed during inter prediction. For example, the size of the search region may be M × N. M and N may each be a positive integer.
움직임 벡터 후보(motion vector candidate): 움직임 벡터 후보는 움직임 벡터를 예측할 때 예측 후보인 블록 혹은 예측 후보인 블록의 움직임 벡터를 의미할 수 있다. Motion vector candidate: A motion vector candidate may mean a motion vector of a block that is a prediction candidate or a block that is a prediction candidate when predicting a motion vector.
- 움직임 벡터 후보는 움직임 벡터 후보 리스트에 포함될 수 있다.The motion vector candidate may be included in the motion vector candidate list.
움직임 벡터 후보 리스트(motion vector candidate list): 움직임 벡터 후보 리스트는 하나 이상의 움직임 벡터 후보들을 이용하여 구성된 리스트를 의미할 수 있다.Motion vector candidate list: A motion vector candidate list may mean a list constructed using one or more motion vector candidates.
움직임 벡터 후보 인덱스(motion vector candidate index): 움직임 벡터 후보 인덱스는 움직임 벡터 후보 리스트 내의 움직임 벡터 후보를 가리키는 지시자를 의미할 수 있다. 또는, 움직임 벡터 후보 인덱스는 움직임 벡터 예측기(motion vector predictor)의 인덱스(index)일 수 있다.Motion vector candidate index: The motion vector candidate index may mean an indicator indicating a motion vector candidate in the motion vector candidate list. Alternatively, the motion vector candidate index may be an index of a motion vector predictor.
움직임 정보(motion information): 움직임 정보는 움직임 벡터, 참조 픽처 인덱스 및 인터 예측 지시자(inter prediction indicator) 뿐만 아니라 참조 픽처 리스트 정보, 참조 영상, 움직임 벡터 후보, 움직임 벡터 후보 인덱스, 머지 후보 및 머지 인덱스 등 중 적어도 하나를 포함하는 정보를 의미할 수 있다.Motion information: The motion information includes not only a motion vector, a reference picture index and an inter prediction indicator, but also reference picture list information, a reference picture, a motion vector candidate, a motion vector candidate index, a merge candidate, a merge index, and the like. It may mean information including at least one.
머지 후보 리스트(merge candidate list): 머지 후보 리스트는 머지 후보를 이용하여 구성된 리스트를 의미할 수 있다.Merge candidate list: The merge candidate list may mean a list constructed using merge candidates.
머지 후보(merge candidate): 머지 후보는 공간적 머지 후보, 시간적 머지 후보, 조합된 머지 후보, 조합 양예측(combined bi-prediction) 머지 후보 및 제로 머지 후보 등을 의미할 수 있다. 머지 후보는 예측 타입 정보, 각 리스트에 대한 참조 픽처 인덱스 및 움직임 벡터 등의 움직임 정보를 포함할 수 있다.Merge candidate: The merge candidate may mean a spatial merge candidate, a temporal merge candidate, a combined merge candidate, a combined bi-prediction merge candidate, a zero merge candidate, and the like. The merge candidate may include motion type information such as prediction type information, a reference picture index for each list, and a motion vector.
머지 인덱스(merge index): 머지 인덱스는 머지 후보 리스트 내의 머지 후보를 가리키는 지시자일 수 있다.Merge index: The merge index may be an indicator indicating a merge candidate in the merge candidate list.
- 머지 인덱스는 대상 유닛에 공간적으로 인접한 재구축된 유닛 및 대상 유닛에 시간적으로 인접한 재구축된 유닛 중 머지 후보를 유도한 재구축된 유닛을 지시할 수 있다.The merge index may indicate a reconstructed unit that induced a merge candidate among spatially adjacent reconstructed units and reconstructed units temporally adjacent to the target unit.
- 머지 인덱스는 머지 후보의 움직임 정보들 중 적어도 하나를 지시할 수 있다.The merge index may indicate at least one of motion information of the merge candidate.
변환 유닛(transform unit): 변환 유닛은 변환, 역변환, 양자화, 역양자화, 변환 계수 부호화 및 변환 계수 복호화 등과 같은 잔차 신호(residual signal) 부호화 및/또는 잔차 신호 복호화에 있어서의 기본 유닛일 수 있다. 하나의 변환 유닛은 더 작은 크기의 복수의 변환 유닛들로 분할될 수 있다.Transform unit: A transform unit may be a basic unit in residual signal encoding and / or residual signal decoding such as transform, inverse transform, quantization, inverse quantization, transform coefficient encoding, transform coefficient decoding, and the like. One transform unit can be divided into a plurality of transform units of smaller size.
스케일링(scaling): 스케일링은 변환 계수 레벨에 인수를 곱하는 과정을 의미할 수 있다. Scaling: Scaling may refer to a process of multiplying a transform coefficient level by a factor.
- 변환 계수 레벨에 대한 스케일링의 결과로서, 변환 계수가 생성될 수 있다. 스케일링은 역양자화(dequantization)로 칭해질 수도 있다.As a result of scaling for the transform coefficient level, a transform coefficient can be generated. Scaling may be referred to as dequantization.
양자화 파라미터(Quantization Parameter; QP): 양자화 파라미터는 양자화에서 변환 계수에 대해 변환 계수 레벨(transform coefficient level)을 생성할 때 사용되는 값을 의미할 수 있다. 또는, 양자화 파라미터는 역양자화에서 변환 계수 레벨을 스케일링(scaling)함으로써 변환 계수를 생성할 때 사용되는 값을 의미할 수도 있다. 또는, 양자화 파라미터는 양자화 스탭 크기(step size)에 매핑된 값일 수 있다.Quantization Parameter (QP): The quantization parameter may mean a value used when generating a transform coefficient level for a transform coefficient in quantization. Alternatively, the quantization parameter may mean a value used when generating transform coefficients by scaling transform coefficient levels in inverse quantization. Alternatively, the quantization parameter may be a value mapped to a quantization step size.
델타 양자화 파라미터(delta quantization parameter): 델타 양자화 파라미터는 예측된 양자화 파라미터 및 대상 유닛의 양자화 파라미터의 차분(difference) 값을 의미한다.Delta quantization parameter: The delta quantization parameter refers to a difference value between the predicted quantization parameter and the quantization parameter of the target unit.
스캔(scan): 스캔은 유닛, 블록 또는 행렬 내의 계수들의 순서를 정렬하는 방법을 의미할 수 있다. 예를 들면, 2차원 배열을 1차원 배열 형태로 정렬하는 것을 스캔이라고 칭할 수 있다. 또는, 1차원 배열을 2차원 배열 형태로 정렬하는 것도 스캔 또는 역 스캔(inverse scan)이라고 칭할 수 있다.Scan: A scan may refer to a method of ordering coefficients within a unit, block, or matrix. For example, sorting a two-dimensional array into a one-dimensional array may be referred to as a scan. Alternatively, arranging the one-dimensional array in the form of a two-dimensional array may also be referred to as a scan or inverse scan.
변환 계수(transform coefficient): 변환 계수는 부호화 장치에서 변환을 수행함에 따라 생성된 계수 값일 수 있다. 또는, 변환 계수는 복호화 장치에서 엔트로피 복호화 및 역양자화 중 적어도 하나를 수행함에 따라 생성된 계수 값일 수 있다. Transform coefficient: The transform coefficient may be a coefficient value generated by performing a transform in the encoding apparatus. Alternatively, the transform coefficient may be a coefficient value generated by performing at least one of entropy decoding and inverse quantization in the decoding apparatus.
- 변환 계수 또는 잔차 신호에 양자화를 적용함으로써 생성된 양자화된 레벨 또는 양자화된 변환 계수 레벨 또한 변환 계수의 의미에 포함될 수 있다.The quantized level or quantized transform coefficient level generated by applying quantization to the transform coefficient or the residual signal may also be included in the meaning of the transform coefficient.
양자화된 레벨(quantized level): 양자화된 레벨은 부호화 장치에서 변환 계수 또는 잔차 신호에 양자화를 수행함으로써 생성된 값을 의미할 수 있다. 또는, 양자화된 레벨은 복호화 장치에서 역양자화를 수행함에 있어서 역양자화의 대상이 되는 값을 의미할 수도 있다.Quantized level: A quantized level may mean a value generated by performing quantization on a transform coefficient or a residual signal in an encoding apparatus. Alternatively, the quantized level may mean a value that is an object of inverse quantization in performing inverse quantization in the decoding apparatus.
- 변환 및 양자화의 결과인 양자화된 변환 계수 레벨도 양자화된 레벨의 의미에 포함될 수 있다.The quantized transform coefficient level resulting from the transform and quantization may also be included in the meaning of the quantized level.
넌제로 변환 계수(non-zero transform coefficient): 넌제로 변환 계수는 0이 아닌 값을 갖는 변환 계수 또는 0이 아닌 값을 갖는 변환 계수 레벨을 의미할 수 있다. 또는, 넌제로 변환 계수는 값의 크기가 0이 아닌 변환 계수 또는 값의 크기가 0이 아닌 변환 계수 레벨을 의미할 수 있다.Non-zero transform coefficient: A non-zero transform coefficient may mean a transform coefficient having a nonzero value or a transform coefficient level having a nonzero value. Alternatively, the non-zero transform coefficient may mean a transform coefficient whose value is not zero or a transform coefficient level whose value is not zero.
양자화 행렬(quantization matrix): 양자화 행렬은 영상의 주관적 화질 혹은 객관적 화질을 향상시키기 위해서 양자화 과정 또는 역양자화 과정에서 이용되는 행렬을 의미할 수 있다. 양자화 행렬은 스케일링 리스트(scaling list)라고도 칭해질 수 있다.Quantization Matrix: A quantization matrix may refer to a matrix used in a quantization process or an inverse quantization process in order to improve the subjective quality or the objective quality of an image. The quantization matrix may also be called a scaling list.
양자화 행렬 계수(quantization matrix coefficient): 양자화 행렬 계수는 양자화 행렬 내의 각 원소(element)를 의미할 수 있다. 양자화 행렬 계수는 행렬 계수(matrix coefficient)라고도 칭해질 수 있다.Quantization matrix coefficient: The quantization matrix coefficient may mean each element in the quantization matrix. Quantization matrix coefficients may also be referred to as matrix coefficients.
디폴트 행렬(default matrix): 기본 행렬은 부호화 장치 및 복호화 장치에서 기정의된 양자화 행렬일 수 있다.Default matrix: The default matrix may be a quantization matrix predefined in the encoding apparatus and the decoding apparatus.
비 디폴트 행렬(non-default matrix): 비 디폴트 행렬은 부호화 장치 및 복호화 장치에서 기정의되어 있지 않은 양자화 행렬일 수 있다. 비 디폴트 행렬은 부호화 장치로부터 복호화 장치로 시그널링될 수 있다.Non-default Matrix: The non-default matrix may be a quantization matrix that is not predefined in the encoding apparatus and the decoding apparatus. The non-default matrix may be signaled from the encoding device to the decoding device.
가장 가능성있는 모드(Most Probable Mode; MPM): MPM은 대상 블록의 인트라 예측을 위해 사용될 가능성이 높은 인트라 예측 모드를 나타낼 수 있다.Most Probable Mode (MPM): The MPM may indicate an intra prediction mode that is likely to be used for intra prediction of a target block.
부호화 장치 및 복호화 장치는 대상 블록에 관련된 코딩 파라미터 및 대상 블록에 관련된 개체의 속성에 기반하여 하나 이상의 MPM들을 결정할 수 있다.The encoding apparatus and the decoding apparatus may determine one or more MPMs based on coding parameters related to the target block and attributes of an entity related to the target block.
부호화 장치 및 복호화 장치는 참조 블록의 인트라 예측 모드에 기반하여 하나 이상의 MPM들을 결정할 수 있다. 참조 블록은 복수일 수 있다. 복수의 참조 블록들은 대상 블록의 좌측에 인접한 공간적 이웃 블록 및 대상 블록의 상단에 인접한 공간적 이웃 블록을 포함할 수 있다. 말하자면, 참조 블록들에 대하여 어떠한 인트라 예측 모드들이 사용되었는가에 따라서 서로 다른 하나 이상의 MPM들이 결정될 수 있다.The encoding apparatus and the decoding apparatus may determine one or more MPMs based on the intra prediction mode of the reference block. There may be a plurality of reference blocks. The plurality of reference blocks may include a spatial neighboring block adjacent to the left side of the target block and a spatial neighboring block adjacent to the top of the target block. In other words, one or more different MPMs may be determined according to which intra prediction modes are used for the reference blocks.
하나 이상의 MPM들은 부호화 장치 및 복호화 장치에서 동일한 방식으로 결정될 수 있다. 말하자면, 부호화 장치 및 복호화 장치는 동일한 하나 이상의 MPM들을 포함하는 MPM 리스트를 공유할 수 있다.One or more MPMs may be determined in the same manner in the encoding apparatus and the decoding apparatus. In other words, the encoding apparatus and the decoding apparatus may share an MPM list including the same one or more MPMs.
MPM 리스트: MPM 리스트는 하나 이상의 MPM들을 포함하는 리스트일 수 있다. MPM 리스트 내의 하나 이상의 MPM들의 개수는 기정의될 수 있다.MPM List: The MPM List may be a list including one or more MPMs. The number of one or more MPMs in the MPM list may be predefined.
MPM 지시자: MPM 지시자는 MPM 리스트의 하나 이상의 MPM들 중 대상 블록의 인트라 예측을 위해 사용되는 MPM을 지시할 수 있다. 예를 들면, MPM 지시자는 MPM 리스트에 대한 인덱스일 수 있다.MPM indicator: The MPM indicator may indicate the MPM used for intra prediction of the target block among one or more MPMs in the MPM list. For example, the MPM indicator may be an index into the MPM list.
MPM 리스트는 부호화 장치 및 복호화 장치에서 동일한 방식으로 결정되기 때문에 MPM 리스트 자체는 부호화 장치로부터 복호화 장치로 전송될 필요가 없을 수 있다.Since the MPM list is determined in the same manner in the encoding apparatus and the decoding apparatus, the MPM list itself may not need to be transmitted from the encoding apparatus to the decoding apparatus.
MPM 지시자는 부호화 장치로부터 복호화 장치로 시그널링될 수 있다. MPM 지시자가 시그널링됨에 따라 복호화 장치는 MPM 리스트의 MPM들 중 대상 블록에 대한 인트라 예측을 위해 사용될 MPM을 결정할 수 있다.The MPM indicator may be signaled from the encoding device to the decoding device. As the MPM indicator is signaled, the decoding apparatus may determine the MPM to be used for intra prediction for the target block among the MPMs in the MPM list.
MPM 사용 지시자: MPM 사용 지시자는 대상 블록에 대한 예측을 위해 MPM 사용 모드가 사용될지 여부를 지시할 수 있다. MPM 사용 모드는 MPM 리스트를 사용하여 대상 블록에 대한 인트라 예측을 위해 사용될 MPM을 결정하는 모드일 수 있다.MPM usage indicator: The MPM usage indicator may indicate whether the MPM usage mode is used for prediction for the target block. The MPM usage mode may be a mode that uses the MPM list to determine the MPM to be used for intra prediction for the target block.
MPM 사용 지시자는 부호화 장치로부터 복호화 장치로 시그널링될 수 있다.The MPM usage indicator may be signaled from the encoding apparatus to the decoding apparatus.
시그널링: 시그널링은 정보가 부호화 장치로부터 복호화 장치로 전송되는 것을 나타낼 수 있다. 또는, 시그널링은 정보를 비트스트림 또는 기록 매체 내에 포함시키는 것을 의미할 수 있다. 부호화 장치에 의해 시그널링된 정보는 복호화 장치에 의해 사용될 수 있다.Signaling: Signaling may indicate that information is transmitted from an encoding device to a decoding device. Or, signaling may mean including information in a bitstream or a recording medium. The information signaled by the encoding apparatus may be used by the decoding apparatus.
부호화 장치는 시그널링되는 정보에 대한 부호화를 수행하여 부호화된 정보를 생성할 수 있다. 부호화된 정보는 부호화 장치로부터 복호화 장치로 전송될 수 있다. 복호화 장치는 전송된 부호화된 정보에 대한 복호화를 수행하여 정보를 획득할 수 있다. 여기에서, 부호화는 엔트로피 부호화일 수 있고, 복호화는 엔트로피 복호화일 수 있다.The encoding apparatus may generate encoded information by performing encoding on the signaled information. The encoded information may be transmitted from the encoding apparatus to the decoding apparatus. The decoding apparatus may obtain information by decoding the transmitted encoded information. Here, the encoding may be entropy encoding, and the decoding may be entropy decoding.
도 1은 본 발명이 적용되는 부호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.1 is a block diagram illustrating a configuration of an encoding apparatus according to an embodiment of the present invention.
부호화 장치(100)는 인코더, 비디오 부호화 장치 또는 영상 부호화 장치일 수 있다. 비디오는 하나 이상의 영상들을 포함할 수 있다. 부호화 장치(100)는 비디오의 하나 이상의 영상들을 순차적으로 부호화할 수 있다.The encoding apparatus 100 may be an encoder, a video encoding apparatus, or an image encoding apparatus. The video may include one or more images. The encoding apparatus 100 may sequentially encode one or more images of the video.
도 1을 참조하면, 부호화 장치(100)는 인터 예측부(110), 인트라 예측부(120), 스위치(115), 감산기(125), 변환부(130), 양자화부(140), 엔트로피 부호화부(150), 역양자화부(160), 역변환부(170), 가산기(175), 필터부(180) 및 참조 픽처 버퍼(190)를 포함할 수 있다.Referring to FIG. 1, the encoding apparatus 100 may include an inter prediction unit 110, an intra prediction unit 120, a switch 115, a subtractor 125, a transform unit 130, a quantization unit 140, and entropy encoding. The unit 150 may include an inverse quantization unit 160, an inverse transform unit 170, an adder 175, a filter unit 180, and a reference picture buffer 190.
부호화 장치(100)는 인트라 모드 및/또는 인터 모드를 사용하여 대상 영상에 대한 부호화를 수행할 수 있다.The encoding apparatus 100 may perform encoding on the target image using an intra mode and / or an inter mode.
또한, 부호화 장치(100)는 대상 영상에 대한 부호화를 통해 부호화의 정보를 포함하는 비트스트림을 생성할 수 있고, 생성된 비트스트림을 출력할 수 있다. 생성된 비트스트림은 컴퓨터 판독가능한 기록 매체에 저장될 수 있고, 유/무선 전송 매체를 통해 스트리밍될 수 있다.In addition, the encoding apparatus 100 may generate a bitstream including encoding information through encoding of the target image, and may output the generated bitstream. The generated bitstream can be stored in a computer readable recording medium and can be streamed via wired / wireless transmission media.
예측 모드로서, 인트라 모드가 사용되는 경우, 스위치(115)는 인트라로 전환될 수 있다. 예측 모드로서, 인터 모드가 사용되는 경우, 스위치(115)는 인터로 전환될 수 있다.As an prediction mode, when an intra mode is used, the switch 115 may be switched to intra. When the inter mode is used as the prediction mode, the switch 115 may be switched to the inter.
부호화 장치(100)는 대상 블록에 대한 예측 블록을 생성할 수 있다. 또한, 부호화 장치(100)는 예측 블록이 생성된 후, 대상 블록 및 예측 블록의 잔차(residual)를 부호화할 수 있다.The encoding apparatus 100 may generate a prediction block for the target block. In addition, after the prediction block is generated, the encoding apparatus 100 may encode a residual of the target block and the prediction block.
예측 모드가 인트라 모드인 경우, 인트라 예측부(120)는 대상 블록의 이웃에 있는, 이미 부호화/복호화된 블록의 픽셀을 참조 샘플로서 이용할 수 있다. 인트라 예측부(120)는 참조 샘플을 이용하여 대상 블록에 대한 공간적 예측을 수행할 수 있고, 공간적 예측을 통해 대상 블록에 대한 예측 샘플들을 생성할 수 있다.When the prediction mode is the intra mode, the intra prediction unit 120 may use a pixel of an already encoded / decoded block in the neighbor of the target block as a reference sample. The intra prediction unit 120 may perform spatial prediction on the target block by using the reference sample, and generate prediction samples on the target block through spatial prediction.
인터 예측부(110)는 움직임 예측부 및 움직임 보상부를 포함할 수 있다.The inter predictor 110 may include a motion predictor and a motion compensator.
예측 모드가 인터 모드인 경우, 움직임 예측부는, 움직임 예측 과정에서 참조 영상으로부터 대상 블록과 가장 매치가 잘 되는 영역을 검색할 수 있고, 검색된 영역을 이용하여 대상 블록 및 검색된 영역에 대한 움직임 벡터를 도출할 수 있다.When the prediction mode is the inter mode, the motion predictor may search an area that best matches the target block from the reference image in the motion prediction process, and derive a motion vector for the target block and the searched area using the searched area. can do.
참조 영상은 참조 픽처 버퍼(190)에 저장될 수 있으며, 참조 영상에 대한 부호화 및/또는 복호화가 처리되었을 때 참조 픽처 버퍼(190)에 저장될 수 있다.The reference picture may be stored in the reference picture buffer 190 and may be stored in the reference picture buffer 190 when encoding and / or decoding of the reference picture is processed.
참조 영상은 재구축된 픽처일 수 있으며, 참조 픽처 버퍼(190)는 복호화된 픽처 버퍼(Decoded Picture Buffer; DPB)로 칭해질 수도 있다.The reference picture may be a reconstructed picture, and the reference picture buffer 190 may be referred to as a decoded picture buffer (DPB).
움직임 보상부는 움직임 벡터를 이용하는 움직임 보상을 수행함으로써 대상 블록에 대한 예측 블록을 생성할 수 있다. 여기에서, 움직임 벡터는 인터 예측에 사용되는 2차원 벡터일 수 있다. 또한 움직임 벡터는 대상 영상 및 참조 영상 간의 오프셋(offset)을 나타낼 수 있다.The motion compensator may generate a prediction block for the target block by performing motion compensation using the motion vector. Here, the motion vector may be a two-dimensional vector used for inter prediction. In addition, the motion vector may indicate an offset between the target image and the reference image.
움직임 예측부 및 움직임 보상부는 움직임 벡터가 정수가 아닌 값을 가진 경우 참조 영상 내의 일부 영역에 대해 보간 필터(interpolation filter)를 적용함으로써 예측 블록을 생성할 수 있다. 인터 예측 또는 움직임 보상을 수행하기 위해, CU를 기준으로 CU에 포함된 PU의 움직임 예측 및 움직임 보상의 방법이 스킵 모드(skip mode), 머지 모드(merge mode), 향상된 움직임 벡터 예측(advanced motion vector prediction; AMVP) 모드 및 현재 픽처 참조 모드 중 어떠한 방법인지 여부가 판단될 수 있고, 각 모드에 따라 인터 예측 또는 움직임 보상이 수행될 수 있다.If the motion predictor and the motion compensator have non-integer values, the motion predictor and the motion compensator may generate a prediction block by applying an interpolation filter to a portion of the reference image. In order to perform inter prediction or motion compensation, methods of motion prediction and motion compensation of a PU included in a CU based on a CU include a skip mode, a merge mode, and an advanced motion vector prediction. Whether it is a prediction (AMVP) mode or a current picture reference mode may be determined, and inter prediction or motion compensation may be performed according to each mode.
감산기(125)는 대상 블록 및 예측 블록의 차분인 잔차 블록(residual block)을 생성할 수 있다. 잔차 블록은 잔차 신호로 칭해질 수도 있다.The subtractor 125 may generate a residual block that is a difference between the target block and the prediction block. The residual block may be referred to as a residual signal.
잔차 신호는 원 신호 및 예측 신호 간의 차이(difference)를 의미할 수 있다. 또는, 잔차 신호는 원신호 및 예측 신호 간의 차이를 변환(transform)하거나 양자화하거나 또는 변환 및 양자화함으로써 생성된 신호일 수 있다. 잔차 블록은 블록 단위에 대한 잔차 신호일 수 있다.The residual signal may mean a difference between the original signal and the prediction signal. Alternatively, the residual signal may be a signal generated by transforming or quantizing the difference between the original signal and the prediction signal, or by transforming and quantizing. The residual block may be a residual signal on a block basis.
변환부(130)는 잔차 블록에 대해 변환(transform)을 수행하여 변환 계수를 생성할 수 있고, 생성된 변환 계수(transform coefficient)를 출력할 수 있다. 여기서, 변환 계수는 잔차 블록에 대한 변환을 수행함으로써 생성된 계수 값일 수 있다.The transform unit 130 may generate transform coefficients by performing transform on the residual block, and output the generated transform coefficients. Here, the transform coefficient may be a coefficient value generated by performing transform on the residual block.
변환부(130)는 변환을 수행함에 있어서 기정의된 복수의 변환 방법들 중 하나를 사용할 수 있다.The transformation unit 130 may use one of a plurality of predefined transformation methods in performing the transformation.
기정의된 복수의 변환 방법들은 이산 코사인 변환(Discrete Cosine Transform; DCT), 이산 사인 변환(Discrete Sine Transform; DST) 및 카루넨-루베 변환(Karhunen-Loeve Transform; KLT) 기반 변환 등을 포함할 수 있다.A plurality of predefined transformation methods may include Discrete Cosine Transform (DCT), Discrete Sine Transform (DST), and Karhunen-Loeve Transform (KLT) based transformations. have.
잔차 블록에 대한 변환을 위해 사용되는 변환 방법은 대상 블록 및/또는 이웃 블록에 대한 코딩 파라미터들 중 적어도 하나에 따라 결정될 수 있다. 예를 들면, 변환 방법은 PU에 대한 인터 예측 모드, PU에 대한 인트라 예측 모드, TU의 크기 및 TU의 형태 중 적어도 하나에 기반하여 결정될 수 있다. 또는, 변환 방법을 지시하는 변환 정보가 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수도 있다.The transform method used for transforming the residual block may be determined according to at least one of the coding parameters for the target block and / or the neighboring block. For example, the conversion method may be determined based on at least one of the inter prediction mode for the PU, the intra prediction mode for the PU, the size of the TU, and the shape of the TU. Alternatively, transformation information indicating a transformation method may be signaled from the encoding apparatus 100 to the decoding apparatus 200.
변환 스킵(transform skip) 모드가 적용되는 경우, 변환부(130)는 잔차 블록에 대한 변환을 생략할 수도 있다.When the transform skip mode is applied, the transform unit 130 may omit the transform on the residual block.
변환 계수에 양자화를 적용함으로써 양자화된 변환 계수 레벨(transform coefficient level) 또는 양자화된 레벨이 생성될 수 있다. 이하, 실시예들에서는 양자화된 변환 계수 레벨 및 양자화된 레벨도 변환 계수로 칭해질 수 있다.By applying quantization to the transform coefficients, a quantized transform coefficient level or quantized level can be generated. In the following embodiments, the quantized transform coefficient level and the quantized level may also be referred to as transform coefficients.
양자화부(140)는 변환 계수를 양자화 파라미터에 맞춰 양자화함으로써 양자화된 변환 계수 레벨(quantized transform coefficient level)(말하자면, 양자화된 레벨 또는 양자화된 계수)를 생성할 수 있다. 양자화부(140)는 생성된 양자화된 변환 계수 레벨을 출력할 수 있다. 이때, 양자화부(140)에서는 양자화 행렬을 사용하여 변환 계수를 양자화할 수 있다.The quantization unit 140 may generate a quantized transform coefficient level (that is, a quantized level or a quantized coefficient) by quantizing the transform coefficient according to the quantization parameter. The quantization unit 140 may output the generated quantized transform coefficient level. In this case, the quantization unit 140 may quantize the transform coefficients using the quantization matrix.
엔트로피 부호화부(150)는, 양자화부(140)에서 산출된 값들 및/또는 부호화 과정에서 산출된 코딩 파라미터 값들 등에 기초하여 확률 분포에 따른 엔트로피 부호화를 수행함으로써 비트스트림(bitstream)을 생성할 수 있다. 엔트로피 부호화부(150)는 생성된 비트스트림을 출력할 수 있다.The entropy encoder 150 may generate a bitstream by performing entropy encoding according to a probability distribution based on the values calculated by the quantizer 140 and / or the coding parameter values calculated in the encoding process. . The entropy encoder 150 may output the generated bitstream.
엔트로피 부호화부(150)는 영상의 픽셀에 관한 정보 및 영상의 복호화를 위한 정보에 대한 엔트로피 부호화를 수행할 수 있다. 예를 들면, 영상의 복호화를 위한 정보는 구문 요소(syntax element) 등을 포함할 수 있다. The entropy encoder 150 may perform entropy encoding on information about pixels of an image and information for decoding an image. For example, the information for decoding the image may include a syntax element.
엔트로피 부호화가 적용되는 경우, 높은 발생 확률을 갖는 심볼에 적은 수의 비트가 할당될 수 있고, 낮은 발생 확률을 갖는 심볼에 많은 수의 비트가 할당될 수 있다. 이러한 할당을 통해 심볼이 표현됨에 따라, 부호화의 대상인 심볼들에 대한 비트열(bitstring)의 크기가 감소될 수 있다. 따라서, 엔트로피 부호화를 통해서 영상 부호화의 압축 성능이 향상될 수 있다. When entropy coding is applied, a small number of bits may be allocated to a symbol having a high occurrence probability, and a large number of bits may be allocated to a symbol having a low occurrence probability. As the symbol is represented through this assignment, the size of the bitstring for the symbols to be encoded may be reduced. Therefore, compression performance of image encoding may be improved through entropy encoding.
또한, 엔트로피 부호화부(150)는 엔트로피 부호화를 위해 지수 골롬(exponential golomb), 문맥-적응형 가변 길이 코딩(Context-Adaptive Variable Length Coding; CAVLC) 및 문맥-적응형 이진 산술 코딩(Context-Adaptive Binary Arithmetic Coding; CABAC) 등과 같은 부호화 방법을 사용할 수 있다. 예를 들면, 엔트로피 부호화부(150)는 가변 길이 부호화(Variable Length Coding/Code; VLC) 테이블을 이용하여 엔트로피 부호화를 수행할 수 있다. 예를 들면, 엔트로피 부호화부(150)는 대상 심볼에 대한 이진화(binarization) 방법을 도출할 수 있다. 또한, 엔트로피 부호화부(150)는 대상 심볼/빈(bin)의 확률 모델(probability model)을 도출할 수 있다. 엔트로피 부호화부(150)는 도출된 이진화 방법, 확률 모델 및 문맥 모델(context model)을 사용하여 산술 부호화를 수행할 수도 있다.Also, the entropy encoder 150 may use exponential golomb, context-adaptive variable length coding (CAVLC), and context-adaptive binary arithmetic coding for entropy encoding. A coding method such as Arithmetic Coding (CABAC) may be used. For example, the entropy encoder 150 may perform entropy coding using a variable length coding (VLC) table. For example, the entropy encoder 150 may derive a binarization method for the target symbol. Also, the entropy encoder 150 may derive a probability model of the target symbol / bin. The entropy encoder 150 may perform arithmetic coding using the derived binarization method, probability model, and context model.
엔트로피 부호화부(150)는 양자화된 변환 계수 레벨을 부호화하기 위해 변환 계수 스캐닝(transform coefficient scanning) 방법을 통해 2차원의 블록의 형태(form)의 계수를 1차원의 벡터의 형태로 변경할 수 있다.The entropy encoder 150 may change the coefficient of the form of the two-dimensional block into a one-dimensional vector through a transform coefficient scanning method to encode the quantized transform coefficient level.
코딩 파라미터는 부호화 및/또는 복호화를 위해 요구되는 정보일 수 있다. 코딩 파라미터는 부호화 장치(100)에서 부호화되어 부호화 장치(100)로부터 복호화 장치로 전달되는 정보를 포함할 수 있고, 부호화 혹은 복호화 과정에서 유추될 수 있는 정보를 포함할 수 있다. 예를 들면, 복호화 장치로 전달되는 정보로서, 구문 요소가 있다.The coding parameter may be information required for encoding and / or decoding. The coding parameter may include information encoded by the encoding apparatus 100 and transferred from the encoding apparatus 100 to the decoding apparatus, and may include information that may be inferred in the encoding or decoding process. For example, there is a syntax element as information transmitted to the decoding apparatus.
코딩 파라미터(coding parameter)는 구문 요소와 같이 부호화 장치에서 부호화되고, 부호화 장치로부터 복호화 장치로 시그널링되는 정보(또는, 플래그, 인덱스 등)뿐만 아니라, 부호화 과정 또는 복호화 과정에서 유도되는 정보를 포함할 수 있다. 또한, 코딩 파라미터는 영상을 부호화하거나 복호화함에 있어서 요구되는 정보를 포함할 수 있다. 예를 들면, 유닛/블록의 크기, 유닛/블록의 깊이, 유닛/블록의 분할 정보, 유닛/블록의 분할 구조, 유닛/블록이 쿼드 트리 형태로 분할되는지 여부를 나타내는 정보, 유닛/블록이 이진 트리 형태로 분할되는지 여부를 나타내는 정보, 이진 트리 형태의 분할 방향(가로 방향 또는 세로 방향), 이진 트리 형태의 분할 형태(대칭 분할 또는 비대칭 분할), 유닛/블록이 삼진 트리 형태로 분할되는지 여부를 나타내는 정보, 삼진 트리 형태의 분할 방향(가로 방향 또는 세로 방향), 삼진 트리 형태의 분할 형태(대칭 분할 또는 비대칭 분할 등), 유닛/블록이 복합 트리 형태로 분할되는지 여부를 나타내는 정보, 복합 트리 형태의 분할의 조합 및 방향(가로 방향 또는 세로 방향 등), 예측 방식(인트라 예측 또는 인터 예측), 인트라 예측 모드/방향, 참조 샘플 필터링 방법, 예측 블록 필터링 방법, 예측 블록 경계 필터링 방법, 필터링의 필터 탭, 필터링의 필터 계수, 인터 예측 모드, 움직임 정보, 움직임 벡터, 참조 픽처 인덱스, 인터 예측 방향, 인터 예측 지시자, 참조 픽처 리스트, 참조 영상, POC, 움직임 벡터 예측기, 움직임 벡터 예측 후보, 움직임 벡터 후보 리스트, 머지 모드를 사용하는지 여부를 나타내는 정보, 머지 후보, 머지 후보 리스트, 스킵(skip) 모드를 사용하는지 여부를 나타내는 정보, 보간 필터의 종류, 보간 필터의 필터 탭, 보간 필터의 필터 계수, 움직임 벡터 크기, 움직임 벡터 표현 정확도, 변환 종류, 변환 크기, 1차 변환을 사용하는지 여부를 나타내는 정보, 추가(2차) 변환을 사용하는지 여부를 나타내는 정보, 1차 변환 선택 정보(또는, 1차 변환 인덱스), 2차 변환 선택 정보(또는, 2차 변환 인덱스), 잔차 신호의 유무를 나타내는 정보, 코드된 블록 패턴(coded block pattern), 코드된 블록 플래그(coded block flag), 양자화 파라미터, 양자화 행렬, 인트라-루프 필터에 대한 정보, 인트라-루프 필터를 적용하는지 여부에 대한 정보, 인트라-루프 필터의 계수, 인트라-루프의 필터 탭, 인트라 루프 필터의 모양(shape)/형태(form), 디블록킹 필터를 적용하는지 여부를 나타내는 정보, 디블록킹 필터 계수, 디블록킹 필터 탭, 디블록킹 필터 강도, 디블록킹 필터 모양/형태, 적응적 샘플 오프셋을 적용하는지 여부를 나타내는 정보, 적응적 샘플 오프셋 값, 적응적 샘플 오프셋 카테고리, 적응적 샘플 오프셋 종류, 적응적 루프-내(in-loop) 필터를 적용하는지 여부, 적응적 루프-내 필터 계수, 적응적 루프-내 필터 탭, 적응적 루프-내 필터 모양/형태, 이진화/역이진화 방법, 문맥 모델, 문맥 모델 결정 방법, 문맥 모델 업데이트 방법, 레귤러 모드를 수행하는지 여부, 바이패스 모드를 수행하는지 여부, 문맥 빈, 바이패스 빈, 변환 계수, 변환 계수 레벨, 변환 계수 레벨 스캐닝 방법, 영상의 디스플레이/출력 순서, 슬라이스 식별 정보, 슬라이스 타입, 슬라이스 분할 정보, 타일 식별 정보, 타일 타입, 타일 분할 정보, 픽처 타입, 비트 심도, 루마 신호에 대한 정보 및 크로마 신호에 대한 정보 중 적어도 하나의 값, 조합된 형태 또는 통계가 코딩 파라미터에 포함될 수 있다. 예측 방식은 인트라 예측 모드 및 인터 예측 모드 중 하나의 예측 모드를 나타낼 수 있다.The coding parameter may include information derived from an encoding process or a decoding process, as well as information (or a flag, an index, etc.) encoded by the encoding apparatus and signaled from the encoding apparatus to the decoding apparatus, as the syntax element. have. In addition, the coding parameter may include information required for encoding or decoding an image. For example, the size of the unit / block, the depth of the unit / block, the partition information of the unit / block, the partition structure of the unit / block, the information indicating whether the unit / block is divided into quad tree form, the unit / block is binary Information indicating whether the tree is split, whether the binary tree is split (horizontal or vertical), the binary tree is split (symmetric split or asymmetric split), or whether the unit / block is split into ternary trees Information to indicate, the split direction in the form of a ternary tree (horizontal or vertical), the split form in the form of a ternary tree (such as symmetrical splitting or asymmetric splitting), information indicating whether the unit / block is split into a compound tree, and the composite tree Combination and direction of division of (such as landscape or portrait), prediction method (intra prediction or inter prediction), intra prediction mode / direction, reference sample filtering method Prediction block filtering method, prediction block boundary filtering method, filter tab of filtering, filter coefficient of filtering, inter prediction mode, motion information, motion vector, reference picture index, inter prediction direction, inter prediction indicator, reference picture list, reference picture , POC, motion vector predictor, motion vector prediction candidate, motion vector candidate list, information indicating whether to use merge mode, information indicating whether to use merge candidate, merge candidate list, skip mode, interpolation filter Type, filter tab of the interpolation filter, filter coefficients of the interpolation filter, motion vector magnitude, motion vector representation accuracy, transform type, transform size, information indicating whether or not to use a first-order transform, whether additional (secondary) transforms are used Information indicating, 1st transform selection information (or 1st transformation index), 2nd transformation selection information (or 2nd transformation index), residual Information indicating the presence or absence of a signal, a coded block pattern, a coded block flag, a quantization parameter, a quantization matrix, information about an intra-loop filter, whether to apply an intra-loop filter Information about the coefficients of the intra-loop filter, the filter tab of the intra-loop, the shape / form of the intra loop filter, information indicating whether or not the deblocking filter is applied, the deblocking filter coefficients, the deblocking filter Tap, deblocking filter strength, deblocking filter shape / shape, information indicating whether to apply adaptive sample offset, adaptive sample offset value, adaptive sample offset category, adaptive sample offset type, adaptive loop-in ( in-loop) filter, adaptive in-loop filter coefficients, adaptive in-loop filter tab, adaptive in-loop filter shape / shape, binarization / debinarization method, context model, Context Model Determination Method, Context Model Update Method, Whether to Perform Regular Mode, Bypass Mode, Context Bean, Bypass Bin, Transform Coefficient, Transform Coefficient Level, Transform Coefficient Level Scanning Method, Display / Output of Image Order, slice identification information, slice type, slice partition information, tile identification information, tile type, tile partition information, picture type, bit depth, information on luma signals, and information on chroma signals, a combined form Or statistics may be included in the coding parameters. The prediction method may indicate one prediction mode of an intra prediction mode and an inter prediction mode.
1차 변환 선택 정보는 대상 블록에 적용되는 1차 변환을 나타낼 수 있다.The primary transform selection information may indicate a primary transform applied to the target block.
2차 변환 선택 정보는 대상 블록에 적용되는 2차 변환을 나타낼 수 있다.The secondary transform selection information may indicate a secondary transform applied to the target block.
잔차 신호는 원 신호 및 예측 신호 간의 차분(difference)을 나타낼 수 있다. 또는, 잔차 신호는 원신호 및 예측 신호 간의 차분을 변환(transform)함으로써 생성된 신호일 수 있다. 또는, 잔차 신호는 원 신호 및 예측 신호 간의 차분을 변환 및 양자화함으로써 생성된 신호일 수 있다. 잔차 블록은 블록에 대한 잔차 신호일 수 있다.The residual signal may represent a difference between the original signal and the prediction signal. Alternatively, the residual signal may be a signal generated by transforming the difference between the original signal and the prediction signal. Alternatively, the residual signal may be a signal generated by transforming and quantizing the difference between the original signal and the prediction signal. The residual block may be a residual signal for the block.
여기서, 플래그 또는 인덱스를 시그널링(signaling)한다는 것은 부호화 장치(100)에서는 플래그 또는 인덱스에 대한 엔트로피 부호화(entropy encoding)를 수행함으로써 생성된 엔트로피 부호화된 플래그 또는 엔트로피 부호화된 인덱스를 비트스트림(Bitstream)에 포함시키는 것을 의미할 수 있고, 복호화 장치(200)에서는 비트스트림으로부터 추출된 엔트로피 부호화된 플래그 또는 엔트로피 부호화된 인덱스에 대한 엔트로피 복호화(entropy decoding)를 수행함으로써 플래그 또는 인덱스를 획득하는 것을 의미할 수 있다.Here, signaling a flag or an index means that the encoding apparatus 100 converts an entropy coded flag or an entropy coded index generated by performing entropy encoding on a flag or an index into a bitstream. In the decoding apparatus 200, the decoding apparatus 200 may mean obtaining an flag or an index by performing entropy decoding on an entropy coded flag or an entropy coded index extracted from the bitstream. .
부호화 장치(100)에 의해 인터 예측을 통한 부호화가 수행되기 때문에, 부호화된 대상 영상은 이후에 처리되는 다른 영상(들)에 대하여 참조 영상으로서 사용될 수 있다. 따라서, 부호화 장치(100)는 부호화된 대상 영상을 다시 재구축 또는 복호화할 수 있고, 재구축 또는 복호화된 영상을 참조 영상으로서 참조 픽처 버퍼(190)에 저장할 수 있다. 복호화를 위해 부호화된 대상 영상에 대한 역양자화 및 역변환이 처리될 수 있다.Since encoding through inter prediction is performed by the encoding apparatus 100, the encoded target image may be used as a reference image with respect to other image (s) to be processed later. Accordingly, the encoding apparatus 100 may reconstruct or decode the encoded target image and store the reconstructed or decoded image in the reference picture buffer 190 as a reference image. Inverse quantization and inverse transform on the encoded target image may be processed for decoding.
양자화된 레벨은 역양자화부(160)에서 역양자화될(inversely quantized) 수 있고, 역변환부(170)에서 역변환될(inversely transformed) 수 있다. 역양자화부(160)는 양자화된 레벨에 대한 역양자화를 수행함으로써 역양자화된 계수를 생성할 수 있다. 역변환부(170)는 역양자화된 계수에 대한 역변환을 수행함으로써 재구축된 잔차 블록을 생성할 수 있다. 말하자면, 재구축된 잔차 블록은 역양자화 및 역변환된 계수일 수 있다.The quantized level may be inversely quantized in the inverse quantization unit 160 and inversely transformed in the inverse transformer 170. The inverse quantization unit 160 may generate inverse quantized coefficients by performing inverse quantization on the quantized level. The inverse transform unit 170 may generate the reconstructed residual block by performing an inverse transform on the inverse quantized coefficients. In other words, the reconstructed residual block may be an inverse quantized and inverse transformed coefficient.
역양자화 및 역변환된 계수는 가산기(175)를 통해 예측 블록과 합해질 수 있다, 역양자화 및/또는 역변환된 계수와 예측 블록을 합함으로써 재구축된(reconstructed) 블록이 생성될 수 있다. 여기서, 역양자화 및/또는 역변환된 계수는 역양자화(dequantization) 및 역변환(inverse-transformation) 중 적어도 하나 이상이 수행된 계수를 의미할 수 있고, 재구축된 잔차 블록을 의미할 수 있다.The inverse quantized and inverse transformed coefficients may be summed with the prediction block via the adder 175, and a reconstructed block may be generated by adding the inverse quantized and / or inverse transformed coefficients with the prediction block. Here, the inverse quantized and / or inversely transformed coefficient may refer to a coefficient on which at least one or more of dequantization and inverse-transformation have been performed, and may mean a reconstructed residual block.
재구축된 블록은 필터부(180)를 거칠 수 있다. 필터부(180)는 디블록킹 필터(deblocking filter), 샘플 적응적 오프셋(Sample Adaptive Offset; SAO), 적응적 루프 필터(Adaptive Loop Filter; ALF) 및 논 로컬 필터(Non Local Filter; NLF) 중 적어도 하나 이상을 재구축된 블록 또는 재구축된 픽처에 적용할 수 있다. 필터부(180)는 루프-내(in-loop) 필터로 칭해질 수도 있다.The reconstructed block may pass through the filter unit 180. The filter unit 180 may include at least one of a deblocking filter, a sample adaptive offset (SAO), an adaptive loop filter (ALF), and a non local filter (NLF). One or more may be applied to the reconstructed block or reconstructed picture. The filter unit 180 may be referred to as an in-loop filter.
디블록킹 필터는 블록들 간의 경계에서 발생한 블록 왜곡을 제거할 수 있다. 디블록킹 필터를 적용할지 여부를 판단하기 위해, 블록에 포함된 몇 개의 열 또는 행에 포함된 픽셀(들)에 기반하여 대상 블록에 디블록킹 필터를 적용할지 여부가 판단될 수 있다.The deblocking filter may remove block distortion generated at boundaries between blocks. To determine whether to apply the deblocking filter, it may be determined whether to apply the deblocking filter to the target block based on the pixel (s) included in some columns or rows included in the block.
대상 블록에 디블록킹 필터를 적용하는 경우, 적용되는 필터는 요구되는 디블록킹 필터링의 강도에 따라 다를 수 있다. 말하자면, 서로 다른 필터들 중 디블록킹 필터링의 강도에 따라 결정된 필터가 대상 블록에 적용될 수 있다. 대상 블록에 디블록킹 필터가 적용되는 경우, 요구되는 디블록킹 필터링의 강도에 따라 강한 필터(strong filter) 및 약한 필터(weak filter) 중 하나의 필터가 대상 블록에 적용될 수 있다.When the deblocking filter is applied to the target block, the filter applied may vary depending on the strength of the required deblocking filtering. In other words, a filter determined according to the strength of deblocking filtering among different filters may be applied to the target block. When the deblocking filter is applied to the target block, one of a strong filter and a weak filter may be applied to the target block according to the strength of the required deblocking filtering.
또한, 대상 블록에 수직 방향 필터링 및 수평 방향 필터링이 수행되는 경우, 수평 방향 필터링 및 수직 방향 필터링이 병행으로 처리될 수 있다.In addition, when the vertical direction filtering and the horizontal direction filtering are performed on the target block, the horizontal direction filtering and the vertical direction filtering may be processed in parallel.
SAO는 코딩 에러에 대한 보상을 위해 픽셀의 픽셀 값에 적정한 오프셋(offset)을 더할 수 있다. SAO는 디블록킹이 적용된 영상에 대해, 픽셀의 단위로 원본 영상 및 디블록킹이 적용된 영상 간의 차이에 대하여 오프셋을 사용하는 보정을 수행할 수 있다. 영상에 대한 오프셋 보정을 수행하기 위해, 영상에 포함된 픽셀들을 일정한 수의 영역들로 구분한 후, 구분된 영역들 중 오프셋이 수행될 영역을 결정하고 결정된 영역에 오프셋을 적용하는 방법이 사용될 수 있고, 영상의 각 픽셀의 에지 정보를 고려하여 오프셋을 적용하는 방법이 사용될 수 있다.The SAO may add an appropriate offset to the pixel value of the pixel to compensate for coding errors. The SAO may perform correction using an offset on a difference between an original image and a deblocked image in units of pixels for the deblocked image. In order to perform offset correction on an image, a method of dividing pixels included in an image into a predetermined number of regions, determining a region to be offset from the divided regions, and applying an offset to the determined region may be used. In addition, a method of applying an offset in consideration of edge information of each pixel of the image may be used.
ALF는 재구축된 영상 및 원래의 영상을 비교한 값에 기반하여 필터링을 수행할 수 있다. 영상에 포함된 픽셀들을 소정의 그룹들로 분할한 후, 각 분할된 그룹에 적용될 필터가 결정될 수 있고, 그룹 별로 차별적으로 필터링이 수행될 수 있다. 루마 신호에 대하여, 적응적 루프 필터를 적용할지 여부에 관련된 정보는 CU 별로 시그널링될 수 있다. 각 블록에 적용될 ALF 의 모양 및 필터 계수는 블록 별로 다를 수 있다. 또는, 블록의 특징과는 무관하게, 고정된 형태의 ALF가 블록에 적용될 수 있다.The ALF may perform filtering based on a value obtained by comparing the reconstructed image with the original image. After dividing the pixels included in the image into predetermined groups, a filter to be applied to each divided group may be determined, and filtering may be performed for each group. For the luma signal, information related to whether to apply the adaptive loop filter may be signaled for each CU. The shape and filter coefficients of the ALF to be applied to each block may vary from block to block. Alternatively, a fixed form of ALF may be applied to the block, regardless of the features of the block.
논 로컬 필터는 대상 블록과 유사한 재구축된 블록들에 기반하여 필터링을 수행할 수 있다. 재구축된 영상에서 대상 블록과 유사한 영역이 선택될 수 있고, 선택된 유사한 영역의 통계적 성질을 사용하여 대상 블록의 필터링이 수행될 수 있다. 논 로컬 필터를 적용할지 여부에 관련된 정보는 CU에 대하여 시그널링될 수 있다. 또한, 블록들에 적용될 논 로컬 필터의 모양들 및 필터 계수들은 블록에 따라서 서로 다를 수 있다.The non-local filter may perform filtering based on reconstructed blocks similar to the target block. A region similar to the target block may be selected in the reconstructed image, and filtering of the target block may be performed using statistical properties of the selected similar region. Information related to whether to apply the non-local filter may be signaled for the CU. In addition, the shapes and filter coefficients of the non-local filter to be applied to the blocks may be different from block to block.
필터부(180)를 거친 재구축된 블록 또는 재구축된 영상은 참조 픽처 버퍼(190)에 저장될 수 있다. 필터부(180)를 거친 재구축된 블록은 참조 픽처의 일부일 수 있다. 말하자면, 참조 픽처는 필터부(180)를 거친 재구축된 블록들로 구성된 재구축된 픽처일 수 있다. 저장된 참조 픽처는 이후 인터 예측에 사용될 수 있다.The reconstructed block or the reconstructed image that has passed through the filter unit 180 may be stored in the reference picture buffer 190. The reconstructed block that has passed through the filter unit 180 may be part of a reference picture. In other words, the reference picture may be a reconstructed picture composed of reconstructed blocks that have passed through the filter unit 180. The stored reference picture can then be used for inter prediction.
도 2는 본 발명이 적용되는 복호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.2 is a block diagram illustrating a configuration of a decoding apparatus according to an embodiment of the present invention.
복호화 장치(200)는 디코더, 비디오 복호화 장치 또는 영상 복호화 장치일 수 있다.The decoding apparatus 200 may be a decoder, a video decoding apparatus, or an image decoding apparatus.
도 2를 참조하면, 복호화 장치(200)는 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 인터 예측부(250), 스위치(245), 가산기(255), 필터부(260) 및 참조 픽처 버퍼(270)를 포함할 수 있다.2, the decoding apparatus 200 may include an entropy decoder 210, an inverse quantizer 220, an inverse transformer 230, an intra predictor 240, an inter predictor 250, and a switch 245. , An adder 255, a filter unit 260, and a reference picture buffer 270.
복호화 장치(200)는 부호화 장치(100)에서 출력된 비트스트림을 수신할 수 있다. 복호화 장치(200)는 컴퓨터 판독가능한 기록 매체에 저장된 비트스트림을 수신할 수 있고, 유/무선 전송 매체를 통해 스트리밍되는 비트스트림을 수신할 수 있다.The decoding apparatus 200 may receive a bitstream output from the encoding apparatus 100. The decoding apparatus 200 may receive a bitstream stored in a computer readable recording medium, and may receive a bitstream streamed through a wired / wireless transmission medium.
복호화 장치(200)는 비트스트림에 대하여 인트라 모드 및/또는 인터 모드의 복호화를 수행할 수 있다. 또한, 복호화 장치(200)는 복호화를 통해 재구축된 영상 또는 복호화된 영상을 생성할 수 있고, 생성된 재구축된 영상 또는 복호화된 영상을 출력할 수 있다.The decoding apparatus 200 may perform intra mode and / or inter mode decoding on the bitstream. In addition, the decoding apparatus 200 may generate a reconstructed image or a decoded image through decoding, and output the generated reconstructed image or the decoded image.
예를 들면, 복호화에 사용되는 예측 모드에 따른 인트라 모드 또는 인터 모드로의 전환은 스위치(245)에 의해 이루어질 수 있다. 복호화에 사용되는 예측 모드가 인트라 모드인 경우 스위치(245)가 인트라로 전환될 수 있다. 복호화에 사용되는 예측 모드가 인터 모드인 경우 스위치(245)가 인터로 전환될 수 있다.For example, switching to the intra mode or the inter mode according to the prediction mode used for decoding may be performed by the switch 245. When the prediction mode used for decoding is an intra mode, the switch 245 may be switched to intra. When the prediction mode used for decoding is an inter mode, the switch 245 may be switched to inter.
복호화 장치(200)는 입력된 비트스트림을 복호화함으로써 재구축된 잔차 블록(reconstructed residual block)을 획득할 수 있고, 예측 블록을 생성할 수 있다. 재구축된 잔차 블록 및 예측 블록이 획득되면, 복호화 장치(200)는 재구축된 잔차 블록 및 예측 블록을 더함으로써 복호화의 대상이 되는 재구축된 블록을 생성할 수 있다.The decoding apparatus 200 may obtain a reconstructed residual block by decoding the input bitstream, and generate a prediction block. When the reconstructed residual block and the prediction block are obtained, the decoding apparatus 200 may generate the reconstructed block to be decoded by adding the reconstructed residual block and the prediction block.
엔트로피 복호화부(210)는 비트스트림에 대한 확률 분포에 기초하여 비트스트림에 대한 엔트로피 복호화를 수행함으로써 심볼들을 생성할 수 있다. 생성된 심볼들은 양자화된 변환 계수 레벨(quantized transform coefficient level)(말하자면, 양자화된 레벨 또는 양자화된 계수) 형태의 심볼을 포함할 수 있다. 여기에서, 엔트로피 복호화 방법은 상술된 엔트로피 부호화 방법과 유사할 수 있다. 예를 들면, 엔트로피 복호화 방법은 상술된 엔트로피 부호화 방법의 역과정일 수 있다.The entropy decoder 210 may generate symbols by performing entropy decoding on the bitstream based on a probability distribution on the bitstream. The generated symbols may include symbols in the form of quantized transform coefficient levels (ie, quantized levels or quantized coefficients). Here, the entropy decoding method may be similar to the entropy encoding method described above. For example, the entropy decoding method may be an inverse process of the above-described entropy encoding method.
엔트로피 복호화부(210)는 양자화된 변환 계수 레벨을 복호화하기 위해 변환 계수 스캐닝 방법을 통해 1차원의 벡터의 형태의 계수를 2차원의 블록의 형태로 변경할 수 있다.The entropy decoder 210 may change a coefficient in the form of a one-dimensional vector into a form of a two-dimensional block through a transform coefficient scanning method in order to decode the quantized transform coefficient level.
예를 들면, 우상단 대각 스캔을 이용하여 블록의 계수들을 스캔함으로써 계수들이 2차원 블록 형태로 변경될 수 있다. 또는, 블록의 크기 및/또는 인트라 예측 모드에 따라 우상단 대각 스캔, 수직 스캔 및 수평 스캔 중 어떤 스캔이 사용될 것인지가 결정될 수 있다.For example, the coefficients can be changed into a two-dimensional block form by scanning the coefficients of the block using a right top diagonal scan. Or, it may be determined which scan of the upper right diagonal scan, the vertical scan and the horizontal scan will be used according to the size of the block and / or the intra prediction mode.
양자화된 계수는 역양자화부(220)에서 역양자화될 수 있다. 역양자화부(220)는 양자화된 계수에 대한 역양자화를 수행함으로써 역양자화된 계수를 생성할 수 있다. 또한, 역양자화된 계수는 역변환부(230)에서 역변환될 수 있다. 역변환부(230)는 역양자화된 계수에 대한 역변환을 수행함으로써 재구축된 잔차 블록을 생성할 수 있다. 양자화된 계수에 대한 역양자화 및 역변환이 수행된 결과로서, 재구축된 잔차 블록이 생성될 수 있다. 이때, 역양자화부(220)는 재구축된 잔차 블록을 생성함에 있어서 양자화된 계수에 양자화 행렬을 적용할 수 있다.The quantized coefficient may be inverse quantized by the inverse quantization unit 220. The inverse quantization unit 220 may generate inverse quantized coefficients by performing inverse quantization on the quantized coefficients. In addition, the inverse quantized coefficient may be inversely transformed by the inverse transformer 230. The inverse transform unit 230 may generate the reconstructed residual block by performing an inverse transform on the inverse quantized coefficients. As a result of inverse quantization and inverse transformation on the quantized coefficients, a reconstructed residual block may be generated. In this case, the inverse quantization unit 220 may apply a quantization matrix to the quantized coefficients in generating the reconstructed residual block.
인트라 모드가 사용되는 경우, 인트라 예측부(240)는 대상 블록의 이웃의 이미 복호화된 블록의 픽셀 값을 이용하는 공간적 예측을 수행함으로써 예측 블록을 생성할 수 있다.When the intra mode is used, the intra predictor 240 may generate the prediction block by performing spatial prediction using pixel values of the already decoded block of the neighbor of the target block.
인터 예측부(250)는 움직임 보상부를 포함할 수 있다. 또는, 인터 예측부(250)는 움직임 보상부로 명명될 수 있다.The inter predictor 250 may include a motion compensator. Alternatively, the inter predictor 250 may be referred to as a motion compensator.
인터 모드가 사용되는 경우, 움직임 보상부는 움직임 벡터 및 참조 픽처 버퍼(270)에 저장된 참조 영상을 이용하는 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다.When the inter mode is used, the motion compensator may generate a prediction block by performing motion compensation using a motion vector and a reference picture stored in the reference picture buffer 270.
움직임 보상부는 움직임 벡터가 정수가 아닌 값을 가진 경우, 참조 영상 내의 일부 영역에 대해 보간 필터를 적용할 수 있고, 보간 필터가 적용된 참조 영상을 사용하여 예측 블록을 생성할 수 있다. 움직임 보상부는 움직임 보상을 수행하기 위해 CU를 기준으로 CU에 포함된 PU를 위해 사용되는 움직임 보상 방법이 스킵 모드, 머지 모드, AMVP 모드 및 현재 픽처 참조 모드 중 어떤 모드인가를 결정할 수 있고, 결정된 모드에 따라 움직임 보상을 수행할 수 있다.When the motion vector has a non-integer value, the motion compensator may apply an interpolation filter to a portion of the reference image, and generate a prediction block using the reference image to which the interpolation filter is applied. The motion compensation unit may determine which of the skip mode, the merge mode, the AMVP mode, and the current picture reference mode is a motion compensation method used for the PU included in the CU based on the CU to perform motion compensation. According to the present invention, motion compensation may be performed.
재구축된 잔차 블록 및 예측 블록은 가산기(255)를 통해 더해질 수 있다. 가산기(255)는 재구축된 잔차 블록 및 예측 블록을 더함으로써 재구축된 블록을 생성할 수 있다.The reconstructed residual block and prediction block may be added via adder 255. The adder 255 may generate the reconstructed block by adding the reconstructed residual block and the predictive block.
재구축된 블록은 필터부(260)를 거칠 수 있다. 필터부(260)는 디블록킹 필터, SAO, ALF 및 논 로컬 필터 중 적어도 하나를 재구축된 블록 또는 재구축된 영상에 적용할 수 있다. 재구축된 영상은 재구축된 블록을 포함하는 픽처일 수 있다.The reconstructed block may pass through the filter unit 260. The filter unit 260 may apply at least one of the deblocking filter, the SAO, the ALF, and the non-local filter to the reconstructed block or the reconstructed image. The reconstructed image may be a picture including the reconstructed block.
필터부(260)를 거친 재구축된 영상은 부호화 장치(100)에 의해 출력될 수 있으며, 부호화 장치(100)에 의해 사용될 수 있다.The reconstructed image that has passed through the filter unit 260 may be output by the encoding apparatus 100 and may be used by the encoding apparatus 100.
필터부(260)를 거친 재구축된 영상은 참조 픽처 버퍼(270)에 참조 픽처로서 저장될 수 있다. 필터부(260)를 거친 재구축된 블록은 참조 픽처의 일부일 수 있다. 말하자면, 참조 픽처는 필터부(260)를 거친 재구축된 블록들로 구성된 영상일 수 있다. 저장된 참조 픽처는 이후 인터 예측을 위해 사용될 수 있다.The reconstructed image that has passed through the filter unit 260 may be stored as a reference picture in the reference picture buffer 270. The reconstructed block that has passed through the filter unit 260 may be part of the reference picture. In other words, the reference picture may be an image composed of reconstructed blocks that have passed through the filter unit 260. The stored reference picture can then be used for inter prediction.
참조 영상은 재구축된 픽처일 수 있으며, 참조 픽처 버퍼(270)는 복호화된 픽처 버퍼(Decoded Picture Buffer; DPB)로 칭해질 수도 있다.The reference picture may be a reconstructed picture, and the reference picture buffer 270 may be referred to as a decoded picture buffer (DPB).
도 3은 영상을 부호화 및 복호화할 때의 영상의 분할 구조를 개략적으로 나타내는 도면이다.3 is a diagram schematically illustrating a division structure of an image when encoding and decoding an image.
도 3은 하나의 유닛이 복수의 하위 유닛들로 분할되는 예를 개략적으로 나타낼 수 있다.3 may schematically illustrate an example in which one unit is divided into a plurality of sub-units.
영상을 효율적으로 분할하기 위해, 부호화 및 복호화에 있어서, 코딩 유닛(Coding Unit; CU)이 사용될 수 있다. 유닛은 1) 영상 샘플들을 포함하는 블록 및 2) 구문 요소(syntax element)을 합쳐서 지칭하는 용어일 수 있다. 예를 들면, "유닛의 분할"은 "유닛에 해당하는 블록의 분할"을 의미할 수 있다.In order to efficiently divide an image, a coding unit (CU) may be used in encoding and decoding. A unit may be a term that collectively refers to 1) a block including image samples and 2) a syntax element. For example, "division of a unit" may mean "division of a block corresponding to a unit".
영상 부호화/복호화의 기반 단위로서 CU가 사용될 수 있다. 또한, CU는 영상 부호화/복호화에 있어서 인트라 모드 및 인터 모드 중 하나의 선택된 모드가 적용되는 단위로 사용될 수 있다. 말하자면, 영상 부호화/복호화에 있어서, 각 CU에 대해서 인트라 모드 및 인터 모드 중 어떤 모드가 적용될 것인가가 결정될 수 있다.The CU may be used as a base unit of image encoding / decoding. In addition, the CU may be used as a unit to which one selected mode of intra mode and inter mode is applied in image encoding / decoding. In other words, in image encoding / decoding, it may be determined which mode of intra mode and inter mode is applied to each CU.
또한, CU는 예측, 변환, 양자화, 역변환, 역양자화 및 변환 계수의 부호화/복호화에 있어서 기반 단위일 수 있다.In addition, a CU may be a base unit in encoding / decoding of prediction, transform, quantization, inverse transform, inverse quantization, and transform coefficients.
도 3을 참조하면, 영상(300)은 최대 코딩 유닛(Largest Coding Unit; LCU)의 단위로 순차적으로 분할될 수 있다. 각 LCU에 대해, 분할 구조가 결정될 수 있다. 여기서, LCU는 코딩 트리 유닛(Coding Tree Unit; CTU)과 동일한 의미로 사용될 수 있다.Referring to FIG. 3, the image 300 may be sequentially divided in units of a largest coding unit (LCU). For each LCU, the partition structure can be determined. Here, the LCU may be used as the same meaning as a coding tree unit (CTU).
유닛의 분할은 유닛에 해당하는 블록의 분할을 의미할 수 있다. 블록 분할 정보는 유닛의 깊이(depth)에 관한 깊이 정보를 포함할 수 있다. 깊이 정보는 유닛이 분할되는 회수 및/또는 정도를 나타낼 수 있다. 하나의 유닛은 트리 구조(tree structure)에 기반하여 깊이 정보를 가지고 계층적으로 하위 유닛들로 분할될 수 있다. 각각의 분할된 하위 유닛은 깊이 정보를 가질 수 있다. 깊이 정보는 CU의 크기를 나타내는 정보일 수 있다. 깊이 정보는 각 CU마다 저장될 수 있다.The division of the unit may mean division of a block corresponding to the unit. The block division information may include depth information regarding a depth of a unit. The depth information may indicate the number and / or degree of division of the unit. One unit may be divided into sub-units hierarchically with depth information based on a tree structure. Each divided subunit may have depth information. Depth information may be information indicating the size of a CU. Depth information may be stored for each CU.
각 CU는 깊이 정보를 가질 수 있다. CU가 분할되면, 분할에 의해 생성된 CU들은 분할된 CU의 깊이에서 1 증가한 깊이를 가질 수 있다.Each CU may have depth information. If a CU is split, the CUs created by splitting may have a depth increased by one from the depth of the split CU.
분할 구조는 LCU(310) 내에서의, 영상을 효율적으로 부호화하기 위한, CU의 분포를 의미할 수 있다. 이러한 분포는 하나의 CU를 복수의 CU들로 분할할지 여부에 따라 결정될 수 있다. 분할된 CU들의 개수는 2, 4, 8 및 16 등을 포함하는 2 이상의 양의 정수일 수 있다. 분할에 의해 생성된 CU의 가로 크기 및 세로 크기는, 분할에 의해 생성된 CU들의 개수에 따라, 분할 전의 CU의 가로 크기 및 세로 크기보다 더 작을 수 있다.The partition structure may mean a distribution of a CU in the LCU 310 for efficiently encoding an image. This distribution may be determined according to whether to divide one CU into a plurality of CUs. The number of partitioned CUs may be two or more positive integers including 2, 4, 8, 16, and the like. The horizontal size and the vertical size of the CU generated by the split may be smaller than the horizontal size and the vertical size of the CU before the split, depending on the number of CUs created by the split.
분할된 CU는 동일한 방식으로 복수의 CU들로 재귀적으로 분할될 수 있다. 재귀적 분할에 의해, 분할된 CU의 가로 크기 및 세로 크기 중 적어도 하나의 크기가 분할 전의 CU의 가로 크기 및 세로 크기 중 적어도 하나에 비해 감소될 수 있다.The partitioned CU may be recursively divided into a plurality of CUs in the same manner. By recursive partitioning, the size of at least one of the horizontal size and vertical size of the divided CU can be reduced compared to at least one of the horizontal size and vertical size of the CU before splitting.
CU의 분할은 기정의된 깊이 또는 기정의된 크기까지 재귀적으로 이루어질 수 있다. 예를 들면, CU의 깊이는 0 내지 3의 값을 가질 수 있다. CU의 크기는 CU의 깊이에 따라 64x64로부터 8x8까지의 크기일 수 있다.Partitioning of a CU can be done recursively up to a predefined depth or a predefined size. For example, the depth of the CU may have a value of 0 to 3. The size of the CU may be from 64x64 to 8x8 depending on the depth of the CU.
예를 들면, LCU의 깊이는 0일 수 있고, 최소 코딩 유닛(Smallest Coding Unit; SCU)의 깊이는 기정의된 최대 깊이일 수 있다. 여기서, LCU는 상술된 것과 같이 최대의 코딩 유닛 크기를 가지는 CU일 수 있고, SCU는 최소의 코딩 유닛 크기를 가지는 CU일 수 있다. For example, the depth of the LCU may be zero, and the depth of the smallest coding unit (SCU) may be a predefined maximum depth. Here, the LCU may be a CU having a maximum coding unit size as described above, and the SCU may be a CU having a minimum coding unit size.
LCU(310)로부터 분할이 시작될 수 있고, 분할에 의해 CU의 가로 크기 및/또는 세로 크기가 줄어들 때마다 CU의 깊이는 1씩 증가할 수 있다. The division may begin from the LCU 310, and the depth of the CU may increase by one each time the division reduces the horizontal and / or vertical sizes of the CU.
예를 들면, 각각의 깊이 별로, 분할되지 않는 CU는 2Nx2N 크기를 가질 수 있다. 또한, 분할되는 CU의 경우, 2Nx2N 크기의 CU가 NxN 크기를 가지는 4개의 CU들로 분할될 수 있다. N의 크기는 깊이가 1씩 증가할 때마다 절반으로 감소할 수 있다. For example, for each depth, a CU that is not divided may have a size of 2N × 2N. In addition, in the case of a partitioned CU, a CU of 2N × 2N size may be divided into four CUs having an N × N size. The size of N can be reduced by half for every 1 increase in depth.
도 3을 참조하면, 깊이가 0인 LCU는 64x64 픽셀들 또는 64x64 블록일 수 있다. 0은 최소 깊이일 수 있다. 깊이가 3인 SCU는 8x8 픽셀들 또는 8x8 블록일 수 있다. 3은 최대 깊이일 수 있다. 이때, LCU인 64x64 블록의 CU는 깊이 0으로 표현될 수 있다. 32x32 블록의 CU는 깊이 1로 표현될 수 있다. 16x16 블록의 CU는 깊이 2로 표현될 수 있다. SCU인 8x8 블록의 CU는 깊이 3으로 표현될 수 있다. Referring to FIG. 3, an LCU having a depth of 0 may be 64x64 pixels or 64x64 block. 0 may be the minimum depth. An SCU of depth 3 may be 8x8 pixels or 8x8 block. 3 may be the maximum depth. In this case, a CU of a 64x64 block, which is an LCU, may be represented by depth 0. A CU of a 32x32 block may be represented by depth 1. A CU of a 16x16 block may be represented by depth 2. A CU of an 8x8 block, which is an SCU, may be represented by depth 3.
CU가 분할되는지 여부에 대한 정보는 CU의 분할 정보를 통해 표현될 수 있다. 분할 정보는 1비트의 정보일 수 있다. SCU를 제외한 모든 CU는 분할 정보를 포함할 수 있다. 예를 들면, 분할되지 않는 CU의 분할 정보의 값은 0일 수 있고, 분할되는 CU의 분할 정보의 값은 1일 수 있다.Information on whether a CU is split may be expressed through split information of the CU. The split information may be 1 bit of information. All CUs except the SCU may include partition information. For example, the value of partition information of a CU that is not divided may be 0, and the value of partition information of a CU that is divided may be 1.
예를 들면, 하나의 CU가 4 개의 CU들로 분할되는 경우, 분할에 의해 생성된 4 개의 CU들의 각 CU의 가로 크기 및 세로 크기는 각각 분할 전의 CU의 가로 크기의 절반 및 세로 크기의 절반일 수 있다. 32x32 크기의 CU가 4 개의 CU들로 분할되는 경우, 분할된 4 개의 CU들의 크기들은 16x16일 수 있다. 하나의 CU가 4 개의 CU들로 분할되는 경우, CU가 쿼드-트리 형태로 분할되었다고 할 수 있다.For example, when one CU is divided into four CUs, the horizontal size and vertical size of each CU of the four CUs generated by the split are each half the horizontal size and half the vertical size of the CU before splitting. Can be. When a 32x32 size CU is divided into four CUs, sizes of the divided four CUs may be 16x16. When one CU is divided into four CUs, it may be said that the CU is divided into quad-tree shapes.
예를 들면, 하나의 CU가 2 개의 CU들로 분할되는 경우, 분할에 의해 생성된 2 개의 CU들의 각 CU의 가로 크기 또는 세로 크기는 각각 분할 전의 CU의 가로 크기의 절반 또는 세로 크기의 절반일 수 있다. 32x32 크기의 CU가 2 개의 CU들로 세로로 분할되는 경우, 분할된 2 개의 CU들의 크기들은 16x32일 수 있다. 32x32 크기의 CU가 2 개의 CU들로 가로로 분할되는 경우, 분할된 2 개의 CU들의 크기들은 32x16일 수 있다. 하나의 CU가 2 개의 CU들로 분할되는 경우, CU가 이진-트리(binary-tree) 형태로 분할되었다고 할 수 있다.For example, when one CU is divided into two CUs, the horizontal size or vertical size of each CU of the two CUs generated by the split is half the horizontal size or half the vertical size of the CU before splitting, respectively. Can be. When a 32x32 size CU is vertically divided into two CUs, sizes of the divided two CUs may be 16x32. When a 32x32 size CU is horizontally divided into two CUs, sizes of the two divided CUs may be 32x16. When one CU is divided into two CUs, it can be said that the CU is divided into a binary-tree.
도 3의 LCU(310)에는 쿼드-트리 형태의 분할 및 이진-트리 형태의 분할이 모두 적용되었다.In the LCU 310 of FIG. 3, both quad-tree splitting and binary-tree splitting are applied.
부호화 장치(100)에서, 64x64 크기의 코딩 트리 유닛(Coding Tree Unit; CTU)은 재귀적인 쿼드-크리 구조에 의해 더 작은 복수의 CU들로 분할될 수 있다. 하나의 CU는 동일한 크기들을 갖는 4개의 CU들로 분할될 수 있다. CU는 재귀적으로 분할될 수 있으며, 각 CU는 쿼드 트리의 구조를 가질 수 있다.In the encoding apparatus 100, a 64x64 coding tree unit (CTU) may be split into a plurality of smaller CUs by a recursive quad-tree structure. One CU may be divided into four CUs having the same sizes. CUs may be recursively split, and each CU may have a quad tree structure.
CU에 대한 재귀적인 분할을 통해, 최소의 율-왜곡 비율을 발생시키는 최적의 분할 방법이 선택될 수 있다.Through recursive partitioning for a CU, an optimal partitioning method can be selected that produces the smallest rate-distortion ratio.
도 4는 코딩 유닛(CU)이 포함할 수 있는 예측 유닛(PU)의 형태를 도시한 도면이다.4 is a diagram illustrating a form of a prediction unit PU that a coding unit CU may include.
LCU로부터 분할된 CU 중 더 이상 분할되지 않는 CU는 하나 이상의 예측 유닛(Prediction Unit; PU)들로 분할될 수 있다.A CU that is no longer split among CUs split from the LCU may be split into one or more prediction units (PUs).
PU는 예측에 대한 기본 단위일 수 있다. PU는 스킵(skip) 모드, 인터 모드 및 인트라 모드 중 어느 하나로 부호화 및 복호화될 수 있다. PU는 각 모드에 따라서 다양한 형태로 분할될 수 있다. 예를 들면, 도 1을 참조하여 전술된 대상 블록 및 도 2를 참조하여 전술된 대상 블록은 PU일 수 있다.The PU may be a basic unit for prediction. The PU may be encoded and decoded in any one of a skip mode, an inter mode, and an intra mode. PU may be divided into various types according to each mode. For example, the target block described above with reference to FIG. 1 and the target block described above with reference to FIG. 2 may be a PU.
CU는 PU들로 분할되지 않을 수 있다. CU가 PU들로 분할되지 않는 경우 CU의 크기 및 PU의 크기는 같을 수 있다.A CU may not be divided into PUs. If the CU is not divided into PUs, the size of the CU and the size of the PU may be the same.
스킵 모드에서는, CU 내에 분할이 존재하지 않을 수 있다. 스킵 모드에서는 분할 없이 PU 및 CU의 크기들이 동일한 2Nx2N 모드(410)가 지원될 수 있다.In skip mode, there may be no partition in the CU. In the skip mode, 2N × 2N mode 410 having the same size of PU and CU without splitting may be supported.
인터 모드에서는, CU 내에서 8가지로 분할된 형태들이 지원될 수 있다. 예를 들면, 인터 모드에서는 2Nx2N 모드(410), 2NxN 모드(415), Nx2N 모드(420), NxN 모드(425), 2NxnU 모드(430), 2NxnD 모드(435), nLx2N 모드(440) 및 nRx2N 모드(445)가 지원될 수 있다.In the inter mode, eight divided forms in a CU may be supported. For example, in the inter mode, 2Nx2N mode 410, 2NxN mode 415, Nx2N mode 420, NxN mode 425, 2NxnU mode 430, 2NxnD mode 435, nLx2N mode 440, and nRx2N Mode 445 may be supported.
인트라 모드에서는, 2Nx2N 모드(410) 및 NxN 모드(425)가 지원될 수 있다.In intra mode, 2Nx2N mode 410 and NxN mode 425 may be supported.
2Nx2N 모드(410)에서는 2Nx2N의 크기의 PU가 부호화될 수 있다. 2Nx2N의 크기의 PU는 CU의 크기와 동일한 크기의 PU를 의미할 수 있다. 예를 들면, 2Nx2N의 크기의 PU는 64x64, 32x32, 16x16 또는 8x8의 크기를 가질 수 있다.In the 2Nx2N mode 410, a PU having a size of 2Nx2N may be encoded. A PU having a size of 2N × 2N may mean a PU having a size equal to the size of a CU. For example, a PU having a size of 2N × 2N may have a size of 64 × 64, 32 × 32, 16 × 16, or 8 × 8.
NxN 모드(425)에서는 NxN의 크기의 PU가 부호화될 수 있다.In the NxN mode 425, a PU having a size of NxN may be encoded.
예를 들면, 인트라 예측에서, PU의 크기가 8x8일 때, 4개의 분할된 PU들이 부호화될 수 있다. 분할된 PU의 크기는 4x4일 수 있다.For example, in intra prediction, when the size of the PU is 8x8, four divided PUs may be encoded. The size of the partitioned PU may be 4 × 4.
PU가 인트라 모드에 의해 부호화될 경우, PU는 복수의 인트라 예측 모드들 중 하나의 인트라 예측 모드를 사용하여 부호화될 수 있다. 예를 들면, 고 효율 비디오 코딩(High Efficiency Video Coding; HEVC) 기술에서는 35 개의 인트라 예측 모드들을 제공할 수 있고, PU는 35 개의 인트라 예측 모드들 중 하나의 인트라 예측 모드로 부호화될 수 있다.When the PU is encoded by the intra mode, the PU may be encoded using one intra prediction mode among the plurality of intra prediction modes. For example, High Efficiency Video Coding (HEVC) technology can provide 35 intra prediction modes, and the PU can be coded in one of the 35 intra prediction modes.
PU가 2Nx2N 모드(410) 및 NxN 모드(425) 중 어느 모드에 의해 부호화될 것인가는 율-왜곡 비용(rate-distortion cost)에 의해 결정될 수 있다.Which of the 2Nx2N mode 410 and NxN mode 425 is to be coded may be determined by the rate-distortion cost.
부호화 장치(100)는 2Nx2N 크기의 PU에 대해 부호화 연산을 수행할 수 있다. 여기에서, 부호화 연산은 부호화 장치(100)가 사용할 수 있는 복수의 인트라 예측 모드들의 각각으로 PU를 부호화하는 것일 수 있다. 부호화 연산을 통해 2Nx2N 크기의 PU에 대한 최적의 인트라 예측 모드가 도출될 수 있다. 최적의 인트라 예측 모드는 부호화 장치(100)가 사용할 수 있는 복수의 인트라 예측 모드들 중 2Nx2N 크기의 PU의 부호화에 대하여 최소의 율-왜곡 비용을 발생시키는 인트라 예측 모드일 수 있다.The encoding apparatus 100 may perform an encoding operation on a PU having a size of 2N × 2N. Here, the encoding operation may be to encode the PU in each of a plurality of intra prediction modes that the encoding apparatus 100 may use. Through the coding operation, an optimal intra prediction mode for a 2N × 2N size PU may be derived. The optimal intra prediction mode may be an intra prediction mode that generates a minimum rate-distortion cost for encoding a 2N × 2N size PU among a plurality of intra prediction modes that can be used by the encoding apparatus 100.
또한, 부호화 장치(100)는 NxN으로 분할된 PU들의 각 PU에 대해서 순차적으로 부호화 연산을 수행할 수 있다. 여기에서, 부호화 연산은 부호화 장치(100)가 사용할 수 있는 복수의 인트라 예측 모드들의 각각으로 PU를 부호화하는 것일 수 있다. 부호화 연산을 통해 NxN 크기의 PU에 대한 최적의 인트라 예측 모드가 도출될 수 있다. 최적의 인트라 예측 모드는 부호화 장치(100)가 사용할 수 있는 복수의 인트라 예측 모드들 중 NxN 크기의 PU의 부호화에 대하여 최소의 율-왜곡 비용을 발생시키는 인트라 예측 모드일 수 있다.In addition, the encoding apparatus 100 may sequentially perform encoding operations on each PU of the PUs divided by N × N. Here, the encoding operation may be to encode the PU in each of a plurality of intra prediction modes that the encoding apparatus 100 may use. Through the coding operation, an optimal intra prediction mode for a N × N size PU may be derived. The optimal intra prediction mode may be an intra prediction mode that generates a minimum rate-distortion cost for encoding of a PU of an N × N size among a plurality of intra prediction modes that can be used by the encoding apparatus 100.
부호화 장치(100)는 2Nx2N 크기의 PU의 율-왜곡 비용 및 NxN 크기의 PU들의 율-왜곡 비용들의 비교에 기반하여 2Nx2N 크기의 PU 및 NxN 크기의 PU들 중 어느 것을 부호화할 지를 결정할 수 있다.The encoding apparatus 100 may determine which of 2Nx2N size PU and NxN size PU to encode based on a comparison of the rate-distortion cost of the 2Nx2N size PU and the rate-distortion costs of the NxN size PUs.
하나의 CU는 하나 이상의 PU들로 분할될 수 있고, PU도 복수의 PU들로 분할될 수 있다.One CU may be divided into one or more PUs, and a PU may also be divided into a plurality of PUs.
예를 들면, 하나의 PU가 4 개의 PU들로 분할되는 경우, 분할에 의해 생성된 4 개의 PU들의 각 PU의 가로 크기 및 세로 크기는 각각 분할 전의 PU의 가로 크기의 절반 및 세로 크기의 절반일 수 있다. 32x32 크기의 PU가 4 개의 PU들로 분할되는 경우, 분할된 4 개의 PU들의 크기들은 16x16일 수 있다. 하나의 PU가 4 개의 PU들로 분할되는 경우, PU가 쿼드-트리 형태로 분할되었다고 할 수 있다.For example, when one PU is divided into four PUs, the horizontal size and vertical size of each PU of the four PUs generated by the division are each half of the horizontal size and half of the vertical size of the PU before splitting. Can be. When a 32x32 sized PU is divided into four PUs, the sizes of the divided four PUs may be 16x16. When one PU is divided into four PUs, it can be said that the PU is divided into quad-tree shapes.
예를 들면, 하나의 PU가 2 개의 PU들로 분할되는 경우, 분할에 의해 생성된 2 개의 PU들의 각 PU의 가로 크기 또는 세로 크기는 각각 분할 전의 PU의 가로 크기의 절반 또는 세로 크기의 절반일 수 있다. 32x32 크기의 PU가 2 개의 PU들로 세로로 분할되는 경우, 분할된 2 개의 PU들의 크기들은 16x32일 수 있다. 32x32 크기의 PU가 2 개의 PU들로 가로로 분할되는 경우, 분할된 2 개의 PU들의 크기들은 32x16일 수 있다. 하나의 PU가 2 개의 PU들로 분할되는 경우, PU가 이진-트리 형태로 분할되었다고 할 수 있다.For example, when one PU is divided into two PUs, the horizontal size or vertical size of each PU of the two PUs generated by the split is half the horizontal size or half the vertical size of the PU before splitting, respectively. Can be. When a 32x32 sized PU is vertically divided into two PUs, the sizes of the divided two PUs may be 16x32. When a 32x32 sized PU is horizontally divided into two PUs, the sizes of the two divided PUs may be 32x16. When one PU is divided into two PUs, it can be said that the PU is divided into a binary-tree form.
도 5는 코딩 유닛(CU)에 포함될 수 있는 변환 유닛(TU)의 형태를 도시한 도면이다.FIG. 5 is a diagram illustrating a form of a transform unit (TU) that may be included in a coding unit (CU).
변환 유닛(Transform Unit; TU)은 CU 내에서 변환, 양자화, 역변환, 역양자화, 엔트로피 부호화 및 엔트로피 복호화의 과정을 위해 사용되는 기본 단위일 수 있다.A transform unit (TU) may be a basic unit used for a process of transform, quantization, inverse transform, inverse quantization, entropy encoding, and entropy decoding in a CU.
TU는 정사각형 형태 또는 직사각형 형태를 가질 수 있다. TU의 형태는 CU의 크기 및/또는 형태에 의존하여 결정될 수 있다.The TU may have a square shape or a rectangular shape. The shape of the TU may be determined depending on the size and / or shape of the CU.
LCU로부터 분할된 CU 중, 더 이상 CU들로 분할되지 않는 CU는 하나 이상의 TU들로 분할될 수 있다. 이때, TU의 분할 구조는 쿼드-트리(quad-tree) 구조일 수 있다. 예컨대, 도 5에서 도시된 것과 같이, 하나의 CU(510)가 쿼드-트리 구조에 따라서 한 번 혹은 그 이상 분할될 수 있다. 분할을 통해, 하나의 CU(510)는 다양한 크기의 TU들로 구성될 수 있다.Of the CUs partitioned from the LCU, a CU that is no longer split into CUs may be split into one or more TUs. In this case, the partition structure of the TU may be a quad-tree structure. For example, as shown in FIG. 5, one CU 510 may be divided one or more times according to the quad-tree structure. Through division, one CU 510 may be configured with TUs of various sizes.
하나의 CU가 2 번 이상 분할될 경우, CU는 재귀적으로 분할되는 것으로 볼 수 있다. 분할을 통해, 하나의 CU는 다양한 크기들을 갖는 TU들로 구성될 수 있다.If a CU is split more than once, the CU can be considered to be split recursively. Through division, one CU may be composed of TUs having various sizes.
또는, 하나의 CU는 CU를 분할하는 수직 선 및/또는 수평 선의 개수에 기반하여 하나 이상의 TU들로 분할될 수도 있다.Alternatively, one CU may be divided into one or more TUs based on the number of vertical lines and / or horizontal lines that divide the CU.
CU는 대칭형의 TU들로 분할될 수 있고, 비대칭형의 TU들로 분할될 수도 있다. 비대칭형의 TU들로의 분할을 위해, TU의 크기 및/또는 형태에 대한 정보가 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수 있다. 또는, TU의 크기 및/또는 형태는 CU의 크기 및/또는 형태에 대한 정보로부터 유도될 수 있다.The CU may be divided into symmetrical TUs and may be divided into asymmetrical TUs. For splitting into asymmetric TUs, information about the size and / or shape of the TU may be signaled from the encoding apparatus 100 to the decoding apparatus 200. Alternatively, the size and / or shape of the TU may be derived from information about the size and / or shape of the CU.
CU는 TU들로 분할되지 않을 수 있다. CU가 TU들로 분할되지 않는 경우 CU의 크기 및 TU의 크기는 같을 수 있다.A CU may not be divided into TUs. If the CU is not divided into TUs, the size of the CU and the size of the TU may be the same.
하나의 CU는 하나 이상의 TU들로 분할될 수 있고, TU도 복수의 TU들로 분할될 수 있다.One CU may be divided into one or more TUs, and the TU may also be divided into a plurality of TUs.
예를 들면, 하나의 TU가 4 개의 TU들로 분할되는 경우, 분할에 의해 생성된 4 개의 TU들의 각 TU의 가로 크기 및 세로 크기는 각각 분할 전의 TU의 가로 크기의 절반 및 세로 크기의 절반일 수 있다. 32x32 크기의 TU가 4 개의 TU들로 분할되는 경우, 분할된 4 개의 TU들의 크기들은 16x16일 수 있다. 하나의 TU가 4 개의 TU들로 분할되는 경우, TU가 쿼드-트리 형태로 분할되었다고 할 수 있다.For example, if one TU is divided into four TUs, the horizontal size and vertical size of each TU of the four TUs generated by the division are each half the horizontal size and half the vertical size of the TU before the splitting. Can be. When a 32x32 sized TU is divided into four TUs, the sizes of the divided four TUs may be 16x16. When one TU is divided into four TUs, it can be said that the TU is divided into quad-tree shapes.
예를 들면, 하나의 TU가 2 개의 TU들로 분할되는 경우, 분할에 의해 생성된 2 개의 TU들의 각 TU의 가로 크기 또는 세로 크기는 각각 분할 전의 TU의 가로 크기의 절반 또는 세로 크기의 절반일 수 있다. 32x32 크기의 TU가 2 개의 TU들로 세로로 분할되는 경우, 분할된 2 개의 TU들의 크기들은 16x32일 수 있다. 32x32 크기의 TU가 2 개의 TU들로 가로로 분할되는 경우, 분할된 2 개의 TU들의 크기들은 32x16일 수 있다. 하나의 TU가 2 개의 TU들로 분할되는 경우, TU가 이진-트리 형태로 분할되었다고 할 수 있다.For example, when one TU is divided into two TUs, the horizontal size or vertical size of each TU of the two TUs generated by the division is half the horizontal size or half the vertical size of the TU before the splitting, respectively. Can be. When a 32x32 sized TU is vertically divided into two TUs, the sizes of the divided two TUs may be 16x32. When a 32x32 sized TU is horizontally divided into two TUs, the sizes of the two divided TUs may be 32x16. When one TU is divided into two TUs, it can be said that the TU is divided into a binary-tree form.
도 5에서 도시된 것 외의 다른 방식으로 CU가 분할될 수도 있다.The CU may be partitioned in other ways than shown in FIG. 5.
예를 들면, 하나의 CU는 3 개의 CU들로 분할될 수 있다. 분할된 3 개의 CU들의 가로 크기 또는 세로 크기는 각각 분할전의 CU의 가로 크기 또는 세로 크기의 1/4, 1/2 및 1/4일 수 있다.For example, one CU may be divided into three CUs. The horizontal size or vertical size of the divided three CUs may be 1/4, 1/2, and 1/4 of the horizontal size or vertical size of the CU before splitting, respectively.
일 예로, 32x32 크기의 CU가 3 개의 CU들로 세로로 분할되는 경우, 분할된 3 개의 CU들의 크기들은 각각 8x32, 16x32 및 8x32일 수 있다. 이와 같이, 하나의 CU가 3 개의 CU들로 분할되는 경우, CU는 삼진 트리의 형태로 분할되었다고 볼 수 있다.For example, when a 32x32 size CU is vertically divided into three CUs, sizes of the divided three CUs may be 8x32, 16x32, and 8x32. As such, when one CU is divided into three CUs, the CU may be regarded as being divided into a ternary tree.
예시된 쿼드 트리의 형태의 분할, 이진 트리의 형태의 분할 및 삼진 트리의 형태의 분할 중 하나가 CU의 분할을 위해 적용될 수 있으며, 복수 개의 분할 방식들이 함께 조합되어 CU의 분할을 위해 사용될 수도 있다. 이 때, 복수 개의 분할 방식들이 조합되어 사용되는 경우를 복합 트리의 형태의 분할이라고 칭할 수 있다.The illustrated division of the quad tree, division of the binary tree, and division of the ternary tree may be applied for division of the CU, and a plurality of division schemes may be combined together to be used for division of the CU. . In this case, a case in which a plurality of partitioning methods are used in combination may be referred to as partitioning of a complex tree.
도 6은 일 예에 따른 블록의 분할을 나타낸다.6 illustrates partitioning of a block according to an example.
영상의 부호화 및/또는 복호화의 과정에서, 도 6과 같이 대상 블록이 분할될 수 있다.In the process of encoding and / or decoding an image, a target block may be divided as illustrated in FIG. 6.
대상 블록의 분할을 위해, 분할 정보를 나타내는 지시자가 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수 있다. 분할 정보는 대상 블록이 어떻게 분할되는가를 나타내는 정보일 수 있다.In order to divide the target block, an indicator indicating the split information may be signaled from the encoding apparatus 100 to the decoding apparatus 200. The partitioning information may be information indicating how the target block is divided.
분할 정보는 분할 플래그(이하, "split_flag"로 표시), 쿼드-이진 플래그(이하, "QB_flag"로 표시), 쿼드 트리 플래그(이하, "quadtree_flag"로 표시), 이진 트리 플래그(이하, "binarytree_flag"로 표시) 및 이진 타입 플래그(이하, "Btype_flag"로 표시) 중 하나 이상일 수 있다.The splitting information is divided into a flag (hereinafter referred to as "split_flag"), a quad-binary flag (hereinafter referred to as "QB_flag"), a quad tree flag (hereinafter referred to as "quadtree_flag"), a binary tree flag (hereinafter referred to as "binarytree_flag" And a binary type flag (hereinafter, denoted as "Btype_flag").
split_flag는 블록이 분할되었는지 여부를 나타내는 플래그일 수 있다. 예를 들면, split_flag의 값 1은 블록이 분할됨을 나타낼 수 있다. split_flag의 값 0은 블록이 분할되지 않음을 나타낼 수 있다.split_flag may be a flag indicating whether a block is split. For example, a value of split_flag 1 may indicate that the block is split. A value of 0 of split_flag may represent that the block is not split.
QB_flag는 블록이 쿼드 트리 형태 및 이진 트리 형태 중 어떤 형태로 분할되는가를 나타내는 플래그일 수 있다. 예를 들면, QB_flag의 값 0은 블록이 쿼드 트리 형태로 분할됨을 나타낼 수 있다. QB_flag의 값 1은 블록이 이진 트리 형태로 분할됨을 나타낼 수 있다. 또는, QB_flag의 값 0은 블록이 이진 트리 형태로 분할됨을 나타낼 수 있다. QB_flag의 값 1은 블록이 쿼드 트리 형태로 분할됨을 나타낼 수 있다.The QB_flag may be a flag indicating whether the block is divided into a quad tree form and a binary tree form. For example, a value 0 of QB_flag may indicate that the block is divided into quad tree shapes. A value of 1 of QB_flag may indicate that the block is divided into a binary tree. Alternatively, the value 0 of QB_flag may represent that the block is divided into a binary tree. A value of 1 of QB_flag may indicate that the block is divided into quad tree shapes.
quadtree_flag는 블록이 쿼드 트리 형태로 분할되는지 여부를 나타내는 플래그일 수 있다. 예를 들면, quadtree_flag의 값 1은 블록이 쿼드 트리 형태로 분할됨을 나타낼 수 있다. quadtree_flag의 값 0은 블록이 쿼드 트리 형태로 분할되지 않음을 나타낼 수 있다.quadtree_flag may be a flag indicating whether a block is divided into quad tree shapes. For example, a value of quadtree_flag 1 may indicate that a block is divided into quad tree shapes. A value of zero of the quadtree_flag may represent that the block is not divided into quadtrees.
binarytree_flag는 블록이 이진 트리 형태로 분할되었는지 여부를 나타내는 플래그일 수 있다. 예를 들면, binarytree_flag의 값 1은 블록이 이진 트리 형태로 분할됨을 나타낼 수 있다. binarytree_flag의 값 0은 블록이 이진 트리 형태로 분할되지 않음을 나타낼 수 있다.The binarytree_flag may be a flag indicating whether a block is divided into a binary tree. For example, a value of 1 of binarytree_flag may indicate that a block is divided into a binary tree. A value of 0 of binarytree_flag may represent that the block is not divided into a binary tree.
Btype_flag는 블록이 이진 트리 형태로 분할되는 경우, 수직 분할 및 수평 분할 중 어떤 것으로 분할되었는지를 나타내는 플래그일 수 있다. 예를 들면, Btype_flag의 값 0은 블록이 수평 방향으로 분할됨을 나타낼 수 있다. Btype_flag의 값 1은 블록이 수직 방향으로 분할됨을 나타낼 수 있다. 또는, Btype_flag의 값 0은 블록이 수직 방향으로 분할되었음을 나타낼 수 있다. Btype_flag의 값 1은 블록이 수평 방향으로 분할되었음을 나타낼 수 있다.The Btype_flag may be a flag indicating whether the block is split into a vertical split or a horizontal split when the block is split into a binary tree. For example, the value 0 of Btype_flag may indicate that the block is divided in the horizontal direction. A value of 1 of Btype_flag may indicate that the block is divided in the vertical direction. Alternatively, the value 0 of Btype_flag may indicate that the block is divided in the vertical direction. A value of 1 of Btype_flag may indicate that the block is divided in the horizontal direction.
예를 들면, 도 6의 블록에 대한 분할 정보는 아래의 표 1과 같이 quadtree_flag, binarytree_flag 및 Btype_flag 중 적어도 하나를 시그널링함으로써 유도할 수 있다.For example, the split information for the block of FIG. 6 may be derived by signaling at least one of quadtree_flag, binarytree_flag, and Btype_flag as shown in Table 1 below.
[표 1]TABLE 1
예를 들면, 도 6의 블록에 대한 분할 정보는 아래의 표 2와 같이 split_flag, QB_flag 및 Btype_flag 중 적어도 하나를 시그널링함으로써 유도할 수 있다.For example, the split information for the block of FIG. 6 may be derived by signaling at least one of split_flag, QB_flag, and Btype_flag as shown in Table 2 below.
[표 2]TABLE 2
분할 방법은 블록의 크기 및/또한 형태에 따라 쿼드 트리로만 제한될 수 있고, 또는 이진 트리로만 제한될 수 있다. 이러한 제한이 적용되는 경우, split_flag는 쿼드 트리 형태로의 분할 여부를 나타내는 플래그 또는 이진 트리 형태로의 분할 여부를 나타내는 플래그일 수 있다. 블록의 크기 및 형태는 블록의 깊이 정보에 따라서 유도될 수 있으며, 깊이 정보는 부호화 장치(100)로부터 복호화 장치(200)로 시그널링 될 수 있다. The partitioning method may be limited to quad trees only, or only to binary trees, depending on the size and / or shape of the block. When this restriction is applied, the split_flag may be a flag indicating whether to split into a quad tree or a flag indicating whether to split into a binary tree. The size and shape of the block may be derived according to the depth information of the block, and the depth information may be signaled from the encoding apparatus 100 to the decoding apparatus 200.
블록의 크기가 특정된 범위 내에 속하는 경우, 쿼드 트리 형태의 분할만이 가능할 수 있다. 예를 들면, 특정된 범위는 쿼드 트리 형태의 분할만이 가능한 최대 블록 크기 및 최소 블록 크기 중 적어도 하나에 의해 정의될 수 있다.If the size of the block falls within the specified range, only quad tree type partitioning may be possible. For example, the specified range may be defined by at least one of the maximum block size and the minimum block size that can only be divided in quad tree form.
쿼트 트리 형태의 분할만이 가능한 최대 블록 크기 및/또는 최소 블록 크기를 나타내는 정보는 비트스트림을 통해 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수 있다. 또한, 이러한 정보는 비디오, 시퀀스, 픽처 및 슬라이스(또는, 세그먼트) 중 적어도 하나의 단위에 대하여 시그널링될 수 있다.Information representing the maximum block size and / or the minimum block size that can be divided only by the quart tree form may be signaled from the encoding apparatus 100 to the decoding apparatus 200 through the bitstream. In addition, such information may be signaled for at least one unit of video, sequence, picture, and slice (or segment).
또는, 최대 블록 크기 및/또는 최소 블록 크기는 부호화 장치(100) 및 복호화 장치(200)에서 기정의된 고정된 크기일 수 있다. 예를 들면, 블록의 크기가 64x64의 이상이며, 256x256의 이하인 경우에는 쿼드 트리 형태의 분할만이 가능할 수 있다. 이러한 경우, split_flag는 쿼드 트리 형태로의 분할 여부를 나타내는 플래그일 수 있다.Alternatively, the maximum block size and / or the minimum block size may be a fixed size predefined by the encoding apparatus 100 and the decoding apparatus 200. For example, if the block size is 64x64 or more and 256x256 or less, only quad tree-type partitioning may be possible. In this case, split_flag may be a flag indicating whether to split into quad tree form.
블록의 크기가 특정된 범위 내에 속하는 경우, 이진 트리 형태의 분할만이 가능할 수 있다. 여기서, 예를 들면, 특정된 범위는 이진 트리 형태의 분할만이 가능한 최대 블록 크기 및 최소 블록 크기 중 적어도 하나에 의해 정의될 수 있다.If the size of the block falls within the specified range, only partitioning in the form of a binary tree may be possible. Here, for example, the specified range may be defined by at least one of the maximum block size and the minimum block size that can be divided only in the form of a binary tree.
이진 트리 형태의 분할만이 가능한 최대 블록 크기 및/또는 최소 블록 크기를 나타내는 정보는 비트스트림을 통해 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수 있다. 또한, 이러한 정보는 시퀀스, 픽처 및 슬라이스(또는, 세그먼트) 중 적어도 하나의 단위에 대하여 시그널링될 수 있다.Information representing a maximum block size and / or a minimum block size that can be divided only in a binary tree form may be signaled from the encoding apparatus 100 to the decoding apparatus 200 through a bitstream. In addition, such information may be signaled for at least one unit of a sequence, a picture, and a slice (or segment).
또는, 최대 블록 크기 및/또는 최소 블록 크기는 부호화 장치(100) 및 복호화 장치(200)에서 기정의된 고정된 크기일 수 있다. 예를 들면, 블록의 크기가 8x8의 이상이며, 16x16의 이하인 경우에는 이진 트리 형태의 분할만이 가능할 수 있다. 이러한 경우, split_flag는 이진 트리 형태로의 분할 여부를 나타내는 플래그일 수 있다.Alternatively, the maximum block size and / or the minimum block size may be a fixed size predefined by the encoding apparatus 100 and the decoding apparatus 200. For example, if the size of the block is greater than or equal to 8x8 and less than or equal to 16x16, only binary tree partitioning may be possible. In this case, split_flag may be a flag indicating whether to split into a binary tree.
블록의 분할은 이전의 분할에 의해 제한될 수 있다. 예를 들면, 블록이 이진 트리 형태로 분할되어 복수의 분할된 블록들이 생성된 경우, 각 분할된 블록은 이진 트리 형태로만 추가로 분할될 수 있다.Partitioning of blocks may be limited by previous partitioning. For example, when a block is divided into a binary tree to generate a plurality of divided blocks, each divided block may be further divided into a binary tree only.
분할된 블록의 가로 크기 또는 세로 크기가 더 이상 분할될 수 없는 크기에 해당하는 경우 전술된 지시자는 시그널링되지 않을 수 있다.The above-described indicator may not be signaled if the horizontal size or vertical size of the divided block corresponds to a size that can no longer be divided.
도 7은 인트라 예측 과정의 실시예를 설명하기 위한 도면이다.7 is a diagram for explaining an embodiment of an intra prediction process.
도 7의 그래프의 중심으로부터 외곽으로의 화살표들은 인트라 예측 모드들의 예측 방향들을 나타낼 수 있다. 또한, 화살표에 근접하게 표시된 숫자는 인트라 예측 모드 또는 인트라 예측 모드의 예측 방향에 할당된 모드 값의 일 예를 나타낼 수 있다.Arrows outward from the center of the graph of FIG. 7 may indicate prediction directions of intra prediction modes. In addition, the number displayed near the arrow may represent an example of a mode value allocated to the intra prediction mode or the prediction direction of the intra prediction mode.
인트라 부호화 및/또는 복호화는 대상 블록의 이웃의 유닛의 참조 샘플을 이용하여 수행될 수 있다. 이웃의 블록은 이웃의 재구축된 블록일 수 있다. 예를 들면, 인트라 부호화 및/또는 복호화는 이웃의 재구축된 블록이 포함하는 참조 샘플의 값 또는 코딩 파라미터를 이용하여 수행될 수 있다.Intra encoding and / or decoding may be performed using reference samples of units in neighboring units of the target block. The neighboring block may be a neighboring rebuilt block. For example, intra encoding and / or decoding may be performed using a coding parameter or a value of a reference sample included in a neighboring reconstructed block.
부호화 장치(100) 및/또는 복호화 장치(200)는 대상 영상 내의 샘플의 정보에 기초하여 대상 블록에 대한 인트라 예측을 수행함으로써 예측 블록을 생성할 수 있다. 인트라 예측을 수행할 때, 부호화 장치(100) 및/또는 복호화 장치(200)는 대상 영상 내의 샘플의 정보에 기반하여 인트라 예측을 수행함으로써 대상 블록에 대한 예측 블록을 생성할 수 있다. 인트라 예측을 수행할 때, 부호화 장치(100) 및/또는 복호화 장치(200)는 적어도 하나의 재구축된 참조 샘플에 기반하여 방향성 예측 및/또는 비방향성 예측을 수행할 수 있다.The encoding apparatus 100 and / or the decoding apparatus 200 may generate the prediction block by performing intra prediction on the target block based on the information of the sample in the target image. When performing intra prediction, the encoding apparatus 100 and / or the decoding apparatus 200 may generate a prediction block for the target block by performing intra prediction based on information of a sample in the target image. When performing intra prediction, the encoding apparatus 100 and / or the decoding apparatus 200 may perform directional prediction and / or non-directional prediction based on at least one reconstructed reference sample.
예측 블록은 인트라 예측의 수행의 결과로 생성된 블록을 의미할 수 있다. 예측 블록은 CU, PU 및 TU 중 적어도 하나에 해당할 수 있다.The prediction block may mean a block generated as a result of performing intra prediction. The prediction block may correspond to at least one of a CU, a PU, and a TU.
예측 블록의 단위는 CU, PU 및 TU 중 적어도 하나의 크기일 수 있다. 예측 블록은 2Nx2N의 크기 또는 NxN의 크기를 갖는, 정사각형의 형태를 가질 수 있다. NxN의 크기는 4x4, 8x8, 16x16, 32x32 및 64x64 등을 포함할 수 있다.The unit of a prediction block may be the size of at least one of a CU, a PU, and a TU. The prediction block may have a square shape, having a size of 2N × 2N or a size of N × N. The size of NxN may include 4x4, 8x8, 16x16, 32x32 and 64x64.
또는, 예측 블록은 2x2, 4x4, 8x8, 16x16, 32x32 또는 64x64 등의 크기를 갖는 정사각형의 형태의 블록일 수 있고, 2x8, 4x8, 2x16, 4x16 및 8x16 등의 크기를 갖는 직사각형 모양의 블록일 수도 있다.Alternatively, the prediction block may be a block in the form of a square having a size of 2x2, 4x4, 8x8, 16x16, 32x32, or 64x64, or a block of a rectangular shape having a size of 2x8, 4x8, 2x16, 4x16, and 8x16. have.
인트라 예측은 대상 블록에 대한 인트라 예측 모드에 따라 수행될 수 있다. 대상 블록이 가질 수 있는 인트라 예측 모드의 개수는 기정의된 고정된 값일 수 있으며, 예측 블록의 속성에 따라 다르게 결정된 값일 수 있다. 예를 들면, 예측 블록의 속성은 예측 블록의 크기 및 예측 블록의 타입 등을 포함할 수 있다.Intra prediction may be performed according to an intra prediction mode for a target block. The number of intra prediction modes that the target block may have may be a predetermined fixed value or may be a value determined differently according to the properties of the prediction block. For example, the attributes of the prediction block may include the size of the prediction block and the type of the prediction block.
예를 들면, 인트라 예측 모드의 개수는 예측 블록의 크기에 관계없이 35개로 고정될 수 있다. 또는, 예를 들면, 인트라 예측 모드의 개수는 3, 5, 9, 17, 34, 35 또는 36 등일 수 있다.For example, the number of intra prediction modes may be fixed to 35 regardless of the size of the prediction block. Or, for example, the number of intra prediction modes may be 3, 5, 9, 17, 34, 35, 36, or the like.
인트라 예측 모드는 비방향성(non-directional) 모드 또는 방향성(directional) 모드일 수 있다. 예를 들면, 인트라 예측 모드는 도 7에서 도시된 것과 같이 2개의 비방향성 모드들 및 33개의 방향성 모드들을 포함할 수 있다.The intra prediction mode may be a non-directional mode or a directional mode. For example, the intra prediction mode may include two non-directional modes and 33 directional modes as shown in FIG. 7.
2개의 비방향성 모드들은 디씨(DC) 모드 및 플래너(Planar) 모드를 포함할 수 있다.Two non-directional modes may include a DC mode and a planar mode.
방향성 모드들은 특정한 방향 또는 특정한 각도를 갖는 예측 모드일 수 있다.The directional modes may be prediction modes with a specific direction or a specific angle.
인트라 예측 모드는 모드 번호, 모드 값 및 모드 각도 중 적어도 하나로 표현될 수 있다. 인트라 예측 모드의 개수는 M 개일 수 있다. M은 1 이상일 수 있다. 말하자면, 인트라 예측 모드는 비방향성 모드의 개수 및 방향성 모드의 개수를 포함하는 M 개일 수 있다.The intra prediction mode may be represented by at least one of a mode number, a mode value, and a mode angle. The number of intra prediction modes may be M pieces. M may be one or more. In other words, the intra prediction mode may be M pieces including the number of non-directional modes and the number of directional modes.
인트라 예측 모드의 개수는 블록의 크기 및/또는 색 성분(color component)에 관계없이 M 개로 고정될 수 있다. 예를 들면, 인트라 예측 모드의 개수는, 블록의 크기와 무관하게, 35 또는 67 중 하나로 고정될 수 있다.The number of intra prediction modes may be fixed to M regardless of the size and / or color component of the block. For example, the number of intra prediction modes may be fixed to one of 35 or 67, regardless of the size of the block.
또는, 인트라 예측 모드의 개수는 블록의 크기 및/또는 색 성분의 타입에 따라 상이할 수 있다.Alternatively, the number of intra prediction modes may differ depending on the size of the block and / or the type of color component.
예를 들면, 블록의 크기가 커질수록 인트라 예측 모드의 개수는 많아질 수 있다. 또는, 블록의 크기가 커질수록 인트라 예측 모드의 개수는 적어질 수 있다. 블록의 크기가 4x4 또는 8x8인 경우에는 인트라 예측 모드의 개수는 67일 수 있다. 블록의 크기가 16x16인 경우에는 인트라 예측 모드의 개수는 35일 수 있다. 블록의 크기가 32x32인 경우에는 인트라 예측 모드의 개수는 19일 수 있다. 블록의 크기가 64x64인 경우에는 인트라 예측 모드의 개수는 7일 수 있다.For example, as the size of a block increases, the number of intra prediction modes may increase. Alternatively, as the size of the block increases, the number of intra prediction modes may decrease. When the size of the block is 4x4 or 8x8, the number of intra prediction modes may be 67. When the size of the block is 16x16, the number of intra prediction modes may be 35. When the size of the block is 32x32, the number of intra prediction modes may be 19. When the size of the block is 64x64, the number of intra prediction modes may be 7.
예를 들면, 색 성분이 루마(luma) 신호인지 아니면 크로마(chroma) 신호인지에 따라 인트라 예측 모드의 개수가 다를 수 있다. 또는 루마 성분 블록의 인트라 예측 모드의 개수는 크로마 성분 블록의 인트라 예측 모드의 개수보다 많을 수 있다.For example, the number of intra prediction modes may vary depending on whether the color component is a luma signal or a chroma signal. Alternatively, the number of intra prediction modes of the luma component block may be greater than the number of intra prediction modes of the chroma component block.
예를 들면, 모드 값이 26인 수직 모드의 경우, 참조 샘플의 픽셀 값에 기반하여 수직 방향으로 예측이 수행될 수 있다. 예를 들면, 모드 값이 10인 수평 모드의 경우, 참조 샘플의 픽셀 값에 기반하여 수평 방향으로 예측이 수행될 수 있다.For example, in the vertical mode having a mode value of 26, prediction may be performed in the vertical direction based on the pixel value of the reference sample. For example, in the horizontal mode having a mode value of 10, prediction may be performed in the horizontal direction based on the pixel value of the reference sample.
전술된 모드 이외의 방향성 모드인 경우에도 부호화 장치(100) 및 복호화 장치(200)는 방향성 모드에 대응하는 각도에 따라 참조 샘플을 이용하여 대상 유닛에 대한 인트라 예측을 수행할 수 있다.Even in the directional mode other than the above-described mode, the encoding apparatus 100 and the decoding apparatus 200 may perform intra prediction on the target unit using the reference sample according to the angle corresponding to the directional mode.
수직 모드의 우측에 위치한 인트라 예측 모드는 수직 우측 모드(vertical-right mode)로 명명될 수 있다. 수평 모드의 하단에 위치한 인트라 예측 모드는 수형 하단 모드(horizontal-below mode)로 명명될 수 있다. 예를 들면, 도 7에서, 모드 값이 27, 28, 29, 30, 31, 32, 33 및 34 중 하나인 인트라 예측 모드들은 수직 우측 모드들(613)일 수 있다. 모드 값이 2, 3, 4, 5, 6, 7, 8 및 9 중 하나인 인트라 예측 모드들은 수평 하단 모드들(616)일 수 있다.The intra prediction mode located on the right side of the vertical mode may be referred to as a vertical right mode. The intra prediction mode located at the bottom of the horizontal mode may be referred to as a horizontal-below mode. For example, in FIG. 7, intra prediction modes in which the mode value is one of 27, 28, 29, 30, 31, 32, 33, and 34 may be vertical right modes 613. Intra prediction modes with a mode value of one of 2, 3, 4, 5, 6, 7, 8, and 9 may be horizontal bottom modes 616.
비방향성 모드는 디씨(DC) 모드 및 플래너(planar) 모드를 포함할 수 있다. 예를 들면, 디씨 모드의 모드 값은 1일 수 있다. 플래너 모드의 모드 값은 0일 수 있다.The non-directional mode may include a DC mode and a planar mode. For example, the mode value of the DC mode may be 1. The mode value of the planner mode may be zero.
방향성 모드는 각진(angular) 모드를 포함할 수 있다. 복수의 인트라 예측 모드들 중 DC 모드 및 플래너 모드를 제외한 나머지의 모드는 방향성 모드일 수 있다.The directional mode may include an angular mode. Among the plurality of intra prediction modes, a mode other than the DC mode and the planner mode may be a directional mode.
인트라 예측 모드가 DC 모드인 경우, 복수의 참조 샘플들의 픽셀 값들의 평균에 기반하여 예측 블록이 생성될 수 있다. 예를 들면, 예측 블록의 픽셀의 값은 복수의 참조 샘플들의 픽셀 값들의 평균에 기반하여 결정될 수 있다.When the intra prediction mode is the DC mode, the prediction block may be generated based on an average of pixel values of the plurality of reference samples. For example, the value of a pixel of the prediction block may be determined based on an average of pixel values of the plurality of reference samples.
전술된 인트라 예측 모드들의 개수 및 각 인트라 예측 모드들의 모드 값은 단지 예시적인 것일 수 있다. 전술된 인트라 예측 모드들의 개수 및 각 인트라 예측 모드들의 모드 값은 실시예, 구현 및/또는 필요에 따라 다르게 정의될 수도 있다.The number of intra prediction modes described above and the mode value of each intra prediction modes may be exemplary only. The number of intra prediction modes described above and the mode value of each intra prediction modes may be defined differently according to an embodiment, implementation, and / or need.
대상 블록에 대한 인트라 예측을 수행하기 위해 복원된 이웃 블록에 포함되는 샘플들이 대상 블록의 참조 샘플로서 이용될 수 있는지 여부를 검사하는 단계가 수행될 수 있다. 이웃 블록의 샘플들 중 대상 블록의 참조 샘플로 이용할 수 없는 샘플이 존재하는 경우, 복원된 이웃 블록에 포함된 샘플들 중 적어도 하나의 샘플 값을 사용하는 복사 및/또는 보간에 의해 생성된 값이 참조 샘플로 이용할 수 없는 샘플의 샘플 값으로 대체될 수 있다. 복사 및/또는 보간에 의해 생성된 값이 샘플의 샘플 값으로 대체되면, 샘플이 대상 블록의 참조 샘플로서 이용될 수 있다.Checking whether samples included in the reconstructed neighboring block can be used as a reference sample of the target block to perform intra prediction on the target block may be performed. If there are samples of the neighboring block that are not available as reference samples of the target block, the values generated by copying and / or interpolation using at least one sample value of the samples included in the restored neighboring block are It can be replaced with sample values of samples that are not available as reference samples. If the value generated by copying and / or interpolation is replaced with the sample value of the sample, the sample can be used as a reference sample of the target block.
인트라 예측 시, 인트라 예측 모드 및 대상 블록의 크기 중 적어도 하나에 기반하여 참조 샘플 또는 예측 샘플 중 적어도 하나에 필터가 적용될 수 있다.In intra prediction, a filter may be applied to at least one of a reference sample or a prediction sample based on at least one of an intra prediction mode and a size of a target block.
참조 샘플 또는 예측 샘플 중 적어도 하나에 적용되는 필터의 종류는 대상 블록의 인트라 예측 모드, 대상 블록의 크기 및 대상 블록의 형태 중 적어도 하나에 따라서 다를 수 있다. 필터의 종류는 필터 탭의 개수, 필터 계수의 값 및 필터 강도 중 하나 이상에 따라서 분류될 수 있다.The type of filter applied to at least one of the reference sample or the prediction sample may vary according to at least one of the intra prediction mode of the target block, the size of the target block, and the shape of the target block. Types of filters may be classified according to one or more of the number of filter taps, the value of filter coefficients, and the filter strength.
인트라 예측 모드가 플래너 모드인 경우, 대상 블록의 예측 블록을 생성함에 있어서, 예측 대상 샘플의 예측 블록 내 위치에 따라, 대상 샘플의 상단 참조 샘플, 대상 샘플의 좌측 참조 샘플, 대상 블록의 우상단 참조 샘플 및 대상 블록의 좌하단 참조 샘플의 가중치가 부여된 합(weight-sum)을 이용하여 예측 대상 샘플의 샘플 값이 생성될 수 있다.When the intra prediction mode is the planner mode, in generating the prediction block of the target block, the top reference sample of the target sample, the left reference sample of the target sample, and the right top reference sample of the target block, according to the position in the prediction block of the prediction target sample, And a sample value of the prediction target sample using the weighted sum of the lower left reference samples of the target block.
인트라 예측 모드가 DC 모드인 경우, 대상 블록의 예측 블록을 생성함에 있어서, 대상 블록의 상단 참조 샘플들 및 좌측 참조 샘플들의 평균 값이 이용될 수 있다. 또한, 대상 블록 내의 특정된 행들 또는 특정된 열들에 대해서는 참조 샘플들의 값들을 이용하는 필터링이 수행될 수 있다. 특정된 행들은 참조 샘플과 인접한 하나 이상의 상단 행들일 수 있다. 특정된 열들은 참조 샘플과 인접한 하나 이상의 좌측 열들일 수 있다.When the intra prediction mode is the DC mode, in generating the prediction block of the target block, an average value of the top reference samples and the left reference samples of the target block may be used. In addition, filtering using the values of the reference samples may be performed on the specified rows or specified columns in the target block. The specified rows may be one or more top rows adjacent to the reference sample. The specified columns may be one or more left columns adjacent to the reference sample.
인트라 예측 모드가 방향성 모드인 경우 대상 블록의 상단 참조 샘플, 좌측 참조 샘플, 우상단 참조 샘플 및/또는 좌하단 참조 샘플을 이용하여 예측 블록이 생성될 수 있다.When the intra prediction mode is the directional mode, the prediction block may be generated using an upper reference sample, a left reference sample, a right upper reference sample, and / or a lower left reference sample.
전술된 예측 샘플을 생성하기 위해 실수 단위의 보간이 수행될 수도 있다. Real unit interpolation may be performed to generate the above-described prediction sample.
대상 블록의 인트라 예측 모드는 대상 블록의 이웃 블록의 인트라 예측 모드로부터 예측될 수 있으며, 예측을 위해 사용되는 정보가 엔트로피 부호화/복호화될 수 있다.The intra prediction mode of the target block may be predicted from the intra prediction mode of the neighboring block of the target block, and information used for prediction may be entropy encoded / decoded.
예를 들면, 대상 블록 및 이웃 블록의 인트라 예측 모드들이 동일하면 기정의된 플래그를 이용하여 대상 블록 및 이웃 블록의 인트라 예측 모드들이 동일하다는 것이 시그널링될 수 있다.For example, if the intra prediction modes of the target block and the neighboring block are the same, it may be signaled that the intra prediction modes of the target block and the neighboring block are the same using a predefined flag.
예를 들면, 복수의 이웃 블록들의 인트라 예측 모드들 중 대상 블록의 인트라 예측 모드와 동일한 인트라 예측 모드를 가리키는 지시자가 시그널링될 수 있다.For example, an indicator indicating the same intra prediction mode as the intra prediction mode of the target block among the intra prediction modes of the plurality of neighboring blocks may be signaled.
대상 블록 및 이웃 블록의 인트라 예측 모드들이 서로 다르면, 엔트로피 부호화 및/또는 복호화를 사용하여 대상 블록의 인트라 예측 모드의 정보가 부호화 및/또는 복호화될 수 있다.If the intra prediction modes of the target block and the neighboring block are different from each other, information of the intra prediction mode of the target block may be encoded and / or decoded using entropy encoding and / or decoding.
도 8은 인트라 예측 과정에서 사용되는 참조 샘플의 위치를 설명하기 위한 도면이다.8 is a diagram for describing a position of a reference sample used in an intra prediction process.
도 8은 대상 블록의 인트라 예측을 위해 사용되는 참조 샘플의 위치를 도시한다. 도 8을 참조하면, 대상 블록의 인트라 예측에 사용되는 재구축된 참조 샘플은 하단 좌측(below-left) 참조 샘플들(831), 좌측(left) 참조 샘플들(833), 상단 좌측(above-left) 코너 참조 샘플(835), 상단(above) 참조 샘플들(837) 및 상단 우측(above-right) 참조 샘플들(839) 등을 포함할 수 있다.8 shows the location of a reference sample used for intra prediction of a target block. Referring to FIG. 8, the reconstructed reference samples used for intra prediction of the target block include lower-left reference samples 831, left reference samples 833, and upper-above- left corner reference sample 835, upper reference samples 837, upper right reference samples 839, and the like.
예를 들면, 좌측 참조 샘플들(833)은 대상 블록의 좌측에 인접한 재구축된 참조 픽셀을 의미할 수 있다. 상단 참조 샘플들(837)은 대상 블록의 상단에 인접한 재구축된 참조 픽셀을 의미할 수 있다. 상단 좌측 코너 참조 샘플(835)은 대상 블록의 상단 좌측 코너에 위치한 재구축된 참조 픽셀을 의미할 수 있다. 또한, 하단 좌측 참조 샘플들(831)은 좌측 참조 샘플들(833)로 구성된 좌측 샘플 라인과 동일 선상에 위치한 샘플들 중에서 좌측 샘플 라인의 하단에 위치한 참조 샘플을 의미할 수 있다. 상단 우측 참조 샘플들(839)은 상단 참조 샘플들(837)로 구성된 상단 샘플 라인과 동일 선상에 위치한 샘플들 중에서 상단 픽셀 라인의 우측에 위치한 참조 샘플들을 의미할 수 있다.For example, the left reference samples 833 may refer to a reconstructed reference pixel adjacent to the left side of the target block. The top reference samples 837 may refer to a reconstructed reference pixel adjacent to the top of the target block. The upper left corner reference sample 835 may refer to a reconstructed reference pixel located at the upper left corner of the target block. Also, the lower left reference samples 831 may refer to a reference sample located at the bottom of the left sample line among samples positioned on the same line as the left sample line composed of the left reference samples 833. The upper right reference samples 839 may refer to reference samples positioned to the right of the upper pixel line among samples positioned on the same line as the upper sample line composed of the upper reference samples 837.
대상 블록의 크기가 NxN일 때, 하단 좌측 참조 샘플들(831), 좌측 참조 샘플들(833), 상단 참조 샘플들(837) 및 상단 우측 참조 샘플들(839)은 각각 N개일 수 있다.When the size of the target block is N × N, the lower left reference samples 831, the left reference samples 833, the upper reference samples 837, and the upper right reference samples 839 may each be N pieces.
대상 블록에 대한 인트라 예측을 통해 예측 블록이 생성될 수 있다. 예측 블록의 생성은 예측 블록의 픽셀들의 값이 결정되는 것을 포함할 수 있다. 대상 블록 및 예측 블록의 크기는 동일할 수 있다.The prediction block may be generated through intra prediction on the target block. Generation of the predictive block may include determining a value of pixels of the predictive block. The size of the target block and the prediction block may be the same.
대상 블록의 인트라 예측에 사용되는 참조 샘플은 대상 블록의 인트라 예측 모드에 따라 달라질 수 있다. 인트라 예측 모드의 방향은 참조 샘플들 및 예측 블록의 픽셀들 간의 의존 관계를 나타낼 수 있다. 예를 들면, 특정된 참조 샘플의 값이 예측 블록의 특정된 하나 이상의 픽셀들의 값으로서 사용될 수 있다. 이 경우, 특정된 참조 샘플 및 예측 블록의 특정된 하나 이상의 픽셀들은 인트라 예측 모드의 방향의 직선으로 지정되는 샘플 및 픽셀들일 수 있다. 말하자면, 특정된 참조 샘플의 값은 인트라 예측 모드의 방향의 역방향에 위치한 픽셀의 값으로 복사될 수 있다. 또는, 예측 블록의 픽셀의 값은 상기의 픽셀의 위치를 기준으로 인트라 예측 모드의 방향에 위치한 참조 샘플의 값일 수 있다.The reference sample used for intra prediction of the target block may vary according to the intra prediction mode of the target block. The direction of the intra prediction mode may indicate a dependency relationship between the reference samples and the pixels of the prediction block. For example, the value of the specified reference sample can be used as the value of the specified one or more pixels of the prediction block. In this case, the specified one or more specified pixels of the specified reference sample and prediction block may be samples and pixels designated by a straight line in the direction of the intra prediction mode. In other words, the value of the specified reference sample may be copied to the value of the pixel located in the reverse direction of the intra prediction mode. Alternatively, the pixel value of the prediction block may be a value of a reference sample located in the direction of the intra prediction mode based on the position of the pixel.
예를 들면, 대상 블록의 인트라 예측 모드가 모드 값이 26인 수직 모드인 경우, 상단 참조 샘플들(837)이 인트라 예측에 사용될 수 있다. 인트라 예측 모드가 수직 모드인 경우, 예측 블록의 픽셀의 값은 상기의 픽셀의 위치를 기준으로 수직으로 위에 위치한 참조 샘플의 값일 수 있다. 따라서, 대상 블록에 상단으로 인접한 상단 참조 샘플들(837)이 인트라 예측을 위해 사용될 수 있다. 또한, 예측 블록의 한 행의 픽셀들의 값들은 상단 참조 샘플들(837)의 값들과 동일할 수 있다.For example, when the intra prediction mode of the target block is a vertical mode having a mode value of 26, the upper reference samples 837 may be used for intra prediction. When the intra prediction mode is the vertical mode, the value of a pixel of the prediction block may be a value of a reference sample located vertically above the position of the pixel. Thus, the top reference samples 837 adjacent to the top of the target block can be used for intra prediction. In addition, the values of the pixels of one row of the prediction block may be the same as the values of the top reference samples 837.
예를 들면, 대상 블록의 인트라 예측 모드가 모드 값이 10인 수평 모드인 경우, 좌측 참조 샘플들(833)이 인트라 예측에 사용될 수 있다. 인트라 예측 모드가 수평 모드인 경우, 예측 블록의 픽셀의 값은 상기의 픽셀을 기준으로 수평으로 좌측에 위치한 참조 샘플의 값일 수 있다. 따라서, 대상 블록에 좌측으로 인접한 좌측 참조 샘플들(833)이 인트라 예측을 위해 사용될 수 있다. 또한, 예측 블록의 한 열의 픽셀들의 값들은 좌측 참조 샘플들(833)의 값들과 동일할 수 있다.For example, when the intra prediction mode of the target block is a horizontal mode having a mode value of 10, the left reference samples 833 may be used for intra prediction. When the intra prediction mode is the horizontal mode, the pixel value of the prediction block may be a value of a reference sample located horizontally on the left side with respect to the pixel. Thus, left reference samples 833 adjacent to the target block to the left may be used for intra prediction. In addition, the values of the pixels of one column of the prediction block may be the same as the values of the left reference samples 833.
예를 들면, 대상 블록의 인트라 예측 모드의 모드 값이 18인 경우 좌측 참조 샘플들(833)의 적어도 일부, 상단 좌측 코너 참조 샘플(835) 및 상단 참조 샘플들(837)의 적어도 일부 인트라 예측에 사용될 수 있다. 인트라 예측 모드의 모드 값이 18인 경우, 예측 블록의 픽셀의 값은 상기의 픽셀을 기준으로 대각선으로 상단 좌측에 위치한 참조 샘플의 값일 수 있다.For example, when the mode value of the intra prediction mode of the target block is 18, at least some of the left reference samples 833, the upper left corner reference sample 835, and at least some intra prediction of the top reference samples 837 are included. Can be used. When the mode value of the intra prediction mode is 18, the value of the pixel of the prediction block may be the value of the reference sample positioned diagonally on the upper left side with respect to the pixel.
또한, 모드 값이 27, 28, 29, 30, 31, 32, 33 또는 34인 인트라 예측 모드가 사용되는 경우에는 상단 우측 참조 샘플들(839) 중 적어도 일부가 인트라 예측에 사용될 수 있다.In addition, when an intra prediction mode having a mode value of 27, 28, 29, 30, 31, 32, 33, or 34 is used, at least some of the upper right reference samples 839 may be used for intra prediction.
또한, 모드 값이 2, 3, 4, 5, 6, 7, 8 또는 9인 인트라 예측 모드가 사용되는 경우에는 하단 좌측 참조 샘플들(831) 중 적어도 일부가 인트라 예측에 사용될 수 있다.In addition, when an intra prediction mode having a mode value of 2, 3, 4, 5, 6, 7, 8, or 9 is used, at least some of the lower left reference samples 831 may be used for intra prediction.
또한, 모드 값이 11 내지 25 중 하나인 인트라 예측 모드가 사용되는 경우에는 상단 좌측 코너 참조 샘플(835)이 인트라 예측에 사용될 수 있다.In addition, when an intra prediction mode having a mode value of 11 to 25 is used, the upper left corner reference sample 835 may be used for intra prediction.
예측 블록의 하나의 픽셀의 픽셀 값을 결정하기 위해 사용되는 참조 샘플은 1개일 수 있고, 2개 이상일 수도 있다.The reference sample used to determine the pixel value of one pixel of the prediction block may be one, or may be two or more.
전술된 것과 같이 예측 블록의 픽셀의 픽셀 값은 상기의 픽셀의 위치 및 인트라 예측 모드의 방향에 의해 가리켜지는 참조 샘플의 위치에 따라 결정될 수 있다. 픽셀의 위치 및 인트라 예측 모드의 방향에 의해 가리켜지는 참조 샘플의 위치가 정수 위치인 경우, 정수 위치가 가리키는 하나의 참조 샘플의 값이 예측 블록의 픽셀의 픽셀 값을 결정하기 위해 사용될 수 있다.As described above, the pixel value of the pixel of the prediction block may be determined according to the position of the reference sample indicated by the position of the pixel and the direction of the intra prediction mode. If the position of the reference sample indicated by the position of the pixel and the direction of the intra prediction mode is an integer position, the value of one reference sample indicated by the integer position may be used to determine the pixel value of the pixel of the prediction block.
픽셀의 위치 및 인트라 예측 모드의 방향에 의해 가리켜지는 참조 샘플의 위치가 정수 위치가 아닌 경우, 참조 샘플의 위치에 가장 가까운 2개의 참조 샘플들에 기반하여 보간된(interpolated) 참조 샘플이 생성될 수 있다. 보간된 참조 샘플의 값이 예측 블록의 픽셀의 픽셀 값을 결정하기 위해 사용될 수 있다. 말하자면, 예측 블록의 픽셀의 위치 및 인트라 예측 모드의 방향에 의해 가리켜지는 참조 샘플의 위치가 2개의 참조 샘플들 간의 사이를 나타낼 때, 상기의 2개의 샘플들의 값들에 기반하여 보간된 값이 생성될 수 있다.If the position of the reference sample indicated by the position of the pixel and the direction of the intra prediction mode is not an integer position, an interpolated reference sample may be generated based on the two reference samples closest to the position of the reference sample. have. The value of the interpolated reference sample can be used to determine the pixel value of the pixel of the prediction block. In other words, when the position of the reference sample indicated by the position of the pixel of the prediction block and the direction of the intra prediction mode indicates between the two reference samples, an interpolated value is generated based on the values of the two samples. Can be.
예측에 의해 생성된 예측 블록은 원래의 대상 블록과는 동일하지 않을 수 있다. 말하자면, 대상 블록 및 예측 블록 간의 차이(difference)인 예측 오차(prediction error)가 존재할 수 있으며, 대상 블록의 픽셀 및 예측 블록의 픽셀 간에도 예측 오차가 존재할 수 있다.The prediction block generated by the prediction may not be the same as the original target block. In other words, there may be a prediction error that is a difference between the target block and the prediction block, and the prediction error may exist between the pixels of the target block and the pixels of the prediction block.
이하에서, 용어들 "차이(difference)", "오차(error)" 및 "잔차(residual)"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.Hereinafter, the terms "difference", "error" and "residual" may be used in the same sense and may be used interchangeably.
예를 들면, 방향성 인트라 예측의 경우, 예측 블록의 픽셀 및 참조 샘플 간의 거리가 더 멀수록 더 큰 예측 오차가 발생할 수 있다. 이러한 예측 오차에 등 의해 생성된 예측 블록 및 이웃 블록 간에는 불연속성이 발생할 수 있다.For example, in the case of directional intra prediction, the greater the distance between the pixel and the reference sample of the prediction block, the larger prediction error may occur. Discontinuity may occur between the prediction block and the neighboring block generated by such a prediction error.
예측 오차의 감소를 위해 예측 블록에 대한 필터링이 사용될 수 있다. 필터링은 예측 블록 중 큰 예측 오차를 갖는 것으로 간주되는 영역에 대해 적응적으로 필터를 적용하는 것일 수 있다. 예를 들면, 큰 예측 오차를 갖는 것으로 간주되는 영역은 예측 블록의 경계일 수 있다. 또한, 인트라 예측 모드에 따라서 예측 블록 중 큰 예측 오차를 갖는 것으로 간주되는 영역이 다를 수 있으며, 필터의 특징이 다를 수 있다.Filtering on the prediction block may be used to reduce the prediction error. The filtering may be to adaptively apply a filter to a region that is considered to have a large prediction error in the prediction block. For example, an area considered to have a large prediction error may be a boundary of a prediction block. In addition, according to the intra prediction mode, an area considered to have a large prediction error among the prediction blocks may be different, and characteristics of the filter may be different.
도 9는 인터 예측 과정의 실시예를 설명하기 위한 도면이다.9 is a diagram for explaining an embodiment of an inter prediction process.
도 9에서 도시된 사각형은 영상(또는, 픽처)를 나타낼 수 있다. 또한, 도 9에서 화살표는 예측 방향을 나타낼 수 있다. 즉, 영상은 예측 방향에 따라 부호화 및/또는 복호화될 수 있다.The rectangle illustrated in FIG. 9 may represent an image (or a picture). In addition, arrows in FIG. 9 may indicate prediction directions. That is, the image may be encoded and / or decoded according to the prediction direction.
각 영상은 부호화 타입에 따라 I 픽처(Intra Picture), P 픽처(Uni-prediction Picture) 및 B 픽처(Bi-prediction Picture)로 분류될 수 있다. 각 픽처는 각 픽처의 부호화 타입에 따라 부호화 및/또는 복호화될 수 있다.Each picture may be classified into an I picture (Intra Picture), a P picture (Uni-prediction Picture), and a B picture (Bi-prediction Picture). Each picture may be encoded and / or decoded according to an encoding type of each picture.
부호화의 대상인 대상 영상이 I 픽처인 경우, 대상 영상은 다른 영상을 참조하는 인터 예측 없이 영상 자체 내의 데이터를 사용하여 부호화될 수 있다. 예를 들면, I 픽처는 인트라 예측으로만 부호화될 수 있다.If the target image to be encoded is an I picture, the target image may be encoded using data in the image itself without inter prediction referring to another image. For example, an I picture can only be encoded with intra prediction.
대상 영상이 P 픽처인 경우, 대상 영상은 단방향에 존재하는 참조 픽처만을 이용하는 인터 예측을 통해 부호화될 수 있다. 여기에서, 단방향은 순방향 또는 역방향일 수 있다.When the target image is a P picture, the target image may be encoded through inter prediction using only a reference picture existing in one direction. Here, the unidirectional may be forward or reverse.
대상 영상이 B 픽처인 경우, 대상 영상은 양방향에 존재하는 참조 픽처들을 이용하는 인터 예측 또는 순방향 및 역방향 중 일 방향에 존재하는 참조 픽처를 이용하는 인터 예측을 통해 부호화될 수 있다. 여기에서, 양방향은 순방향 및 역방향일 수 있다.When the target picture is a B picture, the target picture may be encoded through inter prediction using reference pictures existing in both directions or inter prediction using reference pictures existing in one of the forward and reverse directions. Here, the bidirectional can be forward and reverse.
참조 픽처를 이용하여 부호화 및/또는 복호화되는 P 픽처 및 B 픽처는 인터 예측이 사용되는 영상으로 간주될 수 있다.P pictures and B pictures that are encoded and / or decoded using the reference picture may be regarded as an image using inter prediction.
아래에서, 실시예에 따른 인터 모드에서의 인터 예측에 대해 구체적으로 설명된다.In the following, inter prediction in inter mode according to an embodiment is described in detail.
인터 예측은 움직임 정보를 이용하여 수행될 수 있다.Inter prediction may be performed using motion information.
인터 모드에서, 부호화 장치(100)는 대상 블록에 대한 인터 예측 및/또는 움직임 보상을 수행할 수 있다. 복호화 장치(200)는 대상 블록에 대하여 부호화 장치(100)에서의 인터 예측 및/또는 움직임 보상에 대응하는 인터 예측 및/또는 움직임 보상을 수행할 수 있다.In the inter mode, the encoding apparatus 100 may perform inter prediction and / or motion compensation on a target block. The decoding apparatus 200 may perform inter prediction and / or motion compensation corresponding to inter prediction and / or motion compensation in the encoding apparatus 100 with respect to the target block.
대상 블록에 대한 움직임 정보는 부호화 장치(100) 및 복호화 장치(200)의 각각에 의해 인터 예측 중 도출될 수 있다. 움직임 정보는 복원된 이웃 블록의 움직임 정보, 콜 블록의 움직임 정보 및/또는 콜 블록에 인접한 블록의 움직임 정보를 이용하여 도출될 수 있다.The motion information on the target block may be derived during inter prediction by each of the encoding apparatus 100 and the decoding apparatus 200. The motion information may be derived using motion information of the restored neighboring block, motion information of the call block, and / or motion information of a block adjacent to the call block.
예를 들면, 부호화 장치(100) 또는 복호화 장치(200)는 공간적 후보(spatial candidate) 및/또는 시간적 후보(temporal candidate)의 움직임 정보를 대상 블록의 움직임 정보로 사용함으로써 예측 및/또는 움직임 보상을 수행할 수 있다. 대상 블록은 PU 및/또는 PU 파티션을 의미할 수 있다.For example, the encoding apparatus 100 or the decoding apparatus 200 uses the motion information of the spatial candidate and / or the temporal candidate as the motion information of the target block to perform prediction and / or motion compensation. Can be done. The target block may mean a PU and / or a PU partition.
공간적 후보는 대상 블록에 공간적으로 인접한 재구축된 블록일 수 있다.The spatial candidate may be a reconstructed block spatially adjacent to the target block.
시간적 후보는 이미 재구축된 콜 픽처(collocated picture; col picture) 내의 대상 블록에 대응하는 재구축된 블록일 수 있다.The temporal candidate may be a reconstructed block corresponding to a target block in a collocated picture (col picture).
인터 예측에 있어서, 부호화 장치(100) 및 복호화 장치(200)는 공간적 후보 및/또는 시간적 후보의 움직임 정보를 이용함으로써 부호화 효율 및 복호화 효율을 향상시킬 수 있다. 공간적 후보의 움직임 정보는 공간적 움직임 정보로 칭해질 수 있다. 시간적 후보의 움직임 정보는 시간적 움직임 정보로 칭해질 수 있다.In inter prediction, the encoding apparatus 100 and the decoding apparatus 200 may improve encoding efficiency and decoding efficiency by using motion information of spatial candidates and / or temporal candidates. The motion information of the spatial candidate may be referred to as spatial motion information. The motion information of the temporal candidate may be referred to as temporal motion information.
이하에서, 공간적 후보의 움직임 정보는, 공간적 후보를 포함하는 PU의 움직임 정보일 수 있다. 시간적 후보의 움직임 정보는, 시간적 후보를 포함하는 PU의 움직임 정보일 수 있다. 후보 블록의 움직임 정보는, 후보 블록을 포함하는 PU의 움직임 정보일 수 있다.Hereinafter, the motion information of the spatial candidate may be motion information of the PU including the spatial candidate. The motion information of the temporal candidate may be motion information of the PU including the temporal candidate. The motion information of the candidate block may be motion information of the PU including the candidate block.
인터 예측은 참조 픽처를 이용하여 수행될 수 있다.Inter prediction may be performed using a reference picture.
참조 픽처(reference picture)는 대상 픽처의 이전 픽처 또는 대상 픽처의 이후 픽처 중 적어도 하나일 수 있다. 참조 픽처는 대상 블록의 예측에 이용되는 영상을 의미할 수 있다.The reference picture may be at least one of a previous picture of the target picture or a subsequent picture of the target picture. The reference picture may mean an image used for prediction of the target block.
인터 예측에 있어서, 참조 픽처를 지시하는 참조 픽처 인덱스(또는, refIdx) 및 후술될 움직임 벡터(motion vector) 등을 이용함으로써 참조 픽처 내의 영역이 특정될 수 있다. 여기에서, 참조 픽처 내의 특정된 영역은 참조 블록을 나타낼 수 있다.In inter prediction, an area within a reference picture can be specified by using a reference picture index (or refIdx) indicating a reference picture, a motion vector to be described later, and the like. Here, the specified region in the reference picture may represent a reference block.
인터 예측은 참조 픽처를 선택할 수 있고, 참조 픽처 내에서 대상 블록에 대응하는 참조 블록을 선택할 수 있다. 또한, 인터 예측은 선택된 참조 블록을 사용하여 대상 블록에 대한 예측 블록을 생성할 수 있다.Inter prediction may select a reference picture, and may select a reference block corresponding to the target block within the reference picture. In addition, inter prediction may generate a prediction block for a target block using the selected reference block.
움직임 정보는 부호화 장치(100) 및 복호화 장치(200)의 각각에 의해 인터 예측 중 도출될 수 있다.The motion information may be derived during inter prediction by each of the encoding apparatus 100 and the decoding apparatus 200.
공간적 후보는, 1) 대상 픽처 내의 존재하며, 2) 이미 부호화 및/또는 복호화를 통해 재구축되었고, 3) 대상 블록에 인접하거나, 대상 블록의 코너에 위치한 블록일 수 있다. 여기에서, 대상 블록의 코너에 위치한 블록이란, 대상 블록에 가로로 인접한 이웃 블록에 세로로 인접한 블록 또는 대상 블록에 세로로 인접한 이웃 블록에 가로로 인접한 블록일 수 있다. "대상 블록의 코너에 위치한 블록"은 "대상 블록의 코너에 인접한 블록"과 동일한 의미일 수 있다. "대상 블록의 코너에 위치한 블록"은 "대상 블록에 인접한 블록"에 포함될 수 있다.The spatial candidate may be 1) present in the target picture, 2) already reconstructed through encoding and / or decoding, and 3) adjacent to the target block or located at the corner of the target block. The block located at the corner of the target block may be a block vertically adjacent to a neighboring block horizontally adjacent to the target block or a block horizontally adjacent to a neighboring block vertically adjacent to the target block. "Block located at the corner of the target block" may have the same meaning as "block adjacent to the corner of the target block". The "block located at the corner of the target block" may be included in the "block adjacent to the target block".
예를 들면, 공간적 후보는 대상 블록의 좌측에 위치한 재구축된 블록, 대상 블록의 상단에 위치한 재구축된 블록, 대상 블록의 좌측 하단 코너에 위치한 재구축된 블록, 대상 블록의 우측 상단 코너에 위치한 재구축된 블록 또는 대상 블록의 좌측 상단 코너에 위치한 재구축된 블록일 수 있다.For example, a spatial candidate may be a reconstructed block located to the left of the target block, a reconstructed block located to the top of the target block, a reconstructed block located at the lower left corner of the target block, or a top right corner of the target block. It may be a reconstructed block or a reconstructed block located at the upper left corner of the target block.
부호화 장치(100) 및 복호화 장치(200)의 각각은 콜(col) 픽처 내에서 대상 블록에 공간적으로 대응하는 위치에 존재하는 블록을 식별할 수 있다. 대상 픽처 내의 대상 블록의 위치 및 콜 픽처 내의 식별된 블록의 위치는 서로 대응할 수 있다.Each of the encoding apparatus 100 and the decoding apparatus 200 may identify a block that exists at a position spatially corresponding to the target block in the col picture. The position of the target block in the target picture and the position of the identified block in the call picture may correspond to each other.
부호화 장치(100) 및 복호화 장치(200)의 각각은 식별된 블록에 대하여 기정의된 상대적인 위치에 존재하는 콜(col) 블록을 시간적 후보로서 결정할 수 있다. 기정의된 상대적인 위치는 식별된 블록의 내부의 위치 및/또는 외부의 위치일 수 있다.Each of the encoding apparatus 100 and the decoding apparatus 200 may determine a coll block existing at a predetermined relative position with respect to the identified block as a temporal candidate. The predefined relative position may be a position inside and / or outside of the identified block.
예를 들면, 콜 블록은 제1 콜 블록 및 제2 콜 블록을 포함할 수 있다. 식별된 블록의 좌표들이 (xP, yP)이고, 식별된 블록의 크기가 (nPSW, nPSH)일 때, 제1 콜 블록은 좌표들 (xP + nPSW, yP + nPSH)에 위치한 블록일 수 있다. 제2 콜 블록은 좌표들 (xP + (nPSW >> 1), yP + (nPSH >> 1))에 위치한 블록일 수 있다. 제2 콜 블록은 제1 콜 블록이 가용하지 않을(unavailable) 경우 선택적으로 사용될 수 있다.For example, the call block may include a first call block and a second call block. When the coordinates of the identified block are (xP, yP) and the size of the identified block is (nPSW, nPSH), the first call block may be a block located at coordinates (xP + nPSW, yP + nPSH). The second call block may be a block located at coordinates (xP + (nPSW >> 1), yP + (nPSH >> 1)). The second call block can optionally be used if the first call block is unavailable.
대상 블록의 움직임 벡터는 콜 블록의 움직임 벡터에 기반하여 결정될 수 있다. 부호화 장치(100) 및 복호화 장치(200)의 각각은 콜 블록의 움직임 벡터를 스케일(scale)할 수 있다. 콜 블록의 스케일된(scale) 움직임 벡터가 대상 블록의 움직임 벡터로서 이용될 수 있다. 또한, 리스트에 저장되는 시간적 후보의 움직임 정보의 움직임 벡터는 스케일된 움직임 벡터일 수 있다.The motion vector of the target block may be determined based on the motion vector of the call block. Each of the encoding apparatus 100 and the decoding apparatus 200 may scale a motion vector of a call block. The scaled motion vector of the call block can be used as the motion vector of the target block. In addition, the motion vector of the motion information of the temporal candidate stored in the list may be a scaled motion vector.
대상 블록의 움직임 벡터 및 콜 블록의 움직임 벡터의 비율(ratio)은 제1 시간적 거리 및 제2 시간적 거리의 비율과 같을 수 있다. 제1 시간적 거리는 대상 블록의 참조 픽처 및 대상 픽처 간의 거리일 수 있다. 제2 시간적 거리는 콜 블록의 참조 픽처 및 콜 픽처 간의 거리일 수 있다.The ratio of the motion vector of the target block and the motion vector of the call block may be equal to the ratio of the first temporal distance and the second temporal distance. The first temporal distance may be a distance between the reference picture and the target picture of the target block. The second temporal distance may be a distance between the reference picture and the call picture of the call block.
움직임 정보의 도출 방식은 대상 블록의 인터 예측 모드에 따라 변할 수 있다. 예를 들면, 인터 예측을 위해 적용되는 인터 예측 모드로서, 향상된 움직임 벡터 예측자(Advanced Motion Vector Predictor; AMVP) 모드, 머지(merge) 모드 및 스킵(skip) 모드 및 현재 픽처 참조 모드 등이 있을 수 있다. 머지 모드는 움직임 머지 모드(motion merge mode)로 칭해질 수도 있다. 아래에서는, 모드들의 각각에 대해서 상세하게 설명된다.The derivation method of the motion information may vary according to the inter prediction mode of the target block. For example, as the inter prediction mode applied for inter prediction, there may be an enhanced motion vector predictor (AMVP) mode, a merge mode and a skip mode, a current picture reference mode, and the like. have. The merge mode may be referred to as a motion merge mode. In the following, each of the modes is described in detail.
1) AMVP 모드1) AMVP Mode
AMVP 모드가 사용되는 경우, 부호화 장치(100)는 대상 블록의 이웃에서 유사한 블록을 검색할 수 있다. 부호화 장치(100)는 검색된 유사한 블록의 움직임 정보를 이용하여 대상 블록에 대한 예측을 수행함으로써 예측 블록을 획득할 수 있다. 부호화 장치(100)는 대상 블록 및 예측 블록 간의 차이인 잔차 블록을 부호화할 수 있다.When the AMVP mode is used, the encoding apparatus 100 may search for a similar block in the neighbor of the target block. The encoding apparatus 100 may obtain the prediction block by performing prediction on the target block using the retrieved motion information of the similar block. The encoding apparatus 100 may encode a residual block that is a difference between the target block and the prediction block.
1-1) 예측 움직임 벡터 후보 리스트의 작성1-1) Preparation of predictive motion vector candidate list
예측 모드로서 AMVP 모드가 사용되는 경우, 부호화 장치(100) 및 복호화 장치(200)의 각각은 공간적 후보의 움직임 벡터, 시간적 후보의 움직임 벡터 및 제로 벡터를 이용하여 예측 움직임 벡터 후보 리스트를 생성할 수 있다. 예측 움직임 벡터 후보 리스트는 하나 이상의 예측 움직임 벡터 후보들을 포함할 수 있다. 공간적 후보의 움직임 벡터, 시간적 후보의 움직임 벡터 및 제로 벡터 중 적어도 하나가 예측 움직임 벡터 후보로서 결정 및 사용될 수 있다. When the AMVP mode is used as the prediction mode, each of the encoding apparatus 100 and the decoding apparatus 200 may generate a predicted motion vector candidate list using the motion vector of the spatial candidate, the motion vector of the temporal candidate, and the zero vector. have. The predictive motion vector candidate list may include one or more predictive motion vector candidates. At least one of the motion vector of the spatial candidate, the motion vector of the temporal candidate, and the zero vector may be determined and used as the predictive motion vector candidate.
이하에서, 용어들 "예측 움직임 벡터 (후보)" 및 "움직임 벡터 (후보)"는 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다. In the following, the terms “predictive motion vector (candidate)” and “motion vector (candidate)” may be used in the same sense and may be used interchangeably.
이하에서, 용어들 "예측 움직임 벡터 후보" 및 "AMVP 후보"는 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.Hereinafter, the terms "predictive motion vector candidate" and "AMVP candidate" may be used in the same sense and may be used interchangeably.
이하에서, 용어들 "예측 움직임 벡터 후보 리스트" 및 "AMVP 후보 리스트"는 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.Hereinafter, the terms "predictive motion vector candidate list" and "AMVP candidate list" may be used in the same sense and may be used interchangeably.
공간적 후보는 복원된 공간적 이웃 블록을 포함할 수 있다. 말하자면, 복원된 이웃 블록의 움직임 벡터는 공간적 예측 움직임 벡터 후보(spatial prediction motion vector candidate)라 칭해질 수 있다.The spatial candidate may include the reconstructed spatial neighboring block. In other words, the motion vector of the reconstructed neighboring block may be referred to as a spatial prediction motion vector candidate.
시간적 후보는 콜 블록 및 콜 블록에 인접한 블록을 포함할 수 있다. 말하자면, 콜 블록의 움직임 벡터 또는 콜 블록에 인접한 블록의 움직임 벡터는 시간적 예측 움직임 벡터 후보(temporal prediction motion vector candidate)로 칭해질 수 있다.The temporal candidate may include a call block and a block adjacent to the call block. In other words, the motion vector of the call block or the motion vector of the block adjacent to the call block may be referred to as a temporal prediction motion vector candidate.
제로 벡터는 (0, 0) 움직임 벡터일 수 있다.The zero vector may be a (0, 0) motion vector.
예측 움직임 벡터 후보는 움직임 벡터의 예측을 위한 움직임 벡터 예측자(motion vector predictor)일 수 있다. 또한, 부호화 장치(100)에 있어서 예측 움직임 벡터 후보는 움직임 벡터 초기 검색 위치일 수 있다.The predictive motion vector candidate may be a motion vector predictor for prediction of the motion vector. Also, in the encoding apparatus 100, the predicted motion vector candidate may be a motion vector initial search position.
1-2) 예측 움직임 벡터 후보 리스트를 사용하는 움직임 벡터의 검색1-2) Searching for Motion Vectors Using Predictive Motion Vector Candidate List
부호화 장치(100)는 예측 움직임 벡터 후보 리스트를 사용하여 검색 범위 내에서 대상 블록의 부호화를 위해 사용될 움직임 벡터를 결정할 수 있다. 또한, 부호화 장치(100)는 예측 움직임 벡터 후보 리스트의 예측 움직임 벡터 후보들 중 대상 블록의 예측 움직임 벡터로 사용할 예측 움직임 벡터 후보를 결정할 수 있다.The encoding apparatus 100 may determine a motion vector to be used for encoding a target block within a search range using the predictive motion vector candidate list. Also, the encoding apparatus 100 may determine a prediction motion vector candidate to be used as a prediction motion vector of the target block among the prediction motion vector candidates of the prediction motion vector candidate list.
대상 블록의 부호화를 위해 사용될 움직임 벡터는 최소의 비용으로 부호화될 수 있는 움직임 벡터일 수 있다.The motion vector to be used for encoding the target block may be a motion vector that can be encoded at a minimum cost.
또한, 부호화 장치(100)는 대상 블록의 부호화에 있어서 AMVP 모드를 사용할지 여부를 결정할 수 있다.In addition, the encoding apparatus 100 may determine whether to use the AMVP mode in encoding the target block.
1-3) 인터 예측 정보의 전송1-3) Transmission of Inter Prediction Information
부호화 장치(100)는 인터 예측을 위해 요구되는 인터 예측 정보를 포함하는 비트스트림을 생성할 수 있다. 복호화 장치(200)는 비트스트림의 인터 예측 정보를 사용하여 대상 블록에 대한 인터 예측을 수행할 수 있다.The encoding apparatus 100 may generate a bitstream including inter prediction information required for inter prediction. The decoding apparatus 200 may perform inter prediction on the target block by using inter prediction information of the bitstream.
인터 예측 정보는, 1) AMVP 모드를 사용하는지 여부를 나타내는 모드 정보, 2) 예측 움직임 벡터 인덱스, 3) 움직임 벡터 차분(MVD: Motion Vector Difference), 4) 참조 방향 및 5) 참조 픽처 인덱스를 포함할 수 있다.The inter prediction information includes 1) mode information indicating whether the AMVP mode is used, 2) a predicted motion vector index, 3) a motion vector difference (MVD), 4) a reference direction, and 5) a reference picture index. can do.
이하에서, 용어들 "예측 움직임 벡터 인덱스" 및 "AMVP 인덱스"는 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.In the following, the terms "predictive motion vector index" and "AMVP index" may be used in the same sense and may be used interchangeably.
또한, 인터 예측 정보는 잔차 신호를 포함할 수 있다.In addition, the inter prediction information may include a residual signal.
복호화 장치(200)는 모드 정보가 AMVP 모드를 사용하는 것을 나타낼 경우 엔트로피 복호화를 통해 예측 움직임 벡터 인덱스, 움직임 벡터 차분, 참조 방향 및 참조 픽처 인덱스를 비트스트림으로부터 획득할 수 있다.When the mode information indicates that the AMVP mode is used, the decoding apparatus 200 may obtain a predicted motion vector index, a motion vector difference, a reference direction, and a reference picture index from the bitstream through entropy decoding.
예측 움직임 벡터 인덱스는 예측 움직임 벡터 후보 리스트에 포함된 예측 움직임 벡터 후보들 중에서 대상 블록의 예측을 위해 사용되는 예측 움직임 벡터 후보를 가리킬 수 있다.The prediction motion vector index may indicate a prediction motion vector candidate used for prediction of a target block among prediction motion vector candidates included in the prediction motion vector candidate list.
1-4) 인터 예측 정보를 사용하는 AMVP 모드의 인터 예측1-4) Inter Prediction in AMVP Mode Using Inter Prediction Information
복호화 장치(200)는 예측 움직임 벡터 후보 리스트를 이용하여 예측 움직임 벡터 후보를 유도할 수 있고, 유도된 예측 움직임 벡터 후보에 기반하여 대상 블록의 움직임 정보를 결정할 수 있다.The decoding apparatus 200 may derive the predictive motion vector candidate using the predictive motion vector candidate list, and determine the motion information of the target block based on the derived predicted motion vector candidate.
복호화 장치(200)는 예측 움직임 벡터 인덱스를 사용하여 예측 움직임 벡터 후보 리스트에 포함된 예측 움직임 벡터 후보 중에서 대상 블록에 대한 움직임 벡터 후보를 결정할 수 있다. 복호화 장치(200)는 예측 움직임 벡터 후보 리스트에 포함된 예측 움직임 벡터 후보들 중에서 예측 움직임 벡터 인덱스가 가리키는 예측 움직임 벡터 후보를 대상 블록의 예측 움직임 벡터로서 선택할 수 있다.The decoding apparatus 200 may determine the motion vector candidate for the target block from among the prediction motion vector candidates included in the prediction motion vector candidate list using the prediction motion vector index. The decoding apparatus 200 may select a prediction motion vector candidate indicated by the prediction motion vector index from among prediction motion vector candidates included in the prediction motion vector candidate list as the prediction motion vector of the target block.
대상 블록의 인터 예측을 위해 실제로 사용될 움직임 벡터는 예측 움직임 벡터와 일치하지 않을 수 있다. 대상 블록의 인터 예측을 위해 실제로 사용될 움직임 벡터는 및 예측 움직임 벡터 간의 차분을 나타내기 위해 MVD가 사용될 수 있다. 부호화 장치(100)는 가능한 작은 크기의 MVD를 사용하기 위해 대상 블록의 인터 예측을 위해 실제로 사용될 움직임 벡터와 유사한 예측 움직임 벡터를 도출할 수 있다.The motion vector to be actually used for inter prediction of the target block may not match the prediction motion vector. The motion vector to be actually used for inter prediction of the target block and MVD may be used to indicate the difference between the predicted motion vector. The encoding apparatus 100 may derive a predictive motion vector similar to the motion vector actually used for inter prediction of the target block in order to use the MVD of the smallest possible size.
MVD는 대상 블록의 움직임 벡터 및 예측 움직임 벡터 간의 차분일 수 있다. 부호화 장치(100)는 MVD를 계산할 수 있고, MVD를 엔트로피 부호화할 수 있다.The MVD may be a difference between the motion vector and the predicted motion vector of the target block. The encoding apparatus 100 may calculate an MVD and entropy encode the MVD.
MVD는 비트스트림을 통해 부호화 장치(100)로부터 복호화 장치(200)로 전송될 수 있다. 복호화 장치(200)는 수신된 MVD를 복호화할 수 있다. 복호화 장치(200)는 복호화된 MVD 및 예측 움직임 벡터를 합함으로써 대상 블록의 움직임 벡터를 유도(derive)할 수 있다. 말하자면, 복호화 장치(200)에서 도출되는 대상 블록의 움직임 벡터는 엔트로피 복호화된 MVD 및 움직임 벡터 후보의 합일 수 있다.The MVD may be transmitted from the encoding apparatus 100 to the decoding apparatus 200 through a bitstream. The decoding apparatus 200 may decode the received MVD. The decoding apparatus 200 may derive the motion vector of the target block by adding the decoded MVD and the predictive motion vector. In other words, the motion vector of the target block derived from the decoding apparatus 200 may be the sum of the entropy decoded MVD and the motion vector candidate.
참조 방향은 대상 블록의 예측을 위해 사용되는 참조 픽처 리스트를 가리킬 수 있다. 예를 들면, 참조 방향은 참조 픽처 리스트 L0 및 참조 픽처 리스트 L1 중 하나를 가리킬 수 있다.The reference direction may point to the reference picture list used for prediction of the target block. For example, the reference direction may point to one of the reference picture list L0 and the reference picture list L1.
참조 방향은 대상 블록의 예측을 위해 사용되는 참조 픽처 리스트를 가리킬 뿐, 참조 픽처들의 방향들이 순방향(forward direction) 또는 역방향(backward direction)으로 제한된다는 것을 나타내는 것을 아닐 수 있다. 말하자면, 참조 픽처 리스트 L0 및 참조 픽처 리스트 L1의 각각은 순방향 및/또는 역방향의 픽처들을 포함할 수 있다.The reference direction only points to the reference picture list used for prediction of the target block, but may not indicate that the directions of the reference pictures are limited in the forward direction or the backward direction. In other words, each of the reference picture list L0 and the reference picture list L1 may include pictures in the forward and / or reverse direction.
참조 방향이 단방향(uni-direction)이란 것은 하나의 참조 픽처 리스트가 사용된다는 것을 의미할 수 있다. 참조 방향이 양방향(bi-direction)이란 것은 2 개의 참조 픽처 리스트들이 사용된다는 것을 의미할 수 있다. 말하자면, 참조 방향은, 참조 픽처 리스트 L0만이 사용된다는 것, 참조 픽처 리스트 L1만이 사용된다는 것 및 2 개의 참조 픽처 리스트들 것 중 하나를 가리킬 수 있다.That the reference direction is uni-direction may mean that one reference picture list is used. The bi-direction of the reference direction may mean that two reference picture lists are used. That is to say, the reference direction may indicate that only the reference picture list L0 is used, that only the reference picture list L1 is used and one of the two reference picture lists.
참조 픽처 인덱스는 참조 픽처 리스트의 참조 픽처들 중 대상 블록의 예측을 위해 사용되는 참조 픽처를 가리킬 수 있다. 참조 픽처 인덱스는 부호화 장치(100)에 의해 엔트로피 부호화될 수 있다. 엔트로피 부호화된 참조 픽처 인덱스는 비트스트림을 통해 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수 있다.The reference picture index may indicate a reference picture used for prediction of a target block among reference pictures of the reference picture list. The reference picture index may be entropy encoded by the encoding apparatus 100. The entropy coded reference picture index may be signaled from the encoding apparatus 100 to the decoding apparatus 200 through a bitstream.
대상 블록의 예측을 위해 2 개의 참조 픽처 리스트가 사용될 경우. 각 참조 픽처 리스트에 대해 하나의 참조 픽처 인덱스 및 하나의 움직임 벡터가 사용될 수 있다. 또한, 대상 블록의 예측을 위해 2 개의 참조 픽처 리스트가 사용될 경우, 대상 블록에 대해 2 개의 예측 블록들이 특정될 수 있다. 예를 들면, 대상 블록에 대한 2 개의 예측 블록들의 평균 또는 가중치가 부여된 합(weighed-sum)을 통해 대상 블록의 (최종적인) 예측 블록이 생성될 수 있다.When two reference picture lists are used for prediction of the target block. One reference picture index and one motion vector may be used for each reference picture list. In addition, when two reference picture lists are used for prediction of the target block, two prediction blocks may be specified for the target block. For example, the (final) prediction block of the target block may be generated through an average or weighted-sum of two prediction blocks for the target block.
예측 움직임 벡터 인덱스, MVD, 참조 방향 및 참조 픽처 인덱스에 의해 대상 블록의 움직임 벡터가 유도될 수 있다.The motion vector of the target block may be derived by the prediction motion vector index, the MVD, the reference direction, and the reference picture index.
복호화 장치(200)는 유도된 움직임 벡터 및 참조 픽처 인덱스에 기반하여 대상 블록에 대한 예측 블록을 생성할 수 있다. 예를 들면, 예측 블록은 참조 픽처 인덱스가 가리키는 참조 픽처 내의 유도된 움직임 벡터가 가리키는 참조 블록일 수 있다.The decoding apparatus 200 may generate a prediction block for the target block based on the derived motion vector and the reference picture index. For example, the prediction block may be a reference block indicated by the derived motion vector in the reference picture indicated by the reference picture index.
대상 블록의 움직임 벡터 자체를 부호화하지 않고, 예측 움직임 벡터 인덱스 및 MVD를 부호화함에 따라 부호화 장치(100)로부터 복호화 장치(200)로 전송되는 비트량이 감소될 수 있고, 부호화 효율이 향상될 수 있다.By encoding the predicted motion vector index and the MVD without encoding the motion vector itself of the target block, the amount of bits transmitted from the encoding device 100 to the decoding device 200 may be reduced, and encoding efficiency may be improved.
대상 블록에 대해서 재구축된 이웃 블록의 움직임 정보가 사용될 수 있다. 특정한 인터 예측 모드에서는, 부호화 장치(100)가 대상 블록에 대한 움직임 정보 자체는 별도로 부호화하지 않을 수도 있다. 대상 블록의 움직임 정보가 부호화되지 않고, 재구축된 이웃 블록의 움직임 정보를 통해 대상 블록의 움직임 정보를 유도할 수 있는 다른 정보가 대신 부호화될 수 있다. 다른 정보가 대신 부호화됨에 따라, 복호화 장치(200)로 전송되는 비트량이 감소될 수 있고, 부호화 효율이 향상될 수 있다.The motion information of the neighboring block reconstructed with respect to the target block may be used. In a particular inter prediction mode, the encoding apparatus 100 may not separately encode motion information about the target block. The motion information of the target block is not encoded, and other information capable of deriving the motion information of the target block through the motion information of the reconstructed neighboring block may be encoded instead. As other information is encoded instead, the amount of bits transmitted to the decoding apparatus 200 may be reduced, and encoding efficiency may be improved.
예를 들면, 이러한 대상 블록의 움직임 정보가 직접적으로 부호화되지 않는 인터 예측 모드로서, 스킵 모드(skip mode) 및/또는 머지 모드(merge mode) 등이 있을 수 있다. 이때, 부호화 장치(100) 및 복호화 장치(200)는 재구축된 이웃 유닛들 중 어떤 유닛의 움직임 정보가 대상 유닛의 움직임 정보로서 사용되는지를 지시하는 식별자 및/또는 인덱스를 사용할 수 있다.For example, the inter prediction mode in which the motion information of the target block is not directly encoded may include a skip mode and / or a merge mode. In this case, the encoding apparatus 100 and the decoding apparatus 200 may use an identifier and / or an index indicating which motion information of which unit among the reconstructed neighboring units is used as the motion information of the target unit.
2) 머지 모드2) merge mode
대상 블록의 움직임 정보를 도출하는 방식으로서, 머지(merge)가 있다. 머지는 복수의 블록들에 대한 움직임들의 병합을 의미할 수 있다. 머지는 하나의 블록의 움직임 정보를 다른 블록에도 함께 적용시키는 것을 의미할 수 있다. 말하자면, 머지 모드는 대상 블록의 움직임 정보가 이웃 블록의 움직임 정보로부터 유도되는 모드를 의미할 수 있다.Merge is a method of deriving the motion information of the target block. Merge may mean merging of motions for a plurality of blocks. Merge may mean applying motion information of one block to other blocks. In other words, the merge mode may mean a mode in which the motion information of the target block is derived from the motion information of the neighboring block.
머지 모드가 사용되는 경우, 부호화 장치(100)는 공간적 후보의 움직임 정보 및/또는 시간적 후보의 움직임 정보를 이용하여 대상 블록의 움직임 정보에 대한 예측을 수행할 수 있다. 공간적 후보는 대상 블록에 공간적으로 인접한 복원된 공간적 이웃 블록을 포함할 수 있다. 공간적 이웃 블록은 좌측 인접 블록 및 상단 인접 블록을 포함할 수 있다. 시간적 후보는 콜 블록을 포함할 수 있다. 용어들 "공간적 후보" 및 "공간적 머지 후보"는 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다. 용어들 "시간적 후보" 및 "시간적 머지 후보"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.When the merge mode is used, the encoding apparatus 100 may predict the motion information of the target block by using the motion information of the spatial candidate and / or the motion information of the temporal candidate. The spatial candidate may include a reconstructed spatial neighboring block spatially adjacent to the target block. The spatial neighboring block may include a left neighboring block and a top neighboring block. Temporal candidates may include call blocks. The terms “spatial candidate” and “spatial merge candidate” may be used interchangeably and may be used interchangeably. The terms "temporal candidate" and "temporary merge candidate" may be used interchangeably and may be used interchangeably.
부호화 장치(100)는 예측을 통해 예측 블록을 획득할 수 있다. 부호화 장치(100)는 대상 블록 및 예측 블록의 차이인 잔차 블록을 부호화할 수 있다.The encoding apparatus 100 may obtain a prediction block through prediction. The encoding apparatus 100 may encode a residual block that is a difference between a target block and a prediction block.
2-1) 머지 후보 리스트(merge candidate list)의 작성2-1) Creating a merge candidate list
머지 모드가 사용되는 경우, 부호화 장치(100) 및 복호화 장치(200)의 각각은 공간적 후보의 움직임 정보 및/또는 시간적 후보의 움직임 정보를 이용하여 머지 후보 리스트를 생성할 수 있다. 움직임 정보는 1) 움직임 벡터, 2) 참조 픽처 인덱스, 및 3) 참조 방향을 포함할 수 있다. 참조 방향은 단방향 또는 양방향일 수 있다.When the merge mode is used, each of the encoding apparatus 100 and the decoding apparatus 200 may generate the merge candidate list using the motion information of the spatial candidate and / or the motion information of the temporal candidate. The motion information may include 1) a motion vector, 2) a reference picture index, and 3) a reference direction. The reference direction may be unidirectional or bidirectional.
머지 후보 리스트는 머지 후보들을 포함할 수 있다. 머지 후보는 움직임 정보일 수 있다. 말하자면, 머지 후보 리스트는 움직임 정보들이 저장된 리스트일 수 있다.The merge candidate list may include merge candidates. The merge candidate may be motion information. In other words, the merge candidate list may be a list in which motion information is stored.
머지 후보들은 시간적 후보 및/또는 공간적 후보 등의 움직임 정보들일 수 있다. 또한, 머지 후보 리스트는 머지 후보 리스트에 이미 존재하는 머지 후보들의 조합에 의해 생성된 새로운 머지 후보를 포함할 수 있다. 말하자면, 머지 후보 리스트는 머지 후보 리스트에 이미 존재하는 움직임 정보들의 조합에 의해 생성된 새로운 움직임 정보를 포함할 수 있다.The merge candidates may be motion information such as temporal candidates and / or spatial candidates. In addition, the merge candidate list may include a new merge candidate generated by a combination of merge candidates already present in the merge candidate list. In other words, the merge candidate list may include new motion information generated by a combination of motion information already present in the merge candidate list.
머지 후보들은 인터 예측 정보를 유도하는 특정된 모드들일 수 있다. 머지 후보는 인터 예측 정보를 유도하는 특정된 모드를 가리키는 정보일 수 있다. 머지 후보가 가리키는 특정된 모드에 따라 대상 블록의 인터 예측 정보가 유도될 수 있다. 이 때, 특정된 모드는 일련의 인터 예측 정보를 유도하는 과정을 포함할 수 있다. 이러한 특정된 모드는 인터 예측 정보 유도 모드 또는 움직임 정보 유도 모드일 수 있다.Merge candidates may be specified modes that derive inter prediction information. The merge candidate may be information indicating a specified mode for deriving inter prediction information. Inter prediction information of the target block may be derived according to the specified mode indicated by the merge candidate. In this case, the specified mode may include a process of deriving a series of inter prediction information. This specified mode may be an inter prediction information derivation mode or a motion information derivation mode.
머지 후보 리스트 내의 머지 후보들 중 머지 인덱스에 의해 선택된 머지 후보가 가리키는 모드에 따라서 대상 블록의 인터 예측 정보가 유도될 수 있다.Inter prediction information of the target block may be derived according to a mode indicated by the merge candidate selected by the merge index among the merge candidates in the merge candidate list.
예를 들면, 머지 후보 리스트 내의 움직임 정보 유도 모드들은, 1) 서브 블록 단위의 움직임 정보 유도 모드 및 2) 어파인 움직임 정보 유도 모드 중 적어도 하나일 수 있다.For example, the motion information derivation modes in the merge candidate list may be at least one of 1) motion information derivation mode in sub-block units and 2) affine motion information derivation mode.
또한, 머지 후보 리스트는 제로 벡터의 움직임 정보를 포함할 수 있다. 제로 벡터는 제로 머지 후보로 칭해질 수도 있다.In addition, the merge candidate list may include motion information of the zero vector. The zero vector may be referred to as a zero merge candidate.
말하자면, 머지 후보 리스트 내의 움직임 정보들은, 1) 공간적 후보의 움직임 정보, 2) 시간적 후보의 움직임 정보, 3) 이미 머지 후보 리스트에 존재하는 움직임 정보들의 조합에 의해 생성된 움직임 정보, 4) 제로 벡터 중 적어도 하나일 수 있다.In other words, the motion information in the merge candidate list may include: 1) motion information of a spatial candidate, 2) motion information of a temporal candidate, 3) motion information generated by a combination of motion information already present in the merge candidate list, and 4) zero vector. It may be at least one of.
움직임 정보는 1) 움직임 벡터, 2) 참조 픽처 인덱스 및 3) 참조 방향을 포함할 수 있다. 참조 방향은 인터 예측 지시자로 칭해질 수도 있다. 참조 방향은 단방향 또는 양방향일 수 있다. 단방향의 참조 방향은 L0 예측 또는 L1 예측을 나타낼 수 있다.The motion information may include 1) a motion vector, 2) a reference picture index, and 3) a reference direction. The reference direction may be referred to as an inter prediction indicator. The reference direction may be unidirectional or bidirectional. The unidirectional reference direction may indicate L0 prediction or L1 prediction.
머지 후보 리스트는 머지 모드에 의한 예측이 수행되기 전에 생성될 수 있다.The merge candidate list may be generated before prediction by the merge mode is performed.
머지 후보 리스트의 머지 후보들의 개수는 기정의될 수 있다. 머지 후보 리스트가 기정의된 개수의 머지 후보들을 갖도록 부호화 장치(100) 및 복호화 장치(200)는 기정의된 방식 및 기정의된 순위에 따라서 머지 후보 리스트에 머지 후보를 추가할 수 있다. 기정의된 방식 및 기정의된 순위를 통해 부호화 장치(100)의 머지 후보 리스트 및 복호화 장치(200)의 머지 후보 리스트는 동일하게 될 수 있다. The number of merge candidates in the merge candidate list may be predefined. The encoding apparatus 100 and the decoding apparatus 200 may add the merge candidates to the merge candidate list according to a predefined method and a predefined rank so that the merge candidate list has a predetermined number of merge candidates. The merge candidate list of the encoding apparatus 100 and the merge candidate list of the decoding apparatus 200 may be identical through the predefined scheme and the predefined ranking.
머지는 CU 단위 또는 PU 단위로 적용될 수 있다. CU 단위 또는 PU 단위로 머지가 수행되는 경우, 부호화 장치(100)는 기정의된 정보를 포함하는 비트스트림을 복호화 장치(200)로 전송할 수 있다. 예를 들면, 기정의된 정보는, 1) 블록 파티션(partition) 별로 머지를 수행할지 여부를 나타내는 정보, 2) 대상 블록에 대하여 공간적 후보 및/또는 시간적 후보인 블록들 중 어떤 블록과 머지를 할 것인가에 대한 정보를 포함할 수 있다.Merge may be applied in a CU unit or a PU unit. When merging is performed in a CU unit or a PU unit, the encoding apparatus 100 may transmit a bitstream including predefined information to the decoding apparatus 200. For example, the predefined information may include 1) information indicating whether or not to perform merge for each block partition, and 2) any block among blocks that are spatial candidates and / or temporal candidates for the target block. It may include information about whether it is.
2-2) 머지 후보 리스트를 사용하는 움직임 벡터의 검색2-2) Searching for Motion Vectors Using Merge Candidate Lists
부호화 장치(100)는 대상 블록의 부호화를 위해 사용될 머지 후보를 결정할 수 있다. 예를 들면, 부호화 장치(100)는 머지 후보 리스트의 머지 후보들을 사용하여 대상 블록에 대한 예측들을 수행하고, 머지 후보들에 대한 잔차 블록들을 생성할 수 있다. 부호화 장치(100)는 예측과 잔차 블록의 부호화에 있어서 최소의 비용을 요구하는 머지 후보를 대상 블록의 부호화를 위해 사용할 수 있다.The encoding apparatus 100 may determine a merge candidate to be used for encoding the target block. For example, the encoding apparatus 100 may perform predictions on the target block by using merge candidates of the merge candidate list and generate residual blocks for the merge candidates. The encoding apparatus 100 may use a merge candidate for the encoding of the target block, which requires a minimum cost in prediction and encoding of the residual block.
또한, 부호화 장치(100)는 대상 블록의 부호화에 있어서 머지 모드를 사용할지 여부를 결정할 수 있다.In addition, the encoding apparatus 100 may determine whether to use the merge mode in encoding the target block.
2-3) 인터 예측 정보의 전송2-3) Inter prediction information transmission
부호화 장치(100)는 인터 예측을 위해 요구되는 인터 예측 정보를 포함하는 비트스트림을 생성할 수 있다. 부호화 장치(100)는 인터 예측 정보에 대한 엔트로피 부호화를 수행하여 엔트로피 부호화된 인터 예측 정보를 생성할 수 있고, 엔트로피 부호화된 인터 예측 정보를 포함하는 비트스트림을 복호화 장치(200)로 전송할 수 있다. 비트스트림을 통해, 엔트로피 부호화된 인터 예측 정보가 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수 있다.The encoding apparatus 100 may generate a bitstream including inter prediction information required for inter prediction. The encoding apparatus 100 may generate entropy encoded inter prediction information by performing entropy encoding on the inter prediction information, and may transmit a bitstream including the entropy encoded inter prediction information to the decoding apparatus 200. Entropy encoded inter prediction information may be signaled from the encoding apparatus 100 to the decoding apparatus 200 through the bitstream.
복호화 장치(200)는 비트스트림의 인터 예측 정보를 사용하여 대상 블록에 대한 인터 예측을 수행할 수 있다.The decoding apparatus 200 may perform inter prediction on the target block by using inter prediction information of the bitstream.
인터 예측 정보는, 1) 머지 모드를 사용하는지 여부를 나타내는 모드 정보 및 2) 머지 인덱스를 포함할 수 있다.The inter prediction information may include 1) mode information indicating whether to use the merge mode and 2) the merge index.
또한, 인터 예측 정보는 잔차 신호를 포함할 수 있다.In addition, the inter prediction information may include a residual signal.
복호화 장치(200)는 모드 정보가 머지 모드를 사용하는 것을 나타낼 경우에만 머지 인덱스를 비트스트림으로부터 획득할 수 있다.The decoding apparatus 200 may obtain the merge index from the bitstream only when the mode information indicates that the merge mode is used.
모드 정보는 머지 플래그일 수 있다. 모드 정보의 단위는 블록일 수 있다. 블록에 대한 정보는 모드 정보를 포함할 수 있고, 모드 정보는 블록에 대하여 머지 모드가 적용되는지 여부를 나타낼 수 있다.The mode information may be a merge flag. The unit of the mode information may be a block. The information on the block may include mode information, and the mode information may indicate whether a merge mode is applied to the block.
머지 인덱스는 머지 후보 리스트에 포함된 머지 후보들 중에서 대상 블록의 예측을 위해 사용되는 머지 후보를 가리킬 수 있다. 또는, 머지 인덱스는 대상 블록에 공간적 또는 시간적으로 인접한 이웃 블록들 중 어떤 블록과의 머지가 수행되는가를 가리킬 수 있다.The merge index may indicate a merge candidate used for prediction of the target block among merge candidates included in the merge candidate list. Alternatively, the merge index may indicate which one of neighboring blocks spatially or temporally adjacent to the target block is performed.
부호화 장치(100)는 머지 후보 리스트에 포함된 머지 후보들 중 가장 높은 부호화 성능을 갖는 머지 후보를 선택할 수 있고, 선택된 머지 후보를 가리키도록 머지 인덱스의 값을 설정할 수 있다.The encoding apparatus 100 may select a merge candidate having the highest encoding performance among merge candidates included in the merge candidate list, and set a merge index value to indicate the selected merge candidate.
2-4) 인터 예측 정보를 사용하는 머지 모드의 인터 예측2-4) Inter prediction in merge mode using inter prediction information
복호화 장치(200)는 머지 후보 리스트에 포함된 머지 후보들 중에서 머지 인덱스가 가리키는 머지 후보를 사용하여 대상 블록에 대한 예측을 수행할 수 있다.The decoding apparatus 200 may perform prediction on the target block by using the merge candidate indicated by the merge index among the merge candidates included in the merge candidate list.
머지 인덱스가 가리키는 머지 후보의 움직임 벡터, 참조 픽처 인덱스 및 참조 방향에 의해 대상 블록의 움직임 벡터가 특정될 수 있다.The motion vector of the target block may be specified by the motion vector of the merge candidate indicated by the merge index, the reference picture index, and the reference direction.
3) 스킵 모드3) Skip Mode
스킵 모드는 공간적 후보의 움직임 정보 또는 시간적 후보의 움직임 정보를 그대로 대상 블록에 적용하는 모드일 수 있다. 또한, 스킵 모드는 잔차 신호를 사용하지 않는 모드일 수 있다. 말하자면, 스킵 모드가 사용될 때, 재구축된 블록은 예측 블록일 수 있다.The skip mode may be a mode in which the motion information of the spatial candidate or the motion information of the temporal candidate is applied to the target block as it is. Also, the skip mode may be a mode that does not use the residual signal. In other words, when the skip mode is used, the reconstructed block may be a prediction block.
머지 모드 및 스킵 모드의 차이는 잔차 신호의 전송 또는 사용의 여부일 수 있다. 말하자면, 스킵 모드는 잔차 신호가 전송 또는 사용되지 않는다는 점을 제외하고는 머지 모드와 유사할 수 있다.The difference between the merge mode and the skip mode may be whether to transmit or use the residual signal. In other words, the skip mode may be similar to the merge mode except that no residual signal is transmitted or used.
스킵 모드가 사용되는 경우, 부호화 장치(100)는 공간적 후보 또는 시간적 후보인 블록들 중 어떤 블록의 움직임 정보가 대상 블록의 움직임 정보로서 이용되는 지를 나타내는 정보를 비트스트림을 통해 복호화 장치(200)에 전송할 수 있다. 부호화 장치(100)는 이러한 정보에 대한 엔트로피 부호화를 수행하여 엔트로피 부호화된 정보를 생성할 수 있고, 비트스트림을 통해 엔트로피 부호화된 정보를 복호화 장치(200)로 시그널링할 수 있다.When the skip mode is used, the encoding apparatus 100 transmits, to the decoding apparatus 200, information indicating which of the blocks that are spatial candidates or temporal candidates is used as the motion information of the target block. Can transmit The encoding apparatus 100 may generate entropy encoded information by performing entropy encoding on the information, and may signal the entropy encoded information to the decoding apparatus 200 through a bitstream.
또한, 스킵 모드가 사용되는 경우 부호화 장치(100)는 MVD와 같은 다른 구문 요소 정보는 복호화 장치(200)에 전송하지 않을 수 있다. 예를 들면, 스킵 모드와 사용되는 경우, 부호화 장치(100)는 MVD, 코드된 블록 플래그 및 변환 계수 레벨 중 적어도 하나에 관한 구문 요소를 복호화 장치(200)에 시그널링하지 않을 수 있다.In addition, when the skip mode is used, the encoding apparatus 100 may not transmit other syntax element information such as MVD to the decoding apparatus 200. For example, when used with a skip mode, the encoding apparatus 100 may not signal a syntax element regarding at least one of an MVD, a coded block flag, and a transform coefficient level to the decoding apparatus 200.
3-1) 머지 후보 리스트의 작성3-1) Creation of merge candidate list
스킵 모드 또한 머지 후보 리스트를 사용할 수 있다. 말하자면, 머지 후보 리스트는 머지 모드 및 스킵 모드의 양자에서 사용될 수 있다. 이러한 측면에서, 머지 후보 리스트는 "스킵 후보 리스트" 또는 "머지/스킵 후보 리스트"로 명명될 수도 있다.Skip mode can also use the merge candidate list. In other words, the merge candidate list can be used in both merge mode and skip mode. In this regard, the merge candidate list may be named "skip candidate list" or "merge / skip candidate list."
또는, 스킵 모드는 머지 모드와는 다른 별개의 후보 리스트를 사용할 수도 있다. 이러한 경우, 아래의 설명에서 머지 후보 리스트 및 머지 후보는 스킵 후보 리스트 및 스킵 후보로 각각 대체될 수 있다.Alternatively, the skip mode may use a separate candidate list different from the merge mode. In this case, in the following description, the merge candidate list and the merge candidate may be replaced with the skip candidate list and the skip candidate, respectively.
머지 후보 리스트는 스킵 모드에 의한 예측이 수행되기 전에 생성될 수 있다.The merge candidate list may be generated before the prediction by the skip mode is performed.
3-2) 머지 후보 리스트를 사용하는 움직임 벡터의 검색3-2) Motion Vector Search Using Merge Candidate List
부호화 장치(100)는 대상 블록의 부호화를 위해 사용될 머지 후보를 결정할 수 있다. 예를 들면, 부호화 장치(100)는 머지 후보 리스트의 머지 후보들을 사용하여 대상 블록에 대한 예측들을 수행할 수 있다. 부호화 장치(100)는 예측에 있어서 최소의 비용을 요구하는 머지 후보를 대상 블록의 부호화를 위해 사용할 수 있다.The encoding apparatus 100 may determine a merge candidate to be used for encoding the target block. For example, the encoding apparatus 100 may perform predictions on the target block by using merge candidates of the merge candidate list. The encoding apparatus 100 may use a merge candidate that requires a minimum cost in prediction for encoding a target block.
또한, 부호화 장치(100)는 대상 블록의 부호화에 있어서 스킵 모드를 사용할지 여부를 결정할 수 있다.In addition, the encoding apparatus 100 may determine whether to use the skip mode in encoding the target block.
3-3) 인터 예측 정보의 전송3-3) Inter prediction information transmission
부호화 장치(100)는 인터 예측을 위해 요구되는 인터 예측 정보를 포함하는 비트스트림을 생성할 수 있다. 복호화 장치(200)는 비트스트림의 인터 예측 정보를 사용하여 대상 블록에 대한 인터 예측을 수행할 수 있다.The encoding apparatus 100 may generate a bitstream including inter prediction information required for inter prediction. The decoding apparatus 200 may perform inter prediction on the target block by using inter prediction information of the bitstream.
인터 예측 정보는, 1) 스킵 모드를 사용하는지 여부를 나타내는 모드 정보 및 2) 스킵 인덱스를 포함할 수 있다.The inter prediction information may include 1) mode information indicating whether to use a skip mode and 2) a skip index.
스킵 인덱스는 전술된 머지 인덱스와 동일할 수 있다.The skip index may be the same as the merge index described above.
스킵 모드가 사용될 경우, 대상 블록은 잔차 신호 없이 부호화될 수 있다. 인터 예측 정보는 잔차 신호를 포함하지 않을 수 있다. 또는, 비트스트림은 잔차 신호를 포함하지 않을 수 있다.When the skip mode is used, the target block may be encoded without a residual signal. The inter prediction information may not include the residual signal. Or, the bitstream may not include the residual signal.
복호화 장치(200)는 모드 정보가 스킵 모드를 사용하는 것을 나타낼 경우에만 스킵 인덱스를 비트스트림으로부터 획득할 수 있다. 전술된 것과 같이, 머지 인덱스 및 스킵 인덱스는 동일한 것일 수 있다. 복호화 장치(200)는 모드 정보가 머지 모드 또는 스킵 모드를 사용하는 것을 나타낼 경우에만 스킵 인덱스를 비트스트림으로부터 획득할 수 있다.The decoding apparatus 200 may obtain the skip index from the bitstream only when the mode information indicates that the skip mode is used. As described above, the merge index and the skip index may be the same. The decoding apparatus 200 may obtain the skip index from the bitstream only when the mode information indicates that the merge mode or the skip mode is used.
스킵 인덱스는 머지 후보 리스트에 포함된 머지 후보들 중에서 대상 블록의 예측을 위해 사용되는 머지 후보를 가리킬 수 있다.The skip index may indicate a merge candidate used for prediction of the target block among merge candidates included in the merge candidate list.
3-4) 인터 예측 정보를 사용하는 스킵 모드의 인터 예측3-4) Inter Prediction in Skip Mode Using Inter Prediction Information
복호화 장치(200)는 머지 후보 리스트에 포함된 머지 후보들 중에서 스킵 인덱스가 가리키는 머지 후보를 사용하여 대상 블록에 대한 예측을 수행할 수 있다.The decoding apparatus 200 may perform prediction on the target block by using the merge candidate indicated by the skip index among the merge candidates included in the merge candidate list.
스킵 인덱스가 가리키는 머지 후보의 움직임 벡터, 참조 픽처 인덱스 및 참조 방향에 의해 대상 블록의 움직임 벡터가 특정될 수 있다.The motion vector of the target block may be specified by the motion vector of the merge candidate indicated by the skip index, the reference picture index, and the reference direction.
4) 현재 픽처 참조 모드4) Current picture reference mode
현재 픽처 참조 모드는 대상 블록이 속한 대상 픽처 내의 기-복원된 영역을 이용하는 예측 모드를 의미할 수 있다.The current picture reference mode may refer to a prediction mode that uses a pre-restored region in the target picture to which the target block belongs.
기-복원된 영역을 특정하기 위한 움직임 벡터가 이용될 수 있다. 대상 블록이 현재 픽처 참조 모드로 부호화되는지 여부는 대상 블록의 참조 픽처 인덱스를 이용하여 판단될 수 있다.A motion vector may be used to specify the pre-restored region. Whether the target block is encoded in the current picture reference mode may be determined using the reference picture index of the target block.
대상 블록이 현재 픽처 참조 모드로 부호화된 블록인지 여부를 나타내는 플래그 혹은 인덱스가 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수도 있다. 또는, 대상 블록이 현재 픽처 참조 모드로 부호화된 블록인지 여부는 대상 블록의 참조 픽처 인덱스를 통해 유추될 수도 있다.A flag or index indicating whether the target block is a block encoded in the current picture reference mode may be signaled from the encoding device 100 to the decoding device 200. Alternatively, whether the target block is a block encoded in the current picture reference mode may be inferred through the reference picture index of the target block.
대상 블록이 현재 픽처 참조 모드로 부호화된 경우, 대상 픽처는 대상 블록을 위한 참조 픽처 리스트 내에서 고정된 위치 또는 임의의 위치에 존재할 수 있다.When the target block is encoded in the current picture reference mode, the target picture may exist at a fixed position or any position within the reference picture list for the target block.
예를 들면, 고정된 위치는 참조 픽처 인덱스의 값이 0인 위치 또는 가장 마지막의 위치일 수 있다.For example, the fixed position may be the position where the value of the reference picture index is 0 or the last position.
대상 픽처가 참조 픽처 리스트 내의 임의의 위치에 존재하는 경우, 이러한 임의의 위치를 나타내는 별도의 참조 픽처 인덱스가 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수도 있다.When the target picture exists at an arbitrary position in the reference picture list, a separate reference picture index indicating this arbitrary position may be signaled from the encoding apparatus 100 to the decoding apparatus 200.
전술된 AMVP 모드, 머지 모드 및 스킵 모드에서는 리스트에 대한 인덱스를 통해 리스트 내의 움직임 정보들 중 대상 블록의 예측을 위해 사용될 움직임 정보가 특정될 수 있다.In the above-described AMVP mode, merge mode, and skip mode, the motion information to be used for prediction of the target block among the motion information in the list may be specified through an index to the list.
부호화 효율의 향상을 위해서, 부호화 장치(100)는 리스트의 요소들 중 대상 블록의 인터 예측에 있어서 최소의 비용을 유발하는 요소의 인덱스만을 시그널링할 수 있다. 부호화 장치(100)는 인덱스를 부호화할 수 있으며, 부호화된 인덱스를 시그널링할 수 있다.In order to improve encoding efficiency, the encoding apparatus 100 may signal only an index of an element causing a minimum cost in inter prediction of a target block among elements of a list. The encoding apparatus 100 may encode the index and may signal the encoded index.
따라서, 전술된 리스트들(즉, 예측 움직임 벡터 후보 리스트 및 머지 후보 리스트)은 부호화 장치(100) 및 복호화 장치(200)에서 동일한 데이터에 기반하여 동일한 방식으로 유도되어야 할 수 있다. 여기에서, 동일한 데이터는 재구축된 픽처 및 재구축된 블록을 포함할 수 있다. 또한, 인덱스로 요소를 특정하기 위해, 리스트 내에서 요소들의 순서는 일정해야 할 수 있다.Therefore, the aforementioned lists (that is, the prediction motion vector candidate list and the merge candidate list) may be derived in the same manner based on the same data in the encoding apparatus 100 and the decoding apparatus 200. Here, the same data may include the reconstructed picture and the reconstructed block. Also, to specify elements by index, the order of the elements in the list may have to be constant.
도 10은 일 예에 따른 공간적 후보들을 나타낸다.10 illustrates spatial candidates according to an example.
도 10에서는, 공간적 후보들의 위치가 도시되었다.In FIG. 10, the positions of the spatial candidates are shown.
가운데의 큰 블록은 대상 블록을 나타낼 수 있다. 5 개의 작은 블록들은 공간적 후보들을 나타낼 수 있다.The large block in the middle may represent the target block. Five small blocks may represent spatial candidates.
대상 블록의 좌표들은 (xP, yP)일 수 있고, 대상 블록의 크기는 (nPSW, nPSH)일 수 있다.The coordinates of the target block may be (xP, yP), and the size of the target block may be (nPSW, nPSH).
공간적 후보 A0은 대상 블록의 좌측 하단의 코너에 인접한 블록일 수 있다. A0은 좌표들 (xP - 1, yP + nPSH + 1)의 픽셀을 차지하는 블록일 수 있다.The spatial candidate A 0 may be a block adjacent to the lower left corner of the target block. A 0 may be a block occupying a pixel of coordinates (xP − 1, yP + nPSH + 1).
공간적 후보 A1은 대상 블록의 좌측에 인접한 블록일 수 있다. A1은 대상 블록의 좌측에 인접한 블록들 중 최 하단의 블록일 수 있다. 또는, A1은 A0의 상단에 인접한 블록일 수 있다. A1은 좌표들 (xP - 1, yP + nPSH)의 픽셀을 차지하는 블록일 수 있다.The spatial candidate A 1 may be a block adjacent to the left side of the target block. A 1 may be the lowest block among blocks adjacent to the left side of the target block. Alternatively, A 1 may be a block adjacent to the top of A 0 . A 1 may be a block occupying a pixel of coordinates (xP-1, yP + nPSH).
공간적 후보 B0은 대상 블록의 우측 상단의 코너에 인접한 블록일 수 있다. B0은 좌표들 (xP + nPSW + 1, yP - 1)의 픽셀을 차지하는 블록일 수 있다.The spatial candidate B 0 may be a block adjacent to the upper right corner of the target block. B 0 may be a block occupying a pixel of coordinates (xP + nPSW + 1, yP-1).
공간적 후보 B1은 대상 블록의 상단에 인접한 블록일 수 있다. B1은 대상 블록의 상단에 인접한 블록들 중 최 우측의 블록일 수 있다. 또는, B1은 B0의 좌측에 인접한 블록일 수 있다. B1은 좌표들 (xP + nPSW, yP - 1)의 픽셀을 차지하는 블록일 수 있다.The spatial candidate B 1 may be a block adjacent to the top of the target block. B 1 may be the rightmost block among blocks adjacent to the top of the target block. Alternatively, B 1 may be a block adjacent to the left side of B 0 . B 1 may be a block occupying a pixel of coordinates (xP + nPSW, yP-1).
공간적 후보 B2는 대상 블록의 좌측 상단의 코너에 인접한 블록일 수 있다. B2는 좌표들 (xP - 1, yP - 1)의 픽셀을 차지하는 블록일 수 있다.The spatial candidate B 2 may be a block adjacent to the upper left corner of the target block. B 2 may be a block occupying a pixel of coordinates (xP-1, yP-1).
공간적 후보 및 시간적 후보의 가용성(availability)의 판단Judgment of the availability of spatial and temporal candidates
공간적 후보의 움직임 정보 또는 시간적 후보의 움직임 정보를 리스트에 포함시키기 위해서는, 공간적 후보의 움직임 정보 또는 시간적 후보의 움직임 정보가 가용한지 여부가 판단되어야 한다.In order to include the motion information of the spatial candidate or the motion information of the temporal candidate in the list, it is determined whether the motion information of the spatial candidate or the motion information of the temporal candidate is available.
이하에서, 후보 블록은 공간적 후보 및 시간적 후보를 포함할 수 있다.In the following, the candidate block may include a spatial candidate and a temporal candidate.
예를 들면, 상기의 판단은 아래의 단계 1) 내지 단계 4)를 순차적으로 적용함으로써 이루어질 수 있다.For example, the above determination may be made by sequentially applying steps 1) to 4) below.
단계 1) 후보 블록을 포함하는 PU가 픽처의 경계의 밖에 있으면 후보 블록의 가용성은 거짓(false)으로 설정될 수 있다. "가용성이 거짓으로 설정된다"는 것은 "비가용한 것으로 설정된다"는 것과 동일한 의미일 수 있다. Step 1) If the PU including the candidate block is outside the boundary of the picture, the availability of the candidate block may be set to false. "Availability is set to false" may mean the same as "set to unavailable".
단계 2) 후보 블록을 포함하는 PU가 슬라이스의 경계의 밖에 있으면 후보 블록의 가용성은 거짓으로 설정될 수 있다. 대상 블록 및 후보 블록이 서로 다른 슬라이스들 내에 위치하면, 후보 블록의 가용성은 거짓으로 설정될 수 있다. Step 2) If the PU containing the candidate block is outside the boundary of the slice, the availability of the candidate block may be set to false. If the target block and the candidate block are located in different slices, the availability of the candidate block may be set to false.
단계 3) 후보 블록을 포함하는 PU가 타일의 경계의 밖에 있으면 후보 블록의 가용성은 거짓으로 설정될 수 있다. 대상 블록 및 후보 블록이 서로 다른 타일들 내에 위치하면, 후보 블록의 가용성은 거짓으로 설정될 수 있다. Step 3) If the PU containing the candidate block is outside the boundary of the tile, the availability of the candidate block may be set to false. If the target block and the candidate block are located in different tiles, the availability of the candidate block may be set to false.
단계 4) 후보 블록을 포함하는 PU의 예측 모드가 인트라 예측 모드이면 후보 블록의 가용성은 거짓으로 설정될 수 있다. 후보 블록을 포함하는 PU가 인터 예측을 사용하지 않으면 후보 블록의 가용성은 거짓으로 설정될 수 있다. Step 4) If the prediction mode of the PU including the candidate block is an intra prediction mode, the availability of the candidate block may be set to false. If the PU including the candidate block does not use inter prediction, the availability of the candidate block may be set to false.
도 11은 일 예에 따른 공간적 후보들의 움직임 정보들의 머지 리스트로의 추가 순서를 나타낸다.11 illustrates an addition order of spatial information of motion candidates to a merge list according to an example.
도 11에서 도시된 것처럼, 공간적 후보들의 움직임 정보들을 머지 리스트에 추가함에 있어서, A1, B1, B0, A0 및 B2의 순서가 사용될 수 있다. 즉, A1, B1, B0, A0 및 B2의 순서로, 가용한 공간적 후보의 움직임 정보가 머지 리스트에 추가될 수 있다.As shown in FIG. 11, in adding motion information of spatial candidates to a merge list, an order of A 1 , B 1 , B 0 , A 0, and B 2 may be used. That is, motion information of available spatial candidates may be added to the merge list in the order of A 1 , B 1 , B 0 , A 0, and B 2 .
머지 모드 및 스킵 모드에서의 머지 리스트의 유도 방법Derivation method of merge list in merge mode and skip mode
전술된 것과 같이, 머지 리스트 내의 머지 후보들의 최대 개수는 설정될 수 있다. 설정된 최대 개수를 N으로 표시한다. 설정된 개수는 부호화 장치(100)로부터 복호화 장치(200)로 전송될 수 있다. 슬라이스의 슬라이스 헤더는 N을 포함할 수 있다. 말하자면, 슬라이스 헤더에 의해 슬라이스의 대상 블록에 대한 머지 리스트의 머지 후보들의 최대 개수가 설정될 수 있다. 예를 들면, 기본적으로 N의 값은 5일 수 있다.As described above, the maximum number of merge candidates in the merge list may be set. The maximum number set is indicated by N. The set number may be transmitted from the encoding apparatus 100 to the decoding apparatus 200. The slice header of the slice may include N. In other words, the maximum number of merge candidates of the merge list for the target block of the slice may be set by the slice header. For example, by default, the value of N may be five.
움직임 정보(즉, 머지 후보)는 아래의 단계 1) 내지 단계 4)의 순서로 머지 리스트에 추가될 수 있다.The motion information (ie, merge candidate) may be added to the merge list in the order of steps 1) to 4) below.
단계 1) 공간적 후보들 중 가용한 공간적 후보들이 머지 리스트에 추가될 수 있다. 가용한 공간적 후보들의 움직임 정보들은 도 10에서 도시된 순서대로 머지 리스트에 추가될 수 있다. 이 때, 가용한 공간적 후보의 움직임 정보가 이미 머지 리스트 내에 존재하는 다른 움직임 정보와 중복되는 경우 상기의 움직임 정보는 머지 리스트에 추가되지 않을 수 있다. 리스트 내에 존재하는 다른 움직임 정보와 중복되는지 여부를 검사하는 것은 "중복성 검사"로 약술될 수 있다. Step 1) Available spatial candidates among the spatial candidates may be added to the merge list. The motion information of the available spatial candidates may be added to the merge list in the order shown in FIG. 10. In this case, when the motion information of the available spatial candidates overlaps with other motion information already existing in the merge list, the motion information may not be added to the merge list. Checking whether it overlaps with other motion information present in the list may be abbreviated as "redundancy check".
추가되는 움직임 정보들은 최대 N 개일 수 있다.The added motion information may be up to N pieces.
단계 2) 머지 리스트 내의 움직임 정보들의 개수가 N 보다 더 작고, 시간적 후보가 가용하면, 시간적 후보의 움직임 정보가 머지 리스트에 추가될 수 있다. 이 때, 가용한 시간적 후보의 움직임 정보가 이미 머지 리스트 내에 존재하는 다른 움직임 정보와 중복되는 경우 상기의 움직임 정보는 머지 리스트에 추가되지 않을 수 있다. Step 2) If the number of motion information in the merge list is smaller than N and a temporal candidate is available, the motion information of the temporal candidate may be added to the merge list. At this time, if the motion information of the available temporal candidate overlaps with other motion information already existing in the merge list, the motion information may not be added to the merge list.
단계 3) 머지 리스트 내의 움직임 정보들의 개수가 N 보다 더 작고, 대상 슬라이스의 타입이 "B"이면, 조합된 양방향 예측(combined bi-prediction)에 의해 생성된 조합된 움직임 정보가 머지 리스트에 추가될 수 있다. Step 3) If the number of motion information in the merge list is less than N and the type of the target slice is "B", the combined motion information generated by the combined bi-prediction is added to the merge list. Can be.
대상 슬라이스는 대상 블록을 포함하는 슬라이스일 수 있다.The target slice may be a slice including the target block.
조합된 움직임 정보는 L0 움직임 정보 및 L1 움직임 정보의 조합일 수 있다. L0 움직임 정보는 참조 픽처 리스트 L0만을 참조하는 움직임 정보일 수 있다. L1 움직임 정보는 참조 픽처 리스트 L1만을 참조하는 움직임 정보일 수 있다.The combined motion information may be a combination of L0 motion information and L1 motion information. The L0 motion information may be motion information referring only to the reference picture list L0. The L1 motion information may be motion information referring only to the reference picture list L1.
머지 리스트 내에서, L0 움직임 정보는 하나 이상일 수 있다. 또한, 머지 리스트 내에서, L1 움직임 정보는 하나 이상일 수 있다.Within the merge list, the L0 motion information may be one or more. Also, within the merge list, there may be one or more L1 motion information.
조합된 움직임 정보는 하나 이상일 수 있다. 조합된 움직임 정보를 생성함에 있어서 하나 이상의 L0 움직임 정보들 및 하나 이상의 L1 움직임 정보들 중 어떤 L0 움직임 정보 및 어떤 L1 움직임 정보를 사용할 것인가는 기정의될 수 있다. 하나 이상의 조합된 움직임 정보는 머지 리스트 내의 서로 다른 움직임 정보들의 쌍(pair)을 사용하는 조합된 양방향 예측에 의해 기정의된 순서로 생성될 수 있다. 서로 다른 움직임 정보들의 쌍 중 하나는 L0 움직임 정보고 다른 하나는 L1 움직임 정보일 수 있다.The combined motion information may be one or more. Which L0 motion information and which L1 motion information among one or more L0 motion information and one or more L1 motion information are used in generating the combined motion information may be defined. One or more combined motion information may be generated in a predefined order by combined bidirectional prediction using a pair of different motion information in the merge list. One of the pairs of different motion information may be L0 motion information and the other may be L1 motion information.
예를 들면, 최우선적으로 추가되는 조합된 움직임 정보는 머지 인덱스가 0인 L0 움직임 정보 및 머지 인덱스가 1인 L1 움직임 정보의 조합일 수 있다. 머지 인덱스가 0인 움직임 정보가 L0 움직임 정보가 아니거나, 머지 인덱스가 1인 움직임 정보가 L1 움직임 정보가 아니면 상기의 조합된 움직임 정보는 생성 및 추가되지 않을 수 있다. 다음으로 추가되는 움직임 정보는 머지 인덱스가 1인 L0 움직임 정보 및 머지 인덱스가 0인 L1 움직임 정보의 조합일 수 있다. 이하의 구체적인 조합은 비디오의 부호화/복호화 분야의 다른 조합을 따를 수 있다.For example, the combined motion information added first may be a combination of L0 motion information having a merge index of 0 and L1 motion information having a merge index of 1. If the motion information having the merge index of 0 is not the L0 motion information or the motion information having the merge index of 1 is not the L1 motion information, the combined motion information may not be generated and added. Next, the additional motion information may be a combination of L0 motion information having a merge index of 1 and L1 motion information having a merge index of 0. The following specific combinations may follow other combinations in the field of video encoding / decoding.
이 때, 조합된 움직임 정보가 이미 머지 리스트 내에 존재하는 다른 움직임 정보와 중복되는 경우 상기의 조합된 움직임 정보는 머지 리스트에 추가되지 않을 수 있다.In this case, when the combined motion information is overlapped with other motion information already existing in the merge list, the combined motion information may not be added to the merge list.
단계 4) 머지 리스트 내의 움직임 정보들의 개수가 N 보다 더 작으면, 제로 벡터 움직임 정보가 머지 리스트에 추가될 수 있다. Step 4) If the number of motion information in the merge list is smaller than N, zero vector motion information may be added to the merge list.
제로 벡터 움직임 정보는 움직임 벡터가 제로 벡터인 움직임 정보일 수 있다.The zero vector motion information may be motion information in which the motion vector is a zero vector.
제로 벡터 움직임 정보는 하나 이상일 수 있다. 하나 이상의 제로 벡터 움직임 정보들의 참조 픽처 인덱스들은 서로 상이할 수 있다. 예를 들면, 첫 번째의 제로 벡터 움직임 정보의 참조 픽처 인덱스의 값은 0일 수 있다. 두 번째의 제로 벡터 움직임 정보의 참조 픽처 인덱스의 값은 1일 수 있다.The zero vector motion information may be one or more. The reference picture indices of the one or more zero vector motion information may be different from each other. For example, the value of the reference picture index of the first zero vector motion information may be zero. The value of the reference picture index of the second zero vector motion information may be one.
제로 벡터 움직임 정보들의 개수는 참조 픽처 리스트 내의 참조 픽처들의 개수와 동일할 수 있다.The number of zero vector motion information may be equal to the number of reference pictures in the reference picture list.
제로 벡터 움직임 정보의 참조 방향은 양방향일 수 있다. 2 개의 움직임 벡터들은 모두 제로 벡터들일 수 있다. 제로 벡터 움직임 정보들의 개수는 참조 픽처 리스트 L0 내의 참조 픽처들의 개수 및 참조 픽처 리스트 L1 내의 참조 픽처들의 개수 중 더 작은 것일 수 있다. 또는, 참조 픽처 리스트 L0 내의 참조 픽처들의 개수 및 참조 픽처 리스트 L1 내의 참조 픽처들의 개수가 서로 다를 경우, 하나의 참조 픽처 리스트에만 적용될 수 있는 참조 픽처 인덱스에 대해서는 단방향의 참조 방향이 사용될 수 있다.The reference direction of the zero vector motion information may be bidirectional. Both motion vectors may be zero vectors. The number of zero vector motion information may be smaller than the number of reference pictures in the reference picture list L0 and the number of reference pictures in the reference picture list L1. Alternatively, when the number of reference pictures in the reference picture list L0 and the number of reference pictures in the reference picture list L1 are different from each other, a unidirectional reference direction may be used for the reference picture index that can be applied to only one reference picture list.
부호화 장치(100) 및/또는 복호화 장치(200)는 참조 픽처 인덱스를 변경하면서 순차적으로 제로 벡터 움직임 정보를 머지 리스트에 추가할 수 있다.The encoding apparatus 100 and / or the decoding apparatus 200 may sequentially add zero vector motion information to the merge list while changing the reference picture index.
제로 벡터 움직임 정보가 이미 머지 리스트 내에 존재하는 다른 움직임 정보와 중복되는 경우 상기의 제로 벡터 움직임 정보는 머지 리스트에 추가되지 않을 수 있다.When the zero vector motion information overlaps with other motion information already existing in the merge list, the zero vector motion information may not be added to the merge list.
전술된 단계 1) 내지 단계 4)의 순서는 단지 예시적인 것으로, 단계들 간의 순서는 서로 바뀔 수 있다. 또한, 단계들 중 일부는 기정의된 조건에 따라 생략될 수 있다.The order of steps 1) to 4) described above is merely exemplary, and the order between the steps may be interchanged. In addition, some of the steps may be omitted depending on predefined conditions.
AMVP 모드에서의 예측 움직임 벡터 후보 리스트의 유도 방법Derivation Method of Predictive Motion Vector Candidate List in AMVP Mode
예측 움직임 벡터 후보 리스트 내의 예측 움직임 벡터 후보들의 최대 개수는 기정의될 수 있다. 기정의된 최대 개수를 N으로 표시한다. 예를 들면, 기정의된 최대 개수는 2일 수 있다.The maximum number of predicted motion vector candidates in the predicted motion vector candidate list may be predefined. The predefined maximum number is denoted by N. For example, the predefined maximum number may be two.
움직임 정보(즉, 예측 움직임 벡터 후보)는 아래의 단계 1) 내지 단계 3)의 순서로 예측 움직임 벡터 후보 리스트에 추가될 수 있다.The motion information (ie, the predicted motion vector candidate) may be added to the predicted motion vector candidate list in the order of steps 1) to 3) below.
단계 1) 공간적 후보들 중 가용한 공간적 후보들이 예측 움직임 벡터 후보 리스트에 추가될 수 있다. 공간적 후보들은 제1 공간적 후보 및 제2 공간적 후보를 포함할 수 있다. Step 1) Available spatial candidates of the spatial candidates may be added to the predicted motion vector candidate list. Spatial candidates may include a first spatial candidate and a second spatial candidate.
제1 공간적 후보는 A0, A1, 스케일된(scaled) A0 및 스케일된 A1 중 하나일 수 있다. 제2 공간적 후보는 B0, B1, B2, 스케일된 B0, 스케일된 B1 및 스케일된 B2 중 하나일 수 있다.The first spatial candidate may be one of A 0 , A 1 , scaled A 0, and scaled A 1 . The second spatial candidate may be one of B 0 , B 1 , B 2 , scaled B 0 , scaled B 1, and scaled B 2 .
가용한 공간적 후보들의 움직임 정보들은 제1 공간적 후보 및 제2 공간적 후보의 순서로 예측 움직임 벡터 후보 리스트에 추가될 수 있다. 이 때, 가용한 공간적 후보의 움직임 정보가 이미 예측 움직임 벡터 후보 리스트 내에 존재하는 다른 움직임 정보와 중복되는 경우 상기의 움직임 정보는 예측 움직임 벡터 후보 리스트에 추가되지 않을 수 있다. 말하자면, N의 값이 2인 경우, 제2 공간적 후보의 움직임 정보가 제1 공간적 후보의 움직임 정보와 동일하면 제2 공간적 후보의 움직임 정보는 예측 움직임 벡터 후보 리스트에 추가되지 않을 수 있다.The motion information of the available spatial candidates may be added to the predicted motion vector candidate list in the order of the first spatial candidate and the second spatial candidate. At this time, if the motion information of the available spatial candidates overlaps with other motion information already existing in the predicted motion vector candidate list, the motion information may not be added to the predicted motion vector candidate list. In other words, when the value of N is 2, if the motion information of the second spatial candidate is the same as the motion information of the first spatial candidate, the motion information of the second spatial candidate may not be added to the predicted motion vector candidate list.
추가되는 움직임 정보들은 최대 N 개일 수 있다.The added motion information may be up to N pieces.
단계 2) 예측 움직임 벡터 후보 리스트 내의 움직임 정보들의 개수가 N 보다 더 작고, 시간적 후보가 가용하면, 시간적 후보의 움직임 정보가 예측 움직임 벡터 후보 리스트에 추가될 수 있다. 이 때, 가용한 시간적 후보의 움직임 정보가 이미 예측 움직임 벡터 후보 리스트 내에 존재하는 다른 움직임 정보와 중복되는 경우 상기의 움직임 정보는 예측 움직임 벡터 후보 리스트에 추가되지 않을 수 있다. Step 2) If the number of motion information in the predicted motion vector candidate list is smaller than N and a temporal candidate is available, motion information of the temporal candidate may be added to the predicted motion vector candidate list. At this time, if the motion information of the available temporal candidate overlaps with other motion information already existing in the predicted motion vector candidate list, the motion information may not be added to the predicted motion vector candidate list.
단계 3) 예측 움직임 벡터 후보 리스트 내의 움직임 정보들의 개수가 N 보다 더 작으면, 제로 벡터 움직임 정보가 예측 움직임 벡터 후보 리스트에 추가될 수 있다. Step 3) If the number of motion information in the predicted motion vector candidate list is smaller than N, zero vector motion information may be added to the predicted motion vector candidate list.
제로 벡터 움직임 정보는 하나 이상일 수 있다. 하나 이상의 제로 벡터 움직임 정보들의 참조 픽처 인덱스들은 서로 상이할 수 있다.The zero vector motion information may be one or more. The reference picture indices of the one or more zero vector motion information may be different from each other.
부호화 장치(100) 및/또는 복호화 장치(200)는 참조 픽처 인덱스를 변경하면서 순차적으로 제로 벡터 움직임 정보를 예측 움직임 벡터 후보 리스트에 추가할 수 있다.The encoding apparatus 100 and / or the decoding apparatus 200 may sequentially add zero vector motion information to the predicted motion vector candidate list while changing the reference picture index.
제로 벡터 움직임 정보가 이미 예측 움직임 벡터 후보 리스트 내에 존재하는 다른 움직임 정보와 중복되는 경우 상기의 제로 벡터 움직임 정보는 예측 움직임 벡터 후보 리스트에 추가되지 않을 수 있다.When zero vector motion information overlaps with other motion information already existing in the predicted motion vector candidate list, the zero vector motion information may not be added to the predicted motion vector candidate list.
머지 리스트에 대해 전술된 제로 벡터 움직임 정보에 대한 설명은 제로 벡터 움직임 정보에도 적용될 수 있다. 중복되는 설명은 생략된다.The description of the zero vector motion information described above with respect to the merge list may also be applied to the zero vector motion information. Duplicate explanations are omitted.
전술된 단계 1) 내지 단계 3)의 순서는 단지 예시적인 것으로, 단계들 간의 순서는 서로 바뀔 수 있다. 또한, 단계들 중 일부는 기정의된 조건에 따라 생략될 수 있다.The order of steps 1) to 3) described above is merely illustrative, and the order between the steps may be interchanged. In addition, some of the steps may be omitted depending on predefined conditions.
도 12는 일 예에 따른 변환 및 양자화의 과정을 설명한다.12 illustrates a process of transform and quantization according to an example.
도 12에 도시된 바와 같이 잔차 신호에 변환 및/또는 양자화 과정을 수행하여 양자화된 레벨이 생성될 수 있다.As illustrated in FIG. 12, a quantized level may be generated by performing a transform and / or quantization process on the residual signal.
잔차 신호는 원본 블록과 예측 블록 간의 차분으로 생성될 수 있다. 여기에서, 예측 블록은 인트라 예측 또는 인터 예측에 의해 생성된 블록일 수 있다.The residual signal may be generated by the difference between the original block and the prediction block. Here, the prediction block may be a block generated by intra prediction or inter prediction.
잔차 신호는 양자화 과정의 일부인 변환 과정을 통해 주파수 도메인으로 변환될 수 있다.The residual signal may be converted into the frequency domain through a conversion process that is part of the quantization process.
변환을 위해 사용되는 변환 커널은 이산 코사인 변환(Discrete Cosine Transform; DCT) 타입(type) 2 (DCT-II) 등과 같은 다양한 DCT 커널 및 이산 사인 변환(Discrete Sine Transform; DST) 커널을 포함할 수 있다.Transform kernels used for the transformation may include various DCT kernels, such as the Discrete Cosine Transform (DCT) type 2 (DCT-II), and the Discrete Sine Transform (DST) kernel. .
이러한 변환 커널들은 잔차 신호에 대해 분리가능 변환(separable transform) 또는 2차원(2Dimensional; 2D) 비-분리가능 변환(non-separable transform)을 수행할 수 있다. 분리가능 변환은 잔차 신호에 대해 1차원(1Dimensional; 1D) 변환을 수평 방향 및 수직 방향의 각각에 수행하는 변환일 수 있다.Such transform kernels may perform a separable transform or a 2D (2D) non-separable transform on the residual signal. The separable transform may be a transform that performs a 1D (1D) transformation on the residual signal in each of the horizontal direction and the vertical direction.
1D 변환을 위해 적응적으로 사용되는 DCT 타입 및 DST 타입은 아래의 표 3 및 표 4에서 각각 표시된 것과 같이 DCT-II 외에도 DCT-V, DCT-VIII, DST-I 및 DST-VII를 포함할 수 있다.DCT types and DST types that are adaptively used for 1D conversion may include DCT-V, DCT-VIII, DST-I, and DST-VII in addition to DCT-II as shown in Tables 3 and 4, respectively, below. have.
[표 3]TABLE 3
[표 4]TABLE 4
표 3 및 표 4에서 표시된 것과 같이, 변환에 사용될 DCT 타입 또는 DST 타입을 유도함에 있어서 변환 세트(transform set)가 사용될 수 있다. 각 변환 세트는 복수의 변환 후보들을 포함할 수 있다. 각 변환 후보는 DCT 타입 또는 DST 타입 등일 수 있다.As indicated in Tables 3 and 4, a transform set may be used in deriving a DCT type or a DST type to be used for the transformation. Each transform set may include a plurality of transform candidates. Each conversion candidate may be a DCT type or a DST type.
아래의 표 5는 인트라 예측 모드에 따라 수평 방향에 적용되는 변환 세트 및 수직 방향에 적용되는 변환 세트의 일 예를 나타낸다.Table 5 below shows an example of a transform set applied to the horizontal direction and a transform set applied to the vertical direction according to the intra prediction mode.
[표 5]TABLE 5
표 5에서는, 대상 블록의 인트라 예측 모드에 따라서 잔차 신호의 수평 방향에 적용되는 수직 방향 변환 세트의 번호 및 수평 방향 변환 세트의 번호가 표시되었다.In Table 5, the number of the vertical direction transform set and the number of the horizontal direction transform set applied to the horizontal direction of the residual signal according to the intra prediction mode of the target block are displayed.
표 5에서 예시된 것과 같이, 대상 블록의 인트라 예측 모드에 따라 수평 방향 및 수직 방향에 적용되는 변환 세트들이 기정의될 수 있다. 부호화 장치(100)는 대상 블록의 인트라 예측 모드에 대응하는 변환 세트에 포함된 변환을 이용하여 잔차 신호에 대한 변환 및 역변환을 수행할 수 있다. 또한, 복호화 장치(200)는 대상 블록의 인트라 예측 모드에 대응하는 변환 세트에 포함된 변환을 이용하여 잔차 신호에 대한 역변환을 수행할 수 있다.As illustrated in Table 5, transform sets applied to the horizontal direction and the vertical direction may be defined according to the intra prediction mode of the target block. The encoding apparatus 100 may perform transform and inverse transform on the residual signal by using a transform included in a transform set corresponding to the intra prediction mode of the target block. In addition, the decoding apparatus 200 may perform inverse transform on the residual signal using a transform included in a transform set corresponding to the intra prediction mode of the target block.
이러한 변환 및 역변환에 있어서, 잔차 신호에 적용되는 변환 세트는 표 3, 표 4에서 예시된 것과 같이 결정될 수 있고, 시그널링되지 않을 수 있다. 변환 지시 정보는 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수 있다. 변환 지시 정보는 잔차 신호에 적용되는 변환 세트가 포함하는 복수의 변환 후보들 중 어떤 변환 후보가 사용되는가를 지시하는 정보일 수 있다.In this transform and inverse transform, the transform set applied to the residual signal may be determined as illustrated in Tables 3 and 4 and may not be signaled. The transformation indication information may be signaled from the encoding apparatus 100 to the decoding apparatus 200. The transform indication information may be information indicating which transform candidate among a plurality of transform candidates included in a transform set applied to the residual signal is used.
예를 들어, 대상 블록의 크기가 64x64 이하인 경우, 인트라 예측 모드에 따라 표 4의 예에서와 같이 모두 3 개들인 변환 세트들이 구성될 수 있다. 수평 방향의 3 개의 변환들 및 수직 방향의 3 개의 변환들의 조합으로 인한 모두 9 개의 다중 변환 방법들 중에서 최적의 변환 방법이 선택될 수 있다. 이러한 최적의 변환 방법으로 잔차 신호를 부호화 및/또는 복호화함으로써 부호화 효율이 향상될 수 있다.For example, when the size of the target block is 64x64 or less, three sets of transforms may be configured as in the example of Table 4 according to the intra prediction mode. The optimal transform method can be selected from among all nine multiple transform methods due to the combination of three transforms in the horizontal direction and three transforms in the vertical direction. The encoding efficiency may be improved by encoding and / or decoding the residual signal using such an optimal conversion method.
이 때, 수직 변환 및 수평 변환 중 적어도 하나 이상에 대해, 변환 세트에 속한 변환들 중 어떤 변환이 사용되었는지에 대한 정보가 엔트로피 부호화 및/또는 복호화될 수 있다. 이러한 정보의 부호화 및/또는 복호화를 위해 절삭된 단항(truncated unary) 이진화(binarization)가 사용될 수 있다.In this case, for at least one of the vertical transform and the horizontal transform, information on which transform among transforms belonging to the transform set is used may be entropy encoded and / or decoded. Truncated unary binarization may be used for encoding and / or decoding such information.
전술된 것과 같이 다양한 변환들을 사용하는 방법은 인트라 예측 또는 인터 예측에 의해 생성된 잔차 신호에 적용될 수 있다.A method using various transforms as described above may be applied to a residual signal generated by intra prediction or inter prediction.
변환은 1차 변환 및 2차 변환 중 적어도 하나를 포함할 수 있다. 잔차 신호에 대해서 1차 변환을 수행함으로써 변환 계수가 생성될 수 있고, 변환 계수에 2차 변환을 수행함으로써 2차 변환 계수가 생성될 수 있다.The transform may include at least one of a primary transform and a secondary transform. The transform coefficients may be generated by performing the primary transform on the residual signal, and the secondary transform coefficients may be generated by performing the secondary transform on the transform coefficients.
1차 변환은 주 변환(primary)으로 명명될 수 있다. 또한, 1차 변환은 적응적 다중 변환(Adaptive Multiple Transform; AMT)로 명명될 수 있다. AMT는 전술된 것과 같이 1D 방향들(즉, 수직 방향 및 수평 방향)의 각각에 대해 서로 다른 변환이 적용되는 것을 의미할 수 있다.The primary transform can be named primary. In addition, the primary transform may be referred to as an adaptive multiple transform (AMT). The AMT may mean that different transformations are applied to each of the 1D directions (ie, the vertical direction and the horizontal direction) as described above.
2차 변환은 1차 변환에 의해 생성된 변환 계수의 에너지 집중도를 향상시키기 위한 변환일 수 있다. 2차 변환도 1차 변환과 마찬가지로 분리가능 변환 또는 비-분리가능 변환일 수 있다. 비-분리가능 변환은 비-분리가능 2차 변환(Non-Separable Secondary Transform; NSST)일 수 있다.The secondary transformation may be a transformation for improving the energy concentration of the transformation coefficients generated by the primary transformation. Secondary transforms can be separable transforms or non-separable transforms like primary transforms. The non-separable transform can be a Non-Separable Secondary Transform (NSST).
1차 변환은 기정의된 복수의 변환 방법들 중 적어도 하나를 이용하여 수행될 수 있다. 일 예로, 기정의된 복수의 변환 방법들은 이산 코사인 변환(Discrete Cosine Transform; DCT), 이산 사인 변환(Discrete Sine Transform; DST) 및 카루넨-루베 변환(Karhunen-Loeve Transform; KLT) 기반 변환 등을 포함할 수 있다.The primary transformation may be performed using at least one of a plurality of predefined transformation methods. For example, the predefined plurality of transformation methods may include a discrete cosine transform (DCT), a discrete sine transform (DST), and a karhunen-loeve transform (KLT) based transform. It may include.
또한, 1차 변환은 DCT 또는 DST를 정의하는 커널 함수에 따라서 다양한 타입을 갖는 변환일 수 있다.In addition, the primary transform may be a transform having various types according to a kernel function defining a DCT or a DST.
예를 들면, 1차 변환은 아래의 표 6에서 제시된 변환 커널에 따른 DCT-2, DCT-5, DCT-7, DST-1 및 DST-8과 같은 변환들을 포함할 수 있다. 표 6에서는 복수 변환 선택(Multiple Transform Selection; MTS)에 대한 다양한 변환 타입들 및 변환 커널 함수들이 예시되었다.For example, the primary transform may include transforms such as DCT-2, DCT-5, DCT-7, DST-1 and DST-8 according to the transform kernels set forth in Table 6 below. In Table 6, various transform types and transform kernel functions for Multiple Transform Selection (MTS) are illustrated.
MTS는 잔차 신호의 수평 및/또는 수직방향에 대한 변환을 위해 하나 이상의 DCT 및/또는 DST 변환 커널의 조합이 선택되는 것을 의미할 수 있다.MTS may mean that a combination of one or more DCT and / or DST conversion kernels is selected for transforming the residual signal in the horizontal and / or vertical direction.
[표 6]TABLE 6
표 6에서, i 및 j는 0 이상 N-1 이하의 정수 값일 수 있다.In Table 6, i and j may be an integer value of 0 or more and N-1 or less.
1차 변환의 수행에 의해 생성된 변환 계수에 2차 변환(secondary transform)이 수행될 수 있다.A secondary transform may be performed on the transform coefficients generated by performing the primary transform.
1차 변환에서와 같이, 2차 변환에서도 변환 세트가 정의될 수 있다. 전술된 것과 같은 변환 세트를 유도 및/또는 결정하기 위한 방법들은 1차 변환뿐만 아니라 2차 변환에도 적용될 수 있다.As in the primary transform, a transform set can be defined in the secondary transform. Methods for deriving and / or determining a transform set as described above may be applied to the secondary transform as well as the primary transform.
1차 변환 및 2차 변환은 특정된 대상에 대해서 결정될 수 있다.The primary transform and the secondary transform can be determined for the specified object.
예를 들면, 1차 변환 및 2차 변환은 루마 성분 및 크로마 성분 중 하나 이상의 신호 성분에 적용될 수 있다. 1차 변환 및/또는 2차 변환의 적용 여부는 대상 블록 및/또는 이웃 블록에 대한 코딩 파라미터들 중 적어도 하나에 따라 결정될 수 있다. 예를 들면, 1차 변환 및/또는 2차 변환의 적용 여부는 대상 블록의 크기 및/또는 형태에 의해 결정될 수 있다.For example, the first order and second order transforms can be applied to one or more signal components of a luma component and a chroma component. Whether to apply the first transform and / or the second transform may be determined according to at least one of coding parameters for the target block and / or the neighboring block. For example, whether to apply the primary transform and / or the secondary transform may be determined by the size and / or shape of the target block.
부호화 장치(100) 및 복호화 장치(200)에서, 대상에게 사용되는 변환 방법을 지시하는 변환 정보는 특정된 정보를 사용함으로써 유도될 수 있다.In the encoding apparatus 100 and the decoding apparatus 200, transformation information indicating a transformation method used for a target may be derived by using specified information.
예를 들면, 변환 정보는 1차 변환 및/또는 2차 변환을 위해 사용될 변환의 인덱스를 포함할 수 있다. 또는, 변환 정보는 1차 변환 및/또는 2차 변환이 사용되지 않음을 나타낼 수도 있다.For example, the transformation information may include an index of the transformation to be used for the primary and / or secondary transformation. Alternatively, the transform information may indicate that the primary transform and / or the secondary transform are not used.
예를 들면, 1차 변환 및 2차 변환의 대상이 대상 블록일 때, 변환 정보가 지시하는 1차 변환 및/또는 2차 변환에 적용되는 변환 방법(들)은 대상 블록 및/또는 이웃 블록에 대한 코딩 파라미터들 중 적어도 하나에 따라 결정될 수 있다.For example, when the target of the primary transform and the secondary transform is the target block, the transform method (s) applied to the primary transform and / or secondary transform indicated by the transform information is applied to the target block and / or the neighboring block. It may be determined according to at least one of the coding parameters for.
또는, 특정된 대상에 대한 변환 정보는 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수도 있다.Alternatively, the transform information for the specified object may be signaled from the encoding apparatus 100 to the decoding apparatus 200.
예를 들면, 하나의 CU에 대하여 1차 변환의 사용 여부, 1차 변환을 가리키는 인덱스, 2차 변환의 사용 여부 및 2차 변환을 가리키는 인덱스 등이 복호화 장치(200)에서 변환 정보로서 유도될 수 있다. 또는, 하나의 CU에 대하여 1차 변환의 사용 여부, 1차 변환을 가리키는 인덱스, 2차 변환의 사용 여부 및 2차 변환을 가리키는 인덱스 등을 나타내는 변환 정보가 시그널링될 수 있다.For example, whether a primary transform is used, an index indicating a primary transform, whether a secondary transform is used, and an index indicating a secondary transform may be derived as transform information in the decoding apparatus 200 for one CU. have. Alternatively, transformation information indicating whether a primary transform is used, an index indicating a primary transform, whether a secondary transform is used, and an index indicating a secondary transform may be signaled for one CU.
1차 변환 및/또는 2차 변환의 수행에 의해 생성된 결과 또는 잔차 신호에 양자화를 수행함으로써 양자화된 변환 계수(즉, 양자화된 레벨)이 생성될 수 있다.Quantized transform coefficients (ie, quantized levels) may be generated by performing quantization on the result or residual signal generated by performing the primary and / or secondary transform.
도 13은 일 예에 따른 대각선 스캐닝을 나타낸다.13 illustrates diagonal scanning according to an example.
도 14는 일 예에 따른 수평 스캐닝을 나타낸다.14 illustrates horizontal scanning according to an example.
도 15는 일 예에 따른 수직 스캐닝을 나타낸다.15 illustrates vertical scanning according to an example.
양자화된 변환 계수들은 인트라 예측 모드, 블록 크기 및 블록 형태 중 적어도 하나에 따라서, (우상단(up-right)) 대각선 스캐닝, 수직 스캐닝 및 수평 스캐닝 중 적어도 하나에 따라서 스캐닝(scanning) 될 수 있다. 블록은 변환 유닛일 수 있다.The quantized transform coefficients may be scanned according to at least one of (up-right) diagonal scanning, vertical scanning, and horizontal scanning, according to at least one of intra prediction mode, block size, and block shape. The block may be a transform unit.
각 스캐닝은 특정된 시작 점에서 시작할 수 있고 특정된 종료 점에서 종료할 수 있다.Each scanning can start at a specified start point and end at a specified end point.
예를 들면, 도 13의 대각선 스캐닝을 이용하여 블록의 계수들을 스캔함으로써 양자화된 변환 계수들이 1차원 벡터 형태로 변경될 수 있다. 또는, 블록의 크기 및/또는 인트라 예측 모드에 따라 대각선 스캐닝 대신 도 14의 수평 스캐닝이나, 도 15의 수직 스캐닝이 사용될 수 있다.For example, the quantized transform coefficients may be changed to a one-dimensional vector form by scanning the coefficients of the block using the diagonal scanning of FIG. 13. Alternatively, the horizontal scanning of FIG. 14 or the vertical scanning of FIG. 15 may be used instead of diagonal scanning depending on the size of the block and / or the intra prediction mode.
수직 스캐닝은 2차원의 블록 형태 계수를 열 방향으로 스캔하는 것일 수 있다. 수평 스캐닝은 2차원의 블록 형태 계수를 행 방향으로 스캔하는 것일 수 있다.Vertical scanning may be a two-dimensional block shape coefficient scanning in the column direction. Horizontal scanning may be scanning two-dimensional block shape coefficients in a row direction.
말하자면, 블록의 크기 및/또는 인터 예측 모드에 따라 대각선 스캐닝, 수직 스캐닝 및 수평 스캐닝 중 어떤 스캐닝이 사용될 것인지가 결정될 수 있다.In other words, depending on the size of the block and / or the inter prediction mode, which of the diagonal scanning, the vertical scanning, and the horizontal scanning may be used may be determined.
도 13, 도 14 및 도 15에서 도시된 것과 같이, 양자화된 변환 계수들은 대각선 방향, 수평 방향 또는 수직 방향에 따라 스캔될 수 있다.As illustrated in FIGS. 13, 14, and 15, the quantized transform coefficients may be scanned along a diagonal direction, a horizontal direction, or a vertical direction.
양자화된 변환 계수들은 블록 형태로 표현될 수 있다. 블록은 복수의 서브 블록들을 포함할 수 있다. 각 서브 블록은 최소 블록 크기 또는 최소 블록 형태에 따라 정의될 수 있다.The quantized transform coefficients may be represented in a block form. The block may include a plurality of sub blocks. Each sub block may be defined according to a minimum block size or a minimum block shape.
스캐닝에 있어서, 스캐닝의 종류 또는 방향에 따른 스캐닝 순서는 우선 서브 블록들에 적용될 수 있다. 또한, 서브 블록 내의 양자화된 변환 계수들에 대해 스캐닝의 방향에 따른 스캐닝 순서가 적용될 수 있다.In scanning, a scanning order according to the type or direction of scanning may first be applied to the sub blocks. In addition, the scanning order according to the scanning direction may be applied to the quantized transform coefficients in the subblock.
예를 들면, 도 13, 도 14 및 도 15에서 도시된 것과 같이, 대상 블록의 크기가 8x8일 때, 대상 블록의 잔차 신호에 대한 1차 변환, 2차 변환 및 양자화에 의해 양자화된 변환 계수들이 생성될 수 있다. 이후, 4 개의 4x4 서브 블록들에 대해 3 가지의 스캐닝 순서들 중 하나의 스캐닝 순서가 적용될 수 있으며, 각 4x4 서브 블록에 대해서도 스캐닝 순서에 따라 양자화된 변환 계수들이 스캔될 수 있다.For example, as shown in FIGS. 13, 14, and 15, when the size of the target block is 8x8, the transform coefficients quantized by the first-order transform, the second-order transform, and the quantization of the residual signal of the target block are Can be generated. Subsequently, one scanning order of three scanning orders may be applied to four 4x4 subblocks, and quantized transform coefficients may be scanned according to the scanning order for each 4x4 subblock.
스캔된 양자화된 변환 계수들은 엔트로피 부호화될 수 있고, 비트스트림은 엔트로피 부호화된 양자화된 변환 계수들을 포함할 수 있다.The scanned quantized transform coefficients can be entropy coded and the bitstream can include entropy coded quantized transform coefficients.
복호화 장치(200)는 비트스트림에 대한 엔트로피 복호화를 통해 양자화된 변환 계수들 생성할 수 있다. 양자화된 변환 계수들은 역 스캐닝(inverse scanning)을 통해 2차원의 블록 형태로 정렬될 수 있다. 이때, 역 스캐닝의 방법으로서, 우상단 대각 스캔, 수직 스캔 및 수평 스캔 중 적어도 하나가 수행될 수 있다.The decoding apparatus 200 may generate quantized transform coefficients through entropy decoding on the bitstream. The quantized transform coefficients may be aligned in the form of a two-dimensional block through inverse scanning. In this case, at least one of the upper right diagonal scan, the vertical scan, and the horizontal scan may be performed as a method of reverse scanning.
복호화 장치(200)에서는, 양자화된 변환 계수들에 역양자화가 수행될 수 있다. 2차 역변환의 수행 여부에 따라서, 역양자화의 수행에 의해 생성된 결과에 대하여 2차 역변환이 수행될 수 있다. 또한, 1차 역변환의 수행 여부에 따라서, 2차 역변환의 수행에 의해 생성된 결과에 대하여 1차 역변환이 수행될 수 있다. 2차 역변환의 수행에 의해 생성된 결과에 대하여 1차 역변환을 수행함으로써 복원된 잔차 신호가 생성될 수 있다.In the decoding apparatus 200, inverse quantization may be performed on the quantized transform coefficients. Depending on whether the second inverse transform is performed, the second inverse transform may be performed on the result generated by the inverse quantization. Further, depending on whether the first inverse transform is performed, the first inverse transform may be performed on the result generated by the second inverse transform. The reconstructed residual signal may be generated by performing the first order inverse on the result generated by the second inverse transform.
도 16은 일 실시예에 따른 부호화 장치의 구조도이다.16 is a structural diagram of an encoding apparatus according to an embodiment.
부호화 장치(1600)는 전술된 부호화 장치(100)에 대응할 수 있다.The encoding apparatus 1600 may correspond to the encoding apparatus 100 described above.
부호화 장치(1600)는 버스(1690)를 통하여 서로 통신하는 처리부(1610), 메모리(1630), 사용자 인터페이스(User Interface; UI) 입력 디바이스(1650), UI 출력 디바이스(1660) 및 저장소(storage)(1640)를 포함할 수 있다. 또한, 부호화 장치(1600)는 네트워크(1699)에 연결되는 통신부(1620)를 더 포함할 수 있다.The encoding apparatus 1600 may include a processor 1610, a memory 1630, a user interface (UI) input device 1650, a UI output device 1660, and storage that communicate with each other through a bus 1690. (1640). In addition, the encoding apparatus 1600 may further include a communication unit 1620 connected to the network 1699.
처리부(1610)는 중앙 처리 장치(Central Processing Unit; CPU), 메모리(1630) 또는 저장소(1640)에 저장된 프로세싱(processing) 명령어(instruction)들을 실행하는 반도체 장치일 수 있다. 처리부(1610)는 적어도 하나의 하드웨어 프로세서일 수 있다.The processor 1610 may be a semiconductor device that executes processing instructions stored in the central processing unit (CPU), the memory 1630, or the storage 1640. The processor 1610 may be at least one hardware processor.
처리부(1610)는 부호화 장치(1600)로 입력되거나, 부호화 장치(1600)에서 출력되거나, 부호화 장치(1600)의 내부에서 사용되는 신호, 데이터 또는 정보의 생성 및 처리를 수행할 수 있고, 신호, 데이터 또는 정보에 관련된 검사, 비교 및 판단 등을 수행할 수 있다. 말하자면, 실시예에서 데이터 또는 정보의 생성 및 처리와, 데이터 또는 정보에 관련된 검사, 비교 및 판단은 처리부(1610)에 의해 수행될 수 있다.The processor 1610 may generate and process a signal, data, or information input to the encoding apparatus 1600, output from the encoding apparatus 1600, or used in the encoding apparatus 1600, and may include a signal, Inspection, comparison, and judgment related to data or information can be performed. In other words, in an embodiment, generation and processing of data or information, and inspection, comparison, and determination related to the data or information may be performed by the processor 1610.
처리부(1610)는 인터 예측부(110), 인트라 예측부(120), 스위치(115), 감산기(125), 변환부(130), 양자화부(140), 엔트로피 부호화부(150), 역양자화부(160), 역변환부(170), 가산기(175), 필터부(180) 및 참조 픽처 버퍼(190)를 포함할 수 있다.The processor 1610 may include an inter predictor 110, an intra predictor 120, a switch 115, a subtractor 125, a transformer 130, a quantizer 140, an entropy encoder 150, and inverse quantization. The unit 160, an inverse transform unit 170, an adder 175, a filter unit 180, and a reference picture buffer 190 may be included.
인터 예측부(110), 인트라 예측부(120), 스위치(115), 감산기(125), 변환부(130), 양자화부(140), 엔트로피 부호화부(150), 역양자화부(160), 역변환부(170), 가산기(175), 필터부(180) 및 참조 픽처 버퍼(190) 중 적어도 일부는 프로그램 모듈들일 수 있으며, 외부의 장치 또는 시스템과 통신할 수 있다. 프로그램 모듈들은 운영 체제, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 부호화 장치(1600)에 포함될 수 있다.The inter predictor 110, the intra predictor 120, the switch 115, the subtractor 125, the transformer 130, the quantizer 140, the entropy encoder 150, the inverse quantizer 160, At least some of the inverse transform unit 170, the adder 175, the filter unit 180, and the reference picture buffer 190 may be program modules, and may communicate with an external device or system. The program modules may be included in the encoding apparatus 1600 in the form of an operating system, an application program module, and other program modules.
프로그램 모듈들은 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈 중 적어도 일부는 부호화 장치(1600)와 통신 가능한 원격 기억 장치에 저장될 수도 있다.The program modules may be physically stored on various known storage devices. In addition, at least some of these program modules may be stored in a remote storage device that can communicate with the encoding device 1600.
프로그램 모듈들은 일 실시예에 따른 기능 또는 동작을 수행하거나, 일 실시예에 따른 추상 데이터 유형을 구현하는 루틴(routine), 서브루틴(subroutine), 프로그램, 오브젝트(object), 컴포넌트(component) 및 데이터 구조(data structure) 등을 포괄할 수 있지만, 이에 제한되지는 않는다.Program modules perform routines or subroutines, programs, objects, components, and data to perform functions or operations, or to implement abstract data types, according to one embodiment. Data structures and the like, but is not limited thereto.
프로그램 모듈들은 부호화 장치(1600)의 적어도 하나의 프로세서(processor)에 의해 수행되는 명령어(instruction) 또는 코드(code)로 구성될 수 있다.The program modules may be composed of instructions or codes performed by at least one processor of the encoding apparatus 1600.
처리부(1610)는 인터 예측부(110), 인트라 예측부(120), 스위치(115), 감산기(125), 변환부(130), 양자화부(140), 엔트로피 부호화부(150), 역양자화부(160), 역변환부(170), 가산기(175), 필터부(180) 및 참조 픽처 버퍼(190)의 명령어 또는 코드를 실행할 수 있다.The processor 1610 may include an inter predictor 110, an intra predictor 120, a switch 115, a subtractor 125, a transformer 130, a quantizer 140, an entropy encoder 150, and inverse quantization. Instructions or codes of the unit 160, the inverse transform unit 170, the adder 175, the filter unit 180, and the reference picture buffer 190 may be executed.
저장부는 메모리(1630) 및/또는 저장소(1640)를 나타낼 수 있다. 메모리(1630) 및 저장소(1640)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체일 수 있다. 예를 들면, 메모리(1630)는 롬(ROM)(1631) 및 램(RAM)(1632) 중 적어도 하나를 포함할 수 있다.The storage can represent the memory 1630 and / or the storage 1640. Memory 1630 and storage 1640 may be various forms of volatile or nonvolatile storage media. For example, the memory 1630 may include at least one of a ROM 1631 and a RAM 1632.
저장부는 부호화 장치(1600)의 동작을 위해 사용되는 데이터 또는 정보를 저장할 수 있다. 실시예에서, 부호화 장치(1600)가 갖는 데이터 또는 정보는 저장부 내에 저장될 수 있다.The storage unit may store data or information used for the operation of the encoding apparatus 1600. In an embodiment, data or information included in the encoding apparatus 1600 may be stored in the storage.
예를 들면, 저장부는 픽처, 블록, 리스트, 움직임 정보, 인터 예측 정보 및 비트스트림 등을 저장할 수 있다.For example, the storage unit may store a picture, a block, a list, motion information, inter prediction information, a bitstream, and the like.
부호화 장치(1600)는 컴퓨터에 의해 독출(read)될 수 있는 기록 매체를 포함하는 컴퓨터 시스템에서 구현될 수 있다.The encoding apparatus 1600 may be implemented in a computer system including a recording medium that may be read by a computer.
기록 매체는 부호화 장치(1600)가 동작하기 위해 요구되는 적어도 하나의 모듈을 저장할 수 있다. 메모리(1630)는 적어도 하나의 모듈을 저장할 수 있고, 적어도 하나의 모듈이 처리부(1610)에 의하여 실행되도록 구성될 수 있다.The recording medium may store at least one module required for the encoding apparatus 1600 to operate. The memory 1630 may store at least one module, and the at least one module may be configured to be executed by the processor 1610.
부호화 장치(1600)의 데이터 또는 정보의 통신과 관련된 기능은 통신부(1620)를 통해 수행될 수 있다.Functions related to communication of data or information of the encoding apparatus 1600 may be performed through the communication unit 1620.
예를 들면, 통신부(1620)는 비트스트림을 후술될 복호화 장치(1700)로 전송할 수 있다.For example, the communication unit 1620 may transmit the bitstream to the decoding device 1700, which will be described later.
도 17은 일 실시예에 따른 복호화 장치의 구조도이다.17 is a structural diagram of a decoding apparatus according to an embodiment.
복호화 장치(1700)는 전술된 복호화 장치(200)에 대응할 수 있다.The decoding device 1700 may correspond to the decoding device 200 described above.
복호화 장치(1700)는 버스(1790)를 통하여 서로 통신하는 처리부(1710), 메모리(1730), 사용자 인터페이스(User Interface; UI) 입력 디바이스(1750), UI 출력 디바이스(1760) 및 저장소(storage)(1740)를 포함할 수 있다. 또한, 복호화 장치(1700)는 네트워크(1799)에 연결되는 통신부(1720)를 더 포함할 수 있다.The decoding apparatus 1700 may include a processor 1710, a memory 1730, a user interface (UI) input device 1750, a UI output device 1760, and storage that communicate with each other through a bus 1790. 1740. In addition, the decryption apparatus 1700 may further include a communication unit 1720 connected to the network 1799.
처리부(1710)는 중앙 처리 장치(Central Processing Unit; CPU), 메모리(1730) 또는 저장소(1740)에 저장된 프로세싱(processing) 명령어(instruction)들을 실행하는 반도체 장치일 수 있다. 처리부(1710)는 적어도 하나의 하드웨어 프로세서일 수 있다.The processor 1710 may be a semiconductor device that executes processing instructions stored in the central processing unit (CPU), the memory 1730, or the storage 1740. The processor 1710 may be at least one hardware processor.
처리부(1710)는 복호화 장치(1700)로 입력되거나, 복호화 장치(1700)에서 출력되거나, 복호화 장치(1700)의 내부에서 사용되는 신호, 데이터 또는 정보의 생성 및 처리를 수행할 수 있고, 신호, 데이터 또는 정보에 관련된 검사, 비교 및 판단 등을 수행할 수 있다. 말하자면, 실시예에서 데이터 또는 정보의 생성 및 처리와, 데이터 또는 정보에 관련된 검사, 비교 및 판단은 처리부(1710)에 의해 수행될 수 있다.The processor 1710 may generate and process a signal, data, or information input to the decoding apparatus 1700, output from the decoding apparatus 1700, or used in the decoding apparatus 1700, and may include a signal, Inspection, comparison, and judgment related to data or information can be performed. In other words, in an embodiment, generation and processing of data or information, and inspection, comparison, and determination related to the data or information may be performed by the processor 1710.
처리부(1710)는 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 인터 예측부(250), 스위치(245), 가산기(255), 필터부(260) 및 참조 픽처 버퍼(270)를 포함할 수 있다.The processor 1710 includes an entropy decoder 210, an inverse quantizer 220, an inverse transformer 230, an intra predictor 240, an inter predictor 250, a switch 245, an adder 255, and a filter. The unit 260 and the reference picture buffer 270 may be included.
엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 인터 예측부(250), 스위치(245), 가산기(255), 필터부(260) 및 참조 픽처 버퍼(270) 중 적어도 일부는 프로그램 모듈들일 수 있으며, 외부의 장치 또는 시스템과 통신할 수 있다. 프로그램 모듈들은 운영 체제, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 복호화 장치(1700)에 포함될 수 있다.Entropy decoder 210, inverse quantizer 220, inverse transformer 230, intra predictor 240, inter predictor 250, switch 245, adder 255, filter 260, and At least some of the reference picture buffer 270 may be program modules and may communicate with an external device or system. The program modules may be included in the decryption apparatus 1700 in the form of an operating system, an application program module, and other program modules.
프로그램 모듈들은 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈 중 적어도 일부는 복호화 장치(1700)와 통신 가능한 원격 기억 장치에 저장될 수도 있다.The program modules may be physically stored on various known storage devices. In addition, at least some of these program modules may be stored in a remote storage device that can communicate with the decryption apparatus 1700.
프로그램 모듈들은 일 실시예에 따른 기능 또는 동작을 수행하거나, 일 실시예에 따른 추상 데이터 유형을 구현하는 루틴(routine), 서브루틴(subroutine), 프로그램, 오브젝트(object), 컴포넌트(component) 및 데이터 구조(data structure) 등을 포괄할 수 있지만, 이에 제한되지는 않는다.Program modules perform routines or subroutines, programs, objects, components, and data to perform functions or operations, or to implement abstract data types, according to one embodiment. Data structures and the like, but is not limited thereto.
프로그램 모듈들은 복호화 장치(1700)의 적어도 하나의 프로세서(processor)에 의해 수행되는 명령어(instruction) 또는 코드(code)로 구성될 수 있다.The program modules may be composed of instructions or codes performed by at least one processor of the decoding apparatus 1700.
처리부(1710)는 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 인터 예측부(250), 스위치(245), 가산기(255), 필터부(260) 및 참조 픽처 버퍼(270)의 명령어 또는 코드를 실행할 수 있다.The processor 1710 includes an entropy decoder 210, an inverse quantizer 220, an inverse transformer 230, an intra predictor 240, an inter predictor 250, a switch 245, an adder 255, and a filter. Instructions or codes of the unit 260 and the reference picture buffer 270 may be executed.
저장부는 메모리(1730) 및/또는 저장소(1740)를 나타낼 수 있다. 메모리(1730) 및 저장소(1740)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체일 수 있다. 예를 들면, 메모리(1730)는 롬(ROM)(1731) 및 램(RAM)(1732) 중 적어도 하나를 포함할 수 있다.The storage unit can represent memory 1730 and / or storage 1740. The memory 1730 and the storage 1740 may be various types of volatile or nonvolatile storage media. For example, the memory 1730 may include at least one of a ROM 1731 and a RAM 1732.
저장부는 복호화 장치(1700)의 동작을 위해 사용되는 데이터 또는 정보를 저장할 수 있다. 실시예에서, 복호화 장치(1700)가 갖는 데이터 또는 정보는 저장부 내에 저장될 수 있다.The storage unit may store data or information used for the operation of the decoding apparatus 1700. In an embodiment, data or information included in the decryption apparatus 1700 may be stored in the storage.
예를 들면, 저장부는 픽처, 블록, 리스트, 움직임 정보, 인터 예측 정보 및 비트스트림 등을 저장할 수 있다.For example, the storage unit may store a picture, a block, a list, motion information, inter prediction information, a bitstream, and the like.
복호화 장치(1700)는 컴퓨터에 의해 독출(read)될 수 있는 기록 매체를 포함하는 컴퓨터 시스템에서 구현될 수 있다.The decoding device 1700 may be implemented in a computer system including a recording medium that can be read by a computer.
기록 매체는 복호화 장치(1700)가 동작하기 위해 요구되는 적어도 하나의 모듈을 저장할 수 있다. 메모리(1730)는 적어도 하나의 모듈을 저장할 수 있고, 적어도 하나의 모듈이 처리부(1710)에 의하여 실행되도록 구성될 수 있다.The recording medium may store at least one module required for the decoding apparatus 1700 to operate. The memory 1730 may store at least one module, and the at least one module may be configured to be executed by the processor 1710.
복호화 장치(1700)의 데이터 또는 정보의 통신과 관련된 기능은 통신부(1720)를 통해 수행될 수 있다.Functions related to communication of data or information of the decoding apparatus 1700 may be performed through the communication unit 1720.
예를 들면, 통신부(1720)는 부호화 장치(1600)로부터 비트스트림을 수신할 수 있다.For example, the communication unit 1720 may receive a bitstream from the encoding apparatus 1600.
콘볼루션 신경망(Convolution Neural Networks; CNN)Convolution Neural Networks (CNN)
CNN은 콘볼루션 레이어(convolution layer) 및 풀링 레이어(pooling layer)로 이루어진 다수의 레이어들을 포함하는 네트워크를 지칭할 수 있다. 콘볼루션 레이어에 의해 입력된 영상에 대한 필터링이 수행될 수 있고, 필터링의 결과로서 특징 맵(feature map)이 추출될 수 있다. 추출된 특징 맵은 다음의 레이어의 입력으로서 사용될 수 있다. 이러한 처리가 레이어들에 대하여 연속하여 수행될 수 있다.CNN may refer to a network including a plurality of layers consisting of a convolution layer and a pooling layer. Filtering may be performed on the image input by the convolutional layer, and a feature map may be extracted as a result of the filtering. The extracted feature map can be used as input to the next layer. This process can be performed continuously for the layers.
학습이 수행됨에 따라, 네트워크는, 낮은 단계의 레이어에서는 에지(edge)와 같은 영상 내의 단순한 구조(structure)에 대한 반응이 나타나고, 레이어의 단계가 더 깊어질수록 텍스처(texture) 및 사물 일부(object parts)에 대한 반응이 나타나는 특징을 학습할 수 있다.As learning is performed, the network reacts to simple structures in the image, such as edges, at lower layers, and as the layers are deeper, textures and objects You can learn the characteristics of response to parts.
콘볼루션 레이어Convolution Layer
도 18은 일 예에 따른 콘볼루션 레이어의 연산을 나타낸다.18 illustrates an operation of a convolutional layer according to an example.
콘볼루션 레이어는 입력된 프레임에 대한 필터링을 수행할 수 있고, 필터링의 결과로서 특징 맵(feature map)을 출력할 수 있다. 특징 맵은 다음의 레이어에 대한 입력으로 사용될 수 있다. 이러한 구조에 의해, 입력된 프레임이 복수의 레이어들에 의해서 연속하여 처리될 수 있다.The convolutional layer may perform filtering on the input frame and output a feature map as a result of the filtering. The feature map can be used as input to the next layer. With this structure, the input frame can be processed continuously by a plurality of layers.
콘볼루션 레이어에서, 커널은 콘볼루션 연산 또는 필터링을 수행하는 필터를 의미할 수 있다. 커널의 크기는 커널 크기 또는 필터 크기로 칭해질 수 있다. 커널을 구성하는 연산 파라미터는 가중치, 커널 파라미터 또는 필터 파라미터로도 칭해질 수 있다.In the convolution layer, the kernel may mean a filter that performs a convolution operation or filtering. The size of the kernel may be referred to as kernel size or filter size. Operational parameters constituting the kernel may also be referred to as weights, kernel parameters or filter parameters.
콘볼루션 레이어에서는, 하나의 입력에 대해서 서로 다른 종류들의 필터들이 사용될 수 있다. 이 때, 하나의 필터가 입력을 처리하는 과정을 콘볼루션 채널(convolution channel)로 칭할 수 있다.In the convolutional layer, different kinds of filters can be used for one input. In this case, a process in which one filter processes an input may be referred to as a convolution channel.
도 18에서 도시된 것과 같이, 콘볼루션 레이어는 커널의 크기만큼의 샘플들을 하나의 샘플로 축소할 수 있다. 도 18에서, 예시된 커널의 크기는 3x3일 수 있다. 말하자면, 도 18에서는, 하나의 채널에서, 3x3의 커널 크기를 갖는 필터에 의해 콘볼루션 연산이 수행되는 과정이 도시되었다.As shown in FIG. 18, the convolutional layer may reduce samples by the size of the kernel into one sample. In FIG. 18, the size of the illustrated kernel may be 3 × 3. That is, in FIG. 18, a convolution operation is performed by a filter having a kernel size of 3 × 3 in one channel.
도 18에서는, 입력 이미지 내의 짙은 테두리의 사각형에 대해서 연산이 수행될 수 있다. 이 때, 윈도우(window)는 짙은 테두리의 사각형과 같은 연산 영역을 의미할 수 있다. 윈도우는 프레임의 좌측 상단으로부터 우측 하단으로 한 칸씩 이동할 수 있으며, 이동의 크기는 조절될 수 있다.In FIG. 18, an operation may be performed on a rectangle having a dark border in the input image. In this case, the window may mean an operation area such as a rectangle having a dark border. The window may move one space from the upper left of the frame to the lower right of the frame, and the size of the movement may be adjusted.
콘볼루션 연산의 필터에 대하여 스트라이드(stride) 및 패딩(padding)이 사용될 수 있다.Stride and padding may be used for filters of convolution operations.
스트라이드는 이동의 크기를 의미할 수 있다. 도 18에서 예시된 스트라이드의 값은 1일 수 있다. 스트라이드의 값이 2인 경우, 2 칸의 간격들로 벌어진 윈도우들에 대해서 연산들이 수행될 수 있다.The stride may refer to the size of the movement. The value of the stride illustrated in FIG. 18 may be 1. When the value of stride is 2, operations may be performed on windows spaced at intervals of two columns.
패딩은 입력 이미지를 더 크게 만드는 것일 수 있으며, 입력 이미지의 상단, 하단, 좌측 및 우측에 특정된 값들을 채워 넣는 것을 의미할 수 있다.Padding may be to make the input image larger, and may mean filling in specific values at the top, bottom, left, and right sides of the input image.
풀링 레이어Pooling Layer
도 19는 일 예에 따른 풀링 레이어의 연산을 나타낸다.19 illustrates an operation of a pulling layer according to an example.
풀링은 콘볼루션 레이어에서의 연산에 의해 획득된 특징 맵에 대한 서브샘플링(subsampling)을 의미할 수 있다.Pulling may refer to subsampling of a feature map obtained by an operation in a convolutional layer.
도 19에서 도시된 것과 같이, 풀링 레이어는 풀링 레이어를 통과하는 특정된 크기의 샘플들에 대해 대표 샘플을 선택할 수 있다.As shown in FIG. 19, the pooling layer may select a representative sample for samples of a specified size passing through the pooling layer.
풀링에 있어서, 일반적으로 스트라이드의 크기 및 윈도우의 크기는 동일할 수 있다.In pooling, the size of the stride and the size of the window can generally be the same.
풀링은 최대 풀링(max pooling) 및 평균 풀링(average pooling)을 포함할 수 있다.Pooling may include max pooling and average pooling.
최대 풀링은 특정된 크기의 샘플들 중에서 최대 값을 갖는 샘플을 대표 샘플로서 선택하는 것일 수 있다. 예를 들면, 2x2의 샘플들에 대해서, 샘플들 중 최대 값이 대표 샘플로서 선택될 수 있다.Maximum pooling may be selecting a sample having a maximum value among samples of a specified size as a representative sample. For example, for samples of 2 × 2, the maximum value of the samples may be selected as the representative sample.
평균 풀링은 특정된 크기의 샘플들의 평균 값을 대표 샘플로서 설정하는 것일 수 있다.Average pooling may be to set the average value of samples of a specified size as a representative sample.
도 19에서 도시된 풀링 레이어는 최대 풀링을 수행할 수 있다. 예를 들면, 풀링 레이어는 2x2 크기를 갖는 윈도우의 샘플들 중에서 하나의 샘플을 선택할 수 있다. 이러한 선택을 통해, 풀링 레이어로부터의 출력의 가로 및 세로는 풀링 레이어로부의 입력의 가로 및 세로의 절반일 수 있다.The pulling layer illustrated in FIG. 19 may perform maximum pulling. For example, the pooling layer may select one sample from among samples of a window having a size of 2 × 2. With this selection, the width and length of the output from the pooling layer can be half the width and length of the input to the pooling layer.
도 19에서 예시된 것과 같이, 스트라이드 및 윈도우의 크기는 모두 2로 설정될 수 있다. 예를 들면, 풀링 레이어로 [h, w, n]의 크기의 값들이 입력될 때, 풀링 레이어를 거쳐 출력되는 값들의 크기는 [h/2, w/2, n]일 수 있다.As illustrated in FIG. 19, the size of the stride and the window may both be set to two. For example, when values of the size of [h, w, n] are input to the pooling layer, the size of the values output through the pooling layer may be [h / 2, w / 2, n].
디콘볼루션 레이어(deconvolution layer)Deconvolution layer
도 20은 일 예에 따른 디콘볼루션 레이어의 연산을 나타낸다.20 illustrates an operation of a deconvolution layer according to an example.
디콘볼루션 레이어는 콘볼루션 레이어의 연산의 방향에 비해 반대되는 방향의 연산을 수행할 수 있다. 방향을 제외하고, 콘볼루션 레이어의 연산 및 디콘볼루션 레이어이 연산은 동일한 것으로 간주될 수 있다.The deconvolution layer may perform calculation in a direction opposite to that of the calculation of the convolution layer. Except for the orientation, the computation of the convolutional layer and the computation of the deconvolutional layer may be considered identical.
디콘볼루션 레이어는 입력된 특징 맵에 대해 콘볼루션 연산을 수행할 수 있고, 콘볼루션 연산을 통해 프레임을 출력할 수 있다.The deconvolution layer may perform a convolution operation on the input feature map and output a frame through the convolution operation.
출력되는 프레임의 크기는 스트라이드의 값에 따라서 변할 수 있다. 예를 들면, 스트라이드의 값이 1인 경우, 프레임의 가로 크기 및 세로 크기는 특징 맵의 가로 크기 및 세로 크기와 동일할 수 있다. 스트라이드의 값이 2일 경우, 프레임의 가로 크기 및 세로 크기는 특징 맵의 가로 크기 및 세로 크기의 1/2일 수 있다.The size of the output frame may vary depending on the value of the stride. For example, when the value of the stride is 1, the horizontal size and the vertical size of the frame may be equal to the horizontal size and the vertical size of the feature map. When the value of the stride is 2, the horizontal size and the vertical size of the frame may be 1/2 of the horizontal size and the vertical size of the feature map.
언-풀링 레이어(unpooling layer)Unpooling layer
도 21은 일 예에 따른 언-풀링 레이어의 연산을 나타낸다.21 illustrates an operation of an unpooling layer according to an example.
언-풀링 레이어는 풀링 레이어에서의 풀링의 방향의 반대 방향으로 업-샘플링을 진행할 수 있다. 언-풀링 레이어는, 풀링 레이어와는 반대로, 차원을 확대하는 기능을 수행할 수 있다. 말하자면, 언-풀링 레이어는, 풀링 레이어와는 반대로, 언-풀링 레이어를 통과하는 샘플을 특정된 크기의 샘플들로 확대할 수 있다. 예를 들면, 언-풀링 레이어를 통과하는 샘플은 2x2의 윈도우의 샘플들로 확대될 수 있다.The un-pooling layer may proceed up-sampling in a direction opposite to the direction of pulling in the pooling layer. The unpooling layer, as opposed to the pooling layer, may perform a function of enlarging the dimension. In other words, the unpooling layer, in contrast to the pooling layer, can magnify a sample passing through the unpooling layer to samples of a specified size. For example, a sample passing through the un-pooling layer can be magnified to samples of a 2x2 window.
예를 들면, 언-풀링 레이어로 [h, w, n]의 크기의 값들이 입력될 때, 언-풀링 레이어를 거쳐 출력되는 값들의 크기는 [h*2, w*2, n]일 수 있다.For example, when values of the size of [h, w, n] are input to the unpooling layer, the size of the values output through the unpooling layer may be [h * 2, w * 2, n]. have.
비선형 연산 레이어(nonlinear operation layer)Nonlinear operation layer
도 22는 일 예에 따른 렐루 레이어의 연산을 나타낸다.22 illustrates an operation of a lelu layer according to an example.
도 22의 좌측에는 렐루 레이어(relu layer)로 입력되는 값들의 일 예가 도시되었고, 도 22의 우측에는 렐루 레이어로부터 출력되는 값들의 일 예가 도시되었다.An example of values input to a relu layer is illustrated on the left side of FIG. 22, and an example of values output from the relu layer is illustrated on the right side of FIG. 22.
렐루 레이어는 도 22에서 도시된 것과 같은 비선형 연산을 수행할 수 있다. 실시예들에서, 렐루 레이어는 비선형 연산 레이어로 대체될 수 있다.The real layer may perform a nonlinear operation as shown in FIG. 22. In embodiments, the relu layer may be replaced with a nonlinear computational layer.
렐루 레이어는 입력되는 값들에 대하여 전송 함수(transfer function)를 적용함으로써 출력되는 값들을 생성할 수 있다.The lelu layer may generate output values by applying a transfer function to input values.
렐루 레이어로 입력되는 값들의 크기 및 렐루 레이어로부터 출력되는 값들의 크기는 동일할 수 있다. 말하자면, 렐루 레이어를 통과하는 값들의 크기는 변하지 않을 수 있다.The magnitudes of the values input to the relu layer and the magnitudes of the values output from the relu layer may be the same. In other words, the magnitudes of the values passing through the relu layer may not change.
자동 부호기(auto encoder)Auto encoder
도 23은 일 예에 따른 자동 부호기를 나타낸다.23 shows an automatic encoder according to an example.
자동 부호기는 도 23에서 도시된 것과 같은 구조를 가질 수 있으며, 비지도 학습(unsupervised learning)에 널리 사용될 수 있다.The automatic encoder may have a structure as shown in FIG. 23 and may be widely used for unsupervised learning.
자동 부호기로부터 콘볼루션 부호기(convolution encoder) 및 콘볼루션 복호기(convolution decoder)가 파생될 수 있다.A convolution encoder and a convolution decoder can be derived from the automatic encoder.
자동 부호기의 구조에 따르면, 입력의 차원 및 출력의 차원이 동일할 수 있다. 자동 부호기의 목적은 f(X) = X가 성립하도록 f()에 대한 학습을 수행하는 것일 수 있다. X는 입력 값일 수 있다. 말하자면, 자동 부호기의 목적은 출력되는 예측 값 X'를 입력 값 X에 근사시키는 것일 수 있다.According to the structure of the automatic encoder, the dimensions of the input and the dimensions of the output may be the same. The purpose of an automatic encoder may be to perform a learning on f () such that f (X) = X. X may be an input value. In other words, the purpose of the automatic encoder may be to approximate the output prediction value X 'to the input value X.
자동 부호기는 부호기(encoder) 및 복호기(decoder)를 포함할 수 있다. 부호기는 입력 값 X에 대하여 출력 값으로서 코드 또는 잠재 변수(latent variable)을 제공할 수 있다. 코드는 입력 값 X에 대한 특징 벡터(feature vector)로서 사용될 수 있다. 코드는 복호기로 입력될 수 있다. 복호기는 코드로부터 형성된 예측 값 X'을 출력할 수 있다.The automatic encoder may include an encoder and a decoder. The encoder can provide a code or latent variable as an output value for the input value X. The code can be used as a feature vector for the input value X. The code can be input to the decoder. The decoder may output the predicted value X 'formed from the code.
콘볼루션 부호기 및 콘볼루션 복호기Convolutional Encoder and Convolutional Decoder
도 24는 일 예에 따른 콘볼루션 부호기 및 콘볼루션 복호기를 나타낸다.24 illustrates a convolution encoder and a convolution decoder according to an example.
콘볼루션 부호기 및 콘볼루션 복호기의 구조들은 콘볼루션 레이어 및 디콘볼루션 레이어의 쌍으로 이루어질 수 있다. 콘볼루션 부호기 및 콘볼루션 복호기는 자동 부호기와 유사하게 입력, 특징 벡터 및 출력을 제공할 수 있다.The structures of the convolutional encoder and the convolutional decoder may consist of a pair of convolutional layers and deconvolutional layers. Convolutional encoders and convolutional decoders can provide inputs, feature vectors, and outputs similarly to automatic encoders.
콘볼루션 부호기는 콘볼루션 레이어 및 풀링(pooling) 레이어를 포함할 수 있다. 콘볼루션 부호기로의 입력은 프레임일 수 있고, 콘볼루션 부호기로부터의 출력은 특징 맵(feature-map)일 수 있다.The convolution encoder may include a convolutional layer and a pooling layer. The input to the convolutional encoder may be a frame, and the output from the convolutional encoder may be a feature-map.
콘볼루션 복호기는 디콘볼루션(deconvolution) 레이어 및 언-풀링(un-pooling) 레이어를 포함할 수 있다. 콘볼루션 복호기로의 입력은 특징 맵일 수 있고, 콘볼루션 복호기로부터의 출력은 (재구축된) 프레임일 수 있다.The convolution decoder may include a deconvolution layer and an un-pooling layer. The input to the convolutional decoder can be a feature map and the output from the convolutional decoder can be a (reconstructed) frame.
콘볼루션 부호기 및 콘볼루션 복호기의 구조들에는 콘볼루션의 특징이 반영될 수 있다. 이러한 반영에 따라, 콘볼루션 부호기 및 콘볼루션 복호기는 더 작은 학습 가중치(weight)를 가질 수 있다. 콘볼루션 부호기 및 콘볼루션 복호기는 특히 출력 프레임에 대한 옵티컬 플로우(optical flow) 및 카운터 에지(counter edge) 등과 같은 목적 하에서 동작이 수행될 때 유용할 수 있다.The features of the convolutional encoder and the convolutional decoder may reflect the characteristics of the convolution. According to this reflection, the convolutional encoder and the convolutional decoder may have a smaller learning weight. Convolutional encoders and convolutional decoders may be particularly useful when the operation is performed under such purposes as optical flow and counter edges for the output frame.
콘볼루션 부호기는 콘볼루션 및 풀링을 활용함으로써 차원을 축소할 수 있고, 프레임으로부터 특징 벡터를 생성할 수 있다. 특징 벡터는 콘볼루션 부호기의 출력 단에서 생성될 수 있다.The convolutional encoder can reduce the dimension by utilizing convolution and pooling, and generate a feature vector from the frame. The feature vector may be generated at the output of the convolutional encoder.
특징 벡터는 원래의 신호의 차원에 비해 더 낮은 차원에서 원래의 신호의 특징을 표현하는 벡터일 수 있다.The feature vector may be a vector representing a feature of the original signal at a lower dimension than the dimension of the original signal.
콘볼루션 복호기는 디콘볼루션(deconvolution) 및 언-풀링을 활용하여 특징 벡터로부터 프레임을 재구축할 수 있다.The convolution decoder can reconstruct the frame from the feature vector utilizing deconvolution and un-pooling.
생성적 적대 네트워크(Generative Adversarial Network; GAN)Genetic Adversarial Network (GAN)
도 25은 일 예에 따른 GAN의 생성기의 구성을 나타낸다.25 illustrates a configuration of a generator of a GAN according to an example.
도 26은 일 예에 따른 GAN의 판별기의 구성을 나타낸다.26 illustrates a configuration of a discriminator of a GAN according to an example.
GAN은 영상을 생성하는 생성기(generator) 및 생성된 영상을 실제 영상으로부터 구분하는 판별기(discriminator)의 대립-쌍(opposing-pairs)을 포함할 수 있다. 생성기는 실제 영상의 확률 분포를 학습함으로써 실제 영상에 유사한 영상을 생성할 수 있다. 판별기는 실제 영상 및 생성된 영상을 감별하도록 학습할 수 있다. 생성기 및 판별기로 구성된 GAN은 판별 및 생성을 동시에 수행하면서 동작할 수 있다. 여기에서, 판별은 유사한 영상 및 유사하지 않은 영상에 대한 판별일 수 있다. 생성은 유사한 영상을 생성하는 것일 수 있다.The GAN may include opposing-pairs of a generator for generating an image and a discriminator for separating the generated image from an actual image. The generator may generate an image similar to the real image by learning a probability distribution of the real image. The discriminator can learn to discriminate between the actual image and the generated image. The GAN composed of the generator and the discriminator may operate while simultaneously performing discrimination and generation. Here, the determination may be determination of similar images and dissimilar images. Generation may be to generate a similar image.
생성기는 원본의 영상과 유사하면서, 판별기에 의해 분별되지 못하는 영상을 생성해야 하므로, 서로 다른 목적들을 갖는 복수의 손실 함수들을 결합할 수 있고, 결합된 손실 함수의 값을 최소화하는 방향으로 네트워크 파라미터를 학습할 수 있다.Since the generator must generate an image that is similar to the original image but cannot be distinguished by the discriminator, it is possible to combine a plurality of loss functions with different purposes, and to minimize the value of the combined loss function. I can learn.
말하자면, GAN은 생성기가 생성된 신호인지 원본의 신호인지가 판별기에 의해 분별되지 못하는 신호를 생성하게 하는 목적으로 설계된 네트워크 구조일 수 있다.In other words, the GAN may be a network structure designed for generating a signal that cannot be discriminated by the discriminator whether the generator is a generated signal or an original signal.
도 25에서는, 생성기에 의해 랜덤 신호로부터 숫자를 나타내는 영상이 생성되는 과정이 개략적으로 도시되었다.In FIG. 25, a process of generating an image representing a number from a random signal by a generator is schematically illustrated.
생성기의 네트워크는 입력 레이어, 하나 이상의 은닉 레이어들 및 출력 레이어로 구성될 수 있다.The network of generators may consist of an input layer, one or more hidden layers and an output layer.
생성기의 입력은 랜덤 신호 z(i)일 수 있고, 생성기의 출력은 가짜 영상(fake image) F(i)일 수 있다.The input of the generator may be a random signal z (i) and the output of the generator may be a fake image F (i) .
생성기에 대해서 타겟(target) ok가 설정될 수 있고, 설정된 목적에 따라서 생성기의 학습이 이루어질 수 있다. 타겟은 목적 함수를 나타낼 수 있다.A target o k may be set for the generator, and learning of the generator may be performed according to the set purpose. The target may represent an objective function.
예를 들면, GAN의 목적 함수는 아래의 수식 2 또는 수식 3과 같이 정의될 수 있다.For example, the objective function of the GAN may be defined as in Equation 2 or Equation 3 below.
[수식 2][Formula 2]
[수식 3][Equation 3]
도 26에서는, 판별기에 가짜 영상 또는 실제 영상이 입력되었을 때 입력된 영상이 가짜 영상 및 실제 영상 중 어느 것인지가 판별되는 과정이 개략적으로 도시되었다.In FIG. 26, a process of determining whether an input image is a fake image or a real image when a fake image or a real image is input to the discriminator is schematically illustrated.
판별기의 네트워크는 입력 레이어, 하나 이상의 은닉 레이어들 및 출력 레이어를 포함할 수 있다. 출력 레이어에서는 1(참) 또는 0(거짓)의 결과 값이 출력될 수 있다.The network of discriminators may comprise an input layer, one or more hidden layers and an output layer. In the output layer, a result value of 1 (true) or 0 (false) may be output.
판별기의 입력은 가짜 영상 F(i) 또는 실제 영상(real image) x(i)일 수 있다.The input of the discriminator may be a fake image F (i) or a real image x (i) .
판별기의 출력은 1(참) 또는 0(거짓)일 수 있다. 1은 입력된 영상이 실제 영상으로 판별되었음을 나타낼 수 있다. 0은 입력된 영상이 가짜 영상으로 판별되었음을 나타낼 수 있다. 말하자면, 판별기는 입력된 영상을 실제 영상 및 가짜 영상 중 하나로 판별하도록 학습될 수 있다.The output of the discriminator may be 1 (true) or 0 (false). 1 may indicate that the input image is determined to be an actual image. 0 may indicate that the input image is determined to be a fake image. In other words, the discriminator may be trained to discriminate the input image into one of an actual image and a fake image.
판별기에 대해서 타겟 ok가 설정될 수 있고, 설정된 목적에 따라서 판별기의 학습이 이루어질 수 있다.The target o k may be set for the discriminator, and learning of the discriminator may be performed according to the set purpose.
리커런트 신경망(Recurrent Neural Network; RNN)Recurrent Neural Network (RNN)
도 27은 일 예에 따른 RNN의 구조를 나타낸다.27 shows a structure of an RNN according to an example.
도 27의 좌측에는 RNN의 구조가 도시되었고, 우측에는 언폴드된 RNN의 구조가 도시되었다. 도 27에서, s는 잠재 변수를 나타낼 수 있다. x는 입력 값일 수 있다. o는 출력 값일 수 있다. U, V 및 W는 학습의 대상인 가중치일 수 있다.The structure of the RNN is shown on the left side of FIG. 27, and the structure of the unfolded RNN is shown on the right side. In FIG. 27, s may represent latent variables. x may be an input value. o may be an output value. U, V, and W may be weights that are subject to learning.
일반적인 신경망은 피드-포워드(feed-forward) 신경망으로 칭해질 수 있다. 피드-포워드 신경망에서는 입력 레이어로부터 은닉 레이어를 거쳐 출력 레이어로 연산이 진행되는 과정에서, 입력된 데이터는 신경망 내의 노드들을 한 번씩만 지나갈 수 있다. 반면, RNN은 은닉 레이어로부터 출력된 결과가 다시 은닉 레이어로 입력되는 구조를 가질 수 있다.A general neural network may be referred to as a feed-forward neural network. In a feed-forward neural network, the input data may pass only once in nodes in the neural network while the operation is performed from the input layer to the hidden layer through the hidden layer. On the other hand, the RNN may have a structure in which a result output from the hidden layer is input back to the hidden layer.
RNN에서는 현재 입력된 데이터 및 과거에 입력된 데이터가 동시에 학습을 위해 사용될 수 있다. 또한, RNN에서는, 시점 t-1에서의 출력이 시점 t에서의 출력에도 영향을 미칠 수 있다. 말하자면, RNN은 과거의 시점에서의 잠재 변수 s가 미래의 시점에서의 출력에 영향을 주도록 학습하는 구조일 수 있다.In the RNN, the data inputted in the past and the data input in the past may be used for learning at the same time. In RNN, the output at time t-1 may also affect the output at time t. In other words, the RNN may be a structure that learns that the latent variable s at a past point in time affects the output at a future point in time.
이러한 특징에 따라서, RNN은 시계열 정보의 학습에 사용될 수 있으며, 시계열 데이터의 분석에 사용될 수 있다.According to this feature, the RNN can be used to learn time series information and can be used to analyze time series data.
현재의 시점에서의 은닉 벡터는 아래와 같이 연산될 수 있다. 말하자면, 현재의 시간 t에서의 잠재 변수 st는 아래의 수식 4와 같이 계산될 수 있다.The hidden vector at the present time can be computed as follows. That is to say, the latent variables at the current time t in s t may be computed as shown in equation 4 below.
[수식 4][Equation 4]
는 시그모이드(sigmoid) 함수와 같은 비선형 함수일 수 있다. st는 가중치 V를 통해 출력 ot를 제공할 수 있고, st+1의 계산을 위해 메모리 내에 저장될 수 있다. May be a nonlinear function, such as a sigmoid function. s t can provide the output o t with weight V and can be stored in memory for calculation of s t + 1 .
수식 4에서, U의 값이 크다면 현재의 시점에서의 입력 값의 위주의 판단이 이루어질 수 있다. W의 값이 크다면 기억되고 있는 정보의 위주의 판단이 이루어질 수 있다.In Equation 4, if the value of U is large, the determination may be made based on the input value at the present time. If the value of W is large, a judgment can be made based on the information stored.
롱 쇼트 텀 메모리(Long Short Term Memory; LSTM)Long Short Term Memory (LSTM)
도 28은 일 예에 따른 콘볼루션 LSTM 신경망의 구조를 나타낸다.28 illustrates a structure of a convolutional LSTM neural network according to an example.
전술된 것과 같이, RNN에서는 현재 입력된 데이터 및 과거에 입력된 데이터가 동시에 학습을 위해 사용될 수 있다.As described above, in the RNN, the data currently input and the data input in the past may be used for learning at the same time.
RNN의 학습의 과정에서, 시간이 경과할수록 과거에 입력된 데이터에 대한 사라지는 경사도(vanishing gradient) 문제가 발생할 수 있다. LSTM은 사라지는 경사도 문제의 극복을 위해 사용될 수 있다. LSTM의 구조는 신경망 내에서 오차의 경사도가 시간을 거슬러 흘러가게 할 수 있다. 말하자면, LSTM의 구조는 신경망에 이전에 입력된 데이터가 더 지속적으로 또는 더 크게 신경망의 현재의 출력에 영향을 주게 할 수 있다.In the course of learning the RNN, a vanishing gradient problem with respect to data input in the past may occur as time passes. LSTM can be used to overcome the disappearing slope problem. The structure of the LSTM allows the slope of the error to pass back in time in the neural network. In other words, the structure of the LSTM may allow the data previously entered into the neural network to affect the current output of the neural network more consistently or significantly.
LSTM의 구조는 다수의 게이트(gate)들이 부착된 셀(cell)들로 이루어질 수 있다. 셀은 정보의 변경 및 저장 등을 수행할 수 있다. 셀에 부착된 게이트의 가중치에 대해 학습이 이루어질 수 있으며, 각 셀에 대하여 가중치에 대한 학습이 수행됨에 따라 학습 성능이 향상될 수 있다.The structure of the LSTM may be composed of cells to which a plurality of gates are attached. The cell may change or store information. Learning may be performed on weights of gates attached to cells, and learning performance may be improved as learning about weights is performed for each cell.
셀에 연결된 게이트의 값 또는 가중치에 의해 어떤 값이 얼만큼 셀에 저장될지가 결정될 수 있고, 언제 셀로부터 정보를 출력할지가 결정될 수 있고, 언제 셀 내의 데이터를 삭제할지가 결정될 수 있다.The value or weight of the gate connected to the cell may determine how much value is stored in the cell, when to output information from the cell, and when to delete data in the cell.
LSTM의 각 게이트의 가중치에 대한 학습은 아래의 수식 5와 같은 원리를 통해 수행될 수 있다.Learning about the weight of each gate of the LSTM may be performed through the same principle as in Equation 5 below.
[수식 5][Equation 5]
비디오의 생성 및 예측Video generation and prediction
1. 비디오 보간1. Video Interpolation
비디오 보간은 비디오의 프레임들 중 대상 프레임의 이전의 프레임들 및 대상 프레임의 이후의 프레임들을 사용하여 대상 프레임을 예측하는 방법일 수 있다. 대상 프레임은 현재의 프레임일 수 있다. 예를 들면, 비디오의 보간은, 시간 t-1에서의 프레임 xt-1 및 시간 t+1에서의 프레임 xt+1이 주어졌을 때, 시간 t에서의 프레임 xt를 예측하는 것일 수 있다. 프레임 xt는 아래의 수식 6와 같이 정의될 수 있다.Video interpolation may be a method of predicting a target frame using previous frames of the target frame and subsequent frames of the target frame among the frames of the video. The target frame may be a current frame. For example, the interpolation of the video, when given a frame x t + 1 of frame x t-1 and time t + 1 at time t-1, may be to estimate the frame x t at time t . Frame x t may be defined as shown in Equation 6 below.
[수식 6][Equation 6]
xt ∈ Rwㅧhㅧc x t ∈ R w ㅧ h ㅧ c
t는 시간을 나타낼 수 있다. 말하자면, xt는 비디오의 프레임들 중 시간 t에서의 프레임을 나타낼 수 있다. w는 프레임의 가로 길이를 나타낼 수 있다. h는 프레임의 세로 길이를 나타낼 수 있다. c는 프레임의 색 차원(color dimension)을 나타낼 수 있다.t may represent time. In other words, x t may represent a frame at time t of the frames of the video. w may represent the horizontal length of the frame. h may represent the vertical length of the frame. c may represent a color dimension of the frame.
2. 비디오 보외2. Video addition
비디오 보외는 비디오의 프레임들 중 현재 프레임의 이전의 프레임들 및 현재 프레임을 사용하여 미래의 프레임을 예측하는 방법일 수 있다. 예를 들면, 비디오의 보외는 0 내지 n의 시간들에서의 프레임들이 주어졌을 때, n+1 내지 m의 시간들에서의 프레임들을 생성하는 것일 수 있다. n 및 m은 정수일 수 있고, m은 n보다 더 클 수 있다.The video extrapolation may be a method of predicting a future frame using previous frames of the current frame and the current frame among the frames of the video. For example, the extrapolation of the video may be to produce frames at times n + 1 to m, given the frames at times 0 to n. n and m may be integers and m may be greater than n.
3. 딥 러닝에 기반하는 비디오 생성 기법3. Video generation technique based on deep learning
아래에서는 딥 러닝 모델에 기반하여 비디오의 프레임을 생성하는 몇 가지의 기법들에 대해서 설명된다. 아래에서 설명될 기법들은 입력되는 프레임들의 순서 및 방향에 따라서 비디오 보간 및/또는 비디오 보외에 적용될 수 있다.Below we describe some techniques for generating frames of video based on the deep learning model. Techniques to be described below may be applied to video interpolation and / or video interpolation depending on the order and direction of frames being input.
3.1 옵티컬 플로우(optical flow)의 생성을 통한 예측3.1 Prediction through the generation of optical flow
옵티컬 플로우는 프레임들 간에서 발생하는 픽셀의 움직임을 표현하는 픽셀에 대한 움직임 벡터를 의미할 수 있다. 픽셀의 움직임을 추정하는 옵티컬 플로우를 생성하는 딥 러닝 구조를 통해 비디오가 생성될 수 있다.The optical flow may refer to a motion vector for a pixel representing a motion of a pixel occurring between frames. The video may be generated through a deep learning structure that generates an optical flow that estimates the movement of the pixel.
2 개의 프레임들 및 옵티컬 플로우를 이용하여 2 개의 프레임들의 사이에 위치한 중간 프레임을 생성하는 보간이 수행될 수 있다. 여기에서, 2 개의 프레임들은 시점 t-1에서의 프레임 및 시점 t+1에서의 프레임일 수 있고, 중간 프레임은 현재의 시간 t에서의 프레임일 수 있다.Interpolation may be performed using the two frames and the optical flow to generate an intermediate frame located between the two frames. Here, the two frames may be a frame at time t-1 and a frame at time t + 1, and the intermediate frame may be a frame at current time t.
또한, 2 개의 프레임들 및 옵티컬 플로우를 이용하여 2 개의 프레임들의 좌측 또는 우측에 위치한 프레임을 생성하는 보외가 수행될 수 있다. 보외를 통해 미래의 프레임이 예측될 수 있다.In addition, extrapolation may be performed to generate a frame located at the left or the right of the two frames using the two frames and the optical flow. Through extrapolation, future frames can be predicted.
3.2 적응적 콘볼루션 네트워크(Adaptive Convolution Network; ACN)을 통한 예측3.2 Prediction via Adaptive Convolution Network (ACN)
도 29는 일 예에 따른 ACN의 구조를 나타낸다.29 shows a structure of an ACN according to an example.
전술된 방법들에서는 2 단계들의 과정이 수행될 수 있다. 말하자면, 전술된 방법들에서는, 1) 프레임들의 사이에서 나타나는 특징에 대한 예측이 수행될 수 있고, 2) 획득된 특징을 사용하여 픽셀들 간의 보간이 수행될 수 있다.In the above-described methods, the process of two steps may be performed. In other words, in the above-described methods, 1) prediction for a feature appearing between frames may be performed, and 2) interpolation between pixels may be performed using the obtained feature.
ACN은 CNN을 사용하여 커널의 학습을 수행할 수 있고, 종단 간 학습(end-to-end learning)을 통해 프레임의 예측 및 픽셀의 보간(또는, 보외)를 한 번에 진행할 수 있다.The ACN can perform kernel learning using CNN, and can perform frame prediction and pixel interpolation (or extrapolation) at once through end-to-end learning.
처리부는 적응적 CNN의 분리가능한(separable) 구조 또는 복셀 플로우(voxel flow)를 사용하여 예측 프레임을 생성할 수 있다. 예측 프레임의 생성에 있어서, DPB에 저장된 이전의 프레임들 xn-1, xn-2 및 xn-3 등을 이용하여 현재의 시점에서의 프레임 Xn가 생성될 수 있고, 현재의 시점에서의 프레임 Xn가 예측 프레임으로서 사용될 수 있다.The processor may generate a predictive frame using a separable structure or a voxel flow of the adaptive CNN. In the generation of the prediction frame, the frame X n at the current time point may be generated using the previous frames x n-1 , x n-2 , x n-3, etc. stored in the DPB, and at the current time point The frame X n of may be used as the prediction frame.
아래에서 설명될 적응적 분리가능한 콘볼루션(adaptive separable convolution)은 ACN의 변형의 일 예일 수 있다.Adaptive separable convolution, described below, may be an example of a modification of the ACN.
도 30은 일 예에 따른 적응적 분리가능한 콘볼루션의 구조를 나타낸다.30 illustrates a structure of an adaptive separable convolution according to an example.
콘볼루션 부호기 및 콘볼루션 복호기에 프레임들 xn-1, xn-2 및 xn-3 등이 입력됨에 따라 콘볼루션 필터 커널 K에 대한 학습이 수행될 수 있고, 학습에 의해 프레임 xn이 예측될 수 있다.As frames x n-1 , x n-2, and x n-3, etc. are input to the convolutional encoder and the convolutional decoder, learning about the convolution filter kernel K can be performed, whereby frame x n Can be predicted.
3.3 LSTM을 사용하는 비디오 예측3.3 Video Prediction Using LSTM
시계열 정보를 학습하는 RNN의 구조에 대하여 LSTM을 활용함으로써 비디오 생성이 수행될 수 있다. 콘볼루션 LSTM 신경망은 이러한 활용들 중 하나일 수 있다.Video generation may be performed by utilizing LSTM for the structure of the RNN for learning time series information. The convolutional LSTM neural network may be one of these applications.
도 28을 참조하여 전술된 콘볼루션 LSTM 신경망은 특징 벡터를 시계열(time-series) 상에서 예측할 수 있다.The convolutional LSTM neural network described above with reference to FIG. 28 can predict the feature vector on a time-series.
콘볼루션 LSTM에서는, 도 28에서 도시된 것과 같이, 입력 및 은닉 벡터 간의 연결이 콘볼루션 필터로 대체될 수 있다. 이러한 대체에 의해 콘볼루션 LSTM은 기존의 LSTM에 비해 더 적은 양의 파라미터에 대해서 학습을 수행할 수 있고, 이러한 학습에 있어서 지역적 특성이 더 잘 반영될 수 있다.In convolution LSTM, the connection between the input and the hidden vector can be replaced with a convolution filter, as shown in FIG. This substitution allows the convolutional LSTM to perform learning on fewer parameters than the existing LSTM, and better reflect local characteristics in this learning.
생성-부호화(generation-encoding) 및 생성 복호화(generation-decoding)Generation-encoding and generation-decoding
도 31은 일 실시예에 따른 생성-부호화 및 생성-복호화의 흐름도이다.31 is a flow diagram of generation-encoding and generation-decoding according to one embodiment.
실시예에서는 딥 러닝에 기반하는 비디오 보간 및 비디오 보외를 사용하여 가상 참조 프레임을 생성하고, 가상 참조 프레임을 부호화 및/또는 복호화에 사용하는 방법이 설명된다.In an embodiment, a method of generating a virtual reference frame using video interpolation and video interpolation based on deep learning, and using the virtual reference frame for encoding and / or decoding is described.
실시예에서, 딥 러닝 모델을 이용하여 입력 비디오 프레임으로부터 특징 벡터를 생성하는 과정이 생성-부호화로 명명된다. 또한, 생성 부호화를 수행하는 모듈이 생성-부호기(generation-encoder)로 명명된다.In an embodiment, the process of generating a feature vector from an input video frame using a deep learning model is named generation-encoding. In addition, a module that performs generation encoding is called a generation-encoder.
또한, 실시예에서, 특징 벡터로부터 비디오를 복원하는 과정이 생성-복호화로 명명된다. 또한, 생성-복호화를 수행하는 모듈이 생성-복호기(generation-decoder)로 명명된다.Also, in an embodiment, the process of reconstructing video from the feature vector is named generation-decoding. In addition, a module that performs generation-decoding is called a generation-decoder.
생성-부호기 및 생성-복호기를 통해 영상 신호에 대한 보간, 보외 및 그 이외의 생성 방법이 수행될 수 있다. 영상 신호 생성 부호기 및 영상 신호 생성 복호기는 부호화 장치(100) 및 복호화 장치(200)와 같은 비디오 코덱 내에서의 비디오 부호화 및/또는 복호화의 과정에서 사용될 수 있다.Interpolation, extrapolation, and other generation methods for an image signal may be performed through the generation- encoder and the generation-decoder. The video signal generation encoder and the video signal generation decoder may be used in the process of video encoding and / or decoding in a video codec such as the encoding apparatus 100 and the decoding apparatus 200.
생성-부호기의 입력은 잔차 프레임일 수 있다. 생성-부호기는 입력된 잔차 프레임의 특징 벡터를 생성할 수 있다. 잔차 프레임은 2 개의 프레임들 간의 차이일 수 있다. 또는, 생성-부호기는 2 개의 입력된 프레임들에 대한 잔차 프레임을 생성할 수 있다.The input of the generator-encoder may be a residual frame. The generator-coder may generate a feature vector of the input residual frame. The residual frame may be the difference between the two frames. Alternatively, the generation-encoder may generate a residual frame for two input frames.
생성-복호기는 이전에 재구축된 프레임에 잔차 프레임을 합함으로써 미래 프레임을 생성할 수 있다. 생성-복호기는 이전에 재구축된 프레임의 특징 벡터 및 잔차 프레임의 예측된 특징 벡터를 합함으로써 합해진 특징 벡터를 생성할 수 있다. 생성-복호기는 합해진 특징 벡터를 사용하여 미래 프레임을 생성할 수 있다.The generation-decoder may generate a future frame by adding the residual frame to a previously reconstructed frame. The generator-decoder may generate the summed feature vector by summing the feature vector of the previously reconstructed frame and the predicted feature vector of the residual frame. The generator-decoder may generate a future frame using the combined feature vector.
시간 0로부터 시간 t-1까지의 프레임들로 구성된 비디오는 아래의 수식 7과 같이 로 정의될 수 있다.A video consisting of frames from time 0 to time t- 1 is expressed in Equation 7 below. It can be defined as.
[수식 7][Formula 7]
에 대한 잔차 비디오 는 아래의 수식 8과 같이 정의될 수 있다. Residual Video for May be defined as in Equation 8 below.
[수식 8]Equation 8
시간 n에 대한 대상 프레임이 일 때, 아래의 단계들(3110 내지 3150)에 의한 생성-부호화 및 생성-복호화를 통해 현재의 시점 n에서 예측 프레임 이 생성될 수 있다.The target frame for time n , The prediction frame at the current time point n through the generation-coding and the generation-decoding by the steps 3110 to 3150 below. Can be generated.
아래의 단계들(3110 내지 3150)에 있어서, 생성-부호화는 단계들(3110, 3120 및 3130)을 포함할 수 있다. 생성-복호화는 단계들(3140 및 3150)을 포함할 수 있다.In steps 3110-3150 below, the generation-encoding can include steps 3110, 3120, and 3130. Generation-decryption may include steps 3140 and 3150.
단계(3110)에서, 생성-부호기는 대상 프레임 의 특징 벡터 를 생성할 수 있다. 특징 벡터 는 아래의 수식 9와 같이 생성될 수 있다.In step 3110, the generation-encoder is a target frame Feature Vector Can be generated. Feature vector May be generated as shown in Equation 9 below.
[수식 9]Equation 9
는 생성-부호기의 제1 콘볼루션 신경망(Convolution Neural Network; CNN)을 나타낼 수 있다. May represent a first convolutional neural network (CNN) of the generator-encoder.
생성-부호기는 대상 프레임 를 제1 CNN에 입력함으로써, 제1 CNN의 출력인 특징 벡터 를 생성할 수 있다.Generate-Encoder Target Frame Is the output of the first CNN by inputting the first CNN. Can be generated.
제1 CNN은 시간 t에서의 대상 프레임 xt에 대한 특징 벡터를 생성할 수 있다. 대상 프레임 xt의 크기는 [h, w, c]일 수 있다.Claim 1 CNN may generate a feature vector for the target frame x t at time t. The size of the target frame x t may be [h, w, c].
생성-부호기의 제1 CNN은 콘볼루션 레이어, 풀링 레이어 및 넬루 레이어를 포함할 수 있다. 콘볼루션 레이어, 풀링 레이어 및 넬루 레이어는 복수일 수 있다.The first CNN of the generator-encoder may include a convolutional layer, a pooling layer, and a nelu layer. The convolutional layer, the pulling layer, and the nilu layer may be plural.
단계(3120)에서, 생성-부호기는 잔차 프레임 을 생성할 수 있다. 잔차 프레임 은 아래의 수식 10과 같이 생성될 수 있다.In step 3120, the generation-encoder is a residual frame Can be generated. Residual frame May be generated as shown in Equation 10 below.
[수식 10]Equation 10
말하자면, 생성-부호기는 2 개의 프레임들 및 간의 차이를 계산함으로써 잔차 프레임 를 획득할 수 있다. 잔차 프레임 은 대상 프레임 및 대상 프레임의 이전 프레임 간의 차이일 수 있다.In other words, the generation-encoder is two frames And The residual frame by calculating the difference between Can be obtained. Residual frame Silver target frame And previous frame of target frame It can be the difference between.
또는, 생성-부호기는 대상 프레임 에 대한 움직임 벡터를 이용하는 움직임 예측을 사용하여 잔차 프레임 을 획득할 수 있다.Or, the generation-encoder is the target frame Residual frame using motion prediction using motion vector for Can be obtained.
단계(3130)에서, 생성-부호기는 잔차 프레임 의 특징 벡터 를 생성할 수 있다. 특징 벡터 는 아래의 수식 11과 같이 생성될 수 있다.In step 3130, the generation-encoder is a residual frame Feature Vector Can be generated. Feature vector May be generated as shown in Equation 11 below.
[수식 11][Equation 11]
는 생성-부호기의 제2 CNN을 나타낼 수 있다. May represent the second CNN of the generator-encoder.
생성-부호기는 잔차 프레임 를 제2 CNN에 입력함으로써, 제2 CNN의 출력인 특징 벡터 를 생성할 수 있다.Generate-Encoder Residual Frame Is the output of the second CNN by inputting the second CNN. Can be generated.
제2 CNN은 시간 t에서의 잔차 프레임 yt에 대한 특징 벡터를 생성할 수 있다. 잔차 프레임 yt의 크기는 [h, w, c]일 수 있다.The CNN 2 can generate the feature vectors for the residual frame y t at time t. The magnitude of the residual frame y t may be [h, w, c].
제1 CNN 및 제2 CNN 의 하이퍼-파라미터들은 서로 다를 수 있다. 하이퍼-파라미터들은 콘볼루션 레이어, 풀링 레이어 및 렐루 레이어의 1) 개수, 2) 위치, 3) 배열 및 4) 커널의 크기를 포함할 수 있다.First CNN And second CNN The hyper-parameters of may be different. Hyper-parameters may include 1) number of convolution layers, pooling layers and real layers, 2) positions, 3) arrays, and 4) kernel sizes.
단계(3140)에서, 생성-복호기는 잔차 프레임 에 대한 예측된 특징 벡터 를 생성할 수 있다. 생성-복호기는 잔차 프레임 의 특징 벡터 를 사용하여 잔차 프레임 에 대한 예측된 특징 벡터 를 생성할 수 있다. 예측된 특징 벡터 는 아래의 수식 12와 같이 생성될 수 있다.In step 3140, the generation-decoder is a residual frame Predicted feature vector for Can be generated. Generating-Decoder Residual Frame Feature Vector Residual Frames Using Predicted feature vector for Can be generated. Predicted feature vector May be generated as shown in Equation 12 below.
[수식 12]Equation 12
는 특징 벡터를 시계열(time-series) 상에서 예측하는 콘볼루션 롱 쇼트 텀 메모리(Long Short Term Memory; LSTM) 신경망일 수 있다. May be a convolutional Long Short Term Memory (LSTM) neural network that predicts feature vectors on a time-series.
말하자면, 잔차 프레임 에 대한 예측된 특징 벡터 는 잔차 프레임 의 특징 벡터 가 입력된 LSTM 신경망에 의해 생성될 수 있다.In other words, the residual frame Predicted feature vector for The residual frame Feature Vector May be generated by the input LSTM neural network.
예측된 특징 벡터 는 잔차 프레임에 대하여 시간 n+1에서의 특징 벡터가 예측된 것일 수 있다. 말하자면, 생성-복호기는 생성 부호기로부터 출력된 잔차 프레임 의 특징 벡터 을 사용하여 다음의 시간 n+1에 대한 예측된 특징 벡터 를 생성할 수 있다.Predicted feature vector May be that a feature vector at time n + 1 is predicted with respect to the residual frame. In other words, the generation-decoder is a residual frame outputted from the generation encoder. Feature Vector Predicted feature vector for next time n +1 Can be generated.
일 실시예에서, 단계(3140)는 생성-부호기에 의해 수행될 수도 있다. 이러한 경우, 생성 복호화는 단계(3150)를 포함할 수 있다.In one embodiment, step 3140 may be performed by a generator-encoder. In such a case, generation decoding may include step 3150.
딥 러닝에 기반하는 비디오 보간(interpolation) 및 비디오 보외(extrapolation)을 사용하는 가상 참조 프레임(virtual reference frame)의 생성과, 생성된 가상 참조 프레임을 비디오의 부호화 및 복호화에 사용하는 방법Generation of a virtual reference frame using video interpolation and video extrapolation based on deep learning, and a method of using the generated virtual reference frame for encoding and decoding video.
가상 참조 프레임에 기반하는 인터 예측을 통해 대상 블록 및/또는 대상 프레임의 부호화 및 복호화가 수행될 수 있다. 이하에서, 대상 프레임의 가상 참조 프레임은 대상 프레임에 포함된 대상 블록의 가상 참조 프레임을 의미할 수 있다.Encoding and decoding of the target block and / or the target frame may be performed through inter prediction based on the virtual reference frame. Hereinafter, the virtual reference frame of the target frame may mean a virtual reference frame of the target block included in the target frame.
대상 프레임의 부호화 및 복호화에 있어서, 가상 참조 프레임이 생성될 수 있고, 가상 참조 프레임에 기반한 인터 예측이 사용되는지 여부를 나타내는 가상 참조 프레임 사용 정보가 시그널링될 수 있다. 예를 들면, 가상 참조 프레임 사용 정보는 가상 참조 프레임이 생성되고, 가상 참조 프레임에 기반한 인터 예측이 사용되는지 여부를 "참" 및 "거짓" 중 하나의 값으로 나타내는 프래그일 수 있다.In encoding and decoding a target frame, a virtual reference frame may be generated, and virtual reference frame usage information indicating whether inter prediction based on the virtual reference frame is used may be signaled. For example, the virtual reference frame usage information may be a flag indicating whether a virtual reference frame is generated and whether inter prediction based on the virtual reference frame is used as one of "true" and "false".
가상 참조 프레임의 생성 및 가상 참조 프레임에 기반한 인터 예측에 있어서, 가상 참조 프레임에 대한 생성 방법을 구분하기 위해 사용되는 가상 참조 프레임 생성 방법 지시자가 시그널링될 수 있다.In generation of a virtual reference frame and inter prediction based on the virtual reference frame, a virtual reference frame generation method indicator used to distinguish a generation method for the virtual reference frame may be signaled.
이러한 가상 참조 프레임 사용 정보 및 가상 참조 프레임 생성 방법 지시자와 같은 정보에 있어서, 정보는 SPS의 레벨, PPS의 레벨, VPS의 레벨, 추가 향상 정보(supplemental enhancement information; SEI) 메시지의 레벨, 슬라이스 헤더의 레벨 및 CTU의 레벨과 같은 하나 이상의 레벨들에 대하여 시그널링될 수 있다.In the information such as the virtual reference frame usage information and the virtual reference frame generation method indicator, the information includes the level of the SPS, the level of the PPS, the level of the VPS, the level of the supplemental enhancement information (SEI) message, and the slice header. It may be signaled for one or more levels, such as level and level of CTU.
도 32는 일 실시예에 따른 인터 예측 방법의 흐름도이다.32 is a flowchart of an inter prediction method, according to an exemplary embodiment.
인터 예측 방법은 부호화 장치(1600) 및/또는 복호화 장치(1700)에 의해 수행될 수 있다.The inter prediction method may be performed by the encoding apparatus 1600 and / or the decoding apparatus 1700.
이하에서, 처리부는 부호화 장치(1600)의 처리부(1610) 및/또는 복호화 장치(1700)의 처리부(1710)에 대응할 수 있다.Hereinafter, the processing unit may correspond to the processing unit 1610 of the encoding apparatus 1600 and / or the processing unit 1710 of the decoding apparatus 1700.
예를 들면, 부호화 장치(1600)는 대상 프레임의 대상 블록에 대한 복수의 예측 방식들의 효율들을 비교하기 위해 실시예의 인터 예측 방법을 수행할 수 있고, 대상 블록에 대한 재구축된 블록을 생성하기 위해 실시예의 인터 예측 방법을 수행할 수 있다.For example, the encoding apparatus 1600 may perform the inter prediction method of the embodiment to compare the efficiencies of the plurality of prediction methods for the target block of the target frame, and to generate a reconstructed block for the target block. The inter prediction method of the embodiment may be performed.
대상 블록은 부호화 및/또는 복호화의 대상인 블록일 수 있고, 대상 프레임은 대상 블록을 포함하는 프레임일 수 있다.The target block may be a block that is a target of encoding and / or decoding, and the target frame may be a frame including the target block.
일 실시예에서, 인터 예측의 대상은 대상 블록일 수 있다. 대상 블록은 CU일 수 있으며, 또는 대상 블록은 CTB, CU, PU, TU, 서브 블록, 특정된 블록 크기를 갖는 블록 및 기정의된 범위의 블록 크기 내의 블록 중 적어도 하나일 수 있다. 또는, 대상 블록은 코딩의 단위를 나타낼 수 있다. 또는, 대상 블록은 대상 픽처 내의 특정된 영역을 나타낼 수 있다.In one embodiment, the target of inter prediction may be a target block. The target block may be a CU, or the target block may be at least one of a CTB, a CU, a PU, a TU, a sub block, a block having a specified block size, and a block within a predetermined range of block sizes. Alternatively, the target block may represent a unit of coding. Alternatively, the target block may represent a specified area within the target picture.
예를 들면, 복호화 장치(1700)는 대상 블록에 대한 재구축된 블록을 생성하기 위해 실시예의 인터 예측 방법을 수행할 수 있다.For example, the decoding apparatus 1700 may perform the inter prediction method of the embodiment to generate a reconstructed block for the target block.
전술된 것과 같이, 실시예에서, 이하에서, 용어들 "영상(image)", "픽처(picture)", "프레임(frame)" 및 "스크린(screen)"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.As mentioned above, in the embodiments, below, the terms "image", "picture", "frame" and "screen" may be used in the same sense and may be mutually exclusive. Can be used interchangeably.
단계(3210)에서, 처리부는 참조 프레임을 선택할 수 있다. 처리부는 전술된 실시예에 따라 생성된 기존 참조 프레임들(existing reference frame) 중 실시예의 인터 예측을 위한 참조 프레임을 선택할 수 있다.In operation 3210, the processor may select a reference frame. The processor may select a reference frame for inter prediction of an embodiment among existing reference frames generated according to the above-described embodiment.
처리부는 복수의 참조 프레임들을 선택할 수 있다. 예를 들면, 선택된 복수의 참조 프레임들은 가상 참조 프레임의 생성을 위한 입력으로서 사용될 수 있다.The processor may select a plurality of reference frames. For example, the selected plurality of reference frames can be used as input for generating a virtual reference frame.
기존 참조 프레임은 비디오의 부호화 및/또는 복호화를 위해 DPB에 저장된 재구축된 픽처들 중 대상 픽처의 참조 프레임으로서 사용되는 픽처일 수 있다.The existing reference frame may be a picture used as a reference frame of the target picture among the reconstructed pictures stored in the DPB for encoding and / or decoding of video.
단계(3220)에서, 처리부는 선택된 참조 프레임에 기반하여 가상 참조 프레임을 생성할 수 있다.In operation 3220, the processor may generate a virtual reference frame based on the selected reference frame.
처리부는, 가상 참조 프레임을 생성함에 있어서, 가상 참조 프레임의 생성의 단계에서 사용될 수 있는 딥 러닝 네트워크 구조를 선택할 수 있다. 말하자면, 가상 참조 프레임은 딥 러닝 네트워크 구조에 기반하여 생성될 수 있다.The processor may select a deep learning network structure that may be used in the generation of the virtual reference frame in generating the virtual reference frame. In other words, the virtual reference frame may be generated based on the deep learning network structure.
또한, 처리부는, 가상 참조 프레임을 생성함에 있어서, 선택된 참조 프레임의 시점(time point)에 따른 비디오 보간 및/또는 비디오 보외를 선택할 수 있다. 말하자면, 가상 참조 프레임은 선택된 참조 프레임을 사용하는 비디오 보간에 기반하여 생성될 수 있다. 가상 참조 프레임은 선택된 참조 프레임을 사용하는 비디오 보외에 기반하여 생성될 수 있다.In addition, the processor may select video interpolation and / or video interpolation according to a time point of the selected reference frame in generating the virtual reference frame. In other words, the virtual reference frame may be generated based on video interpolation using the selected reference frame. The virtual reference frame may be generated based on video extrapolation using the selected reference frame.
단계(3230)에서, 처리부는 가상 참조 프레임에 기반하여 참조 픽처 리스트를 구성할 수 있다. 처리부는 가상 참조 프레임을 참조 픽처 리스트에 포함시킬 수 있다.In operation 3230, the processor may construct a reference picture list based on the virtual reference frame. The processor may include the virtual reference frame in the reference picture list.
단계(3240)에서, 처리부는 가상 참조 프레임에 기반하여 인터 예측을 수행할 수 있다.In operation 3240, the processor may perform inter prediction based on the virtual reference frame.
처리부는 대상 블록에 대하여 선택된 인터 예측 모드에 따라서, 가상 참조 프레임을 사용하여 대상 블록에 대한 인터 예측을 수행할 수 있다.The processor may perform inter prediction on the target block using the virtual reference frame according to the inter prediction mode selected for the target block.
인터 예측의 인터 예측 모드는 AMVP 모드, 머지 모드 또는 스킵 모드일 수 있다.The inter prediction mode of inter prediction may be an AMVP mode, a merge mode, or a skip mode.
인터 예측은 양방향 예측일 수 있다.Inter prediction may be bidirectional prediction.
처리부는 가상 참조 프레임에 기반하여 대상 블록에 대한 인터 예측을 수행함으로써 대상 블록에 대한 예측 블록을 생성할 수 있다.The processor may generate the prediction block for the target block by performing inter prediction on the target block based on the virtual reference frame.
단계(3250)에서, 처리부는 인터 예측의 결과에 기반하여 대상 프레임을 재구축할 수 있다.In operation 3250, the processor may reconstruct the target frame based on a result of the inter prediction.
처리부는 대상 블록에 대한 재구축된 잔차 블록을 생성할 수 있다.The processor may generate a reconstructed residual block for the target block.
처리부는 예측 블록 및 재구축된 잔차 블록에 기반하여 대상 블록에 대한 재구축된 블록을 생성할 수 있다. 재구축된 대상 프레임은 재구축된 블록을 포함할 수 있다.The processor may generate a reconstructed block for the target block based on the prediction block and the reconstructed residual block. The reconstructed target frame may include a reconstructed block.
전술된 단계들(3210, 3220, 3230, 3240 및 3250)의 동작에 대하여 아래에서 더 상세하게 설명된다.Operation of the above described steps 3210, 3220, 3230, 3240 and 3250 is described in more detail below.
1. 기존 참조 프레임의 선택1. Select an existing reference frame
도 33은 일 예에 따른 계층적 B 프레임의 구조를 나타낸다.33 illustrates a structure of a hierarchical B frame according to an example.
도 33에서, 수직의 막대(bar)는 프레임을 나타낼 수 있다. 프레임들 사이의 화살표는 프레임들 간의 참조 관계를 나타낼 수 있다. 프레임 아래의 숫자는 프레임의 POC를 나타낼 수 있다. 프레임의 POC의 아래의 T0, T1, T2 또는 T3은 프레임의 시간적(temporal) 식별자(ID)를 나타낼 수 있다.In FIG. 33, the vertical bar may represent a frame. Arrows between the frames may indicate a reference relationship between the frames. The number below the frame may indicate the POC of the frame. T 0 , T 1 , T 2, or T 3 below the POC of the frame may indicate a temporal identifier (ID) of the frame.
단계(3210)에서, 가상 참조 프레임의 생성을 위해 기존 참조 프레임을 선택함에 있어서, 복수의 참조 픽처 리스트에 포함된 참조 프레임들 중 하나 이상의 참조 프레임이 선택될 수 있다. 예를 들면, 복수의 참조 픽처 리스트들은 참조 픽처 리스트 0 및 참조 픽처 리스트 1을 포함할 수 있다.In operation 3210, in selecting an existing reference frame for generating a virtual reference frame, one or more reference frames among reference frames included in the plurality of reference picture lists may be selected. For example, the plurality of reference picture lists may include reference picture list 0 and reference picture list 1.
일 실시예에서, 처리부는 아래의 방식들 중 하나의 방식 또는 하나 이상의 방식들의 조합을 사용하여 참조 프레임을 선택할 수 있다.In one embodiment, the processor may select the reference frame using one of the following schemes or a combination of one or more schemes.
- 참조 프레임들 중 역방향(backward direction) 및/또는 순방향(forward direction)으로 대상 프레임으로부터의 거리가 가장 가까운 참조 프레임이 선택될 수 있다. 프레임들 간의 거리는 POC에 의해 결정될 수 있다. 말하자면, 참조 프레임들 중 역방향 및/또는 순방향에서 대상 프레임의 POC와의 차이가 가장 작은 POC를 갖는 참조 프레임이 선택될 수 있다. 말하자면, 선택된 참조 프레임은 참조 픽처 리스트에 포함된 참조 프레임들 중 역방향 또는 순방향으로 대상 프레임으로부터의 거리가 가장 가까운 참조 프레임일 수 있다.The reference frame closest to the distance from the target frame in the backward direction and / or the forward direction among the reference frames may be selected. The distance between the frames can be determined by the POC. In other words, a reference frame having a POC having the smallest difference from the POC of the target frame in the reverse and / or forward direction among the reference frames may be selected. In other words, the selected reference frame may be a reference frame closest to the distance from the target frame in the reverse or forward direction among the reference frames included in the reference picture list.
- 양방향에서 하나씩의 참조 프레임이 선택되는 경우, 역방향의 참조 프레임의 POC 및 대상 프레임의 POC 간의 차이가, 대상 프레임의 POC 및 순방향의 참조 프레임의 POC 간의 차이가 동일하도록 역방향의 참조 프레임 및 순방향의 참조 프레임이 선택될 수 있다. 말하자면, 양방향에서 하나씩의 참조 프레임이 선택되는 경우, 제1 차이 및 제2 차이는 동일할 수 있다. 여기에서, 제1 차이는 역방향의 선택된 참조 프레임의 POC 및 대상 프레임의 POC 간의 차이일 수 있다. 제2 차이는 대상 프레임의 POC 및 순방향의 선택된 참조 프레임의 POC 간의 차이일 수 있다.If one reference frame is selected in both directions, the difference between the POC of the backward reference frame and the POC of the target frame is equal to the difference between the POC of the target frame and the POC of the forward reference frame. The reference frame can be selected. In other words, when one reference frame is selected in both directions, the first difference and the second difference may be the same. Here, the first difference may be a difference between the POC of the reversely selected reference frame and the POC of the target frame. The second difference may be a difference between the POC of the target frame and the POC of the selected reference frame in the forward direction.
- 가상 프레임의 생성을 위해 사용되는 선택된 참조 프레임을 나타내는 참조 프레임 특정 정보가 특정된 단위에 대해 시그널링될 수 있다. 예를 들면, 특정된 단위는 슬라이스 또는 프레임일 수 있다.Reference frame specific information indicating the selected reference frame used for generation of the virtual frame may be signaled for the specified unit. For example, the specified unit may be a slice or a frame.
참조 프레임은 참조 프레임이 병치된 픽처로서 지정되었는지 여부에 기반하여 선택될 수 있다.The reference frame may be selected based on whether the reference frame has been designated as a collocated picture.
예를 들면, 참조 프레임 특정 정보는 병치된(co-located) 픽처로서 지정된 참조 프레임을 선택할 것을 지시할 수 있다.For example, the reference frame specific information may instruct to select a reference frame designated as a co-located picture.
예를 들면, 참조 프레임 특정 정보는 병치된 픽처로서 지정되지 않은 참조 프레임을 선택할 것을 지시할 수 있다.For example, the reference frame specific information may instruct to select a reference frame that is not designated as the collocated picture.
참조 프레임은 참조 프레임의 시간적 식별자에 기반하여 선택될 수 있다.The reference frame may be selected based on the temporal identifier of the reference frame.
예를 들면, 참조 프레임 특정 정보는 가장 작은 시간적 식별자(temporal ID)를 갖는 참조 프레임을 선택할 것을 지시할 수 있다.For example, the reference frame specific information may indicate to select a reference frame having the smallest temporal ID.
예를 들면, 참조 프레임 특정 정보는 가장 큰 시간적 식별자를 갖는 참조 프레임을 선택할 것을 지시할 수 있다.For example, the reference frame specific information may indicate to select a reference frame having the largest temporal identifier.
- 계층적인(hierarchical) B 프레임의 구조에서, 큰 시간적 식별자를 갖는 참조 프레임들 중 대상 프레임으로부터의 거리가 가장 가까운 참조 프레임이 선택될 수 있다. 또는, 가장 큰 시간적 식별자를 갖는 참조 프레임들 중 대상 프레임의 POC와의 차이가 가장 작은 POC를 갖는 참조 프레임이 선택될 수 있다.In the structure of a hierarchical B frame, among the reference frames having a large temporal identifier, the reference frame closest to the distance from the target frame can be selected. Alternatively, a reference frame having a POC having the smallest difference from the POC of the target frame among the reference frames having the largest temporal identifier may be selected.
2. 네트워크 구조에 따른 가상 참조 프레임의 생성2. Generation of Virtual Reference Frames According to Network Structure
2.1 GAN을 사용하는 가상 참조 프레임의 생성2.1 Creating a Virtual Reference Frame Using a GAN
도 25 및 도 26을 참조하여 전술된 것과 같이, GAN은 영상을 생성하는 생성기(generator) 및 생성된 영상을 실제 영상으로부터 구분하는 판별기(discriminator)의 대립-쌍(opposing-pairs)을 포함할 수 있다. 생성기는 실제 영상의 확률 분포를 학습함으로써 실제 영상에 유사한 영상을 생성할 수 있다. 판별기는 실제 영상 및 생성된 영상을 감별하도록 학습할 수 있다. 생성기 및 판별기로 구성된 GAN은 판별 및 생성을 동시에 수행하면서 동작할 수 있다. 여기에서, 판별은 유사한 영상 및 유사하지 않은 영상에 대한 판별일 수 있다. 생성은 유사한 영상의 생성일 수 있다.As described above with reference to FIGS. 25 and 26, the GAN may include opposing-pairs of a generator that generates an image and a discriminator that separates the generated image from the actual image. Can be. The generator may generate an image similar to the real image by learning a probability distribution of the real image. The discriminator can learn to discriminate between the actual image and the generated image. The GAN composed of the generator and the discriminator may operate while simultaneously performing discrimination and generation. Here, the determination may be determination of similar images and dissimilar images. Generation may be generation of similar images.
일 실시예에서, 단계(3220)에서, 처리부는 GAN을 사용하여 가상 참조 프레임을 생성할 수 있다.In one embodiment, at step 3220, the processor may generate a virtual reference frame using the GAN.
2.2 ACN을 통한 가상 참조 프레임의 예측2.2 Prediction of Virtual Reference Frames via ACN
도 29를 참조하여 전술된 ACN을 사용하여 출력 프레임의 픽셀 (x, y)을 위한 보간을 수행하는 과정이 도시되었다.A process of performing interpolation for pixels (x, y) of an output frame using the ACN described above with reference to FIG. 29 is illustrated.
ACN에 프레임들이 입력됨에 따라 ACN에서 커널 함수 K에 대한 학습이 수행될 수 있다. 학습에 의해 가상 참조 프레임이 예측될 수 있다.As frames are input to the ACN, the learning of the kernel function K may be performed in the ACN. The virtual reference frame can be predicted by learning.
도 29에 따르면, 2 개의 참조 프레임들 I1 및 I2를 사용하는 보간에 의해 생성된 가상 참조 프레임이 출력될 수 있다. 참조 프레임들 I1 및 I2은 단계(3210)에서 선택된 참조 프레임들일 수 있다.According to FIG. 29, a virtual reference frame generated by interpolation using two reference frames I 1 and I 2 may be output. The reference frames I 1 and I 2 may be the reference frames selected in step 3210.
일 실시예에서, 단계(3220)에서, 처리부는 ACN을 사용하여 가상 참조 프레임을 생성할 수 있다.In one embodiment, at step 3220, the processor may generate a virtual reference frame using the ACN.
2.3 롱 쇼트 텀 메모리(Long Short Term Memory; LSTM)를 통한 가상 참조 프레임의 예측2.3 Prediction of Virtual Reference Frames with Long Short Term Memory (LSTM)
도 34는 생성-부호화 및 생성-복호화의 과정을 통한 보간을 사용하는 참조 프레임의 생성을 나타낸다.34 shows generation of a reference frame using interpolation through a process of generation-coding and generation-decoding.
도 34에서는, 콘볼루션 부호기 및 콘볼루션 복호기의 구조를 이용하는 생성-부호화 및 생성-복호화의 과정이 도시되었고, 이러한 생성-부호화 및 생성-복호화의 과정을 통한 보간과 참조 프레임의 생성이 도시되었다.In FIG. 34, a process of generation-encoding and generation-decoding using the structure of the convolutional encoder and the convolutional decoder is illustrated, and generation of interpolation and reference frames through the processes of generation-encoding and generation-decoding are illustrated.
콘볼루션 부호기 및 LSTM에 기반한 네트워크에 의해 가상 참조 프레임을 생성하기 위한 보간이 수행될 수 있다.Interpolation may be performed to generate a virtual reference frame by a convolutional encoder and a network based on LSTM.
동일한 네트워크 구조들에 의해 양방향 비디오들에 대한 학습이 수행될 수 있다. 입력 비디오는 네트워크 구조들에 대하여 미래의 시점에서의 프레임을 사용하여 대상 시점에서의 프레임에 대한 예측이 이루어지는 방향으로 입력될 수 있고, 과거의 시점에서의 프레임을 사용하여 대상 시점에서의 프레임에 대한 예측이 이루어지는 방향으로 입력될 수 있다. 말하자면, 입력 비디오는 시점 t+1에서의 프레임을 사용하여 시점 t의 프레임을 예측하는 방향으로 네트워크 구조에 입력될 수 있고, 시점 t-1에서의 프레임을 사용하여 시점 t의 프레임을 예측하는 방향으로 네트워크 구조에 입력될 수 있다.Learning on bidirectional videos may be performed by the same network structures. The input video may be input in a direction in which a prediction about the frame at the target view is made using the frame at a future view with respect to the network structures, and the frame at the target view using the frame at the past view. It may be input in the direction in which the prediction is made. In other words, the input video may be input to the network structure in the direction of predicting the frame of view t using the frame at view t + 1, and the direction of predicting the frame of view t using the frame at view t-1. Can be entered into the network structure.
일 실시예에서, 단계(3220)에서, 처리부는 네트워크 구조들에 의해 예측된 프레임들을 사용하는 보간을 통해 가상 프레임을 생성할 수 있다.In one embodiment, at step 3220, the processor may generate a virtual frame through interpolation using frames predicted by the network structures.
일 실시예에서, 단계(3220)에서, 처리부는 콘볼루션 부호기 및 콘볼루션 복호기의 구조를 사용하는 생성-부호화 및 생성-복호화의 과정을 통한 보간을 사용하여 가상 참조 프레임을 생성할 수 있다.In one embodiment, at step 3220, the processor may generate a virtual reference frame using interpolation through a process of generation-encoding and generation-decoding using the structure of the convolutional encoder and the convolutional decoder.
3. 기존 참조 프레임의 시점에 따른 가상 참조 프레임의 생성3. Creation of a Virtual Reference Frame According to the Start of Existing Reference Frame
3.1 딥 러닝에 기반하는 보간을 사용하는 가상 참조 프레임의 생성3.1 Generation of virtual reference frames using interpolation based on deep learning
도 35는 일 예에 따른 비디오의 보간을 이용하는 참조 프레임의 생성과, 참조 프레임을 사용하는 비디오의 부호화 및 복호화의 과정을 도시한다.35 is a diagram illustrating a process of generating a reference frame using interpolation of a video and encoding and decoding a video using a reference frame according to an example.
도 35에서는 과거의 시점에서의 신호 및 미래의 시점에서의 신호 를 사용하는 보간에 의해 가상 참조 프레임 이 생성되는 과정을 도시한다.In Figure 35, the signal at the past time point And signals at a future point in time Virtual reference frames by interpolation using This shows the process that is created.
이하에서, 용어 "신호"는 프레임을 나타낼 수 있으며, "프레임을 나타내는 신호"를 의미할 수도 있다.Hereinafter, the term "signal" may refer to a frame and may also mean "signal indicating a frame".
T는 변환(transform)을 나타낼 수 있다. Q는 양자화(quantization)을 나타낼 수 있다. E는 엔트로피 부호화(entropy encoding)을 나타낼 수 있다. I-1은 엔트로피 디코딩(entropy decoding)을 나타낼 수 있다. T-1은 역변환(inverse-transform)을 나타낼 수 있다. Q-1은 역양자화(dequantization)를 나타낼 수 있다.T may represent a transform. Q may represent quantization. E may represent entropy encoding. I −1 may indicate entropy decoding. T −1 may represent an inverse-transform. Q −1 may indicate dequantization.
도 35에서는, 재구축된 신호를 사용하는 생성-부호화 및 생성-복호화를 통해 신호가 생성됨이 도시되었다. 재구축된 신호는 복호화된 프레임 및 복호화된 프레임 의 신호일 수 있다. 생성된 신호는 가상 참조 프레임 을 나타낼 수 있다.In FIG. 35, the signal is generated through generation-encoding and generation-decoding using the reconstructed signal. The reconstructed signal is a decoded frame And decoded frames It may be a signal of. The generated signal is a virtual reference frame Can be represented.
생성-부호화 및 생성-복호화를 통한 신호의 생성을 위해 재구축된 신호가 선택될 수 있다. 재구축된 신호가 선택된 후에는, 딥 러닝 모델을 사용하는 가상 참조 프레임의 생성 방법 중 일 예로서, 보간이 수행될 수 있다.The reconstructed signal may be selected for generation of the signal through generation-encoding and generation-decoding. After the reconstructed signal is selected, interpolation may be performed as an example of a method of generating a virtual reference frame using the deep learning model.
보간을 위해 옵티컬 플로우, ACN 또는 LSTM에 의한 비디오 예측이 사용될 수 있다.Video prediction by optical flow, ACN or LSTM may be used for interpolation.
부호화 장치(100) 및 복호화 장치(200)에서는, 과거 시점의 참조 프레임 및 미래 시점의 참조 프레임 을 사용하는 보간에 의해 가상 참조 프레임 이 생성될 수 있고, 가상 참조 프레임 은 현재의 프레임인 대상 프레임에 대한 인터 예측에 사용될 수 있다.In the encoding apparatus 100 and the decoding apparatus 200, the reference frame of the past viewpoint is shown. And future reference frames Virtual reference frames by interpolation using Can be generated, virtual reference frame May be used for inter prediction on the target frame that is the current frame.
부호화 장치(100)에서는, 인터 예측 이후, 인터 예측에 의해 생성된 예측 신호에 기반하여 잔차 신호 가 획득될 수 있다. 잔차 신호 에 대해 변환, 양자화 및 엔트로피 인코딩이 적용됨에 따라 대상 프레임에 대한 부호화된 정보가 생성될 수 있다. 부호화된 정보는 부호화 장치(100)로부터 복호화 장치(200)로 시그널링될 수 있다.In the encoding apparatus 100, after the inter prediction, the residual signal is based on the prediction signal generated by the inter prediction. Can be obtained. Residual signal As transform, quantization, and entropy encoding are applied to, coded information about a target frame may be generated. The encoded information may be signaled to the decoding apparatus 200 from the encoding apparatus 100.
복호화 장치(200)에서는, 대상 프레임에 대한 부호화된 정보에 대해 엔트로피 디코딩, 역양자화 및 역변환이 적용됨에 따라 잔차 신호 가 생성될 수 있다. 잔차 신호 및 가상 참조 프레임 에 기반하여 대상 프레임이 재구축될 수 있다.In the decoding apparatus 200, as the entropy decoding, inverse quantization, and inverse transformation are applied to the encoded information on the target frame, the residual signal Can be generated. Residual signal And virtual reference frames Based on the target frame can be reconstructed.
보간을 위해 사용되는 과거 시점의 참조 프레임 및 미래 시점의 참조 프레임은 비디오의 시간 예측 구조에 따라서 상이한 방식으로 선택될 수 있다. 예를 들면, HEVC의 임의 접근(random access) 방식에서는 도 33을 참조하여 전술된 것과 같은 계층적 B(hierarchical B) 프레임 구조가 사용될 수 있다.Reference frames of past viewpoints and reference frames of future viewpoints used for interpolation may be selected in different ways depending on the temporal prediction structure of the video. For example, in a random access scheme of HEVC, a hierarchical B frame structure as described above with reference to FIG. 33 may be used.
3.2 딥 러닝에 기반하는 보외를 사용하는 가상 참조 프레임의 생성3.2 Creating Virtual Reference Frames Using Extrapolation Based on Deep Learning
도 36은 일 예에 따른 비디오의 보외를 이용하는 참조 프레임의 생성과, 참조 프레임을 사용하는 비디오의 부호화 및 복호화의 과정을 도시한다.36 illustrates a process of generating a reference frame using extrapolation of a video and encoding and decoding a video using a reference frame, according to an example.
도 36에서는 과거의 시점에서의 신호들 및 를 사용하는 보외에 의해 가상 참조 프레임 이 생성되는 과정을 도시한다.36 shows signals at a past point in time. And Virtual reference frame by extrapolation using This shows the process that is created.
도 36에서는, 재구축된 신호를 사용하는 생성-부호화 및 생성-복호화를 통해 신호가 생성됨이 도시되었다. 재구축된 신호는 복호화된 프레임 및 복호화된 프레임 의 신호일 수 있다. 생성된 신호는 가상 참조 프레임 을 나타낼 수 있다.In FIG. 36, the signal is generated through generation-encoding and generation-decoding using the reconstructed signal. The reconstructed signal is a decoded frame And decoded frames It may be a signal of. The generated signal is a virtual reference frame Can be represented.
생성-부호화 및 생성-복호화를 통한 신호의 생성을 위해 재구축된 신호가 선택될 수 있다. 재구축된 신호가 선택된 후에는, 딥 러닝 모델을 사용하는 가상 참조 프레임의 생성 방법 중 일 예로서, 보외가 수행될 수 있다.The reconstructed signal may be selected for generation of the signal through generation-encoding and generation-decoding. After the reconstructed signal is selected, extrapolation may be performed as an example of a method of generating a virtual reference frame using the deep learning model.
보외를 위해 옵티컬 플로우, ACN 또는 LSTM에 의한 비디오 예측이 사용될 수 있다.For extrapolation, video prediction by optical flow, ACN or LSTM may be used.
부호화 장치(100) 및 복호화 장치(200)에서는, 과거 시점의 참조 프레임들 및 을 사용하는 보외에 의해 가상 참조 프레임 이 생성될 수 있고, 가상 참조 프레임 은 현재의 프레임인 대상 프레임에 대한 인터 예측에 사용될 수 있다.In the encoding apparatus 100 and the decoding apparatus 200, reference frames of past viewpoints And Virtual reference frame by extrapolation using Can be generated, virtual reference frame May be used for inter prediction on the target frame that is the current frame.
부호화 장치(100)에서는, 인터 예측 이후, 인터 예측에 의해 생성된 예측 신호에 기반하여 잔차 신호 가 획득될 수 있다. 잔차 신호 에 대해 변환, 양자화 및 엔트로피 인코딩이 적용됨에 따라 대상 프레임에 대한 부호화된 정보가 생성될 수 있다. 부호화된 정보는 부호화 장치(100)로부터 복호화 장치(200)로 전송될 수 있다.In the encoding apparatus 100, after the inter prediction, the residual signal is based on the prediction signal generated by the inter prediction. Can be obtained. Residual signal As transform, quantization, and entropy encoding are applied to, coded information about a target frame may be generated. The encoded information may be transmitted from the encoding apparatus 100 to the decoding apparatus 200.
복호화 장치(200)에서는, 대상 프레임에 대한 부호화된 정보에 대해 엔트로피 디코딩, 역양자화 및 역변환이 적용됨에 따라 잔차 신호 가 생성될 수 있다. 잔차 신호 및 가상 참조 프레임 에 기반하여 대상 프레임이 재구축될 수 있다.In the decoding apparatus 200, as the entropy decoding, inverse quantization, and inverse transformation are applied to the encoded information on the target frame, the residual signal Can be generated. Residual signal And virtual reference frames Based on the target frame can be reconstructed.
전술된 보외는 HEVC의 저 지연 B(low delay B) 구조 또는 저 지연 P(low delay P) 구조에 적용될 수 있다. 비디오의 프레임에 대한 예측을 위해 일반화된(generalized) B/P 예측 구조가 사용될 수 있다.The above-described extrapolation may be applied to a low delay B structure or a low delay P structure of HEVC. A generalized B / P prediction structure may be used for the prediction of the frame of video.
보외를 위해 과거의 시점의 재구축된 참조 프레임들이 선택될 수 있고, 참조 픽처 리스트 내에 저장된 재구축된 참조 프레임들이 아래와 같은 방식에 따라서 선택될 수 있다.For reconstruction, reconstructed reference frames of past viewpoints may be selected, and reconstructed reference frames stored in the reference picture list may be selected in the following manner.
- DPB 내의 참조 프레임들 중 대상 프레임의 POC와의 차이가 가장 작은 POC를 가지는 참조 프레임이 선택될 수 있다.A reference frame having a POC having the smallest difference from the POC of the target frame among the reference frames in the DPB may be selected.
- DPB 내의 참조 프레임들 중 가장 작은 QP로 압축된 참조 프레임이 선택될 수 있다.A reference frame compressed with the smallest QP of the reference frames in the DPB can be selected.
4. 참조 픽처 리스트의 구성4. Structure of Reference Picture List
도 37은 일 예에 따른 양방향 예측이 사용되는 경우에서의 가상 참조 프레임의 참조 픽처 리스트의 구성을 도시한다.37 illustrates a configuration of a reference picture list of a virtual reference frame when bidirectional prediction is used according to an example.
가상 참조 프레임에 기반하여 인터 예측이 수행되는 경우, 단계(3230)에서 전술된 것과 같이, 가상 참조 프레임에 기반하여 참조 픽처 리스트가 구성될 수 있다.When inter prediction is performed based on the virtual reference frame, as described above in operation 3230, the reference picture list may be configured based on the virtual reference frame.
참조 픽처 리스트의 구성을 위해, 생성된 가상 참조 프레임을 DPB에 추가하는 단계가 선행될 수 있다. 생성된 가상 참조 프레임이 DPB에 추가되는 경우, DPB 내의 참조 프레임들 중 특정된 참조 프레임이 가상 참조 프레임으로 대체될 수 있다. 대체의 방식은 아래의 방식들 중 하나일 수 있다.For the construction of the reference picture list, the step of adding the generated virtual reference frame to the DPB may be preceded. When the generated virtual reference frame is added to the DPB, the specified reference frame among the reference frames in the DPB may be replaced with the virtual reference frame. The alternative manner may be one of the following manners.
- DPB 내의 대상 프레임이 가상 참조 프레임으로 대체될 수 있다. 이 때, DPB 내의 대상 프레임은 부호화 및/또는 복호화의 과정을 거침에 따라 특정된 단위로 갱신될 수 있다. 특정된 단위는 블록, 슬라이스 또는 프레임일 수 있다. 블록은 PU, CU 또는 CTU일 수 있다.The target frame in the DPB may be replaced with a virtual reference frame. In this case, the target frame in the DPB may be updated in a specific unit according to the process of encoding and / or decoding. The specified unit may be a block, slice or frame. The block can be a PU, CU or CTU.
- 대상 프레임을 제외한 DPB 내의 다른 특정된 참조 프레임이 가상 참조 프레임으로 대체될 수 있다. 이러한 경우, 대체된 가상 참조 프레임의 POC는 기정의된 값일 수 있다. 또는, 대체된 가상 참조 프레임의 POC는 인터 예측 정보와 같은 인터 예측에 관련된 코딩 파라미터에 기반하여 유도된 값일 수 있다. 예를 들면, 인터 예측과 관련된 코딩 파라미터는 1) 대상 블록의 코딩 파라미터, 2) 대상 프레임의 코딩 파라미터 또는 3) 인터 예측 정보일 수 있다.Other specified reference frames in the DPB except the target frame may be replaced with virtual reference frames. In this case, the POC of the replaced virtual reference frame may be a predefined value. Alternatively, the POC of the replaced virtual reference frame may be a value derived based on coding parameters related to inter prediction such as inter prediction information. For example, coding parameters related to inter prediction may be 1) coding parameters of a target block, 2) coding parameters of a target frame, or 3) inter prediction information.
또는, 생성된 가상 참조 프레임은 DPB 외의 추가 픽처 버퍼(Additional Picture Buffer; APB)에 추가될 수 있고, APB 내의 참조 프레임들이 참조 픽처 리스트의 구성을 위해 사용될 수 있다. APB는 대상 프레임의 부호화 및/또는 복호화를 위한 하나 이상의 가상 참조 프레임들을 저장할 수 있다.Alternatively, the generated virtual reference frame may be added to an additional picture buffer (APB) other than the DPB, and reference frames in the APB may be used for constructing the reference picture list. The APB may store one or more virtual reference frames for encoding and / or decoding the target frame.
생성된 가상 참조 프레임을 사용하기 위해서는, 가상 참조 프레임이 참조 픽처 리스트에 포함되어야 할 수 있다. 아래에서는, 참조 픽처 리스트를 통해 가상 참조 프레임을 사용하기 위한 참조 픽처 리스트의 구성 방법이 구체적으로 설명된다. 이하에서, 참조 픽처 리스트는 복수일 수 있다. 예를 들면, 아래에서 참조 픽처 리스트는 참조 픽처 리스트 0 및 참조 픽처 리스트 1 중 적어도 하나를 의미할 수 있다.In order to use the generated virtual reference frame, the virtual reference frame may need to be included in the reference picture list. In the following, a method of constructing a reference picture list for using a virtual reference frame through the reference picture list will be described in detail. Hereinafter, the reference picture list may be plural. For example, the reference picture list below may mean at least one of reference picture list 0 and reference picture list 1.
4.1 참조 픽처 리스트의 기존 참조 프레임을 가상 참조 프레임으로 대체4.1 Replace existing reference frames in reference picture list with virtual reference frames
참조 픽처 리스트는 DPB 내의 참조 프레임들로 구성될 수 있다. 참조 픽처 리스트가 구성되고, 참조 픽처 리스트의 참조 프레임들 중 일부는 APB 내의 가상 참조 프레임으로 대체될 수 있다. 상기의 대체를 위해 아래의 방식들 중 적어도 하나가 사용될 수 있다.The reference picture list may be composed of reference frames in the DPB. A reference picture list is constructed, and some of the reference frames in the reference picture list may be replaced with virtual reference frames in the APB. At least one of the following schemes may be used for the above replacement.
- 구성된 참조 픽처 리스트 내의 참조 프레임들 중 대상 프레임으로부터 시간적으로 가장 멀리 떨어진 참조 프레임이 APB 내의 가상 참조 프레임과 대체될 수 있다.The reference frame furthest from the target frame among the reference frames in the constructed reference picture list may be replaced with the virtual reference frame in the APB.
- 구성된 참조 픽처 리스트 내의 참조 프레임들 중 가장 큰 참조 픽처 인덱스를 갖는 참조 프레임이 APB 내의 가상 참조 프레임과 대체될 수 있다. 예를 들면, 참조 픽처 인덱스는 "ref_pic_idx"로 명명될 수 있다.A reference frame having the largest reference picture index among the reference frames in the constructed reference picture list may be replaced with a virtual reference frame in the APB. For example, the reference picture index may be named "ref_pic_idx".
- 구성된 참조 픽처 리스트 내의 참조 프레임들 중 가장 작은 참조 픽처 인덱스를 갖는 참조 프레임이 APB 내의 가상 참조 프레임과 대체될 수 있다.A reference frame having the smallest reference picture index among the reference frames in the constructed reference picture list may be replaced with the virtual reference frame in the APB.
- 구성된 참조 픽처 리스트 내의 참조 프레임들 중 가상 참조 프레임의 생성에 사용된 참조 프레임이 APB 내의 가상 참조 프레임과 대체될 수 있다.The reference frame used for generation of the virtual reference frame among the reference frames in the configured reference picture list may be replaced with the virtual reference frame in the APB.
- 구성된 참조 픽처 리스트 내의 참조 프레임들의 모두가 참조 픽처 리스트에서 삭제될 수 있고, 참조 프레임들은 APB 내의 가상 참조 프레임과 대체될 수 있다.All of the reference frames in the constructed reference picture list can be deleted from the reference picture list, and the reference frames can be replaced with virtual reference frames in the APB.
4.2 참조 픽처 리스트의 크기의 확장과, 가상 참조 프레임의 추가4.2 Expanding the size of the reference picture list and adding virtual reference frames
참조 픽처 리스트는 DPB 내의 참조 프레임들로 구성될 수 있다. DPB 내의 참조 프레임들에 의해 참조 픽처 리스트가 구성된 후, 참조 픽처 리스트의 크기가 확대될 수 있다. 참조 픽처 리스트의 크기가 확대됨에 따라, 확대된 크기를 갖는 참조 픽처 리스트에 APB 내의 가상 참조 프레임이 추가될 수 있다.The reference picture list may be composed of reference frames in the DPB. After the reference picture list is constructed by the reference frames in the DPB, the size of the reference picture list may be enlarged. As the size of the reference picture list is enlarged, a virtual reference frame in the APB may be added to the reference picture list having the enlarged size.
이러한 추기를 위해, 참조 픽처 리스트가 가질 수 있는 참조 프레임들의 개수는 APB 내의 가상 참조 프레임들의 개수만큼 증가할 수 있다. 참조 픽처 리스트가 가질 수 있는 참조 프레임들의 개수는 "ref_pics_active"로 명명될 수 있다.For this addition, the number of reference frames that the reference picture list may have may increase by the number of virtual reference frames in the APB. The number of reference frames that the reference picture list may have may be named "ref_pics_active".
참조 픽처 리스트에 추가되는 가상 참조 프레임의 참조 픽처 인덱스는 아래의 방식들 중 적어도 하나에 의해 결정될 수 있다.The reference picture index of the virtual reference frame added to the reference picture list may be determined by at least one of the following methods.
- 추가되는 가상 참조 프레임의 참조 픽처 인덱스는 참조 픽처 리스트 내의 기존 참조 프레임들의 참조 픽처 인덱스들보다 더 큰 값일 수 있다. 참조 픽처 리스트에 추가되는 하나 이상의 가상 참조 프레임들에게 참조 픽처 리스트 내의 기존 참조 프레임들의 참조 픽처 인덱스들보다 더 크며, 순차적으로 증가하는 하나 이상의 참조 픽처 인덱스들이 각각 할당될 수 있다.The reference picture index of the added virtual reference frame may be greater than the reference picture indexes of existing reference frames in the reference picture list. One or more reference picture indices, which are larger than the reference picture indices of existing reference frames in the reference picture list, may be assigned to one or more virtual reference frames added to the reference picture list, respectively.
- 추가되는 가상 참조 프레임의 참조 픽처 인덱스는 가장 작은 값일 수 있다. 참조 픽처 리스트에 추가되는 하나 이상의 가상 참조 프레임들에게 가장 작은 값으로부터 1씩 순차적으로 증가하는 하나 이상의 참조 픽처 인덱스들이 각각 할당될 수 있다. 참조 픽처 리스트의 기존 참조 프레임들의 참조 픽처 인덱스들은 추가된 가상 참조 프레임들의 개수만큼 증가할 수 있다.The reference picture index of the virtual reference frame to be added may be the smallest value. One or more reference picture indices sequentially increasing by one from the smallest value may be assigned to one or more virtual reference frames added to the reference picture list, respectively. Reference picture indices of existing reference frames of the reference picture list may increase by the number of added virtual reference frames.
4.3 구분된 픽처 버퍼를 사용하는 참조 픽처 리스트의 구성4.3 Constructing a Reference Picture List Using Separate Picture Buffers
인터 예측을 위해 참조 픽처 리스트를 사용함에 있어서, 참조 프레임에 대한 픽처 버퍼 지시자(Picture Buffer Indicator, IDC)가 사용될 수 있다.In using the reference picture list for inter prediction, a picture buffer indicator (IDC) for a reference frame may be used.
IDC는 참조 프레임을 포함하는 버퍼를 지시할 수 있다. IDC는 DPB 및 APB 중 하나를 가리킬 수 있다. 참조 프레임의 IDC가 DPB를 가리킬 경우, 참조 프레임은 DPB 내의 참조 프레임일 수 있다. 참조 프레임의 IDC가 APB를 가리킬 경우, 참조 프레임은 APB 내의 가상 참조 프레임일 수 있다.IDC may indicate a buffer containing a reference frame. The IDC may refer to one of the DPB and APB. If the IDC of the reference frame indicates a DPB, the reference frame may be a reference frame in the DPB. If the IDC of the reference frame indicates the APB, the reference frame may be a virtual reference frame in the APB.
IDC는 참조 픽처 리스트 내의 각 참조 프레임에 대하여 시그널링될 수 있다. 또는, 참조 픽처 리스트 내의 각 참조 프레임에 대하여, IDC는 다른 코딩 파라미터에 기반하여 유도될 수 있다. 예를 들면, 코딩 파라미터는 대상 블록의 이웃 블록의 코딩 파라미터를 포함할 수 있다.IDC may be signaled for each reference frame in the reference picture list. Or, for each reference frame in the reference picture list, IDC may be derived based on other coding parameters. For example, the coding parameter may include the coding parameter of the neighboring block of the target block.
4.4 추가 참조 픽처 리스트의 사용4.4 Using Additional Reference Picture Lists
참조 픽처 리스트는 DPB 내의 참조 프레임들로 구성될 수 있다. DPB 내의 참조 프레임들로 참조 픽처 리스트 0 및 참조 픽처 리스트 1과 같은 복수의 참조 픽처 리스트가 구성될 수 있으며, APB 내의 가상 참조 프레임들로 추가의 참조 픽처 리스트가 구성될 수 있다. 예를 들면, 추가의 참조 픽처 리스트는 참조 픽처 리스트 2가 구성될 수 있다.The reference picture list may be composed of reference frames in the DPB. A plurality of reference picture lists such as reference picture list 0 and reference picture list 1 may be configured with reference frames in the DPB, and an additional reference picture list may be configured with virtual reference frames in the APB. For example, the additional reference picture list may be composed of reference picture list 2.
이러한 경우, 인터 예측 지시자는 PRED_L0, PRED_L1, PRED_L2, PRED_BI_L0_L1, PRED_BI_L0_L2 및 PRED_BI_L1_L2 등을 구분하기 위해 사용될 수 있다. 인터 예측 지시자는 "inter_pred_idc"로 명명될 수 있다.In this case, the inter prediction indicator may be used to distinguish PRED_L0, PRED_L1, PRED_L2, PRED_BI_L0_L1, PRED_BI_L0_L2, and PRED_BI_L1_L2. The inter prediction indicator may be named "inter_pred_idc".
PRED_L0는 참조 픽처 리스트 0을 사용하는 단방향의 인터 예측을 지시할 수 있다.PRED_L0 may indicate unidirectional inter prediction using reference picture list 0. FIG.
PRED_L1은 참조 픽처 리스트 1을 사용하는 단방향의 인터 예측을 지시할 수 있다.PRED_L1 may indicate unidirectional inter prediction using reference picture list 1. FIG.
PRED_2는 참조 픽처 리스트 2를 사용하는 단방향의 인터 예측을 지시할 수 있다.PRED_2 may indicate unidirectional inter prediction using reference picture list 2. FIG.
PRED_BI_L0_L1는 참조 픽처 리스트 0 및 참조 픽처 리스트 1을 사용하는 양방향의 인터 예측을 지시할 수 있다.PRED_BI_L0_L1 may indicate bidirectional inter prediction using reference picture list 0 and reference picture list 1.
PRED_BI_L0_L2는 참조 픽처 리스트 0 및 참조 픽처 리스트 2를 사용하는 양방향의 인터 예측을 지시할 수 있다.PRED_BI_L0_L2 may indicate bidirectional inter prediction using reference picture list 0 and reference picture list 2.
PRED_BI_L1_L2는 참조 픽처 리스트 1 및 참조 픽처 리스트 2를 사용하는 양방향의 인터 예측을 지시할 수 있다.PRED_BI_L1_L2 may indicate bidirectional inter prediction using reference picture list 1 and reference picture list 2.
다시 도 37을 참조하면, 도 37에서 참조 프레임은 사각형으로 도시되었다. 사각형 내의 첫 번째의 숫자는 참조 픽처 리스트의 번호를 나타낼 수 있다. 사각형 내의 두 번째의 숫자는 참조 프레임의 참조 픽처 인덱스를 나타낼 수 있다. 예를 들면, 사각형 내의 "[0][2]"는 참조 프레임이 참조 픽처 리스트 0 내의 프레임이며, 참조 프레임의 참조 픽처 인덱스가 2임을 나타낼 수 있다.Referring again to FIG. 37, in FIG. 37, the reference frame is shown as a rectangle. The first number in the rectangle may indicate the number of the reference picture list. The second number in the rectangle may indicate the reference picture index of the reference frame. For example, "[0] [2]" in the rectangle may indicate that the reference frame is a frame in reference picture list 0, and that the reference picture index of the reference frame is two.
도 37에서, 가상 참조 프레임은 회색으로 내부가 채워진 사각형으로 도시되었다.In FIG. 37, the virtual reference frame is shown as a square filled with a gray interior.
생성된 가상 참조 프레임은 DPB 외의 추가의 픽처 버퍼인 APB에 추가될 수 있다. 참조 픽처 리스트를 구성하는 과정에서, 참조 픽처 리스트 0 및 참조 픽처 리스트 1가 DPB 내의 참조 프레임들로 구성될 수 있다. 이러한 구성 후, 참조 픽처 리스트 0 및 참조 픽처 리스트 1의 각각에 APB 내의 가상 참조 프레임이 추가될 수 있다. 이 때, 추가되는 가상 참조 프레임의 참조 픽처 인덱스는 2로 예시되었다.The generated virtual reference frame may be added to the APB which is an additional picture buffer other than the DPB. In the process of constructing the reference picture list, reference picture list 0 and reference picture list 1 may be composed of reference frames in the DPB. After this configuration, a virtual reference frame in the APB may be added to each of reference picture list 0 and reference picture list 1. At this time, the reference picture index of the added virtual reference frame is illustrated as two.
말하자면, 양방향 예측에 있어서, 가상 참조 프레임은 참조 픽처 리스트 0 및 참조 픽처 리스트 1의 가장 마지막 인덱스들에 각각 추가될 수 있다.In other words, in bidirectional prediction, a virtual reference frame may be added to the last indices of reference picture list 0 and reference picture list 1, respectively.
생성된 가상 참조 프레임 및 기존 참조 프레임들의 참조 픽처 인덱스들은 복수의 참조 픽처 리스트들에서 서로 간에 일치할 수 있다. 예를 들면, 도 37에서 도시된 것처럼, (DPB 내의) 기존의 n 개의 참조 프레임들은 복수의 참조 픽처 리스트의 각 참조 픽처 리스트에 1 번째 내지 n 번째의 참조 프레임들로서 추가될 수 있으며, (APB 내의) 가상 참조 프레임은 복수의 참조 픽처 리스트의 각 참조 픽처 리스트에 n+1 번째의 참조 프레임으로서 추가될 수 있다.The reference picture indices of the generated virtual reference frame and the existing reference frames may coincide with each other in the plurality of reference picture lists. For example, as shown in FIG. 37, existing n reference frames (in the DPB) may be added as the 1 st to n th reference frames to each reference picture list of the plurality of reference picture lists, and in the APB The virtual reference frame may be added as the n + 1th reference frame to each reference picture list of the plurality of reference picture lists.
5. 가상 참조 프레임을 사용하는 인터 예측5. Inter Prediction Using Virtual Reference Frames
아래에서는 특정된 인터 예측 모드에서의 가상 참조 프레임의 사용 방법에 대해서 설명된다.Hereinafter, a method of using a virtual reference frame in a specified inter prediction mode will be described.
5.1 가상 참조 프레임을 사용하기 위한 AMVP 모드의 변경5.1 Changing AMVP Mode to Use Virtual Reference Frames
도 38은 일 예에 따른 AMVP 모드에서의 움직임 벡터 후보를 탐색하는 방법의 흐름도이다.38 is a flowchart of a method of searching for a motion vector candidate in AMVP mode according to an example.
대상 블록에 대한 인터 예측 모드가 AMVP 모드일 때, 움직임 벡터 후보에 대한 탐색은 도 38에서 예시된 것과 같이 수행될 수 있다.When the inter prediction mode for the target block is the AMVP mode, the search for the motion vector candidate may be performed as illustrated in FIG. 38.
움직임 벡터 후보를 탐색함에 있어서, 대상 블록이 참조하는 참조 프레임의 생성 원리 및 움직임 벡터 후보의 참조 프레임의 생성 원리가 일치하는지 여부가 고려될 수 있다. 말하자면, 움직임 벡터 후보의 참조 프레임의 종류에 기반하여 움직임 벡터 후보가 움직임 벡터 후보 리스트에 삽입될 수 있다. 움직임 벡터 후보를 움직임 벡터 후보 리스트에 삽입함에 있어서, 움직임 벡터 후보의 참조 프레임의 종류가 가상 참조 프레임인지 여부가 판별될 수 있다.In searching for a motion vector candidate, it may be considered whether the generation principle of the reference frame referenced by the target block and the generation principle of the reference frame of the motion vector candidate match. In other words, the motion vector candidate may be inserted into the motion vector candidate list based on the type of the reference frame of the motion vector candidate. In inserting the motion vector candidate into the motion vector candidate list, it may be determined whether the type of the reference frame of the motion vector candidate is a virtual reference frame.
이하에서, 비-가상 참조 프레임은 실시예의 가상 참조 프레임의 생성 방법에 의해 생성되지 않은, 기존 참조 프레임을 의미할 수 있다.Hereinafter, the non-virtual reference frame may mean an existing reference frame that is not generated by the method of generating a virtual reference frame of the embodiment.
움직임 벡터 후보의 참조 프레임의 종류가 가상 참조 프레임인지 비-가상 참조 프레임인지 여부는 참조 프레임의 참조 픽처 리스트 및 참조 프레임 인덱스에 기반하여 유도될 수 있다.Whether the type of the reference frame of the motion vector candidate is a virtual reference frame or a non-virtual reference frame may be derived based on the reference picture list and the reference frame index of the reference frame.
단계(3810)에서, 대상 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는지 여부가 판단될 수 있다.In operation 3810, it may be determined whether the reference frame index of the target block points to the virtual reference frame.
대상 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는 경우 단계(3820)가 수행될 수 있다.If the reference frame index of the target block points to the virtual reference frame, step 3820 may be performed.
대상 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키지 않는 경우 단계(3830)가 수행될 수 있다.If the reference frame index of the target block does not point to a virtual reference frame, step 3830 may be performed.
단계(3820)에서, 움직임 벡터 후보의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는지 여부가 판단될 수 있다.In step 3820, it may be determined whether the reference frame index of the motion vector candidate points to the virtual reference frame.
실시예에서, 탐색의 대상인 움직임 벡터 후보는 공간적 이웃 블록의 움직임 벡터 후보 또는 시간적 이웃 블록의 움직임 벡터 후보일 수 있다. 공간적 이웃 블록은 대상 블록에 공간적으로 이웃하는 블록일 수 있다. 시간적 이웃 블록은 대상 블록에 시간적으로 이웃하는 블록일 수 있다.In an embodiment, the motion vector candidate to be searched may be a motion vector candidate of a spatial neighboring block or a motion vector candidate of a temporal neighboring block. The spatial neighboring block may be a block spatially neighboring the target block. The temporal neighboring block may be a block temporally neighboring the target block.
움직임 벡터 후보의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는 경우 단계(3840)가 수행될 수 있다.If the reference frame index of the motion vector candidate points to the virtual reference frame, step 3840 may be performed.
움직임 벡터 후보의 참조 프레임 인덱스가 가상 참조 프레임을 가리키지 않는 경우 단계(3850)가 수행될 수 있다.If the reference frame index of the motion vector candidate does not point to a virtual reference frame, step 3850 may be performed.
단계(3830)에서, 움직임 벡터 후보의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는지 여부가 판단될 수 있다.In operation 3830, it may be determined whether a reference frame index of the motion vector candidate indicates a virtual reference frame.
움직임 벡터 후보의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는 경우 단계(3850)가 수행될 수 있다.If the reference frame index of the motion vector candidate points to the virtual reference frame, step 3850 may be performed.
움직임 벡터 후보의 참조 프레임 인덱스가 가상 참조 프레임을 가리키지 않는 경우 단계(3860)가 수행될 수 있다.If the reference frame index of the motion vector candidate does not point to a virtual reference frame, step 3860 may be performed.
단계(3840)에서, 대상 블록의 참조 프레임이 가상 참조 프레임이고, 움직임 벡터 후보의 참조 프레임이 가상 참조 프레임인 경우 아래의 동작들 중 하나가 수행될 수 있다. 또는, 대상 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키고, 움직임 벡터 후보의 참조 프레임 인덱스가 가상 참조 프레임을 가리키면 아래의 동작들 중 하나가 수행될 수 있다.In operation 3840, when the reference frame of the target block is a virtual reference frame and the reference frame of the motion vector candidate is a virtual reference frame, one of the following operations may be performed. Or, if the reference frame index of the target block points to the virtual reference frame and the reference frame index of the motion vector candidate points to the virtual reference frame, one of the following operations may be performed.
- 움직임 벡터 후보가 선택될 수 있다. 말하자면, 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가될 수 있다.A motion vector candidate may be selected. In other words, the motion vector candidate may be added to the motion vector candidate list.
- 움직임 벡터 후보가 움직임 벡터 (0, 0)로 설정될 수 있다. 움직임 벡터 (0, 0)은 제로 벡터일 수 있다. 움직임 벡터 (0, 0)로 설정된 움직임 벡터 후보가 선택될 수 있다. 움직임 벡터 (0, 0)로 설정된 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가될 수 있다. 이하에서, 움직임 벡터 후보의 선택은 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가되거나, 추가의 대상이 된다는 것을 의미할 수 있다. 이하에서, 움직임 벡터 후보가 움직임 벡터 (0, 0)로 설정된다는 것은 움직임 벡터 (0, 0)이 움직임 벡터 후보로서 사용된다는 것을 의미할 수 있다.The motion vector candidate may be set to a motion vector (0, 0). The motion vector (0, 0) may be a zero vector. A motion vector candidate set to a motion vector (0, 0) may be selected. A motion vector candidate set to a motion vector (0, 0) may be added to the motion vector candidate list. Hereinafter, selection of the motion vector candidate may mean that the motion vector candidate is added to or added to the motion vector candidate list. Hereinafter, setting the motion vector candidate to the motion vector (0, 0) may mean that the motion vector (0, 0) is used as the motion vector candidate.
단계(3850)에서, 대상 블록의 참조 프레임 및 움직임 벡터 후보의 참조 프레임 중 하나가 가상 참조 프레임이고, 다른 하나가 비-가상 참조 프레임인 경우 아래의 동작들 중 하나가 수행될 수 있다. 또는, 대상 블록의 참조 프레임 인덱스 및 움직임 벡터 후보의 참조 프레임 인덱스 중 하나가 가상 참조 프레임을 가리키고, 다른 하나가 비-가상 참조 프레임을 가리키면 아래의 동작들 중 하나가 수행될 수 있다.In step 3850, if one of the reference frame of the target block and the reference frame of the motion vector candidate is a virtual reference frame and the other is a non-virtual reference frame, one of the following operations may be performed. Alternatively, if one of the reference frame index of the target block and the reference frame index of the motion vector candidate points to the virtual reference frame and the other points to the non-virtual reference frame, one of the following operations may be performed.
- 움직임 벡터 후보가 움직임 벡터 (0, 0)로 설정될 수 있다. 움직임 벡터 (0, 0)은 제로 벡터일 수 있다. 움직임 벡터 (0, 0)로 설정된 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가될 수 있다.The motion vector candidate may be set to a motion vector (0, 0). The motion vector (0, 0) may be a zero vector. A motion vector candidate set to a motion vector (0, 0) may be added to the motion vector candidate list.
- 움직임 벡터 후보가 움직임 벡터 리스트에 추가되지 않을 수 있다. 이 때, 다음의 움직임 벡터 후보에 대한 탐색이 수행될 수 있다.The motion vector candidate may not be added to the motion vector list. At this time, the search for the next motion vector candidate may be performed.
단계(3860)에서, 대상 블록의 참조 프레임이 비-가상 참조 프레임이고, 움직임 벡터 후보의 참조 프레임이 비-가상 참조 프레임인 경우 가상 참조 프레임을 사용하지 않는 움직임 벡터 후보에 대한 탐색이 수행될 수 있다. 또는, 대상 블록의 참조 프레임 인덱스가 비-가상 참조 프레임을 가리키고, 움직임 벡터 후보의 참조 프레임 인덱스가 비-가상 참조 프레임을 가리키면 가상 참조 프레임을 사용하지 않는 움직임 벡터 후보에 대한 처리가 수행될 수 있다.In step 3860, if the reference frame of the target block is a non-virtual reference frame and the reference frame of the motion vector candidate is a non-virtual reference frame, a search may be performed for a motion vector candidate that does not use a virtual reference frame. have. Alternatively, if the reference frame index of the target block points to a non-virtual reference frame and the reference frame index of the motion vector candidate points to a non-virtual reference frame, processing for a motion vector candidate not using a virtual reference frame may be performed. .
예를 들면, 가상 참조 프레임을 사용하지 않는 움직임 벡터 후보에 대한 탐색은 HEVC 또는 전술된 다른 실시예에 따른 움직임 벡터 후보에 대한 탐색을 의미할 수 있다.For example, searching for a motion vector candidate not using a virtual reference frame may mean searching for a motion vector candidate according to HEVC or another embodiment described above.
일 실시예에서, 가상 참조 프레임이 사용되는 경우, 공간적 인접 블록 및 시간적 이웃 블록에 대한 탐색들의 순서가 변경될 수 있다.In one embodiment, when a virtual reference frame is used, the order of searches for the spatial neighboring block and the temporal neighboring block may be changed.
또한, 일 실시예에서, 대상 블록의 참조 프레임이 가상 참조 프레임인 경우 움직임 벡터 (0, 0)가 움직임 벡터 후보 리스트에 가장 우선하여 삽입될 수 있다.In addition, in one embodiment, when the reference frame of the target block is a virtual reference frame, the motion vector (0, 0) may be inserted in the motion vector candidate list first.
도 39는 일 예에 따른 AMVP 모드에서의 움직임 벡터 후보들을 탐색하는 방법의 흐름도이다.39 is a flowchart of a method of searching for motion vector candidates in an AMVP mode according to an example.
도 39에서는, 공간적 움직임 벡터 후보가 시간적 움직임 벡터 후보보다 먼저 탐색될 수 있다.In FIG. 39, the spatial motion vector candidate may be searched before the temporal motion vector candidate.
단계(3910)에서, 움직임 벡터 (0, 0)이 움직임 벡터 후보로서 선택될 수 있다.In step 3910, the motion vector (0, 0) may be selected as a motion vector candidate.
움직임 벡터 (0, 0)는 움직임 벡터 후보로서 움직임 벡터 후보 리스트에 추가될 수 있다.The motion vector (0, 0) may be added to the motion vector candidate list as a motion vector candidate.
말하자면, 실시예에서는, 움직임 벡터(0, 0)가 우선적으로 움직임 벡터 후보 리스트에 추가될 수 있다.In other words, in the embodiment, the motion vector (0, 0) may be preferentially added to the motion vector candidate list.
단계(3920)에서, 공간적 움직임 벡터 후보가 탐색될 수 있다. 탐색되는 공간적 움직임 벡터 후보는 가상 참조 프레임을 사용할 수 있다. 공간적 움직임 벡터 후보는 복수일 수 있다.In step 3920, the spatial motion vector candidate may be searched. The searched spatial motion vector candidate may use a virtual reference frame. There may be a plurality of spatial motion vector candidates.
움직임 벡터 후보에 대한 탐색은 도 38을 참조하여 전술된 단계들(3810, 3820, 3830, 3840, 3850 및 3860)을 의미할 수 있다. 말하자면, 단계(3920)는 전술된 단계들(3810, 3820, 3830, 3840, 3850 및 3860)을 포함할 수 있다. 이 때, 단계들(3810, 3820, 3830, 3840, 3850 및 3860)에서의 움직임 벡터 후보는 공간적 움직임 벡터 후보일 수 있다.The search for the motion vector candidate may mean the steps 3810, 3820, 3830, 3840, 3850, and 3860 described above with reference to FIG. 38. In other words, step 3920 may include steps 3810, 3820, 3830, 3840, 3850, and 3860 described above. In this case, the motion vector candidates in steps 3810, 3820, 3830, 3840, 3850, and 3860 may be spatial motion vector candidates.
단계(3930)에서, 선택된 움직임 벡터 후보들의 개수가 기정의된 개수보다 더 작은지 여부가 검사될 수 있다.In step 3930, it may be checked whether the number of the selected motion vector candidates is smaller than the predefined number.
여기에서, 선택된 움직임 벡터 후보들은 움직임 벡터 후보 리스트 내의 움직임 벡터 후보들을 의미할 수 있다. 기정의된 개수는 움직임 벡터 후보 리스트 내에 포함될 수 있는 움직임 벡터 후보들의 최대의 개수일 수 있다.Here, the selected motion vector candidates may mean motion vector candidates in a motion vector candidate list. The predefined number may be the maximum number of motion vector candidates that may be included in the motion vector candidate list.
선택된 움직임 벡터 후보들의 개수가 기정의된 개수보다 더 작으면 단계(3940)가 수행될 수 있다. 선택된 움직임 벡터 후보들의 개수가 기정의된 개수보다 더 작지 않으면, 절차가 종료될 수 있다.If the number of the selected motion vector candidates is smaller than the predefined number, step 3940 may be performed. If the number of selected motion vector candidates is not smaller than the predefined number, the procedure may end.
말하자면, 시간적 움직임 벡터 후보에 대한 탐색은 제로 벡터 및 공간적 움직임 벡터 후보들로는 움직임 벡터 후보 리스트가 완전히 채워지지 않을 때 선택적으로 수행될 수 있다.In other words, the search for the temporal motion vector candidate may be selectively performed when the motion vector candidate list is not completely filled with the zero vector and the spatial motion vector candidates.
단계(3940)에서, 시간적 움직임 벡터 후보가 탐색될 수 있다. 탐색되는 시간적 움직임 벡터 후보는 가상 참조 프레임을 사용할 수 있다. 시간적 움직임 벡터 후보는 복수일 수 있다.In step 3940, a temporal motion vector candidate may be searched. The temporal motion vector candidate to be searched may use a virtual reference frame. The temporal motion vector candidate may be plural.
움직임 벡터 후보에 대한 탐색은 도 38을 참조하여 전술된 단계들(3810, 3820, 3830, 3840, 3850 및 3860)을 의미할 수 있다. 말하자면, 단계(3940)는 전술된 단계들(3810, 3820, 3830, 3840, 3850 및 3860)을 포함할 수 있다. 이 때, 단계들(3810, 3820, 3830, 3840, 3850 및 3860)에서의 움직임 벡터 후보는 시간적 움직임 벡터 후보일 수 있다.The search for the motion vector candidate may mean the steps 3810, 3820, 3830, 3840, 3850, and 3860 described above with reference to FIG. 38. In other words, step 3940 may include the steps 3810, 3820, 3830, 3840, 3850, and 3860 described above. In this case, the motion vector candidates in steps 3810, 3820, 3830, 3840, 3850, and 3860 may be temporal motion vector candidates.
실시예에서는, 움직임 벡터 후보를 움직임 벡터 후보 리스트에 추가함에 있어서, 움직임 벡터 (0, 0)가 우선적으로 움직임 벡터 후보 리스트에 추가될 수 있고, 공간적 움직임 벡터 후보들의 우선순위들이 시간적 움직임 벡터 후보들의 우선순위들에 비해 더 높을 수 있다.In an embodiment, in adding the motion vector candidate to the motion vector candidate list, the motion vector (0, 0) may be preferentially added to the motion vector candidate list, and the priorities of the spatial motion vector candidates are determined by the temporal motion vector candidates. May be higher than priorities.
도 40은 일 예에 따른 AMVP 모드에서의 움직임 벡터 후보들을 탐색하는 다른 방법의 흐름도이다.40 is a flowchart of another method of searching for motion vector candidates in an AMVP mode according to an example.
도 40에서는, 시간적 움직임 벡터 후보가 공간적 움직임 벡터 후보보다 먼저 탐색될 수 있다.In FIG. 40, a temporal motion vector candidate may be searched before a spatial motion vector candidate.
단계(4010)에서, 시간적 움직임 벡터 후보가 탐색될 수 있다. 탐색되는 시간적 움직임 벡터 후보는 가상 참조 프레임을 사용할 수 있다. 시간적 움직임 벡터 후보는 복수일 수 있다.In step 4010, a temporal motion vector candidate may be searched. The temporal motion vector candidate to be searched may use a virtual reference frame. The temporal motion vector candidate may be plural.
움직임 벡터 후보에 대한 탐색은 도 38을 참조하여 전술된 단계들(3810, 3820, 3830, 3840, 3850 및 3860)을 의미할 수 있다. 말하자면, 단계(4010)는 전술된 단계들(3810, 3820, 3830, 3840, 3850 및 3860)을 포함할 수 있다. 이 때, 단계들(3810, 3820, 3830, 3840, 3850 및 3860)에서의 움직임 벡터 후보는 시간적 움직임 벡터 후보일 수 있다.The search for the motion vector candidate may mean the steps 3810, 3820, 3830, 3840, 3850, and 3860 described above with reference to FIG. 38. In other words, step 4010 may include the steps 3810, 3820, 3830, 3840, 3850, and 3860 described above. In this case, the motion vector candidates in steps 3810, 3820, 3830, 3840, 3850, and 3860 may be temporal motion vector candidates.
단계(4020)에서, 선택된 움직임 벡터 후보들의 개수가 기정의된 개수보다 더 작은지 여부가 검사될 수 있다.In step 4020, it may be checked whether the number of the selected motion vector candidates is smaller than the predefined number.
여기에서, 선택된 움직임 벡터 후보들은 움직임 벡터 후보 리스트 내의 움직임 벡터 후보들을 의미할 수 있다. 기정의된 개수는 움직임 벡터 후보 리스트 내의 움직임 벡터 후보들의 최대의 개수일 수 있다.Here, the selected motion vector candidates may mean motion vector candidates in a motion vector candidate list. The predefined number may be the maximum number of motion vector candidates in the motion vector candidate list.
선택된 움직임 벡터 후보들의 개수가 기정의된 개수보다 더 작으면 단계(4030)가 수행될 수 있다. 선택된 움직임 벡터 후보들의 개수가 기정의된 개수보다 더 작지 않으면, 절차가 종료될 수 있다.If the number of selected motion vector candidates is smaller than the predefined number, step 4030 may be performed. If the number of selected motion vector candidates is not smaller than the predefined number, the procedure may end.
말하자면, 공간적 움직임 벡터 후보에 대한 탐색은 시간적 움직임 벡터 후보들로는 움직임 벡터 후보 리스트가 완전히 채워지지 않을 때 선택적으로 수행될 수 있다.In other words, the search for the spatial motion vector candidate may be selectively performed when the motion vector candidate list is not completely filled with the temporal motion vector candidates.
단계(4030)에서, 공간적 움직임 벡터 후보가 탐색될 수 있다. 탐색되는 공간적 움직임 벡터 후보는 가상 참조 프레임을 사용할 수 있다. 공간적 움직임 벡터 후보는 복수일 수 있다.In step 4030, the spatial motion vector candidate may be searched. The searched spatial motion vector candidate may use a virtual reference frame. There may be a plurality of spatial motion vector candidates.
움직임 벡터 후보에 대한 탐색은 도 38을 참조하여 전술된 단계들(3810, 3820, 3830, 3840, 3850 및 3860)을 의미할 수 있다. 말하자면, 단계(4030)는 전술된 단계들(3810, 3820, 3830, 3840, 3850 및 3860)을 포함할 수 있다. 이 때, 단계들(3810, 3820, 3830, 3840, 3850 및 3860)에서의 움직임 벡터 후보는 공간적 움직임 벡터 후보일 수 있다.The search for the motion vector candidate may mean the steps 3810, 3820, 3830, 3840, 3850, and 3860 described above with reference to FIG. 38. In other words, step 4030 may include the steps 3810, 3820, 3830, 3840, 3850, and 3860 described above. In this case, the motion vector candidates in steps 3810, 3820, 3830, 3840, 3850, and 3860 may be spatial motion vector candidates.
단계(4040)에서, 선택된 움직임 벡터 후보들의 개수가 기정의된 개수보다 더 작은지 여부가 검사될 수 있다.At 4040, it may be checked whether the number of selected motion vector candidates is smaller than the predefined number.
여기에서, 선택된 움직임 벡터 후보들은 움직임 벡터 후보 리스트 내의 움직임 벡터 후보들을 의미할 수 있다. 기정의된 개수는 움직임 벡터 후보 리스트 내의 움직임 벡터 후보들의 최대의 개수일 수 있다.Here, the selected motion vector candidates may mean motion vector candidates in a motion vector candidate list. The predefined number may be the maximum number of motion vector candidates in the motion vector candidate list.
선택된 움직임 벡터 후보들의 개수가 기정의된 개수보다 더 작으면 단계(4050)가 수행될 수 있다. 선택된 움직임 벡터 후보들의 개수가 기정의된 개수보다 더 작지 않으면, 절차가 종료될 수 있다.If the number of the selected motion vector candidates is smaller than the predefined number, step 4050 may be performed. If the number of selected motion vector candidates is not smaller than the predefined number, the procedure may end.
말하자면, 움직임 벡터 (0, 0)의 선택은 시간적 움직임 벡터 후보들 및 공간적 움직임 벡터 후보들로는 움직임 벡터 후보 리스트가 완전히 채워지지 않을 때 선택적으로 수행될 수 있다.In other words, the selection of the motion vector (0, 0) may be selectively performed when the motion vector candidate list is not completely filled with the temporal motion vector candidates and the spatial motion vector candidates.
단계(4050)에서, 움직임 벡터 (0, 0)이 움직임 벡터 후보로서 선택될 수 있다.In step 4050, the motion vector (0, 0) may be selected as a motion vector candidate.
움직임 벡터 (0, 0)는 움직임 벡터 후보로서 움직임 벡터 후보 리스트에 추가될 수 있다.The motion vector (0, 0) may be added to the motion vector candidate list as a motion vector candidate.
실시예에서는, 움직임 벡터 후보를 움직임 벡터 후보 리스트에 추가함에 있어서, 공간적 움직임 벡터 후보들의 우선순위들이 시간적 움직임 벡터 후보들의 우선순위들에 비해 더 높을 수 있다. 공간적 움직임 벡터 후보들 및 시간적 움직임 벡터 후보들이 움직임 벡터 후보 리스트에 추가된 후, 움직임 벡터 후보 리스트 내의 움직임 벡터 후보들의 개수가 움직임 벡터 후보 리스트가 포함할 수 있는 움직임 벡터 후보들의 최대 개수보다 더 작으면, 움직임 벡터 (0, 0)가 다음으로 움직임 벡터 후보 리스트에 추가될 수 있다.In an embodiment, in adding the motion vector candidate to the motion vector candidate list, the priorities of the spatial motion vector candidates may be higher than the priorities of the temporal motion vector candidates. After the spatial motion vector candidates and the temporal motion vector candidates are added to the motion vector candidate list, if the number of motion vector candidates in the motion vector candidate list is smaller than the maximum number of motion vector candidates that the motion vector candidate list can include, The motion vector (0, 0) can then be added to the motion vector candidate list.
도 39 및 도 40을 참조하여 설명된 움직임 벡터 후보를 탐색하는 변경된 순서는, 대상 블록의 참조 프레임이 가상 참조 프레임인 경우에만 선택적으로 수행될 수도 있다. 예를 들면, AMVP 모드에 대한 하나 이상의 움직임 벡터 후보를 탐색하는 순서는 대상 블록의 참조 프레임이 가상 참조 프레임인지 여부에 기반하여 결정될 수 있다.The changed order of searching for the motion vector candidate described with reference to FIGS. 39 and 40 may be selectively performed only when the reference frame of the target block is a virtual reference frame. For example, the order of searching for one or more motion vector candidates for the AMVP mode may be determined based on whether the reference frame of the target block is a virtual reference frame.
5.2 가상 참조 프레임을 사용하기 위한 머지 모드 및 스킵 모드의 변경5.2 Changing the Merge Mode and Skip Mode to Use Virtual Reference Frames
대상 블록에 대한 인터 예측 모드가 머지 모드 또는 스킵 모드일 때, 움직임 벡터 후보에 대한 탐색은 아래에서 설명되는 것과 같이 변경되어 수행될 수 있다.When the inter prediction mode for the target block is the merge mode or the skip mode, the search for the motion vector candidate may be changed and performed as described below.
5.2.1 시간적 이웃 블록의 움직임 벡터 후보에 대한 탐색5.2.1 Searching for Motion Vector Candidates in Temporal Neighboring Blocks
실시예에서, 움직임 벡터 후보 리스트는 대상 블록의 병치된(co-located) 블록이 존재하는 참조 프레임이 가상 참조 프레임 및 비-가상 참조 프레임 중 어느 것인지에 기반하여 구성될 수 있다. 여기에서, 병치된 블록은 병치된 PU일 수 있다. 또는, 병치된 블록은 전술된 실시예들의 다른 블록일 수 있다.In an embodiment, the motion vector candidate list can be constructed based on whether the reference frame in which the co-located block of the target block exists is a virtual reference frame and a non-virtual reference frame. Here, the collocated block may be a collocated PU. Alternatively, the collocated block can be another block of the embodiments described above.
또한, 움직임 벡터 후보 리스트는 움직임 벡터 후보의 참조 프레임이 가상 참조 프레임 및 비-가상 참조 프레임 중 어느 것인지에 기반하여 구성될 수 있다.In addition, the motion vector candidate list may be constructed based on whether the reference frame of the motion vector candidate is a virtual reference frame or a non-virtual reference frame.
일 실시예에서, 병치된 블록이 존재하는 참조 프레임이 가상 참조 프레임이고, 시간적 움직임 벡터 후보의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는 경우, 시간적 움직임 벡터 후보가 움직임 벡터 (0, 0)로 설정될 수 있고, 움직임 벡터 (0, 0)로 설정된 시간적 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가될 수 있다. 또한, 대상 프레임에 대한 가상 참조 프레임이 머지 모드 또는 스킵 모드에 사용될 수 있다.In one embodiment, if the reference frame in which the collocated block exists is a virtual reference frame and the reference frame index of the temporal motion vector candidate points to the virtual reference frame, the temporal motion vector candidate is set to the motion vector (0, 0). In addition, a temporal motion vector candidate set as a motion vector (0, 0) may be added to the motion vector candidate list. In addition, the virtual reference frame for the target frame may be used in the merge mode or the skip mode.
일 실시예에서, 병치된 블록이 존재하는 참조 프레임이 가상 참조 프레임이거나, 시간적 움직임 벡터 후보의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는 경우, 시간적 움직임 벡터 후보가 움직임 벡터 (0, 0)로 설정될 수 있고, 움직임 벡터 (0, 0)로 설정된 시간적 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가될 수 있다. 또한, 대상 프레임에 대한 가상 참조 프레임이 머지 모드 또는 스킵 모드에 사용될 수 있다.In one embodiment, if the reference frame in which the collocated block exists is a virtual reference frame, or if the reference frame index of the temporal motion vector candidate points to the virtual reference frame, the temporal motion vector candidate may be set to the motion vector (0, 0). In addition, a temporal motion vector candidate set as a motion vector (0, 0) may be added to the motion vector candidate list. In addition, the virtual reference frame for the target frame may be used in the merge mode or the skip mode.
일 실시예에서, 병치된 블록이 존재하는 참조 프레임이 가상 참조 프레임이고, 시간적 움직임 벡터 후보의 참조 프레임 인덱스가 비-가상 참조 프레임을 가리키는 경우, 아래의 동작들 중 하나가 수행될 수 있다.In one embodiment, if the reference frame in which the collocated block is present is a virtual reference frame and the reference frame index of the temporal motion vector candidate points to a non-virtual reference frame, one of the following operations may be performed.
- 시간적 움직임 벡터 후보가 움직임 벡터 (0, 0)로 설정되고, 움직임 벡터 (0, 0)로 설정된 시간적 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가될 수 있다. 대상 프레임에 대한 가상 참조 프레임이 머지 모드 또는 스킵 모드에 사용될 수 있다.A temporal motion vector candidate may be set as a motion vector (0, 0) and a temporal motion vector candidate set as a motion vector (0, 0) may be added to the motion vector candidate list. The virtual reference frame for the target frame may be used in the merge mode or the skip mode.
- 시간적 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가되지 않을 수 있다.A temporal motion vector candidate may not be added to the motion vector candidate list.
일 실시예에서, 병치된 블록이 존재하는 참조 프레임이 비-가상 참조 프레임이고, 시간적 움직임 벡터 후보의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는 경우, 아래의 동작들 중 하나가 수행될 수 있다.In one embodiment, if the reference frame in which the collocated block is present is a non-virtual reference frame and the reference frame index of the temporal motion vector candidate points to a virtual reference frame, one of the following operations may be performed.
- 시간적 움직임 벡터 후보가 움직임 벡터 (0, 0)로 설정되고, 움직임 벡터 (0, 0)로 설정된 시간적 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가될 수 있다. 대상 프레임에 대한 가상 참조 프레임이 머지 모드 또는 스킵 모드에 사용될 수 있다.A temporal motion vector candidate may be set as a motion vector (0, 0) and a temporal motion vector candidate set as a motion vector (0, 0) may be added to the motion vector candidate list. The virtual reference frame for the target frame may be used in the merge mode or the skip mode.
- 시간적 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가되지 않을 수 있다.A temporal motion vector candidate may not be added to the motion vector candidate list.
도 41은 일 예에 따른 머지 모드 및 스킵 모드에서 시간적 움직임 벡터 후보의 참조 프레임 인덱스에 따라서 시간적 움직임 벡터 후보를 탐색하는 방법의 흐름도이다.41 is a flowchart of a method of searching for a temporal motion vector candidate according to a reference frame index of a temporal motion vector candidate in a merge mode and a skip mode according to an example.
단계(4110)에서, 공간적 움직임 벡터 후보가 탐색되는지 여부가 검사될 수 있다. 말하자면, 탐색의 대상인 움직임 벡터 후보가 공간적 움직임 벡터 후보인지 여부가 검사될 수 있다.In step 4110, it may be checked whether a spatial motion vector candidate is searched for. In other words, it may be checked whether the motion vector candidate that is the search target is a spatial motion vector candidate.
공간적 움직임 벡터 후보가 탐색되는 경우 단계(4120)가 수행될 수 있다.If a spatial motion vector candidate is found, step 4120 may be performed.
공간적 움직임 벡터 후보가 아닌, 시간적 움직임 벡터 후보가 탐색되는 경우 단계(4130)가 수행될 수 있다.Step 4130 may be performed when a temporal motion vector candidate is searched instead of the spatial motion vector candidate.
단계(4120)에서, 가상 참조 프레임을 사용하지 않는 공간적 움직임 벡터 후보에 대한 탐색이 수행될 수 있다. 예를 들면, 가상 참조 프레임을 사용하지 않는 공간적 움직임 벡터 후보에 대한 탐색은 HEVC 또는 전술된 다른 실시예에 따른 공간적 움직임 벡터 후보에 대한 탐색을 의미할 수 있다.In step 4120, a search may be performed for a spatial motion vector candidate that does not use a virtual reference frame. For example, searching for a spatial motion vector candidate not using a virtual reference frame may mean searching for a spatial motion vector candidate according to HEVC or another embodiment described above.
단계(4130)에서, 대상 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는지 여부가 판단될 수 있다.In operation 4130, it may be determined whether the reference frame index of the target block indicates the virtual reference frame.
대상 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는 경우 단계(4140)가 수행될 수 있다.If the reference frame index of the target block points to the virtual reference frame, step 4140 may be performed.
대상 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키지 않는 경우 단계(4150)가 수행될 수 있다.If the reference frame index of the target block does not point to the virtual reference frame, step 4150 may be performed.
단계(4140)에서, 병치된 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는지 여부가 판단될 수 있다.In step 4140, it may be determined whether the reference frame index of the collocated block points to the virtual reference frame.
병치된 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는 경우 단계(4160)가 수행될 수 있다.If the reference frame index of the collocated block points to the virtual reference frame, step 4160 may be performed.
병치된 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키지 않는 경우 단계(4170)가 수행될 수 있다.If the reference frame index of the collocated block does not point to a virtual reference frame, step 4170 may be performed.
단계(4150)에서, 병치된 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는지 여부가 판단될 수 있다.In step 4150, it may be determined whether the reference frame index of the collocated block points to the virtual reference frame.
병치된 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키는 경우 단계(4170)가 수행될 수 있다.If the reference frame index of the collocated block points to the virtual reference frame, step 4170 may be performed.
병치된 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키지 않는 경우 단계(4180)가 수행될 수 있다.If the reference frame index of the collocated block does not point to a virtual reference frame, step 4180 may be performed.
단계(4160)에서, 대상 블록의 참조 프레임이 가상 참조 프레임이고, 병치된 블록의 참조 프레임이 가상 참조 프레임인 경우 아래의 동작들 중 하나가 수행될 수 있다. 또는, 대상 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키고, 병치된 블록의 참조 프레임 인덱스가 가상 참조 프레임을 가리키면 아래의 동작들 중 하나가 수행될 수 있다.In operation 4160, when the reference frame of the target block is a virtual reference frame and the reference frame of the collocated block is a virtual reference frame, one of the following operations may be performed. Alternatively, if the reference frame index of the target block points to the virtual reference frame and the reference frame index of the collocated block points to the virtual reference frame, one of the following operations may be performed.
- 시간적 움직임 벡터 후보가 선택될 수 있다. 말하자면, 시간적 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가될 수 있다.A temporal motion vector candidate can be selected. In other words, a temporal motion vector candidate may be added to the motion vector candidate list.
- 시간적 움직임 벡터 후보가 움직임 벡터 (0, 0)로 설정될 수 있다. 움직임 벡터 (0, 0)은 제로 벡터일 수 있다. 움직임 벡터 (0, 0)로 설정된 시간적 움직임 벡터 후보가 선택될 수 있다. 움직임 벡터 (0, 0)로 설정된 시간적 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가될 수 있다.A temporal motion vector candidate may be set to a motion vector (0, 0). The motion vector (0, 0) may be a zero vector. A temporal motion vector candidate set to a motion vector (0, 0) may be selected. A temporal motion vector candidate set to a motion vector (0, 0) may be added to the motion vector candidate list.
단계(4170)에서, 대상 블록의 참조 프레임 및 병치된 블록의 참조 프레임 중 하나가 가상 참조 프레임이고, 다른 하나가 비-가상 참조 프레임인 경우 아래의 동작들 중 하나가 수행될 수 있다. 또는, 대상 블록의 참조 프레임 인덱스 및 병치된 블록의 참조 프레임 인덱스 중 하나가 가상 참조 프레임을 가리키고, 다른 하나가 비-가상 참조 프레임을 가리키면 아래의 동작들 중 하나가 수행될 수 있다.In step 4170, if one of the reference frame of the target block and the reference frame of the collocated block is a virtual reference frame and the other is a non-virtual reference frame, one of the following operations may be performed. Alternatively, if one of the reference frame index of the target block and the reference frame index of the collocated block points to the virtual reference frame and the other points to the non-virtual reference frame, one of the following operations may be performed.
- 시간적 움직임 벡터 후보가 움직임 벡터 (0, 0)로 설정될 수 있다. 움직임 벡터 (0, 0)은 제로 벡터일 수 있다. 움직임 벡터 (0, 0)로 설정된 시간적 움직임 벡터 후보가 움직임 벡터 후보 리스트에 추가될 수 있다.A temporal motion vector candidate may be set to a motion vector (0, 0). The motion vector (0, 0) may be a zero vector. A temporal motion vector candidate set to a motion vector (0, 0) may be added to the motion vector candidate list.
- 시간적 움직임 벡터 후보가 움직임 벡터 리스트에 추가되지 않을 수 있다. 이 때, 다음의 움직임 벡터 후보에 대한 탐색이 수행될 수 있다.A temporal motion vector candidate may not be added to the motion vector list. At this time, the search for the next motion vector candidate may be performed.
단계(4180)에서, 대상 블록의 참조 프레임이 비-가상 참조 프레임이고, 병치된 블록의 참조 프레임이 비-가상 참조 프레임인 경우 가상 참조 프레임을 사용하지 않는 시간적 움직임 벡터 후보에 대한 탐색이 수행될 수 있다. 또는, 대상 블록의 참조 프레임 인덱스가 비-가상 참조 프레임을 가리키고, 병치된 블록의 참조 프레임 인덱스가 비-가상 참조 프레임을 가리키면 가상 참조 프레임을 사용하지 않는 시간적 움직임 벡터 후보에 대한 처리가 수행될 수 있다.In step 4180, if a reference frame of the target block is a non-virtual reference frame and the reference frame of the collocated block is a non-virtual reference frame, a search is performed for a temporal motion vector candidate that does not use a virtual reference frame. Can be. Or, if the reference frame index of the target block points to a non-virtual reference frame and the reference frame index of the collocated block points to a non-virtual reference frame, processing may be performed on a temporal motion vector candidate that does not use a virtual reference frame. have.
예를 들면, 가상 참조 프레임을 사용하지 않는 시간적 움직임 벡터 후보에 대한 탐색은 HEVC 또는 전술된 다른 실시예에 따른 시간적 움직임 벡터 후보에 대한 탐색을 의미할 수 있다.For example, the search for a temporal motion vector candidate that does not use a virtual reference frame may mean a search for a temporal motion vector candidate according to HEVC or another embodiment described above.
일 실시예에서, 시간적 움직임 벡터 후보가 가상 참조 프레임을 참조하는 경우, 시간적 이웃 블록의 움직임 벡터는 움직임 벡터 후보로서 고려되지 않을 수 있다.In one embodiment, when a temporal motion vector candidate refers to a virtual reference frame, the motion vector of the temporal neighboring block may not be considered as a motion vector candidate.
일 실시예에서, 시간적 움직임 벡터 후보가 가상 참조 프레임을 참조하는 경우, 시간적 이웃 블록의 움직임 벡터가 우선적으로 움직임 벡터 후보로서 고려될 수 있다.In one embodiment, when a temporal motion vector candidate refers to a virtual reference frame, the motion vector of the temporal neighboring block may be considered as a motion vector candidate preferentially.
도 42는 일 실시예에 따른 시간적 움직임 벡터 후보가 가상 참조 프레임을 참조하는 경우 시간적 이웃 블록의 움직임 벡터를 움직임 벡터 후보로서 고려하지 않은 움직임 벡터에 대한 탐색 방법의 흐름도이다.42 is a flowchart of a method for searching for a motion vector that does not consider a motion vector of a temporal neighboring block as a motion vector candidate when the temporal motion vector candidate refers to a virtual reference frame according to an embodiment.
단계(4210)에서, 공간적 움직임 벡터 후보가 탐색될 수 있다. 탐색되는 공간적 움직임 벡터 후보는 가상 참조 프레임을 사용할 수 있다. 공간적 움직임 벡터 후보는 복수일 수 있다.In step 4210, the spatial motion vector candidate may be searched. The searched spatial motion vector candidate may use a virtual reference frame. There may be a plurality of spatial motion vector candidates.
움직임 벡터 후보에 대한 탐색은 도 38을 참조하여 전술된 단계들(3810, 3820, 3830, 3840, 3850 및 3860)을 의미할 수 있다. 말하자면, 단계(4210)는 전술된 단계들(3810, 3820, 3830, 3840, 3850 및 3860)을 포함할 수 있다. 이 때, 단계들(3810, 3820, 3830, 3840, 3850 및 3860)에서의 움직임 벡터 후보는 공간적 움직임 벡터 후보일 수 있다.The search for the motion vector candidate may mean the steps 3810, 3820, 3830, 3840, 3850, and 3860 described above with reference to FIG. 38. In other words, step 4210 may include the steps 3810, 3820, 3830, 3840, 3850 and 3860 described above. In this case, the motion vector candidates in steps 3810, 3820, 3830, 3840, 3850, and 3860 may be spatial motion vector candidates.
단계(4220)에서, 기정의된 개수의 공간적 움직임 벡터 후보들이 선택될 수 있다.In step 4220, a predefined number of spatial motion vector candidates may be selected.
예를 들면, 단계(4220)에서 선택된 공간적 움직임 벡터 후보들의 개수는 기정의된 개수일 수 있다.For example, the number of spatial motion vector candidates selected in step 4220 may be a predefined number.
예를 들면, 단계(4220)는 기정의된 개수의 공간적 움직임 벡터 후보들이 선택될 때까지 반복될 수 있다.For example, step 4220 may be repeated until a predefined number of spatial motion vector candidates are selected.
예를 들면, 단계(4220)에서 선택된 공간적 움직임 벡터 후보들은 기정의된 개수로 조절될 수 있다.For example, the spatial motion vector candidates selected in step 4220 may be adjusted to a predefined number.
예를 들면, 기정의된 개수는 4일 수 있다.For example, the predefined number may be four.
단계(4230)에서, 움직임 벡터 (0, 0)이 움직임 벡터 후보로서 선택될 수 있다.In step 4230, the motion vector (0, 0) may be selected as the motion vector candidate.
움직임 벡터 (0, 0)는 움직임 벡터 후보로서 움직임 벡터 후보 리스트에 추가될 수 있다.The motion vector (0, 0) may be added to the motion vector candidate list as a motion vector candidate.
단계(4240)에서, 대상 블록에 대한 인터 예측이 양방향 예측인지 여부가 판단될 수 있다.In operation 4240, it may be determined whether the inter prediction on the target block is bidirectional prediction.
대상 블록에 대한 인터 예측이 양방향 예측인 경우 단계(4250)가 수행될 수 있다.If the inter prediction for the target block is bidirectional prediction, step 4250 may be performed.
대상 블록에 대한 인터 예측이 양방향 예측이 아닌 경우 절차가 종료할 수 있다.If the inter prediction for the target block is not the bidirectional prediction, the procedure may end.
단계(4250)에서, 양방향 예측에 대한 움직임 벡터 후보가 탐색될 수 있다.At 4250, motion vector candidates for bidirectional prediction may be searched.
5.2.2 공간적 이웃 블록의 움직임 벡터 후보에 대한 탐색5.2.2 Searching for motion vector candidates in spatial neighboring blocks
대상 블록의 공간적 이웃 블록의 움직임 벡터 후보에 대하여 아래의 처리들 중 하나 이상이 수행될 수 있다.One or more of the following processes may be performed on the motion vector candidate of the spatial neighboring block of the target block.
- 대상 블록의 공간적 이웃 블록의 움직임 벡터가 가상 참조 프레임을 참조하는 경우, 비-가상 참조 프레임을 참조하는 다른 블록에 대한 부호화 방식과 동일한 부호화 방식으로 대상 블록이 부호화될 수 있다.When the motion vector of the spatial neighboring block of the target block refers to the virtual reference frame, the target block may be encoded by the same encoding scheme as that for other blocks referring to the non-virtual reference frame.
- 대상 블록의 공간적 이웃 블록의 움직임 벡터가 가상 참조 프레임을 참조하는 경우, 공간적 이웃 블록의 움직임 벡터 후보는 움직임 벡터 (0, 0)로 설정될 수 있다.When the motion vector of the spatial neighboring block of the target block refers to the virtual reference frame, the motion vector candidate of the spatial neighboring block may be set to the motion vector (0, 0).
- 대상 블록의 공간적 이웃 블록의 움직임 벡터가 가상 참조 프레임을 참조하는 경우, 대상 블록은 공간적 이웃 블록의 움직임 벡터 후보를 사용하여 스킵 모드로 부호화될 수 있다.When the motion vector of the spatial neighboring block of the target block refers to the virtual reference frame, the target block may be encoded in the skip mode using the motion vector candidate of the spatial neighboring block.
- 대상 블록의 공간적 이웃 블록의 움직임 벡터가 가상 참조 프레임을 참조하는 경우, 공간적 이웃 블록의 움직임 벡터는 움직임 벡터 후보로서 고려되지 않고, 다음의 이웃 블록에 대한 탐색이 수행될 수 있다.When the motion vector of the spatial neighboring block of the target block refers to the virtual reference frame, the motion vector of the spatial neighboring block is not considered as a motion vector candidate, and a search for the next neighboring block may be performed.
도 43은 일 실시예에 따른 대상 블록의 예측 방법 및 비트스트림 생성 방법의 흐름도이다.43 is a flowchart of a method of predicting a target block and a method of generating a bitstream, according to an embodiment.
실시예의 대상 블록의 예측 방법 및 비트스트림 생성 방법은 부호화 장치(1600)에 의해 수행될 수 있다. 실시예는 대상 블록의 부호화 방법 또는 비디오 부호화 방법의 일부일 수 있다.The prediction method and the bitstream generation method of the target block according to the embodiment may be performed by the encoding apparatus 1600. The embodiment may be part of an encoding method or a video encoding method of a target block.
단계(4310)에서, 처리부(1610)는 참조 프레임을 선택할 수 있다. 처리부는 전술된 실시예에 따라 생성된 기존 참조 프레임들(existing reference frame) 중 실시예의 인터 예측을 위한 참조 프레임을 선택할 수 있다. 기존 참조 프레임들은 비-가상 참조 프레임들일 수 있다.In operation 4310, the processor 1610 may select a reference frame. The processor may select a reference frame for inter prediction of an embodiment among existing reference frames generated according to the above-described embodiment. Existing reference frames may be non-virtual reference frames.
단계(4310)는 도 32를 참조하여 전술된 단계(3210)에 대응할 수 있다.Step 4310 may correspond to step 3210 described above with reference to FIG. 32.
단계(4320)에서, 처리부(1610)는 선택된 참조 프레임에 기반하여 가상 참조 프레임을 생성할 수 있다.In operation 4320, the processor 1610 may generate a virtual reference frame based on the selected reference frame.
단계(4320)는 도 32를 참조하여 전술된 단계(3220)에 대응할 수 있다.Step 4320 may correspond to step 3220 described above with reference to FIG. 32.
단계(4330)에서, 처리부(1610)는 가상 참조 프레임에 기반하여 참조 픽처 리스트를 구성할 수 있다. 처리부(1610)는 가상 참조 프레임을 참조 픽처 리스트에 포함시킬 수 있다.In operation 4330, the processor 1610 may construct a reference picture list based on the virtual reference frame. The processor 1610 may include the virtual reference frame in the reference picture list.
단계(4330)는 도 32를을 참조하여 전술된 단계(3230)에 대응할 수 있다.Step 4330 may correspond to step 3230 described above with reference to FIG. 32.
단계(4340)에서, 처리부(1610)는 가상 참조 프레임에 기반하여 인터 예측을 수행할 수 있다.In operation 4340, the processor 1610 may perform inter prediction based on a virtual reference frame.
단계(4340)는 도 32를 참조하여 전술된 단계(3240)에 대응할 수 있다.Step 4340 may correspond to step 3240 described above with reference to FIG. 32.
대상 블록에 대한 인터 예측을 수행함으로써 부호화된 대상 블록에 대한 정보가 생성될 수 있다.Information about the encoded target block may be generated by performing inter prediction on the target block.
대상 블록에 대한 인터 예측에 의해 예측 블록이 생성될 수 있고, 대상 블록 및 예측 블록 간의 차인 잔차 블록이 생성될 수 있다. 잔차 블록에 대하여 변환 및 양자화가 적용됨으로써 부호화된 대상 블록에 대한 정보가 생성될 수 있다.A prediction block may be generated by inter prediction on the target block, and a residual block that is a difference between the target block and the prediction block may be generated. The transform and quantization may be applied to the residual block to generate information about the encoded target block.
부호화된 대상 블록에 대한 정보는 대상 블록에 대한 변환 및 양자화된 계수를 포함할 수 있다. 또한, 부호화된 대상 블록에 대한 정보는 대상 블록에 대한 코딩 파라미터를 포함할 수 있다.The information about the encoded target block may include transformed and quantized coefficients for the target block. Also, the information about the encoded target block may include coding parameters for the target block.
단계(4350)에서, 처리부(1610)는 비트스트림을 생성할 수 있다.In operation 4350, the processor 1610 may generate a bitstream.
비트스트림은 부호화된 대상 블록에 대한 정보를 포함할 수 있다.The bitstream may include information about the encoded target block.
비트스트림은 예측 정보를 포함할 수 있다. 예측 정보는 전술된 대상 블록의 인터 예측에 관한 정보를 포함할 수 있다. 또한, 예측 정보는 전술된 가상 참조 프레임에 관한 정보를 포함할 수 있다. 대상 블록의 인터 예측에 관한 정보는 실시예들에서 설명된 인터 예측을 위한, 대상 블록 및/또는 서브 블록 등과 관련된 코딩 파라미터를 포함할 수 있다. 인터 예측에 관한 정보는 전술된 인터 예측 정보를 포함할 수 있다.The bitstream may include prediction information. The prediction information may include information about inter prediction of the above-described target block. In addition, the prediction information may include information about the aforementioned virtual reference frame. The information about the inter prediction of the target block may include coding parameters related to the target block and / or sub-block and the like for the inter prediction described in the embodiments. The information about inter prediction may include the above-described inter prediction information.
예측 정보는 단계(4350)에서 생성될 수 있고, 또는 단계들(4310, 4320, 4330 및 4340)에서 적어도 부분적으로 생성될 수 있다.Prediction information may be generated at step 4350, or at least partially generated at steps 4310, 4320, 4330, and 4340.
처리부(1610)는 생성된 비트스트림을 저장소(1640)에 저장할 수 있다. 또는, 통신부(1620)는 비트스트림을 복호화 장치(1700)로 전송할 수 있다.The processor 1610 may store the generated bitstream in the storage 1640. Alternatively, the communication unit 1620 may transmit the bitstream to the decoding device 1700.
처리부(1610)는 예측 정보에 대한 엔트로피 부호화를 수행할 수 있고, 엔트로피 부호화된 예측 정보를 포함하는 비트스트림을 생성할 수 있다.The processor 1610 may perform entropy encoding on the prediction information, and may generate a bitstream including the entropy-coded prediction information.
실시예는 도 1을 참조하여 전술된 부호화 장치(100)의 동작과 결합될 수 있다. 예를 들면, 단계들(4310, 4320, 4330 및 4340)의 동작들은 인터 예측부(110)에 의해 수행될 수 있다. 단계(4350)의 동작들은 엔트로피 부호화부(150)에 의해 수행될 수 있다. 또한, 단계(4310), 단계(4320), 단계(4330), 단계(4340) 및 단계(4350)의 이전, 이후 및 사이에 부호화 장치(100)의 다른 구성요소에서 이루어지는 동작이 수행될 수 있다.The embodiment may be combined with the operation of the encoding apparatus 100 described above with reference to FIG. 1. For example, operations of steps 4310, 4320, 4330, and 4340 may be performed by the inter predictor 110. Operations of step 4350 may be performed by the entropy encoder 150. In addition, operations performed in other components of the encoding apparatus 100 may be performed before, after, and after steps 4310, 4320, 4330, 4340, and 4350. .
도 44는 일 실시예에 따른 비트스트림을 사용하는 대상 블록의 예측 방법의 흐름도이다.44 is a flowchart of a method of predicting a target block using a bitstream, according to an embodiment.
실시예의 비트스트림을 사용하는 대상 블록의 예측 방법은 복호화 장치(1700)에 의해 수행될 수 있다. 실시예는 대상 블록의 복호화 방법 또는 비디오 복호화 방법의 일부일 수 있다.The prediction method of the target block using the bitstream of the embodiment may be performed by the decoding apparatus 1700. An embodiment may be part of a decoding method or a video decoding method of a target block.
단계(4410)에서, 통신부(1720)는 비트스트림을 획득할 수 있다. 통신부(1720)는 부호화 장치(1600)로부터 비트스트림을 수신할 수 있다.In operation 4410, the communicator 1720 may acquire a bitstream. The communication unit 1720 may receive a bitstream from the encoding apparatus 1600.
비트스트림은 부호화된 대상 블록에 대한 정보를 포함할 수 있다.The bitstream may include information about the encoded target block.
부호화된 대상 블록에 대한 정보는 대상 블록에 대한 변환 및 양자화된 계수를 포함할 수 있다. 부호화된 대상 블록에 대한 정보는 대상 블록에 대한 코딩 파라미터를 포함할 수 있다.The information about the encoded target block may include transformed and quantized coefficients for the target block. The information about the encoded target block may include coding parameters for the target block.
비트스트림은 예측 정보를 포함할 수 있다. 예측 정보는 전술된 대상 블록의 인터 예측에 관한 정보를 포함할 수 있다. 또한, 예측 정보는 전술된 가상 참조 프레임에 관한 정보를 포함할 수 있다. 대상 블록의 인터 예측에 관한 정보는 실시예들에서 설명된 인터 예측을 위한, 대상 블록 및/또는 서브 블록 등과 관련된 코딩 파라미터를 포함할 수 있다. 인터 예측에 관한 정보는 전술된 인터 예측 정보를 포함할 수 있다.The bitstream may include prediction information. The prediction information may include information about inter prediction of the above-described target block. In addition, the prediction information may include information about the aforementioned virtual reference frame. The information about the inter prediction of the target block may include coding parameters related to the target block and / or sub-block and the like for the inter prediction described in the embodiments. The information about inter prediction may include the above-described inter prediction information.
처리부(1710)는 획득된 비트스트림을 저장소(1740)에 저장할 수 있다.The processor 1710 may store the obtained bitstream in the storage 1740.
처리부(1710)는 비트스트림으로부터 예측 정보를 획득할 수 있다. 처리부(1710)는 비트스트림의 엔트로피 부호화된 예측 정보에 대한 엔트로피 복호화를 수행함으로써 예측 정보를 획득할 수 있다.The processor 1710 may obtain prediction information from the bitstream. The processor 1710 may obtain prediction information by performing entropy decoding on the entropy-coded prediction information of the bitstream.
단계(4420)에서, 처리부(1710)는 참조 프레임을 선택할 수 있다. 처리부는 전술된 실시예에 따라 생성된 기존 참조 프레임들(existing reference frame) 중 실시예의 인터 예측을 위한 참조 프레임을 선택할 수 있다. 기존 참조 프레임들은 비-가상 참조 프레임들일 수 있다.In operation 4420, the processor 1710 may select a reference frame. The processor may select a reference frame for inter prediction of an embodiment among existing reference frames generated according to the above-described embodiment. Existing reference frames may be non-virtual reference frames.
단계(4420)는 도 32을 참조하여 전술된 단계(3210)에 대응할 수 있다.Step 4420 may correspond to step 3210 described above with reference to FIG. 32.
단계(4430)에서, 처리부(1710)는 선택된 참조 프레임에 기반하여 가상 참조 프레임을 생성할 수 있다.In operation 4430, the processor 1710 may generate a virtual reference frame based on the selected reference frame.
단계(4430)는 도 32을 참조하여 전술된 단계(3220)에 대응할 수 있다.Step 4430 may correspond to step 3220 described above with reference to FIG. 32.
단계(4440)에서, 처리부(1710)는 가상 참조 프레임에 기반하여 참조 픽처 리스트를 구성할 수 있다. 처리부(1710)는 가상 참조 프레임을 참조 픽처 리스트에 포함시킬 수 있다.In operation 4440, the processor 1710 may configure a reference picture list based on the virtual reference frame. The processor 1710 may include the virtual reference frame in the reference picture list.
단계(4440)는 도 32를 참조하여 전술된 단계(3230)에 대응할 수 있다.Step 4440 may correspond to step 3230 described above with reference to FIG. 32.
단계(4450)에서, 처리부(1710)는 가상 참조 프레임에 기반하여 인터 예측을 수행할 수 있다.In operation 4450, the processor 1710 may perform inter prediction based on the virtual reference frame.
단계(4450)는 도 32를 참조하여 전술된 단계(3240)에 대응할 수 있다. 또한, 단계(4450)에서, 대상 블록에 대한 인터 예측을 수행함으로써 예측 블록이 생성될 수 있다.Step 4450 may correspond to step 3240 described above with reference to FIG. 32. In operation 4450, the prediction block may be generated by performing inter prediction on the target block.
단계(4460)에서, 처리부(1710)는 인터 예측의 결과에 기반하여 대상 프레임을 재구축할 수 있다.In operation 4440, the processor 1710 may reconstruct the target frame based on a result of the inter prediction.
처리부(1710)는 대상 블록에 대한 재구축된 잔차 블록을 생성할 수 있다.The processor 1710 may generate a reconstructed residual block for the target block.
처리부(1710)는 예측 블록 및 재구축된 잔차 블록에 기반하여 대상 블록에 대한 재구축된 블록을 생성할 수 있다. 재구축된 대상 프레임은 재구축된 블록을 포함할 수 있다.The processor 1710 may generate a reconstructed block for the target block based on the prediction block and the reconstructed residual block. The reconstructed target frame may include a reconstructed block.
단계(4460)는 도 32를 참조하여 전술된 단계(3250)에 대응할 수 있다.Step 4460 may correspond to step 3250 described above with reference to FIG. 32.
실시예는 도 2를 참조하여 전술된 복호화 장치(200)의 동작과 결합될 수 있다. 예를 들면, 단계(4410)의 동작들은 엔트로피 복호화부(210)에 의해 수행될 수 있다. 단계(4420), 단계(4430), 단계(4440) 및 단계(4450)의 동작들은 인터 예측부(250)에 의해 수행될 수 있다. 단계(4460)의 동작들은 가산기(255)에 의해 수행될 수 있다. 또한, 단계(4410), 단계(4420), 단계(4430), 단계(4440), 단계(4450) 및 단계(4460)의 이전, 이후 및 사이에 복호화 장치(200)의 다른 구성요소에서 이루어지는 동작이 수행될 수 있다.The embodiment may be combined with the operation of the decoding apparatus 200 described above with reference to FIG. 2. For example, operations of step 4410 may be performed by the entropy decoder 210. The operations of steps 4420, 4430, 4440, and 4450 may be performed by the inter prediction unit 250. Operations of step 4460 may be performed by adder 255. In addition, operations performed in other components of the decoding apparatus 200 before, after, and between steps 4410, 4440, 444, 444, 444, and 4460. This can be done.
상술한 실시예들에서, 방법들은 일련의 단계 또는 유닛으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.In the above-described embodiments, the methods are described based on a flowchart as a series of steps or units, but the present invention is not limited to the order of the steps, and any steps may occur in a different order or at the same time than the other steps described above. Can be. Also, one of ordinary skill in the art appreciates that the steps shown in the flowcharts are not exclusive, that other steps may be included, or that one or more steps in the flowcharts may be deleted without affecting the scope of the present invention. I can understand.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.Embodiments according to the present invention described above may be implemented in the form of program instructions that may be executed by various computer components, and may be recorded in a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the computer-readable recording medium may be those specially designed and configured for the present invention, or may be known and available to those skilled in the computer software arts.
컴퓨터 판독 가능한 기록 매체는 본 발명에 따른 실시예들에서 사용되는 정보를 포함할 수 있다. 예를 들면, 컴퓨터 판독 가능한 기록 매체는 비트스트림을 포함할 수 있고, 비트스트림은 본 발명에 따른 실시예들에서 설명된 정보를 포함할 수 있다.Computer-readable recording media may include information used in embodiments according to the present invention. For example, a computer readable recording medium may include a bitstream, and the bitstream may include information described in embodiments according to the present invention.
컴퓨터 판독 가능한 기록 매체는 비-일시적 컴퓨터 판독 가능한 매체(non-transitory computer-readable medium)를 포함할 수 있다.Computer-readable recording media can include non-transitory computer-readable medium.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, and magneto-optical media such as floptical disks. media), and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules to perform the process according to the invention, and vice versa.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.Although the present invention has been described by specific embodiments such as specific components and the like, but the embodiments and the drawings are provided to assist in a more general understanding of the present invention, the present invention is not limited to the above embodiments. For those skilled in the art, various modifications and variations can be made from these descriptions.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.Accordingly, the spirit of the present invention should not be limited to the above-described embodiments, and all of the equivalents or equivalents of the claims, as well as the appended claims, fall within the scope of the spirit of the present invention. I will say.
Claims (20)
상기 선택된 참조 프레임에 기반하여 가상 참조 프레임을 생성하는 단계; 및
상기 가상 참조 프레임에 기반하여 인터 예측을 수행하는 단계
를 포함하는, 복호화 방법.Selecting a reference frame;
Generating a virtual reference frame based on the selected reference frame; And
Performing inter prediction based on the virtual reference frame
It includes, the decoding method.
상기 선택된 참조 프레임은 복수인, 복호화 방법.The method of claim 1,
And the selected reference frame is plural.
상기 가상 참조 프레임은 딥 러닝 네트워크 구조에 기반하여 생성되는, 복호화 방법.The method of claim 1,
And the virtual reference frame is generated based on a deep learning network structure.
상기 가상 참조 프레임은 생성적 적대 네트워크(Generative Adversarial Network; GAN) 구조를 사용하여 생성되는, 복호화 방법.The method of claim 1,
And the virtual reference frame is generated using a Genetic Adversarial Network (GAN) structure.
상기 가상 참조 프레임은 적응적 콘볼루션 네트워크(Adaptive Convolution Network; ACN)를 사용하여 생성되는, 복호화 방법.The method of claim 1,
And the virtual reference frame is generated using an Adaptive Convolution Network (ACN).
상기 가상 참조 프레임은 네트워크 구조들에 의해 예측된 프레임들을 사용하는 보간을 통해 생성되는, 복호화 방법.The method of claim 1,
Wherein the virtual reference frame is generated through interpolation using frames predicted by network structures.
상기 가상 참조 프레임은 상기 선택된 참조 프레임을 사용하는 비디오 보간에 기반하여 생성되는, 복호화 방법.The method of claim 1,
And the virtual reference frame is generated based on video interpolation using the selected reference frame.
상기 비디오 보간을 위해 옵티컬 플로우, ACN 또는 롱 쇼트 텀 메모리(Long Short Term Memory; LSTM)에 의한 비디오 예측이 사용되는, 복호화 방법.The method of claim 7, wherein
And video prediction by optical flow, ACN or Long Short Term Memory (LSTM) is used for the video interpolation.
상기 가상 참조 프레임은 상기 선택된 참조 프레임을 사용하는 비디오 보외에 기반하여 생성되는, 복호화 방법.The method of claim 1,
And the virtual reference frame is generated based on video extrapolation using the selected reference frame.
상기 가상 참조 프레임에 기반하여 참조 픽처 리스트를 구성하는 단계
를 더 포함하는, 복호화 방법.The method of claim 1,
Constructing a reference picture list based on the virtual reference frame
Further comprising, the decoding method.
복호화된 픽처 버퍼(Decoded Picture Buffer; DPB) 내의 참조 프레임들 중 특정된 참조 프레임이 상기 가상 참조 프레임으로 대체되는, 복호화 방법.The method of claim 10,
A reference frame specified among reference frames in a decoded picture buffer (DPB) is replaced with the virtual reference frame.
상기 인터 예측의 인터 예측 모드는 향상된 움직임 벡터 예측(advanced motion vector prediction; AMVP) 모드인, 복호화 방법.The method of claim 1,
And the inter prediction mode of the inter prediction is an advanced motion vector prediction (AMVP) mode.
상기 인터 예측의 인터 예측 모드는 머지 모드 또는 스킵 모드인, 복호화 방법.The method of claim 1,
And the inter prediction mode of the inter prediction is a merge mode or a skip mode.
상기 선택된 참조 프레임은 참조 픽처 리스트에 포함된 참조 프레임들 중 역방향 또는 순방향으로 대상 프레임으로부터의 거리가 가장 가까운 참조 프레임인, 복호화 방법.The method of claim 1,
And the selected reference frame is a reference frame closest to the distance from the target frame in the reverse or forward direction among the reference frames included in the reference picture list.
양방향에서 하나씩의 참조 프레임이 선택되는 경우, 제1 차이 및 제2 차이는 동일하고,
상기 제1 차이는 역방향의 상기 선택된 참조 프레임의 픽처 오더 카운트(picture order count; POC) 및 대상 프레임의 POC 간의 차이이고,
상기 제2 차이는 상기 대상 프레임의 POC 및 순방향의 상기 선택된 참조 프레임의 POC 간의 차이인, 복호화 방법.The method of claim 1,
When one reference frame is selected in both directions, the first difference and the second difference are the same,
The first difference is a difference between a picture order count (POC) of the selected reference frame in a reverse direction and a POC of a target frame,
And the second difference is a difference between a POC of the target frame and a POC of the selected reference frame in the forward direction.
상기 선택된 참조 프레임은 복호화된 픽처 버퍼(Decoded Picture Buffer; DPB) 내의 참조 프레임들 중 가장 작은 양자화 파라미터(Quantization Parameter; QP)로 압축된 참조 프레임인, 복호화 방법.The method of claim 1,
Wherein the selected reference frame is a reference frame compressed with the smallest quantization parameter (QP) of reference frames in a decoded picture buffer (DPB).
상기 가상 참조 프레임의 생성을 위해 생성되는 상기 선택된 참조 프레임을 나타내는 참조 프레임 특정 정보가 특정된 단위에 대해 시그널링되는, 복호화 방법.The method of claim 1,
And reference frame specific information indicating the selected reference frame generated for generation of the virtual reference frame is signaled for the specified unit.
상기 참조 프레임은 상기 참조 프레임의 시간적 식별자에 기반하여 선택되는, 복호화 방법.The method of claim 1,
And the reference frame is selected based on a temporal identifier of the reference frame.
상기 선택된 참조 프레임에 기반하여 가상 참조 프레임을 생성하는 단계; 및
상기 가상 참조 프레임에 기반하여 인터 예측을 수행하는 단계
를 포함하는, 부호화 방법.Selecting a reference frame;
Generating a virtual reference frame based on the selected reference frame; And
Performing inter prediction based on the virtual reference frame
The encoding method comprising a.
상기 선택된 참조 프레임에 기반하여 가상 참조 프레임을 생성하는 단계; 및
상기 가상 참조 프레임에 기반하여 인터 예측을 수행하는 단계
를 포함하는, 인터 예측 방법.Selecting a reference frame;
Generating a virtual reference frame based on the selected reference frame; And
Performing inter prediction based on the virtual reference frame
Including, the inter prediction method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/374,601 US11019355B2 (en) | 2018-04-03 | 2019-04-03 | Inter-prediction method and apparatus using reference frame generated based on deep learning |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180038690 | 2018-04-03 | ||
KR20180038690 | 2018-04-03 | ||
KR1020180077841 | 2018-07-04 | ||
KR20180077841 | 2018-07-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190116067A true KR20190116067A (en) | 2019-10-14 |
Family
ID=68171787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190036606A KR20190116067A (en) | 2018-04-03 | 2019-03-29 | Method and apparatus for inter predection using reference frame generabed based on deep-learning |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190116067A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102245220B1 (en) * | 2020-11-09 | 2021-04-27 | 주식회사 엔닷라이트 | Apparatus for reconstructing 3d model from 2d images based on deep-learning and method thereof |
WO2022045738A1 (en) * | 2020-08-24 | 2022-03-03 | 현대자동차주식회사 | Deep learning-based image encoding and decoding using in-loop filter |
KR20220027435A (en) * | 2020-08-27 | 2022-03-08 | 한국전자기술연구원 | Method and apparatus for encoding and decoding |
WO2022065977A1 (en) * | 2020-09-28 | 2022-03-31 | 현대자동차주식회사 | Inter prediction method based on variable coefficient deep learning |
WO2023191599A1 (en) * | 2022-04-01 | 2023-10-05 | 주식회사 케이티 | Video signal encoding/decoding method, and recording medium for storing bitstream |
-
2019
- 2019-03-29 KR KR1020190036606A patent/KR20190116067A/en not_active Application Discontinuation
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022045738A1 (en) * | 2020-08-24 | 2022-03-03 | 현대자동차주식회사 | Deep learning-based image encoding and decoding using in-loop filter |
KR20220027435A (en) * | 2020-08-27 | 2022-03-08 | 한국전자기술연구원 | Method and apparatus for encoding and decoding |
WO2022065977A1 (en) * | 2020-09-28 | 2022-03-31 | 현대자동차주식회사 | Inter prediction method based on variable coefficient deep learning |
KR102245220B1 (en) * | 2020-11-09 | 2021-04-27 | 주식회사 엔닷라이트 | Apparatus for reconstructing 3d model from 2d images based on deep-learning and method thereof |
WO2022097932A1 (en) * | 2020-11-09 | 2022-05-12 | 주식회사 엔닷라이트 | Apparatus for reconstructing, based on deep learning, three-dimensional model from two-dimensional image and method therefor |
WO2023191599A1 (en) * | 2022-04-01 | 2023-10-05 | 주식회사 케이티 | Video signal encoding/decoding method, and recording medium for storing bitstream |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11019355B2 (en) | Inter-prediction method and apparatus using reference frame generated based on deep learning | |
US10841577B2 (en) | Method and apparatus for video encoding and video decoding based on neural network | |
KR102675048B1 (en) | Method and apparatus for encoding and decoding image using prediction network | |
KR102664440B1 (en) | Method and apparatus for bi-directional intra prediction | |
KR20190096281A (en) | Method and apparatus for video encoding and video decoding based on neural network | |
KR20190040476A (en) | Method and apparatus for using inter prediction information | |
KR20180107761A (en) | Method and apparatus for prediction using reference block | |
KR20190062273A (en) | Method and apparatus for image processing using image transform network and inverse transform neaural network | |
KR20180107762A (en) | Method and apparatus for prediction based on block shape | |
KR20190116067A (en) | Method and apparatus for inter predection using reference frame generabed based on deep-learning | |
KR102402539B1 (en) | Method and apparatus for bi-directional intra prediction | |
KR20190107581A (en) | Method and apparatus for derivation of intra prediction mode | |
KR20200050433A (en) | Method and apparatus for performing processing for image using neural network | |
KR20190091217A (en) | Method and apparatus for image encoding and image decoding based on temporal motion information | |
KR20210011898A (en) | Method, apparatus and recording medium for encoding/decoding image using geometric partitioning | |
KR102242675B1 (en) | Method and apparatus for quantization | |
KR20210076880A (en) | Method, apparatus and recording medium for image compression using classified image characteristic | |
KR20210070942A (en) | Method, apparatus and recording medium for region differential image encoding/decoding | |
KR20200056943A (en) | Method and apparatus for region differential image encoding/decoding | |
KR20240115193A (en) | Neural Network-based Image Encoding and Decoding | |
KR20230170597A (en) | Method and apparatus for encoding/decoding image and storage medium for storing bitstream | |
KR20240038636A (en) | Method, apparatus and recording medium for encoding/decoding image | |
KR20240107255A (en) | Method and Apparatus for Encoding/Decoding of Intra Prediction Mode | |
KR20240072956A (en) | Method and apparatus for encoding/decoding image and storage medium for storing bitstream | |
KR20220057437A (en) | Method, apparatus and recording medium for encoding/decoding image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |